CN104462301B

CN104462301B - 一种网络数据的处理方法和装置

Info

Publication number: CN104462301B
Application number: CN201410710566.3A
Authority: CN
Inventors: 昝艳
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2018-05-04
Anticipated expiration: 2034-11-28
Also published as: CN104462301A

Abstract

本发明公开了一种网络数据的处理方法和装置。其中方法包括：获取多个网络数据样本及各网络数据样本所属的类别；将属于第一类类别下同一类别的网络数据样本组合，得到属于第一类类别下各类别的组合网络数据样本；将属于第二类类别下同一类别的网络数据样本聚类，得到属于第二类类别下各类别的聚类；针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本；针对第二类类别下的各类别，从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本；利用属于各类别的网络数据样本进行网络数据分类器的训练。本发明可以得到更加准确的网络数据分类器，过程简单。

Description

一种网络数据的处理方法和装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种网络数据的处理方法和装置。

背景技术

数据分类是目前非常普遍的一项技术，对数据分类后可以更好地了解数据的特点。随着互联网的迅速发展，互联网上出现了大量的网络数据，对这些网络数据进行分类对于很多上层应用有很重要的作用，比如根据用户在互联网上访问时的网络数据对用户进行个性化的兴趣分类，等等。在目前的分类方法中，首先可以采集大量的网络数据样本，然后基于这些网络数据样本训练分类器，最后利用该分类器对网络数据进行分类。

但是，在互联网平台下，各个类别的网络数据样本的分布往往是不平衡的，如果直接采用分布不平衡的网络数据样本进行分类器的训练，将导致分类器性能降低，无法根据该分类器得出准确的分类结果。

目前对于不平衡数据样本的处理主要有以下两种方式：

一：重构数据样本

重构数据样本是指通过重采样的方法来实现样本均衡，具体分为过采样和欠采样两种策略。过采样是指通过某种方式生成新的少数类的样本以提高少数类的分类性能，目前的过采样方式通常是随机复制少数类样本或SMOTE(Synthetic Minority over-sampling Technique，基于过采样技术生成少数类样本)算法，其中，SMOTE算法是通过在少数类的k近邻样本间进行线性插值构造出新的人工少数类样本；欠采样技术是减少多数类的样本，目前的欠采样方式通常是随机地抽取部分多数类的样本删除。

重构数据样本的关键在于如何既能消除大量的噪音数据，减少冗余信息，又能保证最小的信息损失。过采样中简单的复制样本的方式，易导致出现大量重复样本，从而分类器学习出现过拟合现象，而SMOTE这种人工生成样本对数值数据有较好的适用范围，但是其主要是针对音频数据进行处理，而对于网络数据这种文本数据不能直接使用。而欠采样中随机的抽取的方式可能会丢失具有代表性的多数类样本，从而导致训练的分类器不准确。

二：改进分类算法

对分类算法的改进，主要是通过调节各类样本之间的代价函数、对于不同类别的样本设置不同的权值、改变概率密度、调整分类边界等措施使其更有利于少数类的分类。常见的有代价敏感学习，改进的支持向量机，单类学习分类等类型。

但是，上述类型的算法均是针对二分类的问题，而无法针对多分类的不平衡数据样本进行处理。

因此，目前的技术中基于分布不平衡的多分类网络数据样本无法训练得到准确的网络数据分类器，并且处理过程复杂。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络数据的处理方法和装置。

依据本发明的一个方面，提供了一种网络数据的处理方法，包括：

获取多个网络数据样本及各网络数据样本所属的类别；其中，所述类别预先被划分为第一类类别和第二类类别，属于所述第一类类别下各类别的网络数据样本数量小于属于所述第二类类别下各类别的网络数据样本数量；

将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本；

将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类；

针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本；

针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本；

利用属于各个类别的网络数据样本进行网络数据分类器的训练。

优选地，所述将属于第一类类别下同一个类别的网络数据样本进行组合的步骤包括：

逐次从属于第一类类别下同一个类别的网络数据样本中随机抽取至少两个网络数据样本进行组合，得到一个属于该类别的组合网络数据样本；

直至属于该类别的组合网络数据样本的总个数达到预设阈值时停止。

优选地，所述网络数据样本各自对应有来源；所述将属于第一类类别下同一个类别的网络数据样本进行组合的步骤包括：

逐次从属于第一类类别下同一个类别且来源不同的网络数据样本中随机抽取至少两个网络数据样本进行组合，得到一个属于该类别的组合网络数据样本；

优选地，所述网络数据样本包括中文网络数据样本，和/或，英文网络数据样本；

则所述将属于第二类类别下同一个类别的网络数据样本进行聚类的步骤包括：

将属于第二类类别下同一个类别的中文网络数据样本进行聚类；

和/或，

将属于第二类类别下同一个类别的英文网络数据样本进行聚类。

优选地，所述将属于第二类类别下同一个类别的中文网络数据样本进行聚类的步骤包括：

确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列；

将属于该类别的每个中文网络数据样本分别与所述至少一个最长公共子序列进行匹配；

将包括同一个最长公共子序列的中文网络数据样本作为一个聚类。

优选地，所述确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列的步骤包括：

确定属于第二类类别下同一个类别的每两个中文网络数据样本的最长公共子序列；

统计每个最长公共子序列出现的次数，并将所述最长公共子序列按照出现的次数降序排序；

从排序后的第一个最长公共子序列开始顺序提取至少一个最长公共子序列。

优选地，在所述确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列的步骤之前，还包括：

对属于第二类类别下同一个类别的每个中文网络数据样本进行分词；

则所述确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列的步骤包括：

确定属于第二类类别下同一个类别的、分词后的中文网络数据样本对应的至少一个最长公共子序列。

优选地，所述将属于第二类类别下同一个类别的英文网络数据样本进行聚类的步骤包括：

确定属于第二类类别下同一个类别的英文网络数据样本对应的至少一个最长公共子串；

将属于该类别的每个英文网络数据样本分别与所述至少一个最长公共子串进行匹配；

将包括同一个最长公共子串的英文网络数据样本作为一个聚类。

优选地，所述确定属于第二类类别下同一个类别的英文网络数据样本对应的至少一个最长公共子串的步骤包括：

确定属于第二类类别下同一个类别的每两个英文网络数据样本的最长公共子串；

统计每个最长公共子串出现的次数，并将所述最长公共子串按照出现的次数降序排序；

从排序后的第一个最长公共子串开始顺序提取至少一个最长公共子串。

优选地，所述分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本的步骤包括：

针对属于该类别的各个聚类，计算当前聚类的网络数据样本个数在属于该类别的网络数据样本总个数中所占的比例；

从当前聚类的网络数据样本中随机抽取所述比例的网络数据样本；

将从各个聚类中抽取的网络数据样本作为属于该类别的网络数据样本。

优选地，在所述利用属于各个类别的网络数据样本进行网络数据分类器的训练的步骤之后，还包括：

判断已训练的网络数据分类器的数量是否达到预设的目标数量；

若否，则返回所述针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本的步骤；

若是，则在接收到携带有待分类网络数据的分类请求后，利用各个已训练的网络数据分类器分别对所述待分类网络数据进行分类，得到各个已训练的网络数据分类器的分类结果；

将出现次数最多的分类结果作为所述待分类网络数据的分类结果。

根据本发明的另一方面，提供了一种网络数据的处理装置，包括：

获取模块，适于获取多个网络数据样本及各网络数据样本所属的类别；其中，所述类别预先被划分为第一类类别和第二类类别，属于所述第一类类别下各类别的网络数据样本数量小于属于所述第二类类别下各类别的网络数据样本数量；

组合模块，适于将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本；

聚类模块，适于将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类；

第一抽取模块，适于针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本；

第二抽取模块，适于针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本；

训练模块，适于利用属于各个类别的网络数据样本进行网络数据分类器的训练。

优选地，所述组合模块包括：

第一组合子模块，适于逐次从属于第一类类别下同一个类别的网络数据样本中随机抽取至少两个网络数据样本进行组合，得到一个属于该类别的组合网络数据样本；直至属于该类别的组合网络数据样本的总个数达到预设阈值时停止。

优选地，所述网络数据样本各自对应有来源；所述组合模块包括：

第二组合子模块，适于逐次从属于第一类类别下同一个类别且来源不同的网络数据样本中随机抽取至少两个网络数据样本进行组合，得到一个属于该类别的组合网络数据样本；直至属于该类别的组合网络数据样本的总个数达到预设阈值时停止。

则所述聚类模块包括：

中文聚类子模块，适于将属于第二类类别下同一个类别的中文网络数据样本进行聚类；

和/或，

英文聚类子模块，适于将属于第二类类别下同一个类别的英文网络数据样本进行聚类。

优选地，所述中文聚类子模块包括：

中文确定子单元，适于确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列；

中文匹配子单元，适于将属于该类别的每个中文网络数据样本分别与所述至少一个最长公共子序列进行匹配；

中文聚类子单元，适于将包括同一个最长公共子序列的中文网络数据样本作为一个聚类。

优选地，所述中文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个中文网络数据样本的最长公共子序列；统计每个最长公共子序列出现的次数，并将所述最长公共子序列按照出现的次数降序排序；从排序后的第一个最长公共子序列开始顺序提取至少一个最长公共子序列。

优选地，所述中文聚类子模块还包括：

分词子单元，适于在所述中文确定子单元确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列之前，对属于第二类类别下同一个类别的每个中文网络数据样本进行分词；

则所述中文确定子单元，具体适于确定属于第二类类别下同一个类别的、分词后的中文网络数据样本对应的至少一个最长公共子序列。

优选地，所述英文聚类子模块包括：

英文确定子单元，适于确定属于第二类类别下同一个类别的英文网络数据样本对应的至少一个最长公共子串；

英文匹配子单元，适于将属于该类别的每个英文网络数据样本分别与所述至少一个最长公共子串进行匹配；

英文聚类子单元，适于将包括同一个最长公共子串的英文网络数据样本作为一个聚类。

优选地，所述英文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个英文网络数据样本的最长公共子串；统计每个最长公共子串出现的次数，并将所述最长公共子串按照出现的次数降序排序；从排序后的第一个最长公共子串开始顺序提取至少一个最长公共子串。

优选地，所述第二抽取模块包括：

计算子模块，适于针对属于该类别的各个聚类，计算当前聚类的网络数据样本个数在属于该类别的网络数据样本总个数中所占的比例；

抽取子模块，适于从当前聚类的网络数据样本中随机抽取所述比例的网络数据样本，以及将从各个聚类中抽取的网络数据样本作为属于该类别的网络数据样本。

优选地，所述装置还包括：

判断模块，适于在所述训练模块利用属于各个类别的网络数据样本进行网络数据分类器的训练之后，判断已训练的网络数据分类器的数量是否达到预设的目标数量；在所述判断模块的判断结果为否时，调用所述第一抽取模块；

分类模块，适于在所述判断模块的判断结果为是时，在接收到携带有待分类网络数据的分类请求后，利用各个已训练的网络数据分类器分别对所述待分类网络数据进行分类，得到各个已训练的网络数据分类器的分类结果，以及将出现次数最多的分类结果作为所述待分类网络数据的分类结果。

根据本发明的网络数据的处理方案，首先，对于第一类类别(即网络数据样本数量少的类别)，将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本，对于第二类类别(即网络数据样本数量多的类别)，将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类；然后，针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本，针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本；最后，利用属于各个类别的网络数据样本进行网络数据分类器的训练。通过对第一类类别中的样本组合得到新样本，减少冗余信息，使得到的样本更加准确，通过对第二类类别中的样本进行聚类再抽取，避免了丢失具有代表性的样本，既能消除大量的噪音数据，又能保证最小的信息损失。因此，利用上述处理后的网络数据样本可以训练得到更加准确的网络数据分类器，并且过程简单，易于实现。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一中的一种网络数据的处理方法的步骤流程图；

图2示出了本发明实施例二中的一种网络数据的处理方法的步骤流程图；

图3示出了本发明实施例三中的一种网络数据的处理装置的结构框图；

图4示出了本发明实施例四中的一种网络数据的处理装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一：

参照图1，示出了本发明实施例一中的一种网络数据的处理方法的步骤流程图。在本实施例中，网络数据的处理方法可以包括以下步骤：

步骤100，获取多个网络数据样本及各网络数据样本所属的类别。

其中，每个网络数据样本对应一个类别，这些类别预先被划分为第一类类别和第二类类别，属于第一类类别下各类别的网络数据样本数量小于属于第二类类别下各类别的网络数据样本数量，即属于第一类类别下各类别的网络数据样本为少数类样本，即属于第二类类别下各类别的网络数据样本为多数类样本。

步骤102，将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本。

将属于第一类类别下同一个类别的网络数据样本进行组合后，即可针对属于第一类类别下的每个类别，得到该类别对应的组合网络数据样本。

步骤104，将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类。

将属于第二类类别下同一个类别的网络数据样本进行聚类后，即可针对属于第二类类别下的每个类别，得到该类别对应的聚类。

步骤106，针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本。

由于第一类类别下的各类别的网络样本的数量较少，因此需要增加第一类类别下各类别的网络数据样本的数量。本发明实施例中，即可针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本，即此时属于该类别的网络数据样本既包括原有属于该类别的网络数据样本和新增的属于该类别的网络数据样本。

步骤108，针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本。

由于第二类类别下的各类别的网络样本的数量较多，因此需要减少第二类类别下各类别的网络数据样本的数量。本发明实施例中，即可针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本，即其余未抽取的样本从该类别删除。

步骤110，利用属于各个类别的网络数据样本进行网络数据分类器的训练。

经过上述步骤之后，属于第一类类别下的各类别的网络数据样本的数量与属于第二类类别下的各类别的网络数据样本的数量相差很小，因此得到了分布平衡的多分类网络数据样本。最后再利用属于各个类别的网络数据样本进行网络数据分类器的训练，即可使得到的分类器的分类结果更加准确。

本发明实施例中，通过对第一类类别中的样本组合得到新样本，减少冗余信息，使得到的样本更加准确，通过对第二类类别中的样本进行聚类再抽取，避免了丢失具有代表性的样本，既能消除大量的噪音数据，又能保证最小的信息损失。因此，利用上述处理后的网络数据样本可以训练得到更加准确的网络数据分类器，并且过程简单，易于实现。

实施例二：

参照图2，示出了本发明实施例二中的一种网络数据的处理方法的步骤流程图。在本实施例中，网络数据的处理方法可以包括以下步骤：

步骤200，获取多个网络数据样本及各网络数据样本所属的类别。

本发明实施例中，获取的网络数据样本可以为网络日志，例如搜索日志、黄页的分类网址、UGC(User Generated Content，用户生成内容)标签、垂直行业的实体词等，这些网络数据的特点即为是文本(中文、英文等)形式的网络数据。

其中，各网络数据样本所属的类别预先被划分为第一类类别和第二类类别，属于第一类类别下各类别的网络数据样本数量小于属于第二类类别下各类别的网络数据样本数量。对于其中的第一类类别和第二类类别，可以设置一个数量阈值，网络数据样本数量小于该数量阈值的类别为第一类类别，网络数据样本数量大于或等于该数量阈值的类别为第二类类别。因此，为了使网络数据样本的分布能够更加平衡，需要增加属于第一类类别下各类别的网络数据样本数量，减少属于第二类类别下各类别的网络数据样本数量。

步骤202，将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本。

例如，第一类类别下的类别包括“旅游”、“游戏”两种类别，则分别将属于“旅游”类别的网络数据样本进行组合，得到属于“旅游”类别的组合网络数据样本；将属于“游戏”类别的网络数据样本进行组合，得到属于“游戏”类别的组合网络数据样本。

本发明实施例中，每个网络数据样本还各自对应有来源，例如属于“旅游”类别的网络数据样本，其来源可以是旅游网址、旅游网站上的行业词、SNS(Social Network Site，社交网站)上用户的旅游标签(如“驴友”、“骑行”)等。

在本发明的一种优选实施例中，该步骤202可以包括以下子步骤：

子步骤a1，逐次从属于第一类类别下同一个类别的网络数据样本中随机抽取至少两个网络数据样本进行组合，得到一个属于该类别的组合网络数据样本；

子步骤a2，直至属于该类别的组合网络数据样本的总个数达到预设阈值时停止。

本发明实施例中，为了降低运算量，可以预先设置一个阈值，即设置最终属于第一类类别下各类别的组合网络数据样本的数量为多少。当然，还可以不限定组合网络数据样本的总个数，即直至得到所有组合形式的组合网络数据样本为止，本发明实施例对此并不加以限制。

例如，针对“旅游”类别，逐次从属于“旅游”类别的网络数据样本中随机抽取至少两个网络数据样本进行组合，得到一个属于该“旅游”类别的组合网络数据样本，直至属于该“旅游”类别的组合网络数据样本的总个数达到预设阈值时停止。即如果预设阈值为3000个，则需要从属于“旅游”类别的网络数据样本中随机抽取并组合3000次，得到3000个属于该“旅游”类别的组合网络数据样本。

例如，从属于“旅游”类别的网络数据样本中随机抽取两个网络数据样本为“http://www.tuniu.com”和“http://www.lvmama.com”，则将其进行组合得到的一个属于该“旅游”类别的组合网络数据样本即为“http://www.tuniu.com\http://www.lvmama.com”。

上述子步骤a1～子步骤a2所示的方法中，并未限定网络数据样本的来源，即任意随机抽取，每次抽取过程中，可以随机抽取来源相同的至少两个的网络数据样本，也可以随机抽取来源不同的至少两个的网络数据样本，还可以随机抽取部分来源相同的网络数据样本和部分来源不同的网络数据样本，本发明实施例对此并不加以限制。

在本发明的另一种优选实施例中，该步骤202可以包括以下子步骤：

子步骤b1，逐次从属于第一类类别下同一个类别且来源不同的网络数据样本中随机抽取至少两个网络数据样本进行组合，得到一个属于该类别的组合网络数据样本；

子步骤b1，直至属于该类别的组合网络数据样本的总个数达到预设阈值时停止。

例如，针对“旅游”类别，逐次从属于“旅游”类别的网络数据样本中随机抽取至少两个来源不同的网络数据样本进行组合，得到一个属于该“旅游”类别的组合网络数据样本，直至属于该“旅游”类别的组合网络数据样本的总个数达到预设阈值时停止。

例如，从属于“旅游”类别的网络数据样本中随机抽取来源于旅游网址的网络数据样本“http://www.tuniu.com”和来源于SNS网站的网络数据样本“驴友”，则将其进行组合得到的一个属于该“旅游”类别的组合网络数据样本即为“http://www.lvmama.com\驴友”。

上述子步骤b1～子步骤b2所示的方法中，限定了每次从来源不同的网络数据样本中随机抽取，对来源进行限定可以使得到的组合网络数据样本更能够反映出该类别的网络数据样本的特点，并且还避免了由于某个来源的网络数据样本数量较少导致的抽取不均衡的问题。

需要说明的是，本发明实施例中每次可以随机抽取两个或两个以任意个数的网络数据样本进行组合，每次随机抽取的网络数据样本的个数可以相同也可以不同，可以按照任意形式组合抽取的网络数据样本，本发明实施例对此并不加以限制。

步骤204，将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类。

例如，第二类类别下的类别包括“购物”、“美食”两种类别，则分别将属于“购物”类别的网络数据样本进行聚类，得到属于“购物”类别的聚类；将属于“美食”类别的网络数据样本进行聚类，得到属于“美食”类别的聚类。

其中，网络数据样本可以仅包括中文网络数据样本，也可以仅包括英文网络数据样本，还可以既包括中文网络数据样本又包括英文网络数据样本。在本发明的一种优选实施例中，针对不同类型(中文、英文)的网络数据样本可以采用不同的方式进行聚类。因此，该步骤204可以包括以下子步骤：

子步骤c1，将属于第二类类别下同一个类别的中文网络数据样本进行聚类；

和/或，

子步骤c2，将属于第二类类别下同一个类别的英文网络数据样本进行聚类。

即当网络数据样本仅包括中文网络数据样本时，仅执行上述子步骤c1即可；当网络数据样本仅包括英文网络数据样本时，仅执行上述子步骤c2即可；当网络数据样本既包括中文网络数据样本又包括英文网络数据样本时，执行上述子步骤c1和子步骤c2，并且可以先执行子步骤c1再执行子步骤c2，也可以先执行子步骤c2再执行子步骤c1，还可以同时执行子步骤c1和子步骤c2，本发明实施例并不限制具体的执行顺序。

在本发明的一种优选实施例中，上述子步骤c1可以包括以下子步骤c11～子步骤c13：

子步骤c11，确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列；

本发明实施例中，该子步骤c11可以包括以下子步骤c111～子步骤c113：

子步骤c111，确定属于第二类类别下同一个类别的每两个中文网络数据样本的最长公共子序列；

子步骤c112，统计每个最长公共子序列出现的次数，并将所述最长公共子序列按照出现的次数降序排序；

子步骤c113，从排序后的第一个最长公共子序列开始顺序提取至少一个最长公共子序列。

其中，最长公共子序列的定义是：一个序列S，如果分别是两个或多个已知序列的子序列，且是所有符合此条件序列中最长的，则S称为已知序列的最长公共子序列。对于确定属于第二类类别下同一个类别的每两个中文网络数据样本的最长公共子序列的过程，本领域技术人员可以根据实际经验采用任意一种计算方法，本发明实施例对此并不加以限制。

例如，可以采用如下的动态规划方法：

假设两个中文网络数据样本分别为序列str1和序列str2，序列str1的长度为m，序列str2的长度为n；

创建1个二维数组L[m，n]，初始化L数组内容为0；

m和n分别从0开始，m++，n++循环：

如果str1[m]＝＝str2[n]，则L[m，n]＝L[m–1，n-1]+1；

如果str1[m]！＝str2[n]，则L[m，n]＝max{L[m，n-1]，L[m–1，n]}；

其中，二维数组L[m，n]中最大的数便是序列str1和序列str2的最长公共子序列的长度，依据该数组回溯，便可找出最长公共子序列。

由于上述子步骤c111中是针对每两个中文网络数据样本确定一个最长公共子序列，因此确定出的最长公共子序列的总个数为个，其中n为中文网络数据样本的总个数。每个最长公共子序列可能会出现多次，因此可以按照最长公共子序列出现的次数对其进行降序排序，并从其中提取出现次数多的最长公共子序列。对于提取的最长公共子序列的个数，本领域技术人员根据实际情况进行相关设置即可，本发明实施例对具体的数值并不加以限制。

子步骤c12，将属于该类别的每个中文网络数据样本分别与所述至少一个最长公共子序列进行匹配；

子步骤c13，将包括同一个最长公共子序列的中文网络数据样本作为一个聚类。

对于中文网络数据样本，基于最长公共子序列进行聚类后，最终得到的聚类的个数与确定出的最长公共子序列的个数相同。对于其中没有匹配上任何一个最长公共子序列的中文网络数据样本作为边界样本或噪音样本舍弃。

例如，对于属于第二类类别下“购物”类别的中文网络数据样本中，根据“淘宝网商城”和“淘宝商城天猫”这两个中文网络数据样本，使用最长公共子序列算法得到其最长公共子序列为“淘宝商城”；根据“淘宝网连衣裙”和“淘宝连衣裙雪纺”这两个中文网络数据样本，使用最长公共子序列算法得到其最长公共子序列为“淘宝连衣裙”；根据“淘宝网雪地靴”和“淘宝雪地靴黑色”这两个中文网络数据样本，使用最长公共子序列算法得到其最长公共子序列为“淘宝雪地靴”。如果确定出属于“购物”类别三个最长公共子序列分别为“淘宝商城”、“淘宝连衣裙”、“淘宝雪地靴”，则最终将包括“淘宝商城”的中文网络数据样本作为一个聚类，将包括“淘宝连衣裙”的中文网络数据样本作为一个聚类，将包括“淘宝雪地靴”的中文网络数据样本作为一个聚类。

在本发明的一种优选实施例中，还进一步考虑到中文特性，例如对于“北京有很多成都小吃店”和“成都的小吃特别好吃”这两个中文网络数据样本来说，如果直接求其最长公共子序列，则得到的为“成都小吃”，但其实第一个中文网络数据样本中的“成都小吃店”是指饭馆，而第二个中文网络数据样本中的“成都的小吃”是指小吃，类型不同。因此本发明实施例中还可以在上述子步骤c11之前执行以下子步骤：

子步骤c10，对属于第二类类别下同一个类别的每个中文网络数据样本进行分词。则上述子步骤c1即为确定属于第二类类别下同一个类别的、分词后的中文网络数据样本对应的至少一个最长公共子序列。

分词指的是将一个连续的汉字序列按照一定的规范重新组合成词序列的过程。对于上述对属于第二类类别下同一个类别的每个中文网络数据样本进行分词的具体过程，本领域技术人员可以根据实际经验采用任意一种分词方法，本发明实施例对此并不加以限制。例如，可以采用基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等方法。其中，基于字符串匹配的分词方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字序列与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。基于统计的分词方法可以首先获取大量已经分词的文本，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。

分词之后再进行聚类，可以使得到的聚类更加准确，获得更好的精度。例如，对于“北京有很多成都小吃店”和“成都的小吃特别好吃”这两个中文网络数据样本来说，如果分词之后再确定其最长公共子序列则结果为0，即不存在最长公共子序列。

在本发明的一种优选实施例中，上述子步骤c2可以包括以下子步骤c21～子步骤c23：

子步骤c21，确定属于第二类类别下同一个类别的英文网络数据样本对应的至少一个最长公共子串；

本发明实施例中，该子步骤c21可以包括以下子步骤c211～子步骤c213：

子步骤c211，确定属于第二类类别下同一个类别的每两个英文网络数据样本的最长公共子串；

子步骤c212，统计每个最长公共子串出现的次数，并将所述最长公共子串按照出现的次数降序排序；

子步骤c213，从排序后的第一个最长公共子串开始顺序提取至少一个最长公共子串。

最长公共子串和最长公共子序列的区别为：子串是串的一个连续的部分，子序列则是不改变序列的顺序，而从序列中去掉任意的元素而获得新的序列，也就是说，子串中字符的位置是连续的，子序列则可以不必连续。对于确定属于第二类类别下同一个类别的每两个英文网络数据样本的最长公共子串的过程，本领域技术人员可以根据实际经验采用任意一种计算方法，本发明实施例对此并不加以限制。例如，可以采用如下的动态规划方法：用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况，若是匹配则为1，否则为0；然后求出对角线最长的1序列，其对应的位置就是最长公共子串的位置。

由于上述子步骤c211中是针对每两个英文网络数据样本确定一个最长公共子串，因此确定出的最长公共子串的总个数为个，其中m为英文网络数据样本的总个数。每个最长公共子串可能会出现多次，因此可以按照最长公共子串出现的次数对其进行降序排序，并从其中提取出现次数多的最长公共子串。对于提取的最长公共子串的个数，本领域技术人员根据实际情况进行相关设置即可，本发明实施例对具体的数值并不加以限制。

子步骤c22，将属于该类别的每个英文网络数据样本分别与所述至少一个最长公共子串进行匹配；

子步骤c23，将包括同一个最长公共子串的英文网络数据样本作为一个聚类。

对于英文网络数据样本，基于最长公共子串进行聚类后，最终得到的聚类的个数与确定出的最长公共子串的个数相同。对于其中没有匹配上任何一个最长公共子串的英文网络数据样本作为边界样本或噪音样本舍弃。

需要说明的是，步骤202和步骤204并不限定于上述执行顺序，可以先执行步骤202再执行步骤204，也可以先执行步骤204再执行步骤202，还可以同时执行步骤202和步骤204。

步骤206，针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本。

本发明实施例中，可以预先设置训练网络数据分类器时所需的属于第一类类别下的各类别的网络样本的数量阈值，以保证第一类类别下的各类别的网络样本的数量和第二类类别下的各类别的网络样本的数量平衡。因此，该步骤206中针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本，以使原有的属于该类别的网络数据样本与新增的属于该类别的网络数据样本的总数量为该类别对应的数量阈值。

该步骤中的抽取可以为随机抽取，也可以为按照预设规则抽取，例如，如果属于该类别的组合网络数据样本为3000个，需要从其中抽取300个组合网络数据样本，则可以从每10个组合网络数据样本中随机抽取一个组合网络数据样本。本发明实施例对具体的抽取方式并不加以限制。

步骤208，针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本。

本发明实施例中，可以针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本，以保证第一类类别下的各类别的网络样本的数量和第二类类别下的各类别的网络样本的数量平衡。

在本发明的一种优选实施例中，该步骤208可以为分别从属于该类别的各个聚类中抽取部分网络数据样本，以使属于该类别的网络数据样本的总数量(即从各个聚类中抽取的部分网络数据样本的总数量)与上述步骤206中得出的属于第一类类别下各类别的网络数据样本的总数量的差值在预设范围内。

在本发明的另一种优选实施例中，该步骤208可以包括以下子步骤d1～子步骤d3：

子步骤d1，针对属于该类别的各个聚类，计算当前聚类的网络数据样本个数在属于该类别的网络数据样本总个数中所占的比例；

子步骤d2，从当前聚类的网络数据样本中随机抽取所述比例的网络数据样本；

子步骤d3，将从各个聚类中抽取的网络数据样本作为属于该类别的网络数据样本。

按照上述子步骤d1～子步骤d3抽取之后，还可以进一步比较属于第二类类别下的该类别的网络数据样本的总数量与上述步骤206中得出的属于第一类类别下各类别的网络数据样本的总数量的差值是否在预设范围内。若在预设范围内，则结束；若不在预设范围内，则在属于第二类类别下的该类别的网络数据样本的总数量多时，从抽取的网络数据样本中删除部分网络数据样本，在属于第二类类别下的该类别的网络数据样本的总数量少时，再次从各个聚类中抽取网络数据样本，最终使得属于第二类类别下的该类别的网络数据样本的总数量与上述步骤206中得出的属于第一类类别下各类别的网络数据样本的总数量的差值在预设范围内，或者还可以重新调整上述步骤204中的得到的聚类的个数，或者还可以先执行该步骤208再执行步骤206，即以步骤208得到的属于第二类类别下的各类别的网络数据样本的总数量为基准执行步骤206的抽取过程，等等，本发明实施例对此并不加以限制。

步骤210，利用属于各个类别的网络数据样本进行网络数据分类器的训练。

经过上述各步骤的处理后，第一类类别下的各类别的网络样本的数量和第二类类别下的各类别的网络样本的数量基本平衡，然后再利用属于各个类别的网络数据样本进行网络数据分类器的训练，因此可以保证在平衡数据的基础上驯良分类器，使训练得到的网络数据分类器的分类结果更加准确。

例如，网络数据样本中有游戏、购物、旅游、美食等10个类别。其中属于购物类别的网络数据样本占50％、属于游戏类别的网络数据样本占25％，属于旅游等其他类别的网络数据样本共占25％。因此可以将购物、游戏作为多数类(即第二类类别)，需要做欠抽样，将旅游等其他类别作为多数类(即第一类类别)，需要做过抽样。最终使得每个类别的网络数据样本的比例几乎相同，比如都在10％上下。

本发明实施例中，对于网络数据分类器的训练可以采用任意一种分类器的训练方式，例如采用朴素贝叶斯、决策树等方法进行训练，对于训练的具体过程，本领域技术人员根据实际经验进行相关处理即可，本发明实施例在此不再详细论述。

步骤212，判断已训练的网络数据分类器的数量是否达到预设的目标数量。若否，则返回步骤206；若是，则执行步骤214。

在本发明的一种优选实施例中，可以训练多个网络数据分类器，从而在后续对网络数据进行分类时，可以采用多个网络数据分类器分类，从而提高分类结果的准确性。

因此，在执行上述步骤210之后，还可以判断已训练的网络数据分类器的数量是否达到预设的目标数量，如果没有达到，则返回步骤206，即重新执行步骤206～步骤210，以训练一个新的网络数据分类器。

步骤214，在接收到携带有待分类网络数据的分类请求后，利用各个已训练的网络数据分类器分别对所述待分类网络数据进行分类，得到各个已训练的网络数据分类器的分类结果，将出现次数最多的分类结果作为所述待分类网络数据的分类结果。

如果在步骤212中判断出已训练的网络数据分类器的数量已达到预设的目标数量，则可以结束网络数据分类器的训练过程。

在接收到携带有待分类网络数据的分类请求后，可以利用各个已训练的网络数据分类器分别对所述待分类网络数据进行分类，得到各个已训练的网络数据分类器的分类结果，并且将出现次数最多的分类结果作为所述待分类网络数据的分类结果。

例如，可以使用上述网络数据分类器对网络用户进行个性化的兴趣分类，当接收到携带有待分类网络数据(比如用户输入的关键字、点击的URL(Uniform ResourceLocator，统一资源定位符)等)的分类请求后，如果训练了5个网络数据分类器，则对该待分类网络数据的分类结果分别为“购物”类、“旅游”类、“游戏”类、“游戏”类、“游戏”类，则可以确定分类结果为“游戏”类。

本发明实施例中，对于利用网络数据分类器分别对待分类网络数据进行分类的过程可以根据训练该网络数据分类器时所采用的训练方式选择对应的分类方式，对于分类的具体过程，本领域技术人员根据实际经验进行相关处理即可，本发明实施例在此不再详细论述。

本发明实施例中，利用处理后的网络数据样本可以训练得到更加准确的网络数据分类器，并且过程简单，易于实现。另外，训练多个网络数据分类器，通过多个网络数据分类器对待分类网络数据进行分类，可以获得更精准地分类结果，促进了上层应用的开发效率和准确性。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必需的。

实施例三：

参照图3，示出了本发明实施例三中的一种网络数据的处理装置的结构框图。在本实施例中，网络数据的处理装置可以包括以下模块：

获取模块300，适于获取多个网络数据样本及各网络数据样本所属的类别；其中，所述类别预先被划分为第一类类别和第二类类别，属于所述第一类类别下各类别的网络数据样本数量小于属于所述第二类类别下各类别的网络数据样本数量；

组合模块302，适于将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本；

聚类模块304，适于将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类；

第一抽取模块306，适于针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本；

第二抽取模块308，适于针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本；

训练模块310，适于利用属于各个类别的网络数据样本进行网络数据分类器的训练。

本发明实施例中，首先，对于第一类类别，将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本，对于第二类类别，将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类；然后，针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本，针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本；最后，利用属于各个类别的网络数据样本进行网络数据分类器的训练。通过对第一类类别中的样本组合得到新样本，减少冗余信息，使得到的样本更加准确，通过对第二类类别中的样本进行聚类再抽取，避免了丢失具有代表性的样本，既能消除大量的噪音数据，又能保证最小的信息损失。因此，利用上述处理后的网络数据样本可以训练得到更加准确的网络数据分类器，并且过程简单，易于实现。

实施例四：

参照图4，示出了本发明实施例四中的一种网络数据的处理装置的结构框图。在本实施例中，网络数据的处理装置可以包括以下模块：

获取模块400，适于获取多个网络数据样本及各网络数据样本所属的类别；其中，所述类别预先被划分为第一类类别和第二类类别，属于所述第一类类别下各类别的网络数据样本数量小于属于所述第二类类别下各类别的网络数据样本数量；

组合模块402，适于将属于第一类类别下同一个类别的网络数据样本进行组合，得到属于第一类类别下各类别的组合网络数据样本；

聚类模块404，适于将属于第二类类别下同一个类别的网络数据样本进行聚类，得到属于第二类类别下各类别的聚类；

第一抽取模块406，适于针对第一类类别下的各类别，从属于该类别的组合网络数据样本中抽取部分组合网络数据样本作为新增的属于该类别的网络数据样本；

第二抽取模块408，适于针对第二类类别下的各类别，分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本；

训练模块410，适于利用属于各个类别的网络数据样本进行网络数据分类器的训练；

判断模块412，适于在所述训练模块利用属于各个类别的网络数据样本进行网络数据分类器的训练之后，判断已训练的网络数据分类器的数量是否达到预设的目标数量；在所述判断模块的判断结果为否时，调用所述第一抽取模块；

分类模块414，适于在所述判断模块的判断结果为是时，在接收到携带有待分类网络数据的分类请求后，利用各个已训练的网络数据分类器分别对所述待分类网络数据进行分类，得到各个已训练的网络数据分类器的分类结果，以及将出现次数最多的分类结果作为所述待分类网络数据的分类结果。

在本发明的一种优选实施例中，组合模块可以包括：

在本发明的另一种优选实施例中，每个网络数据样本各自对应有来源。组合模块包括：

本发明实施例中，所述网络数据样本可以仅包括中文网络数据样本，也可以仅包括英文网络数据样本，还可以包括中文网络数据样本和英文网络数据样本。相应地，所述聚类模块可以仅包括中文聚类子模块，也可以仅包括英文聚类子模块，还可以包括中文聚类子模块和英文聚类子模块。

其中，中文聚类子模块，适于将属于第二类类别下同一个类别的中文网络数据样本进行聚类。

所述中文聚类子模块可以包括：

其中，所述中文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个中文网络数据样本的最长公共子序列；统计每个最长公共子序列出现的次数，并将所述最长公共子序列按照出现的次数降序排序；从排序后的第一个最长公共子序列开始顺序提取至少一个最长公共子序列。

本发明实施例中，中文聚类子模块还可以包括：

分词子单元，适于在所述中文确定子单元确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列之前，对属于第二类类别下同一个类别的每个中文网络数据样本进行分词；则所述中文确定子单元，具体适于确定属于第二类类别下同一个类别的、分词后的中文网络数据样本对应的至少一个最长公共子序列。

其中，英文聚类子模块，适于将属于第二类类别下同一个类别的英文网络数据样本进行聚类。

所述英文聚类子模块可以包括：

所述英文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个英文网络数据样本的最长公共子串；统计每个最长公共子串出现的次数，并将所述最长公共子串按照出现的次数降序排序；从排序后的第一个最长公共子串开始顺序提取至少一个最长公共子串。

本发明实施例中，第二抽取模块可以包括：

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网络数据的处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种网络数据的处理方法，其中，包括：

A2、如A1所述的方法，其中，所述将属于第一类类别下同一个类别的网络数据样本进行组合的步骤包括：

A3、如A1所述的方法，其中，所述网络数据样本各自对应有来源；所述将属于第一类类别下同一个类别的网络数据样本进行组合的步骤包括：

A4、如A1所述的方法，其中，所述网络数据样本包括中文网络数据样本，和/或，英文网络数据样本；

和/或，

A5、如A4所述的方法，其中，所述将属于第二类类别下同一个类别的中文网络数据样本进行聚类的步骤包括：

A6、如A5所述的方法，其中，所述确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列的步骤包括：

A7、如A5所述的方法，其中，在所述确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列的步骤之前，还包括：

A8、如A4所述的方法，其中，所述将属于第二类类别下同一个类别的英文网络数据样本进行聚类的步骤包括：

A9、如A8所述的方法，其中，所述确定属于第二类类别下同一个类别的英文网络数据样本对应的至少一个最长公共子串的步骤包括：

A10、如A1所述的方法，其中，所述分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本的步骤包括：

A11、如A1所述的方法，其中，在所述利用属于各个类别的网络数据样本进行网络数据分类器的训练的步骤之后，还包括：

B12、一种网络数据的处理装置，其中，包括：

B13、如B12所述的装置，其中，所述组合模块包括：

B14、如B12所述的装置，其中，所述网络数据样本各自对应有来源；所述组合模块包括：

B15、如B12所述的装置，其中，所述网络数据样本包括中文网络数据样本，和/或，英文网络数据样本；

则所述聚类模块包括：

和/或，

B16、如B15所述的装置，其中，所述中文聚类子模块包括：

B17、如B16所述的装置，其中，所述中文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个中文网络数据样本的最长公共子序列；统计每个最长公共子序列出现的次数，并将所述最长公共子序列按照出现的次数降序排序；从排序后的第一个最长公共子序列开始顺序提取至少一个最长公共子序列。

B18、如B16所述的装置，其中，所述中文聚类子模块还包括：

B19、如B15所述的装置，其中，所述英文聚类子模块包括：

B20、如B19所述的装置，其中，所述英文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个英文网络数据样本的最长公共子串；统计每个最长公共子串出现的次数，并将所述最长公共子串按照出现的次数降序排序；从排序后的第一个最长公共子串开始顺序提取至少一个最长公共子串。

B21、如B12所述的装置，其中，所述第二抽取模块包括：

B22、如B12所述的装置，其中，所述装置还包括：

Claims

1.一种网络数据的处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将属于第一类类别下同一个类别的网络数据样本进行组合的步骤包括：

3.如权利要求1所述的方法，其特征在于，所述网络数据样本各自对应有来源；所述将属于第一类类别下同一个类别的网络数据样本进行组合的步骤包括：

4.如权利要求1所述的方法，其特征在于，所述网络数据样本包括中文网络数据样本，和/或，英文网络数据样本；

和/或，

5.如权利要求4所述的方法，其特征在于，所述将属于第二类类别下同一个类别的中文网络数据样本进行聚类的步骤包括：

6.如权利要求5所述的方法，其特征在于，所述确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列的步骤包括：

7.如权利要求5所述的方法，其特征在于，在所述确定属于第二类类别下同一个类别的中文网络数据样本对应的至少一个最长公共子序列的步骤之前，还包括：

8.如权利要求4所述的方法，其特征在于，所述将属于第二类类别下同一个类别的英文网络数据样本进行聚类的步骤包括：

9.如权利要求8所述的方法，其特征在于，所述确定属于第二类类别下同一个类别的英文网络数据样本对应的至少一个最长公共子串的步骤包括：

10.如权利要求1所述的方法，其特征在于，所述分别从属于该类别的各个聚类中抽取部分网络数据样本作为属于该类别的网络数据样本的步骤包括：

11.如权利要求1所述的方法，其特征在于，

在所述利用属于各个类别的网络数据样本进行网络数据分类器的训练的步骤之后，还包括：

12.一种网络数据的处理装置，其特征在于，包括：

13.如权利要求12所述的装置，其特征在于，所述组合模块包括：

14.如权利要求12所述的装置，其特征在于，所述网络数据样本各自对应有来源；所述组合模块包括：

15.如权利要求12所述的装置，其特征在于，所述网络数据样本包括中文网络数据样本，和/或，英文网络数据样本；

则所述聚类模块包括：

和/或，

16.如权利要求15所述的装置，其特征在于，所述中文聚类子模块包括：

17.如权利要求16所述的装置，其特征在于，所述中文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个中文网络数据样本的最长公共子序列；统计每个最长公共子序列出现的次数，并将所述最长公共子序列按照出现的次数降序排序；从排序后的第一个最长公共子序列开始顺序提取至少一个最长公共子序列。

18.如权利要求16所述的装置，其特征在于，所述中文聚类子模块还包括：

19.如权利要求15所述的装置，其特征在于，所述英文聚类子模块包括：

20.如权利要求19所述的装置，其特征在于，所述英文确定子单元，具体适于确定属于第二类类别下同一个类别的每两个英文网络数据样本的最长公共子串；统计每个最长公共子串出现的次数，并将所述最长公共子串按照出现的次数降序排序；从排序后的第一个最长公共子串开始顺序提取至少一个最长公共子串。

21.如权利要求12所述的装置，其特征在于，所述第二抽取模块包括：

22.如权利要求12所述的装置，其特征在于，所述装置还包括：