CN103885977A

CN103885977A - 一种网页数据的分类方法、装置和系统

Info

Publication number: CN103885977A
Application number: CN201210562402.1A
Authority: CN
Inventors: 蔡兵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2014-06-25
Anticipated expiration: 2032-12-21
Also published as: CN103885977B

Abstract

本发明实施例公开了一种网页数据的分类方法和装置。本发明实施例采用获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，然后根据该少量的聚类初始中心点对原始网页数据集合中的网页数据进行聚类，来生成大量的训练样本，最后根据这些训练样本生成分类树模型。由于该方案在生成分类树模型的过程中只需标注少量的种子数据（即聚类初始中心点），即可得到大量的训练样本，因此相对于现有技术中需要依赖大量标注数据而言，可以大大提高分类的效率，降低代价，而且可以快速灵活地支持新增的分类。

Description

一种网页数据的分类方法、装置和系统

技术领域

本发明涉及通信技术领域，具体涉及一种网页数据的分类方法、装置和系统。

背景技术

互联网的快速发展给人们的生活带来了极大的便利，但是网页数量的高速增长，以及用户原创内容（UGC，User Generated Content）的快速增长也带来了信息过载的问题，如何将这些网页数据有效地分门别类，以方便用户浏览，显得尤其重要。

以网页为例，通常可以根据网页的内容将网页分为科技、体育和娱乐等许多类别，而其中，体育又可以包括篮球和足球等类别，进一步的，篮球还可以分为NBA和CBA等类别，以此类推，因此，一个网页通常对应了多级类别，不同级对应不同的分类粒度，其中，分类粒度反映分类信息的详细程度。一般的，可以采用分类树来描述这一分类特点，所谓分裂树，指的是一种多级分类结构，每个结点代表一个类别，子结点则代表其子类别。现有技术主要是采用传统的分类方法，比如朴素贝叶斯、支撑向量机等来对分类树每一级的所有类别进行数据标注和模型生成。

在对现有技术的研究和实践过程中，本发明的发明人发现，当分类树过于庞大时，若采用现有技术的方案，则需要标注的训练样本数量将增长得非常快，而标注通常需要人工完成以保证网页数据的正确性，因此效率低下，代价巨大，而且对于新增分类的支持也不够敏捷。

发明内容

本发明实施例提供一种网页数据的分类方法、装置和系统，可以提高分类效率，降低代价，而且可以快速灵活地支持新增的分类。

一种网页数据的分类方法，包括：

获取分类树，针对所述分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点；

根据所述聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集；

根据所述训练样本集生成分类树模型。

例如，其中，根据所述聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集，可以包括：

计算每个类别对应的聚类初始中心点的均值，得到每个类别对应的第一聚类中心点；

计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离，并将所述网页数据划分到与其距离最近的第一聚类中心点的网页数据集合中；

在所述第一聚类中心点的网页数据集合中选择与第一聚类中心点距离小于等于预置阈值的网页数据，得到第一网页数据集合；

对所述第一网页数据集合中的网页数据进行距离加权运算，以生成第二聚类中心点；

确定第二聚类中心点是否等于第一聚类中心点；

若否，则将第二聚类中心点作为第一聚类中心点，并返回执行计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离，并将所述网页数据划分到与其距离最近的第一聚类中心点的网页数据集合中的步骤；

若是，则将第一网页数据集合作为训练样本集。

可选的，所述根据所述聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集之后，还可以包括：

对所述训练样本集进行筛选，得到筛选后的训练样本集；

则此时，所述根据所述训练样本集生成分类树模型具体可以为：根据筛选后的训练样本集生成分类树模型。

相应的，本发明实施例还提供一种网页数据分类装置，包括初始种子选择单元、聚类单元和模型生成单元；

初始种子选择单元，用于获取分类树，针对所述分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点；

聚类单元，用于根据所述聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集；

模型生成单元，用于根据所述训练样本集生成分类树模型。

例如，其中，所述聚类单元可以包括计算子单元、划分子单元、选择子单元、生成子单元和处理子单元；

计算子单元，用于计算每个类别对应的聚类初始中心点的均值，得到每个类别对应的第一聚类中心点；

划分子单元，用于计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离，并将所述网页数据划分到与其距离最近的第一聚类中心点的网页数据集合中；

选择子单元，用于在所述第一聚类中心点的网页数据集合中选择与第一聚类中心点距离小于等于预置阈值的网页数据，得到第一网页数据集合；

生成子单元，用于对所述第一网页数据集合中的网页数据进行距离加权运算，以生成第二聚类中心点；

处理子单元，用于确定第二聚类中心点是否等于第一聚类中心点；若否，则将第二聚类中心点作为第一聚类中心点，并触发划分子单元执行计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离，并将所述网页数据划分到与其距离最近的第一聚类中心点的网页数据集合中的步骤；若是，则将第一网页数据集合作为训练样本集。

可选的，所述网页数据分类装置还可以包括筛选单元；

筛选单元，用于对所述训练样本集进行筛选，得到筛选后的训练样本集；

则此时，所述模型生成单元，具体可以用于根据筛选后的训练样本集生成分类树模型。

相应的，本发明实施例还提供一种通信系统，包括本发明实施例提供的任一种网页数据分类装置。

本发明实施例采用获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，然后根据该少量的聚类初始中心点对原始网页数据集合中的网页数据进行聚类，来生成大量的训练样本，最后根据这些训练样本生成分类树模型。由于该方案在生成分类树模型的过程中只需标注少量的种子数据（即聚类初始中心点），即可得到大量的训练样本，因此相对于现有技术中需要依赖大量标注数据而言，可以大大提高分类的效率，降低代价，而且可以快速灵活地支持新增的分类。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网页数据的分类方法的流程图；

图2是本发明实施例提供的一种网页数据的分类方法的另一流程图；

图3a是本发明实施例提供的一种网页数据的分类方法的又一流程图；

图3b是一个简化的网页分类树的示意图；

图4是本发明实施例提供的网页数据分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种网页数据的分类方法、装置和系统。以下分别进行详细说明。

实施例一、

本发明实施例将从网页数据分类装置的角度进行描述，该网页数据分类装置具体可以为终端，比如手机、平板电脑或家庭计算机（PC，Personal Computer）等。

一种网页数据的分类方法，包括：获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，根据该聚类初始中心点对原始网页数据集合中的网页数据进行聚类，得到训练样本集，根据得到的训练样本集生成分类树模型。

如图1所示，具体流程如下：

101、获取分类树，针对该分类树中每个类别在原始网页数据集合选择n个网页数据，作为每个类别对应的聚类初始中心点，其中，聚类初始中心点也称为初始种子；

其中，n至少为一个，n的取值可以根据实际应用的需求进行设置，比如，可以为设置为1~5个，即具体可以针对分类树中每个类别在原始网页数据集合选择1至5个网页数据，作为每个类别对应的聚类初始中心点。

102、根据聚类初始中心点对原始网页数据集合中的网页数据进行聚类，得到训练样本集；

其中，聚类指的是将对象划分为多个组的过程，其中，每个组里的对象彼此相似，而每个组间的对象则彼此相异。

例如，具体可以如下：

（1）计算每个类别对应的聚类初始中心点的均值，得到每个类别对应的聚类中心点（中心点也可称为种子），为了描述方便，在本发明实施例中，将该聚类中心点称为第一聚类中心点。

比如，如果在步骤101中，针对分类树中某个类别A在原始网页数据集合中选择了两个网页数据，来作为该类别A对应的聚类初始中心点，即类别A对应两个聚类初始中心点，则此时，类别A的第一聚类中心点为这两个聚类初始中心点的均值。

又比如，如果在步骤101中，针对分类树中某个类别A在原始网页数据集合中选择了5个网页数据，来作为该类别A对应的聚类初始中心点，即类别A对应5个聚类初始中心点，则此时，类别A的第一聚类中心点为这5个聚类初始中心点的均值，以此类推，等等。

（2）计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离Di，并将该网页数据划分到与其距离Di最近的第一聚类中心点的网页数据集合中。

比如，如果原始网页数据集合为{d1，d2，d3，d4，d5},d1与类别A的第一聚类中心点的距离为D_1a，d1与类别B的第一聚类中心点的距离为D_1b，d1与类别B的第一聚类中心点的距离为D_1b；d2与类别A的第一聚类中心点的距离为D_2a，d1与类别B的第一聚类中心点的距离为D_2b；d3与类别A的第一聚类中心点的距离为D_3a，d1与类别B的第一聚类中心点的距离为D_3b；d4与类别A的第一聚类中心点的距离为D_4a，d1与类别B的第一聚类中心点的距离为D_4b；d5与类别A的第一聚类中心点的距离为D_5a，d1与类别B的第一聚类中心点的距离为D_5b；则，如果D_1a>D_1b，那么，可以将网页数据d1划分到类别A的网页数据集合中，反之，如果D_1a<D_1b，那么，可以将网页数据d1划分到类别B的网页数据集合中；同理，如果D_2a>D_2b，那么，可以将网页数据d2也划分到类别A的网页数据集合中，如果D_2a<D_2b，那么，可以将网页数据d2也划分到类别B的网页数据集合中，以此类推。也就是说，如果“D_1a>D_1b，D_2a>D_2b，D_3a<D_3b，D_4a>D_4b，D_5a<D_5b”，则类别A的网页数据集合为{d1，d2，d4}，类别B的网页数据集合为{d3，d5}，在此不再赘述。

（3）在第一聚类中心点的网页数据集合中选择与第一聚类中心点距离Di小于等于预置阈值的网页数据，得到第一网页数据集合。

其中，具体可以在第一聚类中心点的网页数据集合中直接选择距离Di小于等于预置阈值的网页数据，也可以对第一聚类中心点的网页数据集合中的网页数据先进行排序，然后再进行选择，如下：

例如，具体可以对第一聚类中心点的网页数据集合中的网页数据，按照与第一聚类中心点距离的大小从小到大进行排序，然后根据该排序舍弃距离大于预置阈值的网页数据，得到第一网页数据集合。

其中，预置阈值可以根据实际应用的需求进行设置。

比如，以类别A的网页数据集合为{d1，d2，d4}为例，如果按照与类别A的第一聚类中心点距离的大小从小到大进行排序为：“d1，d4，d2”，其中，网页数据d2与类别A的第一聚类中心点的距离大于预置阈值，则此时可以将网页数据d2舍弃，得到类别A的第一网页数据集合{d1，d4}。

又比如，以类别A的网页数据集合为{d1，d2，d4，d6，d7}为例，如果按照与类别A的第一聚类中心点距离的大小从小到大进行排序为：“d1，d4，d2，d6，d7”，其中，网页数据d2与类别A的第一聚类中心点的距离大于预置阈值，则此时可以将网页数据d2、d6和d7舍弃（因为“d6与第一聚类中心点的距离”，以及“d7与第一聚类中心点的距离”均大于“d2与第一聚类中心点的距离”，所以，当d2与类别A的第一聚类中心点的距离大于预置阈值时，“d6与第一聚类中心点的距离”和“d7与第一聚类中心点的距离”自然也大于预置阈值，所以此时可以无需对d6和d7进行判断，而是直接舍弃），得到类别A的第一网页数据集合{d1，d4}。

（4）对第一网页数据集合中的网页数据进行距离加权运算，以生成新的聚类中心点，为了描述方便，在本发明实施例中，将该新的聚类中心点称为第二聚类中心点；

其中，在进行距离加权运算时，可以采用如下距离加权公式：

P = Σ \frac{Di}{D} Vi

其中，P表示第二聚类中心点，Vi表示第i个网页数据，Di表示第i个网页数据距离第一聚类中心点的距离，D表示第一聚类中心点的网页数据集合里的所有距离Di之和。

其中，步骤（3）和（4）的执行主要是为了不让聚类中心点发生过大的偏移。

（5）确定第二聚类中心点是否等于第一聚类中心点；若否，则将第二聚类中心点作为第一聚类中心点，并返回执行“计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离Di，并将该网页数据划分到与其距离Di最近的第一聚类中心点的网页数据集合中”的步骤，即返回执行步骤（2）；若是，则将第一网页数据集合作为训练样本集。

也就是说，反复执行（2）和（3），直至聚类中心点不发生变化，即第二聚类中心点等于第一聚类中心点。

103、根据步骤102中得到的训练样本集生成分类树模型。

例如，具体可以根据该训练样本集，采用分类算法生成分类树模型。

由上可知，本实施例采用获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，然后根据该少量的聚类初始中心点对原始网页数据集合中的网页数据进行聚类，来生成大量的训练样本，最后根据这些训练样本生成分类树模型。由于该方案在生成分类树模型的过程中只需标注少量的种子数据（即聚类初始中心点），即可得到大量的训练样本，因此相对于现有技术中需要依赖大量标注数据而言，可以大大提高分类的效率，降低代价，而且可以快速灵活地支持新增的分类。

实施例二、

在实施例一的基础上，为了保证每个类别的训练样本数量均衡且具有代表性，在得到训练样本集之后，可以对训练样本集作进一步进行筛选，得到筛选后的训练样本集，然后才根据筛选后的训练样本集生成分类树模型。

即如图2所示，一种网页数据的分类方法，具体流程可以如下：

201、获取分类树，针对该分类树中每个类别在原始网页数据集合选择n个网页数据，作为每个类别对应的聚类初始中心点；

202、根据聚类初始中心点对原始网页数据集合中的网页数据进行聚类，得到训练样本集；

例如，具体可以如下：

（1）计算每个类别对应的聚类初始中心点的均值，得到每个类别对应的第一聚类中心点。

（3）在第一聚类中心点的网页数据集合中选择与第一聚类中心点距离Di小于等于预置阈值的网页数据，得到第一网页数据集合；

其中，预置阈值可以根据实际应用的需求进行设置。

P = Σ \frac{Di}{D} Vi

203、对步骤202中得到的训练样本集进行筛选，得到筛选后的训练样本集；

由于在步骤202之后，每个第一聚类中心点的网页数据集合里都包含了数量不一的网页数据，所以，此时可以对这些网页数据集合里的网页数据进行筛选并随机抽样，以提高训练样本集的分类质量。

204、根据步骤203中得到的筛选后的训练样本集生成分类树模型。

其中，步骤201、202和204的具体执行可参见实施例一，在此不再赘述。

由上可知，本实施例采用获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，然后根据该少量的聚类初始中心点对原始网页数据集合中的网页数据进行聚类，来生成大量的训练样本，对这些训练样本进行进一步的筛选，以提高分类质量，最后根据这些帅选后的训练样本生成分类树模型。由于该方案在生成分类树模型的过程中只需标注少量的种子数据（即聚类初始中心点），即可得到大量的训练样本，因此相对于现有技术中需要依赖大量标注数据而言，可以大大提高分类的效率，降低代价，而且可以快速灵活地支持新增的分类。

实施例三、

根据实施例一和二所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以网页数据具体为网页，该网页数据分类装置具体为终端为例进行说明，需说明的是，也可以是其他类型的数据，其实现方法与此相同。

一种网页数据的分类方法，如图3a所示，具体流程可以如下：

301、终端获取网页分类树，针对该网页分类树中每个类别在原始网页集合选择1~5个网页，作为每个类别对应的聚类初始中心点。

例如，参见图3b，该图为一个简化的网页分类树的示意图，如图3b所示，类别“资讯”下可分为“体育”和“科技”，而体育又可分为“篮球”和“足球”，科技可分为“IT”和“互联网”，其中，“资讯”为第一级类别，“体育”和“科技”为第二级类别，“篮球”、“足球”、“IT”和“互联网”为第三级类别。

终端在获取了该网页分类树之后，可以分别针对“资讯”、“体育”、“科技”、“篮球”、“足球”、“IT”和“互联网”等类别，在原始网页集合中选择1~5个网页，作为各类别对应的聚类初始中心点，即：

在原始网页集合选择1~5个网页，作为“资讯”对应的聚类初始中心点；

在原始网页集合选择1~5个网页，作为“体育”对应的聚类初始中心点；

在原始网页集合选择1~5个网页，作为“科技”对应的聚类初始中心点；

在原始网页集合选择1~5个网页，作为“篮球”对应的聚类初始中心点；

在原始网页集合选择1~5个网页，作为“足球”对应的聚类初始中心点；

在原始网页集合选择1~5个网页，作为“IT”对应的聚类初始中心点；

在原始网页集合选择1~5个网页，作为“互联网”对应的聚类初始中心点。

302、终端计算每个类别对应的聚类初始中心点的均值，得到每个类别对应的第一聚类中心点。

比如，如果步骤301已经在原始网页集合选择5个网页，作为“体育”对应的聚类初始中心点，即有5个聚类初始中心点，则此时，可以计算这5个聚类初始中心点的均值，作为“体育”对应的第一聚类中心点；

又比如，如果步骤301已经在原始网页集合选择5个网页，作为“足球”对应的聚类初始中心点，即有3个聚类初始中心点，则此时，可以计算这3个聚类初始中心点的均值，作为“足球”对应的第一聚类中心点；

以此类推，可以分别得到每个类别对应的第一聚类中心点。

303、终端计算原始网页集合中每个网页到每个第一聚类中心点的距离Di，并将该网页划分到与其距离Di最近的第一聚类中心点的网页集合中。

比如，如果原始网页集合为{d1，d2，d3，d4，d5},d1与类别“足球”的第一聚类中心点的距离为D_1a，d1与类别“篮球”的第一聚类中心点的距离为D_1b，d1与类别“篮球”的第一聚类中心点的距离为D_1b；d2与类别“足球”的第一聚类中心点的距离为D_2a，d1与类别“篮球”的第一聚类中心点的距离为D_2b；d3与类别“足球”的第一聚类中心点的距离为D_3a，d1与类别“篮球”的第一聚类中心点的距离为D_3b；d4与类别“足球”的第一聚类中心点的距离为D_4a，d1与类别“篮球”的第一聚类中心点的距离为D_4b；d5与类别“足球”的第一聚类中心点的距离为D_5a，d1与类别“篮球”的第一聚类中心点的距离为D_5b；则，如果D_1a＞D_1b，那么，可以将网页d1划分到类别“足球”的网页集合中，反之，如果D_1a<D_1b，那么，可以将网页d1划分到类别“篮球”的网页集合中；同理，如果D_2a>D_2b，那么，可以将网页d2也划分到类别“足球”的网页集合中，如果D_2a<D_2b，那么，可以将网页d2也划分到类别“篮球”的网页集合中，以此类推。也就是说，如果“D_1a>D_1b，D_2a>D_2b，D_3a<D_3b，D_4a>D_4b，D_5a<D_5b”，则类别“足球”的网页集合为{d1，d2，d4}，类别“篮球”的网页集合为{d3，d5}，以此类推，在此不再赘述。

304、终端在第一聚类中心点的网页集合中选择与第一聚类中心点距离Di小于等于预置阈值的网页，得到第一网页集合；

其中，具体可以在第一聚类中心点的网页集合中直接选择距离Di小于等于预置阈值的网页，也可以对第一聚类中心点的网页集合中的网页先进行排序，然后再进行选择，如下：

例如，具体可以对第一聚类中心点的网页集合中的网页，按照与第一聚类中心点距离的大小从小到大进行排序，然后根据该排序舍弃距离大于预置阈值的网页，得到第一网页集合。

比如，以类别“足球”的网页集合为{d1，d2，d4}为例，如果按照与类别“足球”的第一聚类中心点距离的大小从小到大进行排序为：“d1，d4，d2”，其中，网页d2与类别“足球”的第一聚类中心点的距离大于预置阈值，则此时可以将网页d2舍弃，得到类别“足球”的第一网页集合{d1，d4}。

又比如，以类别“足球”的网页集合为{d1，d2，d4，d6，d7}为例，如果按照与类别“足球”的第一聚类中心点距离的大小从小到大进行排序为：“d1，d4，d2，d6，d7”，其中，网页d2与类别“足球”的第一聚类中心点的距离大于预置阈值，则此时可以将网页d2、d6和d7舍弃（因为“d6与第一聚类中心点的距离”，以及“d7与第一聚类中心点的距离”均大于“d2与第一聚类中心点的距离”，所以，当d2与类别“足球”的第一聚类中心点的距离大于预置阈值时，“d6与第一聚类中心点的距离”和“d7与第一聚类中心点的距离”自然也大于预置阈值，所以此时可以无需对d6和d7进行判断，而是直接舍弃），得到类别“足球”的第一网页集合{d1，d4}。

其中，预置阈值可以根据实际应用的需求进行设置。

305、终端对第一网页集合中的网页（即网页数据）进行距离加权运算，以生成新的聚类中心点，为了描述方便，在本发明实施例中，将该新的聚类中心点称为第二聚类中心点；

P = Σ \frac{Di}{D} Vi

其中，P表示第二聚类中心点，Vi表示第i个网页，Di表示第i个网页距离第一聚类中心点的距离，D表示第一聚类中心点的网页集合里的所有距离Di之和。

306、终端确定第二聚类中心点是否等于第一聚类中心点；若否，则将第二聚类中心点作为第一聚类中心点，并返回执行“计算原始网页集合中每个网页到每个第一聚类中心点的距离Di，并将该网页划分到与其距离Di最近的第一聚类中心点的网页集合中”的步骤，即返回执行步骤303；若是，则将第一网页集合作为训练样本集。

307、终端对步骤306中得到的训练样本集进行筛选，得到筛选后的训练样本集；

由于在步骤306之后，每个第一聚类中心点的网页集合里都包含了数量不一的网页，所以，此时可以对这些网页集合里的网页进行筛选并随机抽样，以提高训练样本集的分类质量。

308、终端根据步骤203中得到的筛选后的训练样本集生成分类树模型。

由上可知，本实施例采用获取网页分类树，针对该网页分类树中每个类别在原始网页集合选择1~5个网页，作为每个类别对应的聚类初始中心点，然后根据该少量的聚类初始中心点对原始网页集合中的网页进行聚类，来生成大量的训练样本，对这些训练样本进行进一步的筛选，以提高分类质量，最后根据这些帅选后的训练样本生成分类树模型。由于该方案在生成分类树模型的过程中只需标注少量的种子数据（即聚类初始中心点），即可得到大量的训练样本，因此相对于现有技术中需要依赖大量标注数据而言，可以大大提高分类的效率，降低代价，而且可以快速灵活地支持新增的分类。

实施例四、

为了更好地实施以上方法，本发明实施例还提供一种网页数据分类装置，如图4所示，该网页数据分类装置包括初始种子选择单元401、聚类单元402和模型生成单元403；

初始种子选择单元401，用于获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点；

其中，n至少为一个，n的取值可以根据实际应用的需求进行设置，比如，可以为设置为1~5个，即具体可以针对分类树中每个类别在原始网页数据集合选择1至5个网页数据，作为每个类别对应的聚类初始中心点，即：

初始种子选择单元401，具体可以用于针对所述分类树中每个类别在原始网页数据集合选择1至5个网页数据，作为每个类别对应的聚类初始中心点。

聚类单元402，用于根据聚类初始中心点对原始网页数据集合中的网页数据进行聚类，得到训练样本集；

模型生成单元403，用于根据训练样本集生成分类树模型。

例如，模型生成单元403，具体可以用于根据训练样本集，采用分类算法生成分类树模型。

其中，聚类单元402可以包括计算子单元、划分子单元、选择子单元、生成子单元和处理子单元；

计算子单元，可以用于计算每个类别对应的聚类初始中心点的均值，得到每个类别对应的第一聚类中心点；

比如，如果初始种子选择单元401针对分类树中某个类别A在原始网页数据集合中选择了两个网页数据，来作为该类别A对应的聚类初始中心点，即类别A对应两个聚类初始中心点，则此时，类别A的第一聚类中心点为这两个聚类初始中心点的均值。

又比如，如果初始种子选择单元401针对分类树中某个类别A在原始网页数据集合中选择了5个网页数据，来作为该类别A对应的聚类初始中心点，即类别A对应5个聚类初始中心点，则此时，类别A的第一聚类中心点为这5个聚类初始中心点的均值，以此类推，等等。

划分子单元，可以用于计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离，并将该网页数据划分到与其距离最近的第一聚类中心点的网页数据集合中；

选择子单元，可以用于在所述第一聚类中心点的网页数据集合中选择与第一聚类中心点距离小于等于预置阈值的网页数据，得到第一网页数据集合；

生成子单元，可以用于对第一网页数据集合中的网页数据进行距离加权运算，以生成第二聚类中心点；

P = Σ \frac{Di}{D} Vi

处理子单元，可以用于确定第二聚类中心点是否等于第一聚类中心点；若否，则将第二聚类中心点作为第一聚类中心点，并触发划分子单元执行计算原始网页数据集合中每个网页数据到每个第一聚类中心点的距离，并将所述网页数据划分到与其距离最近的第一聚类中心点的网页数据集合中的步骤；若是，则将第一网页数据集合作为训练样本集。

其中，选择子单元具体可以在第一聚类中心点的网页数据集合中直接选择距离Di小于等于预置阈值的网页数据，也可以对第一聚类中心点的网页数据集合中的网页数据先进行排序，然后再进行选择，即：

选择子单元，具体可以用于对第一聚类中心点的网页数据集合中的网页数据，按照与第一聚类中心点距离的大小从小到大进行排序，然后根据该排序舍弃距离大于预置阈值的网页数据，得到第一网页数据集合。

其中，预置阈值可以根据实际应用的需求进行设置。

此外，由于在得到训练样本集之后，每个第一聚类中心点的网页数据集合里都包含了数量不一的网页数据，所以，可选的，为了保证每个类别的训练样本数量均衡且具有代表性，以提高训练样本集的分类质量，在得到训练样本集之后，可以对训练样本集作进一步进行筛选，得到筛选后的训练样本集，然后才根据筛选后的训练样本集生成分类树模型，即该网页数据分类装置还可以包括筛选单元；

筛选单元，可以用于对训练样本集进行筛选，得到筛选后的训练样本集；

则此时，模型生成单元403，具体可以用于根据筛选后的训练样本集生成分类树模型。

具体实施时，以上各个单元可以作为同一实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

该网页数据分类装置具体可以为终端，比如手机、平板电脑或家庭计算机等。本发明实施例中的网页数据具体可以为网页或其他网页数据。

由上可知，本实施例的网页数据分类装置的初始种子选择单元401可以获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，然后由聚类单元402根据该少量的聚类初始中心点对原始网页数据集合中的网页数据进行聚类，来生成大量的训练样本，最后再由模型生成单元403根据这些训练样本生成分类树模型。由于该方案在生成分类树模型的过程中只需标注少量的种子数据（即聚类初始中心点），即可得到大量的训练样本，因此相对于现有技术中需要依赖大量标注数据而言，可以大大提高分类的效率，降低代价，而且可以快速灵活地支持新增的分类。

实施例五、

相应的，本发明实施例还提供一种通信系统，包括本发明实施例提供的任意一种网页数据分类装置，该网页数据分类装置具体可以参见实施例四。例如，具体可以如下：

网页数据分类装置，用于获取分类树，针对所述分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点；根据该聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集；根据该训练样本集生成分类树模型。

其中，根据该聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集，具体可以如下：

其中，预置阈值可以根据实际应用的需求进行设置。

P = Σ \frac{Di}{D} Vi

此外，由于在得到训练样本集之后，每个第一聚类中心点的网页数据集合里都包含了数量不一的网页数据，所以，可选的，为了保证每个类别的训练样本数量均衡且具有代表性，以提高训练样本集的分类质量，在得到训练样本集之后，可以对训练样本集作进一步进行筛选，得到筛选后的训练样本集，然后才根据筛选后的训练样本集生成分类树模型。即：

网页数据分类装置，还用于对训练样本集进行筛选，得到筛选后的训练样本集，根据筛选后的训练样本集生成分类树模型。

以上网页数据分类装置的具体实施可参见前面的实施例，在此不再赘述。

当然，该通信系统还可以包括网页数据库等其他模块，用于提供分类树和原始网页数据集合等网页数据给分数分类装置，在此不再赘述。

由上可知，本实施例的通信系统中的网页数据分类装置，采用获取分类树，针对该分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，然后根据该少量的聚类初始中心点对原始网页数据集合中的网页数据进行聚类，来生成大量的训练样本，对这些训练样本进行进一步的筛选，以提高分类质量，最后根据这些帅选后的训练样本生成分类树模型。由于该方案在生成分类树模型的过程中只需标注少量的种子数据（即聚类初始中心点），即可得到大量的训练样本，因此相对于现有技术中需要依赖大量标注数据而言，可以大大提高分类的效率，降低代价，而且可以快速灵活地支持新增的分类。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

以上对本发明实施例所提供的一种网页数据的分类方法、装置和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网页数据的分类方法，其特征在于，包括：

根据所述训练样本集生成分类树模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集，包括：

确定第二聚类中心点是否等于第一聚类中心点；

若是，则将第一网页数据集合作为训练样本集。

3.根据权利要求2所述的方法，其特征在于，所述在所述第一聚类中心点的网页数据集合中选择与第一聚类中心点距离小于等于预置阈值的网页数据，得到第一网页数据集合，包括：

对所述第一聚类中心点的网页数据集合中的网页数据，按照与第一聚类中心点距离的大小从小到大进行排序，根据所述排序舍弃所述距离大于预置阈值的网页数据，得到第一网页数据集合。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述聚类初始中心点对所述原始网页数据集合中的网页数据进行聚类，得到训练样本集之后，还包括：

对所述训练样本集进行筛选，得到筛选后的训练样本集；

则所述根据所述训练样本集生成分类树模型具体为：根据筛选后的训练样本集生成分类树模型。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述训练样本集生成分类树模型，包括：

根据所述训练样本集，采用分类算法生成分类树模型。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述针对所述分类树中每个类别在原始网页数据集合选择至少一个网页数据，作为每个类别对应的聚类初始中心点，包括：

针对所述分类树中每个类别在原始网页数据集合选择1至5个网页数据，作为每个类别对应的聚类初始中心点。

7.一种网页数据分类装置，其特征在于，包括：

模型生成单元，用于根据所述训练样本集生成分类树模型。

8.根据权利要求7所述的网页数据分类装置，其特征在于，所述聚类单元包括：

9.根据权利要求8所述的网页数据分类装置，其特征在于，

所述选择子单元，具体用于对所述第一聚类中心点的网页数据集合中的网页数据，按照与第一聚类中心点距离的大小从小到大进行排序，根据所述排序舍弃所述距离大于预置阈值的网页数据，得到第一网页数据集合。

10.根据权利要求7至9任一项所述的网页数据分类装置，其特征在于，还包括筛选单元；

则所述模型生成单元，具体用于根据筛选后的训练样本集生成分类树模型。

11.根据权利要求7至9任一项所述的网页数据分类装置，其特征在于，

所述模型生成单元，具体用于根据所述训练样本集，采用分类算法生成分类树模型。

12.根据权利要求7至9任一项所述的网页数据分类装置，其特征在于，

所述初始种子选择单元，具体用于针对所述分类树中每个类别在原始网页数据集合选择1至5个网页数据，作为每个类别对应的聚类初始中心点。

13.一种通信系统，其特征在于，包括权利要求7至12所述的任一种网页数据分类装置。