CN108228656B

CN108228656B - 基于cart决策树的url分类方法及装置

Info

Publication number: CN108228656B
Application number: CN201611195732.6A
Authority: CN
Inventors: 李乃鹏; 胡炜
Original assignee: Potevio Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2021-05-25
Anticipated expiration: 2036-12-21
Also published as: CN108228656A

Abstract

本发明涉及一种基于CART决策树的URL分类方法及装置，其中，方法包括：根据统一资源定位符URL的预设特征以及各个预设特征的类别构建用于训练CART决策树的训练集；根据各预设特征对训练集的分类能力确定CART决策树的每一节点的特征；根据训练集和预设终止条件从CART决策树的根节点开始递归每一节点，以构建CART决策树；利用构建的CART决策树对爬虫系统爬取的URL的特征进行分类，以根据分类的结果对爬取的URL进行分类。本发明实现了将CART应用于爬虫系统中，可以将网页解析得到的大量URL以主题相关度为主要特征进行分级，使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页，在节约资源的同时，也直接减少了后续的数据清洗工作。

Description

基于CART决策树的URL分类方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于CART决策树的URL分类方法及装置。

背景技术

目前，网络爬虫系统作为重要的网络数据采集工具已越来越多的被应用到各类环境中。然而运用这项技术的所有环境并不都是非常理想的，大部分的系统会面临带宽受限、爬虫结点数量有限等问题。因此，网络爬虫系统需要尽可能提高自身的采集效率以应对每天增长的海量互联网信息。

统一资源定位符(Uniform Resource Locator，URL)是网络爬虫或各种网络数据采集工具的重要组成部分。对于所有类型的爬虫，一旦爬虫开始工作，爬虫系统总是需要对新获得网页进行解析以找出适合下一跳爬取的URL，并将这些URL组成一个待爬取列表。而在实际的网页上，总是充斥着大量的各种各样的URL，这其中包括需要保存和爬取的网页，也包括大量的广告信息。而对于主题或深度等专用爬虫，还有许多主题不相关的网页。因此，爬虫系统总是需要对解析出来的URL进行适当的删减、去重甚至是分类等操作。

在分类问题中，决策树是一种常用的分类与回归方法。它可以认为是一系列if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布，其模型具有可读性，且分类速度快。图1示出了现有技术中的决策树及其与条件概率分布的示意图。其中，圆形表示内部结点，即数据特征；矩形表示叶结点，其中的k表示该叶结点所属的类。

综上，虽然所有的爬虫系统都有各自的URL去重以及防止URL重定向的机制，但是对于深度爬虫、主题爬虫或聚焦爬虫等专用爬虫而言，在爬取过程中面对的所有URL总是包括很大一部分主题不相关网页，生成的待爬取列表中属于有效的网页比例并不高。传统的做法通常需将网页下载下来，再进行主题相似度计算，进而决定是否保存相应的网页。虽然可以保证信息的完整性，但需要消耗大量的资源。而且，对于资源受限的爬虫系统而言，如需短时间内完成数据收集任务，则需要更好的爬取策略。

发明内容

针对现有网络爬虫系统爬取有效网页的比例低，且需消耗大量资源的缺陷，本发明提出如下技术方案：

一种基于CART决策树的URL分类方法，包括：

根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集；

根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征；

根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点，以构建所述CART决策树；

利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类。

可选地，所述URL的预设特征包括以下任意一项及其组合：

URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识，URL外链标识；

相应地，所述预设特征的类别包括以下任意一项及其组合：

表示优先爬取的A类、表示一般爬取的B类以及表示不建议爬取的C类。

可选地，所述根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征，包括：

根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。

可选地，所述预设终止条件包括：

节点的URL样本个数小于第一预设阈值；

样本集的基尼指数小于第二预设阈值，其中，所述样本集为所述训练集的一个子集。

可选地，所述方法还包括：

采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。

另一方面，本发明还提供了一种基于CART决策树的URL分类装置，包括：

训练集构建单元，用于根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集；

节点确定单元，用于根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征；

决策树构建单元，用于根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点，以构建所述CART决策树；

URL分类单元，用于利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类。

可选地，所述URL的预设特征包括以下任意一项及其组合：

相应地，所述预设特征的类别包括以下任意一项及其组合：

可选地，所述节点确定单元具体用于根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。

可选地，所述预设终止条件包括：

节点的URL样本个数小于第一预设阈值；

可选地，所述装置还包括：

剪枝单元，用于采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。

本发明的基于CART决策树的URL分类方法及装置，构建用于训练CART决策树的训练集，并确定所述CART决策树的每一节点的特征，再根据所述训练集和预设终止条件构建所述CART决策树，进而利用构建的所述CART决策树对爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类，实现了将CART应用于爬虫系统中，可以将网页解析得到的大量URL以主题相关度为主要特征进行分级，使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页，在节约资源的同时，也直接减少了后续的数据清洗工作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了现有技术中的决策树及其与条件概率分布的示意图；

图2为本发明一个实施例的基于CART决策树的URL分类方法的流程图；

图3为本发明一个实施例的基于CART决策树的URL分类装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2为本发明一个实施例的基于CART决策树的URL分类方法的流程图；如图2所示，该方法包括：

S1：根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集；

具体来说，为了训练所述分类决策树模型(即分类树的学习模型)，需要构建一个URL训练集。

具体，所述URL训练集设为：

D＝{(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N)}； (1)

其中，

为URL样本的输入实例，即特征向量；也即表示一个URL样本具有n个特征；y∈{1，2，…，K}表示类标记，即设定的URL等级，本实施例中共有K个等级；i＝1，2，…，N，N表示训练集的样本容量。

进一步地，作为本实施例的优选，所述特征可以包括但不限于以下任一项及其组合：

URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识，URL外链标识等n个特征。

在此基础上，URL分类可以包括但不限于以下任一项及其组合：

优先爬取(A类)、一般爬取(B类)、不建议爬取(C类)等K个类。

S2：根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征；

具体来说，在训练决策树前需要进行特征选择。本实施例中，针对上述预设特征中的具有连续变量的特征，例如URL标题字符串等，可采用决策树模型对其进行特征离散化。

举例来说，首先为URL标题设置合适数量的类，并将所有URL标题分到对应的有限数量的类当中，则对应的类标记就是离散后的特征取值为：

β∈{β₁，β₂，…,β_Ｈ｝； (2)

其中，H为设定的确定大小的类标记个数。

若假设

为连续变量特征则处理后的样本为：

作为本实施例的优选，可以选取对所述训练集具有分类能力的特征来提高分类决策树的模型学习效率。

作为本实施例的一种可选的实施方式，可以将所有特征中基尼指数最小的特征作为对所述训练集具有分类能力的特征。

举例来说，对于给定的训练集D，其基尼指数定义为：

其中，C_k表示训练集D中属于第K个等级的样本子集；K表示在训练集D内设定的等级个数。

如果训练集D根据特征

是否取某一值α被分成D₁和D₂两个部分，即

因此本实施例中，在给定任意一个特征

的条件下，所述训练集D的基尼指数可以定义为：

进而，可以根据该基尼指数的大小，选择所述CART决策树中每一个结点的特征。

S3：根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点，以构建所述CART决策树；

具体来说，所述CART决策树模型训练的算法流程包括：

输入训练集D和停止条件，以输出所述分类决策树模型。

根据训练集，从根节点开始递归每一个结点，构造分类树，具体包括：

S31：从完整训练集D开始，拆分所有的连续变量样本特征，将所有离散化的特征代替原来的连续变量特征(为描述方便，此处继续用

表示新样本特征；

S32：计算所有新样本特征对D的基尼指数，对每一个

对其可能取得值α，根据样本点对

进行判断，根据判断结果为“是”或“否”，将D分为D₁和D₂并利用公式(6)计算

时的基尼指数；

S33：在所有可能的特征

以及它们所有可能的切分点α中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点，并以该最优特征和最优切分点从当前结点生成两个子结点，以将训练集D中的样本分配到两个子结点中；

S34：对所述两个子结点递归调用步骤S32、S33直至满足预设停止条件；

S35：生成CART决策树。

进一步地，作为上述方法实施例的优选，所述算法的预设停止条件可以包含如下：

(1)结点的URL样本个数小于预定阈值；

(2)样本集的基尼指数小于预定阈值，即样本集内样本基本属于用一类。

S4：利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类。

本实施例的基于CART决策树的URL分类方法，通过构建用于训练CART决策树的训练集，并确定所述CART决策树的每一节点的特征，再根据所述训练集和预设终止条件构建所述CART决策树，进而利用构建的所述CART决策树对爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类，实现了将CART应用于爬虫系统中，可以将网页解析得到的大量URL以主题相关度为主要特征进行分级，使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页，在节约资源的同时，也直接减少了后续的数据清洗工作。

进一步地，作为上述方法实施例的优选，所述方法还可以包括：

采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。

可以理解的是，对生成的分类决策树进行简化，也就是决策树的剪枝，可以有效防止过拟合。

具体地，本实施例可以采用现有的经典CART剪枝算法获得最优子树T_α，即从已生成的树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，所述的经典CART剪枝算法可以根据实际需要进行选取，本发明对此不进行限定。

由上述方案可知，本实施例可以实现将CART决策树应用于爬虫系统中，针对受限的爬虫系统可以对其在采集数据过程中生成待爬取URL列表进行优化，将其分类成多个不同优先级的列表；对从网页解析得到的URL中的具有连续变量的特征使用决策树进行离散化，并将离散化的URL特征作为新的样本特征作为分类决策树模型的训练集输入样本，即设原样本为

则新的样本特征可以为

本实施例提出的基于CART决策树的URL分级方法，可以实现将网页解析得到的大量URL以主题相关度为主要特征进行分级，使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页，这对于受限的爬虫系统来说是具有很大好处的。本实施例的方法对于被分类为低价值的网页，并不是不收集，而是选择晚采集甚至不采集信息等不同的采集策略，在节约资源的同时，也直接减少了后续的数据清洗工作。

图3为本发明一个实施例的基于CART决策树的URL分类装置的结构示意图，如图3所示，该装置包括：

训练集构建单元10，用于根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集；

节点确定单元20，用于根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征；

决策树构建单元30，用于根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点，以构建所述CART决策树；

URL分类单元40，用于利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类。

本实施例的基于CART决策树的URL分类装置，通过构建用于训练CART决策树的训练集，并确定所述CART决策树的每一节点的特征，再根据所述训练集和预设终止条件构建所述CART决策树，进而利用构建的所述CART决策树对爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类，实现了将CART应用于爬虫系统中，可以将网页解析得到的大量URL以主题相关度为主要特征进行分级，使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页，在节约资源的同时，也直接减少了后续的数据清洗工作。

其中，作为上述装置实施例的优选，所述URL的预设特征包括以下任意一项及其组合：

相应地，所述预设特征的类别包括以下任意一项及其组合：

进一步地，作为上述装置实施例的优选，所述节点确定单元20还可以具体用于根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。

进一步地，作为上述装置实施例的优选，所述预设终止条件包括：

节点的URL样本个数小于第一预设阈值；或，

进一步地，作为上述装置实施例的优选，所述装置还包括：

本实施例所述的装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

需要说明的是，对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于CART决策树的URL分类方法，其特征在于，包括：

利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类；

所述根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征，包括：

根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征；

其中，所述URL的预设特征包括以下任意一项及其组合：

URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段、URL内链标识、URL外链标识；

相应地，所述预设特征的类别包括以下任意一项及其组合：

2.根据权利要求1所述的方法，其特征在于，所述预设终止条件包括：

节点的URL样本个数小于第一预设阈值；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。

4.一种基于CART决策树的URL分类装置，其特征在于，包括：

URL分类单元，用于利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类，以根据所述分类的结果对所述爬取的URL进行分类；

所述节点确定单元具体用于根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征；

其中，所述URL的预设特征包括以下任意一项及其组合：

相应地，所述预设特征的类别包括以下任意一项及其组合：

5.根据权利要求4所述的装置，其特征在于，所述预设终止条件包括：

节点的URL样本个数小于第一预设阈值；

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：