CN108228656A - 基于cart决策树的url分类方法及装置 - Google Patents

基于cart决策树的url分类方法及装置 Download PDF

Info

Publication number
CN108228656A
CN108228656A CN201611195732.6A CN201611195732A CN108228656A CN 108228656 A CN108228656 A CN 108228656A CN 201611195732 A CN201611195732 A CN 201611195732A CN 108228656 A CN108228656 A CN 108228656A
Authority
CN
China
Prior art keywords
url
feature
decision trees
cart
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611195732.6A
Other languages
English (en)
Other versions
CN108228656B (zh
Inventor
李乃鹏
胡炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Putian Information Technology Co Ltd
Original Assignee
Putian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian Information Technology Co Ltd filed Critical Putian Information Technology Co Ltd
Priority to CN201611195732.6A priority Critical patent/CN108228656B/zh
Publication of CN108228656A publication Critical patent/CN108228656A/zh
Application granted granted Critical
Publication of CN108228656B publication Critical patent/CN108228656B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于CART决策树的URL分类方法及装置,其中,方法包括:根据统一资源定位符URL的预设特征以及各个预设特征的类别构建用于训练CART决策树的训练集;根据各预设特征对训练集的分类能力确定CART决策树的每一节点的特征;根据训练集和预设终止条件从CART决策树的根节点开始递归每一节点,以构建CART决策树;利用构建的CART决策树对爬虫系统爬取的URL的特征进行分类,以根据分类的结果对爬取的URL进行分类。本发明实现了将CART应用于爬虫系统中,可以将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,在节约资源的同时,也直接减少了后续的数据清洗工作。

Description

基于CART决策树的URL分类方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于CART决策树的URL分类方法及装置。
背景技术
目前,网络爬虫系统作为重要的网络数据采集工具已越来越多的被应用到各类环境中。然而运用这项技术的所有环境并不都是非常理想的,大部分的系统会面临带宽受限、爬虫结点数量有限等问题。因此,网络爬虫系统需要尽可能提高自身的采集效率以应对每天增长的海量互联网信息。
统一资源定位符(Uniform Resource Locator,URL)是网络爬虫或各种网络数据采集工具的重要组成部分。对于所有类型的爬虫,一旦爬虫开始工作,爬虫系统总是需要对新获得网页进行解析以找出适合下一跳爬取的URL,并将这些URL组成一个待爬取列表。而在实际的网页上,总是充斥着大量的各种各样的URL,这其中包括需要保存和爬取的网页,也包括大量的广告信息。而对于主题或深度等专用爬虫,还有许多主题不相关的网页。因此,爬虫系统总是需要对解析出来的URL进行适当的删减、去重甚至是分类等操作。
在分类问题中,决策树是一种常用的分类与回归方法。它可以认为是一系列if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其模型具有可读性,且分类速度快。图1示出了现有技术中的决策树及其与条件概率分布的示意图。其中,圆形表示内部结点,即数据特征;矩形表示叶结点,其中的k表示该叶结点所属的类。
综上,虽然所有的爬虫系统都有各自的URL去重以及防止URL重定向的机制,但是对于深度爬虫、主题爬虫或聚焦爬虫等专用爬虫而言,在爬取过程中面对的所有URL总是包括很大一部分主题不相关网页,生成的待爬取列表中属于有效的网页比例并不高。传统的做法通常需将网页下载下来,再进行主题相似度计算,进而决定是否保存相应的网页。虽然可以保证信息的完整性,但需要消耗大量的资源。而且,对于资源受限的爬虫系统而言,如需短时间内完成数据收集任务,则需要更好的爬取策略。
发明内容
针对现有网络爬虫系统爬取有效网页的比例低,且需消耗大量资源的缺陷,本发明提出如下技术方案:
一种基于CART决策树的URL分类方法,包括:
根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;
根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;
根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;
利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
可选地,所述URL的预设特征包括以下任意一项及其组合:
URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识,URL外链标识;
相应地,所述预设特征的类别包括以下任意一项及其组合:
表示优先爬取的A类、表示一般爬取的B类以及表示不建议爬取的C类。
可选地,所述根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征,包括:
根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。
可选地,所述预设终止条件包括:
节点的URL样本个数小于第一预设阈值;
样本集的基尼指数小于第二预设阈值,其中,所述样本集为所述训练集的一个子集。
可选地,所述方法还包括:
采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。
另一方面,本发明还提供了一种基于CART决策树的URL分类装置,包括:
训练集构建单元,用于根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;
节点确定单元,用于根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;
决策树构建单元,用于根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;
URL分类单元,用于利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
可选地,所述URL的预设特征包括以下任意一项及其组合:
URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识,URL外链标识;
相应地,所述预设特征的类别包括以下任意一项及其组合:
表示优先爬取的A类、表示一般爬取的B类以及表示不建议爬取的C类。
可选地,所述节点确定单元具体用于根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。
可选地,所述预设终止条件包括:
节点的URL样本个数小于第一预设阈值;
样本集的基尼指数小于第二预设阈值,其中,所述样本集为所述训练集的一个子集。
可选地,所述装置还包括:
剪枝单元,用于采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。
本发明的基于CART决策树的URL分类方法及装置,构建用于训练CART决策树的训练集,并确定所述CART决策树的每一节点的特征,再根据所述训练集和预设终止条件构建所述CART决策树,进而利用构建的所述CART决策树对爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类,实现了将CART应用于爬虫系统中,可以将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,在节约资源的同时,也直接减少了后续的数据清洗工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了现有技术中的决策树及其与条件概率分布的示意图;
图2为本发明一个实施例的基于CART决策树的URL分类方法的流程图;
图3为本发明一个实施例的基于CART决策树的URL分类装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图2为本发明一个实施例的基于CART决策树的URL分类方法的流程图;如图2所示,该方法包括:
S1:根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;
具体来说,为了训练所述分类决策树模型(即分类树的学习模型),需要构建一个URL训练集。
具体,所述URL训练集设为:
D={(x1,y1),(x2,y2),…,(xN,yN)}; (1)
其中,为URL样本的输入实例,即特征向量;也即表示一个URL样本具有n个特征;y∈{1,2,…,K}表示类标记,即设定的URL等级,本实施例中共有K个等级;i=1,2,…,N,N表示训练集的样本容量。
进一步地,作为本实施例的优选,所述特征可以包括但不限于以下任一项及其组合:
URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识,URL外链标识等n个特征。
在此基础上,URL分类可以包括但不限于以下任一项及其组合:
优先爬取(A类)、一般爬取(B类)、不建议爬取(C类)等K个类。
S2:根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;
具体来说,在训练决策树前需要进行特征选择。本实施例中,针对上述预设特征中的具有连续变量的特征,例如URL标题字符串等,可采用决策树模型对其进行特征离散化。
举例来说,首先为URL标题设置合适数量的类,并将所有URL标题分到对应的有限数量的类当中,则对应的类标记就是离散后的特征取值为:
β∈{β1,β2,…,β}; (2)
其中,H为设定的确定大小的类标记个数。
若假设为连续变量特征则处理后的样本为:
作为本实施例的优选,可以选取对所述训练集具有分类能力的特征来提高分类决策树的模型学习效率。
作为本实施例的一种可选的实施方式,可以将所有特征中基尼指数最小的特征作为对所述训练集具有分类能力的特征。
举例来说,对于给定的训练集D,其基尼指数定义为:
其中,Ck表示训练集D中属于第K个等级的样本子集;K表示在训练集D内设定的等级个数。
如果训练集D根据特征是否取某一值α被分成D1和D2两个部分,即
因此本实施例中,在给定任意一个特征的条件下,所述训练集D的基尼指数可以定义为:
进而,可以根据该基尼指数的大小,选择所述CART决策树中每一个结点的特征。
S3:根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;
具体来说,所述CART决策树模型训练的算法流程包括:
输入训练集D和停止条件,以输出所述分类决策树模型。
根据训练集,从根节点开始递归每一个结点,构造分类树,具体包括:
S31:从完整训练集D开始,拆分所有的连续变量样本特征,将所有离散化的特征代替原来的连续变量特征(为描述方便,此处继续用表示新样本特征;
S32:计算所有新样本特征对D的基尼指数,对每一个对其可能取得值α,根据样本点对进行判断,根据判断结果为“是”或“否”,将D分为D1和D2并利用公式(6)计算时的基尼指数;
S33:在所有可能的特征以及它们所有可能的切分点α中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点,并以该最优特征和最优切分点从当前结点生成两个子结点,以将训练集D中的样本分配到两个子结点中;
S34:对所述两个子结点递归调用步骤S32、S33直至满足预设停止条件;
S35:生成CART决策树。
进一步地,作为上述方法实施例的优选,所述算法的预设停止条件可以包含如下:
(1)结点的URL样本个数小于预定阈值;
(2)样本集的基尼指数小于预定阈值,即样本集内样本基本属于用一类。
S4:利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
本实施例的基于CART决策树的URL分类方法,通过构建用于训练CART决策树的训练集,并确定所述CART决策树的每一节点的特征,再根据所述训练集和预设终止条件构建所述CART决策树,进而利用构建的所述CART决策树对爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类,实现了将CART应用于爬虫系统中,可以将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,在节约资源的同时,也直接减少了后续的数据清洗工作。
进一步地,作为上述方法实施例的优选,所述方法还可以包括:
采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。
可以理解的是,对生成的分类决策树进行简化,也就是决策树的剪枝,可以有效防止过拟合。
具体地,本实施例可以采用现有的经典CART剪枝算法获得最优子树Tα,即从已生成的树上裁掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,所述的经典CART剪枝算法可以根据实际需要进行选取,本发明对此不进行限定。
由上述方案可知,本实施例可以实现将CART决策树应用于爬虫系统中,针对受限的爬虫系统可以对其在采集数据过程中生成待爬取URL列表进行优化,将其分类成多个不同优先级的列表;对从网页解析得到的URL中的具有连续变量的特征使用决策树进行离散化,并将离散化的URL特征作为新的样本特征作为分类决策树模型的训练集输入样本,即设原样本为则新的样本特征可以为
本实施例提出的基于CART决策树的URL分级方法,可以实现将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,这对于受限的爬虫系统来说是具有很大好处的。本实施例的方法对于被分类为低价值的网页,并不是不收集,而是选择晚采集甚至不采集信息等不同的采集策略,在节约资源的同时,也直接减少了后续的数据清洗工作。
图3为本发明一个实施例的基于CART决策树的URL分类装置的结构示意图,如图3所示,该装置包括:
训练集构建单元10,用于根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;
节点确定单元20,用于根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;
决策树构建单元30,用于根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;
URL分类单元40,用于利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
本实施例的基于CART决策树的URL分类装置,通过构建用于训练CART决策树的训练集,并确定所述CART决策树的每一节点的特征,再根据所述训练集和预设终止条件构建所述CART决策树,进而利用构建的所述CART决策树对爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类,实现了将CART应用于爬虫系统中,可以将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,在节约资源的同时,也直接减少了后续的数据清洗工作。
其中,作为上述装置实施例的优选,所述URL的预设特征包括以下任意一项及其组合:
URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识,URL外链标识;
相应地,所述预设特征的类别包括以下任意一项及其组合:
表示优先爬取的A类、表示一般爬取的B类以及表示不建议爬取的C类。
进一步地,作为上述装置实施例的优选,所述节点确定单元20还可以具体用于根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。
进一步地,作为上述装置实施例的优选,所述预设终止条件包括:
节点的URL样本个数小于第一预设阈值;或,
样本集的基尼指数小于第二预设阈值,其中,所述样本集为所述训练集的一个子集。
进一步地,作为上述装置实施例的优选,所述装置还包括:
剪枝单元,用于采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。
本实施例所述的装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
需要说明的是,对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于CART决策树的URL分类方法,其特征在于,包括:
根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;
根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;
根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;
利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
2.根据权利要求1所述的方法,其特征在于,所述URL的预设特征包括以下任意一项及其组合:
URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识,URL外链标识;
相应地,所述预设特征的类别包括以下任意一项及其组合:
表示优先爬取的A类、表示一般爬取的B类以及表示不建议爬取的C类。
3.根据权利要求1所述的方法,其特征在于,所述根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征,包括:
根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。
4.根据权利要求3所述的方法,其特征在于,所述预设终止条件包括:
节点的URL样本个数小于第一预设阈值;
样本集的基尼指数小于第二预设阈值,其中,所述样本集为所述训练集的一个子集。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。
6.一种基于CART决策树的URL分类装置,其特征在于,包括:
训练集构建单元,用于根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;
节点确定单元,用于根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;
决策树构建单元,用于根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;
URL分类单元,用于利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
7.根据权利要求6所述的装置,其特征在于,所述URL的预设特征包括以下任意一项及其组合:
URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识,URL外链标识;
相应地,所述预设特征的类别包括以下任意一项及其组合:
表示优先爬取的A类、表示一般爬取的B类以及表示不建议爬取的C类。
8.根据权利要求6所述的装置,其特征在于,所述节点确定单元具体用于根据各所述预设特征中基尼指数最小的特征确定所述CART决策树的每一节点的特征。
9.根据权利要求8所述的装置,其特征在于,所述预设终止条件包括:
节点的URL样本个数小于第一预设阈值;
样本集的基尼指数小于第二预设阈值,其中,所述样本集为所述训练集的一个子集。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
剪枝单元,用于采用预设CART剪枝算法对构建的所述CART决策树进行剪枝。
CN201611195732.6A 2016-12-21 2016-12-21 基于cart决策树的url分类方法及装置 Expired - Fee Related CN108228656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611195732.6A CN108228656B (zh) 2016-12-21 2016-12-21 基于cart决策树的url分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611195732.6A CN108228656B (zh) 2016-12-21 2016-12-21 基于cart决策树的url分类方法及装置

Publications (2)

Publication Number Publication Date
CN108228656A true CN108228656A (zh) 2018-06-29
CN108228656B CN108228656B (zh) 2021-05-25

Family

ID=62656866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611195732.6A Expired - Fee Related CN108228656B (zh) 2016-12-21 2016-12-21 基于cart决策树的url分类方法及装置

Country Status (1)

Country Link
CN (1) CN108228656B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134853A (zh) * 2019-05-13 2019-08-16 重庆八戒传媒有限公司 数据爬取方法及系统
CN110874680A (zh) * 2018-09-03 2020-03-10 普天信息技术有限公司 一种企业信息数据的采集与处理的方法和装置
CN113285845A (zh) * 2021-07-23 2021-08-20 灵长智能科技(杭州)有限公司 一种改进cart决策树生成的方法、系统和设备
CN114062880A (zh) * 2021-12-20 2022-02-18 西安交通大学 基于自适应信号处理及cart树集成学习的直流故障电弧检测方法
CN116599999A (zh) * 2023-07-18 2023-08-15 中移(苏州)软件技术有限公司 预测cdn用户的实时用量数据的方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101601A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中的基于链接层次分类的主题爬取方法
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
CN102663022A (zh) * 2012-03-21 2012-09-12 浙江盘石信息技术有限公司 一种基于url的分类识别方法
CN104331335A (zh) * 2014-11-20 2015-02-04 国家电网公司 门户网站的死链检查方法和装置
CN105117434A (zh) * 2015-08-07 2015-12-02 北京品友互动信息技术有限公司 一种网页分类方法和系统
CN105138558A (zh) * 2015-07-22 2015-12-09 山东大学 基于用户访问内容的实时个性化信息采集方法
US20160203224A1 (en) * 2015-01-09 2016-07-14 Lg Cns Co., Ltd. System for analyzing social media data and method of analyzing social media data using the same
CN105843965A (zh) * 2016-04-20 2016-08-10 广州精点计算机科技有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
CN101101601A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中的基于链接层次分类的主题爬取方法
CN102663022A (zh) * 2012-03-21 2012-09-12 浙江盘石信息技术有限公司 一种基于url的分类识别方法
CN104331335A (zh) * 2014-11-20 2015-02-04 国家电网公司 门户网站的死链检查方法和装置
US20160203224A1 (en) * 2015-01-09 2016-07-14 Lg Cns Co., Ltd. System for analyzing social media data and method of analyzing social media data using the same
CN105138558A (zh) * 2015-07-22 2015-12-09 山东大学 基于用户访问内容的实时个性化信息采集方法
CN105117434A (zh) * 2015-08-07 2015-12-02 北京品友互动信息技术有限公司 一种网页分类方法和系统
CN105843965A (zh) * 2016-04-20 2016-08-10 广州精点计算机科技有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢小宾: "《信息分析》", 29 February 2008, 科学技术文献出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874680A (zh) * 2018-09-03 2020-03-10 普天信息技术有限公司 一种企业信息数据的采集与处理的方法和装置
CN110134853A (zh) * 2019-05-13 2019-08-16 重庆八戒传媒有限公司 数据爬取方法及系统
CN113285845A (zh) * 2021-07-23 2021-08-20 灵长智能科技(杭州)有限公司 一种改进cart决策树生成的方法、系统和设备
CN114062880A (zh) * 2021-12-20 2022-02-18 西安交通大学 基于自适应信号处理及cart树集成学习的直流故障电弧检测方法
CN114062880B (zh) * 2021-12-20 2022-12-13 西安交通大学 基于自适应信号处理及cart树集成学习的直流故障电弧检测方法
CN116599999A (zh) * 2023-07-18 2023-08-15 中移(苏州)软件技术有限公司 预测cdn用户的实时用量数据的方法、装置及设备
CN116599999B (zh) * 2023-07-18 2023-10-10 中移(苏州)软件技术有限公司 预测cdn用户的实时用量数据的方法、装置及设备

Also Published As

Publication number Publication date
CN108228656B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN110717049B (zh) 一种面向文本数据的威胁情报知识图谱构建方法
CN108228656A (zh) 基于cart决策树的url分类方法及装置
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
Dong et al. Focused crawling for automatic service discovery, annotation, and classification in industrial digital ecosystems
CN108090070A (zh) 一种中文实体属性抽取方法
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN108182175B (zh) 一种文本质量指标获取方法及装置
CN106708952B (zh) 一种网页聚类方法及装置
CN102646095B (zh) 一种基于网页分类信息的对象分类方法和系统
CN109284385A (zh) 基于机器学习的文本分类方法及终端设备
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
CN110543595A (zh) 一种站内搜索系统及方法
CN106503047B (zh) 一种基于卷积神经网络的图像爬虫优化方法
CN110457579A (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN108229170A (zh) 利用大数据和神经网络的软件分析方法和装置
Prakash et al. Web crawling through shark-search using PageRank
CN109299443B (zh) 一种基于最小顶点覆盖的新闻文本去重方法
Pu et al. Syntactic rule based approach toweb service composition
CN111400617A (zh) 基于主动学习的社交机器人检测数据集扩展方法及系统
CN115952343A (zh) 一种基于多关系图卷积网络的社交机器人检测方法
Annam et al. Entropy based informative content density approach for efficient web content extraction
Guo Research on web data mining based on topic crawler
Suebchua et al. History-enhanced focused website segment crawler
CN109241124A (zh) 一种快速检索相似字符串的方法及系统
CN114117177A (zh) 一种基于TextCNN的主题爬虫方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210525

Termination date: 20211221