CN100461184C - 网络搜索中的基于链接层次分类的主题爬取方法 - Google Patents

网络搜索中的基于链接层次分类的主题爬取方法 Download PDF

Info

Publication number
CN100461184C
CN100461184C CNB2007101185912A CN200710118591A CN100461184C CN 100461184 C CN100461184 C CN 100461184C CN B2007101185912 A CNB2007101185912 A CN B2007101185912A CN 200710118591 A CN200710118591 A CN 200710118591A CN 100461184 C CN100461184 C CN 100461184C
Authority
CN
China
Prior art keywords
link
url
climb
webpage
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007101185912A
Other languages
English (en)
Other versions
CN101101601A (zh
Inventor
张铭
周毅
江云亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CNB2007101185912A priority Critical patent/CN100461184C/zh
Publication of CN101101601A publication Critical patent/CN101101601A/zh
Application granted granted Critical
Publication of CN100461184C publication Critical patent/CN100461184C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开一种网络搜索中的基于链接层次分类的主题爬取方法。该方法包括以下步骤:(1)构造训练集;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新的链接根据训练集分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的所有URL放入待爬队列中,跳到第(3)步,其它队列保持不变;(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。本发明能够有效利用锚文字和URL等有用信息分析链接的层次性,在深层次网页拓扑上展开分析和爬取。

Description

网络搜索中的基于链接层次分类的主题爬取方法
技术领域
本发明属于网络搜索技术领域,尤其涉及在互联网页上进行主题搜索的方法。
背景技术
Web信息分布的局部专题化是互联网信息所呈现的特征之一。但主题信息所占比例小、分散度高,传统的搜索策略由于缺乏有效的内容预分析和过滤,爬取的无关主题网页过多,成为限制爬虫效率的瓶颈。因此如何利用有限的带宽及存储容量,迅速而准确地爬取主题网页就成了近年来搜索引擎网页爬取所关心的问题。
目前,国内外在主题搜索领域展开了大量而深入的研究工作,基本思想和方法主要来源于Soumen Chakrabarti等于1999年构建的Focused Crawling系统【SoumenChakrabarti,Martin van den Berg,Byron Dom.Focused Crawling:a new approach totopic-specific Web resource discovery.In:Proceedings of the 8th World Wide WebConference.New York,NY,USA:Elsevier North-Holland,Inc.,1999.1623-1640】,该系统主要由三部分构成:①分类器,用于判定所爬取网页的相关性,以确定是否以此进行扩展;②提取器,在已爬取网页集中选取作为根结点的集成器网页(Hub Pages);③网络爬虫,在分类器和提取器的指导下按照优先级队列进行网页爬取。
相关的主题搜索的研究工作主要提供了一些具体的实现方法,能够支持滤取无关网页和爬取尽可能多相关主题网页的要求。2000年,Michelangelo Diligenti等人提出的基于上下文图的主题爬取器【Michelangelo Diligenti,Frans Coetzee,Steve Lawrence,Clyde Lee Giles and Marco Gori.Focused Crawling Using Context Graphs.Proceedings ofthe 26th International Conference on Very Large Data Bases.Cairo,Egypt,2000.】。该爬取器的思想是依据整个网页内容,将网页按照到主题网页距离划分成不同类别,对候选网页采用基于全部网页内容的朴素贝叶斯分类算法分到不同类别,优先爬取下预测离主题网页距离最近的网页中的所有链出URL。它的缺点如下:1.由于对整个网页内容进行分类,计算代价很大,而且由于互联网网页的不规范性,网页中存在大量噪音会干扰分类的准确性;2.它给予同一个网页中所有链出URL以相同的优先级,这是不合理的,客观上也导致实际爬取效果不佳。
这些方法大都采用文本分类方法(如KNN,朴素贝叶斯,SVM等方法),依赖整个网页内容进行判断,计算代价昂贵。另外这些方法都给予同一个网页中不同链接以相同的优先级,忽略了不同链接重要性差异,显然会影响爬取效果。之后也有研究更关注于锚文字(描述链出网页的一段文字)和URL进行主题爬取器设计,如Dou Shen等分别基于锚文字和网页内容采用SVM和朴素贝叶斯方法进行分类【Dou Shen,Jian-Tao Sun,Qiang Yang,Zheng Chen.A Comparison of Implicit and Explicit Links forWeb Page Classification.Proceedings of the 15th international conference on World WideWeb.Banff,Canada,2006.】,实验结果表明单纯对锚文字分类效果接近对目标网页的整个网页内容分类的效果。然而,目前利用锚文字和URL的方法并没有考虑深层的网页结构,仅仅通过与主题的相关程度确定优先级,实验也停留在小规模集合上,没有成熟的系统并缺乏大规模爬取的性能测试。
本发明利用了信息量浓缩的锚文字和URL文字,并基于网页拓扑结构确定优先级爬取,可以有效的避免上述缺点,提高爬取效率,并已经为背景系统提供了高效、稳定的爬取服务。
发明内容
网页中的锚文字和URL在很大程度上能描述指向网页的基本内容。所以,不同的链接(本发明所指的链接是锚文字和URL构成的一个整体,下同)在一定程度上指示了我们所要爬取主题网页的代价。就某一个特定主题而言,从一些链接出发只需要很少的链接跳转即可到达该主题网页,而对于其他一些链接需要较多次链接跳转才能到达。链接跳转次数越少,说明从这个链接出发越能尽快爬取到尽可能多的主题网页,即从这个链接出发爬取主题网页的代价越小。因此,如果可以准确预测从一个链接出发到达主题相关网页所经过的链接跳转次数,根据跳转次数的差异确定优先级,应能取得较好的爬取效率。
本发明的目的是提供一种新的基于链接层次分类的主题爬取方法。
本发明的技术方案如下:
一种基于链接层次分类的主题爬取方法,其总体结构如图1所示,包括以下步骤:
(1)构造训练集:选定一个相关主题的网站,爬取该网站下的所有网页并保留网页间的互连关系;标注该网站下的若干主题网页,从标注的该网站下的主题网页出发,根据不同链接(URL和相应锚文字合并构成的词串,下同)所属层次的不同将链接划分到不同类别,其中相同层次的链接归为一个类,由链接组成的若干类构成训练集;
(2)将种子网页加入待爬队列;
(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;
(4)对于每一个新的链接,根据训练集分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;
(5)按照顺序查看n个优先队列,取优先级最高的非空队列中的所有URL放入待爬队列中,跳到第(3)步;其它队列保持不变;
(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。
进一步,上述的基于链接层次分类的主题爬取方法,所述步骤(1)中还对训练集中所有链接进行如下预处理:去除URL和锚文字中的标点和停用词(包括对语义无贡献的词,如a,and,html,php,edu,www等),并对URL和锚文字中的剩余词语提取词干(stemming)。
进一步,上述的基于链接层次分类的主题爬取方法,所述步骤(4)中对新的链接进行分类以确定优先级的方法是:
首先对步骤(3)提取的每一个新的链接作如下预处理:去除URL和锚文字中的标点和停用词,并对URL和锚文字中的剩余词语提取词干;然后采用一元模型计算处理后的词串出现在训练集中各个类中的概率,以概率最大的类作为该链接的分类结果,将URL放入相应的优先队列中。
本发明的优点和积极效果;
本发明提出了一种基于链接层次分类的主题爬取方法。本发明能够有效地利用锚文字和URL等有用信息分析链接的层次性,在深层次网页拓扑上展开分析和爬取。本发明在多个主题相关的网站上实际爬取,测试了性能,表明本发明系统能够较为准确、高效地滤取无关网页,爬取主题信息含量较高的网页。
附图说明:
图1为本发明的结构示意图。
图2为本发明方法中的链接类别示意图。
图3为采用本发明方法与两种传统方法对WSU课程网页进行爬取的比较图。
图4为采用本发明方法与两种传统方法对MIT课程网页进行爬取的比较图。
图5为采用本发明方法与两种传统方法对Caltech课程网页进行爬取的比较图。
图6为本发明的程序流程图。
具体实施方式:
以下结合具体设施方式对本发明的方法进行详细的描述。在本实施方式中,相关的主题网页是大学网站上的课程网页。
详细的基于链接层次分类的主题爬取方法,其流程图如图6所示,具体如下:构造训练集
在本发明的方法中,训练集由链接组成的若干类构成。首先爬取2006年12月10日California Institute of Technology主页(www.caltech.edu)以下的所有网页并保留其结构,生成有向图PageGraph(V,E),v(v∈V)是图中的点,代表一个网页,e(e∈E)是图中的有向边,代表从一个网页到另一个网页的链接。之后手工标注了1543门课程相关网页,并设定9个类,这是一个经验值,可以根据不同的应用环境进行调整。如果存在从v1到课程网页v0的一条路径1:1=v1enen-1...e2e1v0,则说明从链接ei(i<10)出发,需要经过i次链接跳转才能到达课程网页,故链接ei被放入第i类。图2是一个简单示例,其中白圈代表非课程网页,黑圈代表课程网页,有向边即是从一个网页到另一个网页的链接,有向边上的数字代表该链接所属类别,其中一个链接可以同时属于零个或多个不同类别(简单起见,图2中只标出了类别号小于4的所有链接)。
在构造出训练集之后,需要对训练集作预处理:首先去除标点符号(如:“,”、“;”、“/”等),然后去除停用词(包括对语义无贡献的词,如a,and,html,php,edu,www等),并对英文词语提取词干(stemming)。具体的提取方法与【Speech andLanguage Processing.Jurafsky,D.& Martin,J.H.,Prentice Hall,2000】相同。
构造好训练集后,将种子网页加入待爬队列。爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接,并对链接进行分类。
分类器
分类器的设计目的是为了计算每个链接所属类别。本发明的方法采用一种新的分类方法。将训练集看成9个语料库,把新的链接作为一条语句,计算该语句在9个语料库中出现的概率,以出现概率最高的那个类作为链接的分类结果。具体的,分类过程包括下面两步:
1.语句预处理。首先去除标点符号(如:“,”、“;”、“/”等),然后去除停用词(包括对语义无贡献的词,如a,and,html,php,edu,www等),并对英文词语提取词干(stemming)。具体的提取方法与【Speech and Language Processing.Jurafsky,D.& Martin,J.H.,Prentice Hall,2000】相同。
2.对预处理后的词串采用一元模型计算词串出现在预处理后的语料库1-9的概率【Daniel Jurafsky,James H.Martin.Speech and Language Processing:An Introduction toNatural Language Processing,Computational Linguistics and Speech Recognition.UpperSaddle River,NJ:Prentice Hall,2000.】,以计算(1)式词串概率最大的类作为该链接的分类结果,将链接放入相应的优先队列中:
P ( L j | C i ) = &Pi; w k &Element; L j P ( w k | C i ) - - - ( 1 )
其中Lj代表预处理后的词串,wk代表经过预处理后出现在链接中的词,Ci代表预处理过的第i类构成的语料库,P(wk|Ci)代表wk在语料库i中的出现概率,具体计算如下。
如果wk在第i类中出现,则:
P ( w k | C i ) = n w k , i N i - - - ( 2 )
其中是wk在第i类中出现的频次,Ni代表预处理后第i类中总的词数。
如果wk不在第i类中出现,但是在其它类中出现,则需要对i类中wk的出现概率做出估计:
P ( w k | C i ) = &Sigma; i n w k , i &Sigma; i N i - - - ( 3 )
其中分母是所有类的总词数,分子代表所有类中出现wk的总频次,即认为wk在i类中出现概率为在任意语料库中随机出现的概率。
如果wk不在任何类中出现,则该词不影响类别判断,跳过该词。
爬取器和页面解析器
爬取器用来爬取网页中的链接,类似的方法在许多主题爬取器中都被采用,比如传统的基于广度优先的爬取器nutch【http://lucene.apache.org/nutch/】,它从起始URL出发,每次爬取完同一深度所有网页后再爬取下一深度网页,但是它不关注所爬网页是否主题相关。而本发明的爬取器按照队列序号从小到大检查优先队列(即优先级从高到低),如果高优先级队列不为空,则将其中的所有URL放入待爬队列,否则,继续检查较低优先级的队列。然后,爬取器爬取待爬队列中的URL。页面解析器用来解析网页中的链接,它从新爬取的网页中提取出锚文字和URL进行下一步分类,按照分类结果将新URL放入不同的队列,再开始新一轮的爬取。当所有队列均为空或到达指定循环次数时,主题爬取结束。
效果对比实验
在本具体实施方式中,爬取www.caltech.edu下的所有网页(约300,000个),再手工标出其中课程网页1543个,按照本发明的方法构造训练集,其训练集信息如表1所示:
表1:训练集信息
 
类号 链接数 链出网页数 锚文字实例
1 8000 1543 Courses
2 44227 2581 Undergraduate Students
3 110905 6536 Information Science and Technology
4 266290 18076 Research
5 377280 24300 Cosmic Secrets
6 551215 34967 Caltech Names Three New Trustees
7 619157 39738 contact us
8 672542 44076 History
9 696631 45386 Caltech Library News System
为了实际评测本发明的性能,分别爬取了Washington State University(WSU)、Massachusetts Institute of Technology(MIT)以及California Institute of Technology(Caltech)主页以下的若干网页(这三个网站的入口URL分别为www.wsu.edu、www.mit.edu以及www.caltech.edu)。作为对比,在采用本发明的同时还采用了其它两个爬取器进行对照实验:
(1)普通的广度优先爬取器Nutch【http://lucene.apache.org/nutch/】,该爬取器是一个被广泛应用的开放源代码的广度优先爬取器,能支持从若干个种子URL出发,以一定的爬取器设置爬取指定层数网页。
(2)自主实现的传统主题爬取器(实现思想见【Michelangelo Diligenti,Frans Coetzee,Steve Lawrence,Clyde Lee Giles and Marco Gori.Focused Crawling Using Context Graphs.Proceedings of the 26th International Conference on Very Large Data Bases.Cairo,Egypt,2000.】),该爬取器是一个普适的主题爬取器,被大量文献及工程采用。它依据整个网页内容,将网页按照到主题网页距离分类,对候选网页采用朴素贝叶斯分类算法分到不同类别,优先爬取下预测离主题网页距离最近的网页中的所有链出URL。
对主题爬取器评价可以通过记录网页的爬取时间,然后构造一个可信离线分类器来分类每段时间爬取下来的网页,计算这段时间主题网页占总爬取网页比例,进而评价主题爬取器的效果【Soumen Chakrabarti,Martin van den Berg,Byron Dom.FocusedCrawling:a new approach to topic-specific Web resource discovery.In:Proceedings of the8th World Wide Web Conference.New York,NY,USA:Elsevier North-Holland,Inc.,1999.1623-1640;Jun Li,Kazutaka Furuse,Kazunori Yamaguchi.Focused Crawling byExploiting Anchor Text Using Decision Tree.Proceedings of the 14th international WorldWild Web Conference.Chiba,Japan,2005.】。在本具体实施方式中采用的离线分类器是开源系统svm_light【http://svmlight.joachims.org/】,这是一个开源的支持向量机分类器,训练集为人工标注的3677门课程网页以及9555门非课程网页(美国、欧洲数十个大学的网页,与爬取器的训练集不同)。为了验证离线分类器的可信度,将训练集随机分成10个部分,以其中任何一个部分作为训练集,其它部分作为测试集,经过测试,SVM分类器的宏平均和微平均F1都在85%以上。图3至图5显示了采用这样的离线分类器评测主题爬取器的爬取进度和主题网页比例的效果,其中横坐标为一段时间爬取的总网页数,纵坐标为经SVM分类器分类后属于课程网页的比例。
从图中可以看到:本发明(图中为FusionCrawler)在爬取相同数目网页时得到的课程网页的比例要明显要高于其它两个爬取器,在爬取WSU课程时,本发明平均可以达到21%的课程数目,然而传统通用的主题爬取器仅有12%,广度优先的爬取器Nutch仅能达到7%,如图3所示。在爬取MIT课程时,本发明可以达到33%的课程网页比例,后两者分别是25%和15%,如图4所示。而在爬取Caltech课程时,三者的结果分别是40%,28%和22%。爬取MIT网页时,对于一开始的数百个网页传统主题爬取器性能最优,但由于它给予同一个网页中不同链接以相同的优先级,缺乏深层考虑,性能很快被本发明超越,如图5所示。
总体说来,本发明由于考虑了链接的层次性,相对于传统通的主题爬取器以及广度优先的爬取器Nutch效率更高。在爬取WSU课程网页时分别提高了77%和200%,在爬取Caltech课程网页时提高了43%和167%,而在爬取MIT课程时分别提高了32%和120%。爬取MIT时提高的效率不如前两者,主要原因是MIT课程网页深度比较浅(在www.mit.edu主页上就有一个拥有大量课程网页的链接OpenCourseWare),因此即使广度优先的爬取器也能在一开始就有较高的课程网页比例。
另一个实验爬取WSU的全部课程,并在其中标注了896个课程网页,采用与上节同样的方法构造另一个训练集。然后将两个训练集的锚文字和URL中的词采用信息增益(IG)的方法进行特征选取,并取出IG值较大的若干词(IG值与相应词在训练集中对分类帮助正相关【Yiming Yang,Jan O.Pedersen.A Comparative Study on FeatureSelection in Text Categorization.In:Proceedings of the 14th International Conference onMachine Learning.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1997,412-420.】)比较两个训练集中重叠词占所有词的比例。表2是分别取前50,100,200,500,1000,2000个词的比较结果:
表2:WSU与Caltech分别构造的训练集重叠性比较
 
按照特征选取排序 第1组 第2组 第3组 第4组
Top50 6% 20% 16% 4%
Top100 16% 20% 23% 11%
Top200 21% 24% 20.50% 17%
Top500 27.90% 34% 22% 14.60%
Top1000 28.90% 35.90% 27.70% 15.40%
Top2000 33.50% 41% 30.55% 19.85%
注:第1组:WSU锚文字vs.WSU URL
第2组:Caltech锚文字vs.Caltech URL
第3组:WSU锚文字vs.Caltech锚文字
第4组:WSU URL vs.Caltech URL
可以从中看出,由于网页语言的不规范性,使得不同大学对课程网页描述的锚文字、URL缺乏一个重叠度很高的交集。同一个大学网页的URL和锚文字重叠程度要高于不同大学之间,不同大学间网页的锚文字和锚文字所用的词重叠性要略高于URL和URL的重叠性。这是因为锚文字是对目标网页的语言描述,比URL这样的符号描述要更为规范。因此,采用一个大学的训练集爬取其它大学时候效果往往与预期存在差距。例如:对于爬取器训练集是Caltech网页的情形,图5爬取Caltech网页可以达到平均40%比例的课程网页,与此同时爬取另一个大学WSU网页仅能达到21%的比例。通过构造更加全面的训练集,本发明的效率应当会有更大的提高。

Claims (4)

1.网络搜索中的基于链接层次分类的主题爬取方法,其特征在于包括以下步骤:
(1)构造训练集:选定一个相关主题的网站,爬取该网站下的所有网页并保留网页间的互连关系;标注该网站下的若干主题网页,从标注的该网站下的主题网页出发,根据不同链接所属层次不同构造由链接组成的若干类构成的训练集,其中相同层次的链接归为一个类;
(2)将种子网页加入待爬队列;
(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;
(4)对于每一个新提取的链接,根据训练集进行分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;
(5)按照顺序查看优先队列,取优先级最高的非空队列中的URL放入待爬队列中,跳到第(3)步;其它队列保持不变;
(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。
2.如权利要求1所述的主题爬取方法,其特征在于所述步骤(1)中训练集中的链接还进行如下预处理:去除URL和锚文字中的标点和停用词,并对URL和锚文字中的剩余词语提取词干。
3.如权利要求2所述的主题爬取方法,其特征在于所述步骤(3)中提取的链接还进行如下预处理:去除URL和锚文字中的标点和停用词,并对URL和锚文字中的剩余词语提取词干。
4.如权利要求3所述的主题爬取方法,其特征在于所述步骤(4)中确定链接优先级的方法是:采用一元模型计算处理后的词串出现在训练集中各个类中的概率,以概率最大的类作为该链接的分类结果,将链接放入相应的优先队列中。
CNB2007101185912A 2007-07-10 2007-07-10 网络搜索中的基于链接层次分类的主题爬取方法 Expired - Fee Related CN100461184C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101185912A CN100461184C (zh) 2007-07-10 2007-07-10 网络搜索中的基于链接层次分类的主题爬取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101185912A CN100461184C (zh) 2007-07-10 2007-07-10 网络搜索中的基于链接层次分类的主题爬取方法

Publications (2)

Publication Number Publication Date
CN101101601A CN101101601A (zh) 2008-01-09
CN100461184C true CN100461184C (zh) 2009-02-11

Family

ID=39035875

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101185912A Expired - Fee Related CN100461184C (zh) 2007-07-10 2007-07-10 网络搜索中的基于链接层次分类的主题爬取方法

Country Status (1)

Country Link
CN (1) CN100461184C (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551800B (zh) * 2008-03-31 2012-02-15 富士通株式会社 标注信息生成装置、查询装置及共享系统
CN101340463B (zh) * 2008-08-22 2012-04-25 深圳市迅雷网络技术有限公司 一种确定网络资源类型的方法和装置
CN102087648B (zh) * 2009-12-03 2013-06-19 北京大学 一种新闻评论页面的爬取方法及系统
CN101826110B (zh) * 2010-04-13 2011-12-21 北京大学 一种BitTorrent种子文件爬取方法
CN101872357A (zh) * 2010-06-08 2010-10-27 浙江大学 基于稀疏隧道的主题网页爬取方法
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
CN102821088B (zh) * 2012-05-07 2015-12-16 北京京东世纪贸易有限公司 获取网络数据的系统和方法
CN103198228B (zh) * 2013-04-18 2016-02-24 清华大学 基于广义关系隐话题模型的关系网络链接预测方法
CN104980309B (zh) 2014-04-11 2018-04-20 北京奇安信科技有限公司 网站安全检测方法及装置
CN103984749B (zh) * 2014-05-27 2017-10-20 电子科技大学 一种基于链接分析的聚焦爬虫方法
CN104090931A (zh) * 2014-06-25 2014-10-08 华南理工大学 一种基于网页链接参数分析的信息预测采集方法
CN106503016B (zh) * 2015-09-07 2020-05-19 北京国双科技有限公司 抓取页面信息的方法及装置
CN106557334B (zh) * 2015-09-25 2020-02-07 北京国双科技有限公司 爬虫任务完成的判断方法和装置
CN105183919B (zh) * 2015-10-13 2018-10-12 郑州悉知信息科技股份有限公司 一种网站内链的部署方法及装置
CN107025235A (zh) * 2016-02-01 2017-08-08 北京国双科技有限公司 爬取网页的方法及装置
CN106055619A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 一种基于动态的网页抓取方法及装置
CN106126688B (zh) * 2016-06-29 2020-03-24 厦门趣处网络科技有限公司 基于web内容和结构挖掘的智能网络信息采集系统、方法
CN107784034B (zh) * 2016-08-31 2021-05-25 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN106384292A (zh) * 2016-09-14 2017-02-08 哈尔滨工业大学(威海) 社交网络用户关系采集系统及方法
CN106547824B (zh) * 2016-09-29 2019-11-15 北京奇艺世纪科技有限公司 一种爬取路径规划方法及装置
CN108228656B (zh) * 2016-12-21 2021-05-25 普天信息技术有限公司 基于cart决策树的url分类方法及装置
CN108694193A (zh) * 2017-04-07 2018-10-23 北京国双科技有限公司 网页类型的判断方法及装置
CN107145553A (zh) * 2017-04-28 2017-09-08 暴风集团股份有限公司 一种用于体育赛事的网络数据获取方法和系统
CN107908773A (zh) * 2017-11-30 2018-04-13 南京信息工程大学 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法
CN109949117B (zh) * 2017-12-21 2021-06-29 北京京东尚科信息技术有限公司 用于推送信息的方法和装置
CN108133027A (zh) * 2017-12-28 2018-06-08 中译语通科技(青岛)有限公司 一种基于网络爬虫的机器自动分类方法
CN108170843B (zh) * 2018-01-17 2019-07-12 百度在线网络技术(北京)有限公司 用于获取数据的方法和装置
CN109033078B (zh) * 2018-07-03 2019-10-25 龙马智芯(珠海横琴)科技有限公司 语句类别识别方法及装置、存储介质、处理器
CN112579853A (zh) * 2019-09-30 2021-03-30 顺丰科技有限公司 一种对爬取链接排序的方法、装置及存储介质
CN111444412B (zh) * 2020-04-03 2023-06-16 北京明朝万达科技股份有限公司 网络爬虫任务的调度方法及装置
CN113300888B (zh) * 2021-05-21 2022-07-22 刘超 一种yang模型浏览器及客户端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
CN1186737C (zh) * 2002-02-05 2005-01-26 国际商业机器公司 对尚未访问的网页进行基于路径的排队的方法和系统
US6988100B2 (en) * 2001-02-01 2006-01-17 International Business Machines Corporation Method and system for extending the performance of a web crawler
CN1851706A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体学习的智能主题式网络爬虫系统构建方法
US20070143263A1 (en) * 2005-12-21 2007-06-21 International Business Machines Corporation System and a method for focused re-crawling of Web sites

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6988100B2 (en) * 2001-02-01 2006-01-17 International Business Machines Corporation Method and system for extending the performance of a web crawler
CN1186737C (zh) * 2002-02-05 2005-01-26 国际商业机器公司 对尚未访问的网页进行基于路径的排队的方法和系统
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
US20070143263A1 (en) * 2005-12-21 2007-06-21 International Business Machines Corporation System and a method for focused re-crawling of Web sites
CN1851706A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体学习的智能主题式网络爬虫系统构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Method for Focused Crawling Using Combination ofLink Structure and Content Similarity. Mohsen Jamali et al.Proceeding of the 2006 IEEE/WIC/ACM International Conference. 2006 *
What's There and What's Not?ocused Crawling forMissingDocuments in Digital Libraries. Ziming Zhuang,Rohit Wagle,C.Lee Giles.IEEE. 2005 *

Also Published As

Publication number Publication date
CN101101601A (zh) 2008-01-09

Similar Documents

Publication Publication Date Title
CN100461184C (zh) 网络搜索中的基于链接层次分类的主题爬取方法
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN106095928B (zh) 一种事件类型识别方法及装置
CN100452054C (zh) 用于深层网页数据源集成的数据源发现方法
CN107239529A (zh) 一种基于深度学习的舆情热点类别划分方法
CN104239436A (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN106844424A (zh) 一种基于lda的文本分类方法
CN103412888B (zh) 一种兴趣点识别方法和装置
CN107832457A (zh) 基于TextRank算法的输变电设备缺陷词库建立方法及系统
CN101350011B (zh) 一种基于小样本集的搜索引擎作弊检测方法
CN106991160B (zh) 一种基于用户影响力以及内容的微博传播预测方法
CN101872347A (zh) 判断网页类型的方法和装置
CN105260356A (zh) 基于多任务学习的中文交互文本情感与话题识别方法
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
US20160321244A1 (en) Phrase pair collecting apparatus and computer program therefor
CN102708096A (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN102651003A (zh) 一种跨语言搜索的方法和装置
CN106156372A (zh) 一种互联网网站的分类方法及装置
CN105389505A (zh) 基于栈式稀疏自编码器的托攻击检测方法
CN111310476A (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN103823890A (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN103473231A (zh) 分类器构建方法和系统
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090211

Termination date: 20160710

CF01 Termination of patent right due to non-payment of annual fee