CN107908773A - 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法 - Google Patents

基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法 Download PDF

Info

Publication number
CN107908773A
CN107908773A CN201711241370.4A CN201711241370A CN107908773A CN 107908773 A CN107908773 A CN 107908773A CN 201711241370 A CN201711241370 A CN 201711241370A CN 107908773 A CN107908773 A CN 107908773A
Authority
CN
China
Prior art keywords
mrow
page
link
priority
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711241370.4A
Other languages
English (en)
Inventor
马廷淮
周宏豪
赵雨薇
荣欢
曹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201711241370.4A priority Critical patent/CN107908773A/zh
Publication of CN107908773A publication Critical patent/CN107908773A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法。聚焦网络爬虫的两个重要任务是:1.在网页上找到有关特定主题的文档;2.对这些网页进行分析并根据其与搜索主题的相关度进行排序。对于第一个任务,本发明提出了一种基于杜威十进制分类理论的算法来获取和分析页面中最有效的HTML结构元素,以及每个未访问链接的主题边界和锚文本。基于此,对未访问页面的主题的预测或发掘就可以获得较高准确率。此算法结合了基于链接和基于内容的方法。对于第二个任务,本发明制作“宝藏图”来实现对相关URL的优先级计算功能,借此做到优先处理那些可能存在更多与搜索目标相关的信息的未访问页面。本发明能充分挖掘网络中的有用信息,提高了聚焦爬虫的运行效率和爬取能力。

Description

基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法
技术领域
本发明属于数据挖掘领域,具体涉及的是基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法。
背景技术
迄今为止,Internet上可公开访问的网页进过统计已经超过了二十亿个,这种增长似乎并未平息。网络上的动态内容数量呈指数级增长,如新闻,社交网络和个人数据。人们希望快速获取他们想要的信息,不依靠搜索引擎是不可能的。这使网页搜索成为一项非常重要的任务。
各式各样的网络爬虫系统地从Internet上收集有关文档的信息,以创建其正在搜索的数据的索引,并通过后续的爬取来更新索引。爬虫的工作即列出包含与典型用户搜索请求主题相关的文档以及访问方式。传统的通用网络爬虫不易于扩展,它们不可被设置为针对特定主题建立准确的索引,并且在时间上落后于整个网络的更新。为了克服这些缺点,聚焦爬虫旨在依靠网络的链接结构,识别和收获与目标主题相关的页面,以提高爬虫在准确性,通用性和速度方面的性能。使用聚焦爬虫的重大益处在于使分散资源和存储索引成为可能性。
通常,目标主题由关键字、分类的标准词典或一组示例文档定义。聚焦网络爬虫的主要挑战是在实际抓取之前预测给定页面的相关性的能力。聚焦网络爬虫避免访问网络中的不相关区域,以使任务可管理。另外,一个聚焦网络爬虫也应该注意发现被不相关的网络区域分割的相关区域的能力,以实现理想的全覆盖。一个设计精良的网络爬虫应该能够尽可能长时间地保持在目标主题上,同时覆盖尽可能多的网页。
聚焦爬取中存在两个主要的开放性问题:
第一个问题是在实际尝试下载页面内容之前预测未访问页面的主题。作为爬虫的基本任务之一,使用特定的算法以尽可能高的精度进行预测。多数聚焦爬虫下载页面的全部内容并进行分析;而剩下的一些则只通过分析父页面中链接的锚文本来实现预测。在这两个极端之间选择一个折中的策略,本发明提出的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法,除了考虑锚文本之外,还考虑了父页面的几个HTML结构元素。这将有助于提高未访问链接的局部检测的准确性。
第二个问题是给链接分配稍后下载的优先级。优先级排序非常重要,因为一些看似不相关的页面实则包含有与目标主题相关的信息并且应该被访问,而过多的访问不相关网页则会徒增爬取单个主题的开销。为了解决这个矛盾的问题,本发明利用了一种名为宝藏图的新颖的树状数据结构。主要思想是将分数与其下载的页面中的每个未访问链接相关联。
本发明的主要目标之一是提高网页分类的准确性。应用杜威十进制分类系统(DDC)将页面文本分类为适当主题。本发明的另一个重要目标是在最短的时间内达到目标文件。这是通过找到宝藏图内最匹配的节点,然后计算到达这些节点所需的最短路径来实现的。
总的来说,由于更好地确定了主题边界,以及计算优先级,所需下载的文本文件数量大幅度减少,此方法有助于爬虫更准确、快速地更新索引。也更利于提高搜索引擎或爬虫程序的运行效果。
发明内容
本发明提出了一种基于杜威十进制分类理论的算法来获取和分析页面中最有效的HTML结构元素,以及每个未访问链接的主题边界和锚文本。基于此,对未访问页面的主题的预测或发掘就可以获得较高准确率。本发明提出“宝藏图”来实现对相关URL的优先级计算功能。基于此,更多有价值的网站被更快地发掘出来。本发明建立了一种基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统。
技术方案如下:
基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,包括以下步骤:
步骤1),抓取器组件从抓取队列中取出一个元素。最初,种子URL被放置在具有最高优先级的队列中;
步骤2),爬虫程序组件定位从步骤1)获取的Web文档,尝试下载页面的实际HTML数据,或以其他方式下载服务器的HTTP响应;
步骤3),对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中;
步骤4),将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题;
步骤5),如果被步骤4)视为主题,则页面的特定元素然后被发送到宝藏图进行特定的比较和计算。宝藏图数据用于确定页面中未访问链接的重要性。宝藏图将优先级分数与每个未访问链接相关联。即使脱离主题的URL也会被分配一个设定的最低值作为优先级;
步骤6),在步骤5)生成的宝藏图上有一个称为鹦鹉的观察组件,它定期更新宝藏图以便适应当前网络的实际结构,它通常也被称为“看门狗”;
步骤7),完成步骤5)所有分析后,相关性计算器将URL及其优先级分数插入到抓取队列中。抓取队列项的优先级得分循环递增,以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作,这种情况称为饥饿;
步骤8),完成步骤7)后,所分析网页的HTML数据与所有测量结果一起完全存储在存储库中;
步骤9),数据库检查器组件不断地在存储库上运行特定的检查,并更新步骤8)所得存储库的索引,其最终目标是使存储库保持最新。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤1)抓取器组件从抓取队列中取出一个元素。最初,种子URL被放置在具有最高优先级的队列中。优先级的高低决定了抓取的先后顺序,抓取器每次都从队列里抓取优先级最高的那个页面,使之进入步骤2),同时将它从抓取队列中删除。优先级用一个[0.01,1]的数字表示,数值越大则优先级越高,这个数字由后续的步骤4)和步骤5)进行计算得到。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤2)爬虫程序组件定位从步骤1)获取的Web文档,尝试下载页面的实际HTML数据,或以其他方式下载服务器的HTTP响应。本发明在下载页面文档数据时,不考虑图片、视频等元素,仅针对文本内容进行下载,并将文本内容分为两类:链接标题,指此页面所含URL中的文本内容;非链接正文,不属于页面所含URL的文本内容,可看作描述页面本身的正文。上述两类文本简称:链接和内容。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中。此步骤的充分性在于,响应队列包含文档或HTTP响应,以防由于链接暂时不可用或不新鲜而无法下载页面。此步骤的必要性在于,后续步骤5)和步骤6)对页面的分析均需使用页面具体内容,要进行分析首先就要保证页面可获取。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题。首先利用词干分析算法对文档进行规范化处理,接着使用杜威十进制分类系统对规范后的文档内容进行分析,预测出本页面的主题,并判断页面是否属于给定的目标主题。这一过程的核心公式为:
其中W反映主题集中程度的,在迭代过程中W取最大值的位置即被认为是本页面的核心主题。n表示符合杜威分类器选择框的页面文本元素的个数。di表示页面元素i对应的杜威十进制数值。length(di)表示杜威十进制数的位数,分类器选择框的大小取决于目标主题的位数,如果目标主题越具体则选择框越小,相应页面主题W符合目标主题的概率也越小。anchor_impact(di)表示步骤2)所述链接与内容的权重区别,anchor_text表示是否为链接。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤5)如果被步骤4)视为主题,则页面的特定元素会被发送到宝藏图进行特定的比较和计算。宝藏图数据用于确定页面中未访问链接的重要性。宝藏图将优先级分数与每个未访问链接相关联。即使脱离主题的URL也会被分配一个设定的最低值(0.01)作为优先级,这有助于爬虫收集非关联主题区域里的主题页面连接。
页面的特定元素是指5个类别的信息:直接子节标题成分(ISH),包含ISH的段落标题(SH),文档主标题(MH),包含链接周围文本的数据组件(DC),目的地信息组件(DIC)。实际上,网页中每个包含超链接的段落都是宝藏图的节点,但只有和目标主题有关的才画进宝藏图里,宝藏图里的每个节点都会包含上述的5个组件。当一个段落包含两个或多个链接,或者存在一个超链接列表时,宝藏图内将产生一个对应所有这些节点的节点。宝藏图的构成分为两个阶段:第一阶段,在首次运行时,T-图由页面及其互连结构组成;第二阶段,计算每个节点到目标等级的链接距离(即DIC)并存储在其各自的节点组件上。
计算优先级的过程如下:
首先计算当前页面内所有未被访问的节点(即URL)与宝藏图内已有节点的相似度:
OSM=average(simISH,simSH,simMH,simDC)
其中ISH,SH,MH,DC分别是上述组件中的4个,宝藏图内每个节点的4个组件分别填入V x的位置。V y处的则是当前页面的4个对应组件。当前页面内未被访问的节点(即URL)与宝藏图内其他所有节点按照余弦相似性公式计算相似度,并取均值作为未被访问的节点(即URL)与已有节点分别的总相似性(OSM)。
如果OSM大于事先设定的阈值(0.05),则用此公式计算优先级:
其中link distance是从种子节点出发获取本链接所需的跳数,取宝藏图中最短的路径的倒数作为优先级非常形象,最短路径越长,则下载开销越大,则优先级越低。
如果当前未访问链接和宝藏图内所有已有节点的OSM都小于阈值(0.05),则用此公式计算优先级:
其中Graph levels是宝藏图的级别,即从种子节点出发向前的最大跳数,因为在图中没有找到合适的位置安放这个链接,就将这个链接放在离种子节点最远的位置上。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤6)在步骤5)生成的宝藏图上有一个称为鹦鹉的观察组件,它定期更新宝藏图以便适应当前网络的实际结构,它通常也被称为“看门狗”,宝藏图的变化达到一定程度时,鹦鹉会从整体上对其进行更新。宝藏图的更新过程即将OSM超过阈值(0.05)的页面节点保留在宝藏图中,在爬虫不断爬取网页的过程中,宝藏图中的节点也不断增加。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤7)完成步骤5)所有分析后,相关性计算器将URL及其优先级分数插入到抓取队列中。抓取队列项的优先级得分循环递增,以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作,这种情况称为饥饿。这一过程要求抓取队列中的URL最终以优先级大小排序。并且如果没有达到使用者设定的终止条件,爬虫迟早会访问那些位于队列末端的优先级小于等于0.01的页面,这样做的好处是能够突破目标主题边界的包围圈,使得爬取结果不会局限于能连续访问到的与目标主题有关的页面。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤8)完成步骤7)后,所分析网页的HTML数据与所有测量结果一起完全存储在存储库中。如果仅针对几个目标主题进行爬取,则可将系统归类为爬虫程序,针对特定需求提供服务。如果目标主题被设置为一个非常庞大的集合,并有满足运算需求的硬件配合,则可将系统归类为搜索引擎,在实际运行一段时间(取决于设备运算能力)后,将获得一个较为全面的存储库。
进一步的,本发明的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统,步骤9)数据库检查器组件不断地在存储库上运行特定的检查,并更新步骤8)所得存储库的索引,其最终目标是使存储库保持最新。用户的使用过程即从事先建立存储库根据索引查询相关网页的过程。
有益效果
本发明同时考虑每个未访问链接的主题边界和锚文本。利用杜威十进制分类原理对这些文本的含义进行划分和评价。本发明对于单个页面的主题分析更加透彻,因而提高了对未访问页面的主题的预测或发掘的准确率。本发明使用“宝藏图”来实现对相关链接的优先级计算功能。宝藏图的优势在于同时考虑了链接和内容对优先级的贡献。基于此,更多有价值的网站被更快地发掘出来。本发明建立的网络搜索系统能根据用户需求形成针对性的爬虫程序或泛用性的搜索引擎。
附图说明
图1是基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统的流程图。
图2是宝藏图结构示意图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述:
结合流程图及实施案例对本发明所述的基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法及其系统作进一步的详细描述。
本实施案例同时考虑链接和内容的作用,利用宝藏图实现相关链接的优先级计算,提高网络爬虫的执行效率。如图1所示,本方法包含如下步骤:
步骤1)抓取器组件从抓取队列中取出一个元素。
步骤101)最初,种子URL被放置在具有最高优先级的队列中。优先级的高低决定了抓取的先后顺序,抓取器每次都从队列里抓取优先级最高的那个页面。
步骤102)使抓取到的页面进入步骤2),同时将它从抓取队列中删除。
步骤103)优先级用一个[0.01,1]的数字表示,数值越大则优先级越高,这个数字由后续的步骤4)和步骤5)进行计算得到,其中0.01是事先设定的优先级最低值。
步骤2)爬虫程序组件定位从步骤1)获取的Web文档,尝试下载页面的实际HTML数据,或以其他方式下载服务器的HTTP响应。
步骤201)本发明在下载页面文档数据时,不考虑图片、视频等元素,仅针对文本内容进行下载,并将文本内容分为两类:链接标题,指此页面所含URL中的文本内容;非链接正文,不属于页面所含URL的文本内容,可看作描述页面本身的正文。上述两类文本简称:链接和内容。
步骤202)如果没有获得页面响应则认为该网页是不可获取的,这时爬虫会去响应队列寻找该网页的信息,如果在响应队列内它是可获得的则继续执行后续步骤。
步骤203)如果在响应队列中仍然找不到,爬虫就会将这个页面丢弃,不再继续执行后续步骤,而是返回步骤1)重新抓取页面。
步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中。此步骤的充分性在于,响应队列包含文档或HTTP响应,以防由于链接暂时不可用或不新鲜而无法下载页面。此步骤的必要性在于,后续步骤5)和步骤6)对页面的分析均需使用页面具体内容,要进行分析首先就要保证页面可获取。尽可能保存优先级高的有用信息,能够更好地应付复杂的网络变化,使有用信息的损失最小化。
步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题。
步骤401)首先利用词干分析算法对文档进行规范化处理,这个步骤又可分为三个常见的文本处理过程:分词,去除停用词,提取词干。此步骤会将原有的带有时态的句子和短语进一步浓缩为关键词。
步骤402)接着使用杜威十进制分类系统对规范后的文档内容进行分析,预测出本页面的主题,并判断页面是否属于给定的目标主题。这一过程的核心公式为:
其中W反映主题集中程度的,在迭代过程中W取最大值的位置即被认为是本页面的核心主题。n表示符合杜威分类器选择框的页面文本元素的个数。d i表示页面元素i对应的杜威十进制数值。length(di)表示杜威十进制数的位数,分类器选择框的大小取决于目标主题的位数,如果目标主题越具体则选择框越小,相应页面主题W符合目标主题的概率也越小。anchor_impact(d i)表示步骤2)所述链接与内容的权重区别,anchor_text表示是否为链接。链接上的锚文本具有较高的权重,因为他们对于链接指向的网页的内容显然具有更大的影响力,式中的1.4是实验测试得出的经验值。
步骤5)如果被步骤4)视为主题,则页面的特定元素会被发送到宝藏图进行特定的比较和计算。宝藏图数据用于确定页面中未访问链接的重要性。宝藏图结构如图2所示。
步骤501)宝藏图将优先级分数与每个未访问链接相关联。图2中,最底部的层0是目标文本,层1是直接包含目标文本且不含层1节点链接的页面节点,每个节点具有5类特定元素用来描述节点的性质,保存关键信息。层1以上的节点间接包含目标文本,如果其中存在越层的情况,保留两个节点间直接的链接。同层节点间不会出现直接的链接。
页面的特定元素是指5个类别的信息:直接子节标题成分(ISH),包含ISH的段落标题(SH),文档主标题(MH),包含链接周围文本的数据组件(DC),目的地信息组件(DIC)。实际上,网页中每个包含超链接的段落都是宝藏图的节点,但只有和目标主题有关的才画进宝藏图里,宝藏图里的每个节点都会包含上述的5个组件。当一个段落包含两个或多个链接,或者存在一个超链接列表时,宝藏图内将产生一个对应所有这些节点的节点。宝藏图的构成分为两个阶段:第一阶段,在首次运行时,T-图由页面及其互连结构组成;第二阶段,计算每个节点到目标等级的链接距离(即DIC)并存储在其各自的节点组件上。
步骤502)计算优先级的过程如下:
首先计算当前页面内所有未被访问的节点(即URL)与宝藏图内已有节点的相似度:
其中ISH,SH,MH,DC分别是上述组件中的4个,宝藏图内每个节点的4个组件分别填入V x的位置。V y处的则是当前页面的4个对应组件。当前页面内未被访问的节点(即URL)与宝藏图内其他所有节点按照余弦相似性公式计算相似度。
V x和V y的4组对应取值对象分别为:
1.已有节点的直接子标题(ISH)与未访问链接的副标题
2.已有节点的段落标题(SH)与未访问链接的副标题
3.已有节点的主标题(MH)与未访问链接的主标题
4.已有节点的周围文本(DC)与未访问链接的周围文本
在计算完全部四个相似度后取均值作为未被访问的节点(即URL)与已有节点分别的总相似性(OSM),其计算公式如下:
OSM=average(simISH,simSH,simMH,simDC)
其中average表示平均值函数,sim ISH,sim SH,simMH,simDC分别是前述4个余弦相似度值。OSM用来预测当前页面上的这些链接的内容是否和目标主题有关。
如果OSM大于事先设定的阈值(0.05),则用此公式计算优先级:
其中link distance是从种子节点出发获取本链接所需的跳数,取宝藏图中最短的路径的倒数作为优先级非常形象,最短路径越长,则下载开销越大,则优先级越低。
如果当前链接和宝藏图内所有已有节点的OSM都小于阈值(0.05),则用此公式计算优先级:
其中Graph levels是宝藏图的级别,即从种子节点出发向前的最大跳数,因为在图中没有找到合适的位置安放这个链接,就将这个链接放在离种子节点最远的位置上。
步骤503)即使脱离主题的URL也会被分配一个设定的最低值(0.01)作为优先级,这有助于爬虫收集非关联主题区域里的主题页面连接。
步骤6)在步骤5)生成的宝藏图上有一个称为鹦鹉的观察组件,它定期更新宝藏图以便适应当前网络的实际结构,宝藏图的变化达到一定程度时,鹦鹉会从整体上对其进行更新,更新分为局部和整体两种。
步骤601)宝藏图的局部更新过程即将OSM超过阈值(0.05)的页面节点保留在宝藏图中,在爬虫不断爬取网页的过程中,宝藏图中的节点也不断增加。
步骤602)宝藏图的整体更新过程分为自顶向下或自底向上两种,根据不同需求应选择不同的方式。如果是针对一个专用主题的网络爬虫程序,则应考虑自底向上的方式更新宝藏图,这样做需要改变的内容可以相对很内容;如果是为了适应搜索引擎的需求,则应使用自顶向下的更新方式,来保证之后生成的索引最优,使得搜索引擎的运行效果最优。
步骤603)考虑到整体更新宝藏图是一件较为耗时的工作,鹦鹉不会要求频繁的进行宝藏图整体更新,这样做既不现实也没有必要。
步骤7)完成步骤5)所有分析后,相关性计算器将URL及其优先级分数插入到抓取队列中。
步骤701)抓取队列项的优先级得分循环递增,以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作,这种情况称为饥饿。这一过程要求抓取队列中的URL最终以优先级大小排序。
饥饿是指计算出的优先级会随着程序运行从概率分布上来看不断递减,如果相关网页的优先级在计算后小于了0.01,也就是小于不相关网页的优先级,则这些相关网页永远无法被访问。为了避免这种情况的发生,事实上不相关网站总是放在优先级队列的末尾,不参与到队列排序中去,这样一来只要队列中还有相关网页,爬虫就不会弃之不理。
步骤702)如果没有达到使用者设定的终止条件,爬虫迟早会访问那些位于队列末端的优先级小于等于0.01的页面,这样做的好处是能够突破目标主题边界的包围圈,使得爬取结果不会局限于能连续访问到的与目标主题有关的页面。
步骤8)完成步骤7)后,所分析网页的HTML数据与测量结果一起存储在存储库中。
步骤801)如果仅针对几个目标主题进行爬取,则可将系统归类为爬虫程序,针对特定需求提供服务。此时的存储库内容相对很少,索引结构也简单,轻量化的好处很多,如:便于部署、适应性强、修改方便等。
步骤802)如果目标主题被设置为一个非常庞大的集合,并有满足运算需求的硬件配合,则可将系统归类为搜索引擎,在实际运行一段时间(取决于设备运算能力)后,将获得一个较为全面的存储库。
步骤9)数据库检查器组件不断地在存储库上运行特定的检查,并更新步骤8)所得存储库的索引,其最终目标是使存储库保持最新。用户的使用过程即从事先建立存储库根据索引查询相关网页的过程。

Claims (10)

1.基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法,其特征在于,包括以下步骤:
步骤1)抓取器组件从抓取队列中取出一个元素,最初,种子URL被放置在具有最高优先级的队列中;
步骤2)爬虫程序组件定位从步骤1)获取的Web文档,尝试下载页面的实际HTML数据,或以其他方式下载服务器的HTTP响应;
步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中,响应队列中的响应即实际可获取的页面内容;
步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题;
步骤5)如果被步骤4)视为主题,则页面的特定元素然后被发送到宝藏图进行特定的比较和计算;宝藏图数据用于确定页面中未访问链接的重要性;宝藏图将优先级分数与每个未访问链接相关联;即使脱离主题的URL也会被分配一个设定的最低值作为优先级;
步骤6)在步骤5)生成的宝藏图上有一个称为鹦鹉的观察更新组件,它定期更新宝藏图以便适应当前网络的实际结构,它通常也被称为“看门狗”;
步骤7)完成步骤5)所有分析后,相关性计算器将URL及其优先级分数插入到抓取队列中;抓取队列项的优先级得分循环递增,以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作,这种情况称为饥饿;
步骤8)完成步骤7)后,所分析网页的HTML数据与所有测量结果一起完全存储在存储库中;
步骤9)数据库检查器组件不断地在存储库上运行特定的检查,并更新步骤8)所得存储库的索引,其最终目标是使存储库保持最新。
2.根据权利要求1所述的方法,其特征在于,步骤1)抓取器组件从抓取队列中取出一个元素。最初,种子URL被放置在具有最高优先级的队列中;优先级的高低决定了抓取的先后顺序;优先级用一个[0.01,1]的数字表示,数值越大则优先级越高。
3.根据权利要求1所述的方法,其特征在于,步骤2)爬虫程序组件定位从步骤1)获取的Web文档,下载页面的实际HTML数据;在下载页面文档数据时,不考虑图片、视频元素,仅针对文本内容进行下载,并将文本内容分为两类:链接和内容。
4.根据权利要求1所述的方法,其特征在于,步骤3)对于步骤2)下载的每个文档,爬虫程序将响应放在响应队列中;响应队列包含文档或HTTP响应,以防由于链接暂时不可用或不新鲜而无法下载页面。
5.根据权利要求1所述的方法,其特征在于,步骤4)将步骤3)得到的文档交给相关性计算器,处理文档并分析文档是否属于专门的主题;首先利用词干分析算法对文档进行规范化处理,接着使用杜威十进制分类系统对规范后的文档内容进行分析,预测出本页面的主题,并判断页面是否属于给定的目标主题;这一过程的核心公式为:
<mrow> <mi>W</mi> <mo>=</mo> <mi>n</mi> <mo>&amp;times;</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>{</mo> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mi>a</mi> <mi>u</mi> <mi>c</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mo>_</mo> <mi>i</mi> <mi>m</mi> <mi>p</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow>
<mrow> <mi>a</mi> <mi>n</mi> <mi>c</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mo>_</mo> <mi>i</mi> <mi>m</mi> <mi>p</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1.4</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>a</mi> <mi>n</mi> <mi>c</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mo>_</mo> <mi>t</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> <mo>=</mo> <mi>t</mi> <mi>r</mi> <mi>u</mi> <mi>e</mi> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1.0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>a</mi> <mi>n</mi> <mi>c</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mo>_</mo> <mi>t</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> <mo>=</mo> <mi>f</mi> <mi>a</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中W反映主题集中程度的,在迭代过程中W取最大值的位置即被认为是本页面的核心主题;n表示符合杜威分类器选择框的页面文本元素的个数;di表示页面元素i对应的杜威十进制数值;length(di)表示杜威十进制数的位数;anchor_impact(di)表示步骤2)所述链接与内容的权重区别,anchor_text表示是否为链接。
6.根据权利要求1所述的方法,其特征在于,步骤5)如果被步骤4)视为主题,则页面的特定元素会被发送到宝藏图进行特定的比较和计算;宝藏图数据用于确定页面中未访问链接的重要性;即使脱离主题的URL也会被分配一个设定的最低值0.01作为默认优先级;
页面的特定元素是指5个类别的信息:直接子节标题成分ISH,包含ISH的段落标题SH,文档主标题MH,包含链接周围文本的数据组件DC,目的地信息组件DIC;宝藏图里的每个节点都会包含上述的5个组件;宝藏图的构成分为两个阶段:第一阶段,在首次运行时,T-图由页面及其互连结构组成;第二阶段,计算每个节点到目标等级的链接距离即DIC并存储在其各自的节点组件上;
计算优先级的过程如下:
首先计算当前页面内所有未被访问的节点即URL与宝藏图内已有节点的相似度:
<mrow> <msub> <mi>Sim</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>V</mi> <mi>x</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>V</mi> <mi>y</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>V</mi> <mi>x</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>V</mi> <mi>y</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> </mrow>
OSM=average(simISH,simSH,simMH,simDC)
其中ISH,SH,MH,DC分别是上述组件中的4个,宝藏图内每个节点的4个组件分别填入Vx的位置;V y处的则是未访问链接的4个对应组件;未被访问链接与宝藏图内已有节点计算余弦相似性,并取均值作为未被访问链接与已有节点分别的总相似性OSM;
如果OSM大于事先设定的阈值0.05,则用此公式计算优先级:
<mrow> <mi>Pr</mi> <mi>i</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mi> </mi> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>min</mi> <mo>{</mo> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>k</mi> <mi> </mi> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mo>}</mo> </mrow> </mfrac> </mrow>
其中link distance是从种子节点出发获取本链接所需的跳数;
如果此链接的所有OSM都小于阈值0.05,则用此公式计算优先级:
<mrow> <mi>Pr</mi> <mi>i</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mi> </mi> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>G</mi> <mi>r</mi> <mi>a</mi> <mi>p</mi> <mi>h</mi> <mi> </mi> <mi>l</mi> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> </mrow>
其中Graph levels是宝藏图的级别,即从种子节点出发向前的最大跳数。
7.根据权利要求1所述的方法,其特征在于,步骤6)在步骤5)生成的宝藏图上有一个称为鹦鹉的观察组件,它定期更新宝藏图以便适应当前网络的实际结构,它通常也被称为“看门狗”;宝藏图的更新过程即将OSM超过阈值0.05的页面节点保留在宝藏图中。
8.根据权利要求1所述的方法,其特征在于,步骤7)完成步骤5)所有分析后,相关性计算器将URL及其优先级分数插入到抓取队列中;抓取队列项的优先级得分循环递增,以防止爬虫因队列中URL的优先级过低而比预计的提前停止工作,这种情况称为饥饿;这一过程要求抓取队列中的URL最终以优先级大小排序。
9.根据权利要求1所述的方法,其特征在于,步骤8)完成步骤7)后,所分析网页的HTML数据与所有测量结果一起完全存储在存储库中;根据目标主题的多少,存储库可构建为针对特定内容的专用库或者可支持搜索引擎的海量数据库。
10.根据权利要求1所述的方法,其特征在于,步骤9)数据库检查器组件不断地在存储库上运行特定的检查,并更新步骤8)所得存储库的索引,其最终目标是使存储库保持最新;用户的使用过程即从事先建立存储库根据索引查询相关网页的过程。
CN201711241370.4A 2017-11-30 2017-11-30 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法 Pending CN107908773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711241370.4A CN107908773A (zh) 2017-11-30 2017-11-30 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711241370.4A CN107908773A (zh) 2017-11-30 2017-11-30 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法

Publications (1)

Publication Number Publication Date
CN107908773A true CN107908773A (zh) 2018-04-13

Family

ID=61849672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711241370.4A Pending CN107908773A (zh) 2017-11-30 2017-11-30 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法

Country Status (1)

Country Link
CN (1) CN107908773A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472125A (zh) * 2019-08-23 2019-11-19 厦门商集网络科技有限责任公司 一种基于网络爬虫的多级页面的级联爬取方法和设备
CN116910186A (zh) * 2023-09-12 2023-10-20 南京信息工程大学 一种文本索引模型构建方法、索引方法、系统和终端
CN117874319A (zh) * 2024-03-11 2024-04-12 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016559A1 (en) * 2005-07-14 2007-01-18 Yahoo! Inc. User entertainment and engagement enhancements to search system
CN101101601A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中的基于链接层次分类的主题爬取方法
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统
US20120110009A1 (en) * 2004-07-29 2012-05-03 Reiner Kraft User interfaces for search systems using in-line contextual queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120110009A1 (en) * 2004-07-29 2012-05-03 Reiner Kraft User interfaces for search systems using in-line contextual queries
US20070016559A1 (en) * 2005-07-14 2007-01-18 Yahoo! Inc. User entertainment and engagement enhancements to search system
CN101101601A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中的基于链接层次分类的主题爬取方法
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALI SEYFI ET AL: "A focused crawler combinatory link and content model based on T-Graph principles", 《COMPUTER STANDARDS & INTERFACES》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472125A (zh) * 2019-08-23 2019-11-19 厦门商集网络科技有限责任公司 一种基于网络爬虫的多级页面的级联爬取方法和设备
CN116910186A (zh) * 2023-09-12 2023-10-20 南京信息工程大学 一种文本索引模型构建方法、索引方法、系统和终端
CN116910186B (zh) * 2023-09-12 2023-11-21 南京信息工程大学 一种文本索引模型构建方法、索引方法、系统和终端
CN117874319A (zh) * 2024-03-11 2024-04-12 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备
CN117874319B (zh) * 2024-03-11 2024-05-17 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
Gupta et al. Focused web crawlers and its approaches
CN103176985B (zh) 一种及时高效的互联网信息爬取方法
CN107908698B (zh) 一种主题网络爬虫方法、电子设备、存储介质、系统
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN101770521A (zh) 一种用于垂直搜索引擎的聚焦相关度排序方法
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN107908773A (zh) 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法
CN101404666A (zh) 一种基于Web页无限层采集方法
CN103150369A (zh) 作弊网页识别方法及装置
CN103279492A (zh) 一种抓取网页的方法和装置
CN107977452A (zh) 一种基于大数据的信息检索系统及方法
Nigam Web crawling algorithms
CN109815388A (zh) 一种基于遗传算法的智能聚焦爬虫系统
Peng et al. Focused crawling enhanced by CBP–SLC
Liu et al. Topical Web Crawling for Domain-Specific Resource Discovery Enhanced by Selectively using Link-Context.
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
CN108681571A (zh) 基于Word2Vec的主题爬虫系统和方法
Yadav et al. Parallel crawler architecture and web page change detection
CN110647673A (zh) 一种实现生态环境空间大数据集成共享的方法
Nagappan et al. Agent based weighted page ranking algorithm for Web content information retrieval
CN114238735A (zh) 一种互联网数据智能采集方法
CN111858918A (zh) 新闻分类方法及装置、网元、存储介质
Kharazmi et al. Freshness of Web search engines: Improving performance of Web search engines using data mining techniques
CN103838791A (zh) 一种网络机器人方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180413