CN103714140A

CN103714140A - 一种基于主题网络爬虫的搜索方法及装置

Info

Publication number: CN103714140A
Application number: CN201310716763.1A
Authority: CN
Inventors: 刘雄伟
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2014-04-09

Abstract

本发明公开了一种基于主题网络爬虫的搜索方法及装置，所述方法包括：从与给定搜索主题相关的网页地址集中提取一个网页地址；获取所述网页地址对应的有效网页；对所述有效网页进行分析，得到有效网页内容；计算所述有效网页与搜索主题在语义上的相关度，即立即价值，并将符合预设条件的有效网页及包含的网页链接添加到页面数据库；对于不符合预设条件的有效网页，计算网页链接相对于所述搜索主题的链接价值，即未来回报价值，并将符合条件的网页链接添加到网页地址集中。本发明实施例通过计算不满足条件的网页链接的未来回报价值，来预测主题网络爬虫的搜索方向，从而避免了主题网络爬虫对无关网页的抓取，提高了主题网络爬虫抓取网页的准确性。

Description

一种基于主题网络爬虫的搜索方法及装置

技术领域

本发明涉及互联网数据获取技术，尤其涉及一种基于主题网络爬虫的搜索方法及装置。

背景技术

随着互联网技术的不断发展，互联网上的信息量也在迅速增长，网页搜索技术也随之迅速发展，如何让用户快速、准确地找到所需要的网页，仍然是网页搜索技术发展的方向。

现有技术主要是由主题网络爬虫采取一定的搜索策略来保证所抓取的网页与主题相关，避免不相关网页的抓取，采取的搜索策略通常是依据搜索时在线获得的文本或网页结构来对链接页面重要程度进行预测，进而决定链接访问的顺序，这种搜索策略在网络爬虫距离相关网页比较远时，容易迷失方向，不能准确的抓取到与主题相关的网页。

发明内容

有鉴于此，本发明实施例提供了一种基于主题网络爬虫的搜索方法及装置，以保证网页抓取的准确性。

一方面，本发明实施例提供了一种基于主题网络爬虫的搜索方法，所述方法包括：

从与给定搜索主题相关的网页地址集中提取一个网页地址；

获取所述网页地址对应的有效网页；

对所述有效网页进行分析，得到有效网页内容；

根据所述有效网页内容，计算所述有效网页与所述搜索主题在语义上的相关度，作为所述有效网页的立即价值，当所述有效网页的立即价值符合第一预设条件时，将所述有效网页及包含的网页链接作为搜索结果添加到页面数据库；

当所述有效网页的立即价值不符合第一预设条件时，计算所述有效网页中的网页链接相对于所述搜索主题的链接价值，作为所述网页链接的未来回报价值，当所述网页链接的未来回报价值符合第二预设条件时，将所述网页链接添加到所述网页地址集中。

进一步的，对所述有效网页进行分析，得到有效网页内容，包括：

对所述有效网页进行超文本标记语言HTML语法分析；

根据所述HTML语法分析结果，提取所述有效网页对应的内容，作为有效网页内容。

进一步的，根据所述有效网页内容，计算所述有效网页与所述搜索主题在语义上的相关度，作为立即价值，包括：

计算所述有效网页在贝叶斯分类器每一类中对应的概率，所述贝叶斯分类器为根据所述页面数据库中有效网页包含的网页链接的未来回报价值的大小形成的分类；

将所述概率作为权值，计算所述有效网页与所述搜索主题在语义上的相关度。

进一步的，计算所述有效网页中每个网页链接相对于所述搜索主题的链接价值，作为未来回报价值，包括：

将所述概率作为权值，计算所述有效网页中每个网页链接相对于所述搜索主题的链接价值。

进一步的，所述方法还包括：

在预定的时间段内，提取所述页面数据库中立即价值满足第三预设条件的有效网页；

根据提取到的有效网页及所述有效网页中网页链接的未来回报价值，更新所述贝叶斯分类器中的分类。

另一方面，本发明实施例还提供了一种基于主题网络爬虫的搜索装置，所述装置包括：

第一提取单元，用于从与给定搜索主题相关的网页地址集中提取一个网页地址；

第二提取单元，用于获取所述网页地址对应的有效网页；

获取单元，用于对所述有效网页进行分析，得到有效网页内容；

第一添加单元，用于根据所述有效网页内容，计算所述有效网页与所述搜索主题在语义上的相关度，作为所述有效网页的立即价值，当所述有效网页的立即价值符合第一预设条件时，将所述有效网页及其包含的网页链接作为搜索结果添加到页面数据库；

第二添加单元，用于当所述有效网页链接的立即价值不符合第一预设条件时，计算所述有效网页中的网页链接相对于所述搜索主题的链接价值，作为所述网页链接的未来回报价值，当所述网页链接的未来回报价值符合第二预设条件时，将所述网页链接添加到所述网页地址集中。

进一步的，所述获取单元，包括：

分析子单元，用于对所述有效网页进行超文本标记语言HTML语法分析；

获取子单元，用于根据所述HTML语法分析结果，提取所述有效网页对应的内容，作为有效网页内容。

进一步的，所述第一添加单元具体用于：

进一步的，所述第二添加单元具体用于：

进一步的，其特征在于，所述装置还包括：

第三提取单元，用于在预定的时间段内，提取所述页面数据库中立即价值满足第三预设条件的有效网页链接；

更新单元，用于根据提取到的有效网页及所述有效网页中网页链接的未来回报价值，更新所述贝叶斯分类器中的分类。

本发明实施例提供的一种基于主题网络爬虫的搜索方法及装置，主题网络爬虫首先计算与搜索主题预设的网页对应的网页链接的立即价值，并抓取立即价值符合条件的网页链接，对于不满足条件的网页链接，继续计算网页链接的未来回报价值，以预测主题网络爬虫的搜索方向，从而避免了主题网络爬虫对无关网页的抓取，提高了主题网络爬虫抓取网页的准确性。

附图说明

图1是本发明第一实施例提供的基于主题网络爬虫的搜索方法的流程图；

图2是本发明第一实施例提供的基于主题网络爬虫的搜索方法中计算未来价值的流程图；

图3是本发明第一实施例提供的基于主题网络爬虫的搜索方法中一种优选的计算未来价值的流程图；

图4是本发明第二实施例提供的基于主题网络爬虫的搜索方法中更新贝叶斯分类器的流程图；

图5是本发明实施例提供的基于主题网络爬虫的搜索方法与现有技术提供的方法在不同阶段查全率的比较图；

图6是本发明实施例提供的基于主题网络爬虫的搜索方法中与现有技术提供的方法在不同阶段查准率的比较图；

图7是本发明第三实施例提供的基于主题网络爬虫的搜索装置的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

第一实施例

图1是本发明第一实施例提供的基于主题网络爬虫的搜索方法的流程图，本发明实施例提供的方法可适用于搜索引擎中，可由主题网络爬虫来完成，所述主题网络爬虫是指根据一定的网页分析算法过滤与主题无关的超链接，保留与主题相关的超链接，并将所述主题相关的超链接放入待抓取的超链接队列中，然后根据一定的搜索策略从所述超链接队列中选择下一步要抓取的网页超链接，并重复上述过程，直到满足系统的停止条件。所述流程详述如下：

步骤101、从与给定搜索主题相关的网页地址集中提取一个网页地址。

本步骤中，系统会预先设定一系列的搜索主题集合，并且为每个搜索主题指定至少一个种子网站，即网页地址集，例如系统预设搜索主题为“十八届三中全会”，为所述搜索主题指定的网页地址为http://www.baidu.com。主题网络爬虫在查找与搜索主题“十八届三中全会”相关的网页时，首先从所述搜索主题对应的网页地址http://www.baidu.com出发，开始搜索。所述网页地址集中可以包括多个网页地址，主题网络爬虫可以按照网页地址的默认排序搜索相关网页，也可以指定顺序进行搜索，在此不作具体限定。

步骤102、获取所述网页地址对应的有效网页。

本步骤中，主题网络爬虫采用HTTP(Hypertext Transfer Protocol，超文本传输协议)协议模拟浏览器的行为，从预设的网页地址中下载有效网页信息，并将包含有所述有效网页信息的网页作为有效网页，所述有效网页信息，优选的，可包括文本、图像、声音、影像等信息。

步骤103、对所述有效网页进行分析，得到有效网页内容。

本步骤中，主题网络爬虫可对所述有效网页进行语法分析。所述语法分析可基于HTML(Hypertext Markup Language，超文本标记语言)协议，所述语法分析过程可分解为SGML(Standard Generalized Markup Language，标准通用置标语言)标记文法层和HTML标记层，所述SGML标记文法层将页面分成正文、标记、转义字符、注解等不同语法成分，所述HTMA标记层维护着当前解析正文的各种状态，这些状态可根据特定标记创建或发生改变。

通过对有效网页进行HTML语法分析，可以提取出所述有效网页对应的有效网页内容，例如，页面标题、正文、链接、链接标签属性数据及其它相关内容，以便进行主题相关性判别。

步骤104、根据所述有效网页内容，计算所述有效网页与所述搜索主题在语义上的相关度，作为所述有效网页的立即价值，当所述有效网页的立即价值符合第一预设条件时，将所述有效网页及包含的网页链接作为搜索结果添加到页面数据库。

本实施例中，所述页面数据库用于存储有效网页及有效网页包含的网页链接，所述页面数据库中的存储内容还用于训练贝叶斯分类器，即对所述页面数据库中的存储内容进行分类，并将所述分类添加到贝叶斯分类器。

本实施例中，计算所述有效网页的立即价值的步骤如图2所示：

步骤201、将描述搜索主题的多个有效网页进行关键词的提取和加权，从而得到所述搜索主题的特征向量及向量的权重。

步骤202、对有效网页的正文进行分词，去掉停用词，保留关键词，然后按照关键词在正文中出现的频率对关键词加权处理。

步骤203、对有效网页的标题进行分词，将得到的关键词与网页正文中的关键词进行合并，并加重权于得到的标题关键词上。

步骤204、根据搜索主题中的特征向量对得到的有效网页关键词进行调整和扩充。

步骤205、按照如下公式计算搜索主题与有效网页的相关度：

sim (p, q) = \frac{Σ_{k &Element; p \cap q} ω_{kq} ω_{kp}}{\sqrt{Σ_{k &Element; p} {ω_{kp}}^{2} Σ_{k &Element; q} ω^{2} kq}}

其中，p为搜索主题关键词集合，q为有效网页文本集合，W_kp为单词k出现在集合p中的频率，W_kq为单词k出现在集合q中的频率，W_kp、W_kq通常采用tf*idf计算。

步骤206、将相关度sim(p,q)值与预设值进行比较，如果sim(p,q)大于等于预设值，则表示有效网页与搜索主题相关，将有效网页保留到页面数据库中；否则判为不相关，继续执行步骤105。

步骤105、当所述有效网页的立即价值不符合第一预设条件时，计算所述有效网页中网页链接相对于所述搜索主题的链接价值，作为所述网页链接的未来回报价值，当所述网页链接的未来回报价值符合第二预设条件时，将所述网页链接添加到所述网页地址集中。

本步骤中，对于不符合第一预设条件的有效网页，即sim(p,q)值小于预设值的有效网页，进一步计算所述有效网页包含的网页链接的未来回报价值。近年来对Web信息资源的分布特点的研究表明，同一主题的相关页面在组织方式上存在一定相似性，而链接价值可以反映这种相似性的程度，因此本发明实施例中将链接价值作为未来回报价值来预测当前有效网页包含的网页链接在进行若干次访问后与搜索主题的相关性。

本实施例中，当有效网页中的网页链接的未来回报价值大于等于预设值时，将所述网页链接添加到网页地址集中，否则丢弃所述网页链接。

在上述实施例中，根据所述有效网页内容，计算所述有效网页与所述搜索主题在语义上的相关度，作为立即价值，优选的，可包括图3所示的步骤：

步骤301、计算所述有效网页在贝叶斯分类器每一类中对应的概率，所述贝叶斯分类器为根据所述页面数据库中有效网页包含的网页链接的未来回报价值的大小形成的分类。

基于未来回报价值的搜索策略的优势在于能预测远期的回报价值，即未来回报价值。未来回报价值用Q来表示，这种方法的核心就是如何计算链接的Q价值。Q价值计算公式如下所示：

Q^λ(s_t,a_t)＝(1-λ)(Q_t ⁽¹⁾+λQ_t ⁽²⁾+λ²Q_t ⁽³⁾+....λ^m-1Q_t ^(m))

其中，Q^(m) _t是各链接前瞻m步的折算积累回报，s_t为主题网络爬虫在t时刻的状态，a_t为主题网络爬虫在t时刻采取的行动，Q(λ)函数使用常量λ(o≤λ≤1)来合并从不同前瞻距离中获得的回报。

为此，搜索过程被分为训练和搜索两个阶段。训练阶段用巩固学习算法计算每个链接的Q价值，按价值的大小分为若干类，并用每一类中的文本信息训练一个贝叶斯分类器；在搜索阶段，面对链接价值未知的链接，则根据链接文本，用贝叶斯分类器计算链接落在每一类中的概率。

步骤302、将所述概率作为权值，计算所述有效网页与所述搜索主题在语义上的相关度。

本步骤中，将步骤301得到的概率作为所述搜索主题向量的权重，然后按照图2所示的步骤计算所述有效网页与所述搜索主题在语义上的相关度，作为立即价值。

上述实施例中，计算所述有效网页中每个网页链接相对于所述搜索主题的链接价值，作为未来回报价值，包括：将所述概率作为所述搜索主题向量的权重，然后按照Q值计算公式来计算所述有效网页中每个网页链接相对于所述搜索主题的链接价值，作为所述网页链接的未来回报价值。其中，所述概率为步骤301得到的概率。

由于Q价值反映的是未来的回报预测值，所以当搜索的页面与搜索主题不相关时，主题网络爬虫也可以根据未来回报价值来确定正确的搜索方向。

第二实施例

本实施例是在上述实施例的基础上增加了图4所示的步骤：

步骤401、在预定的时间段内，提取所述页面数据库中立即价值满足第三预设条件的有效网页。

优选的，提取所述页面数据库中立即价值大于预设值的100个有效网页，所述有效网页中包含网页中的链接。

步骤402、根据提取到的有效网页及所述有效网页中网页链接的未来回报价值，更新所述贝叶斯分类器中的分类。

本实施例中，对于提取到的网页链接，根据所述网页链接未来回报价值的大小分类，并更新贝叶斯分类器，例如，如果贝叶斯分类器中不含有所述分类，则在贝叶斯分类器中增加相应分类，如果贝叶斯分类器中含有所述分类，则保持贝叶斯分类器中相应分类不变。贝叶斯分类器一旦训练完成，就可以对新产生的链接进行相关度分析，自身通过爬虫数据库新进的主题相关度高的页面和页面链接信息不断修正，提高主题相关性的判断能力。

本发明实施例提供的基于主题网络爬虫的搜索方法，通过不断更新贝叶斯分类器中的分类来更新计算有效网页立即价值所需的权值和计算有效网页中网页链接的未来回报价值所需的权值，从而提高了主题相关性的判断能力。

本发明实施例选取了美国四所大学的计算机网站做了实际的搜索实验，搜索目的是寻找本地服务器中的计算机论文，将以.PDF和.PS结尾的计算机论文定义为相关文档。采用基于立即价值、未来价值和本实施例提供的方法，称为在线增量学习的自适应算法三种不同搜索策略的网络爬虫，在线统计Web上与计算机相关的论文数，并计算各自的查全率和查准率。本实施例采用在线计算机字典作为主题关键字集合。其中包括13000个计算机专业词汇，并进行了一些扩充。从站点的主页出发，对上述四所大学Web服务器进行了实际的搜索测试，共找到了15034篇与计算机相关的论文。

图5示出了三种不同搜索策略在不同阶段的查全率，从图中可知，三种不同搜索策略在不同阶段的查全率不同。其原因在于，基于立即价值的搜索策略在相关社区中的搜索率很高，可以很快地找到相关网页，所以其增长率很快。但在找无关网页集合时容易迷失方向，从一个Web社区搜索完毕后进入另一个Web社区的能力较弱，查全率会降低；基于未来价值的搜索策略，在寻找无关页面集合中，未来价值对预见远期回报很有帮助，它可以很快地找到论文的目录所在，但早期的回报率不高；基于在线增量自适应算法采用综合的搜索策略，除在搜索初期其回报略低于基于立即价值的网络爬虫外，其增长率很快超过两种算法。不论是在社区内的搜索还是过度无关网页来获取远期回报，它都表现出了优异的性能。

图6示出了三种不同搜索策略在不同阶段的查准率，从图中可知，基于在线增量自适应算法的网络爬虫查准率显然高于其他两种。除了最初的阶段外，其余时间的查准率都高于50%。其原因在于每隔一定的时间，爬虫数据库不断自我更新，提高主题相关性的判断能力。在Web社区外，在一定程度上避免了采集大量的无关文档；在主题相关的Web社区内又提高了其搜索能力，因此其查准率很高。而基于立即价值的网络爬虫在跨越Web社区时常常会发生主题偏移，容易导致局部最优。基于未来价值的网络爬虫在跨越Web社区时采集了大量与主题无关的文档，同时在主题相关社区内的搜索能力又比较低，因此查准率不高。

将基于在线增量自适应算法引入搜索引擎中，避免了过早陷入Web搜索局部最优子空间的陷阱。同时不断更新爬虫数据库，提高了其对主题相关性的判断能力，从而提高了搜索引擎的查准率。实验表明，该算法的查全率不但大大高于两种传统的单一算法，同时也整体提高了搜索引擎的性能。

第三实施例

图7是本发明第三实施例提供的基于主题网络爬虫的搜索装置的示意图，用于实现图1所示的方法，所述装置包括：第一提取单元701、第二提取单元702、获取单元703、第一添加单元704和第二添加单元705。其中，所述第一提取单元701用于从与给定搜索主题相关的网页地址集中提取一个网页地址；所述第二提取单元702用于获取所述网页地址对应的有效网页；所述获取单元703用于对所述有效网页进行分析，得到有效网页内容；所述第一添加单元704用于根据所述有效网页内容，计算所述有效网页与所述搜索主题在语义上的相关度，作为所述有效网页的立即价值，当所述有效网页的立即价值符合第一预设条件时，将所述有效网页及其包含的网页链接作为搜索结果添加到页面数据库；所述第二添加单元705用于当所述有效网页链接的立即价值不符合第一预设条件时，计算所述有效网页中每个网页链接相对于所述搜索主题的链接价值，作为每个所述网页链接的未来回报价值，当所述网页链接的未来回报价值符合第二预设条件时，将所述网页链接添加到所述网页地址集中。

本实施例中，所述获取单元703，优选的，可包括：分析子单元7031和获取子单元7032。其中，所述分析子单元7031用于对所述有效网页进行超文本标记语言HTML语法分析；所述获取子单元7032用于根据所述HTML语法分析结果，提取所述有效网页对应的内容，作为有效网页内容。

本实施例中，所述第一添加单元704具体可用于：

本实施例中，所述第二添加单元705具体可用于：

优选的，所述装置还可包括：第三提取单元706和更新单元707，其中，所述第三提取单元706用于在预定的时间段内，提取所述页面数据库中立即价值满足第三预设条件的有效网页链接；所述更新单元707用于根据提取到的有效网页及所述有效网页中网页链接的未来回报价值，更新所述贝叶斯分类器中的分类。

本发明实施例提供的基于主题网络爬虫的搜索装置用于执行本发明任意实施例提供的基于主题网络爬虫的搜索方法，具备相应的功能模块，可达到与所述方法相似的技术效果，此处不再赘述。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主题网络爬虫的搜索方法，其特征在于，所述方法包括：

从与给定搜索主题相关的网页地址集中提取一个网页地址；

获取所述网页地址对应的有效网页；

对所述有效网页进行分析，得到有效网页内容；

2.根据权利要求1所述的方法，其特征在于，对所述有效网页进行分析，得到有效网页内容，包括：

对所述有效网页进行超文本标记语言HTML语法分析；

3.根据权利要求1所述的方法，其特征在于，根据所述有效网页内容，计算所述有效网页与所述搜索主题在语义上的相关度，作为立即价值，包括：

4.根据权利要求3所述的方法，其特征在于，计算所述有效网页中每个网页链接相对于所述搜索主题的链接价值，作为未来回报价值，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

6.一种基于主题网络爬虫的搜索装置，其特征在于，所述装置包括：

第二提取单元，用于获取所述网页地址对应的有效网页；

7.根据权利要求6所述的装置，其特征在于，所述获取单元，包括：

8.根据权利要求6所述的装置，其特征在于，所述第一添加单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第二添加单元具体用于：

10.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：