CN110532450B

CN110532450B - 一种基于改进鲨鱼搜索的主题爬虫方法

Info

Publication number: CN110532450B
Application number: CN201910395283.7A
Authority: CN
Inventors: 吴骏; 谈志文; 张哲成; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2021-05-04
Anticipated expiration: 2039-05-13
Also published as: CN110532450A

Abstract

本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法，包括如下步骤1)种子url配置以及主题词配置阶段；2)网页下载阶段；3)主题判别阶段；4)爬虫搜索阶段：a计算链接的内容得分以及url聚类得分；b对父网页进行hub型页面判定；c计算链接的搜索深度；d将链接加入url优先级队列，并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。

Description

一种基于改进鲨鱼搜索的主题爬虫方法

技术领域

本发明涉及一种基于改进鲨鱼搜索的主题爬虫方法，该方法解决了在主题爬虫系统中主题判别不准确，爬取覆盖范围低的问题。

背景技术

随着网络以及移动网络技术的高速发展，互联网普及率不断在提高，截至2018年12月，我国网民规模达到了8.2亿，互联网普及率为59.6％。根据中国互联网络信息中心2019年发布的第43次《中国互联网络发展状况统计报告》，我国当前的域名总数为3792.8万个，其中“.CN”域名总数为2124.3万个，对比2015年增长31％。互联网页面爆炸式增长不仅能让信息可以更加快速的传播，也能满足用户各式各样的信息需求。然而另一方面，互联网充斥着大量各行业各领域嘈杂的数据，这带来了信息过载的现象：信息的过于丰富远远超过了用户能够处理的程度，大量无关、冗余的数据直接影响了用户查找目标数据的体验。搜索引擎的出现极大地提高了用户检索网页数据的效率，用户只需要输入感兴趣的检索条件就能浏览到相关页面。然而搜索引擎存在着一定的局限性：传统搜索引擎对网络资源的覆盖率只有40％左右，还有大部分的数据无法被检索到；不同领域背景的用户往往具有不同的检索需求，当用户需要检索特定方面的内容时，搜索引擎所返回的结果会包含大量用户不感兴趣的网页，在面对某一具体领域时，检索结果往往不尽如人意。

随着搜索引擎技术的发展，针对其存在的不足之处，人们提出了垂直搜索的概念。不同于通用搜索引擎追求网页的覆盖率，垂直搜索引擎专注于特定的搜索领域和搜索需求，因此在面对特定搜索领域时有更好的用户体验。主题爬虫是通用爬虫程序的延伸，也是一种自动获取网络资源的程序，主要区别在于：普通爬虫不关注网页的内容质量和爬取顺序，而主题爬虫则刚好相反，对网页内容和爬取顺序都很敏感。主题爬虫的目的是为了尽可能多地爬取到与特定主题相关的网页，而避免访问主题不相关的网页，从而节省爬取时间、存储空间和网络带宽。相较于通用爬虫，主题爬虫需要解决的关键问题是如何判断网页与主题的相关性以及计算未下载网页的访问优先级，主题爬虫在这两方面性能越好，垂直搜索引擎的用户体验才能越佳。

因此，如何提供一种针对预定主题，尽量避免无关网页访问，高效精准的主题爬虫方法是本领域技术人员亟需解决的关键问题。

发明内容

发明目的：考虑到现有主题爬虫算法在主题判别方面不够准确，容易引入许多无关网页，并且其搜索过程存在一些不足，容易忽视网络链接的整体结构，导致近视问题，同时在存在隧道问题，爬取覆盖范围小，本发明提供一种基于改进鲨鱼搜索的主题爬虫方法，本发明通过结合word2vec词向量以及LDA主题模型对词语的语义进行扩充，提出一种新的基于主题词向量的相关度判别模型；同时针对传统的鲨鱼搜索进行改进，使用url聚类计算链接属于主题团的得分，并且根据对网页进行hub页面判定指定不同的隧道穿越策略。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于改进鲨鱼搜索的主题爬虫方法，包括如下步骤：

步骤1，种子url配置以及主题词配置阶段：通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇。

步骤2，网页下载阶段：进行网页下载，设置超时时间，如果爬取超时则放弃当前链接。根据下载的网页，使用解析工具提取网页信息，网页信息包括url、标题、正文、html标签信息。

步骤3，主题判别阶段：根据步骤2中提取的网页信息，对网页的主题进行判别，过滤不相关的网页。

步骤4，爬虫搜索阶段：根据步骤3求得的网页相关度，对网页中的链接进行得分计算，包括链接内容得分以及url聚类得分，然后计算当前链接的搜索深度，如果搜索深度小于零时丢弃链接，否则将链接加入url优先级队列，并调整队列中url顺序。

对网页中的链接进行得分计算的方法如下：

S401、计算链接的内容得分，公式如下：

score_content(link)＝γ*inherited(link)+(1-γ)*neighbourhood(link)

其中，link表示当前链接，inherited(link)是从父页面继承来的得分，计算公式如下：

其中，link表示当前链接，cur-page表示当前页面，topic表示当前主题，sim函数表示主题相关度公式，δ是衰减因子，neighbourhood(link)是链接的邻接元素得分，它的计算包含锚文本评分与锚文本上下文评分，计算公式如下：

neighbourhood(link)＝β*anchor_score(link)+(1-β)*anchor_ctx_score(link)

其中，β为加权系数，anchor_score(link)表示链接的锚文本评分，anchor_ctx_score(link)表示链接的锚文本上下文文本的评分，通过锚文本以及上下文文本与主题的相关度求得，如果锚文本和主题是相关的，则上下文得分取1，否则再进行上下文文本与主题的相关度计算。具体计算公式如下：

anchor_score(link)＝sim(topic，anchor_text)

其中，anchor_text表示链接锚文本，anchor_ctx表示链接上下文文本，topic表示当前主题，γ，δ，β为预定义常量。

S402、计算链接的url聚类得分，首先url通过”/”和”.”分割的字符串集合，定义url之间的相似性规则：

1).任意2个字母之间是相似的。

2).两个相同的字符串是相似的。

3).长度相同的2个字符串，如果对应位置的类型一致，也是相似的。

S403、将url聚类，聚类方法如下：

步骤1).从当前簇中任选一个url记为u_c。

步骤2).如果当前url相似于u_c，则将url归为当前簇。

步骤3).如果不相似，则选择下一个簇，重复上述步骤1-2)。

步骤4).如果所有簇都不相似，则该url自成一簇。

S404、根据url聚类的结果计算url聚类得分，公式如下：

其中，score_cluster表示聚类得分，当前url属于的簇c_i，则记c_i中url数量为n₁，当前系统中已保存的所有url数量为N′，簇的数量为K₁。

S404、计算链接的最终得分，具体公式为：

score(link)＝w*score_cluster(link)+(1-w)*score_content(link)

其中，link表示当前链接，score(link)表示链接的最终得分，score_cluster(link)表示链接的聚类得分，score_content(link)表示链接的内容得分，w表示加权系数。

优选的：步骤3中对网页的主题进行判别的方法如下：

S201、通过外部语料库训练得到word2vec词向量以及LDA的主题-词语分布矩阵φ。

S202、根据主题-词语分布矩阵φ求得词语的主题信息向量，具体公式如下：

其中，w_c，k表示第c个词w_c对应第k个主题t_k的概率，P(w_c|t_k)表示选择主题t_k的情况下选择词w_c的概率，K表示所有的主题数，

表示主题模型的输出中主题t_k下词w_c的概率，

表示主题t_t下词w_c的概率。

S203、构建主题词向量，具体公式为：

其中，V表示该词的主题词向量，词向量的维度是K，W_N″表示词N″对应的word2vec词向量，Z_N″表示通过LDA求得的主题向量，其维度M是LDA中预设的主题的数目，V为最终求得的词向量，为K+M维。

S204、使用改进TF-IDF公式抽取网页关键词，改进TF-IDF公式为：

其中，b_i表示页面中词w_i对应的标签权重系数，f_i表示词w_i在页面中出现的次数，t_n表示词w_i在页面中第n次出现，

表示词w_i第n次出现所在标签的权重，weighti表示第i个词的权重，tf_i表示第i个词的词频，idf_i表示逆文档频率，f_max表示第i个词在语料库中出现的总频次，N表示语料库中文档总数，N_i表示包含第i个词的文档数量。

S205、将网页和主题表示为关键词的主题词向量，具体公式为：

其中，PV表示网页向量，T为关键词总数，weight_t表示第t个词的权重，V_t表示该词的主题词向量，TV表示主题向量，K₃表示主题关键词词个数，

表示主题关键词对应的主题词向量。

S206、根据余弦公式计算主题相关度：

其中，relevance表示相关度，cos表示余弦距离。

优选的：步骤4中所述搜索过程算法具体过程如下：

S301、将种子urls加入优先级队列queue。

S302、从queue的队首取得url，并判断url的搜索深度是否小于零，如果是则丢弃，否则进行下一步。

S303、下载该url指向的网页，并进行主题判别并提取全部链接。

S304、对提取到的链接，计算其得分，得分包括链接内容得分以及链接url聚类得分。

S305、根据父页面类型以及父页面相关度计算链接的搜索深度。

S306、如果链接不在queue中，则将链接插入queue，如果在queue中已经存在该链接，则根据新计算出的链接得分以及搜索深度更新queue中的链接。

S307、根据queue中链接得分以及搜索深度调整队列中链接的顺序，然后重复S302-S307，直到满足停止条件或queue为空则停止爬虫。

优选的：步骤4中所述的计算搜索深度的步骤如下：

S501、计算当前页面是否是主题相关。

S502、如果是相关页面，则搜索深度为预定义的深度D。

S503、如果不是相关页面，则需要根据当前页面的类型设置搜索深度，具体公式为：

其中，depth是搜索深度，D是预设值的初始搜索深度，cur_page表示当前页面，depth_cur-page表示链接所属当前页面的搜索深度。

优选的：所述步骤4中页面的类型判别方法为：

S601、根据下表的属性提取特征：

S602、构建SVM分类器进行hub型页面判定，SVM的目标函数为：

其中，δ₁为阀值，min表示求最小值函数，W表示系数矩阵，

表示结果标签，

表示特征矩阵，b表示常量。

本发明相比现有技术，具有以下有益效果：

本发明提出一种新的主题相关度计算模型：通过引入词向量以及主题模型构建主题词向量，对词语进行语义扩充。结合网页的半结构化特征改进TF-IDF算法并进行网页关键词抽取，将网页与主题之间的相关度转化为网页关键词与主题词之间的相关度。在此基础上将网页与主题转化为对应关键词主题词向量的加权平均表示，最终使用网页向量和主题向量之间的余弦距离计算主题相关度。根据互联网的内容聚合原则，提出了一种基于url聚类的链接评价方法，计算链接在网络结构方面的得分，与Shark-Search算法原有的链接内容得分共同构成链接得分，不仅解决了“近视问题”，并且降低了Shark-Search算法因锚文本缺失造成的错误率，同时也很好的防止了爬虫的主题漂移。对Shark-Search算法中的隧道穿越机制进行优化，结合HITS算法思想对网页进行hub类型判定，针对不同类型的网页制定不同的隧道穿越策略，提高了爬取覆盖范围。

附图说明

图1为一种基于改进鲨鱼搜索的主题爬虫方法的流程图。

图2为主题爬虫系统的结构图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于改进鲨鱼搜索的主题爬虫方法，通过引入词向量以及主题模型构建主题词向量，对词语进行语义扩充。结合网页的半结构化特征改进TF-IDF算法并进行网页关键词抽取，将网页与主题之间的相关度转化为网页关键词与主题词之间的相关度。在此基础上将网页与主题转化为对应关键词主题词向量的加权平均表示，最终使用网页向量和主题向量之间的余弦距离计算主题相关度。根据互联网的内容聚合原则，提出了一种基于url聚类的链接评价方法，计算链接在网络结构方面的得分，与Shark-Search算法原有的链接内容得分共同构成链接得分，不仅解决了“近视问题”，并且降低了Shark-Search算法因锚文本缺失造成的错误率，同时也很好的防止了爬虫的主题漂移。对Shark-Search算法中的隧道穿越机制进行优化，结合HITS算法思想对网页进行hub类型判定，针对不同类型的网页制定不同的隧道穿越策略，提高了爬取覆盖范围，如图1、2所示，具体包括以下步骤：

步骤1，种子url配置以及主题词配置阶段：通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇若干。

步骤2，网页下载阶段：进行网页下载，设置超时时间，如果爬取超时则放弃当前链接。根据下载的网页，使用解析工具提取网页的url、标题、正文、html标签等信息。

步骤3中所述主题判别方法具体过程如下：

S203、构建主题词向量，具体公式为：

其中，V表示该词在word2vec模型求得的词向量，词向量的维度是K，Z_N″表示通过LDA求得的主题向量，其维度M是LDA中预设的主题的数目，V为最终求得的词向量，为K+M维。

S204、使用改进TF-IDF公式抽取网页关键词，改进TF-IDF公式为：

其中，b_i表示页面中词w_i对应的标签权重系数，f_i表示词wi在页面中出现的次数，t_n表示词w_i在页面中第n次出现，

表示词w_i第n次出现所在标签的权重。

S205、将网页和主题表示为关键词的主题词向量加权平均向量，具体公式为：

S206、根据余弦公式计算主题相关度：

步骤4中所述搜索过程算法具体过程如下：

S301、将种子urls加入优先级队列queue。

计算链接得分步骤如下：

S401、计算链接的内容得分，公式如下：

score_content(link)＝γ*inherited(link)+(1-γ)*neighbourhood(link)

其中，inherited(link)是从父页面继承来的得分，计算公式如下：

其中，δ是衰减因子，neighbourhood(link)是链接的邻接元素得分，它的计算包含锚文本评分与锚文本上下文评分，计算公式如下：

neighbourhood(link)＝β*anchor_score(link)+(1-ββ)*anchor_ctx_score(link)

其中，anchor_score(link)表示链接的锚文本评分，anchor_ctx_score(link)表示链接的锚文本上下文文本的评分，通过锚文本以及上下文文本与主题的相关度求得，如果锚文本和主题是相关的，则上下文得分取1，否则再进行上下文文本与主题的相关度计算。具体

计算公式如下：

anchor_score(link)＝sim(topic，anchor_text)

上述公式中γ，δ，β为预定义常量。

1.任意2个字母(非数字或标点)之间是相似的

2.两个相同的字符串(长度大于2)是相似的

3.长度相同的2个字符串，如果对应位置的类型一致，也是相似的，比如”doc-ihsxncvh2934103”和”doc-ihrfqzkc4512315”对应位置或都为数字，或都为字母，或都为符号，因此它们也是相似的。

S403、将url聚类，聚类方法如下：

1.从当前簇中任选一个url记为u_c。

2.如果当前url相似于u_c，则将url归为当前簇。

3.如果不相似，则选择下一个簇，重复上述步骤。

4.如果所有簇都不相似，则该url自成一簇。

S404、根据url聚类的结果计算url聚类得分，公式如下：

其中，当前url属于的簇c_i，则记c_i中url数量为n₁，当前系统中已保存的所有url数量为N′，簇的数量为K₁。

S405、计算链接的最终得分，具体公式为：

score(link)＝w*scorecluster(link)+(1-w)*sCore_content(link)

计算搜索深度的步骤如下：

S501、计算当前页面是否是主题相关。

S502、如果是相关页面，则搜索深度为预定义的深度D。

判别页面时hub型还是authority型的步骤为：

S601、根据下表的属性提取特征：

S602、构建SVM分类器进行hub型页面判定，SVM的目标函数为：

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于改进鲨鱼搜索的主题爬虫方法，其特征在于，包括如下步骤：

步骤1，种子url配置以及主题词配置阶段：通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇；

步骤2，网页下载阶段：进行网页下载，设置超时时间，如果爬取超时则放弃当前链接；根据下载的网页，使用解析工具提取网页信息，网页信息包括url、标题、正文、html标签信息；

步骤3，主题判别阶段：根据步骤2中提取的网页信息，对网页的主题进行判别，过滤不相关的网页；

步骤4，爬虫搜索阶段：根据步骤3求得的网页相关度，对网页中的链接进行得分计算，包括链接内容得分以及url聚类得分，然后计算当前链接的搜索深度，如果搜索深度小于零时丢弃链接，否则将链接加入url优先级队列，并调整队列中url顺序；

对网页中的链接进行得分计算的方法如下：

S401、计算链接的内容得分，公式如下：

score_content(link)＝γ*inherited(link)+(1-γ)*neighbourhood(link)

其中，link表示当前链接，cur_page表示当前页面，topic表示当前主题，sim函数表示主题相关度公式，δ是衰减因子，neighbourhood(link)是链接的邻接元素得分，它的计算包含锚文本评分与锚文本上下文评分，计算公式如下：

neighbourhood(link)＝β*anchor_score(link)+(1-β)*anchor_ctx_score(link)

其中，β为加权系数，anchor_score(link)表示链接的锚文本评分，anchor_ctx_score(link)表示链接的锚文本上下文文本的评分，通过锚文本以及上下文文本与主题的相关度求得，如果锚文本和主题是相关的，则上下文得分取1，否则再进行上下文文本与主题的相关度计算；具体计算公式如下：

anchor_score(link)＝sim(topic，anchor_text)