CN110532450B - 一种基于改进鲨鱼搜索的主题爬虫方法 - Google Patents

一种基于改进鲨鱼搜索的主题爬虫方法 Download PDF

Info

Publication number
CN110532450B
CN110532450B CN201910395283.7A CN201910395283A CN110532450B CN 110532450 B CN110532450 B CN 110532450B CN 201910395283 A CN201910395283 A CN 201910395283A CN 110532450 B CN110532450 B CN 110532450B
Authority
CN
China
Prior art keywords
link
score
url
word
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910395283.7A
Other languages
English (en)
Other versions
CN110532450A (zh
Inventor
吴骏
谈志文
张哲成
王崇骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910395283.7A priority Critical patent/CN110532450B/zh
Publication of CN110532450A publication Critical patent/CN110532450A/zh
Application granted granted Critical
Publication of CN110532450B publication Critical patent/CN110532450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。

Description

一种基于改进鲨鱼搜索的主题爬虫方法
技术领域
本发明涉及一种基于改进鲨鱼搜索的主题爬虫方法,该方法解决了在主题爬虫系统中主题判别不准确,爬取覆盖范围低的问题。
背景技术
随着网络以及移动网络技术的高速发展,互联网普及率不断在提高,截至2018年12月,我国网民规模达到了8.2亿,互联网普及率为59.6%。根据中国互联网络信息中心2019年发布的第43次《中国互联网络发展状况统计报告》,我国当前的域名总数为3792.8万个,其中“.CN”域名总数为2124.3万个,对比2015年增长31%。互联网页面爆炸式增长不仅能让信息可以更加快速的传播,也能满足用户各式各样的信息需求。然而另一方面,互联网充斥着大量各行业各领域嘈杂的数据,这带来了信息过载的现象:信息的过于丰富远远超过了用户能够处理的程度,大量无关、冗余的数据直接影响了用户查找目标数据的体验。搜索引擎的出现极大地提高了用户检索网页数据的效率,用户只需要输入感兴趣的检索条件就能浏览到相关页面。然而搜索引擎存在着一定的局限性:传统搜索引擎对网络资源的覆盖率只有40%左右,还有大部分的数据无法被检索到;不同领域背景的用户往往具有不同的检索需求,当用户需要检索特定方面的内容时,搜索引擎所返回的结果会包含大量用户不感兴趣的网页,在面对某一具体领域时,检索结果往往不尽如人意。
随着搜索引擎技术的发展,针对其存在的不足之处,人们提出了垂直搜索的概念。不同于通用搜索引擎追求网页的覆盖率,垂直搜索引擎专注于特定的搜索领域和搜索需求,因此在面对特定搜索领域时有更好的用户体验。主题爬虫是通用爬虫程序的延伸,也是一种自动获取网络资源的程序,主要区别在于:普通爬虫不关注网页的内容质量和爬取顺序,而主题爬虫则刚好相反,对网页内容和爬取顺序都很敏感。主题爬虫的目的是为了尽可能多地爬取到与特定主题相关的网页,而避免访问主题不相关的网页,从而节省爬取时间、存储空间和网络带宽。相较于通用爬虫,主题爬虫需要解决的关键问题是如何判断网页与主题的相关性以及计算未下载网页的访问优先级,主题爬虫在这两方面性能越好,垂直搜索引擎的用户体验才能越佳。
因此,如何提供一种针对预定主题,尽量避免无关网页访问,高效精准的主题爬虫方法是本领域技术人员亟需解决的关键问题。
发明内容
发明目的:考虑到现有主题爬虫算法在主题判别方面不够准确,容易引入许多无关网页,并且其搜索过程存在一些不足,容易忽视网络链接的整体结构,导致近视问题,同时在存在隧道问题,爬取覆盖范围小,本发明提供一种基于改进鲨鱼搜索的主题爬虫方法,本发明通过结合word2vec词向量以及LDA主题模型对词语的语义进行扩充,提出一种新的基于主题词向量的相关度判别模型;同时针对传统的鲨鱼搜索进行改进,使用url聚类计算链接属于主题团的得分,并且根据对网页进行hub页面判定指定不同的隧道穿越策略。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤:
步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇。
步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接。根据下载的网页,使用解析工具提取网页信息,网页信息包括url、标题、正文、html标签信息。
步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页。
步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序。
对网页中的链接进行得分计算的方法如下:
S401、计算链接的内容得分,公式如下:
scorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)
其中,link表示当前链接,inherited(link)是从父页面继承来的得分,计算公式如下:
Figure GDA0002961079340000021
其中,link表示当前链接,cur-page表示当前页面,topic表示当前主题,sim函数表示主题相关度公式,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:
neighbourhood(link)=β*anchor_score(link)+(1-β)*anchor_ctx_score(link)
其中,β为加权系数,anchor_score(link)表示链接的锚文本评分,anchor_ctx_score(link)表示链接的锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算。具体计算公式如下:
anchor_score(link)=sim(topic,anchor_text)
Figure GDA0002961079340000031
其中,anchor_text表示链接锚文本,anchor_ctx表示链接上下文文本,topic表示当前主题,γ,δ,β为预定义常量。
S402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:
1).任意2个字母之间是相似的。
2).两个相同的字符串是相似的。
3).长度相同的2个字符串,如果对应位置的类型一致,也是相似的。
S403、将url聚类,聚类方法如下:
步骤1).从当前簇中任选一个url记为uc
步骤2).如果当前url相似于uc,则将url归为当前簇。
步骤3).如果不相似,则选择下一个簇,重复上述步骤1-2)。
步骤4).如果所有簇都不相似,则该url自成一簇。
S404、根据url聚类的结果计算url聚类得分,公式如下:
Figure GDA0002961079340000032
其中,scorecluster表示聚类得分,当前url属于的簇ci,则记ci中url数量为n1,当前系统中已保存的所有url数量为N′,簇的数量为K1
S404、计算链接的最终得分,具体公式为:
score(link)=w*scorecluster(link)+(1-w)*scorecontent(link)
其中,link表示当前链接,score(link)表示链接的最终得分,scorecluster(link)表示链接的聚类得分,scorecontent(link)表示链接的内容得分,w表示加权系数。
优选的:步骤3中对网页的主题进行判别的方法如下:
S201、通过外部语料库训练得到word2vec词向量以及LDA的主题-词语分布矩阵φ。
S202、根据主题-词语分布矩阵φ求得词语的主题信息向量,具体公式如下:
Figure GDA0002961079340000041
其中,wc,k表示第c个词wc对应第k个主题tk的概率,P(wc|tk)表示选择主题tk的情况下选择词wc的概率,K表示所有的主题数,
Figure GDA0002961079340000042
表示主题模型的输出中主题tk下词wc的概率,
Figure GDA0002961079340000043
表示主题tt下词wc的概率。
S203、构建主题词向量,具体公式为:
Figure GDA0002961079340000044
其中,V表示该词的主题词向量,词向量的维度是K,WN″表示词N″对应的word2vec词向量,ZN″表示通过LDA求得的主题向量,其维度M是LDA中预设的主题的数目,V为最终求得的词向量,为K+M维。
S204、使用改进TF-IDF公式抽取网页关键词,改进TF-IDF公式为:
Figure GDA0002961079340000045
Figure GDA0002961079340000046
其中,bi表示页面中词wi对应的标签权重系数,fi表示词wi在页面中出现的次数,tn表示词wi在页面中第n次出现,
Figure GDA00029610793400000410
表示词wi第n次出现所在标签的权重,weighti表示第i个词的权重,tfi表示第i个词的词频,idfi表示逆文档频率,fmax表示第i个词在语料库中出现的总频次,N表示语料库中文档总数,Ni表示包含第i个词的文档数量。
S205、将网页和主题表示为关键词的主题词向量,具体公式为:
Figure GDA0002961079340000047
Figure GDA0002961079340000048
其中,PV表示网页向量,T为关键词总数,weightt表示第t个词的权重,Vt表示该词的主题词向量,TV表示主题向量,K3表示主题关键词词个数,
Figure GDA0002961079340000049
表示主题关键词对应的主题词向量。
S206、根据余弦公式计算主题相关度:
Figure GDA0002961079340000051
其中,relevance表示相关度,cos表示余弦距离。
优选的:步骤4中所述搜索过程算法具体过程如下:
S301、将种子urls加入优先级队列queue。
S302、从queue的队首取得url,并判断url的搜索深度是否小于零,如果是则丢弃,否则进行下一步。
S303、下载该url指向的网页,并进行主题判别并提取全部链接。
S304、对提取到的链接,计算其得分,得分包括链接内容得分以及链接url聚类得分。
S305、根据父页面类型以及父页面相关度计算链接的搜索深度。
S306、如果链接不在queue中,则将链接插入queue,如果在queue中已经存在该链接,则根据新计算出的链接得分以及搜索深度更新queue中的链接。
S307、根据queue中链接得分以及搜索深度调整队列中链接的顺序,然后重复S302-S307,直到满足停止条件或queue为空则停止爬虫。
优选的:步骤4中所述的计算搜索深度的步骤如下:
S501、计算当前页面是否是主题相关。
S502、如果是相关页面,则搜索深度为预定义的深度D。
S503、如果不是相关页面,则需要根据当前页面的类型设置搜索深度,具体公式为:
Figure GDA0002961079340000052
其中,depth是搜索深度,D是预设值的初始搜索深度,cur_page表示当前页面,depthcur-page表示链接所属当前页面的搜索深度。
优选的:所述步骤4中页面的类型判别方法为:
S601、根据下表的属性提取特征:
Figure GDA0002961079340000053
Figure GDA0002961079340000061
S602、构建SVM分类器进行hub型页面判定,SVM的目标函数为:
Figure GDA0002961079340000062
其中,δ1为阀值,min表示求最小值函数,W表示系数矩阵,
Figure GDA0002961079340000063
表示结果标签,
Figure GDA0002961079340000064
表示特征矩阵,b表示常量。
本发明相比现有技术,具有以下有益效果:
本发明提出一种新的主题相关度计算模型:通过引入词向量以及主题模型构建主题词向量,对词语进行语义扩充。结合网页的半结构化特征改进TF-IDF算法并进行网页关键词抽取,将网页与主题之间的相关度转化为网页关键词与主题词之间的相关度。在此基础上将网页与主题转化为对应关键词主题词向量的加权平均表示,最终使用网页向量和主题向量之间的余弦距离计算主题相关度。根据互联网的内容聚合原则,提出了一种基于url聚类的链接评价方法,计算链接在网络结构方面的得分,与Shark-Search算法原有的链接内容得分共同构成链接得分,不仅解决了“近视问题”,并且降低了Shark-Search算法因锚文本缺失造成的错误率,同时也很好的防止了爬虫的主题漂移。对Shark-Search算法中的隧道穿越机制进行优化,结合HITS算法思想对网页进行hub类型判定,针对不同类型的网页制定不同的隧道穿越策略,提高了爬取覆盖范围。
附图说明
图1为一种基于改进鲨鱼搜索的主题爬虫方法的流程图。
图2为主题爬虫系统的结构图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于改进鲨鱼搜索的主题爬虫方法,通过引入词向量以及主题模型构建主题词向量,对词语进行语义扩充。结合网页的半结构化特征改进TF-IDF算法并进行网页关键词抽取,将网页与主题之间的相关度转化为网页关键词与主题词之间的相关度。在此基础上将网页与主题转化为对应关键词主题词向量的加权平均表示,最终使用网页向量和主题向量之间的余弦距离计算主题相关度。根据互联网的内容聚合原则,提出了一种基于url聚类的链接评价方法,计算链接在网络结构方面的得分,与Shark-Search算法原有的链接内容得分共同构成链接得分,不仅解决了“近视问题”,并且降低了Shark-Search算法因锚文本缺失造成的错误率,同时也很好的防止了爬虫的主题漂移。对Shark-Search算法中的隧道穿越机制进行优化,结合HITS算法思想对网页进行hub类型判定,针对不同类型的网页制定不同的隧道穿越策略,提高了爬取覆盖范围,如图1、2所示,具体包括以下步骤:
步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇若干。
步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接。根据下载的网页,使用解析工具提取网页的url、标题、正文、html标签等信息。
步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页。
步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序。
步骤3中所述主题判别方法具体过程如下:
S201、通过外部语料库训练得到word2vec词向量以及LDA的主题-词语分布矩阵φ。
S202、根据主题-词语分布矩阵φ求得词语的主题信息向量,具体公式如下:
Figure GDA0002961079340000081
S203、构建主题词向量,具体公式为:
Figure GDA0002961079340000082
其中,V表示该词在word2vec模型求得的词向量,词向量的维度是K,ZN″表示通过LDA求得的主题向量,其维度M是LDA中预设的主题的数目,V为最终求得的词向量,为K+M维。
S204、使用改进TF-IDF公式抽取网页关键词,改进TF-IDF公式为:
Figure GDA0002961079340000083
Figure GDA0002961079340000084
其中,bi表示页面中词wi对应的标签权重系数,fi表示词wi在页面中出现的次数,tn表示词wi在页面中第n次出现,
Figure GDA0002961079340000088
表示词wi第n次出现所在标签的权重。
S205、将网页和主题表示为关键词的主题词向量加权平均向量,具体公式为:
Figure GDA0002961079340000085
Figure GDA0002961079340000086
S206、根据余弦公式计算主题相关度:
Figure GDA0002961079340000087
步骤4中所述搜索过程算法具体过程如下:
S301、将种子urls加入优先级队列queue。
S302、从queue的队首取得url,并判断url的搜索深度是否小于零,如果是则丢弃,否则进行下一步。
S303、下载该url指向的网页,并进行主题判别并提取全部链接。
S304、对提取到的链接,计算其得分,得分包括链接内容得分以及链接url聚类得分。
计算链接得分步骤如下:
S401、计算链接的内容得分,公式如下:
scorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)
其中,inherited(link)是从父页面继承来的得分,计算公式如下:
Figure GDA0002961079340000091
其中,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:
neighbourhood(link)=β*anchor_score(link)+(1-ββ)*anchor_ctx_score(link)
其中,anchor_score(link)表示链接的锚文本评分,anchor_ctx_score(link)表示链接的锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算。具体
计算公式如下:
anchor_score(link)=sim(topic,anchor_text)
Figure GDA0002961079340000092
上述公式中γ,δ,β为预定义常量。
S402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:
1.任意2个字母(非数字或标点)之间是相似的
2.两个相同的字符串(长度大于2)是相似的
3.长度相同的2个字符串,如果对应位置的类型一致,也是相似的,比如”doc-ihsxncvh2934103”和”doc-ihrfqzkc4512315”对应位置或都为数字,或都为字母,或都为符号,因此它们也是相似的。
S403、将url聚类,聚类方法如下:
1.从当前簇中任选一个url记为uc
2.如果当前url相似于uc,则将url归为当前簇。
3.如果不相似,则选择下一个簇,重复上述步骤。
4.如果所有簇都不相似,则该url自成一簇。
S404、根据url聚类的结果计算url聚类得分,公式如下:
Figure GDA0002961079340000101
其中,当前url属于的簇ci,则记ci中url数量为n1,当前系统中已保存的所有url数量为N′,簇的数量为K1
S405、计算链接的最终得分,具体公式为:
score(link)=w*scorecluster(link)+(1-w)*sCorecontent(link)
S305、根据父页面类型以及父页面相关度计算链接的搜索深度。
计算搜索深度的步骤如下:
S501、计算当前页面是否是主题相关。
S502、如果是相关页面,则搜索深度为预定义的深度D。
S503、如果不是相关页面,则需要根据当前页面的类型设置搜索深度,具体公式为:
Figure GDA0002961079340000102
判别页面时hub型还是authority型的步骤为:
S601、根据下表的属性提取特征:
Figure GDA0002961079340000103
Figure GDA0002961079340000111
S602、构建SVM分类器进行hub型页面判定,SVM的目标函数为:
Figure GDA0002961079340000112
S306、如果链接不在queue中,则将链接插入queue,如果在queue中已经存在该链接,则根据新计算出的链接得分以及搜索深度更新queue中的链接。
S307、根据queue中链接得分以及搜索深度调整队列中链接的顺序,然后重复S302-S307,直到满足停止条件或queue为空则停止爬虫。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于改进鲨鱼搜索的主题爬虫方法,其特征在于,包括如下步骤:
步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇;
步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接;根据下载的网页,使用解析工具提取网页信息,网页信息包括url、标题、正文、html标签信息;
步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页;
步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序;
对网页中的链接进行得分计算的方法如下:
S401、计算链接的内容得分,公式如下:
scorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)
其中,link表示当前链接,inherited(link)是从父页面继承来的得分,计算公式如下:
Figure FDA0002961079330000011
其中,link表示当前链接,cur_page表示当前页面,topic表示当前主题,sim函数表示主题相关度公式,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:
neighbourhood(link)=β*anchor_score(link)+(1-β)*anchor_ctx_score(link)
其中,β为加权系数,anchor_score(link)表示链接的锚文本评分,anchor_ctx_score(link)表示链接的锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算;具体计算公式如下:
anchor_score(link)=sim(topic,anchor_text)
Figure FDA0002961079330000012
其中,anchor_text表示链接锚文本,anchor_ctx表示链接上下文文本,topic表示当前主题,γ,δ,β为预定义常量;
S402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:
1).任意2个字母之间是相似的;
2).两个相同的字符串是相似的;
3).长度相同的2个字符串,如果对应位置的类型一致,也是相似的;
S403、将url聚类,聚类方法如下:
步骤1).从当前簇中任选一个url记为uc
步骤2).如果当前url相似于uc,则将url归为当前簇;
步骤3).如果不相似,则选择下一个簇,重复上述步骤1-2);
步骤4).如果所有簇都不相似,则该url自成一簇;
S404、根据url聚类的结果计算url聚类得分,公式如下:
Figure FDA0002961079330000021
其中,scorecluster表示聚类得分,当前url属于的簇ci,则记ci中url数量为n1,当前系统中已保存的所有url数量为N',簇的数量为K1
S404、计算链接的最终得分,具体公式为:
score(link)=w*scorecluster(link)+(1-w)*scorecontent(link)
其中,link表示当前链接,score(link)表示链接的最终得分,scorecluster(link)表示链接的聚类得分,scorecontent(link)表示链接的内容得分,w表示加权系数。
2.根据权利要求1所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:步骤3中对网页的主题进行判别的方法如下:
S201、通过外部语料库训练得到word2vec词向量以及LDA的主题-词语分布矩阵φ;
S202、根据主题-词语分布矩阵φ求得词语的主题信息向量,具体公式如下:
Figure FDA0002961079330000022
其中,wc,k表示第c个词wc对应第k个主题tk的概率,P(wc|tk)表示选择主题tk的情况下选择词wc的概率,K表示所有的主题数,
Figure FDA0002961079330000023
表示主题模型的输出中主题tk下词wc的概率,
Figure FDA0002961079330000024
表示主题tk下词wc的概率;
S203、构建主题词向量,具体公式为:
Figure FDA0002961079330000031
其中,V表示该词的主题词向量,词向量的维度是K,WN″表示词N″对应的word2vec词向量,ZN″表示通过LDA求得的主题向量,其维度M是LDA中预设的主题的数目,V为最终求得的词向量,为K+M维;
S204、使用改进TF-IDF公式抽取网页关键词,改进TF-IDF公式为:
Figure FDA0002961079330000032
Figure FDA0002961079330000033
其中,bi表示页面中词wi对应的标签权重系数,fi表示词wi在页面中出现的次数,tn表示词wi在页面中第n次出现,
Figure FDA0002961079330000037
表示词wi第n次出现所在标签的权重,weighti表示第i个词的权重,tfi表示第i个词的词频,idfi表示逆文档频率,fmax表示第i个词在语料库中出现的总频次,N表示语料库中文档总数,Ni表示包含第i个词的文档数量;
S205、将网页和主题表示为关键词的主题词向量,具体公式为:
Figure FDA0002961079330000034
Figure FDA0002961079330000035
其中,PV表示网页向量,T为关键词总数,weightt表示第t个词的权重,Vt表示该词的主题词向量,TV表示主题向量,K3表示主题关键词词个数,
Figure FDA0002961079330000038
表示主题关键词对应的主题词向量;
S206、根据余弦公式计算主题相关度:
Figure FDA0002961079330000036
其中,relevance表示相关度,cos表示余弦距离。
3.根据权利要求2所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:步骤4中所述搜索过程算法具体过程如下:
S301、将种子urls加入优先级队列queue;
S302、从queue的队首取得url,并判断url的搜索深度是否小于零,如果是则丢弃,否则进行下一步;
S303、下载该url指向的网页,并进行主题判别并提取全部链接;
S304、对提取到的链接,计算其得分,得分包括链接内容得分以及链接url聚类得分;
S305、根据父页面类型以及父页面相关度计算链接的搜索深度;
S306、如果链接不在queue中,则将链接插入queue,如果在queue中已经存在该链接,则根据新计算出的链接得分以及搜索深度更新queue中的链接;
S307、根据queue中链接得分以及搜索深度调整队列中链接的顺序,然后重复S302-S307,直到满足停止条件或queue为空则停止爬虫。
4.根据权利要求3所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:步骤4中所述的计算搜索深度的步骤如下:
S501、计算当前页面是否是主题相关;
S502、如果是相关页面,则搜索深度为预定义的深度D;
S503、如果不是相关页面,则需要根据当前页面的类型设置搜索深度,具体公式为:
Figure FDA0002961079330000041
其中,depth是搜索深度,D是预设值的初始搜索深度,cur_page表示当前页面,depthcur_page表示链接所属当前页面的搜索深度。
5.根据权利要求4所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:所述步骤4中页面的类型判别方法为:
S601、根据下表的属性提取特征:
Figure FDA0002961079330000042
Figure FDA0002961079330000051
S602、构建SVM分类器进行hub型页面判定,SVM的目标函数为:
Figure FDA0002961079330000052
其中,δ1为阀值,min表示求最小值函数,W表示系数矩阵,
Figure FDA0002961079330000053
表示结果标签,
Figure FDA0002961079330000054
表示特征矩阵,b表示常量。
CN201910395283.7A 2019-05-13 2019-05-13 一种基于改进鲨鱼搜索的主题爬虫方法 Active CN110532450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910395283.7A CN110532450B (zh) 2019-05-13 2019-05-13 一种基于改进鲨鱼搜索的主题爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910395283.7A CN110532450B (zh) 2019-05-13 2019-05-13 一种基于改进鲨鱼搜索的主题爬虫方法

Publications (2)

Publication Number Publication Date
CN110532450A CN110532450A (zh) 2019-12-03
CN110532450B true CN110532450B (zh) 2021-05-04

Family

ID=68659304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910395283.7A Active CN110532450B (zh) 2019-05-13 2019-05-13 一种基于改进鲨鱼搜索的主题爬虫方法

Country Status (1)

Country Link
CN (1) CN110532450B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291201B (zh) * 2020-03-06 2023-10-03 百度在线网络技术(北京)有限公司 一种多媒体内容分值处理方法、装置和电子设备
CN111459806B (zh) * 2020-03-17 2022-09-23 南京邮电大学 一种基于plsa主题模型和em算法确定网页元素主题的方法
CN112947506B (zh) * 2021-04-28 2022-08-02 哈尔滨工程大学 基于量子鲨鱼机制的auv全局路径规划方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886020B (zh) * 2014-02-21 2017-04-05 杭州电子科技大学 一种房地产信息快速搜索方法
CN103914538B (zh) * 2014-04-01 2017-02-15 浙江大学 基于锚文本上下文和链接分析的主题抓取方法
CN107908698B (zh) * 2017-11-03 2021-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统
CN108681571B (zh) * 2018-05-05 2024-02-27 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108959413B (zh) * 2018-06-07 2020-09-11 吉林大学 一种主题网页爬取方法及主题爬虫系统

Also Published As

Publication number Publication date
CN110532450A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
US9817825B2 (en) Multiple index based information retrieval system
US7636714B1 (en) Determining query term synonyms within query context
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
US9405805B2 (en) Identification and ranking of news stories of interest
US8630972B2 (en) Providing context for web articles
US8799294B2 (en) Method for enhancing search and browsing in collaborative tagging systems through learned tag hierarchies
US7702618B1 (en) Information retrieval system for archiving multiple document versions
US7761447B2 (en) Systems and methods that rank search results
US8156097B2 (en) Two stage search
CN110532450B (zh) 一种基于改进鲨鱼搜索的主题爬虫方法
CN105045875B (zh) 个性化信息检索方法及装置
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN101493819B (zh) 一种搜索引擎作弊检测的优化方法
US20060123000A1 (en) Machine learning system for extracting structured records from web pages and other text sources
US20080319971A1 (en) Phrase-based personalization of searches in an information retrieval system
US20060020571A1 (en) Phrase-based generation of document descriptions
US20070203885A1 (en) Document Classification Method, and Computer Readable Record Medium Having Program for Executing Document Classification Method By Computer
US20060020607A1 (en) Phrase-based indexing in an information retrieval system
JP2006048684A (ja) 情報検索システムにおけるフレーズに基づく検索方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
US20080288483A1 (en) Efficient retrieval algorithm by query term discrimination
CN110555154B (zh) 一种面向主题的信息检索方法
Asirvatham et al. Web page classification based on document structure
Mali et al. Focused web crawler with revisit policy
Jebari et al. A multi-label and adaptive genre classification of web pages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant