CN110532450A - 一种基于改进鲨鱼搜索的主题爬虫方法 - Google Patents
一种基于改进鲨鱼搜索的主题爬虫方法 Download PDFInfo
- Publication number
- CN110532450A CN110532450A CN201910395283.7A CN201910395283A CN110532450A CN 110532450 A CN110532450 A CN 110532450A CN 201910395283 A CN201910395283 A CN 201910395283A CN 110532450 A CN110532450 A CN 110532450A
- Authority
- CN
- China
- Prior art keywords
- link
- theme
- score
- url
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 241000251730 Chondrichthyes Species 0.000 title claims abstract description 15
- 230000006872 improvement Effects 0.000 title claims description 12
- 230000004069 differentiation Effects 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 230000007812 deficiency Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 238000010845 search algorithm Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 208000001491 myopia Diseases 0.000 description 3
- 230000004379 myopia Effects 0.000 description 3
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 description 2
- 102100026983 Protein FAM107B Human genes 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000035515 penetration Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。
Description
技术领域
本发明涉及一种基于改进鲨鱼搜索的主题爬虫方法,该方法解决了在主题爬虫系统中主题判别不准确,爬取覆盖范围低的问题。
背景技术
随着网络以及移动网络技术的高速发展,互联网普及率不断在提高,截至2018年12月,我国网民规模达到了8.2亿,互联网普及率为59.6%。根据中国互联网络信息中心2019年发布的第43次《中国互联网络发展状况统计报告》,我国当前的域名总数为3792.8万个,其中“.CN”域名总数为2124.3万个,对比2015年增长31%。互联网页面爆炸式增长不仅能让信息可以更加快速的传播,也能满足用户各式各样的信息需求。然而另一方面,互联网充斥着大量各行业各领域嘈杂的数据,这带来了信息过载的现象:信息的过于丰富远远超过了用户能够处理的程度,大量无关、冗余的数据直接影响了用户查找目标数据的体验。搜索引擎的出现极大地提高了用户检索网页数据的效率,用户只需要输入感兴趣的检索条件就能浏览到相关页面。然而搜索引擎存在着一定的局限性:传统搜索引擎对网络资源的覆盖率只有40%左右,还有大部分的数据无法被检索到;不同领域背景的用户往往具有不同的检索需求,当用户需要检索特定方面的内容时,搜索引擎所返回的结果会包含大量用户不感兴趣的网页,在面对某一具体领域时,检索结果往往不尽如人意。
随着搜索引擎技术的发展,针对其存在的不足之处,人们提出了垂直搜索的概念。不同于通用搜索引擎追求网页的覆盖率,垂直搜索引擎专注于特定的搜索领域和搜索需求,因此在面对特定搜索领域时有更好的用户体验。主题爬虫是通用爬虫程序的延伸,也是一种自动获取网络资源的程序,主要区别在于:普通爬虫不关注网页的内容质量和爬取顺序,而主题爬虫则刚好相反,对网页内容和爬取顺序都很敏感。主题爬虫的目的是为了尽可能多地爬取到与特定主题相关的网页,而避免访问主题不相关的网页,从而节省爬取时间、存储空间和网络带宽。相较于通用爬虫,主题爬虫需要解决的关键问题是如何判断网页与主题的相关性以及计算未下载网页的访问优先级,主题爬虫在这两方面性能越好,垂直搜索引擎的用户体验才能越佳。
因此,如何提供一种针对预定主题,尽量避免无关网页访问,高效精准的主题爬虫方法是本领域技术人员亟需解决的关键问题。
发明内容
发明目的:考虑到现有主题爬虫算法在主题判别方面不够准确,容易引入许多无关网页,并且其搜索过程存在一些不足,容易忽视网络链接的整体结构,导致近视问题,同时在存在隧道问题,爬取覆盖范围小,本发明提供一种基于改进鲨鱼搜索的主题爬虫方法,本发明通过结合word2vec词向量以及LDA主题模型对词语的语义进行扩充,提出一种新的基于主题词向量的相关度判别模型;同时针对传统的鲨鱼搜索进行改进,使用url聚类计算链接属于主题团的得分,并且根据对网页进行hub页面判定指定不同的隧道穿越策略。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤:
步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇;
步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接;根据下载的网页,使用解析工具提取网页信息,网页信息包括url、标题、正文、html标签信息;
步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页;
步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序;
对网页中的链接进行得分计算的方法如下:
S401、计算链接的内容得分,公式如下:
scorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)
其中,link表示当前链接,neighborhood(link)表示链接的邻接得分,inherited(link)是从父页面继承来的得分,计算公式如下:
其中,link表示当前链接,cur_page表示当前页面,topic表示当前主题,sim函数为余弦公式计算得到,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:
neighborhood(link)=β*anchor_score(link)+(1-β)*anchor_ctx_score(link)
其中,β为加权系数,anchor_score(url)和anchor_ctx_score(link)分别是链接的锚文本和锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算;具体计算公式如下:
anchor_score(link)=sim(topic,anchor_text)
其中,anchor_score(link)表示链接的锚文本评分,anchor_text表示链接锚文本link表示当前链接,anchor_ctx_score(link)表示链接锚文本附近文本评分,anchor_ctx表示链接上下文文本,sim函数表示主题相关度公式,topic表示当前主题,γ,δ,β为预定义常量;
S402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:
1).任意2个字母之间是相似的;
2).两个相同的字符串是相似的;
3).长度相同的2个字符串,如果对应位置的类型一致,也是相似的;
S403、将url聚类,聚类方法如下:
步骤1).从当前簇中任选一个url记为uc;
步骤2).如果当前url相似于uc,则将url归为当前簇;
步骤3).如果不相似,则选择下一个簇,重复上述步骤1-2);
步骤4).如果所有簇都不相似,则该url自成一簇;
S404、根据url聚类的结果计算url聚类得分,公式如下:
其中,score_cluster表示聚类得分,当前url属于的簇ci,则记ci中url数量为n,当前系统中已保存的所有url数量为N,簇的数量为K;
S404、计算链接的最终得分,具体公式为:
score(link)=w*scorecluster(url)+(1-w)*scorecontent(link)
其中,link表示当前链接,score(link)表示链接的最终得分,score_cluster(link)表示链接的聚类得分,scorecontent(link)表示链接的内容得分,w表示加权系数。
优选的:步骤3中对网页的主题进行判别的方法如下:
S201、通过外部语料库训练得到word2vec词向量以及LDA的主题-词语分布矩阵φ;
S202、根据主题-词语分布矩阵φ求得词语的主题信息向量,具体公式如下:
其中wc,k表示第c个词wc对应第k个主题tk的概率,P(tk|wc)表示在已知wc,k的情况下出现主题tk的条件概率,P(wc|tk)表示选择主题tk的情况下选择词ωc的概率,K表示所有的主题数,表示主题模型的输出中主题tk下词ωc的概率,表示主题tt下词ωc的概率。
S203、构建主题词向量,具体公式为:
其中,V表示该词的主题词向量,词向量的维度是K,WN表示词N对应的word2vec词向量,ZN表示通过LDA求得的主题向量,其维度M是LDA中预设的主题的数目,V为最终求得的词向量,为K+M维;
S204、使用改进TF-IDF公式抽取网页关键词,改进TF-IDF公式为:
其中,bi页面中词wi对应的标签权重系数,fi表示词wi在页面中出现的次数,tn表示wi在页面中第n次出现,表示wi第n词出现所在标签的权重,weighti表示第i个词的权重,tfi表示第i个词的词频,idfi表示逆文档频率,fmax表示第i个词在语料库中出现的总频次,N表示语料库中文档总数,Ni表示包含第i个词的文档数量;
S205、将网页和主题表示为关键词的主题词向量加权平均向量,具体公式为:
其中,PV表示网页向量,T为关键词总数,wcightt表示第t个词的权重,Vt表示该词的主题词向量,TV表示网页向量,K表示主题关键词词个数,Wk表示主题关键词对应的主题词向量。
S206、根据余弦公式计算主题相关度:
其中,relevance表示相关度,cos表示余弦距离,PV和TV分别为网页向量和主题向量。
根据权利要求2所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:步骤4中所述搜索过程算法具体过程如下。
优选的:步骤4中所述搜索过程算法具体过程如下:
S301、将种子urls加入优先级队列queue;
S302、从queue的队首取得url,并判断url的搜索深度是否小于零,如果适合则丢弃,否则进行下一步;
S303、下载该url指向的网页,并进行主题判别并提取全部链接;
S304、对提取到的链接,计算其得分,得分包括链接内容得分以及链接url聚类得分;
S305、根据父页面类型以及父页面相关度计算链接的搜索深度;
S306、如果链接不在queue中,则将链接插入queue,如果在queue中已经存在该链接,则根据新计算出的链接得分以及搜索深度更新queue中的链接;
S307、根据queue中链接得分以及搜索深度调整队列中链接的顺序,然后重复S302-S307,直到满足停止条件或queue为空则停止爬虫。
优选的:步骤4中所述的计算搜索深度的步骤如下:
S501、计算当前页面是否是主题相关;
S502、如果是相关页面,则搜索深度为预定义的深度D;
S503、如果不是相关页面,则需要根据当前页面的类型设置搜索深度,具体公式为:
其中,depth是搜索深度,D是预设值的初始搜索深度,cur_page表示当前页面,depthcur_page表示链接所属当前页面的搜索深度
所述步骤4中判别页面时hub型还是authority型的步骤为:
S601、根据下表的属性提取特征:
S602、构建SVM分类器进行hub型页面判定,SVM的目标函数为:
min(w,b)||w|| s.t.yi(wTxi+b)≥δ,i=1,...,m
其中,其中,δ为阀值,min表示求最小值函数,W表示系数矩阵,yi表示结果标签,xi表示特征矩阵,b表示常量。
本发明相比现有技术,具有以下有益效果:
本发明提出一种新的主题相关度计算模型:通过引入词向量以及主题模型构建主题词向量,对词语进行语义扩充;结合网页的半结构化特征改进TF-IDF算法并进行网页关键词抽取,将网页与主题之间的相关度转化为网页关键词与主题词之间的相关度;在此基础上将网页与主题转化为对应关键词主题词向量的加权平均表示,最终使用网页向量和主题向量之间的余弦距离计算主题相关度。根据互联网的内容聚合原则,提出了一种基于url聚类的链接评价方法,计算链接在网络结构方面的得分,与Shark-Search算法原有的链接内容得分共同构成链接得分,不仅解决了“近视问题”,并且降低了Shark-Search算法因锚文本缺失造成的错误率,同时也很好的防止了爬虫的主题漂移。对Shark-Search算法中的隧道穿越机制进行优化,结合HITS算法思想对网页进行hub类型判定,针对不同类型的网页制定不同的隧道穿越策略,提高了爬取覆盖范围。
附图说明
图1为一种基于改进鲨鱼搜索的主题爬虫方法的流程图。
图2为主题爬虫系统的结构图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于改进鲨鱼搜索的主题爬虫方法,通过引入词向量以及主题模型构建主题词向量,对词语进行语义扩充;结合网页的半结构化特征改进TF-IDF算法并进行网页关键词抽取,将网页与主题之间的相关度转化为网页关键词与主题词之间的相关度;在此基础上将网页与主题转化为对应关键词主题词向量的加权平均表示,最终使用网页向量和主题向量之间的余弦距离计算主题相关度。根据互联网的内容聚合原则,提出了一种基于url聚类的链接评价方法,计算链接在网络结构方面的得分,与Shark-Search算法原有的链接内容得分共同构成链接得分,不仅解决了“近视问题”,并且降低了Shark-Search算法因锚文本缺失造成的错误率,同时也很好的防止了爬虫的主题漂移。对Shark-Search算法中的隧道穿越机制进行优化,结合HITS算法思想对网页进行hub类型判定,针对不同类型的网页制定不同的隧道穿越策略,提高了爬取覆盖范围,如图1、2所示,具体包括以下步骤:
步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇若干;
步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接。根据下载的网页,使用解析工具提取网页的url、标题、正文、html标签等信息;
步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页;
步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序。
步骤3中所述主题判别方法具体过程如下:
S201、通过外部语料库训练得到word2vec词向量以及LDA的主题-词语分布矩阵φ;
S202、根据主题-词语分布矩阵φ求得词语的主题信息向量,具体公式如下:
S203、构建主题词向量,具体公式为:
其中表示该词在word2vec模型求得的词向量,词向量的维度是K,ZN表示通过LDA求得的主题向量,其维度M是LDA中预设的主题的数目,V为最终求得的词向量,为K+M维。
S204、使用改进TF-IDF公式抽取网页关键词,改进TF-IDF公式为:
bi页面中词wi对应的标签权重系数,其中fi表示词wi在页面中出现的次数,tn表示wi在页面中第n次出现,表示wi第n词出现所在标签的权重。
S205、将网页和主题表示为关键词的主题词向量加权平均向量,具体公式为:
S206、根据余弦公式计算主题相关度:
步骤4中所述搜索过程算法具体过程如下:
S301、将种子urls加入优先级队列queue;
S302、从queue的队首取得url,并判断url的搜索深度是否小于零,如果适合则丢弃,否则进行下一步;
S303、下载该url指向的网页,并进行主题判别并提取全部链接,采用的主题判别方法为权利要求2中涉及的;
S304、对提取到的链接,计算其得分,得分包括链接内容得分以及链接url聚类得分;
计算链接得分步骤如下:
S401、计算链接的内容得分,公式如下:
scorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)
其中inherited(link)是从父页面继承来的得分,计算公式如下:
其中sim函数为权利要求2中的relevance计算方法,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:
neighborhood(link)=β*anchor_score(link)+(1-β)*anchor_ctx_score(link)
其中anchor_score(url)和anchor_ctx_score(link)分别是链接的锚文本和锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算。具体计算公式如下:
anchor_score(link)=sim(topic,anchor_text)
上述公式中γ,δ,β为预定义常量。
S402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:
1.任意2个字母(非数字或标点)之间是相似的
2.两个相同的字符串(长度大于2)是相似的
3.长度相同的2个字符串,如果对应位置的类型一致,也是相似的,比如”doc-ihsxncvh2934103”和”doc-ihrfqzkc4512315”对应位置或都为数字,或都为字母,或都为符号,因此它们也是相似的。
S403、将url聚类,聚类方法如下:
1.从当前簇中任选一个url记为uc
2.如果当前url相似于uc,则将url归为当前簇
3.如果不相似,则选择下一个簇,重复上述步骤
4.如果所有簇都不相似,则该url自成一簇
S404、根据url聚类的结果计算url聚类得分,公式如下:
其中当前url属于的簇ci,则记ci中url数量为n,当前系统中已保存的所有url数量为N,簇的数量为K。
S405、计算链接的最终得分,具体公式为:
score(link)=w*scorecluster(url)+(1-w)*scorecontent(link)
S305、根据父页面类型以及父页面相关度计算链接的搜索深度;
计算搜索深度的步骤如下:
S501、计算当前页面是否是主题相关,计算步骤如权利要求2所示;
S502、如果是相关页面,则搜索深度为预定义的深度D;
S503、如果不是相关页面,则需要根据当前页面的类型设置搜索深度,具体公式为:
判别页面时hub型还是authority型的步骤为:
S601、根据下表的属性提取特征:
S602、构建SVM分类器进行hub型页面判定,SVM的目标函数为:
min(w,b)||w|| s.t.yi(wTxi+b)≥δ,i=1,...,m
S306、如果链接不在queue中,则将链接插入queue,如果在queue中已经存在该链接,则根据新计算出的链接得分以及搜索深度更新queue中的链接;
S307、根据queue中链接得分以及搜索深度调整队列中链接的顺序,然后重复S302-S307,直到满足停止条件或queue为空则停止爬虫。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于改进鲨鱼搜索的主题爬虫方法,其特征在于,包括如下步骤:
步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇;
步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接;根据下载的网页,使用解析工具提取网页信息,网页信息包括url、标题、正文、html标签信息;
步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页;
步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序;
对网页中的链接进行得分计算的方法如下:
S401、计算链接的内容得分,公式如下:
scorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)
其中,link表示当前链接,neighborhood(link)表示链接的邻接得分,inherited(link)是从父页面继承来的得分,计算公式如下:
其中,link表示当前链接,cur_page表示当前页面,topic表示当前主题,sim函数为余弦公式计算得到,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:
neighborhood(link)=β*anchor_score(link)+(1-β)*anchor_ctx_score(link)
其中,β为加权系数,anchor_score(url)和anchor_ctx_score(link)分别是链接的锚文本和锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算;具体计算公式如下:
anchor_score(link)=sim(topic,anchor_text)
其中,anchor_score(link)表示链接的锚文本评分,anchor_text表示链接锚文本,link表示当前链接,anchor_ctx_score(link)表示链接锚文本附近文本评分,anchor_ctx表示链接上下文文本,sim函数表示主题相关度公式,topic表示当前主题,γ,δ,β为预定义常量;
S402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:
1).任意2个字母之间是相似的;
2).两个相同的字符串是相似的;
3).长度相同的2个字符串,如果对应位置的类型一致,也是相似的;
S403、将url聚类,聚类方法如下:
步骤1).从当前簇中任选一个url记为uc;
步骤2).如果当前url相似于uc,则将url归为当前簇;
步骤3).如果不相似,则选择下一个簇,重复上述步骤1-2);
步骤4).如果所有簇都不相似,则该url自成一簇;
S404、根据url聚类的结果计算url聚类得分,公式如下:
其中,score_cluster表示聚类得分,当前url属于的簇ci,则记ci中url数量为n,当前系统中已保存的所有url数量为N,簇的数量为K;
S404、计算链接的最终得分,具体公式为:
score(link)=w*scorecluster(link)+(1-w)*scorecontent(link)
其中,link表示当前链接,score(link)表示链接的最终得分,score_cluster(link)表示链接的聚类得分,scorecontent(link)表示链接的内容得分,w表示加权系数。
2.根据权利要求1所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:步骤3中对网页的主题进行判别的方法如下:
S201、通过外部语料库训练得到word2vec词向量以及LDA的主题-词语分布矩阵φ;
S202、根据主题-词语分布矩阵φ求得词语的主题信息向量,具体公式如下:
其中wc,k表示第c个词wc对应第k个主题tk的概率,P(tk|wc)表示在已知wc,k的情况下出现主题tk的条件概率,P(wc|tk)表示选择主题tk的情况下选择词wc的概率,K表示所有的主题数,表示主题模型的输出中主题tk下词wc的概率,表示主题tt下词wc的概率
S203、构建主题词向量,具体公式为:
其中,V表示该词的主题词向量,词向量的维度是K,WN表示词N对应的word2vec词向量,ZN表示通过LDA求得的主题向量,其维度M是LDA中预设的主题的数目,V为最终求得的词向量,为K+M维;
S204、使用改进TF-IDF公式抽取网页关键词,改进TF-IDF公式为:
其中,bi页面中词wi对应的标签权重系数,fi表示词wi在页面中出现的次数,tn表示wi在页面中第n次出现,表示wi第n词出现所在标签的权重,weighti表示第i个词的权重,tfi表示第i个词的词频,idfi表示逆文档频率,fmax表示第i个词在语料库中出现的总频次,N表示语料库中文档总数,Ni表示包含第i个词的文档数量。
S205、将网页和主题表示为关键词的主题词向量加权平均向量,具体公式为:
其中,PV表示网页向量,T为关键词总数,weightt表示第t个词的权重,Vt表示该词的主题词向量,TV表示网页向量,K表示主题关键词词个数,Wk表示主题关键词对应的主题词向量。
S206、根据余弦公式计算主题相关度:
其中,relevance表示相关度,cos表示余弦距离,PV和TV分别为网页向量和主题向量。
3.根据权利要求2所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:步骤4中所述搜索过程算法具体过程如下:
S301、将种子urls加入优先级队列queue;
S302、从queue的队首取得url,并判断url的搜索深度是否小于零,如果适合则丢弃,否则进行下一步;
S303、下载该url指向的网页,并进行主题判别并提取全部链接;
S304、对提取到的链接,计算其得分,得分包括链接内容得分以及链接url聚类得分;
S305、根据父页面类型以及父页面相关度计算链接的搜索深度;
S306、如果链接不在queue中,则将链接插入queue,如果在queue中已经存在该链接,则根据新计算出的链接得分以及搜索深度更新queue中的链接;
S307、根据queue中链接得分以及搜索深度调整队列中链接的顺序,然后重复S302-S307,直到满足停止条件或queue为空则停止爬虫。
4.根据权利要求3所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:步骤4中所述的计算搜索深度的步骤如下:
S501、计算当前页面是否是主题相关;
S502、如果是相关页面,则搜索深度为预定义的深度D;
S503、如果不是相关页面,则需要根据当前页面的类型设置搜索深度,具体公式为:
其中,depth是搜索深度,D是预设值的初始搜索深度,cur_page表示当前页面,depthcur_page表示链接所属当前页面的搜索深度。
5.根据权利要求4所述基于改进鲨鱼搜索的主题爬虫方法,其特征在于:所述步骤4中页面的类型判别方法为:
S601、根据下表的属性提取特征:
S602、构建SVM分类器进行hub型页面判定,SVM的目标函数为:
min(w,b)||w||s.t.yi(wTxi+b)≥δ,i=1,...,m
其中,δ为阀值,min表示求最小值函数,W表示系数矩阵,yi表示结果标签,xi表示特征矩阵,b表示常量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395283.7A CN110532450B (zh) | 2019-05-13 | 2019-05-13 | 一种基于改进鲨鱼搜索的主题爬虫方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395283.7A CN110532450B (zh) | 2019-05-13 | 2019-05-13 | 一种基于改进鲨鱼搜索的主题爬虫方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532450A true CN110532450A (zh) | 2019-12-03 |
CN110532450B CN110532450B (zh) | 2021-05-04 |
Family
ID=68659304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910395283.7A Active CN110532450B (zh) | 2019-05-13 | 2019-05-13 | 一种基于改进鲨鱼搜索的主题爬虫方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532450B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291201A (zh) * | 2020-03-06 | 2020-06-16 | 百度在线网络技术(北京)有限公司 | 一种多媒体内容分值处理方法、装置和电子设备 |
CN111459806A (zh) * | 2020-03-17 | 2020-07-28 | 南京邮电大学 | 一种基于plsa主题模型和em算法确定网页元素主题的方法 |
CN112947506A (zh) * | 2021-04-28 | 2021-06-11 | 哈尔滨工程大学 | 基于量子鲨鱼机制的auv全局路径规划方法 |
CN114117177A (zh) * | 2021-11-09 | 2022-03-01 | 智文有限公司 | 一种基于TextCNN的主题爬虫方法及系统 |
CN117874319A (zh) * | 2024-03-11 | 2024-04-12 | 江西顶易科技发展有限公司 | 基于搜索引擎的信息挖掘方法、装置及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886020A (zh) * | 2014-02-21 | 2014-06-25 | 杭州电子科技大学 | 一种房地产信息快速搜索方法 |
CN103914538A (zh) * | 2014-04-01 | 2014-07-09 | 浙江大学 | 基于锚文本上下文和链接分析的主题抓取方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN108681571A (zh) * | 2018-05-05 | 2018-10-19 | 吉林大学 | 基于Word2Vec的主题爬虫系统和方法 |
CN108959413A (zh) * | 2018-06-07 | 2018-12-07 | 吉林大学 | 一种主题网页爬取方法及主题爬虫系统 |
-
2019
- 2019-05-13 CN CN201910395283.7A patent/CN110532450B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886020A (zh) * | 2014-02-21 | 2014-06-25 | 杭州电子科技大学 | 一种房地产信息快速搜索方法 |
CN103914538A (zh) * | 2014-04-01 | 2014-07-09 | 浙江大学 | 基于锚文本上下文和链接分析的主题抓取方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN108681571A (zh) * | 2018-05-05 | 2018-10-19 | 吉林大学 | 基于Word2Vec的主题爬虫系统和方法 |
CN108959413A (zh) * | 2018-06-07 | 2018-12-07 | 吉林大学 | 一种主题网页爬取方法及主题爬虫系统 |
Non-Patent Citations (5)
Title |
---|
FILIPPO MENCZER,GAUTAM PANT,PADMINI SRINIVASAN: "Topical Web Crawlers: Evaluating Adaptive Algorithms", 《ACM TRANSACTIONS ON INTERNET TECHNOLOGY》 * |
YOUWEI YUAN, DOU CHEN, YONG LI, DONGJIN YU, LAMEI YAN: "The improved Shark Search Approach for Crawling Large-scale Web Data", 《INTERNATIONAL JOURNAL OF MULTIMEDIA AND UBIQUITOUS ENGINEERING》 * |
仇磊,娄渊胜,常民: "一种改进Shark_Search的主题爬虫算法", 《微型电脑应用》 * |
程元堃; 廖闻剑; 程光: "词向量聚类加权Shark-Search 的主题爬虫策略研究", 《计算机与数字工程》 * |
苏祺,项锟,孙斌: "基于链接聚类的Shark-Search 算法", 《山东大学学报(理学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291201A (zh) * | 2020-03-06 | 2020-06-16 | 百度在线网络技术(北京)有限公司 | 一种多媒体内容分值处理方法、装置和电子设备 |
CN111291201B (zh) * | 2020-03-06 | 2023-10-03 | 百度在线网络技术(北京)有限公司 | 一种多媒体内容分值处理方法、装置和电子设备 |
CN111459806A (zh) * | 2020-03-17 | 2020-07-28 | 南京邮电大学 | 一种基于plsa主题模型和em算法确定网页元素主题的方法 |
CN111459806B (zh) * | 2020-03-17 | 2022-09-23 | 南京邮电大学 | 一种基于plsa主题模型和em算法确定网页元素主题的方法 |
CN112947506A (zh) * | 2021-04-28 | 2021-06-11 | 哈尔滨工程大学 | 基于量子鲨鱼机制的auv全局路径规划方法 |
CN114117177A (zh) * | 2021-11-09 | 2022-03-01 | 智文有限公司 | 一种基于TextCNN的主题爬虫方法及系统 |
CN114117177B (zh) * | 2021-11-09 | 2024-09-17 | 智文有限公司 | 一种基于TextCNN的主题爬虫方法及系统 |
CN117874319A (zh) * | 2024-03-11 | 2024-04-12 | 江西顶易科技发展有限公司 | 基于搜索引擎的信息挖掘方法、装置及计算机设备 |
CN117874319B (zh) * | 2024-03-11 | 2024-05-17 | 江西顶易科技发展有限公司 | 基于搜索引擎的信息挖掘方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110532450B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532450A (zh) | 一种基于改进鲨鱼搜索的主题爬虫方法 | |
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN102662954B (zh) | 一种基于url字符串信息学习的主题爬虫系统的实现方法 | |
CN102004792B (zh) | 一种热搜词生成方法及系统 | |
CN101872347B (zh) | 判断网页类型的方法和装置 | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
US20030115188A1 (en) | Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application | |
CN103064956A (zh) | 用于搜索电子内容的方法、计算系统和计算机可读介质 | |
CN109582704A (zh) | 招聘信息和求职简历匹配的方法 | |
CN103714149B (zh) | 一种自适应增量式的深层网络数据源发现方法 | |
CN101211339A (zh) | 基于用户行为的智能网页分类器 | |
CN102184262A (zh) | 基于web的文本分类挖掘系统及方法 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
CN101383782A (zh) | 一种获取网络资源标识的方法及系统 | |
Asirvatham et al. | Web page classification based on document structure | |
CN106971000A (zh) | 一种搜索方法及装置 | |
CN106649823A (zh) | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 | |
CN109446399A (zh) | 一种影视实体搜索方法 | |
CN103914538A (zh) | 基于锚文本上下文和链接分析的主题抓取方法 | |
WO2017000659A1 (zh) | 一种富集化url的识别方法和装置 | |
CN108681571A (zh) | 基于Word2Vec的主题爬虫系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |