CN108681571A - 基于Word2Vec的主题爬虫系统和方法 - Google Patents

基于Word2Vec的主题爬虫系统和方法 Download PDF

Info

Publication number
CN108681571A
CN108681571A CN201810422427.9A CN201810422427A CN108681571A CN 108681571 A CN108681571 A CN 108681571A CN 201810422427 A CN201810422427 A CN 201810422427A CN 108681571 A CN108681571 A CN 108681571A
Authority
CN
China
Prior art keywords
module
keyword
theme
webpage
word2vec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810422427.9A
Other languages
English (en)
Other versions
CN108681571B (zh
Inventor
彭涛
包铁
宋健
赫枫龄
周世奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201810422427.9A priority Critical patent/CN108681571B/zh
Publication of CN108681571A publication Critical patent/CN108681571A/zh
Application granted granted Critical
Publication of CN108681571B publication Critical patent/CN108681571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

基于Word2Vec的主题爬虫系统和方法。本发明公开了一种基于Word2Vec的主题爬虫系统抓取信息的方法,具体步骤包括:步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测。本发明让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。

Description

基于Word2Vec的主题爬虫系统和方法
技术领域
本发明涉及互联网技术领域,更具体的说是涉及基于Word2Vec的主题爬虫系统和方法。
背景技术
近年来,互联网在全球范围快速发展,截至2017年6月,全球网民总数达38.9亿,普及率为51.7%。中国网民规模达7.51亿,互联网普及率为54.3%,中国网站总数达506万个,“.CN”下网站为270万个。互联网的快速发展和Web页面的爆炸式增长一方面让信息能够更加迅速便捷的传播,另一方面也造成了信息过载现象——信息的过于丰富远远超过了个人能够处理的范围,大量无关、冗余的数据直接影响了用户查找目标数据的体验。如何让用户从海量Web页面中迅速获取目标数据正变的愈发重要。
在互联网发展初期,以Yahoo为代表的分类目录网站通过人工梳理的方法,将Web上众多优秀网站归类到各个目录中,用户可以通过层层点击的方法查找相关信息。这种方式的优点是能够为用户访问互联网起到导航作用,满足一部分用户宽泛的检索需求,向用户提供数量有限的相关信息。但是对于检索要求更高的用户来说,分类目录网站能够提供的有效检索信息少得可怜,而且由于采用人工分类,分类标准差异性很大,这对用户的检索体验也有很大影响。
为了追求更好的检索体验,提高检索质量,通用搜索引擎应运而生。通用搜索引擎利用爬虫程序对互联网网站进行检索,当发现未处理过的网页之后,爬虫系统会尝试提取网页信息并存储到数据库中。用户通过提交查询词进行检索,搜索引擎会将数据库中的网页信息和用户提交的查询词进行比对,将相关度高的信息反馈给用户。通用搜索引擎检索的全面性,准确性和实时性相比于分类目录网站提高了很多。但是针对某一具体主题,通用搜索引擎存在检索目标过大,检索结果中充满了噪音,检索效率极低等问题,无法满足用户在特定领域的检索需求。这些问题主要是由于通用搜索引擎使用的爬虫技术只是简单地将网页爬取下来,在爬行过程中并不关心网页的主题,是泛泛地爬行。面对互联网中无数的网页,爬虫最终爬取到的页面和用户想要了解主题之间相关的概率极低,甚至可能为零。
因此,如何提供一种围绕指定主题,尽量避免无关网页的下载,高效精准的爬虫系统和方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于Word2Vec的主题爬虫系统和方法,让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。
为了实现上述目的,本发明提供如下技术方案:
基于Word2Vec的主题爬虫系统,包括:种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块;
其中,所述种子配置模块依靠人工选取种子链接,将所述种子链接上传至服务器;
所述关键词模块在浏览器中输入用于描述主题的关键词,然后进行近义词深度等级选择,进行关键词扩展;
所述下载模块,进行网页下载,并设置超时时间,响应时间大于所述超时间放弃所述网页的下载,然后将下载的所述网页封装成Html对象;
所述解析模块,从封装的网页提取信息,并将所述信息赋值给所述Html对象的各个属性;
所述评分模块,用于一是对网页与主题的相关性给予评分以便筛选网页,二是对链接进行预测评分以便排序;网页被判断为主题相关后会进入所述存储模块,若网页被判断为主题无关则直接丢弃;而链接在评分之后会作为待抓取URL等待下一轮的下载;
所述存储模块,有选择的存储网页的ID、链接、标题和正文。
需要了解的是:ID是根据网页的下载顺序生成的,每篇网页使用唯一ID进行标识,链接和正文是主题爬虫通常需要存储的内容,存储标题是为了方便后期进行人工判断。
进一步,近义词深度等级得选择指选择近义词个数,比如我们想要抓取NBA主题,科比是关键词,设置近义词深度等级为1时,可能推荐的是“湖人队”,二者非常相关,但是当推荐到100的时候,可能是毫不相关的词汇了,比如“手机”之类的,当关键词推荐的越多,其相关度也随之减小,所以这里的近义词深度等级就是近义词个数。
优选的,在上述的基于Word2Vec的主题爬虫系统中,所述种子配置模块按行保存种子链接,利用PHP语言,通过POST方式将种子文件上传至服务器;上传后所述服务器判断文件类型,成功上传种子文件继续操作。
进一步,上述的种子文件格式包括:txt、excel格式等。
通过上述技术方案,本发明的技术效果是:为自动的抓取万维网信息的程序或者脚本做准备工作。
优选的,在上述的基于Word2Vec的主题爬虫系统中,所述种子文件上传成功后,新的所述种子文件替代所述服务器上原有的种子文件。
通过上述技术方案,本发明的技术效果是:不同主题的爬虫种子链接有所不同,在每次上传成功后,新的种子文件会替换掉服务器上原有的种子文件。
优选的,在上述的基于Word2Vec的主题爬虫系统中,所述关键词模块利用脚本语言获取用户输入的关键词,交给PHP程序后通过SOCKET通信发送给处理程序进行处理,处理程序作为服务端始终处于监听状态,收到前台发送的关键词后,利用Word2Vec对关键词进行扩展,去重后重新发送给PHP程序,并再次利用脚本脚本将其显示在下方的文本域中。
进一步,处理程序可以使用多种语言编写,例如Python,Java,C,C++等。
通过上述技术方案,本发明的技术效果是:扩展关键词能够使完全无关的两个关键词产生联系,便于计算关键词之间的相关度。
需要了解的是:扩展后的关键词也可以直接在文本域中进行修改和添加,而且扩展关键词的过程是可以重复的,即用户可以一直对关键词进行修改和扩展操作,直到用户满意为止。
优选的,在上述的基于Word2Vec的主题爬虫系统中,所述下载模块利用处理的chardet模块以及urllib模块中的getparam方法判断网页的编码方式,将下载网页统一为utf-8编码方式,下载后的页面封装成自定义的Html类的对象以便后续解析。
优选的,在上述的基于Word2Vec的主题爬虫系统中,所述Html对象的各个属性包括:page、content、type和links;其中page用于存储网页的全部代码,content用于存储解析出的网页正文,type用于存储网页类型即主题型或目录型,links存储页面中提取出的全部链接。
一种TRCW模型,包括:TRCW模型的具体公式如下:
该公式主要用于计算某文档和主题的相关度,具体是通过主题关键词和文档提取出的关键词进行比较计算而得的。其中sim(Kd,Kt)用于计算文档D中某关键词和主题T中某关键词的相关度,ki是文档中第i个关键词的影响因子,需要根据关键词的不同权值设定。公式的思想是将文档的某个关键词分别和主题所有的关键词进行相关度比较,取最大的一个,然后乘以文档的该关键词的影响因子之后求和而得。
通过上述技术方案,本发明的技术效果是:本发明提出的TRCW模型进行文本相关度比较,TRCW模型不需要关键词的完全匹配,所有的词汇之间都利用训练出的词向量计算相关度,得到比较合理的相关度计算结果,由此可以判断文档和主题的相关度。相关度的准确计算有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。
需要了解的是:所述文档D由一组词条(K1,d,K2,d,…Km,d)构成,对任一词条Ki,d,设定权值wi,d,所述文档D对应的向量为d=(w1,d,w2,d,…wm,d);主题T由一组词条(K1,t,K2,t,…Kn,t)构成,对任一词条Kj,t,设定权值为wj,t,所述主题T对应的向量用t=(w1,t,w2,t,…wn,t)表示。
通过上述技术方案,本发明的技术效果是:将汉字转化为数学符号,便于得到TRCW模型的具体公式。
基于Word2Vec的主题爬虫系统抓取信息的具体过程包括:
步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;
步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;
步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测;若网页主题相关,则利用存储模块进行存储,若无关则丢弃该页面,子链接统一进入待抓取URL队列。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了基于Word2Vec的主题爬虫系统,主题爬虫通过主题预测算法指导爬行,使爬虫在爬行过程中只下载和主题相关的页面。主题爬虫依据一个话题的页面中含有指向同一话题的其它页面的链接。因此爬行过程可以始终围绕指定主题,尽量避免无关网页的下载,减少资源消耗。当网页被下载以后,主题爬虫会按规则提取网页内容,并进行主题相关度判断,系统只保留主题相关页面,无关页面直接丢弃,节省了大量的存储时间和空间。基于主题爬虫建立的垂直搜索引擎能够满足不同领域用户对于特定主题的检索需求。相比于通用爬虫,主题爬虫的爬取方法更加高效精准。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的系统结构示意图;
图2附图为本发明的TRCW模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于Word2Vec的主题爬虫系统,让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。
如图1所示,基于Word2Vec的主题爬虫系统,包括:种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块;
其中,种子配置模块依靠人工选取种子链接,将种子链接上传至服务器;
关键词模块在浏览器中输入用于描述主题的关键词,然后进行近义词深度等级选择,进行关键词扩展;
下载模块,进行网页下载,并设置超时时间,响应时间大于超时间放弃网页的下载,然后将下载的网页封装成Html对象;
解析模块,从封装的网页提取信息,并将信息赋值给Html对象的各个属性;
评分模块,用于一是对网页与主题的相关性给予评分以便筛选网页,二是对链接进行预测评分以便排序;网页被判断为主题相关后会进入存储模块,若网页被判断为主题无关则直接丢弃;而链接在评分之后会作为待抓取URL等待下一轮的下载;
存储模块,有选择的存储网页的ID、链接、标题和正文。
为了进一步优化上述技术方案,种子配置模块按行保存种子链接,利用PHP语言,通过POST方式将种子文件上传至服务器;上传后服务器判断文件类型,成功上传种子文件继续操作。
为了进一步优化上述技术方案,种子文件上传成功后,新的种子文件替代服务器上原有的种子文件。
为了进一步优化上述技术方案,关键词模块利用脚本语言获取用户输入的关键词,交给PHP程序后通过SOCKET通信发送给处理程序进行处理,处理程序作为服务端始终处于监听状态,收到前台发送的关键词后,利用Word2Vec对关键词进行扩展,去重后重新发送给PHP程序,并再次利用脚本脚本将其显示在下方的文本域中。
为了进一步优化上述技术方案,下载模块利用处理的chardet模块以及urllib模块中的getparam方法判断网页的编码方式,将下载网页统一为utf-8编码方式,下载后的页面封装成自定义的Html类的对象以便后续解析。
为了进一步优化上述技术方案,Html对象的各个属性包括:page、content、type和links;其中page用于存储网页的全部代码,content用于存储解析出的网页正文,type用于存储网页类型即主题型或目录型,links存储页面中提取出的全部链接。
如图2所示,TRCW模型的具体公式如下:
其中sim(Kd,Kt)用于计算文档D中某关键词和主题T中某关键词的相关度,ki是文档中第i个关键词的影响因子,根据关键词的不同权值设定。
如图1所示,一种基于Word2Vec的主题爬虫系统抓取信息的过程,具体步骤包括:
步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;
步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;
步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测;若网页主题相关,则利用存储模块进行存储,若无关则丢弃该页面,子链接统一进入待抓取URL队列。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.基于Word2Vec的主题爬虫系统,其特征在于,包括:种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块;
其中,所述种子配置模块依靠人工选取种子链接,将所述种子链接上传至服务器;
所述关键词模块在浏览器中输入用于描述主题的关键词,然后进行近义词深度等级选择,进行关键词扩展;
所述下载模块,进行网页下载,并设置超时时间,响应时间大于所述超时间放弃所述网页的下载,然后将下载的所述网页封装成Html对象;
所述解析模块,从封装的网页提取信息,并将所述信息赋值给所述Html对象的各个属性;
所述评分模块,用于一是对网页与主题的相关性给予评分以便筛选网页,二是对链接进行预测评分以便排序;网页被判断为主题相关后会进入所述存储模块,若网页被判断为主题无关则直接丢弃;而链接在评分之后会作为待抓取URL等待下一轮的下载;
所述存储模块,有选择的存储网页的ID、链接、标题和正文。
2.根据权利要求1所述的基于Word2Vec的主题爬虫系统,其特征在于,所述种子配置模块按行保存种子链接,利用PHP语言,通过POST方式将种子文件上传至服务器;上传后所述服务器判断文件类型,成功上传种子文件继续操作。
3.根据权利要求2所述的基于Word2Vec的主题爬虫系统,其特征在于,所述种子文件上传成功后,新的所述种子文件替代所述服务器上原有的种子文件。
4.根据权利要求1所述的基于Word2Vec的主题爬虫系统,其特征在于,所述关键词模块利用脚本语言获取用户输入的关键词,交给PHP程序后通过SOCKET通信发送给处理程序进行处理,处理程序作为服务端始终处于监听状态,收到前台发送的关键词后,利用Word2Vec对关键词进行扩展,去重后重新发送给PHP程序,并再次利用脚本脚本将其显示在下方的文本域中。
5.根据权利要求1所述的基于Word2Vec的主题爬虫系统,其特征在于,所述下载模块利用处理的chardet模块以及urllib模块中的getparam方法判断网页的编码方式,将下载网页统一为utf-8编码方式,下载后的页面封装成自定义的Html类的对象以便后续解析。
6.根据权利要求1所述的基于Word2Vec的主题爬虫系统,其特征在于,所述Html对象的各个属性包括:page、content、type和links;其中page用于存储网页的全部代码,content用于存储解析出的网页正文,type用于存储网页类型即主题型或目录型,links存储页面中提取出的全部链接。
7.一种TRCW模型,其特征在于,包括:TRCW模型的具体公式如下:
其中sim(Kd,Kt)用于计算文档D中某关键词和主题T中某关键词的相关度,ki是文档中第i个关键词的影响因子,根据关键词的不同权值设定。
8.一种根据权利要求1-6任一所述的基于Word2Vec的主题爬虫系统抓取信息的方法,其特征在于,具体步骤包括:
步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;
步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;
步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测;若网页主题相关,则利用存储模块进行存储,若无关则丢弃该页面,子链接统一进入待抓取URL队列。
CN201810422427.9A 2018-05-05 2018-05-05 基于Word2Vec的主题爬虫系统和方法 Active CN108681571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810422427.9A CN108681571B (zh) 2018-05-05 2018-05-05 基于Word2Vec的主题爬虫系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810422427.9A CN108681571B (zh) 2018-05-05 2018-05-05 基于Word2Vec的主题爬虫系统和方法

Publications (2)

Publication Number Publication Date
CN108681571A true CN108681571A (zh) 2018-10-19
CN108681571B CN108681571B (zh) 2024-02-27

Family

ID=63801991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810422427.9A Active CN108681571B (zh) 2018-05-05 2018-05-05 基于Word2Vec的主题爬虫系统和方法

Country Status (1)

Country Link
CN (1) CN108681571B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532450A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于改进鲨鱼搜索的主题爬虫方法
CN113656671A (zh) * 2021-06-16 2021-11-16 北京百度网讯科技有限公司 模型训练方法、链接评分方法、装置、设备、介质和产品
CN114117177A (zh) * 2021-11-09 2022-03-01 智文有限公司 一种基于TextCNN的主题爬虫方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086206A1 (en) * 2003-10-15 2005-04-21 International Business Machines Corporation System, Method, and service for collaborative focused crawling of documents on a network
WO2008046098A2 (en) * 2006-10-13 2008-04-17 Move, Inc. Multi-tiered cascading crawling system
CN101546587A (zh) * 2008-03-25 2009-09-30 国际商业机器公司 在播放歌曲时自动显示视觉元素的方法和装置
CN101968819A (zh) * 2010-11-05 2011-02-09 中国传媒大学 面向广域网的音视频智能编目信息获取方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
US20140258261A1 (en) * 2013-03-11 2014-09-11 Xerox Corporation Language-oriented focused crawling using transliteration based meta-features
CN105138558A (zh) * 2015-07-22 2015-12-09 山东大学 基于用户访问内容的实时个性化信息采集方法
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN107066548A (zh) * 2017-03-21 2017-08-18 华中科技大学 一种双维度分类提取网页链接的方法
US20180096067A1 (en) * 2016-10-04 2018-04-05 Searchmetrics Gmbh Creation and optimization of resource contents
CN107908698A (zh) * 2017-11-03 2018-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086206A1 (en) * 2003-10-15 2005-04-21 International Business Machines Corporation System, Method, and service for collaborative focused crawling of documents on a network
WO2008046098A2 (en) * 2006-10-13 2008-04-17 Move, Inc. Multi-tiered cascading crawling system
CN101546587A (zh) * 2008-03-25 2009-09-30 国际商业机器公司 在播放歌曲时自动显示视觉元素的方法和装置
CN101968819A (zh) * 2010-11-05 2011-02-09 中国传媒大学 面向广域网的音视频智能编目信息获取方法
US20140258261A1 (en) * 2013-03-11 2014-09-11 Xerox Corporation Language-oriented focused crawling using transliteration based meta-features
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN105138558A (zh) * 2015-07-22 2015-12-09 山东大学 基于用户访问内容的实时个性化信息采集方法
US20180096067A1 (en) * 2016-10-04 2018-04-05 Searchmetrics Gmbh Creation and optimization of resource contents
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN107066548A (zh) * 2017-03-21 2017-08-18 华中科技大学 一种双维度分类提取网页链接的方法
CN107908698A (zh) * 2017-11-03 2018-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN X等: "A focused crawler with content and link analysis", IEEE, pages 677 - 680 *
彭涛: "面向专业搜索引擎的主题爬行技术研究", 中国博士学位论文全文数据库 (基础科学辑), pages 138 - 51 *
费晨杰等: "基于LDA扩展主题词库的主题爬虫研究", 计算机应用与软件, pages 49 - 54 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532450A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于改进鲨鱼搜索的主题爬虫方法
CN113656671A (zh) * 2021-06-16 2021-11-16 北京百度网讯科技有限公司 模型训练方法、链接评分方法、装置、设备、介质和产品
CN113656671B (zh) * 2021-06-16 2024-05-24 北京百度网讯科技有限公司 模型训练方法、链接评分方法、装置、设备、介质和产品
CN114117177A (zh) * 2021-11-09 2022-03-01 智文有限公司 一种基于TextCNN的主题爬虫方法及系统

Also Published As

Publication number Publication date
CN108681571B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
US9785714B2 (en) Method and/or system for searching network content
CN101971172B (zh) 移动站点地图
CN100476830C (zh) 一种网络资源检索方法及系统
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN1924858B (zh) 一种获取新词的方法、装置以及一种输入法系统
US20090198676A1 (en) Indexing Documents for Information Retrieval
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
US8880559B2 (en) Location activity search engine computer system
CN105045875B (zh) 个性化信息检索方法及装置
CN101599089B (zh) 视频服务网站内容更新信息的自动搜索与抽取系统及方法
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
US20090248661A1 (en) Identifying relevant information sources from user activity
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
CN101809572A (zh) 在搜索结果页面上包括交互式元素的系统和方法
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
WO2005010701A9 (en) Method and system for rule based indexing of multiple data structures
WO2003017023A2 (en) System and method for extracting content for submission to a search engine
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN108681571A (zh) 基于Word2Vec的主题爬虫系统和方法
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN109815388A (zh) 一种基于遗传算法的智能聚焦爬虫系统
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
Baker et al. Priority queue based estimation of importance of web pages for web crawlers
CN105740290A (zh) 移动设备自适应网络搜索的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant