CN108681571A

CN108681571A - 基于Word2Vec的主题爬虫系统和方法

Info

Publication number: CN108681571A
Application number: CN201810422427.9A
Authority: CN
Inventors: 彭涛; 包铁; 宋健; 赫枫龄; 周世奇
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2018-05-05
Filing date: 2018-05-05
Publication date: 2018-10-19
Anticipated expiration: 2038-05-05
Also published as: CN108681571B

Abstract

基于Word2Vec的主题爬虫系统和方法。本发明公开了一种基于Word2Vec的主题爬虫系统抓取信息的方法，具体步骤包括：步骤1：通过种子配置模块上传种子链接，然后利用关键词模块进行关键词的交互与筛选，之后启动爬虫；步骤2：通过下载模块下载待抓取的URL链接，下载后利用解析模块对网页内容进行解析，包括提取网页正文，全部链接，全部代码，网页类型；步骤3：根据评分模块，利用解析的内容进行页面的主题相关度计算，并给出各个子链接的相关性评分预测。本发明让关键词集合之间通过Word2Vec训练出的向量进行相关度比较，有利于主题爬虫在爬行过程中更加精准地获取主题相关页面，进而保持较高的爬行准确率。

Description

基于Word2Vec的主题爬虫系统和方法

技术领域

本发明涉及互联网技术领域，更具体的说是涉及基于Word2Vec的主题爬虫系统和方法。

背景技术

近年来，互联网在全球范围快速发展，截至2017年6月，全球网民总数达38.9亿，普及率为51.7％。中国网民规模达7.51亿，互联网普及率为54.3％，中国网站总数达506万个，“.CN”下网站为270万个。互联网的快速发展和Web页面的爆炸式增长一方面让信息能够更加迅速便捷的传播，另一方面也造成了信息过载现象——信息的过于丰富远远超过了个人能够处理的范围，大量无关、冗余的数据直接影响了用户查找目标数据的体验。如何让用户从海量Web页面中迅速获取目标数据正变的愈发重要。

在互联网发展初期，以Yahoo为代表的分类目录网站通过人工梳理的方法，将Web上众多优秀网站归类到各个目录中，用户可以通过层层点击的方法查找相关信息。这种方式的优点是能够为用户访问互联网起到导航作用，满足一部分用户宽泛的检索需求，向用户提供数量有限的相关信息。但是对于检索要求更高的用户来说，分类目录网站能够提供的有效检索信息少得可怜，而且由于采用人工分类，分类标准差异性很大，这对用户的检索体验也有很大影响。

为了追求更好的检索体验，提高检索质量，通用搜索引擎应运而生。通用搜索引擎利用爬虫程序对互联网网站进行检索，当发现未处理过的网页之后，爬虫系统会尝试提取网页信息并存储到数据库中。用户通过提交查询词进行检索，搜索引擎会将数据库中的网页信息和用户提交的查询词进行比对，将相关度高的信息反馈给用户。通用搜索引擎检索的全面性，准确性和实时性相比于分类目录网站提高了很多。但是针对某一具体主题，通用搜索引擎存在检索目标过大，检索结果中充满了噪音，检索效率极低等问题，无法满足用户在特定领域的检索需求。这些问题主要是由于通用搜索引擎使用的爬虫技术只是简单地将网页爬取下来，在爬行过程中并不关心网页的主题，是泛泛地爬行。面对互联网中无数的网页，爬虫最终爬取到的页面和用户想要了解主题之间相关的概率极低，甚至可能为零。

因此，如何提供一种围绕指定主题，尽量避免无关网页的下载，高效精准的爬虫系统和方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于Word2Vec的主题爬虫系统和方法，让关键词集合之间通过Word2Vec训练出的向量进行相关度比较，有利于主题爬虫在爬行过程中更加精准地获取主题相关页面，进而保持较高的爬行准确率。

为了实现上述目的，本发明提供如下技术方案：

基于Word2Vec的主题爬虫系统，包括：种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块；

其中，所述种子配置模块依靠人工选取种子链接，将所述种子链接上传至服务器；

所述关键词模块在浏览器中输入用于描述主题的关键词，然后进行近义词深度等级选择，进行关键词扩展；

所述下载模块，进行网页下载，并设置超时时间，响应时间大于所述超时间放弃所述网页的下载，然后将下载的所述网页封装成Html对象；

所述解析模块，从封装的网页提取信息，并将所述信息赋值给所述Html对象的各个属性；

所述评分模块，用于一是对网页与主题的相关性给予评分以便筛选网页，二是对链接进行预测评分以便排序；网页被判断为主题相关后会进入所述存储模块，若网页被判断为主题无关则直接丢弃；而链接在评分之后会作为待抓取URL等待下一轮的下载；

所述存储模块，有选择的存储网页的ID、链接、标题和正文。

需要了解的是：ID是根据网页的下载顺序生成的，每篇网页使用唯一ID进行标识，链接和正文是主题爬虫通常需要存储的内容，存储标题是为了方便后期进行人工判断。

进一步，近义词深度等级得选择指选择近义词个数，比如我们想要抓取NBA主题，科比是关键词，设置近义词深度等级为1时，可能推荐的是“湖人队”，二者非常相关，但是当推荐到100的时候，可能是毫不相关的词汇了，比如“手机”之类的，当关键词推荐的越多，其相关度也随之减小，所以这里的近义词深度等级就是近义词个数。

优选的，在上述的基于Word2Vec的主题爬虫系统中，所述种子配置模块按行保存种子链接，利用PHP语言，通过POST方式将种子文件上传至服务器；上传后所述服务器判断文件类型，成功上传种子文件继续操作。

进一步，上述的种子文件格式包括：txt、excel格式等。

通过上述技术方案，本发明的技术效果是：为自动的抓取万维网信息的程序或者脚本做准备工作。

优选的，在上述的基于Word2Vec的主题爬虫系统中，所述种子文件上传成功后，新的所述种子文件替代所述服务器上原有的种子文件。

通过上述技术方案，本发明的技术效果是：不同主题的爬虫种子链接有所不同，在每次上传成功后，新的种子文件会替换掉服务器上原有的种子文件。

优选的，在上述的基于Word2Vec的主题爬虫系统中，所述关键词模块利用脚本语言获取用户输入的关键词，交给PHP程序后通过SOCKET通信发送给处理程序进行处理，处理程序作为服务端始终处于监听状态，收到前台发送的关键词后，利用Word2Vec对关键词进行扩展，去重后重新发送给PHP程序，并再次利用脚本脚本将其显示在下方的文本域中。

进一步，处理程序可以使用多种语言编写，例如Python，Java，C，C++等。

通过上述技术方案，本发明的技术效果是：扩展关键词能够使完全无关的两个关键词产生联系，便于计算关键词之间的相关度。

需要了解的是：扩展后的关键词也可以直接在文本域中进行修改和添加，而且扩展关键词的过程是可以重复的，即用户可以一直对关键词进行修改和扩展操作，直到用户满意为止。

优选的，在上述的基于Word2Vec的主题爬虫系统中，所述下载模块利用处理的chardet模块以及urllib模块中的getparam方法判断网页的编码方式，将下载网页统一为utf-8编码方式，下载后的页面封装成自定义的Html类的对象以便后续解析。

优选的，在上述的基于Word2Vec的主题爬虫系统中，所述Html对象的各个属性包括：page、content、type和links；其中page用于存储网页的全部代码，content用于存储解析出的网页正文，type用于存储网页类型即主题型或目录型，links存储页面中提取出的全部链接。

一种TRCW模型，包括：TRCW模型的具体公式如下：

该公式主要用于计算某文档和主题的相关度，具体是通过主题关键词和文档提取出的关键词进行比较计算而得的。其中sim(K_d,K_t)用于计算文档D中某关键词和主题T中某关键词的相关度，k_i是文档中第i个关键词的影响因子，需要根据关键词的不同权值设定。公式的思想是将文档的某个关键词分别和主题所有的关键词进行相关度比较，取最大的一个，然后乘以文档的该关键词的影响因子之后求和而得。

通过上述技术方案，本发明的技术效果是:本发明提出的TRCW模型进行文本相关度比较，TRCW模型不需要关键词的完全匹配，所有的词汇之间都利用训练出的词向量计算相关度,得到比较合理的相关度计算结果，由此可以判断文档和主题的相关度。相关度的准确计算有利于主题爬虫在爬行过程中更加精准地获取主题相关页面，进而保持较高的爬行准确率。

需要了解的是：所述文档D由一组词条(K_1,d,K_2,d,…K_m,d)构成，对任一词条K_i,d，设定权值w_i,d，所述文档D对应的向量为d＝(w_1,d,w_2,d,…w_m,d)；主题T由一组词条(K_1,t,K_2,t,…K_n,t)构成，对任一词条K_j,t，设定权值为w_j,t,所述主题T对应的向量用t＝(w_1,t,w_2,t,…w_n,t)表示。

通过上述技术方案，本发明的技术效果是：将汉字转化为数学符号，便于得到TRCW模型的具体公式。

基于Word2Vec的主题爬虫系统抓取信息的具体过程包括：

步骤1：通过种子配置模块上传种子链接，然后利用关键词模块进行关键词的交互与筛选，之后启动爬虫；

步骤2：通过下载模块下载待抓取的URL链接，下载后利用解析模块对网页内容进行解析，包括提取网页正文，全部链接，全部代码，网页类型；

步骤3：根据评分模块，利用解析的内容进行页面的主题相关度计算，并给出各个子链接的相关性评分预测；若网页主题相关，则利用存储模块进行存储，若无关则丢弃该页面，子链接统一进入待抓取URL队列。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了基于Word2Vec的主题爬虫系统，主题爬虫通过主题预测算法指导爬行，使爬虫在爬行过程中只下载和主题相关的页面。主题爬虫依据一个话题的页面中含有指向同一话题的其它页面的链接。因此爬行过程可以始终围绕指定主题，尽量避免无关网页的下载，减少资源消耗。当网页被下载以后，主题爬虫会按规则提取网页内容，并进行主题相关度判断，系统只保留主题相关页面，无关页面直接丢弃，节省了大量的存储时间和空间。基于主题爬虫建立的垂直搜索引擎能够满足不同领域用户对于特定主题的检索需求。相比于通用爬虫，主题爬虫的爬取方法更加高效精准。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的系统结构示意图；

图2附图为本发明的TRCW模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于Word2Vec的主题爬虫系统，让关键词集合之间通过Word2Vec训练出的向量进行相关度比较，有利于主题爬虫在爬行过程中更加精准地获取主题相关页面，进而保持较高的爬行准确率。

如图1所示，基于Word2Vec的主题爬虫系统，包括：种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块；

其中，种子配置模块依靠人工选取种子链接，将种子链接上传至服务器；

关键词模块在浏览器中输入用于描述主题的关键词，然后进行近义词深度等级选择，进行关键词扩展；

下载模块，进行网页下载，并设置超时时间，响应时间大于超时间放弃网页的下载，然后将下载的网页封装成Html对象；

解析模块，从封装的网页提取信息，并将信息赋值给Html对象的各个属性；

评分模块，用于一是对网页与主题的相关性给予评分以便筛选网页，二是对链接进行预测评分以便排序；网页被判断为主题相关后会进入存储模块，若网页被判断为主题无关则直接丢弃；而链接在评分之后会作为待抓取URL等待下一轮的下载；

存储模块，有选择的存储网页的ID、链接、标题和正文。

为了进一步优化上述技术方案，种子配置模块按行保存种子链接，利用PHP语言，通过POST方式将种子文件上传至服务器；上传后服务器判断文件类型，成功上传种子文件继续操作。

为了进一步优化上述技术方案，种子文件上传成功后，新的种子文件替代服务器上原有的种子文件。

为了进一步优化上述技术方案，关键词模块利用脚本语言获取用户输入的关键词，交给PHP程序后通过SOCKET通信发送给处理程序进行处理，处理程序作为服务端始终处于监听状态，收到前台发送的关键词后，利用Word2Vec对关键词进行扩展，去重后重新发送给PHP程序，并再次利用脚本脚本将其显示在下方的文本域中。

为了进一步优化上述技术方案，下载模块利用处理的chardet模块以及urllib模块中的getparam方法判断网页的编码方式，将下载网页统一为utf-8编码方式，下载后的页面封装成自定义的Html类的对象以便后续解析。

为了进一步优化上述技术方案，Html对象的各个属性包括：page、content、type和links；其中page用于存储网页的全部代码，content用于存储解析出的网页正文，type用于存储网页类型即主题型或目录型，links存储页面中提取出的全部链接。

如图2所示，TRCW模型的具体公式如下：

其中sim(K_d,K_t)用于计算文档D中某关键词和主题T中某关键词的相关度，k_i是文档中第i个关键词的影响因子，根据关键词的不同权值设定。

如图1所示，一种基于Word2Vec的主题爬虫系统抓取信息的过程，具体步骤包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于Word2Vec的主题爬虫系统，其特征在于，包括：种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块；

2.根据权利要求1所述的基于Word2Vec的主题爬虫系统，其特征在于，所述种子配置模块按行保存种子链接，利用PHP语言，通过POST方式将种子文件上传至服务器；上传后所述服务器判断文件类型，成功上传种子文件继续操作。

3.根据权利要求2所述的基于Word2Vec的主题爬虫系统，其特征在于，所述种子文件上传成功后，新的所述种子文件替代所述服务器上原有的种子文件。

4.根据权利要求1所述的基于Word2Vec的主题爬虫系统，其特征在于，所述关键词模块利用脚本语言获取用户输入的关键词，交给PHP程序后通过SOCKET通信发送给处理程序进行处理，处理程序作为服务端始终处于监听状态，收到前台发送的关键词后，利用Word2Vec对关键词进行扩展，去重后重新发送给PHP程序，并再次利用脚本脚本将其显示在下方的文本域中。

5.根据权利要求1所述的基于Word2Vec的主题爬虫系统，其特征在于，所述下载模块利用处理的chardet模块以及urllib模块中的getparam方法判断网页的编码方式，将下载网页统一为utf-8编码方式，下载后的页面封装成自定义的Html类的对象以便后续解析。

6.根据权利要求1所述的基于Word2Vec的主题爬虫系统，其特征在于，所述Html对象的各个属性包括：page、content、type和links；其中page用于存储网页的全部代码，content用于存储解析出的网页正文，type用于存储网页类型即主题型或目录型，links存储页面中提取出的全部链接。

7.一种TRCW模型，其特征在于，包括：TRCW模型的具体公式如下：

8.一种根据权利要求1-6任一所述的基于Word2Vec的主题爬虫系统抓取信息的方法，其特征在于，具体步骤包括：