CN105677921A

CN105677921A - 一种互联网舆情数据的获取方法及系统

Info

Publication number: CN105677921A
Application number: CN201610157139.6A
Authority: CN
Inventors: 董启文
Original assignee: SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2016-06-15

Abstract

本发明公开了一种互联网舆情数据的获取方法及系统，包括：利用爬虫技术，确定舆情相关度大于预设值的URL队列；对所述URL队列中的每一URL地址进行解析，得到与每一URL地址对应的页面信息；利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件；可见，在本实施例中，利用爬虫技术能够获取更多的舆情相关度大于预设值的URL地址，从而剔除了无关网站的URL地址，提高了抓取相关度，缩小网络资源和硬件资源的消耗，并且通过Lucene给每条舆情索引关键词信息自动创建反向索引，增加了检索效率。

Description

一种互联网舆情数据的获取方法及系统

技术领域

本发明涉及舆情监控技术领域，更具体地说，涉及一种互联网舆情数据的获取方法及系统。

背景技术

随着因特网的飞速发展，网络媒体已成为第四媒体。社会舆情也越来越多在网络里集中爆发，成为反映民间舆论的主要形式之一。网络舆情与生俱来有偏差性(即缺乏规限和监督)、突发性(热点事件加上情绪化意见会成为导火索迅速点燃一片舆论，难以掌控)、直接性(微博、微信、qq群已经成为网民立即发表意见的平台)。但是目前市场上的公共舆情监测系统普遍存在爬虫抓取范围不广、海量数据查询检索效率低下等问题。

因此，如何高效率的检测范围更广的互联网舆情数据，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种互联网舆情数据的获取方法及系统，以实现高效率的检测范围更广的互联网舆情数据。

为实现上述目的，本发明实施例提供了如下技术方案：

一种互联网舆情数据的获取方法，包括：

利用爬虫技术，确定舆情相关度大于预设值的URL队列；

对所述URL队列中的每一URL地址进行解析，得到与每一URL地址对应的页面信息；

利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件。

其中，所述利用爬虫技术，确定舆情相关度大于预设值的URL队列，包括：

确定与目标主题的舆情相关度大于预设值的种子URL地址，并将所述种子URL地址存入所述URL队列；

获取所述URL队列中的每个种子URL地址的源代码，并提取每个源代码中的所有URL地址，形成URL地址集，并将所述URL地址集存入所述URL队列。

其中，将所述URL地址集存入所述URL队列之前，还包括：

判断所述URL地址集中的每个URL地址是否符合预定网页提取规则；

若符合，则保留；若不符合，则从所述URL地址集中删除。

其中，所述利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件，包括：

从每个URL地址对应的页面信息中提取与预设舆情参数相对应的舆情索引关键词信息；其中，所述预设舆情参数至少包括：标题、发布时间、发布者、正文等；

将所述舆情索引关键词信息整理成规范的结构化数据保存至本地数据库；

通过Lucene技术，为每个URL地址对应舆情索引关键词信息创建索引文件。

其中，所述为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件之后，还包括：

接收用户发送的索引请求；

利用Lucene技术，解析所述索引请求中的关键词，查找与所述关键词相对应的索引文件，并将查找到的索引文件所对应的URL地址返回给用户。

一种互联网舆情数据的获取系统，包括：

URL队列确定模块，用于利用爬虫技术，确定舆情相关度大于预设值的URL队列；

页面信息解析模块，用于对所述URL队列中的每一URL地址进行解析，得到与每一URL地址对应的页面信息；

索引文件创建模块，用于利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件。

其中，所述URL队列确定模块，包括：

种子URL地址确定单元，用于确定与目标主题的舆情相关度大于预设值的种子URL地址，并将所述种子URL地址存入所述URL队列；

URL地址集提取单元，用于获取所述URL队列中的每个种子URL地址的源代码，并提取每个源代码中的所有URL地址，形成URL地址集；

URL地址集添加单元，用于将所述URL地址集存入所述URL队列。

其中，所述URL队列确定模块，还包括：

判断单元，用于判断所述URL地址集中的每个URL地址是否符合预定网页提取规则；

若符合，则保留；若不符合，则从所述URL地址集中删除。

其中，所述索引文件创建模块，包括：

舆情索引关键词信息提取单元，用于从每个URL地址对应的页面信息中提取与预设舆情参数相对应的舆情索引关键词信息；其中，所述预设舆情参数至少包括：标题、发布时间、发布者、正文等；

保存单元，用于将所述舆情索引关键词信息整理成规范的结构化数据保存至本地数据库；

索引文件创建单元，用于通过Lucene技术，为每个URL地址对应舆情索引关键词信息创建索引文件。

其中，所述获取系统还包括：

接收模块，用于接收用户发送的索引请求；

解析模块，用于利用Lucene技术，解析所述索引请求中的关键词，查找与所述关键词相对应的索引文件，并将查找到的索引文件所对应的URL地址返回给用户。

通过以上方案可知，本发明实施例提供的一种互联网舆情数据的获取方法及系统，包括：利用爬虫技术，确定舆情相关度大于预设值的URL队列；对所述URL队列中的每一URL地址进行解析，得到与每一URL地址对应的页面信息；利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件；可见，在本实施例中，利用爬虫技术能够获取更多的舆情相关度大于预设值的URL地址，从而剔除了无关网站的URL地址，提高了抓取相关度，缩小网络资源和硬件资源的消耗，并且通过Lucene给每条舆情索引关键词信息自动创建反向索引，增加了检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种互联网舆情数据的获取方法；

图2为本发明实施例公开的一种互联网舆情数据的获取系统。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种互联网舆情数据的获取方法及系统，以实现高效率的检测范围更广的互联网舆情数据。

参见图1，本发明实施例提供的一种互联网舆情数据的获取方法，包括：

S101、利用爬虫技术，确定舆情相关度大于预设值的URL队列；

具体的，由于网络大到无法想象，对整个互联网进行遍历是不实际的，做到完全监控基本不可能，根据这个事实，我们改变策略，采用局部优先的方式，选择与主题相关度高的这部分网站的URL地址作为种子，所以跟踪哪个预定的URL地址，哪些URL地址将被收集，哪些URL地址需要被过滤掉，是爬虫开始工作首要考虑的问题。基于舆情分布在新闻网站、社区网站等媒体的的特点，人工选择这些网站的URL地址，剔除不需要网站的URL地址，需要说明的是互联网网站数量庞大，种类繁多，生成工作队列，通过这种方式，可以剔除30％～90％的无关HTML页面，这样就将抓取相关度大幅提高。

S102、对所述URL队列中的每一URL地址进行解析，得到与每一URL地址对应的页面信息；

具体的，网络爬虫的工作流程首先在URL队列中提取一个URL地址，由处理器加载此URL地址所链接的页面信息。通过HTML解析器获取页面信息的源代码，提取所有的A标签内容，通过目录URL过滤器得到一个URL地址集，再将此URL地址集传回URL队列。

其中，将所述URL地址集存入所述URL队列之前，还包括：

若符合，则保留；若不符合，则从所述URL地址集中删除。

具体的，稍复杂的HTML页面包含了很多信息和不同类型的数据，也就是说不是页面上的所有内容都有价值提取，为了增加URL地址的舆情相关度，在提取URL地址集之后，由提取链对URL地址集进行进一步过滤，提取与舆情信息主题相关的URL。并且，本本实施例中的预定网页提取规则不仅可以过滤与舆情信息主题不相关的URL地址，还可以通过一些算法，过滤掉不需要的页面元素，从而提高爬虫效率。例如，某个URL地址是链接到图片的，其扩展名可能是.jpg，将.jpg作为过滤集中的一个规则，当一个URL地址是指向图片的，则选择放弃，进入下一个URL地址的匹配。

S103、利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件。

具体的，我们关注度的舆情要素有标题、发布时间、发布者和正文，获取这些要素是在抽取链完成互联网上的信息分散杂乱，同一主题的信息在不同的页面上，格式各不相同，需要引入Web信息抽取技术。Web信息抽取是将Web页面上的舆情索引关键词信息以半结构化文档形式提取出来，再以结构化的数据形式存储到数据库。其中，舆情索引关键词信息具体可以包括网页的帖子标题、发布时间、发布者和正文等重要信息。这些数据将在后面由用户控制台查出进行进一步的统计分析。

具体的，当产生新结构化数据时，在创建索引前，Lucene先计算新数据引起的段(segment)的数量变化，之后按照初始配置，当段(segment)的容量饱和时并入历史索引文件。

接收用户发送的索引请求；

具体的，当用户通过索引请求输入查找词时，由Lucene分解搜索请求，根据索引分词，匹配到输入的查找次对应的索引位置，从而查询得到符合该关键词的所有信息。即通过解析关键词，查找出与关键词对应的索引文件，通过索引文件查找出对应的URL地址，并将URL地址返给用户，以使用户查到与关键词相对应的网页信息。并且返回给用户的网页中，可以根据相关度由高到低进行排序，由符合关键字条件的Document按相似度排序而成。

具体的，针对海量数据查询效率低下的问题，还可以通过Solr技术解决。Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大DataSchema来定义字段，类型和设置文本分析，提供基于Web的管理界面等。利用该技术的特性，同样可以改善海量数据查询效率不高的问题。

具体的，由于目前市场上的公共舆情监测系统普遍存在爬虫抓取范围不广、海量数据查询检索效率低下等问题。所以在本实施例中，通过基于通用网络爬虫和实现Lucene索引数据库实现公共舆论监控系统。并且实施例采用的爬虫类似于已有的爬虫，但根据舆情信息的特点做了一些算法优化，即通过人工选择与主题舆情信息相似度高的网站URL地址作为种子URL地址，剔除不需要网站的URL地址，通过这种方式，可以剔除30％-90％的无关HTML页面，这样就将抓取相关度大幅提高，能在相同的时间限度内，缩小百分之三十的网络资源和百分之二十的硬件资源消耗获得相同范围、并且相似度较高的Web页面。

并且，在实施例中采用Lucene技术处理庞大的数据。Lucene会给每条数据一一自动创建反向索引，支持全文检索，而且检索效率高。Lucene的索引是以八位字节为基础，索引文件与应用程序分开的，实现了跨多平台的良好的兼容性。Lucene在内部实现多个I/O操作，大大提高了多关键字检索的效率，支持多关键字之间的andor等逻辑关系组合。

本发明实施例提供的一种互联网舆情数据的获取方法及系统，包括：利用爬虫技术，确定舆情相关度大于预设值的URL队列；对所述URL队列中的每一URL地址进行解析，得到与每一URL地址对应的页面信息；利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件；可见，在本实施例中，利用爬虫技术能够获取更多的舆情相关度大于预设值的URL地址，从而剔除了无关网站的URL地址，提高了抓取相关度，缩小网络资源和硬件资源的消耗，并且通过Lucene给每条舆情索引关键词信息自动创建反向索引，增加了检索效率。

下面对本发明实施例提供的一种互联网舆情数据的获取系统进行介绍，下文描述的一种互联网舆情数据的获取系统与上文描述的一种互联网舆情数据的获取方法可以相互参照。

参见图2，本发明实施例提供的一种互联网舆情数据的获取系统，包括：

URL队列确定模块100，用于利用爬虫技术，确定舆情相关度大于预设值的URL队列；

页面信息解析模块200，用于对所述URL队列中的每一URL地址进行解析，得到与每一URL地址对应的页面信息；

索引文件创建模块300，用于利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件。

基于上述技术方案，所述URL队列确定模块100，包括：

URL地址集添加单元，用于将所述URL地址集存入所述URL队列。

基于上述技术方案，所述URL队列确定模块100，还包括：

若符合，则保留；若不符合，则从所述URL地址集中删除。

基于上述技术方案，所述索引文件创建模块300，包括：

基于上述技术方案，所述获取系统还包括：

接收模块，用于接收用户发送的索引请求；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种互联网舆情数据的获取方法，其特征在于，包括：

利用爬虫技术，确定舆情相关度大于预设值的URL队列；

2.根据权利要求1所述的获取方法，其特征在于，所述利用爬虫技术，确定舆情相关度大于预设值的URL队列，包括：

3.根据权利要求2所述的获取方法，其特征在于，将所述URL地址集存入所述URL队列之前，还包括：

若符合，则保留；若不符合，则从所述URL地址集中删除。

4.根据权利要求1所述的获取方法，其特征在于，所述利用Lucene技术，为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件，包括：

5.根据权利要求1-4中任意一项所述的获取方法，其特征在于，所述为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件之后，还包括：

接收用户发送的索引请求；

6.一种互联网舆情数据的获取系统，其特征在于，包括：

7.根据权利要求6所述的获取系统，其特征在于，所述URL队列确定模块，包括：

URL地址集添加单元，用于将所述URL地址集存入所述URL队列。

8.根据权利要求7所述的获取系统，其特征在于，所述URL队列确定模块，还包括：

若符合，则保留；若不符合，则从所述URL地址集中删除。

9.根据权利要求6所述的获取系统，其特征在于，所述索引文件创建模块，包括：

10.根据权利要求6-9中任意一项所述的获取系统，其特征在于，所述获取系统还包括：

接收模块，用于接收用户发送的索引请求；