CN107256263A

CN107256263A - 互联网热点信息自动监测方法

Info

Publication number: CN107256263A
Application number: CN201710445122.5A
Authority: CN
Inventors: 张鹏
Original assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2017-10-17

Abstract

本发明提供了一种互联网热点信息自动监测方法，该方法包括：按照用户的设置遍历预设范围内的网页，针对特定话题进行抓取、分类和保存；将抓取到的URL地址进行系统存储、分析、去重过滤、建立索引。本发明提出了一种互联网热点信息自动监测方法，基于改进的数据爬取和分析过程，对舆情信息实现了准确预测以及实时控制。

Description

互联网热点信息自动监测方法

技术领域

本发明涉及网络搜索，特别涉及一种互联网热点信息自动监测方法。

背景技术

互联网已经成为人们获取信息的途径，用户通过互联网这个信息平台，能够表达自己对某些事件、现象以及政策的观点。另一方面，也涌入了反动、黄色以及网络犯罪方面的内容。现有技术对于互联网信息监控方面已经将网络搜索、数据挖掘、智能分析以及话题监控等方面的技术进行了一定程度的提升，设计、实现了许多网络话题系统。但整体解决方案与系统化的科学解释、详细描述、准确预测以及实时控制还需要较大地改进。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种互联网热点信息自动监测方法，包括：

按照用户的设置遍历预设范围内的网页，

针对特定话题进行抓取、分类和保存；

将抓取到的URL地址进行系统存储、分析、去重过滤、建立索引。

优选地，采集网络话题的服务器个数根据监控网站数量、网络话题的监测范围以及更新频率而进行调整。

优选地，在抓取网络话题阶段，对相关网页进行访问，提取出有用的话题并将提取的数据结构化；使用爬取引擎缩小链接的范围，只爬取相关话题页面的信息并从网页的源文件中定位标签属性信息，进行同类话题网页的聚类；

所述爬取引擎采用深度搜索爬取，在爬取的过程中获取主题相关的信息与链接并放入爬取队列，并爬取链接所关联的网页信息；在爬取到网页中的主题链接页面后，获取标题、用户、发起时间、最后回复时间以及相关链接的URL，并记录下主题的回复数，然后再通过主题的源码获取主题的内容信息。

优选地，在进一步抓取的过程中，若发现回复数与上一步获取的数值不匹配，则迭代查找是否存在未爬取的页面；若回复数匹配，则爬取至下一主题进行重复的信息获取过程；对于每一个话题形成的独立信息块，获取每个信息块形成的文档树，所有对于该主题的话题信息都位于这一文档树的同一父节点之下，采用表格来容纳标签数据。

优选地，所述去重过滤进一步包括：

在对标签进行采集之后，基于WEB的程序遍历所采集的网页的所有内部URL的链接，判别重复信息的同时进行去重，具体包括：

丢弃源码中的干扰信息；

将过滤后话题信息的每个字符进行映射处理，生成各自对应的一个数值，从而将原始的话题信息转化为一个离散序列组，表示为：y(i)，i＝1，2，...，n。

对生成的离散序列组进行FFT变换，得出FFT系数，用参数表示为a_i，b_i；

将a_i，b_i的前K个项提取出来并作为FFT进行系统向量的展开与比较处理，通过比较两个信息间是否有近似数值序列来判断两者的相似性，K为预定义常数。

本发明相比现有技术，具有以下优点：

本发明提出了一种互联网热点信息自动监测方法，基于改进的数据爬取和分析过程，对舆情信息实现了准确预测以及实时控制。

附图说明

图1是根据本发明实施例的互联网热点信息自动监测方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种互联网热点信息自动监测方法。图1是根据本发明实施例的互联网热点信息自动监测方法流程图。

本发明首先对互联网话题进行综合采集。按照用户的设置遍历预设范围内的网页，针对特定话题进行抓取、分类和保存；根据高效的搜索策略，从信息队列中抓取网页URL地址，并将抓取到的URL地址进行系统存储、分析、去重过滤、建立索引；最后采用中文分词、数据挖掘，在大量信息样本中挖掘出对象间的关联和信息特征提取，从而提供有效的信息特征参数值。

根据系统容量及性能要求，采集网络话题的服务器个数根据监控网站数量、网络话题的监测范围以及更新频率而进行调整。在抓取网络话题阶段，对相关网页进行访问，提取出有用的话题并将提取的数据结构化；使用爬取引擎缩小链接的范围，只需要爬取相关话题页面的信息并可以从网页的源文件中定位标签属性信息，进行同类话题网页的聚类。

采用深度搜索爬取策略，在爬取的过程中获取主题相关的信息与链接并放入爬取队列，并爬取链接所关联的网页信息。在爬取到网页中的主题链接页面后，获取标题、用户、发起时间、最后回复时间以及相关链接的URL，并记录下主题的回复数，然后再通过主题的源码获取主题的内容信息。在进一步抓取的过程中，若发现回复数与上一步获取的数值不匹配，则迭代查找是否存在未爬取的页面；若回复数匹配，则爬取至下一主题进行重复的信息获取过程。对于每一个话题形成的独立信息块，获取每个信息块形成的文档树，所有对于该主题的话题信息都位于这一文档树的同一父节点之下。可以采用表格来容纳标签数据。

在对标签进行采集之后，对采集到的话题进行解析，基于WEB的程序遍历所采集的网页的所有内部URL的链接，判别重复信息的同时进行去重，具体包括：

去采集到的话题信息进行过滤处理，丢弃源码中的干扰信息；

对生成的离散序列组进行FFT变换，得出FFT系数，用参数表示为a_i，b_i。

在建立分词词典的基础上，综合词法、语法以及语义进行的最短路径式切分方法，具体描述如下：对话题信息进行基于词语内容抽取。随后进行语义分析。根据句法结构、信息中每个实词的语境以及具体隐含的词义，推导出反映出信息句义的表现形式；将最后的出结果进行浅层计算。

首先采用分词词典来进行划分，对长词再次切分。扫描词图生成句子中汉字所有可能成词情况所构成的有向无环图。然后采用动态规划查找最大概率路径，找出基于词频的最大切分组合；提取文档的特征值即关键词，将其放入统一的集合对象中，将两篇文档的特征向量提取后放入散列图的数据结构，然后遍历这个散列图将所有遍历到的元素再重新合并到一个新的散列图中，这样就获取了两个文档的特征向量并集；遍历整篇文档，然后统计关键词的词频。将键值对形式的统计结果放入散列图中，生成了两篇文档的特征向量。

采取多索引协同工作，网页库和词典库都采用倒排索引加索引双重定位。词典倒排索引文件以JSON格式存储在磁盘中。系统启动后就存储在内存中。当词典的倒排索引建立后，建立单词和文档权重的倒排索引，找到包含用户查询关键词的文档集合后，遍历候选文档集合，将用户的输入当作一篇文档，依次将候选文档集合中的文档和用户的输入的文档依次计算文本相似度，然后将计算的结果存入优先级队列，将候选文档按照优先级高低返回给用户。

本发明使用三个缓存，用户搜索词纠错结果缓存，标题摘要缓存和标题和网页内容缓存。单独开辟两条缓存线程来管理和同步上述三个缓存。其中，当用户的输入无误时，返回输入正确的结果，同时进入页面查询。如果客户端输入错误，则执行文本纠错算法，把最接近用户输入的结果候选项按优先级队列从高到低返回给用户；此时缓存同步线程将纠错结果写入map，然后再以预定义间隔由同步线程写入磁盘。所述标题摘要缓存用于用户查询都返回标题和摘要的键值对并且用户重复查询一个关键词时，工作线程直接从线程同步的缓存中取出结果，直接返回给用户；内容缓存用户缓存已被命中的网页数据。

本发明采用主线程监听客户端连接，然后把业务部分，就是用户查询操作交给线程来进行处理，主线程负责所有的I/O操作，收齐一个请求所有数据之后交给工作线程进行处理。处理完成之后，把需要写回的数据还给主线程去进行写回数据直到阻塞，然后返回主线程继续。当搜索数据越来越大时，索引文件也会成比例地变大。本发明通过把内存索引作为—个缓冲器实现索引批处理，首先指定索引对应的网页库的路径和建立索引的路径，将待索引文件加载到内存中创建索引，即先将待索引文件写入内存中，定义两个散列图分别存储磁盘索引和内存索引，设定在内存中索引的文件的最大数即阈值，当待索引文件数达到最大阈值时，刷新内存，将内存中己创建好的索引文件批量写入磁盘目录中。

其中发现热点话题的方法描述如下：步骤一，首先按照文档相似度数值对话题数据文档进行分类；步骤二，随机提取预定义数量的k个文档作为初始分类点，计算该类平均值，参照得出的平均值逐一将数据文档归属最相近的类，完成后重新算出平均值；步骤三，重复步骤二的操作，直至分类固定。将网页内容根据话题的相似性进行分类后，对分类进行修正，最终以树形的结构加以展示。

文档相似度通过两个参数加以识别，分别是：单位时间出现频率sf以及单位时间报道天数rd，并计算其中，n表示预定范围内的时段数，a表示一个时段内的天数，取计算结果最大的多个话题作为热点话题。

在确定热点话题后，对话题进行追踪，首先对数据文档分类，将每个信息放到相应类别中，确定距离机制，对测试集中话题信息的每个数据点i，可以找到数据点i的Y个最邻近的点，Y为k近邻算法的预设参数；提取出Y个最近邻居的分类属性，并根据提取出的分类属性决定被预测点的分类属性；计算得出语义关系分类误差。

接下来，如果要从大量的话题中挖掘出哪些内容是表示用户对某个新闻或者事件发表的评论观点。则需要关键话题的一系列词语向量，通过对主题句或者主题词进行挖掘分析实现话题挖掘监测。本发明采用基于权重和分类的方法得到主题词集合。第一步，为每个可能成为主题词的词语建立一个维度为N的向量模型，N值根据所挖掘的信息文档数量与该词语在文档中出现的频率而决定。第二步，对每两个关键词进行余弦相似性比较，一旦超过设定阈值，则将关键词做分类处理，找出共同出现频率高的词语，并分析关键词与相关动词间的结合性，从而生成主题词列表。第三步，过滤掉无意义的主题词组合，将剩下的词语可待分析的主题词。第四步，并生成主题词列表，计算出网页中包含主题词的句子，生成主题句集；第五步，在拆分主题句的过程中，在每个句尾追加该主题句所属的ID号；使用k均值聚类对生成的主题句进行挖掘分析，对每类主题句数目分别进行排序，从中提取出分类结果最高的前M个分类。其中在聚类的过程中，先得出目标的特征向量，再根据任意主题句之间的相似度进行迭代分类，当分类过程中出现多个主题相同的信息时，通过设定阈值进行限定，使得每个类别中都作为相同主体的主题句。筛选主题词情感特征，提取出话题观点。

本发明的舆情预警策略包括两个部分，分别是监测策略与控制策略。监测策略是通过网络爬取引擎采集网页信息，根据话题设定的严重等级动态地调整网络爬取引擎的频率与范围，从而及时、有效地监测网络话题的发展趋势。根据话题严重等级，调整网络爬取引擎的采集方式，在具体监测的过程中，对于用户参与度高于阈值的网页，采用动态爬取引擎采集；对于紧急的严重话题，则采用紧急爬取引擎采集，并采用单独一台服务器采集该话题的相关信息。控制策略包括根据网络上的话题设定核心话题、核心用户以及核心网站，根据话题参与热度与传播速度，针对相应的话题、用户和网站分别进行监听和控制。具体地，本发明采用在特定时间段内主题的参与数平均值表示该话题的关注度：

其中，话题节点i入度为D_i，话题数为n_i，回复集合为r_j，话题节点j的用户发布数为m_j，延时为T，当前话题节点的回复数量为N。

综上所述，本发明提出了一种互联网热点信息自动监测方法，基于改进的数据爬取和分析过程，对舆情信息实现了准确预测以及实时控制。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种互联网热点信息自动监测方法，其特征在于，包括：

按照用户的设置遍历预设范围内的网页，

针对特定话题进行抓取、分类和保存；

2.根据权利要求1所述的方法，其特征在于，采集网络话题的服务器个数根据监控网站数量、网络话题的监测范围以及更新频率而进行调整。

3.根据权利要求1所述的方法，其特征在于，在抓取网络话题阶段，对相关网页进行访问，提取出有用的话题并将提取的数据结构化；使用爬取引擎缩小链接的范围，只爬取相关话题页面的信息并从网页的源文件中定位标签属性信息，进行同类话题网页的聚类；

4.根据权利要求1所述的方法，其特征在于，在进一步抓取的过程中，若发现回复数与上一步获取的数值不匹配，则迭代查找是否存在未爬取的页面；若回复数匹配，则爬取至下一主题进行重复的信息获取过程；对于每一个话题形成的独立信息块，获取每个信息块形成的文档树，所有对于该主题的话题信息都位于这一文档树的同一父节点之下，采用表格来容纳标签数据。

5.根据权利要求1所述的方法，其特征在于，所述去重过滤进一步包括：

丢弃源码中的干扰信息；