CN111460252A

CN111460252A - 一种基于网络舆情分析的自动化搜索引擎方法及系统

Info

Publication number: CN111460252A
Application number: CN202010182178.8A
Authority: CN
Inventors: 王晓; 赵佳
Original assignee: Qingdao Zhihui Wenchuang Technology Co ltd
Current assignee: Qingdao Zhihui Wenchuang Technology Co ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-28
Anticipated expiration: 2040-03-16
Also published as: CN111460252B

Abstract

本发明公开了一种基于网络舆情分析的自动化搜索引擎方法及系统，该系统包括平台定位分析模块、舆情分析模块、主题筛选模块和内容推送模块，该系统可根据平台自身定制化关键词抓取热点内容，完成自身及外部平台的内容分析；同时，显示内容的传播途径、运营数据、情感走势等曲线，展示出完整科学的传播分析；通过对抓取内容进行溯源，精准追踪内容来源实现精准无误的溯源分析，有利于版权保护；通过专业直观的大数据可视化显示，根据大屏显示，做出该系统的统计报告，以方便管理者做数据运营。

Description

一种基于网络舆情分析的自动化搜索引擎方法及系统

技术领域

本发明属于自媒体及网络舆情分析领域，特别涉及一种基于网络舆情分析的自动化搜索引擎方法及系统。

背景技术

近年来，互联网已经成为思想文化信息的集散地和社会舆论的放大器。在如今这样一个知识驱动型的社会中，互联网不仅是广大网民获取知识和信息的重要手段，也成为了纷杂信息的汇集和发酵平台。

现有的搜索引擎系统主要基于大规模网络爬虫和PageRank技术，互联网平台通过大规模的计算和存储资源搜索并存储互联网上所有的网页数据，根据网页之间的链接构建庞大的关系图。当用户提出对内容的查询请求时，搜索引擎首先进行关键词匹配，查询内容与用户所提出的关键词最匹配的网页；接着，根据网页之间的链接对网页进行投票表决，将其他网页链接最多选出的网页，作为质量最高的网页推荐给用户。这种搜素技术思想简单，查询快速，是当前所有搜索引擎的核心。但是，这类技术一般不涉及对网页内容的深度处理和理解，并且，缺少对网络用户群体和用户个体的分析，在个性化推荐方面还不成熟。

当前，正处于互联网信息爆炸时代。各大内容平台越来越看重自己的用户粘度，这就要求，当前的一些垂直领域，如自媒体平台必须具备在众多信息中快速准确筛选出高价值信息的能力，以最快最准确的方式，将最符合用户喜好的内容，迅速呈现在用户面前。

所以，市场急需一款专为细分领域设计并开发的基于网络舆情分析的自动化搜索引擎方法及系统。

发明内容

为解决上述技术问题，本发明提供了一种基于网络舆情分析的自动化搜索引擎方法及系统，以达到为信息舆情收集和分析提供了一种专业、经济、精准、定制化、移植性强的解决方案目的。

为达到上述目的，本发明的技术方案如下：

一种基于网络舆情分析的自动化搜索引擎方法，包括如下步骤：

步骤一，利用平台定位分析模块通过爬虫获取自身产品中已发布的全部内容，对全部内容和标题进行两个维度的统计，形成关键词库；

步骤二，借助舆情分析模块根据形成的关键词库，利用爬虫技术，对相似网络平台上相关主题内容进行爬取，并对爬取的网页内容进行热点分析，获取热点主题，并对热点主题进行跟踪和评估；

步骤三，采用主题筛选模块基于频繁项挖掘算法对获取的热点主题进行挖掘，快速检索一定时间内具有最大频次的主题项，将频次超过用户设定阈值的主题项进行显示；并且快速筛选该主题项中符合平台定位的文章或者人为预判有热度潜力的文章，作为候选的目标文本内容；

步骤四，内容推送模块将符合平台定位的文章或者人为预判有热度潜力的文章发布后，统计一段时间内实际的高阅读量的文章，并将文章数据再次进行分词关键词统计，一方面，反作用于主题筛选模块，以此不断比对校正筛选热度的正确性；另一方面，该步骤产生的文章数据重新作用于平台定位分析模块，从源头上进一步优化迭代关键词库，用以更加精准完成平台定位。

上述方案中，所述步骤二的具体方法如下：

(1)对爬取的内容进行信息预处理，对数据进行清洗、过滤机噪声清除；

(2)利用K-means算法对经过预处理的数据进行聚类分析，得到热点主题；

(3)基于KNN分类算法对热点主题中的热点事件进行跟踪，判定候选的内容是否是热点内容；

(4)对热点内容进行展示及追踪溯源，完成热点评估。

进一步的技术方案中，所述步骤(2)具体方法如下：

①基于word2vec算法对文本数据进行数字化表示，通过训练一个映射神经网络将大规模词向量映射到低维数值向量空间；

②在将文本内容进行矢量化处理之后，对主题文本被转发和评论的情况构建关联矩阵，并从中选出结点总数大于阈值的多个主题不同的转发图，将选出的转发图个数及中心向量作为K-means算法的聚类个数K和初始化聚类中心向量；

③针对每个文本向量计算与K个聚类中心向量的距离，选距离最近的聚类簇，并归到该类；

④然后按照聚类结果重新计算K个聚类中心，作为下一轮的初始聚类中心；

⑤重复步骤③和④，直至本轮聚类中心和上一轮聚类中心相同；

⑥最后，输出K个聚类簇的中心，距离中心最近的主题即为热点主题。

进一步的技术方案中，所述步骤(3)具体方法如下：

①利用特征向量对新收集到的报道进行向量表示；

②判断该报道是否是新生事件，若是，构造事件中心向量；否则判断该报道与已有事件之间的相似度，若相似度大于预定阀值，则将该报道划分到与之相似度最大的事件中；否则，构造新的事件中心向量，形成新话题；

③重复步骤①和②。

一种基于网络舆情分析的自动化搜索引擎系统，包括如下四大模块：

一、平台定位分析模块，通过爬虫获取自身产品中已发布的全部内容，对全部内容和标题进行两个维度的统计，形成关键词库；

二、舆情分析模块，根据形成的关键词库，利用爬虫技术，对相似网络平台上相关主题内容进行爬取，并对爬取的网页内容进行热点分析，获取热点主题，并对热点主题进行跟踪和评估；

三、主题筛选模块，基于频繁项挖掘算法对获取的热点主题进行挖掘，快速检索一定时间内具有最大频次的主题项，将频次超过用户设定阈值的主题项进行显示；并且快速筛选该主题项中符合平台定位的文章或者人为预判有热度潜力的文章，作为候选的目标文本内容；四、内容推送模块，将符合平台定位的文章或者人为预判有热度潜力的文章发布后，统计一段时间内实际的高阅读量的文章，并将文章数据再次进行分词关键词统计，一方面，反作用于主题筛选模块，以此不断比对校正筛选热度的正确性；另一方面，该步骤产生的文章数据重新作用于平台定位分析模块，从源头上进一步优化迭代关键词库，用以更加精准完成平台定位，至此系统形成闭环。

通过上述技术方案，本发明提供的基于网络舆情分析的自动化搜索引擎方法及系统具有如下有益效果：

1、专业

基于网络舆情分析的自动化搜索引擎系统是一个基于人工智能、大数据的互联网舆情监测与分析系统，是一个符合当前互联网信息爆炸时代的一个兼具创新意识和实用性的产品。本系统针对特定业务场景及垂直领域，做属于符合自媒体行业自己的舆情信息检索系统。相比市面上其他有部分相似功能的产品，本系统更加专业，更加有针对性，更加符合特定场景的业务需求。

2、经济

基于网络舆情分析的自动化搜索引擎系统致力于打造用智能代替人工、用大数据寻找纷杂的信息中的潜在规律的智能化功能，实现在操控上简单易用，为自媒体行业从业者精准获取及筛选信息节省大量时间。本系统只需1-2个人维护即可完成以往5-10人的工作量，用系统功能代替人力操作，节省了大量人力成本，在降本的同时实现增效。

3、精准

基于网络舆情分析的自动化搜索引擎系统通过对所需信息主题关键词的全面设置，通过爬虫技术抓取海量信息中的符合相应关键词的文章，实现高效精准获取资源。并且可根据不同关键词的相互组合，判断资源的综合热度潜力，同时，内容推送模块可以统计一段时间内实际的高阅读量的文章，并将文章数据再次进行分词关键词统计，一方面，反作用于主题筛选模块，以此不断比对校正筛选热度的正确性；另一方面，该步骤产生的文章数据重新作用于平台定位分析模块，从源头上进一步优化迭代关键词库，用以更加精准完成平台定位。从而可以精准筛选文章，为打造专业化细分领域的新媒体运营做出不可忽视的贡献。

4、定制化

基于网络舆情分析的自动化搜索引擎系统是一个具有通用性的专业系统。由于自媒体行业有着各个垂直细分领域，要想一套系统全面覆盖绝大多数甚至全部的自媒体行业，就需要该系统有着用户自我定制化的特点。用户可以结合自身平台的定位及特点，手动或自动维护相应的主题关键词，从而让系统灵活满足自己的各类细分领域的主题资源获取需求。

5、移植性强

基于网络舆情分析的自动化搜索引擎系统具有强大的可移植性，可以同微信公众号、小程序、网站等各类平台打通，而非仅仅局限于一种或几种媒体平台，实现在各类平台上半自动/全自动筛选并发布信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于网络舆情分析的自动化搜索引擎系统示意图；

图2为本发明实施例所公开的舆情分析模块的工作流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于网络舆情分析的自动化搜索引擎系统，该系统是专为细分领域设计并开发的融合网络热点话题发现及跟踪的自动化内容推荐系统，系统包含四个主要模块，按照流程化的方法实现可根据符合自身特点的定制化关键词，抓取热点内容，完成自身及外部平台的内容分析；同时，显示内容的传播途径、运营数据、情感走势等曲线，展示出完整科学的传播分析；通过对抓取内容进行溯源，精准追踪内容来源实现精准无误的溯源分析，有利于版权保护；通过专业直观的大数据可视化显示，根据大屏显示，做出该系统的统计报告，以方便管理者做数据运营。

如图1所示，该系统包括如下四大模块：

三、主题筛选模块，基于频繁项挖掘算法对获取的热点主题进行挖掘，快速检索一定时间内具有最大频次的主题项，将频次超过用户设定阈值的主题项进行显示；并且快速筛选该主题项中符合平台定位的文章或者人为预判有热度潜力的文章，作为候选的目标文本内容；

四、内容推送模块，将符合平台定位的文章或者人为预判有热度潜力的文章发布后，统计一段时间内实际的高阅读量的文章，并将文章数据再次进行分词关键词统计，一方面，反作用于主题筛选模块，以此不断比对校正筛选热度的正确性；另一方面，该步骤产生的文章数据重新作用于平台定位分析模块，从源头上进一步优化迭代关键词库，用以更加精准完成平台定位，至此系统形成闭环。

本发明提供了一种基于网络舆情分析的自动化搜索引擎方法，包括如下步骤：

步骤一，利用平台定位分析模块通过爬虫获取自身产品中已发布的全部内容，对全部内容和标题进行两个维度的统计，形成关键词库；具体如下：

基于平台定位分析模块实现对平台自身特点和所属领域的精细化定位分析，通过爬虫获取自身产品中已发布的全部内容，基于Standford汉语分词工具对其进行分词，并且基于查表法进行停用词过滤。停用词是指经过中文分词后出现的数词、叹词、连词、副词、介词等停用词，这些词虽然大量出现，但是对于文本内容的表达没有很大帮助，反而会干扰对文本主题的分析。预先构建一个停用词表，然后依次检查文本中每个词，如果该词出现在停用词表中，说明该词是停用词，则删除该词。然后，对全部内容和标题进行两个维度的统计，形成关键词及对应的出现频率，最终以词云、统计表格等其他数据可视化的形式表现出来，以直观地看出该平台发布过哪些内容以及发布过的重点内容，在此基础上，进一步手动维护(添加/删除)更加符合平台定位的关键词，形成关键词库。以某公众号为例，抓取公众号全部内容，完成平台定位分析，由此便可以有侧重地对平台相关领域的互联网内容和近期的热点话题进行分析。

步骤二，借助舆情分析模块，如图2所示，根据形成的关键词库，利用爬虫技术，对相似网络平台上相关主题内容进行爬取，在此，可以根据主题人工设定信息来源，如各大国内外高校/院所官网，Medium，Google(网页)，微信，微博，论坛等，同时，也可以对爬虫设定更多的规则，设定相应的筛选条件，具体包括的规则如表1所示。

表1筛选条件和规则

接着，对爬取的网页内容进行热点分析。具体方法如下：

基于预先制订的规则对网页中的缺失数据进行自动补全、对不规则数据进行规则化处理以及删除无关字符等，同时，将与内容分析无关的图片、视频、链接等噪声清除，从而得到标准、干净、连续的数据，然后进行分词、停用词过滤等，基本方法与平台定位分析模块中的数据预处理方法相同；然后，对抓取到的信息以合理的大数据可视化图形形式展示数据，以此实现直观表达的效果。主要包括：

a)信息总量统计及详情表；

b)主流媒体报道数量统计及详情表；

c)今日信息量统计及详情表；

d)各省份信息数量分布图；

e)各渠道信息数量分布图(折线图，饼图)及详情表等。

通过运营管理人员对这些数据信息进行二次筛选加工，从而实现对舆情热点事件预判、舆情发展趋势等深入分析。

(2)利用K-means算法对经过预处理的数据进行聚类分析，得到热点主题；具体方法如下：

(3)基于KNN分类算法对热点主题中的热点事件进行跟踪，判定候选的内容是否是热点内容；帮助本平台管理人员进一步分析所发现的热点话题与本平台的相关性，同时，精准追踪内容来源实现版权保护，避免发生侵权对本平台产生不良后果。

热点实践跟踪采用基于KNN(K紧邻)分类的方法进行，通过一种非参数的机器学习方法，将候选文本内容分类到热点和非热点中。基本思想为：在给定目标内容后，考虑在训练文本集中与目标报道距离最近(最相似)的K个文本，根据这K个文本的所属类别判定新文本内容的类别。具体实施过程为：

①利用特征向量对新收集到的报道进行向量表示；

③重复步骤①和②。

(4)对热点内容进行展示及追踪溯源，完成热点评估。

在事件的跟踪过程中，通过分析短时间内与某一事件相关的报道数量的变化以及用户人数的变化，可以在一定程度上预测事件的发展状况。当某一事件在短时间内吸引了超过预定阀值的用户参与时，该事件成为热点事件，由此不断更新爬取的数据集中主题事件的热点属性，进而不断迭代提高预测准确度。如果内容主题被分类为有可能成为热点内容，则将其优先推送给平台订阅用户。

步骤三，采用主题筛选模块基于频繁项挖掘算法对获取的热点主题进行挖掘，采用频数序的字典树存储频繁模式，并利用倾向时间窗口记录模式，通过对主题频数序字典树进行搜索快速检索一定时间内具有最大频次的主题项，将频次超过用户设定阈值的主题项进行直方图的方式显示，向平台管理人员展示平台近期发表内容最多的主题。并且快速筛选该主题项中符合平台定位的文章或者人为预判有热度潜力的文章，作为候选的目标文本内容。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于网络舆情分析的自动化搜索引擎方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于网络舆情分析的自动化搜索引擎方法，其特征在于，所述步骤二的具体方法如下：

(4)对热点内容进行展示及追踪溯源，完成热点评估。

3.根据权利要求2所述的一种基于网络舆情分析的自动化搜索引擎方法，其特征在于，所述步骤(2)具体方法如下：

4.根据权利要求2所述的一种基于网络舆情分析的自动化搜索引擎方法，其特征在于，所述步骤(3)具体方法如下：

①利用特征向量对新收集到的报道进行向量表示；

③重复步骤①和②。

5.一种基于网络舆情分析的自动化搜索引擎系统，其特征在于，包括如下四大模块：