CN114707045B

CN114707045B - 一种基于大数据的舆情监测方法及系统

Info

Publication number: CN114707045B
Application number: CN202210290474.9A
Authority: CN
Inventors: 刘新新; 孙昕杰; 吕湛
Original assignee: Jiangsu Xining Technology Co ltd
Current assignee: Jiangsu Xining Technology Co ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-09-26
Anticipated expiration: 2042-03-23
Also published as: CN114707045A

Abstract

本申请涉及一种基于大数据的舆情监测方法，所述方法包括：S1、采集大数据中的舆情信息，得到原始舆情信息；S2、对采集到的原始舆情信息进行数据处理，得到热点舆情信息；S3、将热点舆情信息实时传输到终端。本发明先通过语义分析将语义类似的舆情信息分类归组，然后采集分类归组后的舆情信息中的有用信息，这样能大大地过滤掉无用信息，从而提高了舆情判断的准确性；接着，从有用信息中采集多次出现的特征短语，并过滤掉出现次数较少的特征短语，这样能进一步地过滤掉无用信息，进一步地提高了舆情判断的准确性；再接着，过滤掉长度较短的特征短语，这样能避免较短特征短语对语义的干扰，从而又提高了舆情判断的准确性。

Description

一种基于大数据的舆情监测方法及系统

技术领域

本申请涉及数据管理技术领域，特别是涉及一种基于大数据的舆情监测方法及系统。

背景技术

随着网络技术的飞速发展，我们已迈进大数据时代，大数据带来的巨量信息正逐渐改变着我们的生活、工作和思维方式，同时对舆情监测和管理也带来了深刻影响。大数据使得我们可以分析和使用的数据大量增加的同时，有效管理和驾驭巨量数据的难度也在不断增长，舆情监测和管理正面临着全新的机遇和挑战。

目前，虽然已有多种舆情监测的技术方案，但是，这些舆情监测技术方案大多存在判断准确率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高断准确率的基于大数据的舆情监测方法及系统。

本发明技术方案如下：

一种基于大数据的舆情监测方法，所述方法包括：

S1、采集大数据中的舆情信息，得到原始舆情信息；

S2、对采集到的原始舆情信息进行数据处理，得到热点舆情信息；

S3、将热点舆情信息实时传输到终端。

进一步地说，采集大数据中的舆情信息，得到原始舆情信息，具体为：通过自动提取网页程序和预设的关键词，采集网络上的海量舆情信息，得到原始舆情信息。

进一步地说，对采集到的原始舆情信息进行数据处理，得到热点舆情信息；具体包括：

对所述原始舆情信息中的所有信息分别进行语义分析，得到语义分析结果，并根据所述语义分析结果再次采集大数据中的舆情信息，得到与所述原始舆情信息语义类似的舆情信息，再将语义类似的所有舆情信息分为一组，得到第一舆情信息；

从所述第一舆情信息中获取对舆情监测有用的文字信息，得到第二舆情信息，从所述第二舆情信息中获取特征短语，并对特征短语重复出现的次数进行计数，当计数值大于预设计数值时，则保留该特征短语，当计数值小于预设计数值时，则丢弃该特征短语，得到第三舆情信息；

将计算所述第三舆情信息中特征短语的长度，当长度值大于预设长度值时，则保留该特征短语，当长度值小于预设长度值时，则丢弃该特征短语，得到第四舆情信息；

利用迭代求解的聚类分析算法对得到的所述第四舆情信息进行处理，得到热点舆情信息。

进一步地说，对所述原始舆情信息中的所有信息分别进行语义分析，得到语义分析结果；具体包括：

建立语义分析模型，获取带有语义分析结构的训练样本库，利用该训练样本库对所述语义分析模型进行模型训练，得到训练好的语义分析模型，将所述原始舆情信息中的所有信息分别输入训练好的语义分析模型，得到一次语义分析结果。

进一步地说，对所述原始舆情信息中的所有信息分别进行语义分析，得到语义分析结果；还包括：

首先获取种子词，并遍历词库获取与种子词相似词义的词语，得到同义词库，当所述同义词库中不存在未被查找到的与种子词相似词义的词语时，建立词族；然后获取原始语义规则式，将该原始语义规则式分割为多个规则字符串，并识别这些规则字符串的规则顺序信息，利用这些规则字符串和规则顺序信息，首先判断原始语义规则式的样式是否正确，当所述原始语义规则式的样式正确时，接着判断原始语义规则式的逻辑是否正确，当原始语义规则式的逻辑正确时，则将该原始语义规则式归入语义规则式库中，建立语义规则式库，该语义规则式库包含多个语义规则式，每个所述语义规则式又包含按预设语义逻辑排列的多个词族；

将所述一次语义分析结果分割为多个一次结果规则字符串，并识别这些一次结果规则字符串的语义顺序信息，在所述语义规则式库中查找是否存在与所述多个一次结果规则字符串的语义顺序信息相同的语义规则式，若存在与所述多个一次结果规则字符串的语义顺序信息相同的语义规则式，则将该语义规则式作为二次分析结果，该二次分析结果为最后分析结果，若不存在与所述多个一次结果规则字符串的语义顺序信息相同的语义规则式，则将一次语义分析结果作为最后分析结果。

进一步地说，将热点舆情信息实时传输到终端，具体为：利用5G网络将得到的所述热点舆情信息实时传输至终端，供用户监测。

进一步地说，一种基于大数据的舆情监测系统，所述系统包括：

舆情信息采集模块，用于采集大数据中的舆情信息，得到原始舆情信息；

舆情信息处理模块，用于对采集到的原始舆情信息进行数据处理，得到热点舆情信息；

舆情信息传输模块，用于将热点舆情信息实时传输到终端。

进一步地说，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述基于大数据的舆情监测方法所述的步骤。

进一步地说，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于大数据的舆情监测方法所述的步骤。

本发明实现技术效果如下：

1、先通过语义分析将语义类似的舆情信息分类归组，然后采集分类归组后的舆情信息中的有用信息，这样能大大地过滤掉无用信息，从而提高了舆情判断的准确性；接着，从有用信息中采集多次出现的特征短语，并过滤掉出现次数较少的特征短语，这样能进一步地过滤掉无用信息，进一步地提高了舆情判断的准确性；再接着，过滤掉长度较短的特征短语，这样能避免较短特征短语对语义的干扰，从而又提高了舆情判断的准确性；最后，通过迭代求解的聚类分析算法对得到的舆情信息进行处理，使得最后得到的热点舆情信息更加准确；

2、通过采用语义分析模型来对原始舆情信息进行语义分析，这样不仅大大地提高了语义分析效率，而且又提高了语义分析的准确率；同时，讲语义分析模型输出的结果分割为多个一次结果规则字符串，并识别这些一次结果规则字符串的语义顺序信息，在语义规则式库中查找是否存在与多个一次结果规则字符串的语义顺序信息相同的语义规则式，若存在与所述多个一次结果规则字符串的语义顺序信息相同的语义规则式，则将该语义规则式作为二次分析结果，该二次分析结果为最后分析结果，这样进一步地提高了语义分析的准确性。

附图说明

图1为一个实施例中基于大数据的舆情监测方法的流程示意图；

图2为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于大数据的舆情监测方法，所述方法包括：

S1、通过自动提取网页程序和预设的关键词，采集网络上的海量舆情信息，得到原始舆情信息，其中，自动提取网页程序可以为网络爬虫等网络搜索引擎；

利用迭代求解的聚类分析算法对得到的所述第四舆情信息进行处理，得到热点舆情信息；

其中，对所述原始舆情信息中的所有信息分别进行语义分析，得到语义分析结果；具体包括：

建立语义分析模型(该语义分析模型为现有的基于神经网络的语义分析模型，在此不再赘述)，获取带有语义分析结构的训练样本库，利用该训练样本库对所述语义分析模型进行模型训练，得到训练好的语义分析模型，将所述原始舆情信息中的所有信息分别输入训练好的语义分析模型，得到一次语义分析结果；

接着获取种子词(可人工采集或通过搜索引擎采集)，并遍历词库获取与种子词相似词义的词语，得到同义词库，当所述同义词库中不存在未被查找到的与种子词相似词义的词语时，建立词族；然后获取原始语义规则式(可人工手动输入或通过搜索引擎采集)，将该原始语义规则式分割为多个规则字符串，并识别这些规则字符串的规则顺序信息，利用这些规则字符串和规则顺序信息，首先判断原始语义规则式的样式是否正确，当所述原始语义规则式的样式正确时，接着判断原始语义规则式的逻辑是否正确，当原始语义规则式的逻辑正确时，则将该原始语义规则式归入语义规则式库中，建立语义规则式库，该语义规则式库包含多个语义规则式，每个所述语义规则式又包含按预设语义逻辑排列的多个词族；

S3、利用5G网络或其他低延迟的网络将得到的所述热点舆情信息实时传输至终端，供用户监测。

综上所述，本发明先通过语义分析将语义类似的舆情信息分类归组，然后采集分类归组后的舆情信息中的有用信息，这样能大大地过滤掉无用信息，从而提高了舆情判断的准确性；接着，从有用信息中采集多次出现的特征短语，并过滤掉出现次数较少的特征短语，这样能进一步地过滤掉无用信息，进一步地提高了舆情判断的准确性；再接着，过滤掉长度较短的特征短语，这样能避免较短特征短语对语义的干扰，从而又提高了舆情判断的准确性；最后，通过迭代求解的聚类分析算法对得到的舆情信息进行处理，使得最后得到的热点舆情信息更加准确；

再通过采用语义分析模型来对原始舆情信息进行语义分析，这样不仅大大地提高了语义分析效率，而且又提高了语义分析的准确率；同时，讲语义分析模型输出的结果分割为多个一次结果规则字符串，并识别这些一次结果规则字符串的语义顺序信息，在语义规则式库中查找是否存在与多个一次结果规则字符串的语义顺序信息相同的语义规则式，若存在与所述多个一次结果规则字符串的语义顺序信息相同的语义规则式，则将该语义规则式作为二次分析结果，该二次分析结果为最后分析结果，这样进一步地提高了语义分析的准确性。

在一个实施例中，提供一种基于大数据的舆情监测系统，所述系统包括：

舆情信息传输模块，用于将热点舆情信息实时传输到终端。

在一个实施例中，如图2所示，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述基于大数据的舆情监测方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于大数据的舆情监测方法所述的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大数据的舆情监测方法，其特征在于，所述方法包括：

S1、采集大数据中的舆情信息，得到原始舆情信息；

S3、将热点舆情信息实时传输到终端；

采集大数据中的舆情信息，得到原始舆情信息，具体为：通过自动提取网页程序和预设的关键词，采集网络上的海量舆情信息，得到原始舆情信息；

对采集到的原始舆情信息进行数据处理，得到热点舆情信息；具体包括：

对所述原始舆情信息中的所有信息分别进行语义分析，得到语义分析结果；具体包括：

建立语义分析模型，获取带有语义分析结构的训练样本库，利用该训练样本库对所述语义分析模型进行模型训练，得到训练好的语义分析模型，将所述原始舆情信息中的所有信息分别输入训练好的语义分析模型，得到一次语义分析结果；

对所述原始舆情信息中的所有信息分别进行语义分析，得到语义分析结果；还包括：

2.根据权利要求1所述的基于大数据的舆情监测方法，其特征在于，将热点舆情信息实时传输到终端，具体为：利用5G网络将得到的所述热点舆情信息实时传输至终端，供用户监测。

3.根据权利要求1所述的基于大数据的舆情监测方法的监测系统，其特征在于，所述系统包括：

舆情信息传输模块，用于将热点舆情信息实时传输到终端。

4.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。