CN112183067B

CN112183067B - 一种大数据环境下网络舆情人工智能分析系统

Info

Publication number: CN112183067B
Application number: CN202011005951.XA
Authority: CN
Inventors: 夏一雪; 兰月新; 连芷萱
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-05-27
Anticipated expiration: 2040-09-23
Also published as: CN112183067A

Abstract

本发明提供了一种大数据环境下网络舆情人工智能分析系统，属于网络舆情数据分析技术领域。所述系统包括：输入模块、预处理模块、特征提取模块、第一向量生成模块、第二向量生成模块、第三向量生成模块和输出模块，其中，输入模块输入某话题潜伏期和增长期的第一数据矩阵；预处理模块对第一数据矩阵进行增删改查形成第二数据矩阵；特征提取模块对第二数据矩阵进行特征提取形成第三数据矩阵；第二向量生成模块对第三数据矩阵进行数据判断形成第二数据向量；第三向量生成模块对第二数据向量进行规则提取形成第三数据向量；输出模块对输出第三数据向量以供用户进行参考，所述第三向量至少包括谣言数据和热点数据。本发明提供的分析系统可以将大数据环境下网络舆情分成谣言信息和热点信息，为制定舆情控制决策提供支持。

Description

一种大数据环境下网络舆情人工智能分析系统

技术领域：

本发明涉及一种大数据环境下网络舆情人工智能分析系统，属于网络舆情数据分析技术领域。

技术背景：

随着移动宽带互联网的普及，网络舆情在数据体量、复杂性和产生速度等方面发生巨大变化，已经呈现大数据环境。由于网络舆情中大量真实信息、主观猜测、恶意关联、小道消息，而主观猜测、恶意关联和小道消息极易异化成为网络谣言，并促使网络舆情的数量快速增加，已经成为网络空间的“灾害”，如何治理网络谣言，净化网络空间成为网络社会治理的难题。

目前网络舆情的研究涉及新闻学与传播学、统计学、管理学、心理学、计算机科学等多学科，属于交叉学科研究领域，研究网络谣言传播规律建模思想主要有：小世界网络建模、微分方程建模、人群动力学建模、社会网络建模、无标度网络建模、演化博弈建模、借鉴传染病模型等。由于网络谣言的传播与传染病的扩散有相似性，因此国内外针对网络谣言的传播规律研究大都借鉴传染病模型而开发新的模型，这类模型研究主要包括基础模型和改进模型，前者包括SI模型、SIS模型、SIR模型、SEIR模型，后者主要包括SIHR、RSIRa、SCIR、PSEIR等。在理论模块面，按照信息生命周期理论，网络舆情传播演化具备周期性，并且在一个演化周期内可以划分潜伏期、增长期和消退期。

网络谣言与热点舆情具有高度相似性：突然暴发，现有技术中提供的模型很难从舆情信息量的变化中网络谣言与热点舆情有效区分开，给进一步的舆情管控带来不便。

发明内容

为克服现有技术中存在的缺点，本发明的发明目的是提供一种大数据环境下网络舆情人工智能分析系统，其能够区分网络数据是谣言数据还是热点数据。

为实现所述发明目的,本发明提供一种大数据环境下网络舆情人工智能分析系统，其特征在于，包括：输入模块、预处理模块、特征提取模块、第一向量生成模块、第二向量生成模块、第三向量生成模块和输出模块，其中，输入模块输入大数据环境下某话题潜伏期和增长期的第一数据矩阵，第一数据矩阵为：

第一数据矩阵的行表示大数据环境下某话题N₁个信息来源,第一数据矩阵的列表示每个信息来源的M₁个时间序列，

表示第m₁个信息来源，第n₁个时刻获取的语言特征数据；

预处理模块对第一数据矩阵进行增删改形成第二数据矩阵，第二数据矩阵为：

其中，N₂、M₂分别为第二数据矩阵的列数和行数,

表示第m₂列，第n₂行个数据；

为权值，其与每个信息来源的可信度相关，由反馈训练模块根据输出模块的结果进行反复训练得到；

特征提取模块对第二数据矩阵进行特征提取形成第三数据矩阵，第三数据矩阵为：

其中，

式中：

分别为高斯函数的中心点和带宽；

为结构权重值；N₃为第三数据矩阵的列数，

第一向量生成模块对第三数据矩阵进行处理成第一数据向量，第一数据矩阵向量为：

其中，

第二向量生成模块对第一数据向量进行数据判断形成第二数据向量，第二数据向量为：

式中，

式中，

β为常数；

第三向量生成模块根据下式输出第三向量，其为：

其中，

式中，

为第三向量生成模块和第二向量生成模块之间的权重；k＝1,…,N_y，N_y为第三向量生成模块神经元数目；

输出模块用于给建模模块输出第三数据向量以分析网络谣言和网络热点的耦合度，所述第三向量至少包括谣言数据和热点数据，输出模块输出的信号为：

式中：

为输出模块和第三向量生成模块之间的权重，a＝1,2,3为输出模块输出信号的数目，分别表示网络谣言的信息、热点的信息和普通信息。

优选地，大数据环境下网络舆情人工智能分析系统还包括时间序列区间设定模块和极大点抽取模块，其中，从极大点抽取模块数据库存储的某话题多个信息来源时间序列抽取多个信息来源中话题出现次数的极大值；时间序列区间设定模块根据极大值从数据库存储的多个信息来源时间序列设定起始点和终止点。

优选地，所述起始点和终止点位于极大值两侧。

与现有技术相比，本发明提供的大数据环境下网络舆情人工智能分析系统能够区分网络数据是谣言数、热点和普通信息。

附图说明

图1是本发明提供大数据环境下网络舆情分析装置的组成框图；

图2是本发明提供的时间序列特征区间的获取过程流程图；

图3是本发明提供的大数据环境下网络舆情某话题出现次数随时间变化的曲线图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，本文所用的术语仅用于描述特定实施例的目的，而并非旨在限制本发明。除非上下文明确指出，否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时，是意图说明存在该特征、整数、步骤、操作、元素和/或组件，而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1是本发明提供的大数据环境下网络舆情分析装置的组成框图。如图1所示，本发明提供的大数据环境下网络舆情预警装置包括处理器1、通信单元2输入输出接口3和存储器4，处理器1可以是各种类型的，包括微控制器和微处理器；通信单元2被配置为便于大数据环境下网络舆情预警装置和其他设备之间有线或无线方式的通信，大数据环境下网络舆情预警装置可以接入基于通信标准的无线网络，如3G、4G、5G或它们的组合，通信单元2还包括蓝牙模块，其为近场通信模块，以促进短程通信。输入输出接口3为处理器和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮、显示器等；存储器4可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)，只读存储器(ROM)、磁存储器、快闪存储器磁盘等。处理器1通过通信单元2通过网络获取数据，并通过通信单元向网络输出数据。存储器4存储有大数据环境下网络舆情预警系统的计算机程序，处理器执行该计算机程序，并通过输入输出接口连接的显示单元生成一个用户界面，大数据环境下网络舆情预警系统包括数据数据获取模块12、时间序列生成模块11、特征区间提取模块13、极大点抽取模块18、人工智能模块14、建模模块15、仿真模块16和计算模块17，其中，数据获取模块12通过通信单元2从网络中输入大数据环境下多个信息来源的数据并提供给时间序列生成模块11，本发明中，数据获取模块12通过爬虫技术从因特网上的网页、博客等中获取对网民对某话题的文档、视频及发布文档、视频的时刻；时间序列生成模块11根据数据获取模块提供的信息对某话题的文档、视频率及发布文档、视频的时刻，形成话题出现次数随时刻变化的时间序列并存储到数据库中；极大点抽取模块18从数据库存储的某话题多个信息来源时间序列抽取多个信息来源中话题出现次数的极大值Q；时间序列区间设定模块13从数据库存储的多个信息来源时间序列设定起始点和终止点，所述起始点和终止点位于极值两侧；人工智能模块对间序列区间设定模块提供的信息进行监测，区别为网络舆情和网络谣言，进而得到网络舆情与网络谣言的时间序列数据；建模模块对网络舆情、网络谣言的监测数据进行回归分析，求模型参数；仿真模块对新加入的数据的进行动态仿真；计算模块计算网络舆情和网络谣言耦合比(CR)，预测网络舆情与网络谣言的耦合趋势。

本发明中，网络舆情与网络谣言耦合的机理模型为：

将其变成其对应的差分方程组进行计算：

式中，Δv₁(k)＝v₁(k)-v₂(k-1)，Δv₂(k)＝v₂(k)-v₂(k-1)，k＝1,2,3......，v₁(k)，v₂(k)分别表示网络舆情和网络谣言的文档、视频出现数。

本发明中，在(1)方程中，差分Δv₁(k)与v₁(k)，

v₂(k)v₁(k)呈现三元线性关系，r,

r₁三个参数应用三元线性回归分析可以获取。在第(2)方程中，可应用回归分析得到回归系数μ和h。

网络舆情和网络谣言的耦合模型中关键参数是r₁，r、μ和h，为研究网络谣言和网络舆情耦合趋势，当t→∞时，v₁(t),v₂(t)的趋向稳定。令

当h＞0时，得到模型平衡点

考虑到网络舆情的单调性，只剩余一个正的平衡点P，且是全局稳定的，据此，可以定义网络谣言和网络舆情的耦合度CR(Coupling Ratio)，代表网络谣言融入网络舆情后，网络舆情数量的激增程度。定义

图2是本发明提供的时间序列区间设定模块的工作流程图，如图2所示，首先，数据获取模块12利用包含网民关注语言在网页、微博等中进行检索，将检索的文档、视频等输入到时间序列数据生成模块11。时间序列数据生成模块11根据数据获取模块12提供的信息处理某话题的多个评论文档、视频及发布评论的时刻，形成多个信息来源某话题出现次数随时刻变化的时间序列数据并存储到数据库中，具体而言，时间序列数据生成模块11根据各文档、音视频的时间信息，按每单位时间求出包含检测略的文档的出现数，生成图3所示的曲线图。接着，极大值抽取模块18抽取多个信息来源中的某话题出现次数的最大值或者变变化率的极大值，并将出现极值点的时刻Q提供给特征区间抽取模块13，如图3Q时刻提供给特征区间抽取模块；特征区间抽取模块13根据极大值抽取模块18提供的信息从关于该话题的文档数据库中抽取信息源的时间序列数据而后提供给人工智能模块14，该时间序列的时间段的起始点设置在Q时刻过去侧，始点设置在Q时刻的将来侧，即起始点和终点设置在Q时刻两侧。

本发明提供的大数据环境下网络舆情人工智能分析系统包括：输入模块、预处理模块、特征提取模块、第一向量生成模块、第二向量生成模块、第三向量生成模块和输出模块，其中,

输入模块输入大数据环境下潜伏期和增长期的第一数据矩阵，第一数据矩阵

为：

第一数据矩阵的行表示大数据环境下N₁个信息来源,第一数据矩阵的列表示每个信息来源的M₁个时间序列，

表示第m₁个信息来源，第n₁个时刻获取的数据,所述数据为文本特征数据；

其中，N₂、M₂分别为第二数据矩阵的列数和行数,

表示第m₂列，第n₂行个数据；

为权值，其与每个信息来源的可信度相关，由反馈训练模块根据输出模块的结果进行反复训练得到。本发明中，N₂为第二数据矩阵的列数，如果在第一数据矩阵上增加数据，则N₂比N₁大，如果在第一数据矩阵上删除数据，则N₂比N₁小，如果在第一数据矩阵上修改数据，则N₂与N₁相同。

其中，

式中：

分别为高斯函数的中心点和带宽；

为结构权重值；N₃为第三数据矩阵的列数，

其中，

式中，

式中，

β为常数；

第三向量生成模块输出第三向量，其为：

其中，

式中，

式中：

为输出模块和第三向量生成模块之间的权重，a＝1,2,3为输出模块输出信号的数目，分别表示网络谣言信息、网络舆情信息和普通信息。

本发明在定性分析网络舆情和网络谣言的耦合机理基础上，构建微分方程模型研究网络谣言对网络舆情的影响程度，并通过回归分析和模拟仿真研究网络舆情和网络谣言耦合趋势预测问题，以期为政府治理网络谣言，净化网络空间提供参考依据。

以上结合附图，详细说明了本发明的工作原理。但是本领域的普通技术人员应当明白，说明书仅是用于解释权利要求书。但本发明的保护范围并不局限于说明书。任何熟悉本技术领域的技术人员在本发明批露的技术范围内，可轻易想到的变化或者替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种大数据环境下网络舆情人工智能分析系统，其特征在于，包括：输入模块、预处理模块、特征提取模块、第一向量生成模块、第二向量生成模块、第三向量生成模块和输出模块，其中，输入模块输入大数据环境下某话题潜伏期和增长期的第一数据矩阵，第一数据矩阵为：

表示第m₁个信息来源，第n₁个时刻获取的语言特征数据；

其中，N₂、M₂分别为第二数据矩阵的列数和行数,

表示第m₂列，第n₂行个数据；

其中，

式中：

分别为高斯函数的中心点和带宽；

为结构权重值；N₃为第三数据矩阵的列数，

其中，

式中，

式中，

β为常数；

第三向量生成模块根据下式生成第三数据向量：

其中，

式中，

式中：

2.根据权利要求1所述大数据环境下网络舆情人工智能分析系统，其特征在于，还包括时间序列区间设定模块和极大点抽取模块，其中，从极大点抽取模块数据库存储的某话题多个信息来源时间序列抽取多个信息来源中话题出现次数的极大值；时间序列区间设定模块根据极大值从数据库存储的多个信息来源时间序列设定起始点和终止点。

3.根据权利要求2所述大数据环境下网络舆情人工智能分析系统，其特征在于，所述起始点和终止点位于极大值两侧。