CN111950717B

CN111950717B - 一种基于神经网络的舆情量化方法

Info

Publication number: CN111950717B
Application number: CN202010881063.8A
Authority: CN
Inventors: 钟艳如; 赵蕾先; 贺昭荣; 高宏; 罗笑南
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2022-07-19
Anticipated expiration: 2040-08-27
Also published as: CN111950717A

Abstract

本发明公开了一种基于神经网络的舆情量化方法，步骤为：1）利用爬虫技术采集用户在社交平台上的舆论文本数据，将采集的数据以文本形式存储于数据库中；2）对收集的舆论文本数据进行数据预处理；3）根据预处理后的数据，构建舆论分析数据集；4）构建网络模型，利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练；5）利用训练好的网络模型对舆论文本进行量化；该方法可以通过神经网络的方式对符号化文本进行量化，并且采用了多特征碎片的权重计算来确定各类因素的影响权重。较传统方法而言，该方法更加灵活，鲁棒性更强，从社会经济来看，该方法可以紧抓热点，跟随数据量的增大而更加客观理性，更加符合舆情实际结果。

Description

一种基于神经网络的舆情量化方法

技术领域

本发明涉及人工智能及深度学习技术领域，具体是一种基于神经网络的舆情量化方法。

背景技术

随着互联网的蓬勃发展，用户迅速增加，用户上网所产生信息不断增长，这为大数据的研究发展提供了庞大的数据，数据随着用户的增多而飞速增加，大量的舆论数据以文字的形式出现在互联网上，从各类社交媒体反映着社会的主观认识和价值。如何从其中提取出一些商业风险信息并且将其量化成数字的形式的方法具有极大的价值。

目前，现有技术中没有一个成熟的风险量化方法，其难点在于对于以符号化的文字无法用一种客观的形式来将其数字化，对于舆情文本而言需要考虑的各方面因素非常多，各种权重分布也无法客观进行统计学方面的判断。

发明内容

本发明的目的在克服现有技术的不足，而提供一种基于神经网络的舆情量化方法，该方法基于特征融合的神经网络进行风险量化，利用神经网络可以进行特征量化的方式，充分利用舆情特征，符合客观的分析，计算特征能力较强，底层技术比较成熟，可以将符号化的文字量化成风险分数。

实现本发明目的的技术方案是：

一种基于神经网络的舆情量化方法，包括如下步骤：

1)利用爬虫技术采集用户在社交平台上的舆论文本数据，将采集的数据以文本形式存储于数据库中；

2)对收集的舆论文本数据进行数据预处理；

3)根据预处理后的数据，构建舆论分析数据集；

4)构建网络模型，利用舆论分析数据集中的舆论文字和所关联因素数据对网络模型进行训练，网络模型的构建方法包括如下步骤：

4-1)建立编码层Embedding，使用随机编码技术将文字符号映射成一个随机向量用来表示文字特征和关联因素；

4-2)建立循环神经网络层RNN和长短记忆网络层LSTM，用于接收编码层输出的数据，计算长期语义依赖，得到一个包含语义关系仅仅只能被网络模型识别的语义特征值；

4.3)建立NextVlad网络层和卷积CNN网络层，用于聚合步骤4-2)所得的特征值；

4-4)经过步骤4-3)的网络层聚合，得到范围为[-1，1]的分数，该分数代表输入文本和关联因素之间的量化分数；

4-5)将步骤3)中的舆论分析数据集当作模型的输入数据，对模型进行反复训练，实行梯度下降训练，得到训练好的网络模型；

5)利用训练好的网络模型对舆论文本进行量化，具体包括如下步骤：

5-1)将需要进行量化分析的数据按照步骤2)方式进行预处理，并按照步骤3)的格式将数据构建成舆论分析数据集；

5-2)将步骤5-1)得到的舆论分析数据集输入训练好的网络模型中，得到舆论文本与关联因素间量化关系的分数，从而完成舆论数据的量化。

步骤2)中，所述的预处理，包括数据清洗，半结构化、非结构化的数据结构化，以及数据归一化；数据清洗是将爬取下来的杂乱无章、无用、需要定义一下正则表达式的内容删除；半结构化、非结构化的数据结构化是对数据清洗后的用户数据进行标准化；数据归一化是将数据结构化后的数据映射至[0-1]的范围中被神经网络学习。

步骤3)中，所述的舆论分析数据集，是将预处理后的数据以pytorch的形式打包成一个能被神经网络接收的tensor向量，使得能被步骤4)中的所构建的神经网络识别并训练。

步骤4)中，所述的循环神经网络层RNN和长短记忆网络层LSTM，计算规则如下：

其中

表示的是在t时刻中的第k个特征隐藏层计算结果，W_hk是隐藏层矩阵，

是显性输出，公式(2)是对隐藏层的输出

再做一次特征变化，并且考虑上一层的

的显性输出，其中f_h是激活函数；

经过语义计算的舆论语义间的内容能被网络模型理解识别，网络模型对输入的关联因素和语义进行关联计算，NextVlad网络层和卷积CNN网络层对该关联因素和语义进行聚合，得到量化分数，首先设置聚合阀来筛选各种关联数据的权重，公式如下：

其中a(xi)是预测值输出，α是超参数，x_i是第i维的价值，c_k是NextVlad的特征碎片权重，e为自然对数；

量化分数的计算公式如下：

Score为最后的得分，e为自然对数，

代表神经网络隐藏层矩阵，c_k(j)表示的是NextVlad的第k个特征簇的第j个输出值。

本发明提供的一种基于神经网络的舆情量化方法，该方法可以通过神经网络的方式对符号化文本进行量化，并且采用了多特征碎片的权重计算来确定各类因素的影响权重。较传统方法而言，该方法更加灵活，鲁棒性更强，从社会经济来看，该方法可以紧抓热点，跟随数据量的增大而更加客观理性，更加符合舆情实际结果。

附图说明

图1为实施例中的一种基于神经网络的舆情量化方法的流程图；

图2为爬虫Scrapy爬取过程示意图；

图3为RNN计算流程图；

图4为长短记忆网络层LSTM示意图；

图5为Nextvlad结构图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述，但不是对本发明的限定。

实施例：

一种基于神经网络的舆情量化方法，如图1所示，包括如下步骤：

1)利用爬虫技术采集用户在社交平台上的舆论文本数据，将采集的数据以文本形式存储于数据库中；具体是：

使用的爬虫技术为scrapy框架，Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。该爬虫框架通过以下几个组件进行爬取：Scrapy Engine，Scheduler，Downloader，Spiders，Item Pipeline。对于爬取舆论数据来源的社交媒体有以下但不限于：知乎，微博，贴吧，头条等社交媒体。本实施例的爬取方法是将上述社交媒体的主域名输入到框架之中，并且设计正则表达式过滤掉无用的数据，经过该步骤可以得到大量互联网的舆论文本内容，爬虫流程如图2所示。

2)对收集的舆论文本数据进行数据预处理；

预处理包括数据清洗，半结构化、非结构化的数据结构化，以及数据归一化；

数据清洗是将爬取下来的杂乱无章、无用、需要定义一下正则表达式的内容删除；

半结构化、非结构化的数据结构化是对数据清洗后的用户数据进行标准化，例如得分：9分和19分在计算机上的数字位数表达就为1位和2位，所以在这里需要将9转化成09；

归一化是将数据结构化后的数据映射至[0-1]的范围中被神经网络学习，采用的公式为：

X_min表示数据样本中最小的一个样本数据，X_max表示数据最高的样本数据，X表示的为当前需要归一化的样本数据，Xnorm为进行归一化之后的样本数据。

3)根据预处理后的数据，构建舆论分析数据集，具体如下：

3-1)设置数据库数据集

使用人工对每一个文字文本内容对进行分类，将分类的结果设置成关联因素，例如以下语句：“某某和女儿某某不幸去世，这位NBA传奇巨星永远地离开了我们”，对此设置的关联因素为“NBA，篮球，体育，足球，政治”，在此处也可以使用传统的神经网络对这些关联因素进行分类；

3-2)人工打分

对于步骤3-1)得到的关联进行打分，例如对于步骤3-1)中的NBA：0.8，篮球：0.78，足球：0.12，政治：-0.5，上述越靠近0的分数表示相关性较小，越靠近负数则表示不相关。

3-3)制作训练数据集

经过步骤3-1)和3-2)之后，将所得的结果用pytorch进行数据整合，使得整合完的数据集能拟合后续模型的输入输出，使其能够正常的训练。

4-1)建立编码层Embedding，使用随机编码技术将文字符号映射成一个随机向量用来表示文字特征和关联因素，作为；

4-2)建立循环神经网络层RNN和长短记忆网络层LSTM，如图3和图4所示，用于接收编码层输出的数据，计算长期语义依赖，得到一个包含语义关系仅仅只能被网络模型识别的语义特征值；

4.3)建立NextVlad网络层和卷积CNN网络层，如图5所示，用于聚合步骤4-2)所得的特征值，NextVlad网络层对特征碎片进行打散和聚合，卷积CNN网络层进行打分；

4-4)经过步骤4-3)的网络层聚合，得到范围为[-1,1]的分数，该分数代表输入文本和关联因素之间的量化分数；

其中

是显性输出，公式(2)是对隐藏层的输出

再做一次特征变化，并且考虑了上一层的

的显性输出，其中f_h是激活函数。

经过语义计算的舆论语义间的内容能被网络模型理解识别，计算机对输入的关联因素和语义进行关联计算，NextVlad网络层和卷积CNN网络层对该关联因素和语义进行聚合，得到量化分数，首先设置聚合阀来筛选各种关联数据的权重，公式如下：

量化分数的计算公式如下：

其中a(xi)是预测值输出，α是超参数，x_i是第i维的价值，c_k是NextVlad的的特征碎片权重，e为自然对数，Score为最后的得分，

Claims

1.一种基于神经网络的舆情量化方法，其特征在于，包括如下步骤：

2)对收集的舆论文本数据进行数据预处理；

3)根据预处理后的数据，构建舆论分析数据集；

2.根据权利要求1所述的一种基于神经网络的舆情量化方法，其特征在于，步骤2)中，所述的预处理，包括数据清洗，半结构化、非结构化的数据结构化，以及数据归一化；数据清洗是将爬取下来的杂乱无章、无用、需要定义一下正则表达式的内容删除；半结构化、非结构化的数据结构化是对数据清洗后的用户数据进行标准化；数据归一化是将数据结构化后的数据映射至[0-1]的范围中被神经网络学习。

3.根据权利要求1所述的一种基于神经网络的舆情量化方法，其特征在于，步骤3)中，所述的舆论分析数据集，是将预处理后的数据以pytorch的形式打包成一个能被神经网络接收的tensor向量，使得能被步骤4)中的所构建的神经网络识别并训练。

4.根据权利要求1所述的一种基于神经网络的舆情量化方法，其特征在于，步骤4)中，所述的循环神经网络层RNN和长短记忆网络层LSTM，计算规则如下：

其中

是显性输出，公式(2)是对隐藏层的输出

再做一次特征变化，并且考虑上一层的

的显性输出，其中f_h是激活函数；

量化分数的计算公式如下：

Score为最后的得分，e为自然对数，