CN115526174A

CN115526174A - 一种针对财经文本情感倾向分类的深度学习模型融合方法

Info

Publication number: CN115526174A
Application number: CN202211256290.7A
Authority: CN
Inventors: 武畅; 王宏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-27

Abstract

本发明公开了一种针对财经文本情感倾向分类的深度学习模型融合方法，包括以下步骤：S1：获取新闻直播网站发布的历史财经新闻信息；S2：基于已经获取的历史财经新闻信息，在现有财经词典的基础上，构建新的财经词典；S3：用新构建的财经词典，建立新的财经新闻数据集；S4：分别构建利用深度学习方法，用于财经文本情感倾向分类的三个神经网络模型；S5：采用集成学习中bagging的方式，完成对深度神经网络分类模型的训练，得到一种集成多模型财经文本情感倾向分类器。本发明通过自主采集财经新闻信息，构建新的财经词典，建立新的财经文本数据集，集成训练三个神经网络模型，完成集成多模型财经文本情感倾向分类器的构建工作。

Description

一种针对财经文本情感倾向分类的深度学习模型融合方法

技术领域

本发明属于自然语言处理领域，具体涉及一种针对财经文本情感倾向分类的深度学习模型融合方法。

背景技术

目前，作为自然语言处理(NLP)的基础问题之一，文本分类中的情感倾向分析成为了一大研究热点并吸引了众多学者的关注。

主流的文本情感倾向性分析方法主要有两种，分别为机器学习方法和情感词典方法。前者一般采用的是监督学习方法，主要分成以下几个步骤：首先人工标注数据集，再通过统计学方法发掘文本特征，将文本转化为向量，将数据集传入机器学习模型训练测试，不断优化参数得到最终的分类模型；而后者需提前准备相应的情感词典，相比于上者分析算法较为简单直接，通过在文本中查找情感词并通过一定的算法对情感词赋予一定的情感倾向参数，最终计算出整个文本的情感分值，以此为依据进行文本情感倾向的划分评定。

但是这两种方法都有各自的不足之处。前者效果很大程度上取决于数据集的质量，在前期数据的准备和标注工作上也往往会耗费大量的人力物力；而后者，情感词典方法的分类效果则十分依赖于情感词典，若文本超出情感词典范围，则会对文本的情感分值评定产生最直接的影响，另外中文表达的多样性，使制作并维护一份高质量的情感词典较为困难。

发明内容

本发明的目的是为了解决财经文本情感倾向分类的问题，综合机器学习和情感词典方法，提出了一种集成多模型财经文本情感倾向分类器。

本发明的技术方案是：一种集成多模型财经文本情感倾向分类器包括以下步骤：

S1：获取新闻直播网站发布的历史财经新闻信息；

S2：基于已经获取的历史财经新闻信息，在现有财经词典的基础上，构建新的财经词典；

S3：用新构建的财经词典，建立新的财经新闻数据集；

S4：分别构建利用深度学习方法，用于财经文本情感倾向分类的三个神经网络模型；

S5：采用集成学习中bagging的方式，完成对深度神经网络分类模型的训练，得到一种集成多模型财经文本情感倾向分类器。

进一步地，步骤S1包括以下子步骤：

S11：将网络爬虫页面page初值赋为0，用于构造请求；将网络爬虫终止条件值outtag初赋为True，用于结束爬虫循环；

S12：如果终止条件值为False，则完成爬虫程序输出，进入S2步骤；如果终止条件值为True，则网络爬虫页面值递增：page+＝1，构造请求头：headers和请求的URL：base_URL并进入S13步骤；

S13：通过get_json_data函数得到响应体，获取到含有新闻内容的json文件，返回json文件中蕴含的多条新闻内容；提取保存新闻内容的关键信息；

S14：休眠3到5秒后，判断page、新闻ID或发布时间是否达到终止条件。如果达到终止条件，则将outtage赋为False，回到步骤S11。

进一步地，步骤S2包括以下子步骤：

S21：将步骤S1得到的特定领域语料库(这里特指金融领域)采用Jieba分词工具，完成分词和去停用词处理，形成处理后的语料库；将已有情感词典经过融合和去重处理后，形成融合后的情感词典；

S22：调用Word2Vec算法对S1中处理后的语料库处理，实现对原语料库的词向量表达，获得词向量模型；

S23：由基础财经情感词典和S22得到的词向量模型，构建带有情感标签的词向量集合，以此为样本，训练得到情感词的分类模型；

S24：以基础词典中的词语为种子词，在词向量模型中，从与种子词的词向量余弦相似度最高的前100词中挑选出相似度超过0.65的词，作为候选情感词，从而获得候选情感词集合；

S25：将候选情感词传入S23得到的情感词分类模型，即可得到待扩充的情感词。

进一步地，步骤S3包括以下子步骤：

S31：调用情感分析工具，本文使用senta(百度智能云情感分析API)，对获取到的部分财经文本数据进行情感倾向分析。得到senta四种对文本的分类结果如下：

S32:根据财经情感词典进行文本情感倾向分析，计算出财经文本正负情感倾向的分值:

用label_dictionary表示词典匹配方式对文本的分类判决标签:

S33：将结合senta的分类结果和情感词典的分类结果，对获取到的财经文本数据进行初步情感倾向标注：

在置信度较低时，认为label_senta分类结果几乎不可信，将label初步置为label_dictionary。然而这种情况下文本一般不具有明显情感倾向，需要按照neg_prob和pos_prob的差值范围进行后续的判决纠正，对于仅含有单一情感倾向词的文本，将二者差值较小的文本标注为中性；对于不含情感词或者含有正负两种情感倾向词的文本，当二者差值较大时则认为label_senta分类结果更为合理；

在中等置信度情况下，当neg_prob和pos_prob的差值足够大或着文本中不含情感倾向词时，将label初始置为label_senta，否则置为label_dictionary。若是文中仅含有单一情感倾向词，将label值纠正为label_dictionary；

在置信度较高时，认为label_senta分类结果基本可信，且文本的情感倾向较为明显，则将label初步置为label_senta。在这种情况下对标签进行纠正需靠考虑两方面，若文本中仅含有单一情感倾向词，将label值纠正为label_dictionary；否则考虑neg_prob和pos_prob的差值范围，若二者差值足够小即认为文本为中性；

S34：综合形成包含24.5万条财经文本数据、带情感标签的金融财经情感数据集。

进一步地，步骤S4包括以下子步骤：

S41：采用Word2vec算法预训练词嵌入模型，对超过最大文本长度(这里设置为150)的文本进行截断，反之则将文本进行补齐至最大长度。

S42：对于TextCNN模型，将分词处理后的文本送入三条通道，采用64个卷积核，其中三个通道的卷积核(convolutionkernel)大小分别设置为5×5，4×4，3×3；

S43：当文本经过三条通道卷积后，通过ReLU激活函数后，进行最大池化(MaxPooling)操作；

S44：在文本完成池化(Pooling)操作后，将三条通道的输出结果经flatten操作后形成序列；经过Dropout操作后，输入给全连接层(FC)，改变维度后，由Softmax得到归一化后的分类结果。由此形成TextCNN的模型构建；

S45：对于LSTM和Bi-LSTM，设置隐状态为128；选取LSTM模型最后时刻的隐状态作为文本的特征传入全连接层获取分类输出；选取双向的LSTM最后输出的隐状态进行拼接后传入全连接层获取分类输出；

这里采用LSTM和Bi-LSTM网络进行训练，

主要考虑是以LSTM机制的输入门：i_t＝σ(W_i·[h_t-1，x_t]+b_i)

遗忘门：

输出门：o_t＝σ(W_o·[h_t-1，x_t]+b_O)

从而实现两种记忆机制：

长记忆：

短记忆：h_t＝o_t*tanh(C_t)

S46：采用交叉熵损失函数：Loss_i＝-∑_jt_i，jlog(p_i，j)

对于S42中的TextCNN以及S45中的LSTM和Bi-LSTM都采用交叉熵损失进行训练。

进一步地，步骤S5包括以下子步骤：

S51：将训练数据集进行切分成三等份，每个子分类器选取其中两份作为训练集，剩下的一份作为测试集成神经网络分类模型的性能；

S52：在子模型训练完毕后，将数据集样本传入分类模型，通过结合多个模型的分类结果再次进行分类判决，对数据集标签进行更新；在结合分类模型时，使用投票法对三个分类器的返回结果进行统计，取最高票数的分类结果考虑到三分类可能出现的平票现象，出现平票现象的样本被视为无效判决样本；

S53：对于S52中的无效判决样本，将其作为长文本进行分句，并计算得到原文短句列表的情感评分Score(sentence)

其中Q_i为第i个短句的权重

Q_i＝func(i)＝2^-i-1

而T(cls_i)为第i个短句的情感倾向

S54：根据Score(sentence)的分类结果，可以计算得到文本最终分类结果。本文的分类结果如下，根据得分所处的区间，来判断最终的分类结果。

附图说明

图1为集成多模型财经文本情感倾向分类的流程图；

图2为使用爬虫程序捕获财经新闻文本；

图3为使用金融语料库扩充现存金融情感词典；

图4为结合财经情感词典和开源工具进行标注；

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

如图1所示，本发明提供了一种针对财经文本情感倾向分类的深度学习模型融合方法，包括以下步骤：

S1：获取新闻直播网站发布的历史财经新闻信息；

S3：用新构建的财经词典，建立新的财经新闻数据集；

进一步地，步骤S1包括以下子步骤：

S11：将网络爬虫页面page初值赋为0，用于构造请求；将网络爬虫终止条件值outtag初赋为True，用于结束爬虫循环，如图2所示；

进一步地，步骤S2包括以下子步骤：

S21：将步骤S1得到的特定领域语料库(这里特指金融领域)采用Jieba工具，完成分词和去停用词处理，形成处理后的语料库；将已有情感词典经过融合和去重处理后，形成融合后的情感词典；

S25：将候选情感词传入S23得到的情感词分类模型，即可得到待扩充的情感词，如图3所示。

进一步地，步骤S3包括以下子步骤：

S32：根据财经情感词典进行文本情感倾向分析，计算出财经文本正负情感倾向的分值：

用label_dictionary表示词典匹配方式对文本的分类判决标签：

S33：将结合senta的分类结果和情感词典的分类结果，对获取到的财经文本数据进行初步情感倾向标注，如图4所示：

进一步地，步骤S4包括以下子步骤：

S41：采用Word2vec算法预训练词嵌入模型，对超过最大文本长度(这里设置为150)的文本进行截断，反之则将文本进行补齐至最大长度；

S46：采用交叉熵损失函数：Loss_i＝-∑_jt_i，jlog(p_i，j)

进一步地，步骤S5包括以下子步骤：

其中Q_i为第i个短句的权重

Q_i＝func(i)＝2^-i-1

而T(cls_i)为第i个短句的情感倾向

S54：根据Score(sentence)的分类结果，可以计算得到文本最终分类结果；本文的分类结果如下，根据得分所处的区间，来判断最终的分类结果。

S55：为了衡量最终模型的分类性能，在验证集上对多模型分类器和单个子分类器进行性能对比，如表1所示：

表1

为了衡量最终的财经文本情感分类模型的泛化能力，采用人工标注的财经文本数据集，对现有的情感分析工具和本文提出的多模型分类器的分类性能进行测试对比，如表2所示。本文选取了三种现有的通用情感分析工具，分别是百度智能云情感分析工具，SnowNLP中文情感分析工具，Hanlp情感分析接口。

表2

通过对比，本专利提出的多模型融合情感倾向分类器可以有效地对中文财经文本的情感倾向进行分类，在中文财经文本情感倾向分类问题上准确率相比于现有的通用中文开源情感分析工具提升了20％以上。

Claims

1.一种针对财经文本情感倾向分类的深度学习模型融合方法，其特征在于，包括以下步骤：

S1：获取新闻直播网站发布的历史财经新闻信息；

S3：用新构建的财经词典，建立新的财经新闻数据集；

2.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法，其特征在于，所述步骤S1包括以下子步骤：

3.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法，其特征在于，所述步骤S2包括以下子步骤：

S21：将步骤S1得到的特定领域语料库(这里特指金融领域)采用中文分词工具，完成分词和去停用词处理，形成处理后的语料库；将已有情感词典经过融合和去重处理后，形成融合后的情感词典；

S24：以基础词典中的词语为种子词，在词向量模型中，按照一定的规则，挑选出与种子词的词向量余弦相似度满足一定条件的词，作为候选情感词，从而获得候选情感词集合；

4.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法，其特征在于，所述步骤S3包括以下子步骤：

S31：利用文本情感分类工具，对获取到的部分财经文本数据进行情感倾向分析。得到对文本的分类结果如下：

用label_dictionary表示词典匹配方式对文本的分类判决标签：

S33：将结合文本情感分类结果和情感词典的分类结果，对获取到的财经文本数据进行初步情感倾向标注：

在中等置信度情况下，当neg_prob和pos_prob的差值足够大或文本中不含情感倾向词时，将label初始置为label_senta，否则置为label_dictionary。若是文中仅含有单一情感倾向词，将label值纠正为label_dictionary；

S34：综合上述的方法，处理大量的财经文本数据，获得带情感标签的金融财经情感数据集。

5.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法，其特征在于，所述步骤S4包括以下子步骤：

S41：采用Word2vec算法预训练词嵌入模型，对超过最大文本长度的文本进行截断，反之则将文本进行补齐至最大长度；

S42：对于TextCNN模型，将分词处理后的文本送入三条通道，采用64个卷积核，其中三个通道的卷积核(convolution kernel)大小分别设置为5×5，4×4，3×3；

S46：采用交叉熵损失函数：Loss_i＝-∑_jt_i，jlog(p_i，j)

6.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法，其特征在于，所述步骤S5包括以下子步骤：

S51：将S34得到的数据集进行切分成三等份，每个子分类器选取其中两份作为训练集，剩下的一份作为测试集成神经网络分类模型的性能；

其中Q_i为第i个短句的权重

Q_i＝func(i)＝2^-i-1

而T(cls_i)为第i个短句的情感倾向，可以设定对应的规则，本专利选取了较为简单的权重赋值方式：

S54：根据Score(sentence)的分类结果，可以计算得到文本最终分类结果。