CN110297870B

CN110297870B - 一种金融领域中文新闻标题情感分类方法

Info

Publication number: CN110297870B
Application number: CN201910465941.5A
Authority: CN
Inventors: 徐康; 赵杰; 叶宁; 王汝传; 徐同宣; 黄成豪
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2022-08-30
Anticipated expiration: 2039-05-30
Also published as: CN110297870A

Abstract

本发明公开了一种金融领域中文新闻短标题的情感分类方法，包括如下步骤：爬取各大金融网站的新闻短标题，清洗语料并标注出实体和情感极性，然后将语料按比例分割为训练集和测试集；获取现有的金融领域的知识图谱，将知识图谱的实体和关系映射到低维连续的向量空间，获得隐含语义信息的实体表示向量；将新闻短标题分词，再生成相应的词向量；将实体提及词向量和上下文词向量组成词向量矩阵输入到A&Eb‑BiLSTM模型，训练出实体提及词向量到知识图谱中实体表示向量的映射；将映射以矩阵的方式输入到Ab‑BiLSTM模型，训练得到新闻短标题的情感极性；测试集按照训练集方法构建，通过准确率和F1‑Score值验证两个模型的有效性。

Description

一种金融领域中文新闻标题情感分类方法

技术领域

本发明涉及一种金融领域中文新闻标题情感分类方法，属于自然语言处理及深度学习技术领域。

背景技术

情感分类一直是自然语言处理的一个重要分支,其目的是为了找出评论者或作者在某些话题上或针对某一对象的观点或态度。情感分析在舆情监控、金融投资等方面均有广泛应用。传统的情感分类主要有基于情感词典的方法和基于机器学习的方法，其中基于情感词典的方法在很多方面受限于情感词典的质量和覆盖度，而基于机器学习的方法又受限于由人工构建、抽取的特征。随着近几年深度学习技术在自然语言处理领域取得了巨大进展，越来越多开始采用深度学习处理文本分类方法。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种金融领域中文新闻标题情感分类方法，旨在解决当前金融领域的新闻标题情感分类需要对专业术语了解的问题，辅助监测金融市场动向。

为解决上述技术问题，本发明提供一种金融领域中文新闻短标题的情感分析法，包括如下步骤：

(1)爬取各大金融网站的新闻短标题，清洗语料并标注出实体和情感极性，然后将语料按比例分割为训练集和测试集；

(2)获取现有的金融领域的知识图谱，将知识图谱的实体和关系映射到低维连续的向量空间，获得隐含语义信息的实体表示向量；

(3)将新闻短标题分词并识别文本中的实体提及，同时生成文本所有词语的词向量，其中文本所有词语为实体提及词语和其余上下文词语；

(4)将文本所有词语的词向量组成词向量矩阵输入到A&Eb-BiLSTM模型，且步骤(2)中知识图谱中对应的实体表示向量作为A&Eb-BiLSTM模型的输出，训练出实体提及词向量到知识图谱中实体表示向量的映射；

(5)将文本中的所有实体提及在词向量的基础上拼接知识图谱对应的实体向量(其余的词语只包含词向量)以矩阵的方式输入到Ab-BiLSTM模型，模型的输出就是新闻短标题的情感极性；

(6)测试集按照训练集方法构建，分别输入A&Eb-BiLSTM模型和Ab-BiLSTM模型进行映射和情感分类，通过准确率和F1-Score值验证两个模型的有效性。

进一步的，所述步骤(1)中，将语料以9：1的比例分割为训练集和测试集。

进一步的，所述情感极性分为积极和消极。

进一步的，所述步骤(2)中，利用TransE算法将知识图谱的实体和关系映射到低维连续的向量空间。

进一步的，所述步骤(3)中，利用jieba分词工具将训练集中的新闻短标题分词，再用BERT-as-service生成相应的实体提及词向量和上下文词向量。

进一步的，所述步骤(6)中，通过准确率和F1-Score值验证两个模型的有效性。

本发明所达到的有益效果：

1)本发明利用基于注意力模型和知识图谱表示学习来进行金融领域新闻短标题的情感分类，在该领域的情感分类上获得了不错效果；

2)注意力机制的引入是为了学习到将新闻短标题的情感表达相关的词为重点，传统的词典和机器学习方法很难捕获隐含的语义信息从而很难正确识别文本的情感类型；知识图谱、实体表示/映射向量的引入是为了获得金融领域的实体间的关系和属性等的语义知识，进一步帮助情感极性的判断，所以基于注意力模型和知识图谱表示学习的金融领域新闻短标题情感分类的方法表现出了足够优越的性能。

附图说明

图1为执行流程图；

图2为A&Eb-BiLSTM模型结构示意图；

图3为Ab-BiLSTM模型结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示方法先用Scrapy等爬虫框架编程实现对各大金融网站最近3个月的新闻标题进行爬取，将重复、无关的语料删除，将新闻标题分块存储在excel文件中，人工标注其中的实体提及和情感极性，并按比例分割为训练集和数据集，从而构成数据集。

第二步，获取开源的金融领域的知识图谱，以TransE等技术将知识图谱中的实体和关系映射到低维的向量空间中，即知识图谱的表示学习方法，使其以向量方式表达的同时能够嵌入知识图谱中隐含的知识，也便于作为深度学习模型的输入。知识图谱表示学习的一般步骤为：(1)表示图中的实体和关系；(2)定义一个打分函数；(3)学习实体和关系的向量表示。这里主要使用了基于距离的模型TransE——给定一个fact(h,r,t)，fact即一条事实，以三元组信息组成，包含h(head entity，头实体)、r(relation，关系)、t(tailentity，尾实体)，TransE模型将关系表示为translation向量r，这样就能以较低的错误把实体的向量h,t连接起来，即：h+r≈t。打分函数定义为：h+r与t之间的距离。在训练过程中最小化一个Loss函数，使得向量准确表达。

第三步，利用jieba分词将数据集中新闻短标题分词后，用BERT在python中的BERT-serving-client包，以本地的方式直接使用BERT中文预训练模型将其转变为分词后每个词的词向量存储到txt文件中。这一步将文本内容转变为了包含上下文语义的词向量，使用BERT的原因也在于BERT提供的词向量预训练模型能够尽可能地表征词的意思、提取到词与词之间的语义特征甚至句子级别的含义。

第四步，训练如图2所示的A&Eb-BiLSTM模型，由之前得到的实体上下文的词向量和第二步得到知识图谱中的实体表达向量分别作为模型的输入和输出，训练出新闻短标题中的实体提及词向量到知识图谱中实体表示向量的映射。神经网络模型1包含多个计算层，通过pytorch深度学习框架构建，输入为实体的上文、下文固定窗口的词向量和实体提及本身的词向量，输出就是对应的实体在知识图谱中的向量；训练Ab-BiLSTM模型时不仅需要将新闻短标题以上述生成的词向量转化为矩阵的形式输入Ab-BiLSTM模型，而且需要新闻短标题中的实体提及对应知识图谱中对应的实体表示向量拼接到Ab-BiLSTM模型的输入部分。考虑到在实际使用该方法时会出现知识图谱中实体缺失的情况，需要首先训练A&Eb-BiLSTM模型，将新闻短标题中的实体提及和上下文词语转化为对应的词向量以矩阵的方式输入模型，训练出实体提及的词向量到知识图谱中实体表示向量的映射，该模型可以保证即使实体提及在知识图谱中找不到对应的实体，也能在知识图谱表示的向量空间中映射到相应的实体向量表示。

在词向量层，对于一个给定的包含T个词的包含实体的短标题新闻S:S＝{x₁,x₂,...,x_e,...,x_T}。每一个词x_i都转换为一个实数向量e_i，包括实体提及词e_E。对于S中的每一个词来说，首先存在一个词向量矩阵：

其中V是一个固定大小的词汇表，d^w是词向量的维度，是一个自定义的超参数，R表示完整的词向量集合，W^wrd则是通过训练学习到的一个参数矩阵，本方法中相当于BERT-serving-client提供词向量的过程。使用这个词向量矩阵，可以将每个词转化为其词向量的表示：e_i＝W^wrdvⁱ。其中，vⁱ是一个大小为|V|的one-hot向量(独热编码，也称一位有效编码，vⁱ即第i位有效)，在下表e_i处为1，其他位置为0。于是，标题S将被转化为两个实数矩阵和一个实体向量：emb_s1＝{e₁,e₂,...,e_E-1},emb_s2＝{e_E+1,e_E+2,...,e_T},e_E并传递给模型的下一层。

在BiLSTM层，分别将实体的上文窗口和下文窗口对应的实数矩阵输入BiLSTM模型，该模型包含如下四个部分：

输入门。包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，以决定加入多少新信息：

i_t表示当前时刻t的该输入门的决定加入的信息，σ表示sigmod函数，

表示该输入门当前时刻输入的权重矩阵，

表示该输入门上一时刻隐藏层输出的权重矩阵，

表示该输入门上一时刻的单元状态的权重矩阵，b_i为输入门的偏置项。

遗忘门。包含了当前输入、上一个隐状态、上一个细胞状态，组成权重矩阵，以决定丢弃多少旧信息：

f_t表示当前时刻t的该遗忘门的决定丢弃的信息，σ表示sigmod函数，

表示该遗忘门当前时刻输入的权重矩阵，

表示该遗忘门上一时刻隐藏层输出的权重矩阵，

该遗忘门上一时刻的单元状态的权重矩阵，b_f为遗忘门的偏置项。

单元状态。包含了上一个单元状态以及基于当前输入和上个隐状态信息生成的新信息：

c_t＝i_tg_t+f_tc_t-1

c_t表示更新后的(当前时刻)单元状态，i_t表示当前时刻t的该输入门的决定加入的信息，g_t表示备选的用于更新的内容，f_t表示当前时刻t的该遗忘门的决定丢弃的信息，c_t-1表示旧(上一时刻)的单元状态。tanh表示双曲正切函数，

表示单元状态当前时刻输入的权重矩阵，

表示单元状态上一时刻隐藏层输出的权重矩阵，

表示上一时刻单元状态输出的权重矩阵，b_c表示单元状态的偏置项。

输出门。包含了当前输入、上一个隐状态、当前细胞状态，组成权重矩阵，以决定哪些信息被输出：

o_t表示当前时刻t该输出门的输出的信息，σ表示sigmod函数，

表示该输出门当前时刻t输入的权重矩阵，

表示该输出门上一时刻隐藏层输出的权重矩阵，

表示该输出门当前时刻t单元状态输出的权重矩阵，b_o表示该输出门的偏置项。

最终，输出的当前隐状态则由当前单元状态乘以归一化的输出门的权重矩阵得到:

h_t＝o_ttanh(c_t)，h_t表示隐藏层当前状态的输出，o_t表示当前单元状态，tanh()表示双曲正切函数，c_t表示输出门当前时刻t的权重矩阵。

而在BiLSTM层的输出上，嵌入了Attention机制，将LSTM层输入的向量集合表示为H:[h₁,h₂,...,h_T]，其Attention层得到的权重矩阵由下面的方式得到：

M＝tanh(H)

α＝soft max(w^TM)

r＝Hα^T

H为通过上述BiLstm模型得到的输出向量，其中

d^w为词向量的维度，M即将H通过tanh双曲正切函数映射到[-1,1]的范围后的表达，w^T是训练学习得到的权重矩阵的转置，M乘上w^T再归一化得到attention值α，最后的输出r即通过BiLstm模型得到的输出向量H乘上attention值得到的结果。

A&Eb-BiLSTM模型与上述的Ab-BiLSTM模型计算经过的Attention后得到最后的输入r不同，A&Eb-BiLSTM模型的BiLstm分左右两侧，得到的隐藏层输出分别是第i个词的：

c表示实体向量两侧的BiLstm层经过Attention机制后输出得到的向量，

表示左侧BiLstm计算得到的attention权重矩阵值，

表示左侧的BiLstm在第i个词向量处两个方向隐藏层的输出做纵向联结，

表示左侧BiLstm计算得到的attention权重矩阵值，

表示左侧的BiLstm在第i个词向量处两个方向隐藏层的输出做纵向联结，上式即累加求平均后输出得到c。

最后将上、下文词语的Attention输出和经过线性层后的实体提及向量累加后通过求加权平均值并且输出送入下一个计算层。在下一个计算层先接入softmax层后再连接全连接层使其输出的维度与实体向量的维度相同，即得到映射向量。

第五步，训练如图3所示Ab-BiLSTM模型，输入为训练集的新闻短标题对应的词向量构成的矩阵，以第四步训练得到的A&Eb-BiLSTM模型，将新闻短标题中的实体提及词向量映射到知识图谱中的实体表示向量。Ab-BiLSTM模型也包含多个计算层，通过pytorch深度学习框架构建，输入为新闻短标题分词后的词向量和实体映射后的向量，如图3所示，实体提及的向量由词向量和映射得到的实体表示向量相加后表达，上下文的词向量不变，输入BiLSTM层并通过Attention机制调整输出，该层的计算和第四步的描述相同，输出送入下一个计算层。在下一个计算层先接入softmax层后再连接全连接层得到情感分类结果。

最后在测试集上按上述过程实验，通过计算准确度和F1值等方式验证整体方法的有效性。

BERT是谷歌AI最新发布的模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩，是NLP领域近期最重要的进展。BERT即Bidirectional EncoderRepresentations from Transformers，使用无监督的方法训练的Transformer模型组成，具有双向预训练，遮蔽语言模型等特点专利主要利用BERT的表征功能，即通过BERT模型预训练获取的中文词向量作为模型的输入。

LSTM即长短期记忆网络，是一种特殊的RNN(循环神经网络)结构，RNN由于梯度消失的原因只能有短期记忆，LSTM网络通过精妙的门控制将短期记忆与长期记忆结合起来，并且一定程度上解决了梯度消失的问题；BiLSTM即双向LSTM，是在LSTM的基础上，从输入序列的两端分别遍历的双层LSTM神经网络。

Attention机制，字面意思就是注意力机制，从概念上理解就是从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息，在序列化的端到端神经网络中，表现为输出的结果是对不同位置的输入与之前的输出计算相似度后得到不同的权重加权后预测的结果，本质上是一个对齐模型。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种金融领域中文新闻短标题的情感分类方法，其特征在于，包括如下步骤：

（1）爬取各大金融网站的新闻短标题，清洗语料并标注出实体和情感极性，然后将语料按比例分割为训练集和测试集；

（2）获取现有的金融领域的知识图谱，将知识图谱的实体和关系映射到低维连续的向量空间，获得隐含语义信息的实体表示向量；

（3）将新闻短标题分词并识别文本中的实体提及，同时生成文本所有词语的词向量，其中文本所有词语为实体提及词语和其余上下文词语；

（4）将文本所有词语的词向量组成词向量矩阵输入到A&Eb-BiLSTM模型，且步骤（2）中知识图谱中对应的实体表示向量作为A&Eb-BiLSTM模型的输出，训练出实体提及词向量到知识图谱中实体表示向量的映射；

（5）将文本中的所有实体提及在词向量的基础上拼接知识图谱对应的实体向量以矩阵的方式输入到Ab-BiLSTM模型，模型的输出就是新闻短标题的情感极性；

（6）测试集按照训练集方法构建，分别输入A&Eb-BiLSTM模型和Ab-BiLSTM模型进行映射和情感分类，通过准确率和F1-Score值验证两个模型的有效性；

所述Ab-BiLSTM模型包含多个计算层，通过pytorch深度学习框架构建，输入为新闻标题分词后的词向量和实体映射后的向量，实体提及的向量由词向量和映射得到的实体表示向量相加后表达，上下文的词向量不变，输入BiLSTM层并通过Attention 机制调整输出，输出送入下一个计算层，在下一个计算层先接入softmax层后再连接全连接层得到情感分类结果；

所述A&Eb-BiLSTM模型与Ab-BiLSTM模型计算经过Attention后得到最后的输入不同，A&Eb-BiLSTM模型的BiLstm分左右两侧，最后将上、下文词语的Attention输出和经过线性层后的实体提及向量累加后通过求加权平均值并且输出送入下一个计算层，在下一个计算层先接入softmax层后再连接全连接层使其输出的维度与实体向量的维度相同，即得到映射向量。

2.根据权利要求1所述的金融领域中文新闻短标题的情感分类方法，其特征在于，所述步骤（1）中，将语料以9：1的比例分割为训练集和测试集。

3.根据权利要求1所述的金融领域中文新闻短标题的情感分类方法，其特征在于，所述情感极性分为积极和消极。

4.根据权利要求1所述的金融领域中文新闻短标题的情感分类方法，其特征在于，所述步骤（2）中，利用TransE算法将知识图谱的实体和关系映射到低维连续的向量空间。

5.根据权利要求1所述的金融领域中文新闻短标题的情感分类方法，其特征在于，所述步骤（3）中，利用jieba分词工具将训练集中的新闻短标题分词，再用BERT-as-service生成相应的实体提及词向量和上下文词向量。

6.根据权利要求1所述的金融领域中文新闻短标题的情感分类方法，其特征在于，所述步骤（6）中，通过准确率和F1-Score值验证两个模型的有效性。