CN110347836B

CN110347836B - 融入观点句特征的汉越双语新闻情感分类方法

Info

Publication number: CN110347836B
Application number: CN201910635891.0A
Authority: CN
Inventors: 余正涛; 刘权; 相艳; 线岩团; 林思琦; 赖华; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2021-07-09
Anticipated expiration: 2039-07-15
Also published as: CN110347836A

Abstract

本发明涉及融入观点句特征的汉越双语新闻情感分类方法，属于自然语言处理技术领域。本发明通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中；然后根据新闻文本的特点，使用卷积神经网络从观点句中抽取观点特征，并通过选择性门控网络将观点句特征融入隐藏层中，之后利用层次注意力机制对新闻中的情感信息进行关注，最后通过softmax对情感极性进行分类。本发明有效地提升越南语新闻情感分类的准确性。

Description

融入观点句特征的汉越双语新闻情感分类方法

技术领域

本发明涉及融入观点句特征的汉越双语新闻情感分类方法，属于自然语言处理技术领域。

背景技术

情感分类是当前自然语言处理研究的热点问题，如何识别一个新闻文本的情感极性是当前的舆情监控的关键问题。通常的情感分类方法主要是构建文本的向量表征进行情感分类。相比较统计特征的文本表征方式，基于神经网络的文本建模有更好的表达能力，比如卷积神经网络(CNN)、循环神经网络(RNN)、Self-attention网络、Transformer网络等。这些文本建模方法可以有效捕捉文本的语义信息，建模文本表征。同时，注意力机制可以对文本表征中的情感相关信息进行关注，提升情感分类效果。上述方法可以广泛应用于评论文本的情感分类任务中；而对于新闻文本来说，其主要是对事实的客观描述，情感的表达并不明显。但通过观察，发现新闻的观点句中包含较多情感信息，利用这些情感信息有助于新闻情感分类。因此，为了对越南语新闻进行情感分类，提出了一种将观点句特征融入文档表征的汉越双语新闻情感分类方法。

发明内容

本发明提供了融入观点句特征的汉越双语新闻情感分类方法，通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中；然后根据新闻文本的特点，使用卷积神经网络从观点句中抽取观点特征，并通过选择性门控网络将观点句特征融入隐藏层中，之后利用层次注意力机制对新闻中的情感信息进行关注，最后通过softmax对情感极性进行分类；以用于有效地提升越南语新闻情感分类的准确性。

本发明的技术方案是：融入观点句特征的汉越双语新闻情感分类方法，具体步骤如下：

Step1、实验语料收集：收集汉语、越南语的新闻文本和汉越平行句对；

首先，构建汉越双语词嵌入模型需要大量的汉越新闻文本以及少量的汉越平行文本。为此，从汉语和越南语新闻网站中抓取了汉越新闻各35000篇，并且从越南语学习网(http://vie.tingroom.com/)中抓取了10W条汉越平行句对；

Step2、实验语料标注：为了提供监督学习的应该有的带有标签的数据，通过人工的方式标记了4000篇越南文新闻和12000篇中文新闻的观点句和情感极性，并使用这些标注数据来训练汉越新闻情感分类模型。在汉越新闻标注数据中，军事、时政、财经、娱乐4个不同领域的新闻分别占比为25％；

Step3、构建汉越双语词嵌入模型：使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型；

进一步地，所述步骤Step3中，分别使用标注好的汉语和越南语的新闻文本分别训练汉语和越南语的词嵌入模型，然后使用汉越平行句对词嵌入模型联合训练得到汉越双语词向量。此步骤能获得汉语和越南语的双语词向量，作为序列输入到后续模型中；

Step4、使用BiLSTM网络对新闻文本进行建模：使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中，然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中，对新闻文本进行建模，输出每一时刻的隐藏状态；通过双向LSTM网络后，能获得新闻文本的蕴含上下文信息的隐状态，从而能进行拼接得到一个完成的句子的向量表征；

进一步地，利用步骤Step3构建的汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量，在所述步骤Step4中，将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中，得到文档中第i句话中第j个词的隐藏状态；具体公式为：

其中，

表示前向LSTM网络输出的隐藏状态，

表示后向LSTM网络输出的隐藏状态。

Step5、观点句特征的抽取与融入：使用卷积神经网络抽取观点句特征，并且使用门控网络将观点句特征融入到隐藏状态中；通过门控网络得到的隐状态，拼接后能得到一个带有观点句子特征的句子的向量表征；

进一步地，所述步骤Step5中，使用观点句特征来增强新闻文本的情感表达；通过多个不同大小的卷积核来抽取不同粒度的观点句特征，然后使用选择性门控网络将观点句特征融入模型的隐藏层中。

进一步地，所述步骤Step5中，使用卷积神经网络抽取观点句特征的具体步骤如下：

Step5.1.1、对于标注好的汉语和越南语文本中的每个句子，将前向LSTM网络和反向LSTM网络输出的最后一个隐状态进行拼接，得到该句子的向量表征s_i，具体公式为

其中

表示第i句第S_i个词的前向LSTM网络输出的隐藏状态，

表示第i句第1个词后向LSTM网络输出的隐藏状态；

Step5.1.2、由于新闻文档中有多个表达观点的句子，因此将文档中标记为观点句的句子的向量表征组成一个矩阵，然后通过多个不同大小的卷积核对该矩阵进行卷积来抽取出观点句特征s′。

卷积的过程如图3所示，s_a和s_b等都是观点句的句子表征。

表1为每组卷积核的大小。

组数	卷积核维数
		1	[1,400]
2	[2,400]
		3	[3,400]
4	[4,400]
		5	[5,400]

进一步地，所述步骤Step5中，使用选择性门控网络将观点特征融入到隐藏状态h_i,j中，具体过程如图3所示。选择性门控网络有三个输入，分别是Step3中输出的隐藏状态h_i,j，通过卷积神经网络抽取的观点特征s′，文档中每个句子的向量表征s_i。在选择性门控网络中，计算文档中每个句子和观点句特征的关联程度；

使用门控网络将观点句特征融入到隐藏状态中的具体步骤如下：

Step5.2.1、将标注后的汉语和越南语文本中每个句子的向量表征s_i和观点句特征s′输入到多层感知机中，得到门控向量sGa_it；具体公式为：

其中，W_s和U_s是权重矩阵，b是偏置项，σ是sigmoid激活函数；

Step5.2.2、将Step4输出的隐藏状态h_i,j和门控向量sGate_i相乘，得到了融入观点句特征后隐藏状态h′_i,j；具体公式为：h′_i,j＝h_i,j⊙sGate_i；其中，⊙表示向量对应元素相乘。

Step6、使用层次注意力机制对情感信息进行关注：对于长文档，不同的词或句子对于情感分类会有不同的作用，使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重，并得到新闻文本的向量化表征；通过层级注意力，能提高重要信息在新闻文本中的权重，并得到的文本级别的向量表征；

进一步地，所述步骤Step6的具体步骤如下：

Step6.1、首先，第一层是句子级的注意力机制，用两层前馈神经网络来预测句子级注意力的权重打分A_i；句子级注意力机制的具体公式为

其中，f是两层前馈神经网络，s′_i是融入观点句信息后的句向量，θ_s表示前馈神经网络的参数；

Step6.2、然后，第二层是词级的注意力机制，同样用两层前馈神经网络来预测词级注意力的权重打分a_i.j；词级注意力机制的具体公式为

其中，f同样是两层前馈神经网络，h′_i,j是融入观点特征后第i句话第j个词的隐藏状态，θ_w是前馈神经网络的参数；

Step6.3、最后，将融入观点特征后的隐藏状态h′_i,j和词级注意力打分a_i.j进行累积求和，并且在句子级上同样和句子级注意力打分A_i进行累积求和，得到了文本的向量表征r，具体公式为

Step7、使用softmax分类器对新闻的情感极性进行分类，之后使用交叉熵损失来最小化输出结果和情感标签之间的预测误差，从而通过对预测样本和真实样本标记产生的误差反向传播指导网络参数学习；具体公式为

其中，

是模型预测的情感极性标签向量，y_i是标记好的标签向量，λ||θ||²是L₂正则化项。通过softmax分类器后，能将文本的向量表征进行一个分类，得到可能结果的概率分布，从而得到最后的分类结果。

本发明的有益效果是：本发明根据新闻文本的特点，使用卷积神经网络从观点句中抽取观点特征，并通过选择性门控网络将观点句特征融入隐藏层中，之后利用层次注意力机制对新闻中的情感信息进行关注，最后通过softmax对情感极性进行分类，能有效地提升越南语新闻情感分类的准确性。

附图说明

图1为本发明中的流程图；

图2为本发明中是新闻情感分类模型的整体架构示意图；

图3为本发明中观点句抽取与融入的具体细节示意图。

具体实施方式

实施例1：如图1-3所示，融入观点句特征的汉越双语新闻情感分类方法，具体包括如下步骤：

Step1、从汉语和越南语新闻网站中抓取了汉越新闻各35000篇，并且从越南语学习网(http://vie.tingroom.com/)中抓取了10W条汉越平行句对；

Step2、通过人工的方式标记了4000篇越南文新闻和12000篇中文新闻的观点句和情感极性，并使用这些标注数据来训练汉越新闻情感分类模型。在汉越新闻标注数据中，军事、时政、财经、娱乐4个不同领域的新闻分别占比为25％；分别以90％、5％、5％的比例来划分训练集、验证集和测试集；

Step3、分别使用标注好的汉语和越南语的新闻文本分别训练汉语和越南语的词嵌入模型，然后使用汉越平行句对词嵌入模型联合训练得到汉越双语词向量。

Step4、利用步骤Step3构建的汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量，将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中，得到文档中第i句话中第j个词的隐藏状态；具体公式为：

其中，

表示前向LSTM网络输出的隐藏状态，

表示后向LSTM网络输出的隐藏状态。

Step5、使用卷积神经网络抽取观点句特征，并且使用门控网络将观点句特征融入到隐藏状态中；

使用卷积神经网络抽取观点句特征的具体步骤如下：

其中

表示第i句第S_i个词的前向LSTM网络输出的隐藏状态，

表示第i句第1个词后向LSTM网络输出的隐藏状态；

其中，W_s和U_s是权重矩阵，b是偏置项，σ是sigmoid激活函数；

Step6、使用层次注意力机制对情感信息进行关注：对于长文档，不同的词或句子对于情感分类会有不同的作用，使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重，并得到新闻文本的向量化表征；

进一步地，所述步骤Step6的具体步骤如下：

其中，

是模型预测的情感极性标签向量，y_i是标记好的标签向量，λ||θ||²是L₂正则化项。

为了验证本发明的分类效果，通过如下实验结果进行说明；

表2为是否融入观点特征对越南语情感分类的效果结果对比

表3为不同注意力机制对越南语情感分类的对比效果

从表2中可以看出，将观点句特征融入文档表征后，各领域新闻情感分类的准确率均有所提高。在平均准确率上，融入观点句特征的模型提升了3.8％。该实验说明了从观点句中抽取观点句特征，并通过选择性门控网络将这些特征融入模型的方法可以有效提升新闻情感分类的准确率。

从表3中的所有模型都是基于BiLSTM网络并且融入了观点句特征。从结果上来看，发现层次注意力机制对汉越新闻情感分类模型的效果要优于其他三种方法。这证明了层次注意力机制的有效性。此外，还可以从表3中发现，词级注意力机制的效果比句子级注意力机制的效果要好。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融入观点句特征的汉越双语新闻情感分类方法，其特征在于：具体步骤如下：

Step1、收集汉语、越南语的新闻文本和汉越平行句对；

Step2、使用人工标注的方式对汉语、越南语的新闻文本进行观点句和情感极性的标注；

Step3、使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型；

Step4、使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中，然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中，对新闻文本进行建模，输出每一时刻的隐藏状态；

Step6、使用层次注意力机制对情感信息进行关注：使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重，并得到新闻文本的向量化表征；

Step7、使用softmax分类器对新闻的情感极性进行分类；

所述步骤Step5中，使用卷积神经网络抽取观点句特征的具体步骤如下：

其中

表示第i句第S_i个词的前向LSTM网络输出的隐藏状态，

表示第i句第1个词后向LSTM网络输出的隐藏状态；

Step5.1.2、由于新闻文档中有多个表达观点的句子，因此将文档中标记为观点句的句子的向量表征组成一个矩阵，然后通过多个不同大小的卷积核对该矩阵进行卷积来抽取出观点句特征s′；

所述步骤Step5中，使用门控网络将观点句特征融入到隐藏状态中的具体步骤如下：

Step5.2.1、将标注后的汉语和越南语文本中每个句子的向量表征s_i和观点句特征s′输入到多层感知机中，得到门控向量sGate_i；具体公式为：sGate_i＝σ(W_ss_i+U_ss′+b)；

其中，W_s和U_s是权重矩阵，b是偏置项，σ是sigmoid激活函数；

2.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法，其特征在于：所述步骤Step3中，分别使用标注好的汉语和越南语的新闻文本分别训练汉语和越南语的词嵌入模型，然后使用汉越平行句对词嵌入模型联合训练得到汉越双语词向量。

3.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法，其特征在于：所述步骤Step4中，将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中，得到文档中第i句话中第j个词的隐藏状态；具体公式为：

其中，

表示前向LSTM网络输出的隐藏状态，

表示后向LSTM网络输出的隐藏状态，其中，汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量。

4.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法，其特征在于：所述步骤Step5中，使用观点句特征来增强新闻文本的情感表达；通过多个不同大小的卷积核来抽取不同粒度的观点句特征，然后使用选择性门控网络将观点句特征融入模型的隐藏层中。

5.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法，其特征在于：所述步骤Step6的具体步骤如下：

6.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法，其特征在于：所述步骤Step7中，使用softmax分类器对新闻的情感极性进行分类后，使用交叉熵损失来最小化输出结果和情感标签之间的预测误差，从而通过对预测样本和真实样本标记产生的误差反向传播指导网络参数学习；具体公式为

其中，