CN110472047A

CN110472047A - 一种多特征融合的汉越新闻观点句抽取方法

Info

Publication number: CN110472047A
Application number: CN201910634929.2A
Authority: CN
Inventors: 余正涛; 唐珊; 王剑; 相艳; 林思琦; 郭军军; 线岩团
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-19
Anticipated expiration: 2039-07-15
Also published as: CN110472047B

Abstract

本发明涉及一种多特征融合的汉越新闻观点句抽取方法，属于自然语言处理技术领域。本发明首先采用跨语言表示学习的方法构建汉越双语词嵌入模型。然后计算了句子主题、情感和位置的特征权重，将这些特征权重信息融入到编码层和注意力机制中，得到了句子在主题、情感和位置等方面的表征。最后根据得到的句子表征进行观点句分类。本发明针对汉语和越南语标记资源不平衡的问题，构建了汉越双语词嵌入模型；然后分别计算句子的主题、位置以及情感特征的权重，并将这些句子权重分别融入词向量和注意力机制中，实现句子语义信息和情感、主题、位置特征的结合，本发明可以有效提升汉越新闻观点句抽取的准确率。

Description

一种多特征融合的汉越新闻观点句抽取方法

技术领域

本发明涉及一种多特征融合的汉越新闻观点句抽取方法，属于自然语言处理技术领域。

背景技术

如何在海量互联网新闻信息页面中快速准确地自动查找获得新闻的观点句，已经逐渐成为人们的强烈的需求，有着非常重要的应用前景。在观点句抽取任务中，现有的方法主要是基于观点句特征对文档中的观点句进行抽取。比如通过隐马尔可夫模型对句子进行序列标注，给句子不同的权重来实现观点句的识别。或者是通过词典的方式获得观点词和非观点词的词集，然后计算观点词的强度，最后通过句子中所有词的观点词强度来对观点句进行判别。还有学者提出一种基于语义模式的半监督中文观点句识别方法，通过融入语义特征对观点句进行分类。

但是以上方法无法同时识别句子的语义信息和观点句相关的特征。因此，本发明专利提出了一种多特征融合的汉越新闻观点句抽取方法。

发明内容

本发明提供了一种多特征融合的汉越新闻观点句抽取方法，解决了汉越新闻观点句抽取的问题，且能有效提升汉越新闻观点句抽取的准确性。

本发明的技术方案是：一种多特征融合的汉越新闻观点句抽取方法，该方法首先采用跨语言表示学习的方法构建汉越双语词嵌入模型。然后计算了句子主题、情感和位置的特征权重，将这些特征权重信息融入到编码层和注意力机制中，得到了句子在主题、情感和位置等方面的表征。最后根据得到的句子表征进行观点句分类。

具体步骤如下：

Step1、语料收集及标注：构建汉越双语词嵌入模型需要大量的汉越新闻文本以及少量的汉越平行文本。本方法从汉越新闻语料库中选择35000篇汉语、越南语新闻，以及10W条汉越平行句对来训练汉越双语词向量。手动挑选并标记了1367篇越南语新闻观点句和8552篇汉语新闻的观点句作为汉越新闻观点句抽取的数据集。训练集、测试集、验证集在数据集中的占比分别为90％，5％，5％。在采用的汉越双语情感词典中，中文情感词典规模为4626，越南文情感词典规模为2939；

Step2、构建汉越双语词嵌入模型：

首先使用汉语语料和越南语语料分别训练汉语和越南语的单语词嵌入模型，然后用汉语和越南语平行句对来对汉语和越南语的单语词嵌入模型进行联合训练，构建汉越双语词嵌入模型。使用skip-gram训练单语词嵌入模型。在训练汉越双语词嵌入模型时采用异步随机梯度下降的方法，分别为单语词嵌入损失计算和汉越双语正则化误差计算设置不同的线程。

作为本发明的优选方案，所述步骤Step2中，在联合训练的过程中，使用汉越双语的正则化项对单语词嵌入模型进行约束；该方法不仅能学习到单语环境下不同词汇的关联关系，同时还能学习到中文词语和越南语词语之间的关联关系。

作为本发明的优选方案，所述步骤Step2中，在联合训练过程时，汉语和越南语的目标函数的具体公式为：

其中，L(w_t，h；θ^l)表示单语词嵌入模型的目标函数，正则项Ω(θ^c,θ^v)表示中文词语和越南语词语的关联程度；用汉越双语的正则化项Ω(θ^c,θ^v)对单语模型进行约束，汉越双语正则项约束的具体公式为：

Ω(θ^c,θ^v)＝λ₁Ω_translation(θ^c,θ^v)+λ₂Ω_emotion(θ^c,θ^v)

其中，λ₁和λ₂分别表示语义关联和情感关联这两种关联约束在训练过程中的权重；θ^c,θ^v分别表示汉越和越南语的词向量，汉越双语正则化约束的具体计算公式为：

其中，r_i ^c表示中文词i训练得到的词向量，表示越南词j训练到的词向量，a_i,j表示中文词i和越南词j之间的翻译评分，b_i,j表示中文词i和越南词j之间的情感评分，翻译评分通过汉越平行句对的互译词表获得，情感评分通过汉越双语情感词典获得；V^c表示中文的词表，V^v表示越南语的词表，E表示汉越双语情感词典。

Step3、计算新闻中每个句子的观点句特征权重：

在新闻文档中，新闻的标题很大程度上能反映这篇新闻的主题。因此将新闻的标题作为该新闻的主题。本发明方法采用平均词向量的方式得到新闻标题和每个句子的向量表征。句子主题相关度score1的计算公式具体为：

其中，S_T表示新闻标题的向量表征，S表示新闻中每个句子的向量表征。

句子位置特征主要考虑的是句子在文档中的位置。因为新闻文档的开头或结尾一般能体现作者的观点。该方法可以使文本中位置靠前或靠后的句子获得较高的权重。句子在文档中的位置特征score2计算公式具体为：

其中，n表示文档中的句子数目，i表示当前句子是文档中的第i句话。

句子的情感特征主要是来识别句子是否具有情感倾向。通过情感词典来计算句子的情感打分。句子s_i的情感特征score3计算公式具体为：

其中，emotion(w_i,k)表示词w_i,k是否为情感词，如果该词是情感词，则emotion(w_i,k)的值为1；否则为0。m表示句子中词的个数。

接下来利用步骤Step2构建的汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量。然后在双语词向量后拼接词所在句子的主题相关度特征、情感特征和位置特征。

Step4、LSTM网络进行句子建模：

在步骤Step2构建的双语词向量中拼接该词所在句子的观点句特征权重，然后将融合观点句特征权重的双语词向量输入到LSTM网络中进行句子建模，得到不同记忆单元的隐藏状态；

作为本发明的优选方案，所述步骤Step4中，将句子的主题、情感和位置特征与步骤Step2中构建的汉越双语词嵌入模型编码得到的汉越双语词向量进行拼接，实现句子语义信息和观点句特征的融合，然后，在步骤Step5中将句子的主题、情感和位置特征分别融入注意力机制中，提升模型对观点句特征的识别能力。

Step5、在注意力机制中融入句子的观点句特征权重，得到句子在主题、位置、情感方面的表征；

由于LSTM网络无法较好地识别句子的观点相关信息，因此引入了注意力机制。注意力机制的核心思想是：对重要的内容分配较多的注意力，对其他部分分配较少的注意力。在观点句抽取任务中，位置信息、情感信息和主题相关度对判断观点句具有重要作用。因此，将这些特征融入注意力机制中，通过注意力机制来捕捉与观点句抽取任务相关的信息。

所述Step5的具体步骤如下：

Step5.1、首先将LSTM网络输出的隐藏状态和观点句特征通过一层神经网络进行拼接，具体公式如下：

其中H是LSTM网络中每个神经元输出的隐向量组成的矩阵，V是词编码层中每个词所在句子的主题、情感、位置特征向量组成的特征矩阵，W_h和W_v是参数矩阵；

Step5.2、其次，通过softmax分类器对拼接后的隐藏状态M进行分类，得到注意力的权重向量；然后将注意力机制的权重向量和LSTM网络输出的隐藏状态相乘，得到主题相关度、位置信息和情感信息在句子表征中的权重；具体公式如下：

α＝softmax(W^TM)

r＝Hα^T

其中，α是注意力机制的权重向量，W^T表示softmax分类器的参数矩阵；H是LSTM网络中每个神经元输出的隐向量组成的矩阵，最后得到的r是主题相关度、位置信息和情感信息在句子表征中的权重；

Step5.3、然后，将LSTM网络的最后一个隐藏状态的输出以及主题、位置、情感信息的权重表征输入到一层神经网络中，得到句子在主题、位置、情感方面的表征；具体公式如下：

h^*＝tanh(W_pr+W_xh_N)

其中，h_N是LSTM网络对句子建模的最后一个隐状态，包含了这个句子的语义信息，h^*是句子在主题、位置、情感方面的表征，W_p和W_x是参数矩阵。

Step6、抽取观点句：使用softmax分类器来判定句子是否为观点句。

为了对句子进行分类，要添加一个隐藏层将句子向量压缩为一个二维向量表征。然后，通过softmax分类器将二维句子表征变为条件概率分布的形式。

y＝softmax(W_sh^*+b_s)

其中，y为分类结果，Ws是权重矩阵，bs是偏置向量。

在进行模型训练时，使用skip-gram训练单语词嵌入模型，并采用异步随机梯度下降的方法来训练汉越双语词嵌入模型。分别为单语词嵌入损失计算和汉越双语正则化误差计算设置不同的线程。汉越双语正则项约束Ω(·)的λ₁语义关联权重和λ₂情感关联权重分别设置为0.7和0.3。双语词嵌入模型的学习率设置为0.1。

Ω(θ^c,θ^v)＝λ₁Ω_translation(θ^c,θ^v)+λ₂Ω_emotion(θ^c,θ^v)

由于中文和越南文的词表规模较大，因此在词表中过滤掉在文档中出现次数少于2次的词，来加速模型的训练。设定训练得到的双语词向量维度为200维。在训练双语观点句抽取模型的过程中，采用了Adagrad优化方法。模型的损失函数为交叉熵损失。设定交叉熵损失中的正则化权重为0.01，模型的学习率为0.1。具体公式为：

其中，λ||θ||²是L₂正则化项。y是句子的目标分布，是预测的情感句分布。i是句子序号，j是观点句类别。

本发明的有益效果是：

1、本发明首先针对汉语和越南语标记资源不平衡的问题，构建了汉越双语词嵌入模型；然后分别计算句子的主题、位置以及情感特征的权重，并将这些句子权重分别融入词向量和注意力机制中，实现句子语义信息和情感、主题、位置特征的结合；

2、本发明通过融合句子的语义信息和多个观点句相关的特征，来改善观点句抽取的效果，能有效地提高汉越新闻观点句抽取的准确性。

附图说明

图1为本发明中的实验步骤示意图；

图2为本发明中汉越双语词嵌入模型的整体架构示意图；

图3为本发明中汉越观点句抽取模型的具体细节示意图。

具体实施方式

实施例1：如图1-3所示，一种多特征融合的汉越新闻观点句抽取方法，包括如下具体步骤：

(1)从汉越新闻语料库中选择35000篇汉语、越南语新闻，以及10W条汉越平行句对来训练汉越双语词向量。手动挑选并标记了1367篇越南语新闻观点句和8552篇汉语新闻的观点句作为汉越新闻观点句抽取的数据集。训练集、测试集、验证集在数据集中的占比分别为90％，5％，5％。在采用的汉越双语情感词典中，中文情感词典规模为4626，越南文情感词典规模为2939；

(2)使用35000篇汉越新闻文本和10W条汉越平行句对来训练汉越双语词嵌入模型；具体的，首先使用汉语语料和越南语语料分别训练汉语和越南语的单语词嵌入模型，然后用汉语和越南语平行句对来对汉语和越南语的单语词嵌入模型进行联合训练，构建汉越双语词嵌入模型。使用skip-gram训练单语词嵌入模型。在训练汉越双语词嵌入模型时采用异步随机梯度下降的方法，分别为单语词嵌入损失计算和汉越双语正则化误差计算设置不同的线程；

在联合训练过程时，汉语和越南语的目标函数的具体公式为：

其中，L(w_t,h；θ^l)表示单语词嵌入模型的目标函数，正则项Ω(θ^c,θ^v)表示中文词语和越南语词语的关联程度；用汉越双语的正则化项Ω(θ^c,θ^v)对单语模型进行约束，汉越双语正则项约束的具体公式为：

Ω(θ^c,θ^v)＝λ₁Ω_translation(θ^c,θ^v)+λ₂Ω_emotion(θ^c,θ^v)

(3)计算新闻中每个句子的观点句特征权重：观点句特征权重具体包括了句子的主题相关度特征、情感特征和位置特征：

句子主题相关度score1的计算公式具体为：

句子在文档中的位置特征score2计算公式具体为：

句子s_i的情感特征score3计算公式具体为：

(4)将句子的主题、情感和位置特征与步骤Step2中构建的汉越双语词嵌入模型编码得到的汉越双语词向量进行拼接，实现句子语义信息和观点句特征的融合，然后，在步骤Step5中将句子的主题、情感和位置特征分别融入注意力机制中，提升模型对观点句特征的识别能力。

(5)在注意力机制中融入句子的观点句特征权重，得到句子在主题、位置、情感方面的表征；

α＝softmax(W^TM)

r＝Hα^T

h^*＝tanh(W_pr+W_xh_N)

Step6、抽取观点句：

使用softmax分类器来判定句子是否为观点句。

为了验证本发明与其他模型的效果，本发明做了如下对比实验：表1为越南语观点句抽取模型和汉越双语观点句抽取模型的效果对比，表2为不同位置上融入不同观点句特征的效果对比；

表1越南语观点句抽取和汉越双语观点句抽取效果对比

Model	Prediction	Recall	F<sub>1</sub>
				越南语观点句抽取模型	0.529	0.603	0.564
汉越双语观点句抽取模型	0.637	0.654	0.645

表2不同位置上融入不同观点句特征的效果对比

从表1中可以看出，汉越双语观点句抽取模型在准确率、召回率和F₁值上更高。该实验证明了汉越双语词嵌入模型和观点句抽取模型可以较好地缓解越南语标记缺失的问题，提升越南语新闻观点句抽取的效果。

从表2可以发现以下几点：首先，相比较句子主题特征和位置特征，融入句子情感特征更能提升观点句抽取的准确率。其次，相比在词向量中融入句子主题、位置和情感特征，同时在词向量和注意力机制中融入这些特征的准确率更高。该点说明了同时在词向量和注意力机制中进行融入的方法更能表征句子中的观点句相关信息。也就是说，同时在词向量和注意力机制中同时融入主题、位置和情感特征的方法取得了最好的效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种多特征融合的汉越新闻观点句抽取方法，其特征在于：具体步骤如下：

Step1、语料收集：收集中文新闻文本、越南语新闻文本以及汉越平行句对作为训练语料和测试语料；

Step2、构建汉越双语词嵌入模型：用中文语料和越南语语料分别训练汉语和越南语的单语词嵌入模型；然后用中文和越南语平行句子对汉语和越南语的单语词嵌入模型进行联合训练，构建汉越双语词嵌入模型；

Step3、计算新闻中每个句子的观点句特征权重：观点句特征权重具体包括了句子的主题相关度特征、情感特征和位置特征；

Step4、句子建模：在步骤Step2构建的双语词向量中拼接该词所在句子的观点句特征权重，然后将融合观点句特征权重的双语词向量输入到LSTM网络中进行句子建模；

Step6、使用softmax分类器来判定句子是否为观点句。

2.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法，其特征在于：所述步骤Step2中，在联合训练的过程中，使用汉越双语的正则化项对单语词嵌入模型进行约束；该方法不仅能学习到单语环境下不同词汇的关联关系，同时还能学习到中文词语和越南语词语之间的关联关系。

3.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法，其特征在于：所述步骤Step4中，将句子的主题、情感和位置特征与步骤Step2中构建的汉越双语词嵌入模型编码得到的汉越双语词向量进行拼接，实现句子语义信息和观点句特征的融合，然后，在步骤Step5中将句子的主题、情感和位置特征分别融入注意力机制中，提升模型对观点句特征的识别能力。

4.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法，其特征在于：

所述步骤Step2中，在联合训练过程时，汉语和越南语的目标函数的具体公式为：

Ω(θ^c,θ^v)＝λ₁Ω_translation(θ^c,θ^v)+λ₂Ω_emotion(θ^c,θ^v)

5.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法，其特征在于：所述Step3中：

1)句子主题相关度score1的计算公式具体为：

其中，S_T表示新闻标题的向量表征，S表示新闻中每个句子的向量表征；

2)句子在文档中的位置特征score2计算公式具体为：

其中，n表示文档中的句子数目，i表示当前句子是文档中的第i句话；

3)句子s_i的情感特征score3计算公式具体为：

其中，emotion(w_i,k)表示词w_i,k是否为情感词，如果该词是情感词，则emotion(w_i,k)的值为1；否则为0，m表示句子中词的个数。

6.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法，其特征在于：所述Step5的具体步骤如下：

α＝softmax(W^TM)

r＝Hα^T

h^*＝tanh(W_pr+W_xh_N)