CN112287105A

CN112287105A - 融合标题和正文双向互注意力的涉法新闻相关性分析方法

Info

Publication number: CN112287105A
Application number: CN202011055105.9A
Authority: CN
Inventors: 余正涛; 王冠文; 郭军军; 黄于欣; 相艳; 张玉
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-29
Anticipated expiration: 2040-09-30
Also published as: CN112287105B

Abstract

本发明涉及融合标题和正文双向互注意力的涉法新闻相关性分析方法，属于自然语言处理技术领域。本发明包括步骤：获取标题和正文的词级特征向量；构建标题和正文相似矩阵去分别计算正文辅助标题的双向互注意力、正文辅助标题的双向互注意力；分别对正文辅助标题以及标题辅助正文这两种情况下得到的双向互注意力向量进一步提取深层次关系，然后把提取到的深层次关系在高维度联合，以得到整篇新闻的完整信息；根据新闻特性判断其是否属于涉法新闻。本发明相比基线模型准确率提高了2.7％，实验结果表明利用标题和正文以及它们之间的相互作用对新闻文本分类有很好的支撑作用。

Description

融合标题和正文双向互注意力的涉法新闻相关性分析方法

技术领域

本发明涉及融合标题和正文双向互注意力的涉法新闻相关性分析方法，属于自然语言处理技术领域。

背景技术

涉法新闻相关性分析通常是通过文本分类的方法来解决，早期阶段，研究人员基于传统的机器学习来解决文本分类问题，如TF-IDF，朴素贝叶斯等利用特征工程进行文本分类。随着深度学习模型的迅速发展，各种针对文本分类问题的深度学习模型都取得了很好的效果，但是针对两种文本联合进行分类的研究较少。就涉法新闻相关性分析来说，由于涉法新闻文本描述的内容覆盖范围广，新闻具有标题和正文，有些新闻的标题和正文涉法特征都不明显，因此，单从标题或正文很难很好的判断新闻是否涉法。

本发明主要考虑到利用标题和正文的相互作用并联合建模进行分类。因此，本发明在Minjoon等人、Yang等人和Wan等人提出的BiDAF模型的基础上，在深度学习框架下，充分利用新闻标题和正文之间的相互作用，融合标题和正文构建双向互注意力，探索涉法新闻文本分类方法。

发明内容

本发明提供了融合标题和正文双向互注意力的涉法新闻相关性分析方法，来充分利用新闻标题和正文之间的相互作用，用以提高涉法新闻相关性分析的准确率。同时相比其他基线方法在涉法新闻相关性分析任务中取得更优的结果。

本发明的技术方案是：融合标题和正文双向互注意力的涉法新闻相关性分析方法，所述方法包括：

Step1、获取标题和正文的词级特征向量；

Step2、构建标题和正文相似矩阵去分别计算正文辅助标题的双向互注意力、正文辅助标题的双向互注意力；

Step3、分别对正文辅助标题以及标题辅助正文这两种情况下得到的双向互注意力向量进一步提取深层次关系，然后把提取到的深层次关系在高维度联合，以得到整篇新闻的完整信息；

Step4、根据新闻特性判断其是否属于涉法新闻。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征，引入注意力机制，得到加权后的标题词级特征向量；

Step1.2、对正文文档进行分句，再对每个句子进行分词，之后对每个句子的词进行编码得到向量，再通过注意力机制来分别提取文档中每个句子的词级特征向量。

作为本发明的进一步方案，所述步骤Step2的具体步骤：

Step2.1、构建标题与正文相似矩阵；

Step2.2、计算正文辅助标题的双向互注意力，从而获取正文辅助标题的双向互注意力向量；

Step2.3、计算正文辅助标题的双向互注意力，从而获取标题辅助正文的双向互注意力向量。

作为本发明的进一步方案，所述步骤Step3的具体步骤为：

Step3.1、使用两个BiGRU来分别提取正文辅助标题的双向互注意力向量、标题辅助正文的双向互注意力向量的上下文依赖关系；

Step3.2、对两个双向互注意力向量进行特征提取，用连接残差来最大程度确保所有信息进入输出网络层，实现标题与正文的交叉融合。

作为本发明的进一步方案，所述步骤Step4的具体步骤为：

Step4.1、从网络层输出的新闻完整特征中提取最显著特征Y来判断新闻是否属于涉法新闻；

Y＝Maxpooling(H)∈R^10d

最终得到的y表示判断新闻是否属于涉法新闻的概率分布，

表示可训练权重矩阵。

本发明的有益效果是：

本发明基于将标题和正文这两种信息视为共同上下文来使用这一概念，采用了一种结合标题和正文构建双向互注意力的学习方法来充分利用新闻标题和正文之间的相互作用，用以提高涉法新闻相关性分析的准确率。

构造了一个涉法新闻数据集并使用本文方法进行实验，实验结果表明本发明提出方法相比其他基线方法在实验中取得更优的结果。

附图说明

图1为本发明中的具体流程框图；

图2为本发明中的利用相似矩阵进行双向互注意力计算的示意图。

具体实施方式

实施例1：如图1-图2所示，融合标题和正文双向互注意力的涉法新闻相关性分析方法，所述方法包括：

Step1、首先输入新闻标题和新闻正文进行特征编码，输入的这两种文本的结构不同，新闻标题通常使用单句描述，而新闻正文是一篇文档，因此，将这两部分分开处理，对标题进行句子级信息提取，正文进行文档级信息提取，获取标题和正文的词级特征向量；

Step4、根据新闻特性判断其是否属于涉法新闻。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

作为本发明的进一步方案，所述步骤Step2的具体步骤：

Step2.1、构建标题与正文相似矩阵；

作为本发明的进一步方案，所述步骤Step3的具体步骤为：

作为本发明的进一步方案，所述步骤Step4的具体步骤为：

Y＝Maxpooling(H)∈R^10d (18)

最终得到的y表示判断新闻是否属于涉法新闻的概率分布，

表示可训练权重矩阵。

Step1、使用中文微博词向量来获得标题中每个词的嵌入表征，引入注意力机制，得到加权后的标题词级特征向量；对正文文档进行分句，再对每个句子进行分词，之后对每个句子的词进行编码得到向量，再通过注意力机制来分别提取文档中每个句子的词级特征向量。

Step2、构建标题与正文相似矩阵；计算正文辅助标题的双向互注意力，从而获取正文辅助标题的双向互注意力向量；计算正文辅助标题的双向互注意力，从而获取标题辅助正文的双向互注意力向量

用双向互注意力网络层来负责连接和融合新闻标题与新闻正文中的信息。该层网络将每次计算出来的注意力向量与前一次输入的内容都流向后续的网络层，减少了由于早期汇总引起的信息丢失。本文在两个方向上进行计算注意力：从标题到正文以及从正文到标题

Step3、使用两个BiGRU来分别提取正文辅助标题的双向互注意力向量、标题辅助正文的双向互注意力向量的上下文依赖关系；对两个双向互注意力向量进行特征提取，用连接残差来最大程度确保所有信息进入输出网络层，实现标题与正文的交叉融合；

Step4、根据新闻特性判断其是否属于涉法新闻。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、对标题进行特征提取，是通过使用大规模微博数据预训练的中文微博词向量，该词向量是由word2vec开源工具中的Skip-gram模型预训练的，用以获得标题中每个词w_i,i∈[1,N]的嵌入表征x_i∈R³⁰⁰；

双向门控循环单元(BiGRU)包括从x₁到x_N读取隐状态的前向GRU和从x_N到x₁读取隐状态的后向GRU。本文将标题中每个词的嵌入表征x_i通过BiGRU转化为隐状态h_i，具体操作如下：

h_i＝BiGRU(x_i)∈R^2d,i∈[1,N] (1)

h_i表示给定单词的完整隐状态，包含了词的双向上下文信息，d表示GRU隐层输出维度。但是并非所有词对句子含义的表达都有同等的贡献，因此引入注意力机制来提取对句子有意义的词，得到加权后的标题词级特征向量，具体操作如下：

u_i＝tanh(W_wh_i+b_w) (2)

T_i＝α_ih_i∈R^2d (4)

T＝[T₁,T₂,...,T_N]∈R^2d*N (5)

本文首先通过多层感知机来得到h_i的隐藏表示形式u_i，然后将u_i与单词级上下文向量u_w的相似性作为词重要性的度量，并通过softmax函数进行归一化来确定权重α_i，最终得到加权后的标题词级特征向量T∈R^2d*N；

Step1.2、对正文进行编码与特征提取的方式与标题特征提取的做法类似，不同的是，由于新闻正文通常是一篇文档，因此借鉴了分层编码的思想，对正文文档进行分句，得到句子S_j,j∈[1,M]，再对每个句子进行分词得到w_jk,k∈[1,L]，其中M代表每个文档中的句子个数，L代表每个句子中的词个数。再将每个句子的词进行编码，得到向量S_jk后通过BiGRU得到隐状态h_jk，再通过注意力机制来分别提取文档中每个句子的词级特征向量C_j＝[C_j1,C_j2,...,C_jL],j∈[1,M]，即是正文词级特征向量；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、本文进行标题与正文相似矩阵的构建，正文辅助标题相似矩阵S如图2所示；

S_ik＝α(T_:i,C_:k)∈R^N*L (6)

其中S_ik表示第i个标题描述词和第k个正文辅助词之间的相似度，T_:i表示T的第i列向量，C_:k表示C的第k列向量，α表示计算T与C之间相似度的可训练函数，如公式(7)所示：

其中

是待训练的权重向量，

是逐元素乘法，[；]是跨行的向量串联，而因式乘法表示矩阵乘法，t与T的列向量对应，c与C的列向量对应。这样得到正文辅助标题的相似矩阵S∈R^N*L。标题辅助正文的相似矩阵与之类似，只需要将输入顺序转置即可。

Step2.2、本文对正文辅助标题相似矩阵S中的列向量进行softmax归一化得到注意力权重a_i，再将a_i与正文C中的每个词进行加权求和，就可以得到标题对正文的注意力向量矩阵U；

a_i＝softmax(S_i:)∈R^L (8)

U＝∑a_ikC_:k∈R^2d*N (9)

正文对标题的注意力在正文辅助标题的情况下，指的是标题中哪个词与正文词之一具有最高的相似性。这些词对于学习标题关键特征来说至关重要。如图2所示，本文先对S中的每一列取最大值，再经过softmax归一化后得到标题词对正文词的注意力权重p，再用p与标题词进行加权求和，得到所关注标题词的向量f，该向量表示标题词相对正文而言最重要的词的加权和，f在列方向上平铺N次，得到正文对标题的注意力向量矩阵F。

p＝softmax(max_col(S))∈R^N (10)

f＝∑_ip_iT_:i∈R^2d (11)

为了减少信息丢失，将T，U，F联合共同传递给后续网络层。最终可以得到完整的正文辅助标题的双向互注意力向量。

Step2.3、本文用上述类似方法做标题辅助正文的双向互注意力计算。将正文辅助标题的相似矩阵S更变为标题辅助正文的相似矩阵S′，即可得到正文对标题的注意力U′∈R^2d*L以及标题对正文的注意力F′∈R^2d*L，最后将C，U′，F′三者通过

函数得到完整的标题辅助正文的双向互注意力向量。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、本文采用两个BiGRU来分别提取两个双向互注意力向量的上下文依赖关系。通过联合标题与正文之间的相互注意力进行特征提取，进行标题与正文之间的交互；

M＝BiGRU(G)∈R^2d*N (13)

M′＝BiGRU(G′)∈R^2d*L (14)

其中M表示对正文辅助标题的双向互注意向量进行特征提取的结果，M′表示对标题辅助正文的双向互注意向量进行特征提取的结果。

Step3.2、本文对两个双向互注意力向量进行特征提取后，连接残差以最大程度确保所有信息进入输出网络层；

M_G＝[M；G]∈R^10d*N (15)

M_G′＝[M′；G′]∈R^10d*L (16)

H＝(M_G；M_G′)∈R^10d*(L+N) (17)

其中M_G和M_G′分别是连接残差后的网络输出，代表正文辅助标题情况下体现的新闻特征和标题辅助正文情况下体现的新闻特征。H表示联合M_G和M_G′的新闻完整特征，代表了该篇新闻的所有信息，此变量将送入输出层。(；)表示在列向量上进行拼接。至此便实现了标题与正文的交叉融合。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、从输出的新闻完整特征中提取最显著特征Y来判断新闻是否属于涉法新闻；

Y＝Maxpooling(H)∈R^10d (18)

最终得到的y表示判断新闻是否属于涉法新闻的概率分布，

表示可训练权重矩阵。

本发明构建了一个涉法新闻数据集用于进行实验，并结合本文方法做了三类实验，一类是与其他基线模型的性能进行对比实验，另一类是本文方法的各部分特征有效性验证实验，此外还进行了新闻实例测试分析实验，用于验证本文方法对于标题或正文无涉法特征的新闻可以进行性能提升，并结合实例分析了本文方法的不足。

实验参数的选取直接影响最后的实验结果。由于新闻标题长度大多在10到30个字符之间，新闻正文句子个数大多数在5到13之间，单句长度分布和标题类似。因此本文设置标题句子最大长度为20个字符，正文的最大句子个数为10，单句的最大长度也为20个字符。采用Adam算法作为优化器；学习率设为0.01；单层BiGRU的随机失活率设为丢失0.2；双层BiGRU的Dropout设为丢失0.5；批次处理大小设为16；训练轮次设置为20。本文的评价指标主要采用准确率(Acc.)、精确率(P)、召回(R)和F1值。

本发明主要采用了五种经典的文本分类模型来作为基线模型进行对比。基线模型如下：

CNN模型：Kim等人提出将CNN应用于文本分类中。该模型主要包括一个卷积层和一个池化层，最后再通过一个全连接层进行分类。

LSTM模型：使用两层的LSTM进行特征提取，再通过一个全连接层进行分类。

RCNN模型：Lai等人提出的一种结合RNN和CNN进行分类的神经网络模型。本模型主要包括一个双向递归网络层和一个卷积层，再通过一个全连接层进行分类。

Capsule模型：Zhao等人针对短文本分类提出一种具有动态路由的胶囊网络。

HAN模型：Yang等人针对文档分类提出的一种分层注意网络。

本发明采用上诉基线模型进行对比实验，并对基线模型分别在仅标题，仅正文以及标题联合正文三种情况进行训练。对于本文方法，在仅标题的情况下本文将正文使用标题替代，在仅正文的情况下本文将标题使用正文的第一句替代。实验结果对比结果如表1所示。

表1为基线模型实验结果对比

在仅标题和仅正文的情况下，本发明方法的准确率Acc.和F1值均取得最优结果，且在标题联合正文的情况下，本文方法的Acc.、P、R和F1值均超过其他基线模型在三种情况下的全部实验结果，Acc.提升了2.7％，F1值提升了2.0％。其次，本发明模型在标题联合正文输入时的结果相比在仅标题输入和仅正文输入时的结果，Acc提升了1.9％，F1值提升了1.5％。最后，在标题联合正文的情况下，本文方法的实验结果相比其他基线模型均有较大提升，其中Acc提升了3.7％，F1值提升了2.7％，有力地证明了本文所提出的融合标题和正文双向互注意力的学习方法的优越性。

表2为各部分特征有效性实验结果

本实验各部分特征有效性实验结果如表2所示。在除去某些特征的情况下，本文方法的Acc.、P、R和F1值均超过表1对比实验中的其他基线模型。分别在未使用BiGRU进行上下文特征提取、正文辅助标题情况下的双向互注意力以及标题辅助正文情况下的双向互注意力的三种情况下，实验结果的Acc.、P、R和F1均略微下降。特别的，当在正文特征提取时未使用Maxpooling转而使用分层编码网络的句子级注意力机制时，效果相比本文模型也略有下降，是因为对文档的分层编码思想是立足于关注全文特征，包括结构信息等，而Maxpooling是立足于关注关键句子特征，验证了本文在进行正文特征编码时提到的对于正文中单句涉法即全文涉法的观点。

表3为三个新闻实例

表4为三个新闻实例测试结果

本发明选用如表3所示新闻案例进行验证。表中的三个新闻实例实际都属于涉法新闻，分别代表了标题无涉法特征、正文涉法特征弱、正文无涉法特征三种情况。此三种新闻实例非常具有代表性。本发明选用上述基线模型中综合效果比较好的RCNN和Capsule来进行实验，其中0代表不涉法，1代表涉法。三个新闻实例正确的测试结果应该是1\1\1。测试结果如表4所示，由此可以证明，本发明的学习方法可以更好的联合标题和正文进行新闻分类，有效的解决新闻标题或正文涉法特征不强而造成分类不准确的问题，提高了涉法新闻相关性的准确率。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合标题和正文双向互注意力的涉法新闻相关性分析方法，其特征在于：所述方法的具体步骤如下：

Step1、获取标题和正文的词级特征向量；

Step4、根据新闻特性判断其是否属于涉法新闻。

2.根据权利要求1所述的融合标题和正文双向互注意力的涉法新闻相关性分析方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的融合标题和正文双向互注意力的涉法新闻相关性分析方法，其特征在于：所述步骤Step2的具体步骤：

Step2.1、构建标题与正文相似矩阵；

4.根据权利要求1所述的融合标题和正文双向互注意力的涉法新闻相关性分析方法，其特征在于：所述步骤Step3的具体步骤为：

5.根据权利要求1所述的融合标题和正文双向互注意力的涉法新闻相关性分析方法，其特征在于：所述步骤Step4的具体步骤为：

Y＝Maxpooling(H)∈R^10d

最终得到的y表示判断新闻是否属于涉法新闻的概率分布，

表示可训练权重矩阵。