CN110717332A

CN110717332A - 基于非对称孪生网络的新闻与案件相似度计算方法

Info

Publication number: CN110717332A
Application number: CN201910680008.XA
Authority: CN
Inventors: 余正涛; 赵承鼎; 郭军军; 线岩团; 黄于欣; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2020-01-21
Anticipated expiration: 2039-07-26
Also published as: CN110717332B

Abstract

本发明涉及基于非对称孪生网络的新闻与案件相似度计算方法，属于自然语言处理技术领域。本发明首先通过计算文本中句子与标题的相似度选取与新闻标题最相关的句子表征文档，从而去除新闻文本中的冗余句子，再利用非对称孪生网络对文档、案件描述建模，考虑到案件要素蕴含案件的关键语义信息，将案件要素作为监督信息融入到非对称孪生网络中对新闻文档和案件描述进行编码，最终通过计算文档相似度判断新闻与案件的相关性。本发明通过基于非对称孪生网络对新闻文本和案件描述进行相似度计算，能对不平衡的新闻文本和案件描述进行语义编码建模，有益于提升相似度计算的准确率。

Description

基于非对称孪生网络的新闻与案件相似度计算方法

技术领域

本发明涉及基于非对称孪生网络的新闻与案件相似度计算方法，属于自然语言处理技术领域。

背景技术

法律领域新闻舆情分析是当前自然语言处理研究的热点问题，新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节，是后续案件新闻舆情分析的基础、前提和支柱，其准确率直接影响到多个后续新闻舆情分析的准确与否，例如：情感分类、话题分析、摘要生成等。为了解决后续工作的质量和性能，需要构建高准确率的新闻与案件的相关性分析方法。借助孪生网络计算文本相关性是一种有效途径，其对平衡样本具有良好的学习能力，但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题，因此，提出了基于非对称孪生网络的新闻与案件相关性计算方法。

发明内容

本发明提供了基于非对称孪生网络的新闻与案件相似度计算方法，以用于解决传统文本相关性分析方法对于不平衡语料的难学习问题，以及解决了新闻文本冗余的问题，实现了新闻文本和案件描述的相似度计算且准确率高。

本发明的技术方案是：基于非对称孪生网络的新闻与案件相似度计算方法，所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下：

Step1、通过分析热门新闻构建新闻与案件的相关性语料库，再利用新闻标题压缩新闻文档，得到压缩后的新闻文档；这有益于解决新闻文档内容冗余的问题；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、首先计算文档中每个句子与标题的相关性，计算每个文档中的句子S_i与新闻标题S_t的相关性的公式为：Score(S_t,S_i)＝ROUGE(S_t,S_i)，然后从中选出相关性高的几个句子作为新闻文档D′的表示，具体公式为：

由于标题的事实性与主题性，有益于提取出与案件事实更为相关的新闻句子。

Step2、通过案件描述C′构建案件要素，案件要素集合；案件要素的定义有益于得到更为精炼的案件信息，从而更利于神经网络学习到有用的特征；

Step3、利用Step2中得到的案件要素集合，抽取出Step1中得到的压缩后的新闻文档中的案件要素；首先通过结巴分词工具对Step1中得到的压缩后的新闻文本D′进行分词处理；有益于更准确且更全面地提取出新闻中的案件要素词。对得到的每个词和Step2中得到的每个案件要素进行余弦相似度计算，当余弦相似度大于阈值x时将该词抽取为该篇新闻中的案件要素，得到新闻文档的要素集合De′。

Step4、通过非对称孪生网络分别对案件描述和Step1得到的压缩后的新闻文档进行语义建模编码，分别得到案件描述和新闻文档的语义表征；提出的非对成孪生网络有益于对于文本不平衡的案件描述和新闻文本进行建模，从而得到语义更为准确的语义空间向量。

首先通过预训练的词向量矩阵，对新闻文档D′、新闻中案件要素E′和案件描述C′中的词进行词嵌入，将每个词映射到向量空间中表示；

通过双向LSTM分别对嵌入后的新闻文档、新闻中案件要素和案件描述进行编码，得到新闻文档、新闻中案件要素和案件描述的浅层语义表征；通过案件要素指导有益于提取出新闻文本中的案件语义信息。

在每个时间步上，LSTM通过计算上一步的隐层表示h_t-1、输入词向量w和长期记忆c_t-1得到隐层表示h_t和长期记忆c_t，具体公式为： (h_t，c_t)＝LSTM(c_t-1,h_t-1,w)。通过拼接前向和后向的隐状态，得到双向LSTM 的隐状态，具体公式为：

将双向LSTM的每一个时间步上的输出集合作为浅层语义表征；新闻文档D′ 编码为D_h∈{h₁，h₂...h_k}∈R^U，其中U表示LSTM隐层维度大小，同理，C′和E′ 也分别编码为双向LSTM的输出集合C_h、E_h；

通过注意力机制建立D_h与E_h的联系，对与要素相关性高的词增强语义，相关性低的词降低语义。首先计算D_h中词h_d与E_h中每个词h_e的相关性评分，具体公式为Score(h_d,h_e)＝h_d ^TW_ah_e，其中Wa为用于计算h_d，h_e相关性评分的注意力矩阵，再对所有评分进行归一化处理，具体公式为：

最终得到要素注意力权重E_weighted，具体公式为：

通过E_weighted将D_h最终转化为经过要素监督的D_weighted，具体公式为： D_weighted＝α*E_weight+(1-α)*D_e′。其中α为用于分配要素部分和文档本身部分的编码在新的向量表征中所占的权重。Wa，α都是可训练的参数。

通过另一层的双向LSTM对D_weighted和C_h再进行编码，具体公式为: D_out＝B_iLSTM₂(D_weighted)，C_out＝B_iLSTM₂(C_h)，得到新闻文本和案件描述的深层语义表示，分别为D_out、C_out。有益于将新闻和案件的语义映射到同一语义空间下进行计算，从而提升相关性计算的准确率。

Step5、通过对Step4中得到的新闻文档和案件描述的语义表征在向量空间中进行相似度计算，得到新闻和案件的语义相似度；利用Step5中得到的新闻和案件的语义相似度，根据语义相似度是否大于阈值p判断出新闻与案件的是否具有相关性。通过将相关性归一化进行判别，有益于简化对是否相关进行判别时的复杂度。

首先通过Step4中得到的得到新闻文本和案件描述的深层语义表示D_out、 C_out，通过计算两者的曼哈顿距离表征新闻文本和案件描述的语义差距，具体公式为：Distance(D_out,C_out)＝manhattan(D_out,C_out)。

由于语义差距与相似度呈负相关，将曼哈顿距离通过sigmoid函数映射到 (0,1)区间上，来计算出D_out和C_out的相似度Similarity(D_out,C_out)。具体公式为: Similarity(D_out,C_out)＝1-sigmoid(Distance(D_out,C_out))。

最终，若相似度大于阈值p，则判定新闻文档与案件相关，否则判定不相关。

本发明的有益效果是：

本发明通过基于非对称孪生网络对新闻文本和案件描述进行相似度计算，能对不平衡的新闻文本和案件描述进行语义建模编码，有益于提升相似度计算的准确率，进而对新闻文本和案件描述实现了有效的相关性分析，利于提升后续案件新闻舆情的情感分类、话题分析、摘要生成等工作的效果。

附图说明

图1为本发明中的流程图；

图2为本发明中的相似度计算模型图。

具体实施方式

实施例1：如图1-2所示，一种基于非对称孪生网络的新闻与案件相似度计算方法，所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下：

Step1、通过分析近年来的热门新闻，本实施例可以选择例如“昆山反杀案” 等若干个热门案件，爬取与案件相关的新闻4513条。通过建立新闻与案件相关关系，得到新闻-案件对应数据4607对。通过人为校准，选出有效数据3374对，其中相关的案件-新闻对1630对，不相关数据1744对。从中分离出675对作为验证集，验证集中相关数据326对，不相关数据349对；

再利用新闻标题对新闻文档进行压缩，得到压缩后的新闻文档：首先计算文档中每个句子与标题的相关性，计算每个文档中的句子S_i与新闻标题S_t的相关性的公式为：Score(S_t,S_i)＝ROUGE(S_t,S_i)，然后从中选出相关性较高的3个句子作为新闻文档D′的表示，具体公式为：

Step2、对每个案件的案件描述C′进行案件要素标注，标注出案件性质、被告姓名、犯案时间、犯案地点、案件类型、审理法院等案件要素；

Step3、利用Step2中得到的案件要素集合，抽取出Step1中得到的压缩后的新闻文档中的案件要素：

Step3.1、通过结巴分词工具对Step1中得到的压缩后的新闻文档D′进行分词处理；

Step3.2、对Step3.1得到的每个词和Step2中得到的每个案件要素进行余弦相似度计算，当余弦相似度大于阈值0.8时将该词抽取为该篇新闻中的案件要素，得到新闻文档的要素集合De′。

Step4、通过非对称孪生网络分别对案件描述和Step1得到的压缩后的新闻文档进行语义编码，分别得到案件描述和新闻文档的语义表征；

Step4.1、首先通过预训练的词向量矩阵，对新闻文档D′、新闻中案件要素E′ 和案件描述C′中的词进行词嵌入，将每个词映射到向量空间中表示；词嵌入的维度为300维；

Step4.2、通过双向LSTM分别对嵌入后的新闻文档D′、新闻中案件要素E′和案件描述C′进行编码，得到新闻文档、新闻中案件要素和案件描述的浅层语义表征；双向LSTM的隐层维度为128维；在每个时间步上，LSTM通过计算上一步的隐层表示h_t-1、输入词向量w和长期记忆c_t-1得到隐层表示h_t和长期记忆c_t，具体公式为：(h_t，c_t)＝LSTM(c_t-1,h_t-1,w)。通过拼接前向和后向的隐状态，得到双向LSTM的隐状态，具体公式为：

通过注意力机制建立D_h与E_h的联系，对于要素相关性高的词增强语义，相关性低的词降低语义。首先计算D_h中词h_d与E_h中每个词h_e的相关性评分，具体公式为Score(h_d,h_e)＝h_d ^TW_ah_e，其中Wa为用于计算h_d，h_e相关性评分的注意力矩阵，再对所有评分进行归一化处理，具体公式为：

最终得到要素注意力权重E_weighted，具体公式为：

通过另一层的双向LSTM对D_weighted和C_h再进行编码，具体公式为: D_out＝B_iLSTM₂(D_weighted)，C_out＝B_iLSTM₂(C_h)，得到新闻文本和案件描述的深层语义表示，分别为D_out、C_out，此层双向LSTM维度为32维。

Step5、首先通过Step5中得到的得到新闻文本和案件描述的深层语义表示 D_out、C_out，通过计算两者的曼哈顿距离表征新闻文本和案件描述的语义差距。将曼哈顿距离通过sigmoid函数映射到(0,1)区间上，来计算出D_out和C_out的相似度Similarity(D_out,C_out)＝1-sigmoid(Distance(D_out,C_out))，其中

Distance(D_out,C_out)＝manhattan(D_out,C_out)。

最终，若相似度大于阈值0.5，则判定新闻文档与案件相关，否则判定不相关。

为了验证本发明的效果，分别使用传统的孪生网络和非对称孪生网络模型对新闻和案件的相关性分析进行实验对比，以及是否融入基于标题的新闻文本压缩方法的对新闻和案件的相关性分析进行对比，其准确率(p)、召回率(r)、F1-score 效果对比如表1、表2所示：

表1为是否使用非对称孪生网络模型对新闻和案件的相关性分析的效果对比；

表1不同方法的有效性验证结果

从表1可以看出，使用非对称孪生网络模型进行案件和新闻的相关性分析时的准确率为90.02％，比使用传统孪生网络模型方法高出5.07％。由此可见，非对称孪生网络能更好的学习到新闻文本和案件描述中不平衡的案件相关特征，有利于相关性判别准确率的提升。

表2为是否融入基于标题的新闻文本压缩方法的对新闻和案件的相关性分析的效果对比；

表2为是否压缩对相似度计算影响实验结果

从表2可以看出，融入基于标题的新闻文本压缩方法进行案件和新闻的相关性分析时的准确率为90.02％，比不进行文本压缩的方法高出4.51％。由此可见，融入基于标题的新闻文本压缩方法可以去除掉新闻中的案件无关冗余信息，因此神经网络学习到对判定新闻与案件相关性更为有用的特征，有利于相关性判别准确率的提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于非对称孪生网络的新闻与案件相似度计算方法，其特征在于：

所述基于非对称孪生网络的新闻与案件相似度计算方法的具体步骤如下：

Step1、利用新闻标题压缩新闻文档，得到压缩后的新闻文档；

Step2、通过案件描述构建案件要素，案件要素集合；

Step3、利用Step2中得到的案件要素集合，抽取出Step1中得到的压缩后的新闻文档中的案件要素；

Step5、通过对Step4中得到的新闻文档和案件描述的语义表征在向量空间中进行相似度计算，得到新闻和案件的语义相似度；

Step6、利用Step5中得到的新闻和案件的语义相似度，根据语义相似度是否大于阈值0.5判断出新闻与案件的是否具有相关性。

2.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法，其特征在于：所述步骤Step3的具体步骤：

Step3.1、通过结巴分词工具对Step1中得到的压缩后的新闻文档进行分词处理；

Step3.2、对Step3.1得到的每个词和Step2中得到的每个案件要素进行余弦相似度计算，当余弦相似度大于阈值0.8时将该词抽取为该篇新闻中的案件要素，得到新闻文档的要素集合。

4.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法，其特征在于：所述步骤Step4的具体步骤为：

Step4.1、首先通过预训练的词向量矩阵，对新闻文档D′、新闻中案件要素E′和案件描述C′中的词进行词嵌入，将每个词映射到向量空间中表示；

Step4.2、通过双向LSTM分别对嵌入后的新闻文档、新闻中案件要素和案件描述进行编码，得到新闻文档、新闻中案件要素和案件描述的浅层语义表征；

Step4.3、将Step4.2中得到的新闻中案件要素语义表征作为监督信息，通过注意力机制建立案件要素和Step4.2中得到的新闻语义表征之间的联系，得到新闻的案件语义表征；

Step4.4、通过双向LSTM分别对Step4.3中得到的新闻的案件语义表征和Step4.2中得到的案件描述的浅层语义表征进行再次编码，得到新闻文档和案件描述的深层语义表征。

5.根据权利要求1所述的基于非对称孪生网络的新闻与案件相似度计算方法，其特征在于：所述步骤Step5的具体步骤为：

Step5.1通过对新闻文档和案件描述的深层语义表征计算曼哈顿距离，通过计算两者的曼哈顿距离表征新闻文本和案件描述的语义差距，从而得到新闻和案件的语义差异性；

Step5.2通过对Step5.1中的语义差异性进行非线性变换，利用sigmoid函数使其映射到(0，1)空间上，得到新闻和案件的语义相似度。