CN111652000A - 一种语句相似度判断方法及判断系统 - Google Patents

一种语句相似度判断方法及判断系统 Download PDF

Info

Publication number
CN111652000A
CN111652000A CN202010439712.9A CN202010439712A CN111652000A CN 111652000 A CN111652000 A CN 111652000A CN 202010439712 A CN202010439712 A CN 202010439712A CN 111652000 A CN111652000 A CN 111652000A
Authority
CN
China
Prior art keywords
semantic
sentence
matrix
layer
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010439712.9A
Other languages
English (en)
Other versions
CN111652000B (zh
Inventor
朱晓红
陈俊宇
何胜冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010439712.9A priority Critical patent/CN111652000B/zh
Publication of CN111652000A publication Critical patent/CN111652000A/zh
Application granted granted Critical
Publication of CN111652000B publication Critical patent/CN111652000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种语句相似度判断方法及判断系统,涉及自然语言语义相似度计算技术领域,通过在建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层上进行改进;利用多语义矩阵计算多粒度级别的相似性矩阵,并根据该矩阵发现两个句子真正的语义对齐。考虑到不同的语义有不同的重要性,我们提出了语义重要性计算。提出的模型不需要稀疏特征以及WordNet等外部资源,在较短的时间内成功训练并在相似度计算任务上取得了有竞争力的结果。可视化分析表明了模型的良好性能及可解释性。

Description

一种语句相似度判断方法及判断系统
技术领域
本发明涉及自然语言语义相似度计算技术领域,更具体地说,它涉及一种语句相似度判断方法及判断系统。
背景技术
生活中的许多场景需要比较文本的相似性,比如论文剽窃检测、对话系统和信息检索等领域。因此如何快速、形象的检测句子予以相似度是一项基本且非常重要的任务。
句子对的语义匹配(SPSM)是NLP中最基本的问题,比如文本相似度检测、自然语言推理、释义识别、答案选择等。随着神经网络在NLP等领域的复兴,研究者开始致力于使用神经网络解决SPSM任务。卷积神经网络(CNN)和循环神经网络(RNN)已经被熟练地应用在了SPSM任务。以往的很多工作是基于句子编码或单词粒度的交互来处理语义匹配问题。
基于句子编码的方法将两个句子分别表示成一个单一的分布式句子嵌入,然后再根据句子向量来计算句子对的相似度。该方式缺少句子对交互,并且单一句子向量可能无法完全涵盖句子的所有语义信息。为了增加句子对的交互性,研究者使用单词粒度的相似度矩阵获取细粒度语义信息并提高模型性能。仅仅基于细粒度的单词交互有可能丢失粗粒度信息,例如短语信息或者句子的长期依赖信息。Yin and Schütze、Yin et al、Tien etal等人利用CNN学习到的单词、短语和n元信息学习多种粒度级别的交互信息。单词粒度和多粒度交互都是人为规定交互的粒度大小,这有可能导致模型无法学习到真正的不同粒度交互信息。
目前的优秀模型大多均基于神经网络。CNN和RNN模型通常也采用基于句子编码和句子交互的策略。CNN擅长提取输入的抽象特征,合并重要的上下文并以分层的方式对句子对建模。Yin and Schütze使用CNN计算包括单词粒度、短语粒度以及句子粒度的多粒度交互矩阵。其第一次采取了多粒度交互特征,因此性能显著提升。Hua and Lin用成对单词粒度的交互矩阵和19层的CNN来计算文本相似度。Yao et al利用多层的卷积、池化操作,在输出中执行k最大池化得到句子向量并进行比较。类似的还有Hua He et al、Santos et al)、Yin et al、Wang et al、Tien et al等人的工作。
RNN比CNN更擅长处理序列信息。Mueller et al使用孪生LSTM的最后一个隐藏层作为句子表示并使用Manhattan距离衡量相似性,取得了非常不错的结果。孪生网络也是句子对语义匹配的常用策略。其将两个句子分别通过参数共享的神经网络,最终在相同的嵌入空间中得到各自的句子表示(Bowman et al;Tan et al;Neculoiu et al;Reimers etal),可以减少模型参数并实现句子对隐式交互。Shen et al结合经典的单词相似度矩阵和对齐表示,并使用内部加权对齐策略赋予每个单词相应的对齐权重。Wan et al、Santos etal、Zhang et al等均使用LSTM的输出单元计算句子对单词级别的相似度矩阵。
目前,预训练模型在各种NLP任务中占据了主导地位,其在大型数据上训练一个语言模型,然后在下游任务的特定数据上微调。BERT是现在最流行且效果最好的预训练模型,使用Transformer的编码器,以完形填空和下一个句子预测任务在Wikipedia和BooksCorpus数据集上训练真正的双向语言模型。Reimers et al的Sentence-BERT使用孪生BERT模型得到句子向量并计算余弦相似度作为句子对相似性。Zhang et al将PWIM模型的BiLSTM编码层替换为BERT,并在SICK数据集上得到了最先进的结果。BERT模型需要庞大的计算资源和内存,我们的目的是希望快速训练出有竞争力且可解释性强的模型,验证多语义嵌入矩阵和语义对齐的有效性,并且可以应用在任意的个人电脑上。
发明内容
本发明的上述技术目的是通过以下技术方案得以实现的:
一种语句相似度判断方法,包括以下步骤,
步骤1:上下文信息建模;
采用BiLSTM作为句子编码层;BiLSTM使用词嵌入作为输入,假定预训练的词嵌入的维度是d,输入的句子对S和T的长度分别为ls和lt,则S和T分别对应了一个输入矩阵S=[S1,S2,…,Sls],T=[T1,T2,…,Tlt],Si和Tj分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u,给定第t个时间步的词嵌入xt,上一个时间步的隐藏层输出ht-1以及细胞状态ct-1,LSTM按照如下方式得到第t个时间步的输出:
it=σ(wxixt+Whiht-1+bi)
ft=σ(wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+whoht-1+bo)
ct=ftct-1+ittanh(wxcxt+whcht-1+bc)
ht=ottanh(ct)
i,f,o分别代表输入门、遗忘门和输出门,它们控制LSTM中的信息流动;对于输入序列S,BiLSTM将正向和反向的隐层单元级联在一起后得到输出
Figure BDA0002503665380000041
Sh是ls×2u的输出矩阵;
步骤2:多语义嵌入层;
使用2层MLP自注意机制来学习输入句子的语义矩阵;将BiLSTM的整个隐藏层输出Sh或Th作为输入,计算它们的线性组合:
Figure BDA0002503665380000042
Es=WsSh
权重矩阵W1∈RS×2u,将输入映射到大小为s的隐藏层;W2是一个r×s的权重矩阵,r是语义嵌入个数;soft max将输出的r×l矩阵的每一行归一化,得到多语义嵌入权重矩阵Ws;Ws的每一行对应的是Sh的每个单元的权重,其与Sh的加权和就得到句子的一个语义向量;ES∈Rr×2u是s的多语义嵌入矩阵,每一行代表了s的某个语义,且该语义仅由句子的部分单词、短语或长距离信息组成,自动具备了多粒度信息;汇总语义权重Ws并归一化,得到句子的总体语义向量:
Figure BDA0002503665380000043
Figure BDA0002503665380000051
Figure BDA0002503665380000052
总体语义向量汇总了各个分语义,体现了句子的整体关注点
步骤3:语义重要性计算层;
使用单个语义与总体语义的相似性作为语义重要性,使用两个向量的余弦值作为它们的相似度,经过soft max归一化后,得到ES中每个语义的重要性SI,句子T同理得到TI:
Figure BDA0002503665380000053
||.||表示L2范数;
Figure BDA0002503665380000054
表示ES的第i行,即第i个语义;
步骤4:语义对齐层;
使用多语义嵌入矩阵计算句子对真正的语义对齐;根据ES和Et得到语义相似度矩阵SS,SSij表示句子s的第i个语义
Figure BDA0002503665380000055
和句子T的第j个语义
Figure BDA0002503665380000056
的相似度,直接使用余弦相似度:
Figure BDA0002503665380000057
按照如下方式对M的每一行归一化:
Figure BDA0002503665380000058
语义相似度矩阵SSnorm的每一行元素都属于[0,1],可以被视为句子S的对齐权重;对SS的每一列做同样的处理,得到句子T的对齐权重;衡量句子S和T的相似度需要评估句子S的语义是否被T包含,反之亦然;为句子S的每个语义计算其在T中的加权对齐,句子T同理;使用语义加权和的方式计算ES的每个语义在Et中的对齐表示
Figure BDA0002503665380000061
Figure BDA0002503665380000062
为了衡量
Figure BDA0002503665380000063
Figure BDA0002503665380000064
的匹配程度,使用正交分解策略将原始语义向量
Figure BDA0002503665380000065
正交分解为平行于对齐向量
Figure BDA0002503665380000066
的相似部分
Figure BDA0002503665380000067
和垂直于
Figure BDA0002503665380000068
的不相似部分
Figure BDA0002503665380000069
进一步细化匹配程度:
Figure BDA00025036653800000610
平行分量(对齐分量),
Figure BDA00025036653800000611
垂直分量(对齐残差);将分解原始语义的模型称为MSEM-WI;MSEM-WI模型得到衡量对齐程度的平行分量矩阵
Figure BDA00025036653800000612
和垂直分量矩阵
Figure BDA00025036653800000613
MSEM-WI-Original得到特征esp=SI*Esp,eso=SI*Eso;句子T的类似特征;
步骤5:输出层;
利用S和T的总体语义向量,得到额外的语义相关性特征;使用两个总体语义向量的逐元素乘积
Figure BDA00025036653800000614
和逐元素差
Figure BDA00025036653800000615
作为总体语义特征;结合加权语义匹配向量和总体语义特征,MSEM-WI得到特征fo=[e×;e-;esp;etp;eso;eto],fo∈R12u
将相似度分数估计视为分类问题,使用2层的MLP计算:
pφ=soft max(M2ReLU(M1fo+b1)+b2)。
一种语句相似度判断系统,基于上述的语句相似度判断方法,包括建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层。
综上所述,本发明具有以下有益效果:
利用多语义矩阵计算多粒度级别的相似性矩阵,并根据该矩阵发现两个句子真正的语义对齐。考虑到不同的语义有不同的重要性,我们提出了语义重要性计算。提出的模型不需要稀疏特征以及WordNet等外部资源,在较短的时间内成功训练并在相似度计算任务上取得了有竞争力的结果。可视化分析表明了模型的良好性能及可解释性。
附图说明
图1是本发明实施例的结构示意图;
图2是句子对语义热力图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
一种语句相似度判断方法,包括以下步骤,
步骤1:上下文信息建模;
采用BiLSTM作为句子编码层;BiLSTM使用词嵌入作为输入,假定预训练的词嵌入的维度是d,输入的句子对S和T的长度分别为ls和lt,则S和T分别对应了一个输入矩阵S=[S1,S2,…,Sls],T=[T1,T2,…,Tlt],Si和Tj分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u,给定第t个时间步的词嵌入xt,上一个时间步的隐藏层输出ht-1以及细胞状态ct-1,LSTM按照如下方式得到第t个时间步的输出:
it=σ(wxixt+Whiht-1+bi)
ft=σ(wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+whoht-1+bo)
ct=ftct-1+ittanh(wxcxt+whcht-1+bc)
ht=ottanh(ct)
i,f,o分别代表输入门、遗忘门和输出门,它们控制LSTM中的信息流动;对于输入序列S,BiLSTM将正向和反向的隐层单元级联在一起后得到输出
Figure BDA0002503665380000081
Sh是ls×2u的输出矩阵;
步骤2:多语义嵌入层;
使用2层MLP自注意机制来学习输入句子的语义矩阵;将BiLSTM的整个隐藏层输出Sh或Th作为输入,计算它们的线性组合:
Figure BDA0002503665380000082
Es=WsSh
权重矩阵W1∈RS×2u,将输入映射到大小为s的隐藏层;W2是一个r×s的权重矩阵,r是语义嵌入个数;softmax将输出的r×l矩阵的每一行归一化,得到多语义嵌入权重矩阵Ws;Ws的每一行对应的是Sh的每个单元的权重,其与Sh的加权和就得到句子的一个语义向量;ES∈Rr×2u是s的多语义嵌入矩阵,每一行代表了s的某个语义,且该语义仅由句子的部分单词、短语或长距离信息组成,自动具备了多粒度信息;汇总语义权重Ws并归一化,得到句子的总体语义向量:
Figure BDA0002503665380000083
Figure BDA0002503665380000091
Figure BDA0002503665380000092
总体语义向量汇总了各个分语义,体现了句子的整体关注点
步骤3:语义重要性计算层;
使用单个语义与总体语义的相似性作为语义重要性,使用两个向量的余弦值作为它们的相似度,经过softmax归一化后,得到ES中每个语义的重要性SI,句子T同理得到TI:
Figure BDA0002503665380000093
||.||表示L2范数;
Figure BDA0002503665380000094
表示ES的第i行,即第i个语义;
步骤4:语义对齐层;
使用多语义嵌入矩阵计算句子对真正的语义对齐;根据ES和Et得到语义相似度矩阵SS,SSij表示句子s的第i个语义
Figure BDA0002503665380000095
和句子T的第j个语义
Figure BDA0002503665380000096
的相似度,直接使用余弦相似度:
Figure BDA0002503665380000097
按照如下方式对M的每一行归一化:
Figure BDA0002503665380000098
语义相似度矩阵SSnorm的每一行元素都属于[0,1],可以被视为句子S的对齐权重;对SS的每一列做同样的处理,得到句子T的对齐权重;衡量句子S和T的相似度需要评估句子S的语义是否被T包含,反之亦然;为句子S的每个语义计算其在T中的加权对齐,句子T同理;使用语义加权和的方式计算ES的每个语义在Et中的对齐表示
Figure BDA0002503665380000101
Figure BDA0002503665380000102
为了衡量
Figure BDA0002503665380000103
Figure BDA0002503665380000104
的匹配程度,使用正交分解策略将原始语义向量
Figure BDA0002503665380000105
正交分解为平行于对齐向量
Figure BDA0002503665380000106
的相似部分
Figure BDA0002503665380000107
和垂直于
Figure BDA0002503665380000108
的不相似部分
Figure BDA0002503665380000109
进一步细化匹配程度:
Figure BDA00025036653800001010
平行分量(对齐分量),
Figure BDA00025036653800001011
垂直分量(对齐残差);将分解原始语义的模型称为MSEM-WI;MSEM-WI模型得到衡量对齐程度的平行分量矩阵
Figure BDA00025036653800001012
和垂直分量矩阵
Figure BDA00025036653800001015
MSEM-WI-Original得到特征esp=SI*Esp,eso=SI*Eso;句子T的类似特征;
步骤5:输出层;
利用S和T的总体语义向量,得到额外的语义相关性特征;使用两个总体语义向量的逐元素乘积
Figure BDA00025036653800001013
和逐元素差
Figure BDA00025036653800001014
作为总体语义特征;结合加权语义匹配向量和总体语义特征,MSEM-WI得到特征fo=[e×;e-;esp;etp;eso;eto],fo∈R12u
将相似度分数估计视为分类问题,使用2层的MLP计算:
pφ=soft max(M2ReLU(M1fo+b1)+b2)。
一种语句相似度判断系统,基于上述的语句相似度判断方法,包括建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层。
实验设置和实验结果:
我们在语义相似度任务上评估MSEM-WI模型的性能,使用Sentences InvolvingCompositional Knowledge(SICK)数据集,包括4500/500/4927个句子对用于训练/验证/测试。每个句子对都用一个[1,5]的相关性分数进行注释,分数越高,表明两个句子之间的关系越紧密。我们使用均方误差(MSE)作为评价指标。
实验设置:
我们使用300维的GloVe词向量(Pennington et al.,2014)并在训练过程中固定词向量,所有OOV(out of vocabulary)的单词均进行随机初始化。模型有许多超参数,经过实验验证,我们采用以下的超参数设置:LSTM隐层单元大小为100,自注意层和输出层的隐层单元均设置为50,L2正则化系数设置为0.0005,惩罚项P的惩罚系数为0.005,学习率0.001,batch size为25。考虑到SICK和MSRP数据集的句子都很短,我们设置语义个数r为5。使用Adam优化算法进行训练。
训练:
在SICK数据集中,我们将相似度分数估计视为回归问题,使用均方误差作为损失函数:
Figure BDA0002503665380000111
m是训练数据的大小,y是句子对的相似度标签,
Figure BDA0002503665380000112
则是由模型预测的相似度分数。
实验结果和分析:
Figure BDA0002503665380000121
表1
表1展示了我们模型的结果以及其他模型在SICK上的性能。MSEM-WI-Alignment在3个评价指标上均稍微超过MSEM-WI-Original,这与我们的预期是相符合的。表1中灰色的部分(2-6行)的性能弱于我们的模型。第一组的模型是基于传统的特征工程,依靠WordNet等外部资源,性能明显弱于当前的基于神经网络的模型。虽然我们的模型不是最优的,但是与最先进的模型相比,无论是在模型性能、训练时间还是模型复杂度上面,我们的模型都具有强大的竞争力。我们在具有8GB内存和Intel i5四核CPU的个人计算机进行训练,在15分钟的时间内便可成功训练我们的模型并得到具有竞争力的结果。MSEM-WI模型的结果和最佳结果之间的差距仅仅为0.0177()、0.0305()、0.0276(MSE)。PWIM(He and Lin,2016)利用19层的深度CNN来获取相似度信息,具有较高的复杂度以及较长的训练时间,而我们的模型结构简单并具有有竞争力的结果。MaLSTM(Mueller et al,,2016)模型采用了预训练的策略,并利用WordNet进行数据增强,MSEM-WI模型是端到端的,且无需任何外部资源以及预训练策略。M-MaxLSTM-CNN(Tien et al.,2019)采用多种词嵌入的结合作为输入并利用CNN和RNN处理,MSEM-WI仅仅采用单一的GloVe词向量。BERTBASE,JOINT+PWIM-BiLSTM(Zhanget al.,2019)得到最先进的结果。他们使用孪生BERT和PWIM(He and Lin,2016),基于预训练策略,模型复杂度高且训练时间长。MSEM-WI除了模型简单、易于训练且有强大的竞争力之外,其最大的优点是非常易于可视化,有较强的可解释性。
我们随机从SICK测试集中选择1个句子对作为可视化例子。图2的句子对有着相同的语义,相似度分数高达4.5,其预测结果为4.558,与真实标签非常接近。每个句子有3行热力图,前两行是根据语义重要性从中选择的前两个语义,第3行是总体语义热力图。可以发现单个语义能够学习到由细粒度或粗粒度信息组成的部分语义。除此之外,模型能够学习到相似的语义,图2中的句子对显示的是相似的重点语义,包括”pink shirt with whitewriting”和”lying”。可以看出MSEM-WI模型能够学习到句子对的相似语义或不相似部分,证明了模型的良好性能以及可解释性。
本申请提出了句子的多语义嵌入矩阵,能够表达句子的多种不同的语义。基于该语义矩阵,我们使用语义相似性矩阵计算两个句子的加权语义对齐。基于语义重要性和语义分解,我们能够得到语义相似特征,能被有效地用于语义相似性评估。实验及可视化分析证明了模型的良好性能以及可解释性。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (2)

1.一种语句相似度判断方法,其特征在于,包括以下步骤,
步骤1:上下文信息建模;
采用BiLSTM作为句子编码层;BiLSTM使用词嵌入作为输入,假定预训练的词嵌入的维度是d,输入的句子对S和T的长度分别为ls和lt,则S和T分别对应了一个输入矩阵S=[S1,S2,…,Sls],T=[T1,T2,…,Tlt],Si和Tj分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u,给定第t个时间步的词嵌入xt,上一个时间步的隐藏层输出ht-1以及细胞状态ct-1,LSTM按照如下方式得到第t个时间步的输出:
it=σ(wxixt+Whiht-1+bi)
ft=σ(wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+whoht-1+bo)
ct=ftct-1+ittanh(wxcxt+whcht-1+bc)
ht=ottanh(ct)
i,f,o分别代表输入门、遗忘门和输出门,它们控制LSTM中的信息流动;对于输入序列S,BiLSTM将正向和反向的隐层单元级联在一起后得到输出
Figure FDA0002503665370000011
Sh是ls×2u的输出矩阵;
步骤2:多语义嵌入层;
使用2层MLP自注意机制来学习输入句子的语义矩阵;将BiLSTM的整个隐藏层输出Sh或Th作为输入,计算它们的线性组合:
Figure FDA0002503665370000012
Es=WsSh
权重矩阵W1∈RS×2u,将输入映射到大小为s的隐藏层;W2是一个r×s的权重矩阵,r是语义嵌入个数;softmax将输出的r×l矩阵的每一行归一化,得到多语义嵌入权重矩阵Ws;Ws的每一行对应的是Sh的每个单元的权重,其与Sh的加权和就得到句子的一个语义向量;ES∈Rr ×2u是s的多语义嵌入矩阵,每一行代表了s的某个语义,且该语义仅由句子的部分单词、短语或长距离信息组成,自动具备了多粒度信息;汇总语义权重Ws并归一化,得到句子的总体语义向量:
Figure FDA0002503665370000021
Figure FDA0002503665370000022
Figure FDA0002503665370000023
总体语义向量汇总了各个分语义,体现了句子的整体关注点
步骤3:语义重要性计算层;
使用单个语义与总体语义的相似性作为语义重要性,使用两个向量的余弦值作为它们的相似度,经过softmax归一化后,得到ES中每个语义的重要性SI,句子T同理得到TI:
Figure FDA0002503665370000024
||.||表示L2范数;
Figure FDA0002503665370000025
表示ES的第i行,即第i个语义;
步骤4:语义对齐层;
使用多语义嵌入矩阵计算句子对真正的语义对齐;根据ES和Et得到语义相似度矩阵SS,SSij表示句子s的第i个语义
Figure FDA0002503665370000026
和句子T的第j个语义
Figure FDA0002503665370000031
的相似度,直接使用余弦相似度:
Figure FDA0002503665370000032
按照如下方式对M的每一行归一化:
Figure FDA0002503665370000033
语义相似度矩阵SSnorm的每一行元素都属于[0,1],可以被视为句子S的对齐权重;对SS的每一列做同样的处理,得到句子T的对齐权重;衡量句子S和T的相似度需要评估句子S的语义是否被T包含,反之亦然;为句子S的每个语义计算其在T中的加权对齐,句子T同理;使用语义加权和的方式计算ES的每个语义在Et中的对齐表示
Figure FDA0002503665370000034
Figure FDA0002503665370000035
为了衡量
Figure FDA0002503665370000036
Figure FDA0002503665370000037
的匹配程度,使用正交分解策略将原始语义向量
Figure FDA0002503665370000038
正交分解为平行于对齐向量
Figure FDA0002503665370000039
的相似部分
Figure FDA00025036653700000310
和垂直于
Figure FDA00025036653700000311
的不相似部分
Figure FDA00025036653700000312
进一步细化匹配程度:
Figure FDA00025036653700000313
平行分量(对齐分量),
Figure FDA00025036653700000314
垂直分量(对齐残差);将分解原始语义的模型称为MSEM-WI;MSEM-WI模型得到衡量对齐程度的平行分量矩阵
Figure FDA00025036653700000315
和垂直分量矩阵
Figure FDA00025036653700000316
MSEM-WI-Original得到特征esp=SI*Esp,eso=SI*Eso;句子T的类似特征;
步骤5:输出层;
利用S和T的总体语义向量,得到额外的语义相关性特征;使用两个总体语义向量的逐元素乘积
Figure FDA0002503665370000041
和逐元素差
Figure FDA0002503665370000042
作为总体语义特征;结合加权语义匹配向量和总体语义特征,MSEM-WI得到特征fo=[e×;e-;esp;etp;eso;eto],fo∈R12u
将相似度分数估计视为分类问题,使用2层的MLP计算:
pφ=softmax(M2ReLU(M1fo+b1)+b2)。
2.一种语句相似度判断系统,基于权利要求1所述的语句相似度判断方法,其特征在于,包括建模层、多语义嵌入层、语义重要性计算曾、语义对齐层和输出层。
CN202010439712.9A 2020-05-22 2020-05-22 一种语句相似度判断方法及判断系统 Active CN111652000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010439712.9A CN111652000B (zh) 2020-05-22 2020-05-22 一种语句相似度判断方法及判断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010439712.9A CN111652000B (zh) 2020-05-22 2020-05-22 一种语句相似度判断方法及判断系统

Publications (2)

Publication Number Publication Date
CN111652000A true CN111652000A (zh) 2020-09-11
CN111652000B CN111652000B (zh) 2023-04-07

Family

ID=72352615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010439712.9A Active CN111652000B (zh) 2020-05-22 2020-05-22 一种语句相似度判断方法及判断系统

Country Status (1)

Country Link
CN (1) CN111652000B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328748A (zh) * 2020-11-11 2021-02-05 上海昌投网络科技有限公司 一种用于保险配置意图识别的方法
CN112988992A (zh) * 2021-02-08 2021-06-18 北京嘀嘀无限科技发展有限公司 一种信息交互方法、装置及电子设备
CN113378970A (zh) * 2021-06-28 2021-09-10 平安普惠企业管理有限公司 语句相似性检测方法、装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016102153A1 (fr) * 2014-12-23 2016-06-30 Commissariat A L'energie Atomique Et Aux Energies Alternatives Representation semantique du contenu d'une image
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN108520298A (zh) * 2018-04-09 2018-09-11 中国民航大学 一种基于改进lstm-rnn的陆空通话语义一致性校验方法
CN109214001A (zh) * 2018-08-23 2019-01-15 桂林电子科技大学 一种中文语义匹配系统及方法
US20190034792A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic similarity for machine learned job posting result ranking model
US20190034793A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic clustering based retrieval for candidate set expansion
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN109753649A (zh) * 2018-12-03 2019-05-14 中国科学院计算技术研究所 基于细粒度匹配信号的文本相关性度量方法和系统
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN109918652A (zh) * 2019-02-20 2019-06-21 上海方立数码科技有限公司 一种语句相似度判断方法及判断系统
CN110210993A (zh) * 2019-05-22 2019-09-06 重庆大学 基于循环神经网络模型的城市短期燃气负荷预测方法
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016102153A1 (fr) * 2014-12-23 2016-06-30 Commissariat A L'energie Atomique Et Aux Energies Alternatives Representation semantique du contenu d'une image
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
US20190034792A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic similarity for machine learned job posting result ranking model
US20190034793A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic clustering based retrieval for candidate set expansion
WO2019023358A1 (en) * 2017-07-25 2019-01-31 Microsoft Technology Licensing, Llc SEMANTIC SIMILARITY FOR MODEL CLASSIFICATION OF RESULTS OF MACHINE LEARNING
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN108520298A (zh) * 2018-04-09 2018-09-11 中国民航大学 一种基于改进lstm-rnn的陆空通话语义一致性校验方法
CN109214001A (zh) * 2018-08-23 2019-01-15 桂林电子科技大学 一种中文语义匹配系统及方法
CN109753649A (zh) * 2018-12-03 2019-05-14 中国科学院计算技术研究所 基于细粒度匹配信号的文本相关性度量方法和系统
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN109918652A (zh) * 2019-02-20 2019-06-21 上海方立数码科技有限公司 一种语句相似度判断方法及判断系统
CN110210993A (zh) * 2019-05-22 2019-09-06 重庆大学 基于循环神经网络模型的城市短期燃气负荷预测方法
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
""多服务副本下的一种分布式负载均衡路径算法"" *
吴少洪;彭敦陆;苑威威;陈章;刘丛;: "MGSC:一种多粒度语义交叉的短文本语义匹配模型" *
郭浩;许伟;卢凯;唐球;: "基于CNN和BiLSTM的短文本相似度计算方法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328748A (zh) * 2020-11-11 2021-02-05 上海昌投网络科技有限公司 一种用于保险配置意图识别的方法
CN112988992A (zh) * 2021-02-08 2021-06-18 北京嘀嘀无限科技发展有限公司 一种信息交互方法、装置及电子设备
CN113378970A (zh) * 2021-06-28 2021-09-10 平安普惠企业管理有限公司 语句相似性检测方法、装置、电子设备及存储介质
CN113378970B (zh) * 2021-06-28 2023-08-22 山东浪潮成方数字服务有限公司 语句相似性检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111652000B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
JP7109557B2 (ja) 質問応答としてのマルチタスク学習
US10628731B1 (en) Deep convolutional neural networks for automated scoring of constructed responses
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111652000B (zh) 一种语句相似度判断方法及判断系统
US20190355270A1 (en) Multitask Learning As Question Answering
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
US11580975B2 (en) Systems and methods for response selection in multi-party conversations with dynamic topic tracking
Xiao et al. Behavioral coding of therapist language in addiction counseling using recurrent neural networks.
CN112926322A (zh) 融合自注意力机制和深度学习的文本分类方法及系统
CN111414749A (zh) 基于深度神经网络的社交文本依存句法分析系统
CN114595306B (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN115080715B (zh) 基于残差结构和双向融合注意力的跨度提取阅读理解方法
KR20230141683A (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN111259147A (zh) 基于自适应注意力机制的句子级情感预测方法及系统
CN114492451A (zh) 文本匹配方法、装置、电子设备及计算机可读存储介质
CN112906398A (zh) 句子语义匹配方法、系统、存储介质和电子设备
CN111723572A (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备
Serina et al. A Preliminary Study on BERT applied to Automated Planning.
Yousefzadeh Interpreting machine learning models and application of homotopy methods
Lv et al. Siamese multiplicative LSTM for semantic text similarity
CN117668213B (zh) 一种基于级联抽取和图对比模型的混沌工程摘要生成方法
US11790227B1 (en) Systems and methods for neural content scoring
US20240143940A1 (en) Architecture for generating qa pairs from contexts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant