CN111652000B - 一种语句相似度判断方法及判断系统 - Google Patents
一种语句相似度判断方法及判断系统 Download PDFInfo
- Publication number
- CN111652000B CN111652000B CN202010439712.9A CN202010439712A CN111652000B CN 111652000 B CN111652000 B CN 111652000B CN 202010439712 A CN202010439712 A CN 202010439712A CN 111652000 B CN111652000 B CN 111652000B
- Authority
- CN
- China
- Prior art keywords
- semantic
- sentence
- matrix
- layer
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 28
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 230000036961 partial effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 10
- 235000019580 granularity Nutrition 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000004569 spin polarized scanning tunneling microscopy Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语句相似度判断方法及判断系统,涉及自然语言语义相似度计算技术领域,通过在建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层上进行改进;利用多语义矩阵计算多粒度级别的相似性矩阵,并根据该矩阵发现两个句子真正的语义对齐。考虑到不同的语义有不同的重要性,我们提出了语义重要性计算。提出的模型不需要稀疏特征以及WordNet等外部资源,在较短的时间内成功训练并在相似度计算任务上取得了有竞争力的结果。可视化分析表明了模型的良好性能及可解释性。
Description
技术领域
本发明涉及自然语言语义相似度计算技术领域,更具体地说,它涉及一种语句相似度判断方法及判断系统。
背景技术
生活中的许多场景需要比较文本的相似性,比如论文剽窃检测、对话系统和信息检索等领域。因此如何快速、形象的检测句子予以相似度是一项基本且非常重要的任务。
句子对的语义匹配(SPSM)是NLP中最基本的问题,比如文本相似度检测、自然语言推理、释义识别、答案选择等。随着神经网络在NLP等领域的复兴,研究者开始致力于使用神经网络解决SPSM任务。卷积神经网络(CNN)和循环神经网络(RNN)已经被熟练地应用在了SPSM任务。以往的很多工作是基于句子编码或单词粒度的交互来处理语义匹配问题。
基于句子编码的方法将两个句子分别表示成一个单一的分布式句子嵌入,然后再根据句子向量来计算句子对的相似度。该方式缺少句子对交互,并且单一句子向量可能无法完全涵盖句子的所有语义信息。为了增加句子对的交互性,研究者使用单词粒度的相似度矩阵获取细粒度语义信息并提高模型性能。仅仅基于细粒度的单词交互有可能丢失粗粒度信息,例如短语信息或者句子的长期依赖信息。Yin and Schütze、Yin et al、Tien etal等人利用CNN学习到的单词、短语和n元信息学习多种粒度级别的交互信息。单词粒度和多粒度交互都是人为规定交互的粒度大小,这有可能导致模型无法学习到真正的不同粒度交互信息。
目前的优秀模型大多均基于神经网络。CNN和RNN模型通常也采用基于句子编码和句子交互的策略。CNN擅长提取输入的抽象特征,合并重要的上下文并以分层的方式对句子对建模。Yin and Schütze使用CNN计算包括单词粒度、短语粒度以及句子粒度的多粒度交互矩阵。其第一次采取了多粒度交互特征,因此性能显著提升。Hua and Lin用成对单词粒度的交互矩阵和19层的CNN来计算文本相似度。Yao et al利用多层的卷积、池化操作,在输出中执行k最大池化得到句子向量并进行比较。类似的还有Hua He et al、Santos et al)、Yin et al、Wang et al、Tien et al等人的工作。
RNN比CNN更擅长处理序列信息。Mueller et al使用孪生LSTM的最后一个隐藏层作为句子表示并使用Manhattan距离衡量相似性,取得了非常不错的结果。孪生网络也是句子对语义匹配的常用策略。其将两个句子分别通过参数共享的神经网络,最终在相同的嵌入空间中得到各自的句子表示(Bowman et al;Tan et al;Neculoiu et al;Reimers etal),可以减少模型参数并实现句子对隐式交互。Shen et al结合经典的单词相似度矩阵和对齐表示,并使用内部加权对齐策略赋予每个单词相应的对齐权重。Wan et al、Santos etal、Zhang et al等均使用LSTM的输出单元计算句子对单词级别的相似度矩阵。
目前,预训练模型在各种NLP任务中占据了主导地位,其在大型数据上训练一个语言模型,然后在下游任务的特定数据上微调。BERT是现在最流行且效果最好的预训练模型,使用Transformer的编码器,以完形填空和下一个句子预测任务在Wikipedia和BooksCorpus数据集上训练真正的双向语言模型。Reimers et al的Sentence-BERT使用孪生BERT模型得到句子向量并计算余弦相似度作为句子对相似性。Zhang et al将PWIM模型的BiLSTM编码层替换为BERT,并在SICK数据集上得到了最先进的结果。BERT模型需要庞大的计算资源和内存,我们的目的是希望快速训练出有竞争力且可解释性强的模型,验证多语义嵌入矩阵和语义对齐的有效性,并且可以应用在任意的个人电脑上。
发明内容
本发明的上述技术目的是通过以下技术方案得以实现的:
一种语句相似度判断方法,包括以下步骤,
步骤1:上下文信息建模;
采用BiLSTM作为句子编码层;BiLSTM使用词嵌入作为输入,假定预训练的词嵌入的维度是d,输入的句子对S和T的长度分别为ls和lt,则S和T分别对应了一个输入矩阵S=[S1,S2,…,Sls],T=[T1,T2,…,Tlt],Si和Tj分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u,给定第t个时间步的词嵌入xt,上一个时间步的隐藏层输出ht-1以及细胞状态ct-1,LSTM按照如下方式得到第t个时间步的输出:
it=σ(wxixt+Whiht-1+bi)
ft=σ(wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+whoht-1+bo)
ct=ftct-1+ittanh(wxcxt+whcht-1+bc)
ht=ottanh(ct)
步骤2:多语义嵌入层;
使用2层MLP自注意机制来学习输入句子的语义矩阵;将BiLSTM的整个隐藏层输出Sh或Th作为输入,计算它们的线性组合:
Es=WsSh
权重矩阵W1∈RS×2u,将输入映射到大小为s的隐藏层;W2是一个r×s的权重矩阵,r是语义嵌入个数;soft max将输出的r×l矩阵的每一行归一化,得到多语义嵌入权重矩阵Ws;Ws的每一行对应的是Sh的每个单元的权重,其与Sh的加权和就得到句子的一个语义向量;ES∈Rr×2u是s的多语义嵌入矩阵,每一行代表了s的某个语义,且该语义仅由句子的部分单词、短语或长距离信息组成,自动具备了多粒度信息;汇总语义权重Ws并归一化,得到句子的总体语义向量:
步骤3:语义重要性计算层;
使用单个语义与总体语义的相似性作为语义重要性,使用两个向量的余弦值作为它们的相似度,经过soft max归一化后,得到ES中每个语义的重要性SI,句子T同理得到TI:
步骤4:语义对齐层;
按照如下方式对M的每一行归一化:
语义相似度矩阵SSnorm的每一行元素都属于[0,1],可以被视为句子S的对齐权重;对SS的每一列做同样的处理,得到句子T的对齐权重;衡量句子S和T的相似度需要评估句子S的语义是否被T包含,反之亦然;为句子S的每个语义计算其在T中的加权对齐,句子T同理;使用语义加权和的方式计算ES的每个语义在Et中的对齐表示
为了衡量和的匹配程度,使用正交分解策略将原始语义向量正交分解为平行于对齐向量的相似部分和垂直于的不相似部分进一步细化匹配程度:平行分量(对齐分量),垂直分量(对齐残差);将分解原始语义的模型称为MSEM-WI;MSEM-WI模型得到衡量对齐程度的平行分量矩阵和垂直分量矩阵MSEM-WI-Original得到特征esp=SI*Esp,eso=SI*Eso;句子T的类似特征;
步骤5:输出层;
利用S和T的总体语义向量,得到额外的语义相关性特征;使用两个总体语义向量的逐元素乘积和逐元素差作为总体语义特征;结合加权语义匹配向量和总体语义特征,MSEM-WI得到特征fo=[e×;e-;esp;etp;eso;eto],fo∈R12u;
将相似度分数估计视为分类问题,使用2层的MLP计算:
pφ=soft max(M2ReLU(M1fo+b1)+b2)。
一种语句相似度判断系统,基于上述的语句相似度判断方法,包括建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层。
综上所述,本发明具有以下有益效果:
利用多语义矩阵计算多粒度级别的相似性矩阵,并根据该矩阵发现两个句子真正的语义对齐。考虑到不同的语义有不同的重要性,我们提出了语义重要性计算。提出的模型不需要稀疏特征以及WordNet等外部资源,在较短的时间内成功训练并在相似度计算任务上取得了有竞争力的结果。可视化分析表明了模型的良好性能及可解释性。
附图说明
图1是本发明实施例的结构示意图;
图2是句子对语义热力图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
一种语句相似度判断方法,包括以下步骤,
步骤1:上下文信息建模;
采用BiLSTM作为句子编码层;BiLSTM使用词嵌入作为输入,假定预训练的词嵌入的维度是d,输入的句子对S和T的长度分别为ls和lt,则S和T分别对应了一个输入矩阵S=[S1,S2,…,Sls],T=[T1,T2,…,Tlt],Si和Tj分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u,给定第t个时间步的词嵌入xt,上一个时间步的隐藏层输出ht-1以及细胞状态ct-1,LSTM按照如下方式得到第t个时间步的输出:
it=σ(wxixt+Whiht-1+bi)
ft=σ(wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+whoht-1+bo)
ct=ftct-1+ittanh(wxcxt+whcht-1+bc)
ht=ottanh(ct)
步骤2:多语义嵌入层;
使用2层MLP自注意机制来学习输入句子的语义矩阵;将BiLSTM的整个隐藏层输出Sh或Th作为输入,计算它们的线性组合:
Es=WsSh
权重矩阵W1∈RS×2u,将输入映射到大小为s的隐藏层;W2是一个r×s的权重矩阵,r是语义嵌入个数;softmax将输出的r×l矩阵的每一行归一化,得到多语义嵌入权重矩阵Ws;Ws的每一行对应的是Sh的每个单元的权重,其与Sh的加权和就得到句子的一个语义向量;ES∈Rr×2u是s的多语义嵌入矩阵,每一行代表了s的某个语义,且该语义仅由句子的部分单词、短语或长距离信息组成,自动具备了多粒度信息;汇总语义权重Ws并归一化,得到句子的总体语义向量:
步骤3:语义重要性计算层;
使用单个语义与总体语义的相似性作为语义重要性,使用两个向量的余弦值作为它们的相似度,经过softmax归一化后,得到ES中每个语义的重要性SI,句子T同理得到TI:
步骤4:语义对齐层;
按照如下方式对M的每一行归一化:
语义相似度矩阵SSnorm的每一行元素都属于[0,1],可以被视为句子S的对齐权重;对SS的每一列做同样的处理,得到句子T的对齐权重;衡量句子S和T的相似度需要评估句子S的语义是否被T包含,反之亦然;为句子S的每个语义计算其在T中的加权对齐,句子T同理;使用语义加权和的方式计算ES的每个语义在Et中的对齐表示
为了衡量和的匹配程度,使用正交分解策略将原始语义向量正交分解为平行于对齐向量的相似部分和垂直于的不相似部分进一步细化匹配程度:平行分量(对齐分量),垂直分量(对齐残差);将分解原始语义的模型称为MSEM-WI;MSEM-WI模型得到衡量对齐程度的平行分量矩阵和垂直分量矩阵MSEM-WI-Original得到特征esp=SI*Esp,eso=SI*Eso;句子T的类似特征;
步骤5:输出层;
利用S和T的总体语义向量,得到额外的语义相关性特征;使用两个总体语义向量的逐元素乘积和逐元素差作为总体语义特征;结合加权语义匹配向量和总体语义特征,MSEM-WI得到特征fo=[e×;e-;esp;etp;eso;eto],fo∈R12u;
将相似度分数估计视为分类问题,使用2层的MLP计算:
pφ=soft max(M2ReLU(M1fo+b1)+b2)。
一种语句相似度判断系统,基于上述的语句相似度判断方法,包括建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层。
实验设置和实验结果:
我们在语义相似度任务上评估MSEM-WI模型的性能,使用Sentences InvolvingCompositional Knowledge(SICK)数据集,包括4500/500/4927个句子对用于训练/验证/测试。每个句子对都用一个[1,5]的相关性分数进行注释,分数越高,表明两个句子之间的关系越紧密。我们使用均方误差(MSE)作为评价指标。
实验设置:
我们使用300维的GloVe词向量(Pennington et al.,2014)并在训练过程中固定词向量,所有OOV(out of vocabulary)的单词均进行随机初始化。模型有许多超参数,经过实验验证,我们采用以下的超参数设置:LSTM隐层单元大小为100,自注意层和输出层的隐层单元均设置为50,L2正则化系数设置为0.0005,惩罚项P的惩罚系数为0.005,学习率0.001,batch size为25。考虑到SICK和MSRP数据集的句子都很短,我们设置语义个数r为5。使用Adam优化算法进行训练。
训练:
在SICK数据集中,我们将相似度分数估计视为回归问题,使用均方误差作为损失函数:
实验结果和分析:
表1
表1展示了我们模型的结果以及其他模型在SICK上的性能。MSEM-WI-Alignment在3个评价指标上均稍微超过MSEM-WI-Original,这与我们的预期是相符合的。表1中灰色的部分(2-6行)的性能弱于我们的模型。第一组的模型是基于传统的特征工程,依靠WordNet等外部资源,性能明显弱于当前的基于神经网络的模型。虽然我们的模型不是最优的,但是与最先进的模型相比,无论是在模型性能、训练时间还是模型复杂度上面,我们的模型都具有强大的竞争力。我们在具有8GB内存和Intel i5四核CPU的个人计算机进行训练,在15分钟的时间内便可成功训练我们的模型并得到具有竞争力的结果。MSEM-WI模型的结果和最佳结果之间的差距仅仅为0.0177()、0.0305()、0.0276(MSE)。PWIM(He and Lin,2016)利用19层的深度CNN来获取相似度信息,具有较高的复杂度以及较长的训练时间,而我们的模型结构简单并具有有竞争力的结果。MaLSTM(Mueller et al,,2016)模型采用了预训练的策略,并利用WordNet进行数据增强,MSEM-WI模型是端到端的,且无需任何外部资源以及预训练策略。M-MaxLSTM-CNN(Tien et al.,2019)采用多种词嵌入的结合作为输入并利用CNN和RNN处理,MSEM-WI仅仅采用单一的GloVe词向量。BERTBASE,JOINT+PWIM-BiLSTM(Zhanget al.,2019)得到最先进的结果。他们使用孪生BERT和PWIM(He and Lin,2016),基于预训练策略,模型复杂度高且训练时间长。MSEM-WI除了模型简单、易于训练且有强大的竞争力之外,其最大的优点是非常易于可视化,有较强的可解释性。
我们随机从SICK测试集中选择1个句子对作为可视化例子。图2的句子对有着相同的语义,相似度分数高达4.5,其预测结果为4.558,与真实标签非常接近。每个句子有3行热力图,前两行是根据语义重要性从中选择的前两个语义,第3行是总体语义热力图。可以发现单个语义能够学习到由细粒度或粗粒度信息组成的部分语义。除此之外,模型能够学习到相似的语义,图2中的句子对显示的是相似的重点语义,包括”pink shirt with whitewriting”和”lying”。可以看出MSEM-WI模型能够学习到句子对的相似语义或不相似部分,证明了模型的良好性能以及可解释性。
本申请提出了句子的多语义嵌入矩阵,能够表达句子的多种不同的语义。基于该语义矩阵,我们使用语义相似性矩阵计算两个句子的加权语义对齐。基于语义重要性和语义分解,我们能够得到语义相似特征,能被有效地用于语义相似性评估。实验及可视化分析证明了模型的良好性能以及可解释性。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
Claims (2)
1.一种语句相似度判断方法,其特征在于,包括以下步骤,
步骤1:上下文信息建模;
采用BiLSTM作为句子编码层;BiLSTM使用词嵌入作为输入,假定预训练的词嵌入的维度是d,输入的句子对S和T的长度分别为ls和lt,则S和T分别对应了一个输入矩阵S=[S1,S2,…,Sls],T=[T1,T2,…,Tlt],Si和Tj分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u,给定第t个时间步的词嵌入xt,上一个时间步的隐藏层输出ht-1以及细胞状态ct-1,LSTM按照如下方式得到第t个时间步的输出:
it=σ(wxixt+Whiht-1+bi)
ft=σ(wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+whoht-1+bo)
ct=ftct-1+ittanh(wxcxt+whcht-1+bc)
ht=ottanh(ct)
步骤2:多语义嵌入层;
使用2层MLP自注意机制来学习输入句子的语义矩阵;将BiLSTM的整个隐藏层输出Sh或Th作为输入,计算它们的线性组合:
Es=WsSh
权重矩阵W1∈RS×2u,将输入映射到大小为s的隐藏层;W2是一个r×s的权重矩阵,r是语义嵌入个数;softmax将输出的r×l矩阵的每一行归一化,得到多语义嵌入权重矩阵Ws;Ws的每一行对应的是Sh的每个单元的权重,其与Sh的加权和就得到句子的一个语义向量;ES∈Rr ×2u是s的多语义嵌入矩阵,每一行代表了s的某个语义,且该语义仅由句子的部分单词、短语或长距离信息组成,自动具备了多粒度信息;汇总语义权重Ws并归一化,得到句子的总体语义向量:
步骤3:语义重要性计算层;
使用单个语义与总体语义的相似性作为语义重要性,使用两个向量的余弦值作为它们的相似度,经过softmax归一化后,得到ES中每个语义的重要性SI,句子T同理得到TI:
步骤4:语义对齐层;
按照如下方式对M的每一行归一化:
语义相似度矩阵SSnorm的每一行元素都属于[0,1],可以被视为句子S的对齐权重;对SS的每一列做同样的处理,得到句子T的对齐权重;衡量句子S和T的相似度需要评估句子S的语义是否被T包含,反之亦然;为句子S的每个语义计算其在T中的加权对齐,句子T同理;使用语义加权和的方式计算ES的每个语义在Et中的对齐表示
为了衡量和的匹配程度,使用正交分解策略将原始语义向量正交分解为平行于对齐向量的相似部分和垂直于的不相似部分进一步细化匹配程度:平行分量(对齐分量),垂直分量(对齐残差);将分解原始语义的模型称为MSEM-WI;MSEM-WI模型得到衡量对齐程度的平行分量矩阵和垂直分量矩阵MSEM-WI-Original得到特征esp=SI*Esp,eso=SI*Eso;句子T的类似特征;
步骤5:输出层;
利用S和T的总体语义向量,得到额外的语义相关性特征;使用两个总体语义向量的逐元素乘积和逐元素差作为总体语义特征;结合加权语义匹配向量和总体语义特征,MSEM-WI得到特征fo=[e×;e-;esp;etp;eso;eto],fo∈R12u;
将相似度分数估计视为分类问题,使用2层的MLP计算:
pφ=softmax(M2ReLU(M1fo+b1)+b2)。
2.一种语句相似度判断系统,基于权利要求1所述的语句相似度判断方法,其特征在于,包括建模层、多语义嵌入层、语义重要性计算曾、语义对齐层和输出层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439712.9A CN111652000B (zh) | 2020-05-22 | 2020-05-22 | 一种语句相似度判断方法及判断系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439712.9A CN111652000B (zh) | 2020-05-22 | 2020-05-22 | 一种语句相似度判断方法及判断系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652000A CN111652000A (zh) | 2020-09-11 |
CN111652000B true CN111652000B (zh) | 2023-04-07 |
Family
ID=72352615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010439712.9A Active CN111652000B (zh) | 2020-05-22 | 2020-05-22 | 一种语句相似度判断方法及判断系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652000B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328748A (zh) * | 2020-11-11 | 2021-02-05 | 上海昌投网络科技有限公司 | 一种用于保险配置意图识别的方法 |
CN112988992B (zh) * | 2021-02-08 | 2022-04-08 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113378970B (zh) * | 2021-06-28 | 2023-08-22 | 山东浪潮成方数字服务有限公司 | 语句相似性检测方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016102153A1 (fr) * | 2014-12-23 | 2016-06-30 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Representation semantique du contenu d'une image |
CN107291699A (zh) * | 2017-07-04 | 2017-10-24 | 湖南星汉数智科技有限公司 | 一种句子语义相似度计算方法 |
CN108520298A (zh) * | 2018-04-09 | 2018-09-11 | 中国民航大学 | 一种基于改进lstm-rnn的陆空通话语义一致性校验方法 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配系统及方法 |
WO2019023358A1 (en) * | 2017-07-25 | 2019-01-31 | Microsoft Technology Licensing, Llc | SEMANTIC SIMILARITY FOR MODEL CLASSIFICATION OF RESULTS OF MACHINE LEARNING |
EP3454260A1 (en) * | 2017-09-11 | 2019-03-13 | Tata Consultancy Services Limited | Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof |
CN109753649A (zh) * | 2018-12-03 | 2019-05-14 | 中国科学院计算技术研究所 | 基于细粒度匹配信号的文本相关性度量方法和系统 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
CN110210993A (zh) * | 2019-05-22 | 2019-09-06 | 重庆大学 | 基于循环神经网络模型的城市短期燃气负荷预测方法 |
CN110321419A (zh) * | 2019-06-28 | 2019-10-11 | 神思电子技术股份有限公司 | 一种融合深度表示与交互模型的问答匹配方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733507B2 (en) * | 2017-07-25 | 2020-08-04 | Microsoft Technology Licensing, Llc | Semantic clustering based retrieval for candidate set expansion |
-
2020
- 2020-05-22 CN CN202010439712.9A patent/CN111652000B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016102153A1 (fr) * | 2014-12-23 | 2016-06-30 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Representation semantique du contenu d'une image |
CN107291699A (zh) * | 2017-07-04 | 2017-10-24 | 湖南星汉数智科技有限公司 | 一种句子语义相似度计算方法 |
WO2019023358A1 (en) * | 2017-07-25 | 2019-01-31 | Microsoft Technology Licensing, Llc | SEMANTIC SIMILARITY FOR MODEL CLASSIFICATION OF RESULTS OF MACHINE LEARNING |
EP3454260A1 (en) * | 2017-09-11 | 2019-03-13 | Tata Consultancy Services Limited | Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof |
CN108520298A (zh) * | 2018-04-09 | 2018-09-11 | 中国民航大学 | 一种基于改进lstm-rnn的陆空通话语义一致性校验方法 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配系统及方法 |
CN109753649A (zh) * | 2018-12-03 | 2019-05-14 | 中国科学院计算技术研究所 | 基于细粒度匹配信号的文本相关性度量方法和系统 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
CN110210993A (zh) * | 2019-05-22 | 2019-09-06 | 重庆大学 | 基于循环神经网络模型的城市短期燃气负荷预测方法 |
CN110321419A (zh) * | 2019-06-28 | 2019-10-11 | 神思电子技术股份有限公司 | 一种融合深度表示与交互模型的问答匹配方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
Non-Patent Citations (3)
Title |
---|
"多服务副本下的一种分布式负载均衡路径算法".《计算机工程应用》.2011,全文. * |
吴少洪 ; 彭敦陆 ; 苑威威 ; 陈章 ; 刘丛 ; .MGSC:一种多粒度语义交叉的短文本语义匹配模型.小型微型计算机系统.2019,(第06期),全文. * |
郭浩 ; 许伟 ; 卢凯 ; 唐球 ; .基于CNN和BiLSTM的短文本相似度计算方法.信息技术与网络安全.2019,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111652000A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652000B (zh) | 一种语句相似度判断方法及判断系统 | |
JP7285895B2 (ja) | 質問応答としてのマルチタスク学習 | |
CN110781680B (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
US20190355270A1 (en) | Multitask Learning As Question Answering | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
KR102688187B1 (ko) | 성어 괄호넣기문제의 답안 선택장치와 컴퓨터장비 | |
Ichida et al. | Measuring semantic similarity between sentences using a siamese neural network | |
KR102697095B1 (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
CN114595306B (zh) | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 | |
CN111914553A (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN111723572A (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
US20240143940A1 (en) | Architecture for generating qa pairs from contexts | |
CN114492451A (zh) | 文本匹配方法、装置、电子设备及计算机可读存储介质 | |
Wu et al. | MFD: Multi-Feature Detection of LLM-Generated Text | |
Serina et al. | A Preliminary Study on BERT applied to Automated Planning. | |
CN117764084A (zh) | 基于多头注意力机制与多模型融合的短文本情感分析方法 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
Divya et al. | Automation of Short Answer Grading Techniques: Comparative Study using Deep Learning Techniques | |
Luo | Automatic short answer grading using deep learning | |
Yousefzadeh | Interpreting machine learning models and application of homotopy methods | |
Zhang et al. | Neural Quality Estimation Based on Multiple Hypotheses Interaction and Self-Attention for Grammatical Error Correction | |
CN117668213B (zh) | 一种基于级联抽取和图对比模型的混沌工程摘要生成方法 | |
Seidakhmetov | Question type classification methods comparison | |
CN113361261B (zh) | 一种基于enhance matrix的法律案件候选段落的选取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |