CN110826338A - 一种单选择门与类间度量的细粒度语义相似识别的方法 - Google Patents

一种单选择门与类间度量的细粒度语义相似识别的方法 Download PDF

Info

Publication number
CN110826338A
CN110826338A CN201911032484.7A CN201911032484A CN110826338A CN 110826338 A CN110826338 A CN 110826338A CN 201911032484 A CN201911032484 A CN 201911032484A CN 110826338 A CN110826338 A CN 110826338A
Authority
CN
China
Prior art keywords
vector
matching
sentence
gate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911032484.7A
Other languages
English (en)
Other versions
CN110826338B (zh
Inventor
蔡晓东
蒋鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201911032484.7A priority Critical patent/CN110826338B/zh
Publication of CN110826338A publication Critical patent/CN110826338A/zh
Application granted granted Critical
Publication of CN110826338B publication Critical patent/CN110826338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种单选择门与类间度量的细粒度语义相似识别的方法,涉及自然语言处理技术领域,技术方案为,包括搭建单选择门与类间度量的细粒度语义相似识别网络,通过对语句对进行编码得到上下文向量,再有单选择门对上下文向量进行核心信息挑选,将挑选的语句对核心信息输入匹配层若进行核心内容的匹配,再将输出的向量经融合层变为一个固定长度的向量,通过函数得到语句对的相似度得分,同时计算输出语句对之间的类间损失,将原损失和类间损失进行加权融合,使得学习的特征类间间距更小。本发明的有益效果是:本方案对经LSTM网络向量化的句子对进行核心特征提取,可以除去具有相关性的冗余特征,学习到细粒度级别的区分性特征。

Description

一种单选择门与类间度量的细粒度语义相似识别的方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种单选择门与类间度量的细粒度语义相似识别的方法。
背景技术
在自然语言处理领域,语义相似度占据着重要的地位,它主要应用于社区问答系统、文本摘要评价、释义识别等方面。语义相似度识别主要分为无核心信息识别的语义相似度模型和有核心识别并匹配的语义相似度识别的模型。但随着注意力模型的出现,语义相似度识别的到了快速的发展。但目前主流的方法是基于注意力的语义相似度的算法。这种算法利用了深度学习技术,使得训练生成的语义相似度得分与语句对标签更加接近。这种模型的缺点是不能提取语句对的核心信息,并利用核心信息得到准确的语义相似度得分。
在传统的语义相似度计算方法中,利用了卷积神经网络将两个句子进行编码并提取特征,在句子特征层上应用余弦函数计算相似度得分。随着深度的发展,注意力机制被应用在神经网络中,使得捕捉核心特征的能力大大提升。利用注意力机制在句子特征层上采用注意池化,在汇集层上得到输入语料对间的相互依从关系,进而完成相似度计算。
由于输入网络中的语句对相关度较高,冗余特征较多,提出了一种基于选择门与类间度量的细粒度语义相似度识别模型,通过选择门对句子对上下文向量赋予不同的权重,可以去除具有相关性的冗余特征,学习到细粒度级别的区分性特征。于此同时还提出了一种基于原损失的融合损失方法,将原损失和句子对语义相关度损失进行加权融合,在网络训练的过程中使得学习的特征类间距离更小,最终本文方法能够有效的提高句子对相似度识别的准确率。
发明内容
针对上述技术问题,本发明提供一种单选择门与类间度量的细粒度语义相似识别的方法。
其技术方案为,包括:
S1、将获取的语料生成中文语句对;
S2、利用词向量模型将S1生成的中文语句对进行向量化,得到词向量;
S3、将S2得到的词向量输入LSTM网络中得到语句对的上下文向量;
S4、利用选择门选取语句对上下文向量中的核心信息;
S5、将S4获取的核心信息输入匹配层完成信息匹配,通过信息匹配获取匹配向量;
S6、将匹配向量输入另外一个LSTM网络中得到语句对匹配信息的向量,将匹配向量经融合层变为一个固定长度的向量,通过Softmax函数得到语句对的相似度得分;
S7、计算经LSTM网络输出所述语句对之间的类间损失,将原损失和类间损失进行加权融合,使得学习的特征类间间距更小。
优选为,所述步骤S2中,利用词向量模型将中文语句对进行向量化的具体为:构建词向量模型,所述词向量模型使用300维的GloVe初始化词向量,权重矩阵使用服从U(-0.01,0.01)的均匀分布随机初始化,偏移矩阵初始化为0;
将中文语句对经jieba分词后输入GloVe模型中,通过深度学习的方法不断改变网络的权重和偏置,得到每个词对应的向量;
优选为,此处可通过建立损失函数经反向求导,来改变权重和偏执,损失函数即为类间损失计算方法。
语句P表示为P=[p1,p2,...,pi,...,pn],
语句Q表示为Q=[q1,q2,...,qi,...,qm],
其中,n表示句子P的词语长度,m代语句Q的长度;
利用分布式词向量,将语句中的每个词映射为一个向量,
得到词表C∈R|V|×D
其中,|V|表示词表的大小,D为词向量的维度;
将单词pi和qi分别映射为词向量wpi和wqi
得到语句P的词向量矩阵
Figure BDA0002250550540000021
同理可得语句Q词向量矩阵
Figure BDA0002250550540000022
优选为,所述步骤S3中将S2得到的词向量输入LSTM网络中得到语句对的上下文向量的具体步骤为:
所述词向量矩阵Wp和Wq分别输入Bi-LSTM网络提取浅层语义;
为解决RNN网络梯度消失和爆炸问题,本方法采用LSTM网络,通过LSTM 网络捕获文本的长距离依赖关系;
具体为,LSTM由遗忘门、输入门、选择门和输出门四个相互交互的门单元组成,其计算表达式如下所示:
ft=σ(Wfwt+Ufht-1+bf);
it=σ(Wiwt+Uiht-1+bi);
ot=σ(Wowt+Uoht-1+bo);
Figure BDA0002250550540000031
Figure BDA0002250550540000032
ht=ottanh(ct);
其中:ft为遗忘门的输出;it为输入门的输出;ot为输出门的输出;Wf、Wi、 Wo、Wc、bf、bi、bo、bc为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量;
Figure BDA0002250550540000033
为新的记忆信息;ct为更新的LSTM网络单元的记忆内容;σ为sigmoid 函数;⊙为元素乘积;ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息。
优选为,所述S4中,利用选择门选取语句对上下文向量中的核心信息的具体步骤为:
通过LSTM网络处理,得到P语句上下文的隐向量表达式矩阵:
Figure BDA0002250550540000034
和Q语句的上下文向量表达式矩阵:
其中,
Figure BDA0002250550540000037
为前向LSTM网络的隐向量,
Figure BDA0002250550540000039
为反向LSTM网络的隐向量;
dp、dq分别为语句P和Q的隐向量维度;
采用在文本摘要领域广泛应用的选择门提取语句对的核心特征,首先利用语句P和Q的上下文隐向量构造其句向量,取语句P和Q的隐藏层hn为句向量 s,其计算表达式如下:
s=hn
将句向量和hi作为输入去计算向量sGatei,首次挑选出句子中的关键信息,其计算表达式如下:
sGatei=σ(Wshi+Uss+b);
其中,Ws和Us是权重矩阵,b是偏置向量,σ是sigmoid激活函数,
Figure BDA0002250550540000042
是元素之间的点乘;
其中,h′i为第i个语句的核心特征向量,i=1,2,…,L,L为文本中的语句数量。
优选为,所述S5将核心信息输入匹配层完成信息匹配的具体步骤为:
采用双向多视角匹配模型,将P或Q的每一个时间步与Q或P的所有时间步进行匹配;
首先定义一个多视角比较度量函数:
w=fw(v1,v2;w)∈Rl
其中,l是透视的数目,v1,v2∈Rd,w∈Rl×d是一个可训练的矩阵参数;每个分量wk∈w表示第k个视角的匹配值,它们通过两个加权矢量之间的余弦相似度进行计算:
z1=wk°v1
z2=wk°v2
Figure BDA0002250550540000043
其中,“°”是元素乘法:不用这个符号直接乘,wk是的第k行,wk控制第k个透视图,并为不同维度的空间分配不同的权重;
基于上面定义的公式Wk,采用全连接匹配、最大池化匹配、注意力匹配和最大注意力匹配四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
将上述四种匹配策略应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步的匹配向量:
Figure BDA0002250550540000044
优选为,所述S6将匹配向量输入另外一个LSTM中得到语句对匹配信息的向量,将匹配向量经融合层变为一个固定长度的向量,通过Softmax函数得到语句对的相似度得分,具体为:
将两个语句对序列得到的匹配向量分别通过Bi-LSTM网络,再将两个语句对序列输出的最后时间步长进行合并,得到固定长度的匹配向量,并送入两层前馈神经网络,在输出层中应用函数对整个通道的值进行归一化。最后,评估概率分布输出结果:
Pr=(y|P,Q)。
优选为,所述S7中,将匹配向量输入另外一个LSTM中得到语句对匹配信息的向量进行类间损失计算具体为,将原损失和类间损失进行加权融合使得学习的特征类间间距更小;
类间损失的计算方法为:
Figure RE-GDA0002358489530000052
其中v1和v2分别表示P和Q语句。此处为将两个wk输入计算余弦值的公式表示。
本发明实施例提供的技术方案带来的有益效果是:本方案对经LSTM网络向量化的句子对进行核心特征提取,可以除去具有相关性的冗余特征,学习到细粒度级别的区分性特征。且通过本方案,可将将原损失和类间损失进行加权融合,使得学习的特征类间间距更小。
附图说明
图1为本发明实施例的网络结构图一。
图2为本发明实施例的网络结构图二。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。
实施例1
参见图1与图2,本发明提供一种单选择门与类间度量的细粒度语义相似识别的方法,包括:
S1、将获取的语料生成中文语句对;
S2、利用词向量模型将S1生成的中文语句对进行向量化,得到词向量;
其中,利用词向量模型将中文语句对进行向量化的具体为:构建词向量模型,所述词向量模型使用300维的GloVe初始化词向量,权重矩阵使用服从 U(-0.01,0.01)的均匀分布随机初始化,偏移矩阵初始化为0;
将中文语句对经jieba分词后输入GloVe模型中,通过深度学习的方法不断改变网络的权重和偏置,得到每个词对应的向量;
优选为,此处可通过建立损失函数经反向求导,来改变权重和偏执,损失函数即为类间损失计算方法。
语句P表示为P=[p1,p2,...,pi,...,pn],
语句Q表示为Q=[q1,q2,...,qi,...,qm],
其中,n表示句子P的词语长度,m代语句Q的长度;
利用分布式词向量,将语句中的每个词映射为一个向量,
得到词表C∈R|V|×D
其中,|V|表示词表的大小,D为词向量的维度;
将单词pi和qi分别映射为词向量wpi和wqi
得到语句P的词向量矩阵
同理可得语句Q词向量矩阵
Figure BDA0002250550540000062
S3、将S2得到的词向量输入LSTM网络中得到语句对的上下文向量;
其中将S2得到的词向量输入LSTM网络中得到语句对的上下文向量的具体步骤为:
所述词向量矩阵Wp和Wq分别输入Bi-LSTM网络提取浅层语义;
为解决RNN网络梯度消失和爆炸问题,本方法采用LSTM网络,通过LSTM 网络捕获文本的长距离依赖关系;
具体为,LSTM由遗忘门、输入门、选择门和输出门四个相互交互的门单元组成,其计算表达式如下所示:
ft=σ(Wfwt+Ufht-1+bf);
it=σ(Wiwt+Uiht-1+bi);
ot=σ(Wowt+Uoht-1+bo);
Figure BDA0002250550540000063
Figure BDA0002250550540000071
ht=ottanh(ct);
其中:ft为遗忘门的输出;it为输入门的输出;ot为输出门的输出;Wf、Wi、 Wo、Wc、bf、bi、bo、bc为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量;
Figure BDA0002250550540000072
为新的记忆信息;ct为更新的LSTM网络单元的记忆内容;σ为sigmoid 函数;⊙为元素乘积;ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息。
S4、利用选择门选取语句对上下文向量中的核心信息;
其中,利用选择门选取语句对上下文向量中的核心信息的具体步骤为:
通过LSTM网络处理,得到P语句上下文的隐向量表达式矩阵:
Figure BDA0002250550540000073
和Q语句的上下文向量表达式矩阵:
Figure BDA0002250550540000074
其中,
Figure BDA0002250550540000075
Figure BDA0002250550540000076
为前向LSTM网络的隐向量,
Figure BDA0002250550540000078
Figure BDA0002250550540000079
为反向LSTM网络的隐向量;
Figure BDA00022505505400000710
dp、dq分别为语句P和Q的隐向量维度;
采用在文本摘要领域广泛应用的选择门提取语句对的核心特征,首先利用语句P和Q的上下文隐向量构造其句向量,取语句P和Q的隐藏层hn为句向量 s,其计算表达式如下:
s=hn
将句向量和hi作为输入去计算向量sGatei,首次挑选出句子中的关键信息,其计算表达式如下:
sGatei=σ(Wshi+Uss+b);
Figure BDA00022505505400000711
其中,Ws和Us是权重矩阵,b是偏置向量,σ是sigmoid激活函数,
Figure BDA00022505505400000712
是元素之间的点乘;
其中,h′i为第i个语句的核心特征向量,i=1,2,…,L,L为文本中的语句数量。
S5、将S4获取的核心信息输入匹配层完成信息匹配,通过信息匹配获取匹配向量;具体为,
采用双向多视角匹配模型,将P或Q的每一个时间步与Q或P的所有时间步进行匹配;
首先定义一个多视角比较度量函数:
w=fw(v1,v2;w)∈Rl
其中,l是透视的数目,v1,v2∈Rd,w∈Rl×d是一个可训练的矩阵参数;每个分量wk∈w表示第k个视角的匹配值,它们通过两个加权矢量之间的余弦相似度进行计算:
z1=wk°v1
z2=wk°v2
Figure BDA0002250550540000081
其中,“°”是元素乘法:不用这个符号直接乘,wk是的第k行,wk控制第k个透视图,并为不同维度的空间分配不同的权重;
基于上面定义的公式Wk,采用全连接匹配、最大池化匹配、注意力匹配和最大注意力匹配四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
将上述四种匹配策略应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步的匹配向量:
Figure BDA0002250550540000082
S6、将匹配向量输入另外一个LSTM网络中得到语句对匹配信息的向量,将匹配向量经融合层变为一个固定长度的向量,通过Softmax函数得到语句对的相似度得分;具体为,
将两个语句对序列得到的匹配向量分别通过Bi-LSTM网络,再将两个语句对序列输出的最后时间步长进行合并,得到固定长度的匹配向量,并送入两层前馈神经网络,在输出层中应用函数对整个通道的值进行归一化。最后,评估概率分布输出结果:
Pr=(y|P,Q)。
S7、计算经LSTM网络输出所述语句对之间的类间损失,将原损失和类间损失进行加权融合,使得学习的特征类间间距更小。
其中,将匹配向量输入另外一个LSTM中得到语句对匹配信息的向量进行类间损失计算具体为,将原损失和类间损失进行加权融合使得学习的特征类间间距更小;
类间损失的计算方法为:
Figure BDA0002250550540000091
Figure RE-GDA0002358489530000092
其中v1和v2分别表示P和Q语句。此处为将两个wk输入计算余弦值的公式表示。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,包括:
S1、将获取的语料生成中文语句对;
S2、利用词向量模型将S1生成的中文语句对进行向量化,得到词向量;
S3、将S2得到的词向量输入LSTM网络中得到语句对的上下文向量;
S4、利用选择门选取语句对上下文向量中的核心信息;
S5、将S4获取的核心信息输入匹配层完成信息匹配,通过信息匹配获取匹配向量;
S6、将匹配向量输入另外一个LSTM网络中得到语句对匹配信息的向量,将匹配向量经融合层变为一个固定长度的向量,通过Softmax函数得到语句对的相似度得分;
S7、计算经LSTM网络输出所述语句对之间的类间损失,将原损失和类间损失进行加权融合,使得学习的特征类间间距更小。
2.根据权利要求1所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述步骤S2中,利用词向量模型将中文语句对进行向量化的具体为:构建词向量模型,所述词向量模型使用300维的GloVe初始化词向量,权重矩阵使用服从U(-0.01,0.01)的均匀分布随机初始化,偏移矩阵初始化为0;
将中文语句对经jieba分词后输入GloVe模型中,通过深度学习的方法不断改变网络的权重和偏置,得到每个词对应的向量;
语句P表示为P=[p1,p2,...,pi,...,pn],
语句Q表示为Q=[q1,q2,...,qi,...,qm],
其中,n表示句子P的词语长度,m代语句Q的长度;
利用分布式词向量,将语句中的每个词映射为一个向量,
得到词表C∈R|V|×D
其中,|V|表示词表的大小,D为词向量的维度;
将单词pi和qi分别映射为词向量wpi和wqi
得到语句P的词向量矩阵
Figure FDA0002250550530000011
同理可得语句Q词向量矩阵
Figure FDA0002250550530000012
3.根据权利要求2所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述步骤S3中将S2得到的词向量输入LSTM网络中得到语句对的上下文向量的具体步骤为:
所述词向量矩阵Wp和Wq分别输入Bi-LSTM网络提取浅层语义;
为解决RNN网络梯度消失和爆炸问题,采用LSTM网络,通过LSTM网络捕获文本的长距离依赖关系;
具体为,LSTM由遗忘门、输入门、选择门和输出门四个相互交互的门单元组成,其计算表达式如下所示:
ft=σ(Wfwt+Ufht-1+bf);
it=σ(Wiwt+Uiht-1+bi);
ot=σ(Wowt+Uoht-1+bo);
Figure FDA0002250550530000021
Figure FDA0002250550530000022
ht=ottanh(ct);
其中:ft为遗忘门的输出;it为输入门的输出;ot为输出门的输出;Wf、Wi、Wo、Wc、bf、bi、bo、bc为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量;
Figure FDA0002250550530000023
为新的记忆信息;ct为更新的LSTM网络单元的记忆内容;σ为sigmoid函数;⊙为元素乘积;ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息。
4.根据权利要求2所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述S4中,利用选择门选取语句对上下文向量中的核心信息的具体步骤为:
通过LSTM网络处理,得到P语句上下文的隐向量表达式矩阵:
Figure FDA0002250550530000024
和Q语句的上下文向量表达式矩阵:
Figure FDA0002250550530000025
其中,
Figure FDA0002250550530000026
Figure FDA0002250550530000027
Figure FDA0002250550530000028
为前向LSTM网络的隐向量,
Figure FDA0002250550530000029
Figure FDA00022505505300000210
为反向LSTM网络的隐向量;
Figure FDA0002250550530000031
dp、dq分别为语句P和Q的隐向量维度;
采用在文本摘要领域广泛应用的选择门提取语句对的核心特征,首先利用语句P和Q的上下文隐向量构造其句向量,取语句P和Q的隐藏层hn为句向量s,其计算表达式如下:
s=hn
将句向量和hi作为输入去计算向量sGatei,首次挑选出句子中的关键信息,其计算表达式如下:
sGatei=σ(Wshi+Uss+b);
其中,Ws和Us是权重矩阵,b是偏置向量,σ是sigmoid激活函数,
Figure FDA0002250550530000033
是元素之间的点乘;
其中,h′i为第i个语句的核心特征向量,i=1,2,…,L,L为文本中的语句数量。
5.根据权利要求2所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述S5将核心信息输入匹配层完成信息匹配的具体步骤为:
采用双向多视角匹配模型,将P或Q的每一个时间步与Q或P的所有时间步进行匹配;
首先定义一个多视角比较度量函数:
w=fw(v1,v2;w)∈Rl
其中,l是透视的数目,v1,v2∈Rd,w∈Rl×d是一个可训练的矩阵参数;每个分量wk∈w表示第k个视角的匹配值,它们通过两个加权矢量之间的余弦相似度进行计算:
z1=wk°v1
z2=wk°v2
其中,wk是的第k行,wk控制第k个透视图,并为不同维度的空间分配不同的权重;
基于上面定义的公式Wk,采用全连接匹配、最大池化匹配、注意力匹配和最大注意力匹配四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
将上述四种匹配策略应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步的匹配向量:
Figure FDA0002250550530000041
6.根据权利要求1-5所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述S6将匹配向量输入另外一个LSTM中得到语句对匹配信息的向量,将匹配向量经融合层变为一个固定长度的向量,通过Softmax函数得到语句对的相似度得分,具体为:
将两个语句对序列得到的匹配向量分别通过Bi-LSTM网络,再将两个语句对序列输出的最后时间步长进行合并,得到固定长度的匹配向量,并送入两层前馈神经网络,在输出层中应用函数对整个通道的值进行归一化。最后,评估概率分布输出结果:
Pr=(y|P,Q)。
7.根据权利要求1-6所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述S7中,将匹配向量输入另外一个LSTM中得到语句对匹配信息的向量进行类间损失计算具体为,将原损失和类间损失进行加权融合使得学习的特征类间间距更小;
类间损失的计算方法为:
Figure RE-FDA0002358489520000042
Figure RE-FDA0002358489520000043
其中v1和v2分别表示P和Q语句。
CN201911032484.7A 2019-10-28 2019-10-28 一种单选择门与类间度量的细粒度语义相似识别的方法 Active CN110826338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911032484.7A CN110826338B (zh) 2019-10-28 2019-10-28 一种单选择门与类间度量的细粒度语义相似识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911032484.7A CN110826338B (zh) 2019-10-28 2019-10-28 一种单选择门与类间度量的细粒度语义相似识别的方法

Publications (2)

Publication Number Publication Date
CN110826338A true CN110826338A (zh) 2020-02-21
CN110826338B CN110826338B (zh) 2022-06-17

Family

ID=69551267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911032484.7A Active CN110826338B (zh) 2019-10-28 2019-10-28 一种单选择门与类间度量的细粒度语义相似识别的方法

Country Status (1)

Country Link
CN (1) CN110826338B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652000A (zh) * 2020-05-22 2020-09-11 重庆大学 一种语句相似度判断方法及判断系统
CN111930931A (zh) * 2020-07-20 2020-11-13 桂林电子科技大学 一种摘要评价方法及装置
CN112069810A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种文本填充方法及装置
CN112560502A (zh) * 2020-12-28 2021-03-26 桂林电子科技大学 一种语义相似度匹配方法、装置及存储介质
CN113901177A (zh) * 2021-10-27 2022-01-07 电子科技大学 一种基于多模态属性决策的代码搜索方法
CN115700416A (zh) * 2022-08-29 2023-02-07 桂林电子科技大学 一种汽车故障自动诊断方法、系统、设备及介质
CN115774993A (zh) * 2022-12-29 2023-03-10 广东南方网络信息科技有限公司 一种基于句法分析的条件类错误识别方法及装置
CN116245111A (zh) * 2023-02-15 2023-06-09 桂林电子科技大学 多方向多角度句子语义相似识别方法、装置及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB935019A (en) * 1959-05-08 1963-08-28 Philips Nv Improvements in or relating to computers
EP2919165A2 (en) * 2014-03-14 2015-09-16 Xiaomi Inc. Method and device for clustering
CN105069874A (zh) * 2015-07-28 2015-11-18 北京航空航天大学 一种移动互联网声纹门禁系统及其实现方法
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN109214001A (zh) * 2018-08-23 2019-01-15 桂林电子科技大学 一种中文语义匹配系统及方法
CA2997797A1 (en) * 2017-09-11 2019-03-11 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN109726281A (zh) * 2018-12-12 2019-05-07 Tcl集团股份有限公司 一种文本摘要生成方法、智能终端及存储介质
CN109753649A (zh) * 2018-12-03 2019-05-14 中国科学院计算技术研究所 基于细粒度匹配信号的文本相关性度量方法和系统
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB935019A (en) * 1959-05-08 1963-08-28 Philips Nv Improvements in or relating to computers
EP2919165A2 (en) * 2014-03-14 2015-09-16 Xiaomi Inc. Method and device for clustering
CN105069874A (zh) * 2015-07-28 2015-11-18 北京航空航天大学 一种移动互联网声纹门禁系统及其实现方法
CA2997797A1 (en) * 2017-09-11 2019-03-11 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN109214001A (zh) * 2018-08-23 2019-01-15 桂林电子科技大学 一种中文语义匹配系统及方法
CN109753649A (zh) * 2018-12-03 2019-05-14 中国科学院计算技术研究所 基于细粒度匹配信号的文本相关性度量方法和系统
CN109726281A (zh) * 2018-12-12 2019-05-07 Tcl集团股份有限公司 一种文本摘要生成方法、智能终端及存储介质
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN YEN-CHUN 等: "Fast abstractive summarization with reinforce-selected sentence rewriting", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1805.11080》 *
KIM NAMWON 等: "FAMOUS: Fake news detection model based on unified key sentence information", 《2018 IEEE 9TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND SERVICE SCIENCE (ICSESS)》 *
WANG YULONG 等: "Interpret neural networks by identifying critical data routing paths", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
陈伟: "机器人穿越行为中基于深度卷积神经网络的门识别方法及应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
陈涛: "基于分布式表示学习的文本情感分析", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652000A (zh) * 2020-05-22 2020-09-11 重庆大学 一种语句相似度判断方法及判断系统
CN111652000B (zh) * 2020-05-22 2023-04-07 重庆大学 一种语句相似度判断方法及判断系统
CN111930931A (zh) * 2020-07-20 2020-11-13 桂林电子科技大学 一种摘要评价方法及装置
CN111930931B (zh) * 2020-07-20 2024-05-24 桂林电子科技大学 一种摘要评价方法及装置
CN112069810A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种文本填充方法及装置
CN112560502A (zh) * 2020-12-28 2021-03-26 桂林电子科技大学 一种语义相似度匹配方法、装置及存储介质
CN112560502B (zh) * 2020-12-28 2022-05-13 桂林电子科技大学 一种语义相似度匹配方法、装置及存储介质
CN113901177B (zh) * 2021-10-27 2023-08-08 电子科技大学 一种基于多模态属性决策的代码搜索方法
CN113901177A (zh) * 2021-10-27 2022-01-07 电子科技大学 一种基于多模态属性决策的代码搜索方法
CN115700416A (zh) * 2022-08-29 2023-02-07 桂林电子科技大学 一种汽车故障自动诊断方法、系统、设备及介质
CN115774993B (zh) * 2022-12-29 2023-09-08 广东南方网络信息科技有限公司 一种基于句法分析的条件类错误识别方法及装置
CN115774993A (zh) * 2022-12-29 2023-03-10 广东南方网络信息科技有限公司 一种基于句法分析的条件类错误识别方法及装置
CN116245111A (zh) * 2023-02-15 2023-06-09 桂林电子科技大学 多方向多角度句子语义相似识别方法、装置及存储介质
CN116245111B (zh) * 2023-02-15 2023-09-15 桂林电子科技大学 多方向多角度句子语义相似识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN110826338B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN110222163B (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN106650813A (zh) 一种基于深度残差网络和lstm的图像理解方法
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN109284406A (zh) 基于差异循环神经网络的意图识别方法
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN113312483A (zh) 一种基于自注意力机制和BiGRU的文本分类方法
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN108875034A (zh) 一种基于层次化长短期记忆网络的中文文本分类方法
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法
CN114781380A (zh) 一种融合多粒度信息的中文命名实体识别方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant