CN110096711B - 序列全局关注和局部动态关注的自然语言语义匹配方法 - Google Patents

序列全局关注和局部动态关注的自然语言语义匹配方法 Download PDF

Info

Publication number
CN110096711B
CN110096711B CN201910391956.1A CN201910391956A CN110096711B CN 110096711 B CN110096711 B CN 110096711B CN 201910391956 A CN201910391956 A CN 201910391956A CN 110096711 B CN110096711 B CN 110096711B
Authority
CN
China
Prior art keywords
natural language
sentence
word
semantic
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910391956.1A
Other languages
English (en)
Other versions
CN110096711A (zh
Inventor
陈恩红
刘淇
张琨
吕广奕
吴乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910391956.1A priority Critical patent/CN110096711B/zh
Publication of CN110096711A publication Critical patent/CN110096711A/zh
Application granted granted Critical
Publication of CN110096711B publication Critical patent/CN110096711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种序列全局关注和局部动态关注的自然语言语义匹配方法,不仅通过堆叠门控循环神经网络和自注意力机制实现对句子语义的全局理解和表示;而且通过局部动态关注机制实现对句子重要信息的动态分析,得到句子语义的动态局部表示。利用对句子序列的全局关注和局部动态关注实现对句子语义的更为全面的理解,进而准确建模两个句子之间的语义交互,最终实现对句子语义匹配关系的准确判断,弥补了现有方法在注意力机制使用上存在的不足。

Description

序列全局关注和局部动态关注的自然语言语义匹配方法
技术领域
本发明涉及深度学习和自然语言理解技术领域,尤其涉及一种序列全局关注和局部动态关注的自然语言语义匹配方法。
背景技术
自然语言句子语义匹配(Sentence Semantic Matching)是自然语言处理领域的一个十分重要的组成部分,是评价句子语义表征是否准确的一种常用方法。其解决的主要问题是判断两个句子之间的语义关系。根据具体任务的不同,句子间的语义关系也有不同的定义。例如在自然语言推理(Natural Language Inference,NLI)中,句子语义匹配主要用于判断前提句(Premise Sentence)的语义是否蕴涵假设句(Hypothesis Sentence)的语义。在信息检索(Information Retrieval,IR)中,句子语义匹配主要用于判断两个句子的语义是否表达相同的含义。因此该任务要解决的一个首要问题是自然语言句子的语义表示。自然语言句子的语义表示是自然语言处理甚至人工智能领域一个基础但极其重要的研究内容,无论是基础的信息检索,语义抽取,还是复杂的问答系统,对话系统,都需要对输入句子的语义有一个全面准确的理解和表示,这样才能为机器理解人类复杂的语言系统提供坚实的基础。伴随着大规模标注数据的不断出现以及深度学习技术的不断发展,自然语言语义表示已经取得令人印象深刻的成绩,其中,模仿人类的注意力行为的注意力机制学习方法受到越来越多的关注。注意力机制可以忽略那些不相关的信息,有选择的挑选对句子语义表达十分重要的信息,从而更好地建模和表示自然语言语义。研究人员已经提出了各种不同的注意力机制,例如自注意力(Self-Attention),互注意力(Co-Attention),多头注意力(Multi-Head Attention)。这些注意力机制分别从不同的角度对句子语义进行建模,从而实现对句子语义更全面,更准确的理解和表示。因此,利用注意力机制对自然语言语义表示进行研究,并将其应用到自然语言语义表示模型中已经成为自然语言领域探索的一个十分重要的研究方向。
目前,利用注意力机制对自然语言语义表示的研究主要有以下内容:
通过模仿人类的注意力方式,研究人员提出了多种不同的注意力机制,并将其应用到自然语言语义的表示模型中。例如自注意力(Self-Attention),通过分析一个句子中的不同位置的元素对整体语义的影响程度,选取对语义表示更重要的内容,从而生成更好的语义表示;互注意力(Co-Attention)能够建模两个句子之间的语义交互,以一个更细粒度的方式分析两个句子之间的相似程度,从而更好地进行句子间语义匹配的建模分析;多头注意力(Multi-Head Attention)能够在不同的语义表示子空间对句子语义进行分析,从而以一个更全面的角度进行语义表示和语义匹配的建模分析。
上述利用注意力机制对自然语言语义表示的研究主要是在一次选择中选出所有重要的信息,忽略了两个重要的现象:1)句子中的重要部分可能会随着对句子语义的深入理解(或者周围情境的深入理解)而发生变化;2)句子中处在不同位置的相同词对句子语义的影响程度是不一样的,而这些相同词对应的局部结构有助于区分这种不同。这两个重要的现象说明了在对句子语义进行建模分析时不仅需要动态分析句子中的每个元素(词)对句子语义表示的影响程度;同时需要在对重要元素分析时考虑其对应的局部结构,更准确的理解每个元素(词)所表示的信息以及其对整体语义的影响,从而最终实现对句子语义的准确理解。
发明内容
本发明的目的是提供一种序列全局关注和局部动态关注的自然语言语义匹配方法,可以通过从全局角度对句子语义的整体把握,以及从局部角度对句子重要信息的动态分析和精确理解,从而实现对自然语言语义的准确理解以及自然语言语义匹配的准确判断。
本发明的目的是通过以下技术方案实现的:
一种序列全局关注和局部动态关注的自然语言语义匹配方法,包括:
对自然语言句子对中的每个单词进行语义建模,获得相应的语义表示向量;
对于每一自然语言句子,利用得到的每个单词的语义表示向量,通过堆叠门控循环神经网络实现句子中每个字的语义的全面分析,得到每个单词的句子级别的隐含语义表示,并结合自注意力进行全局关注,得到句子语义的全局表示向量;
结合自然语言句子对的句子语义的全局表示向量,通过局部动态关注机制选出每一自然语言句子需要关注的信息作为重要信息,并通过动态分析,得到每一自然语言句子的重要信息的隐含语义表示向量;
利用门控神经网络对自然语言句子对的重要信息的隐含语义表示向量进行融合,得到句子语义的动态局部融合表示向量;
融合自然语言句子对的句子语义的全局表示向量,并与句子语义的动态局部表示向量进行拼接后,通过分类操作,获得自然语言句子对中两个句子之间语义关系。
由上述本发明提供的技术方案可以看出,针对自然语言句子,通过从全局角度和动态局部角度对句子语义进行建模分析,从而实现对句子语义更全面的建模和表示,最终实现句子语义匹配的精确判断。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种序列全局关注和局部动态关注的自然语言语义匹配方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种序列全局关注和局部动态关注的自然语言语义匹配方法,如图1所示,其主要包括如下步骤:
步骤11、对自然语言句子对中的每个单词进行语义建模,获得相应的语义表示向量。
本步骤优选实施方式如下:
1)使用统一的数学形式表示自然语言句子对:自然语言句子对包括两个自然语言句子,一个自然语言句子记为
Figure BDA0002054358640000031
其表示其由la个单词组成的文本,另一个自然语言句子记为
Figure BDA0002054358640000032
其表示其由lb个单词组成的文本;其中,
Figure BDA0002054358640000033
对应的分别表示自然语言句子sa中的第i个单词、自然语言句子sb中的第j个单词。
2)自然语言句子对sa与sb中的所有单词构成一个词典V,其大小用lv表示;自然语言句子对sa和sb中的每一个单词都用一个独热向量(one-hotvector)表示,向量长度为词典V的大小,每个单词的独热向量中只有其在词典V中对应的索引位置为1,其他均为0;在此基础上,使用预训练好的词向量矩阵E得到每个单词的特征表示,也即预训练的词语义表示向量:
Figure BDA0002054358640000041
Figure BDA0002054358640000042
其中,
Figure BDA0002054358640000043
对应于自然语言句子sa中第i个单词、自然语言句子sb中第j个单词的预训练的语义表示;
3)假设自然语言句子对为英文文本,则将所有的英文字母组成一个字符集的词典Vc,其大小为26;单词中的每个字母都用一个独热向量(one-hotvector)表示,向量长度为词典Vc的大小,每个字母的独热向量中只有其在词典Vc中对应的索引位置为1,其他均为0;在此基础上,使用一维卷积分别处理单词的字母序列,可以使用不同的卷积核(unigram,bigram,trigram)对句子进行处理,然后使用最大池化操作(maxpooling),从而最后得到每个单词字符级别的语义表示向量:
Figure BDA0002054358640000044
Figure BDA0002054358640000045
Figure BDA0002054358640000046
Figure BDA0002054358640000047
其中,Ec表示需要训练的字符的向量表示矩阵,Conv1D表示一维卷积操作,Maxpooling表示最大池化操作,
Figure BDA0002054358640000048
对应的表示自然语言句子sa中第i个单词的第ic个字母的独热表示、自然语言句子sb中第j个单词的第jc个字母的独热表示;
4)为了更准确更全面的表示每个词,将预训练的词语义表示向量与相应的单词字符级别的语义表示拼接起来,然后使用两层的高速网络整合这些信息,从而最终得到自然语言句子中每个单词的语义表示向量:
Figure BDA0002054358640000049
Figure BDA00020543586400000410
其中,Highway(·)表示高速网络结构,ai、bj对应的表示自然语言句子sa中第i个单词的语义表示向量、自然语言句子sb中第j个单词的语义表示向量。
步骤12、对于每一自然语言句子,利用得到的每个单词的语义表示向量,通过堆叠门控循环神经网络实现句子中每个字的语义的全面分析,得到每个单词的句子级别的隐含语义表示,并结合自注意力进行全局关注,得到句子语义的全局表示向量。
人类可以利用丰富的先验知识直接在句子中选择重要的信息,但神经网络并不具有这样的能力,因此,模型首先要做的就是尽可能多的收集句子的信息,对输入句子有一个全面的理解。
为了实现该目标,在本发明实施例中,使用堆叠循环神经网络(Stack GatedRecurrent Network,Stack-GRU)对每一自然语言句子进行建模,得到每一自然语言句子中每个单词的隐含状态序列:采用门结构循环网络(GRU)作为基本单元,对于f时刻的输入xf,GRU的隐含状态hf更新方式为:
z=σ(xfUz+hf-1Wz)
r=σ(xfUr+hf-1Wr)
Figure BDA0002054358640000051
Figure BDA0002054358640000052
其中,z、r、cm分别是GRU的更新门、重置门、记忆单元;Uz与Wz为更新门的参数矩阵,Ur与Wr为重置门的参数矩阵,Uh与Wh为记忆单元的参数矩阵,
Figure BDA0002054358640000053
表示点乘;xf表示自然语言句子sa或sb中第f个单词的语义表示向量;σ表示Sigmoid激活操作;
在此基础上,实现对句子语义的重复阅读和理解,从而实现对句子语义更全面的理解。随着网络层数的加深,模型无法保留所有已学到的信息,同时还面临梯度消失或者爆炸(gradient vanish or explore)问题。为了避免以上问题,通过堆叠多层GRU,即stack-GRU,将每一层GRU的输入和隐层输出拼接到一起,作为下一层的输入:
Figure BDA0002054358640000054
其中,GRUl表示第l层的GRU,
Figure BDA0002054358640000055
表示第l-1层GRU的第f个隐层状态,
Figure BDA0002054358640000056
表示l-1层GRU的第f个输入,符号[,]表示拼接操作;通过这样的类残差结构,不仅可以利用全局的情境信息编码句子中的每个词,同时可以保留从最底层的词向量输入到最顶层的循环网络输出中的左右信息,并在一定程度上避免梯度消失或者爆炸的问题。
利用stack-GRU对自然语言句子对进行分析,得到每个自然语言句子中每个单词的隐含语义表示向量:
Figure BDA0002054358640000061
Figure BDA0002054358640000062
其中,
Figure BDA0002054358640000063
对应的表示自然语言句子sa中第i'个单词、自然语言句子sb中第j'个单词在句子级别的语义表示,
Figure BDA0002054358640000064
表示自然语言句子sa中从第1个短语级别的语义表示到第i'个短语级别的语义表示的集合,
Figure BDA0002054358640000065
表示自然语言句子sb中从第1个短语级别的语义表示到第j'个短语级别的语义表示的集合。
上一阶段得到的是每一自然语言句子中每个词的句子级别的隐含语义表示,而整个句子的语义表示可以认为是是这些单词的隐含语义表示的整合。但每个单词的隐含语义表示对整个句子的语义表示贡献是不同的,需要衡量每个词的隐含语义的重要程度。自注意力机制(Self-Attention)可以通过分析一个句子中的不同位置的元素对整体语义的影响程度,选取对语义表示更重要的内容,从而生成更好的语义表示。
本发明实施例中,使用自注意力机制计算每个单词的隐含语义表示向量的权值,并使用这些权值对所有单词的隐层状态表示做加权和,从而得到了句子语义的全局表示向量;对于自然语言句子sa,上述操作表示为:
Figure BDA0002054358640000066
αa=ωT tanh(WAa+b)
Figure BDA0002054358640000067
其中,ω,W为自注意力机制计算中的权值,b为自注意力机制计算中的偏置,都属于模型训练过程中的参数,αa表示对自然语言句子sa使用注意力机制之后得到的权值分布,ha表示自然语言句子sa的句子语义的全局表示向量;
同理,对自然语言句子sb使用相同的操作,得到自然语言句子sb的句子语义的全局表示向量hb
通过本步骤,不仅实现了对句子信息尽可能全面的收集,同时从全局的角度对句子语义进行建模,并得到句子语义的全局表示。
步骤13、结合自然语言句子对的句子语义的全局表示向量,通过局部动态关注机制选出每一自然语言句子需要关注的信息作为重要信息,并通过动态分析,得到每一自然语言句子的重要信息的隐含语义表示向量。
前文提到,在对自然语言句子语义进行理解与表示时,需要考虑两个重要的现象:1)句子中的重要部分可能会随着对句子语义的深入理解(或者周围情境的深入理解)而发生变化;2)句子中处在不同位置的相同词对句子语义的影响程度是不一样的,而这些相同词对应的局部结构有助于区分这种不同。
为了在分析句子语义时充分考虑这两种现象,本发明实施例提出了一种局部动态关注机制(Dynamic Local Attention),利用一个位置生成函数生成当前时刻需要关注的单词的位置,将需要关注的单词作为重要单词;然后,利用局部注意力机制建模分析重要单词以及对应的局部信息,从而得到当前时刻重要单词的局部信息表达向量,并通过GRU处理得到当前时刻重要单词的隐含语义表示向量;并且重复以上过程,直到达到最大的序列动态分析长度lT;由于该过程中GRU的输入是不确定的,需要根据之前所掌握的信息计算出当前的输入内容,同时还会考虑其对应的局部信息,因此该机制称之为局部动态关注机制(Dynamic Local Attention)。
以自然语言句子sa为例,上述过程可以形式化表示为:
Figure BDA0002054358640000071
Figure BDA0002054358640000072
Figure BDA0002054358640000073
Figure BDA0002054358640000074
其中,G表示位置生成函数,F表示局部注意力计算函数(函数相关细节会在后文介绍),
Figure BDA0002054358640000075
表示t-1时刻的重要单词的隐含语义表示向量,pt表示t时刻重要单词的位置,ct表示t时刻重要单词的局部信息表达向量;
最终,自然语言句子sa的重要信息的隐含语义表示向量记为
Figure BDA0002054358640000076
对于自然语言句子sb使用相同的操作,得到重要信息的隐含语义表示向量,记为
Figure BDA0002054358640000077
如之前所述,本步骤需要首先考虑的一个问题是如何根据已知信息选择出当前时刻对句子语义最重要的部分,考虑到人类在选择重要信息时也是以一种序列的方式进行处理,因此,本发明实施例首先利用位置生成函数G,根据已知信息生成t时刻重要单词的位置pt,其具体计算方式如下:
Figure BDA0002054358640000078
Figure BDA0002054358640000079
其中,
Figure BDA00020543586400000710
va,Ua表示位置生成函数G中的偏置,属于模型训练中的参数,T表示矩阵的转置操作,mt为一个中间量。
需要考虑的第二个问题就是如何确定关注的重要词的准确语义表示。因为自然语言句子中,处于不同位置的相同词对最终句子语义的影响程度是不同的,但直接考虑单个重要的词无法做出这种区分。因此本发明实施例通过考虑重要词周围的局部信息,利用局部信息区分这些相同词的不同语义表达,从而实现对这些重要词的精确理解和表示。具体而言,本发明实施例中,在得到重要单词的位置pt后,将相应位置为中心来计算一个高斯分布,并将该高斯分布乘以相应时刻对应的权重分布向量,从而获取到重要词的局部信息表达向量ct,ct的具体计算方式如下:
Figure BDA0002054358640000081
Figure BDA0002054358640000082
Figure BDA0002054358640000083
Figure BDA0002054358640000084
上式中,
Figure BDA0002054358640000085
为高斯分布的方差,D表示为预先设定的局部的窗口大小,sa为自然语言句子sa中每个单词的顺序位置表示;gt表示t时刻以pt为中心,
Figure BDA0002054358640000086
为方差的高斯分布;ωd,Wd,Ud,Md为局部注意力计算中的权值,属于模型训练中的参数,βt a表示t时刻每个单词的语义表示对最终句子的语义表示的权重分布向量,
Figure BDA0002054358640000087
分别表示经过高斯分布处理之后的权重分布向量
Figure BDA0002054358640000088
中的第i个、第k'个元素,
Figure BDA0002054358640000089
表示一个全为1的行向量。
步骤14、利用门控神经网络对自然语言句子对的重要信息的隐含语义表示向量进行融合,得到句子语义的动态局部融合表示向量。
本发明实施例,首先利用启发式的方法整合自然语言句子对的重要信息的隐含语义表示向量,再结合门控神经网络,得到句子语义的动态局部融合表示向量:
Figure BDA00020543586400000810
Figure BDA00020543586400000811
u=uT
其中,⊙表示点乘操作,-表示相减操作,ut表示GRU在t时刻的隐层状态,uT表示GRU在T时刻的隐层状态,同时也是最终的动态局部融合表示向量u。GRU的初始隐层状态为自然语言句子对的句子语义的全局表示向量的融合结果:u0=[ha,hb,ha⊙hb,hb-ha]。
步骤15、融合自然语言句子对的句子语义的全局表示向量,并与句子语义的动态局部表示向量进行拼接后,通过分类操作,获得自然语言句子对中两个句子之间语义关系。
本发明实施例中,在得到句子语义的动态局部融合表示向量之后,通过和自然语言句子对的句子语义的全局表示向量的融合结果进行拼接,然后将其通过一个多层感知机(MLP)求出在给定不同方面信息的条件下,两个句子之间的语义关系的概率,上述过程可以表示为:
P(y|(sa,sb))=MLP([u0,u])
其中,P(y|(sa,sb))表示自然语言句子对中两个句子之间语义关系的概率分布,MLP是一个三层结构,包含两层的全连接层和ReLu激活函数,以及一层softmax输出层。
本发明实施例提供的上述方法,不仅通过堆叠门控循环神经网络和自注意力机制实现对句子语义的全局理解和表示;而且通过局部动态关注机制实现对句子重要信息的动态分析,得到句子语义的动态局部表示。利用对句子序列的全局关注和局部动态关注实现对句子语义的更为全面的理解,进而准确建模两个句子之间的语义交互,最终实现对句子语义匹配关系的准确判断,弥补了现有方法在注意力机制使用上存在的不足。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,包括:
对自然语言句子对中的每个单词进行语义建模,获得相应的语义表示向量;
对于每一自然语言句子,利用得到的每个单词的语义表示向量,通过堆叠门控循环神经网络实现句子中每个字的语义的全面分析,得到每个单词的句子级别的隐含语义表示,并结合自注意力进行全局关注,得到句子语义的全局表示向量;
结合自然语言句子对的句子语义的全局表示向量,通过局部动态关注机制选出每一自然语言句子需要关注的信息作为重要信息,并通过动态分析,得到每一自然语言句子的重要信息的隐含语义表示向量;
利用门控神经网络对自然语言句子对的重要信息的隐含语义表示向量进行融合,得到句子语义的动态局部融合表示向量;
融合自然语言句子对的句子语义的全局表示向量,并与句子语义的动态局部表示向量进行拼接后,通过分类操作,获得自然语言句子对中两个句子之间语义关系。
2.根据权利要求1所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,所述对自然语言句子对中的每个单词进行语义建模,获得相应的语义表示向量包括:
所述的自然语言句子对包括两个自然语言句子,一个自然语言句子记为
Figure FDA0002054358630000011
其表示其由la个单词组成的文本,另一个自然语言句子记为
Figure FDA0002054358630000012
其表示其由lb个单词组成的文本;其中,
Figure FDA0002054358630000013
对应的分别表示自然语言句子sa中的第i个单词、自然语言句子sb中的第j个单词;
自然语言句子对sa与sb中的所有单词构成一个词典V,其大小用lv表示;自然语言句子对sa和sb中的每一个单词都用一个独热向量表示,向量长度为词典V的大小,每个单词的独热向量中只有其在词典V中对应的索引位置为1,其他均为0;在此基础上,使用预训练好的词向量矩阵E得到每个单词的特征表示,也即预训练的词语义表示向量:
Figure FDA0002054358630000014
Figure FDA0002054358630000015
其中,
Figure FDA0002054358630000016
对应于自然语言句子sa中第i个单词、自然语言句子sb中第j个单词的预训练的语义表示;
假设自然语言句子对为英文文本,则将所有的英文字母组成一个字符集的词典Vc,其大小为26;单词中的每个字母都用一个独热向量表示,向量长度为词典Vc的大小,每个字母的独热向量中只有其在词典Vc中对应的索引位置为1,其他均为0;在此基础上,使用一维卷积分别处理单词的字母序列,然后使用最大池化操作,从而最后得到每个单词字符级别的语义表示向量:
Figure FDA0002054358630000021
Figure FDA0002054358630000022
Figure FDA0002054358630000023
Figure FDA0002054358630000024
其中,Ec表示需要训练的字符的向量表示矩阵,Conv1D表示一维卷积操作,Maxpooling表示最大池化操作,
Figure FDA0002054358630000025
对应的表示自然语言句子sa中第i个单词的第ic个字母的独热表示、自然语言句子sb中第j个单词的第jc个字母的独热表示;
再将预训练的词语义表示向量与相应的单词字符级别的语义表示拼接起来,然后使用两层的高速网络整合这些信息,从而最终得到自然语言句子中每个单词的语义表示向量:
Figure FDA0002054358630000026
Figure FDA0002054358630000027
其中,Highway(·)表示高速网络结构,ai、bj对应的表示自然语言句子sa中第i个单词的语义表示向量、自然语言句子sb中第j个单词的语义表示向量。
3.根据权利要求2所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,所述对于每一自然语言句子,利用得到的每个单词的语义表示向量,通过堆叠门控循环神经网络实现句子中每个字的语义的全面分析,得到每个单词的句子级别的隐含语义表示,并结合自注意力进行全局关注,得到句子语义的全局表示向量包括:
使用堆叠循环神经网络对每一自然语言句子进行建模,得到每一自然语言句子中每个单词的隐含状态序列:采用门结构循环网络GRU作为基本单元,对于f时刻的输入xf,GRU的隐含状态hf更新方式为:
z=σ(xfUz+hf-1Wz)
r=σ(xfUr+hf-1Wr)
Figure FDA0002054358630000031
Figure FDA0002054358630000032
其中,z、r、cm分别是GRU的更新门、重置门、记忆单元;Uz与Wz为更新门的参数矩阵,Ur与Wr为重置门的参数矩阵,Uh与Wh为记忆单元的参数矩阵,
Figure FDA0002054358630000033
表示点乘;xf表示自然语言句子sa或sb中第f个单词的语义表示向量;σ表示Sigmoid激活操作;
在此基础上,通过堆叠多层GRU,即stack-GRU,将每一层GRU的输入和隐层输出拼接到一起,作为下一层的输入:
Figure FDA0002054358630000034
其中,GRUl表示第l层的GRU,
Figure FDA0002054358630000035
表示第l-1层GRU的第f个隐层状态,
Figure FDA0002054358630000036
表示l-1层GRU的第f个输入,符号[,]表示拼接操作;
利用stack-GRU对自然语言句子对进行分析,得到每个自然语言句子中每个单词的隐含语义表示向量:
Figure FDA0002054358630000037
Figure FDA0002054358630000038
其中,
Figure FDA0002054358630000039
对应的表示自然语言句子sa中第i'个单词、自然语言句子sb中第j'个单词在句子级别的语义表示,
Figure FDA00020543586300000310
表示自然语言句子sa中从第1个短语级别的语义表示到第i'个短语级别的语义表示的集合,
Figure FDA00020543586300000311
表示自然语言句子sb中从第1个短语级别的语义表示到第j'个短语级别的语义表示的集合;
使用自注意力机制计算每个单词的隐含语义表示向量的权值,并使用这些权值对所有单词的隐层状态表示做加权和,从而得到了句子语义的全局表示向量;对于自然语言句子sa,上述操作表示为:
Figure FDA00020543586300000312
αa=ωT tanh(WAa+b)
Figure FDA00020543586300000313
其中,ω,W为自注意力机制计算中的权值,b为自注意力机制计算中的偏置,都属于模型训练过程中的参数,αa表示对自然语言句子sa使用注意力机制之后得到的权值分布,ha表示自然语言句子sa的句子语义的全局表示向量;
同理,对自然语言句子sb使用相同的操作,得到自然语言句子sb的句子语义的全局表示向量hb
4.根据权利要求3所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,所述结合自然语言句子对的句子语义的全局表示向量,通过局部动态关注机制选出每一自然语言句子需要关注的信息作为重要信息,并通过动态分析,得到每一自然语言句子的重要信息的隐含语义表示向量包括:
利用一个位置生成函数生成当前时刻需要关注的单词的位置,将需要关注的单词作为重要单词;然后,利用局部注意力机制建模分析重要单词以及对应的局部信息,从而得到当前时刻重要单词的局部信息表达向量,并通过GRU处理得到当前时刻重要单词的隐含语义表示向量;并且重复以上过程,直到达到最大的序列动态分析长度lT
对于自然语言句子sa,得到每一时刻重要单词的隐含语义表示向量的过程形式化表示为:
Figure FDA0002054358630000041
Figure FDA0002054358630000042
Figure FDA0002054358630000043
Figure FDA0002054358630000044
其中,G表示位置生成函数,F表示局部注意力计算函数,
Figure FDA0002054358630000045
表示t-1时刻的重要单词的隐含语义表示向量,pt表示t时刻重要单词的位置,ct表示t时刻重要单词的局部信息表达向量;
最终,自然语言句子sa的重要信息的隐含语义表示向量记为
Figure FDA0002054358630000046
对于自然语言句子sb使用相同的操作,得到重要信息的隐含语义表示向量,记为
Figure FDA0002054358630000047
5.根据权利要求4所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,pt的具体计算方式如下:
pt是利用位置生成函数G,根据已知信息生成t时刻重要单词的位置,表示为:
Figure FDA0002054358630000048
Figure FDA0002054358630000049
其中,W1 a,
Figure FDA00020543586300000410
va,Ua表示位置生成函数G中的偏置,属于模型训练中的参数,T表示矩阵的转置操作,mt为一个中间量。
6.根据权利要求4所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,ct的具体计算方式如下:
在得到重要单词的位置pt后,将相应位置为中心来计算一个高斯分布,并将该高斯分布乘以相应时刻对应的权重分布向量,从而获取到重要词的局部信息表达向量:
Figure FDA0002054358630000051
Figure FDA0002054358630000052
Figure FDA0002054358630000053
Figure FDA0002054358630000054
上式中,
Figure FDA0002054358630000055
为高斯分布的方差,D表示为预先设定的局部的窗口大小,sa为自然语言句子sa中每个单词的顺序位置表示;gt表示t时刻以pt为中心,
Figure FDA0002054358630000056
为方差的高斯分布;ωd,Wd,Ud,Md为局部注意力计算中的权值,属于模型训练中的参数,
Figure FDA0002054358630000057
表示t时刻每个单词的语义表示对最终句子的语义表示的权重分布向量,
Figure FDA0002054358630000058
分别表示经过高斯分布处理之后的权重分布向量
Figure FDA0002054358630000059
中的第i个、第k'个元素,
Figure FDA00020543586300000510
表示一个全为1的行向量。
7.根据权利要求4所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,所述利用门控神经网络对自然语言句子对的重要信息的隐含语义表示向量进行融合,得到句子语义的动态局部融合表示向量,表示为:
Figure FDA00020543586300000511
Figure FDA00020543586300000512
u=uT
其中,⊙表示点乘操作,-表示相减操作,ut表示GRU在t时刻的隐层状态,uT表示GRU在T时刻的隐层状态,同时也是最终的动态局部融合表示向量u;GRU的初始隐层状态为自然语言句子对的句子语义的全局表示向量的融合结果:u0=[ha,hb,ha⊙hb,hb-ha]。
8.根据权利要求7所述的一种序列全局关注和局部动态关注的自然语言语义匹配方法,其特征在于,所述融合自然语言句子对的句子语义的全局表示向量,并与句子语义的动态局部表示向量进行拼接后,通过分类操作,获得自然语言句子对中两个句子之间语义关系,表示为:
P(y|(sa,sb))=MLP([u0,u])
其中,P(y|(sa,sb))表示自然语言句子对中两个句子之间语义关系的概率分布,MLP为多层感知机。
CN201910391956.1A 2019-05-09 2019-05-09 序列全局关注和局部动态关注的自然语言语义匹配方法 Active CN110096711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910391956.1A CN110096711B (zh) 2019-05-09 2019-05-09 序列全局关注和局部动态关注的自然语言语义匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910391956.1A CN110096711B (zh) 2019-05-09 2019-05-09 序列全局关注和局部动态关注的自然语言语义匹配方法

Publications (2)

Publication Number Publication Date
CN110096711A CN110096711A (zh) 2019-08-06
CN110096711B true CN110096711B (zh) 2022-10-28

Family

ID=67447740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910391956.1A Active CN110096711B (zh) 2019-05-09 2019-05-09 序列全局关注和局部动态关注的自然语言语义匹配方法

Country Status (1)

Country Link
CN (1) CN110096711B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765240B (zh) * 2019-10-31 2023-06-20 中国科学技术大学 多相关句子对的语义匹配评估方法
CN110825867B (zh) * 2019-11-01 2023-01-17 科大讯飞股份有限公司 相似文本推荐方法、装置、电子设备和存储介质
CN111274362B (zh) * 2020-02-01 2021-09-03 武汉大学 一种基于transformer架构的对话生成方法
CN111783446B (zh) * 2020-05-26 2022-07-19 华为技术有限公司 序列处理的方法与装置
CN111428525B (zh) * 2020-06-15 2020-09-15 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
CN112069813B (zh) * 2020-09-10 2023-10-13 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN112163429B (zh) * 2020-09-27 2023-08-29 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质
CN113326425B (zh) * 2021-04-20 2022-09-20 中国电子科技集团公司第五十四研究所 一种基于结构和语义注意力堆叠的会话推荐方法及系统
CN113177413A (zh) * 2021-04-22 2021-07-27 重庆兆光科技股份有限公司 一种基于句内注意力模型的lstm文本语义匹配方法及系统
CN113312459A (zh) * 2021-04-30 2021-08-27 天津大学 一种基于神经ode网络的问答匹配方法
CN115048935B (zh) * 2022-04-12 2024-05-14 北京理工大学 一种基于密度矩阵的语义匹配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017130089A1 (en) * 2016-01-26 2017-08-03 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109344404A (zh) * 2018-09-21 2019-02-15 中国科学技术大学 情境感知的双重注意力自然语言推理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017130089A1 (en) * 2016-01-26 2017-08-03 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109344404A (zh) * 2018-09-21 2019-02-15 中国科学技术大学 情境感知的双重注意力自然语言推理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合实体共现信息与句子语义特征的关系抽取方法;马语丹等;《中国科学:信息科学》;20181121(第11期);全文 *

Also Published As

Publication number Publication date
CN110096711A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN110096711B (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN110334354B (zh) 一种中文关系抽取方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
Li et al. A method of emotional analysis of movie based on convolution neural network and bi-directional LSTM RNN
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112818118B (zh) 基于反向翻译的中文幽默分类模型的构建方法
CN112364638A (zh) 一种基于社交文本的人格识别方法
Rendel et al. Using continuous lexical embeddings to improve symbolic-prosody prediction in a text-to-speech front-end
Tang et al. Modelling student behavior using granular large scale action data from a MOOC
CN109492223A (zh) 一种基于神经网络推理的中文缺失代词补全方法
CN112883714A (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN111753088A (zh) 一种自然语言信息的处理方法
CN109948163B (zh) 序列动态阅读的自然语言语义匹配方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Borade et al. Automated grading of essays: a review
Sharma et al. Feature enhanced capsule networks for robust automatic essay scoring
Göker et al. Neural text normalization for turkish social media
Lilja Automatic essay scoring of Swedish essays using neural networks
CN114970497B (zh) 基于预训练特征嵌入的文本分类方法及词义消歧方法
Luo Automatic short answer grading using deep learning
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Essatouti et al. Arabic sentiment analysis using a levenshtein distance based representation approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant