CN109614485B - 一种基于语法结构的分层Attention的句子匹配方法及装置 - Google Patents

一种基于语法结构的分层Attention的句子匹配方法及装置 Download PDF

Info

Publication number
CN109614485B
CN109614485B CN201811378130.3A CN201811378130A CN109614485B CN 109614485 B CN109614485 B CN 109614485B CN 201811378130 A CN201811378130 A CN 201811378130A CN 109614485 B CN109614485 B CN 109614485B
Authority
CN
China
Prior art keywords
sentences
sentence
attention
mapping
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811378130.3A
Other languages
English (en)
Other versions
CN109614485A (zh
Inventor
郑子彬
高勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811378130.3A priority Critical patent/CN109614485B/zh
Publication of CN109614485A publication Critical patent/CN109614485A/zh
Application granted granted Critical
Publication of CN109614485B publication Critical patent/CN109614485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语法结构的分层Attention的句子匹配方法,包括以下步骤:S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度。本发明结合实际句子语法结构的信息和注意力机制构造模型,提高模型适应性及性能。

Description

一种基于语法结构的分层Attention的句子匹配方法及装置
技术领域
本发明涉及相似问题文本匹配领域,更具体地,涉及一种一种基于语法结构的分层Attention的句子匹配方法及装置。
背景技术
基于互联网时代,信息量爆炸式的增长,接入互联网的用户突飞猛进。这对互联网企业应对消费者用户反馈投诉等文本信息处理,带来了巨大的工作量。由于消费者用户提交的反馈投诉文本都有特定的描述目的,问题。如果能够通过将消费者投诉反馈的文本描述信息,通过一定的算法对其进行归类匹配,通过解决一个问题,从而解决一系列问题;就能大大减少互联网企业的后续维护成本,从而提高效率,减少不必要的成本。为了解决上述描述的这个问题,可以定义问题为相似问题单匹配。即建立一个判断一组问题对是否为相同描述问题的模型,利用这个模型对未处理的问题,从已处理的问题单中,给出最相似的top推荐,减少维护成本,提高开发效率。
解决上述问题的核心模型就是,问题单匹配模型,Sentence Matching。
现有的Sentence Match模型,大多是以句子词向量序列,经过各种方案计算attention,attention机制:是一种注意力机制,显而易见,是将模型注意力偏向于更重要部分特征的方式,得到一个soft algin形式的向量,然后直接过MLP层进行预测,MLP(Multi-Layer Perceptron),即多层感知器;并没有很好的结合实际句子的语法结构去衡量,解释性不够好,且对于稍复杂的语法结构的句子匹配问题,仍存在较较大缺陷。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于语法结构的分层Attention的句子匹配方法及装置。
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是为了解决现有模型对于句子匹配问题的单一化,未结合实际句子语法结构的信息和注意力机制构造模型,提高模型适应性及性能。
为解决上述技术问题,本发明的技术方案如下:
一种基于语法结构的分层Attention的句子匹配方法,包括以下步骤:
S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;
S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;
S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度。
优选地,步骤S1中将两句子按语言语法结构拆分,利用JParser语义解析器进行拆分,JParser,分别拆分为两个不同的分解层次深度的句子结构,是一种抽象意义表示的语义解析器,多种数据集上acc,recall,precision,f1等衡量指标都较高。
优选地,步骤S2中进行词向量映射具体为:
将拆分后的句子结构序列,经一层或两层Bi-LSTM层映射为包含上下文信息的词向量。
优选地,步骤S2中计算attention相似度矩阵,利用词向量计算点积来计算attention相似度矩阵,计算点积结果小于阈值gate的矩阵以0表示,本步骤使用的是softattention的改进版本,称之为gate attention,即门限注意力。
优选地,步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为:
对齐的计算方式如下:
Figure BDA0001871282660000021
Figure BDA0001871282660000022
式中,αj、βi为对齐后的对齐向量,la、lb为分解层次深度中分解单词个数,eij为对应的两个词向量的相似度权重,
Figure BDA0001871282660000023
分别对应两句子中第j个分解单词的词向量,该公式为对权重进行归一化。
优选地,一种基于语法结构的分层Attention装置,包括:
分解模块,用于将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度;
计算相似度模块,用于进行词向量映射,并利用拆分后的句子结构计算attention相似度矩阵;
对齐拼接模块,用于对两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
预测模块,用于计算两个不同分解层次深度下拼接后结果的均值,分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,预测值即为两句子的匹配程度。
与现有技术相比,本发明技术方案的有益效果是:
结合描述文本句子的的语法结构信息,及词向量词序列Attention信息等综合考虑构建神经网络模型,判断问题单对是否为相似文本,结合实际句子语法结构的信息和注意力机制构造模型,提高模型适应性及性能。
附图说明
图1为本发明的一种基于语法结构的分层Attention的句子匹配方法流程图。
图2为本发明提供的一种soft attention的改进版本gate attention示意图。
图3为实施例中两句子分解层次深度示意图。
图4为实施例中两句子的相似度矩阵示意图。
图5为实施例中以level-1权重矩阵为例对齐的计算示意图。
图6为实施例中拼接并且预测步骤示意图。
图7为实施例中提供的一种基于语法结构的分层Attention的句子匹配系统示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供的一种基于语法结构的分层Attention的句子匹配方法,如图1,包括以下步骤:
一种基于语法结构的分层Attention的句子匹配方法,包括以下步骤:
S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;
S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;
S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度;
其中,步骤S1中将两句子按语言语法结构拆分,利用JParser语义解析器进行拆分,分别拆分为两个不同的分解层次深度的句子结构;
步骤S2中进行词向量映射具体为:
将拆分后的句子结构序列,经一层或两层Bi-LSTM层映射为包含上下文信息的词向量;
步骤S2中计算attention相似度矩阵,利用词向量计算点积来计算attention相似度矩阵,计算点积结果小于阈值gate的矩阵以0表示,本步骤使用的是soft attention的改进版本,称之为gate attention,即门限注意力,如图2所示;
步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为:
对齐的计算方式如下:
Figure BDA0001871282660000041
Figure BDA0001871282660000042
式中,αj、βi为对齐后的对齐向量,la、lb为分解层次深度中分解单词个数,eij为对应的两个词向量的相似度权重,
Figure BDA0001871282660000051
分别对应两句子中第j个分解单词的词向量,该公式为对权重进行归一化。
在具体实施过程中,如图3所示,两句子的分解层次深度,按照分解树的层次深度,分为level-1和level-2两层,映射词向量,计算相似度矩阵,如图4所示,图4的两个相似度矩阵,计算值相同,但是在不同分解层次上,不同的单词分块不一样,如The blue cat iscatching the brown mouse in the forecourt.在level-1下,被分解为了catching,catblue,mouse brown,forecourt四部分;在level-2下,被分解为了catching,cat,blue,mouse,brown,forecourt六部分。计算每个单词的align(对齐)结果。其中
Figure BDA0001871282660000052
表示原单词,与对齐后的单词拼接的结果。计算方式如下:
Figure BDA0001871282660000053
Figure BDA0001871282660000054
αj、βi为某一个对齐后的结果,将不同unit颜色块的对齐结果拼接起来,得到最终单词单元对齐的结果;然后再经过函数G映射为一个固定长度的向量。函数G表示一个前馈神经网络,用一个全连接层代替。横纵方框分别表示,AB两句话分解后的词语单元;然后,矩阵中的数值表示对应两个单词的相似度;由于两句话经过了语法树分解,分解成了几个单元,在矩阵中,就表示为各个块对应的单元块;如图5中方框1和方框2分别表示两个文本经过语法树分解后的对应单词之间的权重子矩阵;方框1中表示A句中的cat,blue与B句中的Jerry,little之间的权重矩阵;方框2中表示A句中mouse,brown与B句中chased的权重矩阵。对于上述公式,在对方框1进行注意力机制对齐计算时,对方框1中A句的cat或者blue分别计算B句中(0.17,Jerry词向量)和(0.09,little词向量)的加权和向量,称之为cat对应的对齐向量βi;其中,lb表示,方框1块中B句中单词个数,eij为对应的两个词向量的相似度权重,
Figure BDA0001871282660000055
表示方框1中对应第j个单词的词向量;
对于分解后的矩阵中各个子单元部分都进行上述计算处理;由于上述原理解释用到的是较为简单的句子,成分单一;故会有单独一个词对应一个词的情形,对于孤值矩阵就直接词向量对齐。另补充,由于上述计算演示,并未包含gate attention处理,对于经过gate attention处理后的权重矩阵,小于阈值gate的矩阵将以0表示。
对应分解层次的权重子单元进行上述对齐计算后,将每块得到的词向量拼接。促成一个高维的拼接词向量,然后进行后续处理。
如图6所示,Aggregate中,通过计算不同level下对齐后结果的均值,经过MLP映射为一个固定维度的向量,最后将两者凭借过一个MLP层映射为预测值,该预测值即为两句子匹配程度。
实施例2
本实施例公开了一种基于语法结构的分层Attention的句子匹配方法,如图7所示,包括分解模块,用于将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度;
计算相似度模块,用于进行词向量映射,并利用拆分后的句子结构计算attention相似度矩阵;
对齐拼接模块,用于对两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
预测模块,用于计算两个不同分解层次深度下拼接后结果的均值,分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,预测值即为两句子的匹配程度。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于语法结构的分层Attention的句子匹配方法,其特征在于,包括以下步骤:
S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;
S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;
S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度;
所述步骤S1中将两句子按语言语法结构拆分,利用JParser语义解析器进行拆分,分别拆分为两个不同的分解层次深度的句子结构;
所述步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为:
对齐的计算方式如下:
Figure FDA0004035170060000011
Figure FDA0004035170060000012
式中,αj、βi为对齐后的对齐向量,la、lb为分解层次深度中分解单词个数,eij为对应的两个词向量的相似度权重,
Figure FDA0004035170060000013
分别对应两句子中第j个分解单词的词向量,该公式为对权重进行归一化。
2.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法,其特征在于,所述步骤S2中进行词向量映射具体为:
将拆分后的句子结构序列,经一层或两层Bi-LSTM层映射为包含上下文信息的词向量。
3.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法,其特征在于,所述步骤S2中计算attention相似度矩阵,利用词向量计算点积来计算attention相似度矩阵,计算点积结果小于阈值gate的矩阵以0表示。
4.一种基于语法结构的分层Attention装置,其特征在于,包括:
分解模块,用于将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度;
计算相似度模块,用于进行词向量映射,并利用拆分后的句子结构计算attention相似度矩阵;
对齐拼接模块,用于对两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
预测模块,用于计算两个不同分解层次深度下拼接后结果的均值,分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度;
所述分解模块中将两句子按语言语法结构拆分,利用JParser语义解析器进行拆分,分别拆分为两个不同的分解层次深度的句子结构;
所述对齐拼接模块中对不同分解层次深度的句子结构进行门限注意力对齐具体为:
对齐的计算方式如下:
Figure FDA0004035170060000021
Figure FDA0004035170060000022
式中,αj、βi为对齐后的对齐向量,la、lb为分解层次深度中分解单词个数,eij为对应的两个词向量的相似度权重,
Figure FDA0004035170060000023
分别对应两句子中第j个分解单词的词向量,该公式为对权重进行归一化。
CN201811378130.3A 2018-11-19 2018-11-19 一种基于语法结构的分层Attention的句子匹配方法及装置 Active CN109614485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811378130.3A CN109614485B (zh) 2018-11-19 2018-11-19 一种基于语法结构的分层Attention的句子匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811378130.3A CN109614485B (zh) 2018-11-19 2018-11-19 一种基于语法结构的分层Attention的句子匹配方法及装置

Publications (2)

Publication Number Publication Date
CN109614485A CN109614485A (zh) 2019-04-12
CN109614485B true CN109614485B (zh) 2023-03-14

Family

ID=66004507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811378130.3A Active CN109614485B (zh) 2018-11-19 2018-11-19 一种基于语法结构的分层Attention的句子匹配方法及装置

Country Status (1)

Country Link
CN (1) CN109614485B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110931105B (zh) * 2019-12-17 2023-05-16 中山大学 一种匹配多套肌肉协同模式的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108829662A (zh) * 2018-05-10 2018-11-16 浙江大学 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108829662A (zh) * 2018-05-10 2018-11-16 浙江大学 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统

Also Published As

Publication number Publication date
CN109614485A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
WO2022057776A1 (zh) 一种模型压缩方法及装置
CN112069408B (zh) 一种融合关系抽取的推荐系统及方法
CN108804417A (zh) 一种基于特定领域情感词的文档级情感分析方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN113836928B (zh) 文本实体生成方法、装置、设备及存储介质
CN111178085B (zh) 文本翻译器训练方法、专业领域文本语义解析方法和装置
CN112434514B (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN115292470B (zh) 一种用于小额贷款智能客服的语义匹配方法及系统
US20220067579A1 (en) Dynamic ontology classification system
US20220229994A1 (en) Operational modeling and optimization system for a natural language understanding (nlu) framework
CN109614485B (zh) 一种基于语法结构的分层Attention的句子匹配方法及装置
CN116701574A (zh) 文本语义相似度计算方法、装置、设备及存储介质
CN114896392A (zh) 工单数据的聚类方法、装置、电子设备及存储介质
CN110826325A (zh) 一种基于对抗训练的语言模型预训练方法、系统及电子设备
CN114048314A (zh) 一种自然语言隐写分析方法
CN117610562A (zh) 一种结合组合范畴语法和多任务学习的关系抽取方法
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN115827865A (zh) 一种融合多特征图注意力机制的不良文本分类方法及系统
KR102354898B1 (ko) 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치
CN114492458A (zh) 一种基于多头注意力和词共现的方面级情感分析方法
CN114429121A (zh) 一种面向试题语料情感与原因句子对的抽取方法
CN113988048A (zh) 基于多轮机器阅读理解的情感原因对抽取方法
KR20220097666A (ko) 동적 메모리 기반의 신경망을 이용한 Few-Shot 텍스트 분류 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant