CN109614485A - 一种基于语法结构的分层Attention的句子匹配方法及装置 - Google Patents
一种基于语法结构的分层Attention的句子匹配方法及装置 Download PDFInfo
- Publication number
- CN109614485A CN109614485A CN201811378130.3A CN201811378130A CN109614485A CN 109614485 A CN109614485 A CN 109614485A CN 201811378130 A CN201811378130 A CN 201811378130A CN 109614485 A CN109614485 A CN 109614485A
- Authority
- CN
- China
- Prior art keywords
- attention
- sentence
- sentences
- vector
- decomposition level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000005194 fractionation Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 5
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000005906 menstruation Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 6
- 241000282326 Felis catus Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000238097 Callinectes sapidus Species 0.000 description 1
- 101100154912 Mus musculus Tyrp1 gene Proteins 0.000 description 1
- 235000010443 alginic acid Nutrition 0.000 description 1
- 229920000615 alginic acid Polymers 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语法结构的分层Attention的句子匹配方法,包括以下步骤:S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度。本发明结合实际句子语法结构的信息和注意力机制构造模型,提高模型适应性及性能。
Description
技术领域
本发明涉及相似问题文本匹配领域,更具体地,涉及一种一种基于语法结构的分层Attention的句子匹配方法及装置。
背景技术
基于互联网时代,信息量爆炸式的增长,接入互联网的用户突飞猛进。这对互联网企业应对消费者用户反馈投诉等文本信息处理,带来了巨大的工作量。由于消费者用户提交的反馈投诉文本都有特定的描述目的,问题。如果能够通过将消费者投诉反馈的文本描述信息,通过一定的算法对其进行归类匹配,通过解决一个问题,从而解决一系列问题;就能大大减少互联网企业的后续维护成本,从而提高效率,减少不必要的成本。为了解决上述描述的这个问题,可以定义问题为相似问题单匹配。即建立一个判断一组问题对是否为相同描述问题的模型,利用这个模型对未处理的问题,从已处理的问题单中,给出最相似的top推荐,减少维护成本,提高开发效率。
解决上述问题的核心模型就是,问题单匹配模型,Sentence Matching。
现有的Sentence Match模型,大多是以句子词向量序列,经过各种方案计算attention,attention机制:是一种注意力机制,显而易见,是将模型注意力偏向于更重要部分特征的方式,得到一个soft algin形式的向量,然后直接过MLP层进行预测,MLP(Multi-Layer Perceptron),即多层感知器;并没有很好的结合实际句子的语法结构去衡量,解释性不够好,且对于稍复杂的语法结构的句子匹配问题,仍存在较较大缺陷。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于语法结构的分层Attention的句子匹配方法及装置。
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是为了解决现有模型对于句子匹配问题的单一化,未结合实际句子语法结构的信息和注意力机制构造模型,提高模型适应性及性能。
为解决上述技术问题,本发明的技术方案如下:
一种基于语法结构的分层Attention的句子匹配方法,包括以下步骤:
S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;
S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;
S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度。
优选地,步骤S1中将两句子按语言语法结构拆分,利用JParser语义解析器进行拆分,JParser,分别拆分为两个不同的分解层次深度的句子结构,是一种抽象意义表示的语义解析器,多种数据集上acc,recall,precision,f1等衡量指标都较高。
优选地,步骤S2中进行词向量映射具体为:
将拆分后的句子结构序列,经一层或两层Bi-LSTM层映射为包含上下文信息的词向量。
优选地,步骤S2中计算attention相似度矩阵,利用词向量计算点积来计算attention相似度矩阵,计算点积结果小于阈值gate的矩阵以0表示,本步骤使用的是softattention的改进版本,称之为gate attention,即门限注意力。
优选地,步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为:
对齐的计算方式如下:
式中,αj、βi为对齐后的对齐向量,la、lb为分解层次深度中分解单词个数,eij为对应的两个词向量的相似度权重,分别对应两句子中第j个分解单词的词向量,该公式为对权重进行归一化。
优选地,一种基于语法结构的分层Attention装置,包括:
分解模块,用于将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度;
计算相似度模块,用于进行词向量映射,并利用拆分后的句子结构计算attention相似度矩阵;
对齐拼接模块,用于对两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
预测模块,用于计算两个不同分解层次深度下拼接后结果的均值,分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,预测值即为两句子的匹配程度。
与现有技术相比,本发明技术方案的有益效果是:
结合描述文本句子的的语法结构信息,及词向量词序列Attention信息等综合考虑构建神经网络模型,判断问题单对是否为相似文本,结合实际句子语法结构的信息和注意力机制构造模型,提高模型适应性及性能。
附图说明
图1为本发明的一种基于语法结构的分层Attention的句子匹配方法流程图。
图2为本发明提供的一种soft attention的改进版本gate attention示意图。
图3为实施例中两句子分解层次深度示意图。
图4为实施例中两句子的相似度矩阵示意图。
图5为实施例中以level-1权重矩阵为例对齐的计算示意图。
图6为实施例中拼接并且预测步骤示意图。
图7为实施例中提供的一种基于语法结构的分层Attention的句子匹配系统示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供的一种基于语法结构的分层Attention的句子匹配方法,如图1,包括以下步骤:
一种基于语法结构的分层Attention的句子匹配方法,包括以下步骤:
S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;
S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;
S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度;
其中,步骤S1中将两句子按语言语法结构拆分,利用JParser语义解析器进行拆分,分别拆分为两个不同的分解层次深度的句子结构;
步骤S2中进行词向量映射具体为:
将拆分后的句子结构序列,经一层或两层Bi-LSTM层映射为包含上下文信息的词向量;
步骤S2中计算attention相似度矩阵,利用词向量计算点积来计算attention相似度矩阵,计算点积结果小于阈值gate的矩阵以0表示,本步骤使用的是soft attention的改进版本,称之为gate attention,即门限注意力,如图2所示;
步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为:
对齐的计算方式如下:
式中,αj、βi为对齐后的对齐向量,la、lb为分解层次深度中分解单词个数,eij为对应的两个词向量的相似度权重,分别对应两句子中第j个分解单词的词向量,该公式为对权重进行归一化。
在具体实施过程中,如图3所示,两句子的分解层次深度,按照分解树的层次深度,分为level-1和level-2两层,映射词向量,计算相似度矩阵,如图4所示,图4的两个相似度矩阵,计算值相同,但是在不同分解层次上,不同的单词分块不一样,如The blue cat iscatching the brown mouse in the forecourt.在level-1下,被分解为了catching,catblue,mouse brown,forecourt四部分;在level-2下,被分解为了catching,cat,blue,mouse,brown,forecourt六部分。计算每个单词的align(对齐)结果。其中表示原单词,与对齐后的单词拼接的结果。计算方式如下:
αj、βi为某一个对齐后的结果,将不同unit颜色块的对齐结果拼接起来,得到最终单词单元对齐的结果;然后再经过函数G映射为一个固定长度的向量。函数G表示一个前馈神经网络,用一个全连接层代替。横纵方框分别表示,AB两句话分解后的词语单元;然后,矩阵中的数值表示对应两个单词的相似度;由于两句话经过了语法树分解,分解成了几个单元,在矩阵中,就表示为各个块对应的单元块;如图5中方框1和方框2分别表示两个文本经过语法树分解后的对应单词之间的权重子矩阵;方框1中表示A句中的cat,blue与B句中的Jerry,little之间的权重矩阵;方框2中表示A句中mouse,brown与B句中chased的权重矩阵。对于上述公式,在对方框1进行注意力机制对齐计算时,对方框1中A句的cat或者blue分别计算B句中(0.17,Jerry词向量)和(0.09,little词向量)的加权和向量,称之为cat对应的对齐向量βi;其中,lb表示,方框1块中B句中单词个数,eij为对应的两个词向量的相似度权重,表示方框1中对应第j个单词的词向量;
对于分解后的矩阵中各个子单元部分都进行上述计算处理;由于上述原理解释用到的是较为简单的句子,成分单一;故会有单独一个词对应一个词的情形,对于孤值矩阵就直接词向量对齐。另补充,由于上述计算演示,并未包含gate attention处理,对于经过gate attention处理后的权重矩阵,小于阈值gate的矩阵将以0表示。
对应分解层次的权重子单元进行上述对齐计算后,将每块得到的词向量拼接。促成一个高维的拼接词向量,然后进行后续处理。
如图6所示,Aggregate中,通过计算不同level下对齐后结果的均值,经过MLP映射为一个固定维度的向量,最后将两者凭借过一个MLP层映射为预测值,该预测值即为两句子匹配程度。
实施例2
本实施例公开了一种基于语法结构的分层Attention的句子匹配方法,如图7所示,包括分解模块,用于将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度;
计算相似度模块,用于进行词向量映射,并利用拆分后的句子结构计算attention相似度矩阵;
对齐拼接模块,用于对两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
预测模块,用于计算两个不同分解层次深度下拼接后结果的均值,分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,预测值即为两句子的匹配程度。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于语法结构的分层Attention的句子匹配方法,其特征在于,包括以下步骤:
S1:将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度的句子结构;
S2:对两句子拆分后的句子结构进行词向量映射,并计算attention相似度矩阵;
S3:分别对两句子的两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
S4:分别计算两句子的两个不同分解层次深度下的句子结构拼接后结果的均值,经前馈神经网络分别映射为一个固定长度的向量,再分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度。
2.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法,其特征在于,所述步骤S1中将两句子按语言语法结构拆分,利用JParser语义解析器进行拆分,分别拆分为两个不同的分解层次深度的句子结构。
3.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法,其特征在于,所述步骤S2中进行词向量映射具体为:
将拆分后的句子结构序列,经一层或两层Bi-LSTM层映射为包含上下文信息的词向量。
4.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法,其特征在于,所述步骤S2中计算attention相似度矩阵,利用词向量计算点积来计算attention相似度矩阵,计算点积结果小于阈值gate的矩阵以0表示。
5.根据权利要求1所述的基于语法结构的分层Attention的句子匹配方法,其特征在于,所述步骤S3中对不同分解层次深度的句子结构进行门限注意力对齐具体为:
对齐的计算方式如下:
式中,αj、βi为对齐后的对齐向量,la、lb为分解层次深度中分解单词个数,eij为对应的两个词向量的相似度权重,分别对应两句子中第j个分解单词的词向量,该公式为对权重进行归一化。
6.一种基于语法结构的分层Attention装置,其特征在于,包括:
分解模块,用于将两句子按语言语法结构拆分,分别拆分为两个不同的分解层次深度;
计算相似度模块,用于进行词向量映射,并利用拆分后的句子结构计算attention相似度矩阵;
对齐拼接模块,用于对两个不同分解层次深度的句子结构进行门限注意力对齐,并对结果进行拼接;
预测模块,用于计算两个不同分解层次深度下拼接后结果的均值,分别经过MLP映射为固定维度的向量,并将该固定维度的向量一起经MLP层映射为预测值,所述预测值即为两句子的匹配程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811378130.3A CN109614485B (zh) | 2018-11-19 | 2018-11-19 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811378130.3A CN109614485B (zh) | 2018-11-19 | 2018-11-19 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614485A true CN109614485A (zh) | 2019-04-12 |
CN109614485B CN109614485B (zh) | 2023-03-14 |
Family
ID=66004507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811378130.3A Active CN109614485B (zh) | 2018-11-19 | 2018-11-19 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614485B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110931105A (zh) * | 2019-12-17 | 2020-03-27 | 中山大学 | 一种匹配多套肌肉协同模式的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN108509408A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种句子相似度判断方法 |
US10108902B1 (en) * | 2017-09-18 | 2018-10-23 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques |
CN108829662A (zh) * | 2018-05-10 | 2018-11-16 | 浙江大学 | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 |
-
2018
- 2018-11-19 CN CN201811378130.3A patent/CN109614485B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN108509408A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种句子相似度判断方法 |
US10108902B1 (en) * | 2017-09-18 | 2018-10-23 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques |
CN108829662A (zh) * | 2018-05-10 | 2018-11-16 | 浙江大学 | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110931105A (zh) * | 2019-12-17 | 2020-03-27 | 中山大学 | 一种匹配多套肌肉协同模式的方法及系统 |
CN110931105B (zh) * | 2019-12-17 | 2023-05-16 | 中山大学 | 一种匹配多套肌肉协同模式的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109614485B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Brunner et al. | Entity matching with transformer architectures-a step forward in data integration | |
WO2022057776A1 (zh) | 一种模型压缩方法及装置 | |
EP4134865A1 (en) | Language representation model system, pre-training method and apparatus, device and medium | |
CA3039517A1 (en) | Joint many-task neural network model for multiple natural language processing (nlp) tasks | |
CN110046240A (zh) | 结合关键词检索与孪生神经网络的目标领域问答推送方法 | |
CN110210515A (zh) | 一种图像数据多标签分类方法 | |
CN109241199B (zh) | 一种面向金融知识图谱发现的方法 | |
CN113836928B (zh) | 文本实体生成方法、装置、设备及存储介质 | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
CN112434514B (zh) | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 | |
CN112463924B (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN112445813A (zh) | 一种企业服务门户平台搜索语义分析方法 | |
Fang et al. | Knowledge-enhanced ensemble learning for word embeddings | |
US20220229994A1 (en) | Operational modeling and optimization system for a natural language understanding (nlu) framework | |
US20220237383A1 (en) | Concept system for a natural language understanding (nlu) framework | |
CN109614485A (zh) | 一种基于语法结构的分层Attention的句子匹配方法及装置 | |
JP2017174004A (ja) | 文意味分類算出装置、モデル学習装置、方法、及びプログラム | |
CN109189848A (zh) | 知识数据的抽取方法、系统、计算机设备和存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN117668157A (zh) | 基于知识图谱的检索增强方法、装置、设备及介质 | |
CN117764373A (zh) | 风险预测的方法、装置、设备及存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114676252A (zh) | 一种基于空时网络聚类约简集成的极端多标签学习方法 | |
Zanzotto et al. | SyntNN at SemEval-2018 task 2: is syntax useful for emoji prediction? embedding syntactic trees in multi layer perceptrons | |
CN106055702A (zh) | 一种面向互联网的数据服务统一描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |