CN111475620B - 一种面向智能问答系统的自然语言推理方法 - Google Patents

一种面向智能问答系统的自然语言推理方法 Download PDF

Info

Publication number
CN111475620B
CN111475620B CN202010257825.7A CN202010257825A CN111475620B CN 111475620 B CN111475620 B CN 111475620B CN 202010257825 A CN202010257825 A CN 202010257825A CN 111475620 B CN111475620 B CN 111475620B
Authority
CN
China
Prior art keywords
vector
matrix
sentences
enc
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010257825.7A
Other languages
English (en)
Other versions
CN111475620A (zh
Inventor
徐小龙
路欣远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010257825.7A priority Critical patent/CN111475620B/zh
Publication of CN111475620A publication Critical patent/CN111475620A/zh
Application granted granted Critical
Publication of CN111475620B publication Critical patent/CN111475620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向智能问答系统的自然语言推理方法,包括如下步骤:首先需要将两个句子转换成词向量的形式,利用正向时序运算以及反向时序运算提取句子的局部特征以及全局特征,再对得到的结果同时进行最大值选择以及多维加权平均的运算,其中最大值选择的运算用于提取句子中最重要的信息,而多维加权平均能够对句子中的次重要特征进行提取,对于结果通过句意融合,最后,通过句意融合的结果得到句子间关系的可能性,其中可能性最高的关系将作为最后的结果。本发明能够充分提取问答系统中用户前后输入的句子中的信息,可以在自然语言推理的公开数据上都取得优异的效果,在对准确率、实时性要求较高的多轮问答系统中具有良好的实用性。

Description

一种面向智能问答系统的自然语言推理方法
技术领域
本发明涉及自然语言处理与人工智能技术领域,具体涉及一种面向智能问答系统的自然语言推理方法。
背景技术
面向客户服务的问答系统是一个多轮交互的过程,用户的信息将不会一次性全部给出,而是需要不断地对系统进行输入,同时系统不断理解问题。在这个过程中,用户的前后多轮的描述可能存在不一致的状况,而利用自然语言推理方法就可以使得问答系统能够对该情况进行判断,从而进行进一步的处理。
传统的自然语言推理方法需要通过人工提取特征的方法来表示句子。比如句法依存树、语法树等来计算二者的编辑距离。这些通过人工提取特征的方法虽然每个特征都具有很好的解释性,但是通过人工提取特征需要花费大量的人工成本,也会需要使用额外的资源。而且,这样的方法与使用深度学习模型的方法相比,在性能上差距较大。
随着深度学习在自然语言处理领域的发展,越来越多的使用深度学习的自然语言推理方法被提出。在这些方法中,需要将句子转换成词向量的形式,并通过深度学习模型进行一些运算,最后判断出句子之间的关系。其中,使用长短记忆网络表示句子的方法得到了广泛应用。而在池化方法方面,作为一种常见的池化方法,最大池化只从整个句子中的每个维度提取最能体现句子特征的部分,同时会直接丢弃那些次重要的特征。
发明内容
发明目的:为了克服现有技术中存在的自然语言推理方法准确率不够、效率不足的问题,提供一种面向智能问答系统的自然语言推理方法,其能够充分提取了问答系统中用户前后输入的句子中的信息,可以在自然语言推理的公开数据上都取得优异的效果,在对准确率、实时性要求较高的多轮问答系统中具有良好的实用性。
技术方案:为实现上述目的,本发明提供一种面向智能问答系统的自然语言推理方法,包括如下步骤:
S1:将用户前后输入的两个句子去除标点符号,将句子中的每一个词转换成预训练的词向量,根据词向量将每个句子都表示为矩阵Xinf
S2:将矩阵Xinf分别通过正向时序运算和反向时序运算,并将两次运算的结果进行拼接,得到矩阵Henc
S3:对矩阵Henc中的所有列向量只保留最大值,得到向量vmp,同时将矩阵Henc进行多维加权平均得到向量vmda,将向量vmp和向量vmda进行拼接得到向量v;
S4:根据向量v,获得需要判断关系的两个句子所对应的向量v1和向量v2,将向量v1和向量v2进行句意融合,得到向量m;
S5:将向量m通过多次矩阵运算转化为一个多维向量,此多维向量中每个元素分别代表句子间对应关系的概率,选择最大的元素所对应的关系作为最后的结果。
进一步的,所述步骤S2中的正向时序运算是对矩阵
Figure BDA0002438091690000021
的每一列向量按照从左到右的顺序依次进行如下计算:
Figure BDA0002438091690000022
Figure BDA0002438091690000023
Figure BDA0002438091690000024
Figure BDA0002438091690000025
Figure BDA0002438091690000026
ct=it⊙st+ft⊙ct-1
Figure BDA0002438091690000027
Figure BDA0002438091690000028
其中,
Figure BDA0002438091690000029
为矩阵Xinf第t列的列向量,在每次计算完成后将会得到记录信息的两个向量ct
Figure BDA00024380916900000210
这两个向量将参与下一次的运算,在每次计算中,都会得到四个中间向量 ft、it、ot、st,在计算中间向量时,Wf、Win、Wo、Ws分别为生成中间向量时对输入向量
Figure BDA00024380916900000211
的权重转移矩阵,Uf、Uin、Uo、Us分别为生成中间向量时对前一次运算得到的向量ct-1的权重转移矩阵,bf、bin、bo、bs分别为计算中间向量时添加的偏置向量,σ、ta为激活函数,exp表示指数函数,⊙表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量的运算,将每次计算所得到的
Figure BDA00024380916900000212
依次排序,将得到正向时序运算的矩阵。
进一步的,所述步骤S2中的反向时序运算,需要将Xinf中的列向量按照
Figure BDA00024380916900000213
的顺序反向排列,然后将反向排列过的矩阵中的列向量按从左到右的顺序依次进行运算获取到输出向量。
进一步的,所述步骤S3中将矩阵Henc进行多维加权平均得到向量vmda的具体运算过程为:
A=Wbσ(WaHenc+ba)+bb
Figure BDA0002438091690000031
Figure BDA0002438091690000032
Figure BDA0002438091690000033
首先将Henc通过两次矩阵运算得到维度与Henc相同的权重矩阵A,Wa、Wb分别为两次运算的权重转移矩阵,ba、bb为偏置向量,σ为激活函数,在得到权重矩阵A 后,将其每一行向量进行指数归一化运算,得到Henc中每一个元素所对应的权重p(aij),而p·j表示第j列元素所对应的权重所组成的权重向量,aij为矩阵A中第i行第j列的元素,n为矩阵A的列数,
Figure BDA0002438091690000034
为Henc第j列的列向量,exp表示指数运算,vmda为多维加权平均后所得到的向量。
进一步的,所述步骤S4中向量v1和向量v2进行句意融合的过程为:首先将向量v1和向量v2做逐一元素的绝对值减法得到|v1-v2|,再将二者做逐一元素的乘法得到 v1⊙v2,然后把v1,v2,|v1-v2|,v1⊙v2进行拼接,得到向量m。
进一步的,所述步骤S5中向量m通过两次矩阵运算转化为一个三维向量,此三维向量中每个元素分别代表句子间关系为蕴含、矛盾、无关的概率。
本发明首先需要将两个句子转换成词向量的形式,利用正向时序运算以及反向时序运算提取句子的局部特征以及全局特征,再对得到的结果同时进行最大值选择以及多维加权平均的运算,其中最大值选择的运算用于提取句子中最重要的信息,而多维加权平均能够对句子中的次重要特征进行提取,对于上一阶段所产生的结果,需要通过句意融合,最后,通过句意融合的结果得到句子间关系的可能性,其中可能性最高的关系将作为最后的结果。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明利用正向时序运算以及反向时序运算来对用户前后输入的句子进行特征提取,使得最后得到的向量可以表现出句子中重要的局部信息与全局信息。
2、本发明利用提取矩阵中列向量最大值的方法以及矩阵中所有元素加权平均的方法来对经过时序运算后所得到的矩阵进行处理,其中取最大值的方法用于提取句子中最重要的特征,而多维加权平均可以对句子中的次重要特征进行提取。
3、本发明采用多种形式的句意融合机制,使得用户前后输入的句子中的信息可以得到有效的融合,从而更加突出句子之间的关系。
4、本发明充分提取了问答系统中用户前后输入的句子中的信息,可以在自然语言推理的公开数据上都取得优异的效果,在对准确率、实时性要求较高的多轮问答系统中具有良好的实用性。
附图说明
图1为本发明方法的模型示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
如图1所示,本发明提供一种面向智能问答系统的自然语言推理方法,具体步骤如下:
S1:将用户前后输入的两个句子去除标点符号,之后将两个句子中的每一个词转换成预训练的词向量,根据词向量将每个句子都表示为矩阵Xinf,这里以第一个句子为例,得到的矩阵表示如下:
Figure BDA0002438091690000041
S2:将步骤S1获得的矩阵Xinf分别通过正向时序运算以及反向时序运算,并将同一正向时序运算以及反向时序运算的结果进行拼接得到最后的结果,正向时序运算是对步骤S1的结果矩阵
Figure BDA0002438091690000042
中的每一列向量依次进行如下计算,
Figure BDA0002438091690000043
为矩阵Xinf第t列的列向量,在每次计算完成后将会得到记录信息的两个向量ct
Figure BDA0002438091690000044
这两个向量将参与下一次的运算,在每次计算中,都会得到四个中间向量ft、it、ot、st,在计算中间向量时,Wf、Win、Wo、Ws分别为生成中间向量时对输入向量的权重转移矩阵,Uf、Uin、Uo、Us分别为生成中间向量时前一次运算得到的向量ct-1的权重转移矩阵,bf、bin、bo、bs分别为计算中间向量时添加的偏置向量,σ、ta为激活函数, exp表示指数函数,⊙表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量,将每次计算所得到的
Figure BDA0002438091690000051
依次排序,将得到正向时序运算的输出矩阵。
Figure BDA0002438091690000052
Figure BDA0002438091690000053
Figure BDA0002438091690000054
Figure BDA0002438091690000055
Figure BDA0002438091690000056
ct=it⊙st+ft⊙ct-1
Figure BDA0002438091690000057
Figure BDA0002438091690000058
而对于反向时序运算,需要将Xinf中的列向量按照
Figure BDA0002438091690000059
的顺序反向排列,然后将反向排列过后的矩阵中的列向量按从左到右的顺序依次进行运算,每一次的计算过程与正向时序运算相同,最后将输入
Figure BDA00024380916900000510
在正向时序运算与反向时序运算中对应的输出
Figure BDA00024380916900000511
进行拼接,得到ht,将所有的ht按对应
Figure BDA00024380916900000512
在Xinf中的顺序排列,得到该步骤的运算结果矩阵Henc
Figure BDA00024380916900000513
S3:将步骤S2得到的结果矩阵Henc分别通过对列向量的最大值选择以及一次多维加权平均,其中最大值的选取过程如下:
Figure BDA00024380916900000514
其中,
Figure BDA00024380916900000515
表示经过最大值选择后的向量vmp中的第i个元素,该元素为向量hi中的最大值,而hi为Henc中的第i列向量;
多维加权平均按如下计算:
首先将矩阵Henc通过两次矩阵运算得到维度与Henc相同的权重矩阵A,Wa、Wb分别为两次运算的权重转移矩阵,ba、bb为偏置向量,σ为激活函数,在得到权重矩阵A 后,将其每一行向量进行指数归一化运算,得到Henc中每一个元素所对应的权重p(aij),而p·j表示第j列元素所对应的权重所组成的权重向量,aij为矩阵A中第i行第j列的元素,n为矩阵A的列数,xj为X第j列的列向量,exp为指数运算,vmda为多维加权平均后所得到的向量;
A=Wbσ(WaHenc+ba)+bb
Figure BDA0002438091690000061
Figure BDA0002438091690000062
Figure BDA0002438091690000063
将最大值选取得到的向量vmp以及多维加权平均所得到的向量vmda进行拼接得到向量v:
[-0.01911898 -0.05521853 -0.01912285...0.05380649 0.11411360.18427889]
S4:根据向量v,获得需要判断关系的两个句子所对应的向量v1和向量v2,为了使得两个句子的差异性得到提升,从而使得分类更加准确,需要将向量v1和向量v2进行句向量融合,首先将二者做逐一元素的绝对值减法得到|v1-v2|,再将二者做逐一元素的乘法得到v1⊙v2,然后把二者与v1和v2进行拼接,得到向量m:
[-0.03318719 -0.03001147 -0.01090131...0.00072425 0.013917180.01510476]
S5:将步骤4的结果通过两次矩阵运算转化为一个三维向量,得到句子间关系为蕴含、矛盾、无关的概率,选择最大的元素所对应的关系作为最后的结果。
本实施例中获得如下的一组向量,由于第三个元素的值最大,因此句子之间的关系将被判断为无关。
[-1.2895579 -3.436133 4.979603]。

Claims (1)

1.一种面向智能问答系统的自然语言推理方法,其特征在于:包括如下步骤:
S1:将用户前后输入的两个句子中的每一个词转换成预训练的词向量,根据词向量将每个句子都表示为矩阵Xinf
S2:将矩阵Xinf分别通过正向时序运算和反向时序运算,并将两次运算的结果进行拼接,得到矩阵Henc
S3:对矩阵Henc中的所有列向量只保留最大值,得到向量vmp,同时将矩阵Henc进行多维加权平均得到向量vmda,将向量vmp和向量vmda进行拼接得到向量v;
S4:根据向量v,获得需要判断关系的两个句子所对应的向量v1和向量v2,将向量v1和向量v2进行句意融合,得到向量m;
S5:将向量m通过多次矩阵运算转化为一个多维向量,此多维向量中每个元素分别代表句子间对应关系的概率,选择最大的元素所对应的关系作为最后的结果;
所述步骤S2中的正向时序运算是对矩阵
Figure FDA0003732040580000011
的每一列向量按照从左到右的顺序依次进行如下计算:
Figure FDA0003732040580000012
Figure FDA0003732040580000013
Figure FDA0003732040580000014
Figure FDA0003732040580000015
Figure FDA0003732040580000016
ct=it⊙st+ft⊙ct-1
Figure FDA0003732040580000017
Figure FDA0003732040580000018
其中,
Figure FDA0003732040580000019
为矩阵Xinf第t列的列向量,在每次计算完成后将会得到记录信息的两个向量ct
Figure FDA00037320405800000110
这两个向量将参与下一次的运算,在每次计算中,都会得到四个中间向量ft、it、ot、st,在计算中间向量时,Wf、Win、Wo、Ws分别为生成中间向量时对输入向量
Figure FDA00037320405800000111
的权重转移矩阵,Uf、Uin、Uo、Us分别为生成中间向量时对前一次运算得到的向量ct-1的权重转移矩阵,bf、bin、bo、bs分别为计算中间向量时添加的偏置向量,σ、ta为激活函数,exp表示指数函数,⊙表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量的运算,将每次计算所得到的
Figure FDA0003732040580000021
依次排序,将得到正向时序运算的矩阵;
所述步骤S2中的反向时序运算,需要将Xinf中的列向量按照
Figure FDA0003732040580000022
的顺序反向排列,然后将反向排列过的矩阵中的列向量按从左到右的顺序依次进行运算获取到输出向量;
所述步骤S3中将矩阵Henc进行多维加权平均得到向量vmda的具体运算过程为:
A=Wbσ(WaHenc+ba)+bb
Figure FDA0003732040580000023
Figure FDA0003732040580000024
Figure FDA0003732040580000025
首先将Henc通过两次矩阵运算得到维度与Henc相同的权重矩阵A,Wa、Wb分别为两次运算的权重转移矩阵,ba、bb为偏置向量,σ为激活函数,在得到权重矩阵A后,将其每一行向量进行指数归一化运算,得到Henc中每一个元素所对应的权重p(aij),而p·j表示第j列元素所对应的权重所组成的权重向量,aij为矩阵A中第i行第j列的元素,n为矩阵A的列数,
Figure FDA0003732040580000026
为Henc第j列的列向量,exp表示指数运算,vmda为多维加权平均后所得到的向量;
所述步骤S4中向量v1和向量v2进行句意融合的过程为:首先将向量v1和向量v2做逐一元素的绝对值减法得到|v1-v2|,再将二者做逐一元素的乘法得到v1⊙v2,然后把v1,v2,|v1-v2|,v1⊙v2进行拼接,得到向量m;
所述步骤S5中向量m通过两次矩阵运算转化为一个三维向量,此三维向量中每个元素分别代表句子间关系为蕴含、矛盾、无关的概率。
CN202010257825.7A 2020-04-03 2020-04-03 一种面向智能问答系统的自然语言推理方法 Active CN111475620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010257825.7A CN111475620B (zh) 2020-04-03 2020-04-03 一种面向智能问答系统的自然语言推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010257825.7A CN111475620B (zh) 2020-04-03 2020-04-03 一种面向智能问答系统的自然语言推理方法

Publications (2)

Publication Number Publication Date
CN111475620A CN111475620A (zh) 2020-07-31
CN111475620B true CN111475620B (zh) 2022-08-26

Family

ID=71749640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010257825.7A Active CN111475620B (zh) 2020-04-03 2020-04-03 一种面向智能问答系统的自然语言推理方法

Country Status (1)

Country Link
CN (1) CN111475620B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN109977213B (zh) * 2019-03-29 2022-11-01 南京邮电大学 一种面向智能问答系统的最优答案选择方法
CN110134771B (zh) * 2019-04-09 2022-03-04 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法

Also Published As

Publication number Publication date
CN111475620A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN108959396B (zh) 机器阅读模型训练方法及装置、问答方法及装置
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN111091045B (zh) 一种基于时空注意力机制的手语识别方法
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN107704563B (zh) 一种问句推荐方法及系统
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和系统
CN106547737B (zh) 基于深度学习的自然语言处理中的序列标注方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN113516133B (zh) 一种多模态图像分类方法及系统
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN111526434A (zh) 基于转换器的视频摘要方法
CN112560502B (zh) 一种语义相似度匹配方法、装置及存储介质
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
Al Faraby et al. Image to Bengali caption generation using deep CNN and bidirectional gated recurrent unit
CN114254645A (zh) 一种人工智能辅助写作系统
CN111861046A (zh) 基于大数据和深度学习的专利价值智能评估系统
CN111475620B (zh) 一种面向智能问答系统的自然语言推理方法
Sairam et al. Image Captioning using CNN and LSTM
CN110717022A (zh) 一种机器人对话生成方法、装置、可读存储介质及机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant