CN109977213B - 一种面向智能问答系统的最优答案选择方法 - Google Patents
一种面向智能问答系统的最优答案选择方法 Download PDFInfo
- Publication number
- CN109977213B CN109977213B CN201910248427.6A CN201910248427A CN109977213B CN 109977213 B CN109977213 B CN 109977213B CN 201910248427 A CN201910248427 A CN 201910248427A CN 109977213 B CN109977213 B CN 109977213B
- Authority
- CN
- China
- Prior art keywords
- vector
- matrix
- answer
- question
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 88
- 239000011159 matrix material Substances 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向智能问答系统的最优答案选择方法,对于问题与每一条候选答案,该方法首先需要将问题与候选答案转换成词向量的形式,利用共享参数的滑动窗口运算提取句子的局部特征,再对得到的结果进行整体加权平均运算从而对整体特征进行整合,突出重要的部分并减弱对句子含义影响较小的部分。对于上一阶段的输出,问题部分直接通过平均池化转化成向量的形式,答案部分需要通过获取问题向量中的信息来进行加权平均,而那些与问题相关的部分会得到较大的权重。最后,将问题与答案的向量通过余弦计算出相似度得分,得分最高的候选答案将被选为最终的答案。本发明提供的一种面向智能问答系统的最优答案选择方法,具有较高的准确率与运行速度的优点。
Description
技术领域
本发明涉及一种面向智能问答系统的最优答案选择方法,涉及自然语言处理与人工智能的相关技术领域。
背景技术
自动问答系统一般包括问题分析、信息检索、答案选择等模块。其中答案选择是问答系统的关键步骤,答案选择任务的重点在于需要从问题以及答案中提取足够多的信息,并将其表示出来,该模块的性能直接决定系统提交给用户的答案的质量。
传统的答案选择方法需要通过人工提取特征的方法来表示句子。比如句法依存树、语法树等来计算二者的编辑距离。这些通过人工提取特征的方法虽然每个特征都具有很好的解释性,但是通过人工提取特征需要花费大量的人工成本,也会需要使用额外的资源。而且,这样的方法与使用深度学习模型的方法相比,在性能上差距较大。
随着深度学习在自然语言处理领域的发展,越来越多的使用深度学习的答案选择方法被提出。在这些方法中,需要现将问题与候选答案转换成词向量的形式,并通过深度学习模型进行一些运算,最后通过余弦相似度计算出候选答案的得分。其中,使用长短记忆网络表示句子并用注意力机制来使得答案获取问题中信息的方法被广泛应用于答案选择,多种基于卷积神经网络和长短记忆网络的混合模型也被提出。大部分的答案选择方法都是使用卷积神经网络或长短记忆网络来提取问题与答案的特征,但卷积神经网络的方法缺乏获取句子整体特征的能力,而长短记忆网络在提取局部特征上也有着缺陷。同时传统卷积神经网络与长短记忆网络参数量较大,如果同时使用将导致模型参数数量巨大,实际运行速度也将很慢,很难运用于对需要较强实时性的问答系统。
作为卷积神经网络的一种变种,深度可分离卷积神经网络最早被应用于计算机视觉中。后来,该神经网络被用于机器翻译,将其引入了自然语言处理领域。自注意力机制也是近年来自然语言处理任务中常用的一种方法,如果单独用来作为模型的编码器来提取句子的特征也可以取得优秀的结果。
总体来说,现有技术中采用卷积神经网络模型的答案选择方法存在准确率不够、效率不足的问题。
发明内容
本发明所要解决的技术问题是:克服现有技术的不足,提供了一种具备优秀的准确率、效率高与实时性的优点的面向智能问答系统的最优答案选择方法。
本发明为解决上述技术问题采用以下技术方案:
一种面向智能问答系统的最优答案选择方法,包括如下步骤:
S01,将问题与候选答案去除标点符号,之后将每一个词转换成预训练的词向量,这样每个句子都表示为一个矩阵Xinput;
S02,将词向量与位置编码PE相加,pos代表位置,i表示输入句子的长度,dmodel表示词向量的维度,经过这样的处理,每一输入的每一维都对应这一个正弦曲线,而正弦曲线中含有了位置信息;
S03,将矩阵Xp经过规范化,再通过滑动窗口运算,并将其结果与矩阵Xp相加,得到运算结果矩阵Xc;
S04,将矩阵Xc规范化,并通过一次整体加权平均运算,得到矩阵Xat;
S05,对于矩阵Xat,将问题的部分对矩阵行向量求平均得到问题的向量表示oq,通过oq中的信息进行加权平均,得到候选答案的向量表示oa;
S06,将问题的向量oq与候选答案的向量oa计算余弦距离,作为该答案的得分,最后从所有候选答案中选择得分最高的作为结果。
进一步地,S03和S04中所述的规范化,是对矩阵的每个列向量y进行运算,μ(y)为列向量的平均值,σ(y)为列向量的标准差,g和b为防止规范化后变为标准正态分布所设置的参数,规范化norm的具体计算公式为:
其中,h代表列向量y的维度,yi代表列向量y中的每个元素;
进一步地,S03中所述的滑动窗口运算具体如下:当给定一个序列X=[x1,x2,…,xn],其中xi表示X中的第i维列向量,每一维列向量的维度为d,F表示一个宽度为m,高度与xi维度一致的滑动窗口矩阵,Fk,j表示F中第k行第j列的值,在X中以xi作为第一列的m个列向量的滑动窗口运算将会得到oi,在得到oi后,需要增加偏置向量ei并通过增加激活函数σ得到结果zi,对X中每一维列向量xi执行上述运算,将得到一个n维向量z,用d个不同的滑动窗口,将每个滑动窗口得到的z作为行向量将得到矩阵Xc,其中oi和zi的计算方式如下:
zi=σ(oi+ei) (7)
进一步地,S04中整体加权平均运算具体为:当给定一个序列X=[x1,x2,…,xn]和一个向量表示q时,其中xi表示X中的第i维列向量,首先需要得到xi的权重,该权重与q相关,该权重通过函数f(xi,q)求得,该结果用于表明二者之间的相关程度;接着使用归一化的指数函数得到p(y|X,q),其意义在于在当前任务中哪一个xi对于该q更加重要,最后,通过该权重获得加权平均后的
f(xi,q)=wTσ(Wxxi+Wqq) (9)
其中,w是权重向量,Wx,Wq为权重转移矩阵,n代表序列X的列数,
进一步地,通过计算每一个xi与X的整体的关系,从而使得序列中与任务相关的重要信息能够得到加强:
sa(X)=[wa(X,x1),wa(X,x2),...,wa(X,xi)] (11)
其中,wa(X,q)代表序列X加权平均后的结果;sa(X)代表序列X整体加权
平均后的结果;
进一步地,S05中候选答案通过问题向量进行加权平均的注意力机制为如下所述,候选答案部分在S05中的输出为Hsa,那么经过注意力机制的影响后的答案的向量表示oa可以按如下表示,
oa=wa(Hsa,oq) (12)。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明利用共享权重的滑动窗口运算来对问题与答案的词向量进行局部特征提取,使得最后得到的向量形式可以表现出句子中重要的局部信息。
2、本发明利用共享参数的整体加权平均来对问题与答案的词向量进行全局特征提取,使得在表现句子意思中较为重要的部分可以得到突出而对句意影响较小的部分进行抑制。
3、本发明采用使用跨句子的加权平均机制,使得答案的向量表示可以得到问题的信息,从而更加突出与问题更相关的那一部分。
4、本发明充分提取了问题和答案中得到重要信息,可以在答案选择的公开数据上都取得优异的效果,在对准确率、实时性要求较高的问答系统中具有良好的实用性。
附图说明
图1是本发明一种面向智能问答系统的最优答案选择方法采用的模型图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,本发明提出的一种面向智能问答系统的最优答案选择方法,在对用户所输入的问题进行分析以及对答案池中的答案进行初步检索后将得到候选答案,对于候选答案需要从中挑选出最合适的一个,具体步骤如下:
步骤1,将问题与候选答案去除标点符号,之后将每一个词转换成预训练的100维词向量,这样每个句子都表示为一个矩阵Xinput;
步骤2,将词向量与位置编码PE相加,pos代表位置,i表示输入句子的长度,dmodel表示词向量的维度。sin代表正弦计算,cos代表余弦计算,经过这样的处理,每一输入的每一维都对应这一个正弦曲线,而正弦曲线中含有了位置信息;
步骤3,将步骤2的结果经过规范化,该规范化是指对矩阵的每个列向量y进行运算,μ(y)为列向量的平均值,σ(y)为列向量的标准差,g和b为防止规范化后变为标准正态分布所设置的参数,规范化norm的具体计算公式为:
其中,h代表列向量y的维度,yi代表列向量y中的每个元素。最终得到矩阵Xnorm:
滑动窗口运算具体如下:当给定一个序列X=[x1,x2,…,xn],xi表示X中的第i维列向量,每一维列向量的维度为d,F表示一个宽度为m,高度与xi维度一致的滑动窗口矩阵,Fk,j表示F中第k行第j列的值,在X中以xi作为第一列的m个列向量的滑动窗口运算将会得到oi,在得到oi后,需要增加偏置ei并通过增加激活函数σ得到结果zi,对X中每一维列向量xi执行上述运算,将得到一个n维向量z,用d个不同的滑动窗口,将每个滑动窗口得到的z作为行向量将得到矩阵Xc。其中oi和zi的计算方式如下:
zi=σ(oi+ei) (7)。
将所有得到的z作为列向量将得到矩阵Xconv:
将矩阵Xconv与步骤3的输入矩阵Xp相加得到矩阵Xc
步骤4,将步骤3的结果规范化,规范化与步骤3的规范化过程一样,并通过一次整体加权平均运算,得到矩阵Xat。
加权平均运算过程如下所述,当给定一个序列X=[x1,x2,…,xn]和一个向量表示q时,其中xi表示X中的第i维列向量,首先需要得到xi的权重,该权重与q相关,该权重通过函数f(xi,q)求得,该结果用于表明二者之间的相关程度;f(xi,q)中w是权重向量,Wx、Wq为权重转移矩阵。接着使用归一化的指数函数得到p(y|X,q),其意义在于在当前任务中哪一个xi对于该q更加重要。最后,通过该权重获得加权平均后的
f(xi,q)=wTσ(Wxxi+Wqq) (9)
其中n代表序列X的列数。
通过计算每一个xi与X的整体的关系,从而使得序列中与任务相关的重要信息能够得到加强:
sa(X)=[wa(X,x1),wa(X,x2),...,wa(X,xi)] (11)
其中,wa(X,q)代表序列X加权平均后的结果;sa(X)代表序列X整体加权平均后的结果,在经过整体加权平均后得到矩阵Xs
步骤5,对于步骤4的结果,将问题的部分对矩阵行向量求平均得到问题的向量表示oq,对于候选答案部分,需要通过oq中的信息进行加权平均,得到答案的向量表示oa;
oa=wa(Hsa,oq) (12)
步骤6,将步骤5的结果中问题的向量oq与候选答案的向量oa计算余弦距离,作为该答案的得分,对于每一个候选答案进行步骤2至步骤4的运算后得到该得分,从中选择得分最高的答案作为问题的最佳答案。在如下的一组得分中,第7列所对应的答案将被选择为最优答案。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (2)
1.一种面向智能问答系统的最优答案选择方法,其特征在于,包括如下步骤:
S01,将问题与候选答案去除标点符号,之后将每一个词转换成预训练的词向量,这样每个句子都表示为一个矩阵Xinput;
S02,将词向量与位置编码PE相加,pos代表位置,i表示输入句子的长度,dmodel表示词向量的维度,经过这样的处理,每一输入的每一维都对应这一个正弦曲线,而正弦曲线中含有了位置信息;
其中,PE(pos,2i)和PE(pos,2i+1)分别代表词向量中奇数位置和偶数位置的位置编码,将得到一个矩阵Xp;
S03,将矩阵Xp经过规范化,再通过滑动窗口运算,并将其结果与矩阵Xp相加,得到运算结果矩阵Xc,滑动窗口运算具体如下:当给定一个序列X=[x1,x2,…,xn],其中xi表示X中的第i维列向量,每一维列向量的维度为d,F表示一个宽度为m,高度与xi维度一致的滑动窗口矩阵,Fk,j表示F中第k行第j列的值,在X中以xi作为第一列的m个列向量的滑动窗口运算将会得到oi,在得到oi后,需要增加偏置向量ei并通过增加激活函数σ得到结果zi,对X中每一维列向量xi执行上述运算,将得到一个n维向量z,用d个不同的滑动窗口,将每个滑动窗口得到的z作为行向量将得到矩阵Xc,其中oi和zi的计算方式如下:
zi=σ(oi+ei) (7);
S04,将矩阵Xc规范化,并通过一次整体加权平均运算,得到矩阵Xat,整体加权平均运算具体为:当给定一个序列X=[x1,x2,…,xn]和一个向量表示q时,其中xi表示X中的第i维列向量,首先需要得到xi的权重,该权重与q相关,该权重通过函数f(xi,q)求得,该结果用于表明二者之间的相关程度;接着使用归一化的指数函数得到p(y|X,q),其意义在于在当前任务中哪一个xi对于该q更加重要,最后,通过该权重获得加权平均后的
f(xi,q)=wTσ(Wxxi+Wqq) (9)
其中,w是权重向量,Wx,Wq为权重转移矩阵,n代表序列X的列数,
通过计算每一个xi与X的整体的关系,从而使得序列中与任务相关的重要信息能够得到加强:
sa(X)=[wa(X,x1),wa(X,x2),...,wa(X,xi)] (11)
其中,wa(X,q)代表序列X加权平均后的结果;sa(X)代表序列X整体加权平均后的结果;
S05,对于矩阵Xat,将问题的部分对矩阵行向量求平均得到问题的向量表示oq,通过oq中的信息进行加权平均,得到候选答案的向量表示oa;
S06,将问题的向量oq与候选答案的向量oa计算余弦距离,作为该答案的得分,最后从所有候选答案中选择得分最高的作为结果,候选答案通过问题向量进行加权平均的注意力机制为:候选答案部分在S05中的输出为Hsa,那么经过注意力机制的影响后的答案的向量表示oa可以按如下表示,
oa=wa(Hsa,oq) (12)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910248427.6A CN109977213B (zh) | 2019-03-29 | 2019-03-29 | 一种面向智能问答系统的最优答案选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910248427.6A CN109977213B (zh) | 2019-03-29 | 2019-03-29 | 一种面向智能问答系统的最优答案选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977213A CN109977213A (zh) | 2019-07-05 |
CN109977213B true CN109977213B (zh) | 2022-11-01 |
Family
ID=67081598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910248427.6A Active CN109977213B (zh) | 2019-03-29 | 2019-03-29 | 一种面向智能问答系统的最优答案选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977213B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046132B (zh) * | 2019-10-25 | 2023-06-16 | 众安信息技术服务有限公司 | 一种检索多轮对话的客服问答处理方法及其系统 |
CN111475620B (zh) * | 2020-04-03 | 2022-08-26 | 南京邮电大学 | 一种面向智能问答系统的自然语言推理方法 |
CN112949637A (zh) * | 2021-05-14 | 2021-06-11 | 中南大学 | 基于idcnn和注意力机制的招投标文本实体识别方法 |
CN116562311B (zh) * | 2023-07-07 | 2023-12-01 | 中铁四局集团有限公司 | 基于自然语言机器翻译的运维方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130254628A1 (en) * | 2012-03-23 | 2013-09-26 | Namshik Kim | Semiconductor memory system including reed-solomon low density parity check decoder and read method thereof |
CN109086423A (zh) * | 2018-08-08 | 2018-12-25 | 北京神州泰岳软件股份有限公司 | 一种文本匹配方法及装置 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
-
2019
- 2019-03-29 CN CN201910248427.6A patent/CN109977213B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130254628A1 (en) * | 2012-03-23 | 2013-09-26 | Namshik Kim | Semiconductor memory system including reed-solomon low density parity check decoder and read method thereof |
CN109086423A (zh) * | 2018-08-08 | 2018-12-25 | 北京神州泰岳软件股份有限公司 | 一种文本匹配方法及装置 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
Non-Patent Citations (1)
Title |
---|
领域问答系统中问句相似度计算方法研究;刘拼拼;《硕士电子期刊》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977213A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977213B (zh) | 一种面向智能问答系统的最优答案选择方法 | |
CN112000791B (zh) | 一种电机故障知识抽取系统及方法 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
DE69029188T2 (de) | Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung | |
CN106202030B (zh) | 一种基于异构标注数据的快速序列标注方法及装置 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111339281A (zh) | 一种多视角融合的阅读理解选择题的答案选择方法 | |
CN111079418B (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN113361636A (zh) | 一种图像分类方法、系统、介质及电子设备 | |
CN112328748A (zh) | 一种用于保险配置意图识别的方法 | |
CN118095267B (zh) | 一种基于向量匹配的语言模型回答溯源方法及系统 | |
CN115982144A (zh) | 相似文本去重方法、装置、存储介质及电子装置 | |
CN117115817A (zh) | 基于多模态融合的细胞形态学识别方法及装置 | |
CN117743517A (zh) | 基于人工智能的智慧冰雪旅游管理系统及方法 | |
CN117235137A (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN117056506A (zh) | 一种基于长序列文本数据的舆情情感分类方法 | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
CN109558883B (zh) | 叶片特征提取方法及装置 | |
CN111680136A (zh) | 一种口语语义匹配的方法及装置 | |
CN114579606B (zh) | 预训练模型数据处理方法、电子设备及计算机存储介质 | |
CN114595329B (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN110825852A (zh) | 面向长文本的语义匹配方法及系统 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN113868389B (zh) | 基于自然语言文本的数据查询方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |