CN109947922A - 一种问答处理方法、装置及问答系统 - Google Patents
一种问答处理方法、装置及问答系统 Download PDFInfo
- Publication number
- CN109947922A CN109947922A CN201910213110.9A CN201910213110A CN109947922A CN 109947922 A CN109947922 A CN 109947922A CN 201910213110 A CN201910213110 A CN 201910213110A CN 109947922 A CN109947922 A CN 109947922A
- Authority
- CN
- China
- Prior art keywords
- answer
- corpus
- feature vector
- model
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 114
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000013016 learning Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种问答处理方法、装置及问答系统,方法获取问题和待选答案库,其中待选答案库包含多个待选答案;将问题和待选答案库输入预先训练好的应答模型,得到模型输出的最终答案。应答模型包括双向循环神经网络层和卷积神经网络层。应答模型根据问题和待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个答案特征向量与问题特征向量的余弦相似度;将与问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为最终答案输出。应答模型可获得表达更加准确的问题特征向量与答案特征向量,有效提高最终答案与问题的匹配性,提升用户的使用体验。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种问答处理方法、装置及问答系统。
背景技术
问答功能是目前各类信息检索系统开发者力求提供给用户的一种高级功能。由于人工回答用户提出的问题需要的人力成本较高,因此,为节省人力成本,如何针对用户提出的问题智能自动地回答已经成为本领域急需解决的技术问题。
但是,现有的一些问答系统往往提供的回答与问题的匹配性较低,导致用户的使用体验较差。
发明内容
基于上述问题,本申请提供了一种问答处理方法、装置及问答系统,以提升回答与问题的匹配性,提升用户的使用体验。
本申请实施例公开了如下技术方案:
本申请第一方面,提供一种问答处理方法,包括:
获取问题和待选答案库;所述待选答案库包含多个待选答案;
将所述问题和所述待选答案库输入预先训练好的应答模型中,得到所述应答模型输出的最终答案;所述应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,所述Bi-LSTM层的输出作为所述CNN层的输入;
所述应答模型,用于根据所述问题和所述待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个所述答案特征向量与所述问题特征向量的余弦相似度;将与所述问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为所述问题的最终答案输出。
可选地,所述应答模型还包括:池化层;所述CNN层的输出作为所述池化层的输入;所述池化层,用于对所述CNN层的输出进行二次采样,得到所述问题特征向量和每个所述待选答案对应的答案特征向量。
可选地,方法还包括:
获取问题语料库;所述问题语料库中包含多个问题语料;
提取每个所述问题语料中的关键词;
对每个所述问题语料中的关键词进行扩展,获得扩展后的关键词;
根据所述扩展后的关键词,对每个所述问题语料进行分类,并提取分类后的问题语料的主题;
获得每个问题语料的答案语料;
根据所述分类后的问题语料、所述分类后的问题语料的主题以及所述每个问题语料的答案语料,构建所述应答模型的训练集和测试集;
利用所述训练集训练所述应答模型的参数;
利用所述测试集调整所述参数,获得训练好的应答模型。
可选地,所述对每个所述问题语料中的关键词进行扩展,具体包括:
利用同义词词库对每个所述问题语料库中的关键词进行扩展;
和/或,通过词性组合构建复合词的方式对每个所述问题语料库中的关键词进行扩展。
可选地,所述应答模型中所述Bi-LSTM层采用注意力机制对输入的所述待选答案进行选择。
本申请第二方面,提供一种问答处理装置,包括:
第一获取模块,用于获取问题;
第二获取模块,用于获取待选答案库;所述待选答案库包含多个待选答案;
应答模型处理模块,用于将所述问题和所述待选答案库输入预先训练好的应答模型中,得到所述应答模型输出的最终答案;所述应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,所述Bi-LSTM层的输出作为所述CNN层的输入;
所述应答模型,用于根据所述问题和所述待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个所述答案特征向量与所述问题特征向量的余弦相似度;将与所述问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为所述问题的最终答案输出。
可选地,所述应答模型还包括:池化层;所述CNN层的输出作为所述池化层的输入;所述池化层,用于对所述CNN层的输出进行二次采样,得到所述问题特征向量和每个所述待选答案对应的答案特征向量。
可选地,装置还包括:
第三获取模块,用于获取问题语料库;所述问题语料库中包含多个问题语料;
关键词提取模块,用于提取每个所述问题语料中的关键词;
关键词扩展模块,用于对每个所述问题语料中的关键词进行扩展,获得扩展后的关键词;
分类与提取模块,用于根据所述扩展后的关键词,对每个所述问题语料进行分类,并提取分类后的问题语料的主题;
第四获取模块,用于获得每个问题语料的答案语料;
训练集与测试集构建模块,用于根据所述分类后的问题语料、所述分类后的问题语料的主题以及所述每个问题语料的答案语料,构建所述应答模型的训练集和测试集;
训练模块,用于利用所述训练集训练所述应答模型的参数;
测试模块,利用所述测试集调整所述参数,获得训练好的应答模型。
可选地,所述关键词扩展模块,具体包括:
第一扩展单元,用于利用同义词词库对每个所述问题语料库中的关键词进行扩展;
和/或,第二扩展单元,用于通过词性组合构建复合词的方式对每个所述问题语料库中的关键词进行扩展。
可选地,所述应答模型中所述Bi-LSTM层采用注意力机制对输入的所述待选答案进行选择。
本申请第三方面,提供一种问答系统,包括:前述第二方面提供的问答处理装置;还包括:输入设备,存储器和输出设备;
所述输入设备,用于接收问题;
所述存储器,用于存储待选答案库;
所述问答处理装置,用于从所述输入设备获取所述问题,并从所述存储器获取所述待选答案库;根据所述问题和所述待选答案库得到所述问题的最终答案;将所述最终答案传输至输出设备;
所述输出设备,用于将所述最终答案输出。
相较于现有技术,本申请具有以下有益效果:
本申请实施例提供的问答处理方法,首先获取问题和待选答案库,其中待选答案库包含多个待选答案;其后,将问题和待选答案库输入预先训练好的应答模型中,得到应答模型输出的最终答案。该方法中应用的应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,Bi-LSTM层的输出作为CNN层的输入。该应答模型根据问题和待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个答案特征向量与问题特征向量的余弦相似度;将与问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为问题的最终答案输出。
由于应答模型中CNN层位于Bi-LSTM层之上,因此能够获得表达更加准确的问题特征向量与答案特征向量,提高了问题特征向量与答案特征向量的匹配准确率。相比于现有技术,有效提高了所输出的最终答案与问题的匹配性,进而提升用户的使用体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种问答处理方法的流程图;
图2为沿着时间展开的Bi-LSTM的示意图;
图3为本申请实施例提供的一种问答处理方法的流程图;
图4为本申请实施例提供的一种应答模型的架构示意图;
图5为本申请实施例提供的一种问答处理装置的结构示意图;
图6为本申请实施例提供的一种问答系统的结构示意图。
具体实施方式
正如前文描述,目前的一些问答系统往往提供的回答与问题的匹配性较低,导致用户的使用体验较差。基于此问题,发明人经过研究,提供一种问答处理方法、装置及问答系统。本申请实施例中,应用一种包含双向循环神经网络Bi-LSTM层和卷积神经网络CNN层的应答模型,该应答模型将与问题匹配度最高的答案输出,提高答案与问题的匹配性,提升用户的使用体验。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例一
参见图1,该图为本申请实施例提供的一种问答处理方法的流程图。
如图1所示,本申请实施例提供的问答处理方法,包括:
步骤101:获取问题和待选答案库。
本实施例中,预先准备待选答案库。该待选答案库中,包含大量问题语料对应的答案语料,在未对本步骤获取的问题进行处理之前,待选答案库中的每一段答案语料均可视为是问题的待选答案。即,待选答案库中包含多个待选答案。
下面以网上购物场景为例,对获取到的问题进行举例。在该场景中,获取到的问题可能是:
(1)什么时候发货?(2)退货地址是什么?(3)换货地址是什么?(4)尺码偏大还是偏小?(5)洗后会褪色吗?(6)洗后会缩水吗?(7)是真货吗?
在一种可能的实现方式中,待选答案库能够实时更新或定时更新。
本步骤中,获取问题和待选答案库,目的是为后续得到问题最匹配的答案。下面结合步骤102具体描述获取答案的过程。
步骤102:将所述问题和所述待选答案库输入预先训练好的应答模型中,得到所述应答模型输出的最终答案。
下面,对本实施例中应用的应答模型进行介绍和说明。本实施例中预先训练好应答模型,该模型中包括:双向循环神经网络(Bi-directional Long Short-Term MemoryNetworks,Bi-LSTM)层和卷积神经网络(Convolutional Neural Networks,CNN)层。其中,CNN层位于Bi-LSTM层的上层,即Bi-LSTM层的输出作为所述CNN层的输入。
Bi-LSTM层具有两个分别序列向前和序列向后的长短期记忆单元(Long Short-Term Memory Cell,LSTM)。这两个LSTM均连接同一输出层。Bi-LSTM层的结构提供给输出层的输入序列中每一个点的完整的过去和未来的上下文信息。
参见图2,该图为沿着时间展开的Bi-LSTM的示意图。图2中,Bi-LSTM层具体包括:输入层、前向传播层、后向传播层和输出层。其中,w1表示从输入层进入前向传播层,w2表示前向传播,w3表示从输入层进入后向传播层,w4表示从前向传播层进入输出层,w5表示后向传播,w6表示从后向传播层进入输出层。
CNN层对于词语排序敏感,能够根据词语在语句中的位置捕获多元词汇特征。同时CNN层能够学习语句的内部语法结构。
对于本领域技术人员,Bi-LSTM与CNN属于较为成熟的技术,因此本实施例对于Bi-LSTM和CNN的原理和结构不进行赘述。
本实施例中,应答模型主要有以下功能:根据步骤101获得的问题和待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个所述答案特征向量与所述问题特征向量的余弦相似度;将与问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为所述问题的最终答案输出。
可以理解的是,由于问题特征向量是根据问题获得,待选答案对应的答案特征向量是根据待选答案获得,因此问题特征向量与答案特征向量的余弦相似度能够反映问题与待选答案的匹配程度。如果某一答案特征向量与问题特征向量的余弦相似度越高,即表示该答案特征向量对应的待选答案与问题的匹配程度越高。
余弦相似度的取值范围为[-1,1],其中,余弦相似度若为正值,表示进行计算的两个特征向量方向夹角在[0°,90°),即两个特征向量相似;余弦相似度若为负值,表示进行计算的两个特征向量方向夹角在(90°,180°],即两个特征向量相异;余弦相似度若为0,表示进行计算的两个特征向量相互独立。
对于本领域技术人员,如何根据两个向量求取向量之间的余弦相似度属于较为成熟的技术,因此本实施例中应答模型获取余弦相似度的过程不加赘述。
显然,由于余弦相似度反映了问题与待选答案的匹配程度,因此,应答模型在具体使用时,将与问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为所述问题的最终答案输出。
下面仍以网上购物场景为例,对应答模型筛选最终答案的过程进行举例说明。问题为:身高165cm,体重50kg,店铺首页第1款服装穿什么尺码合适?待选答案A1为S码,待选答案A2为M码,待选答案A3为店主手机号码。利用应答模型获得A1对应的答案特征向量O1与问题特征向量Q的余弦相似度为0.9,A2对应的答案特征向量O2与问题特征向量Q的余弦相似度为0.7,A3对应的答案特征向量O3与问题特征向量Q的余弦相似度为-0.2。通过比较各个余弦相似度0.9、0.7和-0.2,可知,待选答案A1与问题的匹配程度最高,因此应答模型将待选答案A1作为最终答案输出。
以上,即为本申请实施例提供的问答处理方法,该方法首先获取问题和待选答案库,其中待选答案库包含多个待选答案;其后,将问题和待选答案库输入预先训练好的应答模型中,得到应答模型输出的最终答案。该方法中应用的应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,Bi-LSTM层的输出作为CNN层的输入。该应答模型根据问题和待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个答案特征向量与问题特征向量的余弦相似度;将与问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为问题的最终答案输出。
由于应答模型中CNN层位于Bi-LSTM层之上,因此能够获得表达更加准确的问题特征向量与答案特征向量,提高了问题特征向量与答案特征向量的匹配准确率。相比于现有技术,有效提高了所输出的最终答案与问题的匹配性,进而提升用户的使用体验。
在前述实施例的基础上,本申请还进一步提供了另一种问答处理方法。该方法对应答模型的训练过程进行了介绍说明。下面结合实施例和附图对该方法的具体实现进行描述。
方法实施例二
参见图3,该图为本申请实施例提供的另一种问答处理方法的流程图。
如图3所示,本实施例提供的问答处理方法,包括:
步骤301:获取问题语料库。
在本申请实施例中,问题语料库中包含多个问题语料。
可以理解的是,问题语料库中各个问题语料涉及的语义环境可能不同。例如,某些问题语料来自网上购物场景,某些问题语料来自智力竞答场景,某些问题语料来自医疗咨询场景。
步骤302:提取每个所述问题语料中的关键词。
可以理解的是,对于超过一个词语构成的问题语料,如一个语句或一个段落,其中包含关键词和非关键词。例如,问题“今天的天气如何”中,“天气”和“今天”即为两个关键词,而“的”和“如何”为非关键词;问题“世界上最高的山峰是哪一座”中,“山峰”、“最高”和“世界”是关键词,而“上”、“的”、“是”和“哪一座”分别为非关键词。
为训练一个能够准确输出与问题最匹配的答案的应答模型,通过执行本步骤,首先提取出各个问题语料中的关键词。
步骤303:对每个所述问题语料中的关键词进行扩展,获得扩展后的关键词。
可以理解的是,在实际使用中,存在问题过短的可能性,这样将会产生一些问题,例如:经常共现的词汇可能语义不相关,或者语义高度相关的词汇呈现频率很低。显然,这些问题容易影响答案的匹配性。基于此问题,为训练一个实用性较高的应答模型,本步骤对问题语料中的关键词进行扩展。
在一些实现方式中,可以利用同义词词库对每个所述问题语料库中的关键词进行扩展。可以理解的是,同义词词库中包含多种语义相同或相近的词汇,例如:词汇a与词汇b是同义词;词汇c与词汇d是同义词。如果问题语料库中的关键词是同义词词库中包含的词汇,则可依据同义词词库索引出关键词的同义词,从而实现对关键词的扩展。
在另一些实现方式中,还可以通过词性组合构建复合词的方式对每个所述问题语料库中的关键词进行扩展。可以理解的是,各种词性中,名词词性和动词词性的词汇更加具有实意性。本实现方式中,可以根据中文的语法习惯,结合关键词在问题语料中的位置和词性,获得包含关键词的复合词,例如:名词结合名词,动词结合名词,形容词结合名词等。
通过执行本步骤,实现对关键词的扩展。从而削弱因问题预料过短对答案匹配性的不利影响。
步骤304:根据所述扩展后的关键词,对每个所述问题语料进行分类,并提取分类后的问题语料的主题。
作为一示例,本步骤可以具体依据语义场景对问题语料进行分类。
通过对分类后的问题语料的主题进行主题提取,能够根据该主题更加清晰地构建每个问题语料与其对应的答案语料之间的关联。
步骤305:获得每个问题语料的答案语料。
在本实施例中,答案语料和问题语料均是已知的,并且问题语料与答案语料的对应关系也是已知的。
步骤306:根据所述分类后的问题语料、所述分类后的问题语料的主题以及所述每个问题语料的答案语料,构建所述应答模型的训练集和测试集。
作为示例,本实施例中可以按照主题构建训练集和测试集。例如:“投诉”主题的训练集和测试集,“退货”主题的训练集和测试集,“快递发货”主题的训练集和测试集。对于相互匹配的问题语料和答案语料,当问题语料的主题确定,即确定了对应的答案预料的主题。
本实施例中,每个训练集和测试集均包含相互匹配的问题语料与答案语料。作为一示例性的实现方式,获取“投诉”主题的相互匹配的问题语料与答案语料500对,将500对中的80%作为应答模型的训练集,将500对中剩余的20%作为应答模型的测试集。
步骤307:利用所述训练集训练所述应答模型的参数。
通过本步骤,获得初步训练好的应答模型。为了验证和测试该模型的准确性,执行下述步骤308。
步骤308:利用所述测试集调整所述参数,获得训练好的应答模型。
需要说明的是,本实施例训练的应答模型中,包含双向循环神经网络Bi-LSTM层和卷积神经网络CNN层。另外,经过CNN层输出的特征向量还需经过激活函数处理。
由于经过卷积和用激活函数处理后得到的特征向量中都包含了一小块冗余信息,如果继续使用包含了冗余信息的特征向量进行计算,不仅会降低算法性能,还会破坏算法的平移不变性。为了提高算法的性能和防止过拟合,这里需要对特征向量进行二次采样。这样的操作又叫池化,即将特征向量分成一小块一小块的区域,对每个区域计算出一个值,然后将计算出的值依次排列,并输出新的问题特征向量。
故,在本实施例中,应答模型的CNN层之上还设置了池化层。参见图4,该图为本申请实施例提供的一种应答模型的架构示意图。如图4所示,该应答模型中Bi-LSTM层的输出作为CNN层的输入;CNN层的输出作为所述池化层的输入。池化层,用于对所述CNN层的输出进行二次采样,得到所述问题特征向量和每个所述待选答案对应的答案特征向量。
另外,当Bi-LSTM层在问题特征向量和答案特征向量上长距离传播相互关系时,固定长度的隐层向量会产生局限性,因此本实施例中应答模型采用注意力机制来解决该问题,同时减少在传播过程中信息丢失的问题。
此外,由于有的答案语料可能会很长,因此为了防止Bi-LSTM层在学习答案特征向量时,将答案中某些重要信息丢失,本实施例利用注意力机制对Bi-LSTM层的输入进行特定选择。即,待应答模型训练好以后进行实际应用时,应答模型中Bi-LSTM层采用注意力机制对输入的待选答案进行选择。同样,在应答模型中对于答案语料中的主题,本方法也用相同的方式和两次注意力机制对主题中的重要信息进行加权,并且利用CNN层对学习后的主题信息进行特征提取。
通过图4可知,本文能够将答案语料和标题经过两种神经网络学习后的文本表示信息进行拼接并进行池化操作从而得到答案特征向量向量。
步骤309:获取问题和待选答案库。
步骤310:将所述问题和所述待选答案库输入预先训练好的应答模型中,得到所述应答模型输出的最终答案。
在本实施例中,步骤309至310的实现方式与前述实施例中步骤101至102的实现方式相同。关于步骤309至310的相关描述可参照前述实施例,此处不再赘述。
以上,即为本申请实施例提供的问答处理方法。该方法在应答模型中引入注意力机制,从而降低答案语料或待选答案的重要信息丢失几率。另外,在CNN层之上设置池化层,有效为了提高应答模型的性能,并防止过拟合。
基于前述实施例提供的问答处理方法,相应地,本申请还提供一种问答处理装置。下面结合实施例和附图对该装置的具体实现进行描述。
装置实施例
参见图5,该图为本申请实施例提供的一种问答处理装置的结构示意图。
如图5所示,本实施例提供的问答处理装置,包括:
第一获取模块501,用于获取问题;
第二获取模块502,用于获取待选答案库;所述待选答案库包含多个待选答案;
应答模型处理模块503,用于将所述问题和所述待选答案库输入预先训练好的应答模型中,得到所述应答模型输出的最终答案;所述应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,所述Bi-LSTM层的输出作为所述CNN层的输入;
所述应答模型,用于根据所述问题和所述待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个所述答案特征向量与所述问题特征向量的余弦相似度;将与所述问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为所述问题的最终答案输出。
以上,即为本申请实施例提供的问答处理装置,装置中应用的应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,Bi-LSTM层的输出作为CNN层的输入。由于应答模型中CNN层位于Bi-LSTM层之上,因此能够获得表达更加准确的问题特征向量与答案特征向量,提高了问题特征向量与答案特征向量的匹配准确率。相比于现有技术,有效提高了所输出的最终答案与问题的匹配性,进而提升用户的使用体验。
可选地,所述应答模型还包括:池化层;所述CNN层的输出作为所述池化层的输入;所述池化层,用于对所述CNN层的输出进行二次采样,得到所述问题特征向量和每个所述待选答案对应的答案特征向量。
可选地,该问答处理装置还包括:
第三获取模块,用于获取问题语料库;所述问题语料库中包含多个问题语料;
关键词提取模块,用于提取每个所述问题语料中的关键词;
关键词扩展模块,用于对每个所述问题语料中的关键词进行扩展,获得扩展后的关键词;
分类与提取模块,用于根据所述扩展后的关键词,对每个所述问题语料进行分类,并提取分类后的问题语料的主题;
第四获取模块,用于获得每个问题语料的答案语料;
训练集与测试集构建模块,用于根据所述分类后的问题语料、所述分类后的问题语料的主题以及所述每个问题语料的答案语料,构建所述应答模型的训练集和测试集;
训练模块,用于利用所述训练集训练所述应答模型的参数;
测试模块,利用所述测试集调整所述参数,获得训练好的应答模型。
可选地,所述关键词扩展模块具体包括:
第一扩展单元,用于利用同义词词库对每个所述问题语料库中的关键词进行扩展;
和/或,第二扩展单元,用于通过词性组合构建复合词的方式对每个所述问题语料库中的关键词进行扩展。
可选地,所述应答模型中所述Bi-LSTM层采用注意力机制对输入的所述待选答案进行选择。
装置在应答模型中引入注意力机制,从而降低答案语料或待选答案的重要信息丢失几率。另外,在CNN层之上设置池化层,有效为了提高应答模型的性能,并防止过拟合。
基于前述实施例提供的问答处理装置,相应地,本申请还提供一种问答系统。下面结合实施例和附图对该装置的具体实现进行描述。
系统实施例
参见图6,该图为本申请实施例提供的一种问答系统的结构示意图。
如图6所示,本实施例提供的问答系统,包括:
前述装置实施例提供的问答处理装置601;还包括:输入设备602,存储器603和输出设备604。
其中,所述输入设备602,用于接收问题;
所述存储器603,用于存储待选答案库;
所述问答处理装置601,用于从所述输入设备获取所述问题,并从所述存储器获取所述待选答案库;根据所述问题和所述待选答案库得到所述问题的最终答案;将所述最终答案传输至输出设备;
所述输出设备604,用于将所述最终答案输出。
本实施例中,作为示例,输入设备602可以是:麦克风、键盘等。输出设备604可以是:扬声器、显示器等。存储器603可以是:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)等。
本实施例中对于输入设备602、存储器603以及输出设备604的具体类型不加以限定。
相比于现有技术,该问答系统由于包含一个应用了应答模型的问答处理装置,CNN层位于Bi-LSTM层之上,因此能够获得表达更加准确的问题特征向量与答案特征向量,提高了问题特征向量与答案特征向量的匹配准确率。该问答系统有效提高了所输出的最终答案与问题的匹配性,进而提升用户的使用体验。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (11)
1.一种问答处理方法,其特征在于,包括:
获取问题和待选答案库;所述待选答案库包含多个待选答案;
将所述问题和所述待选答案库输入预先训练好的应答模型中,得到所述应答模型输出的最终答案;所述应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,所述Bi-LSTM层的输出作为所述CNN层的输入;
所述应答模型,用于根据所述问题和所述待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个所述答案特征向量与所述问题特征向量的余弦相似度;将与所述问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为所述问题的最终答案输出。
2.根据权利要求1所述的方法,其特征在于,所述应答模型还包括:池化层;所述CNN层的输出作为所述池化层的输入;所述池化层,用于对所述CNN层的输出进行二次采样,得到所述问题特征向量和每个所述待选答案对应的答案特征向量。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
获取问题语料库;所述问题语料库中包含多个问题语料;
提取每个所述问题语料中的关键词;
对每个所述问题语料中的关键词进行扩展,获得扩展后的关键词;
根据所述扩展后的关键词,对每个所述问题语料进行分类,并提取分类后的问题语料的主题;
获得每个问题语料的答案语料;
根据所述分类后的问题语料、所述分类后的问题语料的主题以及所述每个问题语料的答案语料,构建所述应答模型的训练集和测试集;
利用所述训练集训练所述应答模型的参数;
利用所述测试集调整所述参数,获得训练好的应答模型。
4.根据权利要求3所述的方法,其特征在于,所述对每个所述问题语料中的关键词进行扩展,具体包括:
利用同义词词库对每个所述问题语料库中的关键词进行扩展;
和/或,通过词性组合构建复合词的方式对每个所述问题语料库中的关键词进行扩展。
5.根据权利要求1或2所述的方法,其特征在于,所述应答模型中所述Bi-LSTM层采用注意力机制对输入的所述待选答案进行选择。
6.一种问答处理装置,其特征在于,包括:
第一获取模块,用于获取问题;
第二获取模块,用于获取待选答案库;所述待选答案库包含多个待选答案;
应答模型处理模块,用于将所述问题和所述待选答案库输入预先训练好的应答模型中,得到所述应答模型输出的最终答案;所述应答模型包括:双向循环神经网络Bi-LSTM层和卷积神经网络CNN层,所述Bi-LSTM层的输出作为所述CNN层的输入;
所述应答模型,用于根据所述问题和所述待选答案库分别获得问题特征向量和每个待选答案对应的答案特征向量;分别获取每个所述答案特征向量与所述问题特征向量的余弦相似度;将与所述问题特征向量的余弦相似度最高的答案特征向量对应的待选答案作为所述问题的最终答案输出。
7.根据权利要求6所述的装置,其特征在于,所述应答模型还包括:池化层;所述CNN层的输出作为所述池化层的输入;所述池化层,用于对所述CNN层的输出进行二次采样,得到所述问题特征向量和每个所述待选答案对应的答案特征向量。
8.根据权利要求6或7所述的装置,其特征在于,还包括:
第三获取模块,用于获取问题语料库;所述问题语料库中包含多个问题语料;
关键词提取模块,用于提取每个所述问题语料中的关键词;
关键词扩展模块,用于对每个所述问题语料中的关键词进行扩展,获得扩展后的关键词;
分类与提取模块,用于根据所述扩展后的关键词,对每个所述问题语料进行分类,并提取分类后的问题语料的主题;
第四获取模块,用于获得每个问题语料的答案语料;
训练集与测试集构建模块,用于根据所述分类后的问题语料、所述分类后的问题语料的主题以及所述每个问题语料的答案语料,构建所述应答模型的训练集和测试集;
训练模块,用于利用所述训练集训练所述应答模型的参数;
测试模块,利用所述测试集调整所述参数,获得训练好的应答模型。
9.根据权利要求8所述的装置,其特征在于,所述关键词扩展模块,具体包括:
第一扩展单元,用于利用同义词词库对每个所述问题语料库中的关键词进行扩展;
和/或,第二扩展单元,用于通过词性组合构建复合词的方式对每个所述问题语料库中的关键词进行扩展。
10.根据权利要求6或7所述的装置,其特征在于,所述应答模型中所述Bi-LSTM层采用注意力机制对输入的所述待选答案进行选择。
11.一种问答系统,其特征在于,包括:权利要求6-10任一项所述的问答处理装置;还包括:输入设备,存储器和输出设备;
所述输入设备,用于接收问题;
所述存储器,用于存储待选答案库;
所述问答处理装置,用于从所述输入设备获取所述问题,并从所述存储器获取所述待选答案库;根据所述问题和所述待选答案库得到所述问题的最终答案;将所述最终答案传输至输出设备;
所述输出设备,用于将所述最终答案输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910213110.9A CN109947922A (zh) | 2019-03-20 | 2019-03-20 | 一种问答处理方法、装置及问答系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910213110.9A CN109947922A (zh) | 2019-03-20 | 2019-03-20 | 一种问答处理方法、装置及问答系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109947922A true CN109947922A (zh) | 2019-06-28 |
Family
ID=67010382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910213110.9A Pending CN109947922A (zh) | 2019-03-20 | 2019-03-20 | 一种问答处理方法、装置及问答系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109947922A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674246A (zh) * | 2019-09-19 | 2020-01-10 | 北京小米智能科技有限公司 | 问答模型训练方法、自动问答方法及装置 |
CN111428499A (zh) * | 2020-04-27 | 2020-07-17 | 南京大学 | 一种融合近义词信息用于自动问答系统的成语压缩表示方法 |
WO2021174783A1 (zh) * | 2020-03-02 | 2021-09-10 | 平安科技(深圳)有限公司 | 近义词推送方法、装置、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834651A (zh) * | 2014-02-12 | 2015-08-12 | 北京京东尚科信息技术有限公司 | 一种提供高频问题回答的方法和装置 |
US20160342895A1 (en) * | 2015-05-21 | 2016-11-24 | Baidu Usa Llc | Multilingual image question answering |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
CN109446307A (zh) * | 2018-10-16 | 2019-03-08 | 浪潮软件股份有限公司 | 一种实现智能对话中对话管理的方法 |
-
2019
- 2019-03-20 CN CN201910213110.9A patent/CN109947922A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834651A (zh) * | 2014-02-12 | 2015-08-12 | 北京京东尚科信息技术有限公司 | 一种提供高频问题回答的方法和装置 |
US20160342895A1 (en) * | 2015-05-21 | 2016-11-24 | Baidu Usa Llc | Multilingual image question answering |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
CN109446307A (zh) * | 2018-10-16 | 2019-03-08 | 浪潮软件股份有限公司 | 一种实现智能对话中对话管理的方法 |
Non-Patent Citations (2)
Title |
---|
MING TAN等: "LSTM-based Deep Learning Models for Non-factoid Answer Selection", 《INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS 2016》 * |
朱龙霞: "面向中文问答系统问题分析与答案抽取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674246A (zh) * | 2019-09-19 | 2020-01-10 | 北京小米智能科技有限公司 | 问答模型训练方法、自动问答方法及装置 |
WO2021174783A1 (zh) * | 2020-03-02 | 2021-09-10 | 平安科技(深圳)有限公司 | 近义词推送方法、装置、电子设备及介质 |
CN111428499A (zh) * | 2020-04-27 | 2020-07-17 | 南京大学 | 一种融合近义词信息用于自动问答系统的成语压缩表示方法 |
CN111428499B (zh) * | 2020-04-27 | 2021-10-26 | 南京大学 | 一种融合近义词信息用于自动问答系统的成语压缩表示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US10642939B2 (en) | Systems and methods for generating jokes | |
CN110083693B (zh) | 机器人对话回复方法及装置 | |
CN109086303A (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
CN109710732B (zh) | 信息查询方法、装置、存储介质和电子设备 | |
CN106980624A (zh) | 一种文本数据的处理方法和装置 | |
CN110096567A (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
CN103491205A (zh) | 一种基于视频搜索的关联资源地址的推送方法和装置 | |
CN109165291A (zh) | 一种文本匹配方法及电子设备 | |
CN109947922A (zh) | 一种问答处理方法、装置及问答系统 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN108628935A (zh) | 一种基于端到端记忆网络的问答方法 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN110597968A (zh) | 一种回复选择方法及装置 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113239666A (zh) | 一种文本相似度计算方法及系统 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN106708950B (zh) | 用于智能机器人自学习系统的数据处理方法及装置 | |
Mondal et al. | Improved algorithms for keyword extraction and headline generation from unstructured text | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN116975221A (zh) | 文本阅读理解方法、装置、设备及存储介质 | |
CN114756646A (zh) | 一种对话方法、对话装置及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190628 |