CN110851673B - 一种改进的集束搜索方法及问答系统 - Google Patents

一种改进的集束搜索方法及问答系统 Download PDF

Info

Publication number
CN110851673B
CN110851673B CN201911100712.XA CN201911100712A CN110851673B CN 110851673 B CN110851673 B CN 110851673B CN 201911100712 A CN201911100712 A CN 201911100712A CN 110851673 B CN110851673 B CN 110851673B
Authority
CN
China
Prior art keywords
sequence
optimal solution
output
decoder
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911100712.XA
Other languages
English (en)
Other versions
CN110851673A (zh
Inventor
李自胜
杨侨
胡朝海
肖晓萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN201911100712.XA priority Critical patent/CN110851673B/zh
Publication of CN110851673A publication Critical patent/CN110851673A/zh
Application granted granted Critical
Publication of CN110851673B publication Critical patent/CN110851673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种改进的集束搜索策略,在seq2seq模型中,包括以下过程,S1、根据上一时刻t‑1的最优解序列,得到序列中的每个单词对应的似然概率;S2、选取似然概率最大的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;S3、重复步骤S1‑S2得到末时刻的最优解序列,即为最终答案。本发明提供的集束搜索策略不仅保证了解的质量,在过拟合的解空间中提高了模型的鲁棒性,而且还增加了解的多样性,使得采用该策略的问答系统具有良好的鲁棒性,系统本身也具有更高的自适应性。

Description

一种改进的集束搜索方法及问答系统
技术领域
本发明涉及智能问答领域,特别设计一种改进的集束搜索方法及问答系统。
背景技术
集束搜索(Beam Search)是一种启发式图搜索算法。不同于深度优先搜索和广度优先搜索,Beam Search每次仅将一定数量的局部最优选择作为候选路径,大大节省了搜索成本。其本质仍是贪心搜索,扩大了解的搜索范围,提高了找到全局最优解的概率。在Seq2Seq模型中,Decoder输出部分其实就是一种图搜索。Decoder是seq2seq模型的常见问题,常用方法有贪心搜索(Greedy Search)集束搜索(Beam Search)。
现有技术中贪心搜索方法如图1所示,Decoder根据Encoder的中间语义编码向量c和<s>标签得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1],选择概率最大的0.4,即b'。根据隐向量h1和b'得到第二个输出的概率分布[0.1,0.1,0.1,0.1,0.6],选择概率最大的0.6,即a'。以此类推,直到遇到<\s>标签,得到最终的序列b'a'd'。
现有技术中集束搜索方法如图2所示,贪心搜索只选择了概率最大的一个,而集束搜索则选择了概率最大的前k个。这个k值也叫做集束宽度(Beam Width)。还是以上面的例子作为说明,k值等于2,得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1],选择概率最大的前两个,0.3和0.4,即c'和b'。然后c'和b'为Decoder的输入,得到两个概率分布,然后再选择概率和最大的前两个序列,0.3+0.8和0.4+0.6,即c'a'和b'a'。
以此类推,最终可以得到两个序列,即c'a'd'和b'a'd',很明显前者的概率和最大,为2.2,所以这个序列是最终得到的结果。集束搜索本质上也是贪心的思想,只不过它考虑了更多的候选搜索空间。
集束搜索算法有效的重要原因之一便是解空间的客观性和准确性。对于普通的图论问题,图结构是固定的,即解空间是客观且准确的;而对于Seq2Seq中Decoder而言,其解空间是由模型根据训练集训练得到的,即模型的泛化性能直接影响解空间的准确性,进而影响集束搜索算法搜索的结果。对于机器翻译问题来说,其源语言与目标语言间的单词对应关系是比较固定的,因而过拟合问题不明显;而对于对话生成而言,其问句与答句间的对应关系是十分模棱两可的,这也直接导致了过拟合问题在基于Seq2Seq的对话生成上十分明显,从而导致其解空间不够准确,不够准确的解空间将导致不准确的序列似然概率估计,最终集束搜索得到的解也将不够好。且序列越长,其似然概率估计的误差越大。
发明内容
针对上述存在的问题,提供了在seq2seq(序列到序列)中的Decoder(解码)生成答案的搜索方法上对传统的集束搜索算法提出改进,解决了解空间中的过拟合因素,以提高回复质量。
本发明采用的技术方案如下:一种改进的集束搜索方法,其特征在于,在seq2seq模型的解码过程中,设定集束宽度为i,其中i为大于1的自然数,具体过程如下:
S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率;
S2、根据似然概率从大到小选取对应的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;
S3、重复步骤S1-S2得到末时刻的最优解序列,即为最终答案。
进一步的,所述步骤S2中每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率的具体计算方法为:
Figure GDA0003711772750000021
其中,
Figure GDA0003711772750000031
表示给定x的情况下出现
Figure GDA0003711772750000032
的概率,x表示Decoder的输入,
Figure GDA0003711772750000033
表示
Figure GDA0003711772750000034
中第j个单词输出,
Figure GDA0003711772750000035
为上一时刻的第i个最优解序列。
进一步的,所述步骤S2中的择优标准为:对i个输出序列中单词计算对应似然概率的对数,以每个输出序列的对数和作为择优标准,保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。
进一步的,所述步骤S2中的择优标准为:将每个输出序列的似然概率的对数值与最优解序列长度的比值作为评价指标,取评价指标最大的序列作为最优解序列。
进一步的,所述评价指标中还采用了柔化系数在完全按照长度归一化与完全不按照长度归一化之间作一个权衡。
进一步的,所述评价指标具体确定方法为:
Figure GDA0003711772750000036
其中,
Figure GDA0003711772750000037
表示末时刻的第i个最优解序列的评价指标,
Figure GDA0003711772750000038
表示末时刻第i个最优解序列,α表示柔化系数。
本发明还提供了一种问答系统,所述问答系统基于序列到序列模型生成,通过基于循环神经网络的序列到序列模型对语料数据进行建模,实现单轮的对话生成;所述序列到序列模型包括双向GRU编码器、单向GRU解码器以及Luong Attention,所述解码器在解码过程中执行上述改进的搜索方法。
进一步的,所述编码器为5层双向GRU编码器;所述解码器为3层单向GRU解码器。
进一步的,所述序列到序列模型编解码过程为:首先利用词嵌入技术对输入序列进行词向量转换,然后送入双向GRU编码器中进行特征提取,最后解码器通过单向GRU对编码器的编码信息进行解码。
与现有技术相比,采用上述技术方案的有益效果为:改进的集束搜索方法不仅保证了解的质量,在过拟合的解空间中提高了模型的鲁棒性,而且还增加了解的多样性。这也证明改进的集束搜索算法更适合对话生成的Seq2Seq模型。通过使用该集束搜索方法使得问答系统具有良好的鲁棒性,系统本身也具有更高的自适应性。
附图说明
图1是现有技术中贪心搜索方法的解码器序列输出图。
图2是现有技术中集束搜索方法的解码器序列输出图。
图3是本发明中集束搜索方法的解码器序列输出图。
图4是传统集束搜索算法与本发明的集束搜索算法测试对比图。
具体实施方式
下面结合附图对本发明做进一步描述。
基于传统的集束搜索方法,本发明提供了一种改进后的集束搜索方法在seq2seq模型的解码过程中,设定集束宽度为i,其中i为大于1的自然数,具体过程如下:
S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率;其中,序列中每个单词的似然概率是编码过程输出的,此处为解码过程,可直接根据编码过程输出的似然概率进行使用。
S2、根据似然概率从大到小选取对应的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;
S3、重复步骤S1-S2得到末时刻的最优解序列,即为最终答案。
其中,步骤S2中的择优标准为:对i个输出序列中单词计算对应似然概率的对数,以每个输出序列的对数和作为择优标准,保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。
具体方法如下:
定义搜索束宽度为i,设上一时刻t-1的i个最优解序列为
Figure GDA0003711772750000041
Figure GDA0003711772750000042
Figure GDA0003711772750000051
其中,
Figure GDA0003711772750000052
表示
Figure GDA0003711772750000053
中第j个单词输出。
其对应的似然概率为
Figure GDA0003711772750000054
在计算似然概率时,仅考虑序列最末时刻的在给定输入下的条件概率,并以其对数作为下一时刻t最优解序列的择优标准:
Figure GDA0003711772750000055
其中,
Figure GDA0003711772750000056
表示给定x的情况下出现
Figure GDA0003711772750000057
的概率,x表示Decoder的输入,
Figure GDA0003711772750000058
序列最末时刻的单词输出,
Figure GDA0003711772750000059
为上一时刻的第i个最优解序列。
为了防止下溢等情况的发生,一般对似然概率取对数得到
Figure GDA00037117727500000510
对于
Figure GDA00037117727500000511
计算所有可能的输出序列
Figure GDA00037117727500000512
然后根据其对应的
Figure GDA00037117727500000513
保留最优的
Figure GDA00037117727500000514
作为t时刻的i个最优解序列
Figure GDA00037117727500000515
最终,对于末时刻tn',保留i个输出序列
Figure GDA00037117727500000516
中的最大的一个序列作为
Figure GDA00037117727500000517
在另一个实施例中,提供了另外一种步骤2中保留输出序列中最优解序列的择优标准,按照输出序列对数似然概率值与序列长度的比值作为评价指标,取该指标最大的输出序列作为最优解序列
Figure GDA00037117727500000518
评价指标具体如下:
Figure GDA00037117727500000519
其中α表示柔化系数,用来在完全按长度归一化与完全不按长度归一化之间作一个权衡。采用该择优标准可以很明显的减少了对输出长的结果的惩罚,使得择优结果更精确。
本发明还提供了一种问答系统,所述问答系统基于所述问答系统基于序列到序列模型生成,通过基于循环神经网络的序列到序列模型对语料数据进行建模,实现单轮的对话生成;首先利用词嵌入技术对输入序列进行词向量转换,然后送入编码器中进行特征提取,编码器选用双向的门控循环单元(Gated Recurrent Unit,GRU)。而后解码器通过单向GRU对编码器的编码信息进行解码。并加入了注意力机制(Attention)。通过对话数据对不同模型结构和超参数(包括编码器双向GRU层数、解码器单向GRU层数、注意力计算方式等)的测试,最终确定为5层双向GRU的编码器、3层单向GRU的解码器以及Luong Attention的Seq2Seq结构。
所述解码器生成答案过程中执行上述本发明提供的改进的集束搜索方法。
其中,选取是来自青云语料,共包含105914条对话。
基于上述问答系统对改进后的搜索方法进行测试,采用精确率P,召回率R,综合评价指标F1,来检验系统的准确性和稳定性。通过实验测出传统集束搜索算法与改进后的集束搜索算法测试结果如图4所示,其中,
Figure GDA0003711772750000061
Figure GDA0003711772750000062
表示输出正确答案的个数,N表示输出错误答案的个数,F表示剩余正确答案的个数。
不难发现,传统的集束搜索在对话生成上,其准确率还不如贪心搜索方法,这是由于其解空间中的过拟合因素造成的。改进的集束搜索不仅保证了解的质量,在过拟合的解空间中提高了模型的鲁棒性,而且还增加了解的多样性。这也证明改进的集束搜索算法更适合对话生成的Seq2Seq模型。
在Decoder生成答案的搜索方法上对传统集束搜索算法进行了改进,使得问答系统具有良好的鲁棒性,系统本身也具有更高的自适应性。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (9)

1.一种改进的集束搜索方法,其特征在于,在seq2seq模型的解码过程中,设定集束宽度为i,其中i为大于1的自然数,具体过程如下:
S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率;
S2、根据似然概率从大到小选取对应的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;
S3、重复步骤S1-S2得到末时刻的最优解序列,即为最终答案。
2.根据权利要求1所述的集束搜索方法,其特征在于,所述步骤S2中每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率的具体计算方法为:
Figure FDA0003711772740000011
其中,
Figure FDA0003711772740000012
表示给定x的情况下出现
Figure FDA0003711772740000013
的概率,x表示Decoder的输入,
Figure FDA0003711772740000014
表示中最末时刻的单词输出。
3.根据权利要求1所述的集束搜索方法,其特征在于,所述步骤S2中的择优标准为:对i个输出序列中单词计算对应似然概率的对数,以每个输出序列的对数和作为择优标准,保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。
4.根据权利要求1所述的集束搜索方法,其特征在于,所述步骤S2中的择优标准为:将每个输出序列的似然概率的对数值与最优解序列长度的比值作为评价指标,取评价指标最大的序列作为最优解序列。
5.根据权利要求4所述的集束搜索方法,其特征在于,所述评价指标中还采用了柔化系数在完全按照长度归一化与完全不按照长度归一化之间作一个权衡。
6.根据权利要求5所述的集束搜索方法,其特征在于,所述评价指标具体确定方法为:
Figure FDA0003711772740000021
其中,
Figure FDA0003711772740000022
表示末时刻的第i个最优解序列的评价指标,
Figure FDA0003711772740000023
表示末时刻第i个最优解序列,α表示柔化系数。
7.一种问答系统,其特征在于,所述问答系统基于序列到序列模型生成,通过基于循环神经网络的序列到序列模型对语料数据进行建模,实现单轮的对话生成;所述序列到序列模型包括双向GRU编码器、单向GRU解码器以及Luong Attention,所述解码器在解码过程中执行权利要求1-6之一的集束搜索方法。
8.根据权利要求7的问答系统,其特征在于,所述编码器为5层双向GRU编码器;所述解码器为3层单向GRU解码器。
9.根据权利要求8的问答系统,其特征在于,所述序列到序列模型编解码过程为:首先利用词嵌入技术对输入序列进行词向量转换,然后送入双向GRU编码器中进行特征提取,最后解码器通过单向GRU对编码器的编码信息进行解码。
CN201911100712.XA 2019-11-12 2019-11-12 一种改进的集束搜索方法及问答系统 Active CN110851673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911100712.XA CN110851673B (zh) 2019-11-12 2019-11-12 一种改进的集束搜索方法及问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911100712.XA CN110851673B (zh) 2019-11-12 2019-11-12 一种改进的集束搜索方法及问答系统

Publications (2)

Publication Number Publication Date
CN110851673A CN110851673A (zh) 2020-02-28
CN110851673B true CN110851673B (zh) 2022-08-09

Family

ID=69600581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911100712.XA Active CN110851673B (zh) 2019-11-12 2019-11-12 一种改进的集束搜索方法及问答系统

Country Status (1)

Country Link
CN (1) CN110851673B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798140A (zh) * 2017-11-23 2018-03-13 北京神州泰岳软件股份有限公司 一种对话系统构建方法、语义受控应答方法及装置
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110263143A (zh) * 2019-06-27 2019-09-20 苏州大学 提高相关性的神经问题生成方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123417B (zh) * 2017-05-16 2020-06-09 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及系统
CN107526725B (zh) * 2017-09-04 2021-08-24 北京百度网讯科技有限公司 基于人工智能的用于生成文本的方法和装置
US20190147355A1 (en) * 2017-11-14 2019-05-16 International Business Machines Corporation Self-critical sequence training of multimodal systems
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
CN108959421B (zh) * 2018-06-08 2021-04-13 腾讯科技(深圳)有限公司 候选回复评价装置和问询回复设备及其方法、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN107798140A (zh) * 2017-11-23 2018-03-13 北京神州泰岳软件股份有限公司 一种对话系统构建方法、语义受控应答方法及装置
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110263143A (zh) * 2019-06-27 2019-09-20 苏州大学 提高相关性的神经问题生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Efficient Layer-Wised Beam Pruning Algorithm for Large Vocabulary Continuous Speech Recognition System;Xie Chen et al.;《2012 International Conference on Audio, Language and Image Processing》;20121211;1010-1013 *
基于深度学习的生成式自动摘要技术研究;郭洪杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第1期);I138-4341 *
空间曲线轮廓误差实时估算与补偿方法研究;肖晓萍 等;《四川大学学报(工程科学版)》;20150120;第47卷(第1期);215-222 *

Also Published As

Publication number Publication date
CN110851673A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
WO2019151506A1 (ja) 学習装置、学習方法及び学習プログラム
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN110110324A (zh) 一种基于知识表示的生物医学实体链接方法
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN109697289A (zh) 一种改进的用于命名实体识别的主动学习方法
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN114548101B (zh) 基于可回溯序列生成方法的事件检测方法和系统
WO2019151503A1 (ja) 判定装置、判定方法及び判定プログラム
CN111680512B (zh) 命名实体识别模型、电话总机转接分机方法及系统
CN114067786A (zh) 语音识别方法、装置、电子设备及存储介质
CN110633473A (zh) 基于条件随机场的隐式篇章关系识别方法与系统
CN110992943B (zh) 基于词混淆网络的语义理解方法及系统
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN114648015A (zh) 一种基于依存关系注意力模型的方面级情感词识别方法
CN114817307A (zh) 一种基于半监督学习和元学习的少样本nl2sql方法
CN112214592B (zh) 一种回复对话评分模型训练方法、对话回复方法及其装置
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN111581957B (zh) 一种基于金字塔层级网络的嵌套实体检测方法
CN110851673B (zh) 一种改进的集束搜索方法及问答系统
CN109918484B (zh) 对话生成方法和装置
CN111428519A (zh) 一种基于熵的神经机器翻译动态解码方法及系统
CN115238705A (zh) 语义解析结果重排序方法及系统
CN115081472A (zh) 一种用于雷达行为分析的脉冲信号语法建模及特征提取方法
CN114692615A (zh) 一种针对小语种的小样本意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant