CN110851673B - 一种改进的集束搜索方法及问答系统 - Google Patents
一种改进的集束搜索方法及问答系统 Download PDFInfo
- Publication number
- CN110851673B CN110851673B CN201911100712.XA CN201911100712A CN110851673B CN 110851673 B CN110851673 B CN 110851673B CN 201911100712 A CN201911100712 A CN 201911100712A CN 110851673 B CN110851673 B CN 110851673B
- Authority
- CN
- China
- Prior art keywords
- sequence
- optimal solution
- output
- decoder
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种改进的集束搜索策略,在seq2seq模型中,包括以下过程,S1、根据上一时刻t‑1的最优解序列,得到序列中的每个单词对应的似然概率;S2、选取似然概率最大的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;S3、重复步骤S1‑S2得到末时刻的最优解序列,即为最终答案。本发明提供的集束搜索策略不仅保证了解的质量,在过拟合的解空间中提高了模型的鲁棒性,而且还增加了解的多样性,使得采用该策略的问答系统具有良好的鲁棒性,系统本身也具有更高的自适应性。
Description
技术领域
本发明涉及智能问答领域,特别设计一种改进的集束搜索方法及问答系统。
背景技术
集束搜索(Beam Search)是一种启发式图搜索算法。不同于深度优先搜索和广度优先搜索,Beam Search每次仅将一定数量的局部最优选择作为候选路径,大大节省了搜索成本。其本质仍是贪心搜索,扩大了解的搜索范围,提高了找到全局最优解的概率。在Seq2Seq模型中,Decoder输出部分其实就是一种图搜索。Decoder是seq2seq模型的常见问题,常用方法有贪心搜索(Greedy Search)集束搜索(Beam Search)。
现有技术中贪心搜索方法如图1所示,Decoder根据Encoder的中间语义编码向量c和<s>标签得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1],选择概率最大的0.4,即b'。根据隐向量h1和b'得到第二个输出的概率分布[0.1,0.1,0.1,0.1,0.6],选择概率最大的0.6,即a'。以此类推,直到遇到<\s>标签,得到最终的序列b'a'd'。
现有技术中集束搜索方法如图2所示,贪心搜索只选择了概率最大的一个,而集束搜索则选择了概率最大的前k个。这个k值也叫做集束宽度(Beam Width)。还是以上面的例子作为说明,k值等于2,得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1],选择概率最大的前两个,0.3和0.4,即c'和b'。然后c'和b'为Decoder的输入,得到两个概率分布,然后再选择概率和最大的前两个序列,0.3+0.8和0.4+0.6,即c'a'和b'a'。
以此类推,最终可以得到两个序列,即c'a'd'和b'a'd',很明显前者的概率和最大,为2.2,所以这个序列是最终得到的结果。集束搜索本质上也是贪心的思想,只不过它考虑了更多的候选搜索空间。
集束搜索算法有效的重要原因之一便是解空间的客观性和准确性。对于普通的图论问题,图结构是固定的,即解空间是客观且准确的;而对于Seq2Seq中Decoder而言,其解空间是由模型根据训练集训练得到的,即模型的泛化性能直接影响解空间的准确性,进而影响集束搜索算法搜索的结果。对于机器翻译问题来说,其源语言与目标语言间的单词对应关系是比较固定的,因而过拟合问题不明显;而对于对话生成而言,其问句与答句间的对应关系是十分模棱两可的,这也直接导致了过拟合问题在基于Seq2Seq的对话生成上十分明显,从而导致其解空间不够准确,不够准确的解空间将导致不准确的序列似然概率估计,最终集束搜索得到的解也将不够好。且序列越长,其似然概率估计的误差越大。
发明内容
针对上述存在的问题,提供了在seq2seq(序列到序列)中的Decoder(解码)生成答案的搜索方法上对传统的集束搜索算法提出改进,解决了解空间中的过拟合因素,以提高回复质量。
本发明采用的技术方案如下:一种改进的集束搜索方法,其特征在于,在seq2seq模型的解码过程中,设定集束宽度为i,其中i为大于1的自然数,具体过程如下:
S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率;
S2、根据似然概率从大到小选取对应的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;
S3、重复步骤S1-S2得到末时刻的最优解序列,即为最终答案。
进一步的,所述步骤S2中每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率的具体计算方法为:
进一步的,所述步骤S2中的择优标准为:对i个输出序列中单词计算对应似然概率的对数,以每个输出序列的对数和作为择优标准,保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。
进一步的,所述步骤S2中的择优标准为:将每个输出序列的似然概率的对数值与最优解序列长度的比值作为评价指标,取评价指标最大的序列作为最优解序列。
进一步的,所述评价指标中还采用了柔化系数在完全按照长度归一化与完全不按照长度归一化之间作一个权衡。
进一步的,所述评价指标具体确定方法为:
本发明还提供了一种问答系统,所述问答系统基于序列到序列模型生成,通过基于循环神经网络的序列到序列模型对语料数据进行建模,实现单轮的对话生成;所述序列到序列模型包括双向GRU编码器、单向GRU解码器以及Luong Attention,所述解码器在解码过程中执行上述改进的搜索方法。
进一步的,所述编码器为5层双向GRU编码器;所述解码器为3层单向GRU解码器。
进一步的,所述序列到序列模型编解码过程为:首先利用词嵌入技术对输入序列进行词向量转换,然后送入双向GRU编码器中进行特征提取,最后解码器通过单向GRU对编码器的编码信息进行解码。
与现有技术相比,采用上述技术方案的有益效果为:改进的集束搜索方法不仅保证了解的质量,在过拟合的解空间中提高了模型的鲁棒性,而且还增加了解的多样性。这也证明改进的集束搜索算法更适合对话生成的Seq2Seq模型。通过使用该集束搜索方法使得问答系统具有良好的鲁棒性,系统本身也具有更高的自适应性。
附图说明
图1是现有技术中贪心搜索方法的解码器序列输出图。
图2是现有技术中集束搜索方法的解码器序列输出图。
图3是本发明中集束搜索方法的解码器序列输出图。
图4是传统集束搜索算法与本发明的集束搜索算法测试对比图。
具体实施方式
下面结合附图对本发明做进一步描述。
基于传统的集束搜索方法,本发明提供了一种改进后的集束搜索方法在seq2seq模型的解码过程中,设定集束宽度为i,其中i为大于1的自然数,具体过程如下:
S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率;其中,序列中每个单词的似然概率是编码过程输出的,此处为解码过程,可直接根据编码过程输出的似然概率进行使用。
S2、根据似然概率从大到小选取对应的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;
S3、重复步骤S1-S2得到末时刻的最优解序列,即为最终答案。
其中,步骤S2中的择优标准为:对i个输出序列中单词计算对应似然概率的对数,以每个输出序列的对数和作为择优标准,保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。
具体方法如下:
其中α表示柔化系数,用来在完全按长度归一化与完全不按长度归一化之间作一个权衡。采用该择优标准可以很明显的减少了对输出长的结果的惩罚,使得择优结果更精确。
本发明还提供了一种问答系统,所述问答系统基于所述问答系统基于序列到序列模型生成,通过基于循环神经网络的序列到序列模型对语料数据进行建模,实现单轮的对话生成;首先利用词嵌入技术对输入序列进行词向量转换,然后送入编码器中进行特征提取,编码器选用双向的门控循环单元(Gated Recurrent Unit,GRU)。而后解码器通过单向GRU对编码器的编码信息进行解码。并加入了注意力机制(Attention)。通过对话数据对不同模型结构和超参数(包括编码器双向GRU层数、解码器单向GRU层数、注意力计算方式等)的测试,最终确定为5层双向GRU的编码器、3层单向GRU的解码器以及Luong Attention的Seq2Seq结构。
所述解码器生成答案过程中执行上述本发明提供的改进的集束搜索方法。
其中,选取是来自青云语料,共包含105914条对话。
不难发现,传统的集束搜索在对话生成上,其准确率还不如贪心搜索方法,这是由于其解空间中的过拟合因素造成的。改进的集束搜索不仅保证了解的质量,在过拟合的解空间中提高了模型的鲁棒性,而且还增加了解的多样性。这也证明改进的集束搜索算法更适合对话生成的Seq2Seq模型。
在Decoder生成答案的搜索方法上对传统集束搜索算法进行了改进,使得问答系统具有良好的鲁棒性,系统本身也具有更高的自适应性。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
Claims (9)
1.一种改进的集束搜索方法,其特征在于,在seq2seq模型的解码过程中,设定集束宽度为i,其中i为大于1的自然数,具体过程如下:
S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率;
S2、根据似然概率从大到小选取对应的i个单词分别作为解码器初始输入,对于i个初始输入,每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率,分别得到i个输出序列,根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列;
S3、重复步骤S1-S2得到末时刻的最优解序列,即为最终答案。
3.根据权利要求1所述的集束搜索方法,其特征在于,所述步骤S2中的择优标准为:对i个输出序列中单词计算对应似然概率的对数,以每个输出序列的对数和作为择优标准,保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。
4.根据权利要求1所述的集束搜索方法,其特征在于,所述步骤S2中的择优标准为:将每个输出序列的似然概率的对数值与最优解序列长度的比值作为评价指标,取评价指标最大的序列作为最优解序列。
5.根据权利要求4所述的集束搜索方法,其特征在于,所述评价指标中还采用了柔化系数在完全按照长度归一化与完全不按照长度归一化之间作一个权衡。
7.一种问答系统,其特征在于,所述问答系统基于序列到序列模型生成,通过基于循环神经网络的序列到序列模型对语料数据进行建模,实现单轮的对话生成;所述序列到序列模型包括双向GRU编码器、单向GRU解码器以及Luong Attention,所述解码器在解码过程中执行权利要求1-6之一的集束搜索方法。
8.根据权利要求7的问答系统,其特征在于,所述编码器为5层双向GRU编码器;所述解码器为3层单向GRU解码器。
9.根据权利要求8的问答系统,其特征在于,所述序列到序列模型编解码过程为:首先利用词嵌入技术对输入序列进行词向量转换,然后送入双向GRU编码器中进行特征提取,最后解码器通过单向GRU对编码器的编码信息进行解码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911100712.XA CN110851673B (zh) | 2019-11-12 | 2019-11-12 | 一种改进的集束搜索方法及问答系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911100712.XA CN110851673B (zh) | 2019-11-12 | 2019-11-12 | 一种改进的集束搜索方法及问答系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851673A CN110851673A (zh) | 2020-02-28 |
CN110851673B true CN110851673B (zh) | 2022-08-09 |
Family
ID=69600581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911100712.XA Active CN110851673B (zh) | 2019-11-12 | 2019-11-12 | 一种改进的集束搜索方法及问答系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851673B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798140A (zh) * | 2017-11-23 | 2018-03-13 | 北京神州泰岳软件股份有限公司 | 一种对话系统构建方法、语义受控应答方法及装置 |
CN109409221A (zh) * | 2018-09-20 | 2019-03-01 | 中国科学院计算技术研究所 | 基于帧选择的视频内容描述方法和系统 |
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN110222164A (zh) * | 2019-06-13 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种问答模型训练方法、问题语句处理方法、装置及存储介质 |
CN110263143A (zh) * | 2019-06-27 | 2019-09-20 | 苏州大学 | 提高相关性的神经问题生成方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123417B (zh) * | 2017-05-16 | 2020-06-09 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及系统 |
CN107526725B (zh) * | 2017-09-04 | 2021-08-24 | 北京百度网讯科技有限公司 | 基于人工智能的用于生成文本的方法和装置 |
US20190147355A1 (en) * | 2017-11-14 | 2019-05-16 | International Business Machines Corporation | Self-critical sequence training of multimodal systems |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
CN108959421B (zh) * | 2018-06-08 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 候选回复评价装置和问询回复设备及其方法、存储介质 |
-
2019
- 2019-11-12 CN CN201911100712.XA patent/CN110851673B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN107798140A (zh) * | 2017-11-23 | 2018-03-13 | 北京神州泰岳软件股份有限公司 | 一种对话系统构建方法、语义受控应答方法及装置 |
CN109409221A (zh) * | 2018-09-20 | 2019-03-01 | 中国科学院计算技术研究所 | 基于帧选择的视频内容描述方法和系统 |
CN110222164A (zh) * | 2019-06-13 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种问答模型训练方法、问题语句处理方法、装置及存储介质 |
CN110263143A (zh) * | 2019-06-27 | 2019-09-20 | 苏州大学 | 提高相关性的神经问题生成方法 |
Non-Patent Citations (3)
Title |
---|
An Efficient Layer-Wised Beam Pruning Algorithm for Large Vocabulary Continuous Speech Recognition System;Xie Chen et al.;《2012 International Conference on Audio, Language and Image Processing》;20121211;1010-1013 * |
基于深度学习的生成式自动摘要技术研究;郭洪杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第1期);I138-4341 * |
空间曲线轮廓误差实时估算与补偿方法研究;肖晓萍 等;《四川大学学报(工程科学版)》;20150120;第47卷(第1期);215-222 * |
Also Published As
Publication number | Publication date |
---|---|
CN110851673A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019151506A1 (ja) | 学習装置、学習方法及び学習プログラム | |
CN109492202A (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN110110324A (zh) | 一种基于知识表示的生物医学实体链接方法 | |
CN111966810B (zh) | 一种用于问答系统的问答对排序方法 | |
CN109697289A (zh) | 一种改进的用于命名实体识别的主动学习方法 | |
CN113505225B (zh) | 一种基于多层注意力机制的小样本医疗关系分类方法 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
CN114548101B (zh) | 基于可回溯序列生成方法的事件检测方法和系统 | |
WO2019151503A1 (ja) | 判定装置、判定方法及び判定プログラム | |
CN111680512B (zh) | 命名实体识别模型、电话总机转接分机方法及系统 | |
CN114067786A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN110633473A (zh) | 基于条件随机场的隐式篇章关系识别方法与系统 | |
CN110992943B (zh) | 基于词混淆网络的语义理解方法及系统 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN114648015A (zh) | 一种基于依存关系注意力模型的方面级情感词识别方法 | |
CN114817307A (zh) | 一种基于半监督学习和元学习的少样本nl2sql方法 | |
CN112214592B (zh) | 一种回复对话评分模型训练方法、对话回复方法及其装置 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN111581957B (zh) | 一种基于金字塔层级网络的嵌套实体检测方法 | |
CN110851673B (zh) | 一种改进的集束搜索方法及问答系统 | |
CN109918484B (zh) | 对话生成方法和装置 | |
CN111428519A (zh) | 一种基于熵的神经机器翻译动态解码方法及系统 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
CN115081472A (zh) | 一种用于雷达行为分析的脉冲信号语法建模及特征提取方法 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |