CN110569338A - 一种生成式对话系统解码器训练方法及解码方法 - Google Patents

一种生成式对话系统解码器训练方法及解码方法 Download PDF

Info

Publication number
CN110569338A
CN110569338A CN201910660759.5A CN201910660759A CN110569338A CN 110569338 A CN110569338 A CN 110569338A CN 201910660759 A CN201910660759 A CN 201910660759A CN 110569338 A CN110569338 A CN 110569338A
Authority
CN
China
Prior art keywords
neural network
backward
difference
loss function
forward neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910660759.5A
Other languages
English (en)
Other versions
CN110569338B (zh
Inventor
林政�
付鹏
刘欢
王伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910660759.5A priority Critical patent/CN110569338B/zh
Publication of CN110569338A publication Critical patent/CN110569338A/zh
Application granted granted Critical
Publication of CN110569338B publication Critical patent/CN110569338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种生成式对话系统解码器训练方法及解码方法。本方法为:1)对于问句编码集合中的每一问句编码,使用前向、后向神经网络对该问句编码进行预测分别得到一向量表示结果;2)计算前向、后向神经网络每一步预测结果的差异,作为生成式对话系统编码器的损失函数;3)计算前向、后向神经网络每一步状态的差异,作为二者的局部差异;4)计算前向、后向神经网络所生成向量表示结果的句子向量表示,并计算两句子向量表示的差异,作为二者的整体性差异;5)将局部差异和整体性差异作为惩罚项函数加入损失函数中,得到整体惩罚函数作为生成式对话系统编码器的损失函数;6)采用训练后的前向神经网络对问句编码进行预测,生成回复内容。

Description

一种生成式对话系统解码器训练方法及解码方法
技术领域
本发明涉及一种基于双向递归神经网络的生成式对话系统解码器训练方法及解码方法,属于计算机软件技术领域。
背景技术
传统解码器通常会根据编码端所生成的问句的向量表示,使用LSTM等神经网络结构逐字的生成问题对应的回复。其中当前单词的生成主要依赖于句子中位于其前面的历史信息,它的主要特点是单向解码。
传统的解码器已经能够很好的根据问题的向量表示生成对应的答案,然而因为该编码器是单向的,因此在生成第t个单词时只能够参考到前面的历史信息。然而通常情况下,单词的后文也是有助于当前单词的预测的,比如“天空是()的,大海也是蓝色的”,如果能够参考句子括号后面的信息,解码器就容易知道句中所缺失的单词应该是“蓝色”。而如果仅仅使用单向解码的方式对编码器生成的编码向量进行解码,则解码器容易生成错误的单词。因此如何在解码的时候能够将当前单词的前后文信息引入到解码过程中,也就是进行双向解码,是一件非常有意义的工作。
发明内容
本发明针对传统编码器的缺陷,提出了一种基于双向递归神经网络的生成式对话系统解码器训练方法及解码方法。使得解码器在生成单词时不仅考虑到单词的前文,也能充分的利用句子的后文信息,从而提高生成式对话系统生成回复的质量。
本发明的技术关键点在于:
1)本发明提出一种使用双向解码器来对编码器产生的向量进行解码的方法,该方法在解码时不仅可以借鉴句子的前文信息,也可以对句子的未来信息进行展望,从而使得生成式对话系统的解码质量得到极大的提高。
2)本文提出两种惩罚函数来对生成式对话系统模型进行优化。首先,通过计算每一步的前向神经网络和后向神经网络的隐藏层状态编码差的F范数以及二者预测结果的交叉熵损失函数之和作为预测当前单词的差异性的度量,从而帮助前向神经网络与后向神经网络进行信息的同步。
局部惩罚项函数计算如下:
其中,为后向神经网络第t时刻的隐藏层状态编码,为前向神经网络第t时刻的隐藏层状态编码。CrossEntropy()为交叉熵损失函数,为前向神经网络产生的预测值,为后向神经网络产生的预测值。
此外,我们还提出了一种整体损失函数。该函数首先使用注意力机制计算两个神经网络所生成回复的句子向量表示,然后利用F范式来衡量二者的整体差异性,并进行权重约束,从而防止句子过度关注于局部差异。
通过注意力机制计算前向神经网络回复句子的向量表示如下:
其中,k表示k时刻,n表示最后时刻,t表示t时刻,Z为对话系统中问题的编码表示,Hf为前向神经网络的整体向量表示,α为一个全连接神经网络,at f为第t个单词对于Hf的重要程度。
因此,整体损失函数表示为:
loss=-∑log pf(xt|x≤t)-∑log pf(xt|x≥t)+γ(∑Lt+||Hf-Hb||F) (2)
其中Hb为后向神经网络的整体表示,其计算方法与前向神经网络的计算方法相同;at b为第t个单词对于Hb的重要程度,xt表示t时刻的预测值,x≤t表示t时刻之前的所有序列,x≥t表示t时刻之后的所有序列,pf()表示概率,γ为权重比例系数。
本发明采用的技术方案如下:
一种生成式对话系统解码器训练方法,其步骤包括:
11)对于问句编码集合中的每一问句编码,使用前向神经网络对该问句编码从前向后进行预测得到一向量表示结果,使用后向神经网络对该问句编码从后向前进行预测得到另一向量表示结果;
12)计算前向神经网络和后向神经网络每一步的预测结果的差异,作为生成式对话系统编码器的损失函数;
13)计算前向神经网络和后向神经网络每一步状态的差异,作为二者的局部差异;
14)计算前向神经网络与后向神经网络所生成向量表示结果的句子向量表示,并计算两句子向量表示的差异,作为二者的整体性差异;
15)将步骤13)得到的局部差异和步骤14)得到的整体性差异作为惩罚项函数加入步骤12)得到的损失函数中,得到整体惩罚函数作为生成式对话系统编码器的损失函数;
16)通过最小化该整体损失函数,达到前向神经网络和后向神经网络预测结果同步时结束训练。
进一步的,前向神经网络和后向神经网络分别为一递归神经网络,两递归神经网络的维度相同,但参数不共享。
进一步的,整体损失函数loss=-∑log pf(xt|x≤t)-∑log pf(xt|x≥t)+γ(∑Lt+||Hf-Hb||F);其中,Z为问句编码,at f为第t个单词对于Hf的重要程度,Hb为后向神经网络的整体表示,at b为第t个单词对于Hb的重要程度,Hf为前向神经网络所生成回复的句子向量表示,Hb为后向神经网络所生成回复的句子向量表示,为后向神经网络第t时刻的隐藏层状态编码,为前向神经网络第t时刻的隐藏层状态编码;CrossEntropy()为交叉熵损失函数,为前向神经网络产生的预测值,为后向神经网络产生的预测值,γ为一权重比例系数。
进一步的,使用注意力机制计算前向神经网络所生成回复的句子向量表示Hf、后向神经网络所生成回复的句子向量表示Hb
进一步的,步骤12)中,使用交叉熵损失函数来计算前向神经网络和后向神经网络每一步的预测结果的差异,作为生成式对话系统编码器的损失函数。
一种基于双向递归神经网络的生成式对话系统解码方法,其特征在于,采用训练后的解码器中的前向神经网络对生成式对话系统编码器所传过来的问句编码进行预测,生成回复内容。
本发明主要包括以下步骤:
1)使用前向解码器(即前向神经网络)对生成式对话系统编码器传来的问句编码的历史信息进行预测得到一向量表示结果,使用后向解码器(即后向神经网络)对生成式对话系统编码器传来的问句编码的未来信息进行预测得到另一向量表示结果。
2)对前向神经网络和后向神经网络分别预测的结果进行同步。
3)计算前向神经网络与后向神经网络的局部差异损失:
4)计算前向神经网络与后向神经网络的整体差异损失:||Hf-Hb||F
5)将3)与4)计算出来的结果加入损失函数,在训练过程中,通过最小化损失函数,从而使得3)和4)中局部差异损失和整体差异损失最小化,达到前向神经网络和后向神经网络预测结果同步的效果,即帮助生成式对话模型进行结果同步,优化解码器的生成回复效果,损失函数公式见公式(2)。
进一步地,步骤1)中,我们根据编码器传来的问句编码分别使用两个递归神经网络分别从前向和后向两个方向来对答案进行预测,其中两个递归神经网络的维度完全相同,但参数不共享。
进一步地,步骤2)中,我们使用交叉熵函数作为局部损失函数来对两个神经网络的预测结果进行差异衡量,从而对前向和后向两个神经网络的预测结果进行同步,从而使得前向神经网络在预测时能在一定程度上考虑到未来信息,提高问句的解码质量。
进一步地,步骤3)中,为了帮助前向神经网络与后向神经网络的预测,我们通过F范数来计算前向神经网络与后向神经网络每一步隐藏层状态的不同,并将其累加作为局部损失函数的惩罚项,从而使得二者的同步效果更好更快。
进一步地,步骤4)中,为了防止生成式对话系统模型关注于局部差异,从而导致回复生成效果下降,我们首先使用注意力机制提取出前向神经网络与后向神经网络所生成的句子的重要信息并生成其句子向量表示,通过F范式来计算二者的差异性作为二者生成句子的整体性差异,并加入到损失函数中。
进一步地,步骤5)中,我们将步骤3)以及步骤4)计算的惩罚项分别乘以不同系数放入到该生成式对话系统编码器的损失函数中。
与现有技术相比,本发明的积极效果为:
1)本发明在使用前向神经网络从前到后预测句子时,同时使用后向神经网络从后往前预测单词序列,从而使得生成式对话系统模型能够同时对历史信息进行总结和对未来信息展望,在生成回复的每一步都有一个更整体的考虑,随后,为了促进前向LSTM网络和后向LSTM网络的同步,我们通过在损失函数添加两个预测网络的差值,从而激励两个神经网络更好更快的生成尽可能相同的序列,从而提高了解码器的回复生成质量。
2)在开放领域的问答系统中,对比于传统的端到端生成式对话系统,本发明在BLEU和perplexity等指标下均取得了一定程度上的提升。
附图说明
图1是本发明方法的总体流程示意图。
图2是本发明的局部损失函数计算流程图。
图3是本发明的整体损失函数计算流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
下面提供一个采用本发明方法的具体实例:
1)使用编码器所传过来的问句编码,分别使用两个神经网络从前往后和从后往前两个方向来对回复内容进行预测,得到两个回复,其中从前往后的回复生成主要依赖于回复的历史信息,而从后往前的回复生成主要依赖于回复的未来信息;
2)使用交叉熵损失函数来计算前向神经网络和后向神经网络每一步的预测结果的差异,作为生成式对话系统解码器的损失函数;
3)计算两个神经网络每一步状态的差异,作为二者的局部差异,具体计算方法为将二者每一步对应的隐藏层状态进行相减,然后求取对应的F范数;
4)使用注意力机制分别得到前向神经网络与后向神经网络所生成回复的句子向量表示,具体做法为,首先使用双向LSTM对回复进行编码,然后使用最后一次迭代的神经网络的隐藏层状态作为句子的整体表示,使用该表示分别与句子中每一步的神经网络状态计算相关度得分,最后将句子所有的状态进行加权求和,从而得到了所生成回复的句子向量表示;
5)使用神经网络计算4)中得到的两个神经网络的句子向量表示的差异,作为二者的整体性差异,并将步骤3)得到的局部差异和该整体性差异作为惩罚项函数加入损失函数中进行生成式对话系统编码器训练;
6)训练结束,只使用前向神经网络对编码器所传过来的问句编码进行预测。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种生成式对话系统解码器训练方法,其步骤包括:
11)对于问句编码集合中的每一问句编码,使用前向神经网络对该问句编码从前向后进行预测得到一向量表示结果,使用后向神经网络对该问句编码从后向前进行预测得到另一向量表示结果;
12)计算前向神经网络和后向神经网络每一步的预测结果的差异,作为生成式对话系统编码器的损失函数;
13)计算前向神经网络和后向神经网络每一步状态的差异,作为二者的局部差异;
14)计算前向神经网络与后向神经网络所生成向量表示结果的句子向量表示,并计算两句子向量表示的差异,作为二者的整体性差异;
15)将步骤13)得到的局部差异和步骤14)得到的整体性差异作为惩罚项函数加入步骤12)得到的损失函数中,得到整体损失函数作为生成式对话系统编码器的损失函数;
16)通过最小化该整体损失函数,达到前向神经网络和后向神经网络预测结果同步时结束训练。
2.如权利要求1所述的方法,其特征在于,前向神经网络和后向神经网络分别为一递归神经网络,两递归神经网络的维度相同,但参数不共享。
3.如权利要求1或2所述的方法,其特征在于,整体损失函数loss=-∑log pf(xt|x≤t)-∑log pf(xt|x≥t)+γ(∑Lt+||Hf-Hb||F);其中,Z为问句编码,at f为第t个单词对于Hf的重要程度,Hb为后向神经网络的整体表示,at b为第t个单词对于Hb的重要程度,Hf为前向神经网络所生成回复的句子向量表示,Hb为后向神经网络所生成回复的句子向量表示,为后向神经网络第t时刻的隐藏层状态编码,为前向神经网络第t时刻的隐藏层状态编码;CrossEntropy()为交叉熵损失函数,为前向神经网络产生的预测值,为后向神经网络产生的预测值,γ为一权重比例系数。
4.如权利要求3所述的方法,其特征在于,使用注意力机制计算前向神经网络所生成回复的句子向量表示Hf、后向神经网络所生成回复的句子向量表示Hb
5.如权利要求1所述的方法,其特征在于,步骤12)中,使用交叉熵损失函数来计算前向神经网络和后向神经网络每一步的预测结果的差异,作为生成式对话系统编码器的损失函数。
6.一种基于双向递归神经网络的生成式对话系统解码方法,其特征在于,采用如权利要求1所述方法训练的解码器中的前向神经网络对生成式对话系统编码器所传过来的问句编码进行预测,生成回复内容。
CN201910660759.5A 2019-07-22 2019-07-22 一种生成式对话系统解码器训练方法及解码方法 Active CN110569338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910660759.5A CN110569338B (zh) 2019-07-22 2019-07-22 一种生成式对话系统解码器训练方法及解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910660759.5A CN110569338B (zh) 2019-07-22 2019-07-22 一种生成式对话系统解码器训练方法及解码方法

Publications (2)

Publication Number Publication Date
CN110569338A true CN110569338A (zh) 2019-12-13
CN110569338B CN110569338B (zh) 2022-05-03

Family

ID=68773775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910660759.5A Active CN110569338B (zh) 2019-07-22 2019-07-22 一种生成式对话系统解码器训练方法及解码方法

Country Status (1)

Country Link
CN (1) CN110569338B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860631A (zh) * 2020-07-13 2020-10-30 电子科技大学中山学院 一种采用错因强化方式优化损失函数的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016100231A1 (en) * 2014-12-15 2016-06-23 Baidu Usa Llc Systems and methods for speech transcription
CN108984724A (zh) * 2018-07-10 2018-12-11 凯尔博特信息科技(昆山)有限公司 利用高维表示提高特定属性情感分类准确率方法
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法
CN109977212A (zh) * 2019-03-28 2019-07-05 清华大学深圳研究生院 对话机器人的回复内容生成方法和终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016100231A1 (en) * 2014-12-15 2016-06-23 Baidu Usa Llc Systems and methods for speech transcription
CN108984724A (zh) * 2018-07-10 2018-12-11 凯尔博特信息科技(昆山)有限公司 利用高维表示提高特定属性情感分类准确率方法
CN109829499A (zh) * 2019-01-31 2019-05-31 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法
CN109977212A (zh) * 2019-03-28 2019-07-05 清华大学深圳研究生院 对话机器人的回复内容生成方法和终端设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAYAN WU;ZHENG LIN;BO LI;JING LIU;WEIPING WANG: "Deep Uniqueness-Aware Hashing for Fine-Grained Multi-Label Image Retrieval", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
付鹏: "基于卷积神经网络和用户信息的微博话题追踪模型", 《模式识别与人工智能》 *
付鹏: "基于表示学习的文本情感分析关键技术研究", 《万方数据知识服务平台》 *
冯多,林政: "基于卷积神经网络的中文微博情感分类", 《计算机应用与软件》 *
林政: "《面向多语言场景的文本情感分析研究》", 《万方数据知识服务平台》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860631A (zh) * 2020-07-13 2020-10-30 电子科技大学中山学院 一种采用错因强化方式优化损失函数的方法
WO2022011827A1 (zh) * 2020-07-13 2022-01-20 电子科技大学中山学院 一种采用错因强化方式优化损失函数的方法
CN111860631B (zh) * 2020-07-13 2023-08-22 电子科技大学中山学院 一种采用错因强化方式优化损失函数的物品识别方法

Also Published As

Publication number Publication date
CN110569338B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN110209801B (zh) 一种基于自注意力网络的文本摘要自动生成方法
CN111382582B (zh) 一种基于非自回归的神经机器翻译解码加速方法
CN108960063B (zh) 一种面向事件关系编码的视频中多事件自然语言描述方法
CN110929092A (zh) 一种基于动态注意力机制的多事件视频描述方法
WO2016192410A1 (zh) 一种音频信号增强方法和装置
CN107729329A (zh) 一种基于词向量连接技术的神经机器翻译方法及装置
EP3602415B1 (en) Stop code tolerant image compression neural networks
CN114787914A (zh) 用异步解码器流式传输端到端语音识别的系统和方法
CN111931736B (zh) 利用非自回归模型与整合放电技术的唇语识别方法、系统
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
US9858938B2 (en) Pulse encoding and decoding method and pulse codec
CN114610935B (zh) 一种文本控制图像风格的语义图像合成的方法及系统
EP2255534B1 (en) Apparatus and method for encoding using bandwidth extension in portable terminal
CN116939320B (zh) 一种生成式多模态互利增强视频语义通信方法
CN110569338B (zh) 一种生成式对话系统解码器训练方法及解码方法
US20210150154A1 (en) Chapter-level text translation method and device
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成系统及方法
Mohamed et al. On deep speech packet loss concealment: A mini-survey
WO2023236961A1 (zh) 音频信号恢复方法、装置、电子设备及介质
CN111797225A (zh) 一种文本摘要生成方法和装置
CN111353315A (zh) 一种基于随机残差算法的深层神经机器翻译系统
Valin et al. Low-bitrate redundancy coding of speech using a rate-distortion-optimized variational autoencoder
CN113949880B (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
CN113793600A (zh) 语音识别方法、装置、设备及存储介质
JPH06232768A (ja) 畳込み符号化データ復号装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant