CN109918493A

CN109918493A - 一种基于长短期记忆神经网络的对话生成方法

Info

Publication number: CN109918493A
Application number: CN201910208674.3A
Authority: CN
Inventors: 李鹏华; 秦石磊; 许清; 滕飞宇; 陆相羽
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-06-21

Abstract

本发明涉及一种基于长短期记忆神经网络的对话生成方法，属于神经网络算法领域。通过模型训练和模拟对话两个阶段来拓展特定对话语料库。该算法充分利用双向LSTM神经网络能够有效学习、可以捕获长序依赖关系和上下文关系的优点，构建编码器‑解码器对话生成模型模拟用户对话动作，使得模仿生成的对话语料更接近于真实对话，实现平滑、通用性强、更长轮次的对话生成，为训练基于统计的对话系统提供数据保障。因此采用长短期记忆神经网络进行对话生成的算法对于基于统计的人机交互系统具有重要的理论意义和应用价值。

Description

一种基于长短期记忆神经网络的对话生成方法

技术领域

本发明属于神经网络算法领域，涉及一种基于长短期记忆神经网络的对话生成方法。

背景技术

随着人机交互技术的推广，人机对话系统的应用场景日益增加，对于对话语料库的需求正在逐步增加，加之构建涵盖给定对话场景的所有方面的语料库昂贵且耗时，用于对话系统的语料库极少且语料贫乏；除此之外，基于统计的对话系统的训练通常需要大量的语料数据。针对训练对话系统的语料库稀少、耗时长、通用性差等系列问题，本专利利用双向LSTM神经网络获取序列长、短期和上下文信息的特性，构建对话生成模型生成对话语句，实现对已有的对话语料库的拓展。在本专利中采用双向多层LSTM神经网络的编码器-解码器结构，其中编码器的输入为用户对话动作序列，解码器输出为系统对话回复动作序列，通过现有语料库的训练得到对话生成模型，模拟用户的对话完成对话语料库的拓展，为人机对话系统的模型训练奠定数据基础。

发明内容

有鉴于此，本发明的目的在于提供一种基于长短期记忆神经网络的对话生成方法。

为达到上述目的，本发明提供如下技术方案：

一种基于长短期记忆神经网络的对话生成方法，该方法包括以下步骤：

S1：将训练对话语料提交给双向长短期记忆神经网络完成训练，得到训练后的编码器-解码器对话生成模型；

S2：编码器端输入用户对话动作得到语义编码状态向量；

S3：将编码端输出的状态编码向量提交给解码器，生成对话序列；

S4：经过对话生成循环模拟人为对话行为生成丰富的对话数据集。

进一步，所述方法具体为：

1)采用基于手工规则的对话数据集；对于对话生成模型，数据集需要经过聚类与标注；首先，预先定义若干类话题，然后根据话题进行扩展改写，将一类话题模板扩展成若干轮次的对话语句；通过改写原有的对话模板，获得对话数据集，将其分为训练集与测试集；

2)搭建LSTM神经网络；采用编码器-解码器架构来模拟用户对话动作并生成对话序列；编码器与解码器由双向多层LSTM网络构成，其神经网络细胞单元设计如下：

搭建双向LSTM神经网络，利用‘遗忘’门控结构f_t＝σ(W_f·[h_t-1,h_t]+b_f)控制细胞状态丢失无关信息，其中，σ＝1/(1+e^-x)，为sigmoid激活函数；

通过i_t＝σ(W_i·[h_t-1,h_t]+b_i)决定所需更新值，创建新的候选值向量，更新细胞状态为

由o_t＝σ(W_o·[h_t-1,h_t]+b_o)决定输出细胞状态的信息，根据细胞状态及门控结构o_t得到隐藏状态输出为h_t＝O_t*tanh(C_t)；

3)在模型中，由输入端传入用户对话动作序列，编码时将序列向量X＝{x₁,x₂,x₃...x_n}输入到网络中；编码过程中当前时刻的隐层状态是根据上一时刻的隐层状态与当前时刻的输入两种信息计算得出的，当前时刻的隐层状态的计算公式为h_t＝f(h_t-1,x_t)，其中f(·)是隐藏层之间的激活函数；

4)神经网络语义编码；神经网络记录输入序列的隐状态之后生成输入序列的语义编码c，计算公式为c＝q({f_h1,f_h2...h_Tx})，中q(·)为激活函数，h_Tx为输入序列最后时刻的隐藏层状态；

5)神经网络解码过程；在解码阶段神经网络根据输入向量c和当前输出序列{y₁,y₂...y_t-1}的条件概率来预测生成输出序列的下一个词y_t，计算公式为当前时刻生成结果的条件概率计算公式为p(y_t|{y₁,y₂...y_t-1},c)＝g(y_t-1,x_t,c)，其中y_t-1是上一时刻的预测输出，x_t是当前时刻的输入向量，g是激活函数用以计算生成y_t的概率。

本发明的有益效果在于：

本发明围绕特定领域对话语料库贫乏，搭建语料困难，通用性较差等问题，采用一种双向多层长短期记忆神经网络的对话生成算法。该算法充分利用双向LSTM神经网络能够有效学习、可以捕获长序依赖关系和上下文关系的优点，构建编码器-解码器对话生成模型模拟用户对话动作，使得模仿生成的对话语料更接近于真实对话，实现平滑、通用性强、更长轮次的对话生成，为训练基于统计的对话系统提供数据保障。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为编码器-解码器框架图；

图2为LSTM神经网络单元结构图。

图3为算法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1～3所示，本发明各部分具体实施细节如下：

1、将需要拓展的对话数据集分成训练集和测试集两个部分，提供给对话生成模型。

2、通过全连接方式搭建双向LSTM神经网络，采用BPTT和SGD算法训练网络得到编码器-解码器结构模型。

3、对话生成算法，实现过程如下。

(1)UA表示为用户对话动作，SA表示为系统对话动作，载入训练后的对话生成模型，并设置对话总轮次；

(2)设置输入及初始化标志位。

(3)解码器根据编码器端的输入序列的编码状态向量生成输出序列。

(4)若用户对话动作达到结束标志位，则结束生成，相反则返回步骤(3)不断生成新的对话语料。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于长短期记忆神经网络的对话生成方法，其特征在于：该方法包括以下步骤：

S2：编码器端输入用户对话动作得到语义编码状态向量；

2.根据权利要求1所述的一种基于长短期记忆神经网络的对话生成方法，其特征在于：所述方法具体为：