CN112417118B

CN112417118B - 一种基于标记文本和神经网络的对话生成方法

Info

Publication number: CN112417118B
Application number: CN202011299823.0A
Authority: CN
Inventors: 金陆骅; 程帆; 张冬梅
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2023-04-07
Anticipated expiration: 2040-11-19
Also published as: CN112417118A

Abstract

本发明涉及一种基于标记文本和神经网络的对话生成方法，包括以下步骤：1)将包含对话的语料库作为原始数据集；2)对数据集进行预处理；3)将预处理后的语料用于神经网络模型的训练；4)将测试文本输入训练好的神经网络模型中，输出含有可能含有标记符的文本；5)基于规则对输出中包含的标记符进行替换，形成最终的对话文本。与现有技术相比，本发明具有能够保留一定上下文信息、生成语句通顺、鲁棒性好等优点。

Description

一种基于标记文本和神经网络的对话生成方法

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于标记文本和神经网络的对话生成方法。

背景技术

随着人工智能理论的发展，能否让机器理解人类的自然语言并进而和人类进行对话，成为人工智能的一个重要的研究课题。

早期的对话生成方法大都是基于规则匹配，虽然能保证生成语句的通顺，但鲁棒性不足，无法很好应对规则外的输入，同时人工编写规则效率低下，维护困难，并且无法做到真正理解语义。随后发展出了检索式的对话生成方法，从候选语料中找出最合适的对话，这类方法在任务型对话生成中表现较好，但在闲聊这样涉及范围较广的场景中，非常依赖候选语料库的规模，难以生成优质的对话，同样鲁棒性不足。近年来出现了基于神经网络的对话生成方法，一定程度上提高了对话生成的鲁棒性，但这些方法有时会产生无意义或者有语病的回答，并且无法保留上下文的信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于标记文本和神经网络的对话生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于标记文本和神经网络的对话生成方法，包括以下步骤：

1)将包含对话的语料库作为原始数据集；

2)对数据集进行预处理；

3)将预处理后的语料用于神经网络模型的训练；

4)将测试文本输入训练好的神经网络模型中，输出含有可能含有标记符的文本；

5)基于规则对输出中包含的标记符进行替换，形成最终的对话文本。

所述的步骤1)中，包含对话的语料库包括公开的对话语料库、问答系统的语料库以及自行生成的语料，所述的公开的对话语料库为康奈尔大学电影对白语料和Reddit网站语料，所述的自行生成的语料由两个AIML系统相互对话产生。

所述的步骤2)具体包括以下步骤：

21)对原始数据集进行清洗，筛除对对话生成的质量产生干扰的文本，包括康奈尔大学电影对白语料中电影与人物的介绍文本以及包含辱骂性词汇的语句；

22)在清洗后原始数据集的语料中加入标记符，具体为从日常对话选择部分对话，将其中的选定单词替换为标记符。

所述的步骤3)具体包括以下步骤：

31)构建基于编码器-解码器的神经网络模型，该神经网络模型的网络结构包括编码器、解码器和注意力机制，所述的编码器包括嵌入层和三个隐藏层，所述的解码器包括三个隐藏层和投影层，所述的注意力机制包括注意力权重、上下文向量和注意力向量；

32)将预处理后的语料作为神经网络模型的输入并进行训练得到网络参数。

所述的步骤31)中，在编码器的嵌入层额外增加一维向量，用以区分一般单词和标记符。

所述的步骤31)中，神经网络模型的隐藏层均采用门控循环单元GRU，编码器中每个隐藏层中门控循环单元的数量与输入语料的长度相同，解码器中每个隐藏层中门控循环单元的数量与输出语料的长度相同，所述的门控循环单元GRU采用更新门和结构门，当第一隐藏层的输入为标记符时，则降低过往隐藏状态信息的比重至一半，用以提高神经网络对于标记符的重视程度，使得标记符作为重要信息之一被记忆下来。

所述的步骤31)中，注意力权重w_t,t′的表达式为：

其中，

和

分别是第t轮编码器和解码器的隐藏层状态参数，s(·)为计算两个隐藏层状态之间相关程度的函数，i为轮数编号，m为解码器轮数总数，即解码器输出语句总长度，为提高函数s(·)的自适应能力，具体采用Luong Attention计算，则有：

其中，W_a为参数矩阵，用以动态调节输入与输出间的注意力。

所述的步骤31)中，上下文向量的表达式为：

其中，c_t为第t轮的上下文向量。

所述的步骤31)中，注意力向量v_t′的表达式为：

其中，W_c为参数矩阵。

所述的神经网络模型训练的损失函数为Softmax交叉熵，则有：

其中，v_i为第i轮的注意力向量，z_t′为解码器的输出。

与现有技术相比，本发明具有以下优点：

一、本发明采用了神经网络的方法，与规则匹配或者检索式相比，神经网络对于没有在训练语料中出现的输入语句能进行迁移学习，同样能够产生合适的对话，可以应对规则或者候选对话未涵盖到的场景，保证对话生成的灵活性，鲁棒性好。

二、本发明采用了标记文本，相比一般的神经网络方法，通过将标记符也作为一类单词输入神经网络进行训练，使得模型能自己学习到在适合使用规则匹配的场景下使用标记符，便于保留上下文信息，使生成的句子更为通顺。

三、本发明通过添加标记符和对应处理规则，能和规则匹配模型一样具有较强的可拓展性。

四、本发明具有商业意义，可以结合企业拥有的语料，推广到企业内部的对话业务中。

附图说明

图1为本发明预处理和训练的流程图。

图2为本发明使用的流程图。

图3为基于编码器-解码器的神经网络模型。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

为了更加清晰、详尽地解释本发明的目的、技术方案和要点，本发明将进一步进行详细的阐述。应当理解，此处描述的实施方法仅仅用于解释本发明的具体方法，而并非限定本发明。本领域的技术人员可以根据本发明阐述的原理进行实施和推广，根据需要处理的语料进行简单的修改，即可将本发明推广到类似的应用场景。

实施例

如图1所示，本发明提供一种基于标记文本和神经网络的对话生成方法，具体包括以下步骤：

本发明首先对原始语料进行预处理，包括对数据集进行清洗并构建包含标记符的语料，然后使用预处理后的语料对基于编码器-解码器的神经网络进行训练，接着训练好的神经网络根据测试文本输出含有可能含有标记符的文本，最后基于规则对输出中包含的标记符进行替换，形成最终的对话文本，具体包括预处理阶段、训练模型阶段和使用模型三个阶段。

1)预处理阶段：获得包含对话的语料库作为原始数据集并对原始语料进行预处理；

首先需要对数据集进行清洗，筛除会对对话生成的质量产生干扰的文本，干扰对话生成的文本具体包括康奈尔大学电影对白语料中电影与人物的介绍文本和包含辱骂性词汇的语句。前者对于对话本文生成没有意义，后者会降低对话生成的质量。具体地，对于介绍性文本，由于其在语料中的位置较为固定，可以直接根据位置进行筛选；对于辱骂性词汇，先建立词汇的黑名单，然后通过字符串匹配的方式来寻找包含黑名单中词汇的语句。另外，根据Reddit上的点赞情况也可以筛除一部分低质量的对话。

接着在语料中加入标记符，采用人工标记，通常将对话中的宾语部分替换为标记符，从日常对话选择部分对话，将其中的某些单词替换为标记符

Q:What is your name？

A:My name is Tony._func_ask_username_

Q:My name is_name_

A:_func_update_username_

以上是一个简单的例子，“_name_”代表了姓名，“_func_ask_username_”代表调用询问对方姓名的函数，“_func_update_username_”代表调用记录对方姓名的函数。

Q:Are you from_unk_？

A:No,I’m from China.

同时引入“_unk_”标记符代表未知单词，提高模型的鲁棒性。这些标记符将与一般单词一起被输入神经网络模型，让模型学习如何在不同的场景使用合适的标记符。

2)训练模型阶段

首先构建基于编码器-解码器的神经网络模型，具体为编码器、解码器和注意力机制；其中，编码器具体包括嵌入层和三个隐藏层；解码器具体包括三个隐藏层和投影层；所述的注意力机制具体包括注意力权重、上下文向量和注意力向量，如图3所示。嵌入层额外增加了一维向量，用以区分一般单词和标记符，一般单词的这一维向量是负数，标记符的这一维向量是正数。这样做出于两点考量：在隐藏层的训练中，希望模型对于这些标记符能够有一定的敏感度，而不仅仅是将其视作普通的单词；另外，由于模型需要对使用规则还是生成式模型进行判断，在计算损失时，这样的处理也能作为使用不合适模型的惩罚项，使模型作出更精准的判断。

隐藏层使用了门控循环单元(GRU)，编码器中每个隐藏层中门控循环单元的数量与输入语料的长度相同，解码器中每个隐藏层中门控循环单元的数量与输出语料的长度相同。一般的循环神经网络单元会导致“梯度消失”或者“梯度爆炸”，门控循环单元使用了更新门和结构门，将长期记忆和短期记忆结合起来，解决了梯度消失的问题。其中，更新门用于决定前一轮隐藏状态信息被带入到当前隐藏状态中的程度，重置门用于决定前一轮的隐藏状态信息被写入到当前的候选集中的程度。在基础门控循环单元的基础上，对于第一隐藏层的计算单元进行改进，当输入为标记符时，降低过往隐藏状态信息的比重至一半，从而提高神经网络对于标记符的重视程度，使标记符作为重要信息之一被模型记忆下来。

注意力机制能让模型更好地理解整个文本序列的信息，具体包括注意力权重、上下文向量和注意力向量。

首先计算注意力权重：

其中

和

分别是第t轮编码器和解码器的隐藏层状态参数，t的上标用以区分编码器和解码器，(·)是计算两个隐藏层状态之间相关程度的函数，基础的注意力机制使用内积作为s(·)，但为了提高s(·)的自适应能力，本发明的注意力机制中使用了LuongAttention来计算：

其中W_a为参数矩阵，用以动态调节输入与输出间的注意力。

然后计算上下文向量：

最后计算注意力向量，用以计算损失和预测结果：

基于编码器-解码器的神经网络模型训练的损失函数具体为Softmax交叉熵：

3)使用模型阶段

将测试文本输入训练好的神经网络模型中，根据2)阶段中的基于编码器-解码器的神经网络模型，输出含有可能含有标记符的文本，最后基于规则对输出中包含的标记符进行替换，形成最终的对话文本。如“_func_ask_username_”替换为询问对方姓名的语句；“_func_update_username_”将对方姓名记录到数据库中，并替换为相应的反馈语句。

本发明引入了标记文本，并使用了基于编码器-解码器的神经网络模型，克服了传统文本生成方法鲁棒性差的问题，同时也优化了神经网络生成语句无意义或不通顺，且无法保留上下文信息的问题，提高了对话生成的质量。

本领域的技术人员可以很容易地理解上述过程，以上的过程只是本发明的一个具体实例，在实际工业生产中，本领域的技术人员可以根据上述的介绍，根据实际数据集的情况，修改、改进部分细节，使得具体操作更适合实际应用场景。

Claims

1.一种基于标记文本和神经网络的对话生成方法，其特征在于，包括以下步骤：

1)将包含对话的语料库作为原始数据集；

2)对数据集进行预处理；

所述的步骤2)具体包括以下步骤：

22)在清洗后原始数据集的语料中加入标记符，具体为从日常对话选择部分对话，将其中的选定单词替换为标记符；

3)将预处理后的语料用于神经网络模型的训练；

31)构建基于编码器-解码器的神经网络模型，该神经网络模型的网络结构包括编码器、解码器和注意力机制，所述的编码器包括嵌入层和三个隐藏层，所述的解码器包括三个隐藏层和投影层，所述的注意力机制包括注意力权重、上下文向量和注意力向量；注意力权重w_t,t′的表达式为：

其中，

和

其中，W_a为参数矩阵，用以动态调节输入与输出间的注意力；

上下文向量的表达式为：

其中，c_t为第t轮的上下文向量；

所述的步骤31)中，在编码器的嵌入层额外增加一维向量，用以区分一般单词和标记符；

32)将预处理后的语料作为神经网络模型的输入并进行训练得到网络参数；

2.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法，其特征在于，所述的步骤1)中，包含对话的语料库包括公开的对话语料库、问答系统的语料库以及自行生成的语料，所述的公开的对话语料库为康奈尔大学电影对白语料和Reddit网站语料，所述的自行生成的语料由两个AIML系统相互对话产生。

3.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法，其特征在于，所述的步骤31)中，神经网络模型的隐藏层均采用门控循环单元GRU，编码器中每个隐藏层中门控循环单元的数量与输入语料的长度相同，解码器中每个隐藏层中门控循环单元的数量与输出语料的长度相同，所述的门控循环单元GRU采用更新门和结构门，当第一隐藏层的输入为标记符时，则降低过往隐藏状态信息的比重至一半，用以提高神经网络对于标记符的重视程度，使得标记符作为重要信息之一被记忆下来。

4.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法，其特征在于，所述的步骤31)中，注意力向量v_t′的表达式为：

其中，W_c为参数矩阵。

5.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法，其特征在于，所述的神经网络模型训练的损失函数为Softmax交叉熵，则有：

其中，v_i为第i轮的注意力向量，z_t′为解码器的输出。