CN111737432A

CN111737432A - 一种基于联合训练模型的自动对话方法和系统

Info

Publication number: CN111737432A
Application number: CN202010574503.5A
Authority: CN
Inventors: 饶璐; 周兴发; 孙锐
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-02

Abstract

本发明公开了一种基于联合训练模型的自动对话方法，包括以下步骤：获取用户输入问句；将所述问句转化为词向量；构建基于胶囊神经网络的意图识别和槽位填充联合模型，并完成模型的训练；将所述词向量输入所述联合模型中，输出用户意图及槽位标签；根据对话管理框架，判断所述用户意图下的所有槽位是否被槽位标签填充完毕，若无，通过对话管理框架补全槽位；将所述用户意图及槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案。本发明不需要大量的人力和时间来对规则和模板进行编写，也不需要耗费大量时间对系统进行维护；能够有效提高预测答案的召回率。

Description

一种基于联合训练模型的自动对话方法和系统

技术领域

本发明涉及自然语言处理和深度学习技术领域，尤其涉及一种基于联合训练模型的自动对话方法和系统。

背景技术

随着信息技术的不断发展，自动对话系统逐渐成为一个热门的研究话题。自动对话系统又称为自动问答系统，是指人与机器之间通过自然语言的方式进行沟通和交流的系统。目前，自动对话系统能够通过用户输入的自然语言这种非结构化的文本信息，判断出用户意图，并且给出相应反馈。

早期的自动对话系统，主要采用基于模板和规则的方式，通过提取用户输入的关键词来检索和匹配出相应结果。这种方法的缺点是需要大量的专业人员对语言模板进行编写，并且根据不同的场景更换不同的语言模板，需要大量的人力和时间来对系统进行维护，灵活性非常低，且能够覆盖到的领域比较狭窄。随着时代的变迁和硬件设备的改进，存储海量数据成为现实，出现了基于知识图谱和基于深度学习模型的自动对话系统。这些方法通常采用先识别意图再预测槽位信息的流水线方式，使得预测意图信息和预测槽位信息成为两个完全独立的子模块，无法对它们建立联系。近年来出现的一些意图识别和槽位填充联合模型，也是采用不同的网络层来处理不同的模块预测，两个子模块的信息仍然不能被运用到另一个模块中。

在现有技术中，CN110473521A提供了一种基于任务模型的训练方法、装置和设备，该方法采用较常用的先识别意图，再根据用户意图生成槽位的方式，通过多轮对话来对用户意图进行修正，在一定程度上提高了意图识别的准确率，但这种流水线方式会造成错误传递的结果，一旦识别错误，会对后续任务造成不良影响。

CN110502608A提供了一种基于知识图谱的人机对话方法及人机对话装置，该方法采用卷积神经网络模型来识别语句的意图并对槽位进行预测，同时采用精确匹配的搜索方式将意图和槽位信息输入知识图谱进行搜索，以输出答案。在该方法中，卷积神经网络无法学习语句中的上下文关系，不能很好地将意图和槽位标签之间的信息互相传递，并且在知识图谱的搜索过程中，采用的是精确匹配的搜索方法，如果知识图谱中不存在问句中的实体信息，将无法输出答案。

综上所述，现有自动对话系统存在以下几点问题：

(1)基于模板和规则的自动对话系统需要耗费大量的人力和时间来对规则进行编写，而且能够覆盖到的领域有限，模型的灵活性不高。

(2)现有的基于知识图谱和基于深度学习模型的自动对话系统，通常采用先识别意图再预测槽位信息的流水线方式，使得预测意图信息和预测槽位信息成为两个完全独立的子模块，无法对它们建立联系。

(3)部分自动对话系统在知识图谱中检索答案时，常常采用精确匹配的方法，使用该方法很可能无法在知识图谱中检索到答案，容易造成召回率低的问题。

发明内容

鉴于上述技术问题，本发明提供了一种基于联合训练模型的自动对话方法和系统，用于解决背景技术中的问题。

本发明采用的技术方案是：提供一种基于联合训练模型的自动对话方法，包括以下步骤：

获取用户输入问句；

将所述问句转化为词向量；

构建基于胶囊神经网络的意图识别和槽位填充联合模型，并完成模型的训练；

将所述词向量输入所述联合模型中，输出用户意图及槽位标签；

根据对话管理框架，判断所述用户意图下的所有槽位是否被槽位标签填充完毕，若无，通过对话管理框架补全槽位；

将所述用户意图及槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案。

优选地，将所述问句转化为词向量的方法，包括：随机生成的词向量表示方法，或基于深度学习的语言模型训练得到的向量表示方法。

优选地，所述联合模型包括：构建三个子胶囊模块，分别为词胶囊模块、槽位胶囊模块和意图胶囊模块，各个模块之间通过动态路径连接。

优选地，所述动态路径通过路由协议执行；

所述词胶囊模块由多层长短期记忆模型循环神经网络构成，以学习输入问句中每个单词的上下文关系；

在所述词胶囊模块后接入所述槽位胶囊模块，将所述词胶囊模块的长短期记忆模型循环神经网络层输出传入所述槽位胶囊模块的挤压函数，并通过动态路径的路由协议对所述挤压函数参数进行更新；

在所述槽位胶囊模块后接入所述意图胶囊模块，所述意图胶囊模块包含多个全连接层，通过动态路由协议对全连接层中的参数进行更新。

优选地，处于更高阶的槽位胶囊模块和意图胶囊模块在学习到低阶的词胶囊模块传递过来的特征后，通过路径更新将学习后的特征重新传递给位于低阶的词胶囊模块，以实现各模块之间的信息传递。

优选地，构建基于胶囊神经网络的意图识别和槽位填充联合模型之后，还包括：迭代更新所述联合模型参数的方法，所述迭代更新联合模型参数的方法采用最大间隔损失函数对所述联合模型参数进行优化。

优选地，所述模型的训练包含获取语料数据，对所述语料数据进行意图和槽位的标注，将所述标注后的语料数据进行词向量的转换，将所述词向量输入基于胶囊神经网络的意图识别和槽位填充联合模型中进行训练，得到训练好的基于胶囊神经网络的联合模型。

优选地，通过所述基于胶囊神经网络的联合训练模型得到用户意图和槽位标签，判断所述用户意图下的槽位信息是否填充完整，若槽位信息填充不完整，返回预设问句以获取相应缺失的槽位信息。

优选地，将所述意图及所述槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案之前，还包括：建立搜索算法以找到与所述意图和槽位信息相匹配的知识图谱路径。

一种基于联合训练模型的自动对话系统，包括：

问句获取单元，获取用户输入问句；

词向量转换单元，将所述问句转化为词向量；

模型构建单元，构建基于胶囊神经网络的意图识别和槽位填充联合模型，并完成模型的训练；

识别单元，将所述词向量输入所述基于胶囊神经网络的联合模型中，输出用户意图及槽位标签；

对话管理单元，根据对话管理框架，判断所述用户意图下的所有槽位是否被槽位标签填充完毕，若无，通过对话管理框架补全槽位；

搜索单元，将所述用户意图及槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案。

本发明的有益效果是：

(1)本发明提供的自动对话方法和系统不需要大量的人力和时间来对规则和模板进行编写，也不需要耗费大量时间对系统进行维护；

(2)本发明提供的自动对话方法和系统是基于胶囊神经网络的意图识别和槽位填充联合模型，能够很好地学习两个子模块之间的联系，充分运用模块之间的信息传递，以提高完整系统的准确性；

(3)本发明提供的自动对话方法和系统提供了一种在知识图谱中搜索路径的模糊匹配算法，能够有效提高预测答案的召回率。

附图说明

图1为本发明提供的一种基于联合训练模型的自动对话方法的流程示意图；

图2为本发明提供的一种基于联合训练模型的自动对话方法的基于胶囊神经网络的模型框架图；

图3为本发明一种基于联合训练模型的自动对话系统的系统架构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步详细描述，但本发明的实施方式不限于此。

实施例一：

参见图1，一种基于联合训练模型的自动对话方法，包括如下步骤：

步骤1、获取用户输入问句。

步骤2、将所述问句转化为词向量。

将问句中的每个字转化成词向量的方法，包括：随机生成一定长度的向量表示，在模型训练过程中根据模型参数的迭代更新而更新；或者，

利用深度学习模型预训练词向量，这样的深度学习模型有word2vec模型，Glove模型等。

步骤3、构建基于胶囊神经网络的意图识别和槽位填充联合模型，并完成模型的训练。

具体实施例中，构建基于胶囊神经网络的意图识别和槽位填充联合模型，包括：构建三个子胶囊模块，分别为词胶囊模块，槽位胶囊模块和意图胶囊模块，各个模块之间通过动态路径连接。

如图2所示，是本发明一种基于联合训练模型的自动对话方法的实施例一中的基于胶囊神经网络的模型框架图，包括：

动态路径，通过路由协议执行。

词胶囊模块，由多层长短期记忆模型循环神经网络(LSTM)构成，以学习输入问句中每个单词的上下文关系。

槽位胶囊模块，在词胶囊模块后接入槽位胶囊模块，将词胶囊模块的LSTM网络层输出传入槽位胶囊模块的挤压函数，并通过动态路径的路由协议对挤压函数参数进行更新。

意图胶囊模块，在槽位胶囊模块后接入意图胶囊模块，意图胶囊模块包含多个全连接层，通过动态路由协议对全连接层中的参数进行更新。

路径更新，处于更高阶的槽位胶囊模块和意图胶囊模块在学习到低阶模块传递过来的特征后，通过路径更新将学习后的特征重新传递给位于低阶的词胶囊模块，以实现各模块之间的信息传递。

具体实施例中，在建立所述基于胶囊神经网络的意图识别和槽位填充联合模型之后，还包括：迭代更新所述联合模型参数的方法，该方法采用最大间隔损失函数对联合模型参数进行优化。

具体实施例中，在建立基于胶囊神经网络的意图识别和槽位填充联合模型之后，还包括：所述基于胶囊神经网络的意图识别和槽位填充联合模型的训练方法，包含获取语料数据，对所述语料数据进行意图和槽位的标注，将标注后的语料数据进行词向量的转换，将词向量输入基于胶囊神经网络的意图识别和槽位填充联合模型中进行训练，得到训练好的基于胶囊神经网络的联合模型。

标注语料的方法，包括：采用非人工标注方式，通过非监督的方式进行远程标注，得到包含意图标签和槽位标签的训练语料，或者，

采用人工标注方式，借助序列标注工具，对所述语料进行标注，得到包含意图标签和槽位标签的训练语料。

步骤4、将词向量输入基于胶囊神经网络的联合模型中，输出用户意图及槽位标签。

具体实施例中，在输出用户意图及槽位标签之后，基于规则根据槽位标签获取用于填充槽位的实体词。

步骤5、根据对话管理框架，判断用户意图下的所有槽位是否被槽位标签填充完整，若无，通过对话管理框架补全槽位。

构建对话管理框架的方法，包括：通过基于胶囊神经网络的联合训练模型得到用户意图和槽位标签，根据槽位标签得到文本中的实体信息，填充槽位，判断意图下的槽位信息是否填充完整，若槽位信息填充不完整，返回预定问句以获取相应缺失槽位信息。

步骤6、将用户意图及槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案。

具体实施例中，将意图及槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案之前，还包括：建立搜索算法以找到与意图和槽位信息相匹配的知识图谱路径。通过意图确定知识图谱中的知识领域，将槽位信息转化为向量表示，与知识图谱中的知识领域下的实体和关系进行相似度计算，找到相似度最大的实体关系对，把其对应的另一个槽位信息中缺失的元素作为答案输出。

根据本发明提供的方法，针对用户输入的文本，能够迅速识别出用户意图，捕捉槽位信息，若槽位信息不全，能够及时通过多轮对话获取所需槽位信息，并快速返回应答。该方法基于胶囊神经网络的深度学习模型，能够使各个模块之间的信息充分传递，使信息利用率最大化。同时本发明采用模糊匹配算法在知识图谱中检索答案，有效提高了预测答案的召回率。

实施例二

如图3所示，是本发明一种基于联合训练模型的自动对话系统的系统架构图，包括：

问句获取单元，用于获取用户输入问句；

词向量转换单元，用于将所述问句转化为词向量；

识别单元，将词向量输入基于胶囊神经网络的联合模型中，输出用户意图及槽位标签；

对话管理单元，根据对话管理框架，判断用户意图下的所有槽位是否被槽位标签填充完整，若无，通过对话管理框架补全槽位；

搜索单元，用于将用户意图及槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案。

每个单元的具体细节信息见实施例一。

需要说明的是，本实施例中的各个单元是逻辑意义上的，在具体实施过程中，一个单元可拆分成多个单元，多个单元也可以合并成一个单元。

根据本发明实施例二提供的一种基于联合训练模型的自动对话系统，能够同时预测出用户意图和问句中的实体信息，同时根据对话管理系统补全所述意图下所需缺失槽位。该系统采用基于胶囊神经网络的深度学习模型，将各个模块的信息充分传递到上下级模块中，提高信息利用率，并采用模糊匹配算法在知识图谱中搜索答案，有效提高了系统的召回率和准确率。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于联合训练模型的自动对话方法，其特征在于：包括以下步骤：

获取用户输入问句；

将所述问句转化为词向量；

2.根据权利要求1所述的一种基于联合训练模型的自动对话方法，其特征在于：将所述问句转化为词向量的方法，包括：随机生成的词向量表示方法，或基于深度学习的语言模型训练得到的向量表示方法。

3.根据权利要求1所述的一种基于联合训练模型的自动对话方法，其特征在于：所述联合模型包括：构建三个子胶囊模块，分别为词胶囊模块、槽位胶囊模块和意图胶囊模块，各个模块之间通过动态路径连接。

4.根据权利要求3所述的一种基于联合训练模型的自动对话方法，其特征在于：所述动态路径通过路由协议执行；

5.根据权利要求4所述的一种基于联合训练模型的自动对话方法，其特征在于：处于更高阶的槽位胶囊模块和意图胶囊模块在学习到低阶的词胶囊模块传递过来的特征后，通过路径更新将学习后的特征重新传递给位于低阶的词胶囊模块，以实现各模块之间的信息传递。

6.根据权利要求3所述的一种基于联合训练模型的自动对话方法，其特征在于：构建基于胶囊神经网络的意图识别和槽位填充联合模型之后，还包括：迭代更新所述联合模型参数的方法，所述迭代更新联合模型参数的方法采用最大间隔损失函数对所述联合模型参数进行优化。

7.根据权利要求3所述的一种基于联合训练模型的自动对话方法，其特征在于：所述模型的训练包含获取语料数据，对所述语料数据进行意图和槽位的标注，将所述标注后的语料数据进行词向量的转换，将所述词向量输入基于胶囊神经网络的意图识别和槽位填充联合模型中进行训练，得到训练好的基于胶囊神经网络的联合模型。

8.根据权利要求1所述的一种基于联合训练模型的自动对话方法，其特征在于：通过所述基于胶囊神经网络的联合训练模型得到用户意图和槽位标签，判断所述用户意图下的槽位信息是否填充完整，若槽位信息填充不完整，返回预设问句以获取相应缺失的槽位信息。

9.根据权利要求1所述的一种基于联合训练模型的自动对话方法，其特征在于：将所述意图及所述槽位信息输入知识图谱，通过模糊匹配的搜索算法匹配出相应路径，输出相应答案之前，还包括：建立搜索算法以找到与所述意图和槽位信息相匹配的知识图谱路径。

10.一种基于联合训练模型的自动对话系统，其特征在于，包括：

问句获取单元，获取用户输入问句；

词向量转换单元，将所述问句转化为词向量；