CN111198937A

CN111198937A - 对话生成及装置、计算机可读存储介质、电子设备

Info

Publication number: CN111198937A
Application number: CN201911215245.5A
Authority: CN
Inventors: 杜维; 刘设伟; 杨铭
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-05-26
Anticipated expiration: 2039-12-02
Also published as: CN111198937B

Abstract

本公开实施例是关于一种对话生成方法及装置、计算机可读存储介质、电子设备，该方法包括：对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各所述当前词组进行编码得到多个当前句子向量；将各所述当前句子向量输入至对话生成模型，得到与所述当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；其中，所述对话生成模型是根据原始对话交互信息对双向长短记忆网络模型进行训练得到的；根据所述当前对话意图、当前关键词槽以及当前特征词槽，生成与所述当前对话交互信息对应的对话。本公开实施例提高了词槽的准确率，同时也提高了对话的准确率。

Description

对话生成及装置、计算机可读存储介质、电子设备

技术领域

本发明实施例涉及机器学习技术领域，具体而言，涉及一种对话生成方法、对话生成装置、计算机可读存储介质以及电子设备。

背景技术

机器人多轮对话是目前NLP(Natural Language Processing，自然语言处理)领域的一个重要应用场景。多轮对话指的是机器人与人之间进行的多回合对话。为了实现多回合的对话，需要建立多轮对话产品机器人，并为每个机器人下面设置若干技能，每个技能下建立不同的意图，而意图下面设置必填词槽，当必填词槽未被识别到时，需要通过反问澄清方式反问用户，用户做出回答后进入下一个必填槽位的澄清环节，当所有必填槽位都被澄清后，多轮对话给出最终答案。因此，多轮对话是基于满足特定的意图下的所触发的一系列反问澄清和答案生成的过程。

在现有的机器人的多轮对话模型的实现方式中，可以包括如下两种：模板匹配方案和意图实体识别方案。其中，在模板匹配方案中，设置多种不同的模板以匹配模板，从而识别意图和必填词槽。在意图词槽实体识别方案中，先用意图分类算法识别用户Query(询问)的意图，再通过实体识别算法识别关键词槽值，进而触发多轮对话反问澄清和答案回复。

但是，上述方案存在如下缺陷：在第一种方案中，由于是通过不同的模板以匹配模板从而识别意图和必填词槽，因此存在错误匹配、遗漏匹配以及覆盖范围有限的问题，进而导致词槽准确率较低的问题；

在第二中方案中，首先，该方案将意图识别和槽位的识别割裂开，并没有考虑意图和槽位的关联关系；其次，得出意图识别后再进行槽位识别，使得词槽准确率＝意图识别准确率*槽位识别准确率；因此在意图识别的准确率较低的情况下，使得词槽准确率也较低；进一步的，由于没有进行特征词槽的识别，因此意图和关键词槽准确率也较低。

因此，需要提供一种新的对话生成方法及装置。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种对话生成方法、对话生成装置、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的槽位准确率较低的问题。

根据本公开的一个方面，提供一种对话生成方法，包括：

对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各所述当前词组进行编码得到多个当前句子向量；

将各所述当前句子向量输入至对话生成模型，得到与所述当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；其中，所述对话生成模型是根据原始对话交互信息对双向长短记忆网络模型进行训练得到的；

根据所述当前对话意图、当前关键词槽以及当前特征词槽，生成与所述当前对话交互信息对应的对话。

在本公开的一种示例性实施例中，所述对话生成方法还包括：

利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练，得到所述对话生成模型。

在本公开的一种示例性实施例中，利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练得到，所述对话生成模型包括：

根据所述原始对话交互信息得到预测意图信息以及预测槽位信息，并根据所述预测意图信息以及所述预测槽位信息的注意力权重以及上下文值得到预测意图分类结果以及预测槽位标注结果；

计算目标意图分类结果与所述预测意图分类结果的意图分类损失函数，以及目标槽位标注结果与所述预测槽位标注结果的槽位损失函数；

根据所述意图分类损失函数以及槽位损失函数得到交叉熵损失函数，并根据所述交叉熵损失函数对双向长短记忆网络模型进行训练得到所述对话生成模型。

计算各所述当前句子向量的长度；

在确定所述当前句子向量的长度未达到预设长度时，对所述当前句子向量进行填充。

在本公开的一种示例性实施例中，在根据所述预测意图信息以及所述预测槽位信息的注意力权重以及上下文值得到预测意图分类结果以及预测槽位标注结果之前，所述对话生成方法还包括：

分别对所述预测意图信息以及预测槽位信息进行逻辑回归计算，得到所述预测意图信息以及所述预测槽位信息的注意力权重；

分别对所述预测意图信息以及预测槽位信息的注意力权重进行加权求和，得到所述预测意图信息以及预测槽位信息的上下文值。

在本公开的一种示例性实施例中，根据所述预测意图信息以及所述预测槽位信息的注意力权重以及上下文值得到预测意图分类结果以及预测槽位标注结果包括：

对所述预测意图信息以及所述预测槽位信息的上下文值进行转换得到包括一次训练所选取的训练样本的数量以及训练样本的总数量的意图张量；

将所述预测意图信息以及所述预测槽位信息的注意力权重以及所述意图张量输入至编解码框架中的解码双向长短记忆网络模型中，得到所述预测意图分类结果以及预测槽位标注结果。

在本公开的一种示例性实施例中，所述预测槽位信息包括预测关键词槽以及预测特征词槽；

其中，根据各所述句子向量得到预测意图信息以及预测槽位信息包括：

将各所述句子向量输入至编解码框架中的编码双向长短记忆网络模型中，得到所述预测意图信息、所述预测关键词槽以及所述预测特征词槽。

在本公开的一种示例性实施例中，所述目标槽位标注结果包括目标关键词槽标注结果以及目标特征词槽标注结果；

其中，计算目标槽位标注结果与所述预测槽位标注结果的槽位损失函数包括：

计算所述目标关键词槽标注结果与预测关键词槽标注结果之间的关键词槽损失函数；

计算所述目标特征词槽标注结果与预测特征词槽标注结果之间的特征词槽损失函数；

根据所述关键词槽损失函数以及所述特征词槽损失函数得到所述槽位损失函数。

根据本公开的一个方面，提供一种对话生成装置，包括：

第一处理模块，用于对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各所述当前词组进行编码得到多个当前句子向量；

第二处理模块，用于将各所述当前句子向量输入至对话生成模型，得到与所述当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；其中，所述对话生成模型是根据原始对话交互信息对双向长短记忆网络模型进行训练得到的；

对话生成模块，用于根据所述当前对话意图、当前关键词槽以及当前特征词槽，生成与所述当前对话交互信息对应的对话。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的对话生成方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的对话生成方法。

本发明实施例一种对话生成方法及装置，一方面，对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各当前词组进行编码得到多个当前句子向量；然后将各当前句子向量输入至对话生成模型，得到与当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；最后根据当前对话意图、当前关键词槽以及当前特征词槽，生成与当前对话交互信息对应的对话，解决了现有技术中由于是通过不同的模板以匹配模板从而识别意图和必填词槽，因此存在错误匹配、遗漏匹配以及覆盖范围有限的问题，进而导致词槽准确率较低的问题，提高了词槽的准确率，同时也提高了对话的准确率；另一方面，解决了现有技术中将意图识别和槽位的识别割裂开，并没有考虑意图和槽位的关联关系进而知道词槽准确率较低的问题；再一方面，通过将各当前句子向量输入至对话生成模型，得到与当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；最后根据当前对话意图、当前关键词槽以及当前特征词槽，生成与当前对话交互信息对应的对话，提高了对话的生成速度，进而提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出根据本公开示例实施例的一种对话生成方法的流程图。

图2示意性示出根据本公开示例实施例的一种利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练得到所述对话生成模型的方法流程图。

图3示意性示出根据本公开示例实施例的另一种对话生成方法的流程图。

图4示意性示出根据本公开示例实施例的一种对双向长短记忆网络模型进行训练的方法流程图。

图5示意性示出根据本公开示例实施例的另一种对话生成方法的流程图。

图6示意性示出根据本公开示例实施例的一种对话生成装置的框图。

图7示意性示出根据本公开示例实施例的一种用于实现上述对话生成方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络以及处理器装置以及微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种对话生成方法，该方法可以运行于服务器、服务器集群或云服务器等；当然，本领域技术人员也可以根据需求在其他平台运行本发明的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该对话生成方法可以包括以下步骤：

步骤S110.对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各所述当前词组进行编码得到多个当前句子向量。

步骤S120.将各所述当前句子向量输入至对话生成模型，得到与所述当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；其中，所述对话生成模型是根据原始对话交互信息对双向长短记忆网络模型进行训练得到的。

步骤S130.根据所述当前对话意图、当前关键词槽以及当前特征词槽，生成与所述当前对话交互信息对应的对话。

上述对话生成方法中，一方面，对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各当前词组进行编码得到多个当前句子向量；然后将各当前句子向量输入至对话生成模型，得到与当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；最后根据当前对话意图、当前关键词槽以及当前特征词槽，生成与当前对话交互信息对应的对话，解决了现有技术中由于是通过不同的模板以匹配模板从而识别意图和必填词槽，因此存在错误匹配、遗漏匹配以及覆盖范围有限的问题，进而导致词槽准确率较低的问题，提高了词槽的准确率，同时也提高了对话的准确率；另一方面，解决了现有技术中将意图识别和槽位的识别割裂开，并没有考虑意图和槽位的关联关系进而知道词槽准确率较低的问题；再一方面，通过将各当前句子向量输入至对话生成模型，得到与当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；最后根据当前对话意图、当前关键词槽以及当前特征词槽，生成与当前对话交互信息对应的对话，提高了对话的生成速度，进而提升了用户体验。

以下，将结合附图对本公开示例实施例中对话生成方法中的各步骤进行详细的解释以及说明。

为了实现在同一算法模型中同时识别意图、关键词槽和特征词槽，采用encoder-decoder框架，使用带有注意力机制的双向长短记忆网络模型，使用交叉熵损失函数来进行模型迭代。

在步骤S110中，对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各所述当前词组进行编码得到多个当前句子向量。

在本示例实施例中，由于当前对话交互信息中可以包括中文语料，因此要对当前对话交互信息(用户当前输入的句子)进行分词得到多个当前词组；然后再对各当前词组进行编码使得当前词组向量化进而得到多个句子向量。

进一步的，当得到当前句子向量以后，该对话生成方法还可以包括：计算各所述当前句子向量的长度；在确定所述当前句子向量的长度未达到预设长度时，对所述当前句子向量进行填充。譬如，可以设定每条当前句子向量的固定词组长度为M(预设长度)，当任一条当前句子向量的长度小于该预设长度时，则可以对该当前句子向量进行填充以达到固定长度；其中，对于不足M长度的部分，可以用0进行填充，也可以通过其他字符进行填充，本示例对此不做特殊限制。通过该方法，便于在通过句子向量得到当前对话意图以及当前词槽信息时，由于句子向量的长度不统一带来的准确率下降的问题，提高了当前对话意图以及当前词槽信息的准确率，进而提高了对话的准确率。

在步骤S120中，将各所述当前句子向量输入至对话生成模型，得到与所述当前对话交互信息对应的当前对话意图、当前关键词槽以及当前特征词槽；其中，所述对话生成模型是根据原始对话交互信息对双向长短记忆网络模型进行训练得到的。

譬如，P1的当前对话意图为需要去写作业，当前关键词槽为：行为、内容、地点、科目以及同伴等等；当前特征词槽为自习、写作业、自习室、C程以及朋友等等；

进一步的，P2的当前对话意图为需要去银行取钱；当前关键词槽为：行为、什么方式、人数、为什么取钱等等；当前特征词槽为：去银行取钱、柜台、人很少以及要去旅游备点现金等等。

在步骤S130中，根据所述当前对话意图、当前关键词槽以及当前特征词槽，生成与所述当前对话交互信息对应的对话。

譬如，生成的对话可以如下表1所示：

表1

进一步的，为了可以生成上述对话，该方法还可以包括：利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练得到，所述对话生成模型。具体的，参考图2所示，该利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练，得到所述对话生成模型还可以包括步骤S210-步骤S230，以下进行详细说明。

在步骤S210中，根据原始对话交互信息得到预测意图信息以及预测槽位信息，并根据所述预测意图信息以及所述预测槽位信息的注意力权重以及上下文值得到预测意图分类结果以及预测槽位标注结果。

在本示例实施例中，首先，对所述原始对话交互信息进行分词处理得到多个词组，并对各所述词组进行编码得到所述多个句子向量。具体的，由于原始对话交互信息可以包括中文语料，因此要对原始对话交互信息(用户输入的句子)进行分词得到多个词组；然后再对各词组进行编码使得词组向量化进而得到多个句子向量。

进一步的，当得到句子向量以后，该对话生成方法还可以包括：计算各所述句子向量的长度；在确定所述句子向量的长度未达到预设长度时，对所述句子向量进行填充。譬如，可以设定每条句子向量的固定词组长度为M(预设长度)，当任一条句子向量的长度小于该预设长度时，则可以对该句子向量进行填充以达到固定长度；其中，对于不足M长度的部分，可以用0进行填充，也可以通过其他字符进行填充，本示例对此不做特殊限制。通过该方法，便于在通过句子向量得到预测意图信息以及预测槽位信息时，由于句子向量的长度不统一带来的准确率下降的问题，提高了预测意图信息以及预测槽位信息的准确率。

更进一步的，当得到具有统一长度的句子向量后，可以根据该句子向量得到预测意图信息以及预测槽位信息，其中，预测槽位信息可以包括预测关键词槽以及预测特征词槽，特征词槽可以用于对关键词槽进行修饰，以使最终得到的多轮对话具有较高的精确度。具体的，可以将各所述句子向量输入至编解码框架中的编码双向长短记忆网络模型中，得到所述预测意图信息以及所述预测关键词槽以及所述预测特征词槽。譬如，可以将各句子向量输入至双向长短记忆网络中，输出结果可以包括：encoder_outputs，encoder_state，attention_state。

详细来说，可以将各句子向量按照时序依次输入到encoder-decoder框架中的encoder双向长短记忆网络模型中，第t时刻输入的原始词组单元(句子向量)经过含dropout的长短记忆网络cell逻辑单元后转换成一个固定长度cellsize的hidden输出向量，则第T+1时刻的输入包括第T时刻输出的Hidden向量和第T+1时刻的原始输入单元，输出T+1时刻固定长度的Hidden向量。其中，该双向长短记忆网络模型为Bi LSTM模型。

进一步的，由于双向LSTM output输出由每时刻forward长短记忆网络和backwardLSTM的单元输出拼接而成；因此输出的encoder_outputs就是形如(batchsize，M，2cellsize)的向量；其中，Batchsize为批次大小，Cellsize为LSTM单元输出的向量维度大小。同时，还会输出encoder_state以及attention_state，可以用于计算预测的词槽标识任务和意图分类任务的注意力权重。

并且，encoder_state由forward LSTM的最终状态和backward LSTM的最终状态拼接而成，最终状态可以由LSTM state的C和H值组成；attention_state由encoder_outputs变换后生成，encoder_outputs是数组，将数组按照特定的维度拼接后生成attention_state的三维张量(batchsize，M,cellsize)，也用于注意力权重的计算。encoder_state是encoder LSTM最后一层状态值的叠加后生成的张量，张量大小(batchsize,4cellsize)；Attention_state是根据LSTM outputs得出的张量，(batchsize,M,2cellsize)。

进一步的，对所述预测意图信息以及所述预测槽位信息的上下文值进行转换得到包括一次训练所选取的训练样本分类意图的数量以及训练样本的总数量的意图张量；其中，该训练样本可以包括意图分类训练样本以及槽位标注训练样本；其次，将所述预测意图信息以及所述预测槽位信息的注意力权重以及所述意图张量输入至编解码框架中的解码双向长短记忆网络模型中，得到所述预测意图分类结果以及预测槽位标注结果；其中，预测槽位标注结果可以包括预测关键词槽位标注结果以及预测特征词槽位标注结果。详细而言：

首先，为了得到预测意图分类结果以及预测槽位标注结果，可以将context转换成(batchsize,intentsize)张量，其中，intentsize为分类意图的总数量(槽位标注的总数量)；batchsize为一次训练所选取的分类意图的数量(一次训练所选取的槽位标注的数量)；然后，将预测意图信息以及预测槽位信息的注意力权重以及意图张量输入至编解码框架中的解码双向长短记忆网络模型中，得到预测意图分类结果、括预测关键词槽位标注结果以及预测特征词槽位标注结果。

譬如，Decoder框架下i时刻的LSTM cell状态s_i由s_i＝f(s_i-1,c_i,h_i)得到，在decoder框架中，i-1的cell输出的s_i-1，和c_i、h_i经过共同输入LSTM forward LSTM层，即可以输出i时刻的关键词槽位标注结果y_i。

同理，Decoder框架下slot_tagging层i时刻的模型输入s'_i由s'_i＝f(s'_i-1,c'_i,h'_i)得到，将s'_i输入decoder模型，输出i时刻的预测特征词槽位标注结果y'_i。

进一步的，decoder框架下,多意图分类场景只需要输出单个值即可以得到预测意图分类结果。

在步骤S220中，计算目标意图分类结果与所述预测意图分类结果的意图分类损失函数，以及目标槽位标注结果与所述预测槽位标注结果的槽位损失函数。

在本示例实施例中，首先，计算目标意图分类结果与所述预测意图分类结果的意图分类损失函数；然后，计算所述目标关键词槽标注结果与预测关键词槽标注结果之间的关键词槽损失函数；紧接着，计算所述目标特征词槽标注结果与预测特征词槽标注结果之间的特征词槽损失函数；最后，根据所述关键词槽损失函数以及所述特征词槽损失函数得到所述槽位损失函数。详细而言：

可以分别将target_intent(目标意图分类结果)、target_slot(目标关键词槽标注结果)、target_keyslot(目标特征词槽)与decoder生成的预测意图分类结果、预测关键词槽标注结果以及预测特征词槽标注结果进行损失函数计算，分别得到意图分类损失函数、关键词槽损失函数以及特征词槽损失函数；再根据关键词槽损失函数以及特征词槽损失函数得到槽位损失函数。

在步骤S230中，根据所述意图分类损失函数以及槽位损失函数得到交叉熵损失函数，并根据所述交叉熵损失函数对对话生成模型进行训练，并利用训练后的对话生成模型进行对话生成。

在本示例实施例中，首先，根据意图分类损失函数以及槽位损失函数得到交叉熵损失函数；其中，交叉熵损失函数可以为：crossent(logits,weight,target)，其中weight是句子中每组分词的权重，填充的分组权重为0，其余为1。然后，再通过该交叉熵损失函数迭代encoder和decoder模型。譬如：

gradients＝gradients([keySlottagging_loss,slottagging_loss,classification_loss],params)，其中，keySlottagging_loss是关键词槽的损失函数,slottagging_loss是特征词槽的损失函数，classification_loss是意图分类的损失函数，最后将得到的模型作为训练后的对话生成模型。

进一步的，当得到训练后的对话生成模型后，当需要生成某一个对话时，可以直接将用户输入的当前语音信息或者文字信息输入至训练后的对话生成模型中，然后训练后的对话生成模型会根据该当前语音信息或者文字信息生成多个对话。通过该方法，使得用户可以根据训练好的对话生成模型生成对应的对话信息，解决了现有技术中由于是通过不同的模板以匹配模板从而识别意图和必填词槽，因此存在错误匹配、遗漏匹配以及覆盖范围有限的问题，进而导致词槽准确率较低的问题，提高了词槽的准确率，同时也提高了对话信息的准确率。

图3示意性示出根据本公开示例实施例的另一种对话生成方法的流程图。参考图3所示，该对话生成方法还可以包括步骤S310以及步骤S320，以下进行详细说明。

在步骤S310中，分别对所述预测意图信息以及预测槽位信息进行逻辑回归计算，得到所述预测意图信息以及所述预测槽位信息的注意力权重。

在步骤S320中，分别对所述预测意图信息以及预测槽位信息的注意力权重进行加权求和，得到所述预测意图信息以及预测槽位信息的上下文值。

以下，将对步骤S310以及步骤S320进行解释以及说明。首先，假设第i步incoder_state输出的隐藏状态为h_i，decoder状态为s_i，context值为c_i,预设槽位标签为y_i(y_i可以由公式计算得出，此处不做赘述)。然后由以下公式可得c_i，c_i作为decoder部分的LSTM每层layer的输入之一，与encoder_output_[i]共同拼接后输入到decoder LSTM进行深度学习训练。

进一步的，首先，计算出e_ij。其中，e_ij＝g(s_i-1,h_j)，实际上由encoder_output_[i]与encoder_hidden拼接，再输入激活函数后生成e_ij。encoder_hidden是提取自encoder_outputs的张量，用于表征LSTM encoder输出的全体张量信息。

然后，当得到e_ij后，可以对其进行逻辑回归计算，得到预测意图信息的注意力权重以及预测槽位信息的注意力权重w_ij，其中：

当得到注意力权重w_ij后，可以对注意力权重w_ij进行加权求和得到预测意图信息的上下文值以及预测槽位信息的上下文值c_i，其中：

i时刻相对所有位置encoder_hidden的加权求和，生成了i时刻的context上下文。

以下，将结合图4对公开示例实施例中的对话生成方法进行进一步的解释以及说明。参考图4所示，该对话生成方法还可以包括以下步骤：

步骤S401，对用户输入的句子进行分词得到多个词组，并对词组进行编码得到多个句子向量；然后对于固定词组长度小于M的句子向量进行填充以达到固定长度M。

步骤S402，对句子向量进行embedding(降维)，并将降维后的句子向量输入到encoder-decoder框架中的encoder双向LSTM模型，输出encoder-output list(batchsize,2cellsize),batchsize为批次数量，cellsize为LSTM cell输出的向量维度。同时，encoder模型还会生成encoder_state和Attention_state。用于计算初始的词槽标识任务和意图分类任务的注意力权重。encoder_state是encoder LSTM最后一层状态值的叠加后生成的张量，张量大小(batchsize,4cellsize)。Attention_state是根据LSTM outputs得出的张量，(batchsize,M,2cellsize)。

步骤S403，计算意图分类任务的注意力权重和上选文context值，只需将encoder_state经过神经网络并进行逻辑回归(Softmax)计算，得到attentionWeights,再通过与Attention_state的加权求和计算出context。

步骤S404，在decoder框架下实现意图分类，关键词槽识别和特征词槽识别三个任务。为实现意图分类任务，将context转换成(batchsize,intentsize)张量，其中，intentsize为分类意图的数量。在关键词槽识别任务中，将content_[i]与output_[i]拼接后作为i时刻的Decoder LSTM输入，输出为Logit，即i时刻的关键词槽。同理，特征词槽的识别结果也由此方法生成。

步骤S405，分别将target_intent,target_slot,target_keyslot与decoder生成的意图，关键词槽和特征词槽进行损失函数计算，采用交叉熵损失函数crossent(logits,weight,target)，其中weight是句子中每组分词的权重，填充的分组权重为0，其余为1。

步骤S406，根据损失函数进行模型训练。每100次epoch批训练后，当测试集中准确率高于上一次，记录并保存该epoch的模型。否则继续下100次epoch训练。最终，当总训练轮次达到10000次，结束训练。

步骤S407，在验证集中进行模型评估，记录准确率。模型训练完成。

图5示意性示出对利用上述对话生成方法训练出来的对话模型进行应用的方法流程图。参考图5所示，该方法可以包括以下步骤：

步骤S501，当用户输入query时，先进行预处理(分词，编码，填充，句子向量化)。

步骤S502，将句子向量输入模型，得出意图，关键词槽和特征词槽的编码。

步骤S503，将相应编码转换成意图名，关键词槽名和特征词槽名。

步骤S504，根据意图名，关键词槽名和特征词槽名生成与原始对话交互信息对应的多轮对话。

本公开示例实施例涉及的对话生成方法至少具有以下优点：

一方面，本公开采用多任务联合识别算法，在同一个算法模型中进行意图分类、关键词槽识别、特征词槽识别三种任务。第一，在同一个深度学习模型中进行三种任务识别，可以使算模型的公共层(encoder层)学习三种任务的共同特征，体现了意图、关键词槽、特征词槽的关联特性。第二，多任务模型相比单任务模型有着更好的表现，这体现在准确率，召回率以及收敛速度上。因此，本发明采用的多任务联合识别算法比单任务模型的识别准确率更高。第三，把特征词槽(除多轮对话里设置的特征词槽，还纳入了句子标点符号及表情符号，符号也有语义)的识别任务加入多任务联合识别算法中，一方面可以使得公共层模型学习到特征词槽特征，从而辅助意图和关键词槽的识别。另一方面，多任务联合识别模型增加了对特征词槽的识别，模型将输出句子中识别到的意图类别、关键词槽、特征词槽，实现训练样本集的预标注，再此标注基础上进行人工审核，辅助设置多轮对话模板。

另一方面，可以将文本里的意图与特征词槽、关键词槽的强关联关系体现在模型中，在多任务算法中，意图，特征词槽，关键词槽的绑定关系共同影响模型参数，使模型更契合真实的对话场景特点。

再一方面，通过输入文本到多任务模型，得到意图、关键词槽、特征词槽。为使用者提供更高效和更准确的实体识别能力。并且，在一个模型中通过多任务模型同时实现意图识别，关键词槽的识别，特征词槽的识别，提升工作效率。

进一步的，多任务模型通过共享encoder部分的模型，在模型迭代的过程中，充分考虑到意图识别，关键词槽识别，特征词槽识别对模型前半部分(encoder部分)共享的参数在梯度优化过程中的约束，更好的体现多个任务对参数的影响力，从而提高最终模型的准确率。

更进一步的，多任务联合识别算法增加了对特征词槽的标识算法，模型将输出意图类别、关键词槽、特征词槽，辅助设置多轮对话模板。

最后，可以解决早期标注训练集规模较小的问题，即通过多任务模型将训练预料的意图、槽位都标注出来，并通过人工方式审核后，再作为训练集训练多任务模型，反复迭代。

本公开还提供一种对话生成装置。参考图6所示，该对话生成装置可以包括第一处理模块610、第二处理模块620以及对话生成模块630。其中：

第一处理模块610可以用于对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各所述当前词组进行编码得到多个当前句子向量。

第二处理模块620可以用于将各所述当前句子向量输入至对话生成模型，得到与所述当前对话交互信息对应的当前会话意图、当前关键词词槽以及当前特征词槽；其中，所述对话生成模型是根据原始对话交互信息对双向长短记忆网络模型进行训练得到的。

对话生成模块630可以用于根据所述当前会话意图、当前关键词词槽以及当前特征词槽，生成与所述当前对话交互信息对应的对话。

在本公开的一种示例性实施例中，所述对话生成装置还包括：

模型训练模块，可以用于利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练得到，所述对话生成模型。

在本公开的一种示例性实施例中，利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练，得到所述对话生成模型包括：

根据原始对话交互信息得到预测意图信息以及预测槽位信息，并根据所述预测意图信息以及所述预测槽位信息的注意力权重以及上下文值得到预测意图分类结果以及预测槽位标注结果；

第一计算模块，可以用于分别对所述预测意图信息以及预测槽位信息进行逻辑回归计算，得到所述预测意图信息以及所述预测槽位信息的注意力权重；

第二计算模块，可以用于分别对所述预测意图信息以及预测槽位信息的注意力权重进行加权求和，得到所述预测意图信息以及预测槽位信息的上下文值。

上述对话生成装置中各模块的具体细节已经在对应的对话生成方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤S110：对用户输入的当前对话交互信息进行分词处理得到多个当前词组，并对各所述当前词组进行编码得到多个当前句子向量；步骤S120：将各所述当前句子向量输入至对话生成模型，得到与所述当前对话交互信息对应的当前会话意图、当前关键词词槽以及当前特征词槽；其中，所述对话生成模型是根据原始对话交互信息对双向长短记忆网络模型进行训练得到的；步骤S130：根据所述当前会话意图、当前关键词词槽以及当前特征词槽，生成与所述当前对话交互信息对应的对话。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201以及高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，以及与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)以及公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件以及软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.一种对话生成方法，其特征在于，包括：

2.根据权利要求1所述的对话生成方法，其特征在于，所述对话生成方法还包括：

3.根据权利要求2所述的对话生成方法，其特征在于，利用所述原始对话交互信息对所述双向长短记忆网络模型进行训练得到，所述对话生成模型包括：

4.根据权利要求3所述的对话生成方法，其特征在于，在根据所述预测意图信息以及所述预测槽位信息的注意力权重以及上下文值得到预测意图分类结果以及预测槽位标注结果之前，所述对话生成方法还包括：

5.根据权利要求3所述的对话生成方法，其特征在于，根据所述预测意图信息以及所述预测槽位信息的注意力权重以及上下文值得到预测意图分类结果以及预测槽位标注结果包括：

6.根据权利要求3所述的对话生成方法，其特征在于，所述预测槽位信息包括预测关键词槽以及预测特征词槽；

7.根据权利要求6所述的对话生成方法，其特征在于，所述目标槽位标注结果包括目标关键词槽标注结果以及目标特征词槽标注结果；

8.一种对话生成装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的对话生成方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的对话生成方法。