CN110297895B

CN110297895B - 一种基于自由文本知识的对话方法及系统

Info

Publication number: CN110297895B
Application number: CN201910440182.7A
Authority: CN
Inventors: 陈竹敏; 孟川; 任鹏杰; 任昭春; 马军
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-09-17
Anticipated expiration: 2039-05-24
Also published as: CN110297895A

Abstract

本公开公开了一种基于自由文本知识的对话方法及系统，该方法包括：接收自由文本知识和对话上下文；分别通过知识编码器和语境编码器将自由文本知识和对话上下文编码成隐状态表示；通过混合解码器将二者的隐状态表示解码；在解码的每个时间步，通过模式转换器确定混合解码器执行模式；经过一定数量的解码时间步，直至得到由不同执行模式结果共同按序合成最终的回复序列。本公开融合了生成式与抽取式对话系统的精华，同时具备逐词生成与从文本知识中抽取相关语义单元的能力，对于系统输出的回复，信息性显著增强，同时流利性与自然性得到保障，最大化用户体验。

Description

一种基于自由文本知识的对话方法及系统

技术领域

本公开属于智能人机对话的技术领域，涉及一种基于自由文本知识的对话方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

人机对话是研究让人可以通过人类语言(即自然语言)与计算机进行交互的一门技术。在人工智能狂潮席卷全球的今天，人机对话已经成为衡量机器智能程度的重要标杆，其重要程度不言而喻，被学术界与工业级共同聚焦。此外，人机对话的相关产品在当今也被广泛应用，已经给人类生活带来了巨大便利，主要产品应用包括虚拟助手(苹果siri、微软小娜、阿里小蜜)、闲聊软件(微软小冰)和智能音箱(亚马逊Echo、百度小度、阿里天猫精灵、Google Home)。

人机对话作为人工智能领域的终极难题之一，如何使生成的回复包含更多对用户有意义的信息是一大挑战。如果对话系统不依赖于外界知识信息，则很倾向于生成信息匮乏的无意义回复。因此，通过对人机对话系统引入自由文本形式的外界知识(例如与特定对话内容相关的一段文本)，它由许多表达完整语义的单元组成(后文简称语义单元，例如实体、词组、短语)。对话系统可以实现从外界文本知识中查找、利用与对话情景相关的内容，以辅助生成更富有信息的回复，从而更好地造福于用户。

然而，发明人在研发过程中发现，当前的基于自由文本知识的对话系统存在较为严重的问题。首先，主流的采用生成式方法的对话系统缺乏有效利用自由文本知识的能力，系统只能按序列逐词生成回复，每个词可以从预先给定的词表中预测，也可以从文本知识中“拷贝”；但是这种“逐词生成”的方法经常“打碎”完整的语义单元，造成“语义失真”，丢失大量有意义的信息，这样的回复并不能给用户带来实质性的帮助。其次，有些对话系统使用抽取式方法从自由文本知识中直接抽取完整的相关语义单元作为回复；虽然这种方法可以一定程度上保障回复的信息性，但是抽取的内容与真人的回复相比，往往会让人感觉“生硬”，即缺乏流利性与自然性，这势必会降低用户体验。

发明内容

针对现有技术中存在的不足，解决当前基于自由文本知识的对话系统回复易失信息性与自然性的问题，本公开的一个或多个实施例提供了一种基于自由文本知识的对话方法及系统,有效融合生成式与抽取式对话系统，同时具备逐词生成与从文本知识中抽取相关语义单元的能力。对于系统输出的回复，信息性显著增强，同时流利性与自然性得到保障，从而最大化用户体验。

根据本公开的一个或多个实施例的一个方面，提供一种基于自由文本知识的对话方法。

一种基于自由文本知识的对话方法，该方法包括：

接收自由文本知识和对话上下文；

分别通过知识编码器和语境编码器将自由文本知识和对话上下文编码成隐状态表示；

通过混合解码器将二者的隐状态表示解码；

在解码的每个时间步，通过模式转换器确定混合解码器执行模式；

经过一定数量的解码时间步，直至得到由不同执行模式结果共同按序合成最终的回复序列。

进一步地，在该方法中，所述对话上下文为用户给定的输入和存储的对话历史。

进一步地，在该方法中，所述知识编码器采用双向循环神经网络构成；所述语境编码器采用双向循环神经网络构成；所述知识编码器和所述语境编码器不共享参数。

进一步地，在该方法中，所述混合解码器采用单向循环神经网络构成；所述通过混合解码器将二者的隐状态表示解码前将自由文本知识和对话上下文的隐状态表示输入线性变换层得到所述混合解码器的初始隐状态向量。

进一步地，在该方法中，所述执行模式包括抽取模式和生成模式；

所述抽取模式为在自由文本知识中抽取完整语义单元；

所述生成模式为生成一个词并确定执行的解码方式。

进一步地，在该方法中，所述解码方式包括预测解码和拷贝解码；

所述预测解码为从预先定义的词表中预测一个词；

所述拷贝解码为从自由文本知识中拷贝一个词。

进一步地，该方法还包括：根据训练集采用反向传播算法训练所述知识编码器、语境编码器、混合解码器和模式转换器的网络参数；使得由生成损失、抽取损失、转换器损失共同组成的损失函数最小。

根据本公开的一个或多个实施例的一个方面，提供一种计算机可读存储介质。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于自由文本知识的对话方法。

根据本公开的一个或多个实施例的一个方面，提供一种终端设备。

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于自由文本知识的对话方法。

根据本公开的一个或多个实施例的一个方面，提供一种基于自由文本知识的对话装置。

一种基于自由文本知识的对话装置，基于所述的一种基于自由文本知识的对话方法，包括：

对话接收模块，被配置为接收自由文本知识和对话上下文；

对话编码模块，被配置为分别通过知识编码器和语境编码器将自由文本知识和对话上下文编码成隐状态表示；

对话解码模块，被配置为通过混合解码器将二者的隐状态表示解码；经过一定数量的解码时间步，直至得到由不同执行模式结果共同按序合成最终的回复序列；

解码模式确定模块，被配置为在解码的每个时间步，通过模式转换器确定混合解码器执行模式。

本公开的有益效果：

本公开提供的一种基于自由文本知识的对话方法及系统，创新地使用抽取与生成结合的方式来增强基于自由文本知识的对话系统所产生回复的流利性、自然性与信息性。相比于当前主流的生成式方法，本公开提升了系统回复所包含的信息量，从而可以为用户提供更多有价值的内容；相比于当前的抽取式方法，本公开提升了系统回复的流利性与自然性，从而显著改善了用户体验，增强了用户粘性，让用户真正感觉是在与真人对话。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是根据一个或多个实施例的一种基于自由文本知识的对话方法流程图；

图2是根据一个或多个实施例的EGNet的工作流程图；

图3是根据一个或多个实施例的EGNet的知识编码器示意图；

图4是根据一个或多个实施例的EGNet的混合解码器与模式转换器示意图。

具体实施方式：

下面将结合本公开的一个或多个实施例中的附图，对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合，下面结合附图与实施例对本公开作进一步说明。

实施例一

如图1所示，一种基于自由文本知识的对话方法，该方法包括：

一种基于自由文本知识的对话方法，该方法包括：

S1：接收自由文本知识和对话上下文；

S2：分别通过知识编码器和语境编码器将自由文本知识和对话上下文编码成隐状态表示；

S3：通过混合解码器将二者的隐状态表示解码；

S4：在解码的每个时间步，通过模式转换器确定混合解码器执行模式；

S5：经过一定数量的解码时间步，直至得到由不同执行模式结果共同按序合成最终的回复序列。

在本实施例中采用了目前流行的基于深度学习的编码器-解码器框架，名称为Extraction-Generation Network(简称为EGNet)，其包含四个模块，分别为：知识编码器、语境编码器、模式转换器、混合解码器。其中，知识编码器、语境编码器分别把自由文本知识与对话上下文(用户给定的输入及之前的对话历史)编码成隐状态表示。之后，二者的隐状态表示会作为混合解码器的输入。在解码的每个时间步，模式转换器都会在“抽取模式”与“生成模式”之间做出选择；依据模式转换器的决定，混合编码器要么去自由文本知识中抽取一个完整语义单元(“抽取模式”)，要么生成一个词(“生成模式”)。此外，在“生成模式”下，模式转换器还将进一步决定具体的解码方式，要么执行“预测解码”(从预先定义的词表中预测一个词)，要么执行“拷贝解码”(从文本知识中拷贝一个词)。经过一定数量的解码时间步(每个时间步均执行模式转换器和混合解码器)，我得到最终的回复序列，回复序列将由“生成模式”生成的词与“抽取模式”抽取的语义单元共同按序合成。

在本实施例中，形式化定义EGNet的初始输入与最终输出。给定由L_K个词组成自由文本知识

给定对话上下文C_τ＝(…,X_τ-3,X_τ-2,X_τ-1)(τ为对话轮数，C_τ也可表示为

个词组成的形式

),EGNet的任务是产生第τ轮的回复X_τ。其中，X_τ由

个语义单元组成，具体为

本实施例假设

可以是一个词

也可以由n个词构成的完整语义单元

注意，本实施例在K与C_τ中按词为粒度划分，在回复X_τ中按语义单元为粒度划分。EGNet的具体工作流程如图2所示。

下面详细介绍EGNet的各个部分。

1.知识编码器与语境编码器部分。

对于自由文本知识K与对话上下文C_τ，本实施例使用由双向循环神经网络(bi-directional RNN)构成的知识编码器与语境编码器来获取知识的隐状态序列

与对话上下文的隐状态序列

其中，

与e(k_t)分别为t时刻来自对话上下文和自由文本知识的词

与k_t所对应的词嵌入向量。

与

分别为前二者所对应的隐状态向量。此外，两个编码器不共享参数，本实施例以知识编码器为例，具体的网络结构如图3所示(语境编码器与其网络结构相同，此处略去表示)。

2.混合解码器与模式转换器部分。

使用单向循环神经网络(RNN)构成混合解码器，如图4所示。为了初始化混合解码器，本实施例首先使用一个线性变换层得到混合解码器的初始隐状态向量s₀。具体而言，本实施例分别取得文本知识的隐状态序列H^k与对话上下文的隐状态序列

的最后一个隐状态向量

与

将二者作为线性变换层的输入：

其中，W_s与b_s为可训练的参数，relu为线性变换层的激活函数。[；]表示向量的拼接。

因为解码过程是一个多时间步的循环过程，本实施例接下来推广到混合编码器在第t个解码时间步的详细计算流程。给定隐状态向量s_t，本实施例首先用s_t分别对H^k与

执行注意力机制得到对应的注意力分布

与注意力向量

与

以

与

为例，其计算过程为：

其中，W_k、U_k、v_k与b_k为可训练的参数，tanh为激活函数。

为概率分布

在自由文本知识词k_i上的注意力概率。

的计算方式与

相同。

然后，本实施例计算在第t个解码时间步模式转换器在“抽取模式”上的选择概率P(e)与在“生成模式”上的选择概率P(g)：

[P(e),P(g_p),P(g_c)]＝softmax(f_t) (8)

其中，f_t为混合向量，W_f与b_f为可训练的参数。P(g_p)、P(g_c)分别为“预测解码”与“拷贝解码”的概率，它们满足P(g)＝P(g_p)+P(g_c)。本实施例依据第t个解码时间步计算所得的P(e)与P(g)的数值大小进行模式选择：如果P(e)≥P(g)，本实施例将执行“抽取模式”输出一个完整语义单元；如果P(e)<P(g)，本实施例将执行“生成模式”输出一个词。

在执行具体模式之前，系统将会计算输出向量o_t:

其中，W_o与b_o为可训练的参数。输出向量o_t将参与“抽取模式”与“生成模式”内部的具体计算。

如果执行“抽取模式”，本实施例首先使用输出向量o_t对自由文本知识的隐状态序列H^k执行注意力机制，得到在自由文本知识词序列上的注意力概率分布

本实施例假设系统将要从自由文本知识中抽取的语义单元

的起始词

与终止词

(通过预测起始词的方式来定位语义单元)在

中分别对应的概率为

与

其中，W_e、U_e、v_e与b_e为可训练的参数。由此本实施例得到在“抽取模式”的条件下从自由文本知识中抽取一个语义单元的概率：

综上，本实施例最终得到

在“抽取模式”中产生的概率：

本实施例要保证抽取出的语义单元使得

最大。为实现这个目标，本实施例直接从分布

中取最大的两个概率值，其二者位置在前的作为

对应起始词

位置在后的作为

对应终止词

则

与

及两者中间的内容作为最终抽取的内容。

如果执行“生成模式”，在“预测解码”的条件下，本实施例得到词

在预先定义的词表中的预测概率：

其中，W_gp与b_gp为可训练的参数，v^T是一个独热(one-hot)指示向量，向量的第j个元素对应词表中的第j个词v_j，满足

的第j个向量元素的值为1，其余元素为0。在“拷贝解码”的条件下，本实施例得词

在自由文本知识中的拷贝概率：

其中，

的详细计算过程见公式(5)。综上，本实施例最后将上面两组概率组合得到

在“生成模式”中产生的概率：

本实施例取

概率最大时所对应的

作为t时间步的生成词。

至此，第t个时间步计算结束，本实施例将更新得到第t+1个时间步的解码器状态s_t+1开始新一轮循环，假设在第t个解码时间步输出为词的情况下

得：

如果第t个解码时间步输出为语义单元

那么对语义单元中的n个词

本实施例依次执行公式(18)，取最后一次执行(即

作为输入)所得的解码器隐状态为s_t+1。

从解码器时间步将持续进行

次，循环在每一个解码器时间步，本实施例要么输出一个词要么输出一个语义单元。每一步输出的内容按序组成完整的最终回复X_τ。

EGNet在应用前，需要在训练集上学习网络参数。训练集可从互联网上进行爬取，也可以通过众包的方式构建数据集。对于训练，我本实施例的目标是在给定自由文本知识K与对话上下文C_τ的条件下，最大化目标回复X_τ的产出概率。本实施例定义了三个损失函数，分别为：生成损失、抽取损失、转换器损失。

本实施例定义生成损失L_g(θ)：

其中，θ为EGNet中的所有参数，M对应一个特定的自由文本知识所对应的训练集的实例数(需要预测的回复轮数)。对于L_g(θ)，本实施例按词的粒度进行训练。

本实施例定义抽取损失L_e(θ)：

其中，

是一个指示函数，如果

则其值为1，若

则其值为0。注意，在训练时，本实施例已知第t个解码时间步要输出的

是一个词还是一个完整语义单元：如果

将被交由“抽取模式”产生。

因为EGNet引入了模式转换器，其需要在“抽取模式”与“生成模式”之间做出选择。为了更好的对模式转换器进行监督训练，本实施例定义了L_s(θ)：

其中，

也是一个指示函数，同公式(20)。

本实施例得到最终的损失函数L(θ)：

L(θ)＝L_g(θ)+L_e(θ)+L_s(θ) (22)

随后本实施例用深度学习常用的反向传播算法(简称为BP算法)对EGNet的所有参数以及词嵌入矩阵更新以减小损失。EGNet训练完毕后，参数便全部固定，然后就可以应用到与用户多轮对话的实际场景中去。实现根据用户对话的上下文与给定的自由文本知识，以抽取与生成结合的方式输出流利、自然、富含大量信息的回复。

实施例二

实施例三

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

实施例四

对话接收模块，被配置为接收自由文本知识和对话上下文；

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本公开的有益效果是：

本公开创新地使用抽取与生成结合的方式来增强基于自由文本知识的对话系统所产生回复的流利性、自然性与信息性。相比于当前主流的生成式方法，本公开提升了系统回复所包含的信息量，从而可以为用户提供更多有价值的内容；相比于当前的抽取式方法，本公开提升了系统回复的流利性与自然性，从而显著改善了用户体验，增强了用户粘性，让用户真正感觉是在与真人对话。综上所述，因为创新性的方法所带来的效果提升，本公开可以取代大量现用对话系统，并可以大规模嵌入并应用于私人助理、闲聊机器人、智能音箱中，在人工智能席卷全球的今天，拥有较大的商业应用价值。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于自由文本知识的对话方法，其特征在于，该方法包括：

接收自由文本知识和对话上下文；

通过混合解码器将二者的隐状态表示解码；

所述执行模式包括抽取模式和生成模式；

所述抽取模式为在自由文本知识中抽取完整语义单元；

所述生成模式为生成一个词并确定执行的解码方式；

混合编码器去自由文本知识中抽取一个完整语义单元，或者生成一个词；

经过解码时间步，直至得到由不同执行模式结果共同按序合成最终的回复序列；回复序列由“生成模式”生成的词与“抽取模式”抽取的语义单元共同按序合成。

2.如权利要求1所述的一种基于自由文本知识的对话方法，其特征在于，在该方法中，所述对话上下文为用户给定的输入和存储的对话历史。

3.如权利要求1所述的一种基于自由文本知识的对话方法，其特征在于，在该方法中，所述知识编码器采用双向循环神经网络构成；所述语境编码器采用双向循环神经网络构成；所述知识编码器和所述语境编码器不共享参数。

4.如权利要求1所述的一种基于自由文本知识的对话方法，其特征在于，在该方法中，所述混合解码器采用单向循环神经网络构成；所述通过混合解码器将二者的隐状态表示解码前将自由文本知识和对话上下文的隐状态表示输入线性变换层得到所述混合解码器的初始隐状态向量。

5.如权利要求1所述的一种基于自由文本知识的对话方法，其特征在于，在该方法中，所述解码方式包括预测解码和拷贝解码；

所述预测解码为从预先定义的词表中预测一个词；

所述拷贝解码为从自由文本知识中拷贝一个词。

6.如权利要求1所述的一种基于自由文本知识的对话方法，其特征在于，该方法还包括：根据训练集采用反向传播算法训练所述知识编码器、语境编码器、混合解码器和模式转换器的网络参数；使得由生成损失、抽取损失、转换器损失共同组成的损失函数最小。

7.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-6任一项所述的一种基于自由文本知识的对话方法。

8.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-6任一项所述的一种基于自由文本知识的对话方法。

9.一种基于自由文本知识的对话装置，其特征在于，基于如权利要求1-6任一项所述的一种基于自由文本知识的对话方法，包括：

对话接收模块，被配置为接收自由文本知识和对话上下文；

对话解码模块，被配置为通过混合解码器将二者的隐状态表示解码；经过解码时间步，直至得到由不同执行模式结果共同按序合成最终的回复序列；