CN111694934A

CN111694934A - 一种端到端的对话方法和系统

Info

Publication number: CN111694934A
Application number: CN202010330720.XA
Authority: CN
Inventors: 欧智坚; 张亦弛; 谈元鹏; 彭国政; 武亚光; 王正国; 马永波; 徐会芳; 江俊军; 孙钢; 刘旭生
Original assignee: State Grid Co ltd Customer Service Center; Tsinghua University; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Co ltd Customer Service Center; Tsinghua University; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-22

Abstract

本发明提供了一种端到端的对话方法，包括：获取当前用户语言、上轮系统回复语言和上轮对话状态表示；对所述当前用户语言和上轮系统回复语言进行分词处理；基于每个分词和所述上轮对话状态表示，得到至少指示一个对话领域的当前对话状态表示；基于每个对话领域的对话状态表示，从历史信息中查询符合要求的实体，得到当前用户语言对应的回复信息表示；基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言，本发明方法采用了指示对话领域的对话状态表示，可以很好地处理多领域对话任务，避免了因使用领域分类模型对领域检测而造成的新噪声引入，提升了系统性能。

Description

一种端到端的对话方法和系统

技术领域

本发明属于人工智能对话系统设计领域，具体涉及一种端到端的对话方法和系统。

背景技术

构建可与人类使用自然语言进行交谈的对话系统，是人工智能研究的一个重要目标。对话系统主要分为任务性型和闲聊型两类，其中，任务型对话系统是一种协助人类完成特定领域下特定任务的对话系统，由于其在电子客服、个人助理、自助终端等业务中广泛的应用前景，收到了研究界和工业界的广泛关注。随着深度神经网络模型的日趋成熟，应用深度模型替代传统基于规则的方法构建对话系统，是研究者关注的一个重点问题。在面向任务的对话系统的设计研究中，基于模块化设计的深度学习解决方案，即用多个神经网络完成自然语言理解、对话状态跟踪、对话策略选择、自然语言生成等各个模块的功能，取得了显著进展。

此类模块化的任务型对话系统的处理过程为：首先将用户语言送入自然语言理解模块进行领域检测、用户意图检测和语义解析，得到的语义标签；然后识别结果送入对话状态跟踪模块，进行多轮信息的整合，得到当前对话轮次的对话状态表示；接下来，根据对话状态进行数据库的查询，搜索用户希望查询的信息，送入对话策略选择模块中，确定系统的回复策略(称为系统对话动作)；最后，系统根据所选择的系统动作，在自然语言生成模块中生成符合人类语言习惯的自然语言回复。由于为不同的模型单独设计单独的网络结构再进行整个系统串联具有调试困难、数据利用不充分等特点，研究趋势正在从独立地训练单独的对话模型转变为端到端的的可训练对话模型。特别地，Lei在2018年提出了一种基于复制机制的两阶段序列到序列(seq2seq)模型Sequicity。该模型通过一个统一的seq2seq架构完成了自然语言理解、对话状态跟踪和自然语言生成这三个模块的功能，并在公开数据集上取得了很好的实验结果。然而，上述模型都是为特定对话场景设计，缺乏多领域迁移的通用泛化能力。由于多领域对话存在任务定义复杂、对话策略空间大、语言灵活多变等难点，上述模型的性能，特别是对游客需求的响应能力，仍然难以令人满意，具有很大的提升空间。

现有多领域对话模型的建立仍存在以下问题：其一，使用领域分类器进行领域检测以处理多领域对话，但领域分类模型会对整体系统引入新的噪声，影响系统性能；其二，对话动作建模方式不适用于动作空间大、复杂度高的多领域对话任务，难以进行有效的对话策略学习；其三，当系统回复生成效果不理想时，难以进行错误分析确定哪个环节出现问题。因此，如何解决现有技术中存在的上述问题是本领域技术人员需要解决的问题。

发明内容

为克服上述现有技术的不足，本发明提供一种端到端的对话方法，包括：

获取当前用户语言、上轮系统回复语言和上轮对话状态表示；

对所述当前用户语言和上轮系统回复语言进行分词处理；

基于每个分词和所述上轮对话状态表示，得到至少指示一个对话领域的当前对话状态表示；

基于每个对话领域的对话状态表示，从历史信息中查询符合要求的实体，得到当前用户语言对应的回复信息表示；

基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言。

优选的，对所述当前用户语言和上轮系统回复语言进行分词处理之后包括：

将每个分词按顺序输入编码器进行处理，得到当前用户语言的向量表示。

优选的，基于每个分词和所述上轮对话状态表示得到至少指示一个对话领域的当前对话状态表示，包括：

将所有分词对应的向量表示和所述上轮对话状态表示输入对话状态解码器；

基于所述对话状态解码器依次识别所述当前用户语言对应的对话领域、属性槽和属性值，得到当前对话状态表示，通过领域的解码结果即可判断当前所处的对话领域。

优选的，基于每个对话领域的对话状态表示，从历史信息中查询符合要求的实体，得到当前用户语言对应的回复信息表示，包括：

基于每个对话领域的对话状态表示，分别在历史信息中查询各个领域符合要求的实体，得到各个领域对应的回复信息表示；

拼接各个领域对应的回复信息表示，得到当前用户语言对应的回复信息表示。

优选的，历史信息按领域分别存储于数据库。

优选的，基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言，包括：

将所述当前用户语言、所述当前对话状态表示和所述回复信息表示输入系统动作解码器；

基于所述系统动作解码器依次识别所述当前用户语言对应的对话领域、对话动作、属性槽，得到基于自然语言序列的当前对话动作表示；

将所述当前对话动作表示、所述当前用户语言、所述当前对话状态表示和所述回复信息表示输入系统回复解码器，得到自然语言回复；

对自然语言回复进行处理，得到呈现用户的系统回复。

优选的，对自然语言回复进行处理，包括：

将自然语言中的各单词合并，并添加标点。

基于同一构思，本发明还提供了一种端到端的对话系统，包括：

信息收集模块，用于获取当前用户语言、上轮系统回复语言和上轮对话状态表示；

分词模块，用于对所述当前用户语言和上轮系统回复语言进行分词处理；

对话状态模块，用于基于每个分词和所述上轮对话状态表示，得到至少指示一个对话领域的当前对话状态表示；

数据检索模块，用于基于每个对话领域的对话状态表示，从历史信息中查询符合要求的实体，得到当前用户语言对应的回复信息表示；

系统回复模块，用于基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言。

优选的，该系统还包括：

编码模块，用于将每个分词按顺序输入编码器进行处理，得到当前用户语言的向量表示。

优选的，对话状态模块，包括：

对话状态输入模块，用于将所有分词对应的向量表示和所述上轮对话状态表示输入对话状态解码器；

对话状态输出模块，用于基于所述对话状态解码器依次识别所述当前用户语言对应的对话领域、属性槽和属性值，得到当前对话状态表示，通过领域的解码结果即可判断当前所处的对话领域。

优选的，数据检索模块，包括：

领域数据检索模块，用于基于每个对话领域的对话状态表示，分别在历史信息中查询各个领域符合要求的实体，得到各个领域对应的回复信息表示；

数据检索表示模块，用于拼接各个领域对应的回复信息表示，得到当前用户语言对应的回复信息表示。

优选的，历史信息按领域分别存储于数据库。

优选的，系统回复模块，包括：

系统动作输入模块，用于将所述当前用户语言、所述当前对话状态表示和所述回复信息表示输入系统动作解码器；

系统动作输出模块，基于所述系统动作解码器依次识别所述当前用户语言对应的对话领域、对话动作、属性槽，得到基于自然语言序列的当前对话动作表示；

自然语言回复生成模块，将所述当前对话动作表示、所述当前用户语言、所述当前对话状态表示和所述回复信息表示输入系统回复解码器，得到自然语言回复；

系统回复生成模块，对自然语言回复进行处理，得到呈现用户的系统回复。

优选的，该系统还包括：

自然语言处理模块，用于将自然语言中的各单词合并，并添加标点。

与最接近的现有技术相比，本发明具有的有益效果如下：

本发明中采用与对话动作类似的自然语言序列进行对话状态表示，将具有庞大状态空间的对话动作分类问题，转化为可选词表很小的序列解码问题，降低了系统的对话策略选择难度；此外，由于对话动作和对话状态均采用相同自然语言序列表示，领域指示符、属性槽等的解码可以受益于拷贝机制，提高对话动作预测的准确率。

本发明中三个解码器的使用，提供额外的标签(对话动作)为对端到端模型注入更多的监督信息，提升模型性能；同时，通过解码对话状态和系统回复中间状态(对话动作)，可以判断当系统的回复生成效果不好时，究竟是对话策选择和自然语言生成哪个环节出现了问题，解决端到端系统难以进行错误分析的问题。

附图说明

图1为本发明提供的一种端到端的对话方法示意图；

图2为本发明提供的一种端到端的对话系统示意图；

图3为本发明实施例中提供的端到端的对话模型结构示意图；

图4为本发明实施例中提供的端到端的对话方法数据处理流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明实施例公开了一种端到端的对话方法如图1所示，包括：获取当前用户语言、上轮系统回复语言和上轮对话状态表示；对所述当前用户语言和上轮系统回复语言进行分词处理；基于每个分词和所述上轮对话状态表示，得到至少指示一个对话领域的当前对话状态表示；基于每个对话领域的对话状态表示，从历史信息中查询符合要求的实体，得到当前用户语言对应的回复信息表示；基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言。

例如在一个多领域对话场景中，当用户向系统询问旅馆信息，得到系统推荐后，希望再了解餐馆信息时，用户输入：“告诉我一下这个旅馆的电话吧。另外我还想找一个便宜的餐厅吃饭”为例，本发明通过以下步骤技术方案来实施：

S1获取当前用户语言、上轮系统回复语言和上轮对话状态表示。

S2对所述当前用户语言和上轮系统回复语言进行分词处理，还包括正规化操作等处理，处理后的结果为：“告诉|我|一下|这个|旅馆|的|电话|吧|我|还|想|找|一个|便宜|的|餐厅|吃饭”；

对用户语句进行编码，即得到上述处理结果的向量表示。

具体的，通过使用一个层数为1、隐层神经元数量为100的双向GRU模型作为编码器，将输入的自然语言单词序列编码为等长的向量序列，称为隐状态，在隐状态空间对对话中包含的语义信息进行融合与理解。该编码器的输出结果将依次从到三个解码器，用于后续系统输出的解码。

S3基于每个分词和所述上轮对话状态表示，得到至少指示一个对话领域的当前对话状态表示,包括：

通过第一个解码器——对话状态解码器进行对话状态的解码，解码过程中依次输出识别到的对话领域、属性槽和属性值，通过领域的解码结果即可判断当前所处的对话领域。对话状态使用自然语言序列表示，将现有使用自然语言序列表示、基于序列到序列模型学习的对话状态扩展到多领域对话系统，提出适用于多领域的对话状态表示，仍采用序列到序列解码的方法进行生成，其具体形式为：“[领域1]属性槽1槽值1；属性槽2槽值2；[领域2]…”。每一轮的对话状态B_t由当前轮次的用户语句U_t、上一轮的系统回复R_t-1和上一轮的对话状态B_t-1共同决定：

B_t＝seq2seq(R_t-1,U_t,B_t-1)

使用自然语言序列作为对话状态的好处在于，通过seq2seq模型的拷贝机制，可以从用户语句表达中拷贝其对各个属性槽取值的要求(例如从“我要找便宜的餐馆”中拷贝“价格＝便宜”)，可以同时完成自然语言理解和对话状态跟踪任务，且具有很高的准确率。本发明所提及对话状态解码器区别于现有模型的创新点在于，构建了新的对话状态表现形式，让模型可以自动学习包含多个领域的对话状态。这种对话状态的表示的好处在于，可以在不增加复杂度的情况下同时跟踪各个领域的对话状态，且通过比较各领域对话状态的变化可以自动确定当前对话所处的领域，省去了领域检测的过程。

在实施例中，对话状态解码结果为“[旅馆]价格便宜星级四星[餐厅]价格便宜”，其中“[旅馆]价格便宜星级四星”为之前对话记录得到的有关旅馆的对话状态，由于当前对话轮次新检测到“[餐厅]”领域的槽值，因此可自动判定当前对话增加了餐厅领域，从而实现了[旅馆][餐厅]多领域的跟踪。

S4基于每个对话领域的对话状态表示，从历史信息中查询符合要求的实体，得到当前用户语言对应的回复信息表示。例如，在对话状态更新后，模型需要与数据库进行查询，数据库中查询到有15个餐厅满足“价格＝便宜”的限制条件，则返回“15”对应的向量表示作为数据库的查询结果，查询结果采用one-hot编码向量DB_t表示。

S5基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言，包括：

S5-1根据对话状态解码结果和数据库查询结果进行系统对话动作的解码：

将数据库查询结果DB_t、对话状态B_t和用户语句U_t输入第二个解码器——系统动作解码器，用于解码系统应采用的对话动作A_t：

A_t＝seq2seq(U_t,B_t,DB_t)

其中，对话动作采用和对话状态相似的自然语言序列形式，并采用序列到序列解码的方法进行生成(和解码对话状态相同)。例如，对话动作“餐厅-告知-价格；综合-是否继续”可以表示为“[餐厅]告知价格[综合]是否继续”。即将原本由领域-动作-属性槽表示的对话动作，分解为包含字符的序列，即“领域动作属性槽”，通过序列生成的方式依次生成。这样做的好处是，只需要在所有领域、所有动作和所有属性槽中分别选择一个，而不需要在领域-动作-属性槽长成的组合空间中选择，将具有庞大状态空间的对话动作分类问题，转化为可选词表很小的序列解码问题，降低了系统的对话策略选择难度。此外，由于对话动作和对话状态的形式相同，且均为自然语言序列，领域指示符、属性槽等的解码可以受益于拷贝机制，提高对话动作预测的准确率。本实施例中输出的对话动作结果为：“[旅馆][告知]电话[餐厅][问询]菜系”。

S5-2使用最后一个解码器——系统回复解码器，基于之前的解码结果和所有信息，生成系统的自然语言回复R_t：

R_t＝seq2seq(A_t,U_t,B_t,DB_t)

本实施例中生成的系统自然语言回复为：“电话号码为xxxxxxxx请问您希望吃哪种菜”；

S5-3将模型生成的系统自然语言回复呈现给用户前，需要进行单词合并、添加标点等操作，增加系统的用户体验，本实施例中得到的呈现给用户的系统回复为：“电话号码为xxxxxxxx。请问您希望吃哪种菜？”。

本发明涉及的端到端的对话模型结构，如图3所示，模型由一个对话上下文编码器与对话状态解码器、系统动作解码器以及系统回复解码器三个解码器串联组成，其中：对话上下文编码器，用于将每个分词按顺序输入编码器进行处理，得到当前用户语言的向量表示；对话状态解码器，用于基于每个分词和所述上轮对话状态表示，得到至少指示一个对话领域的当前对话状态表示；系统动作解码器和系统回复解码器，用于基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言。该对话模型中对话状态解码器的输出端及系统动作解码器的输入端通过数据库相连，数据库用于基于每个对话领域的对话状态表示，从数据库中查询符合要求的实体，得到当前用户语言对应的回复信息表示。其中，每一个解码器都依赖于编码结果和之前解码器的输出，具体的：

将当前轮次的用户语句U_t(越便宜越好，另外最好是在城西边。)和上一轮的系统回复R_t-1(您想找什么价位的旅馆？)输入对话上下文编码器，得到当前轮次的用户语句和上一轮的系统回复的向量表示；

将当前轮次的用户语句、上一轮的系统回复的向量表示和上一轮的对话状态表示B_t-1输入对话状态解码器，得到当前的对话状态表示B_t([旅馆]价格便宜；地区西边)；

基于当前对话状态表示B_t，从数据库中查询符合要求的实体，得到当前用户语言对应的回复信息表示DB_t(DB_t对应的查询结果为：数量＝3；预定＝可以，检索结如图所示)；

将当前轮次的用户语句U_t、当前对话状态表示B_t和回复信息表示DB_t进行叠加得到混合信息S_t，并将混合信息S_t输入系统动作解码器，得到当前对话动作表示A_t([旅馆]告知名称[提供预定])；

将混合信息S_t和当前对话动作表示A_t输入系统回复解码器，得到系统的自然语言回复R_t(假日酒店符合您的要求！您需要预定吗？)。

本发明涉及的端到端的对话方法中数据处理具体流程，如图4所示，通过步骤S1获取用户相关的语句，通过步骤S2对用户相关的语句进行预处理，通过步骤S3对预处理的结果进行用户语句编码和对话状态解码，基于对话状态解码结果通过步骤S4进行数据库查询，最后基于之前步骤的所有输入和输出通过步骤4依次进行系统动作解码、自然语言生成和后处理，得到系统回复。

端到端的对话方法在模型训练过程中，三个seq2seq结构都采用有监督训练的方式，使用对话状态、系统对话动作和数据集中的标准回复提供的标签和解码器生成的概率分布计算交叉熵并相加，得到最终的损失函数，进行端到端的联合优化。

对话状态解码器和双层解码器三个解码器可以分别得到对话状态、对话动作和系统回复进行解码，当系统的回复生成效果不好时，通过观察哪一个解码结果出现了错误，就可以锁定问题出现的环节，判定是对话状态、对话策选择和自然语言生成哪个环节出现了问题，解决端到端系统难以进行错误分析的问题。三个解码器的应用同时通过提供额外的标签(对话动作)为对端到端模型注入更多的监督信息，提升模型性能。

实施例2：

本发明实施例公开了一种端到端的对话系统如图2所示，包括：

优选的，该系统还包括：

优选的，对话状态模块，包括：

优选的，数据检索模块，包括：

优选的，历史信息按领域分别存储于数据库。

优选的，系统回复模块，包括：

优选的，该系统还包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种的端到端的对话方法，其特征在于，包括：

对所述当前用户语言和上轮系统回复语言进行分词处理；

2.如权利要求1所述的方法，其特征在于，所述对所述当前用户语言和上轮系统回复语言进行分词处理之后包括：

3.如权利要求1所述的方法，其特征在于，所述基于每个分词和所述上轮对话状态表示得到至少指示一个对话领域的当前对话状态表示，包括：

4.如权利要求1所述的方法，其特征在于，所述基于每个对话领域的对话状态表示，从历史信息中查询符合要求的实体，得到当前用户语言对应的回复信息表示，包括：

5.如权利要求4所述的方法，其特征在于，所述历史信息按领域分别存储于数据库。

6.如权利要求1所述的方法，其特征在于，所述基于所述当前用户语言、所述当前对话状态表示和所述回复信息表示，得到涵盖所述用户语言相关的所有领域的系统回复语言，包括：

对自然语言回复进行处理，得到呈现用户的系统回复。

7.如权利要求6所述的方法，其特征在于，所述对自然语言回复进行处理，包括：

将自然语言中的各单词合并，并添加标点。

8.一种端到端的对话系统，其特征在于，包括：

9.如权利要求8所述的系统，其特征在于，还包括：

10.如权利要求8所述的系统，其特征在于，所述对话状态模块，包括：

11.如权利要求8所述的系统，其特征在于，所述数据检索模块，包括：

12.如权利要求11所述的系统，其特征在于，所述历史信息按领域分别存储于数据库。

13.如权利要求8所述的系统，其特征在于，所述系统回复模块，包括：

14.如权利要求13所述的系统，其特征在于，还包括：