CN111177359A

CN111177359A - 多轮对话方法和装置

Info

Publication number: CN111177359A
Application number: CN202010276697.0A
Authority: CN
Inventors: 刘佳; 王子豪; 杨明晖; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-05-19

Abstract

本说明书实施例提供一种多轮对话方法和装置，方法包括：在机器和用户的多轮对话过程中，获取用户当前输入的当前用户文本和对话前文；至少把当前用户文本输入检索模型，通过检索模型输出M条候选回复；检索模型从历史人工问答记录中，检索并输出与当前用户文本匹配的M条人工答复作为M条候选回复；把当前用户文本和对话前文输入预先训练的生成模型，通过生成模型生成N条候选回复；将M和N条候选回复分别输入预先训练的分类打分模型，通过分类打分模型分别输出各条候选回复对应的与当前用户文本的匹配得分；选择最高匹配得分对应的候选回复输出给用户，以作为当前用户文本的实际回复。能够实现机器与人进行多轮对话，并准确地解答用户问题。

Description

多轮对话方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及多轮对话方法和装置。

背景技术

当前，很多场景下需要由机器与用户进行对话，如客服领域，用户的对话通常是提出问题，需要机器解答用户问题，由于用户语句通常比较简略且口语化，机器和用户之间的一轮对话不能够解决用户问题，需要机器和用户之间的多轮对话才能够明确用户述求，由机器给出符合用户述求的回答。希望利用现有的人工对话的日志记录，实现机器与人进行多轮对话，并且能够准确地解答用户问题。

发明内容

本说明书一个或多个实施例描述了一种多轮对话方法和装置，能够利用现有的人工对话的日志记录，实现机器与人进行多轮对话，并且能够准确地解答用户问题。

第一方面，提供了一种多轮对话方法，方法包括：

在机器和用户的多轮对话过程中，获取用户当前输入的当前用户文本和所述当前用户文本的对话前文；

至少把所述当前用户文本输入检索模型，通过所述检索模型输出所述当前用户文本对应的M条候选回复；所述检索模型从历史人工问答记录中，检索并输出与所述当前用户文本匹配的M条人工答复作为M条候选回复；

把所述当前用户文本和所述对话前文输入预先训练的生成模型，通过所述生成模型生成所述当前用户文本对应的N条候选回复；

将所述M和N条候选回复分别输入预先训练的分类打分模型，通过所述分类打分模型分别输出各条候选回复对应的与所述当前用户文本的匹配得分；

选择最高匹配得分对应的候选回复输出给用户，以作为所述当前用户文本的实际回复。

在一种可能的实施方式中，所述对话前文包括：

用户之前各轮对话输入的前文用户文本，以及机器针对该前文用户文本的前文回复。

在一种可能的实施方式中，所述历史人工问答记录包括多个问答对，所述问答对包括用户问题和该用户问题对应的人工回复作为答案；

所述检索模型从历史人工问答记录中，检索并输出与所述当前用户文本匹配的M条人工答复作为M条候选回复，包括：

所述检索模型从多个问答对对应包含的多个用户问题中确定出所述当前用户文本匹配的若干用户问题，将所述若干用户问题对应的答案作为所述当前用户文本的候选回复。

在一种可能的实施方式中，所述至少把所述当前用户文本输入检索模型，包括：

将所述对话前文中用户各轮输入的前文用户文本分别输入预先训练的业务闲聊分类模型，通过所述业务闲聊分类模型输出各轮输入的前文用户文本为业务问题还是闲聊；

将所述对话前文中的预定数目的业务问题以及所述当前用户文本输入所述检索模型。

在一种可能的实施方式中，所述生成模型为基于长短期记忆（long short-termmemory，LSTM）网络实现的序列到序列（sequence to sequence，seq2seq）模型。

在一种可能的实施方式中，所述生成模型基于改进的基于转换器的双向编码器表征（bidirectional encoder representations from transformers，BERT）模型实现，改进的BERT模型通过以下方式训练：

基于所述历史人工问答记录进行字遮蔽训练，在字遮蔽训练中每个待生成的字只能基于其前面的字生成预测结果。

在一种可能的实施方式中，所述分类打分模型基于利用所述历史人工问答记录得到的训练样本进行训练。

进一步地，所述训练样本通过以下方式得到：

利用所述历史人工问答记录中各轮的用户问题和该轮的人工回复，得到与对话轮数相同数目的正样本；

利用所述历史人工问答记录中各轮的用户问题和随机选择的任一轮的人工回复，得到与对话轮数相同数目的负样本。

第二方面，提供了一种多轮对话装置，装置包括：

获取单元，用于在机器和用户的多轮对话过程中，获取用户当前输入的当前用户文本和所述当前用户文本的对话前文；

检索单元，用于至少把所述获取单元获取的当前用户文本输入检索模型，通过所述检索模型输出所述当前用户文本对应的M条候选回复；所述检索模型从历史人工问答记录中，检索并输出与所述当前用户文本匹配的M条人工答复作为M条候选回复；

生成单元，用于把所述获取单元获取的所述当前用户文本和所述对话前文输入预先训练的生成模型，通过所述生成模型生成所述当前用户文本对应的N条候选回复；

匹配单元，用于将所述检索单元和所述生成单元得到的M和N条候选回复分别输入预先训练的分类打分模型，通过所述分类打分模型分别输出各条候选回复对应的与所述当前用户文本的匹配得分；

输出单元，用于选择所述匹配单元得到的最高匹配得分对应的候选回复输出给用户，以作为所述当前用户文本的实际回复。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，单纯利用现有的人工对话的日志记录，进行机器和用户的多轮对话，不基于知识库中的标准问题，也不需要做人工数据标注，先通过检索模型得到至少一条候选回复，然后通过生成模型得到至少一条候选回复，再利用分类打分模型得到各条候选回复对应的与所述当前用户文本的匹配得分，从而确定当前用户文本的实际回复，相对于单独使用检索模型或生成模型得到候选回复的方案，这种结合检索模型和生成模型得到候选回复的方案可以得到更多的候选回复，使得各候选回复中存在符合用户述求的回复的几率更高，并且，通过预先训练的分类打分模型得到各条候选回复对应的与所述当前用户文本的匹配得分，相对于通过预设规则计算两个文本匹配得分的方式准确性更高。综上，本说明书实施例，能够利用现有的人工对话的日志记录，实现机器与人进行多轮对话，并且能够准确地解答用户问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的多轮对话方法流程图；

图3示出根据一个实施例的整体检索方案示意图；

图4示出根据一个实施例的生成模型的训练方式示意图；

图5示出根据一个实施例的训练样本构成示意图；

图6示出根据一个实施例的确定实际回复的整体流程示意图；

图7示出根据一个实施例的多轮对话装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及多轮对话，具体地，涉及机器与用户之间的多轮对话。可以理解的是，以客服领域为例，早期都是由人工客服与用户对话，因此积累了大量的人工对话的日志记录，本说明书实施例，利用现有的人工对话的日志记录，实现机器与人进行多轮对话，不基于知识库中的标准问题，也不需要做人工数据标注，可以大大节约人力。

参照图1，人工对话的日志记录中，记录了多组人工客服与用户的历史多轮对话，图1中仅示出其中的一组多轮对话，该组多轮对话包括N轮对话，其中，用户文本10和人工答复10构成一组问答对，用户文本11和人工答复11构成一组问答对，用户文本1N和人工答复1N构成一组问答对。本说明书实施例，可以先利用这些问答对生成训练样本，再基于这些训练样本训练模型，在机器与用户的多轮对话中，利用训练后的模型确定用户文本对应的机器回复；还可以利用这些问答对构建检索库，在机器与用户的多轮对话中，再基于用户文本从检索库中进行检索，基于检索结果确定相应的机器回复。例如，确定用户文本20对应的机器回复20，确定用户文本21对应的机器回复21，或者确定用户文本22对应的机器回复22。

图2示出根据一个实施例的多轮对话方法流程图，该方法可以基于图1所示的实施场景。如图2所示，该实施例中多轮对话方法包括以下步骤：步骤21，在机器和用户的多轮对话过程中，获取用户当前输入的当前用户文本和所述当前用户文本的对话前文；步骤22，至少把所述当前用户文本输入检索模型，通过所述检索模型输出所述当前用户文本对应的M条候选回复；所述检索模型从历史人工问答记录中，检索并输出与所述当前用户文本匹配的M条人工答复作为M条候选回复；步骤23，把所述当前用户文本和所述对话前文输入预先训练的生成模型，通过所述生成模型生成所述当前用户文本对应的N条候选回复；步骤24，将所述M和N条候选回复分别输入预先训练的分类打分模型，通过所述分类打分模型分别输出各条候选回复对应的与所述当前用户文本的匹配得分；步骤25，选择最高匹配得分对应的候选回复输出给用户，以作为所述当前用户文本的实际回复。下面描述以上各个步骤的具体执行方式。

首先在步骤21，在机器和用户的多轮对话过程中，获取用户当前输入的当前用户文本和所述当前用户文本的对话前文。可以理解的是，在多轮对话过程中，只要不是首轮对话均具有对话前文。

在一个示例中，所述对话前文包括：

举例来说，对照图1所示的实施场景，若当前进行到机器和用户的多轮对话的第一轮，当前用户文本为用户文本20，则不存在对话前文，也可认为对话前文为空；若当前进行到多轮对话的第二轮，当前用户文本为用户文本21，则对话前文包括用户文本20和机器回复20；若当前进行到多轮对话的第三轮，当前用户文本为用户文本22，则对话前文包括用户文本20、机器回复20、用户文本21和机器回复21。

接着在步骤22，至少把所述当前用户文本输入检索模型，通过所述检索模型输出所述当前用户文本对应的M条候选回复；所述检索模型从历史人工问答记录中，检索并输出与所述当前用户文本匹配的M条人工答复作为M条候选回复。可以理解的是，对于当前用户文本描述的某个用户问题，如果在历史人工问答记录中有相同或相近的问题出现过，那么之前人工客服针对该相同或相近的问题的回复很可能就是最适合回复。此外，可以预先设定M的取值，也就是说，通过检索的方式得到预设数目条候选回复。

在一个示例中，所述历史人工问答记录包括多个问答对，所述问答对包括用户问题和该用户问题对应的人工回复作为答案；

本说明书实施例中，检索主要涉及问答对的挖掘，以及问题的表示和召回处理。图3示出根据一个实施例的整体检索方案示意图。其中，问答对的挖掘，是把历史人工问答记录中用户说的话当作问题，人工客服说的话当成答案，拆分成问答对，如果多条回答都对应同一相同问题，只选其中排序在前的M条答案作为候选回复。此外，每个问题都可以表示为一个多维句向量，可以使用字向量求平均的方式表示句向量，基于向量索引确定出所述当前用户文本匹配的若干用户问题，向量索引可以基于分层的导航小世界（hierarchcalnavigable small world，HNSW）向量检索库。

可以理解的是，还可以基于词索引确定出所述当前用户文本匹配的若干用户问题，例如，对句子分词，基于各分词的重要度确定出所述当前用户文本匹配的若干用户问题。

另外，针对多轮对话场景，在每轮对话的检索中还可以加入上文信息，判断每一句用户说的话是业务问题还是闲聊，在每次检索时，可以把用户前面预设数目轮（例如两轮）的业务问题也作为输入加上，有助于提升检索效果。

在一个示例中，所述至少把所述当前用户文本输入检索模型，包括：

然后在步骤23，把所述当前用户文本和所述对话前文输入预先训练的生成模型，通过所述生成模型生成所述当前用户文本对应的N条候选回复。可以理解的是，生成模型可以看作是一种归纳和总结知识的方式，根据当前用户文本和对话前文，生成候选回复。

在一个示例中，所述生成模型为基于长短期记忆（long short-term memory，LSTM）网络实现的序列到序列（sequence to sequence，seq2seq）模型。

在另一个示例中，所述生成模型基于改进的基于转换器的双向编码器表征（bidirectional encoder representations from transformers，BERT）模型实现，改进的BERT模型通过以下方式训练：

图4示出根据一个实施例的生成模型的训练方式示意图。参照图4，采用表一所示的人工客服与用户的历史多轮对话训练生成模型，该生成模型为BERT模型，用0和1指示话语对应的角色，0代表用户，1代表人工客服。

表一

角色	话语
		用户	你好
人工客服	您好小主在的哈请问有什么可以为您服务的呢
		用户	装卡后到怎样不会用
人工客服	亲可以查看一下说明书哦

该示例对GPT-2和BERT的训练方式进行了结合。GPT-2是很有效果的生成模型，但没有发布中文的预训练模型和代码。BERT虽然有发布中文版模型，但它是双向前后文都看的，不适合作为生成模型的训练。该示例把BERT的遮蔽（MASK）机制做了改进，在训练过程中每个待生成的字只能看到它前面的字。在生成每个字时，按GPT-2的方式，每次生成一个字直到结束符。

再在步骤24，将所述M和N条候选回复分别输入预先训练的分类打分模型，通过所述分类打分模型分别输出各条候选回复对应的与所述当前用户文本的匹配得分。可以理解的是，分类打分模型实际上是个在给定已有上文时，针对某条候选回复是否合适的分类模型。

在一个示例中，所述分类打分模型基于利用所述历史人工问答记录得到的训练样本进行训练。

进一步地，所述训练样本通过以下方式得到：

可选地，分类打分模型可以基于BERT模型进行训练。

图5示出根据一个实施例的训练样本构成示意图。参照图5，一通对话数据(即历史人工问答记录)包括Q1，A1，Q2，A2，…，Qm，Am，共有m轮对话，其中，Q1代表第一轮的用户问题，A1代表第一轮的人工回复，Q2代表第二轮的用户问题，A2代表第二轮的人工回复，以此类推，Qm代表第m轮的用户问题，Am代表第m轮的人工回复。把一通历史人工问答记录按轮次进行拆分拆分为2m条样本，其中正样本和负样本各m条。正样本分别为Q1，A1；Q1，A1，Q2，A2；…；Q1，A1，Q2，A2，…，Qm，Am；可以理解的是，正样本中各轮的用户问题和该轮的人工回复相匹配。负样本分别为Q1，A_random；Q1，A1，Q2，A_random；…；Q1，A1，Q2，A2，…，Qm，A_random；可以理解的是，A_random表示随机选择的任一轮的人工回复，也就是说，负样本中可能存在各轮的用户问题和该轮的人工回复不相匹配。

最后在步骤25，选择最高匹配得分对应的候选回复输出给用户，以作为所述当前用户文本的实际回复。可以理解的是，匹配得分越高表示候选回复与当前用户文本越匹配，更能符合用户述求。

图6示出根据一个实施例的确定实际回复的整体流程示意图。参照图6，将当前用户文本和对话前文输入检索模型和生成模型，通过检索模型和生成模型得到多个候选回复，再通过分类打分模型得到各候选回复的匹配得分，从而根据各匹配得分确定其中一个候选回复为实际回复。

通过本说明书实施例提供的方法，单纯利用现有的人工对话的日志记录，进行机器和用户的多轮对话，不基于知识库中的标准问题，也不需要做人工数据标注，先通过检索模型得到至少一条候选回复，然后通过生成模型得到至少一条候选回复，再利用分类打分模型得到各条候选回复对应的与所述当前用户文本的匹配得分，从而确定当前用户文本的实际回复，相对于单独使用检索模型或生成模型得到候选回复的方案，这种结合检索模型和生成模型得到候选回复的方案可以得到更多的候选回复，使得各候选回复中存在符合用户述求的回复的几率更高，并且，通过预先训练的分类打分模型得到各条候选回复对应的与所述当前用户文本的匹配得分，相对于通过预设规则计算两个文本匹配得分的方式准确性更高。综上，本说明书实施例，能够利用现有的人工对话的日志记录，实现机器与人进行多轮对话，并且能够准确地解答用户问题。

根据另一方面的实施例，还提供一种多轮对话装置，该装置可以用于执行本说明书实施例提供的多轮对话方法。图7示出根据一个实施例的多轮对话装置的示意性框图。如图7所示，该装置700包括：

获取单元71，用于在机器和用户的多轮对话过程中，获取用户当前输入的当前用户文本和所述当前用户文本的对话前文；

检索单元72，用于至少把所述获取单元71获取的当前用户文本输入检索模型，通过所述检索模型输出所述当前用户文本对应的M条候选回复；所述检索模型从历史人工问答记录中，检索并输出与所述当前用户文本匹配的M条人工答复作为M条候选回复；

生成单元73，用于把所述获取单元71获取的所述当前用户文本和所述对话前文输入预先训练的生成模型，通过所述生成模型生成所述当前用户文本对应的N条候选回复；

匹配单元74，用于将所述检索单元72和所述生成单元73得到的M和N条候选回复分别输入预先训练的分类打分模型，通过所述分类打分模型分别输出各条候选回复对应的与所述当前用户文本的匹配得分；

输出单元75，用于选择所述匹配单元74得到的最高匹配得分对应的候选回复输出给用户，以作为所述当前用户文本的实际回复。

可选地，作为一个实施例，所述对话前文包括：

可选地，作为一个实施例，所述历史人工问答记录包括多个问答对，所述问答对包括用户问题和该用户问题对应的人工回复作为答案；

可选地，作为一个实施例，所述检索单元72，具体用于：

可选地，作为一个实施例，所述生成模型为基于长短期记忆LSTM网络实现的序列到序列seq2seq模型。

可选地，作为一个实施例，所述生成模型基于改进的基于转换器的双向编码器表征BERT模型实现，改进的BERT模型通过以下方式训练：

可选地，作为一个实施例，所述分类打分模型基于利用所述历史人工问答记录得到的训练样本进行训练。

进一步地，所述训练样本通过以下方式得到：

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种多轮对话方法，所述方法包括：

2.如权利要求1所述的方法，其中，所述对话前文包括：

3.如权利要求1所述的方法，其中，所述历史人工问答记录包括多个问答对，所述问答对包括用户问题和该用户问题对应的人工回复作为答案；

4.如权利要求1所述的方法，其中，所述至少把所述当前用户文本输入检索模型，包括：

5.如权利要求1所述的方法，其中，所述生成模型为基于长短期记忆LSTM网络实现的序列到序列seq2seq模型。

6.如权利要求1所述的方法，其中，所述生成模型基于改进的基于转换器的双向编码器表征BERT模型实现，改进的BERT模型通过以下方式训练：

7.如权利要求1所述的方法，其中，所述分类打分模型基于利用所述历史人工问答记录得到的训练样本进行训练。

8.如权利要求7所述的方法，其中，所述训练样本通过以下方式得到：

9.一种多轮对话装置，所述装置包括：

10.如权利要求9所述的装置，其中，所述对话前文包括：

11.如权利要求9所述的装置，其中，所述历史人工问答记录包括多个问答对，所述问答对包括用户问题和该用户问题对应的人工回复作为答案；

12.如权利要求9所述的装置，其中，所述检索单元，具体用于：

13.如权利要求9所述的装置，其中，所述生成模型为基于长短期记忆LSTM网络实现的序列到序列seq2seq模型。

14.如权利要求9所述的装置，其中，所述生成模型基于改进的基于转换器的双向编码器表征BERT模型实现，改进的BERT模型通过以下方式训练：

15.如权利要求9所述的装置，其中，所述分类打分模型基于利用所述历史人工问答记录得到的训练样本进行训练。

16.如权利要求15所述的装置，其中，所述训练样本通过以下方式得到：

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项的所述的方法。