CN112214592A

CN112214592A - 一种回复对话评分模型训练方法、对话回复方法及其装置

Info

Publication number: CN112214592A
Application number: CN202011224129.2A
Authority: CN
Inventors: 王栋; 张伟男; 王士进; 刘挺; 刘权; 陈志刚; 胡国平
Original assignee: Zhongke Xunfei Internet Beijing Information Technology Co ltd
Current assignee: Zhongke Xunfei Internet Beijing Information Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-01-12

Abstract

本申请公开了一种回复对话评分模型训练方法、对话回复方法及其装置，该回复对话评分模型训练方法包括：在获取到对话训练样本之后，先根据该对话训练样本，生成模型训练数据和对话重要度，以使对话重要度能够用于描述该对话训练样本中样本对话内容的信息重要程度；再根据该模型训练数据和对话重要度，对回复对话评分模型进行训练。其中，因对话重要度能够准确地描述该对话训练样本中样本对话内容的信息重要程度，使得基于对话重要度对回复对话评分模型进行训练时参考了不同样本对话内容之间的信息重要程度差异，从而使得回复对话评分模型能够更准确全面地理解对话内容，如此能够提高回复对话评分模型的预测准确性，从而有利于实现针对用户输入的对话内容进行准确地回复。

Description

一种回复对话评分模型训练方法、对话回复方法及其装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种回复对话评分模型训练方法、对话回复方法及其装置。

背景技术

随着人工智能技术的发展，人机对话系统(又称口语对话系统)的应用范围逐渐扩大。

目前，人机对话系统不仅能够协助用户完成某些任务(如，查找产品、预定)，还能够和用户进行闲聊。可见，人机对话系统可以针对用户输入的对话内容进行回复。然而，因现有的人机对话系统针对用户输入的对话内容进行回复的准确性较低，导致如何针对用户输入的对话内容进行准确地回复是一个亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提供一种回复对话评分模型训练方法、对话回复方法及其装置，能够实现针对用户输入的对话内容进行准确地回复。

本申请实施例提供了一种回复对话评分模型训练方法，所述方法包括：

获取对话训练样本；其中，所述对话训练样本包括M+1轮样本对话内容；M为正整数；

根据所述对话训练样本，生成模型训练数据和对话重要度；其中，所述对话重要度用于描述所述对话训练样本中样本对话内容的信息重要程度；

根据所述模型训练数据和所述对话重要度，对回复对话评分模型进行训练。

本申请实施例还提供了一种对话回复方法，所述方法包括：

获取目标用户对应的历史对话内容；

根据所述目标用户对应的历史对话内容，生成所述目标用户对应的候选回复对话；

将所述目标用户对应的历史对话内容和所述目标用户对应的候选回复对话输入回复对话评分模型，得到所述回复对话评分模型输出的所述候选回复对话的使用评分；

根据所述候选回复对话的使用评分，确定所述目标用户对应的目标回复对话。

本申请实施例还提供了一种回复对话评分模型训练装置，所述装置包括：

样本获取单元，用于获取对话训练样本；其中，所述对话训练样本包括M+1轮样本对话内容；M为正整数；

数据生成单元，用于根据所述对话训练样本，生成模型训练数据和对话重要度；其中，所述对话重要度用于描述所述对话训练样本中样本对话内容的信息重要程度；

模型训练单元，用于根据所述模型训练数据和所述对话重要度，对回复对话评分模型进行训练。

本申请实施例还提供了一种对话回复装置，所述装置包括：

对话获取单元，用于获取目标用户对应的样本对话内容；

回复生成单元，用于根据所述目标用户对应的样本对话内容，生成所述目标用户对应的候选回复对话；

概率预测单元，用于将所述目标用户对应的样本对话内容和所述目标用户对应的候选回复对话输入回复对话评分模型，得到所述回复对话评分模型输出的所述候选回复对话的使用评分；其中，所述回复对话评分模型是利用权利要求1至15中任一项所述的回复对话评分模型训练方法训练得到的；

回复确定单元，用于根据所述候选回复对话的使用评分，确定所述目标用户对应的目标回复对话。

本申请实施例还提供了一种回复对话评分模型训练设备，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的回复对话评分模型训练方法的任一种实现方法。

本申请实施例还提供了一种对话回复设备，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的对话回复方法的任一种实现方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行本申请实施例提供的回复对话评分模型训练方法的任一种实现方法，或者执行本申请实施例提供的对话回复方法的任一种实现方法。

基于上述技术方案，本申请具有以下有益效果：

本申请提供的回复对话评分模型训练方法中，在获取到对话训练样本之后，先根据该对话训练样本，生成模型训练数据和对话重要度，以使对话重要度能够用于描述该对话训练样本中样本对话内容的信息重要程度；再根据该模型训练数据和对话重要度，对回复对话评分模型进行训练。其中，因对话重要度能够准确地描述该对话训练样本中样本对话内容的信息重要程度，使得基于对话重要度对回复对话评分模型进行训练时参考了不同样本对话内容之间的信息重要程度差异，从而使得回复对话评分模型能够更准确且更全面地理解对话内容，如此能够提高回复对话评分模型的评分准确性，从而能够提高基于回复对话评分模型确定的目标回复对话的准确性，如此有利于实现针对用户输入的对话内容进行准确地回复。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种回复对话评分模型训练方法的流程图；

图2为本申请实施例提供的人机对话的对话交互过程示意图；

图3为本申请实施例提供的正例训练数据的示意图；

图4为本申请实施例提供的负例训练数据的示意图；

图5为本申请实施例提供的回复对话评分模型的示意图；

图6为本申请实施例提供的一种对话回复方法的流程图；

图7为本申请实施例提供的应用于终端设备的对话回复方法的应用场景示意图；

图8为本申请实施例提供的应用于服务器的对话回复方法的应用场景示意图；

图9为本申请实施例提供的一种回复对话评分模型训练装置的结构示意图；

图10为本申请实施例提供的一种对话回复装置的结构示意图。

具体实施方式

发明人在对人机对话系统所使用的对话回复方法的研究中发现，在相关技术中，当用户输入待回复对话时，可以先根据该用户对应的多轮已生成对话内容，确定出多个候选回复对话，并确定各个候选回复对话的使用评分，以使该各个候选回复对话的使用评分能够表示各个候选回复对话与待回复对话之间的匹配程度；再基于各个候选回复对话的使用评分，从所有候选回复对话中确定出该待回复对话对应的目标回复对话。然而，如何准确地确定出候选回复对话的使用评分仍是一个亟待解决的技术问题。

发明人在对人机对话系统所使用的对话回复方法的研究中还发现，可以参考用户对应的多轮已生成对话内容，确定各个候选回复对话的使用评分；而且，因不同轮已生成对话内容携带的对话信息不同，使得不同轮已生成对话内容能够对该使用评分产生不同程度影响，故为了提高该使用评分的预测准确性，可以参考不同轮已生成对话内容所产生的影响程度，对各个候选回复对话的使用评分进行确定。

基于此，本申请实施例提供了一种回复对话评分模型训练方法，该方法包括：在获取到对话训练样本之后，先根据该对话训练样本，生成模型训练数据和对话重要度，以使该对话重要度能够表征该对话训练样本中样本对话内容的信息重要程度；再根据该模型训练数据和该对话重要度，对回复对话评分模型进行训练。

可见，因对话重要度能够准确地描述该对话训练样本中样本对话内容的信息重要程度，使得基于对话重要度对回复对话评分模型进行训练时参考了不同样本对话内容之间的信息重要程度差异，从而使得回复对话评分模型能够更准确且更全面地理解对话内容，如此能够提高回复对话评分模型的评分准确性，从而能够提高基于回复对话评分模型确定的目标回复对话的准确性，如此有利于实现针对用户输入的对话内容进行准确地回复。

另外，本申请实施例不限定回复对话评分模型训练方法的执行主体，例如，本申请实施例提供的回复对话评分模型训练方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例一

参见图1，该图为本申请实施例提供的一种回复对话评分模型训练方法的流程图。

本申请实施例提供的回复对话评分模型训练方法，包括S101-S104：

S101：获取对话训练样本。

对话训练样本是指用于生成在训练回复对话评分模型时所使用的训练数据的对话语料。另外，本申请实施例不限定对话训练样本的个数。

此外，本申请实施例也不限定对话训练样本的获取方式，例如，对话训练样本可以是人机对话系统中已经存储的对话语料，也可以是从预设对话网页(如微博、贴吧等)中经合法授权后爬取到的对话语料，还可以是人工撰写的或者上传的对话语料。

对话训练样本是对话内容集合，而且一个对话训练样本包括至少一轮对话内容。其中，一轮对话内容是指由一方对话者在一轮对话交互过程中说出的内容。例如，对于如图2所示的一轮对话交互过程“历史用户说‘我好想出去玩呀！’人机对话系统说‘想法很好呀！你想好去哪里了吗？’”来说，“我好想出去玩呀！”和“想法很好呀！你想好去哪里了吗？”均是一轮对话内容。

另外，本申请实施例不限定对话训练样本中的对话内容数量。例如，若对话训练样本是根据图2所示的对话语料生成的，则该对话训练样本可以包括M+1轮样本对话内容；而且，该M+1轮样本对话内容可以按照生成时间进行排序，其具体为：第1轮样本对话内容的生成时间早于第2轮样本对话内容的生成时间，第2轮样本对话内容的生成时间早于第3轮样本对话内容的生成时间，……，第M轮样本对话内容的生成时间早于第M+1轮样本对话内容的生成时间。其中，M为正整数。

需要说明的是，本申请实施例不限定样本对话内容的生成时间，例如，样本对话内容的生成时间可以是指该样本对话内容存储(或者显示)在人机对话系统上的时间。

S102：根据对话训练样本，生成模型训练数据。

模型训练数据是指在训练回复对话评分模型时所需使用的训练数据，而且该模型训练数据用于模拟对话过程，以使得该模型训练数据可以包括至少一轮对话交互过程中所涉及对话内容。另外，本申请实施例不限定模型训练数据的个数。

模型训练数据可以根据对话训练样本生成，而且本申请实施例不限定生成模型训练数据(也就是S102)的实施方式。为了便于理解模型训练数据的生成过程，下面结合示例进行说明。

作为示例，当对话训练样本包括M+1轮样本对话内容，该对话训练样本中第j轮样本对话内容的生成时间早于第j+1轮样本对话内容的生成时间，且j为正整数，j≤M时，S102具体可以包括S1021-S1023：

S1021：根据对话训练样本中第1轮样本对话内容至第M轮样本对话内容，生成回复参考内容。

其中，回复参考内容可以包括至少一轮对话内容。例如，回复参考内容可以包括图2所示的第1轮样本对话内容至第M轮样本对话内容。

另外，回复参考内容和下文的候选回复内容可以共同用于生成模型训练数据；而且，对于模型训练数据来说，回复参考内容可以用于在该模型训练数据所模拟的对话过程中充当除了最后一轮对话内容以外的其他轮对话内容(如图2中第1轮样本对话内容至第M轮样本对话内容)，而候选回复内容用于在该模型训练数据所模拟的对话过程中充当最后一轮对话内容(如图2中第M+1轮样本对话内容)。

此外，本申请实施例不限定回复参考内容的生成方式，例如，可以直接将对话训练样本中第1轮样本对话内容至第M轮样本对话内容，确定为回复参考内容。

基于上述S1021的相关内容可知，本申请实施例中，在获取到包括M+1轮样本对话内容的对话训练样本之后，可以直接将第1轮样本对话内容至第M轮样本对话内容确定为回复参考内容，以便后续能够利用该回复参考内容，生成训练回复对话评分模型时所需使用的模型训练数据。

S1022：获取回复参考内容对应的候选回复内容。

其中，回复参考内容对应的候选回复内容用于与该回复参考内容共同生成模型训练数据；而且，本申请实施例不限定回复参考内容对应的候选回复内容的个数。另外，回复参考内容对应的每个候选回复内容均可以包括一轮对话内容，例如，回复参考内容对应的一个候选回复内容可以为图2所示的第M+1轮样本对话内容。

实际上，为了提高回复对话评分模型的评分性能，可以在训练回复对话评分模型时使用正例训练数据和负例训练数据，故为了满足该需求，回复参考内容对应的候选回复内容可以包括一个正例回复内容和至少一个负例回复内容。可见，回复参考内容对应的每个候选回复内容可以是正例回复内容，也可以是负例回复内容。

正例回复内容是指能够针对回复参考内容所包括的对话内容进行正确回复的对话内容。例如，当回复参考内容包括图2所示的第1轮样本对话内容至第M轮样本对话内容时，正例回复内容可以是图2所示的第M+1轮样本对话内容“今天从南京到北京的动车为……”。

另外，本申请实施例不限定正例回复内容的生成过程，例如，可以根据对话训练样本中第M+1轮样本对话内容，生成回复参考内容对应的正例回复内容(例如，如图3所示，可以直接将对话训练样本中第M+1轮样本对话内容，确定为回复参考内容对应的正例回复内容)。

负例回复内容是指能够针对回复参考内容所包括的对话内容进行错误回复的对话内容；而且，本申请实施例不限定，回复参考内容对应的负例回复内容的个数。

另外，本申请实施例不限定负例回复内容的生成过程，例如，负例回复内容的生成过程可以为：根据预设对话语料，生成回复参考内容对应的负例回复内容。其中，预设对话语料是指预先设定的用于生成负例回复内容的对话语料。

需要说明的是，本申请实施例不限定预设对话语料，例如，当对话训练样本的个数为Y个，且回复参考内容是根据第y个对话训练样本中第1轮样本对话内容至第M轮样本对话内容生成的，且y为正整数，y≤Y时，预设对话语料可以包括在Y个对话样本中除了第y个对话训练样本以外的其他至少一个对话训练样本，以使上述负例回复内容可以根据Y个对话样本中除了第y个对话训练样本以外的其他至少一个对话训练样本生成。

还需要说明的是，本申请实施例也不限定负例回复内容的生成方式，例如，可以采用负采样方法来生成负例回复内容。

基于上述S1022的相关内容可知，在获取到回复参考内容之后，可以生成该回复参考内容对应的至少一个候选回复内容，以便后续能够基于该回复参考内容及其对应的至少一个候选回复内容生成至少一个模型训练数据，以使每个模型训练数据均能够模拟一个对话过程。

S1023：根据回复参考内容和该回复参考内容对应的候选回复内容，生成模型训练数据。

其中，模型训练数据是指训练回复对话评分模型时所使用的训练数据，而且每个模型训练数据均可以用于模拟多轮对话过程。另外，每个模型训练数据均包括一个回复参考内容和一个回复参考内容；而且，一个回复参考内容可以为一个正例回复内容，也可以是一个负例回复内容。

另外，为了提高回复对话评分模型的评分性能，模型训练数据可以是正例训练数据和负例训练数据。其中，正例训练数据是指包括正确回复对话的模型训练数据，以使该正例训练数据能够在回复对话评分模型的训练过程中起到正向指导的作用。负例训练数据是指包括错误回复对话的模型训练数据，以使该负例训练数据能够在回复对话评分模型的训练过程中起到反向指导的作用。

为了便于理解正例训练数据和负例训练数据，下面结合示例进行说明。

作为示例，当模型训练数据对应的回复参考内容包括对话训练样本中第1轮样本对话内容至第M轮样本对话内容时，正例训练数据可以包括该对话训练样本中第M+1轮样本对话内容(如图3所示)，以使该正例训练数据能够在回复对话评分模型的训练过程中，引导着该回复对话评分模型朝着针对第M+1轮样本对话内容给出最高评分的方向进行模型优化；但是，负例训练数据则应该包括完全不同于对话训练样本中第M+1轮样本对话内容的对话内容(如图4所示)，以使该负例训练数据能够在回复对话评分模型的训练过程中，引导着该回复对话评分模型朝着针对负例回复内容给出最低评分的方向进行模型优化。

基于上述S1023的相关内容中，本申请实施例中，在获取到回复参考内容及其对应的候选回复内容之后，可以根据该回复参考内容及其对应的候选回复内容生成模型训练数据。例如，当回复参考内容包括对话训练样本中第1轮样本对话内容至第M轮样本对话内容，且该回复参考内容对应的候选回复内容包括P个候选回复内容时，可以将由第1轮样本对话内容、第2轮样本对话内容、……、第M轮样本对话内容、以及第p个候选回复内容构成的集合，确定为第p个模型训练数据。其中，第p个候选回复内容可以是正例回复内容，也可以是负例回复内容；而且，p为正整数，p≤P，P为正整数。

基于上述S102的相关内容可知，在获取到包括M+1轮样本对话内容的对话训练样本之后，可以先根据生成时间较早的M轮样本对话内容生成回复参考内容，并依据预设内容(如，对话训练样本中第M+1轮样本对话内容和预设对话语料等内容)生成该回复参考内容对应的候选回复内容；再根据该回复参考内容及其对应的候选回复内容，生成模型训练数据，以使该模拟训练数据能够模拟包括多轮对话交互过程的对话过程，从而使得后续能够利用该模型训练数据对回复对话评分模型进行训练。

S103：根据对话训练样本，生成对话重要度。

对话重要度用于描述对话训练样本中样本对话内容的信息重要程度，尤其是可以用于描述对话训练样本中非最后一轮对话内容在确定对话训练样本中最后一轮对话内容时所产生的信息重要程度。

另外，本申请实施例不限定对话重要度，例如，当模型训练数据对应的回复参考内容包括第1轮样本对话内容至第M轮样本对话内容时，对话重要度可以包括第1轮样本对话内容的信息重要度、第2轮样本对话内容的信息重要度、……、以及第M轮样本对话内容的信息重要度。

其中，第t轮样本对话内容的信息重要度用于表征第t轮样本对话内容携带的对话信息在回复对话评分过程中所体现的影响程度；且t为正整数，t≤M。

实际上，对于对话训练样本来说，不同轮样本对话内容之间是相互关联的，例如，生成时间较早的样本对话内容可以用于对生成时间较晚的样本对话内容进行信息铺垫，使得生成时间较早的样本对话内容通常携带有生成时间较晚的样本对话内容所涉及的部分信息。可见，对于第t轮样本对话内容来说，第t轮样本对话内容可以包括发生时间晚于第t轮样本对话内容的其他轮样本对话内容所携带的部分信息。另外，对于第t轮样本对话内容来说，第t轮样本对话内容还可以包括常识性信息。

基于此可知，第t轮样本对话内容携带的对话信息比较复杂，故为了保证第t轮样本对话内容的信息重要度能够准确地表示出第t轮样本对话内容在回复对话评分过程中的重要性，本申请实施例提供了获取第t轮样本对话内容的信息重要度的一种实施方式，其具体为：根据对话训练样本中第t轮样本对话内容的独有信息，确定对话训练样本中第t轮样本对话内容的信息重要度。

其中，第t轮样本对话内容的独有信息是指第t轮样本对话内容独自携带的不同于其他轮样本对话内容的对话信息。另外，本申请实施例不限定第t轮样本对话内容的独有信息，例如，在一些情况下，第t轮样本对话内容的独有信息可以是指从第t轮样本对话内容中除去常识性信息和/或铺垫信息(也就是，发生时间晚于第t轮样本对话内容的其他轮样本对话内容所携带的信息)之后得到的剩余信息。

实际上，因第t轮样本对话内容的独有信息很难通过显式文字进行准确且全面地表述，使得第t轮样本对话内容的独有信息的提取过程比较复杂，从而使得对话训练样本中第t轮样本对话内容的信息重要度的确定过程也比较复杂。

为了简化信息重要度的确定过程，本申请实施例还提供了计算第t轮样本对话内容的信息重要度的一种实施方式，其具体包括步骤11至步骤14：

步骤11：根据对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容，确定第t轮对话预测内容。

其中，第t轮对话预测内容是根据对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容进行反向对话预测得到的，而且该第t轮对话预测内容能够描述该对话训练样本中第t轮样本对话内容所携带的常识性信息和/或铺垫信息(也就是，发生时间晚于第t轮样本对话内容的其他轮样本对话内容所携带的部分信息)。可见，第t轮样本对话内容的独有信息可以为第t轮样本对话内容与该第t轮对话预测内容的信息差值。

另外，本申请实施例不限定第t轮对话预测内容的获取过程，例如，第t轮对话预测内容的获取过程具体可以为：将对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容输入预先构建的反向生成式对话模型，得到反向生成式对话模型输出的第t轮对话预测内容。

其中，反向生成式对话模型是一种用于反向预测对话内容的生成式对话模型，而且反向生成式模型可以根据发生时间较晚的对话内容预测发生时间较早的对话内容。

另外，反向生成式对话模型可以预先构建，而且该构建过程具体可以为：先根据第一训练对话语料生成第一训练数据，再利用该第一训练数据对反向生成式对话模型进行训练。

其中，第一训练对话语料是指用于生成在训练反向生成式对话模型时所需使用的训练数据的对话语料。另外，本申请实施例不限定第一训练对话语料的获取方式，例如，第一训练对话语料可以是人机对话系统中已经存储的对话语料，也可以是从预设对话网页(如微博、贴吧等)中爬取到的对话语料，还可以是人工撰写的或者上传的对话语料。此外，本申请实施例不限定第一训练对话语料与对话训练样本之间的关系，两者可以相同，也可以不同。

第一训练数据用于对反向生成式对话模型进行训练。另外，本申请实施例不限定第一训练数据的个数。

第一训练数据包括第一输入数据和第一标签数据，而且第一输入数据中对话内容的发生时间晚于第一标签数据中对话内容的发生时间。其中，第一输入数据是指在训练反向生成式对话模型时需要输入到该反向生成式对话模型中的输入数据。第一标签数据是指训练好的反向生成式对话模型能够根据第一输入数据准确地预测到的对话内容。例如，若第一训练数据是根据图2所示的对话语料生成的，则当第一训练数据中的第一输入数据为第g+1轮样本对话内容至第M+1轮样本对话内容时，第一训练数据中的第一标签数据可以为第g轮样本对话内容。其中，g为正整数，g≤M。

需要说明的是，本申请实施例不限定反向生成式对话模型的训练过程，可以采用现有的或未来出现的任一种反向生成式对话模型的训练方法进行实施。另外，本申请实施例也不限定反向生成式对话模型的模型结构，可以采用现有的或未来出现的任一种反向生成式对话模型的模型结构进行实施。

基于上述反向生成式对话模型的相关内容可知，基于第一训练数据训练好的反向生成式对话模型能够依据发生时间较晚的对话内容预测发生时间较早的对话内容，使得预测得到的发生时间较早的对话内容能够携带有常识性信息和/或发生时间较晚的对话内容所携带的部分信息。

基于上述步骤11的相关内容可知，本申请实施例中，可以根据对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容进行反向预测(如，利用反向生成式对话模型进行反向预测)，得到第t轮对话预测内容，以使该第t轮对话预测内容能够准确地表征出该对话训练样本中第t轮样本对话内容所携带的常识性信息和/或铺垫信息(也就是，发生时间晚于第t轮样本对话内容的其他轮样本对话内容所携带的部分信息)。

步骤12：将对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容、以及第t轮对话预测内容输入预先构建的正向生成式对话模型，得到对话训练样本中第M+1轮样本对话内容对应的伪生成概率。

正向生成式对话模型是一种用于正向预测对话内容的生成式对话模型，而且正向生成式对话模型可以根据发生时间较早的对话内容预测发生时间较晚的对话内容。

另外，正向生成式对话模型可以预先构建，而且该构建过程具体可以为：先根据第二训练对话语料生成第二训练数据，再利用该第二训练数据对正向生成式对话模型进行训练。

其中，第二训练对话语料是指用于生成在训练正向生成式对话模型时所需使用的训练数据的对话语料。另外，本申请实施例不限定第二训练对话语料的获取方式，例如，第二训练对话语料可以是人机对话系统中已经存储的对话语料，也可以是从预设对话网页(如微博、贴吧等)中爬取到的对话语料，还可以是人工撰写的或者上传的对话语料。此外，本申请实施例不限定第二训练对话语料、第二训练对话语料、以及对话训练样本之间的关系，三个可以相同，也可以不同。

第二训练数据用于对正向生成式对话模型进行训练。另外，本申请实施例不限定第二训练数据的个数。

第二训练数据包括第二输入数据和第二标签数据，而且第二输入数据中对话内容的发生时间早于第二标签数据中对话内容的发生时间。其中，第二输入数据是指在训练正向生成式对话模型时需要输入到该正向生成式对话模型中的输入数据。第二标签数据是指训练好的正向生成式对话模型能够根据第二输入数据准确地预测到的对话内容。例如，若第二训练数据是根据图2所示的对话语料生成的，则当第二训练数据中的第二输入数据为第g轮样本对话内容至第g+f轮样本对话内容时，第二训练数据中的第二标签数据可以为第g+f+1轮样本对话内容。其中，g为正整数，f为整数，g+f≤M。

需要说明的是，本申请实施例不限定正向生成式对话模型的训练过程，可以采用现有的或未来出现的任一种正向生成式对话模型的训练方法进行实施。另外，本申请实施例也不限定正向生成式对话模型的模型结构，可以采用现有的或未来出现的任一种正向生成式对话模型的模型结构进行实施。

基于上述正向生成式对话模型的相关内容可知，基于第二训练数据训练好的正向生成式对话模型能够依据发生时间较早的对话内容预测发生时间较晚的对话内容。

第M+1轮样本对话内容对应的伪生成概率是指由正向生成式对话模型根据对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容、以及第t轮对话预测内容，预测到的第M+1轮样本对话内容的生成概率；而且，该第M+1轮样本对话内容对应的伪生成概率能够表示出第t轮对话预测内容(也就是对话训练样本中第t轮样本对话内容所携带的常识性信息和/或铺垫信息)与对话训练样本中第M+1轮样本对话内容之间的信息关联性。

需要说明的是，本申请实施例不限定正向生成式对话模型计算第M+1轮样本对话内容的生成概率的实施方式，例如，在正向生成式对话模型中，可以将由该正向生成式对话模型预测得到的第M+1轮样本对话内容中各个字/词的使用概率进行加和，得到该第M+1轮样本对话内容的生成概率。

基于上述步骤12的相关内容可知，在获取到第t轮对话预测内容之后，直接将第t轮对话预测内容、以及对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容输入到正向生成式对话模型进行正向预测，得到对话训练样本中第M+1轮样本对话内容对应的伪生成概率，以使该伪生成概率能够准确地表示出第t轮对话预测内容(也就是对话训练样本中第t轮样本对话内容所携带的常识性信息和/或铺垫信息)与对话训练样本中第M+1轮样本对话内容之间的信息关联性，从而使得该伪生成概率能够准确地表示出第t轮对话预测内容携带的对话信息(也就是，对话训练样本中第t轮样本对话内容所携带的常识性信息和/或铺垫信息)在回复对话预测过程中所体现的影响程度。

步骤13：将对话训练样本中第t轮样本对话内容至第M轮样本对话内容输入预先构建的正向生成式对话模型，得到对话训练样本中第M+1轮样本对话内容对应的真生成概率。

其中，第M+1轮样本对话内容对应的真生成概率是指由正向生成式对话模型根据对话训练样本中第t轮样本对话内容至第M轮样本对话内容，预测得到的第M+1轮样本对话内容的生成概率，以使第M+1轮样本对话内容对应的真生成概率能够表示出对话训练样本中第t轮样本对话内容与第M+1轮样本对话内容之间的信息关联性。

基于上述步骤13的相关内容可知，可以直接将对话训练样本中第t轮样本对话内容至第M轮样本对话内容输入到正向生成式对话模型进行正向预测，得到对话训练样本中第M+1轮样本对话内容对应的真生成概率，以使该真生成概率能够准确地表示出对话训练样本中第t轮样本对话内容与第M+1轮样本对话内容之间的信息关联性，从而使得该真生成概率能够准确地表示出对话训练样本中第t轮样本对话内容携带的对话信息在回复对话预测过程中所体现的影响程度。

需要说明的是，本申请实施例不限定步骤12和步骤13的执行顺序，可以依次执行步骤12和步骤13，也可以依次执行步骤13和步骤12，还可以同步执行步骤12和步骤13。

步骤14：根据对话训练样本中第M+1轮样本对话内容对应的伪生成概率和该对话训练样本中第M+1轮样本对话内容对应的真生成概率，确定对话训练样本中第t轮样本对话内容的信息重要度。

需要说明的是，本申请实施例不限定步骤14的实施方式，例如，步骤14具体可以为：根据对话训练样本中第M+1轮样本对话内容对应的伪生成概率和该对话训练样本中第M+1轮样本对话内容对应的真生成概率之间的差值，确定对话训练样本中第t轮样本对话内容的信息重要度。又如，步骤14具体可以为：根据对话训练样本中第M+1轮样本对话内容对应的伪生成概率和该对话训练样本中第M+1轮样本对话内容对应的真生成概率之间的比值，确定对话训练样本中第t轮样本对话内容的信息重要度。

可见，本申请实施例中，因上述第t轮对话预测内容与上述第t轮样本对话内容之间的区别信息就是该第t轮样本对话内容的独有信息，使得上述第M+1轮样本对话内容对应的伪生成概率和上述第M+1轮样本对话内容对应的真生成概率之间的差值能够准确地表示出该第t轮样本对话内容的独有信息与第M+1轮样本对话内容之间的信息关联性，故可以根据上述第M+1轮样本对话内容对应的伪生成概率和上述第M+1轮样本对话内容对应的真生成概率之间的差值(或者比值)，确定对话训练样本中第t轮样本对话内容的信息重要度，以使该信息重要度能够准确地表示出第t轮样本对话内容携带的对话信息在回复对话预测过程中所体现的影响程度。

基于上述步骤11至步骤14的相关内容可知，本申请实施例中，可以先计算出第t轮对话预测内容携带的对话信息在回复对话预测过程中所体现的影响程度、以及对话训练样本中第t轮样本对话内容携带的对话信息在回复对话预测过程中所体现的影响程度，再根据上述两者之间的差值，确定出该第t轮样本对话内容的独有信息在回复对话预测过程中所体现的影响程度，从而确定出该第t轮样本对话内容的信息重要度，以使该第t轮样本对话内容的信息重要度能够准确地表示出第t轮样本对话内容携带的对话信息在回复对话预测过程中所体现的影响程度。

基于上述S103的相关内容可知，在获取到对话训练样本之后，可以根据该对话训练样本中的样本对话内容，生成该对话训练样本对应的对话重要度，以使该对话重要度能够准确地表示出对话训练样本中各个样本对话内容的信息重要程度，以便后续能够依据该对话重要度对回复对话评分模型进行训练。

需要说明的是，本申请实施例不限定S102和S103的执行顺序，可以依次执行S102和S103，也可以依次执行S103和S102，还可以同时执行S102和S103。

S104：根据模型训练数据和对话重要度，对回复对话评分模型进行训练。

其中，回复对话评分模型用于对模型训练数据中的候选回复内容的使用评分进行计算。

另外，本申请实施例不限定回复对话评分模型的模型结构，可以采用现有的或者未来出现的任一种能够确定回复对话(如，上文所述的候选回复内容、下文所述的候选回复对话等)的使用评分的模型结构。例如，如图5所示，回复对话评分模型可以包括输入层、向量层、N个聚合层以及N个预测层。其中，输入层用于将回复对话评分模型的输入数据输出给向量层。向量层用于将输入层的输出数据进行向量化处理。第i个聚合层用于根据第i-1个聚合层的输出数据和向量层的输出数据进行聚合处理；且i为正整数，i≤

N。第i个预测层用于根据第i个聚合层的输出数据确定回复对话的使用评分；且i为正整数，i≤N。

此外，本申请实施例不限定回复对话评分模型的训练过程，为了便于理解，下面结合S104的两种可能的实施方式进行说明。

在第一种可能的实施方式中，S104具体可以包括S104A1-S104A4：

S104A1：根据模型训练数据、对话重要度和回复对话评分模型，得到该模型训练数据中候选回复内容的预测使用评分。

其中，候选回复内容的预测使用评分用于描述由回复对话评分模型预测得到的，使用模型训练数据中的候选回复内容对该模型训练数据中的回复参考内容进行回复的使用概率。也就是，候选回复内容的预测使用评分用于表征由回复对话评分模型预测得到的模型训练数据中的候选回复内容及其回复参考内容之间的语义匹配概率。

为了便于理解S104A1，下面结合示例进行说明。

作为示例，当回复对话评分模型包括输入层、向量层、N个聚合层以及预测层，且N为正整数时，S104A1具体可以包括S104A11-S104A14：

S104A11：利用输入层向回复对话评分模型输入模型训练数据。

本申请实施例中，在获取到模型训练数据之后，可以直接通过回复对话评分模型的输入层输入至回复对话评分模型中，以便回复对话评分模型中除了输入层以外的其它层能够对该模型训练数据进行数据处理。例如，当模型训练数据包括第1轮样本对话内容、第2轮样本对话内容、……、第M轮样本对话内容以及候选回复内容时，可以利用输入层按照图5所示的输入方式将模型训练数据输入至回复对话评分模型。

需要说明的是，本申请实施例不限定输入层的输入方式，例如，输入层可以以字/词为单元进行输入。另外，本申请实施例不限定输入层对应的对话内容个数，例如，输入层对应的对话内容个数可以预先设置为固定数值M+1(也就是，M轮样本对话内容和1个候选回复内容)。此外，本申请实施例不限定输入层对应的对话内容长度，例如，在输入层中可以限定每个对话内容的对话内容长度为固定值L(也就是，每个对话内容均包括L个字/词)，且L为正整数。

S104A12：利用向量层对模型训练数据进行向量化处理，得到训练对话向量。

本申请实施例中，对于回复对话评分模型来说，向量层能够将输入层输出的模型训练数据进行向量化处理，得到该模型训练数据对应的训练对话向量，以使该训练对话向量能够准确地表示出模型训练数据所携带的对话信息。例如，当模型训练数据包括第1轮样本对话内容、第1轮样本对话内容、……、第M轮样本对话内容以及候选回复内容时，向量层能够对第1轮样本对话内容、第2轮样本对话内容、……、第M轮样本对话内容以及候选回复内容进行向量化处理，得到训练对话向量，以使该训练对话向量可以包括第1轮样本对话内容对应的第1轮样本对话向量、第2轮样本对话内容对应的第2轮样本对话向量、……、第M轮样本对话内容对应的第M轮样本对话向量、以及候选回复内容对应的候选回复向量。

需要说明的是，本申请实施例不限定向量层中所采用的向量化处理，例如，向量层可以采用词向量转换方法(如，Word2vec等)、ELMO

(Embeddings from Language Models)、或者BERT(Bidirectional EncoderRepresentation from Transformers)等来实现向量化处理。

S104A13：利用第i个聚合层和对话重要度对训练对话向量进行聚合处理，得到第i层整体聚合数据；其中，i为正整数，i≤N。

其中，第i层整体聚合数据用于整体描述模型训练数据所携带的对话信息，而且第i层整体聚合数据可以由第i个聚合层聚合得到。

在一些情况下，为了提高聚合处理的准确性，本申请实施例还提供了获取第i层整体聚合数据的一种实施方式，其具体可以为：根据训练对话向量、对话重要度和第i-1层整体聚合数据，生成第i层整体聚合数据。

可见，对于回复对话评分模型来说，在向量层输出模型训练数据对应的训练对话向量之后，第1个聚合层可以利用对话重要度和第0层整体聚合数据对训练对话向量进行聚合处理，得到第1层整体聚合数据；第2个聚合层可以利用对话重要度和第1层整体聚合数据对训练对话向量进行聚合处理，得到第2层整体聚合数据；……(以此类推)；第N个聚合层可以利用对话重要度和第N-1层整体聚合数据对训练对话向量进行聚合处理，得到第N层整体聚合数据。其中，第0层整体聚合数据是根据训练对话向量生成的。

需要说明的是，本申请实施例不限定第0层整体聚合数据的获取过程，例如，当模型训练数据对应的训练对话向量包括第1轮样本对话向量、第2轮样本对话向量、……、第M轮样本对话向量以及候选回复向量时，将第1轮样本对话向量、第2轮样本对话向量、……、第M轮样本对话向量以及候选回复向量进行向量加和，得到第0层整体聚合数据。又如，可以利用预设神经网络模型对模型训练数据对应的训练对话向量进行聚合处理，得到第0层整体聚合数据。其中，预设神经网络模型是指预先设定的用于对多个对话向量进行聚合处理的神经网络模型，而且本申请实施例不限定预设神经网络模型。

实际上，当人类进行对话回复时，会优先理解对方所说的待回复对话(也就是，距离当前时间最近的对话内容)，如果无法完全理解该待回复对话，则会进一步地结合距离该待回复对话较近的历史对话进行理解，如果还无法完全理解该待回复对话，则会再进一步地结合距离该待回复对话较远的历史对话进行理解，直到最终能够理解对方所说的待回复对话所表述的意思。

可见，为了提高对待回复对话的理解程度，回复对话评分模型可以按照递进的方式来理解多轮对话内容。也就是，回复对话评分模型中网络层的关注点能够逐渐地从距离对话回复时间点较近的对话内容迁移至距离对话回复时间点较远的对话内容。基于此，本申请实施例还提供了获取第i层整体聚合数据的另一种实施方式，其具体包括步骤21-步骤22：

步骤21：获取第i层注意力分布。

其中，第i层注意力分布用于描述第i个聚合层对模型训练数据中各轮样本对话内容的关注程度，以使该第i层注意力分布能够准确地体现出对话注意力在回复对话评分模型中的逐层迁移。为了便于理解第i层注意力分布，下面结合示例进行说明。

作为示例，当模型训练数据包括第1轮样本对话内容、第2轮样本对话内容、……、第M轮样本对话内容时，第i层注意力分布可以包括第1轮样本对话内容的第i层关注度a_i1、第2轮样本对话内容的第i层关注度a_i2、……、第M轮样本对话内容的第i层关注度a_iM。其中，第1轮样本对话内容的第i层关注度a_i1用于描述第i个聚合层对第1轮样本对话内容的关注程度；第2轮样本对话内容的第i层关注度a_i2用于描述第i个聚合层对第2轮样本对话内容的关注程度；……(以此类推)；第M轮样本对话内容的第i层关注度a_iM用于描述第i个聚合层对第M轮样本对话内容的关注程度。

另外，本申请实施例不限定第i层注意力分布的计算方式，例如，第j轮样本对话内容的第i层关注度a_ij可以服从一个满足预设约束条件的分布，而且该预设约束条件可以为：当

时，a_ij达到最大值；而且，若

与

之间差值的绝对值

越大，则a_ij的值越小。

需要说明的是，本申请实施例不限定a_ij所服从的分布，可以是任一种能够满足上述预设约束条件的分布。例如，当a_ij服从正态分布时，a_ij可以利用公式(1)进行计算。

式中，a_ij为第j轮样本对话内容的第i层关注度；σ为标准差；M为模型训练数据中样本对话内容的个数；N为回复对话评分模型中聚合层的个数；M+1-j为第j轮样本对话内容对应的时间排序参数；i为正整数，i≤N；j为正整数，j≤M。需要说明的是，第j轮样本对话内容对应的时间排序参数M+1-j用于表征候选回复内容的生成时间与第j轮样本对话内容的生成时间距离之间的时间差。

基于上述公式(1)可知，随着聚合层的层数i的逐渐增加，使得聚合层的关注重心逐渐从距离对话回复时间点较近的对话内容迁移至距离对话回复时间点较远的对话内容。也就是，低层聚合层的关注点侧重于距离对话回复时间点较近的对话内容，且高层聚合层的关注点侧重于距离对话回复时间点较远的对话内容。需要说明的是，对话回复时间点是指回复对话的发生时间点。例如，对于模型训练数据来说，对话回复时间点就是指候选回复内容对应的发生时间。

基于上述步骤21的相关内容可知，为了实现回复对话评分模型以递进的方式理解多轮对话内容，可以根据聚合层的层数以及样本对话内容对应的时间排序参数，确定各个样本对话内容在各个聚合层中的被关注程度。

需要说明的是，本申请实施例不限定步骤21的执行时间，只需在执行步骤22之前完成即可。

步骤22：根据第i层注意力分布和对话重要度对训练对话向量进行聚合处理，得到第i层整体聚合数据。

为了便于理解步骤22，下面结合示例进行说明。

作为示例，当训练对话向量包括第1轮样本对话向量、第2轮样本对话向量、……、第M轮样本对话向量以及候选回复向量，而且第i层注意力分布包括第1轮样本对话内容的第i层关注度至第M轮样本对话内容的第i层关注度，而且对话重要度包括第1轮样本对话内容的信息重要度至第M轮样本对话内容的信息重要度时，步骤22具体可以包括步骤221-步骤224：

步骤221：根据第j轮样本对话向量和第j轮样本对话内容的字词聚合权重，生成第j轮样本对话内容的第i层对话聚合数据。其中，j为正整数，j≤M。

其中，第j轮样本对话内容的字词聚合权重用于描述第j轮样本对话内容中各个字/词在第j轮样本对话向量的话语级聚合处理过程中所产生的影响比重。例如，若第j轮样本对话内容包括第1个字词、第2个字词、……、第L个字词，则第j轮样本对话内容的字词聚合权重可以包括第1个字词内容对应的第1个字词权重、第2个字词内容对应的第2个字词权重、……、第L个字词内容对应的第L个字词权重。需要说明的是，在不同聚合层中，一个字词对应的字词权重可以相同，也可以不同，本申请实施例对此不做具体限定。

另外，本申请实施例不限定第j轮样本对话内容的第i层对话聚合数据的计算方式，为了便于理解，下面结合示例进行说明。

作为示例，当第j轮样本对话内容的字词聚合权重包括第j轮样本对话内容的第i层字词聚合权重，且i为正整数，i≤N时，步骤221具体可以包括步骤2211-步骤2212：

步骤2211：对第j轮样本对话向量进行第i层话语级编码，得到第j轮样本对话内容的第i层编码。

其中，第i层话语级编码是指由第i个聚合层按照第i层话语级编码需求进行实施的话语级别的编码过程。另外，本申请实施例不限定第i层话语级编码的实施方式。

本申请实施例中，对于回复对话评分模型来说，在第i个聚合层接收到向量层输出的第j轮样本对话向量之后，第i个聚合层先按照第i层话语级编码需求对该第j轮样本对话向量进行第i层话语级编码，得到第j轮样本对话内容的第i层编码。

步骤2212：根据第j轮样本对话内容的第i层编码和第j轮样本对话内容的第i层字词聚合权重，生成第j轮样本对话内容的第i层对话聚合数据。

其中，第j轮样本对话内容的第i层字词聚合权重用于描述第j轮样本对话内容中各个字/词在第i个聚合层的聚合处理过程中所产生的影响比重。

另外，本申请实施例不限定第j轮样本对话内容的第i层对话聚合数据的计算过程，例如，当第j轮样本对话内容的第i层编码包括第j轮样本对话内容中第v个字/词的第i层话语级编码向量，且第j轮样本对话内容的第i层字词聚合权重包括第j轮样本对话内容中第v个字/词的第i层字词聚合权重，且v为正整数，v≤L，L为第j轮样本对话内容中的字词个数时，可以利用公式(2)-(3)计算得到第j轮样本对话内容的第i层对话聚合数据。

式中，U_ij为第j轮样本对话内容的第i层对话聚合数据；I_ijv为第j轮样本对话内容中第v个字/词的第i层话语级编码向量；w_ijv为第j轮样本对话内容中第v个字/词的第i层字词聚合权重；C_i-1为第i-1层整体聚合数据；attention(I_ijv,C_i-1)为对I_ijv与C_i-1进行注意力处理操作；L为第j轮样本对话内容中的字词个数；i为正整数，i≤N；j为正整数，j≤M。

需要说明的是，本申请实施例不限定注意力处理操作的实施方式，例如，注意力处理操作可以是对两个向量求内积，如此使得attention(I_ijv,C_i-1)＝I_ijv·C_i-1。

基于上述步骤2211至步骤2212的相关内容可知，对于回复对话评分模型来说，在第i个聚合层获取到第j轮样本对话向量和第i-1个聚合层输出的第i-1层整体聚合数据之后，可以先对第j轮样本对话向量进行第i层话语级编码，得到第j轮样本对话内容的第i层编码；再根据第j轮样本对话内容的第i层编码和第i-1层整体聚合数据，得到第j轮样本对话内容的第i层字词聚合权重；最后，根据第j轮样本对话内容的第i层编码和第j轮样本对话内容的第i层字词聚合权重，得到第j轮样本对话内容的第i层对话聚合数据。

步骤222：根据第i层注意力分布、对话重要度、第1轮样本对话内容的第i层对话聚合数据、第2轮样本对话内容的第i层对话聚合数据、……、第M轮样本对话内容的第i层对话聚合数据、以及第M轮样本对话内容的第i层对话聚合数据，生成第i层对话聚合权重。

其中，第i层对话聚合权重用于描述模型训练数据中各轮样本对话内容在第i层聚合处理中的重要程度。例如，若模型训练数据包括第1轮样本对话内容、第2轮样本对话内容、……、以及第M轮样本对话内容，则第i层对话聚合权重可以包括第1轮样本对话内容的第i层聚合权重、第2轮样本对话内容的第i层聚合权重、……、以及第M轮样本对话内容的第i层聚合权重。

实际上，因第i层对话聚合权重包括多轮样本对话内容的第i层聚合权重，而且每轮样本对话内容的第i层聚合权重的计算过程类似，故为了便于理解步骤222，下面以第j轮样本对话内容的第i层聚合权重的计算过程为例进行说明。其中，j为正整数，j≤M。

作为示例，当对话重要度包括第j轮样本对话内容的信息重要度，且第i层注意力分布包括第j轮样本对话内容的第i层关注度时，第j轮样本对话内容的第i层聚合权重的获取过程包括步骤31-步骤32：

步骤31：根据第j轮样本对话内容的第i层对话聚合数据和第i-1层整体聚合数据，生成第j轮样本对话内容的第i层注意力权重。

本申请实施例中，对于回复对话评分模型中的第i个聚合层来说，在获取到第j轮样本对话内容的第i层对话聚合数据以及第i-1层整体聚合数据之后，可以根据第j轮样本对话内容的第i层对话聚合数据和第i-1层整体聚合数据，按照公式(4)计算得到第j轮样本对话内容的第i层注意力权重。

式中，A_ij为第j轮样本对话内容的第i层注意力权重；M为模型训练数据中的样本对话内容个数；U_ij为第j轮样本对话内容的第i层对话聚合数据；C_i-1为第i-1层整体聚合数据；attention(U_ij,C_i-1)为对U_ij与C_i-1进行注意力处理操作；i为正整数，i≤N；j为正整数，j≤M。

基于上述步骤31的相关内容可知，对于回复对话评分模型中的第i个聚合层来说，在获取到第j轮样本对话内容的第i层对话聚合数据以及第i-1层整体聚合数据之后，可以先对第j轮样本对话内容的第i层对话聚合数据U_ij和第i-1层整体聚合数据C_i-1进行注意力处理操作，再对注意力处理操作结果进行归一化操作(如，softmax操作)，得到第j轮样本对话内容的第i层注意力权重A_ij，以便后续能够利用该A_ij计算第j轮样本对话内容的第i层聚合权重。

步骤32：根据第j轮样本对话内容的注意力权重、第j轮样本对话内容的信息重要度以及第j轮样本对话内容的第i层关注度之间的乘积，确定第j轮样本对话内容的第i层聚合权重。

为了便于理解步骤32，下面结合两个示例进行说明。

示例1，步骤32具体可以为：如公式(5)所示，将第j轮样本对话内容的注意力权重、第j轮样本对话内容的信息重要度以及第j轮样本对话内容的第i层关注度之间的乘积，确定为第j轮样本对话内容的第i层聚合权重。

W_ij＝A_ij×a_ij×b_j (5)

式中，W_ij为第j轮样本对话内容的第i层聚合权重；A_ij为第j轮样本对话内容的第i层注意力权重；a_ij为第j轮样本对话内容的第i层关注度；b_j为第j轮样本对话内容的信息重要度；i为正整数，i≤N；j为正整数，j≤M。

示例2，步骤32具体可以为：如公式(6)所示，将第j轮样本对话内容的注意力权重、第j轮样本对话内容的信息重要度、第j轮样本对话内容的第i层关注度、以及第j轮样本对话内容的第i层校正权重之间的乘积，确定为第j轮样本对话内容的第i层聚合权重。

W_ij＝A_ij×a_ij×b_j×E_ij (6)

式中，W_ij为第j轮样本对话内容的第i层聚合权重；A_ij为第j轮样本对话内容的第i层注意力权重；a_ij为第j轮样本对话内容的第i层关注度；b_j为第j轮样本对话内容的信息重要度；E_ij为第j轮样本对话内容的第i层校正权重；i为正整数，i≤N；j为正整数，j≤M。

需要说明的是，本申请实施例不限定第j轮样本对话内容的第i层校正权重E_ij，E_ij可以根据实际应用场景设定。例如，在一些情况下，E_ij可以等于下文所述的第j个样本对话内容的第q轮理解力。

基于上述步骤32的相关内容可知，对于回复对话评分模型中的第i个聚合层来说，在获取到第j轮样本对话内容的注意力权重、第j轮样本对话内容的信息重要度以及第j轮样本对话内容的第i层关注度之后，可以利用公式(5)或公式(6)计算得到第j轮样本对话内容的第i层聚合权重。

基于上述步骤31至步骤32的相关内容可知，对于回复对话评分模型中的第i个聚合层来说，在获取到第j轮样本对话内容的第i层对话聚合数据、第i-1层整体聚合数据、第j轮样本对话内容的信息重要度以及第j轮样本对话内容的第i层关注度之后，可以先依据第j轮样本对话内容的第i层对话聚合数据和第i-1层整体聚合数据，计算得到第j轮样本对话内容的第i层注意力权重；再依据第j轮样本对话内容的第i层注意力权重、信息重要度及其第i层关注度，计算得到第j轮样本对话内容的第i层聚合权重，以便后续能够利用第j轮样本对话内容的第i层聚合权重计算第i层整体聚合数据。其中，j为正整数，j≤M。

需要说明的是，本申请实施例中任一轮样本对话内容的第i层聚合权重均可以采用上文步骤31至步骤32进行计算得到，为了简要起见，在此不再赘述。

步骤223：将第1轮样本对话内容的第i层对话聚合数据至第M轮样本对话内容的第i层对话聚合数据按照第i层对话聚合权重进行加权求和，得到第i层历史聚合数据。

其中，第i层历史聚合数据是指由模型训练数据中的回复参考内容聚合得到的数据。

为了便于理解步骤223，下面结合示例进行说明。

作为示例，当第i层对话聚合权重包括第1轮样本对话内容的第i层聚合权重、第2轮样本对话内容的第i层聚合权重、……、第M轮样本对话内容的第i层聚合权重时，可以利用公式(7)计算得到第i层历史聚合数据。

式中，u_i为第i层历史聚合数据；W_ij为第j轮样本对话内容的第i层聚合权重；U_ij为第j轮样本对话内容的第i层对话聚合数据；M为模型训练数据中的样本对话内容个数；i为正整数，i≤N。

步骤224：根据第i层历史聚合数据和候选回复向量，得到第i层整体聚合数据。

本申请实施例不限定步骤224的实施方式，为了便于理解，下面结合一种可能的实施方式进行说明。

在一种可能的实施方式中，步骤224具体可以包括步骤2241-步骤2242：

步骤2241：根据候选回复向量和候选回复内容的字词聚合权重，生成该候选回复内容的第i层对话聚合数据。

其中，候选回复内容的字词聚合权重用于描述该候选回复内容中各个字/词在候选回复向量的话语级聚合处理过程中所产生的影响比重。

需要说明的是，候选回复内容的第i层对话聚合数据的生成过程与上文第j轮样本对话内容的第i层对话聚合数据的生成过程类似，为了简要起见，在此不再赘述。

步骤2242：根据第i层历史聚合数据和候选回复内容的第i层对话聚合数据，生成第i层整体聚合数据。

需要说明的是，本申请实施例不限定步骤2242中第i层整体聚合数据的生成过程。例如，可以将第i层历史聚合数据和候选回复内容的第i层对话聚合数据进行拼接，得到第i层整体聚合数据。又如，可以将第i层历史聚合数据和候选回复内容的第i层对话聚合数据进行向量加和，得到第i层整体聚合数据。

基于上述步骤224的相关内容可知，对于回复对话评分模型中的第i个聚合层来说，在获取到第i层历史聚合数据和候选回复向量之后，可以依据第i层历史聚合数据和候选回复向量生成第i层整体聚合数据，以使该第i层整体聚合数据能够整体地表示出模型训练数据所模拟的对话过程中携带的信息。

基于上述步骤21至步骤22的相关内容可知，对于回复对话评分模型来说，可以借助第i层注意力分布调整不同聚合层的关注点，以实现回复对话评分模型能够按照递进地方式理解多轮样本对话内容，如此有利于提高回复对话评分模型的评分性能。

基于上述S104A13的相关内容可知，对于回复对话评分模型来说，当第i个聚合层获取到向量层输出的训练对话向量之后，该第i个聚合层可以依据对话重要度对该训练对话向量进行聚合处理，得到第i层整体聚合数据。

需要说明的是，在回复对话评分模型中，任一聚合层均可以采用上文所述的S104A13进行聚合处理，为了简要起见，在此不再赘述。

S104A14：利用预测层对第1层整体聚合数据至第N层整体聚合数据进行预测处理，得到候选回复内容的预测使用评分。

其中，候选回复内容的预测使用评分是指由回复对话评分模型预测得到的利用该候选回复内容对模型训练数据中的回复参考内容进行答复的概率。

另外，本申请实施例不限定候选回复内容的预测使用评分的获取方式(也就是S104A14)，为了便于理解，下面结合示例进行说明。

作为示例，当回复对话评分模型包括N个预测层时，S104A14具体可以为：利用第1个预测层对第1层整体聚合数据进行预测处理，得到候选回复内容的第1层预测概率；利用第2个预测层对第2层整体聚合数据进行预测处理，得到候选回复内容的第2层预测概率；……(以此类推)；利用第N个预测层对第N层整体聚合数据进行预测处理，得到候选回复内容的第N层预测概率；根据候选回复内容的第1层预测概率至候选回复内容的第N层预测概率，确定候选回复内容的预测使用评分。

基于上述步骤S104A1的相关内容可知，在获取到模型训练数据和对话重要度之后，可以利用当前轮的回复对话评分模型和对话重要度对模型训练数据进行预测，得到该模型训练数据中候选回复内容的预测使用评分，以便后续能够依据该候选回复内容的预测使用评分，确定当前轮的回复对话评分模型的评分性能。

S104A2：判断是否达到预设停止条件，若是，则执行S104A4；若否，则执行S104A3。

其中，预设停止条件是指预先设定的停止对回复对话评分模型进行训练所需达到的约束条件。另外，本申请实施例不限定预设停止条件，例如，预设停止条件可以为模型训练数据中候选回复内容的预测使用评分与模型训练数据中候选回复内容的实际使用评分之间的差值小于第一阈值。又如，预设停止条件可以为回复对话评分模型的评分结果达到收敛。还如，预设停止条件可以为回复对话评分模型的更新次数达到第二阈值。

本申请实施例中，在利用当前轮的回复对话评分模型，确定出模型训练数据中候选回复内容的预测使用评分之后，需要判断当前轮的回复对话评分模型是否达到预设停止条件，若达到，则可以确定回复对话评分模型的评分性能较好，从而可以结束对回复对话评分模型的训练过程，并保存或使用训练好的回复对话评分模型；若未达到，则可以确定回复对话评分模型的评分性能较差，从而可以对回复对话评分模型进行更新，以使更新后的回复对话评分模型具有更好的评分性能。

S104A3：根据候选回复内容的预测使用评分和候选回复内容的实际使用评分，更新回复对话评分模型，并返回执行S104A1。

其中，候选回复内容的实际使用评分是指模型训练数据中候选回复内容的真实使用评分。为了便于理解，下面结合示例进行说明。

作为示例，当模型训练数据包括对话训练样本中的第1轮样本对话内容至第M轮样本对话内容时，若候选回复内容为对话训练样本中的第M+1轮样本对话内容(也就是，正例回复内容)，则该候选回复内容的实际使用评分可以为1；若候选回复内容是完全不同于对话训练样本中的第M+1轮样本对话内容的对话内容(也就是，负例回复内容)，则该候选回复内容的实际使用评分可以为0。

基于上述S104A3的相关内容可知，在确定当前轮的回复对话评分模型未达到预设停止条件时，可以根据候选回复内容的预测使用评分和候选回复内容的实际使用评分之间的差值，对回复对话评分模型进行更新，以使更新后的回复对话评分模型具有更好的评分性能。

需要说明的是，本申请实施例不限定回复对话评分模型的更新过程，可以采用现有的或未来出现的任一种回复对话评分模型的更新方法进行更新。

S104A4：结束回复对话评分模型的训练过程。

基于上述S104的第一种可能的实施方式的相关内容可知，在获取到模型训练数据和对话重要度之后，可以利用该模型训练数据和该对话重要度对回复对话评分模型进行训练，以使训练好的回复对话评分模型能够准确地确定出候选回复对话的使用评分，从而使得该候选回复对话的使用评分能够更准确地预测出候选回复对话与样本对话之间的语义匹配概率，如此能够提高回复对话评分模型的评分准确性。

在一些情况下，为了提高回复对话评分模型的训练效率，可以控制回复对话评分模型的关注点随着回复对话评分模型的训练过程进行调整。基于此，本申请实施例还提供了S104的第二种可能的实施方式，其具体可以包括S104B1-S104B3：

S104B1：根据回复对话评分模型，生成预训练模型。

本申请实施例中，可以针对回复对话评分模型采用二次训练的方式进行训练，以使在回复对话评分模型的第二次训练过程中能够依据第一次训练好的回复对话评分模型的预测损失进行实施。其中，因回复对话评分模型的两次训练过程均是针对最原始的回复对话评分模型进行训练的，故为了能够准确地执行回复对话评分模型的两次训练过程，可以根据回复对话评分模型生成预训练模型，以使该预训练模型作为回复对话评分模型的分身经历回复对话评分模型的第一次训练过程。

S104B2：根据模型训练数据、对话重要度和预设模型理解力，对预训练模型进行训练，并在达到第一训练停止条件时，将预训练模型的预测损失值，确定为模型参考损失值。

其中，预设模型理解力用于描述预先设定的预训练模型的对模型训练数据中多轮对话交互过程的理解能力。例如，预设模型理解力可以为1。

第一训练停止条件是指预先设定的停止预训练模型的训练过程的约束条件。另外，本申请实施例不限定第一训练停止条件与上文预设停止条件之间的关系，例如，第一训练停止条件可以与上文预设停止条件相同。

模型参考损失值是指由训练好的预训练模型进行使用评分预测时所产生的预测损失值。另外，本申请实施例不限定模型参考损失值的计算过程，例如，可以根据在预训练模型的最后一轮训练过程中预测得到的候选回复内容的预测使用评分与候选回复内容的实际使用评分进行计算。

此外，本申请实施例不限定预训练模型的训练过程，可以采用上文提供的训练回复对话评分模型的任一实施方式进行实施。需要说明的是，若预训练模型的预测过程中使用了上文公式(6)，则公式(6)中的第j轮样本对话内容的第i层校正权重E_ij可以根据预设模型理解力确定(例如，直接将预设模型理解力确定为公式(6)中的第j轮样本对话内容的第i层校正权重E_ij)。

基于上述S104B2的相关内容可知，对于预训练模型的训练过程(也就是，回复对话评分模型的第一次训练过程)来说，可以利用模型训练数据、对话重要度和预先设定的预设模型理解力，对该预训练模型进行训练，以便得到训练好的预训练模型及其模型参考损失值。

S104B3：根据模型训练数据、对话重要度和模型参考损失值，对回复对话评分模型进行训练。

本申请实施例中，对于回复对话评分模型的第二次训练过程来说，可以根据模型参考损失值，确定每轮训练过程对应的模型理解力，并根据每轮训练过程对应的模型理解力、模型训练数据和对话重要度，实现回复对话评分模型的第二次训练过程中的每轮训练过程。为了便于理解回复对话评分模型的第二次训练过程，下面结合示例进行说明。

作为示例，当回复对话评分模型的第二次训练包括K轮训练过程，且K为正整数时，S104B3具体可以包括S104B31-S104B34：

S104B31：根据模型训练数据、对话重要度和预先设定的第1轮训练过程对应的模型理解力，对回复对话评分模型进行训练，得到第1轮更新后的回复对话评分模型和第1轮训练过程对应的模型预测损失值。

其中，第1轮训练过程对应的模型理解力可以预先设定，例如，第1轮训练过程对应的模型理解力可以设定为1。

第1轮更新后的回复对话评分模型是指在第1轮训练过程中更新得到的回复对话评分模型。

第1轮训练过程对应的模型预测损失值是指在第1轮训练过程所使用的回复对话评分模型(也就是，未经历第1轮更新的回复对话评分模型)所具有的模型预测损失值。

S104B32：根据模型训练数据、对话重要度和第2轮训练过程对应的模型理解力，对第1轮更新后的回复对话评分模型进行训练，得到第2轮更新后的回复对话评分模型和第2轮训练过程对应的模型预测损失值。

其中，第2轮训练过程对应的模型理解力是根据模型参考损失值和第1轮训练过程对应的模型预测损失值确定的。

第2轮训练过程对应的模型预测损失值是指在第2轮训练过程所使用的回复对话评分模型(也就是，已经历第1轮更新且未经历第2轮更新的回复对话评分模型)所具有的模型预测损失值。

S104B33：根据模型训练数据、对话重要度和第3轮训练过程对应的模型理解力，对第2轮更新后的回复对话评分模型进行训练，得到第3轮更新后的回复对话评分模型和第3轮训练过程对应的模型预测损失值。

……(以此类推)

S104B34：根据模型训练数据、对话重要度和第K轮训练过程对应的模型理解力，对第K-1轮更新后的回复对话评分模型进行训练，得到第K轮更新后的回复对话评分模型。

基于上述S104B31至S104B34的相关内容可知，对于回复对话评分模型的第二次训练来说，在根据模型参考损失值和第k轮训练过程对应的模型预测损失值确定出第k+1轮训练过程对应的模型理解力之后，可以根据模型训练数据、对话重要度和第k+1轮训练过程对应的模型理解力，对第k轮更新后的回复对话评分模型进行训练，得到第k+1轮更新后的回复对话评分模型和第k+1轮训练过程对应的模型预测损失值，以便后续能够继续利用第k+1轮训练过程对应的模型预测损失值确定出第k+2轮训练过程对应的模型理解力，并利用第k+2轮训练过程对应的模型理解力对第k+1轮更新后的回复对话评分模型进行训练。其中，k为正整数。

可见，在回复对话评分模型的第二次训练过程中，会随着回复对话评分模型的评分性能的变化不断地调整上述模型理解力，以使回复对话评分模型能够快速且准确地达到收敛。

需要说明的是，对于回复对话评分模型的第二次训练过程来说，每轮训练过程包括使用评分的预测过程和回复对话评分模型的更新过程。另外，本申请实施例不限定每轮训练过程中所涉及的使用评分的预测过程，可以采用上文提供的预测候选回复内容的预测使用评分的任一实施方式进行实施，而且若该预测过程中使用了上文公式(6)，则公式(6)中的第j轮样本对话内容的第i层校正权重E_ij可以根据第j个样本对话内容的第q轮理解力确定(例如，直接将第j个样本对话内容的第q轮理解力确定为公式(6)中的第j轮样本对话内容的第i层校正权重E_ij)；其中，q为正整数，q≤K。

另外，本申请实施例还提供了在不同轮训练过程中各个样本对话内容对应的理解力的获取过程，为了便于理解，下面以第j个样本对话内容的第k+1轮理解力的获取过程为例进行说明。

作为示例，当回复对话评分模型包括R个预测层，第k轮训练过程对应的模型预测损失值包括第1个预测层的第k轮预测损失值至第R个预测层的第k轮预测损失值，模型参考损失值包括第1个预测层的参考损失值至第R个预测层的参考损失值，第k+1轮训练过程对应的模型理解力包括第j个样本对话内容的第k+1轮理解力，j为正整数，j≤M，且R为正整数时，第j个样本对话内容的第k+1轮理解力的获取过程包括步骤41-步骤45：

步骤41：将第r个预测层的第k轮预测损失值与第r个预测层的参考损失值作差，得到第r个预测层的第k轮预测性能参数。其中，r为正整数，r≤R。

步骤42：将第1个预测层的第k轮预测性能参数至第R个预测层的第k轮预测性能参数进行加和，得到回复对话评分模型的第k轮预测性能参数。

步骤43：根据回复对话评分模型的第k轮预测性能参数和第j个样本对话内容的时间参数，确定第j个样本对话内容对应的整体理解力。其中，第j个样本对话内容的时间参数用于描述第j个样本对话的发生时间所产生的影响。

步骤44：根据回复对话评分模型的第k轮预测性能参数和第j个样本对话关注层的第k轮预测性能参数，确定第j个样本对话内容对应的局部理解力。其中，第j个样本对话关注层是指关注点侧重于第j个样本的网络层(如，聚合层和/或预测层)。

需要说明的是，上文“关注点侧重于第j个样本的网络层”可以是指针对第j个样本的注意力高于预设注意力阈值的网络层，也可以是指针对第j个样本的注意力达到最高值的网络层。

步骤45：根据第j个样本对话内容的整体理解力和第j个样本对话内容的局部理解力，确定第j个样本对话内容的第k+1轮理解力。

需要说明的是，本申请实施例不限定回复对话评分模型中预测层个数R，例如，若回复对话评分模型包括N个聚合层，则回复对话评分模型中预测层个数R可以为N。

基于上述步骤41至步骤45的相关内容可知，当回复对话评分模型包括N个聚合层和N个预测层，且第r个预测层用于对第r个聚合层输出的第i层整体聚合数据进行预测时，可以利用公式(8)计算第j个样本对话内容的第k+1轮理解力。

式中，c_j(k+1)为第j个样本对话内容的第k+1轮理解力；loss_kr为第r个预测层的第k轮预测损失值；loss_∞r为第r个预测层的参考损失值；loss_0r为最原始的回复对话评分模型(也就是未经历任何训练的回复对话评分模型)中第r个预测层的预测损失值；

为第j个样本对话内容的时间参数；

为第j个样本对话关注层的序号，且

为正整数；j为正整数，j≤M。

基于上述S104B3的相关内容可知，在获取到模型训练数据、对话重要度和模型参考损失值，可以利用模型训练数据、对话重要度和模型参考损失值对回复对话评分模型进行第二次训练，以使训练得到的回复对话评分模型的评分性能更好。

基于上述S104的第二种可能的实施方式的相关内容可知，在获取到模型训练数据之后，可以采用二次训练的方式对回复对话评分模型进行训练，以使训练好的回复对话评分模型的评分性能更好。

基于上述S101至S104的相关内容可知，在本申请提供的回复对话评分模型训练方法中，当获取到对话训练样本时，先根据该对话训练样本，生成模型训练数据和对话重要度，以使对话重要度能够用于描述该对话训练样本中样本对话内容的信息重要程度；再根据该模型训练数据和对话重要度，对回复对话评分模型进行训练。其中，因对话重要度能够准确地描述该对话训练样本中样本对话内容的信息重要程度，使得基于对话重要度对回复对话评分模型进行训练时参考了不同样本对话内容之间的信息重要程度差异，从而使得回复对话评分模型能够更准确且更全面地理解对话内容，如此能够提高回复对话评分模型的评分准确性，从而能够提高基于回复对话评分模型确定的目标回复对话的准确性，如此有利于实现针对用户输入的对话内容进行准确地回复。

基于上述方法实施例提供的回复对话评分模型训练方法，本申请实施例还提供了一种对话回复方法，下面结合附图进行说明。

方法实施例二

参见图6，该图为本申请实施例提供的一种对话回复方法的流程图。

本申请实施例提供的对话回复方法，包括S601-S604：

S601：获取目标用户对应的历史对话内容。

目标用户是指人机对话系统的使用者。

历史对话内容是指在一次对话过程中目标用户与人机对话系统之间已经生成的对话。例如，当目标用户与人机对话系统之间已经生成了图2所述的第1轮样本对话内容至第M轮样本对话内容时，则该目标用户对应的历史对话内容可以包括第1轮样本对话内容至第M轮样本对话内容。

S602：根据目标用户对应的历史对话内容，生成目标用户对应的候选回复对话。

其中，目标用户对应的候选回复对话是指根据目标用户对应的历史对话内容获取到的回复内容；而且，本申请实施例不限定目标用户对应的候选回复对话的个数。

本申请实施例中，在获取到目标用户对应的历史对话内容之后，可以根据该目标用户对应的候选回复对话，生成至少一个候选回复对话，以便后续能够从该至少一个候选回复对话中挑选出能够反馈给目标用户的最终回复内容。

需要说明的是，本申请实施例不限定目标用户对应的候选回复对话的生成过程，可以采用现有的或未来出现的任一种能够生成目标用户对应的候选回复对话的方法进行实施。

S603：将目标用户对应的历史对话内容和目标用户对应的候选回复对话输入回复对话评分模型，得到回复对话评分模型输出的候选回复对话的使用评分。

其中，回复对话评分模型用于根据模型输入数据，确定该模型输入数据中充当回复对话角色的对话内容的使用评分。另外，回复对话评分模型可以利用上述回复对话评分模型训练方法的任一实施方式进行训练得到。

需要说明的是，若回复对话评分模型的预测过程中使用了公式(5)或者(6)，则公式(5)或者(6)中的b_j可以直接设定为第一权重值(如1)，以及公式(6)中的E_ij也可以直接设定为第二权重值(如1)。

基于上述S603可知，本申请实施例中，在获取到目标用户对应的历史对话内容及其候选回复对话之后，可以将目标用户对应的历史对话内容及其候选回复对话输入至回复对话评分模型，得到该回复对话评分模型输出的候选回复对话的使用评分，以便后续能够基于候选回复对话的使用评分，确定出能够反馈给目标用户的最终回复内容。

S604：根据候选回复对话的使用评分，确定目标用户对应的目标回复对话。

本申请实施例中，在获取到候选回复对话的使用评分之后，可以依据该候选回复对话的使用评分，确定目标用户对应的目标回复对话。例如，当目标用户对应于T个候选回复对话时，可以先将第1个候选回复对话的使用评分至第T个候选回复对话的使用评分进行比较，再将对应使用评分最大的候选回复对话，确定为目标用户对应的目标回复对话。

基于上述S601至S604的相关内容可知，在获取到目标用户对应的历史对话内容之后，先根据目标用户对应的历史对话内容，生成目标用户对应的候选回复对话，并将目标用户对应的历史对话内容及其候选回复对话输入回复对话评分模型，得到该回复对话评分模型输出的候选回复对话的使用评分；再根据候选回复对话的使用评分，确定目标用户对应的目标回复对话。其中，因回复对话评分模型的评分性能较好，使得该回复对话评分模型能够准确地确定出候选回复对话的使用评分，从而使得基于候选回复对话的使用评分确定出的目标回复对话更准确，如此有利于提高用户的人机对话体验。

另外，本申请实施例不限定对话回复方法的执行主体，例如，本申请实施例提供的对话回复方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

为了便于理解本申请实施例提供的技术方案，下面分别结合图7和图8对本申请实施例提供的对话回复方法的应用场景进行示例性介绍。其中，图7为本申请实施例提供的应用于终端设备的对话回复方法的应用场景示意图；图8为本申请实施例提供的应用于服务器的对话回复方法的应用场景示意图。

在图7所示的应用场景中，当目标用户701在终端设备702上触发对话回复请求时，终端设备702接收该对话回复请求，并通过执行本申请实施例提供的对话回复方法向目标用户701进行对话回复。

在图8所示的应用场景中，当目标用户801在终端设备802上触发对话回复请求时，终端设备802接收该对话回复请求，并将该对话回复请求转发给服务器803，以使服务器803通过执行本申请实施例提供的对话回复方法向目标用户801进行对话回复。

以图8的过程为示例，服务器803向目标用户801进行对话回复的过程具体可以为：服务器803先获取目标用户801对应的历史对话内容，并根据该历史对话内容生成目标用户801对应的候选回复对话；再将该历史对话内容及其候选回复对话输入回复对话评分模型，得到该回复对话评分模型输出的候选回复对话的使用评分，并根据候选回复对话的使用评分，确定目标用户801对应的目标回复对话，以便将该目标回复对话发送给终端设备802，以使该终端设备802能够通过预设方式(如，文字显示、语音播报等)将该目标回复对话反馈给目标用户801。

需要说明的是，本申请实施例提供的对话回复方法不仅能够应用于图7或图8所示的应用场景中，还可以应用于其他需要进行对话回复的应用场景中，本申请实施例对此不做具体限定。

基于上述方法实施例提供的回复对话评分模型训练方法，本申请实施例还提供了一种回复对话评分模型训练装置，下面结合附图进行解释和说明。

装置实施例一

装置实施例一对回复对话评分模型训练装置进行介绍，相关内容请参见上述方法实施例。

参见图9，该图为本申请实施例提供的一种回复对话评分模型训练装置的结构示意图。

本申请实施例提供的回复对话评分模型训练装置900，包括：

样本获取单元901，用于获取对话训练样本；其中，所述对话训练样本包括M+1轮样本对话内容；M为正整数；

数据生成单元902，用于根据所述对话训练样本，生成模型训练数据和对话重要度；其中，所述对话重要度用于描述所述对话训练样本中样本对话内容的信息重要程度；

模型训练单元903，用于根据所述模型训练数据和所述对话重要度，对回复对话评分模型进行训练。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述数据生成单元902，包括：

第一生成子单元，用于根据所述对话训练样本中第1轮样本对话内容至第M轮样本对话内容，生成回复参考内容；

第一获取子单元，用于获取所述回复参考内容对应的候选回复内容；

第二生成子单元，用于根据所述回复参考内容和所述回复参考内容对应的候选回复内容，生成模型训练数据。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述候选回复内容包括正例回复内容和/或负例回复内容；

所述第一获取子单元，具体用于：

根据所述对话训练样本中第M+1轮样本对话内容，生成所述回复参考内容对应的正例回复内容；

和/或，

根据预设对话语料，生成所述回复参考内容对应的负例回复内容。

第一确定子单元，用于当所述模型训练数据包括所述对话训练样本中第t轮样本对话内容，且所述对话重要度包括所述第t轮样本对话内容的信息重要度，且t为正整数，t≤M时，根据所述对话训练样本中第t轮样本对话内容的独有信息，确定所述对话训练样本中第t轮样本对话内容的信息重要度。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述第一确定子单元，包括：

第二确定子单元，用于根据所述对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容，确定第t轮对话预测内容；其中，所述第t轮样本对话内容的独有信息为所述第t轮样本对话内容与所述第t轮对话预测内容的信息差值；

第三确定子单元，用于将所述对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容、以及所述第t轮对话预测内容输入预先构建的正向生成式对话模型，得到所述对话训练样本中第M+1轮样本对话内容对应的伪生成概率；

第四确定子单元，用于将所述对话训练样本中第t轮样本对话内容至第M轮样本对话内容输入预先构建的正向生成式对话模型，得到所述对话训练样本中第M+1轮样本对话内容对应的真生成概率；

第五确定子单元，用于根据所述对话训练样本中第M+1轮样本对话内容对应的伪生成概率和所述对话训练样本中第M+1轮样本对话内容对应的真生成概率，确定所述对话训练样本中第t轮样本对话内容的信息重要度。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述第二确定子单元，具体用于：

将所述对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容输入预先构建的反向生成式对话模型，得到所述反向生成式对话模型输出的第t轮对话预测内容。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述模型训练单元903，包括：

第六确定子单元，用于若所述模型训练数据包括候选回复内容，则根据所述模型训练数据、所述对话重要度和所述回复对话评分模型，得到所述候选回复内容的预测使用评分；

模型更新子单元，用于根据所述候选回复内容的预测使用评分和所述候选回复内容的实际使用评分，更新所述回复对话评分模型，并返回所述第六确定子单元继续执行所述根据所述模型训练数据、所述对话重要度和所述回复对话评分模型，得到所述候选回复内容的预测使用评分，直至达到预设停止条件。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述回复对话评分模型包括输入层、向量层、N个聚合层以及预测层，且N为正整数，所述第六确定子单元，包括：

数据输入子单元，用于利用所述输入层向所述回复对话评分模型输入所述模型训练数据；

向量提取子单元，用于利用所述向量层对所述模型训练数据进行向量化处理，得到训练对话向量；

数据聚合子单元，用于利用所述第i个聚合层和所述对话重要度对所述训练对话向量进行聚合处理，得到第i层整体聚合数据；其中，i为正整数，i≤N；

数据预测子单元，用于利用所述预测层对第1层整体聚合数据至第N层整体聚合数据进行预测处理，得到所述候选回复内容的预测使用评分。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述第i层整体聚合数据的获取过程为：

根据所述训练对话向量、所述对话重要度和第i-1层整体聚合数据，生成第i层整体聚合数据；其中，第0层整体聚合数据是根据所述训练对话向量生成的。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，若所述模型训练数据包括所述对话训练样本中第1轮样本对话内容至第M轮样本对话内容，则所述第i层整体聚合数据的获取过程为：

获取第i层注意力分布；其中，所述第i层注意力分布用于描述所述第i个聚合层对所述模型训练数据中各轮样本对话内容的关注程度；

根据所述第i层注意力分布和所述对话重要度对所述训练对话向量进行聚合处理，得到第i层整体聚合数据。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，若所述训练对话向量包括第1轮样本对话向量至第M轮样本对话向量、以及候选回复向量，则所述根据所述第i层注意力分布和所述对话重要度对所述训练对话向量进行聚合处理，得到第i层整体聚合数据，包括：

根据第j轮样本对话向量和所述第j轮样本对话内容的字词聚合权重，生成所述第j轮样本对话内容的第i层对话聚合数据；其中，j为正整数，j≤M；

根据所述第i层注意力分布、所述对话重要度、以及所述第1轮样本对话内容的第i层对话聚合数据至所述第M轮样本对话内容的第i层对话聚合数据，生成第i层对话聚合权重；其中，所述第i层对话聚合权重用于描述所述模型训练数据中各轮样本对话内容在第i层聚合处理中的重要程度；

将所述第1轮样本对话内容的第i层对话聚合数据至所述第M轮样本对话内容的第i层对话聚合数据按照所述第i层对话聚合权重进行加权求和，得到第i层历史聚合数据；

根据所述第i层历史聚合数据和所述候选回复向量，得到第i层整体聚合数据。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述对话重要度包括第j轮样本对话内容的信息重要度，所述第i层注意力分布包括第j轮样本对话内容的第i层关注度，所述第i层对话聚合权重包括所述第j轮样本对话内容的第i层聚合权重，且j为正整数，j≤M，所述第j轮样本对话内容的第i层聚合权重的获取过程为：

根据所述第j轮样本对话内容的第i层对话聚合数据和第i-1层整体聚合数据，生成所述第j轮样本对话内容的第i层注意力权重；

根据所述第j轮样本对话内容的第i层注意力权重、所述第j轮样本对话内容的信息重要度以及所述第j轮样本对话内容的第i层关注度之间的乘积，确定所述第j轮样本对话内容的第i层聚合权重。

模型复制子单元，用于根据回复对话评分模型，生成预训练模型；

初次训练子单元，用于根据所述模型训练数据、所述对话重要度和预设模型理解力，对所述预训练模型进行训练，并在达到第一训练停止条件时，将所述预训练模型的预测损失值，确定为模型参考损失值；

再次训练子单元，用于根据所述模型训练数据、所述对话重要度和所述模型参考损失值，对所述回复对话评分模型进行训练。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，所述再次训练子单元，具体用于：

根据所述模型训练数据、所述对话重要度和预先设定的第1轮训练过程对应的模型理解力，对所述回复对话评分模型进行训练，得到第1轮更新后的回复对话评分模型和所述第1轮训练过程对应的模型预测损失值；

根据所述模型训练数据、所述对话重要度和第k+1轮训练过程对应的模型理解力，对所述第k轮更新后的回复对话评分模型进行训练，得到第k+1轮更新后的回复对话评分模型和所述第k+1轮训练过程对应的模型预测损失值；其中，所述第k+1轮训练过程对应的模型理解力是根据所述模型参考损失值和所述第k轮训练过程对应的模型预测损失值确定的；其中，k为正整数。

在一种可能的实施方式中，为了提高回复对话评分模型的预测准确性，当所述回复对话评分模型包括R个预测层，所述第k轮训练过程对应的模型预测损失值包括第1个预测层的第k轮预测损失值至第R个预测层的第k轮预测损失值，所述模型参考损失值包括第1个预测层的参考损失值至第R个预测层的参考损失值，所述第k+1轮训练过程对应的模型理解力包括第j个样本对话内容的第k+1轮理解力，j为正整数，j≤M，且R为正整数时，所述第j个样本对话内容的第k+1轮理解力的获取过程为：

将第r个预测层的第k轮预测损失值与第r个预测层的参考损失值作差，得到第r个预测层的第k轮预测性能参数；其中，r为正整数，r≤R；

将第1个预测层的第k轮预测性能参数至第R个预测层的第k轮预测性能参数进行加和，得到所述回复对话评分模型的第k轮预测性能参数；

根据所述回复对话评分模型的第k轮预测性能参数和第j个样本对话内容的时间参数，确定所述第j个样本对话内容对应的整体理解力；

根据所述回复对话评分模型的第k轮预测性能参数和第j个样本对话关注层的第k轮预测性能参数，确定所述第j个样本对话内容对应的局部理解力；

根据所述第j个样本对话内容的整体理解力和所述第j个样本对话内容的局部理解力，确定所述第j个样本对话内容的第k+1轮理解力。

基于上述方法实施例提供的对话回复方法，本申请实施例还提供了一种对话回复装置，下面结合附图进行解释和说明。

装置实施例二

装置实施例二对对话回复装置进行介绍，相关内容请参见上述方法实施例。

参见图10，该图为本申请实施例提供的一种对话回复装置的结构示意图。

本申请实施例提供的对话回复装置1000，包括：

对话获取单元1001，用于获取目标用户对应的样本对话内容；

回复生成单元1002，用于根据所述目标用户对应的样本对话内容，生成所述目标用户对应的候选回复对话；

概率预测单元1003，用于将所述目标用户对应的样本对话内容和所述目标用户对应的候选回复对话输入回复对话评分模型，得到所述回复对话评分模型输出的所述候选回复对话的使用评分；

回复确定单元1004，用于根据所述候选回复对话的使用评分，确定所述目标用户对应的目标回复对话。

在一种可能的实施方式中，所述回复对话评分模型是本申请实施例提供的回复对话评分模型训练方法的任一实施方式训练得到的。

进一步地，本申请实施例还提供了一种回复对话评分模型训练设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述回复对话评分模型训练方法的任一种实现方法。

进一步地，本申请实施例还提供了一种对话回复设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述对话回复方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述回复对话评分模型训练方法的任一种实现方法，或者执行上述对话回复方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种回复对话评分模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述对话训练样本，生成模型训练数据，包括：

根据所述对话训练样本中第1轮样本对话内容至第M轮样本对话内容，生成回复参考内容；

获取所述回复参考内容对应的候选回复内容；

根据所述回复参考内容和所述回复参考内容对应的候选回复内容，生成模型训练数据。

3.根据权利要求2所述的方法，其特征在于，所述候选回复内容包括正例回复内容和/或负例回复内容；

所述获取所述回复参考内容对应的候选回复内容，包括：

和/或，

4.根据权利要求1所述的方法，其特征在于，当所述模型训练数据包括所述对话训练样本中第t轮样本对话内容，且所述对话重要度包括所述第t轮样本对话内容的信息重要度，且t为正整数，t≤M时，所述根据所述对话训练样本，生成对话重要度，包括：

根据所述对话训练样本中第t轮样本对话内容的独有信息，确定所述对话训练样本中第t轮样本对话内容的信息重要度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述对话训练样本中第t轮样本对话内容的独有信息，确定所述对话训练样本中第t轮样本对话内容的信息重要度，包括：

根据所述对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容，确定第t轮对话预测内容；其中，所述第t轮样本对话内容的独有信息为所述第t轮样本对话内容与所述第t轮对话预测内容的信息差值；

将所述对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容、以及所述第t轮对话预测内容输入预先构建的正向生成式对话模型，得到所述对话训练样本中第M+1轮样本对话内容对应的伪生成概率；

将所述对话训练样本中第t轮样本对话内容至第M轮样本对话内容输入预先构建的正向生成式对话模型，得到所述对话训练样本中第M+1轮样本对话内容对应的真生成概率；

根据所述对话训练样本中第M+1轮样本对话内容对应的伪生成概率和所述对话训练样本中第M+1轮样本对话内容对应的真生成概率，确定所述对话训练样本中第t轮样本对话内容的信息重要度。

6.根据权利要求5所述的方法，其特征在于，所述根据所述对话训练样本中第t+1轮样本对话内容至第M轮样本对话内容，确定第t轮对话预测内容，包括：

7.根据权利要求1所述的方法，其特征在于，若所述模型训练数据包括候选回复内容，则所述根据所述模型训练数据和所述对话重要度，对回复对话评分模型进行训练，包括：

根据所述模型训练数据、所述对话重要度和所述回复对话评分模型，得到所述候选回复内容的预测使用评分；

根据所述候选回复内容的预测使用评分和所述候选回复内容的实际使用评分，更新所述回复对话评分模型，并继续执行所述根据所述模型训练数据、所述对话重要度和所述回复对话评分模型，得到所述候选回复内容的预测使用评分的步骤，直至达到预设停止条件。

8.根据权利要求7所述的方法，其特征在于，所述回复对话评分模型包括输入层、向量层、N个聚合层以及预测层，且N为正整数，所述根据所述模型训练数据、所述对话重要度和所述回复对话评分模型，得到所述候选回复内容的预测使用评分，包括：

利用所述输入层向所述回复对话评分模型输入所述模型训练数据；

利用所述向量层对所述模型训练数据进行向量化处理，得到训练对话向量；

利用所述第i个聚合层和所述对话重要度对所述训练对话向量进行聚合处理，得到第i层整体聚合数据；其中，i为正整数，i≤N；

利用所述预测层对第1层整体聚合数据至第N层整体聚合数据进行预测处理，得到所述候选回复内容的预测使用评分。

9.根据权利要求8所述的方法，其特征在于，所述第i层整体聚合数据的获取过程为：

10.根据权利要求8所述的方法，其特征在于，若所述模型训练数据包括所述对话训练样本中第1轮样本对话内容至第M轮样本对话内容，则所述第i层整体聚合数据的获取过程为：

11.根据权利要求10所述的方法，其特征在于，若所述训练对话向量包括第1轮样本对话向量至第M轮样本对话向量、以及候选回复向量，则所述根据所述第i层注意力分布和所述对话重要度对所述训练对话向量进行聚合处理，得到第i层整体聚合数据，包括：

12.根据权利要求11所述的方法，其特征在于，所述对话重要度包括第j轮样本对话内容的信息重要度，所述第i层注意力分布包括第j轮样本对话内容的第i层关注度，所述第i层对话聚合权重包括所述第j轮样本对话内容的第i层聚合权重，且j为正整数，j≤M，所述第j轮样本对话内容的第i层聚合权重的获取过程为：

13.根据权利要求1所述的方法，其特征在于，所述根据所述模型训练数据和所述对话重要度，对回复对话评分模型进行训练，包括：

根据回复对话评分模型，生成预训练模型；

根据所述模型训练数据、所述对话重要度和预设模型理解力，对所述预训练模型进行训练，并在达到第一训练停止条件时，将所述预训练模型的预测损失值，确定为模型参考损失值；

根据所述模型训练数据、所述对话重要度和所述模型参考损失值，对所述回复对话评分模型进行训练。

14.一种对话回复方法，其特征在于，所述方法包括：

获取目标用户对应的历史对话内容；

15.一种回复对话评分模型训练设备，其特征在于，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1至13任一项所述的回复对话评分模型训练方法。

16.一种对话回复设备，其特征在于，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求14所述的对话回复方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1至13任一项所述的回复对话评分模型训练方法，或者执行权利要求14所述的对话回复方法。