CN116431790A

CN116431790A - 答复输出方法、装置、计算机设备及其存储介质

Info

Publication number: CN116431790A
Application number: CN202310436401.0A
Authority: CN
Inventors: 王明金; 李伟明; 张寒; 朱笑寒
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-14

Abstract

本申请涉及人工智能技术领域，特别是涉及一种答复输出方法、装置、计算机设备及其存储介质。所述方法包括：获取目标设备的待输出答复，并对待输出答复进行分词处理，得到待输出答复的分词结果；通过目标评分模型，确定分词结果对应的目标评分值，其中，目标评分模型是基于标注有奖励值的问答训练样本对初始评分模型进行训练得到；奖励值是通过目标奖励模型为问答训练样本标注的，且目标奖励模型是基于问答训练样本对初始奖励模型进行训练得到；若目标评分值大于评分阈值，则输出待输出答复。本申请实现了对于目标设备待输出答复合理性的判断，防止目标设备因受到某些用户的误导，而输出包含不恰当内容或者观点的答复。

Description

答复输出方法、装置、计算机设备及其存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种答复输出方法、装置、计算机设备及其存储介质。

背景技术

随着人工智能技术的不断完善，人工智能中答复功能的应用也越加普及；人工智能的答复功能可实现根据用户输入的问题，以及人工智能与用户的历史沟通记录，生成对应的答复内容。

随着人工智能中的答复功能被应用到更多的场景，人工智能也具有了更多的学习机会，可随着人工智能与用户对话的机会不断增多，答复功能的输出结果可能性也就越多，但是，人工智能无法有效判断哪个输出结果是当前问题最合理的答复。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确判断人工智能输出结果是否为当前问题最合理答复的答复输出方法、装置、计算机设备及其存储介质。

第一方面，本申请提供了一种答复输出方法。该方法包括：

获取目标设备的待输出答复，并对待输出答复进行分词处理，得到待输出答复的分词结果；

通过目标评分模型，确定分词结果对应的目标评分值，其中，目标评分模型是基于标注有奖励值的问答训练样本对初始评分模型进行训练得到；奖励值是通过目标奖励模型为问答训练样本标注的，且目标奖励模型是基于问答训练样本对初始奖励模型进行训练得到；

若目标评分值大于评分阈值，则输出待输出答复。

在其中一个实施例中，方法还包括：

若目标分配值小于或等于评分阈值，则将待输出答复和目标评分值反馈至目标设备，以使目标设备重新确定待输出答复；

获取目标设备重新确定待输出答复，并返回执行对待输出答复进行分词处理的操作。

在其中一个实施例中，基于标注有奖励值的问答训练样本对初始评分模型进行训练，包括：

获取问答训练样本，问答训练样本中包含至少一个候选样本问题，以及各候选样本问题对应的至少一种样本答复；

从各候选样本问题中，确定对应有至少两个样本答复的目标样本问题，将目标样本问题对应的至少两个样本答复进行合理性排序，得到目标样本问题排序后的至少两个样本答复；

基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到目标奖励模型；

通过目标奖励模型，为问答训练样本标注奖励值，得到标注有奖励值的问答训练样本；

基于标注有奖励值的问答训练样本，对初始评分模型进行训练，得到目标评分模型。

在其中一个实施例中，通过目标奖励模型，为问答训练样本标注奖励值，得到标注有奖励值的问答训练样本，包括：

获取问答训练样本中各候选样本问题对应的专家答复；

基于各候选样本问题和各候选样本问题对应的专家答复，对目标奖励模型进行参数调整，得到调整后的目标奖励模型；

通过初始评分模型，确定问答训练样本的预测评分值；

将问答训练样本和问答训练样本的预测评分值输入至调整后的目标奖励模型，得到目标奖励模型预测的问答训练样本对应的奖励值；

基于目标奖励模型预测的问答训练样本对应的奖励值，对问答训练样本进行标注，得到标注有奖励值的问答训练样本。

在其中一个实施例中，基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到目标奖励模型，包括：

基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到中间奖励模型；

通过初始评分模型，确定问答训练样本对应的预测评分值；

将问答训练样本和问答训练样本对应的预测评分值输入至中间奖励模型，得到中间奖励模型预测的问答训练样本对应的奖励值；

基于中间奖励模型预测的问答训练样本对应的奖励值，对中间奖励模型进行强化学习，得到目标奖励模型。

在其中一个实施例中，基于标注有奖励值的问答训练样本，对初始评分模型进行训练之前，还包括：

基于问答训练样本，对预训练模型进行无监督训练，得到无监督训练后的预训练模型；

对问答训练样本进行评分值标注，得到标注有评分值标签的问答训练样本；

基于标注有评分值标签的问答训练样本，对无监督训练后的预训练评分模型进行监督训练，得到初始评分模型。

在其中一个实施例中，通过目标评分模型，确定分词结果对应的目标评分值，包括：

对待输出答复的分词结果进行特征提取，确定分词结果对应的分词结果向量；

将分词结果对应的分词结果向量输入至目标评分模型，得到目标评分模型预测的分词结果对应的目标评分值。

第二方面，本申请还提供了一种答复输出装置。该装置包括：

获取模型，用于获取目标设备的待输出答复，并对待输出答复进行分词处理，得到待输出答复的分词结果；

确定模型，用于通过目标评分模型，确定分词结果对应的目标评分值，其中，目标评分模型是基于标注有奖励值的问答训练样本对初始评分模型进行训练得到；奖励值是通过目标奖励模型为问答训练样本标注的，且目标奖励模型是基于问答训练样本对初始奖励模型进行训练得到；

输出模型，用于若目标评分值大于评分阈值，则输出待输出答复。

第三方面，本申请还提供了一种计算机设备。计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上述第一方面任一实施例的答复输出方法。

第四方面，本申请还提供了一种计算机可读存储介质。计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面任一实施例的答复输出方法。

第五方面，本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述第一方面任一实施例的答复输出方法。

答复输出方法、装置、计算机设备及其存储介质，通过目标评分模型，确定待输出答复的分词结果对应的目标评分值，并且，根据目标评分值与评分阈值，输出待输出答复，由于目标评分值是目标评分模型输出的用于判断待输出答复合理性的指标，因此，可根据目标评分值与评分阈值的大小关系，确定待输出答复是否合理性，进而，确定待输出答复的输出情况，实现了对于目标设备待输出答复合理性的判断，防止目标设备因受到某些用户的误导，而输出包含不恰当内容或者观点的答复。

附图说明

图1为本申请实施例提供的一种答复输出方法的应用环境图；

图2为本申请实施例提供的一种答复输出方法的流程图；

图3为本申请实施例提供的一种确定待输出答复的输出方式的流程图；

图4为本申请实施例提供的一种对初始评分模型进行训练的流程图；

图5为本申请实施例提供的一种确定目标评分值的流程图；

图6为本申请实施例提供的另一种对初始评分模型进行训练的流程图；

图7为本申请实施例提供的第一种答复输出装置的结构框图；

图8为本申请实施例提供的第二种答复输出装置的结构框图；

图9为本申请实施例提供的第三种答复输出装置的结构框图；

图10为本申请实施例提供的第四种答复输出装置的结构框图；

图11为本申请实施例提供的第五种答复输出装置的结构框图；

图12为本申请实施例提供的第六种答复输出装置的结构框图；

图13为本申请实施例提供的第七种答复输出装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。在本申请的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

本申请实施例提供的答复输出方法，可以应用于如图1所示的应用环境中。在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储答复输出的获取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种答复输出方法。

本申请公开了一种答复输出方法、装置、计算机设备及其存储介质。工作人员的计算机设备获取待输出答复的分词结果，并通过目标评分模型，确定分词结果对应的目标评分值；根据目标评分值与评分阈值的大小关系，确定待输出答复的输出情况。

在一个实施例中，如图2所示，图2为本申请实施例提供的一种答复输出方法的流程图，提供了一种答复输出方法，图1中的计算机设备执行的答复输出方法可以包括以下步骤：

步骤201，获取目标设备的待输出答复，并对待输出答复进行分词处理，得到待输出答复的分词结果。

其中，目标设备用于根据用户输入的查询问题，以及跟用户之前的沟通内容，向用户输出该查询问题对应的答复。进一步的，待输出答复指的是目标用户还未向用户输出的查询问题对应的答复。

需要说明的是，当需要对待输出答复进行分词处理时，可先判断待输出答复对应的文字类型，根据待输出答复对应文字类型的不同，选取不同的分词方法，从而实现对不同文字类型的待输出答复进行分词处理。

其中，文字类型可以包括但不限于：英文、中文等。

作为一种实现方式，由于英文语句中各字符之间均存在自然分界符(英文语句的自然分界符多为空格)，当确定待输出答复的文字类型为英文时，可识别待输出答复各字符之间的自然分界符，以各字符之间的自然分界符作为划分标准，对文字类型为英文的待输出答复进行分词处理，得到待输出答复的分词结果。

作为另一种实现方式，当确定待输出答复的文字类型为中文时，可选取中文对应的分词方法，进而根据中文对应的分词方法，对文字类型为中文的待输出答复进行分词处理，得到待输出答复的分词结果。其中，中文对应的分词方法可以包括但不限于：结巴分词、ZPar(一种分词方法)分词和Hanlp(Han Language Processing，汉语言处理)分词等。

步骤202，通过目标评分模型，确定分词结果对应的目标评分值，其中，目标评分模型是基于标注有奖励值的问答训练样本对初始评分模型进行训练得到；奖励值是通过目标奖励模型为问答训练样本标注的，且目标奖励模型是基于问答训练样本对初始奖励模型进行训练得到。

其中，分词结果对应的目标评分值为过目标评分模型输出的，用于体现待输出答复的准确性与合理性的指标；具体的，若分词结果对应的目标评分值较高，则表示待输出答复的准确性与合理性较高；若分词结果对应的目标评分值较低，则表示待输出答复的准确性与合理性较低。

需要说明的是，当需要确定分词结果对应的目标评分值时，可将用户输入的查询问题，以及目标设备输出的该查询问题对应的待输出答复分别机箱内分词处理，得到查询问题的分词结果和待输出答复的分词结果；对查询问题的分词结果和待输出答复的分词结果进行特征提取处理，得到查询问题的分词向量和待输出答复的分词向量；将查询问题的分词向量和待输出答复的分词向量输入至目标评分模型，得到目标评分模型输出的分词结果对应的目标评分值。

进一步说明，目标评分模型是基于目标奖励模型进行训练得到，具体的，目标评分模型的训练过程包括：获取问答训练样本，问答训练样本中包含样本问题和各样本问题对应的至少一个样本答复；对样本问题对应的至少一个样本答复进行合理性排序，得到样本问题，以及样本问题对应的排序后的样本答复；根据样本问题和样本问题对应的排序后的样本答复，对初始奖励模型进行训练，得到目标奖励模型；通过目标奖励模型，为问答训练样本标注奖励值，得到标注有奖励值的问答训练样本；基于标注有奖励值的问答训练样本，对初始评分模型进行强化学习训练，得到目标评分模型。

进一步的，得到标注有奖励值的问答训练样本的方法可如下所示：可通过初始评分模型，确定问答训练样本的预测评分值；并且，将问答训练样本和问答训练样本的预测评分值输入目标奖励模型，得到目标奖励模型预测的问答训练样本对应的奖励值；基于目标奖励模型预测的问答训练样本对应的奖励值，对问答训练样本进行标注，得到标注有奖励值的问答训练样本。

其中，目标奖励模型预测的问答训练样本对应的奖励值用于表示该问答训练样本的预测评分值的准确性，若目标奖励模型预测的问答训练样本对应的奖励值越高，则表示该问答训练样本的预测评分值的准确性越高；若目标奖励模型预测的问答训练样本对应的奖励值越低，则表示该问答训练样本的预测评分值的准确性越低。

步骤203，若目标评分值大于评分阈值，则输出待输出答复。

其中，评分阈值为工作人员预先设定的用于验证待输出答复的准确性与合理性是否合格的指标标准，进一步的，评分阈值的设定可根据工作人员的历史经验进行设定，在此不对评分阈值的设定方法进行限定。

作为一种实现方式，若目标评分值大于评分阈值，则表示目标设备的待输出答复的准确性与合理性合格；若目标评分值小于或者等于评分阈值，则表示目标设备的待输出答复的准确性与合理性不合格。

在本申请的一种实施例中，若目标评分值大于评分阈值，则表示目标设备的待输出答复的准确性与合理性合格，因此，可将待输出答复进行输出。

在本申请的另一种实施例中，若目标评分值小于或者等于评分阈值，则表示目标设备的待输出答复的准确性与合理性不合格则将不合格的待输出答复反馈给目标设备，以使目标设备根据不合格的待输出答复进行学习，输出合格的待输出答复。

本申请的答复输出方法，通过目标评分模型，确定待输出答复的分词结果对应的目标评分值，并且，根据目标评分值与评分阈值，输出待输出答复，由于目标评分值是目标评分模型输出的用于判断待输出答复合理性的指标，因此，可根据目标评分值与评分阈值的大小关系，确定待输出答复是否合理性，进而，确定待输出答复的输出情况，实现了对于目标设备待输出答复合理性的判断，防止目标设备因受到某些用户的误导，而输出包含不恰当内容或者观点的答复。

由于人工智能可通过与用户进行对话，从而学习用户的沟通方法，因此，当某些用户通过设计对话对人工智能进行对话误导时，会造成人工智能输出一些不恰当或者不符合用户输入查询问题的输出答复，为防止上述问题导致人工智能的输出答复异常，本实施例的计算机设备可以通过如图3所示的方式，根据目标评分值与评分阈值，确定待输出答复的输出方式，具体包括如下步骤：

步骤301，若目标分配值小于或等于评分阈值，则将待输出答复和目标评分值反馈至目标设备，以使目标设备重新确定待输出答复。

需要说明的是，若目标评分值小于或者等于评分阈值，则表示目标设备的待输出答复的准确性与合理性不合格。因此，不合格的待输出答复不能进行输出操作，需要重新获取目标设备的待输出答复，可将不合格的待输出答复和该待输出答复的目标评分值反馈至目标设备，以使目标设备根据不合格的待输出答复和该待输出答复的目标评分值进行学习，从而输出合格的待输出答复。

步骤302，获取目标设备重新确定待输出答复，并返回执行对待输出答复进行分词处理的操作。

需要说明的是，目标设备根据不合格的待输出答复和该待输出答复的目标评分值进行学习后，可输出新的待输出答复，基于新的待输出答复返回执行对待输出答复进行分词处理的操作，得到新的待输出答复的分词结果；并通过目标评分模型，确定新的待输出答复分词结果的目标评分值；确定新的待输出答复分词结果的目标评分值是否大于评分阈值，若新的待输出答复分词结果的目标评分值大于评分阈值，则输出待输出答复；若新的待输出答复分词结果的目标评分值小于或者等于评分阈值，则将新的待输出答复和新的目标评分值反馈至目标设备，并重新执行获取目标设备的待输出答复的操作，直至目标评分值大于评分阈值为止。

本申请的答复输出方法，若目标分配值小于或等于评分阈值，将待输出答复和目标评分值反馈至目标设备，使得目标设备能够通过待输出答复和目标评分值进行学习，从而保证目标设备重新确定的待输出答复的目标评分值大于评分阈值，从而输出待输出答复。

在一个实施例中，为保证目标设备输出答复的目标评分值大于评分阈值，可基于标注有奖励值的问答训练样本对初始评分模型进行训练，进而根据训练后的目标评分模型确定待输出答复的目标评分值，本实施例的计算机设备可以通过如图4所示的方式，基于标注有奖励值的问答训练样本对初始评分模型进行训练，具体包括如下步骤：

步骤401，获取问答训练样本，问答训练样本中包含至少一个候选样本问题，以及各候选样本问题对应的至少一种样本答复。

需要说明的是，获取问答训练样本的方法有很多，例如，可根据目标设备与用户的历史对话记录，获取问答训练样本；或者，可通过爬虫程序从互联网上进行文本虎丘，从而获取问答训练样本；综上内容可知，获取问答训练样本的方法有很多，在此不对获取问答训练样本的方法进行赘述，下面将对上述两种获取问答训练样本的方法进行详细描述：

作为一种实现方式，当需要获取问答训练样本时，可获取目标设备与用户的历史对话记录，将目标设备与用户的历史对话记录进行分词处理，得到历史对话记录的分词结果；对历史对话记录的分词结果进行去停用词处理，得到处理后的分词结果；并对处理后的分词结果进行特征提取，得到分词向量集合，该分词向量集合即为问答训练样本。

其中，对历史对话记录的分词结果进行去停用词处理，具体包括：去除历史对话记录的分词结果中对理解整个句子的语义没有影响的词语；该词语(即为停用词)可以为：历史对话记录的分词结果中的虚词、代词、没有特定含义的动词和名词等。

其中，可通过注意力机制的transformer(参考模型)特征提取器，对处理后的分词结果进行特征提取，从而得到分词向量集合。

作为另一种实现方式，当需要获取问答训练样本时，可通过爬虫程序从互联网上获取未经过处理的原始文本；对原始文本中的特殊字符和标签进行删除，并对原始文本进行分词处理，得到原始文本的分词结果；对原始文本的分词结果进行去停用词处理，得到处理后的分词结果；并对处理后的分词结果进行特征提取，得到分词向量集合，该分词向量集合即为问答训练样本。

其中，对原始文本中的特殊字符和标签进行删除包括以下内容：若原始文本中包含HTML标签，则将原始文本中包含的HTML标签进行删除；若原始文本中包含非文本内容、特殊的非英文字符、标点符号，则将原始文本中的非文本内容、特殊的非英文字符、标点符号进行删除。

步骤402，从各候选样本问题中，确定对应有至少两个样本答复的目标样本问题，将目标样本问题对应的至少两个样本答复进行合理性排序，得到目标样本问题排序后的至少两个样本答复。

需要说明的是，若目标样本问题共对应有三个样本答复，三个样本答复分别为样本答复A、样本答复B和样本答复C，对三个样本答复进行合理性排序，得到排序结果为：样本答复B的合理性>样本答复A的合理性>样本答复C的合理性。因此，目标样本问题排序后的三个样本答复即为：样本答复B的合理性>样本答复A的合理性>样本答复C的合理性。

其中，当对目标样本问题对应的至少两个样本答复进行合理性排序时，可根据工作人员的历史经验，确定至少两个样本答复针对目标样本问题的合理性，从而得到目标样本问题排序后的至少两个样本答复。

步骤403，基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到目标奖励模型。

需要说明的是，当需要得到目标奖励模型时，具体可包括以下步骤：基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到中间奖励模型；通过初始评分模型，确定问答训练样本对应的预测评分值；将问答训练样本和问答训练样本对应的预测评分值输入至中间奖励模型，得到中间奖励模型预测的问答训练样本对应的奖励值；基于中间奖励模型预测的问答训练样本对应的奖励值，对中间奖励模型进行强化学习，得到目标奖励模型。

在本申请的一种实施例中，得到中间奖励模型的过程具体包括，将目标样本问题和目标样本问题的至少两个样本答复输入至初始奖励模型中，得到初始奖励模型输出的针对各个样本答复的初始奖励值，通过调整初始奖励模型的模型参数，使得初始奖励模型输出的针对各个样本答复的初始奖励值，符合目标样本问题排序后的至少两个样本答复的排序位置，从而完成模型训练，得到中间奖励模型。

举例说明，若目标样本问题对应有两个样本答复，两个样本答复分别为样本答复A和样本答复B，其中，样本答复A的合理性大于样本答复B的合理性；将目标样本问题和目标样本问题的两个样本答复输入至初始奖励模型中，得到初始奖励模型输出的针对样本答复A的初始奖励值和样本答复B的初始奖励值，通过调整初始奖励模型的模型参数，使得初始奖励模型输出的样本答复A的初始奖励值大于初始奖励模型输出的样本答复B的初始奖励值，从而完成模型训练，得到中间奖励模型。

在本申请的一种实施例中，确定问答训练样本对应的预测评分值的方法包括：将问答训练样本输入至初始评分模型，得到初始评分模型的输出结果，该输出结果即为问答训练样本对应的预测评分值。

进一步说明，对中间奖励模型进行强化学习时，可根据策略目标函数，对中间奖励模型进行参数调整，从而得到目标奖励模型。

其中，策略目标函数的计算公式(1)如下式所示：

其中，∈为预先设定的超参数，∈在此实施例中可设置为0.2，

为优势函数的估计值，/>

a_t和s_t为中间奖励模型不同时刻的状态。

步骤404，通过目标奖励模型，为问答训练样本标注奖励值，得到标注有奖励值的问答训练样本。

需要说明的是，当需要获取标注有奖励值的问答训练样本时，具体可包括以下内容：获取问答训练样本中各候选样本问题对应的专家答复；基于各候选样本问题和各候选样本问题对应的专家答复，对目标奖励模型进行参数调整，得到调整后的目标奖励模型；通过初始评分模型，确定问答训练样本的预测评分值；将问答训练样本和问答训练样本的预测评分值输入至调整后的目标奖励模型，得到目标奖励模型预测的问答训练样本对应的奖励值；基于目标奖励模型预测的问答训练样本对应的奖励值，对问答训练样本进行标注，得到标注有奖励值的问答训练样本。

进一步的，通过获取问答训练样本中各候选样本问题对应的专家答复，实现了在目标奖励模型预测奖励值的过程中加入人为影响，从而进一步提高了奖励模型预测奖励值的准确性，并且，可使得目标评分模型有针对性的应用于特殊场景。

举例说明，若目标设备应用于幼儿教育场景中，则在获取问答训练样本中各候选样本问题对应的专家答复时，应充分考虑幼儿教育领域的答复习惯，从而确定各候选样本问题对应的幼儿教育领域专家答复。进而使得后续训练得到的目标评分模型，在确定目标评分值时能够更加符合幼儿教育领域的答复习惯。

步骤405，基于标注有奖励值的问答训练样本，对初始评分模型进行训练，得到目标评分模型。

需要说明的是，在对初始评分模型进行训练之前，包括以下流程：对待输出答复的分词结果进行特征提取，确定分词结果对应的分词结果向量；将分词结果对应的分词结果向量输入至目标评分模型，得到目标评分模型预测的分词结果对应的目标评分值。

其中，可通过注意力机制的transformer特征提取器，对待输出答复的分词结果进行特征提取，从而得到分词结果对应的分词结果向量。

进一步说明，由于奖励值可用于体现问答训练样本经过初始评分模型预测得到的初始评分值的准确性，即为：问答训练样本标注的奖励值越高，表示该问答训练样本经过初始评分模型预测得到的初始评分值的准确性越高；同理，问答训练样本标注的奖励值越低，表示该问答训练样本经过初始评分模型预测得到的初始评分值的准确性越低；因此，在基于标注有奖励值的问答训练样本，对初始评分模型进行训练的过程中，可通过对初始评估模型进行参数调整，使得经过初始评分模型预测得到的初始评分值的准确性较低的问答训练样本能够得到更加准确的初始评分值，当初始评分模型经过参数调整后，预测得到的初始评分值准确性达到工作人员预先设定的准确性要求，则停止对初始评分模型的训练，得到目标评分模型。

本申请的答复输出方法，通过训练目标奖励模型，实现了后续能够对问答训练样本进行奖励值标注，保证了后续基于标注有奖励值的问答训练样本训练得到的目标评分模型能够更加准确的预测出待输出答复的目标评分值。

在一个实施例中，为保证顺利得到目标评分模型预测的分词结果对应的目标评分值，从而判断是否输出目标设备的待输出答复，本实施例的计算机设备可以通过如图5所示的方式，通过目标评分模型，确定分词结果对应的目标评分值，具体包括如下步骤：

步骤501，对待输出答复的分词结果进行特征提取，确定分词结果对应的分词结果向量。

需要说明的是，通过对待输出答复的分词结果进行特征提取，实现获取分词结果对应的分词结果向量，保证了后续能够通过目标评分模型更好的获取分词结果对应的目标评分值。

进一步的，可通过注意力机制的transformer特征提取器，对待输出答复的分词结果进行特征提取，从而得到分词结果对应的分词结果向量。

步骤502，将分词结果对应的分词结果向量输入至目标评分模型，得到目标评分模型预测的分词结果对应的目标评分值。

需要说明的是，通过将分词结果对应的分词结果向量输入至目标评分模型，实现根据目标评分模型预测分词结果对应的答复合理性，进而获取目标评分模型预测的分词结果对应的目标评分值。

本申请的答复输出方法，通过确定分词结果对应的分词结果向量，并将分词结果对应的分词结果向量输入至目标评分模型，实现了对于目标设备待输出答复合理性的判断，防止目标设备因受到某些用户的误导，而输出包含不恰当内容或者观点的答复。

在本申请的一种实施例中，如图6所示，图6为本申请实施例提供的另一种对初始评分模型进行训练的流程图，对初始评分模型进行训练时，具体可包括以下步骤：

步骤601，获取问答训练样本，问答训练样本中包含至少一个候选样本问题，以及各候选样本问题对应的至少一种样本答复。

步骤602，从各候选样本问题中，确定对应有至少两个样本答复的目标样本问题，将目标样本问题对应的至少两个样本答复进行合理性排序，得到目标样本问题排序后的至少两个样本答复。

步骤603，基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到中间奖励模型。

步骤604，通过初始评分模型，确定问答训练样本对应的预测评分值。

步骤605，将问答训练样本和问答训练样本对应的预测评分值输入至中间奖励模型，得到中间奖励模型预测的问答训练样本对应的奖励值。

步骤606，基于中间奖励模型预测的问答训练样本对应的奖励值，对中间奖励模型进行强化学习，得到目标奖励模型。

步骤607，获取问答训练样本中各候选样本问题对应的专家答复。

步骤608，基于各候选样本问题和各候选样本问题对应的专家答复，对目标奖励模型进行参数调整，得到调整后的目标奖励模型。

步骤609，通过初始评分模型，确定问答训练样本的预测评分值。

步骤610，将问答训练样本和问答训练样本的预测评分值输入至调整后的目标奖励模型，得到目标奖励模型预测的问答训练样本对应的奖励值。

步骤611，基于目标奖励模型预测的问答训练样本对应的奖励值，对问答训练样本进行标注，得到标注有奖励值的问答训练样本。

步骤612，基于问答训练样本，对预训练模型进行无监督训练，得到无监督训练后的预训练模型。

步骤613，对问答训练样本进行评分值标注，得到标注有评分值标签的问答训练样本。

步骤614，基于标注有评分值标签的问答训练样本，对无监督训练后的预训练评分模型进行监督训练，得到初始评分模型。

步骤615，基于标注有奖励值的问答训练样本，对初始评分模型进行训练，得到目标评分模型。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的答复输出方法的答复输出装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个答复输出装置实施例中的具体限定可以参见上文中对于答复输出方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种答复输出装置，包括：第一获取模块10、第一确定模块20和输出模块30，其中：

第一获取模块10，用于获取目标设备的待输出答复，并对待输出答复进行分词处理，得到待输出答复的分词结果。

第一确定模块20，用于通过目标评分模型，确定分词结果对应的目标评分值，其中，目标评分模型是基于标注有奖励值的问答训练样本对初始评分模型进行训练得到；奖励值是通过目标奖励模型为问答训练样本标注的，且目标奖励模型是基于问答训练样本对初始奖励模型进行训练得到。

输出模块30，用于若目标评分值大于评分阈值，则输出待输出答复。

本申请的答复输出装置，通过目标评分模型，确定待输出答复的分词结果对应的目标评分值，并且，根据目标评分值与评分阈值，输出待输出答复，由于目标评分值是目标评分模型输出的用于判断待输出答复合理性的指标，因此，可根据目标评分值与评分阈值的大小关系，确定待输出答复是否合理性，进而，确定待输出答复的输出情况，实现了对于目标设备待输出答复合理性的判断，防止目标设备因受到某些用户的误导，而输出包含不恰当内容或者观点的答复。

在一个实施例中，如图8所示，提供了一种答复输出装置，还包括：反馈模块40和执行模块50，其中：

反馈模块40，用于若目标分配值小于或等于评分阈值，则将待输出答复和目标评分值反馈至目标设备，以使目标设备重新确定待输出答复。

执行模块50，用于获取目标设备重新确定待输出答复，并返回执行对待输出答复进行分词处理的操作。

在一个实施例中，如图9所示，提供了一种答复输出装置，还包括：第二获取模块60、第二确定模块70、第一训练模块80、第一标注模块90和第二训练模块100，其中：

第二获取模块60，用于获取问答训练样本，问答训练样本中包含至少一个候选样本问题，以及各候选样本问题对应的至少一种样本答复。

第二确定模块70，用于从各候选样本问题中，确定对应有至少两个样本答复的目标样本问题，将目标样本问题对应的至少两个样本答复进行合理性排序，得到目标样本问题排序后的至少两个样本答复。

第一训练模块80，用于基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到目标奖励模型。

第一标注模块90，用于通过目标奖励模型，为问答训练样本标注奖励值，得到标注有奖励值的问答训练样本。

第二训练模块100，用于基于标注有奖励值的问答训练样本，对初始评分模型进行训练，得到目标评分模型。

在一个实施例中，如图10所示，提供了一种答复输出装置，该答复输出装置中第一标注模块90包括：获取单元91、调整单元92、第一确定单元93、第一输入单元94和标注单元95，其中：

获取单元91，用于获取问答训练样本中各候选样本问题对应的专家答复。

调整单元92，用于基于各候选样本问题和各候选样本问题对应的专家答复，对目标奖励模型进行参数调整，得到调整后的目标奖励模型。

第一确定单元93，用于通过初始评分模型，确定问答训练样本的预测评分值。

第一输入单元94，用于将问答训练样本和问答训练样本的预测评分值输入至调整后的目标奖励模型，得到目标奖励模型预测的问答训练样本对应的奖励值。

标注单元95，用于基于目标奖励模型预测的问答训练样本对应的奖励值，对问答训练样本进行标注，得到标注有奖励值的问答训练样本。

在一个实施例中，如图11所示，提供了一种答复输出装置，该答复输出装置中第一训练模块80包括：训练单元81、第二确定单元82、第二输入单元83和学习单元84，其中：

训练单元81，用于基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到中间奖励模型。

第二确定单元82，用于通过初始评分模型，确定问答训练样本对应的预测评分值。

第二输入单元83，用于将问答训练样本和问答训练样本对应的预测评分值输入至中间奖励模型，得到中间奖励模型预测的问答训练样本对应的奖励值。

学习单元84，用于基于中间奖励模型预测的问答训练样本对应的奖励值，对中间奖励模型进行强化学习，得到目标奖励模型。

在一个实施例中，如图12所示，提供了一种答复输出装置，该答复输出装置中还包括：第三训练模块110、第二标注模块120和第四训练模块130，其中：

第三训练模块110，用于基于问答训练样本，对预训练模型进行无监督训练，得到无监督训练后的预训练模型。

第二标注模块120，用于对问答训练样本进行评分值标注，得到标注有评分值标签的问答训练样本。

第四训练模块130，用于基于标注有评分值标签的问答训练样本，对无监督训练后的预训练评分模型进行监督训练，得到初始评分模型。

在一个实施例中，如图13所示，提供了一种答复输出装置，该答复输出装置中第一确定模块20包括：提取单元21和第三输入单元22，其中：

21，用于对待输出答复的分词结果进行特征提取，确定分词结果对应的分词结果向量。

第三输入单元22，用于将分词结果对应的分词结果向量输入至目标评分模型，得到目标评分模型预测的分词结果对应的目标评分值。

上述答复输出装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种答复输出方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

若目标评分值大于评分阈值，则输出待输出答复。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取问答训练样本中各候选样本问题对应的专家答复；

通过初始评分模型，确定问答训练样本的预测评分值；

通过初始评分模型，确定问答训练样本对应的预测评分值；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

若目标评分值大于评分阈值，则输出待输出答复。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取问答训练样本中各候选样本问题对应的专家答复；

通过初始评分模型，确定问答训练样本的预测评分值；

通过初始评分模型，确定问答训练样本对应的预测评分值；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

若目标评分值大于评分阈值，则输出待输出答复。

获取问答训练样本中各候选样本问题对应的专家答复；

通过初始评分模型，确定问答训练样本的预测评分值；

通过初始评分模型，确定问答训练样本对应的预测评分值；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种答复输出方法，其特征在于，所述方法包括：

获取目标设备的待输出答复，并对所述待输出答复进行分词处理，得到待输出答复的分词结果；

通过目标评分模型，确定所述分词结果对应的目标评分值，其中，所述目标评分模型是基于标注有奖励值的问答训练样本对初始评分模型进行训练得到；所述奖励值是通过目标奖励模型为问答训练样本标注的，且所述目标奖励模型是基于问答训练样本对初始奖励模型进行训练得到；

若所述目标评分值大于评分阈值，则输出所述待输出答复。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述目标分配值小于或等于评分阈值，则将所述待输出答复和所述目标评分值反馈至所述目标设备，以使所述目标设备重新确定待输出答复；

获取目标设备重新确定待输出答复，并返回执行对所述待输出答复进行分词处理的操作。

3.根据权利要求1所述的方法，其特征在于，所述基于标注有奖励值的问答训练样本对初始评分模型进行训练，包括：

获取问答训练样本，所述问答训练样本中包含至少一个候选样本问题，以及各候选样本问题对应的至少一种样本答复；

从所述各候选样本问题中，确定对应有至少两个样本答复的目标样本问题，将目标样本问题对应的至少两个样本答复进行合理性排序，得到目标样本问题排序后的至少两个样本答复；

通过所述目标奖励模型，为所述问答训练样本标注奖励值，得到标注有奖励值的问答训练样本；

基于标注有奖励值的问答训练样本，对所述初始评分模型进行训练，得到所述目标评分模型。

4.根据权利要求3所述的方法，其特征在于，所述通过所述目标奖励模型，为所述问答训练样本标注奖励值，得到标注有奖励值的问答训练样本，包括：

获取问答训练样本中各候选样本问题对应的专家答复；

基于各候选样本问题和各候选样本问题对应的专家答复，对所述目标奖励模型进行参数调整，得到调整后的目标奖励模型；

通过初始评分模型，确定问答训练样本的预测评分值；

5.根据权利要求3所述的方法，其特征在于，所述基于目标样本问题排序后的至少两个样本答复，对初始奖励模型进行训练，得到目标奖励模型，包括：

通过所述初始评分模型，确定问答训练样本对应的预测评分值；

将问答训练样本和问答训练样本对应的预测评分值输入至所述中间奖励模型，得到所述中间奖励模型预测的问答训练样本对应的奖励值；

基于所述中间奖励模型预测的问答训练样本对应的奖励值，对所述中间奖励模型进行强化学习，得到目标奖励模型。

6.根据权利要求3所述的方法，其特征在于，所述基于标注有奖励值的问答训练样本，对所述初始评分模型进行训练之前，还包括：

基于所述问答训练样本，对预训练模型进行无监督训练，得到无监督训练后的预训练模型；

对所述问答训练样本进行评分值标注，得到标注有评分值标签的问答训练样本；

7.根据权利要求1所述的方法，其特征在于，所述通过目标评分模型，确定所述分词结果对应的目标评分值，包括：

将分词结果对应的分词结果向量输入至所述目标评分模型，得到所述目标评分模型预测的所述分词结果对应的目标评分值。

8.一种答复输出装置，其特征在于，所述装置包括：

获取模型，用于获取目标设备的待输出答复，并对所述待输出答复进行分词处理，得到待输出答复的分词结果；

确定模型，用于通过目标评分模型，确定所述分词结果对应的目标评分值，其中，所述目标评分模型是基于标注有奖励值的问答训练样本对初始评分模型进行训练得到；所述奖励值是通过目标奖励模型为问答训练样本标注的，且所述目标奖励模型是基于问答训练样本对初始奖励模型进行训练得到；

输出模型，用于若所述目标评分值大于评分阈值，则输出所述待输出答复。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。