CN116028615B

CN116028615B - 基于知识引导的回复生成方法、装置和电子设备

Info

Publication number: CN116028615B
Application number: CN202310324437.XA
Authority: CN
Inventors: 刘剑锋; 李东明; 王宝元
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-30
Anticipated expiration: 2043-03-30
Also published as: CN116028615A

Abstract

本发明提供一种基于知识引导的回复生成方法、装置和电子设备，在回复生成模型训练阶段进行无监督训练，省去了现有技术中对于给定的回复样本的标注成本。通过知识先验的第一奖励分数和回复先验的第二奖励分数，对待优化回复生成模型进行强化学习训练，实现将基于知识选择的回复生成转化为基于知识引导的回复生成，在应用阶段对于同一个上下文信息可以用不同的知识信息作为输入，根据不同的知识信息生成不同的回复信息，而不需要根据每一领域的知识进行单独建模，使得回复生成模型具有较强的领域迁移能力进行跨领域回复生成，并且由于在训练阶段引入了知识先验，提高了应用阶段知识和生成的回复之间具有较高的关联度。

Description

基于知识引导的回复生成方法、装置和电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于知识引导的回复生成方法、装置和电子设备。

背景技术

目前基于深度学习的对话系统、评论系统已经可以生成较为流利、合理的回复，但是要想让聊天、评论机器人更加智能更人性化，仅仅依靠上下文（例如对话历史和微博博文等）信息是是远远不够。机器人在进行对话，评论回复过程中往往需要更多的背景知识才能够更加深入的融入到整个对话或评论中，背景知识的融入让机器人的回复更有具知识性、趣味性和可用性，从而吸引用户更多的与机器人展开更深入的互动交流。如何在回复生成的过程中融入知识就成为了对话、评论生成的一个热门的研究点。

目前常见的几类知识类型：知识库、知识图谱和文本信息。知识库和知识图谱可以归为结构化和半结构化的数据；取之相比，互联网上存在的大量非结构化的文本数据同样可以作为知识融入到对话生成系统当中，并且因为其灵活的使用方式更容易应用到深度学习的框架。

但是要训练得到一个鲁棒性较好的可以基于上下文和知识生成回复的系统也存在一些困难。理想情况下我们存在一个由“上下文-知识-回复”三元组构成的训练数据集。从而可以有监督的训练一个基于上下文和知识的回复生成系统。但是有监督训练存在以下问题：a) 构造“上下文-知识-回复”这样的三元组数据需要很高的标注成本从而很难扩大数据规模，这也不符合大规模自监督预训练的主流范式。b) 由这样的监督数据训练的系统存在领域迁移困难的问题，遇到非训练数据领域的测试数据，表现很差。

另一方面，现有技术中存在一种零样本方法，其训练数据一般是伪三元组数据。一般来说网上存在大量的上下文-回复这样的成对数据（微博-微博评论，对话历史-对话回复）。在训练数据构造时，往往是根据上下文和回复去知识库或者互联网上检索回对应的知识，实现知识选择。然而，一个关键的挑战是给定上下文和回复，他们相应的“知识”一定要和上下文和回复都匹配，实际情况往往是搜到的知识和回复相关度很低，因为一方面很难从广阔的知识空间中检索到回复者真正用到的知识，尤其是从互联网搜索结果中检索时，另一方面很多回复其实本身并不包含知识。所以这种构造的伪三元组非常不可靠，存在很多噪音。强制模型学习回复与此类伪知识关联关系是不可行的，这会导致模型可能根本学不会如何利用真正的知识。

发明内容

本发明提供一种基于知识引导的回复生成方法、装置和电子设备，用以解决现有技术中基于有监督训练存在的标注成本高和领域迁移能力差，以及基于伪三元组进行知识选择训练方式存在的难以建立回复和知识之间关联导致难以利用知识的缺陷，实现标注成本低、迁移能力强，以及知识和回复关联强的回复生成方法。

本发明提供一种基于知识引导的回复生成方法，包括：

获取上下文信息；

根据所述上下文信息搜索知识信息；

将所述上下文信息和所述知识信息输入回复生成模型，生成回复信息；

其中，所述回复生成模型为根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练得到；

所述第一奖励分数为所述知识注入奖励模型根据知识样本和回复样本进行知识先验得到；

所述第二奖励分数为所述上下文回复一致性奖励模型根据上下文样本和所述回复样本进行回复先验得到；

所述知识样本为根据所述上下文样本进行搜索得到，所述回复样本为所述待优化回复生成模型根据所述上下文样本和所述知识样本生成。

根据本发明提供的一种基于知识引导的回复生成方法，所述根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练之前，还包括：

获取上下文样本；

根据所述上下文样本搜索知识样本；

将所述上下文样本和所述知识样本输入所述待优化回复生成模型，得到回复样本；

将所述知识样本和所述回复样本输入所述知识注入奖励模型进行知识先验，输出所述第一奖励分数；

将所述上下文样本和所述回复样本输入所述上下文回复一致性奖励模型进行回复先验，输出所述第二奖励分数。

根据本发明提供的一种基于知识引导的回复生成方法，所述将所述知识样本和所述回复样本输入所述知识注入奖励模型进行知识先验，输出所述第一奖励分数，包括：

根据所述知识样本和所述回复样本计算双语评估候补分数；

根据所述双语评估候补分数和预设的知识注入奖励最高阈值确定所述第一奖励分数，并输出所述第一奖励分数。

根据本发明提供的一种基于知识引导的回复生成方法，所述知识注入奖励模型包括预设语言模型；

所述将所述知识样本和所述回复样本输入所述知识注入奖励模型进行知识先验，输出所述第一奖励分数，包括：

将所述知识样本输入所述预设语言模型进行编码，得到知识样本向量；

将所述回复样本输入所述预设语言模型进行编码，得到回复样本向量；

根据所述知识样本向量和所述回复样本向量计算向量相似度，将所述向量相似度确定为所述第一奖励分数，并输出所述第一奖励分数。

根据本发明提供的一种基于知识引导的回复生成方法，将所述上下文样本和所述回复样本输入所述上下文回复一致性奖励模型进行回复先验，输出所述第二奖励分数，包括：

根据所述上下文样本和所述回复样本计算上下文回复先验概率；

根据预设的长度鼓励机制和所述回复样本的长度确定长度分数；

根据所述上下文回复先验概率和所述长度分数，确定所述第二奖励分数。

根据本发明提供的一种基于知识引导的回复生成方法，所述上下文回复一致性奖励模型通过如下方式训练得到：

获取上下文回复数据对，所述上下文回复数据对中包括与上下文样本以及对应的回复样本；

将所述上下文回复数据对输入待优化的上下文回复一致性奖励模型，计算负对数似然损失和非似然损失；

根据所述负对数似然损失和所述非似然损失确定目标损失；

根据所述目标损失对所述上下文回复一致性奖励模型进行优化，得到所述上下文回复一致性奖励模型。

根据本发明提供的一种基于知识引导的回复生成方法，根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练，包括：

确定基于所述上下文样本、所述知识样本和所述待优化回复生成模型的参数得到的回复样本的回复概率；

根据所述回复概率、所述第一奖励分数和所述第二奖励分数，确定综合损失；

根据所述综合损失反向优化所述待优化回复生成模型的参数；

在所述综合损失满足预设条件的情况下，将所述待优化回复生成模型确定为所述回复生成模型。

本发明还提供一种基于知识引导的回复生成装置，包括：

获取单元，用于获取上下文信息；

搜索单元，用于根据所述上下文信息搜索知识信息；

生成单元，用于将所述上下文信息和所述知识信息输入回复生成模型，生成回复信息；

所述知识样本为根据所述上下文样本进行广域搜索得到，所述回复样本为所述待优化回复生成模型根据所述上下文样本和所述知识样本生成。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于知识引导的回复生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于知识引导的回复生成方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于知识引导的回复生成方法的步骤。

本发明提供的基于知识引导的回复生成方法、装置和电子设备，在对待优化回复生成模型进行强化学习训练的过程中只有上下文样本是给定的，知识样本是基于上下文样本进行搜索得到，回复样本是基于上下文样本和知识样本生成的，实现了无监督训练，省去了现有技术中对于给定的回复样本的标注成本。通过知识先验的第一奖励分数和回复先验的第二奖励分数，对待优化回复生成模型进行强化学习训练，实现将基于知识选择的回复生成转化为基于知识引导的回复生成，对于同一个上下文可以用不同的知识作为输入，根据不同的知识生成不同的回复，而不需要根据每一领域的知识进行单独建模，使得回复生成模型具有较强的领域迁移能力进行跨领域回复生成，并且由于在训练阶段引入了知识先验，提高了应用阶段知识和生成的回复之间具有较高的关联度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于知识引导的回复生成模型训练的原理示意图；

图2是本发明提供的基于知识引导的回复生成方法的流程示意图；

图3是本发明提供的知识注入奖励模型的原理示意图；

图4是本发明提供的上下文回复一致性奖励模型的原理示意图；

图5是本发明提供的基于知识引导的回复生成装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为方便理解，现对本发明的思想进行梳理，本发明的关键思想是：对于给定的上下文（C）和知识（K）及其回复（R），基于上下文和知识得到的回复的条件概率分布，即p（R | C，K），可以通过其下限来近似。它只包含两个先验，回复先验p(R|C)和知识先验p(R|K)，这样就不需要构造三元组来训练模型。

更具体地，如图1所示，图1为本发明提供的基于知识引导的回复生成模型训练的原理示意图。

给定上下文（C），可以使用搜索引擎在没有明确推断或优化的情况下对知识（K）进行采样，基于上下文（C）和知识（K）输入回复生成模型，得到生成的回复（R）。

通过将两个先验模型（即与知识先验对应的知识注入奖励模型，以及与回复先验对应的上下文回复一致性奖励模型）共同作为评分模型提供奖励分数。将知识（K）和生成的回复（R）输入知识注入奖励模型进行知识先验，得到第一奖励分数。将上下文（C）和生成的回复（R）输入上下文回复一致性奖励模型进行回复先验，得到第二奖励分数。使用强化学习的方法根据第一奖励分数和第二奖励分数引导优化回复生成模型，打破了传统的基于知识选择逻辑生成回复的束缚，实现基于知识引导逻辑生成回复。

本发明提供一种基于知识引导的回复生成方法，如图2所示，包括：

S21、获取上下文信息；

S22、根据所述上下文信息搜索知识信息；

S23、将所述上下文信息和所述知识信息输入回复生成模型，生成回复信息；

需要说明的，本发明中的上下文信息和上下文样本可以包括但不限于文本形式、图片形式以及文本图片结合的形式。

待优化回复生成模型可以根据实际需要进行设定，优选地可以采用T5、Bart、GPT等经过通用数据进行预训练的语言模型。

本发明实施例中，在对待优化回复生成模型进行强化学习训练的过程中只有上下文样本是给定的，知识样本是基于上下文样本进行搜索得到，回复样本是基于上下文样本和知识样本生成的，实现了无监督训练，省去了现有技术中对于给定的回复样本的标注成本。通过知识先验的第一奖励分数和回复先验的第二奖励分数，对待优化回复生成模型进行强化学习训练，实现将基于知识选择的回复生成转化为基于知识引导的回复生成，对于同一个上下文可以用不同的知识作为输入，根据不同的知识生成不同的回复，而不需要根据每一领域的知识进行单独建模，使得回复生成模型具有较强的领域迁移能力进行跨领域回复生成，并且由于在训练阶段引入了知识先验，提高了应用阶段知识和生成的回复之间具有较高的关联度。

S31、获取上下文样本；

S32、根据所述上下文样本搜索知识样本；

S33、将所述上下文样本和所述知识样本输入所述待优化回复生成模型，得到回复样本；

S34、将所述知识样本和所述回复样本输入所述知识注入奖励模型进行知识先验，输出所述第一奖励分数；

S35、将所述上下文样本和所述回复样本输入所述上下文回复一致性奖励模型进行回复先验，输出所述第二奖励分数。

具体地，在训练回复生成模型时，可以获取给定的上下文样本，根据上下文样本在广域互联网或者知识库中搜索知识样本，将上下文样本和知识样本输入待优化回复生成模型，生成回复样本。

如图3所示，将知识样本和回复样本输入知识注入奖励模型，得到第一奖励分数。通过知识注入奖励模型，将生成回复过程中注入了多少知识，以及回复和知识之间的关联程度的抽象概念，量化为第一奖励分数。

如图4所示，将上下文样本和回复样本输入上下文回复一致性奖励模型，得到第二奖励分数。通过上下文回复一致性奖励模型，将回复和知识之间的逻辑的合理性的抽象概念，量化为第二奖励分数。

本发明实施例中，由于知识样本是根据上下文样本进行搜索得到，在领域迁移情况下训练好的回复生成模型仍可以提供较为准确地回复。回复样本是根据上下文样本和知识样本生成得到，不是预先给定的，实现了无监督训练，减少了标注成本。通过第一奖励分数引导待优化模型生成与知识具有关联性强的回复，通过第二奖励分数引导待优化模型生成与上下文符合逻辑的回复，优化后得到的回复生成模型可以生成与知识关联性强、与上下文合乎逻辑的回复，提升用户体验。

根据本发明提供的一种基于知识引导的回复生成方法，步骤S34包括：

S341、根据所述知识样本和所述回复样本计算双语评估候补分数；

S342、根据所述双语评估候补分数和预设的知识注入奖励最高阈值确定所述第一奖励分数，并输出所述第一奖励分数。

具体地，知识注入奖励模型的奖励分数机制可以采用非参数化的BLUE-n（Bilingual Evaluation Understudy，双语评估候补）分数，判断生成的回复与知识在n-gram级别有多少重叠，重叠越大说明生成的回复注入的知识越多。

然而BLEU分数不能过大，过大说明几乎是复制知识作为回复，可以设定第一奖励分数的定义为下方公式1：

（1）

其中，

表示知识注入奖励模型基于知识样本和回复样本得到的第一奖励分数，/>

表示基于知识样本和回复样本的在n-gram级别的双语评估候补分数，/>

为预设的知识注入奖励最高阈值，/>

为预设的第一奖励分数权重系数。

知识注入奖励的最高阈值和第一奖励分数权重系数可以根据实际需要进行设定。

本发明实施例中，通过计算知识样本和回复样本的双语评估候补分数，将生成回复样本时从知识样本中获取知识的程度以及知识样本和回复样本的关联程度量化。为防止生成的回复样本是对知识样本的大程度复制，采用知识注入奖励最高阈值限制在大程度复制时的第一奖励分数。使得第一奖励分数在后续引导待优化回复生成模型优化时，提高回复和知识的关联性的同时降低对知识的直接复制照搬，生成更加适用的回复。

根据本发明提供的一种基于知识引导的回复生成方法，知识注入奖励模型包括预设语言模型；步骤S34包括：

S343、将所述知识样本输入所述预设语言模型进行编码，得到知识样本向量；

S344、将所述回复样本输入所述预设语言模型进行编码，得到回复样本向量；

S345、根据所述知识样本向量和所述回复样本向量计算向量相似度，将所述向量相似度确定为所述第一奖励分数，并输出所述第一奖励分数。

具体地，预设语言模型可以根据实际需要进行设定，优选地可以采用sentence-bert模型对知识样本进行编码得到知识样本向量，对回复样本进行编码得到回复样本向量。根据知识样本向量和回复样本向量计算向量相似度，通过向量相似度表示知识样本和回复样本的相似程度，相似程度越高表示生成的回复样本越贴近搜索到的知识样本，回复和知识的关联程度越高，可以直接将向量相似度作为第一奖励分数。

本发明实施例中，通过将知识样本和回复样本进行编码得到向量表现形式，通过计算知识样本向量和回复样本向量的向量相似度，表示回复样本和知识样本的关联程度，并将向量相似度作为第一奖励分数。使得第一奖励分数在后续引导待优化回复生成模型优化时，提高回复和知识的关联性，生成更加符合相关知识的回复。

根据本发明提供的一种基于知识引导的回复生成方法，步骤S35包括：

S351、根据所述上下文样本和所述回复样本计算上下文回复先验概率；

S352、根据预设的长度鼓励机制和所述回复样本的长度确定长度分数；

S353、根据所述上下文回复先验概率和所述长度分数，确定所述第二奖励分数。

具体地，上下文回复一致性奖励模型可以根据上下文样本和上下文回复一致性奖励模型的参数，计算得到回复样本的概率，即上下文回复先验

，其中，R表示回复样本，C表示上下文样本，/>

表示上下文回复一致性奖励模型的参数。

考虑到语音模型通常更倾向理解和生成较短的句子而不是较长的句子，可以进一步设定长度鼓励机制，根据回复样本确定回复样本的长度，对回复样本的长度进行打分，长度较长的回复样本将会有较高的长度得分，长度鼓励机制的定义见下方公式2：

（2）

其中，

表示回复样本对应的长度分数，/>

表示回复样本的长度，/>

为预设的长度得分最高阈值。长度得分最高阈值可以根据实际需要进行设定

进一步的，可以设定第二奖励分数的定义为下方公式3：

（3）

其中，

表示上下文回复一致性奖励模型基于上下文样本和回复样本得到的第二奖励分数，其中，/>

为上下文回复先验概率，/>

为长度分数。

本发明实施例中，通过上下文回复先验概率和长度分数两部分确定第二奖励分数，使得第二奖励分数在后续引导待优化回复生成模型优化时，提高上下文和回复之间的逻辑合理性的同时增加回复的长度，得到更符合逻辑、具有更多内容的回复，提升用户体验。

S41、获取上下文回复数据对，所述上下文回复数据对中包括与上下文样本以及对应的回复样本；

S42、将所述上下文回复数据对输入待优化的上下文回复一致性奖励模型，计算负对数似然损失和非似然损失；

S43、根据所述负对数似然损失和所述非似然损失确定目标损失；

S44、根据所述目标损失对所述待优化的上下文回复一致性奖励模型进行优化，得到所述上下文回复一致性奖励模型。

具体地，根据可以根据上下文样本及其对应的生成的回复样本，形成上下文回复数据对。将上下文回复数据对输入待优化的上下文回复一致性奖励模型，计算NLL损失（Negative log-likelihood，负对数似然损失）和Unlikelihood损失（非似然损失）。通过负对数似然损失对待优化的上下文回复一致性奖励模型进行优化，从而预测匹配得到更高相关性的回复。通过非似然损失对待优化的上下文回复一致性奖励模型进行优化，从而降低生成负面回复的概率。待优化的上下文回复一致性奖励模型可以根据实际需要进行设定，优选地可以采用T5、Bart、GPT等经过预训练的语言模型。

可以通过如下公式4，根据NLL损失优化和Unlikelihood损失确定目标损失：

（4）

其中，

表示负对数似然损失，/>

表示非似然损失，/>

表示数学期望，/>

表示回复样本，/>

表示上下文样本，/>

表示上下文回复一致性奖励模型的参数。

本发明实施例中，通过将上下文回复数据对输入待优化的上下文回复一致性奖励模型，计算负对数似然损失和非似然损失，根据负对数似然损失和非似然损失确定目标损失从而对待优化的上下文回复一致性奖励模型进行优化，得到的上下文回复一致性奖励模型能够预测匹配得到更高相关性的回复，降低生成负面回复的概率。

S51、确定基于所述上下文样本、所述知识样本和所述待优化回复生成模型的参数得到的回复样本的回复概率；

S52、根据所述回复概率、所述第一奖励分数和所述第二奖励分数，确定综合损失；

S53、根据所述综合损失反向优化所述待优化回复生成模型的参数；

S54、在所述综合损失满足预设条件的情况下，将所述待优化回复生成模型确定为所述回复生成模型。

具体地，理想优化目标为公式5：

（5）

其中，

表示待优化回复生成模型的参数，/>

表示数学期望，/>

表示基于上下文样本、知识样本和待优化回复生成模型的参数得到的回复样本的回复概率，/>

表示上下文回复一致性奖励模型基于上下文样本和回复样本得到的第二奖励分数，

表示知识注入奖励模型基于知识样本和回复样本得到的第一奖励分数。

然而，上述公式5的理想优化目标在训练优化过程中固有的不可微分性从而难以优化，因此采用强化学习对

进行优化。

根据回复概率

、第二奖励分数/>

和第一奖励分数/>

，采用soft q-learning强化学习方法，计算可微分的综合损失。通过综合损失反向传播优化所述待优化回复生成模型的参数/>

，从而实现对/>

的优化。预设条件可以根据实际需要进行设定，例如综合损失达到预设阈值，或者对待优化回复生成模型的参数执行预设数量轮次的优化等。

本发明实施例中，通过回复概率、第一奖励分数和第二奖励分数，确定综合损失，根据综合损失对待优化回复生成模型的参数进行优化，得到训练好的回复生成模型，可以生成与知识关联性强、与上下文合乎逻辑的回复。

下面对本发明提供的基于知识引导的回复生成装置进行描述，下文描述的基于知识引导的回复生成装置与上文描述的基于知识引导的回复生成方法可相互对应参照。

本发明还提供一种基于知识引导的回复生成装置，如图5所示，包括：

获取单元51，用于获取上下文信息；

搜索单元52，用于根据所述上下文信息搜索知识信息；

生成单元53，用于将所述上下文信息和所述知识信息输入回复生成模型，生成回复信息；

根据本发明提供一种基于知识引导的回复生成装置，所述装置还包括训练单元，用于：

获取上下文样本；

根据所述上下文样本搜索知识样本；

根据本发明提供一种基于知识引导的回复生成装置，所述训练单元，具体用于：

根据所述知识样本和所述回复样本计算双语评估候补分数；

根据本发明提供一种基于知识引导的回复生成装置，所述知识注入奖励模型包括预设语言模型；

所述训练单元，具体用于：

根据本发明提供一种基于知识引导的回复生成装置，所述训练单元，还用于：

根据所述负对数似然损失和所述非似然损失确定目标损失；

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于知识引导的回复生成方法，该方法包括：获取上下文信息；根据所述上下文信息搜索知识信息；将所述上下文信息和所述知识信息输入回复生成模型，生成回复信息；其中，所述回复生成模型为根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练得到；所述第一奖励分数为所述知识注入奖励模型根据知识样本和回复样本进行知识先验得到；所述第二奖励分数为所述上下文回复一致性奖励模型根据上下文样本和所述回复样本进行回复先验得到；所述知识样本为根据所述上下文样本进行搜索得到，所述回复样本为所述待优化回复生成模型根据所述上下文样本和所述知识样本生成。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于知识引导的回复生成方法，该方法包括：获取上下文信息；根据所述上下文信息搜索知识信息；将所述上下文信息和所述知识信息输入回复生成模型，生成回复信息；其中，所述回复生成模型为根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练得到；所述第一奖励分数为所述知识注入奖励模型根据知识样本和回复样本进行知识先验得到；所述第二奖励分数为所述上下文回复一致性奖励模型根据上下文样本和所述回复样本进行回复先验得到；所述知识样本为根据所述上下文样本进行搜索得到，所述回复样本为所述待优化回复生成模型根据所述上下文样本和所述知识样本生成。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于知识引导的回复生成方法，该方法包括：获取上下文信息；根据所述上下文信息搜索知识信息；将所述上下文信息和所述知识信息输入回复生成模型，生成回复信息；其中，所述回复生成模型为根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练得到；所述第一奖励分数为所述知识注入奖励模型根据知识样本和回复样本进行知识先验得到；所述第二奖励分数为所述上下文回复一致性奖励模型根据上下文样本和所述回复样本进行回复先验得到；所述知识样本为根据所述上下文样本进行搜索得到，所述回复样本为所述待优化回复生成模型根据所述上下文样本和所述知识样本生成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识引导的回复生成方法，其特征在于，包括：

获取上下文信息；

根据所述上下文信息搜索知识信息；

2.根据权利要求1所述的基于知识引导的回复生成方法，其特征在于，所述根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练之前，还包括：

获取上下文样本；

根据所述上下文样本搜索知识样本；

3.根据权利要求2所述的基于知识引导的回复生成方法，其特征在于，所述将所述知识样本和所述回复样本输入所述知识注入奖励模型进行知识先验，输出所述第一奖励分数，包括：

根据所述知识样本和所述回复样本计算双语评估候补分数；

4.根据权利要求2所述的基于知识引导的回复生成方法，其特征在于，所述知识注入奖励模型包括预设语言模型；

5.根据权利要求2所述的基于知识引导的回复生成方法，其特征在于，将所述上下文样本和所述回复样本输入所述上下文回复一致性奖励模型进行回复先验，输出所述第二奖励分数，包括：

6.根据权利要求5所述的基于知识引导的回复生成方法，其特征在于，所述上下文回复一致性奖励模型通过如下方式训练得到：

根据所述负对数似然损失和所述非似然损失确定目标损失；

7.根据权利要求2所述的基于知识引导的回复生成方法，其特征在于，根据知识注入奖励模型的第一奖励分数和上下文回复一致性奖励模型的第二奖励分数，对待优化回复生成模型进行强化学习训练，包括：

8.一种基于知识引导的回复生成装置，其特征在于，包括：

获取单元，用于获取上下文信息；

搜索单元，用于根据所述上下文信息搜索知识信息；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于知识引导的回复生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于知识引导的回复生成方法的步骤。