CN114861665B

CN114861665B - 一种强化学习模型训练以及确定数据关系的方法及装置

Info

Publication number: CN114861665B
Application number: CN202210456091.4A
Authority: CN
Inventors: 陆轩韬; 王玥奕; 刘井平; 肖仰华; 王宗宇; 谢睿; 武威; 许慧敏
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2023-01-06
Anticipated expiration: 2042-04-27
Also published as: CN114861665A

Abstract

本说明书公开了一种强化学习模型训练以及确定数据关系的方法及装置，通过遮盖由知识图谱确定出的三元组中的实体得到各提示模板，将被遮盖的实体作为对应的标注答案。通过预训练语言模型，确定各提示模板的被遮盖的实体的各预测结果以及置信度，并确定各预测结果与该知识图谱中信息的相似度特征向量。然后基于置信度大小，根据各预测结果的相似度特征向量，通过待训练的强化学习模型，确定该提示模板的预测实体，并据该预测实体和标注答案确定奖励，以对该强化学习模型进行训练。通过知识图谱确定提示模板，避免了上下文语境对预训练语言模型预测准确度的影响，后续通过强化学习模型结合知识图谱对各预测结果进行筛选，确定更准确的预测实体。

Description

一种强化学习模型训练以及确定数据关系的方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种强化学习模型训练以及确定数据关系的方法及装置。

背景技术

目前，随着预训练语言模型的发展，对预训练语言模型的应用也在不断进步。在对预训练语言模型进行训练后，预训练语言模型会学习到一定程度的存在关联关系的知识。因此，可以对训练后的预训练语言模型进行挖掘，并在下游业务中对挖掘得到的知识进行应用。而如何从预训练语言模型中更准确的挖掘知识，是需要重点考虑的问题。

现有技术中，一般先根据语料库中主语、宾语以及两者之间的关系，按照预设的语句结构构造针对主语或宾语的提示模板，例如，X的出生地是“？”，其次将提示模板输入至预先训练的预训练语言模型中，再通过预训练语言模型对提示模板的答案进行生成或预测，以挖掘出预训练语言模型中包含的存在关联关系的知识。

但是，现有技术中大部分的提示模板都是人工构造的，且提示模板对上下文语境较为敏感，当构造的提示模板的上下文语境与预训练语言模型学到的知识的上下文语境不匹配时，难以得到较为准确的预测结果。

发明内容

本说明书实施例提供的一种强化学习模型训练方法及装置，用于至少部分的解决现有技术中存在的问题。

本说明书采用下述技术方案：

本说明书提供了一种强化学习模型训练方法，包括：

获取已构建的知识图谱，根据所述知识图谱，确定所述知识图谱的各三元组；

遮盖各三元组中一个实体，得到各提示模板，将各提示模板被遮盖的实体作为对应各提示模板的标注答案；

针对每个提示模板，将该提示模板输入到预训练语言模型，确定该提示模板中被遮盖的实体的各预测结果以及各预测结果的置信度；

根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量；

按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体；

根据所述预测实体以及该提示模板的标注答案，确定所述待训练强化学习模型的奖励，并以最大化奖励为优化目标，对所述待训练强化学习模型进行训练。

可选地，根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量，具体包括：

针对该提示模板的每个预测结果，根据该预测结果以及所述知识图谱中与该提示模板相关的三元组，分别确定所述相关的三元组中处于该提示模板被遮盖位置的实体，与该预测结果的编辑距离和最长公共子序列长度；

确定所述编辑距离以及所述最长公共子序列长度的最大值和平均值，作为各预测结果与所述知识图谱中信息的相似度特征向量。

可选地，按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体，具体包括：

按照各预测结果的置信度从高到低的顺序，将第一预测结果和第二预测结果分别对应的相似度特征向量输入待训练的强化学习模型，确定所述第一预测结果和所述第二预测结果的相似度；

根据所述第一预测结果对应的相似度特征向量、所述第二预测结果对应的相似度特征向量以及所述相似度，确定所述待训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

可选地，根据所述第一预测结果对应的相似度特征向量、所述第二预测结果对应的相似度特征向量以及所述相似度，确定所述待训练的强化学习模型执行的动作并执行，具体包括：

根据所述第一预测结果对应的相似度特征向量，确定所述第一预测结果的第一价值，以及根据所述第二预测结果对应的相似度特征向量，确定所述第二预测结果的第二价值；

根据所述第一价值、所述第二价值以及所述相似度，确定所述待训练的强化学习模型执行各动作的动作价值；

根据所述各动作的动作价值，确定最大的动作价值对应的动作并执行。

可选地，所述待训练的强化学习模型执行的动作包括：输入下一预测结果对应的相似度特征向量替换所述第一预测结果对应的相似度特征向量；或者，输入下一预测结果对应的相似度特征向量替换所述第二预测结果对应的相似度特征向量；或者，输出所述第一预测结果作为该提示模板的预测实体。

可选地，根据所述预测实体以及该提示模板的标注答案，确定所述待训练强化学习模型的奖励，具体包括：

判断所述预测实体与该提示模板的标注答案是否相同；

若是，则确定所述待训练强化学习模型的奖励为正数；

若否，则确定所述待训练强化学习模型的奖励为非正数。

本说明书提供了一种确定数据关系的方法，包括：

对所述各三元组中包含的实体和关系进行排列组合，确定实体与关系的组合作为提示模板；

针对每个提示模板，将该提示模板输入到预训练语言模型，确定与该提示模板中的实体关联的各预测结果以及各预测结果的置信度；

按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体；

根据所述预测实体，对该提示模板进行补充，确定该提示模板对应的数据关系。

可选地，按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体，具体包括：

按照各预测结果的置信度从高到低的顺序，将第一预测结果和第二预测结果分别对应的相似度特征向量输入预先训练的强化学习模型，确定所述第一预测结果和所述第二预测结果的相似度；

根据所述第一预测结果对应的相似度特征向量、所述第二预测结果对应的相似度特征向量以及所述相似度，确定所述预先训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

本说明书提供了一种强化学习模型训练装置，包括：

第一三元组确定模块，用于获取已构建的知识图谱，根据所述知识图谱，确定所述知识图谱的各三元组；

第一提示模板确定模块，用于遮盖各三元组中一个实体，得到各提示模板，将各提示模板被遮盖的实体作为对应各提示模板的标注答案；

第一预测结果确定模块，用于针对每个提示模板，将该提示模板输入到预训练语言模型，确定该提示模板中被遮盖的实体的各预测结果以及各预测结果的置信度；

第一相似度确定模块，用于根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量；

第一预测实体确定模块，用于按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体；

奖励确定模块，用于根据所述预测实体以及该提示模板的标注答案，确定所述待训练强化学习模型的奖励，并以最大化奖励为优化目标，对所述待训练强化学习模型进行训练。

本说明书提供了一种确定数据关系的装置，包括：

第二三元组确定模块，用于获取已构建的知识图谱，根据所述知识图谱，确定所述知识图谱的各三元组；

第二提示模板确定模块，用于对所述各三元组中包含的实体和关系进行排列组合，确定实体与关系的组合作为提示模板；

第二预测结果确定模块，用于针对每个提示模板，将该提示模板输入到预训练语言模型，确定与该提示模板中的实体关联的各预测结果以及各预测结果的置信度；

第二相似度确定模块，用于根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量；

第二预测实体确定模块，用于按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体；

数据关系确定模块，用于根据所述预测实体，对该提示模板进行补充，确定该提示模板对应的数据关系。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述强化学习模型训练方法或确定数据关系的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述强化学习模型训练方法或确定数据关系的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的强化学习模型训练方法，先获取已构建的知识图谱，遮盖知识图谱的各三元组中一个实体，得到各提示模板，并将被遮盖的实体作为对应各提示模板的标注答案。其次针对每个提示模板，将该提示模板输入到预训练语言模型，确定对被遮盖的实体的各预测结果以及置信度，然后确定各预测结果与该知识图谱中信息的相似度特征向量。接着按照各预测结果置信度从高到低的顺序，依次将各预测结果的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体，最后根据该预测实体以及标注答案确定奖励，并以最大化奖励为优化目标对该待训练强化学习模型进行训练，该待训练强化学习模型用于确定数据关系。通过基于知识图谱确定提示模板，避免了上下文语境的差异对预训练语言模型预测准确度的影响，后续结合知识图谱基于强化学习模型对各预测结果进行筛选，确定较为准确的预测实体，从而确定较为准确的数据关系。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书提供的一种强化学习模型训练的流程示意图；

图2为本说明书提供的一种确定数据关系的流程示意图；

图3为本说明书提供的另一种强化学习模型训练装置的示意图；

图4为本说明书提供的另一种确定数据关系的装置的示意图；

图5为本说明书提供的一种实现强化学习模型训练方法的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在对预训练语言模型进行训练后，预训练语言模型能够学习到一定程度的存在关联关系的知识，这里说的存在关联关系的知识，通常表现为主体和客体之间的一种数据关系。假设以某历史人物张三的生平资料对应数据对预训练语言模型进行训练后，预训练语言模型可能会学习到该历史人物张三与其他人物之间的关系，如张三的父亲是张大，或者该历史人物张三与某些地址之间的关系，如张三在某地出生，或者该历史人物张三与其他客体之间的关系。因此，可以对训练后的预训练语言模型进行挖掘，并在下游业务中对挖掘得到的知识进行应用。

现有技术中，一般先根据语料库中主语、宾语以及两者之间的关系，按照预设的语句结构确定针对主语或宾语的提示模板，例如，假设(张三的出生地是XX)是一个提示模板，其中，“XX”为被遮盖的实体，在输入时，只输入了(张三的出生地是)。可见，该提示模板类似于完形填空的形式，“XX”为需要填空的内容。其次，可将该提示模板输入至预先训练的预训练语言模型中，再通过预训练语言模型对提示模板的答案进行生成或预测，以挖掘出预训练语言模型中包含的存在关联关系的知识，即数据之间的关系。

但是，现有技术中大部分的提示模板都是人工构造的，且提示模板对上下文语境较为敏感。例如，假设预训练语言模型学习到的知识为张三在某地出生，而输入的提示模板为(张三的出生地是)，由于上下文语境不匹配，难以得到较为准确的预测结果，进而难以确定较为准确的数据关系。

对于此，本说明书根据知识图谱构建提示模板，避免上下文语境对提示模板的影响，后续可进一步通过强化学习模型，结合知识图谱对预训练语言模型得到的各预测结果进行筛选，确定较为准确的数据关系。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书中一种强化学习模型训练的流程示意图，具体包括以下步骤：

S100：获取已构建的知识图谱，根据所述知识图谱，确定所述知识图谱的各三元组。

目前，对于结构化数据的研究与应用在不断发展，知识图谱作为一种结构化数据，由具有联系的实体和实体之间的关系构成，这样的数据构成形式与通过预训练语言模型挖掘得到的数据关系的表现形式较为一致。基于此，本说明书可根据已构建的知识图谱的各三元组，来构造提示模板，从而避免上下文语境对提示模板的影响。

具体地，在本说明书一个或多个实施例中，业务平台的服务器可先获取已构建的知识图谱，该知识图谱可为基于该业务平台的服务器中存储的用户数据构建得到的。业务平台的服务器通过与用户的交互，可得到大量的用户行为数据，基于得到的用户行为数据，可构建对应的知识图谱。

由于知识图谱通常以三元组形式的数据结构存储，则业务平台的服务器可根据该知识图谱，确定该知识图谱的各三元组。所谓的三元组形式化表示为(subject，predicate，object)，简写为(s，p，o)，即(主语，谓语，宾语)或者(主体，关系，客体)。例如，(寺庙，用途，祈福)。

本说明书中提到的服务器可以是设置于业务平台的服务器，或能够执行本说明书方案的诸如台式机、笔记本电脑等设备。为了方便说明，下面仅以服务器为执行主体进行说明。

S102：遮盖各三元组中一个实体，得到各提示模板，将各提示模板被遮盖的实体作为对应各提示模板的标注答案。

通过步骤S100得到知识图谱的各三元组后，服务器可基于各三元组来构造提示模板，由于各三元组只包括实体以及实体之间的关系，并非完整的句子，因此可避免上下文语境对提示模板的影响。

具体地，在本说明书一个或多个实施例中，服务器可遮盖各三元组中一个实体，得到各提示模板。对于每个三元组(s，p，o)，可遮盖其中的s或o，以遮盖后剩余的部分作为提示模板。这里所说的遮盖可理解为去除，以遮盖o为例，则提示模板为(s，p)。在强化学习模型的训练过程中，服务器可将各提示模板被遮盖的实体作为对应各提示模板的标注答案。

以三元组(寺庙，用途，祈福)为例，服务器可遮盖其中的实体(祈福)，以(寺庙，用途)作为提示模板，并将(祈福)作为该提示模板对应的标注答案。

S104：针对每个提示模板，将该提示模板输入到预训练语言模型，确定该提示模板中被遮盖的实体的各预测结果以及各预测结果的置信度。

通过步骤S102得到各提示模板后，在本说明书一个或多个实施例中，针对每个模板，服务器可将该提示模板输入到预训练语言模型，确定该提示模板中被遮盖的实体的各预测结果以及各预测结果的置信度。

其中，预训练语言模型可为基于该服务器中存储的用户数据训练得到的，即，对预训练语言模型进行训练的数据，与构建前述知识图谱的数据为相同场景下的数据。当然了，只要对预训练语言模型进行训练的数据以及构建知识图谱的数据为相同场景下的数据即可，至于数据是否为该服务器中存储的用户数据，本说明书对此不做限制。

继续以步骤S102中的提示模板(寺庙，用途)为例，服务器可将该提示模板输入到预训练语言模型，确定对该提示模板中被遮盖的实体(祈福)的各预测结果以及各预测结果的置信度。假设预训练语言模型得到三个预测结果，分别为cand₁(祈福，60％)、cand₂(祈祷，30％)、cand₃(许愿，10％)。

其中，各个预测结果置信度的总和为1，可不限制预测结果的数量，当然也可根据需要，仅取前几个，本说明书对此不做限制。各预测结果即为预训练语言模型中包含的知识，可以理解为预训练语言模型根据学习到的知识对寺庙用途的预测。后续可通过强化学习模型，结合知识图谱中的信息，对各预测结果进行筛选，确定较为准确的预测实体。

S106：根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量。

通过步骤S104得到该提示模板的各预测结果后，服务器可结合知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量，以便后续进一步对各预测结果进行筛选。

具体地，在本说明书一个或多个实施例中，服务器可针对该提示模板的每个预测结果，先根据该预测结果以及知识图谱中与该提示模板相关的三元组，分别确定相关的三元组中处于该提示模板被遮盖位置的实体，与该预测结果的编辑距离和最长公共子序列长度。

然后，确定各编辑距离的最大值和平均值，以及各最长公共子序列长度的最大值和平均值，作为各预测结果与该知识图谱中信息的相似度特征向量。

其中，知识图谱中与该提示模板相关的三元组，为构建该提示模板时，与该提示模板剩余的部分相关的三元组。以三元组(s，p，o)遮盖o得到提示模板(s，p)为例，对于知识图谱中的各三元组(s₁，p₁，o₁)、(s₂，p₂，o₂)……，若(s₁，p₁)与(s，p)相关，则(s₁，p₁，o₁)即为与该提示模板(s，p)相关的三元组，这里的相关三元组可以有若干个。

(s₁，p₁)与(s，p)是否相关的判断条件可根据需要确定，本说明书对此不做限制。例如，可设置为当s₁与s的编辑距离和最长公共子序列长度都分别大于预设阈值时，确定(s₁，p₁)与(s，p)相关。

继续以步骤S104的三个预测结果为例，假设此处的三元组(s₁，p₁，o₁)、(s₂，p₂，o₂)都为相关三元组，可根据预测结果cand₁与(s₁，p₁，o₁)，确定cand₁与o1的编辑距离(Levenshtein，LEV)和最长公共子序列(Longest Common Subsequence，LCS)长度，即cand₁与o1的编辑距离LEV₁₁和最长公共子序列长度LCS₁₁，以及根据cand₁与(s₂，p₂，o₂)，确定cand₁与o₂的编辑距离LEV₁₂和最长公共子序列长度LCS₁₂。接着可确定LEV₁₁和LEV₁₂的最大值max_LEV₁以及平均值mean_LEV₁，以及LCS₁₁和LCS₁₂的最大值max_LCS₁以及平均值mean_LCS₁，作为预测结果cand₁与该知识图谱中信息的相似度特征向量。对于其余两个预测结果cand₂以及cand₃，处理过程与此同理，此处不再一一赘述。

当然了，编辑距离与最长公共子序列长度皆是为了体现数据之间的相似度，可仅采用编辑距离或仅采用最长公共子序列长度，此处仅为举例说明，还可根据需要通过其他特征体现数据之间的相似度，本说明书对此不做限制。对于得到的各特征值，此处选取了最大值以及平均值作为预测结果与该知识图谱中信息的相似度特征向量，具体采用何种统计特征值作为相似度特征向量，可根据需要确定，本说明书对此不做限制。

S108：按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体。

通过步骤S106得到各预测结果与知识图谱中信息的相似度特征向量后，在本说明书一个或多个实施例中，服务器可按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体。

其中，预训练语言模型确定的各预测结果中，最准确的预测结果通常出现在置信度较高的结果中，因此，服务器可按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型中进行判断。

具体地，对于该待训练的强化学习模型，当前输入的预测结果对应的相似度特征向量为该待训练的强化学习模型的当前状态，则该待训练的强化学习模型可根据当前状态，确定该待训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

进一步地，服务器可通过该待训练的强化学习模型，根据当前输入的预测结果对应的相似度特征向量，确定该待训练的强化学习模型执行各动作的动作价值，从而确定最大的动作价值对应的动作并执行。

其中，待训练的强化学习模型执行的动作包括：输入下一预测结果对应的相似度特征向量替换当前状态的预测结果对应的相似度特征向量，或者，输出当前状态的预测结果作为该提示模板的预测实体。

继续以步骤S106中的三个预测结果为例，则针对cand₁，输入为(max_LEV₁，mean_LEV₁，max_LCS₁，mean_LCS₁)，输出为待训练的强化学习模型要执行的动作，并执行。经过不断的筛选，服务器可通过该待训练的强化学习模型从各预测结果中筛选得到置信度较高，且与知识图谱中信息的相似度较高的预测结果，可确定为该提示模板的预测实体。

S110：根据所述预测实体以及该提示模板的标注答案，确定所述待训练强化学习模型的奖励，并以最大化奖励为优化目标，对所述待训练强化学习模型进行训练。

通过步骤S108得到该提示模板的预测实体后，服务器可根据该预测实体以及该提示模板的标注答案，确定该待训练强化学习模型的奖励，并以最大化奖励为优化目标，对该待训练强化学习模型进行训练。

具体地，在本说明书一个或多个实施例中，服务器可判断该预测实体与该提示模板的标注答案是否相同。若是，则确定该待训练强化学习模型的奖励为正数。若否，则确定该待训练强化学习模型的奖励为非正数。其中，若各提示模板得到的预测实体与对应的标注答案相同，则都获得相同的奖励。若各提示模板得到的预测实体与对应的标注答案不同，则都不获得奖励，或者都获得相同的负数奖励。

继续以步骤S104的三个预测结果为例，假设通过步骤S108得到该提示模板的预测实体为cand₁，则该预测实体与该提示模板的标注答案相同，服务器对该待训练强化学习模型的奖励可为1，假设通过步骤S108得到该提示模板的预测实体为cand₂，则该预测实体与该提示模板的标注答案不相同，服务器对该待训练强化学习模型的奖励可为0。

基于图1所示的强化学习模型训练方法，先获取已构建的知识图谱，遮盖知识图谱的各三元组中一个实体，得到各提示模板，并将各被遮盖的实体作为对应各提示模板的标注答案。其次针对每个提示模板，将该提示模板输入到预训练语言模型，确定该提示模板中被遮盖的实体的各预测结果以及各预测结果的置信度，然后根据该提示模板的各预测结果以及该知识图谱中与该提示模板相关的三元组，确定各预测结果与该知识图谱中信息的相似度特征向量。接着按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体，最后根据该预测实体以及该提示模板的标注答案，确定该待训练强化学习模型的奖励，并以最大化奖励为优化目标，对该待训练强化学习模型进行训练，该待训练强化学习模型用于确定数据关系。通过基于知识图谱确定提示模板，避免了上下文语境的差异对预训练语言模型预测准确度的影响，后续结合知识图谱基于强化学习模型对各预测结果进行筛选，确定较为准确的最终结果，从而确定较为准确的数据关系。

此外，在本说明书一个或多个实施例中，步骤S108中，服务器按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体时，考虑到预训练语言模型给出的多个结果中，可能会存在若干与标注答案相似的预测结果，因此，对于待训练的强化学习模型，可每次将若干预测结果的相似度特征向量作为当前状态，从而将当前状态中第一个预测结果之外的预测结果作为参考，确定该待训练的强化学习模型执行的动作并执行。

具体地，服务器还可按照各预测结果的置信度从高到低的顺序，将第一预测结果和第二预测结果分别对应的相似度特征向量输入待训练的强化学习模型，确定该第一预测结果和该第二预测结果的相似度，然后根据该第一预测结果对应的相似度特征向量、该第二预测结果对应的相似度特征向量以及该相似度，确定该待训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

进一步地，服务器可通过该待训练的强化学习模型，先根据该第一预测结果对应的相似度特征向量，确定该第一预测结果的第一价值，以及根据该第二预测结果对应的相似度特征向量，确定该第二预测结果的第二价值，然后根据该第一价值、该第二价值以及该相似度，确定该待训练的强化学习模型执行各动作的动作价值，最后根据各动作的动作价值，确定最大的动作价值对应的动作并执行。

其中，待训练的强化学习模型执行的动作包括：输入下一预测结果对应的相似度特征向量替换该第一预测结果对应的相似度特征向量，或者，输入下一预测结果对应的相似度特征向量替换该第二预测结果对应的相似度特征向量，或者，输出该第一预测结果作为该提示模板的预测实体。

以第一预测结果为cand₁、第二预测结果为cand₂为例，当用下一预测结果对应的相似度特征向量替换cand₁对应的相似度特征向量的动作价值较高时，则可能说明cand₁与知识图谱中信息的相似度较低，若用下一预测结果对应的相似度特征向量替换cand₁对应的相似度特征向量的动作价值较高时，则可能说明cand₂与知识图谱中信息的相似度较低，若输出该第一预测结果作为该提示模板的预测实体的动作价值较高时，则可能说明第一预测结果以及第二预测结果与知识图谱中信息的相似度都较高，且该第一预测结果与该第二预测结果的相似度也较高。

以步骤S106中的三个预测结果为例，则输入为(max_LEV₁，mean_LEV₁，max_LCS₁，mean_LCS₁，max_LEV₂，mean_LEV₂，max_LCS₂，mean_LCS₂)，输出为待训练的强化学习模型要执行的动作，并执行。经过不断的筛选，服务器可通过该待训练的强化学习模型从各预测结果中筛选得到与知识图谱中信息的相似度较高的第一预测结果以及第二预测结果，且该第一预测结果与该第二预测结果的相似度也较高，此时，可确定当前的第一预测结果为该提示模板的预测实体。

此外，在本说明书一个或多个实施例中，服务器遮盖各三元组中一个实体，得到各提示模板时，对于每次训练中得到的所有三元组(s，p，o)，只遮盖所有的s或者只遮盖所有的p，即各提示模板并非既包含(s，p)形式，也包含(p，o)形式，而是只包含其中的一种。当然了，可对强化学习模型进行多次训练，则每轮次训练提示模板的形式与其他轮次训练可不同。

对应于图1所示的强化学习模型训练的流程，本说明书还提供一种确定数据关系的方法的流程，如图2所示。

图2为本说明书中一种确定数据关系的方法的流程示意图，具体包括以下步骤：

S200：获取已构建的知识图谱，根据所述知识图谱，确定所述知识图谱的各三元组。

S202：对所述各三元组中包含的实体和关系进行排列组合，确定实体与关系的组合作为提示模板。

对于步骤S200，可参考前述步骤S100中的相关描述，此处不再赘述。通过步骤S200确定知识图谱的各三元组后，业务平台的服务器可对各三元组中包含的实体和关系进行排列组合，确定实体与关系的组合作为提示模板。

例如，假设服务器通过步骤S200得到三个三元组(寺庙，用途，祈福)、(公园，包括，树)，则该三个三元组中的实体包含：寺庙、祈福、图书馆、看书、公园、树。该三个三元组中的关系包含：用途、可以、包括。对各三元组中包含的实体和关系进行排列组合，可得到如下表1所示的实体与关系的组合：

	寺庙	祈福	公园	树
					用途	(寺庙，用途)	(祈福，用途)	(公园，用途)	(树，用途)
包括	(寺庙，包括)	(祈福，包括)	(公园，包括)	(树，包括)

表1

然后，服务器可将经排列组合后得到的实体与关系的组合作为提示模板。

当然了，此处仅以(s，p)或(实体，关系)的组合为例进行说明，还可以是(p，o)或(关系，实体)的组合，具体采用何种组合形式可根据需要确定，本说明书对此不做限制。

此外，在本说明书一个或多个实施例中，服务器还可对得到的实体与关系的组合进行筛选，以筛选得到的实体与关系的组合作为提示模板。

例如，可将上述组合中与原三元组一致的组合去除，即去除(寺庙，用途)以及(公园，包括)。

S204：针对每个提示模板，将该提示模板输入到预训练语言模型，确定与该提示模板中的实体关联的各预测结果以及各预测结果的置信度。

S206：根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量。

S208：按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体。

对于步骤S204～步骤S206，可参考前述步骤S104～步骤108中的相关描述，此处不再赘述。

通过步骤S206得到各预测结果与知识图谱中信息的相似度特征向量后，在本说明书一个或多个实施例中，服务器可按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体。

具体地，对于该预先训练的强化学习模型，当前输入的预测结果对应的相似度特征向量为该预先训练的强化学习模型的当前状态，则该预先训练的强化学习模型可根据当前状态，确定该预先训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

进一步地，服务器可通过该预先训练的强化学习模型，根据当前输入的预测结果对应的相似度特征向量，确定该预先训练的强化学习模型执行各动作的动作价值，从而确定最大的动作价值对应的动作并执行。

其中，预先训练的强化学习模型采用前述任一强化学习模型训练方法训练得到。预先训练的强化学习模型执行的动作包括：输入下一预测结果对应的相似度特征向量替换当前状态的预测结果对应的相似度特征向量，或者，输出当前状态的预测结果作为该提示模板的预测实体。

经过上述不断的筛选，服务器可通过该预先训练的强化学习模型从各预测结果中筛选确定出该提示模板的预测实体。

S210：根据所述预测实体，对该提示模板进行补充，确定该提示模板对应的数据关系。

通过上述得到该提示模板的预测实体后，服务器可根据该预测实体，对该提示模板进行补充，确定三元组(实体，关系，实体)为该提示模板对应的数据关系。

以步骤S102中的(s，p)形式的(寺庙，包括)为例，假设该提示模板为(寺庙，包括)，经步骤S108得到的与预测实体为(佛像)，则根据(s，p，o)三元组的形式，可将(佛像)作为(o)补充至(寺庙，包括)中的包括之后，即补充后可得到三元组(寺庙，包括，佛像)，即得到该提示模板对应的数据关系。

此外，在本说明书一个或多个实施例中，步骤S208中，服务器按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体时，考虑到预训练语言模型给出的多个结果中，可能会存在若干与标注答案相似的预测结果，因此，对于预先训练的强化学习模型，每次可将若干预测结果的相似度特征向量作为当前状态，从而将当前状态中第一个预测结果之外的预测结果作为参考，确定该预先训练的强化学习模型执行的动作并执行。

具体地，服务器还可按照各预测结果的置信度从高到低的顺序，将第一预测结果和第二预测结果分别对应的相似度特征向量输入预先训练的强化学习模型，确定该第一预测结果和该第二预测结果的相似度，然后根据该第一预测结果对应的相似度特征向量、该第二预测结果对应的相似度特征向量以及该相似度，确定该预先训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

进一步地，服务器可通过该预先训练的强化学习模型，先根据该第一预测结果对应的相似度特征向量，确定该第一预测结果的第一价值，以及根据该第二预测结果对应的相似度特征向量，确定该第二预测结果的第二价值，然后根据该第一价值、该第二价值以及该相似度，确定该预先训练的强化学习模型执行各动作的动作价值，最后根据各动作的动作价值，确定最大的动作价值对应的动作并执行。

其中，预先训练的强化学习模型执行的动作包括：输入下一预测结果对应的相似度特征向量替换该第一预测结果对应的相似度特征向量，或者，输入下一预测结果对应的相似度特征向量替换该第二预测结果对应的相似度特征向量，或者，输出该第一预测结果作为该提示模板的预测实体。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

本说明书提供的强化学习模型训练方法，可应用于训练确定数据关系的强化学习模型。该强化学习模型可基于知识图谱确定提示模板，避免了上下文语境的差异对预训练语言模型预测准确度的影响，后续结合知识图谱对各预测结果进行筛选，从而确定较为准确的数据关系。

以上为本说明书的一个或多个实施例提供的强化学习模型训练方法，基于同样的思路，本说明书还提供了相应的强化学习模型训练装置，如图3所示。

图3为本说明书提供的一种强化学习模型训练装置示意图，包括：

第一三元组确定模块300，用于获取已构建的知识图谱，根据所述知识图谱，确定所述知识图谱的各三元组；

第一提示模板确定模块302，用于遮盖各三元组中一个实体，得到各提示模板，将各提示模板被遮盖的实体作为对应各提示模板的标注答案；

第一预测结果确定模块304，用于针对每个提示模板，将该提示模板输入到预训练语言模型，确定该提示模板中被遮盖的实体的各预测结果以及各预测结果的置信度；

第一相似度确定模块306，用于根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量；

第一预测实体确定模块308，用于按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体；

奖励确定模块310，用于根据所述预测实体以及该提示模板的标注答案，确定所述待训练强化学习模型的奖励，并以最大化奖励为优化目标，对所述待训练强化学习模型进行训练。

可选地，所述第一预测实体确定模块308，按照各预测结果的置信度从高到低的顺序，将第一预测结果和第二预测结果分别对应的相似度特征向量输入待训练的强化学习模型，确定所述第一预测结果和所述第二预测结果的相似度，根据所述第一预测结果对应的相似度特征向量、所述第二预测结果对应的相似度特征向量以及所述相似度，确定所述待训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

可选地，所述第一预测实体确定模块308，根据所述第一预测结果对应的相似度特征向量，确定所述第一预测结果的第一价值，以及根据所述第二预测结果对应的相似度特征向量，确定所述第二预测结果的第二价值，根据所述第一价值、所述第二价值以及所述相似度，确定所述待训练的强化学习模型执行各动作的动作价值，根据所述各动作的动作价值，确定最大的动作价值对应的动作并执行。

基于同样的思路，本说明书还提供了相应的确定数据关系的装置，如图4所示。

图4为本说明书提供的一种确定数据关系的装置示意图，包括：

第二三元组确定模块400，用于获取已构建的知识图谱，根据所述知识图谱，确定所述知识图谱的各三元组；

第二提示模板确定模块402，用于对所述各三元组中包含的实体和关系进行排列组合，确定实体与关系的组合作为提示模板；

第二预测结果确定模块404，用于针对每个提示模板，将该提示模板输入到预训练语言模型，确定与该提示模板中的实体关联的各预测结果以及各预测结果的置信度；

第二相似度确定模块406，用于根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量；

第二预测实体确定模块408，用于按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体；

数据关系确定模块410，用于根据所述预测实体，对该提示模板进行补充，确定该提示模板对应的数据关系。

可选地，所述第二预测实体确定模块408，按照各预测结果的置信度从高到低的顺序，将第一预测结果和第二预测结果分别对应的相似度特征向量输入预先训练的强化学习模型，确定所述第一预测结果和所述第二预测结果的相似度，根据所述第一预测结果对应的相似度特征向量、所述第二预测结果对应的相似度特征向量以及所述相似度，确定所述预先训练的强化学习模型执行的动作并执行，直至从各预测结果中确定该提示模板的预测实体。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的强化学习模型训练方法或图2提供的确定数据关系的方法。

本说明书还提供了图5所示的电子设备的结构示意图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1提供的强化学习模型训练方法或图2提供的确定数据关系的方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件异或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种强化学习模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，根据该提示模板的各预测结果，以及所述知识图谱中与该提示模板相关的三元组，确定各预测结果与所述知识图谱中信息的相似度特征向量，具体包括：

3.如权利要求1所述的方法，其特征在于，按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入待训练的强化学习模型，从各预测结果中确定该提示模板的预测实体，具体包括：

4.如权利要求3所述的方法，其特征在于，根据所述第一预测结果对应的相似度特征向量、所述第二预测结果对应的相似度特征向量以及所述相似度，确定所述待训练的强化学习模型执行的动作并执行，具体包括：

5.如权利要求3或4所述的方法，其特征在于，所述待训练的强化学习模型执行的动作包括：输入下一预测结果对应的相似度特征向量替换所述第一预测结果对应的相似度特征向量；或者，输入下一预测结果对应的相似度特征向量替换所述第二预测结果对应的相似度特征向量；或者，输出所述第一预测结果作为该提示模板的预测实体。

6.如权利要求1所述的方法，其特征在于，根据所述预测实体以及该提示模板的标注答案，确定所述待训练强化学习模型的奖励，具体包括：

判断所述预测实体与该提示模板的标注答案是否相同；

若是，则确定所述待训练强化学习模型的奖励为正数；

若否，则确定所述待训练强化学习模型的奖励为非正数。

7.一种确定数据关系的方法，其特征在于，包括：

根据所述预测实体，对该提示模板进行补充，确定该提示模板对应的数据关系；

其中，所述预先训练的强化学习模型采用上述权利要求1～6任一所述的方法训练得到。

8.如权利要求7所述的方法，其特征在于，按照各预测结果的置信度从高到低的顺序，依次将各预测结果对应的相似度特征向量输入预先训练的强化学习模型，从各预测结果中确定该提示模板的预测实体，具体包括：

9.一种强化学习模型训练装置，其特征在于，包括：

10.一种确定数据关系的装置，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～6或7～8任一项所述的方法。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～6或7～8任一项所述的方法。