CN110263979A

CN110263979A - 基于强化学习模型预测样本标签的方法及装置

Info

Publication number: CN110263979A
Application number: CN201910458270.XA
Authority: CN
Inventors: 蒋亮; 温祖杰; 梁忠平; 张家兴
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-20
Anticipated expiration: 2039-05-29
Also published as: CN110263979B

Abstract

本说明书实施例提供一种基于强化学习模型预测样本标签的方法，所述方法包括：通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数；基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识；利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

Description

基于强化学习模型预测样本标签的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及利用强化学习模型预测样本标签的方法及装置。

背景技术

很多分类问题中的标签是具有层次关系的，例如，电商领域“衣服”和“裤子”都属于“服装”，直接将所有标签平等看待会忽略标签之间的从属、层次关系。由此想到将标签组织为树结构，用于分类问题中以提升分类效果。

然而，目前通常是针对标签树中的每一层单独训练模型，得到的分类结果的准确性十分有限。因此，需要一种更加合理的方案，可以基于标签树更加准确地预测出样本的分类标签。

发明内容

本说明书一个或多个实施例描述一种基于强化学习模型预测样本标签的方法及装置，可以解决现有技术中的不足，大大提高预测出的样本标签的准确度。

根据第一方面，提供了一种基于强化学习模型预测样本标签的方法，所述方法包括：通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识。基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识。利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

在一个实施例中，在i等于1的情况下，所述获取第i条状态信息，包括：获取第1条状态信息，所述第1条状态信息中包括所述第一标定样本的样本特征。

在一个实施例中，所述确定与所述N次预测对应的奖励分数，包括：在所述预测标签与所述标定标签一致的情况下，将所述奖励分数确定为预设的第一数值；或者，在所述预测标签与所述标定标签不一致的情况下，将所述奖励分数确定为预设的第二数值；其中，所述第一数值大于第二数值。

在一个实施例中，所述强化学习模型基于策略梯度算法。

进一步地，在一个具体的实施例中，所述利用所述奖励分数优化所述强化学习模型，包括：利用N组训练数据训练所述强化学习模型，所述N组训练数据中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述奖励分数。

根据第二方面，提供了一种基于强化学习模型预测样本标签的方法，所述方法包括：通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签和N个回报值，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识；基于预先标定的针对所述第一标定样本的第i个标定标签标识和所述第i个预测标签标识，确定对应于所述第i次预测的第i个回报值。利用所述N个回报值优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

在一个实施例中，所述确定对应于所述第i次预测的第i个回报值，包括：在所述第i个预测标签标识与所述第i个标定标签标识一致的情况下，将所述回报值确定为预设的第一数值；或者，在所述第i个预测标签标识与所述第i个标定标签标识不一致的情况下，将所述回报值确定为预设的第二数值；其中，所述第一数值大于第二数值。

在一个实施例中，所述强化学习模型基于策略梯度算法。

进一步地，在一个具体的实施例中，所述利用所述N个回报值优化所述强化学习模型，包括：利用N组训练数据训练所述强化学习模型，所述N组训练数据中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述第i个回报值。

根据第三方面，提供一种基于强化学习模型预测样本标签的装置，所述装置包括：预测单元，配置为通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：获取模块，配置为获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；输入模块，配置为将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识；确定单元，配置为基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识。优化单元，配置为利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

根据第四方面，提供一种基于强化学习模型预测样本标签的装置，所述装置包括：预测单元，配置为通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签和N个回报值，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：获取模块，配置为获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；输入模块，配置为将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识；确定模块，配置为基于预先标定的针对所述第一标定样本的第i个标定标签标识和所述第i个预测标签标识，确定对应于所述第i次预测的第i个回报值。优化单元，配置为利用所述N个回报值优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

采用本说明书实施例提供的方法和装置，可以得到优化后的强化学习模型，用于预测待预测样本的样本标签，以提高预测出的样本标签的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的标签树的结构示意图；

图2示出根据一个实施例的强化学习模型的预测过程示意图；

图3示出根据一个实施例的基于标签树的决策序列示意图；

图4示出根据一个实施例的基于强化学习模型预测样本标签的方法流程图；

图5示出根据另一个实施例的基于强化学习模型预测样本标签的方法流程图；

图6示出根据一个实施例的基于强化学习模型预测样本标签的装置框图；

图7示出根据一个实施例的基于强化学习模型预测样本标签的装置框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，可以通过构建标签树以辅助提升分类效果。具体地，可以根据分类问题对应的领域构建对应领域下的标签树，例如，可能涉及化学、体育、新闻、法律、商业等领域。此外，构建标签树的方法有多种，比如基于聚类、基于语义分析、基于统计等。在一个实施例中，对于预先采集的用于构建标签树的多个标签，可以先采用聚类算法将其聚成多个类簇，然后由工作人员基于得到的多个类簇提取标签之间的层次关系，进而构建出完整的标签树。在另一个实施例中，可以先对多个标签进行语义分析，以实现对多个标签的初步分组，比如将语义相近的若干标签归为一组；然后由工作人员根据初步分组的结果构建出标签树。在一个更具体的实施例中，预先采集的多个标签中包括“如何调整花呗的额度”和“花呗怎么开通”，通过计算得到二者的相似度大于预定阈值，由此可以判定二者语义相近，进而将二者归为一组，并由工作人员确定二者共同的上层标签或者说父节点标签为花呗。

根据一个具体的例子，针对预先采集的多个标签，具体包括饼干、瓜子、手机、平板电脑、食品和电子产品，可以构建出图1中示出的标签树。可以理解的是，图1对标签树进行简单的示例，实际应用中的标签树中通常包括海量标签，如数以万计、甚至百万计的标签。

另外，目前通常是针对标签树中的每一层单独训练模型进行层次分类，其中使用的模型较为简单，如逻辑回归、支持向量机等。发明人发现，基于标签树的层次分类本质上是一个序列决策过程，针对每一层单独训练模型进行分类的方式忽略了这一本质，导致分类效果不佳。进一步地，发明人还发现，强化学习天然对序列决策具有很好的建模能力，因而提出使用强化学习进行层次分类以取得更好的分类效果。

图2示出根据一个实施例的强化学习模型的预测过程示意图。具体地，在序列决策的场景下，为了得到一个决策序列，需要连续多次使用强化学习模型(即图中的智能体)进行多次决策，对于其中任一次决策均包括：智能体观察并获得执行环境当前的状态(state)，根据一定的策略，针对执行环境当前的状态确定要采取的行为或动作(action),也就是做出决策，这样的决策作用于执行环境，会改变执行环境的状态。

更具体地，在本说明书实施例披露的基于标签树(参见图1)对待预测样本进行分类的场景下，为了确定待预测样本对应于标签树中叶子节点的标签(参见图1中标签树的底层节点标签)，智能体观察并获得待预测样本(对应上述执行环境)当前在标签树中所处的位置(对应于上述状态，例如，位于图1中标签树的根节点)，根据一定的策略，针对待预测样本当前在标签树中所处的位置决策出待预测样本在标签树的下一层中所处的位置(例如，决策出位于图1中的食品标签处)，如此智能体继续观察并获得待预测样本的当前状态以做出下一次决策，直到预测出待预测样本对应的叶子节点标签，可以理解的是，叶子节点标签是指标签树中不具有子节点标签的节点标签。根据一个具体的例子，图3中示出一个完整的决策序列路径，其中依次包括食品标签和饼干标签。

进一步地，在决策作用于执行环境，改变执行环境的状态后，执行环境可以给出相应的反馈(reward)，以使智能体可以根据反馈优化上述用于做出决策的策略。

需要说明的是，在本说明书实施例中，可使用各种强化学习模型，如基于如下任一算法DDPG、DPG、Actor-critic、策略梯度算法、Q学习的模型等等，在此不一一列出。下面，描述以上构思的具体实现方式。

图4示出根据一个实施例的基于强化学习模型预测样本标签的方法流程图，所述方法可以由任何具有数据计算、处理能力的装置、设备、平台、设备集群等来执行。如图4所示，所述方法包括以下步骤：

步骤S410，通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数。其中对于所述N次预测中的第i次预测，具体包括：步骤S412，获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；步骤S414，将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识。

步骤S420，基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识。

步骤S430，利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

以上步骤具体如下：

首先在步骤S410，通过强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签。对于N次预测中的第i次预测，具体可以包括以下步骤S412和步骤S414：

步骤S412，获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识。

需要说明的是，在一个实施例中，样本对应待分类的事物，包括物品或文本内容等，而样本特征用于描述样本的属性，例如，样本包括名为奇趣多的商品，其样本特征包括无需充电、可食用、高糖、面粉烤制等。在本说明书实施例中，标定样本是指已经预先标定(如人工标定)出样本标签的样本，以下描述中主要针对多个标定样本中的任意一个(以下统称为第一标定样本)为例进行说明。另一方面，在一个实施例中，上述预测标签标识用于标识预测标签，具体可以包括数字、字母或符号等，例如，预测标签“食品”对应的预测标签标识可以为007。

具体地，在i为1的情况下，也就是当前预测为N次预测中的第一次的情况下，不存在已经预测出的预测标签标识，此时，获取的第1条状态信息中仅包括第一标定样本的样本特征。

而在i不为1的情况下，也就是在当前预测之前已经进行至少一次(具体为i-1次)预测的情况下，获取的第i条状态信息中包括样本特征和前i-1次预测中得到的i-1个预测标签标识。在一个例子中，假定i为2，获取的第2条状态信息中可以包括样本特征，如无需充电、可食用、高糖、面粉烤制等，以及，第1次预测中得到的对应于图1中食品标签的标签标识007。

以上可以获取第i条状态信息。

步骤S414，将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识。

具体地，在i为1的情况下，也就是当前为第1次预测的情况下，得到的第1个预测标签属于预定标签集合。需要理解的是，其中预定标签集合中的各个预定标签可能存在子节点标签，但是不存在父节点标签，例如，基于图1中的标签树，预定标签集合相应包括其中示出的食品标签和电子产品标签，而根节点可以视为无标签指代意义。在一个具体的实施例中，可以先计算出第1次预测中得到的预测标签为预定标签集合中各个预定标签的概率，然后将其中的最大概率值所对应的预定标签确定为第1预测标签。其中，可以包括通过以下公式计算概率：

P_t＝π(a_t,s₁)(1)

公式(1)中，a_t表示预定标签集合中第t个标签，s₁表示第1条状态信息，π表示策略函数，P_t表示状态信息为s₁时得到的预测标签为a_t的概率。

进一步地，在一个例子中，将获取的第1条状态信息，其中包括上述商品奇趣多的样本特征，输入强化学习模型，可以得到对应于此次预测(第1次)的第1个预测标签标识，如用于标识食品的标签标识007。

在i不为1的情况下，也就是当前为第二次或后续次预测的情况下，得到的第i个预测标签属于上一次预测出的预测标签的预定子标签集合。需要理解的是，本说明书实施例将强化学习用于层次预测，具体地，第i次预测的目的在于，从第i-1次预测得到的第i-1个预测标签的预定子标签集合中确定出第i个预测标签。进一步地，在一个例子中，假定i＝2，且第1次预测得到的第1个预测标签为图1中示出的食品标签，则第2次预测包括从食品标签的预定子标签集合(包括图1中的饼干和瓜子)中确定出第2预测标签。具体地，将前述例子中获取的第2条状态信息输入强化学习模型，可以输出对应于此次(第2次)预测的第2个预测标签标识，如对应于图1中饼干标签的标签标识052。

由上，根据一个具体的例子，基于图1示出的标签树，对第一标定样本，如前述商品奇趣多，进行连续2次预测，可以获取与2次预测分别对应的2个预测标签：食品和饼干，具体可以参见图3示出的决策序列路径。

以上执行步骤S410，可以获取与N次预测分别对应的N个预测标签。接着，在步骤S420，基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识。

需要理解的是，上述第一标定样本的标定标签属于标签树中的叶子节点标签。在一个实施例中，在所述预测标签与所述标定标签一致的情况下，将所述奖励分数确定为预设的第一数值；或者，在所述预测标签与所述标定标签不一致的情况下，将所述奖励分数确定为预设的第二数值；其中，所述第一数值大于第二数值。在一个具体的实施例中，其中第一数值为1，第二数值为0。在另一个具体的实施例中，其中第一数值为2，第二数值为-1。

根据一个例子，假定标定标签为饼干，且预测标签为饼干，则可以判断出二者一致，由此将奖励分数确定为预设的第一数值，如1。根据另一个例子，假定标定标签为饼干，而预测标签为瓜子，则可以判断出二者不一致，由此将奖励分数确定为预设的第二数值，如0。

在以上确定出与N次预测对应的奖励分数之后，接着在步骤S430，利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

在一个实施例中，强化学习模型基于策略梯度算法。进一步地，在一个具体的实施例中，利用所述奖励分数优化所述强化学习模型，可以包括：利用N组训练数据训练所述强化学习模型，其中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述奖励分数。更进一步地，在一个例子中，可以分别基于N组训练数据中的各组训练数据，采用以下公式逐步调整上述策略函数π中的学习参数θ：

以上公式(2)中，s_i和a_i分别表示第i组训练数据中的第i条状态信息和第i个预测标签标识；v表示上述奖励分数；α为超参数。

如此可以得到优化后的强化学习模型。以上主要以第一标定样本为例，对强化学习模型的预测和优化进行了介绍，可以理解的是，可以采用多个标定样本对强化学习模型进行不断优化，然后将优化完毕的强化学习模型用于对待预测样本的预测，包括对任一的第一预测样本进行预测，以得到第一预测样本的样本标签。具体地，输出的样本标签可以根据实际需要设定为预测出的N个预测标签的任意一个或多个，可以理解的是，通常会输出N个预测标签中对应于第N次预测的第N个预测标签，例如，对应于图1中叶子节点的标签“饼干”。

在上述图4中示出的方法中，是基于第一标定样本的标定标签和第N次预测得到的预测标签计算奖励分数，优化强化学习模型，其中奖励分数可以理解为是针对预测出的整个标签序列的长期回报、总收益。根据另一方面的实施例，本说明书中还披露一种预测方法，在此方法包括的连续N次预测中，每次预测除了得到对应的预测标签，还需要确定对应的回报值，在完成N次预测之后，利用确定出的N个回报值对强化学习模型进行优化。下面，描述另一方面实施例所披露预测方法的具体实施步骤。

图5示出根据另一个实施例的基于强化学习模型预测样本标签的方法流程图，所述方法可以由任何具有数据计算、处理能力的装置、设备、平台、设备集群等来执行。如图5所示，所述方法包括以下步骤：

步骤S510，通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签和N个回报值，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数。其中对于所述N次预测中的第i次预测，具体包括：步骤S512，获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；步骤S514，将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识；步骤S516，基于预先标定的针对所述第一标定样本的第i个标定标签标识和所述第i个预测标签标识，确定对应于所述第i次预测的第i个回报值。

步骤S520，利用所述N个回报值优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

以上步骤具体如下：

首先，在步骤S510，通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签和N个回报值。对于N次预测中的第i次预测，具体可以包括步骤S512、步骤S514和步骤S516：

步骤S512，获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识。

需要说明的是，对步骤S512的介绍可以参见前述实施例中对步骤S412的描述，在此不作赘述。

步骤S514，将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识。

需要说明的是，对步骤S514的介绍可以参见前述实施例中对步骤S414的描述，在此不作赘述。

步骤S516，基于预先标定的针对所述第一标定样本的第i个标定标签标识和所述第i个预测标签标识，确定对应于所述第i次预测的第i个回报值。

在一个实施例中，在所述第i个预测标签标识与所述第i个标定标签标识一致的情况下，将所述回报值确定为预设的第一数值；或者，在所述第i个预测标签标识与所述第i个标定标签标识不一致的情况下，将所述回报值确定为预设的第二数值；其中，所述第一数值大于第二数值。在一个具体的实施例中，其中第一数值为1，第二数值为0。在另一个具体的实施例中，其中第一数值为5，第二数值为-5。

根据一个例子，假定第1个标定标签标识为食品对应的标识007，且第1个预测标签标识为007，则可以判断出二者一致，由此将奖励分数确定为预设的第一数值，如1。根据另一个例子，假定第1个标定标签标识为007，而第1个预测标签标识为电子产品对应的标识008，则可以判断出二者不一致，由此将奖励分数确定为预设的第二数值，如0。

以上可以确定出与N次预测对应的N个回报值，接着在步骤520，利用所述N个回报值优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

在一个实施例中，强化学习模型基于策略梯度算法。进一步地，在一个具体的实施例中，利用所述N个回报值优化所述强化学习模型，可以包括：利用N组训练数据训练所述强化学习模型，其中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述第i个回报值。更具体地，在一个例子中，可以先基于N组训练数据中的N个回报值，通过以下公式(3)计算N个预测标签标识中各个预测标签标识所对应的奖励分数，

v_i＝r_i+γr_i+1+γ²r_i+2+…+γ^N-ir_N (3)

以上公式(4)中，r_i表示第i个回报值；v_i表示第i个预测标签标识对应的第i个奖励分数；γ为超参数，例如可以设定为0.8或0.9等。

然后再分别基于N组重组训练数据，其中的第i组重组训练数据中包括第i条状态信息，第i个预测标签标识和第i个预测标签标识对应的第i个奖励分数，采用以下公式(4)逐步调整上述策略函数π中的学习参数θ：

以上公式(2)中，s_i、a_i、v_i分别表示第i组重组训练数据中的第i条状态信息、第i个预测标签标识和第i个奖励分数；α为超参数。在另一个实施例中，强化学习模型基于Q-learning算法或actor-critic算法。进一步地，在一个具体的实施例中，利用所述N个回报值优化所述强化学习模型，可以包括：利用N组训练数据训练所述强化学习模型，所述N组训练数据中的第i组训练数据中包括第i条状态信息，第i+1条状态信息，所述第i个预测标签标识和所述第i个回报值。

如此可以得到优化后的强化学习模型，用于预测待预测样本的样本标签，以提高预测出的样本标签的准确度。

根据另一方面的实施例，还提供一种预测装置。具体地，图6示出根据一个实施例的基于强化学习模型预测样本标签的装置框图。如图6所示，该装置600包括：

预测单元610，配置为通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：获取模块611，配置为获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；输入模块612，配置为将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识。

确定单元620，配置为基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识。

优化单元630，配置为利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

在一个实施例中，在i等于1的情况下，所述获取模块611具体配置为：获取第1条状态信息，所述第1条状态信息中包括所述第一标定样本的样本特征。

在一个实施例中，所述确定单元620具体配置为：在所述预测标签与所述标定标签一致的情况下，将所述奖励分数确定为预设的第一数值；或者，在所述预测标签与所述标定标签不一致的情况下，将所述奖励分数确定为预设的第二数值；其中，所述第一数值大于第二数值。

在一个实施例中，所述强化学习模型基于策略梯度算法。

进一步地，在一个具体的实施例中，所述优化单元630具体配置为：利用N组训练数据训练所述强化学习模型，所述N组训练数据中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述奖励分数。

根据又一方面的实施例，还提供一种预测装置。具体地，图7示出根据一个实施例的基于强化学习模型预测样本标签的装置框图，该装置700包括：

预测单元710，配置为通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签和N个回报值，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：获取模块711，配置为获取第i条状态信息，所述第i条状态信息中包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测标签标识；输入模块712，配置为将所述第i条状态信息输入所述强化学习模型，以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标签标识；确定模块713，配置为基于预先标定的针对所述第一标定样本的第i个标定标签标识和所述第i个预测标签标识，确定对应于所述第i次预测的第i个回报值。

优化单元720，配置为利用所述N个回报值优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

在一个实施例中，所述确定模块具体配置为：在所述第i个预测标签标识与所述第i个标定标签标识一致的情况下，将所述回报值确定为预设的第一数值；或者，在所述第i个预测标签标识与所述第i个标定标签标识不一致的情况下，将所述回报值确定为预设的第二数值；其中，所述第一数值大于第二数值。

在一个实施例中，所述强化学习模型基于策略梯度算法。

进一步地，在一个具体的实施例中，所述优化单元具体配置为：利用N组训练数据训练所述强化学习模型，所述N组训练数据中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述第i个回报值。

根据再一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图4或图5所述的方法。

根据还一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图4或图5所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于强化学习模型预测样本标签的方法，所述方法包括：

通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：

获取第i条状态信息，所述第i条状态信息中包括所述第一标定

样本的样本特征和所述N次预测中前i-1次预测中得到的i-1个预测

标签标识；

将所述第i条状态信息输入所述强化学习模型，以使得所述强化

学习模型输出对应于所述第i次预测的第i个预测标签标识；

基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识；

利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

2.根据权利要求1所述的方法，其中，在i等于1的情况下，所述获取第i条状态信息，包括：

获取第1条状态信息，所述第1条状态信息中包括所述第一标定样本的样本特征。

3.根据权利要求1所述的方法，其中，所述确定与所述N次预测对应的奖励分数，包括：

在所述预测标签与所述标定标签一致的情况下，将所述奖励分数确定为预设的第一数值；或者，

在所述预测标签与所述标定标签不一致的情况下，将所述奖励分数确定为预设的第二数值；

其中，所述第一数值大于第二数值。

4.根据权利要求1所述的方法，其中，所述强化学习模型基于策略梯度算法。

5.根据权利要求4所述的方法，其中，所述利用所述奖励分数优化所述强化学习模型，包括：

利用N组训练数据训练所述强化学习模型，所述N组训练数据中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述奖励分数。

6.一种基于强化学习模型预测样本标签的方法，所述方法包括：

通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签和N个回报值，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：

标签标识；

学习模型输出对应于所述第i次预测的第i个预测标签标识；

基于预先标定的针对所述第一标定样本的第i个标定标签标识

和所述第i个预测标签标识，确定对应于所述第i次预测的第i个回

报值；

利用所述N个回报值优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

7.根据权利要求6所述的方法，其中，所述确定对应于所述第i次预测的第i个回报值，包括：

在所述第i个预测标签标识与所述第i个标定标签标识一致的情况下，将所述回报值确定为预设的第一数值；或者，

在所述第i个预测标签标识与所述第i个标定标签标识不一致的情况下，将所述回报值确定为预设的第二数值；

其中，所述第一数值大于第二数值。

8.根据权利要求6所述的方法，其中，所述强化学习模型基于策略梯度算法。

9.根据权利要求8所述的方法，其中，所述利用所述N个回报值优化所述强化学习模型，包括：

利用N组训练数据训练所述强化学习模型，所述N组训练数据中的第i组训练数据中包括所述第i条状态信息，所述第i个预测标签标识和所述第i个回报值。

10.一种基于强化学习模型预测样本标签的装置，所述装置包括：

预测单元，配置为通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：

获取模块，配置为获取第i条状态信息，所述第i条状态信息中

包括所述第一标定样本的样本特征和所述N次预测中前i-1次预测中

得到的i-1个预测标签标识；

输入模块，配置为将所述第i条状态信息输入所述强化学习模型，

以使得所述强化学习模型输出对应于所述第i次预测的第i个预测标

签标识；

确定单元，配置为基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签，确定与所述N次预测对应的奖励分数，所述预测标签对应于第N次预测得到预测标签标识；

优化单元，配置为利用所述奖励分数优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

11.根据权利要求10所述的装置，其中，在i等于1的情况下，所述获取模块具体配置为：

12.根据权利要求10所述的装置，其中，所述确定单元具体配置为：

其中，所述第一数值大于第二数值。

13.根据权利要求10所述的装置，其中，所述强化学习模型基于策略梯度算法。

14.根据权利要求13所述的装置，其中，所述优化单元具体配置为：

15.一种基于强化学习模型预测样本标签的装置，所述装置包括：

预测单元，配置为通过所述强化学习模型进行针对第一标定样本的连续N次预测，获取与N次预测分别对应的N个预测标签和N个回报值，其中，从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合，第一次预测的预测标签属于预定标签集合，所述N为大于等于1的整数，其中对于所述N次预测中的第i次预测，具体包括：

得到的i-1个预测标签标识；

签标识；

确定模块，配置为基于预先标定的针对所述第一标定样本的第i

个标定标签标识和所述第i个预测标签标识，确定对应于所述第i

次预测的第i个回报值；

优化单元，配置为利用所述N个回报值优化所述强化学习模型，优化后的强化学习模型用于预测第一预测样本的样本标签。

16.根据权利要求15所述的装置，其中，所述确定模块具体配置为：

其中，所述第一数值大于第二数值。

17.根据权利要求15所述的装置，其中，所述强化学习模型基于策略梯度算法。

18.根据权利要求17所述的装置，其中，所述优化单元具体配置为：

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。