CN110766086A

CN110766086A - 基于强化学习模型对多个分类模型进行融合的方法和装置

Info

Publication number: CN110766086A
Application number: CN201911032757.8A
Authority: CN
Inventors: 龙翀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-07
Anticipated expiration: 2039-10-28
Also published as: CN110766086B

Abstract

本说明书实施例提供了一种基于强化学习模型对多个分类模型进行融合的方法和装置，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述方法包括：获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；将所述第一状态信息输入所述强化学习模型；通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

Description

基于强化学习模型对多个分类模型进行融合的方法和装置

技术领域

本说明书实施例涉及机器学习技术领域，更具体地，涉及一种基于强化学习模型对多个分类模型进行融合的方法和装置。

背景技术

模型融合在IT互联网工业界中有着非常广泛的应用。在用分类模型解决实际问题时，通过单个分类模型通常不能取得最好的整体效果，或者不能在每个方面都取得很好的效果。此时，可通过融合多个分类模型得到最终的分类结果，从而可利用其中每个模型的优点，通常将这种用于融合多个模型的模型称为“融合模型”。传统的融合模型包括Stacking、Boost ing、Bagging、Blending等。这些模型都需要离线训练，并且只能对单个样本的标注进行训练。

因此，需要一种更有效的对多个分类模型进行融合的方案。

发明内容

本说明书实施例旨在提供一种更有效的对多个分类模型进行融合的方案，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种基于强化学习模型对多个分类模型进行融合的方法，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述方法包括：

获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；

将所述第一状态信息输入所述强化学习模型；

通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

在一个实施例中，所述多个分类模型各自的对所述第一对象的分类结果以概率矩阵表示，其中，所述概率矩阵中第i行、第j列的元素表示所述多个分类模型中的第i个分类模型输出的所述第一对象属于所述多个预定类别中第j个预定类别的概率。

在一个实施例中，所述当前强化学习模型对于所述多个预定类别中每个类别的分类准确率基于所述强化学习模型在过去预定时段内对于样本中每个类别的分类准确率获取。

在一个实施例中，所述强化学习模型包括策略网络，其中，通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别包括，通过策略网络基于所述第一状态信息计算所述多个预定类别的各个类别的分类概率，并基于各个预定类别的分类概率，确定所述第一对象的类别。

在一个实施例中，所述强化学习模型还包括价值网络，所述方法还包括，在通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别之后，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；获取与所述强化学习模型的该次分类对应的回报值；基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

在一个实施例中，所述方法还包括，在基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络之后，基于所述第一回报值、所述价值网络相对于所述第一状态信息的输出、所述价值网络相对于所述第二状态信息的输出、所述第一状态信息、以及通过所述强化学习模型确定的所述第一对象的类别，训练所述策略网络。

在一个实施例中，与所述强化学习模型的该次分类对应的回报值基于该次分类是否正确而确定。

在一个实施例中，所述强化学习模型用于将用户的问题分类到相应类别，以使得与该相应类别对应的业务人员进行对所述问题的回复，其中由所述业务人员对该次分类是否正确进行标定。

在一个实施例中，与所述强化学习模型的该次分类对应的回报值基于所述强化学习模型在确定所述第一对象的类别之后的预定时段内的分类准确率确定。

本说明书另一方面提供一种基于强化学习模型对多个分类模型进行融合的装置，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述装置包括：

第一获取单元，配置为，获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；

输入单元，配置为，将所述第一状态信息输入所述强化学习模型；

确定单元，配置为，通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

在一个实施例中，所述强化学习模型包括策略网络，其中，所述确定单元还配置为，通过策略网络基于所述第一状态信息计算所述多个预定类别的各个类别的分类概率，并基于各个预定类别的分类概率，确定所述第一对象的类别。

在一个实施例中，所述强化学习模型还包括价值网络，所述装置还包括，第二获取单元，配置为，在通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别之后，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；第三获取单元，配置为，获取与所述强化学习模型的该次分类对应的回报值；第一训练单元，配置为，基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

在一个实施例中，所述装置还包括，第二训练单元，配置为，在基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络之后，基于所述第一回报值、所述价值网络相对于所述第一状态信息的输出、所述价值网络相对于所述第二状态信息的输出、所述第一状态信息、以及通过所述强化学习模型确定的所述第一对象的类别，训练所述策略网络。

本说明书另一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

通过本说明书实施例的基于强化学习模型对多个分类模型进行融合的方案，可基于实时的线上变化信息在线进行模型训练，并且基于强化学习模型的回报值的设置，体现了多个样本的整体情况，从而提高了融合模型的分类准确率。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示出采用行为-评判算法方式的深度强化学习模型的示意图；

图2示出根据本说明书分类模型融合系统200；

图3示出根据本说明书实施例的一种基于强化学习模型对多个分类模型进行融合的方法流程图；

图4示出了根据本说明书实施例的对图2中的价值网络进行训练的方法流程图；

图5示出根据本说明书实施例的一种基于强化学习模型对多个分类模型进行融合的装置500。

具体实施方式

下面将结合附图描述本说明书实施例。

如前文所述，通过传统的融合模型对多个分类模型进行融合，通常需要对融合模型离线训练，捕捉不到线上实时的变化信息，并且所述融合模型只能对单个样本的标注进行训练，缺乏一个整体情况的反馈。根据本说明书实施例的构思，通过强化学习的方式对多个分类模型进行融合，克服了上述现有技术中的问题，可以对融合模型在线实时训练，并且基于强化学习中的回报值和总收益，可体现模型训练的整体信息。

如本领域技术人员所知，强化学习是一种基于序列行为的反馈进行的无标注的学习策略的方法。一般地，强化学习系统包括智能体和执行环境，智能体通过与执行环境的交互和反馈，不断进行学习，优化其策略。具体而言，智能体观察并获得执行环境的状态(state)，根据一定策略，针对当前执行环境的状态确定要采取的行为或动作(action)。这样的行为作用于执行环境，会改变执行环境的状态，同时产生一个反馈给智能体，基于该反馈可确定回报值(reward)。智能体根据获得的回报值来判断，之前的行为是否正确，策略是否需要调整，进而更新其策略。通过反复不断地观察状态、确定行为、收到反馈，使得智能体可以不断更新策略，最终目标是能够学习到一个策略，使得获得的回报值累积(即总收益)最大化。

存在多种算法来进行智能体中策略的学习和优化，其中行为-评判(Actor-Critic，AC)算法是用于强化学习的一种策略梯度方法。图1示出采用行为-评判算法方式的深度强化学习模型的示意图。如图1所示，模型包括作为Actor的策略网络和作为Critic的价值网络。

策略网络从环境获得环境状态s，根据一定策略，输出在当前环境状态下要采取的动作a。该动作作用于环境，从而产生新的环境状态s’和回报值r。价值网络基于上述环境状态s、新的状态s’和回报值r进行优化，并基于输出的V值对策略网络在状态s下采取动作a的本次决策进行评估，策略网络根据从价值网络接收的V值来调整策略，以使得强化学习模型获得更高的总收益。也就是说，策略网络训练的目标是，获得尽可能高的总收益。另一方面，价值网络也会不断调整其参数，使得其输出的V值更准确地反映环境反馈的回报值的累积。

图2示出根据本说明书分类模型融合系统。例如，所述系统用于智能客服场景中。当用户通过手机通话或手机APP向平台提出问题时，可通过所述系统将用户的问题分类到M个类别中的第一类别中，从而可使得与第一类别对应的业务人员进行与用户的沟通。具体是，如图2所示，所述系统包括分类模块21和融合模块22。其中，分类模块21包括例如N个不同的分类器，其针对一个待分类对象输出的分类结果例如是M个类别的各个类别的分类概率，从而，针对该待分类对象，所述分类模块21可输出N*M的概率矩阵P，该矩阵中的元素P_ij表示第i个分类器输出的该对象属于第j个类别的概率。

所述融合模块22为强化学习模型，该强化学习模型例如为行为-评判算法模型，其中包括策略网络221和价值网络222。基于由所述分类模块21输出的概率矩阵P(如标注s1的椭圆形中的灰色框所示)、以及该强化学习模型对于M个类别中每个类别的分类准确率(如图中标注s1的椭圆形中的白色框所示)，可获取该强化学习模型的第一状态s1。将状态s1输入策略网络221，该策略网络221将对N个分类器的分类结果进行融合输出该对象的预测类别，作为与第一状态s1对应的动作a1。基于动作a1，环境的状态将发生变化，即，该强化学习模型对于M个类别中每个类别的分类准确率发生变化，从而，可基于该变化获取第二状态s2，另外，基于该动作a1，可获取针对该动作的反馈作为回报值r1，该反馈例如由所述业务人员提供。基于s1、s2和r1，可进行对价值网络222的训练。基于训练后的价值网络的输出可计算优势函数A(s1，a1)，并可基于A(s1，a1)、s1、a1进行对策略网络221的训练，从而使得强化学习模型11再次进行预测时输出的动作的总收益增大。

可以理解，图2只是对本说明书实施例的示意说明，并不用于限制上述融合系统的构成。例如，所述融合系统不限于用于上述智能客服的场景，而可以用于任何需要对分类模型进行融合的场景中，例如，在推送场景中，可通过多个分类器输出针对某用户的基于多个推送对象的推送概率矩阵，并通过融合系统融合多个分类器的输出而获取针对该用户的推送对象。另外，所述强化学习模型不限于为行为-评判算法模型，而可以为其它强化学习模型，如策略梯度模型、Q学习模型等。

图3示出根据本说明书实施例的一种基于强化学习模型对多个分类模型进行融合的方法流程图，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述方法包括：

步骤S302，获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；

步骤S304，将所述第一状态信息输入所述强化学习模型；

步骤S306，通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

首先，在步骤S302，获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率。

如前文参考图1所述，用于输入强化学习模型的状态信息为预定时刻的环境的状态信息，该环境包括该模型的预测对象和该模型自身，因此，所述第一状态信息s1应包括所述多个分类器的信息和该模型自身的信息，也就是说，所述多个分类模型各自的对所述第一对象的分类结果是当前环境中的多个分类器的信息，当前强化学习模型对于所述多个预定类别中每个类别的分类准确率是当前环境中的强化学习模型的信息。

参考前文对图2中的描述，假设所述多个分类模型为N个分类模型，其可包括不同类型的分类模型(如逻辑回归模型、GBDT模型、神经网络模型等)，也可以包括基于不同的训练数据训练的参数不同的同类型模型。相同的是，所述N个分类模型都基于M个类别对所述对象进行分类。例如，所述待分类对象是购物平台中用户提出的问题，所述M个类别例如包括订单类、物流类、售后类等多个类别。

基于N个分类模型的模型类型的区别，其输出的分类结果也可能不相同。在一个实施例中，所述分类模型输出所述待分类对象属于每个类别的概率，从而每个分类模型针对该对象输出M个概率值。基于N个分类模型各自的M个概率值，可获取N*M的概率矩阵P，即，该该矩阵的元素P_ij表示第i个分类器输出的该对象属于第j个类别的概率，其中1≤i≤N，1≤j≤M。可以理解，所述多个分类模型的分类结果不限于以所述概率矩阵P的形式表示，例如，每个分类模型的分类结果为该分类模型预测的所述对象的类别，从而所述N个分类模型的分类结果包括与所述N个分类模型分别对应的N个类别标识。

所述当前强化学习模型对于所述多个预定类别中每个类别的分类准确率可基于该强化学习模型已预测的最近的预定数目(例如一万个)的样本的分类情况计算获取。所述“最近的”例如可以为从当前开始的过去预定时段内的时间，例如过去一周的。如前文所述，在例如智能客服场景中，通过强化学习模型预测用户问题的类型，从而使得与该问题的类型对应的业务人员进行与该用户的沟通。从而，业务人员在经过与用户的沟通之后，可确定该强化学习模型预测的问题类型是否准确地符合用户的要求，从而确定该强化学习模型预测的问题类型是否正确。即，可通过所述业务人员的反馈获得模型预测结果的标签值。例如，所述一万个样本中，有1000个样本对应的模型预测结果是A类，基于该1000个样本的标签值，可确定预测正确的样本为600个，则该强化学习模型对于A类的分类准确率为60％。类似地，可基于该10000个样本获取所述M个类别中其它类别的准确率，即，可获取与M个类别分别对应的M个准确率。

也就是说，所述第一状态信息s1可包括N*M的矩阵数据和M个准确率，即共(N+1)*M个因子。

在步骤S304，将所述第一状态信息输入所述强化学习模型，在步骤S306，通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

如上文对图2的描述，所述强化学习模型例如为Actor-critic模型，其中包括策略网络和价值网络。所述策略网络和价值网络为神经网络模型，其分别例如为CNN模型、DNN模型、RNN模型中的一个，在此不特别限定。

在所述强化学习模型例如为Actor-critic模型的情况中，通过其中的策略网络进行对第一对象的预测，因此，将所述第一状态信息s1输入策略网络。所述策略网络中包括关于状态s和动作a的策略函数π(a|s，θ),其中，θ为策略网络的参数，π(a|s，θ)为在状态s下采用动作a的概率。所述动作a即为所述M个类别中的类别标识。在对策略网络输入第一状态信息s1之后，在策略网络中计算各个类别a_i对应概率π(a_i|s1，θ)，从而可将概率最大的类别确定为该第一对象的预测类别a1。

可以理解，如上文所述，所述强化学习模型不限于使用行为-评判算法，而可以使用其它算法，如Q学习算法、策略梯度算法等，在使用这些算法的强化学习模型中，可同样地，基于输入的第一状态信息输出预测的对象类别。

在通过上述步骤通过所述强化学习模型预测所述第一对象的类别之后，也就是说，该强化学习模型进行了动作a1，该动作a1将对环境产生影响，具体是，该次预测的类别将对模型相对于a1类别的预测准确率产生影响，从而使得环境的状态从s1变为s2。同时，该强化学习模型进行了动作a1之后，环境会对该动作a1产生相应的反馈，从而可基于该反馈确定与a1对应的回报值r1。这里，在不同的场景中，环境的反馈可以具有不同的形式，在一个实施例中，例如如上文所述，在智能客服场景中使用该强化学习模型，并在由该模型预测了用户的问题的类别a1之后，使得与该类别对应的业务人员与该用户进行沟通。从而，该业务人员在与该用户进行沟通之后，可确定模型预测的类别a1是否符合用户的需求，从而给出该类别a1是否正确的反馈。基于该反馈可确定与该a1对应的回报值，例如，当业务人员确定该预测正确的情况下，可使得r1＝1，当业务人员确定该预测不正确的情况下，可使得r1＝-1。可以理解，所述反馈不限于由业务人员给出，例如，所述强化学习模型可预测用户提出问题的标问类别，并将相应标问的回复发送给用户，在该情况中，所述反馈也可以为用户对所述回复的评分，等等。另外，所述回报值不限于为上述数值(1,-1)，而可以根据需要进行设定，例如，在正确的情况下，可设定r1＝1，在不正确的情况下，可设定r1＝0，其中，只要满足前者大于后者即可。在一个实施例中，由于在强化学习模型中，其发出的每个动作都会对后续的行为产生影响，从而还可以基于所述强化学习模型在确定所述第一对象的类别之后的预定时段内的分类准确率确定所述回报值r1。

在所述强化学习模型为基于行为-评判算法(AC算法)的模型的情况中，在获取上述环境的保护s2和回报值r1之后，可进行对该强化学习模型的一次训练。在对该模型进行训练时，通常，首先训练其中的价值网络，然后使用更新的价值网络训练策略网络。下面说明根据本说明实施例的对所述强化学习模型的训练过程。

图4示出了根据本说明书实施例的对图2中的价值网络进行训练的方法流程图，包括：

步骤S402，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；

步骤S404，获取与所述强化学习模型的该次分类对应的回报值；

步骤S406，基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

首先，在步骤S402，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率。

所述第二状态信息即上述s2，其与s1类似地，包括：所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率。其中，s2中的所述多个分类模型各自的对所述第一对象的分类结果与s1中的该部分是相同的，而s2中的当前强化学习模型对于所述多个预定类别中a1类别的分类准确率由于经过预测了a1之后，相对于s1中的相应部分产生了变化。

在步骤S404，获取与所述强化学习模型的该次分类对应的回报值。

该回报值即为上述r1，对其的获取和取值可参考上文中的描述，在此不再赘述。

在步骤S406，基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

对于该价值网络，可通过如下公式(1)所示的损失函数L_v进行训练：

L_v＝(r1+γV(s2，θ′)-V(s1，θ′))² (1)

其中V(s，θ′)为价值网络针对输入的s的输出价值，也即与状态s对应的模型总收益，θ’为该价值网络中的参数，γ为折扣系数，取值范围为[0,1]。通过例如梯度下降法，可通过如下的公式(2)更新价值网络的参数：

参考上述公式(1)和(2)可见，通过输入r1、s1和s2，可调整价值网络的参数，使得价值网络的损失函数值减小，也即，使得V(s1)更接近r+γV(s2)，这里，r+γV(s2)即为V(s1)的标签值，也即，使得价值网络输出的V值更准确。

根据AC算法，通过训练后的价值网络可获取与所述第一偏好信息对应的优势函数的值，该优势函数的值可用于训练策略网络。如公式(3)所示，所述优势函数的值基于所述第一回报值、与所述第一状态信息s1对应的总收益V(s1)、以及与所述第二状态信息s2对应的总收益V(s2)获取，

A(s1，a1)＝r1+γV(s2)-V(s1) (3)

基于该优势函数A，可通过以下公式(4)更新策略网络的参数θ:

从而，结合公式(3)和(4)可以得出，基于r1、V(s1)、V(s2)、s1，a1，可更新所述策略网络的参数θ。

图5示出根据本说明书实施例的一种基于强化学习模型对多个分类模型进行融合的装置500，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述装置包括：

第一获取单元51，配置为，获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；

输入单元52，配置为，将所述第一状态信息输入所述强化学习模型；

确定单元53，配置为，通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

在一个实施例中，所述强化学习模型包括策略网络，其中，所述确定单元53还配置为，通过策略网络基于所述第一状态信息计算所述多个预定类别的各个类别的分类概率，并基于各个预定类别的分类概率，确定所述第一对象的类别。

在一个实施例中，所述强化学习模型还包括价值网络，所述装置还包括，第二获取单元54，配置为，在通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别之后，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；第三获取单元55，配置为，获取与所述强化学习模型的该次分类对应的回报值；第一训练单元56，配置为，基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

在一个实施例中，所述装置还包括，第二训练单元57，配置为，在基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络之后，基于所述第一回报值、所述价值网络相对于所述第一状态信息的输出、所述价值网络相对于所述第二状态信息的输出、所述第一状态信息、以及通过所述强化学习模型确定的所述第一对象的类别，训练所述策略网络。

需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习模型对多个分类模型进行融合的方法，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述方法包括：

将所述第一状态信息输入所述强化学习模型；

2.根据权利要求1所述的方法，其中，所述多个分类模型各自的对所述第一对象的分类结果以概率矩阵表示，其中，所述概率矩阵中第i行、第j列的元素表示所述多个分类模型中的第i个分类模型输出的所述第一对象属于所述多个预定类别中第j个预定类别的概率。

3.根据权利要求1所述的方法，其中，所述当前强化学习模型对于所述多个预定类别中每个类别的分类准确率基于所述强化学习模型在过去预定时段内对于样本中每个类别的分类准确率获取。

4.根据权利要求1所述的方法，其中，所述强化学习模型包括策略网络，其中，通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别包括，通过策略网络基于所述第一状态信息计算所述多个预定类别的各个类别的分类概率，并基于各个预定类别的分类概率，确定所述第一对象的类别。

5.根据权利要求4所述的方法，其中，所述强化学习模型还包括价值网络，所述方法还包括，在通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别之后，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；获取与所述强化学习模型的该次分类对应的回报值；基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

6.根据权利要求5所述的方法，还包括，在基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络之后，基于所述第一回报值、所述价值网络相对于所述第一状态信息的输出、所述价值网络相对于所述第二状态信息的输出、所述第一状态信息、以及通过所述强化学习模型确定的所述第一对象的类别，训练所述策略网络。

7.根据权利要求5所述的方法，其中，与所述强化学习模型的该次分类对应的回报值基于该次分类是否正确而确定。

8.根据权利要求7所述的方法，其中，所述强化学习模型用于将用户的问题分类到相应类别，以使得与该相应类别对应的业务人员进行对所述问题的回复，其中由所述业务人员对该次分类是否正确进行标定。

9.根据权利要求5所述的方法，其中，与所述强化学习模型的该次分类对应的回报值基于所述强化学习模型在确定所述第一对象的类别之后的预定时段内的分类准确率确定。

10.一种基于强化学习模型对多个分类模型进行融合的装置，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述装置包括：

11.根据权利要求10所述的装置，其中，所述多个分类模型各自的对所述第一对象的分类结果以概率矩阵表示，其中，所述概率矩阵中第i行、第j列的元素表示所述多个分类模型中的第i个分类模型输出的所述第一对象属于所述多个预定类别中第j个预定类别的概率。

12.根据权利要求10所述的装置，其中，所述当前强化学习模型对于所述多个预定类别中每个类别的分类准确率基于所述强化学习模型在过去预定时段内对于样本中每个类别的分类准确率获取。

13.根据权利要求10所述的装置，其中，所述强化学习模型包括策略网络，其中，所述确定单元还配置为，通过策略网络基于所述第一状态信息计算所述多个预定类别的各个类别的分类概率，并基于各个预定类别的分类概率，确定所述第一对象的类别。

14.根据权利要求13所述的装置，其中，所述强化学习模型还包括价值网络，所述装置还包括，第二获取单元，配置为，在通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别之后，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；第三获取单元，配置为，获取与所述强化学习模型的该次分类对应的回报值；第一训练单元，配置为，基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

15.根据权利要求14所述的装置，还包括，第二训练单元，配置为，在基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络之后，基于所述第一回报值、所述价值网络相对于所述第一状态信息的输出、所述价值网络相对于所述第二状态信息的输出、所述第一状态信息、以及通过所述强化学习模型确定的所述第一对象的类别，训练所述策略网络。

16.根据权利要求14所述的装置，其中，与所述强化学习模型的该次分类对应的回报值基于该次分类是否正确而确定。

17.根据权利要求16所述的装置，其中，所述强化学习模型用于将用户的问题分类到相应类别，以使得与该相应类别对应的业务人员进行对所述问题的回复，其中由所述业务人员对该次分类是否正确进行标定。

18.根据权利要求14所述的装置，其中，与所述强化学习模型的该次分类对应的回报值基于所述强化学习模型在确定所述第一对象的类别之后的预定时段内的分类准确率确定。

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。