CN114493885A

CN114493885A - 策略组合的优化方法及装置

Info

Publication number: CN114493885A
Application number: CN202210321635.6A
Authority: CN
Inventors: 顾咏丰; 丁皓; 吴华
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-05-13

Abstract

本说明书实施例提供一种策略组合的优化方法及装置。所述方法涉及对用于识别风险用户的策略组合的多轮次迭代更新，其中任一轮次包括：在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；对伯努利分布进行随机采样；在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

Description

策略组合的优化方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种策略组合的优化方法及装置。

背景技术

随着社会的发展和科技的进步，涌现出越来越多的业务平台，为用户提供各种服务，以满足用户在生活、工作中的各种需求。在业务平台向用户提供服务的过程中，往往涉及利用预先制定的策略进行与服务相关的决策，例如，信贷平台利用预设策略判别某个用户是否为风险用户，从而决策是否向其提供信用贷款服务。

实际，为优化决策效果，会对多个策略进行组合使用，因此，需要一种方案，能够从策略池中挑选出足够优良的策略子集，以有效提高业务决策效果。

发明内容

本说明书一个或多个实施例描述策略组合的优化方法及装置，在策略组合的迭代过程中引入接受概率，使得多次迭代中不总是添加最优解，而是一定概率接受次优策略，从而增大找到最优策略组合的概率。

根据第一方面，提供一种策略组合的优化方法，涉及对用于识别风险用户的策略组合的多轮次迭代更新，其中任一轮次包括：在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；对伯努利分布进行随机采样；在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

在一个实施例中，在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合，包括：针对策略总集中未被包含在所述当前策略组合中的各个可选策略，将其分别添加至该当前策略组合，得到多个第一策略组合。

在一个实施例中，对伯努利分布进行随机采样，包括：根据本轮对应的轮次数，确定本轮接受次优策略的概率，此概率与所述轮次数负相关；对以所述概率为参数的伯努利分布进行所述随机采样。

在一个实施例中，对伯努利分布进行随机采样，包括：确定各个第一策略组合针对多个风险用户样本的识别效果评分；根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值，确定所述概率，此概率与所述差值正相关；对以所述概率为参数的伯努利分布进行所述随机采样。

在一个实施例中，基于所述多个第一策略组合随机选取某个第一策略组合，包括：根据各个第一策略组合针对多个风险用户样本的识别效果评分，从所述多个第一策略组合中确定出识别效果评分排在预设名次范围内的多个第二策略组合；从所述多个第二策略组合中随机选取出某个第二策略组合，对应某个第一策略组合。

在一个具体的实施例中，从所述多个第二策略组合中随机选取出某个第二策略组合，包括：确定各个第二策略组合本轮被选中的概率，形成对应的概率分布；通过对所述概率分布进行随机抽样，得到所述某个第二策略组合。

进一步，在一个示例中，确定各个第二策略组合本轮被选中的概率，包括：针对所述各个第二策略组合，根据其识别效果评分确定其本轮被选中的概率，此概率与其识别效果评分正相关。

在另一个示例中，确定各个第二策略组合本轮被选中的概率，形成对应的概率分布，包括：根据所述多个第二策略组合的数量，确定所述各个第二策略组合本轮被选中的概率，形成均匀分布。

在一个具体的实施例中，在对伯努利分布进行随机采样后，还包括：在采样结果指示本轮不接受次优策略的情况下，根据各个第一策略组合针对多个风险用户样本的识别效果评分，选取识别效果评分最高的第一策略组合，作为本轮更新后的当前策略组合。

根据第二方面，提供一种策略组合的优化方法，涉及对用于执行目标判别任务的策略组合的多轮次迭代更新，其中任一轮次包括：在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；对伯努利分布进行随机采样；在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

在一个实施例中，对伯努利分布进行随机采样，包括：确定各个第一策略组合针对多个任务标注样本的识别效果评分；根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值，确定所述概率，此概率与所述差值正相关；对以所述概率为参数的伯努利分布进行所述随机采样。

根据第三方面，提供一种策略组合的优化装置，所述装置通过其包含的以下单元，执行对用于识别风险用户的策略组合的多轮次迭代更新中的任一轮次：策略添加单元，配置为在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；随机采样单元，配置为对伯努利分布进行随机采样；组合更新单元，配置为在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

在一个实施例中，所述随机采样单元具体配置为：确定各个第一策略组合针对多个风险用户样本的识别效果评分；根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值，确定所述概率，此概率与所述差值正相关；对以所述概率为参数的伯努利分布进行所述随机采样。

根据第四方面，提供一种策略组合的优化装置，所述装置通过其包含的以下单元，对用于执行目标判别任务的策略组合进行多轮次迭代更新中的任一轮次：策略添加单元，配置为在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；随机采样单元，配置为对伯努利分布进行随机采样；组合更新单元，配置为在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

在一个实施例中，所述随机采样单元具体配置为：确定各个第一策略组合针对多个任务标注样本的识别效果评分；根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值，确定所述概率，此概率与所述差值正相关；对以所述概率为参数的伯努利分布进行所述随机采样。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，该处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

采用本说明书实施例提供的方法和装置，在对用于识别风险用户的策略组合进行迭代的过程中引入接受概率，使得多次迭代中不总是添加最优概率，而是以一定概率接受次优策略，从而使得算法能够跳出局部最优，逼近或找到全局最优的策略组合，进而有效提升针对风险用户的识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的策略组合优化的实施流程示意图；

图2示出根据一个实施例的策略组合的优化方法流程示意图；

图3示出根据另一个实施例的策略组合的优化方法流程图；

图4示出根据一个实施例的策略组合的优化装置结构示意图；

图5示出根据另一个实施例的策略组合的优化装置结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

承前所述，在许多业务场景中，策略池（或称策略总集）中存在数以千计的大量备选策略（或称规则），需要从中挑选出最优策略子集，用于执行对应场景下的业务决策。在一种实施方式中，在对策略组合进行初始化后，利用贪心算法向其中逐个增加策略，直到满足停止准则，将此时输出的策略组合作为最终使用的策略组合。然而，在此种实施方式中，每一步只关注最优规则，这会缩小搜索范围，导致最终使策略组合陷入局部最优。

基于以上观察和分析，发明人提出另一种实施方式，针对策略组合的每轮次迭代更新，不总是添加最优策略，而是以一定概率接受次优策略，从而使得算法能够跳出局部最优，找到或者逼近全局最优策略组合。图1示出根据一个实施例的策略组合优化的实施流程示意图。如图1所示，针对每一轮次，在当前最新策略组合的基础上分别添加不同策略，从而得到备选的多个策略组合，再计算该轮次迭代中接受次优策略的概率，从而确定本轮次是否接受次优策略，并在确定出接受的情况下，基于备选的多个策略组合随机选取某个策略组合，作为本轮迭代更新后得到的策略组合；否则，选择多个策略组合中决策效果最好的策略组合，作为本轮迭代更新后得到的策略组合。

下面结合实施例，描述上述发明构思的具体实现步骤。图2示出根据一个实施例的策略组合的优化方法流程示意图，所述方法的执行主体可以为任何具有计算、处理能力的装置、平台或设备集群等。所述方法涉及对用于识别风险用户的策略组合的多轮次迭代更新，其中风险用户是指存在风险的用户。如图2所示，任一轮次的迭代更新包括以下步骤：

步骤S210，在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；步骤S220，对伯努利分布进行随机采样；步骤S230，在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

对以上步骤的展开介绍如下：

首先，在步骤S210，在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合。对于其中的当前策略组合，在一个实施例中，在本轮迭代（或称当前轮次迭代）为首轮的情况下，当前策略组合可以为被初始化为空集的策略组合；在另一个实施例中，在本轮迭代并非首轮的情况下，当前策略组合可以为经由上一轮迭代更新而产生的策略组合。为区分描述，将被包含在当前策略组合中一个或多个策略称为已选策略，将未被包含在当前策略组合中的策略称为可选策略。

需说明，上述已选策略和可选策略均来自用于识别风险用户的策略池，策略池中的大量策略可以通过多种渠道进行采集而得到，例如，可以由一线业务人员进行制定等。另外，其中各个策略包括基于用户特征设定的判别条件和对应的判别结果，例如，形如IF<条件>THEN<判断结果>。示例性地，某个策略为：IF <用户曾经有不良交易记录> and <用户现阶段欠钱不还> THEN <该用户为风险用户>。

在一个实施例中，本步骤可以实施为：针对策略池中未被包含在当前策略组合中的各个可选策略，将其分别添加至当前策略组合，得到多个第一策略组合。在另一个实施例中，本步骤可以实施为：对于策略池中未被包含在当前策略组合中的所有可选策略，先从中采样预定数量的可选策略，再将之分别添加至当前策略组合，得到预定数量的第一策略组合，作为上述多个第一策略组合。

由上，可以得到多个第一策略组合。然后，在步骤S220，对伯努利分布进行随机采样。为便于理解，为伯努利分布的概念进行简单介绍。具体，如果随机变量X只有两个取值a和b，并且相应的概率为P(X=a)=p，P(X=b)=1-p，其中0＜p＜1，则称随机变量X服从参数为p的伯努利分布。在本说明书披露的实施例中，两个取值a和b分别对应接受在当前策略组合中添加次优策略和不接受在当前策略组合中添加次优策略，对于后者换言之，要求在当前策略组合中添加最优策略。另外，最优策略是指被添加到当前策略组合后使得当前策略组合对风险用户的识别效果最好的策略，次优策略是指多个可选策略中除最优策略以外的其他策略。

对于本轮用到的伯努利分布的参数p_i，在一个实施例中，其可以由人工设定而得到，例如，设定每轮次对应的p_i均为0.5。在另一个实施例中，可以根据本轮对应的轮次数i而确定。在一个具体的实施例中，本轮接受次优策略的概率p_i与轮次数i负相关，也就是说，随着轮次数的增加，接受次优策略的概率减小。在一个示例中，可以通过下式计算概率p_i：

p=exp(-i) （1）

在又一个实施例中，可以根据各个第一策略组合针对多个风险用户样本的识别效果评分，确定参数p_i。对于风险用户样本，在一个具体的实施例中，其包括对应用户的特征数据，比如，用户的历史交易数据（如交易金额、是否被投诉），享受信用服务的服务数据（如是否违约、信用分值等）。在另一个具体的实施例中，其包括对应用户涉及的异常交易金额。在又一个具体的实施例中，风险用户样本包括对应用户涉及的正常交易金额。

另一方面，对于识别效果评分的确定，可以实施为：针对任意的第一策略组合，利用其基于多个风险用户样本的用户特征进行风险用户识别，并根据识别出的若干风险用户，确定该第一策略组合的识别效果评分。进一步，在一个具体的实施例中，可以根据该若干风险用户所对应异常交易金额的和值，确定相对应的第一策略组合的识别效果评分。在一个示例中，可以直接将该异常交易金额的和值确定为识别效果评分。在另一个示例中，可以将该和值在所有风险用户样本所涉及异常交易金额的总值中的占比，确定为对应的识别效果评分。在另一个具体的实施例中，可以计算该若干风险用户中各个风险用户所对应的异常交易金额与正常交易金额之间的比值，从而将该若干风险用户所对应若干比值的和值确定为该第一策略组合对应的识别效果评分。在又一个具体的实施例中，可以将若干风险用户的数量确定为识别效果评分。

由此，可以确定出多个第一策略组合对应的多个识别效果评分。需说明，识别效果评分与识别效果之间可以是正向关系，即，评分越高则识别效果越好，也可以是反向关系。为清楚简洁描述，文中以二者成正向关系为主进行示例性说明。

进一步，可以根据上述确定出的多个识别效果评分确定参数p_i，在一个具体的实施例中，确定该多个识别效果评分中的最小值和最大值，并计算该最小值减去最大值而得到的差值△E_i，从而确定出与该差值△E_i正相关的概率p_i。示例性地，可以采用下示公式（2）计算概率p_i：

p_i=exp(△E_i) （2）

在另一个具体的实施例中，可以基于上述差值△E_i与最大值的比值，确定出与此比值正相关的概率p_i。

以上，分别对基于本轮对应的轮次数和基于识别效果评分进行概率p_i的确定进行介绍，实际，还可以同时基于两者确定确定概率p_i。比如，可以确定出与轮次数i负相关且与差值△E_i正相关的概率p_i。示例性地，可以基于以下公式计算概率p_i：

p_i=exp(△E_i/(max_iter/i)) （3）

上式中，max_iter表示人工设定的最大迭代轮次数。

由上，可以确定出本轮用到的伯努利分布的参数p_i，进而从对应的伯努利分布中随机进行采样，采样的结果要么指示本轮接受次优策略，要么指示不接受次优策略。

步骤S230，在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

在一个实施例中，可以先确定出全部或部分包含次优策略的第一策略组合，再从中选取某个第一策略组合，用于更新当前策略组合。具体，先获取多个第一策略组合对应的多个识别效果评分，再从除识别效果评分最高的第一策略组合以外的其他第一策略组合中，确定出识别效果评分排在预设名次范围内的多个第二策略组合，进而从该多个第二策略组合中随机选取出某个第二策略组合，需理解，此某个第二策略组合被对应作为上述某个第一策略组合。示例性地，对多个识别效果评分进行从高到低的排序，此时，上述预设名次范围可以是第2名至第N（例如，设定N=20）名。

对于上述从多个第二策略组合中随机选取出某个第二策略组合，可以实施为：确定各个第二策略组合本轮被选中的概率，形成对应的概率分布；通过对该概率分布进行随机抽样，得到所述某个第二策略组合。需理解，离散型概率分布包括随机变量的各个离散值以及各个离散值对应的概率，在本说明书实施例中，各个离散值对应各个第二策略组合。

在一个具体的实施例中，针对各个第二策略组合，根据其识别效果评分确定其本轮被选中的概率，此概率与其识别效果评分正相关。在一个示例中，对于任意的第j个第二策略组合，可以采用下式（4）计算其对应的概率q_j，从而形成对应的指数型概率分布。

（4）

上式中，

表示第j个第二策略组合的识别效果评分。

在另一个示例中，可以采用下式（5）计算概率q_j，从而形成对应的轮盘赌分布。

（5）

如此，可以根据第j个第二策略组合对应的识别效果评分，确定对应的概率q_j。

在另一个具体的实施例中，可以根据上述多个第二策略组合的数量，确定各个第二策略组合在本轮被选中的概率，形成对应的均匀分布。示例性地，任意的第j个第二策略组合对应的概率q_j可以采用下式（6）计算：

（6）

由上，可以确定出与第二策略组合对应的随机变量所服从的概率分布。从而，通过对该概率分布进行随机抽样，可以得到抽样出的某个第二策略组合，作为本轮更新后的当前策略组合。

在另一个实施例中，可以直接对上述多个第一策略组合进行随机抽样，从而抽样出某个第一策略组合，作为本轮更新后的当前策略组合。具体，可以先确定各个第一策略组合被选中的概率，形成对应的概率分布，再从该概率分布中进行随机抽样，得到抽样出的某个第一策略组合。需说明，对于此处概率和概率分布的确定，可以参照前述实施例中的相关描述，不作赘述。

由上，可以实现将随机选取的某个第一策略组合作为本轮更新后的当前策略组合。

根据另一方面的实施例，在上述步骤S220之后，所述方法还包括：在针对伯努利的随机采样结果指示本轮不接受次优策略的情况下，根据各个第一策略组合针对多个风险用户样本的识别效果评分，选取识别效果评分最高的第一策略组合，作为本轮更新后的当前策略组合。

根据又一方面的实施例，在上述步骤S230之后，所述方法还可以包括：判断本轮更新后的当前策略组合是否达到预设的停止迭代标准，在判断出达到的情况下，将其确定为最终用于识别风险用户的策略组合，否则继续进行迭代。在一个具体的实施例中，判断本轮迭代更新之前和之后的当前策略组合的识别效果评分之间的差值是否小于预设阈值；在判断出小于的情况下认为达到预设的停止迭代标准。在另一个具体的实施例中，判断本轮迭代对应的轮次是否达到预定次数，在判断出达到预定次数的情况下认为达到预设标准。如此，通过对策略组合进行多轮次迭代，可以得到最终使用的全局最优策略组合。

综上，采用本说明书实施例披露的策略组合的优化方法，在对用于识别风险用户的策略组合进行迭代的过程中引入接受概率，使得多次迭代中不总是添加最优概率，而是以一定概率接受次优策略，从而使得算法能够跳出局部最优，逼近或找到全局最优的策略组合，进而有效提升针对风险用户的识别效果。

以上，主要对将策略组合优化方法应用于风险用户识别场景进行介绍，实际，此方法还可以应用于其他的判别任务场景，例如，最大配送覆盖、设备异常检测问题等场景，其中最大配送覆盖问题的诉求在于选择最佳骑手子集来覆盖更多的配送区域。对此，图3示出根据另一个实施例的策略组合的优化方法流程示意图，所述方法的执行主体可以为任何具有计算、处理能力的装置、平台或设备集群等。所述方法涉及对用于识别风险用户的策略组合的多轮次迭代更新，其中任一轮次的迭代更新包括图3中示出的以下步骤：

步骤S310，在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合。需理解，当前策略组合中的已选策略和该多个可选策略均来自策略池。示例性地，在上述目标判别任务为设备异常检测任务的情况下，策略池中的某个策略为：若设备温度高于200度且转速低于10r/s，则判定设备异常。

步骤S320，对伯努利分布进行随机采样。在一个实施例中，可以根据各个第一策略组合对多个任务标注样本的识别效果评分，确定伯努利分布的参数p，进而进行所述随机采样。示例性地，假定上述目标判别任务为机器设备的异常检测，此时，任务标注样本可以为异常设备样本，其中包括异常设备的温度、湿度、压力等多项指标数据。进一步，可以将利用任意的第一策略组合识别出的异常设备数量作为该第一策略组合的识别效果评分。

步骤S330，在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

需说明，对图3示出的方法步骤的介绍，还可以参见对图2示出的方法步骤的描述。

综上，采用本说明书实施例披露的策略组合的优化方法，在对用于执行目标判别任务的策略组合进行迭代的过程中引入接受概率，使得多次迭代中不总是添加最优概率，而是以一定概率接受次优策略，从而使得算法能够跳出局部最优，逼近或找到全局最优的策略组合，进而有效提升针对业务对象的识别效果。

与上述策略组合的优化方法相对应的，本说明书实施例还披露策略组合的优化装置。图4示出根据一个实施例的策略组合的优化装置结构示意图，所述装置可以实现为任何具有计算、处理能力的服务器或设备集群等。如图4所示，所述装置400通过其包含的以下单元，执行对用于识别风险用户的策略组合的多轮次迭代更新中任一轮次的迭代更新：

策略添加单元410，配置为在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；随机采样单元420，配置为对伯努利分布进行随机采样；组合更新单元430，配置为在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

在一个实施例中，策略添加单元410具体配置为：针对策略总集中未被包含在所述当前策略组合中的各个可选策略，将其分别添加至该当前策略组合，得到多个第一策略组合。

在一个实施例中，随机采样单元420具体配置为：根据本轮对应的轮次数，确定本轮接受次优策略的概率，此概率与所述轮次数负相关；对以所述概率为参数的伯努利分布进行所述随机采样。

在另一个实施例中，随机采样单元420具体配置为：确定各个第一策略组合针对多个风险用户样本的识别效果评分；根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值，确定所述概率，此概率与所述差值正相关；对以所述概率为参数的伯努利分布进行所述随机采样。

在一个实施例中，组合更新单元430包括：第一更新子单元431，配置为根据各个第一策略组合针对多个风险用户样本的识别效果评分，从所述多个第一策略组合中确定出识别效果评分排在预设名次范围内的多个第二策略组合；第二更新子单元432，配置为从所述多个第二策略组合中随机选取出某个第二策略组合，对应某个第一策略组合。

在一个具体的实施例中，第二更新子单元432具体配置为：确定各个第二策略组合本轮被选中的概率，形成对应的概率分布；通过对所述概率分布进行随机抽样，得到所述某个第二策略组合。

在一个示例中，第二更新子单元432进一步配置为：针对所述各个第二策略组合，根据其识别效果评分确定其本轮被选中的概率，此概率与其识别效果评分正相关。

在另一个示例中，第二更新子单元432进一步配置为：根据所述多个第二策略组合的数量，确定所述各个第二策略组合本轮被选中的概率，形成均匀分布。

在一个实施例中，所述组合更新单元430还配置为：在采样结果指示本轮不接受次优策略的情况下，根据各个第一策略组合针对多个风险用户样本的识别效果评分，选取识别效果评分最高的第一策略组合，作为本轮更新后的当前策略组合。

综上，采用本说明书实施例披露的策略组合的优化装置，在对用于识别风险用户的策略组合进行迭代的过程中引入接受概率，使得多次迭代中不总是添加最优概率，而是以一定概率接受次优策略，从而使得算法能够跳出局部最优，逼近或找到全局最优的策略组合，进而有效提升针对风险用户的识别效果。

图5示出根据另一个实施例的策略组合的优化装置结构示意图，所述装置可以实现为任何具有计算、处理能力的服务器或设备集群等。如图5所示，所述装置500通过其包含的以下单元，对用于执行目标判别任务的策略组合进行多轮次迭代更新中任一轮次的迭代更新：

策略添加单元510，配置为在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；随机采样单元520，配置为对伯努利分布进行随机采样；组合更新单元530，配置为在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

在一个实施例中，策略添加单元510具体配置为：针对策略总集中未被包含在所述当前策略组合中的各个可选策略，将其分别添加至该当前策略组合，得到多个第一策略组合。

在一个实施例中，随机采样单元520具体配置为：根据本轮对应的轮次数，确定本轮接受次优策略的概率，此概率与所述轮次数负相关；对以所述概率为参数的伯努利分布进行所述随机采样。

在另一个实施例中，随机采样单元520具体配置为：确定各个第一策略组合针对多个任务标注样本的识别效果评分；根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值，确定所述概率，此概率与所述差值正相关；对以所述概率为参数的伯努利分布进行所述随机采样。

在一个实施例中，组合更新单元530包括：第一更新子单元531，配置为根据各个第一策略组合针对多个任务标注样本的识别效果评分，从所述多个第一策略组合中确定出识别效果评分排在预设名次范围内的多个第二策略组合；第二更新子单元532，配置为从所述多个第二策略组合中随机选取出某个第二策略组合，对应某个第一策略组合。

在一个具体的实施例中，第二更新子单元532具体配置为：确定各个第二策略组合本轮被选中的概率，形成对应的概率分布；通过对所述概率分布进行随机抽样，得到所述某个第二策略组合。

在一个示例中，第二更新子单元532进一步配置为：针对所述各个第二策略组合，根据其识别效果评分确定其本轮被选中的概率，此概率与其识别效果评分正相关。

在另一个示例中，第二更新子单元532进一步配置为：根据所述多个第二策略组合的数量，确定所述各个第二策略组合本轮被选中的概率，形成均匀分布。

在一个实施例中，所述组合更新单元530还配置为：在采样结果指示本轮不接受次优策略的情况下，根据各个第一策略组合针对多个任务标注样本的识别效果评分，选取识别效果评分最高的第一策略组合，作为本轮更新后的当前策略组合。

综上，采用本说明书实施例披露的策略组合的优化装置，在对用于执行目标判别任务的策略组合进行迭代的过程中引入接受概率，使得多次迭代中不总是添加最优概率，而是以一定概率接受次优策略，从而使得算法能够跳出局部最优，逼近或找到全局最优的策略组合，进而有效提升针对业务对象的识别效果。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图3所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种策略组合的优化方法，涉及对用于识别风险用户的策略组合的多轮次迭代更新，其中任一轮次包括：

在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；

对伯努利分布进行随机采样；

在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

2.根据权利要求1所述的方法，其中，在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合，包括：

针对策略总集中未被包含在所述当前策略组合中的各个可选策略，将其分别添加至该当前策略组合，得到多个第一策略组合。

3.根据权利要求1所述的方法，其中，对伯努利分布进行随机采样，包括：

根据本轮对应的轮次数，确定本轮接受次优策略的概率，此概率与所述轮次数负相关；

对以所述概率为参数的伯努利分布进行所述随机采样。

4.根据权利要求1所述的方法，其中，对伯努利分布进行随机采样，包括：

确定各个第一策略组合针对多个风险用户样本的识别效果评分；

根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值，确定所述概率，此概率与所述差值正相关；

对以所述概率为参数的伯努利分布进行所述随机采样。

5.根据权利要求1所述的方法，其中，基于所述多个第一策略组合随机选取某个第一策略组合，包括：

根据各个第一策略组合针对多个风险用户样本的识别效果评分，从所述多个第一策略组合中确定出识别效果评分排在预设名次范围内的多个第二策略组合；

从所述多个第二策略组合中随机选取出某个第二策略组合，对应某个第一策略组合。

6.根据权利要求5所述的方法，其中，从所述多个第二策略组合中随机选取出某个第二策略组合，包括：

确定各个第二策略组合本轮被选中的概率，形成对应的概率分布；

通过对所述概率分布进行随机抽样，得到所述某个第二策略组合。

7.根据权利要求6所述的方法，其中，确定各个第二策略组合本轮被选中的概率，包括：

针对所述各个第二策略组合，根据其识别效果评分确定其本轮被选中的概率，此概率与其识别效果评分正相关。

8.根据权利要求6所述的方法，其中，确定各个第二策略组合本轮被选中的概率，形成对应的概率分布，包括：

根据所述多个第二策略组合的数量，确定所述各个第二策略组合本轮被选中的概率，形成均匀分布。

9.根据权利要求1所述的方法，其中，在对伯努利分布进行随机采样后，还包括：

在采样结果指示本轮不接受次优策略的情况下，根据各个第一策略组合针对多个风险用户样本的识别效果评分，选取识别效果评分最高的第一策略组合，作为本轮更新后的当前策略组合。

10.一种策略组合的优化方法，涉及对用于执行目标判别任务的策略组合的多轮次迭代更新，其中任一轮次包括：

对伯努利分布进行随机采样；

11.根据权利要求10所述的方法，其中，对伯努利分布进行随机采样，包括：

确定各个第一策略组合针对多个任务标注样本的识别效果评分；

对以所述概率为参数的伯努利分布进行所述随机采样。

12.一种策略组合的优化装置，所述装置通过其包含的以下单元，执行对用于识别风险用户的策略组合的多轮次迭代更新中的任一轮次：

策略添加单元，配置为在当前策略组合的基础上分别添加多个可选策略，得到多个第一策略组合；

随机采样单元，配置为对伯努利分布进行随机采样；

组合更新单元，配置为在采样结果指示本轮接受次优策略的情况下，基于所述多个第一策略组合随机选取某个第一策略组合，作为本轮更新后的当前策略组合。

13.根据权利要求12所述的装置，其中，所述随机采样单元具体配置为：

对以所述概率为参数的伯努利分布进行所述随机采样。

14.一种策略组合的优化装置，所述装置通过其包含的以下单元，对用于执行目标判别任务的策略组合进行多轮次迭代更新中的任一轮次：

随机采样单元，配置为对伯努利分布进行随机采样；

15.根据权利要求14所述的装置，其中，所述随机采样单元具体配置为：

对以所述概率为参数的伯努利分布进行所述随机采样。

16.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项所述的方法。

17.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。