CN109461001A

CN109461001A - 基于第二模型获取第一模型的训练样本的方法和装置

Info

Publication number: CN109461001A
Application number: CN201811230432.6A
Authority: CN
Inventors: 陈岑; 周俊; 陈超超; 李小龙
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2019-03-12
Anticipated expiration: 2038-10-22
Also published as: CN109461001B; WO2020082828A1; US20210174144A1; TW202016831A; SG11202100499XA

Abstract

本说明书实施例提供一种基于第二模型获取第一模型的训练样本的方法和装置，所述方法包括：获取至少一个第一样本，每个第一样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；以及将所述至少一个第一样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第一样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第一样本中获取用于训练所述第一模型的第一训练样本集，其中，所述输出值预测是否选择相应的第一样本作为训练样本。

Description

基于第二模型获取第一模型的训练样本的方法和装置

技术领域

本说明书实施例涉及机器学习，更具体地，涉及一种基于第二模型获取第一模型的训练样本的方法和装置。

背景技术

在例如支付宝的支付平台中，每天都有上亿的现金交易，其中有非常小的比例的欺诈交易。因此，需要通过反欺诈模型把欺诈交易识别出来，所述反欺诈模型例如为交易可信模型、反套现模型、盗卡盗账户模型等等。为了训练上述反欺诈模型，通常将欺诈交易作为正例，将非欺诈交易作为负例。通常，正例会远远少于负例，比如说在千分之一，万分之一，十万分之一。因此，直接应用传统的机器学习训练方法训练上述反欺诈模型时，很难训练好该模型。目前已有的解决方案是对正例进行升采样，或者对负例进行降采样。

因此，需要一种更有效的获取模型的训练样本的方案。

发明内容

本说明书实施例旨在提供一种更有效的获取模型的训练样本的方案，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种基于第二模型获取第一模型的训练样本的方法，包括：

获取至少一个第一样本，每个第一样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；以及

将所述至少一个第一样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第一样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第一样本中获取用于训练所述第一模型的第一训练样本集，其中，所述输出值预测是否选择相应的第一样本作为训练样本。

在一个实施例中，所述第二模型包括与输入的样本的特征数据对应的概率函数、基于所述概率函数计算选择该样本作为所述第一模型的训练样本的概率，并基于该概率输出相应的输出值，所述第二模型通过以下训练步骤训练：

获取至少一个第二样本，每个第二样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；

将所述至少一个第二样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第二样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第二样本中确定所述第一模型的第二训练样本集，其中，所述输出值预测是否选择相应的第二样本作为训练样本；

使用所述第二训练样本集训练所述第一模型，获取训练后的第一模型基于预定多个测试样本的第一预测损失；

基于所述第一预测损失计算与所述第二模型的多次输出对应的回报值；以及

基于所述至少一个第二样本的特征数据、所述第二模型中与各个特征数据分别对应的概率函数、所述第二模型分别相对于各个特征数据的各个输出值、及所述回报值，通过策略梯度算法训练所述第二模型。

在一个实施例中，所述方法还包括，在获取训练后的第一模型基于预定多个测试样本的第一预测损失之后，将所述第一模型恢复为该训练之前的模型。

在一个实施例中，所述回报值等于初始预测损失减去所述第一预测损失之差，其中，所述方法还包括:

在获取至少一个第二样本之后，从所述至少一个第二样本随机获取初始训练样本集；以及

使用所述初始训练样本集训练所述第一模型，获取该训练后的第一模型基于所述多个测试样本的初始预测损失。

在一个实施例中，所述训练步骤循环多次，所述回报值等于当前训练的上一次训练中的第一预测损失减去当前训练中的所述第一预测损失之差。

在一个实施例中，所述至少一个第一样本与所述至少一个第二样本相同或不同。

在一个实施例中，所述第一模型为反欺诈模型，所述特征数据为交易的特征数据，所述标签值指示该交易是否为欺诈交易。

本说明书另一方面提供一种基于第二模型获取第一模型的训练样本的装置，包括：

第一样本获取单元，配置为，获取至少一个第一样本，每个第一样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；以及

输入单元，配置为，将所述至少一个第一样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第一样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第一样本中获取用于训练所述第一模型的第一训练样本集，其中，所述输出值预测是否选择相应的第一样本作为训练样本。

在一个实施例中，所述第二模型包括与输入的样本的特征数据对应的概率函数、基于所述概率函数计算选择该样本作为所述第一模型的训练样本的概率，并基于该概率输出相应的输出值，所述第二模型通过训练装置训练，所述训练装置包括：

第二样本获取单元，配置为，获取至少一个第二样本，每个第二样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；

输入单元，配置为，将所述至少一个第二样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第二样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第二样本中确定所述第一模型的第二训练样本集，其中，所述输出值预测是否选择相应的第二样本作为训练样本；

第一训练单元，配置为，使用所述第二训练样本集训练所述第一模型，获取训练后的第一模型基于预定多个测试样本的第一预测损失；

计算单元，配置为，基于所述第一预测损失计算与所述第二模型的多次输出对应的回报值；以及

第二训练单元，配置为，基于所述至少一个第二样本的特征数据、所述第二模型中与各个特征数据分别对应的概率函数、所述第二模型分别相对于各个特征数据的各个输出值、及所述回报值，通过策略梯度算法训练所述第二模型。

在一个实施例中，所述装置还包括恢复单元，配置为，在通过第一训练单元获取训练后的第一模型基于预定多个测试样本的第一预测损失之后，将所述第一模型恢复为该训练之前的模型。

在一个实施例中，所述回报值等于初始预测损失减去所述第一预测损失之差，其中，所述装置还包括:

随机获取单元，配置为，在获取至少一个第二样本之后，从所述至少一个第二样本随机获取初始训练样本集；以及

初始训练单元，配置为，使用所述初始训练样本集训练所述第一模型，获取该训练后的第一模型基于所述多个测试样本的初始预测损失。

在一个实施例中，所述训练装置循环实施多次，所述回报值等于当前实施的训练装置的上一次实施的训练装置中的第一预测损失减去当前实施的训练装置中的所述第一预测损失之差。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

反欺诈模型与传统的机器学习模型最大的差别是正例和负例比例非常悬殊，为了克服该问题，最常用的方案就是对正样本进行升采样，或者对负样本进行降采样。升采样正例或者降采样负例需要手动设置一个比例，不合适的比例对于模型影响很大；升采样正例或者降采样负例都是人为的改变了数据的分布，训练出来的模型会有偏差。通过根据本说明书实例的基于强化学习选择反欺诈模型的训练样本的方案，可以通过深度强化学习来自动选择样本，用来训练反欺诈模型，从而提高反欺诈模型的预测损失。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示出根据本说明书实施例的获取模型训练样本的系统100的示意图；

图2示出根据本说明书实施例的一种基于第二模型获取第一模型的训练样本的方法；

图3示出根据本说明书实施例的训练第二模型的方法的流程图；

图4示出根据本说明书实施例的一种基于第二模型获取第一模型的训练样本的装置400；以及

图5示出根据本说明书实施例的用于训练所述第二模型的训练装置500。

具体实施方式

下面将结合附图描述本说明书实施例。

图1示出根据本说明书实施例的获取模型训练样本的系统100的示意图。如图1所示，系统100包括第二模型11和第一模型12。其中，第二模型11为深度强化学习模型，其基于输入的样本的特征数据获取选择该样本作为所述第一模型的训练样本的概率，并基于该概率输出相应的输出值，所述输出值预测是否选择相应的第一样本作为训练样本。所述第一模型12为监督学习模型，其例如为反欺诈模型，所述样本例如包括交易的特征数据和交易的标签值，所述标签值指示该交易是否为欺诈交易。在获取一批多个样本之后，可利用该批样本在第二模型11和第一模型12之间进行交替训练。其中，通过第一模型12对第二模型11的输出的反馈，通过策略梯度方法训练第二模型11。可基于第二模型11的输出从该批样本获取第一模型12的训练样本，以训练第一模型12。

上述对系统100的描述只是示意性的，根据本说明书实施例的系统100不限于此，例如，用于训练第二模型和第一模型的样本不需要是成批的，而是也可以是单个的，所述第一模型12不限于为反欺诈模型等等。

图2示出根据本说明书实施例的一种基于第二模型获取第一模型的训练样本的方法，包括：

在步骤S202，获取至少一个第一样本，每个第一样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；以及

在步骤S204，将所述至少一个第一样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第一样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第一样本中获取用于训练所述第一模型的第一训练样本集，其中，所述输出值预测是否选择相应的第一样本作为训练样本。

首先，在步骤S202，获取至少一个第一样本，每个第一样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应。如上文所述，第一模型例如为反欺诈模型，其为监督学习模型，通过标注样本进行训练，用于基于输入的交易的特征数据预测该交易是否为欺诈交易。所述至少一个第一样本即为将用于训练第一模型的候选样本，其包括的特征数据例如为交易的特征数据，例如，交易时间、交易金额、交易物品名称、物流相关特征等等。所述特征数据例如以特征向量的形式表示。所述标签值例如为对相应样本对应的交易是否为欺诈交易的标注，例如，其可以为0或1，当标签值为1时，表示该交易为欺诈交易，当标签值为0时，表示该交易不是欺诈交易。

所述第二模型为深度强化学习模型，其训练过程将在下文详细描述。所述第二模型中包括神经网络，基于各个样本对应的交易的特征数据确定是否选择该交易作为第一模型的训练样本。即，第二模型的输出值例如为0或1，例如，当输出值为1时，表示选择该样本作为训练样本，当输出值为0时，表示不选择该样本作为训练样本。从而，将所述至少一个第一样本的特征数据分别输出第二模型之后，可分别从第二模型输出对应的输出值(0或1)。根据与所述至少一个第一样本分别对应的输出值，可获取第二模型选择的第一样本集作为第一模型的训练样本集，即第一训练样本集。如果第二模型已经是经过多次训练的模型，则相比于从至少一个第一样本随机获取的训练样本集、或者通过人为的调整正负样本采用比例获取的训练样本集等，通过使用上述第一训练样本集训练第一模型将使得第一模型基于预定多个测试样本的预测损失更小。

可以理解，如参考图1中所述，在本说明书实施例中，对第二模型的训练和对第一模型的训练基本上是交替进行的，而不是在第二模型训练完成之后，再训练第一模型。因此，在训练的初始阶段，通过基于第二模型的输出训练第一模型，所获取的第一模型的预测损失有可能不是更优的，而是随着模型训练次数的增多，第一模型的预测损失逐渐减小。本文中的预测损失都是相对于相同的预定多个预测样本而言的。该预测样本包括特征数据和标签值，与第一样本一样，预测样本包括的特征数据例如为交易的特征数据，标签值例如用于指示该交易是否为诈骗交易。所述预测损失例如为第一模型对各个预测样本的预测值与相应的标签值之差的平方和、绝对值和、以及平方和的平均值、绝对值的平均值等等。

在一个实施例中，将多个第一样本分别输入第二模型，以分别判断各个第一样本是否为第一模型的训练样本。从而，第一训练样本集包括多个选出的第一样本，从而以该多个选出的第一样本训练第一模型。在一个实施例中，将单个第一样本输入第二模型，以判断是否选择该第一样本作为第一模型的训练样本。在第二模型的输出为是的情况中，以该第一样本训练第一模型，在第二模型的输出为否的情况中，则不训练第一模型，即，第一训练样本集中包括的训练样本为0个。

图3示出根据本说明书实施例的训练第二模型的方法的流程图，包括：

在步骤S302，获取至少一个第二样本，每个第二样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；

在步骤S304，将所述至少一个第二样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第二样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第二样本中确定所述第一模型的第二训练样本集，其中，所述输出值预测是否选择相应的第二样本作为训练样本；

在步骤S306，使用所述第二训练样本集训练所述第一模型，获取训练后的第一模型基于预定多个测试样本的第一预测损失；

在步骤S308，基于所述第一预测损失计算与所述第二模型的多次输出对应的回报值；以及

在步骤S310，基于所述至少一个第二样本的特征数据、所述第二模型中与各个特征数据分别对应的概率函数、所述第二模型分别相对于各个特征数据的各个输出值、及所述回报值，通过策略梯度算法训练所述第二模型。

如上文所述，第二模型为深度强化学习模型，其包括与输入的样本的特征数据对应的概率函数、基于所述概率函数计算选择该样本作为所述第一模型的训练样本的概率，并基于该概率输出相应的输出值，所述第二模型是通过策略梯度方法训练的。在该训练方法中，第二模型相当于强化学习中的决策者(agent)，第一模型相当于强化学习中的环境(Environment)，第二模型的输入为强化学习中的状态(s_i)，第二模型的输出为强化学习中的动作(a_i)。第二模型的输出(即第二训练样本集)影响环境，使得环境产生反馈(即回报值r)，从而通过该回报值r训练第一模型，以产生新的动作(新的训练样本集)，以使得环境的反馈更好，也即，第二模型的预测损失更小。

其中，步骤S302和步骤S304与图2中的步骤S202和步骤S204基本相同，所不同的是，这里，所述至少一个第二样本是用于训练第二模型的，所述至少一个第一样本是用于训练第一模型的。可以理解，所述至少一个第一样本可以与所述至少一个第二样本相同，即，在通过至少一个第二样本训练第二模型之后，将所述至少一个第二样本输入训练好的第二模型，从而从至少一个第二样本中选择第一模型的训练样本以训练第一模型。另外，不同在于，所述第一训练样本集是用于训练第一模型的，即，训练之后，将改变第一模型的模型参数。第二训练样本集是用于借助于训练第一模型的结果来训练第二模型，在一个实施例中，在使用第二训练样本集训练第一模型之后，可将第一模型恢复为该训练之前的模型，即，该训练可改变或不改变第一模型的模型参数。

在步骤S306，使用所述第二训练样本集训练所述第一模型，获取训练后的第一模型基于预定多个测试样本的第一预测损失。

对第一预测损失的获取可参考上文对步骤S204中的相关描述，在此不再赘述。这里，与第一训练样本集类似地，在至少一个第二样本为单个第二样本的情况中，第二训练样本集可能包括0个或1个第二样本。在第二训练样本集包括0个样本的情况中，即，未使用样本训练第一模型，因此第二模型也未得到训练。在第二训练样本集包括1个样本的情况中，可使用该样本训练第一模型，并相应地获取第一预测损失。

在一个实施例中，在获取训练后的第一模型基于预定多个测试样本的第一预测损失之后，可将第一模型恢复为该训练之前的模型。

在步骤S308，基于所述第一预测损失计算与所述第二模型的多次输出对应的回报值。

如上文所述，该第二模型为深度强化学习模型，其通过策略梯度算法进行训练。例如，该至少一个第二样本包括n个样本s₁、s₂…、s_n，其中n大于等于1。将上述n个样本输入第二模型构成一个情节(episode)，第二模型在完成该情节之后，获取第二训练样本集，在通过该第一训练样本集训练第一模型之后，获取一个回报值。即，通过该情节中的n个样本共同获取该回报值，即该回报值也就是该情节中每个样本的长期回报。

在一个实施例中，仅基于所述至少一个第二样本训练一次第二模型。在该情况中，所述回报值等于初始预测损失减去所述第一预测损失之差，即回报值r＝l₀-l₁其中，所述初始预测损失通过如下获取:

使用所述初始训练样本集训练所述第一模型，获取该训练后的第一模型基于所述多个测试样本的初始预测损失。同样地，在获取该训练后的第一模型基于所述多个测试样本的初始预测损失之后，可将所述第一模型恢复为该训练之前的模型。

在一个实施例中，基于所述至少一个第二样本多次训练第二模型，其中，在每次通过图3所示的方法训练第二模型之后(其中，包括恢复第一模型的步骤)，便通过图2所示方法训练第一模型，如此循环多次。在该情况中，所述回报值可以等于初始预测损失减去所述第一预测损失之差，初始预测损失通过上文所述步骤获取，即r＝l₀-l₁。或者，在该情况中，所述回报值也可以上一次的所述策略梯度方法(图3所示方法)中的第一预测损失减去当前策略梯度方法中的所述第一预测损失之差,即，r_i＝l_i-1-l_i，其中，i为循环次数并大于等于2。可以理解，在该情况中，该循环中的第一次方法的回报值可等于初始预测损失减去所述第一预测损失之差，即r₁＝l₀-l₁，其中，l₀如上文所述获取。

在一个实施例中，基于所述至少一个第二样本多次循环训练第二模型，其中，在通过图3所示的策略梯度方法多次训练第二模型之后(其中，在每次训练中包括恢复第一模型的步骤)，再通过图2所示方法训练第一模型，即，在基于所述至少一个第二样本多次训练第二模型的过程中，所述第一模型保持不变。在该情况中，所述回报值等于所述循环中的上一次的所述策略梯度方法中的第一预测损失减去当前策略梯度方法中的所述第一预测损失之差,即，r_i＝l_i-1-l_i，其中，i为循环次数并大于等于2。可以理解，在该情况中，该循环中的第一次方法的回报值同样等于初始预测损失减去所述第一预测损失之差，即r₁＝l₀-l₁，其中，l₀如上文所述获取。

在一个实施例中，基于所述至少一个第二样本多次循环训练第二模型，其中，在每次训练中不包括恢复第一模型的步骤，即，在基于所述至少一个第二样本多次训练第二模型的过程中，也同时训练所述第一模型。在该情况中，所述回报值可等于所述循环中的上一次的所述策略梯度方法中的第一预测损失减去当前策略梯度方法中的所述第一预测损失之差,即，r_i＝l_i-1-l_i，其中，i为循环次数并大于等于2。可以理解，在该情况中，该循环中的第一次方法的回报值同样等于初始预测损失减去所述第一预测损失之差，即r₁＝l₀-l₁，其中，l₀如上文所述获取。

可以理解，所述回报值的计算方式不限于上文所述，而是可以根据具体的情况、预定的计算精度等条件进行具体设计。

在步骤S310,基于所述至少一个第二样本的特征数据、所述第二模型中与各个特征数据分别对应的概率函数、所述第二模型分别相对于各个特征数据的各个输出值、及所述回报值，通过策略梯度算法训练所述第二模型。

所述第二模型的策略函数可如公式(1)所示：

π_θ(s_i,a_i)＝P_θ(a_i|s_i)＝a_iσ(W*F(s_i)+b)+(1-a_i)(1-σ(W*F(s_i)+b)) (1)

其中，a_i为1或0,θ为第二模型包括的参数，σ(·)为sigmoid函数，其具有参数{W,b}。其中，F(s_i)为第二模型的神经网络基于特征向量s_i获取的隐藏层特征向量，该神经网络的输出层进行所述sigmoid函数计算，从而获取σ(W*F(s_i)+b)，即a_i＝1的概率。例如，当该概率大于0.5时，将a_i取值为1，当该概率小于等于0.5时，将a_i取值为0。如公式(1)所示，当a_i取值为1时，可获得以如下公式(2)表示的策略函数：

π_θ(s_i,a_i＝1)＝P_θ(a_i＝1|s_i)＝s(W*F(s_i)+b) (2)

当a_i取值为0时，可获得以如下公式(3)表示的策略函数：

π_θ(s_i,a_i＝0)＝P_θ(a_i＝0|s_i)＝1-σ(W*F(s_i)+b) (3)

根据策略梯度算法，对于一个情节的输入状态s₁、s₂…s_n，通过第二模型输出的对应的动作a₁、a₂、…a_n，及该情节对应的值函数v，所述第二模型的损失函数如公式(4)所示：

L＝-v∑_ilogπ_θ(s_i,a_i) (4)

其中，如上文所述，v为如上文所述通过第一模型获取的回报值。从而，可通过例如梯度下降法，如公式(5)所示更新第二模型的参数θ：

其中，α为梯度下降法中的一次参数更新的步长。

结合公式(1)至公式(4)，在v>0的情况中，即第二模型在该情节中的选择都得到了正向回报。其中，对于a_i＝1的样本，即，该样本为第一模型选择作为训练样本的样本，策略函数如公式(3)所示，π_θ(s_i,a_i＝1)越大，损失函数L越小。对于a_i＝0的样本，即，该样本为第一模型选择不作为训练样本的样本，策略函数如公式(4)所示，π_θ(s_i,a_i＝0)越小，损失函数L越小。从而，在通过梯度下降法如公式(5)所示调整第二模型的参数θ之后，使得a_i＝1的样本的π_θ(s_i,a_i＝1)更大，使得a_i＝0的样本的π_θ(s_i,a_i＝0)更小。也就是说，基于第一模型反馈的回报值，当回报值为正值时，训练第二模型，使得已选择的样本的选择概率更大，使得未选择的样本的选择概率更小，从而强化第二模型。在v<0的情况中，类似地，训练第二模型，使得已选择的样本的选择概率更小，使得未选择的样本的选择概率更大，从而强化第二模型。

如上文所述，在一个实施例中，仅基于所述至少一个第二样本训练一次第二模型，r＝l₀-l₁，其中，l₀的获取可参考上文步骤S308中的描述。也就是说，在第二模型的该情节中，v＝r＝l₀-l₁。在该情况中，如果l₁<l₀,即，v>0,通过第二训练样本集训练的第一模型的预测损失相比于随机获取的训练样本集训练的第一模型的预测损失较小。因此，通过调整第二模型的参数，使得该情节中选择的样本的选择概率更大，使得该情节中未选择样本的选择概率更小。同样地，如果l₁>l₀，即v<0，通过调整第二模型的参数，使得该情节中选择的样本的选择概率更小，使得该情节中未选择样本的选择概率更大。

在一个实施例中，基于所述至少一个第二样本多次循环训练第二模型，其中，在通过图3所示的策略梯度方法多次训练第二模型之后，再通过图2所示方法使用所述至少一个第二样本训练第一模型。在该情况中，每次循环j对应于第二模型的一个情节，其中，每次循环的回报值r_j＝l_j-1-l_j。可与上文类似地，基于在每次循环的训练中v＝r_j＝l_j-1-l_j的正负，进行该次循环中对第二模型的参数调整，从而强化第二模型。

通过对第二模型的上述强化训练，可以优化对第一模型的训练样本的选择，从而使得第一模型的预测损失更小。

在一个实施例中，在如图1所示训练第一模型和第二模型的过程中，第二模型可能首先收敛。在该情况中，在获取一批训练样本之后，可直接执行图2所示的方法，进行对第一模型的训练，而不需要再进行对第二模型的训练。即，在该情况中，该批样本为图2所示方法中的至少一个第一样本。

图4示出根据本说明书实施例的一种基于第二模型获取第一模型的训练样本的装置400，包括：

第一样本获取单元41，配置为，获取至少一个第一样本，每个第一样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；以及

输入单元42，配置为，将所述至少一个第一样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第一样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第一样本中获取用于训练所述第一模型的第一训练样本集，其中，所述输出值预测是否选择相应的第一样本作为训练样本。

图5示出根据本说明书实施例的用于训练所述第二模型的训练装置500，包括：

第二样本获取单元51，配置为，获取至少一个第二样本，每个第二样本包括特征数据和标签值，所述标签值与第一模型的预测值相对应；

输入单元52，配置为，将所述至少一个第二样本的特征数据分别输入所述第二模型以使得第二模型分别基于各个第二样本的特征数据进行多次输出，并基于所述第二模型分别输出的各个输出值，从所述至少一个第二样本中确定所述第一模型的第二训练样本集，其中，所述输出值预测是否选择相应的第二样本作为训练样本；

第一训练单元53，配置为，使用所述第二训练样本集训练所述第一模型，获取训练后的第一模型基于预定多个测试样本的第一预测损失；

计算单元54，配置为，基于所述第一预测损失计算与所述第二模型的多次输出对应的回报值；以及

第二训练单元55，配置为，基于所述至少一个第二样本的特征数据、所述第二模型中与各个特征数据分别对应的概率函数、所述第二模型分别相对于各个特征数据的各个输出值、及所述回报值，通过策略梯度算法训练所述第二模型。

在一个实施例中，所述装置500还包括恢复单元56，配置为，在通过第一训练单元获取训练后的第一模型基于预定多个测试样本的第一预测损失之后，将所述第一模型恢复为该训练之前的模型。

在一个实施例中，所述回报值等于初始预测损失减去所述第一预测损失之差，其中，所述装置500还包括:

随机获取单元57，配置为，在获取至少一个第二样本之后，从所述至少一个第二样本随机获取初始训练样本集；以及

初始训练单元58，配置为，使用所述初始训练样本集训练所述第一模型，获取该训练后的第一模型基于所述多个测试样本的初始预测损失。

说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于第二模型获取第一模型的训练样本的方法，包括：

2.根据权利要求1所述的方法，其中，所述第二模型包括与输入的样本的特征数据对应的概率函数、基于所述概率函数计算选择该样本作为所述第一模型的训练样本的概率，并基于该概率输出相应的输出值，所述第二模型通过以下训练步骤训练：

3.根据权利要求2所述的方法，还包括，在获取训练后的第一模型基于预定多个测试样本的第一预测损失之后，将所述第一模型恢复为该训练之前的模型。

4.根据权利要求2或3所述的方法，所述回报值等于初始预测损失减去所述第一预测损失之差，其中，所述方法还包括:

5.根据权利要求2或3所述的方法，其中，所述训练步骤循环多次，所述回报值等于当前训练的上一次训练中的第一预测损失减去当前训练中的所述第一预测损失之差。

6.根据权利要求2所述的方法，其中，所述至少一个第一样本与所述至少一个第二样本相同或不同。

7.根据权利要求1所述的方法，其中，所述第一模型为反欺诈模型，所述特征数据为交易的特征数据，所述标签值指示该交易是否为欺诈交易。

8.一种基于第二模型获取第一模型的训练样本的装置，包括：

9.根据权利要求8所述的装置，其中，所述第二模型包括与输入的样本的特征数据对应的概率函数、基于所述概率函数计算选择该样本作为所述第一模型的训练样本的概率，并基于该概率输出相应的输出值，所述第二模型通过训练装置训练，所述训练装置包括：

10.根据权利要求9所述的装置，还包括恢复单元，配置为，在通过所述第一训练单元获取训练后的第一模型基于预定多个测试样本的第一预测损失之后，将所述第一模型恢复为该训练之前的模型。

11.根据权利要求9或10所述的装置，所述回报值等于初始预测损失减去所述第一预测损失之差，其中，所述装置还包括:

12.根据权利要求9或10所述的装置，其中，所述训练装置循环实施多次，所述回报值等于当前实施的训练装置的上一次实施的训练装置中的第一预测损失减去当前实施的训练装置中的所述第一预测损失之差。

13.根据权利要求9所述的装置，其中，所述至少一个第一样本与所述至少一个第二样本相同或不同。

14.根据权利要求8所述的装置，其中，所述第一模型为反欺诈模型，所述特征数据为交易的特征数据，所述标签值指示该交易是否为欺诈交易。

15.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。