CN111310814A

CN111310814A - 利用不平衡正负样本对业务预测模型训练的方法及装置

Info

Publication number: CN111310814A
Application number: CN202010082439.9A
Authority: CN
Inventors: 王宝坤
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2020-06-19
Also published as: WO2021155706A1

Abstract

本说明书实施例提供了一种利用不平衡正负样本对业务预测模型训练的方法及装置。在该方法中，第一训练样本集中的正样本的数量小于负样本的数量，在训练模型时，将任意的第一样本输入二分类的业务预测模型，得到第一样本为预定种类的第一预测概率，根据第一预测概率和第一样本的标签确定第一样本的第一预测损失；如果第一标签指示第一样本为正样本，则根据第一系数和第一预测损失的乘积确定调整后的损失；如果第一标签指示第一样本为负样本，则根据第二系数和第一预测损失的乘积确定调整后的损失，并根据第一训练样本集中各个样本调整后的损失之和，更新业务预测模型，通过第一系数大于第二系数，增加正样本的损失占比。

Description

利用不平衡正负样本对业务预测模型训练的方法及装置

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及利用不平衡正负样本对业务预测模型训练的方法及装置。

背景技术

神经网络模型在计算机视觉、自然语言处理领域都取得了远超传统方法的效果，现在已经成为人工智能领域非常主流的方法。在对神经网络模型进行训练时，可以采集大量的样本数据，并依据针对样本数据标注的标签，对神经网络模型进行训练，以使得神经网络模型对输入数据的预测结果与标注的标签逐渐接近。样本可以包括正样本和负样本，正样本为需要神经网络模型学习的某一类别的样本，负样本为不属于该类别的样本。在某种应用场景中，正样本的样本数量可能非常少。例如在风控场景中，存在风险的用户的数量非常少，可能是无风险用户的百分之一或者千万分之一。这就导致正负样本的不平衡性，这种不平衡性不利于对神经网络模型的训练。

因此，希望能有改进的方案，可以在正负样本不平衡的情况下提高神经网络模型训练的准确性。

发明内容

本说明书一个或多个实施例描述了利用不平衡正负样本对业务预测模型训练的方法及装置，以便在正负样本不平衡的情况下提高业务预测模型训练的准确性。具体的技术方案如下。

第一方面，实施例提供了一种利用不平衡正负样本对业务预测模型训练的方法，通过计算机执行，所述方法包括：

获取第一训练样本集；其中，所述第一训练样本集中的样本种类包括正样本和负样本，正样本的数量小于负样本的数量，所述第一训练样本集具有各个样本的标签；

将所述第一训练样本集中任意的第一样本输入二分类的业务预测模型，得到所述第一样本为预定种类的第一预测概率；所述第一样本具有第一标签；

根据所述第一预测概率，确定所述第一样本为所述第一标签指示的样本种类的第二预测概率；

根据所述第二预测概率，确定所述第一样本的第一预测损失；

如果所述第一标签指示所述第一样本为正样本，则根据第一系数和所述第一预测损失的乘积确定调整后的损失；如果所述第一标签指示所述第一样本为负样本，则根据第二系数和所述第一预测损失的乘积确定调整后的损失；其中，所述第一系数大于所述第二系数；

根据所述第一训练样本集中各个样本调整后的损失之和，更新所述业务预测模型。

在一种实施方式中，所述根据所述第一预测概率，确定所述第一样本为所述第一标签指示的样本种类的第二预测概率的步骤，包括：

当所述预定种类与所述第一标签指示的样本种类相同时，将所述第一预测概率确定为所述第二预测概率；

当所述预定种类与所述第一标签指示的样本种类相反时，将1减去所述第一预测概率得到的差值，确定为所述第二预测概率。

在一种实施方式中，所述根据所述第二预测概率，确定所述第一样本的第一预测损失的步骤，包括：

基于第二预测概率的对数的绝对值，确定所述第一样本的第一预测损失。

基于所述第二预测概率的对数的绝对值，确定所述第一样本的第一预测损失中的第一项；

确定与所述第二预测概率的大小成负相关的第二项；

基于第一项和所述第二项的乘积，确定所述第一样本的第一预测损失。

在一种实施方式中，所述确定与所述第二预测概率的大小成负相关的第二项的步骤，包括：

基于预设概率与所述第二预测概率的差值的绝对值，确定第二项。

在一种实施方式中，所述确定与所述第二预测概率的大小成负相关的第二项的步骤，包括：基于所述第二预测概率的倒数，确定第二项。

在一种实施方式中，在确定所述第一样本为所述第一标签指示的样本种类的第二预测概率之后，还包括：

当第二预测概率小于预设概率阈值时，将所述第一样本添加至难分样本池；

当所述难分样本池中的样本数量大于预设数量阈值时，基于所述难分样本池中的样本和对应的标签生成第二训练样本集；

基于所述第二训练样本集对所述业务预测模型进行训练。

在一种实施方式中，所述业务预测模型包括深度神经网络DNN、卷积神经网络CNN和循环神经网络RNN中的一种；

所述样本包括：文本、图像、音频、行为事件、对象数据中的至少一种。

第二方面，实施例提供了一种利用不平衡正负样本对业务预测模型训练的装置，通过计算机执行，所述装置包括：

样本获取模块，配置为获取第一训练样本集；其中，所述第一训练样本集中的样本种类包括正样本和负样本，正样本的数量小于负样本的数量，所述第一训练样本集具有各个样本的标签；

概率预测模块，配置为将所述第一训练样本集中任意的第一样本输入二分类的业务预测模型，得到所述第一样本为预定种类的第一预测概率；所述第一样本具有第一标签；

概率确定模块，配置为根据所述第一预测概率，确定所述第一样本为所述第一标签指示的样本种类的第二预测概率；

损失确定模块，配置为根据所述第二预测概率，确定所述第一样本的第一预测损失；

损失调整模块，配置为如果所述第一标签指示所述第一样本为正样本，则根据第一系数和所述第一预测损失的乘积确定调整后的损失；如果所述第一标签指示所述第一样本为负样本，则根据第二系数和所述第一预测损失的乘积确定调整后的损失；其中，所述第一系数大于所述第二系数；

模型更新模块，配置为根据所述第一训练样本集中各个样本调整后的损失之和，更新所述业务预测模型。

在一种实施方式中，所述概率确定模块，具体配置为：

在一种实施方式中，所述损失确定模块，具体配置为：

确定与所述第二预测概率的大小成负相关的第二项；

在一种实施方式中，所述损失确定模块，确定与所述第二预测概率的大小成负相关的第二项时，包括：

在一种实施方式中，所述损失确定模块，确定与所述第二预测概率的大小成负相关的第二项时，包括：基于所述第二预测概率的倒数，确定第二项。

在一种实施方式中，还包括：

样本添加模块，配置为在确定所述第一样本为所述第一标签指示的样本种类的第二预测概率之后，当所述第二预测概率小于预设概率阈值时，将所述第一样本添加至难分样本池；

训练集生成模块，配置为当所述难分样本池中的样本数量大于预设数量阈值时，基于所述难分样本池中的样本和对应的标签生成第二训练样本集；

模型训练模块，配置为基于第二训练样本集对所述业务预测模型进行训练。

第三方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面任一项所述的方法。

第四方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面任一项所述的方法。

本说明书实施例提供的模型训练方法和装置，可以根据业务预测模型得到的第一样本为预定种类的第一预测概率，确定第一样本为第一标签指示的样本种类的第二预测概率，根据该第二预测概率确定第一样本的第一预测损失，并采用第一系数或第二系数对第一预测损失进行调整，当第一样本为正样本时对应第一系数，当第一样本为负样本时对应第二系数，且第一系数大于第二系数，这样即能够增加正样本的预测损失在所有样本损失中的比重。针对训练样本集中正样本数量小于负样本数量的情况，增加正样本的预测损失在所有样本损失中的比重，并根据修改后的预测损失对业务预测模型进行更新，能够提高正样本的预测损失在模型训练中的参考作用，进而提高业务预测模型训练的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例提供的模型训练的流程示意图；

图2为模型训练中各个阶段的示意图；

图3示出实施例中业务预测模型训练方法的一种流程示意图；

图4为图3中步骤S340确定第一预测损失L1的一种流程示意图；

图5示出DNN的一种神经网络结构以及基于该神经网络的一种参数更新流程示意图；

图6示出一个实施例中利用不平衡正负样本对业务预测模型训练的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

神经网络模型包含一系列运算和运算中的参数，这些参数可以称为模型参数。神经网络模型可以用于执行一定的业务预测，例如预测图像中的人脸区域，以及预测图像中的行人、车辆、障碍物，或者预测文本的通顺程度等等，这种神经网络模型可以称为业务预测模型。

在使用业务预测模型执行业务预测之前，可以采用样本对业务预测模型进行训练，不断地调整模型参数，使得通过业务预测模型对样本进行预测时，预测数据与标注数据能够尽可能地一致。

当业务预测模型为分类模型时，业务预测模型可以预测输入的样本属于某种分类的概率。图1为一个实施例提供的模型训练的流程示意图。其中，训练样本集包含大量的样本和对应的标签(label)，标签可以指示该样本所归属的分类。例如，图像的分类可以包含两种：有人的图像和无人的图像，或者是，清晰的图像和模糊的图像；用户可以包含两种：有风险用户和无风险用户，或者也可以包含三种：敏感用户、一般用户和不敏感用户等等。在一轮模型训练中，可以将样本输入神经网络模型，得到样本属于指定分类的概率，将该概率与标签进行比较得到预测损失，向减小预测损失的方向对神经网络模型进行更新。

图2为模型训练的各个阶段示意图。以上的模型训练可以包括样本准备、前向计算、误差计算和参数更新四个阶段。在样本准备阶段，可以搜集大量样本，并标注样本的标签。在前向计算阶段，神经网络模型根据输入的样本特征确定样本的预测分类。在误差计算阶段，根据预测分类与标签确定预测损失。在参数更新阶段，根据预测损失对神经网络模型的模型参数进行更新。

在二分类问题中，样本可以划分为两个分类，通常将属于目标分类的样本定义为正样本，将不属于目标分类的样本定义为负样本。目标分类可以理解为需要查找出来的分类。在典型应用场景中，对应于目标分类的正样本可以是具有安全风险的异常样本，负样本可以是正常样本。因此，基于神经网络模型的业务预测模型的训练目标可以为，从大量样本中识别出异常样本，从而保证业务系统安全。更具体的，例如，在风险控制场景中，将用户作为样本，并可以划分为有风险用户(异常用户)和无风险用户(正常用户)。当需要从大量用户中查找出来有风险用户时，有风险用户即为正样本，也称为黑样本。无风险用户即为负样本、白样本。在事件安全性分析场景中，可以将各种事件作为样本，例如交易事件、登录事件、浏览事件，等等，其中有安全风险的事件为异常事件，例如黑客攻击(不安全的登录事件)，欺诈交易(不安全的交易事件)等，这些可以作为正样本，其他事件为正常事件，作为负样本。

正样本是需要神经网络模型查找出的样本种类，负样本可以作为正样本的对比样本。利用正样本和负样本对神经网络模型进行训练，能够使得神经网络模型对分类边界的划分更准确，分类效果更好。

在实际的应用场景中，常常存在正负样本数量不平衡的问题。例如，在风控场景中，例如盗用风险、欺诈风险、作弊风险、借款逾期风险等场景中，正样本被定义为有风险用户，而有风险用户占所有用户的比例通常是百分之一、千分之一甚至万分之一。这种情况下正样本与负样本的比例在1:100、1:1000，甚至1:10000，正负样本的数量不平衡。

神经网络函数具有强大的拟合特性，对多数类样本学习的特征可能影响对少数类样本学习的特征，少数类样本可能被当成异常点在训练过程中被忽略掉。这样就导致神经网络模型对少数类样本的重视程度不够。因此，当训练样本集中的正负样本数量不平衡时，直接采用这样的训练样本集对业务预测模型进行训练，会遇到模型训练不充分的问题，导致模型训练效果不好、准确性不高。

为了解决正负样本不平衡导致的模型训练不准确的问题，可以从模型训练的样本准备、前向计算、误差计算和参数更新等阶段中选择某个阶段进行改进。为了保留样本的原有特征，并且在训练时间上尽可能不增加，以及实现较好的通用性，本说明书实施例提供了一种针对业务预测模型的训练方法，本方法对模型训练的误差计算阶段加以改进。

图3示出实施例提供的利用不平衡正负样本对业务预测模型训练的方法的流程示意图。该方法可以通过计算机执行，执行主体具体可以为任何具有计算、处理能力的装置、设备、平台或设备集群。该方法包括以下步骤S310～S360。步骤S310，获取第一训练样本集。步骤S320，将第一训练样本集中任意的第一样本输入二分类的业务预测模型，得到第一样本为预定种类的第一预测概率。步骤S330，根据第一预测概率，确定第一样本为第一标签指示的样本种类的第二预测概率。步骤S340，根据第二预测概率，确定第一样本的第一预测损失。步骤S350，如果第一标签指示第一样本为正样本，则根据第一系数和第一预测损失的乘积确定调整后的损失，如果第一标签指示第一样本为负样本，则根据第二系数和第一预测损失的乘积确定调整后的损失。步骤S360，根据第一训练样本集中各个样本调整后的损失之和，训练业务预测模型。下面对上述步骤进行详细说明。

在步骤S310中，获取第一训练样本集。其中，第一训练样本集中的样本种类包括正样本和负样本，正样本的数量小于负样本的数量，第一训练样本集具有各个样本的标签。第一训练样本集可以包括大量的样本。在步骤S320中，将第一训练样本集中任意的第一样本S1输入二分类的业务预测模型NN，得到第一样本S1为预定种类的第一预测概率P1。

上述样本可以包括：文本、图像、音频、行为事件、对象数据中的至少一种。行为事件可以包括各种交互事件，例如交易事件、登录事件、浏览事件，等等；对象数据可以理解为与实体对象相关的数据，例如注册用户的数据(例如用户属性、行为等数据)、城市道路数据(例如道路拥堵、道路建设等数据)。第一样本S1可以是正样本或者负样本，第一样本S1具有第一标签X1。

样本的标签的值y可以等于0或1，0代表负样本，1代表正样本。对应的，业务预测模型输出的预测概率的取值可以在[0，1]之间。

预定种类可理解为预先设定的样本种类。预定种类可以为正样本或者负样本。当预定种类为正样本时，第一预测概率P1表示该第一样本为正样本的预测概率。当预定种类为负样本时，第一预测概率P1表示该第一样本为负样本的预测概率。

在步骤S330中，根据第一预测概率P1，确定第一样本S1为第一标签X1指示的样本种类的第二预测概率P2。本步骤中，可以将预定种类与第一标签X1指示的样本种类进行比较。

当预定种类与第一标签X1指示的样本种类相同时，将第一预测概率P1确定为第二预测概率P2。当预定种类与第一标签X1指示的样本种类相反时，将1减去第一预测概率P1的差值，确定为第二预测概率P2。

例如，采用h表示第一预测概率P1的值，采用p表示第二预测概率P2的值。当第一预测概率P1为正样本的预测概率时：

当第一标签X1指示第一样本S1为正样本时，第二预测概率P2的值p＝h；

当第一标签X1指示第一样本S1为负样本时，第二预测概率P2的值p＝1-h。

在步骤S340中，根据第二预测概率P2，确定第一样本S1的第一预测损失L1。在本步骤中，可以基于第二预测概率P2的对数的绝对值，确定第一样本的第一预测损失L1。具体的，可以直接将第二预测概率P2的对数的绝对值，确定为第一样本S1的第一预测损失L1，也可以将对第二预测概率P2的对数的绝对值进行预设变换操作之后的结果确定为第一样本S1的第一预测损失L1。

例如，可以按照公式J(θ)＝-logp，确定第一样本S1的第一预测损失L1，其中，J(θ)为第一预测损失L1的取值，log为以10为底数的对数符号，p为第二预测概率P2的值，θ可以理解为模型参数。

再回顾一下步骤S320～S340，步骤S320中业务预测模型NN输出了第一样本S1为预定种类的第一预测概率P1，为了能够将标签和模型的预测结果进行比较，在步骤S330中通过表示第一样本S1为预定种类的第一预测概率P1，确定了表示第一样本S1为第一标签X1指示的样本种类的第二预测概率P2。这样，就使得能够在步骤S340中基于标签和预测结果确定预测损失，具体是根据第二预测概率P2，确定第一样本S1的第一预测损失L1。

在步骤S350中，如果第一标签X1指示第一样本S1为正样本，则根据第一系数A1和第一预测损失L1的乘积确定调整后的损失，如果第一标签X1指示第一样本S1为负样本，则根据第二系数A2和第一预测损失L1的乘积确定调整后的损失。

其中，第一系数A1大于第二系数A2。第一系数A1和第二系数A2的值可以预先根据经验确定。在第一系数A1大于第二系数A2的前提下，第一系数A1和第二系数A2可以取大于1的数值，也可以取小于1的数值，还可以是第一系数A1取大于1的数值，第二系数A2取1。当两者均取0到1之间的数值时，可以将第二系数A2设置为等于1减去第一系数A1，并且第一系数A1取大于0.5的值。

根据第一系数A1和第一预测损失L1的乘积确定调整后的损失时，可以直接将第一系数A1和第一预测损失L1的乘积确定为调整后的损失，也可以对该乘积进行预设变换操作之后的结果作为调整后的损失。

根据第二系数A2和第一预测损失L1的乘积确定调整后的损失时，可以直接将第二系数A2和第一预测损失L1的乘积确定为调整后的损失，也可以对该乘积进行预设变换操作之后的结果作为调整后的损失。

例如，当第一预测损失L1采用公式J(θ)＝-logp计算时，调整后的损失可以表示为，J(θ)＝-αlogp，其中α可以为第一系数或者第二系数。

本步骤中通过第一系数和第二系数对第一预测损失进行调整，可以增大正样本对应的预测损失与负样本对应的预测损失的比例，进而提高数量较少的正样本的预测损失在总体预测损失中的占比。

步骤S360，根据第一训练样本集中各个样本调整后的损失之和，更新业务预测模型NN。更新业务预测模型NN，可以理解为调整业务预测模型NN的模型参数，使得预测损失之和减小。

在对模型参数进行调整时，通常可以基于一批样本调整后的损失之和进行调整，具体的，还可以基于一批样本调整后的损失之和的平均值进行调整，并将这一批样本调整后的损失之和的平均值，作为对模型更新时依据的预测损失。这一批样本可以包含多个样本。针对每个样本，均可以采用以上步骤S310～S350确定该样本调整后的损失，并可以采用以下公式确定对模型更新时依据的预测损失：

其中，xⁱ为第i个样本的特征，yⁱ为第i个样本的标签的值，取1或0；h_θ(xⁱ)为业务预测模型输出的第i个样本为正样本的第一预测概率。α₁为第一系数的值，α₂为第二系数的值，m为这一批样本的数量。

这样，在上述预测损失中，包含了不同系数的调整作用，能够提高正样本的损失在整体损失中的占比，提高了正样本损失的重要性。

以上步骤S310～S360实现了对模型的一次更新，其可以理解为模型训练过程中的一轮训练，采用上述方式可以对第一训练样本集中的所有样本进行训练。当针对业务预测模型NN的训练次数大于预设次数阈值，即训练次数足够多，或者预测损失小于预设损失阈值时，可以确定模型训练完成，达到收敛的条件。

由上述内容可见，本实施例可以根据业务预测模型得到的第一样本为预定种类的第一预测概率，确定第一样本为第一标签指示的样本种类的第二预测概率，根据该第二预测概率确定第一样本的第一预测损失，并采用第一系数或第二系数对第一预测损失进行调整，当第一样本为正样本时对应第一系数，当第一样本为负样本时对应第二系数，且第一系数大于第二系数，这样即能够增加正样本的预测损失在所有样本损失中的比重。针对训练样本集中正样本数量小于负样本数量的情况，增加正样本的预测损失在所有样本损失中的比重，并根据修改后的预测损失对业务预测模型进行更新，能够提高正样本的预测损失在模型训练中的参考作用，进而提高业务预测模型训练的准确性。

本实施例对误差计算阶段的损失函数进行了改进，使得神经网络模型在训练过程中给予少数类样本更多的关注，能够保留样本的原有特征，并且基本上不增加训练时间，具有较好的通用性，能够应用于各类神经网络模型。例如，业务预测模型可以包括深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)和循环神经网络(Recurrent Neural Network，RNN)等中的一种。

采用上述方法对业务预测模型进行训练时，能够提高模型的准确性。在业务预测模型输出的预测概率中，部分预测概率处于0.5附近，这部分样本具有一定的特殊性，其预测概率与标签值1或者0都比较远，可以称为难分样本。这类样本可以作为业务预测模型着重训练的对象。当业务预测模型能对难分样本进行更准确的区分时，可以认为业务预测模型训练得更有效、更准确了。

为了使得业务预测模型能够更准确地区分难分样本，本说明书实施例提供了一种针对业务预测模型的训练方法，该方法能够增加难分样本的预测损失在所有样本的预测损失中的占比，使得模型训练过程更加关注难分样本的预测损失。

在图3的基础上，可以对用于确定第一预测损失L1的步骤S340加以改进。参见图4，图4为对图3中的步骤S340进行的改进。下面结合步骤S341～S343具体分析本实施例中根据第二预测概率P2，确定第一样本S1的第一预测损失L1的详细过程。

步骤S341，基于第二预测概率P2的对数的绝对值，确定第一样本S1的第一预测损失L1中的第一项。具体的，可以直接将第二预测概率P2的对数的绝对值确定为第一预测损失L1的第一项，也可以将对第二预测概率P2的对数的绝对值进行预设变换后的结果确定为第一预测损失L1的第一项。

例如，可以将-logp作为第一预测损失L1中的第一项。其中，p为第二预测概率P2的值。

步骤S342，确定与第二预测概率P2的大小成负相关的第二项。

第二预测概率P2表示第一样本S1为第一标签X1指示的样本种类的预测概率，也就是预测的置信度或准确度。当第二预测概率P2的值比较大时，认为置信度比较高，该第一样本可以归为非难分样本。当第二预测概率P2的值比较小时，认为置信度比较低，该第一样本可以归为难分样本。因此可以确定第二项与第二预测概率P2的大小成负相关，且难分样本对应的第二项大于非难分样本的第二项。

具体的，本步骤在确定第二项时，可以基于预设概率与第二预测概率P2的差值的绝对值，确定第二项；也可以基于第二预测概率P2的倒数，确定第二项，这样都能使得第二项与第二预测概率P2的大小成负相关。

例如，预设概率可以取1，第二预测概率P2的值为p，则第二项可以为(1-p)，或者也可以为(1-p)^γ，其中可以通过γ的值调节第二项的大小，例如γ可以取大于1的值。

步骤S343，基于第一项和第二项的乘积，确定第一样本S1的第一预测损失L1。根据本实施例确定的第一预测损失L1中包含了第二项的作用。当难分样本对应的第二项大于非难分样本的第二项时，相当于为难分样本添加了更大的重要性系数，这样即增加了难分样本在所有样本的损失中的比重。

具体的，步骤S343可以直接将第一项和第二项的乘积确定为第一预测损失L1，也可以将该乘积进行某种变换之后的结果确定为第一预测损失L1。例如，当第一项为-logp，第二项为(1-p)^γ时，第一预测损失L1可以为-(1-p)^γlogp。

在本实施例中，经过以上步骤S330、S341～S343、S350，可以基于第一样本S1为预定种类的第一预测概率P1，确定第一样本S1调整后的损失。作为一个例子，该过程对应的调整后的损失公式可以为如下形式：

J(θ)＝-α(1-p)^γlogp

当第一预测概率P1表示第一样本为正样本的概率时，且基于一批样本(m个样本)得到的调整后的损失之和可以表示为

其中，xi为第i个样本的特征，yⁱ为第i个样本的标签的值，取1或0；h_θ(xⁱ)为业务预测模型输出的第i个样本为正样本的第一预测概率，γ取大于1的值，α₁为第一系数的值，α₂为第二系数的值，(1-h_θ(xⁱ))^γ和(h_θ(xⁱ))^γ为上述的第二项在第i个样本为正样本和负样本时的形式。

综上可见，本实施例中通过第一系数和第二系数对损失项的修正，增加少数类样本的损失占比，能够解决正负样本不平衡带来的问题；而通过第一预测损失中与第二预测概率的大小成负相关的第二项，增加难分样本的损失占比，能够解决难分样本的问题。因此，本实施例通过对损失函数形式的修改，同时解决了正负样本不平衡以及难分样本预测不准确的问题，能够提高模型训练的准确性。

针对难分样本预测不准确的问题，在本说明书的另一实施例中，在步骤S330执行之后，即在确定第一样本S1为第一标签X1指示的样本种类的第二预测概率P2之后，还可以判断第二预测概率P2的值是否小于预设概率阈值Th1，当第二预测概率P2小于预设概率阈值Th时，将第一样本S1添加至难分样本池。当难分样本池中的样本数量大于预设数量阈值Th2时，基于难分样本池中的样本和对应的标签生成第二训练样本集，基于第二训练样本集对业务预测模型进行训练。

其中，预设概率阈值Th和预设数量阈值Th2均可以为预先根据经验确定的阈值。当第二预测概率P2小于预设概率阈值Th时，认为第一样本S1属于难分样本，可以将其添加至难分样本池。当难分样本池中的样本数量大于预设数量阈值Th2时，认为难分样本池中的样本数量已经足够用于对业务预测模型进行训练。该业务预测模型可以为基于图3或图4的训练方法训练完成之后的模型。

通过增加对难分样本的训练次数，也能达到增加难分样本的损失在整体的模型训练中的损失占比的作用，提高模型对难分样本的区分能力。

下面，再返回到对业务预测模型NN的训练上来。在一个实施例中，业务预测模型NN为二分类模型，用于识别出具有安全风险的异常样本，来保证业务平台的安全性。业务预测模型NN可以采用任意一种神经网络模型，例如可以是DNN、CNN或者RNN。下面以DNN为例，结合DNN的网络结构对整个模型训练过程进行说明。参见图5，该图5中示出了DNN的一种神经网络结构以及基于该神经网络的一种参数更新流程示意图。该神经网络模型包括输入层、隐藏层和输出层。其中隐藏层可以包括多个层，图5中仅仅画出少数几个层，在实际场景中层的数量可以非常大。将一批样本输入神经网络模型，经过神经网络模型的各个层提取样本的高维特征，并基于高维特征对样本的类别进行预测。每一层可以包括多个神经元，神经元通过采用圆点表示，每一层中神经元的数量可以人工自定义。每个神经元对应一种运算函数，其可以对样本特征进行数据运算。针对样本特征的计算通过全连接的形式依次在层与层之间传递。输出层可以基于上一层的输出确定神经网络模型的输出结果。多个层中的计算过程可以采用下面的公式表示：

其中，

表示第l层第i个神经元的输出值，n_l-1表示第l-1层中神经元的总个数，

表示第l-1层中第j个神经元与第l层第i个神经元连接时的权重，

表示第l-1层第j个神经元的输出值，f表示激活函数。通过多层计算，模型可以提取输入样本的高维特征。

通过图3或图4的方法，基于神经网络模型可以确定第一样本S1对应的预测概率值p，基于该预测概率值p和标签值y，可以计算预测损失，然后基于该预测损失对模型参数进行更新。

在基于预测损失对模型参数进行更新时，可以使用随机梯度下降的方法确定更新后的参数，使用链式法则求取每个参数关于预测损失的偏导，并基于偏导确定更新后的参数，公式如下：

其中，

表示更新后的参数，

表示待更新的参数，即第t轮训练中第i个模型参数，η表示学习率，

表示预测损失与待更新参数的偏导。基于更新后的参数，可以采用梯度反向传播对模型的参数进行调整。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图6示出一个实施例中利用不平衡正负样本对业务预测模型训练的装置的示意性框图。该装置600可以部署在计算机中，具体可以部署在任何具有计算、处理能力的装置、设备、平台或设备集群中。该装置实施例与图3所示的方法实施例相对应。该装置600包括：

样本获取模块610，配置为获取第一训练样本集；其中，所述第一训练样本集中的样本种类包括正样本和负样本，正样本的数量小于负样本的数量，所述第一训练样本集具有各个样本的标签；

概率预测模块620，配置为将所述第一训练样本集中任意的第一样本输入二分类的业务预测模型，得到所述第一样本为预定种类的第一预测概率；所述第一样本具有第一标签；

概率确定模块630，配置为根据所述第一预测概率，确定所述第一样本为所述第一标签指示的样本种类的第二预测概率；

损失确定模块640，配置为根据所述第二预测概率，确定所述第一样本的第一预测损失；

损失调整模块650，配置为如果所述第一标签指示所述第一样本为正样本，则根据第一系数和所述第一预测损失的乘积确定调整后的损失；如果所述第一标签指示所述第一样本为负样本，则根据第二系数和所述第一预测损失的乘积确定调整后的损失；其中，所述第一系数大于所述第二系数；

模型更新模块660，配置为根据所述第一训练样本集中各个样本调整后的损失之和，更新所述业务预测模型。

在另一实施方式中，概率确定模块630，具体配置为：

当所述预定种类与所述第一标签指示的样本种类相反时，将1减去第一预测概率得到的差值，确定为所述第二预测概率。

在另一实施方式中，损失确定模块640具体配置为：

基于所述第二预测概率的对数的绝对值，确定第一样本的第一预测损失。

在另一实施方式中，损失确定模块640，具体配置为：

基于所述第二预测概率的对数的绝对值，确定第一样本的第一预测损失中的第一项；

确定与所述第二预测概率的大小成负相关的第二项；

基于所述第一项和所述第二项的乘积，确定第一样本的第一预测损失。

在另一实施方式中，损失确定模块640，确定与所述第二预测概率的大小成负相关的第二项时，包括：

基于所述第二预测概率的倒数，确定第二项。

在另一实施方式中，该装置600还包括：

样本添加模块(图中未示出)，配置为在确定所述第一样本为所述第一标签指示的样本种类的第二预测概率之后，当所述第二预测概率小于预设概率阈值时，将所述第一样本添加至难分样本池；

训练集生成模块(图中未示出)，配置为当所述难分样本池中的样本数量大于预设数量阈值时，基于所述难分样本池中的样本和对应的标签生成第二训练样本集；

模型训练模块(图中未示出)，配置为基于所述第二训练样本集对所述业务预测模型进行训练。

在另一实施方式中，所述业务预测模型包括深度神经网络DNN、卷积神经网络CNN和循环神经网络RNN中的一种；

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图3至图4所描述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图3至图4所描述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种利用不平衡正负样本对业务预测模型训练的方法，通过计算机执行，所述方法包括：

2.根据权利要求1所述的方法，所述根据所述第一预测概率，确定所述第一样本为所述第一标签指示的样本种类的第二预测概率的步骤，包括：

3.根据权利要求1所述的方法，所述根据所述第二预测概率，确定所述第一样本的第一预测损失的步骤，包括：

基于所述第二预测概率的对数的绝对值，确定所述第一样本的第一预测损失。

4.根据权利要求1所述的方法，所述根据所述第二预测概率，确定所述第一样本的第一预测损失的步骤，包括：

确定与所述第二预测概率的大小成负相关的第二项；

基于所述第一项和所述第二项的乘积，确定所述第一样本的第一预测损失。

5.根据权利要求4所述的方法，所述确定与所述第二预测概率的大小成负相关的第二项的步骤，包括：

6.根据权利要求4所述的方法，所述确定与所述第二预测概率的大小成负相关的第二项的步骤，包括：

基于所述第二预测概率的倒数，确定第二项。

7.根据权利要求1所述的方法，在确定所述第一样本为所述第一标签指示的样本种类的第二预测概率之后，还包括：

当所述第二预测概率小于预设概率阈值时，将所述第一样本添加至难分样本池；

基于所述第二训练样本集对所述业务预测模型进行训练。

8.根据权利要求1所述的方法，所述业务预测模型包括深度神经网络DNN、卷积神经网络CNN和循环神经网络RNN中的一种；

9.一种利用不平衡正负样本对业务预测模型训练的装置，部署在计算机中，所述装置包括：

10.根据权利要求9所述的装置，所述概率确定模块，具体配置为：

11.根据权利要求9所述的装置，所述损失确定模块，具体配置为：

12.根据权利要求9所述的装置，所述损失确定模块，具体配置为：

确定与所述第二预测概率的大小成负相关的第二项；

13.根据权利要求12所述的装置，所述损失确定模块，确定与所述第二预测概率的大小成负相关的第二项时，包括：

14.根据权利要求12所述的装置，所述损失确定模块，确定与所述第二预测概率的大小成负相关的第二项时，包括：

基于所述第二预测概率的倒数，确定第二项。

15.根据权利要求9所述的装置，还包括：

模型训练模块，配置为基于所述第二训练样本集对所述业务预测模型进行训练。

16.根据权利要求9所述的装置，所述业务预测模型包括深度神经网络DNN、卷积神经网络CNN和循环神经网络RNN中的一种；

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项所述的方法。

18.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。