CN113837670A

CN113837670A - 风险识别模型训练方法及装置

Info

Publication number: CN113837670A
Application number: CN202111416551.2A
Authority: CN
Inventors: 郭翊麟; 蔡准; 孙悦; 郭晓鹏
Original assignee: Beijing Trusfort Technology Co ltd
Current assignee: Beijing Trusfort Technology Co ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2021-12-24

Abstract

公开了一种风险识别模型训练方法及装置。该方法包括：获取第一无标签数据集，所述第一无标签数据集包括无标签数据；对所述无标签数据进行转换，生成多个待预测数据；利用标签生成模型对所述待预测数据进行预测，得到每个待预测数据对应的概率标签；将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签；将所述无标签数据对应的概率标签添加至所述第一无标签数据集，生成第二无标签数据集；获取有标签数据集；利用所述有标签数据集和所述第二无标签数据集生成混合数据集；利用所述混合数据集对风险识别模型进行训练。

Description

风险识别模型训练方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种风险识别模型训练方法及装置。

背景技术

随着技术的发展，电子设备接收到的数据可能是会给用户带来风险的数据，给用户造成损失。为了减轻用户的损失，可采用规则引擎和机器学习模型来识别这些风险。其中，对于机器学习模型，主要采用的是传统有监督算法、聚类算法和图挖掘算法。使用这些算法要依靠大量数据，但是由于大量数据都是无标签数据，只有少部分数据是有标签的，在这种情况下，传统有监督学习会受到极大的限制。所以针对这种情况，聚类算法和图挖掘算法开始广泛应用于各个场景中，但是由于聚类算法和图挖掘算法一般用于事后分析，具有滞后性，无法做到实时预测。

除此之外，还有自监督学习，即用有标签数据训练初始分类器，对无标签数据进行预测，将分类置信度较高的文本加入到有标签数据中，重新训练分类器。但该方法如果在早期存在错误标签，则会在迭代中逐渐被放大、导致错误累积。而添加对抗噪声或使用其它数据增强技术进行一致性训练，对无标签数据添加对抗噪声或对有标签数据采用数据增强技术扩增数据可能会造成一些不稳定因素，比如数据增强无效、噪声引起数据分布变化等。

并且，上述这些方案中均存在如下缺陷：有标签数据和无标签数据是分开的，在训练中往往会出现有标签数据已经过多轮迭代、而无标签数据还处于欠拟合状态的局面。因此，大多数模型仍然很容易对极为有限的有标签数据过度拟合。

发明内容

为解决上述问题，本发明提供一种风险识别模型训练方法及装置，可有效避免因错误标注及过拟合导致的错误累积问题，及数据增强无效、数据分布变化、有标签数据过拟合和无标签数据欠拟合的问题。

为了实现上述目的，在第一方面，本发明实施例提供了一种风险识别模型训练方法，该方法包括：

获取第一无标签数据集，所述第一无标签数据集包括无标签数据；

对所述无标签数据进行转换，生成多个待预测数据；

利用标签生成模型对所述待预测数据进行预测，得到每个待预测数据对应的概率标签；

将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签；

将所述无标签数据对应的概率标签添加至所述第一无标签数据集，生成第二无标签数据集；

获取有标签数据集；

利用所述有标签数据集和所述第二无标签数据集生成混合数据集；

利用所述混合数据集对风险识别模型进行训练。

优选的，所述利用所述混合数据集对风险识别模型进行训练，包括：从所述混合数据集中随机抽取两个样本；利用所述两个样本对风险识别模型进行训练；其中，若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集，则训练目标函数为监督损失函数；若所述两个样本均来自于所述第二无标签数据集，则训练目标函数为一致性损失函数；利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。

优选的，所述对所述无标签数据进行转换，生成多个待预测数据，包括：通过随机打乱序列顺序的方式对所述无标签数据进行转换，生成多个待预测数据。

优选的，所述标签生成模型为基于熵最小化损失训练生成的模型。

优选的，所述风险识别模型为机器学习模型或深度学习模型。

在第二方面，本发明实施例提供了一种风险识别模型训练装置，所述装置包括：

获取单元，用于获取第一无标签数据集，所述第一无标签数据集包括无标签数据；

转换单元，用于对所述无标签数据进行转换，生成多个待预测数据；

预测单元，用于利用标签生成模型对所述待预测数据进行预测，得到每个待预测数据对应的概率标签；

计算单元，用于将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签；

添加单元，用于将所述无标签数据对应的概率标签添加至所述第一无标签数据集，生成第二无标签数据集；

所述获取单元，还用于获取有标签数据集；

生成单元，用于利用所述有标签数据集和所述第二无标签数据集生成混合数据集；

训练单元，用于利用所述混合数据集对风险识别模型进行训练。

优选的，所述训练单元具体用于：从所述混合数据集中随机抽取两个样本；利用所述两个样本对风险识别模型进行训练；其中，若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集，则训练目标函数为监督损失函数；若所述两个样本均来自于所述第二无标签数据集，则训练目标函数为一致性损失函数；利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。

优选的，所述转换单元具体用于：通过随机打乱序列顺序的方式对所述无标签数据进行转换，生成多个待预测数据。

在第三方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的风险识别模型训练方法。

在第四方面，本发明实施例提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的风险识别模型训练方法。

利用本发明提供的风险识别模型训练方法及装置，通过对无标签数据转换生成多个待预测数据，并利用标签生成模型，预测每个待预测数据的概率标签，然后利用权重平均法对这些概率标签计算加权平均得到该无标签数据的概率标签。之后，将有标签数据和无标签数据进行组合生成的混合数据集用于风险识别模型训练中，由于增加了数据集中有标签数据的数量，同时该混合数据集中既包含了有标签数据，又包含了无标签数据，因此能够有效避免风险识别模型对有标签数据过拟合、无标签数据欠拟合问题。并且，也可避免因错误标注及过拟合导致的错误累积问题。同时，由于本发明提供的风险识别模型训练方法及装置未对数据引入噪声或增强，所以也不存在数据增强无效及噪声引起的数据分布变化问题。用户通过使用利用本发明实施例提供的风险识别模型训练方法及装置训练出的风险识别模型，可有效降低接收风险数据的概率，从而降低用户风险及损失。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本申请示例性实施例提供的一种风险识别模型训练方法的流程示意图；

图2为本申请示例性实施例提供的一种风险识别模型训练装置的结构图；

图3为本申请示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

图1为本申请实施例示出的一种风险识别模型训练方法的流程示意图。该风险识别模型训练方法可应用于电子设备。如图1所示，本实施例提供的风险识别模型训练方法，包括：

步骤101，获取第一无标签数据集。

其中，该第一无标签数据集包括无标签数据。

步骤102，对第一无标签数据集中的无标签数据进行转换，生成多个待预测数据。

在一个例子中，步骤102可以具体包括：通过随机打乱序列顺序的方式对无标签数据进行转换，生成多个待预测数据。

步骤103，利用标签生成模型对待预测数据进行预测，得到每个待预测数据对应的概率标签。

在一个例子中，标签生成模型可以为基于熵最小化损失训练生成的模型。

步骤104，将每个待预测数据对应的概率标签求权重平均得到无标签数据对应的概率标签。

步骤105，将无标签数据对应的概率标签添加至第一无标签数据集，生成第二无标签数据集。

步骤106，获取有标签数据集。

步骤107，利用有标签数据集和第二无标签数据集生成混合数据集。

步骤108，利用混合数据集对风险识别模型进行训练。

在一个例子中，步骤108可以具体包括：从混合数据集中随机抽取两个样本；利用两个样本对风险识别模型进行训练；其中，若两个样本均来自于有标签数据集或分别来自于有标签数据集和第二无标签数据集，则训练目标函数为监督损失函数；若两个样本均来自于第二无标签数据集，则训练目标函数为一致性损失函数；利用监督损失函数和一致性损失函数计算得到风险识别模型损失函数。

在一个例子中，风险识别模型的类型可以为机器学习模型或深度学习模型。

下面通过一个具体的例子，对本发明实施例提供的风险识别模型训练方法进行进一步说明。

首先是获取数据，数据主要来源于用户的行为数据，比如：注册、登录、浏览、点击等，本发明实施例如果应用于不同的应用场景，其获取的数据类型应当属于对应该场景下的应用数据，如对应该场景下的用户注册、登录、浏览、点击等行为数据。例如：在互联网应用场景下，数据主要来源与用户在使用互联网应用时的注册、登录、浏览、点击等行为数据；在电子设备应用场景下，数据主要来源是用户在使用设备时的注册、登录、浏览、点击等行为数据。其中针对有标签的用户行为数据定义为

，对无标签的用户行为数据定义为

，其中m和n对应样本数，

。

之后，利用标签生成模型对无标签的数据生成概率标签，使得有标签数据的数量得到一定的提升。具体过程如下：

对无标签数据

进行转换得到t个不同的数据：

，这里的数据转换可以通过随机打乱序列顺序得到。然后利用标签生成模型分别对无标签数据

进行预测得到概率标签

，然后给每个概率标签

分配权重

后求权重平均作为无标签数据

的概率标签，具体公式如下：

对于无标签数据产生的概率标签

，采用无标签数据的概率值的最小熵作为标签生成模型的训练目标，因为熵最小表示信息越稳定，这样能够使得同一样本扩增得到的数据生成的标签是趋向一致的，目标损失函数如下：

公式二

其中，

是超参数，通过

来表示稳定状态的熵值边界。

需要说明的是，对同一样本扩增得到的数据的概率标签进行权重平均后作为无标签数据

的概率标签会更加合理，类似于标签平滑的作用，比如假设有1个2类别数据，其概率标签是[0.9,0.1]，对其扩增两个样本后的概率标签为[0.7,0.3]和[0.6,0.4]，假设权重都为1，则权重平均后的标签为[0.65,0.35]，这种标签平滑其实是一种正则化策略，能避免模型发生过拟合。

在无标签数据生成概率标签后，将概率标签添加至无标签数据集

整合得到新数据集

。之后将有标签数据

和新数据集

进行混合得到数据

，并随机从

中获取两个样本

和

，利用如下公式进行组合生成新样本

：

其中，

。

将上述处理后的新样本加入风险识别模型中进行训练。当样本

和

都来自于有标签数据集

或者样本

、

分别来自

、

，则训练目标函数为监督损失函数 loss_监督损失。需要说明的是，当样本

、

分别来自

、

时，生成的新样本相当于把有标签数据和无标签数据进行耦合，使得风险识别模型能够学习到有标签数据和无标签数据的内部隐含信息。当样本

、

都来自于新数据集

，则训练目标函数为一致性损失函数 loss_{一致性损失}。

然后将两种损失函数按照如下公式计算得到风险识别模型损失函数loss_{风险识别模型}：

loss_{风险识别模型} = loss_监督损失+α·loss_{一致性损失} 公式五

其中，α是超参数，在前期训练迭代的过程中，将该值设置的比较小，使风险识别模型充分学习有标签数据，随着不断的迭代，增大α值来充分学习无标签数据。

其中，风险识别模型可以是任意机器学习模型或深度学习模型。

通过利用本发明实施例提供的风险识别模型训练方法，通过对无标签数据转换生成多个待预测数据，并利用标签生成模型，预测每个待预测数据的概率标签，然后利用权重平均法对这些概率标签计算加权平均得到该无标签数据的概率标签。之后，将有标签数据和无标签数据进行组合生成的混合数据集用于风险识别模型训练中，由于增加了数据集中有标签数据的数量，同时该混合数据集中既包含了有标签数据，又包含了无标签数据，因此能够有效避免风险识别模型对有标签数据过拟合、无标签数据欠拟合问题。并且，也可避免因错误标注及过拟合导致的错误累积问题。同时，由于本发明提供的风险识别模型训练方法未对数据引入噪声或增强，所以也不存在数据增强无效及噪声引起的数据分布变化问题。用户通过使用利用本施例提供的风险识别模型训练方法训练出的风险识别模型，可有效降低接收风险数据的概率，从而降低用户风险及损失。

本发明实施例提供一种风险识别模型训练装置，图2为该风险识别模型训练装置的结构图。该装置可以包括：

获取单元201，用于获取第一无标签数据集，所述第一无标签数据集包括无标签数据；

转换单元202，用于对所述无标签数据进行转换，生成多个待预测数据；

预测单元203，用于利用标签生成模型对所述待预测数据进行预测，得到每个待预测数据对应的概率标签；

计算单元204，用于将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签；

添加单元205，用于将所述无标签数据对应的概率标签添加至所述第一无标签数据集，生成第二无标签数据集；

所述获取单元201，还用于获取有标签数据集；

生成单元206，用于利用所述有标签数据集和所述第二无标签数据集生成混合数据集；

训练单元207，用于利用所述混合数据集对风险识别模型进行训练。

优选的，所述训练单元207具体用于：从所述混合数据集中随机抽取两个样本；利用所述两个样本对风险识别模型进行训练；其中，若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集，则训练目标函数为监督损失函数；若所述两个样本均来自于所述第二无标签数据集，则训练目标函数为一致性损失函数；利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。

优选的，所述转换单元202具体用于：通过随机打乱序列顺序的方式对所述无标签数据进行转换，生成多个待预测数据。

利用本发明提供的风险识别模型训练装置，通过对无标签数据转换生成多个待预测数据，并利用标签生成模型，预测每个待预测数据的概率标签，然后利用权重平均法对这些概率标签计算加权平均得到该无标签数据的概率标签。之后，将有标签数据和无标签数据进行组合生成的混合数据集用于风险识别模型训练中，由于增加了数据集中有标签数据的数量，同时该混合数据集中既包含了有标签数据，又包含了无标签数据，因此能够有效避免风险识别模型对有标签数据过拟合、无标签数据欠拟合问题。并且，也可避免因错误标注及过拟合导致的错误累积问题。同时，由于本发明提供的风险识别模型训练装置未对数据引入噪声或增强，所以也不存在数据增强无效及噪声引起的数据分布变化问题。用户通过使用利用本实施例提供的风险识别模型训练装置训练出的风险识别模型，可有效降低接收风险数据的概率，从而降低用户风险及损失。

下面，参考图3来描述根据本申请实施例的电子设备11。

如图3所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的风险识别模型训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入设备113可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的风险识别模型训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的风险识别模型训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种风险识别模型训练方法，其特征在于，所述方法包括：

对所述无标签数据进行转换，生成多个待预测数据；

获取有标签数据集；

利用所述混合数据集对风险识别模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述利用所述混合数据集对风险识别模型进行训练，包括：

从所述混合数据集中随机抽取两个样本；

利用所述两个样本对风险识别模型进行训练；其中，

若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集，则训练目标函数为监督损失函数；

若所述两个样本均来自于所述第二无标签数据集，则训练目标函数为一致性损失函数；

利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。

3.根据权利要求1所述的方法，其特征在于，所述对所述无标签数据进行转换，生成多个待预测数据，包括：

通过随机打乱序列顺序的方式对所述无标签数据进行转换，生成多个待预测数据。

4.根据权利要求1所述的方法，其特征在于，所述标签生成模型为基于熵最小化损失训练生成的模型。

5.根据权利要求1所述的方法，其特征在于，所述风险识别模型为机器学习模型或深度学习模型。

6.一种风险识别模型训练装置，其特征在于，所述装置包括：

所述获取单元，还用于获取有标签数据集；

7.根据权利要求6所述的装置，其特征在于，所述训练单元具体用于：

从所述混合数据集中随机抽取两个样本；

利用所述两个样本对风险识别模型进行训练；其中，

8.根据权利要求6所述的装置，其特征在于，所述转换单元具体用于：

9.根据权利要求6所述的装置，其特征在于，所述标签生成模型为基于熵最小化损失训练生成的模型。

10.根据权利要求6所述的装置，其特征在于，所述风险识别模型为机器学习模型或深度学习模型。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一项所述的风险识别模型训练方法。

12.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-5任一项所述的风险识别模型训练方法。