CN113837670A - 风险识别模型训练方法及装置 - Google Patents

风险识别模型训练方法及装置 Download PDF

Info

Publication number
CN113837670A
CN113837670A CN202111416551.2A CN202111416551A CN113837670A CN 113837670 A CN113837670 A CN 113837670A CN 202111416551 A CN202111416551 A CN 202111416551A CN 113837670 A CN113837670 A CN 113837670A
Authority
CN
China
Prior art keywords
data
label
training
dataset
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111416551.2A
Other languages
English (en)
Inventor
郭翊麟
蔡准
孙悦
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202111416551.2A priority Critical patent/CN113837670A/zh
Publication of CN113837670A publication Critical patent/CN113837670A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了一种风险识别模型训练方法及装置。该方法包括:获取第一无标签数据集,所述第一无标签数据集包括无标签数据;对所述无标签数据进行转换,生成多个待预测数据;利用标签生成模型对所述待预测数据进行预测,得到每个待预测数据对应的概率标签;将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签;将所述无标签数据对应的概率标签添加至所述第一无标签数据集,生成第二无标签数据集;获取有标签数据集;利用所述有标签数据集和所述第二无标签数据集生成混合数据集;利用所述混合数据集对风险识别模型进行训练。

Description

风险识别模型训练方法及装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种风险识别模型训练方法及装置。
背景技术
随着技术的发展,电子设备接收到的数据可能是会给用户带来风险的数据,给用户造成损失。为了减轻用户的损失,可采用规则引擎和机器学习模型来识别这些风险。其中,对于机器学习模型,主要采用的是传统有监督算法、聚类算法和图挖掘算法。使用这些算法要依靠大量数据,但是由于大量数据都是无标签数据,只有少部分数据是有标签的,在这种情况下,传统有监督学习会受到极大的限制。所以针对这种情况,聚类算法和图挖掘算法开始广泛应用于各个场景中,但是由于聚类算法和图挖掘算法一般用于事后分析,具有滞后性,无法做到实时预测。
除此之外,还有自监督学习,即用有标签数据训练初始分类器,对无标签数据进行预测,将分类置信度较高的文本加入到有标签数据中,重新训练分类器。但该方法如果在早期存在错误标签,则会在迭代中逐渐被放大、导致错误累积。而添加对抗噪声或使用其它数据增强技术进行一致性训练,对无标签数据添加对抗噪声或对有标签数据采用数据增强技术扩增数据可能会造成一些不稳定因素,比如数据增强无效、噪声引起数据分布变化等。
并且,上述这些方案中均存在如下缺陷:有标签数据和无标签数据是分开的,在训练中往往会出现有标签数据已经过多轮迭代、而无标签数据还处于欠拟合状态的局面。因此,大多数模型仍然很容易对极为有限的有标签数据过度拟合。
发明内容
为解决上述问题,本发明提供一种风险识别模型训练方法及装置,可有效避免因错误标注及过拟合导致的错误累积问题,及数据增强无效、数据分布变化、有标签数据过拟合和无标签数据欠拟合的问题。
为了实现上述目的,在第一方面,本发明实施例提供了一种风险识别模型训练方法,该方法包括:
获取第一无标签数据集,所述第一无标签数据集包括无标签数据;
对所述无标签数据进行转换,生成多个待预测数据;
利用标签生成模型对所述待预测数据进行预测,得到每个待预测数据对应的概率标签;
将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签;
将所述无标签数据对应的概率标签添加至所述第一无标签数据集,生成第二无标签数据集;
获取有标签数据集;
利用所述有标签数据集和所述第二无标签数据集生成混合数据集;
利用所述混合数据集对风险识别模型进行训练。
优选的,所述利用所述混合数据集对风险识别模型进行训练,包括:从所述混合数据集中随机抽取两个样本;利用所述两个样本对风险识别模型进行训练;其中,若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集,则训练目标函数为监督损失函数;若所述两个样本均来自于所述第二无标签数据集,则训练目标函数为一致性损失函数;利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。
优选的,所述对所述无标签数据进行转换,生成多个待预测数据,包括:通过随机打乱序列顺序的方式对所述无标签数据进行转换,生成多个待预测数据。
优选的,所述标签生成模型为基于熵最小化损失训练生成的模型。
优选的,所述风险识别模型为机器学习模型或深度学习模型。
在第二方面,本发明实施例提供了一种风险识别模型训练装置,所述装置包括:
获取单元,用于获取第一无标签数据集,所述第一无标签数据集包括无标签数据;
转换单元,用于对所述无标签数据进行转换,生成多个待预测数据;
预测单元,用于利用标签生成模型对所述待预测数据进行预测,得到每个待预测数据对应的概率标签;
计算单元,用于将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签;
添加单元,用于将所述无标签数据对应的概率标签添加至所述第一无标签数据集,生成第二无标签数据集;
所述获取单元,还用于获取有标签数据集;
生成单元,用于利用所述有标签数据集和所述第二无标签数据集生成混合数据集;
训练单元,用于利用所述混合数据集对风险识别模型进行训练。
优选的,所述训练单元具体用于:从所述混合数据集中随机抽取两个样本;利用所述两个样本对风险识别模型进行训练;其中,若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集,则训练目标函数为监督损失函数;若所述两个样本均来自于所述第二无标签数据集,则训练目标函数为一致性损失函数;利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。
优选的,所述转换单元具体用于:通过随机打乱序列顺序的方式对所述无标签数据进行转换,生成多个待预测数据。
优选的,所述标签生成模型为基于熵最小化损失训练生成的模型。
优选的,所述风险识别模型为机器学习模型或深度学习模型。
在第三方面,本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面所述的风险识别模型训练方法。
在第四方面,本发明实施例提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的风险识别模型训练方法。
利用本发明提供的风险识别模型训练方法及装置,通过对无标签数据转换生成多个待预测数据,并利用标签生成模型,预测每个待预测数据的概率标签,然后利用权重平均法对这些概率标签计算加权平均得到该无标签数据的概率标签。之后,将有标签数据和无标签数据进行组合生成的混合数据集用于风险识别模型训练中,由于增加了数据集中有标签数据的数量,同时该混合数据集中既包含了有标签数据,又包含了无标签数据,因此能够有效避免风险识别模型对有标签数据过拟合、无标签数据欠拟合问题。并且,也可避免因错误标注及过拟合导致的错误累积问题。同时,由于本发明提供的风险识别模型训练方法及装置未对数据引入噪声或增强,所以也不存在数据增强无效及噪声引起的数据分布变化问题。用户通过使用利用本发明实施例提供的风险识别模型训练方法及装置训练出的风险识别模型,可有效降低接收风险数据的概率,从而降低用户风险及损失。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本申请示例性实施例提供的一种风险识别模型训练方法的流程示意图;
图2为本申请示例性实施例提供的一种风险识别模型训练装置的结构图;
图3为本申请示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
图1为本申请实施例示出的一种风险识别模型训练方法的流程示意图。该风险识别模型训练方法可应用于电子设备。如图1所示,本实施例提供的风险识别模型训练方法,包括:
步骤101,获取第一无标签数据集。
其中,该第一无标签数据集包括无标签数据。
步骤102,对第一无标签数据集中的无标签数据进行转换,生成多个待预测数据。
在一个例子中,步骤102可以具体包括:通过随机打乱序列顺序的方式对无标签数据进行转换,生成多个待预测数据。
步骤103,利用标签生成模型对待预测数据进行预测,得到每个待预测数据对应的概率标签。
在一个例子中,标签生成模型可以为基于熵最小化损失训练生成的模型。
步骤104,将每个待预测数据对应的概率标签求权重平均得到无标签数据对应的概率标签。
步骤105,将无标签数据对应的概率标签添加至第一无标签数据集,生成第二无标签数据集。
步骤106,获取有标签数据集。
步骤107,利用有标签数据集和第二无标签数据集生成混合数据集。
步骤108,利用混合数据集对风险识别模型进行训练。
在一个例子中,步骤108可以具体包括:从混合数据集中随机抽取两个样本;利用两个样本对风险识别模型进行训练;其中,若两个样本均来自于有标签数据集或分别来自于有标签数据集和第二无标签数据集,则训练目标函数为监督损失函数;若两个样本均来自于第二无标签数据集,则训练目标函数为一致性损失函数;利用监督损失函数和一致性损失函数计算得到风险识别模型损失函数。
在一个例子中,风险识别模型的类型可以为机器学习模型或深度学习模型。
下面通过一个具体的例子,对本发明实施例提供的风险识别模型训练方法进行进一步说明。
首先是获取数据,数据主要来源于用户的行为数据,比如:注册、登录、浏览、点击 等,本发明实施例如果应用于不同的应用场景,其获取的数据类型应当属于对应该场景下 的应用数据,如对应该场景下的用户注册、登录、浏览、点击等行为数据。例如:在互联网应 用场景下,数据主要来源与用户在使用互联网应用时的注册、登录、浏览、点击等行为数据; 在电子设备应用场景下,数据主要来源是用户在使用设备时的注册、登录、浏览、点击等行 为数据。其中针对有标签的用户行为数据定义为
Figure 575283DEST_PATH_IMAGE001
,对无标签的用户 行为数据定义为
Figure 878089DEST_PATH_IMAGE002
,其中m和n对应样本数,
Figure 94307DEST_PATH_IMAGE003
之后,利用标签生成模型对无标签的数据生成概率标签,使得有标签数据的数量得到一定的提升。具体过程如下:
对无标签数据
Figure 868490DEST_PATH_IMAGE004
进行转换得到t个不同的数据:
Figure 752132DEST_PATH_IMAGE005
,这里的数据 转换可以通过随机打乱序列顺序得到。然后利用标签生成模型分别对无标签数据
Figure 960260DEST_PATH_IMAGE006
进行预测得到概率标签
Figure 804719DEST_PATH_IMAGE007
,然后给每个概率标签
Figure 490915DEST_PATH_IMAGE007
分 配权重
Figure 619277DEST_PATH_IMAGE008
后求权重平均作为无标签数据
Figure 998306DEST_PATH_IMAGE004
的概率标签,具体公式如下:
Figure 454695DEST_PATH_IMAGE009
对于无标签数据产生的概率标签
Figure 819948DEST_PATH_IMAGE010
,采用无标签数据的概率值的最小熵作为标 签生成模型的训练目标,因为熵最小表示信息越稳定,这样能够使得同一样本扩增得到的 数据生成的标签是趋向一致的,目标损失函数如下:
Figure 147024DEST_PATH_IMAGE011
公式二
其中,
Figure 962534DEST_PATH_IMAGE012
是超参数,通过
Figure 523528DEST_PATH_IMAGE012
来表示稳定状态的熵值边界。
需要说明的是,对同一样本扩增得到的数据的概率标签进行权重平均后作为无标 签数据
Figure 817106DEST_PATH_IMAGE004
的概率标签会更加合理,类似于标签平滑的作用,比如假设有1个2类别数据,其 概率标签是[0.9,0.1],对其扩增两个样本后的概率标签为[0.7,0.3]和[0.6,0.4],假设权 重都为1,则权重平均后的标签为[0.65,0.35],这种标签平滑其实是一种正则化策略,能避 免模型发生过拟合。
在无标签数据生成概率标签后,将概率标签添加至无标签数据集
Figure 405214DEST_PATH_IMAGE013
整合得到新 数据集
Figure 860466DEST_PATH_IMAGE014
。之后将有标签数据
Figure 291447DEST_PATH_IMAGE015
和新数据集
Figure 247771DEST_PATH_IMAGE014
进行混合得到数据
Figure 815018DEST_PATH_IMAGE016
,并随机从
Figure 706751DEST_PATH_IMAGE016
中获取两个样本
Figure 234815DEST_PATH_IMAGE017
Figure 135775DEST_PATH_IMAGE018
,利用如下公式进行组合生成新样本
Figure 183628DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
Figure 511841DEST_PATH_IMAGE021
其中,
Figure DEST_PATH_IMAGE022
将上述处理后的新样本加入风险识别模型中进行训练。当样本
Figure 58360DEST_PATH_IMAGE017
Figure 497432DEST_PATH_IMAGE018
都来自于 有标签数据集
Figure 163905DEST_PATH_IMAGE015
或者样本
Figure 397441DEST_PATH_IMAGE017
Figure 759152DEST_PATH_IMAGE018
分别来自
Figure 877280DEST_PATH_IMAGE015
Figure 8048DEST_PATH_IMAGE014
,则训练目标函数为监督损失函数 loss监督损失。需要说明的是,当样本
Figure 301232DEST_PATH_IMAGE017
Figure 150240DEST_PATH_IMAGE018
分别来自
Figure 931114DEST_PATH_IMAGE015
Figure 57333DEST_PATH_IMAGE014
时,生成的新样本相当于把有标 签数据和无标签数据进行耦合,使得风险识别模型能够学习到有标签数据和无标签数据的 内部隐含信息。当样本
Figure 632671DEST_PATH_IMAGE017
Figure 234553DEST_PATH_IMAGE018
都来自于新数据集
Figure 678173DEST_PATH_IMAGE014
,则训练目标函数为一致性损失函数 loss一致性损失
然后将两种损失函数按照如下公式计算得到风险识别模型损失函数loss风险识别模型
loss风险识别模型 = loss监督损失+α·loss一致性损失 公式五
其中,α是超参数,在前期训练迭代的过程中,将该值设置的比较小,使风险识别模型充分学习有标签数据,随着不断的迭代,增大α值来充分学习无标签数据。
其中,风险识别模型可以是任意机器学习模型或深度学习模型。
通过利用本发明实施例提供的风险识别模型训练方法,通过对无标签数据转换生成多个待预测数据,并利用标签生成模型,预测每个待预测数据的概率标签,然后利用权重平均法对这些概率标签计算加权平均得到该无标签数据的概率标签。之后,将有标签数据和无标签数据进行组合生成的混合数据集用于风险识别模型训练中,由于增加了数据集中有标签数据的数量,同时该混合数据集中既包含了有标签数据,又包含了无标签数据,因此能够有效避免风险识别模型对有标签数据过拟合、无标签数据欠拟合问题。并且,也可避免因错误标注及过拟合导致的错误累积问题。同时,由于本发明提供的风险识别模型训练方法未对数据引入噪声或增强,所以也不存在数据增强无效及噪声引起的数据分布变化问题。用户通过使用利用本施例提供的风险识别模型训练方法训练出的风险识别模型,可有效降低接收风险数据的概率,从而降低用户风险及损失。
本发明实施例提供一种风险识别模型训练装置,图2为该风险识别模型训练装置的结构图。该装置可以包括:
获取单元201,用于获取第一无标签数据集,所述第一无标签数据集包括无标签数据;
转换单元202,用于对所述无标签数据进行转换,生成多个待预测数据;
预测单元203,用于利用标签生成模型对所述待预测数据进行预测,得到每个待预测数据对应的概率标签;
计算单元204,用于将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签;
添加单元205,用于将所述无标签数据对应的概率标签添加至所述第一无标签数据集,生成第二无标签数据集;
所述获取单元201,还用于获取有标签数据集;
生成单元206,用于利用所述有标签数据集和所述第二无标签数据集生成混合数据集;
训练单元207,用于利用所述混合数据集对风险识别模型进行训练。
优选的,所述训练单元207具体用于:从所述混合数据集中随机抽取两个样本;利用所述两个样本对风险识别模型进行训练;其中,若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集,则训练目标函数为监督损失函数;若所述两个样本均来自于所述第二无标签数据集,则训练目标函数为一致性损失函数;利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。
优选的,所述转换单元202具体用于:通过随机打乱序列顺序的方式对所述无标签数据进行转换,生成多个待预测数据。
优选的,所述标签生成模型为基于熵最小化损失训练生成的模型。
优选的,所述风险识别模型为机器学习模型或深度学习模型。
利用本发明提供的风险识别模型训练装置,通过对无标签数据转换生成多个待预测数据,并利用标签生成模型,预测每个待预测数据的概率标签,然后利用权重平均法对这些概率标签计算加权平均得到该无标签数据的概率标签。之后,将有标签数据和无标签数据进行组合生成的混合数据集用于风险识别模型训练中,由于增加了数据集中有标签数据的数量,同时该混合数据集中既包含了有标签数据,又包含了无标签数据,因此能够有效避免风险识别模型对有标签数据过拟合、无标签数据欠拟合问题。并且,也可避免因错误标注及过拟合导致的错误累积问题。同时,由于本发明提供的风险识别模型训练装置未对数据引入噪声或增强,所以也不存在数据增强无效及噪声引起的数据分布变化问题。用户通过使用利用本实施例提供的风险识别模型训练装置训练出的风险识别模型,可有效降低接收风险数据的概率,从而降低用户风险及损失。
下面,参考图3来描述根据本申请实施例的电子设备11。
如图3所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的风险识别模型训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入设备113可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的风险识别模型训练方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的风险识别模型训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种风险识别模型训练方法,其特征在于,所述方法包括:
获取第一无标签数据集,所述第一无标签数据集包括无标签数据;
对所述无标签数据进行转换,生成多个待预测数据;
利用标签生成模型对所述待预测数据进行预测,得到每个待预测数据对应的概率标签;
将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签;
将所述无标签数据对应的概率标签添加至所述第一无标签数据集,生成第二无标签数据集;
获取有标签数据集;
利用所述有标签数据集和所述第二无标签数据集生成混合数据集;
利用所述混合数据集对风险识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述利用所述混合数据集对风险识别模型进行训练,包括:
从所述混合数据集中随机抽取两个样本;
利用所述两个样本对风险识别模型进行训练;其中,
若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集,则训练目标函数为监督损失函数;
若所述两个样本均来自于所述第二无标签数据集,则训练目标函数为一致性损失函数;
利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。
3.根据权利要求1所述的方法,其特征在于,所述对所述无标签数据进行转换,生成多个待预测数据,包括:
通过随机打乱序列顺序的方式对所述无标签数据进行转换,生成多个待预测数据。
4.根据权利要求1所述的方法,其特征在于,所述标签生成模型为基于熵最小化损失训练生成的模型。
5.根据权利要求1所述的方法,其特征在于,所述风险识别模型为机器学习模型或深度学习模型。
6.一种风险识别模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取第一无标签数据集,所述第一无标签数据集包括无标签数据;
转换单元,用于对所述无标签数据进行转换,生成多个待预测数据;
预测单元,用于利用标签生成模型对所述待预测数据进行预测,得到每个待预测数据对应的概率标签;
计算单元,用于将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签;
添加单元,用于将所述无标签数据对应的概率标签添加至所述第一无标签数据集,生成第二无标签数据集;
所述获取单元,还用于获取有标签数据集;
生成单元,用于利用所述有标签数据集和所述第二无标签数据集生成混合数据集;
训练单元,用于利用所述混合数据集对风险识别模型进行训练。
7.根据权利要求6所述的装置,其特征在于,所述训练单元具体用于:
从所述混合数据集中随机抽取两个样本;
利用所述两个样本对风险识别模型进行训练;其中,
若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集,则训练目标函数为监督损失函数;
若所述两个样本均来自于所述第二无标签数据集,则训练目标函数为一致性损失函数;
利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。
8.根据权利要求6所述的装置,其特征在于,所述转换单元具体用于:
通过随机打乱序列顺序的方式对所述无标签数据进行转换,生成多个待预测数据。
9.根据权利要求6所述的装置,其特征在于,所述标签生成模型为基于熵最小化损失训练生成的模型。
10.根据权利要求6所述的装置,其特征在于,所述风险识别模型为机器学习模型或深度学习模型。
11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一项所述的风险识别模型训练方法。
12.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-5任一项所述的风险识别模型训练方法。
CN202111416551.2A 2021-11-26 2021-11-26 风险识别模型训练方法及装置 Pending CN113837670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111416551.2A CN113837670A (zh) 2021-11-26 2021-11-26 风险识别模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111416551.2A CN113837670A (zh) 2021-11-26 2021-11-26 风险识别模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN113837670A true CN113837670A (zh) 2021-12-24

Family

ID=78971443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111416551.2A Pending CN113837670A (zh) 2021-11-26 2021-11-26 风险识别模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN113837670A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595497A (zh) * 2018-03-16 2018-09-28 北京达佳互联信息技术有限公司 数据筛选方法、装置及终端
CN111898696A (zh) * 2020-08-10 2020-11-06 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112784749A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 目标模型的训练方法、目标对象的识别方法、装置及介质
US20210326708A1 (en) * 2019-05-21 2021-10-21 Beijing Sensetime Technology Development Co., Ltd. Neural network training method and apparatus, and image processing method and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595497A (zh) * 2018-03-16 2018-09-28 北京达佳互联信息技术有限公司 数据筛选方法、装置及终端
US20210326708A1 (en) * 2019-05-21 2021-10-21 Beijing Sensetime Technology Development Co., Ltd. Neural network training method and apparatus, and image processing method and apparatus
CN111898696A (zh) * 2020-08-10 2020-11-06 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112784749A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 目标模型的训练方法、目标对象的识别方法、装置及介质

Similar Documents

Publication Publication Date Title
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN115203380B (zh) 基于多模态数据融合的文本处理系统及其方法
CN107066464B (zh) 语义自然语言向量空间
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
CN115796173A (zh) 针对监管报送需求的数据处理方法和系统
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN117251699B (zh) 基于人工智能的医疗大数据分析方法及系统
US11637858B2 (en) Detecting malware with deep generative models
CN116308754B (zh) 一种银行信贷风险预警系统及其方法
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN111339308B (zh) 基础分类模型的训练方法、装置和电子设备
US20220335209A1 (en) Systems, apparatus, articles of manufacture, and methods to generate digitized handwriting with user style adaptations
CN113254592A (zh) 基于门机制的多级注意力模型的评论方面检测方法及系统
Wankhade et al. MAPA BiLSTM-BERT: multi-aspects position aware attention for aspect level sentiment analysis
Wang et al. Uncertainty-aware self-training for low-resource neural sequence labeling
WO2023061107A1 (zh) 基于层预测的语言翻译的方法、设备、装置和介质
CN111079376A (zh) 数据标注方法、装置、介质以及电子设备
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
Wang et al. KG-to-text generation with slot-attention and link-attention
Huang et al. Target-Oriented Sentiment Classification with Sequential Cross-Modal Semantic Graph
CN113837670A (zh) 风险识别模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211224

RJ01 Rejection of invention patent application after publication