CN113344585A

CN113344585A - 反欺诈预测模型的训练方法及装置、存储介质及电子设备

Info

Publication number: CN113344585A
Application number: CN202110690104.XA
Authority: CN
Inventors: 宋雨; 程璐; 赵辉; 杨晓明
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-03

Abstract

本发明提供了一种反欺诈预测模型的训练方法及装置、存储介质及电子设备，该方法包括：获取各个原始样本数据；确定每个原始样本数据中缺失的特征数据的数量；基于各个原始样本数据中缺失的特征数据的数量构造每个原始样本数据的缺失值特征，并基于每个原始样本数据中的目标特征数据构造每个原始样本数据的计数特征以及排序特征；目标特征数据为数值类型的特征数据；将每个原始样本数据的缺失值特征、计数特征以及所述排序特征添加至该原始样本数据中，获得该原始样本数据对应的目标样本数据；应用各个目标样本数据构建反欺诈预测模型。能够保留样本数据的数据特征，从而提升模型的质量，能够有效的避免模型的反欺诈预测结果不准确。

Description

反欺诈预测模型的训练方法及装置、存储介质及电子设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种反欺诈预测模型的训练方法及装置、存储介质及电子设备。

背景技术

随着科学技术的快速发展，基于互联网的交易业务也越来越多，各类的欺诈交易也层出不穷，为了保障交易业务的安全性，需要进行欺诈交易检测。在欺诈交易检测过程中，通过会利用机器学习模型基于交易的业务数据对交易进行欺诈检测，从而保障交易安全。

目前，现有的机器学习模型在训练过程中，往往需要对业务数据进行特征工程处理，然而，通过现有的特征工程处理方式进行处理，往往会因为业务数据的特征数据缺失等因素，无法准确的描述业务数据的数据特性与机器学习模型的输出结果之间的关系，造成机器学习模型的反欺诈预测结果不准确。

发明内容

本发明所要解决的技术问题是提供一种反欺诈预测模型的训练方法，能够避免机器学习模型的反欺诈预测结果不准确。

本发明还提供了一种反欺诈预测模型的训练装置，用以保证上述方法在实际中的实现及应用。

一种反欺诈预测模型的训练方法，包括：

获取各个原始样本数据；

确定每个所述原始样本数据中缺失的特征数据的数量；

基于各个所述原始样本数据中缺失的特征数据的数量构造每个所述原始样本数据的缺失值特征，并基于每个所述原始样本数据中的目标特征数据构造每个所述原始样本数据的计数特征以及排序特征；所述目标特征数据为数值类型的特征数据；

将每个所述原始样本数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该原始样本数据中，获得该原始样本数据对应的目标样本数据；

应用各个所述目标样本数据构建反欺诈预测模型。

上述的方法，可选的，所述应用各个所述目标样本数据构建反欺诈预测模型，包括：

对各个所述目标样本数据进行划分，获得多个第一目标样本数据、多个第二目标样本数据以及多个第三目标样本数据；

为每个所述第一目标样本数据以及每个所述第二目标样本数据设置样本标签；

将各个所述第一目标样本数据以及每个所述第一目标样本数据的样本标签组成训练样本集；

将各个所述第二目标样本数据以及每个所述第二目标样本数据的样本标签组成测试样本集；

将各个所述第三目标样本数据组成当前的未打标数据集；

应用所述训练样本集中的各个所述第一目标样本数据以及每个所述第一目标样本数据的样本标签，构建第一反欺诈预测模型；

应用所述测试样本集对所述第一反欺诈预测模型进行测试，获得所述第一反欺诈预测模型的模型评分；

应用所述第一反欺诈预测模型对当前所述未打标数据集中的各个第三目标样本数据进行预测，获得每个所述第三目标样本数据的预测得分；

基于每个所述第三目标样本数据的预测得分，确定每个所述第三目标样本数据是否满足当前的打标条件；所述打标条件为所述预测得分大于已设定的第一评分阈值，或小于已设定的第二评分阈值；

若存在满足所述打标条件的所述第三目标样本数据，则为该第三目标样本数据设置样本标签；

将已设置样本标签的所述第三目标样本数据确定为第一目标样本数据，并迁移至所述训练数据集，以更新所述训练数据集以及所述未打标数据集；

基于已更新的所述训练数据集对所述第一反欺诈预测模型进行训练，得到第二反欺诈预测模型；

应用所述测试样本集对所述第二反欺诈预测模型进行测试，获得所述第二反欺诈预测模型的模型评分；

判断所述第二反欺诈预测模型的模型评分是否大于所述第一反欺诈预测模型的模型评分；

若所述第二反欺诈模型的模型评分大于所述第一反欺诈模型的模型评分，则确定所述第二反欺诈预测模型是否满足预先设置的训练完成条件，若所述第二反欺诈预测模型未满足所述训练完成条件，则将所述第二反欺诈预测模型确定为新的第一反欺诈预测模型，并返回执行应用所述第一反欺诈预测模型对当前所述未打标数据集中的各个第三目标样本数据进行预测，获得每个所述第三目标样本数据的预测得分的步骤；若所述第二反欺诈预测模型满足所述训练完成条件，将满足所述训练完成条件的所述第二反欺诈预测模型确定为反欺诈预测模型；

若所述第二反欺诈模型的模型评分未大于所述第一反欺诈模型的模型评分，则调整所述打标条件中的所述第一评分阈值和/或所述第二评分阈值，并将所述第二反欺诈预测模型确定为新的第一反欺诈预测模型，并返回执行应用所述第一反欺诈预测模型对当前所述未打标数据集中的各个第三目标样本数据进行预测，获得每个所述第三目标样本数据的预测得分的步骤。

上述的方法，可选的，所述基于各个所述原始样本数据中缺失的特征数据的数量构造每个所述原始样本数据的缺失值特征，包括：

对各个所述原始样本数据中缺失的特征数据的数量进行离散化处理，获得每个所述原始样本数据的缺失值特征。

上述的方法，可选的，所述应用各个所述目标样本数据构建反欺诈预测模型之后，还包括：

获取待核验交易的业务数据；

确定所述业务数据中缺失的特征数据的数量；

基于所述业务数据中缺失的特征数据的数量构造所述业务数据的缺失值特征，并基于所述业务数据中的目标业务特征数据构造所述业务数据的计数特征以及排序特征；所述目标业务特征数据为数值类型的特征数据；

将所述业务数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该业务数据中，获得所述业务数据对应的目标业务数据；

应用所述反欺诈预测模型对所述目标业务数据进行预测，获得所述待核验交易的交易欺诈预测结果。

上述的方法，可选的，所述应用所述反欺诈预测模型对所述目标业务数据进行预测，获得所述待核验交易的交易欺诈预测结果之后，还包括：

若所述待核验交易的交易欺诈预测结果表征所述待核验交易存在欺诈风险，则拒绝所述待核验交易。

一种反欺诈预测模型的训练装置，包括：

获取单元，用于获取各个原始样本数据；

确定单元，用于确定每个所述原始样本数据中缺失的特征数据的数量；

特征构造单元，用于基于各个所述原始样本数据中缺失的特征数据的数量构造每个所述原始样本数据的缺失值特征，并基于每个所述原始样本数据中的目标特征数据构造每个所述原始样本数据的计数特征以及排序特征；所述目标特征数据为数值类型的特征数据；

生成单元，用于将每个所述原始样本数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该原始样本数据中，获得该原始样本数据对应的目标样本数据；

模型构建单元应用各个所述目标样本数据构建反欺诈预测模型。

上述的装置，可选的，所述模型构建单元，包括：

划分子单元，用于对各个所述目标样本数据进行划分，获得多个第一目标样本数据、多个第二目标样本数据以及多个第三目标样本数据；

第一执行子单元，用于为每个所述第一目标样本数据以及每个所述第二目标样本数据设置样本标签；

第二执行子单元，用于将各个所述第一目标样本数据以及每个所述第一目标样本数据的样本标签组成训练样本集；

第三执行子单元，用于将各个所述第二目标样本数据以及每个所述第二目标样本数据的样本标签组成测试样本集；

第四执行子单元，用于将各个所述第三目标样本数据组成当前的未打标数据集；

构建子单元，用于应用所述训练样本集中的各个所述第一目标样本数据以及每个所述第一目标样本数据的样本标签，构建第一反欺诈预测模型；

第一测试子单元，用于应用所述测试样本集对所述第一反欺诈预测模型进行测试，获得所述第一反欺诈预测模型的模型评分；

预测子单元，用于应用所述第一反欺诈预测模型对当前所述未打标数据集中的各个第三目标样本数据进行预测，获得每个所述第三目标样本数据的预测得分；

第一确定子单元，用于基于每个所述第三目标样本数据的预测得分，确定每个所述第三目标样本数据是否满足当前的打标条件；所述打标条件为所述预测得分大于已设定的第一评分阈值，或小于已设定的第二评分阈值；

标签设置子单元，用于若存在满足所述打标条件的所述第三目标样本数据，则为该第三目标样本数据设置样本标签；

更新子单元，用于将已设置样本标签的所述第三目标样本数据确定为第一目标样本数据，并迁移至所述训练数据集，以更新所述训练数据集以及所述未打标数据集；

训练子单元，用于基于已更新的所述训练数据集对所述第一反欺诈预测模型进行训练，得到第二反欺诈预测模型；

第二测试子单元，用于应用所述测试样本集对所述第二反欺诈预测模型进行测试，获得所述第二反欺诈预测模型的模型评分；

判断子单元，用于判断所述第二反欺诈预测模型的模型评分是否大于所述第一反欺诈预测模型的模型评分；

第五执行子单元，用于若所述第二反欺诈模型的模型评分大于所述第一反欺诈模型的模型评分，则确定所述第二反欺诈预测模型是否满足预先设置的训练完成条件，若所述第二反欺诈预测模型未满足所述训练完成条件，则将所述第二反欺诈预测模型确定为新的第一反欺诈预测模型，并返回触发所述预测子单元；若所述第二反欺诈预测模型满足所述训练完成条件，将满足所述训练完成条件的所述第二反欺诈预测模型确定为反欺诈预测模型；

第六执行单元，用于若所述第二反欺诈模型的模型评分未大于所述第一反欺诈模型的模型评分，则调整所述打标条件中的所述第一评分阈值和/或所述第二评分阈值，并将所述第二反欺诈预测模型确定为新的第一反欺诈预测模型，并返回触发所述预测子单元。

上述的装置，可选的，所述反欺诈预测模型的训练装置，还包括：

第一处理单元，用于获取待核验交易的业务数据；

第二处理单元，用于确定所述业务数据中缺失的特征数据的数量；

第三处理单元，用于基于所述业务数据中缺失的特征数据的数量构造所述业务数据的缺失值特征，并基于所述业务数据中的目标业务特征数据构造所述业务数据的计数特征以及排序特征；所述目标业务特征数据为数值类型的特征数据；

第四处理单元，用于将所述业务数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该业务数据中，获得所述业务数据对应的目标业务数据；

预测单元，用于应用所述反欺诈预测模型对所述目标业务数据进行预测，获得所述待核验交易的交易欺诈预测结果。

一种存储介质，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的反欺诈预测模型的训练方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的反欺诈预测模型的训练方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种反欺诈预测模型的训练方法及装置、存储介质及电子设备，该方法包括：获取各个原始样本数据；确定每个所述原始样本数据中缺失的特征数据的数量；基于各个所述原始样本数据中缺失的特征数据的数量构造每个所述原始样本数据的缺失值特征，并基于每个所述原始样本数据中的目标特征数据构造每个所述原始样本数据的计数特征以及排序特征；所述目标特征数据为数值类型的特征数据；将每个所述原始样本数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该原始样本数据中，获得该原始样本数据对应的目标样本数据；应用各个所述目标样本数据构建反欺诈预测模型。应用本发明提供的方法，能够保留样本数据的数据特征，从而提升模型的质量，能够有效的避免模型的反欺诈预测结果不准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种反欺诈预测模型的训练方法的方法流程图；

图2为本发明提供的一种通过反欺诈预测模型对待核验交易进行预测的过程的流程图；

图3为本发明提供的一种反欺诈预测模型的训练装置的结构示意图；

图4为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种反欺诈预测模型的训练方法，该方法可以应用于电子设备，所述方法的方法流程图如图1所示，具体包括：

S101：获取各个原始样本数据。

在本发明实施例中，原始样本数据可以是用户的历史交易的业务数据，该原始样本数据可以包含各个预设特征维度的特征数据，例如，年龄特征、交易金额特征、交易方式特征、开卡特征以及交易频率特征等各种特征数据。

S102：确定每个所述原始样本数据中缺失的特征数据的数量。

在本发明实施例中，缺失的特征数据可以是空的特征数据。

S103：基于各个所述原始样本数据中缺失的特征数据的数量构造每个所述原始样本数据的缺失值特征，并基于每个所述原始样本数据中的目标特征数据构造每个所述原始样本数据的计数特征以及排序特征；所述目标特征数据为数值类型的特征数据。

在本发明实施例中，基于各个原始样本数据中缺失的特征数据的数量构造每个原始样本数据的缺失值特征的一种可行的方式，包括：对各个所述原始样本数据中缺失的特征数据的数量进行离散化处理，获得每个所述原始样本数据的缺失值特征；具体可以对各个原始样本数据缺失的特征数据的数量进行排序，得到每个原始样本数据缺失的特征数据的数量的排序序号，将每个原始样本数据的排序序号作为该原始样本数据缺失值特征，其中，排序的方式可以为由小至大的排序方式，也可以为由大至小的排序方式。

构造每个原始样本数据的缺失值特征的另一种可行的方式可以，包括：将每个原始样本数据中缺失的特征数据的数量作为该原始样数据的缺失值特征。

在本发明实施例中，原始样本数据中的目标特征数据可以为一个或多个，数值类型的特征数据可以包括年龄特征维度的特征数据、交易金额维度的特征数据、交易频率特征维度的特征数据以及资产维度的特征数据等。

可选的，基于每个原始样本数据中的目标特征数据构造每个原始样本数据的计数特征的一种可行的方式，可以为：对各个原始样本数据进行分组，得到各个原始样本数据组；每个原始样本数据组之间的各个原始样本数据的目标特征数据相同；将每个原始样本数据组中的原始样本数据的数量作为该原始样本数据组中的每个原始样本数据的计数特征。

可选的，基于每个原始样本数据中的目标特征数据构造每个原始样本的排序特征的一种可行的方式，可以为：按每个目标特征数据由小至大或由大至小的顺序对每个目标特征数据进行排序，得到每个原始样本数据的目标特征数据的排序序号，将每个原始特征数据的目标特征数据的排序序号作为该原始样本数据的排序特征。

例如，在4个原始样本数据中，这4个原始样本数据的目标特征数据分别为12、4、2和30，按个目标特征数据由小至大的顺序对其进行排序，得到的此4个原始样本数据的排序特征分别为3、2、1和4。

S104：将每个所述原始样本数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该原始样本数据中，获得该原始样本数据对应的目标样本数据。

在本发明实施例中，将原始样本数据的缺失值特征、计数特征以及排序特征添加至该原始样本数据中，也即为该原始样本数据增加了新的特征维度的特征，将添加该缺失值特征、计数特征以及排序特征的原始样本数据确定为目标样本数据。

S105：应用各个所述目标样本数据构建反欺诈预测模型。

在本发明实施例中，基于各个目标样本数据构建训练集，利用训练集训练反欺诈预测模型。

其中，可以应用该反欺诈预测模型对待核验交易的业务数据进行预测，获得待核验交易的预测结果，该预测结果可以表征该待核验交易是否为欺诈交易。

应用本发明实施例提供的方法，通过目标样本数据构建反欺诈预测模型，能够建构特征缺失数量与模型的输出标签的关系，能够保留样本数据的数据特征，从而提升模型的质量，能够有效的避免模型的反欺诈预测结果不准确。

在本发明提供的一实施例中，基于上述的实施过程，具体的，所述应用各个所述目标样本数据构建反欺诈预测模型的过程，具体包括：

S201：对各个所述目标样本数据进行划分，获得多个第一目标样本数据、多个第二目标样本数据以及多个第三目标样本数据。

在本发明实施例中，可以将各个目标样本数据随机划分为组成训练集的第一目标样本数据、组成测试集的第二目标样本数据以及组成未打标数据集的第三目标样本数据集。

S202：为每个所述第一目标样本数据以及每个所述第二目标样本数据设置样本标签。

其中，每个目标样本数据的样本标签可以为正样本标签或负样本标签。

S203：将各个所述第一目标样本数据以及每个所述第一目标样本数据的样本标签组成训练样本集。

S204：将各个所述第二目标样本数据以及每个所述第二目标样本数据的样本标签组成测试样本集。

S205：将各个所述第三目标样本数据组成当前的未打标数据集。

其中，未打标数据集中的各个第三目标样本数据均未设置样本标签。

S206：应用所述训练样本集中的各个所述第一目标样本数据以及每个所述第一目标样本数据的样本标签，构建第一反欺诈预测模型。

其中，可以利用训练样本集对初始反欺诈预测模型进行训练，获得第一反欺诈预测模型，具体可以选拟合数据快的lightGBM进行模型训练，获得第一反欺诈预测模型。

S207：应用所述测试样本集对所述第一反欺诈预测模型进行测试，获得所述第一反欺诈预测模型的模型评分。

其中，该模型评分可以为各种类型的模型评分，例如可以为AUC分数。

S208：应用所述第一反欺诈预测模型对当前所述未打标数据集中的各个第三目标样本数据进行预测，获得每个所述第三目标样本数据的预测得分。

在本发明实施例中，可以将未打标数据集中的每个第三目标样本数据分别输入至第一反欺诈预测模型，获得反欺诈预测模型输出的每个第三目标样本数据的预测得分，该预测得分可以表征该第三目标样本数据所属的交易为欺诈交易的概率。

S209：基于每个所述第三目标样本数据的预测得分，确定每个所述第三目标样本数据是否满足当前的打标条件；所述打标条件为所述预测得分大于已设定的第一评分阈值，或小于已设定的第二评分阈值。

S210：若未存在满足该打标条件的第三目标样本数据，则可以将该打标条件的第一评分阈值调低和/或第二评分阈值调高，并返回执行S209。

在本发明实施中，在未存在满足该打标条件的第三目标样本数据的情况下，可以降低该第一评分阈值，也可以增加该第二评分阈值，从而获得满足该打标条件的第三目标样本数据。

在一种可行的方式中，若未存在满足该打标条件的第三目标样本数据，则可以将该第一反欺诈预测模型确定为反欺诈预测模型。

S211：若存在满足所述打标条件的所述第三目标样本数据，则为该第三目标样本数据设置样本标签。

在本发明实施例中，预测得分大于已设定的第一评分阈值，则可以为第三目标样本数据设置正样本标签；预测得分小于已设定的第二评分阈值，则可以为第三目标样数据设置负样本标签。

S212：将已设置样本标签的所述第三目标样本数据确定为第一目标样本数据，并迁移至所述训练数据集，以更新所述训练数据集以及所述未打标数据集。

S213：基于已更新的所述训练数据集对所述第一反欺诈预测模型进行训练，得到第二反欺诈预测模型。

S214：应用所述测试样本集对所述第二反欺诈预测模型进行测试，获得所述第二反欺诈预测模型的模型评分。

S215:判断所述第二反欺诈预测模型的模型评分是否大于所述第一反欺诈预测模型的模型评分，若是，则执行S216；若否，则执行S217。

可选的，S215中的判断结果为是的情况下，迭代次数加一。

S216：确定所述第二反欺诈预测模型是否满足预先设置的训练完成条件，若所述第二反欺诈预测模型未满足所述训练完成条件，则将所述第二反欺诈预测模型确定为新的第一反欺诈预测模型，并返回执行S208中的应用所述第一反欺诈预测模型对当前所述未打标数据集中的各个第三目标样本数据进行预测，获得每个所述第三目标样本数据的预测得分的步骤；若所述第二反欺诈预测模型满足所述训练完成条件，将满足所述训练完成条件的所述第二反欺诈预测模型确定为反欺诈预测模型。

其中，该训练完成条件可以为迭代次数大于预先设置的次数阈值，或者第二反欺诈预测模型的模型评分大于预先设置的评分阈值。

S217：调整所述打标条件中的所述第一评分阈值和/或所述第二评分阈值，并将所述第二反欺诈预测模型确定为新的第一反欺诈预测模型，并返回执行S208中的应用所述第一反欺诈预测模型对当前所述未打标数据集中的各个第三目标样本数据进行预测，获得每个所述第三目标样本数据的预测得分的步骤。

在本发明实施例中，通过第一反欺诈预测模型对未打标数据集进行预测，并基于未打标数据集中的每个第三目标样本数据进行打标，能够有效的利用未打标的数据，避免数据的浪费，提高了数据的利用率，并且通过不断迭代训练模型，能够有效的提升模型的性能。

在本发明实施例中，基于上述的实施过程，具体的，所述应用各个所述目标样本数据构建反欺诈预测模型之后，通过反欺诈预测模型对待核验交易进行预测，具体过程，如图2所示，还包括：

S301：获取待核验交易的业务数据。

其中，该待核验交易可以为各个类型的交易，例如，可以为转账交易，该业务数据的特征维度与上述的原始样本数据的特征维度一致。

S302：确定所述业务数据中缺失的特征数据的数量。

其中，缺失的特征数据可以是空的特征数据。

S303：基于所述业务数据中缺失的特征数据的数量构造所述业务数据的缺失值特征，并基于所述业务数据中的目标业务特征数据构造所述业务数据的计数特征以及排序特征；目标业务特征数据可以为数值类型的特征数据；

在本发明实施例中，构造每个业务数据的缺失值特征的一种可行的方式，包括：将该目标业务特征数据中的缺失的特征数据的数量与对各个原始样本数据缺失的特征数据的数量进行排序，得到目标业务特征数据的排序序号，将业务数据的排序序号作为该业务数据的缺失值特征，其中，排序的方式可以为由小至大的排序方式，也可以为由大至小的排序方式。

构造每个原始样本数据的缺失值特征的另一种可行的方式可以，包括：将该业务数据缺失的特征数据的数量作为业务数据的缺失值特征。

在本发明实施例中，目标业务特征数据可以为一个或多个。

可选的，构造业务数据的计数特征的一种可行的方式，可以为，确定业务数据所属的原始样本数据组；将该原始样本数据组中的原始样本数据的数量作为该业务数据的计数特征，其中，业务数据的目标业务特征数据与该原始样本数据组中的目标特征数据一致。

可选的，构造业务数据的排序特征的一种可行的方式，可以为：将目标业务数据与每个目标特征数据按由小至大或由大至小的顺序进行排序，得到目标业务特征数据的排序序号，将目标业务特征数据的排序序号作为该业务数据的排序特征。

S304：将所述业务数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该业务数据中，获得所述业务数据对应的目标业务数据。

S305：应用所述反欺诈预测模型对所述目标业务数据进行预测，获得所述待核验交易的交易欺诈预测结果。

在本发明实施例中，该交易欺诈预测结果可以标签待核验交易是否存在欺诈风险。

在本发明实施例中，基于上述的实施过程，具体的，所述应用所述反欺诈预测模型对所述目标业务数据进行预测，获得所述待核验交易的交易欺诈预测结果之后，还包括：

若所述待核验交易的交易欺诈预测结果表征所述待核验交易存在欺诈风险，则拒绝所述待核验交易；

若待核验交易的交易欺诈预测结果表征待核验交易不存在欺诈风险，则允许所述待核验交易。

与图1所述的方法相对应，本发明实施例还提供了一种反欺诈预测模型的训练装置，用于对图1中方法的具体实现，本发明实施例提供的反欺诈预测模型的训练装置可以应用于电子设备中，其结构示意图如图3所示，具体包括：

获取单元401，用于获取各个原始样本数据；

确定单元402，用于确定每个所述原始样本数据中缺失的特征数据的数量；

特征构造单元403，用于基于各个所述原始样本数据中缺失的特征数据的数量构造每个所述原始样本数据的缺失值特征，并基于每个所述原始样本数据中的目标特征数据构造每个所述原始样本数据的计数特征以及排序特征；所述目标特征数据为数值类型的特征数据；

生成单元404，用于将每个所述原始样本数据的所述缺失值特征、所述计数特征以及所述排序特征添加至该原始样本数据中，获得该原始样本数据对应的目标样本数据；

模型构建单元405，用于应用各个所述目标样本数据构建反欺诈预测模型。

在本发明提供的一实施例中，基于上述的方案，具体的，所述模型构建单元405，包括：

在本发明实施例提供的一实施例中，基于上述的方案，具体的，所述反欺诈预测模型的训练装置，还包括：

第一处理单元，用于获取待核验交易的业务数据；

在本发明提供的一实施例中，基于上述的方案，可选的，所述特征构造单元403，包括：

在本发明提供的一实施例中，基于上述的方案，可选的，所述反欺诈预测模型的训练装置，还包括：交易处理单元；

该交易处理单元，用于若所述待核验交易的交易欺诈预测结果表征所述待核验交易存在欺诈风险，则拒绝所述待核验交易。

上述本发明实施例公开的反欺诈预测模型的训练装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的反欺诈预测模型的训练方法相同，可参见上述本发明实施例提供的反欺诈预测模型的训练方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述反欺诈预测模型的训练方法。

本发明实施例还提供了一种电子设备，其结构示意图如图4所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

获取各个原始样本数据；

确定每个所述原始样本数据中缺失的特征数据的数量；

应用各个所述目标样本数据构建反欺诈预测模型。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种反欺诈预测模型的训练方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种反欺诈预测模型的训练方法，其特征在于，包括：

获取各个原始样本数据；

确定每个所述原始样本数据中缺失的特征数据的数量；

应用各个所述目标样本数据构建反欺诈预测模型。

2.根据权利要求1所述的方法，其特征在于，所述应用各个所述目标样本数据构建反欺诈预测模型，包括：

将各个所述第三目标样本数据组成当前的未打标数据集；

3.根据权利要求1所述的方法，其特征在于，所述基于各个所述原始样本数据中缺失的特征数据的数量构造每个所述原始样本数据的缺失值特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述应用各个所述目标样本数据构建反欺诈预测模型之后，还包括：

获取待核验交易的业务数据；

确定所述业务数据中缺失的特征数据的数量；

5.根据权利要求4所述的方法，其特征在于，所述应用所述反欺诈预测模型对所述目标业务数据进行预测，获得所述待核验交易的交易欺诈预测结果之后，还包括：

6.一种反欺诈预测模型的训练装置，其特征在于，包括：

获取单元，用于获取各个原始样本数据；

7.根据权利要求6所述的装置，其特征在于，所述模型构建单元，包括：

8.根据权利要求6所述的装置，其特征在于，所述反欺诈预测模型的训练装置，还包括：

第一处理单元，用于获取待核验交易的业务数据；

9.一种存储介质，其特征在于，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～5任意一项所述的反欺诈预测模型的训练方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～5任意一项所述的反欺诈预测模型的训练方法。