CN117454320A

CN117454320A - 目标对象识别方法、装置、计算机设备和存储介质

Info

Publication number: CN117454320A
Application number: CN202311310780.5A
Authority: CN
Inventors: 陈燕燕
Original assignee: Clp Jinxin Software Shanghai Co ltd
Current assignee: Clp Jinxin Software Shanghai Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-26

Abstract

本申请涉及一种目标对象识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待识别对象集合，并将待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合；第一目标对象集合中包含被初步确定的目标对象；基于补偿模型在初始非目标对象集合中确定第二目标对象集合和非目标对象集合；补偿模型是基于数量相等的目标对象训练样本和非目标对象训练样本进行半监督学习算法的训练得到的；基于第一目标对象集合和第二目标对象集合，构建目标对象集合。采用本方法能够提高目标对象识别的准确性。

Description

目标对象识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种目标对象识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

在现有风控场景中，通常存在一些高风险用户，以这些高风险用户为目标对象，在客群中识别并处理，以避免对未来造成实质性的损失，如恶意刷卡套现，信用卡违约不还等。

目前的目标对象识别方法，基于目标对象样本和非目标对象样本训练有监督式的机器学习算法，得到识别模型。然后，将待识别对象输入到识别模型中，得到识别结果。该识别结果表征待识别对象是否为高风险用户。

然而，目前的目标对象识别方法，由于目标对象样本和非目标对象的样本数量不平衡，将会导致识别模型的识别准确率降低，进而导致目标对象识别方法准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种目标对象识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种目标对象识别方法，包括：

获取待识别对象集合，并将所述待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合；所述第一目标对象集合中包含被初步确定的目标对象；

基于补偿模型在所述初始非目标对象集合中确定第二目标对象集合和非目标对象集合；所述补偿模型是基于数量相等的目标对象训练样本和非目标对象训练样本进行半监督学习算法的训练得到的；

基于所述第一目标对象集合和所述第二目标对象集合，构建目标对象集合。

在其中一个实施例中，所述将所述待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合之前，所述方法还包括：

获取初始样本数据集；所述初始样本数据集中包含多个含有第一标记的目标对象训练样本和多个含有第二标记的非目标对象训练样本；

将所述初始样本数据集输入预设的回归算法中，通过所述回归算法，对所述初始样本数据集中的各对象训练样本进行识别处理，直至训练后的所述回归算法满足预设的第一训练停止条件，将满足所述第一训练停止条件的所述训练后的所述回归算法作为回归模型。

在其中一个实施例中，所述获取初始样本数据集，包括：

获取预设时间周期内的各目标对象训练样本和各非目标对象训练样本；

对各所述目标对象训练样本添加第一标记，并对各所述非目标对象训练样本添加第二标记；

根据各含有所述第一标记的所述目标对象训练样本和各含有所述第二标记的所述非目标对象训练样本，构建初始样本数据集。

在其中一个实施例中，所述将所述待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合，包括：

针对所述待识别对象集合中的每一待识别对象，将所述待识别对象输入预设的回归模型中，通过所述回归模型对所述待识别对象进行识别标记，得到识别标记结果；

基于所述识别标记结果对所述待识别对象集合进行划分，得到第一目标对象集合和初始非目标对象集合；

删除初始非目标对象集合中各所述待识别对象的标记识别结果。

在其中一个实施例中，所述基于补偿模型在所述初始非目标对象集合中确定第二目标对象集合和非目标对象集合之前，所述方法还包括：

在所述初始样本数据集中确定目标样本数据集；所述目标样本数据集中所述目标对象训练样本的数量和所述非目标对象训练样本的数量相同；

将所述目标样本数据集输入预设的半监督学习算法中，通过所述半监督学习算法，对所述目标样本数据集中的各对象样本进行预测处理，直至训练后的所述半监督学习算法满足预设的第二训练停止条件，将满足所述第二训练停止条件的所述训练后的所述半监督学习算法作为补偿模型。

在其中一个实施例中，所述基于补偿模型在所述初始非目标对象集合中确定第二目标对象集合和非目标对象集合，包括：

针对所述初始非目标对象集合中的每一待识别对象，将所述待识别对象输入预设的补偿模型中，通过所述补偿模型对所述待识别对象进行标记预测，得到所述待识别对象的标记预测结果；

若所述标记预测结果为第一标记，将所述待识别对象添加到第二目标对象集合中；

若所述标记预测结果为第二标记，将所述待识别对象添加到非目标对象集合中。

第二方面，本申请还提供了一种目标对象识别装置，包括：

获取模块，用于获取待识别对象集合，并将所述待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合；所述第一目标对象集合中包含被初步确定的目标对象；

确定模块，用于基于补偿模型在所述初始非目标对象集合中确定第二目标对象集合和非目标对象集合；所述补偿模型是基于数量相等的目标对象训练样本和非目标对象训练样本进行半监督学习算法的训练得到的；

构建模块，用于基于所述第一目标对象集合和所述第二目标对象集合，构建目标对象集合。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述目标对象识别方法、装置、计算机设备、存储介质和计算机程序产品，获取待识别对象集合，并将所述待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合；所述第一目标对象集合中包含被初步确定的目标对象；基于补偿模型在所述初始非目标对象集合中确定第二目标对象集合和非目标对象集合；所述补偿模型是基于数量相等的目标对象训练样本和非目标对象训练样本进行半监督学习算法的训练得到的；基于所述第一目标对象集合和所述第二目标对象集合，构建目标对象集合。采用本方法，通过回归模型确定了第一目标对象集合和初始非目标对象集合，实现对目标对象的初步筛选，基于数量相等的目标对象训练样本和非目标对象训练样本半监督式学习算法得到补偿模型避免了传统训练方法得到的补偿模型具有偏向性，进而，基于训练后的补偿模型对初始非目标对象集合进行补偿筛选，得到的第二目标对象集合，又补偿了第一目标对象集合，提高了目标对象识别方法的准确率。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中目标对象识别方法的流程示意图；

图2为一个实施例中训练回归算法步骤的流程示意图；

图3为一个实施例中构建初始样本数据集步骤的流程示意图；

图4为一个实施例中确定第一目标对象集合步骤的流程示意图；

图5为一个实施例中训练半监督学习算法步骤的流程示意图；

图6为一个实施例中确定第二目标对象集合步骤的流程示意图；

图7为另一个实施例中目标对象识别方法的流程示意图；

图8为一个实施例中目标对象识别装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个示例性的实施例中，如图1所示，提供了一种目标对象识别方法，本申请实施例对于执行目标对象识别方法的执行设备不做限定，以该方法应用于计算机设备为例进行说明，包括以下步骤102至步骤106。其中：

步骤102，获取待识别对象集合，并将待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合。

其中，第一目标对象集合中包含被初步确定的目标对象。待识别对象集合中包含多个需要被识别的对象。

在实施中，计算机设备获取待识别对象集合。然后，计算机设备获取初始样本数据集。计算机设备通过初始样本数据集训练预设的回归算法，并判断训练后的回归算法是否满足预设的第一训练停止条件。在训练后的回归算法满足第一训练停止条件的情况下，计算机设备将回归算法确定为回归模型。然后，计算机设备将待识别对象集合输入回归模型中，通过回归模型对待识别对象集合中的各待识别对象进行识别标记，得到识别标记结果。计算机设备基于识别标记结果划分待识别对象集合，得到第一目标对象集合和初始非目标对象集合。

步骤104，基于补偿模型在初始非目标对象集合中确定第二目标对象集合和非目标对象集合。

其中，补偿模型是基于数量相等的目标对象训练样本和非目标对象训练样本进行半监督学习算法的训练得到的。第二目标对象集合中包含了多个被确定的目标对象。

在实施中，计算机设备中预先设置有半监督学习算法。计算机设备从初始样本数据集中确定数量相等的目标对象训练样本和非目标对象训练样本，并基于数量相等的目标对象训练样本和非目标对象训练样本构建目标样本数据集。计算机设备根据目标样本数据集训练半监督学习算法，并判断训练后的半监督学习算法是否满足预设的第二训练停止条件。在训练后的半监督学习算法满足第二训练停止条件的情况下，计算机设备将半监督学习算法确定为补偿模型。然后，计算机设备将初始非目标对象集合输入到补偿模型中，通过补偿模型对初始非目标对象集合中的各待识别对象进行标记预测，得到标记预测结果。计算机设备基于标记预测结果对初始非目标对象集合进行划分，得到第二目标对象集合和非目标对象集合。

步骤106，基于第一目标对象集合和第二目标对象集合，构建目标对象集合。

在实施中，计算机设备基于第一目标对象集合中的各目标对象和第二目标对象集合中的各目标对象集合，构建目标对象集合。

上述目标对象识别方法中，通过回归模型确定了第一目标对象集合和初始非目标对象集合，实现对目标对象的初步筛选，基于数量相等的目标对象训练样本和非目标对象训练样本半监督式学习算法得到补偿模型避免了传统训练方法得到的补偿模型具有偏向性，进而，基于训练后的补偿模型对初始非目标对象集合进行补偿筛选，得到的第二目标对象集合，又补偿了第一目标对象集合，提高了目标对象识别方法的准确率。

在一个示例性的实施例中，在将待识别对象集合输入回归模型之前，需要基于初始样本数据集训练回归算法，得到回归模型。如图2所示，在步骤102中的将待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合执行之前，该目标对象识别方法的具体处理过程还包括步骤202至步骤204。其中：

步骤202，获取初始样本数据集。

其中，初始样本数据集中包含多个含有第一标记的目标对象训练样本和多个含有第二标记的非目标对象训练样本。目标对象训练样本为已经确定的目标对象，非目标对象训练样本为已经确定的非目标对象。

在实施中，计算机设备获取预设时间周期内的多个目标对象训练样本和多个非目标对象训练样本。然后，计算机设备分别标记各目标对象训练样本和各非目标对象训练样本，并基于标记后的各目标对象训练样本和各非目标对象训练样本构建初始样本数据集。

在一示例性实施例中，计算机设备需要待识别对象集合中确定容易被欺诈的对象(用户)。待识别对象集合为第N+4月的客群。因此，计算机设备选择选择风控场景下冷启动条件下的样本数据。以反欺诈客群识别为例，预设时间周期为第1月到第N+3个月的数据。其中，N为大于或等于1的自然数。目标对象训练样本为接受欺诈的用户，非目标对象训练样本为拒绝欺诈的用户。

可选的，若待识别对象集合为第N+5月的客群，预设时间周期可以为第1月到第N+4月的客群，本申请实施例对预设时间周期不做限定。

步骤204，将初始样本数据集输入预设的回归算法中，通过回归算法，对初始样本数据集中的各对象训练样本进行识别处理，直至训练后的回归算法满足预设的第一训练停止条件，将满足第一训练停止条件的训练后的回归算法作为回归模型。

其中，第一训练停止条件为训练后的回归算法对应的AUC(Area Under Curve，接受者操作特性曲线下与坐标轴围成的面积)大于或等于预设的第一AUC阈值。

在实施中，计算机设备逐一将初始样本数据集中的各对象训练样本输入预设的回归算法中，通过回归算法对对象训练样本进行识别处理，得到训练后的回归算法。然后，计算机设备确定训练后的回归算法对应的AUC值。计算机设备判断训练后的回归算法的AUC值是否达到预设的第一AUC阈值。在训练后的回归算法的AUC值达到第一AUC阈值的情况下，计算机设备确定训练后的回归算法为回归模型。在训练后的回归算法的AUC值未达到第一AUC阈值的情况下，计算机设备继续基于初始样本数据集训练回归算法，直到训练后的回归算法满足第一训练停止条件。

可选的，第一AUC阈值可以但不限于设置为0.8，根据回归算法的训练需求确定，本申请实施例对第一AUC阈值不做限定。

可选的，回归算法可以但不限于是有监督机器学习算法logistics(一种广义的线性回归分析算法)，本申请实施例对回归算法不做限定。

本实施例中，通过初始样本训练集训练回归算法，并将满足第一训练停止条件的回归算法确定为回归模型，提高了回归模型的准确率，进而提高了目标对象识别方法的准确率。

在一个示例性的实施例中，如图3所示，步骤202的具体处理过程包括步骤302至步骤306。其中：

步骤302，获取预设时间周期内的各目标对象训练样本和各非目标对象训练样本。

在实施中，计算机设备基于待识别对象集合的时间周期确定对象训练样本的时间周期。然后，计算机设备获取对象训练样本的时间周期内的各目标对象训练样本和各非目标对象训练样本。

步骤304，对各目标对象训练样本添加第一标记，并对各非目标对象训练样本添加第二标记。

其中，第一标记可以用标签1表示，第二标记可以用标签0表示。

在实施中，计算机设备将各目标对象训练样本中的每一目标对象训练样本标记为第一标记，即标记为1。同时，计算机设备将各非目标对象训练样本中的每一非目标对象训练样本标记为第二标记，即标记为0。

在一示例性实施例中，计算机设备将接受欺诈的客群中的每一欺诈用户标记为1。同时，计算机设备将拒绝欺诈的客群中的每一非欺诈用户标记为0。

步骤306，根据各含有第一标记的目标对象训练样本和各含有第二标记的非目标对象训练样本，构建初始样本数据集。

在实施中，计算机设备根据多个含有第一标记的目标对象训练样本和多个含有第二标记的非目标对象训练样本，构建初始样本数据集。

本实施例中，通过对各目标对象训练样本和各非目标对象训练样本进行标记，并基于标记后的各目标对象训练样本和各非目标对象训练样本构建初始样本数据集，便于后续训练回归算法，进而，提高回归模型的准确度。

在一个示例性的实施例中，如图4所示，步骤102中将待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合的具体处理过程包括步骤402至步骤406。其中：

步骤402，针对待识别对象集合中的每一待识别对象，将待识别对象输入预设的回归模型中，通过回归模型对待识别对象进行识别标记，得到识别标记结果。

在实施中，计算机设备中预先设置有回归模型。计算机设备针对待识别对象集合中的每一待识别对象，将该待识别对象输入到预设的回归模型中。计算机设备通过回归模型对待识别对象进行识别并标记，得到该待识别对象的识别标记结果。

步骤404，基于识别标记结果对待识别对象集合进行划分，得到第一目标对象集合和初始非目标对象集合。

在实施中，计算机设备针对每一待识别对象，判断待识别对象的识别标记结果是否为第一标记。若该待识别对象的识别标记结果为第一标记，计算机设备将该待识别对象确定为目标对象，并将目标对象添加到第一目标对象集合中。若该待识别对象的识别标记结果为第二标记，计算机设备将该待识别对象添加到初始非目标对象集合中。

步骤406，删除初始非目标对象集合中各待识别对象的标记识别结果。

在实施中，计算机设备删除初始非目标对象集合中每一待识别对象的标记识别结果，便于后续将待识别对象输入补偿模型中进行识别。

在一示例性实施例中，计算机设备基于反欺诈识别模型(回归模型)预测新数据(待识别对象集合)，识别出潜在的接受欺诈用户群。其中，待识别对象集合为第N+4月的用户群。具体地，计算机设备将待识别对象集合输入反欺诈识别模型中，得到待识别对象集合中每一待识别对象的标记识别结果。计算机设备将标记识别结果为1(第一标记)的待识别对象确定为目标对象，并将目标对象添加到第一目标对象集合中。同时，计算机设备将标记识别结果为0的待识别对象添加到初始非目标对象集合中。其中，初始非目标对象集合为反欺诈识别模型识别的拒绝欺诈的客群。但是，反欺诈识别模型识别的拒绝欺诈的客群中可能仍然存在一部分的潜在高风险欺诈客户未被反欺诈识别模型识别出来。因此，需要再次对初始非目标对象集合进行筛选，回捞一部分高风险欺诈客户群。为了便于对初始非目标对象集合进行再次筛选，计算机设备删除拒绝客群的标签列(标记识别结果)，将初始非目标对象集合默认为无标签群体，即无法判别出哪些是潜在的被拒绝的高风险欺诈用户。

本实施例中，基于回归模型对待识别对象集合进行划分，得到了第一目标对象集合和初始非目标对象集合，确定了部分目标对象，实现了对于目标对象的初步筛选。

在一个示例性的实施例中，在将初始非目标对象集合输入补偿模型之前，需要基于数量相等的目标对象训练样本和非目标对象训练样本训练半监督学习算法得到补偿模型。如图5所示，在步骤104之前，该目标对象识别方法的具体处理过程还包括步骤502至步骤504。其中：

步骤502，在初始样本数据集中确定目标样本数据集。

其中，目标样本数据集中目标对象训练样本的数量和非目标对象训练样本的数量相同。初始样本数据集中包含多个目标对象训练样本和多个非目标对象训练样本。

在实施中，计算机设备在初始样本数据集中确定与非目标对象训练样本的数量相等的目标对象训练样本。然后，计算机设备基于数量相等的目标对象训练样本和非目标对象训练样本，构建目标样本数据集。

在一示例性实施例中，目标对象训练样本含有第一标记(标签为1)，非目标对象训练样本含有第二标记(标签为0)。计算机设备基于均衡抽样的方法(标签为1样本量和标签为0样本量相等，样本比例1:1)，对样本周期为第1至第N+3月的样本数据(初始样本数据集)采样，得到目标样本数据集。其中，标签为1的采样率100％。在目标对象训练样本为欺诈用户且非目标对象训练样本为非欺诈用户的情况下，因为欺诈用户和非欺诈用户相比，样本数据极其少，样本极其不平衡。所以在建模的时候要考虑平衡样本，降低由于样本不平衡产生的模型不准确问题。主要采用均衡抽样及正负样本一样，考虑标签为1样本全采，标签为0样本随机部分采，最终样本比例为1:1的欠采样方法。

步骤504，将目标样本数据集输入预设的半监督学习算法中，通过半监督学习算法，对目标样本数据集中的各对象样本进行预测处理，直至训练后的半监督学习算法满足预设的第二训练停止条件，将满足第二训练停止条件的训练后的半监督学习算法作为补偿模型。

其中，第二训练停止条件为训练后的半监督学习算法对应的AUC大于或等于预设的第二AUC阈值。

在实施中，计算机设备逐一将目标样本数据集中的各对象训练样本输入预设的半监督学习算法中，通过半监督学习算法对对象训练样本进行预测处理，得到训练后的半监督学习算法。然后，计算机设备确定训练后的半监督学习算法对应的AUC值。计算机设备判断训练后的半监督学习算法的AUC值是否达到预设的第二AUC阈值。在训练后的半监督学习算法的AUC值达到第二AUC阈值的情况下，计算机设备确定训练后的半监督学习算法为补偿模型。在训练后的半监督学习算法的AUC值未达到第二AUC阈值的情况下，计算机设备继续基于目标样本数据集训练半监督学习算法，直到训练后的半监督学习算法满足第二训练停止条件。

可选的，第二AUC阈值可以但不限于设置为0.8，根据半监督学习算法的训练需求确定，本申请实施例对第二AUC阈值不做限定。

可选的，半监督学习算法可以为Label Propagation算法或TSVM(TransductiveSupport Vector Machine，直推式支持向量机)算法。其中，Label Propagation算法的目的在于将有标注数据的标注通过图结构向无标注数据传播，完成对无标注数据的预测，实现直推式半监督学习。Label Propagation的优化目标为模型预测结果在图结构中的Laplacian(拉普拉斯算子)一致性正则项，即以边权为权重，将相邻节点间模型预测结果差异的加权均方误差作为优化目标，求解无标注数据的标注使优化目标取最小值，即模型对于图上临近点的预测应该尽可能一致。通过直接的推导即可求得精确解，不需要模拟标注传递的过程，不需要为了收敛进行多次迭代。只要半监督学习算法为直推式半监督学习算法，采用本申请实施例对半监督学习算法不做限定。

本实施例中，通过数量相等的目标对象训练样本和非目标对象训练样本训练半监督式学习算法，并将满足第二训练停止条件的半监督式学习算法确定为补偿模型，避免了传统训练方法得到的补偿模型具有偏向性，提高了补偿模型的准确率，进而提高了目标对象识别方法的准确率。

在一个示例性的实施例中，如图6所示，步骤104中的具体处理过程包括步骤602至步骤606。其中：

步骤602，针对初始非目标对象集合中的每一待识别对象，将待识别对象输入预设的补偿模型中，通过补偿模型对待识别对象进行标记预测，得到待识别对象的标记预测结果。

在实施中，计算机设备针对初始非目标对象集合中的每一待识别对象，将待识别对象输入到补偿模型中。计算机设备通过补偿模型中的直推式学习机制predict(X＝None,Transductive＝True)对待识别对象进行预测，并标记待识别对象，得到待识别对象的标记预测结果。其中，predict()是一个函数名，用于进行预测。X是一个输入参数，通常是一个数据集或矩阵，用于训练模型并生成预测结果。None是X的默认值，表示没有传入任何数据集，因此函数可能不会执行任何预测操作。Transductive是一个布尔类型的输入参数，表示是否使用直推式学习机制。如果为True，则使用直推式学习机制；如果为False，则使用非直推式学习机制。True是Transductive的默认值，表示使用直推式学习机制。通过直推式半监督学习算法，可以直接对待识别对象进行标注预测，无需新样本。

在一示例性实施例中，目标对象为潜在欺诈用户(接受欺诈的客群中的用户)，非目标对象为非欺诈用户(拒绝欺诈的客群中的用户)。计算机设备基于补偿模型对初始非目标对象集合中进行标记预测，得到标记预测结果。若补偿模型预测初始非目标对象集合中的待识别对象为潜在欺诈用户，计算机设备标记该待识别对象为1(第一标记)。若补偿模型预测初始非目标对象集合中的待识别对象为非欺诈用户，计算机设备标记该待识别对象为0(第二标记)。

步骤604，若标记预测结果为第一标记，将待识别对象添加到第二目标对象集合中。

在实施中，若标记预测结果为第一标记，计算机设备确定待识别对象为目标对象，并将目标对象添加到第二目标对象集合中。

步骤606，若标记预测结果为第二标记，将待识别对象添加到非目标对象集合中。

在实施中，若标记预测结果为第二标记，计算机设备确定待识别对象对非目标对象，并将非目标对象添加到非目标对象集合中。

本实施例中，基于训练后的补偿模型对初始非目标对象集合进行补偿筛选，得到的第二目标对象集合，又补偿了第一目标对象集合，提高了目标对象识别方法的准确率，进而，保证后续制定合理业务策略。

在一示例性实施例中，图7为另一个实施例中目标对象识别方法的流程示意图。计算机设备确定样本数据，得到时间周期为第1月至第N+3月的反欺诈样本数据集。其中，N为大于1的自然数。然后，计算机设备将反欺诈样本数据集中的欺诈用户标记为1(第一标记)，并将非欺诈用户标记为0(第二标记)，得到标记后的反欺诈样本数据集(初始样本数据集)。然后，计算机设备基于标记后的反欺诈样本数据集训练预设的有监督logistics算法，得到训练后的有监督logistics算法。计算机设备判断训练后的有监督logistics算法是否满足第一训练停止条件，并在训练后的有监督logistics算法满足第一训练停止条件的情况下，将训练后的有监督logistics算法确定为反欺诈识别模型(回归模型)。计算机设备将时间周期第N+4月的新数据(待识别对象集合)输入反欺诈识别模型中，得到接受客群(第一目标对象集合)和初始的拒绝客群(初始非目标对象集合)。其中，接受客群为反欺诈模型识别出的标签为1的客户群，拒绝客群为反欺诈模型识别出的标签为0的客户群。然后，计算机设备删除初始的拒绝客群的标签列。计算机设备在标记后的反欺诈样本数据集中采取均衡采样采集样本，得到目标样本数据集。其中，标记后的反欺诈样本数据中标记为1的欺诈用户的采样率为100％。计算机设备基于目标样本数据集和初始的拒绝客群训练预设的LabelPropagation半监督算法，得到训练后的Label Propagation半监督算法。计算机设备判断训练后的Label Propagation半监督算法是否满足第二训练停止条件，并在训练后的LabelPropagation半监督算法满足第二训练停止条件的情况下，将训练后的Label Propagation半监督算法确定为回捞模型(补偿模型)。同时，计算机设备确定回捞模型输出的初始的拒绝客群中标签为1的客户群为潜在欺诈用户，并将潜在欺诈用户确定为第二目标对象集合。计算机设备基于第一目标对象集合和第二目标对象集合构建目标对象集合。

在另一示例性实施例中，计算机设备基于归纳式的半监督学习算法在待识别对象集合中确定目标对象集合。计算机设备基于时间周期为第1月至第N+4月的反欺诈样本数据集分别训练有监督logistics算法和归纳式的半监督学习算法，得到回归模型和补偿模型。其中，N为大于1的自然数。具体地：计算机设备确定样本数据，得到时间周期为第1月至第N+3月的反欺诈样本数据集。然后，计算机设备将反欺诈样本数据集中的欺诈用户标记为1(第一标记)，并将非欺诈用户标记为0(第二标记)，得到标记后的反欺诈样本数据集(初始样本数据集)。然后，计算机设备基于标记后的反欺诈样本数据集训练预设的有监督logistics算法，得到训练后的有监督logistics算法。计算机设备判断训练后的有监督logistics算法是否满足第一训练停止条件，并在训练后的有监督logistics算法满足第一训练停止条件的情况下，将训练后的有监督logistics算法确定为反欺诈识别模型(回归模型)。计算机设备分别将时间周期第N+4月的数据输入反欺诈识别模型中，得到接受样本客群和初始的拒绝样本客群。然后，计算机设备删除初始的拒绝样本客群的标签列。计算机设备在标记后的反欺诈样本数据集中采取均衡采样采集样本，得到目标样本数据集。其中，标记后的反欺诈样本数据中标记为1的欺诈用户的采样率为100％。计算机设备基于目标样本数据集和初始的拒绝样本客群训练预设的归纳式的半监督学习算法，得到训练后的归纳式的半监督学习算法。计算机设备判断训练后的归纳式的半监督学习算法是否满足第二训练停止条件，并在训练后的归纳式的半监督学习算法满足第二训练停止条件的情况下，将训练后的归纳式的半监督学习算法确定为回捞模型(补偿模型)。

计算机设备确定时间周期为N+5月的待识别对象集合，并将待识别对象集合输入预设的反欺诈模型中得到接受客群(第一目标对象集合)和初始的拒绝客群(初始非目标对象集合)。其中，接受客群为反欺诈模型识别出的标签为1的客户群，初始的拒绝客群为反欺诈模型识别出的标签为0的客户群。然后，计算机设备将拒绝客群输入到补偿模型中，得到第二目标对象集合和非目标对象集合。计算机设备基于第一目标对象集合和第二目标对象集合构建目标对象集合。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的目标对象识别方法的目标对象识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个目标对象识别装置实施例中的具体限定可以参见上文中对于目标对象识别方法的限定，在此不再赘述。

在一个示例性的实施例中，如图8所示，提供了一种目标对象识别装置800，包括：获取模块801、确定模块802和构建模块803，其中：

获取模块801，用于获取待识别对象集合，并将待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合；第一目标对象集合中包含被初步确定的目标对象。

确定模块802，用于基于补偿模型在初始非目标对象集合中确定第二目标对象集合和非目标对象集合；补偿模型是基于数量相等的目标对象训练样本和非目标对象训练样本进行半监督学习算法的训练得到的。

构建模块803，用于基于第一目标对象集合和第二目标对象集合，构建目标对象集合。

在一示例性实施例中，该目标对象识别装置800还包括：

第二获取模块，用于获取初始样本数据集；初始样本数据集中包含多个含有第一标记的目标对象训练样本和多个含有第二标记的非目标对象训练样本。

第一训练模块，用于将初始样本数据集输入预设的回归算法中，通过回归算法，对初始样本数据集中的各对象训练样本进行识别处理，直至训练后的回归算法满足预设的第一训练停止条件，将满足第一训练停止条件的训练后的回归算法作为回归模型。

在一示例性实施例中，第二获取模块还包括：

第一获取子模块，用于获取预设时间周期内的各目标对象训练样本和各非目标对象训练样本。

第一标记子模块，用于对各目标对象训练样本添加第一标记，并对各非目标对象训练样本添加第二标记。

第一构建子模块，用于根据各含有第一标记的目标对象训练样本和各含有第二标记的非目标对象训练样本，构建初始样本数据集。

在一示例性实施例中，获取模块801中包含第二获取子模块和第一确定子模块。其中，第一确定子模块包括：

识别子模块，用于针对待识别对象集合中的每一待识别对象，将待识别对象输入预设的回归模型中，通过回归模型对待识别对象进行识别标记，得到识别标记结果。

划分子模块，用于基于识别标记结果对待识别对象集合进行划分，得到第一目标对象集合和初始非目标对象集合。

删除子模块，用于删除初始非目标对象集合中各待识别对象的标记识别结果。

在一示例性实施例中，该目标对象识别装置800还包括：

第二确定模块，用于在初始样本数据集中确定目标样本数据集；目标样本数据集中目标对象训练样本的数量和非目标对象训练样本的数量相同。

第二训练模块，用于将目标样本数据集输入预设的半监督学习算法中，通过半监督学习算法，对目标样本数据集中的各对象样本进行预测处理，直至训练后的半监督学习算法满足预设的第二训练停止条件，将满足第二训练停止条件的训练后的半监督学习算法作为补偿模型。

在一示例性实施例中，确定模块802包括：

第二标记子模块，用于针对初始非目标对象集合中的每一待识别对象，将待识别对象输入预设的补偿模型中，通过补偿模型对待识别对象进行标记预测，得到待识别对象的标记预测结果。

第一添加子模块，用于若标记预测结果为第一标记，将待识别对象添加到第二目标对象集合中。

第二添加子模块，用于若标记预测结果为第二标记，将待识别对象添加到非目标对象集合中。

上述目标对象识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标对象识别方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种目标对象识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取初始样本数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述待识别对象集合输入预设的回归模型中，得到第一目标对象集合和初始非目标对象集合，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于补偿模型在所述初始非目标对象集合中确定第二目标对象集合和非目标对象集合之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于补偿模型在所述初始非目标对象集合中确定第二目标对象集合和非目标对象集合，包括：

7.一种目标对象识别装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。