CN110880117A

CN110880117A - 虚假业务识别方法、装置、设备和存储介质

Info

Publication number: CN110880117A
Application number: CN201911054550.0A
Authority: CN
Inventors: 卢剑锋
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-13

Abstract

本申请实施例提供了一种虚假业务识别方法、装置、电子设备和存储介质，涉及数据处理技术领域。采用本申请实施例提供的虚假业务识别方法，利用分类模型预测第一待识别业务为虚假业务的第一概率后，如果第一概率处于表征疑似虚假业务的概率阈值区间，则将其加入人工标注池作进一步的人工标注，后续则可将人工标注池中的各个待识别业务作为训练样本对分类模型进行更新。在本实施例中，充分利用分类模型预测准确率高的优点，仅将处于疑似虚假业务的概率阈值区间内的第一待识别业务才加入人工标注池中，降低采样进入人工标注池的第一待识别业务的数量，减少人工标注工作量，并可提供更典型的训练样本，提高分类模型的识别效果。

Description

虚假业务识别方法、装置、设备和存储介质

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种虚假业务识别方法、装置、设备和存储介质。

背景技术

互联网的蓬勃发展为人们生活带来了极大的便利，越来越多的人习惯了在网上进行交易，因此催生了越来越多的电商商户，在面对越来越多的电商商户时，如何选择合适的电商商户成了一个问题。通常电商平台会设置一些规则对电商商户进行排序，诸如按照交易量、评价、补贴等对电商商户进行排序，供用户选择。因此，电商商户为了能够排序靠前从而容易被用户选择，一些电商商户会进行虚假交易，同时网上交易匿名、快速、监管困难的特点为网上虚假交易行为的实施提供了有利条件。

由于虚假交易行为基本上不会有举报、投诉等反馈，因此对虚假交易行为而产生的虚假业务进行识别往往比较困难，现在普遍有以下三种方法：

方法一：使用规则策略法进行识别，规则策略法通过挖掘虚假业务case(事例或场景)，能够有效识别相同业务类型的虚假业务，并且策略时效性强，能够快速上线，但是由于其受限于特定case，缺乏对新case的主动发现能力，同时规则策略法为了保障准确率会限定严格的阈值，导致虚假业务识别率会下降。

方法二：使用分类模型进行识别，分类模型可以有效结合多维度的虚假业务特征，学习商户历史虚假业务场景，在保障一定准确率条件下，可以比方法一规则策略法达到更高的召回率，但是其存在比较依赖虚假业务样本标注，上线时效性下降，对新虚假业务场景主动发现能力不足的缺点。

方法三：使用无监督模型进行识别，无监督模型不依赖样本标注，并且能够提高对新虚假业务场景主动发现能力，但是其上线时效性低，准确率也较低，对虚假业务识别率也不高。

现在的三种识别虚假业务的方法各有缺点，如何准确高效地对对虚假业务进行识别，是需要解决的问题。

发明内容

本申请实施例提供一种虚假业务识别方法、装置、电子设备和存储介质，以解决现有的虚假业务识别方法不能准确高效地对虚假业务进行识别的问题。

本申请实施例第一方面提供了一种虚假业务识别方法，所述方法包括：

获得一批第一待识别业务，提取所述一批第一待识别业务的特征；

将所述一批第一待识别业务的特征输入分类模型中，得到每一个第一待识别业务为虚假业务的第一概率；

根据每一个第一待识别业务为虚假业务的第一概率，将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入人工标注池，对加入人工标注池内的至少一第一待识别业务进行人工标注；

将所述人工标注池中经过人工标注后的各个第一待识别业务作为训练样本，对所述分类模型进行更新；

将第二待识别业务的特征输入更新后的分类模型，得到所述第二待识别业务的是虚假业务的第二概率。

本申请实施例第二方面提供一种虚假业务识别装置，所述装置包括：

特征获得模块，用于获得一批第一待识别业务，提取所述一批第一待识别业务的特征；

第一获得模块，用于将所述一批第一待识别业务的特征输入分类模型中，得到每一个第一待识别业务为虚假业务的第一概率；

第一添加模块，用于根据每一个第一待识别业务为虚假业务的第一概率，将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入人工标注池，对加入人工标注池内的至少一第一待识别业务进行人工标注；

模型更新模块，用于将所述人工标注池中经过人工标注后的各个第一待识别业务作为训练样本，对所述分类模型进行更新；

第二获得模块，用于将第二待识别业务的特征输入更新后的分类模型，得到所述第二待识别业务的是虚假业务的第二概率。

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

本发明实施例公开的虚假业务识别方法，通过获得一批第一待识别业务的特征，将一批第一待识别业务的特征输入分类模型中，得到每个第一待识别业务是虚假业务的第一概率，并将第一概率处于表征疑似虚假业务的概率阈值区间的至少一第一待识别业务中的部分或全部加入人工标注池，对加入人工标注池内的至少一第一待识别业务进行人工标注，将人工标注池中的经过人工标注后的各个第一待识别业务作为训练样本，对分类模型进行更新，利用更新后的分类模型识别第二待识别业务是虚假业务的概率。

本发明实施例中，利用分类模型预测第一待识别业务为虚假业务的第一概率后，如果第一概率处于表征疑似虚假业务的概率阈值区间，则将其加入人工标注池作进一步的人工标注，后续则可将人工标注池中的各个待识别业务作为训练样本对分类模型进行更新。在本实施例中，充分利用分类模型预测准确率高的优点，仅将处于疑似虚假业务的概率阈值区间内的第一待识别业务才加入人工标注池中，降低采样进入人工标注池的第一待识别业务的数量，减少人工标注工作量，并可提供更典型的训练样本，提高分类模型的识别效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的虚假业务识别方法的流程图；

图2是本申请一实施例提出的虚假业务识别方法的示意图；

图3是本申请一实施例提出的虚假业务识别方法的另一示意图；

图4是本申请一实施例提出的虚假业务识别方法的另一示意图；

图5是本申请一实施例提出的虚假业务识别方法的另一示意图；

图6是本申请一实施例提出的虚假业务识别装置示意图。

图7是本申请一实施例提出的电子设备的示意结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，图1是本申请一实施例提出的虚假业务识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤S11，获得一批第一待识别业务，提取所述一批第一待识别业务的特征。

本实施例中，第一待识别业务可以是电商商户的任一没有携带虚假或非虚假标签的交易业务。第一待识别业务的特征可以包括但不限于以下至少一个维度的内容：订单维度、商户维度、用户维度。

本实施例中，电商商户在完成一次交易之后，便可以将该交易看作是第一待识别业务，从而获得第一待识别业务的订单维度、商户维度、用户维度的特征。

步骤S12，将所述一批第一待识别业务的特征输入分类模型中，得到每一个第一待识别业务为虚假业务的第一概率。

本实施例中，虚假业务也可以看作是商户作弊业务或者虚假交易，即商户产生或进行了虚假交易、虚假评价或者虚假补贴等场景。

本实施例中，分类模型可以是预先经过训练的，分类模型以多个携带虚假业务标签或非虚假业务标签的样本业务作为训练样本进行训练，训练后的分类模型具有预测一个待识别业务属于虚假业务的概率的功能。

在实际实施过程中，样本业务可以是在获取到商户交易业务后通过人工标注该业务为虚假业务或者非虚假业务，也可以是在获取到商户业务后经过规则策略法判断该业务为虚假业务或者非虚假业务。

参考图2，图2是本申请实施例提供的虚假业务识别方法的示意图。在获得预先训练的分类模型后，将步骤S11中的获得的一批第一待识别业务的特征，输入到分类模型中，便可以得到预测结果，即每个第一待识别业务为虚假业务的第一概率。

步骤S13，根据每一个第一待识别业务为虚假业务的第一概率，将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入人工标注池，对加入人工标注池内的至少一第一待识别业务进行人工标注。

步骤S14，将所述人工标注池中经过人工标注后的各个第一待识别业务作为训练样本，对所述分类模型进行更新。

本实施例中，如图2所示，针对第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务，通过分类模型不能准确地确定这部分第一待识别业务是否是虚假业务。因而可以将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入到人工标注池中进行标注，由人工确定这些第一待识别业务是否是虚假业务。

示例地，表征疑似虚假业务的概率阈值区间为40％至65％，则将第一概率处于40％至65％的至少一第一待识别业务中的部分或全部加入到人工标注池中进行标注，由人工确定这些第一待识别业务是否是虚假业务。

当然，对于上述表征疑似虚假业务的概率阈值的具体数值，可根据商户类别、业务类型、商户数量等作不同的变化。例如，在某些示例中，可将所述表征疑似虚假业务的概率阈值设定为30％至70％、30％至65％、35％至70％、35％至65％、40％至60％或其他数值区间等。

本实施例中，加入人工标注池中的各个第一待识别业务，需要通过人为的方式对人工标注池中的各个待识别业务进行判断，对于虚假业务则打上虚假标签，非虚假业务打上非虚假业务标签。

如图2所示，人工标注池中的各个第一待识别业务经过人工标注后，携带虚假业务标签或者非虚假业务标签，可以将携带虚假业务标签或非虚假业务标签的各个第一待识别业务作为训练样本，对所述分类模型进行更新，进一步优化分类模型，提高分类模型的准确度和可靠度。

在一种可选的实施方式中，如图2所示，针对第一概率大于预设的虚假业务概率阈值f3的第一待识别业务，通过分类模型可以确定其为虚假业务。因而可以将这部分第一待识别业务加入自动化处罚池，与人工标注池中的经过人工标注后的各个第一待识别业务共同作为训练样本。

示例地，当将所述虚假业务概率阈值设定为90％时，则通过分类模型可以将第一概率大于虚假业务概率阈值90％的第一待识别业务确定其为虚假业务，并将第一概率高于90％的至少一第一待识别业务中的部分或全部加入到自动化处罚池中，这部分待识别业务成为训练样本的一个组成部分，即，可将这类确定为虚假业务的第一待识别业务作为虚假业务识别的正训练样本。

当然，对于上述所设定的虚假业务概率阈值的具体数值，可根据商户类别、业务类型、商户数量等作不同的变化。例如，在某些示例中，可将所述虚假业务概率阈值设定为70％、75％、80％、85％、95％或其他数值等。

在一种可选的实施方式中，如图2所示，针对第一概率小于预设的非虚假业务概率阈值f4的第一待识别业务，通过分类模型可以确定其为非虚假业务。因而可以将这部分第一待识别业务也加入自动化处罚池，与人工标注池中的经过人工标注后的各个第一待识别业务共同作为训练样本。

示例地，当将所述非虚假业务概率阈值设定为10％时，则通过分类模型可以将第一概率小于非虚假业务概率阈值10％的第一待识别业务确定其为非虚假业务，并将第一概率低于10％的至少一第一待识别业务中的部分或全部加入到自动化处罚池中，这部分待识别业务成为训练样本的一个组成部分，即，可将这类确定为非虚假业务的第一待识别业务作为虚假业务识别的负训练样本。

当然，对于上述所设定的虚假业务概率阈值的具体数值，可根据商户类别、业务类型、商户数量等作不同的变化。例如，在某些示例中，可将所述虚假业务概率阈值设定为5％、15％、20％、25％、30％或其他数值等。步骤S15，将第二待识别业务的特征输入更新后的分类模型，得到所述第二待识别业务的是虚假业务的概率。

本实施例中，在另一个电商商户完成一次交易之后，便可以将该交易看作是第二待识别业务，从而获得第二待识别业务的特征，将该特征输入更新后的分类模型，分类模型预测的第二待识别业务是虚假业务的概率更加准确。

参考图3，图3是本申请实施例提供的虚假业务识别方法的另一示意图。将第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务中的部分加入到人工标注池中，具体可以从第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务中随机选择，或者，如图3所示，以一采样概率，对第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务进行采样。然后将采样得到的第一待识别业务加入人工标注池。

本实施例中，如图3所示，针对第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务，通过分类模型不能准确地确定这部分第一待识别业务是否是虚假业务。因而可以将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入到人工标注池中进行标注，由人工确定这些第一待识别业务是否是虚假业务。

如图3所示，人工标注池中的各个第一待识别业务经过人工标注后，携带虚假业务标签或者非虚假业务标签，可以将携带虚假业务标签或非虚假业务标签的各个第一待识别业务作为训练样本，对所述分类模型进行更新，进一步优化分类模型，提高分类模型的准确度和可靠度。

在一种可选的实施方式中，如图3所示，针对第一概率大于预设的虚假业务概率阈值f3的第一待识别业务，通过分类模型可以确定其为虚假业务。因而可以将这部分第一待识别业务加入自动化处罚池，与人工标注池中的经过人工标注后的各个第一待识别业务共同作为训练样本。

在一种实施方式中，本申请实施例提供的虚假业务识别方法还可以包括以下步骤：

针对第一概率大于虚假业务概率阈值f3的第一待识别业务，根据该第一待识别业务的特征中的场景特征，为该第一待识别业务添加相应的场景标签，得到携带场景标签的第一待识别业务；

将携带场景标签的第一待识别业务加入自动处罚池；

将所述自动处罚池中的各个携带场景标签的待识别业务作为训练样本，对所述分类模型进行更新；

将第四待识别业务的特征输入更新后的分类模型，得到所述第四待识别业务的是虚假业务的概率。

如图3所示，针对第一概率大于虚假业务概率阈值f3的第一待识别业务，通过分类模型可以确定其为虚假业务，并且分类模型能够识别出第一待识别业务中的场景特征，并为其添加相应的场景标签，实现标签场景化。

示例地，当将所述虚假业务概率阈值设定为90％时，则通过分类模型可以将第一概率大于虚假业务概率阈值90％的第一待识别业务确定其为虚假业务。然后对确定为虚假业务的至少一第一待识别业务添加相应的场景标签，并将其加入自动化处罚池。

参考图4，图4是本申请实施例提供的识别虚假业务的方法的另一示意图。如图4所示，如图4所示，将第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务中的部分加入到人工标注池中，具体可以从第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务中随机选择，或者，如图4所示，以一采样概率，对第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务进行采样。然后将采样得到的第一待识别业务加入人工标注池。

本实施例中，如图4所示，针对第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务，通过分类模型不能准确地确定这部分第一待识别业务是否是虚假业务。因而可以将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入到人工标注池中进行标注，由人工确定这些第一待识别业务是否是虚假业务。

如图4所示，人工标注池中的各个第一待识别业务经过人工标注后，携带虚假业务标签或者非虚假业务标签，可以将携带虚假业务标签或非虚假业务标签的各个第一待识别业务作为训练样本，对所述分类模型进行更新，进一步优化分类模型，提高分类模型的准确度和可靠度。

在一种可选的实施方式中，如图4所示，针对第一概率大于预设的虚假业务概率阈值f3的第一待识别业务，通过分类模型可以确定其为虚假业务。因而可以将这部分第一待识别业务加入自动化处罚池，与人工标注池中的经过人工标注后的各个第一待识别业务共同作为训练样本。

将携带场景标签的第一待识别业务加入自动处罚池；

如图4所示，针对第一概率大于虚假业务概率阈值f3的第一待识别业务，通过分类模型可以确定其为虚假业务，并且分类模型能够识别出第一待识别业务中的场景特征，并为其添加相应的场景标签，实现标签场景化。

如图4所示，可以结合分类模型和无监督模型的预测结果，确定采样概率，然后，根据确定的采样概率，对第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务。

本实施例中，无监督模型直接使用多个未知是否是虚假业务的业务进行构建，无监督模型同样具有预测一个待识别业务属于虚假业务的概率的功能。无监督模型基于提取的商户交易的多维度特征，使用异常检测方法建模，包括但不限于孤立森林(iForest)、局部异常因子(local outlier factor)、单类支撑向量机(one-class SVM)。

考虑到分类模型在预测待识别业务为虚假业务的概率时具有一定的准确率，但是分类模型比较依赖虚假业务的样本业务标注，无监督模型在预测待识别业务为虚假业务的概率准确率虽然相对较低，但是无监督模型不依赖样本业务标注，同时能够主动发现一些虚假业务场景。因此，本实施例中，结合分类模型和无监督模型预测结果，确定采样概率，然后按照该采样概率，对第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务进行采样。

在一种可能的实施方式中，结合分类模型和无监督模型的预测结果，确定采样概率，包括以下步骤：

将所述至少一第一待识别业务的特征输入无监督模型，得到所述至少一第一待识别业务是虚假业务的第二概率；

根据所述第一概率和所述第二概率，以及所述分类模型和所述无监督模型各自的权重，确定所述采样概率。

本实施例中，对第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务，可以将其特征输入无监督模型，得到第二概率。再结合分类模型和所述无监督模型各自的权重，确定将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务加入人工标注池的采样概率，将分类模型和所述无监督模型进行结合，不仅能够利用分类模型预测准确率高的优点，同时也能够利用无监督模型主动发现虚假业务场景的优点。

本申请实施例中，如果采样到第一待识别业务，则将第一待识别业务加入人工标注池，以供进行人工标注。在实际应用中，针对通过分类模型不能准确地确定其是否是虚假业务的待识别业务，均可以根据采样概率，将其加入人工标注池。加入人工标注池中的待识别业务需要人工标注，标注虚假业务或者非虚假业务标签，即在模型预测能力较差时能够通过人工标注的方式提高对第一待识别业务的判断准确率。

通过获得第一待识别业务的特征，将所述第一待识别业务的特征输入分类模型和无监督模型，得到表征所述分类模型预测所述第一待识别业务是虚假业务的第一概率，和表征所述无监督模型预测所述第一待识别业务是虚假业务第二概率，根据所述第一概率和所述第二概率，以及所述分类模型和所述无监督模型各自的权重，确定将所述第一待识别业务加入人工标注池的采样概率。

按照采样概率，对第一待识别业务进行采样，并在采样到第一待识别业务的情况下，将第一待识别业务加入人工标注池，将人工标注池中的经过人工标注后的携带虚假业务标签或非虚假业务标签的各个待识别业务作为训练样本，对分类模型进行更新，利用更新后的分类模型识别第二待识别业务是虚假业务的概率。

考虑到分类模型在预测待识别业务为虚假业务的概率时具有一定的准确率，但是分类模型比较依赖虚假业务的样本业务标注，无监督模型在预测待识别业务为虚假业务的概率准确率虽然相对较低，但是无监督模型不依赖样本业务标注，同时能够主动发现一些虚假业务场景。因此，本实施例中，结合分类模型和无监督模型预测结果，将第一待识别业务的特征分别输入分类模型和无监督模型，得到第一概率和第二概率，再结合分类模型和所述无监督模型各自的权重，确定将所述第一待识别业务加入人工标注池的采样概率，将分类模型和无监督模型进行结合，不仅能够利用分类模型预测准确率高的优点，同时也能够利用无监督模型主动发现虚假业务场景的优点。

考虑到分类模型在实时预测待识别业务，为了将预测任务和训练任务分开，本发明实施例中，对分类模型进行更新可以是周期性的。需要说明的是，本实施例中的周期可以是数量上的周期，即当人工标注池中的携带虚假业务标签或非虚假业务标签的待识别业务累计到一定量时，再对分类模型进行训练。

本发明一种实施例中，分类模型的数量是至少一个，且无监督模型的数量是至少一个。将分类模型的数量设置为多个，以及无监督模型的数量设置为多个，可以提高分类模型以及无监督模型预测虚假业务概率的准确率。

在本发明一种实施例中，还可以根据随机概率值、所述第一概率和所述第二概率和模型差异值，以及随机概率值、所述分类模型、所述无监督模型和模型差异值各自的权重，确定采样概率。

本实施例中，加入随机概率值可以保障所有待识别业务都有一定概率加入人工标注池，虽然可能很小，但是却可以提高采样的探索能力。

本实施例中，考虑到在多个分类模型或者多个无监督模型对同一个待识别业务进行预测时，多个分类模型或者多个无监督模型对同一个待识别业务预测差异可能会很大，这时认为多个分类模型或者多个无监督模型对该待识别业务认知不一致，预测的待识别业务是否为虚假业务的不确定性很大，应该加大待识别业务进行人工标注的概率，因此，加入模型差异值可以有助于消除多个分类模型或者多个无监督模型间的不一致性和不确定性。

在本发明一种实施例中，分类模型的数量是至少一个，且无监督模型的数量是至少一个，可以通过以下公式计算采样概率：

其中，x表示第x第一概率处于表征疑似虚假业务的概率阈值区间内的第一待识别业务，a·p_r(x)表示随机概率值，

表示无监督模型概率值，

表示分类模型概率值，

表示模型差异值，U为无监督模型数量，C为分类模型数量，a、b_i、c_j、r_gk均为参数项，即计算第三概率时各个加权项对应的权重。本实施例中，具体可以根据待识别业务总数及其对应的权重，得到随机概率值，随机概率值中p_r(x)为随机加权项，随机加权项p_r(x)可以通过以下公式进行计算：

其中，N为待采样商户总数，每一个商户对应一个待识别业务，即N可以表示为待识别业务总数，rand(0,1)生成区间[0,1)的随机数。

本实施例中，可以根据所述至少一个分类模型和所述至少一个无监督模型中每两个模型输出的概率的差值及其对应的权重，得到模型差异值。

在模型差异值中，p_gk(x)为模型差异值加权项，模型差异值加权项p_gk(x)可以通过以下公式进行计算：

其中，p_g(y_i＝1|x_i)为第g个模型预测商户作弊概率，p_k(y_i＝1|x_i)为第k个模型预测商户作弊的概率，作弊可以理解为商户进行了虚假业务，其中，y_j＝1|x_j是条件概率的计算公式，表示已知x计算得到y＝1的概率。

本实施例中，可以根据所述至少一个分类模型中每个分类模型输出的第一概率及其对应的权重，得到分类模型概率值，在分类模型概率值中，p_cj(x)为分类模型加权项，分类模型加权项p_cj(x)可以通过以下公式进行计算：

其中，p_cj(y_j＝1|x_j)为第j个分类模型预测商户x_j的第一待识别业务为虚假业务的概率。

本实施例中，根据至少一个无监督模型中每个无监督模型输出的第二概率及其对应的权重，得到无监督模型概率值，在无监督模型概率值中，p_ui(x)为无监督模型加权项，无监督模型加权项p_ui(x)可以通过以下公式进行计算：

其中，其中p_ui(y_i＝1|x_i)为第i个无监督模型预测商户x_i的第一待识别业务为虚假业务的概率。

本实施例中，采样概率表示对第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务进行采样时，将其加入人工标注池的概率，采样概率越大，表示将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务加入人工标注池概率越大。按照采样概率进行采样，如果采样到第一概率处于表征疑似虚假业务的概率阈值区间内的第一待识别业务，则将其加入人工标注池，进而由人工判断第一待识别业务是否为虚假业务，然后根据判断结果对第一待识别业务打上虚假业务标签或者非虚假业务标签。如果未采样到，则无需将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务加入人工标注池，因而也无需人工打标签。

本发明实施例同时结合分类模型和无监督模型计算将第一待识别业务加入人工标注池的第三概率，再将人工标注池中的各个第一待识别业务作为训练样本对分类模型进行更新，一方面，利用分类模型预测准确率高的优点，降低采样进入人工标注池的第一待识别业务，减少人工标注工作量，第二方面，利用无监督模型能够主动发现虚假业务场景的优点，使得更新后的分类模型能够识别更多的虚假业务场景，并且具有更高的识别准确率，提高分类模型对待识别业务的识别能力。

在本发明另一种实施例中，考虑到加入人工标注池中的待识别业务会被人工标注，从而携带准确的标签，因此可以利用人工标注的标签来对统计参数a、b_i、c_j、r_gk对应的加权项在正确和误判上的权重贡献，从而更新a、b_i、c_j、r_gk参数，进一步提高计算的待识别业务加入人工标注池概率的准确度。

在一种实施方式中，如图4所示，可以利用人工标注的样本更新分类模型的权重和无监督模型的权重，即权重更新。具体可以包括以下步骤：

根据经过人工标注后的第一待识别业务携带的标签，确定所述分类模型和所述无监督模型各自在预测正确维度和预测错误维度上的权重贡献比值。

对所述权重贡献比值进行归一化处理。

根据归一化处理后的权重贡献比值和预设的学习率，对所述分类模型的权重和所述无监督模型的权重分别进行更新。

将第三待识别业务的特征输入分类模型和无监督模型，得到第四概率和第五概率，所述第四概率表征所述分类模型预测所述第三待识别业务是虚假业务的概率，所述第五概率表征所述无监督模型预测所述第三待识别业务是虚假业务的概率。

根据所述第四概率、所述第五概率以及所述分类模型和所述无监督模型各自的更新后的权重，确定将所述第三待识别业务加入所述人工标注池的概率。

本实施例中，可以在人工标注一定数量后，通过以下公式计算所述分类模型加权项和所述无监督模型加权项各自在预测正确维度和预测错误维度上的权重贡献比值dw_i：

其中，s_i为第i个加权项，即分类模型加权项或者无监督模型加权项。

本实施例中，可以采用如下公式更新分类模型的权重和所述无监督模型的权重w_i：

w_i＝w_i+η·dw_i

其中，η为预设的学习率。

示例地，有模型m1和模型m2对虚假交易业务p1、p2进行预测；m1认为p1为虚假业务的概率是0.9，m2认为p1为虚假业务的概率是0.1；m1认为p2为虚假业务的概率是0.1，m2认为p2为虚假业务的概率是0.8；

假设初始两个模型的权重都是0.5；

P1被认为是虚假业务的概率由m1和m2两个模型贡献，因此这里m1和m2的权重贡献s分别是：0.9*0.5和0.1*0.5，因此p1被认为是虚假业务的概率是：0.9*0.5+0.1*0.5＝0.5；

同理，p2被认为为虚假业务的概率是：0.1*0.5+0.8*0.5＝0.45；

假设人工标注认为p1为虚假业务，p2为非虚假业务；

那m1在正确case上的权重贡献是：0.9*0.5＝0.45，在错误case上的权重贡献是0.1*0.5＝0.05，其比值为dw1＝0.45/0.05＝9；

m2在正确case上的权重贡献是：0.1*0.5＝0.05，在错误case上的权重贡献是0.8*0.5＝0.4，其比值为dw2＝0.05/0.4＝1/8；

上述比值即为权重贡献比值dw_i；

对权重贡献比值dw_i进行归一化，dw₁＝0.9863,dw₂＝0.0137；

假设学习率为0.1；

那m1的权重贡献更新为：w1＝0.5+0.1*dw₁＝0.59863；

m2的权重贡献更新为：w2＝0.5+0.1*dw₂＝0.50137；

对wi归一化，w₁＝0.5442,w₂＝0.4558。

从结果看，由于模型1在样本1和样本2上的表现更好，该机制对模型1进行奖励，模型1的权重提高了0.0442，模型2的权重则下降了0.0442。

本实施例中，为保持待识别业务加入人工标注池的概率计算方式的多样性，可以为w_i设置一个取值范围。

本实施例中，分类模型的数量是至少一个，且无监督模型的数量是至少一个。将分类模型设置的数量为多个，以及无监督模型的数量设置为多个，可以提高分类模型以及无监督模型预测虚假业务概率的准确率。

本实施例只举例说明了分类模型加权项和无监督模型加权项参数更新方法，随机加权项和模型差异加权项对应参数的更新方式与之相同，本申请不再详述。

参考图5，图5是本申请实施例提供的虚假业务识别方法的另一示意图。如图5所示，如图5所示，将第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务中的部分加入到人工标注池中，具体可以从第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务中随机选择，或者，如图5所示，以一采样概率，对第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务进行采样。然后将采样得到的第一待识别业务加入人工标注池。

本实施例中，如图5所示，针对第一概率处于表征疑似虚假业务的概率阈值区间[f1，f2]内的至少一第一待识别业务，通过分类模型不能准确地确定这部分第一待识别业务是否是虚假业务。因而可以将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入到人工标注池中进行标注，由人工确定这些第一待识别业务是否是虚假业务。

如图5所示，人工标注池中的各个第一待识别业务经过人工标注后，携带虚假业务标签或者非虚假业务标签，可以将携带虚假业务标签或非虚假业务标签的各个第一待识别业务作为训练样本，对所述分类模型进行更新，进一步优化分类模型，提高分类模型的准确度和可靠度。

在一种可选的实施方式中，如图5所示，针对第一概率大于预设的虚假业务概率阈值f3的第一待识别业务，通过分类模型可以确定其为虚假业务。因而可以将这部分第一待识别业务加入自动化处罚池，与人工标注池中的经过人工标注后的各个第一待识别业务共同作为训练样本。

将携带场景标签的第一待识别业务加入自动处罚池；

如图5所示，针对第一概率大于虚假业务概率阈值f3的第一待识别业务，通过分类模型可以确定其为虚假业务，并且分类模型能够识别出第一待识别业务中的场景特征，并为其添加相应的场景标签，实现标签场景化。

在一种可选的实施方式中，虚假样本业务也可以通过采用规则策略法(例如：提供一规则策略模型)来获得，即，将多个业务样本中满足预设规则的业务样本添加到所述自动处罚池中，在将满足预设规则的业务样本加入自动处罚池之后，可以将自动处罚池中的各个携带场景标签的待识别业务以及满足预设规则的业务样本作为训练样本，对所述分类模型进行更新。

其中，规则策略法基于业务反馈的虚假业务case，挖掘虚假业务case有异于正常商户业务的特征，通过限定阈值形成规则，可以有效抓取相同业务类型的商户业务。因此，经过规则策略法判断的商户业务对于是否为虚假业务具有较高的准确率，可以代替人工标注得到携带虚假业务标签或非虚假业务标签的样本业务。

本发明实施例中，同时结合了规则策略法、分类模型和无监督模型对待识别业务进行识别，其中规则策略法和分类模型能够准确识别待识别业务，并自动标注待识别业务的虚假业务标签或非虚假业务标签，降低人工标注的成本，其中无监督模型能够主动发现虚假业务场景，使得更新后的分类模型能够识别更多的虚假业务场景，并且具有更高的识别准确率，提高分类模型对待识别业务的识别能力。

基于同一发明构思，本申请一实施例提供一种虚假业务识别装置。参考图6，图6是本申请一实施例提供的虚假业务识别装置的示意图。如图6所示，该装置包括：

特征获得模块61，用于获得一批第一待识别业务，提取所述一批第一待识别业务的特征。

第一获得模块62，用于将所述一批第一待识别业务的特征输入分类模型中，得到每一个第一待识别业务为虚假业务的第一概率。

第一添加模块63，用于根据每一个第一待识别业务为虚假业务的第一概率，将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入人工标注池，对加入人工标注池内的至少一第一待识别业务进行人工标注。

模型更新模块64，用于将所述人工标注池中经过人工标注后的各个第一待识别业务作为训练样本，对所述分类模型进行更新。

第二获得模块65，用于将第二待识别业务的特征输入更新后的分类模型，得到所述第二待识别业务的是虚假业务的第二概率。

可选地，所述第一添加模块包括：确定子模块，用于结合分类模型和无监督模型的预测结果，确定采样概率。采样子模块，用于根据确定的采样概率，对所述至少一第一待识别业务进行采样。

可选地，所述确定子模块包括：概率获得子模块，用于将所述至少一第一待识别业务的特征输入无监督模型，得到所述至少一第一待识别业务是虚假业务的第二概率。概率确定子模块，用于根据所述第一概率和所述第二概率，以及所述分类模型和所述无监督模型各自的权重，确定所述采样概率。

可选地，所述分类模型的数量是至少一个，且所述无监督模型的数量是至少一个；所述装置还包括：第三获得模块，用于根据待识别业务总数及其对应的权重，得到随机概率值。第四获得模块，用于根据所述至少一个分类模型和所述至少一个无监督模型中每两个模型输出的概率的差值及其对应的权重，得到模型差异值。

所述概率获得子模块包括：分类模型概率值确定子模块，用于根据所述至少一个分类模型中每个分类模型输出的第一概率及其对应的权重，得到分类模型概率值。无监督模型概率值确定子模块，用于根据至少一个无监督模型中每个无监督模型输出的第二概率及其对应的权重，得到无监督模型概率值。第三概率确定子模块，用于根据所述随机概率值、所述分类模型概率值、所述无监督模型概率值以及所述模型差异值，得到所述第三概率。

可选地，所述装置还包括：第二确定模块，用于根据经过人工标注后的第一待识别业务携带的标签，确定所述分类模型和所述无监督模型各自在预测正确维度和预测错误维度上的权重贡献比值。处理模块，用于对所述权重贡献比值进行归一化处理。第一更新模块，用于根据归一化处理后的权重贡献比值和预设的学习率，对所述分类模型的权重和所述无监督模型的权重分别进行更新。

第五获得模块，用于将第三待识别业务的特征输入分类模型和无监督模型，得到第四概率和第五概率，所述第四概率表征所述分类模型预测所述第三待识别业务是虚假业务的概率，所述第五概率表征所述无监督模型预测所述第三待识别业务是虚假业务的概率。第三确定模块，用于根据所述第四概率、所述第五概率以及所述分类模型和所述无监督模型各自的更新后的权重，确定将所述第三待识别业务加入所述人工标注池的概率。

可选地，所述装置还包括：场景确定模块，用于针对第一概率大于虚假业务概率阈值的第一待识别业务，根据该第一待识别业务的特征中的场景特征，为该第一待识别业务添加相应的场景标签，得到携带场景标签的第一待识别业务。加入模块，用于将携带场景标签的第一待识别业务加入自动处罚池。第二更新模块，用于将所述自动处罚池中的各个携带场景标签的待识别业务作为训练样本，对所述分类模型进行更新。第六获得模块，用于将第四待识别业务的特征输入更新后的分类模型，得到所述第四待识别业务的是虚假业务的概率。

可选地，所述装置还包括：第二添加模块，用于将多个业务样本中满足预设规则的业务样本添加到所述自动处罚池中。

所述第二更新模块包括：第二更新子模块，用于将所述自动处罚池中的各个携带场景标签的待识别业务以及满足预设规则的业务样本作为训练样本，对所述分类模型进行更新。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，请参阅图7，显示为本申请一实施例中电子设备的示意结构图。如图7所示，本申请电子设备包括通过内部总线相互连接的存储器、处理器、网络接口以及内存。其中，存储器上存储有计算机程序，该计算机程序可在处理器上运行，处理器运行该计算机程序时实现本申请上述任一实施例所述的方法中的步骤。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种虚假业务识别方法、装置、存储介质和电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种虚假业务识别方法，其特征在于，包括：

2.根据权利要求1所述的虚假业务识别方法，其特征在于，将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分加入人工标注池，包括：

结合分类模型和无监督模型的预测结果，确定采样概率；

根据确定的采样概率，对所述至少一第一待识别业务进行采样。

3.根据权利要求2所述的虚假业务识别方法，其特征在于，结合分类模型和无监督模型的预测结果，确定采样概率，包括：

4.根据权利要求3所述的虚假业务识别方法，其特征在于，所述分类模型的数量是至少一个，且所述无监督模型的数量是至少一个；所述方法还包括：

根据待识别业务总数及其对应的权重，得到随机概率值；

根据所述至少一个分类模型和所述至少一个无监督模型中每两个模型输出的概率的差值及其对应的权重，得到模型差异值；

根据所述第一概率和所述第二概率，以及所述分类模型和所述无监督模型各自的权重，确定所述采样概率，包括：

根据所述至少一个分类模型中每个分类模型输出的第一概率及其对应的权重，得到分类模型概率值；

根据至少一个无监督模型中每个无监督模型输出的第二概率及其对应的权重，得到无监督模型概率值；

根据所述随机概率值、所述分类模型概率值、所述无监督模型概率值以及所述模型差异值，得到所述采样概率。

5.根据权利要求2所述的虚假业务识别方法，其特征在于，在将第一概率处于表征疑似虚假业务的概率阈值区间内的至少一第一待识别业务中的部分或全部加入人工标注池之后，所述方法还包括：

根据经过人工标注后的第一待识别业务携带的标签，确定所述分类模型和所述无监督模型各自在预测正确维度和预测错误维度上的权重贡献比值；

对所述权重贡献比值进行归一化处理；

根据归一化处理后的权重贡献比值和预设的学习率，对所述分类模型的权重和所述无监督模型的权重分别进行更新；

将第三待识别业务的特征输入分类模型和无监督模型，得到第四概率和第五概率，所述第四概率表征所述分类模型预测所述第三待识别业务是虚假业务的概率，所述第五概率表征所述无监督模型预测所述第三待识别业务是虚假业务的概率；

6.根据权利要求1所述的虚假业务识别方法，其特征在于，所述方法还包括：

针对第一概率大于虚假业务概率阈值的第一待识别业务，根据该第一待识别业务的特征中的场景特征，为该第一待识别业务添加相应的场景标签，得到携带场景标签的第一待识别业务；

将携带场景标签的第一待识别业务加入自动处罚池；

7.根据权利要求6所述的虚假业务识别方法，其特征在于，所述方法还包括：

将多个业务样本中满足预设规则的业务样本添加到所述自动处罚池中；

将所述自动处罚池中的各个携带场景标签的待识别业务作为训练样本，对所述分类模型进行更新，包括：

将所述自动处罚池中的各个携带场景标签的待识别业务以及满足预设规则的业务样本作为训练样本，对所述分类模型进行更新。

8.一种虚假业务识别装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一所述的虚假业务识别方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-7任一所述的虚假业务识别方法的步骤。