CN107657453A

CN107657453A - 欺诈数据的识别方法及装置

Info

Publication number: CN107657453A
Application number: CN201610589290.7A
Authority: CN
Inventors: 莫涛; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2018-02-02
Anticipated expiration: 2036-07-25
Also published as: CN107657453B

Abstract

本发明公开了一种欺诈数据的识别方法，包括：采用预设的连续型模型训练方式对预设的训练数据集进行训练，建立连续型反欺诈模型；基于所述连续型反欺诈模型对待测试数据进行训练，识别所述待测试数据中的欺诈数据。本发明还公开了一种欺诈数据的识别装置。本发明由于针对待测试数据中欺诈数据为不均衡数据的特征，采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别，相比普通单模型能提高欺诈数据的识别精度和召回率，更加精确地判断欺诈案例，从而缩小人工审查的范围和成本。

Description

欺诈数据的识别方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种欺诈数据的识别方法及装置。

背景技术

目前，对于一些容易出现的欺诈行为需对其中的欺诈数据进行分析、识别，例如像社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为，这些行为的存在会浪费医疗资源，激化社会矛盾。对于成千上万的医疗账单报销，很难通过有限的人力资源进行逐一的筛查。而且，这些数据为不均衡数据，即欺诈交易数据相对稀少，而现今对于欺诈数据挖掘和预测运用的普通单模型仅利用最大准确率作为判断标准，在欺诈交易数据相对于正常交易数据的比例非常稀少时，普通单模型对需判断欺诈的数据集的正确估计率都较高，使得数据集中的欺诈交易数据很难被识别及显示出来，从而使得模型对欺诈交易数据的识别精度和召回率偏低。

发明内容

本发明的主要目的在于提供一种欺诈数据的识别方法及装置，旨在提高欺诈数据的识别精度。

为实现上述目的，本发明提供的一种欺诈数据的识别方法，所述方法包括以下步骤：

A、采用预设的连续型模型训练方式对预设的训练数据集进行训练，建立连续型反欺诈模型；

B、基于所述连续型反欺诈模型对待测试数据进行训练，识别所述待测试数据中的欺诈数据。

优选地，所述连续型反欺诈模型为直接连续型模型，所述步骤A替换为：

将预设的训练数据集按预设比例分解为训练集和测试集；

保留所述测试集，按预设比例将所述训练集进一步分解为两个子训练集，所述两个子训练集分别作为下一层模型的训练集和测试集；

依次重复划分训练集至预设次数；

分别利用划分的多层训练集，使用预设的经典模型来训练模型，并在保留的多层测试集上进行测试，建立直接连续型模型。

优选地，所述步骤B替换为：

对待测试数据进行与所述训练数据集中训练集比例相同的多层划分，并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练，识别所述待测试数据中的欺诈数据。

优选地，所述连续型反欺诈模型为优化连续型模型，所述步骤A替换为：

将预设的训练数据集按预设比例分解为训练集和测试集；

保留所述测试集，按预设比例将所述训练集进一步分解为两个子训练集，所述两个子训练集分别作为下一层模型的下层训练集和下层测试集；

利用下层训练集来训练模型，并在下层测试集上进行测试，根据测试结果获取阳性样本并保留训练模型，将获取的阳性样本作为新的训练集；

依次重复进行划分训练集、测试的步骤，直至获取的阳性样本数量为零或者建立完多重训练模型；

对建立的多重训练模型进行收集整理，获取优化连续型模型。

优选地，所述步骤B替换为：

在待测试数据上利用所述优化连续型模型进行自上而下的测试，根据测试结果获取并保留阳性样本，以根据所述阳性样本识别所述待测试数据中的欺诈数据。

优选地，所述步骤B之后还包括：

C、对所述欺诈数据的类型和/或来源进行标记。

此外，为实现上述目的，本发明还提供一种欺诈数据的识别装置，所述欺诈数据的识别装置包括：

建模模块，用于采用预设的连续型模型训练方式对预设的训练数据集进行训练，建立连续型反欺诈模型；

识别模块，用于基于所述连续型反欺诈模型对待测试数据进行训练，识别所述待测试数据中的欺诈数据。

优选地，所述建模模块还用于：

将预设的训练数据集按预设比例分解为训练集和测试集；

依次重复划分训练集至预设次数；

优选地，所述识别模块还用于：

对待测试数据进行与所述训练数据集中训练集比例相同的划分，并利用所述直接连续型模型对划分后的待测试数据分别进行训练，识别所述待测试数据中的欺诈数据。

优选地，所述建模模块还用于：

将预设的训练数据集按预设比例分解为训练集和测试集；

优选地，所述识别模块还用于：

优选地，所述欺诈数据的识别装置还包括：

标记模块，用于对所述欺诈数据的类型和/或来源进行标记。

本发明提出的一种欺诈数据的识别方法及装置，采用预设的连续型模型训练方式建立连续型反欺诈模型，利用建立的连续型反欺诈模型来对待测试数据进行训练，识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征，采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别，相比普通单模型能提高欺诈数据的识别精度和召回率，更加精确地判断欺诈案例，从而缩小人工审查的范围和成本。

附图说明

图1为本发明欺诈数据的识别方法第一实施例的流程示意图；

图2为本发明欺诈数据的识别方法第二实施例的流程示意图；

图3为本发明欺诈数据的识别装置第一实施例的功能模块示意图；

图4为本发明欺诈数据的识别装置第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种欺诈数据的识别方法。

参照图1，图1为本发明欺诈数据的识别方法第一实施例的流程示意图。

在第一实施例中，该欺诈数据的识别方法包括：

步骤S10，采用预设的连续型模型训练方式对预设的训练数据集进行训练，建立连续型反欺诈模型；

本实施例中，首先采用预设的连续型模型训练方式，结合决策树、随机森林等数据分析理论以及R、SAS等数据分析工具，对预设的训练数据集进行训练来建立连续型反欺诈模型。如可将预设的训练数据集分为多个组，分别进行训练和中间测试，以建立连续型反欺诈模型。在利用预设的连续型模型训练方式来进行训练时，在一种实施方式中，可将预设的训练数据集分为多个组，分别在每一组中进行模型训练及测试，每一组的训练结果相对独立，互不影响，再将每一组经训练、测试后得到的模型进行整合，得到最终的连续型反欺诈模型。

在另一种实施方式中，可将预设的训练数据集分为多个组，依次对每一组进行模型训练及测试，将上一组模型训练及测试的结果作为下一组模型训练及测试的基础，即上下两组的训练结果相互关联，在整个训练过程中，模型能得到不断的优化、改进，得到最终的连续型反欺诈模型。

当然，也不限定采用其他的模型训练方式对预设的训练数据集进行训练，来建立连续型反欺诈模型。

步骤S20，基于所述连续型反欺诈模型对待测试数据进行训练，识别所述待测试数据中的欺诈数据。

在建立连续型反欺诈模型之后，即可利用建立的连续型反欺诈模型来对待测试数据进行训练，以分析、识别出所述待测试数据中的欺诈数据。如可按建立连续型反欺诈模型时对预设的训练数据集的测试方式，以相同或相似的测试方式对需识别的待测试数据套用建立的连续型反欺诈模型进行训练、测试，根据训练、测试的结果识别出所述待测试数据中的欺诈数据。

由于在一些容易出现欺诈行为的场景如社保恶意报销等场景中，欺诈数据在整个社保大数据中的占比极其小，即欺诈数据存在大量的不均衡性，而若采用普通单模型来识别其中的欺诈数据，则会因为欺诈数据的不均衡特性，使得识别的精度和召回率偏低。因此，本实施例中针对欺诈数据的不均衡特性，建立连续型反欺诈模型来对待测试数据进行识别，如可同时利用多种模型共同投票的方法来进行欺诈数据的识别，能有效提高欺诈数据的识别精度和召回率，能够更加精确地判断欺诈案例从而缩小人工审查的范围和成本。

本实施例采用预设的连续型模型训练方式建立连续型反欺诈模型，利用建立的连续型反欺诈模型来对待测试数据进行训练，识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征，采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别，相比普通单模型能提高欺诈数据的识别精度和召回率，更加精确地判断欺诈案例，从而缩小人工审查的范围和成本。

进一步地，在其他实施例中，对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用直接连续型模型，上述步骤S10可以替换为：

将预设的训练数据集按预设比例分解为训练集和测试集；

依次重复划分训练集至预设次数；

本实施例中，可进行N重连续型模型的训练来建立直接连续型模型，其中，N为大于等于2的正整数，如可按以下步骤进行直接连续型模型的训练：

第一步：按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set，保留测试集Test_set。

第二步：按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12，将两个子训练集Train_set11和Train_set12分别作为下一层模型的训练集和测试集。

重复第二步划分训练集至一定的预设次数。

第三步：分别利用N层训练集使用预设的常用经典模型来训练模型并进行参数调优，在N层测试集上进行测试，进行参数调优并保留模型。其中，该经典模型包括但不限于决策树模型、随机森林模型等。

第四步：对保留的模型进行收集整理并调优，获取直接连续型模型。

进一步地，上述步骤S20可以替换为：

在建立直接连续型模型之后，可利用建立的直接连续型模型来对待测试数据进行训练，以分析、识别出所述待测试数据中的欺诈数据。具体地，可对需进行欺诈识别的待测试数据进行与建立模型时重复多次划分训练集比例相同的随机分割，再利用建立的直接连续型模型对与所述训练数据集中训练集比例相同的多层划分后的所述待测试数据分别进行对应的模型训练，汇总对多层划分后的所述待测试数据分别进行对应模型训练的训练结果。根据该训练结果可获取对多层划分后的所述待测试数据分别进行对应模型训练后每一层中测试识别的欺诈数据，将每一层中测试识别的欺诈数据进行汇总即可获取最终所述待测试数据中的欺诈数据。

进一步地，在其他实施例中，对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用优化连续型模型，上述步骤S10可以替换为：

将预设的训练数据集按预设比例分解为训练集和测试集；

本实施例中，可进行N重连续型模型的训练来建立优化连续型模型，如可按以下步骤进行优化连续型模型的训练：

第二步：按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12，将两个子训练集Train_set11和Train_set12分别作为下一层模型的下层训练集和下层测试集。

第三步：利用下层训练集Train_set11作为训练集来训练模型并调优，在下层测试集Train_set12上进行测试，根据测试结果获取阳性样本并保留模型。

第四步：提取第三步中得到的阳性样本组成训练集。

第五步：重复第二步至第四部直至第N重模型已经构建或者阳性样本数量为零，其中，N为大于等于2的正整数。

第六步：对构建的N重模型即多重训练模型进行收集整理并调优，获取优化连续型模型。

进一步地，上述步骤S20可以替换为：

在待测试数据上利用优化连续型模型进行自上而下的测试，根据测试结果获取并保留阳性样本，以根据所述阳性样本识别所述待测试数据中的欺诈数据。

在建立优化连续型模型之后，可利用建立的优化连续型模型来对待测试数据进行训练，以分析、识别出所述待测试数据中的欺诈数据。具体地，可直接在待测试数据上利用建立的优化连续型模型进行自上而下的预测，保留该优化连续型模型对待测试数据进行预测过程中的阳性样本，循环直到该优化连续型模型的第N重模型，将每一重模型对待测试数据预测的阳性样本进行汇总即可获取最终所述待测试数据中的欺诈数据。

如图2所示，本发明第二实施例提出一种欺诈数据的识别方法，在上述实施例的基础上，在上述步骤S20之后还包括：

步骤S30，对所述欺诈数据的类型和/或来源进行标记。

本实施例中，在利用建立的连续型反欺诈模型识别出待测试数据中的欺诈数据之后，进一步地，还对识别出的欺诈数据的类型和/或来源进行标记，以标明欺诈数据的特征类型和/或来源，使得相关审查部门或相关工作人员对与已标记欺诈数据的类型、来源相同或相似的其他数据进行重点识别，缩小人工审查范围。例如社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为。在利用建立的连续型反欺诈模型识别出待测试的社保医疗报销数据中的欺诈数据之后，可对识别出的欺诈数据的类型和/或来源进行标记，如标记为中药、西药、诊疗等。这样，社保部门即可将中药、西药、诊疗作为可能出现虚假报销的高危区域进行严格管控，从而减少审查范围，提高欺诈数据识别的精度和效率。

本发明进一步提供一种欺诈数据的识别装置。

参照图3，图3为本发明欺诈数据的识别装置第一实施例的功能模块示意图。

在第一实施例中，该欺诈数据的识别装置包括：

建模模块01，用于采用预设的连续型模型训练方式对预设的训练数据集进行训练，建立连续型反欺诈模型；

本实施例中，首先采用预设的连续型模型训练方式，结合决策树、随机森林等数据分析理论以及R、SAS等数据分析工具，对预设的训练数据集进行训练来建立连续型反欺诈模型。如可将预设的训练数据集分为多个组，分别进行训练和中间测试，以建立连续型反欺诈模型。

在利用预设的连续型模型训练方式来进行训练时，在一种实施方式中，可将预设的训练数据集分为多个组，分别在每一组中进行模型训练及测试，每一组的训练结果相对独立，互不影响，再将每一组经训练、测试后得到的模型进行整合，得到最终的连续型反欺诈模型。

识别模块02，用于基于所述连续型反欺诈模型对待测试数据进行训练，识别所述待测试数据中的欺诈数据。

进一步地，在其他实施例中，对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用直接连续型模型，上述建模模块01还用于：

将预设的训练数据集按预设比例分解为训练集和测试集；

依次重复划分训练集至预设次数；

重复第二步划分训练集至一定的预设次数。

进一步地，上述识别模块02还用于：

进一步地，在其他实施例中，对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用优化连续型模型，上述建模模块01还用于：

将预设的训练数据集按预设比例分解为训练集和测试集；

第四步：提取第三步中得到的阳性样本组成训练集。

进一步地，上述识别模块02还用于：

如图4所示，本发明第二实施例提出一种欺诈数据的识别装置，在上述实施例的基础上，还包括：

标记模块03，用于对所述欺诈数据的类型和/或来源进行标记。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种欺诈数据的识别方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的欺诈数据的识别方法，其特征在于，所述连续型反欺诈模型为直接连续型模型，所述步骤A替换为：

将预设的训练数据集按预设比例分解为训练集和测试集；

依次重复划分训练集至预设次数；

3.如权利要求2所述的欺诈数据的识别方法，其特征在于，所述步骤B替换为：

4.如权利要求1所述的欺诈数据的识别方法，其特征在于，所述连续型反欺诈模型为优化连续型模型，所述步骤A替换为：

将预设的训练数据集按预设比例分解为训练集和测试集；

5.如权利要求4所述的欺诈数据的识别方法，其特征在于，所述步骤B替换为：

6.如权利要求1至5中任意一项所述的欺诈数据的识别方法，其特征在于，所述步骤B之后还包括：

C、对所述欺诈数据的类型和/或来源进行标记。

7.一种欺诈数据的识别装置，其特征在于，所述欺诈数据的识别装置包括：

8.如权利要求7所述的欺诈数据的识别装置，其特征在于，所述建模模块还用于：

将预设的训练数据集按预设比例分解为训练集和测试集；

依次重复划分训练集至预设次数；

9.如权利要求8所述的欺诈数据的识别装置，其特征在于，所述识别模块还用于：

10.如权利要求7所述的欺诈数据的识别装置，其特征在于，所述建模模块还用于：

将预设的训练数据集按预设比例分解为训练集和测试集；

11.如权利要求10所述的欺诈数据的识别装置，其特征在于，所述识别模块还用于：

12.如权利要求7至11中任意一项所述的欺诈数据的识别装置，其特征在于，还包括：

标记模块，用于对所述欺诈数据的类型和/或来源进行标记。