CN111881991A

CN111881991A - 一种识别欺诈的方法、装置及电子设备

Info

Publication number: CN111881991A
Application number: CN202010766957.2A
Authority: CN
Inventors: 张晓璐; 郑力铭; 张婧莹; 赵燕; 莫国龙; 段翔
Original assignee: Lianren Healthcare Big Data Technology Co Ltd
Current assignee: Lianren Healthcare Big Data Technology Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-03
Anticipated expiration: 2040-08-03
Also published as: CN111881991B

Abstract

本发明提供了一种识别欺诈的方法、装置及电子设备，其中，该方法包括：基于分类模型对待识别行为数据进行识别处理；在待识别行为数据异常时，确定待识别行为数据的审核结果；并将待识别行为数据作为正样本添加至预设的样本集中；将待识别行为数据作为一项历史行为数据，基于预设的离群点检测模型提取出历史行为数据中离群点所对应的离群历史行为数据；在离群历史行为数据属于欺诈行为时，将离群历史行为数据作为正样本添加至样本集中，之后基于更新后的样本集对分类模型再次进行训练。通过本发明实施例提供的技术方案，不仅扩充了样本集中的样本数量，还使得分类模型比较及时的能够识别新型欺诈行为，提高分类模型的识别效果。

Description

一种识别欺诈的方法、装置及电子设备

技术领域

本发明涉及行为识别技术领域，具体而言，涉及一种识别欺诈的方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，很多行业中存在欺诈等非法行为，如电信欺诈、医疗骗保、商业保险欺诈等。当前主要采用人工审核的方式来识别非法行为，但人工审核成本较高，且效率低；若提高效率则易出错。

随着机器学习等人工智能领域的发展，人们开始尝试将机器学习应用到欺诈行为识别场景中。但各行业中，欺诈行为都属于少数，即大部分数据为非欺诈行为的负样本，而属于欺诈行为的正样本数量较少，导致机器学习的识别准确度较低；且欺诈行为的手段变化较快，导致传统的机器学习不适用于新型的欺诈行为，实时性较差。

当前，部分方案结合多种机器学习模型进行综合判断，以期望能够识别出欺诈行为，但该方案中各个机器学习模型是并列关系，并没有从实质上解决上述问题。

发明内容

为解决现有欺诈行为识别准确度较低的技术问题，本发明实施例提供一种识别欺诈的方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例提供了一种识别欺诈的方法，包括：

获取目标主体的新增行为数据，根据所述新增行为数据生成所述目标主体的待识别行为数据；

基于分类模型对所述待识别行为数据进行识别处理，所述分类模型用于确定行为数据是否异常；

在所述待识别行为数据异常时，确定所述待识别行为数据的审核结果；在审核结果为所述待识别行为数据属于欺诈行为时，确定所述目标主体存在欺诈嫌疑，并将所述待识别行为数据作为正样本添加至预设的样本集中；

将所述待识别行为数据作为一项历史行为数据，在所述历史行为数据的新增数量超过预设阈值时，基于预设的离群点检测模型提取出所述历史行为数据中离群点所对应的离群历史行为数据；

确定所述离群历史行为数据的审核结果，在审核结果为所述离群历史行为数据属于欺诈行为时，将所述离群历史行为数据作为正样本添加至所述样本集中，之后基于更新后的所述样本集对所述分类模型再次进行训练。

第二方面，本发明实施例还提供了一种识别欺诈的装置，包括：

获取模块，用于获取目标主体的新增行为数据，根据所述新增行为数据生成所述目标主体的待识别行为数据；

分类模块，用于基于分类模型对所述待识别行为数据进行识别处理，所述分类模型用于确定行为数据是否异常；

第一处理模块，用于在所述待识别行为数据异常时，确定所述待识别行为数据的审核结果；在审核结果为所述待识别行为数据属于欺诈行为时，确定所述目标主体存在欺诈嫌疑，并将所述待识别行为数据作为正样本添加至预设的样本集中；

离群检测模块，用于将所述待识别行为数据作为一项历史行为数据，在所述历史行为数据的新增数量超过预设阈值时，基于预设的离群点检测模型提取出所述历史行为数据中离群点所对应的离群历史行为数据；

第二处理模块，用于确定所述离群历史行为数据的审核结果，在审核结果为所述离群历史行为数据属于欺诈行为时，将所述离群历史行为数据作为正样本添加至所述样本集中，之后基于更新后的所述样本集对所述分类模型再次进行训练。

第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述的识别欺诈的方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的识别欺诈的方法中的步骤。

本发明实施例提供的识别欺诈的方法、装置、电子设备及计算机可读存储介质，基于分类模型和高准确度的审核方式，可以准确识别传统欺诈行为，基于离群点检测模型和高准确度的审核方式，可以准确识别新型欺诈行为；将识别出的传统欺诈行为和新型欺诈行为均作为正样本添加至样本集中，并再次对分类模型训练，不仅扩充了样本集中的样本数量，还使得分类模型比较及时的能够识别新型欺诈行为，提高分类模型的识别效果。经过分类模型和离群点检测模型的初步筛选之后，再进行高准确度的审核，审核过程不会涉及大量的行为数据，降低了审核处理量，能够提高审核过程的处理效率，从而既能保证最终识别结果的准确度，也能保证识别效率。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种识别欺诈的方法的流程图；

图2示出了本发明实施例所提供的识别欺诈的方法的流程示意图；

图3示出了本发明实施例所提供的一种识别欺诈的装置的结构示意图；

图4示出了本发明实施例所提供的一种用于执行识别欺诈的方法的电子设备的结构示意图。

具体实施方式

在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频(Radio Frequency，RF)或者以上任意合适的组合。

可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：Java、Smalltalk、C++，还包括常规的过程式程序设计语言，例如：C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网(LAN)或广域网(WAN)，可以连接到用户计算机，也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

下面结合本发明实施例中的附图对本发明实施例进行描述。

图1示出了本发明实施例所提供的一种识别欺诈的方法的流程图。如图1所示，该方法包括：

步骤101：获取目标主体的新增行为数据，根据新增行为数据生成目标主体的待识别行为数据。

本发明实施例中，目标主体为需要识别是否具有欺诈行为的主体或对象，如在通信行业，该目标主体具体可以是会话发起者等；在医保行业，该目标主体具体可以是参保人、医生、药师等。行为数据为主体在执行相应行为时产生的数据，例如参保人报销某类药物，则可以生成相应的行为数据。相应地，新增行为数据为实时或一段时间内新增加的行为数据；当目标主体存在新增行为数据时，基于该新增行为数据生成一种行为数据，即待识别行为数据，后续基于该待识别行为数据判断目标主体是否存在欺诈行为。其中，可以直接将新增行为数据作为待识别行为数据，也可以在新增行为数据的基础上，结合其他行为数据来生成该待识别行为数据。

步骤102：基于分类模型对待识别行为数据进行识别处理，分类模型用于确定行为数据是否异常。

本发明实施例中，预先设置用于确定行为数据是否异常的分类模型，该分类模型是基于样本集训练后得到的，该分类模型为有监督类的模型，具体可采用基于bagging的随机森林(random forest)模型、基于boosting的XGBoost机器学习模型等。其中，样本集中包含具有分类标签的样本行为数据，基于该样本行为数据可以对分类模型进行训练。在训练结束后，将待识别行为数据输入至该分类模型即可输出相应的分类标签，从而确定该待识别行为数据是否异常。

步骤103：在待识别行为数据异常时，确定待识别行为数据的审核结果；在审核结果为待识别行为数据属于欺诈行为时，确定目标主体存在欺诈嫌疑，并将待识别行为数据作为正样本添加至预设的样本集中。

本发明实施例中，若基于分类模型确定该待识别行为数据异常，则说明目标主体有较大的可能存在欺诈嫌疑。但由于分类模型的精准度主要取决于样本集，由于样本集中的属于欺诈行为的正样本数量较少、或者样本集中没有及时添加与新型欺诈行为相关的正样本，从而导致分类模型的识别精度可能较差，本实施例对可能异常的待识别行为数据进行进一步精确审核，进而可以确定该待识别行为数据的审核结果。本实施例中，可以采样人工审核的方式对该待识别行为数据进行审核，也可以采用其他高识别精度的方式对该待识别行为数据进行审核；其中，审核方式的准确度需要高于预设值，如高于90％等。虽然精确审核处理效率较低，但由于分类模型对待识别行为数据进行了初步筛选，即只对分类模型认为异常的待识别行为数据进行精确审核，且欺诈行为属于少数，从而可以大大减少精确审核过程的处理量，如减少人工审核的处理量，从而能在保证识别精度的同时提高识别效率。

本实施例中，若此时的识别结果表示该待识别行为数据属于欺诈行为，则说明该目标主体很大概率存在欺诈嫌疑，且该结论的准确度较高；此时可以生成提醒消息，或者提醒相关部门二次审核，避免扩大损失。同时，由于该待识别行为数据属于欺诈行为是经过审核的，此时可以将该待识别行为数据作为正样本添加至用于训练分类模型的样本集中，以扩充样本集。本实施例中，样本集中的正样本为属于欺诈行为的样本行为数据，相反地，负样本为不属于欺诈行为的样本行为数据。

步骤104：将待识别行为数据作为一项历史行为数据，在历史行为数据的新增数量超过预设阈值时，基于预设的离群点检测模型提取出历史行为数据中离群点所对应的离群历史行为数据。

本发明实施例中，在步骤101生成待识别行为数据之后，可以将该待识别行为数据作为一项历史行为数据，每新增一项待识别行为数据，即新增一项历史行为数据；若历史行为数据的新增数量超过预设阈值，则说明新增的历史行为数据数量足够，此时可以基于离群点检测模型提取出其中的离群点，每个离群点对应一项历史行为数据，即离群历史行为数据。

本实施例中，该离群点检测模型为无监督类模型，即不需要样本集即可提取出多项数据中的离群点，该离群点检测模型具体可以是孤立森林算法模型、K_Means算法模型、局部异常因子算法模型、一分类支持向量机模型等。由于欺诈行为为少数，离群点也为少数，则离群点对应的离群历史行为数据有可能属于欺诈行为。

步骤105：确定离群历史行为数据的审核结果，在审核结果为离群历史行为数据属于欺诈行为时，将离群历史行为数据作为正样本添加至样本集中，之后基于更新后的样本集对分类模型再次进行训练。

本发明实施例中，在确定了离群历史行为数据之后，也对该离群历史行为数据进行精确审核，如基于人工审核方式、或其他高识别精度的审核方式进行审核；其中，对离群历史行为数据进行审核，对异常的待识别行为数据进行审核，二者可采用相同的审核方式，如都采用人工审核。在经过精确审核之后，若相应的审核结果表示该离群历史行为数据属于欺诈行为，则可以确定该离群历史行为数据所对应的主体存在欺诈嫌弃。本实施例中将该离群历史行为数据也作为一项正样本添加至样本集中，以扩充样本集；同时，对于新型欺诈行为，分类模型最开始不能进行有效识别，但离群点检测模型仍然能够检测出新型欺诈行为对应的离群点，在经过审核之后，即可将新型欺诈行为对应的行为数据作为正样本添加至样本集中，之后再基于该新的样本集训练分类模型，使得分类模型也能够识别新型欺诈行为。

本发明实施例提供的一种识别欺诈的方法，基于分类模型和高准确度的审核方式，可以准确识别传统欺诈行为，基于离群点检测模型和高准确度的审核方式，可以准确识别新型欺诈行为；将识别出的传统欺诈行为和新型欺诈行为均作为正样本添加至样本集中，并再次对分类模型训练，不仅扩充了样本集中的样本数量，还使得分类模型比较及时的能够识别新型欺诈行为，提高分类模型的识别效果。经过分类模型和离群点检测模型的初步筛选之后，再进行高准确度的审核，审核过程不会涉及大量的行为数据，降低了审核处理量，能够提高审核过程的处理效率，从而既能保证最终识别结果的准确度，也能保证识别效率。

在上述实施例的基础上，由于目标主体的行为数据可以是实时生成的，即需要循环执行上述的步骤；本实施例中，将上述步骤101-105分为内循环和外循环两部分。如图2所示，当确定新增行为数据之后，生成相应的待识别行为数据，之后基于第二特征表示方式将该待识别行为数据转换为相应的特征向量，并输入至分类模型中以确定该待识别行为数据是否异常，上述过程为内循环过程，即每确定一项待识别数据，均执行该内循环过程。同时，生成待识别行为数据之后，将其作为一项历史行为数据，并统计历史行为数据的新增数量，若新增数量达到预设阈值，则基于第一特征表示方式确定历史行为数据的特征向量，并输入至离群点检测模型，以提取出其中的离群点，之后基于新的样本集对分类模型进行重新训练，从而完成一轮外循环的过程。

其中，分类模型每确定一个异常的待识别行为数据，即可进行审核处理；或者，在分类模型识别出的异常的待识别行为数据达到一定数量时，再统一进行审核处理；或者，可以在确定离群历史行为数据之后，一并对异常的待识别行为数据和离群历史行为数据进行审核，本实施例对此不做限定。

具体地，上述步骤101“获取目标主体的新增行为数据，根据新增行为数据生成目标主体的待识别行为数据”包括：

步骤A1：获取目标主体在数据更新周期内的新增行为数据，新增行为数据包括多个维度的子行为数据。

本发明实施例中，预先设置数据更新周期，如一天、一周、一个月等，在每个数据更新周期执行一次数据更新操作，从而可以采集到每个目标主体的新增行为数据，该新增行为数据为主体在一个数据更新周期内新增的行为数据。同时，由于主体的行为数据包含多个维度，每个维度对应一项子行为数据，特别是在医保行业内，仅药品器械使用明细这一项信息，其就包含大量种类药品或大量种类器械的使用记录，每种药品或器械的使用记录即为一个维度的子行为数据。

步骤A2：确定目标主体在之前N-1个数据更新周期内生成的在先行为数据，每个在先行为数据包括多个相同维度的子行为数据。

步骤A3：根据新增行为数据和在先行为数据生成目标主体的待识别行为数据，待识别行为数据中每个维度的子行为数据为新增行为数据的子行为数据和在先行为数据的子行为数据的平均值。

本实施例中，目标主体在每个数据更新周期内均可以生成相应的行为数据，即在之前的N-1个数据更新周期内存在N-1项在先行为数据，每个在先行为数据与该新增行为数据类似，也具有多个维度的子行为数据。在确定新增行为数据和在先行为数据之后，即可综合生成待识别行为数据。本实施例中，基于多个数据更新周期的平均值生成待识别行为数据，即待识别行为数据中每个维度的子行为数据为新增行为数据的子行为数据和在先行为数据的子行为数据的平均值。例如，待识别行为数据中第i个维度的子行为数据为di₀，N-1项在先行为数据第i个维度的子行为数据分别为di₁、di₂、…、di_N-1，则待识别行为数据的第i个维度的子行为数据为(di₀+di₁+di₂+…+di_N-1)/N；其中，N为不小于1的正整数，当N＝1时，即可将新增行为数据直接作为待识别行为数据。

此外，该方法还包括：预先设置外循环的迭代索引T。在历史行为数据的新增数量超过预设阈值时，对外循环的迭代索引T进行加一处理，并重新统计历史行为数据的新增数量。

本发明实施例中，该外循环的迭代索引T用于表示外循环的迭代次数；具体地，可以设置内循环的迭代索引t，其初始值为零；每当生成一项待识别行为数据时，该迭代索引t加一，即t＝t+1；由于待识别行为数据会作为一项历史行为数据，则该迭代索引t即可表示历史行为数据的新增数量。若迭代索引t大于预设阈值，则说明历史行为数据的新增数量超过预设阈值，此时即可基于离群点检测模型提取出离群历史行为数据，并对外循环的迭代索引T进行加一处理，即T＝T+1，同时把内循环的迭代索引t置零，即t＝0，以重新统计历史行为数据的新增数量。其中，每次外循环过程中，均可以通过新的训练集对分类模型进行训练，也可以经过多次外循环过程之后再对分类模型进行训练，也可以在一次外循环的周期内，基于多个新的训练集对分类模型分别进行多次训练，本实施例对此不做限定。

本发明实施例中，通过内循环过程，可以实时确定待识别数据是否异常，进而审核确定其是否为欺诈行为；通过外循环过程可以周期性识别出新型欺诈行为，从而能够周期性训练分类模型，使得分类模型能够有效识别新型欺诈行为。

可选地，在最开始时，需要预先训练并生成分类模型，使得后续能够执行内循环和外循环过程。具体地，在步骤101“获取目标主体的新增行为数据”之前，该方法还包括：

步骤B1：预先确定样本集和多个历史行为数据，样本集中包含多个正样本和多个负样本。

本发明实施例中，预先确定多个属于欺诈行为的正样本，以及多个属于非欺诈行为的负样本，从而生成最初的样本集。同时，基于之前记录的多个主题的行为数据，即可确定多个历史行为数据。

步骤B2：基于预设的离群点检测模型提取出历史行为数据中离群点所对应的离群历史行为数据。

步骤B3：确定离群历史行为数据的审核结果，在审核结果为离群历史行为数据属于欺诈行为时，将离群历史行为数据作为正样本添加至样本集中，从不是离群历史行为数据的历史行为数据中抽取多个历史行为数据作为负样本，并添加至样本集中。

本发明实施例中，在初始阶段，首先基于离群点检测模型识别提取出其中的离群历史行为数据，之后通过审核处理进行进一步确认，以精确地提取出历史行为数据中属于欺诈行为的离群历史行为数据，进而可以将该离群历史行为数据作为正样本添加至样本集中。同时，根据该离群点检测模型，可以基本确定非离群点对应的历史行为数据为正常的行为数据，其不属于欺诈行为；由于大部分行为不属于欺诈行为，本实施例从中抽取出多个历史行为数据作为负样本，以充实样本集，并保证样本集中正负样本的比例合适。可选地，在上述步骤105中，即在每一轮外循环过程中，也可以从不是离群历史行为数据的历史行为数据中，抽取部分历史行为数据作为负样本。

步骤B4：基于更新后的样本集对分类模型进行训练，确定所需的分类模型。

本实施例中，经过上述步骤B1-B3后，可以扩展样本集，增加样本集中样本的数量，之后基于扩展后的样本集对分类模型进行训练，可以得到识别精度较高的分类模型，使得后续该分类模型可以判断待识别行为数据是否异常。

可选地，为了避免一项待识别行为数据被多次审核，本实施例中为待识别行为数据设置唯一的数据标识，例如ID等。上述步骤103中“确定待识别行为数据的审核结果”具体包括：确定待识别行为数据的审核结果，并将待识别行为数据的数据标识标记为已审核。同时，上述步骤105中“确定离群历史行为数据的审核结果”具体包括：确定数据标识为未审核的离群历史行为数据的审核结果。

本发明实施例中，一般在执行多轮内循环过程之后，才会执行外循环过程，且为了保证能够及时识别，一般会优先审核待识别行为数据，在历史行为数据足够时，再审核提取出的离散历史行为数据。故本实施例中，每审核一项待识别行为数据，则将其数据标识记录为已审核(初始状态为未审核)。之后在外循环过程中，若需要审核提取出的离群历史行为数据，则先判断该离群历史行为数据的数据标识的标记，若该数据标识为已审核，则说明该离群历史行为数据已经被审核过，即该离群历史行为数据作为一项异常的待识别行为数据被审核过，其不需要再次审核；故本实施例中只对数据标识为未审核的离群历史行为数据进行审核，进而得到相应的审核结果，从而避免重复审核。

在上述实施例的基础上，预先从多种离群点检测模型、分类模型中选取所用的模型。具体地，在上述步骤104或步骤B2“基于预设的离群点检测模型提取出历史行为数据中离群点所对应的离群历史行为数据”之前，该方法还包括：

步骤C1：预先确定m₁种第一特征表示方式和n₁种离群点检测模型，并形成a种离群检测方式，a＝m₁×n₁。

本发明实施例中，若需要基于模型对行为数据进行识别，需要先基于选定的特征表示方式将行为数据转换为相应的特征向量，之后模型即可基于该特征向量进行识别处理。可选地，由于行为数据为多维数据，且维度一般较大，此时可以通过特征表示方式进行降维处理。该是特征表示方式具体可是LASSO(Least absolute shrinkage and selectionoperator，最小绝对收缩和选择算法)、PCA(Principal Components Analysis，主成分分析)、AutoEncoder(自动编码器)等。具体地，预先选取n₁种离群点检测模型以及m₁种特征表示方式，即第一特征表示方式，二者共可以形成m₁×n₁＝a种离群检测方式。

步骤C2：根据当前的样本集分别确定每种离群检测方式的受试者工作特征曲线，并确定受试者工作特征曲线之下的面积。

步骤C3：将最大面积所对应的离群检测方式作为当前选定的离群检测方式，并确定当前选定的第一特征表示方式和当前选定的离群点检测模型。

本发明实施例中，对于每一种离群检测方式，分别基于当前的样本集来确定相应的受试者工作特征(receiver operating characteristic，ROC)曲线，进而可以确定受试者工作特征曲线之下的区域(Area Under roc Curve，AUC)面积。AUC的取值一般在0.5～1之间，AUC的值越大，说明相应的离群检测方式性能越好，即可以从a种离群检测方式中选取出当前性能最好的离群检测方式，进而可以选定第一特征表示方式和离群点检测模型。例如，第一特征表示方式有三种：LASSO、PCA、AutoEncoder，离群点检测模型有四种：孤立森林算法模型、K_Means算法模型、局部异常因子算法模型、一分类支持向量机模型，则共可以形成12种离群检测方式；经测试后即可选取其中的一种离群检测方式，例如选取LASSO+孤立森林算法模型，则当前选定的第一特征表示方式即为LASSO，当前选定的离群点检测模型即为孤立森林算法模型。

步骤C4：在确定历史行为数据之后，根据当前选定的第一特征表示方式确定历史行为数据的特征向量，并将历史行为数据的特征向量输入至当前选定的离群点检测模型进行离群点提取。

本发明实施例中，在选定第一特征表示方式和离群点检测模型之后，若获取到历史行为数据，即可基于当前选定的第一特征表示方式将历史行为数据转换为特征向量；且历史行为数据的新增数量超过预设阈值时，即可基于当前选定的离群点检测模型进行离群点提取，以提取出其中的离群历史行为数据。

类似地，在上述步骤B4“基于更新后的样本集对分类模型进行训练”之前，该方法还包括：

步骤D1：预先确定m₂种第二特征表示方式和n₂种分类模型，并形成b种分类方式，b＝m₂×n₂。

步骤D2：根据当前的样本集分别确定每种分类方式的受试者工作特征曲线，并确定受试者工作特征曲线之下的面积。

步骤D3：将最大面积所对应的分类方式作为当前选定的分类方式，并确定当前选定的第二特征表示方式和当前选定的分类模型。

步骤D4：在确定待识别行为数据之后，根据当前选定的第二特征表示方式确定待识别行为数据的特征向量，并将待识别行为数据的特征向量输入至当前选定的分类模型，以确定待识别行为数据是否异常。

本发明实施例中，与上述步骤C1-C3类似，本实施例中基于步骤D1-D3也可以确定当前选定的第二特征表示方式和当前选定的分类模型，之后获取到待识别行为数据时，即可执行步骤D4以判断该待识别行为数据是否异常。

本领域技术人员可以理解，在每一轮外循环过程中，都会更新样本集，此时在下一轮外循环过程之前，均可执行上述步骤C1-C3和/或步骤D1-D3，以确定当前的特征表示方式、离群点检测模型和分类模型；或者，也可以经过几轮外循环过程之后，再执行一次上述步骤C1-C3和/或步骤D1-D3，本实施例对此不做限定。

本发明实施例提供的一种识别欺诈的方法，基于分类模型和高准确度的审核方式，可以准确识别传统欺诈行为，基于离群点检测模型和高准确度的审核方式，可以准确识别新型欺诈行为；将识别出的传统欺诈行为和新型欺诈行为均作为正样本添加至样本集中，并再次对分类模型训练，不仅扩充了样本集中的样本数量，还使得分类模型比较及时的能够识别新型欺诈行为，提高分类模型的识别效果。经过分类模型和离群点检测模型的初步筛选之后，再进行高准确度的审核，审核过程不会涉及大量的行为数据，降低了审核处理量，能够提高审核过程的处理效率，从而既能保证最终识别结果的准确度，也能保证识别效率。通过内循环过程，可以实时确定待识别数据是否异常，进而审核确定其是否为欺诈行为；通过外循环过程可以周期性识别出新型欺诈行为，从而能够周期性训练分类模型，使得分类模型能够有效识别新型欺诈行为。将特征表示方式和相应的模型(分类模型或离群点检测模型)组合为一种检测方式，并选取最优的检测方式，从而能够确定当前最合适的特征表示方式和模型，进一步提高识别准确度。

上文详细描述了本发明实施例提供的识别欺诈的方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的识别欺诈的装置。

图3示出了本发明实施例所提供的一种识别欺诈的装置的结构示意图。如图3所示，该识别欺诈的装置包括：

获取模块31，用于获取目标主体的新增行为数据，根据所述新增行为数据生成所述目标主体的待识别行为数据；

分类模块32，用于基于分类模型对所述待识别行为数据进行识别处理，所述分类模型用于确定行为数据是否异常；

第一处理模块33，用于在所述待识别行为数据异常时，确定所述待识别行为数据的审核结果；在审核结果为所述待识别行为数据属于欺诈行为时，确定所述目标主体存在欺诈嫌疑，并将所述待识别行为数据作为正样本添加至预设的样本集中；

离群检测模块34，用于将所述待识别行为数据作为一项历史行为数据，在所述历史行为数据的新增数量超过预设阈值时，基于预设的离群点检测模型提取出所述历史行为数据中离群点所对应的离群历史行为数据；

第二处理模块35，用于确定所述离群历史行为数据的审核结果，在审核结果为所述离群历史行为数据属于欺诈行为时，将所述离群历史行为数据作为正样本添加至所述样本集中，之后基于更新后的所述样本集对所述分类模型再次进行训练。

在上述实施例的基础上，所述待识别行为数据具有唯一的数据标识；

所述第一处理模块33确定所述待识别行为数据的审核结果，包括：确定所述待识别行为数据的审核结果，并将所述待识别行为数据的数据标识标记为已审核；

所述第二处理模块35确定所述离群历史行为数据的审核结果，包括：确定数据标识为未审核的所述离群历史行为数据的审核结果。

在上述实施例的基础上，所述获取模块31获取目标主体的新增行为数据，根据所述新增行为数据生成所述目标主体的待识别行为数据，包括：

获取所述目标主体在数据更新周期内的新增行为数据，所述新增行为数据包括多个维度的子行为数据；

确定所述目标主体在之前N-1个数据更新周期内生成的在先行为数据，每个所述在先行为数据包括多个相同维度的子行为数据；

根据所述新增行为数据和所述在先行为数据生成所述目标主体的待识别行为数据，所述待识别行为数据中每个维度的子行为数据为所述新增行为数据的子行为数据和所述在先行为数据的子行为数据的平均值。

在上述实施例的基础上，预先设置外循环的迭代索引T；

在所述历史行为数据的新增数量超过预设阈值时，所述离群检测模块34还用于：

对所述外循环的迭代索引T进行加一处理，并重新统计所述历史行为数据的新增数量。

在上述实施例的基础上，该装置还包括预处理模块；

在所述获取模块31获取目标主体的新增行为数据之前，所述预处理模块用于：

预先确定样本集和多个历史行为数据，所述样本集中包含多个正样本和多个负样本；

基于预设的离群点检测模型提取出所述历史行为数据中离群点所对应的离群历史行为数据；

确定所述离群历史行为数据的审核结果，在审核结果为所述离群历史行为数据属于欺诈行为时，将所述离群历史行为数据作为正样本添加至所述样本集中，从不是离群历史行为数据的所述历史行为数据中抽取多个历史行为数据作为负样本，并添加至所述样本集中；

基于更新后的所述样本集对分类模型进行训练，确定所需的分类模型。

在上述实施例的基础上，该装置还包括第一选定模块；

在所述离群检测模块34，基于预设的离群点检测模型提取出所述历史行为数据中离群点所对应的离群历史行为数据之前，所述第一选定模块用于：

预先确定m₁种第一特征表示方式和n₁种离群点检测模型，并形成a种离群检测方式，a＝m₁×n₁；

根据当前的所述样本集分别确定每种所述离群检测方式的受试者工作特征曲线，并确定所述受试者工作特征曲线之下的面积；

将最大面积所对应的离群检测方式作为当前选定的离群检测方式，并确定当前选定的第一特征表示方式和当前选定的离群点检测模型；

在确定历史行为数据之后，根据当前选定的所述第一特征表示方式确定所述历史行为数据的特征向量，并将所述历史行为数据的特征向量输入至当前选定的所述离群点检测模型进行离群点提取。

在上述实施例的基础上，该装置还包括第二选定模块；

在所述预处理模块基于更新后的所述样本集对分类模型进行训练之前，所述第二选定模块用于：

预先确定m₂种第二特征表示方式和n₂种分类模型，并形成b种分类方式，b＝m₂×n₂；

根据当前的所述样本集分别确定每种所述分类方式的受试者工作特征曲线，并确定所述受试者工作特征曲线之下的面积；

将最大面积所对应的分类方式作为当前选定的分类方式，并确定当前选定的第二特征表示方式和当前选定的分类模型；

在确定待识别行为数据之后，根据当前选定的所述第二特征表示方式确定所述待识别行为数据的特征向量，并将所述待识别行为数据的特征向量输入至当前选定的所述分类模型，以确定所述待识别行为数据是否异常。

本发明实施例提供的一种识别欺诈的装置，基于分类模型和高准确度的审核方式，可以准确识别传统欺诈行为，基于离群点检测模型和高准确度的审核方式，可以准确识别新型欺诈行为；将识别出的传统欺诈行为和新型欺诈行为均作为正样本添加至样本集中，并再次对分类模型训练，不仅扩充了样本集中的样本数量，还使得分类模型比较及时的能够识别新型欺诈行为，提高分类模型的识别效果。经过分类模型和离群点检测模型的初步筛选之后，再进行高准确度的审核，审核过程不会涉及大量的行为数据，降低了审核处理量，能够提高审核过程的处理效率，从而既能保证最终识别结果的准确度，也能保证识别效率。通过内循环过程，可以实时确定待识别数据是否异常，进而审核确定其是否为欺诈行为；通过外循环过程可以周期性识别出新型欺诈行为，从而能够周期性训练分类模型，使得分类模型能够有效识别新型欺诈行为。将特征表示方式和相应的模型(分类模型或离群点检测模型)组合为一种检测方式，并选取最优的检测方式，从而能够确定当前最合适的特征表示方式和模型，进一步提高识别准确度。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述识别欺诈的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图4所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述识别欺诈的方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构(用总线1110来代表)，总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port，AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构(Industry Standard Architecture，ISA)总线、微通道体系结构(Micro Channel Architecture，MCA)总线、扩展ISA(Enhanced ISA，EISA)总线、视频电子标准协会(Video Electronics Standards Association，VESA)、外围部件互连(Peripheral Component Interconnect，PCI)总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice，CPLD)、可编程逻辑阵列(Programmable Logic Array，PLA)、微控制单元(Microcontroller Unit，MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory，RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband，eMBB)系统、海量机器类通信(massive Machine Type of Communication，mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications，uRLLC)系统等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存(Flash Memory)。

易失性存储器包括：随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如：静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器(Media Player)、浏览器(Browser)，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述识别欺诈的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(包括：个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种识别欺诈的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待识别行为数据具有唯一的数据标识；

所述确定所述待识别行为数据的审核结果，包括：确定所述待识别行为数据的审核结果，并将所述待识别行为数据的数据标识标记为已审核；

所述确定所述离群历史行为数据的审核结果，包括：确定数据标识为未审核的所述离群历史行为数据的审核结果。

3.根据权利要求1或2所述的方法，其特征在于，所述获取目标主体的新增行为数据，根据所述新增行为数据生成所述目标主体的待识别行为数据，包括：

4.根据权利要求3所述的方法，其特征在于，预先设置外循环的迭代索引T；

在所述历史行为数据的新增数量超过预设阈值时，该方法还包括：

5.根据权利要求1所述的方法，其特征在于，在所述获取目标主体的新增行为数据之前，还包括：

6.根据权利要求1或5所述的方法，其特征在于，在所述基于预设的离群点检测模型提取出所述历史行为数据中离群点所对应的离群历史行为数据之前，还包括：

7.根据权利要求5所述的方法，其特征在于，在所述基于更新后的所述样本集对分类模型进行训练之前，还包括：

8.一种识别欺诈的装置，其特征在于，包括：

9.一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的识别欺诈的方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的识别欺诈的方法中的步骤。