CN109919781A - 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 - Google Patents
团伙欺诈案件识别方法、电子装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109919781A CN109919781A CN201910067467.0A CN201910067467A CN109919781A CN 109919781 A CN109919781 A CN 109919781A CN 201910067467 A CN201910067467 A CN 201910067467A CN 109919781 A CN109919781 A CN 109919781A
- Authority
- CN
- China
- Prior art keywords
- case
- cluster
- clique
- algorithm
- fraud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 claims abstract description 60
- 238000003012 network analysis Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract 1
- 238000011835 investigation Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000036624 brainpower Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及一种聚类算法技术,揭露了一种团伙欺诈案件识别方法,该方法包括:采集多维度的案件画像数据;通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群;对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群。本发明还提供一种电子装置及计算机可读存储介质。本发明提供的团伙欺诈案件识别方法、电子装置及计算机可读存储介质能够有效识别具有极大相似性的团伙欺诈案件。
Description
技术领域
本发明涉及聚类算法技术领域,尤其涉及一种团伙欺诈案件识别方法、电子装置及计算机可读存储介质。
背景技术
目前,在车险领域,尤其是车险线上理赔案件,存在团伙欺诈舞弊的风险。当前业界主要是由具有丰富经验的理赔调查审核人员对车险理赔案件进行欺诈风险调查与审核。但是,这样的审核方式既浪费人力和时间,也无法确保审核结果的准确性。并且,即使是经验丰富的理赔调查审核人员也很难识别出不同的车险理赔案件的内在关联性,即人工调查审核的方式无法有效识别出车险理赔的团伙欺诈舞弊风险。
发明内容
有鉴于此,本发明提出一种团伙欺诈案件识别方法、电子装置及计算机可读存储介质,以解决如何有效识别出车险理赔的团伙欺诈舞弊风险的问题。
首先,为实现上述目的,本发明提出一种团伙欺诈案件识别方法,该方法包括步骤:
采集多维度的案件画像数据;
通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群;及
对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群。
可选地,该方法还包括步骤:
根据预设手段筛选出异常案件;
查询所述异常案件所在的案件集群;
将所查询到的案件集群作为异常案件集群进行风险审查,判断是否为团伙欺诈案件。
可选地,所述案件画像数据包括时间相关维度,频度相关维度,金额相关维度,位置相关维度,涉及人员主体维度和案件属性相关维度。
可选地,所述聚类算法包括K-means算法或DBSCAN算法。
可选地,所述预设手段包括孤立森林算法或一类支持向量机算法。
此外,为实现上述目的,本发明还提供一种电子装置,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的团伙欺诈案件识别系统,所述团伙欺诈案件识别系统被所述处理器执行时实现如下步骤:
采集多维度的案件画像数据;
通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群;及
对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群。
可选地,所述团伙欺诈案件识别系统被所述处理器执行时还实现步骤:
根据预设手段筛选出异常案件;
查询所述异常案件所在的案件集群;
将所查询到的案件集群作为异常案件集群进行风险审查,判断是否为团伙欺诈案件。
可选地,所述聚类算法包括K-means算法或DBSCAN算法。
可选地,所述预设手段包括孤立森林算法或一类支持向量机算法。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有团伙欺诈案件识别系统,所述团伙欺诈案件识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的团伙欺诈案件识别方法的步骤。
相较于现有技术,本发明所提出的团伙欺诈案件识别方法、电子装置及计算机可读存储介质,可以结合多维度数据进行聚类建模分析,将车险理赔等案件划分为不同的案件集群,对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群,可以扩大风险扫描范围,且针对具有极大相似性的团伙欺诈案件的识别效果良好。另外,在划分案件集群的基础上,若发现风险较高的异常案件时,则该案件所在的案件集群为团伙欺诈案件的风险较高,可以将其作为异常案件集群进行进一步风险审查,从而提高风险审查的效率,从个别异常案件识别出团伙案件,避免漏网之鱼。
附图说明
图1是本发明电子装置一可选的硬件架构的示意图;
图2是本发明团伙欺诈案件识别系统第一实施例的程序模块示意图;
图3是本发明团伙欺诈案件识别系统第二实施例的程序模块示意图;
图4是本发明团伙欺诈案件识别方法第一实施例的流程示意图;
图5是本发明团伙欺诈案件识别方法第二实施例的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明电子装置2一可选的硬件架构的示意图。
本实施例中,所述电子装置2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-13的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述电子装置2可以是服务器,也可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,并且可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如团伙欺诈案件识别系统200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置2的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的团伙欺诈案件识别系统200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述电子装置2与其他电子设备之间建立通信连接。
至此,己经详细介绍了本发明相关设备的硬件结构和功能。下面,将基于上述介绍提出本发明的各个实施例。
首先,本发明提出一种团伙欺诈案件识别系统200。
参阅图2所示,是本发明团伙欺诈案件识别系统200第一实施例的程序模块图。
本实施例中,所述团伙欺诈案件识别系统200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的团伙欺诈案件识别操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,团伙欺诈案件识别系统200可以被划分为一个或多个模块。例如,在图2中,所述团伙欺诈案件识别系统200可以被分割成采集模块201、建立模块202、评分模块203。其中:
所述采集模块201,用于采集多维度的案件画像数据。
具体地,所述案件画像数据包括时间相关维度,频度相关维度,金额相关维度,LBS(Location Based Service,基于移动位置服务)相关维度,涉及人员主体维度和案件属性相关维度等。上述各个维度的数据可以通过用户报案和理赔人员理赔过程中输入的案件信息进行相关采集。其中,在用户报案时,利用设备GPS信息获取报案地址,并通过案件主键关联到图片上传地址等地理信息,可以比较报案地址与照片地址的一致性,从而发现造假数据。
所述建立模块202,用于通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群。
具体地,针对上述多个维度的案件画像数据,在经过数据降维后,采用K-means(K-均值算法)、DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,具有噪声的基于密度的聚类方法)等聚类算法对案件进行聚类,可以输出特征相似的案件集群,从而将案件划分成不同的案件集群。
K-means算法是一种硬聚类算法,以欧式距离作为相似度测度。该算法的输入为聚类个数k以及包含n个数据对象的数据库,输出为满足方差最小标准的k个聚类。具体过程为:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。在本实施例中,可以根据n个案件的画像数据通过欧氏距离计算,将距离相同的案件聚合在一起,从而将n个案件划分为k个案件集群。
DBSCAN算法是一种基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。该算法的输入为包含n个对象的数据库,扫描半径eps,最少包含点数MinPts;输出为所有生成的簇,达到密度要求。具体过程为:任选一个未被访问的点开始,找出与其距离在eps之内(包括eps)的所有附近点。如果附近点的数量≥minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问。然后递归,以相同的方法处理该簇内所有未被标记为已访问的点,从而对簇进行扩展。如果附近点的数量<minPts,则该点暂时被标记作为噪声点。如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。在本实施例中,可以根据n个案件的画像数据将该n个案件划分为多个簇,也就是多个案件集群。
所述评分模块203,用于对每个案件集群采用社交网络分析(SocialNetworkAnalysis,SNA)算法进行风险评分,判断出异常案件集群。
具体地,社交网络分析算法,也就是为了研究节点(人)和节点关系(边,人和人之间的关系)的算法。通过对关系的研究,可以对节点关系做梳理,从而聚成团。一个具体的网络可抽象为一个由节点集合V和边集合E组成的图G=(V,E),节点数记为n=|V|,边数记为m=|E|。
通过将每个案件集群中所有案件的画像数据采用社交网络分析算法进行交叉比对,可以给各个集群进行评分,这个评分的指标是案件集群中有关联的案件的比例。通过同时分析案件集群的维度特征和关联程度,可以发现数据有异常的案件集群。针对异常案件集群,还需要采取进一步的风险审查(例如人工或智能调查分析),确定其是否为团伙欺诈案件。
举例而言,车险理赔案件的团伙欺诈案件识别,通常是利用车辆涉案人员、包括司机、报案人、受益人和伤者,以及修理厂、报案电话、检修地点、GPS信息等数据进行SNA分析,识别可能的骗保团伙。例如,有两个上海车牌车辆与两个江苏车牌车辆发生了碰撞事故,将案件画像数据放到SNA网络进行分析后,发现这个车的司机是那个案件的伤者,而一个案件的报案人又是另一个案件的司机,因此可以发现异常案件集群。通过进一步调查分析,发现两个驾驶员驾驶不同车辆,一年内共5次出险,可以判断出该异常案件集群为团伙欺诈案件。
本实施例提供的团伙欺诈案件识别系统,可以结合多维度数据进行聚类建模分析,将车险理赔等案件划分为不同的案件集群,对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群,可以扩大风险扫描范围,且针对具有极大相似性的团伙欺诈案件的识别效果良好。
参阅图3所示,是本发明团伙欺诈案件识别系统200第二实施例的程序模块图。本实施例中,所述的团伙欺诈案件识别系统200除了包括第一实施例中的所述采集模块201、建立模块202、评分模块203之外,还包括筛选模块204、查询模块205、判断模块206。
所述筛选模块204用于根据预设手段筛选出异常案件。
在本实施例中,所述预设手段可以是采用孤立森林(isolation forest,简称iForest)算法、一类支持向量机等异常检测算法,用于发现与众不同的案件,即该案件数据特征与正常案件数据特征存在明显差异,将其判断为异常案件。
例如,iForest算法用于挖掘异常(Anomaly)数据或者说离群点,即在大量数据中,找出与其它数据的规律不太符合的数据。iForest森林由大量的树组成,iForest中的树叫isolation tree,简称iTree。算法只需要两个参数:树的多少与采样的多少。一般选择100颗树,使用256个样本。对于找出的异常数据,可以进行深入分析,例如分析欺诈的行为特征。
另外,在其他实施例中,还可以首先根据业务经验(如一年内报案次数大于5)筛选风险比较高的异常案件。
所述查询模块205用于查询该异常案件所在的案件集群。
针对所筛选的异常案件,查询该异常案件所在的案件集群,那么该案件集群内的案件为团伙欺诈案件的概率较高。
所述判断模块206用于将所查询到的案件集群作为异常案件集群进行风险审查,判断是否为团伙欺诈案件。
具体地,针对根据异常案件查询到的案件集群,需要作为异常案件集群进行进一步的风险审查,确定其是否为团伙欺诈案件。
所述风险审查包括人工审查,即由理赔调查审核人员对该案件集群进行调查分析,判断是否有符合团伙欺诈的行为;或者是智能审查,例如根据预设条件设置相应模型,对该异常案件集群中的案件进行风险评分。
本实施例提供的团伙欺诈案件识别系统,可以结合多维度数据进行聚类建模分析,将车险理赔等案件划分为不同的案件集群,对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群,可以扩大风险扫描范围,且针对具有极大相似性的团伙欺诈案件的识别效果良好。另外,在划分案件集群的基础上,若发现风险较高的异常案件时,则该案件所在的案件集群为团伙欺诈案件的风险较高,可以将其作为异常案件集群进行进一步风险审查,从而提高风险审查的效率,从个别异常案件识别出团伙案件,避免漏网之鱼。
此外,本发明还提出一种团伙欺诈案件识别方法。
参阅图4所示,是本发明团伙欺诈案件识别方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S400,采集多维度的案件画像数据。
具体地,所述案件画像数据包括时间相关维度,频度相关维度,金额相关维度,LBS相关维度,涉及人员主体维度和案件属性相关维度等。上述各个维度的数据可以通过用户报案和理赔人员理赔过程中输入的案件信息进行相关采集。其中,在用户报案时,利用设备GPS信息获取报案地址,并通过案件主键关联到图片上传地址等地理信息,可以比较报案地址与照片地址的一致性,从而发现造假数据。
步骤S402,通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群。
具体地,针对上述多个维度的案件画像数据,在经过数据降维后,采用K-means、DBSCAN等聚类算法对案件进行聚类,可以输出特征相似的案件集群,从而将案件划分成不同的案件集群。
K-means算法是一种硬聚类算法,以欧式距离作为相似度测度。该算法的输入为聚类个数k以及包含n个数据对象的数据库,输出为满足方差最小标准的k个聚类。具体过程为:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。在本实施例中,可以根据n个案件的画像数据通过欧氏距离计算,将距离相同的案件聚合在一起,从而将n个案件划分为k个案件集群。
DBSCAN算法是一种基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。该算法的输入为包含n个对象的数据库,扫描半径eps,最少包含点数MinPts;输出为所有生成的簇,达到密度要求。具体过程为:任选一个未被访问的点开始,找出与其距离在eps之内(包括eps)的所有附近点。如果附近点的数量≥minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问。然后递归,以相同的方法处理该簇内所有未被标记为已访问的点,从而对簇进行扩展。如果附近点的数量<minPts,则该点暂时被标记作为噪声点。如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。在本实施例中,可以根据n个案件的画像数据将该n个案件划分为多个簇,也就是多个案件集群。
步骤S404,对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群。
具体地,社交网络分析算法,也就是为了研究节点(人)和节点关系(边,人和人之间的关系)的算法。通过对关系的研究,可以对节点关系做梳理,从而聚成团。一个具体的网络可抽象为一个由节点集合V和边集合E组成的图G=(V,E),节点数记为n=|V|,边数记为m=|E|。
通过将每个案件集群中所有案件的画像数据采用社交网络分析算法进行交叉比对,可以给各个集群进行评分,这个评分的指标是案件集群中有关联的案件的比例。通过同时分析案件集群的维度特征和关联程度,可以发现数据有异常的案件集群。针对异常案件集群,还需要采取进一步的风险审查(例如人工或智能调查分析),确定其是否为团伙欺诈案件。
举例而言,车险理赔案件的团伙欺诈案件识别,通常是利用车辆涉案人员、包括司机、报案人、受益人和伤者,以及修理厂、报案电话、检修地点、GPS信息等数据进行SNA分析,识别可能的骗保团伙。例如,有两个上海车牌车辆与两个江苏车牌车辆发生了碰撞事故,将案件画像数据放到SNA网络进行分析后,发现这个车的司机是那个案件的伤者,而一个案件的报案人又是另一个案件的司机,因此可以发现异常案件集群。通过进一步调查分析,发现两个驾驶员驾驶不同车辆,一年内共5次出险,可以判断出该异常案件集群为团伙欺诈案件。
本实施例提供的团伙欺诈案件识别方法,可以结合多维度数据进行聚类建模分析,将车险理赔等案件划分为不同的案件集群,对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群,可以扩大风险扫描范围,且针对具有极大相似性的团伙欺诈案件的识别效果良好。
如图5所示,是本发明团伙欺诈案件识别方法的第二实施例的流程示意图。本实施例中,所述团伙欺诈案件识别方法的步骤S500-S504与第一实施例的步骤S400-S404相类似,区别在于该方法还包括步骤S506-S510。
该方法包括以下步骤:
步骤S500,采集多维度的案件画像数据。
具体地,所述案件画像数据包括时间相关维度,频度相关维度,金额相关维度,LBS相关维度,涉及人员主体维度和案件属性相关维度等。上述各个维度的数据可以通过用户报案和理赔人员理赔过程中输入的案件信息进行相关采集。其中,在用户报案时,利用设备GPS信息获取报案地址,并通过案件主键关联到图片上传地址等地理信息,可以比较报案地址与照片地址的一致性,从而发现造假数据。
步骤S502,通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群。
具体地,针对上述多个维度的案件画像数据,在经过数据降维后,采用K-means、DBSCAN等聚类算法对案件进行聚类,可以输出特征相似的案件集群,从而将案件划分成不同的案件集群。
K-means算法是一种硬聚类算法,以欧式距离作为相似度测度。该算法的输入为聚类个数k以及包含n个数据对象的数据库,输出为满足方差最小标准的k个聚类。具体过程为:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。在本实施例中,可以根据n个案件的画像数据通过欧氏距离计算,将距离相同的案件聚合在一起,从而将n个案件划分为k个案件集群。
DBSCAN算法是一种基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。该算法的输入为包含n个对象的数据库,扫描半径eps,最少包含点数MinPts;输出为所有生成的簇,达到密度要求。具体过程为:任选一个未被访问的点开始,找出与其距离在eps之内(包括eps)的所有附近点。如果附近点的数量≥minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问。然后递归,以相同的方法处理该簇内所有未被标记为已访问的点,从而对簇进行扩展。如果附近点的数量<minPts,则该点暂时被标记作为噪声点。如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。在本实施例中,可以根据n个案件的画像数据将该n个案件划分为多个簇,也就是多个案件集群。
步骤S504,对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群。
具体地,社交网络分析算法,也就是为了研究节点(人)和节点关系(边,人和人之间的关系)的算法。通过对关系的研究,可以对节点关系做梳理,从而聚成团。一个具体的网络可抽象为一个由节点集合V和边集合E组成的图G=(V,E),节点数记为n=|V|,边数记为m=|E|。
通过将每个案件集群中所有案件的画像数据采用社交网络分析算法进行交叉比对,可以给各个集群进行评分,这个评分的指标是案件集群中有关联的案件的比例。通过同时分析案件集群的维度特征和关联程度,可以发现数据有异常的案件集群。针对异常案件集群,还需要采取进一步的风险审查(例如人工或智能调查分析),确定其是否为团伙欺诈案件。
举例而言,车险理赔案件的团伙欺诈案件识别,通常是利用车辆涉案人员、包括司机、报案人、受益人和伤者,以及修理厂、报案电话、检修地点、GPS信息等数据进行SNA分析,识别可能的骗保团伙。例如,有两个上海车牌车辆与两个江苏车牌车辆发生了碰撞事故,将案件画像数据放到SNA网络进行分析后,发现这个车的司机是那个案件的伤者,而一个案件的报案人又是另一个案件的司机,因此可以发现异常案件集群。通过进一步调查分析,发现两个驾驶员驾驶不同车辆,一年内共5次出险,可以判断出该异常案件集群为团伙欺诈案件。
步骤S506,根据预设手段筛选出异常案件。
在本实施例中,所述预设手段可以是采用iForest算法、一类支持向量机等异常检测算法,用于发现与众不同的案件,即该案件数据特征与正常案件数据特征存在明显差异,将其判断为异常案件。
例如,iForest算法用于挖掘异常数据或者说离群点,即在大量数据中,找出与其它数据的规律不太符合的数据。iForest森林由大量的树组成,iForest中的树叫isolationtree,简称iTree。算法只需要两个参数:树的多少与采样的多少。一般选择100颗树,使用256个样本。对于找出的异常数据,可以进行深入分析,例如分析欺诈的行为特征。
另外,在其他实施例中,还可以首先根据业务经验(如一年内报案次数大于5)筛选风险比较高的异常案件。
步骤S508,查询该异常案件所在的案件集群。
针对所筛选的异常案件,查询该异常案件所在的案件集群,那么该案件集群内的案件为团伙欺诈案件的概率较高。
步骤S510,将所查询到的案件集群作为异常案件集群进行风险审查,判断是否为团伙欺诈案件。
具体地,针对根据异常案件查询到的案件集群,需要作为异常案件集群进行进一步的风险审查,确定其是否为团伙欺诈案件。
所述风险审查包括人工审查,即由理赔调查审核人员对该案件集群进行调查分析,判断是否有符合团伙欺诈的行为;或者是智能审查,例如根据预设条件设置相应模型,对该异常案件集群中的案件进行风险评分。
本实施例提供的团伙欺诈案件识别方法,可以结合多维度数据进行聚类建模分析,将车险理赔等案件划分为不同的案件集群,对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群,可以扩大风险扫描范围,且针对具有极大相似性的团伙欺诈案件的识别效果良好。另外,在划分案件集群的基础上,若发现风险较高的异常案件时,则该案件所在的案件集群为团伙欺诈案件的风险较高,可以将其作为异常案件集群进行进一步风险审查,从而提高风险审查的效率,从个别异常案件识别出团伙案件,避免漏网之鱼。
本发明还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有团伙欺诈案件识别程序,所述团伙欺诈案件识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的团伙欺诈案件识别方法的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种团伙欺诈案件识别方法,其特征在于,所述方法包括步骤:
采集多维度的案件画像数据;
通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群;及
对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群。
2.如权利要求1所述的团伙欺诈案件识别方法,其特征在于,该方法还包括步骤:
根据预设手段筛选出异常案件;
查询所述异常案件所在的案件集群;
将所查询到的案件集群作为异常案件集群进行风险审查,判断是否为团伙欺诈案件。
3.如权利要求1或2所述的团伙欺诈案件识别方法,其特征在于,所述案件画像数据包括时间相关维度,频度相关维度,金额相关维度,位置相关维度,涉及人员主体维度和案件属性相关维度。
4.如权利要求1或2所述的团伙欺诈案件识别方法,其特征在于,所述聚类算法包括K-means算法或DBSCAN算法。
5.如权利要求2所述的团伙欺诈案件识别方法,其特征在于,所述预设手段包括孤立森林算法或一类支持向量机算法。
6.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的团伙欺诈案件识别系统,所述团伙欺诈案件识别系统被所述处理器执行时实现如下步骤:
采集多维度的案件画像数据;
通过聚类算法对所采集的案件画像数据进行无监督学习建模,将案件划分为不同的案件集群;及
对每个案件集群采用社交网络分析算法进行风险评分,判断出异常案件集群。
7.如权利要求6所述的电子装置,其特征在于,所述团伙欺诈案件识别系统被所述处理器执行时还实现步骤:
根据预设手段筛选出异常案件;
查询所述异常案件所在的案件集群;
将所查询到的案件集群作为异常案件集群进行风险审查,判断是否为团伙欺诈案件。
8.如权利要求6或7所述的电子装置,其特征在于,所述聚类算法包括K-means算法或DBSCAN算法。
9.如权利要求7所述的电子装置,其特征在于,所述预设手段包括孤立森林算法或一类支持向量机算法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有团伙欺诈案件识别系统,所述团伙欺诈案件识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的团伙欺诈案件识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910067467.0A CN109919781A (zh) | 2019-01-24 | 2019-01-24 | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910067467.0A CN109919781A (zh) | 2019-01-24 | 2019-01-24 | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109919781A true CN109919781A (zh) | 2019-06-21 |
Family
ID=66960721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910067467.0A Pending CN109919781A (zh) | 2019-01-24 | 2019-01-24 | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919781A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298741A (zh) * | 2019-06-27 | 2019-10-01 | 广发证券股份有限公司 | 一种财务欺诈风险识别系统 |
CN110490750A (zh) * | 2019-07-23 | 2019-11-22 | 平安科技(深圳)有限公司 | 数据识别的方法、系统、电子设备及计算机存储介质 |
CN110659997A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 数据聚类识别方法、装置、计算机系统及可读存储介质 |
CN111372242A (zh) * | 2020-01-16 | 2020-07-03 | 深圳市随手商业保理有限公司 | 欺诈识别方法、装置、服务器及存储介质 |
CN111507382A (zh) * | 2020-04-01 | 2020-08-07 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN111538872A (zh) * | 2020-07-09 | 2020-08-14 | 太平金融科技服务(上海)有限公司 | 业务节点信息的可视化方法、装置、计算机设备和介质 |
CN111612041A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 异常用户识别方法及装置、存储介质、电子设备 |
CN111753154A (zh) * | 2020-06-22 | 2020-10-09 | 北京三快在线科技有限公司 | 用户数据处理方法、装置、服务器及计算机可读存储介质 |
CN111798151A (zh) * | 2020-07-10 | 2020-10-20 | 深圳前海微众银行股份有限公司 | 企业欺诈风险评估方法、装置、设备及可读存储介质 |
CN111833171A (zh) * | 2020-03-06 | 2020-10-27 | 北京芯盾时代科技有限公司 | 异常操作检测和模型训练方法、装置以及可读存储介质 |
CN111986034A (zh) * | 2020-08-14 | 2020-11-24 | 江苏云脑数据科技有限公司 | 医疗保险团伙欺诈监测方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138397A1 (en) * | 2011-11-14 | 2013-05-30 | Gold Post Technologies, Inc. | Remote Virtual Supervision System |
CN106127241A (zh) * | 2016-06-17 | 2016-11-16 | 中国电子科技集团公司第二十八研究所 | 一种串并案分类方法及串并案分类系统 |
CN107092929A (zh) * | 2017-04-19 | 2017-08-25 | 广州可度析信息科技有限公司 | 基于聚类技术的刑事犯罪案件关联串并方法及系统 |
CN107657047A (zh) * | 2017-10-10 | 2018-02-02 | 民太安财产保险公估股份有限公司 | 保险欺诈侦测方法及系统 |
CN108470312A (zh) * | 2018-02-07 | 2018-08-31 | 中国平安人寿保险股份有限公司 | 理赔案件的分析方法、装置、存储介质及终端 |
-
2019
- 2019-01-24 CN CN201910067467.0A patent/CN109919781A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138397A1 (en) * | 2011-11-14 | 2013-05-30 | Gold Post Technologies, Inc. | Remote Virtual Supervision System |
CN106127241A (zh) * | 2016-06-17 | 2016-11-16 | 中国电子科技集团公司第二十八研究所 | 一种串并案分类方法及串并案分类系统 |
CN107092929A (zh) * | 2017-04-19 | 2017-08-25 | 广州可度析信息科技有限公司 | 基于聚类技术的刑事犯罪案件关联串并方法及系统 |
CN107657047A (zh) * | 2017-10-10 | 2018-02-02 | 民太安财产保险公估股份有限公司 | 保险欺诈侦测方法及系统 |
CN108470312A (zh) * | 2018-02-07 | 2018-08-31 | 中国平安人寿保险股份有限公司 | 理赔案件的分析方法、装置、存储介质及终端 |
Non-Patent Citations (1)
Title |
---|
杨静;王靖;: "基于聚类分析检索团伙多起犯罪的迭代算法", 计算机与现代化 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298741A (zh) * | 2019-06-27 | 2019-10-01 | 广发证券股份有限公司 | 一种财务欺诈风险识别系统 |
CN110490750A (zh) * | 2019-07-23 | 2019-11-22 | 平安科技(深圳)有限公司 | 数据识别的方法、系统、电子设备及计算机存储介质 |
CN110490750B (zh) * | 2019-07-23 | 2022-10-28 | 平安科技(深圳)有限公司 | 数据识别的方法、系统、电子设备及计算机存储介质 |
WO2021012913A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 数据识别的方法、系统、电子设备及计算机存储介质 |
CN110659997A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 数据聚类识别方法、装置、计算机系统及可读存储介质 |
CN110659997B (zh) * | 2019-08-15 | 2023-06-27 | 中国平安财产保险股份有限公司 | 数据聚类识别方法、装置、计算机系统及可读存储介质 |
CN111372242A (zh) * | 2020-01-16 | 2020-07-03 | 深圳市随手商业保理有限公司 | 欺诈识别方法、装置、服务器及存储介质 |
CN111372242B (zh) * | 2020-01-16 | 2023-10-03 | 深圳市卡牛科技有限公司 | 欺诈识别方法、装置、服务器及存储介质 |
CN111833171A (zh) * | 2020-03-06 | 2020-10-27 | 北京芯盾时代科技有限公司 | 异常操作检测和模型训练方法、装置以及可读存储介质 |
CN111507382A (zh) * | 2020-04-01 | 2020-08-07 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN111507382B (zh) * | 2020-04-01 | 2023-05-05 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN111612041B (zh) * | 2020-04-24 | 2023-10-13 | 平安直通咨询有限公司上海分公司 | 异常用户识别方法及装置、存储介质、电子设备 |
CN111612041A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 异常用户识别方法及装置、存储介质、电子设备 |
CN111753154B (zh) * | 2020-06-22 | 2024-03-19 | 北京三快在线科技有限公司 | 用户数据处理方法、装置、服务器及计算机可读存储介质 |
CN111753154A (zh) * | 2020-06-22 | 2020-10-09 | 北京三快在线科技有限公司 | 用户数据处理方法、装置、服务器及计算机可读存储介质 |
CN111538872A (zh) * | 2020-07-09 | 2020-08-14 | 太平金融科技服务(上海)有限公司 | 业务节点信息的可视化方法、装置、计算机设备和介质 |
CN111798151A (zh) * | 2020-07-10 | 2020-10-20 | 深圳前海微众银行股份有限公司 | 企业欺诈风险评估方法、装置、设备及可读存储介质 |
CN111986034B (zh) * | 2020-08-14 | 2022-05-10 | 江苏云脑数据科技有限公司 | 医疗保险群体欺诈监测方法、系统及存储介质 |
CN111986034A (zh) * | 2020-08-14 | 2020-11-24 | 江苏云脑数据科技有限公司 | 医疗保险团伙欺诈监测方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919781A (zh) | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 | |
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
CN107423613B (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
CN111460312A (zh) | 空壳企业识别方法、装置及计算机设备 | |
CN112668859A (zh) | 基于大数据的客户风险评级方法、装置、设备及存储介质 | |
CN106503863A (zh) | 基于决策树模型的年龄特征的预测方法、系统及终端 | |
CN112733146B (zh) | 基于机器学习的渗透测试方法、装置、设备及存储介质 | |
CN111931047B (zh) | 基于人工智能的黑产账号检测方法及相关装置 | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN108268886A (zh) | 用于识别外挂操作的方法及系统 | |
CN112861972A (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN112241494A (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN110727740B (zh) | 关联分析方法及装置、计算机设备与可读介质 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN115174250B (zh) | 网络资产安全评估方法、装置、电子设备及存储介质 | |
CN110503566A (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
CN111932146A (zh) | 污染成因的分析方法、装置、计算机设备和可读存储介质 | |
CN111831715A (zh) | 一种基于人工智能大数据智慧接访及存证系统及方法 | |
CN114676749A (zh) | 一种基于数据挖掘的配电网运行数据异常判定方法 | |
CN114418780B (zh) | 欺诈团伙识别方法、装置、计算机设备和存储介质 | |
CN110851414A (zh) | 一种以聚类法进行边界数据分析的方法及其系统 | |
CN115577983A (zh) | 基于区块链的企业任务匹配方法、服务器及存储介质 | |
CN115952150A (zh) | 一种多源异构的数据融合方法及装置 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190621 |
|
RJ01 | Rejection of invention patent application after publication |