CN109801176A - 识别保险欺诈的方法、系统、电子设备及存储介质 - Google Patents

识别保险欺诈的方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN109801176A
CN109801176A CN201910130925.0A CN201910130925A CN109801176A CN 109801176 A CN109801176 A CN 109801176A CN 201910130925 A CN201910130925 A CN 201910130925A CN 109801176 A CN109801176 A CN 109801176A
Authority
CN
China
Prior art keywords
fraud
insurance
factor
preselected
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910130925.0A
Other languages
English (en)
Other versions
CN109801176B (zh
Inventor
张正
左春
王洋
魏萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SINOSOFT CO Ltd
Original Assignee
SINOSOFT CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SINOSOFT CO Ltd filed Critical SINOSOFT CO Ltd
Priority to CN201910130925.0A priority Critical patent/CN109801176B/zh
Publication of CN109801176A publication Critical patent/CN109801176A/zh
Application granted granted Critical
Publication of CN109801176B publication Critical patent/CN109801176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例提供一种识别保险欺诈的方法、系统、电子设备及存储介质,该方法包括:根据初始保险数据挖掘预选欺诈因子;根据所述预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;将包含最终欺诈因子的训练集输入分类模型中,构建第一保险欺诈监测模型;利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。本发明实施例使得监测并识别存在保险欺诈的成功率高、错报率低,为用户在投保和理赔等环节提供预测支持。

Description

识别保险欺诈的方法、系统、电子设备及存储介质
技术领域
本发明属于数据处理技术领域,具体涉及一种识别保险欺诈的方法、系统、电子设备及存储介质。
背景技术
随着保险业的发展、险种的增多以及保额的提高,保险金欺诈案例呈现逐年递增的趋势。近年来保险金欺诈呈现出专业化和复杂化的特点,涉案金额逐年升高。其中,人寿保险金欺诈具有较强的隐蔽性,且骗保方式多样,造成难以估量的影响。
现有技术中采用决策树可以用来解决风险决策的问题,但不能单独用来对保险欺诈进行识别,监测到的存在保险欺诈的成功率较低、错报率高,因此给保险公司带来了极大的损失。
因此,亟需一种能够有效识别保险欺诈的方法、系统、电子设备及存储介质。
发明内容
本发明实施例提供一种识别保险欺诈的方法、系统、电子设备及存储介质,采用Relief过滤式特征选择方法筛选最终欺诈因子并构建保险监测模型从而有效地提高保险欺诈的监测成功率、降低错报率。
第一方面,本发明实施例提供一种识别保险欺诈的方法,所述方法包括以下步骤:
根据初始保险数据挖掘预选欺诈因子;
根据所述预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;
将包含最终欺诈因子的训练集输入分类模型中,构建第一保险欺诈监测模型;
利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;
应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。
进一步的,所述根据初始保险数据挖掘预选欺诈因子的步骤包括以下子步骤:
对初始保险数据进行清洗、去重和集成,生成保险数据集;
根据所述保险数据集,采用CNN卷积神经网络方法挖掘预选欺诈因子。
进一步的,所述最终欺诈因子通过以下步骤获得:
在训练样本中,获取每一样本的猜对近邻和猜错近邻;
根据所述每一样本的猜对近邻和猜错近邻,获得预选欺诈因子所对应的第一相关统计量分量,所述第一相关统计量分量的数量大于等于N,其中,N≥1;
对多个所述第一相关统计量分量进行平均,得到各预选欺诈因子的第二相关统计量分量;
按照第二相关统计量分量的数值大小对各预选欺诈因子进行排序,获得最终欺诈因子。
进一步的,所述第一保险欺诈监测模型是采用贝叶斯和支持向量机分类模型进行构建的。
进一步的,在筛选最终欺诈因子后,还根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。
第二方面,本发明实施例提供一种识别保险欺诈的系统,所述系统包括预选模块、筛选模块、构建模块、验证模块和判断模块;
所述预选模块用于根据初始保险数据挖掘预选欺诈因子;
所述筛选模块用于根据所述预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;
所述构建模块将包含最终欺诈因子的训练集输入分类模型中,构建第一保险欺诈监测模型;
所述验证模块利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;
所述判断模块应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。
进一步的,所述防欺诈系统还包括确定模块,所述确定模块用于根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。
进一步的,所述筛选模块包括样本近邻获取模块、第一统计量分量获取模块、第二统计量分量获取模块和排序模块;
在训练样本中,所述样本近邻获取模块用于获取每一样本的猜对近邻和猜错近邻;
根据所述每一样本的猜对近邻和猜错近邻,所述第一统计量分量获取模块用于获得预选欺诈因子所对应的第一相关统计量分量,所述第一相关统计量分量的数量大于等于N,其中,N≥1;
所述第二统计量分量获取模块用于对多个所述第一相关统计量分量进行平均,得到各预选欺诈因子的第二相关统计量分量;
所述排序模块按照第二相关统计量分量的数值大小对各预选欺诈因子进行排序,获得最终欺诈因子。
第三方面,本发明实施例提供一种电子设备包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述处理器执行所述存储装置上的计算机程序时实现上述发明任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时实现上述发明任一项所述的方法。
本发明通过初始保险数据挖掘预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;将包含最终欺诈因子的训练集输入分类模型构建第一保险欺诈监测模型;利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈,从而使监测并识别出存在保险欺诈的成功率高、错报率低,为用户在投保和理赔等环节提供预测支持。
附图说明
图1为本发明的一种识别保险欺诈的方法的一个实施例的流程图;
图2为本发明的一种识别保险欺诈的方法的一个实施例的应用示意图;
图3为本发明的一种识别保险欺诈的系统的一个实施例的结构示意图;
图4为本发明的一种电子设备的一个实施例的结构示意图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在保险实践过程中,由于欺诈产生的原因是多方面的,有原生性的、有诱致性的、也有投机性的,欺诈原因的不同将导致识别这些欺诈产生的原因所需要的欺诈特征也是不同的,这些欺诈特征有可能与投保人的信息有关、也有可能与保险事故的相关信息有关;
另外,保险欺诈的发生有可能是单一投保人的原因,还有可能是投保人与第三方服务机构合谋造成的,因此,仅仅通过现有技术中的一种识别手段去识别所有类型的保险欺诈行为往往是无效的,监测过程中存在保险欺诈的成功率也低;因此在本发明中将以一种识别方法为主,然后辅助以其他的识别方法,共同来对待识别的保险数据进行识别,进而提高识别保险欺诈行为的成功率。
实施例一
一、识别保险欺诈的方法图1是本发明的一种识别保险欺诈的方法的一个实施例的流程图;参见图1,该方法包括以下步骤:
S100:根据初始保险数据挖掘预选欺诈因子;
S200:根据所述预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;
S300:将包含最终欺诈因子的训练集输入分类模型构建第一保险欺诈监测模型;
S400:利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;
S500:应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。
二、识别保险欺诈的方法的过程
图2为本发明的一种识别保险欺诈的方法的一个实施例的应用示意图,下面将结合图1和图2,对本实施例中的识别保险欺诈的方法的具体工作过程进行描述。
利用数据挖掘方法进行欺诈识别的前提,就是需要收集到关于保险欺诈准确的、大量的数据。不同的保险市场、区域和险种,保险欺诈的指示因子存在很大的不同。为了适应保险数据中属性数量多、数据类型复杂的特点,本实施例中需要对初始保险数据进行全面分析,采用CNN方法确定预选欺诈因子,从而提取与保险欺诈相关的属性特征。
S100:根据初始保险数据挖掘预选欺诈因子;
本实施例中的初始数据来源于保险理赔、欺诈案例等源数据库中的数据;所述步骤S100包括以下子步骤:
S110:对初始保险数据进行清洗、去重和集成,生成保险数据集;
所述步骤S110包括以下子步骤:
S111:对初始保险数据的字段进行分析、转化和清洗,获得第一保险数据;
具体的,对初始保险数据的字段(即所述初始数据包括险种表、理赔险种责任表、案件信息表等涵盖的数据)进行分析,以获得初始保险数据的字段属性类型并进行分类,本实施例中的字段属性类型包括标称、二元、序数、数值、离散和连续属性等;根据预先设定的标称参考数据库,将分类后的初始保险数据统一转化为标称数据;将标称数据中的明显异常数据进行清洗,获得第一保险数据;
进一步的,还可以根据所述标称数据对初始保险数据的字段中的缺失数据和异常数据进行随机赋值、维度约减和数据规约,获得所述第一保险数据。
S112:通过多表关联的方法对所述第一保险数据进行去重和集成以生成保险数据集;将该保险数据集分为训练集和测试集以构建与验证保险欺诈监测模型;所述多表关联方法利用现有技术中的多表关联方法以实现数据去重和数据集成。
S120:根据所述保险数据集,采用CNN卷积神经网络方法挖掘预选欺诈因子j;
本实施例中,与保险欺诈相关的预选欺诈因子包括:承保地区代码(标称)、投保人性别代码(标称)、投保人出生日期(数值)、投保人证件类型代码(标称)、保费(数值)、保额(数值)、投保人年收入(数值)、被保险人年收入(数值)等。
本实施例中的欺诈因子是指能够描绘与欺诈发生具有较高相关性的指示因子,可以通过检测这些指示因子来预测欺诈事件的发生,下面以一种按照份数销售的保险产品的保单份数作为指示因子为例:
在按照份数销售的保险产品中,保单份数在正常理赔或欺诈风险较高的案件中,指示因子的分布形态不一致,在正常理赔情况下,用户持有的一份保单的比例大;在有欺诈风险的案件中,用户持有多份保单的比例大。
S200:根据所述预选欺诈因子,采用过滤式特征选择方法筛选最终欺诈因子;
在本实施例中,将70%的赔偿数据和70%的拒赔数据随机划分以作为训练数据,并将所述训练数据放入训练集中;将其余的30%的赔偿数据和30%的拒赔数据作为测试数据,并将所述测试数据放入测试集中;可以理解的是,在其他实施例中,赔偿数据和拒赔数据也可以为其他比例,在此不做限制。
特征选择是对数据进行预处理的重要过程,由于保险业务的领域知识复杂,相关属性过多,如果不经过特征选择的过程,会使得后续模型学习过程更加复杂和低效,本实施例中的防欺诈方法最终解决的是二分类问题,因此在特征选择环节采用Relief过滤式特征选择方法,对特征对应的相关统计量分量进行排序,从而选取适合个数的预选特征。采用Relief过滤式特征选择的方法可以使特征选择过程与后续模型训练与学习过程相对解耦,因此与包裹式和嵌入式等方法相比该特征选择方法更加灵活,计算开销小;此外,由于本实施在训练集上进行特征选择,因此运行效率也高。
Relief过滤式特征选择方法的关键是确定相关统计量分量,所述相关统计量分量对应每个所述预选欺诈因子,如承保地区代码(标称)、投保人性别代码(标称)、投保人出生日期(数值)、投保人证件类型代码(标称)、保费(数值)、保额(数值)、投保人年收入(数值)、被保险人年收入(数值)等),确定相关统计量分量的目的是为了度量每个预选欺诈因子的重要性。
由于在不同的保险市场、不同的区域、不同的险种、不同的保险产品中,保险欺诈的指示因子存在很大的不同;以赔付责任为例,不同的保险产品其赔付责任类型不同,有的保险产品以用户发生重疾作为赔付责任、有的保险产品以用户发生意外作为赔付责任、有的保险产品以用户发生伤残作为赔付责任,而只有基于相同赔付责任的累计案件次数,才可能作为预选欺诈因子之一;因此,面向不同赔付责任的保险产品,其预选欺诈因子是不同的。
此外,按照份数销售的保险产品,保单份数是非常重要的预选欺诈因子,但在不以份数销售的保险产品,保单份数则无法作为预选欺诈因子。
在本实施例中,步骤200包括以下子步骤:
步骤210:在训练样本中,获取每一样本xi的猜对近邻和猜错近邻;
具体的,给定训练集{(x1,y1),(x2,y2),…,(xi,yi),…,(xm,ym)},对每个样本xi,在训练样本的同类样本中获取xi的猜对近邻xi,nh(即计算与xi同类别的最近邻),在异类样本中获取xi的猜错近邻xi,nm(即计算与xi非同类别的最近邻);
其中,i为训练样本的序号,xi为第i个训练样本,yi为第i个训练样本的类别;xi,nh为xi在训练样本的同类样本中的猜对近邻,xi,nm为xi在训练样本的异类样本中的猜错近邻,nh为near-hit(猜对近邻)的简写,nm是near-miss(猜错近邻)的简写;m为训练样本的总个数。
步骤220:根据所述每一样本xi的猜对近邻和猜错近邻,获得预选欺诈因子j所对应的第一相关统计量分量,所述第一相关统计量分量的数量大于等于N,其中,N≥1;
具体地,根据训练样本xi的猜对近邻xi,nh和猜错近邻xi,nm,获得预选欺诈因子j所对应的第一相关统计量分量δj,所述第一相关统计量分量δj就是训练样本xi对预选欺诈因子j的评价值;
其中,j为预选欺诈因子,δj为相关统计量分量,i为样本序号,m为训练样本的总个数;
表示训练样本xi在预选欺诈因子j上的取值,为训练样本xi的猜对近邻xi,nh在预选欺诈因子j上的取值,为训练样本xi的猜错近邻xi,nm在预选欺诈因子j上的取值。
上式中的的数值取决于预选欺诈因子j的属性类型,具体说明如下:
若预选欺诈因子j为离散型,则当时,否则为1;以及当时,
若预选欺诈因子j为连续型,需要先将进行归一化,那么
若训练样本xi和猜对近邻xi,nh在预选欺诈因子j上的距离小于训练样本xi和猜错近邻xi,nm在预选欺诈因子j上的距离,说明该预选欺诈因子j对区分同类样本和异类样本的最近邻是有效的,则增加该预选欺诈因子j所对应的相关统计量分量δj的值;反之,则降低该预选欺诈因子j所对应的相关统计量分量δj的值;若训练样本xi和猜对近邻xi,nh在某个预选欺诈因子j上的距离等于训练样本xi和猜错近邻xi,nm在预选欺诈因子j上的距离,则该预选欺诈因子j所对应的相关统计量分量δj不变。
步骤230:对多个所述第一相关统计量分量δj进行平均,得到各预选欺诈因子j的第二相关统计量分量其中,的值越大表明该预选欺诈因子所对应的分类能力就越强;
步骤240:按照第二相关统计量分量的数值大小对各预选欺诈因子j进行排序,获得最终欺诈因子。
本实施例中,在基于某一类保险产品数据的保险欺诈风险因子的选择过程中,可以对50个预选欺诈因子进行相关统计量分量的排序,选择排序前20的欺诈因子作为最终欺诈因子;可以理解的是,本发明对预选欺诈因子的数量以及选取的最终欺诈因子的数量没有限定,根据经验值,可以选取其他数量的预选欺诈因子。
进一步的,可以根据缺失的初始保险数据的数量、获取初始保险数据的时间来进一步调整所述最终欺诈因子,如初始保险数据中的国籍代码这一字段,在步骤100中,由于会对初始保险数据进行清洗等,会造成部分初始保险数据缺失,所以可以通过对缺失的初始保险数据进行赋值形成了数据集,说明获取该初始保险数据的字段数据有难度,信息质量不理想,因此不适合作为保险欺诈监测模型的最终欺诈因子;调整后的最终欺诈因子可以应用到实际监测待识别的保险数据是否存在欺诈的过程当中。
S300:将包含最终欺诈因子的训练集输入保险欺诈监测的分类模型中,构建第一保险欺诈监测模型。
本发明方法设计满足数十用户并发处理,支持以增量数据和反馈数据为基础,进行AI模型的自动修正。当运营产生数据时触发更新,若欺诈因子不变,仅数据量增加,则进行防欺诈模型自动学习和更新;若特征因子变化或规律变化,则需要从步骤100开始整个流程。
本实施例中可以采用贝叶斯和支持向量机分类模型以构建第一保险欺诈监测模型。由于训练集中的赔偿数据和拒赔数据的不平衡,因此,本实施例中可以将训练集中的赔偿数据和拒赔数据按照5:1比例依次输入贝叶斯和支持向量机分类模型中进行训练;可以理解的是,在其他实施例中,训练集中的赔偿数据和拒赔数据也可以按照其他比例(例如5:2,6:1等比例)依次输入贝叶斯和支持向量机分类模型中进行训练。
具体地,将包含最终欺诈因子的训练集输入贝叶斯分类模型和支持向量机分类模型,以获得模型参数、日志信息等,从而构建第一保险欺诈监测模型。
在贝叶斯分类模型中,可以利用最大似然估计贝叶斯参数以便将拉普拉斯平滑参数alpha=1.0,从而避免发生训练数据在训练集中存在欺诈的概率为0的情况。
在训练贝叶斯分类模型之前,不需要将最终欺诈因子赋予相同的先验概率,而是让贝叶斯分类模型首先学习先验概率,然后定义各个最终欺诈因子的后验概率数组,最后利用训练数据计算概率。
本实施例中采用贝叶斯分类模型可以结合大量的模型信息和数据信息,能够准确地获取训练数据在训练集中存在欺诈的准确的概率,此外还能充分发挥和利用先验信息获得预测值,对异常情况的发生具有较多的灵活性。
另外,在支持向量机模型中,通过定义训练数据的各属性的后验概率数组并利用训练数据训练分割超平面;根据最小二乘法使训练数据的数据量达到平衡,并定义超平面的最大边际,从而求得最大边际的分割超平面所对应的参数。
可以通过训练集建立基于核函数的支持向量机分类模型;本实施例中的核函数(kernel)可以采用高斯核函数(rbf),因为高斯核函数相比基于概率的函数(sigmoid)和线性函数(linear)来说,该支持向量机模型中的数值型数据可以利用欧氏距离来控制函数的径向作用范围。
上述最大边际的分割超平面所对应的参数包括惩罚参数C,该惩罚参数C是对支持向量机模型进行反复多次训练比较所获得的,当C=1.0时,支持向量机模型的松弛变量最合适,从而支持模型能够更好地泛化。
为了使每一次梯度下降迭代都能尽可能的找到全局最优解,所以在本实施例中的支持向量机模型中不限制迭代次数,直到满足最小误差tol小于0.001时,则该支持向量机模型停止迭代。
在保险领域,由于保险欺诈相比于非保险欺诈的比例较小,因此保险欺诈数据为非平衡数据,本实施例中采用支持向量机能够很好的优化算法,解决非平衡问题。
本实施例通过将贝叶斯模型和支持向量机模型结合使用,可以使获得的第一保险欺诈模型,采用贝叶斯分类模型不仅结合大量的模型信息和数据信息,还能充分发挥和利用先验信息的预测值,对异常情况的发生具有较多的灵活性,使模型的预警效果更好。;另外利用支持向量机分类模型可以使获得的模型参数、日志信息等很好地适配于二分类问题,从而加强了对非平衡数据的适配性,使第一保险欺诈模型的预警效果更好。
S400:利用测试集对所述第一保险欺诈监测模型进行验证,获取第二保险欺诈监测模型;
具体地,利用测试集对保险欺诈监测模型进行测试,获得预测结果,并生成处理结果反馈数据以对预测结果验证;所述处理结果反馈数据包括业务号、地区代码、险种代码、保单号、保险金额、起保日期、累计保额、出险次数、赔付金额、风险标识等字段;
根据所述处理结果反馈数据可以对第一保险欺诈监测模型进行调整,获取第二保险欺诈监测模型,以用于监测并判断待识别的保险数据是否存在欺诈。
本实施例中,主要是通过对保险欺诈数据进行预测的精确率(在所有正常理赔的案件中,成功预测存在保险欺诈的比例)、错报率(在所有正常理赔的案件中,没有成功预测存在保险欺诈的比例)、召回率(在所有拒赔案件中,成功预测存在保险欺诈的比例)、漏报率(在所有拒赔案件中,没有成功预测存在保险欺诈的比例)这四个指标来评价第二保险欺诈监测模型的优劣。
S500:应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。
当数据库表中的数据积累到一定量或累计时间达到配置值时,第二保险欺诈监测模型可以读取到数据库表中的增量数据,并自行对第二保险欺诈监测模型进行修正,可以满足数十用户并发处理,并且支持以增量数据和反馈数据为基础;
即当第二保险欺诈监测模型在监测待识别的保险数据是否存在欺诈的过程中触发更新,若最终欺诈因子不变,仅待识别的保险数据量增加,则所述第二保险欺诈监测模型进行自动学习和更新;若最终欺诈因子发生变化(包括无规律的变化或规律变化),则重新开始循环步骤100-步骤500。
在所述第二保险欺诈监测模型自动学习和更新的过程中,本实施例中可以通过设置判断正确数据过滤条件和判断错误数据过滤条件对第二保险欺诈监测模型的结果进行判定,具体如下:
1)判断正确数据过滤条件:
(风险=有)and((拒保原因不为空)or(拒赔原因不为空))
(风险=无)and((拒保原因为空)or(拒赔原因为空))
2)判断错误数据过滤条件:
(风险=有)and((拒保原因为空)or(拒赔原因为空))
(风险=无)and((拒保原因不为空)or(拒赔原因不为空))
进一步的,可以将新获取的待识别的保险数据与原有训练数据进行合并,重新构建第二保险欺诈监测模型,通过增加对判断错误数据的权重来修正第二保险欺诈监测模型的错误。
实施例二
图3为本发明的一种识别保险欺诈的系统,所述系统包括预选模块、筛选模块、构建模块、验证模块和判断模块;
所述预选模块用于根据初始保险数据挖掘预选欺诈因子;
所述筛选模块用于根据所述预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;
所述构建模块将包含最终欺诈因子的训练集输入分类模型中,构建第一保险欺诈监测模型;
所述验证模块利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;
所述判断模块应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。
进一步的,所述系统还包括确定模块,所述确定模块用于根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。
进一步的,所述筛选模块包括样本近邻获取模块、第一统计量分量获取模块、第二统计量分量获取模块和排序模块;
在训练样本中,所述样本近邻获取模块用于获取每一样本的猜对近邻和猜错近邻;
根据所述每一样本的猜对近邻和猜错近邻,所述第一统计量分量获取模块用于获得预选欺诈因子所对应的第一相关统计量分量,所述第一相关统计量分量的数量大于等于N,其中,N≥1;
所述第二统计量分量获取模块用于对多个所述第一相关统计量分量进行平均,得到各预选欺诈因子的第二相关统计量分量;
所述排序模块按照第二相关统计量分量的数值大小对各预选欺诈因子进行排序,获得最终欺诈因子。
上述各个模块的具体实施方式与实施例一的各个方法步骤的具体实施方式一致,在此不再赘述。
实施例三
图4为本发明的一种识别保险欺诈的系统的一个实施例的结构示意图,参见图4,在本实施例中,提供一种电子设备,包括但不限于智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备等电子设备,所述电子设备包括:处理器和存储器,所述存储器存储有计算机可读指令,所述计算机可读指令在被所述处理器执行时实现上述本发明的识别保险欺诈的方法。
实施例四
在本实施例中,提供一种计算机可读存储介质,可以为ROM(例如只读存储器、FLASH存储器、转移装置等)、光学存储介质(例如,CD-ROM、DVD-ROM、纸卡等)、磁存储介质(例如,磁带、磁盘驱动器等)或其他类型的程序存储器;所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器或计算机运行时执行上述本发明的识别保险欺诈的方法。
本发明具有以下优点:
本发明通过初始保险数据挖掘预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;将包含最终欺诈因子的训练集输入分类模型构建第一保险欺诈监测模型;利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。从而使得本发明监测存在保险欺诈的成功率高、错报率低,为用户在投保和理赔等环节提供预测支持。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种识别保险欺诈的方法,其特征在于,包括以下步骤:
根据初始保险数据挖掘预选欺诈因子;
根据所述预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;
将包含最终欺诈因子的训练集输入分类模型中,构建第一保险欺诈监测模型;
利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;
应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。
2.根据权利要求1所述的方法,其特征在于,所述根据初始保险数据挖掘预选欺诈因子的步骤包括以下子步骤:
对初始保险数据进行清洗、去重和集成,生成保险数据集;
根据所述保险数据集,采用CNN卷积神经网络方法挖掘预选欺诈因子。
3.根据权利要求1所述的方法,其特征在于,所述最终欺诈因子通过以下步骤获得:
在训练样本中,获取每一样本的猜对近邻和猜错近邻;
根据所述每一样本的猜对近邻和猜错近邻,获得预选欺诈因子所对应的第一相关统计量分量,所述第一相关统计量分量的数量大于等于N,其中,N≥1;
对多个所述第一相关统计量分量进行平均,得到各预选欺诈因子的第二相关统计量分量;
按照第二相关统计量分量的数值大小对各预选欺诈因子进行排序,获得最终欺诈因子。
4.根据权利要求1所述的方法,其特征在于,所述第一保险欺诈监测模型是采用贝叶斯和支持向量机分类模型进行构建的。
5.根据权利要求1-4任一项所述的方法,其特征在于,在筛选最终欺诈因子后,还根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。
6.一种识别保险欺诈的系统,其特征在于,所述系统包括预选模块、筛选模块、构建模块、验证模块和判断模块;
所述预选模块用于根据初始保险数据挖掘预选欺诈因子;
所述筛选模块用于根据所述预选欺诈因子,采用Relief过滤式特征选择方法筛选最终欺诈因子;
所述构建模块将包含最终欺诈因子的训练集输入分类模型中,构建第一保险欺诈监测模型;
所述验证模块利用测试集对所述第一保险欺诈监测模型进行验证,得到第二保险欺诈监测模型;
所述判断模块应用所述第二保险欺诈监测模型,判断待识别的保险数据是否存在欺诈。
7.根据权利要求6所述的系统,其特征在于,所述防欺诈系统还包括确定模块,所述确定模块用于根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。
8.根据权利要求6或7所述的系统,其特征在于,所述筛选模块包括样本近邻获取模块、第一统计量分量获取模块、第二统计量分量获取模块和排序模块;
在训练样本中,所述样本近邻获取模块用于获取每一样本的猜对近邻和猜错近邻;
根据所述每一样本的猜对近邻和猜错近邻,所述第一统计量分量获取模块用于获得预选欺诈因子所对应的第一相关统计量分量,所述第一相关统计量分量的数量大于等于N,其中,N≥1;
所述第二统计量分量获取模块用于对多个所述第一相关统计量分量进行平均,得到各预选欺诈因子的第二相关统计量分量;
所述排序模块按照第二相关统计量分量的数值大小对各预选欺诈因子进行排序,获得最终欺诈因子。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有计算机可读指令,所述计算机可读指令在被所述处理器执行时实现根据权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器或计算机运行时执行根据权利要求1-5任一项所述的方法。
CN201910130925.0A 2019-02-22 2019-02-22 识别保险欺诈的方法、系统、电子设备及存储介质 Active CN109801176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910130925.0A CN109801176B (zh) 2019-02-22 2019-02-22 识别保险欺诈的方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910130925.0A CN109801176B (zh) 2019-02-22 2019-02-22 识别保险欺诈的方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109801176A true CN109801176A (zh) 2019-05-24
CN109801176B CN109801176B (zh) 2021-04-06

Family

ID=66561276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910130925.0A Active CN109801176B (zh) 2019-02-22 2019-02-22 识别保险欺诈的方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109801176B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288488A (zh) * 2019-06-24 2019-09-27 泰康保险集团股份有限公司 医疗险欺诈预测方法、装置、设备和可读存储介质
CN111986039A (zh) * 2020-09-02 2020-11-24 平安养老保险股份有限公司 赔案风控识别方法、装置、计算机设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815588A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 垃圾图片过滤方法及装置
CN108334647A (zh) * 2018-04-12 2018-07-27 阿里巴巴集团控股有限公司 保险欺诈识别的数据处理方法、装置、设备及服务器
CN109255029A (zh) * 2018-09-05 2019-01-22 大连海事大学 一种采用加权优化训练集增强自动Bug报告分配的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815588A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 垃圾图片过滤方法及装置
CN108334647A (zh) * 2018-04-12 2018-07-27 阿里巴巴集团控股有限公司 保险欺诈识别的数据处理方法、装置、设备及服务器
CN109255029A (zh) * 2018-09-05 2019-01-22 大连海事大学 一种采用加权优化训练集增强自动Bug报告分配的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张连增等: "机器学习在保险欺诈识别中的应用", 《信息系统工程》 *
王和勇: "《面向大数据的高维数据挖掘技术》", 31 March 2018 *
赵尚梅等: "将支持向量机SVM引入机动车保险欺诈识别", 《中国保险》 *
赵彦竹: "数据挖掘在车险欺诈与识别中的应用", 《时代金融》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288488A (zh) * 2019-06-24 2019-09-27 泰康保险集团股份有限公司 医疗险欺诈预测方法、装置、设备和可读存储介质
CN111986039A (zh) * 2020-09-02 2020-11-24 平安养老保险股份有限公司 赔案风控识别方法、装置、计算机设备及可读存储介质

Also Published As

Publication number Publication date
CN109801176B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
US8019734B2 (en) Statistical determination of operator error
US20190180379A1 (en) Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
CN107633030B (zh) 基于数据模型的信用评估方法及装置
US7925638B2 (en) Quality management in a data-processing environment
US9390121B2 (en) Analyzing large data sets to find deviation patterns
CN110163467A (zh) 一种基于纺织行业中小型企业信用的风险量化建模方法
CN113139687B (zh) 一种预测信用卡用户违约的方法及装置
CN109801176B (zh) 识别保险欺诈的方法、系统、电子设备及存储介质
Garrido et al. A Robust profit measure for binary classification model evaluation
CN112927072A (zh) 一种基于区块链的反洗钱仲裁方法、系统及相关装置
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、系统及介质
US11132790B2 (en) Wafer map identification method and computer-readable recording medium
CN112037006A (zh) 小微企业的信用风险识别方法及装置
CN115205026A (zh) 信用评估方法、装置、设备及计算机存储介质
CN118333235A (zh) 行为欺诈风险预测方法、装置及电子设备
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114841239A (zh) 基于机器学习的上市公司财务异常分析方法
CN106096635B (zh) 基于阈值操作的代价敏感神经网络的警告分类方法
CN106055483B (zh) 基于欠采样操作的代价敏感神经网络的警告分类方法
CN108197740A (zh) 企业倒闭预测方法、电子设备和计算机存储介质
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN113298182A (zh) 基于凭证影像的预警方法、装置及设备
CN106095671B (zh) 基于过采样操作的代价敏感神经网络的警告分类方法
CN112767117A (zh) 一种集团内企业地位的评估方法及装置
CN114862593A (zh) 一种交易风险预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant