CN109801176A

CN109801176A - 识别保险欺诈的方法、系统、电子设备及存储介质

Info

Publication number: CN109801176A
Application number: CN201910130925.0A
Authority: CN
Inventors: 张正; 左春; 王洋; 魏萍
Original assignee: SINOSOFT CO Ltd
Current assignee: SINOSOFT CO Ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2019-05-24
Anticipated expiration: 2039-02-22
Also published as: CN109801176B

Abstract

本发明实施例提供一种识别保险欺诈的方法、系统、电子设备及存储介质，该方法包括：根据初始保险数据挖掘预选欺诈因子；根据所述预选欺诈因子，采用Relief过滤式特征选择方法筛选最终欺诈因子；将包含最终欺诈因子的训练集输入分类模型中，构建第一保险欺诈监测模型；利用测试集对所述第一保险欺诈监测模型进行验证，得到第二保险欺诈监测模型；应用所述第二保险欺诈监测模型，判断待识别的保险数据是否存在欺诈。本发明实施例使得监测并识别存在保险欺诈的成功率高、错报率低，为用户在投保和理赔等环节提供预测支持。

Description

识别保险欺诈的方法、系统、电子设备及存储介质

技术领域

本发明属于数据处理技术领域,具体涉及一种识别保险欺诈的方法、系统、电子设备及存储介质。

背景技术

随着保险业的发展、险种的增多以及保额的提高，保险金欺诈案例呈现逐年递增的趋势。近年来保险金欺诈呈现出专业化和复杂化的特点，涉案金额逐年升高。其中，人寿保险金欺诈具有较强的隐蔽性，且骗保方式多样，造成难以估量的影响。

现有技术中采用决策树可以用来解决风险决策的问题，但不能单独用来对保险欺诈进行识别，监测到的存在保险欺诈的成功率较低、错报率高，因此给保险公司带来了极大的损失。

因此，亟需一种能够有效识别保险欺诈的方法、系统、电子设备及存储介质。

发明内容

本发明实施例提供一种识别保险欺诈的方法、系统、电子设备及存储介质，采用Relief过滤式特征选择方法筛选最终欺诈因子并构建保险监测模型从而有效地提高保险欺诈的监测成功率、降低错报率。

第一方面，本发明实施例提供一种识别保险欺诈的方法，所述方法包括以下步骤：

根据初始保险数据挖掘预选欺诈因子；

根据所述预选欺诈因子，采用Relief过滤式特征选择方法筛选最终欺诈因子；

将包含最终欺诈因子的训练集输入分类模型中，构建第一保险欺诈监测模型；

利用测试集对所述第一保险欺诈监测模型进行验证，得到第二保险欺诈监测模型；

应用所述第二保险欺诈监测模型，判断待识别的保险数据是否存在欺诈。

进一步的，所述根据初始保险数据挖掘预选欺诈因子的步骤包括以下子步骤：

对初始保险数据进行清洗、去重和集成，生成保险数据集；

根据所述保险数据集，采用CNN卷积神经网络方法挖掘预选欺诈因子。

进一步的，所述最终欺诈因子通过以下步骤获得：

在训练样本中，获取每一样本的猜对近邻和猜错近邻；

根据所述每一样本的猜对近邻和猜错近邻，获得预选欺诈因子所对应的第一相关统计量分量，所述第一相关统计量分量的数量大于等于N,其中，N≥1；

对多个所述第一相关统计量分量进行平均，得到各预选欺诈因子的第二相关统计量分量；

按照第二相关统计量分量的数值大小对各预选欺诈因子进行排序，获得最终欺诈因子。

进一步的，所述第一保险欺诈监测模型是采用贝叶斯和支持向量机分类模型进行构建的。

进一步的，在筛选最终欺诈因子后，还根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。

第二方面，本发明实施例提供一种识别保险欺诈的系统，所述系统包括预选模块、筛选模块、构建模块、验证模块和判断模块；

所述预选模块用于根据初始保险数据挖掘预选欺诈因子；

所述筛选模块用于根据所述预选欺诈因子，采用Relief过滤式特征选择方法筛选最终欺诈因子；

所述构建模块将包含最终欺诈因子的训练集输入分类模型中，构建第一保险欺诈监测模型；

所述验证模块利用测试集对所述第一保险欺诈监测模型进行验证，得到第二保险欺诈监测模型；

所述判断模块应用所述第二保险欺诈监测模型，判断待识别的保险数据是否存在欺诈。

进一步的，所述防欺诈系统还包括确定模块，所述确定模块用于根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。

进一步的，所述筛选模块包括样本近邻获取模块、第一统计量分量获取模块、第二统计量分量获取模块和排序模块；

在训练样本中，所述样本近邻获取模块用于获取每一样本的猜对近邻和猜错近邻；

根据所述每一样本的猜对近邻和猜错近邻，所述第一统计量分量获取模块用于获得预选欺诈因子所对应的第一相关统计量分量，所述第一相关统计量分量的数量大于等于N,其中，N≥1；

所述第二统计量分量获取模块用于对多个所述第一相关统计量分量进行平均，得到各预选欺诈因子的第二相关统计量分量；

所述排序模块按照第二相关统计量分量的数值大小对各预选欺诈因子进行排序，获得最终欺诈因子。

第三方面，本发明实施例提供一种电子设备包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述处理器执行所述存储装置上的计算机程序时实现上述发明任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时实现上述发明任一项所述的方法。

本发明通过初始保险数据挖掘预选欺诈因子，采用Relief过滤式特征选择方法筛选最终欺诈因子；将包含最终欺诈因子的训练集输入分类模型构建第一保险欺诈监测模型；利用测试集对所述第一保险欺诈监测模型进行验证，得到第二保险欺诈监测模型；应用所述第二保险欺诈监测模型，判断待识别的保险数据是否存在欺诈，从而使监测并识别出存在保险欺诈的成功率高、错报率低，为用户在投保和理赔等环节提供预测支持。

附图说明

图1为本发明的一种识别保险欺诈的方法的一个实施例的流程图；

图2为本发明的一种识别保险欺诈的方法的一个实施例的应用示意图；

图3为本发明的一种识别保险欺诈的系统的一个实施例的结构示意图；

图4为本发明的一种电子设备的一个实施例的结构示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

在保险实践过程中，由于欺诈产生的原因是多方面的，有原生性的、有诱致性的、也有投机性的，欺诈原因的不同将导致识别这些欺诈产生的原因所需要的欺诈特征也是不同的，这些欺诈特征有可能与投保人的信息有关、也有可能与保险事故的相关信息有关；

另外，保险欺诈的发生有可能是单一投保人的原因，还有可能是投保人与第三方服务机构合谋造成的，因此，仅仅通过现有技术中的一种识别手段去识别所有类型的保险欺诈行为往往是无效的，监测过程中存在保险欺诈的成功率也低；因此在本发明中将以一种识别方法为主，然后辅助以其他的识别方法，共同来对待识别的保险数据进行识别，进而提高识别保险欺诈行为的成功率。

实施例一

一、识别保险欺诈的方法图1是本发明的一种识别保险欺诈的方法的一个实施例的流程图；参见图1，该方法包括以下步骤：

S100:根据初始保险数据挖掘预选欺诈因子；

S200:根据所述预选欺诈因子，采用Relief过滤式特征选择方法筛选最终欺诈因子；

S300：将包含最终欺诈因子的训练集输入分类模型构建第一保险欺诈监测模型；

S400:利用测试集对所述第一保险欺诈监测模型进行验证，得到第二保险欺诈监测模型；

S500:应用所述第二保险欺诈监测模型，判断待识别的保险数据是否存在欺诈。

二、识别保险欺诈的方法的过程

图2为本发明的一种识别保险欺诈的方法的一个实施例的应用示意图，下面将结合图1和图2，对本实施例中的识别保险欺诈的方法的具体工作过程进行描述。

利用数据挖掘方法进行欺诈识别的前提，就是需要收集到关于保险欺诈准确的、大量的数据。不同的保险市场、区域和险种，保险欺诈的指示因子存在很大的不同。为了适应保险数据中属性数量多、数据类型复杂的特点，本实施例中需要对初始保险数据进行全面分析，采用CNN方法确定预选欺诈因子，从而提取与保险欺诈相关的属性特征。

S100:根据初始保险数据挖掘预选欺诈因子；

本实施例中的初始数据来源于保险理赔、欺诈案例等源数据库中的数据；所述步骤S100包括以下子步骤：

S110:对初始保险数据进行清洗、去重和集成，生成保险数据集；

所述步骤S110包括以下子步骤：

S111:对初始保险数据的字段进行分析、转化和清洗，获得第一保险数据；

具体的，对初始保险数据的字段(即所述初始数据包括险种表、理赔险种责任表、案件信息表等涵盖的数据)进行分析，以获得初始保险数据的字段属性类型并进行分类，本实施例中的字段属性类型包括标称、二元、序数、数值、离散和连续属性等；根据预先设定的标称参考数据库，将分类后的初始保险数据统一转化为标称数据；将标称数据中的明显异常数据进行清洗,获得第一保险数据；

进一步的，还可以根据所述标称数据对初始保险数据的字段中的缺失数据和异常数据进行随机赋值、维度约减和数据规约，获得所述第一保险数据。

S112:通过多表关联的方法对所述第一保险数据进行去重和集成以生成保险数据集；将该保险数据集分为训练集和测试集以构建与验证保险欺诈监测模型；所述多表关联方法利用现有技术中的多表关联方法以实现数据去重和数据集成。

S120:根据所述保险数据集，采用CNN卷积神经网络方法挖掘预选欺诈因子j；

本实施例中，与保险欺诈相关的预选欺诈因子包括：承保地区代码(标称)、投保人性别代码(标称)、投保人出生日期(数值)、投保人证件类型代码(标称)、保费(数值)、保额(数值)、投保人年收入(数值)、被保险人年收入(数值)等。

本实施例中的欺诈因子是指能够描绘与欺诈发生具有较高相关性的指示因子，可以通过检测这些指示因子来预测欺诈事件的发生，下面以一种按照份数销售的保险产品的保单份数作为指示因子为例：

在按照份数销售的保险产品中，保单份数在正常理赔或欺诈风险较高的案件中，指示因子的分布形态不一致，在正常理赔情况下，用户持有的一份保单的比例大；在有欺诈风险的案件中，用户持有多份保单的比例大。

S200:根据所述预选欺诈因子，采用过滤式特征选择方法筛选最终欺诈因子；

在本实施例中，将70％的赔偿数据和70％的拒赔数据随机划分以作为训练数据，并将所述训练数据放入训练集中；将其余的30％的赔偿数据和30％的拒赔数据作为测试数据，并将所述测试数据放入测试集中；可以理解的是，在其他实施例中，赔偿数据和拒赔数据也可以为其他比例，在此不做限制。

特征选择是对数据进行预处理的重要过程，由于保险业务的领域知识复杂，相关属性过多，如果不经过特征选择的过程，会使得后续模型学习过程更加复杂和低效，本实施例中的防欺诈方法最终解决的是二分类问题，因此在特征选择环节采用Relief过滤式特征选择方法，对特征对应的相关统计量分量进行排序，从而选取适合个数的预选特征。采用Relief过滤式特征选择的方法可以使特征选择过程与后续模型训练与学习过程相对解耦，因此与包裹式和嵌入式等方法相比该特征选择方法更加灵活，计算开销小；此外，由于本实施在训练集上进行特征选择，因此运行效率也高。

Relief过滤式特征选择方法的关键是确定相关统计量分量，所述相关统计量分量对应每个所述预选欺诈因子，如承保地区代码(标称)、投保人性别代码(标称)、投保人出生日期(数值)、投保人证件类型代码(标称)、保费(数值)、保额(数值)、投保人年收入(数值)、被保险人年收入(数值)等)，确定相关统计量分量的目的是为了度量每个预选欺诈因子的重要性。

由于在不同的保险市场、不同的区域、不同的险种、不同的保险产品中，保险欺诈的指示因子存在很大的不同；以赔付责任为例，不同的保险产品其赔付责任类型不同，有的保险产品以用户发生重疾作为赔付责任、有的保险产品以用户发生意外作为赔付责任、有的保险产品以用户发生伤残作为赔付责任，而只有基于相同赔付责任的累计案件次数，才可能作为预选欺诈因子之一；因此，面向不同赔付责任的保险产品，其预选欺诈因子是不同的。

此外，按照份数销售的保险产品，保单份数是非常重要的预选欺诈因子，但在不以份数销售的保险产品，保单份数则无法作为预选欺诈因子。

在本实施例中，步骤200包括以下子步骤：

步骤210:在训练样本中，获取每一样本x_i的猜对近邻和猜错近邻；

具体的，给定训练集{(x₁，y₁)，(x₂，y₂)，…，(x_i,y_i)，…，(x_m，y_m)}，对每个样本x_i，在训练样本的同类样本中获取x_i的猜对近邻x_i，nh(即计算与x_i同类别的最近邻)，在异类样本中获取x_i的猜错近邻x_i，nm(即计算与x_i非同类别的最近邻)；

其中，i为训练样本的序号，x_i为第i个训练样本，y_i为第i个训练样本的类别；x_i，nh为x_i在训练样本的同类样本中的猜对近邻，x_i，nm为x_i在训练样本的异类样本中的猜错近邻，nh为near-hit(猜对近邻)的简写，nm是near-miss(猜错近邻)的简写；m为训练样本的总个数。

步骤220:根据所述每一样本x_i的猜对近邻和猜错近邻，获得预选欺诈因子j所对应的第一相关统计量分量，所述第一相关统计量分量的数量大于等于N,其中，N≥1；

具体地，根据训练样本x_i的猜对近邻x_i，nh和猜错近邻x_i，nm，获得预选欺诈因子j所对应的第一相关统计量分量δ^j，所述第一相关统计量分量δ^j就是训练样本x_i对预选欺诈因子j的评价值；

其中，j为预选欺诈因子，δ^j为相关统计量分量，i为样本序号，m为训练样本的总个数；

表示训练样本x_i在预选欺诈因子j上的取值，为训练样本x_i的猜对近邻x_i，nh在预选欺诈因子j上的取值，为训练样本x_i的猜错近邻x_i，nm在预选欺诈因子j上的取值。

上式中的和的数值取决于预选欺诈因子j的属性类型,具体说明如下:

若预选欺诈因子j为离散型，则当时，否则为1；以及当时，

若预选欺诈因子j为连续型，需要先将和进行归一化，那么

若训练样本x_i和猜对近邻x_i，nh在预选欺诈因子j上的距离小于训练样本x_i和猜错近邻x_i，nm在预选欺诈因子j上的距离，说明该预选欺诈因子j对区分同类样本和异类样本的最近邻是有效的，则增加该预选欺诈因子j所对应的相关统计量分量δ^j的值；反之，则降低该预选欺诈因子j所对应的相关统计量分量δ^j的值；若训练样本x_i和猜对近邻x_i，nh在某个预选欺诈因子j上的距离等于训练样本x_i和猜错近邻x_i，nm在预选欺诈因子j上的距离，则该预选欺诈因子j所对应的相关统计量分量δ^j不变。

步骤230：对多个所述第一相关统计量分量δ^j进行平均，得到各预选欺诈因子j的第二相关统计量分量其中，的值越大表明该预选欺诈因子所对应的分类能力就越强；

步骤240：按照第二相关统计量分量的数值大小对各预选欺诈因子j进行排序，获得最终欺诈因子。

本实施例中，在基于某一类保险产品数据的保险欺诈风险因子的选择过程中，可以对50个预选欺诈因子进行相关统计量分量的排序，选择排序前20的欺诈因子作为最终欺诈因子；可以理解的是，本发明对预选欺诈因子的数量以及选取的最终欺诈因子的数量没有限定，根据经验值，可以选取其他数量的预选欺诈因子。

进一步的，可以根据缺失的初始保险数据的数量、获取初始保险数据的时间来进一步调整所述最终欺诈因子，如初始保险数据中的国籍代码这一字段，在步骤100中，由于会对初始保险数据进行清洗等，会造成部分初始保险数据缺失，所以可以通过对缺失的初始保险数据进行赋值形成了数据集，说明获取该初始保险数据的字段数据有难度，信息质量不理想，因此不适合作为保险欺诈监测模型的最终欺诈因子；调整后的最终欺诈因子可以应用到实际监测待识别的保险数据是否存在欺诈的过程当中。

S300：将包含最终欺诈因子的训练集输入保险欺诈监测的分类模型中，构建第一保险欺诈监测模型。

本发明方法设计满足数十用户并发处理，支持以增量数据和反馈数据为基础，进行AI模型的自动修正。当运营产生数据时触发更新，若欺诈因子不变，仅数据量增加，则进行防欺诈模型自动学习和更新；若特征因子变化或规律变化，则需要从步骤100开始整个流程。

本实施例中可以采用贝叶斯和支持向量机分类模型以构建第一保险欺诈监测模型。由于训练集中的赔偿数据和拒赔数据的不平衡，因此，本实施例中可以将训练集中的赔偿数据和拒赔数据按照5:1比例依次输入贝叶斯和支持向量机分类模型中进行训练；可以理解的是，在其他实施例中，训练集中的赔偿数据和拒赔数据也可以按照其他比例(例如5:2，6:1等比例)依次输入贝叶斯和支持向量机分类模型中进行训练。

具体地，将包含最终欺诈因子的训练集输入贝叶斯分类模型和支持向量机分类模型，以获得模型参数、日志信息等，从而构建第一保险欺诈监测模型。

在贝叶斯分类模型中，可以利用最大似然估计贝叶斯参数以便将拉普拉斯平滑参数alpha＝1.0，从而避免发生训练数据在训练集中存在欺诈的概率为0的情况。

在训练贝叶斯分类模型之前，不需要将最终欺诈因子赋予相同的先验概率，而是让贝叶斯分类模型首先学习先验概率，然后定义各个最终欺诈因子的后验概率数组，最后利用训练数据计算概率。

本实施例中采用贝叶斯分类模型可以结合大量的模型信息和数据信息，能够准确地获取训练数据在训练集中存在欺诈的准确的概率，此外还能充分发挥和利用先验信息获得预测值，对异常情况的发生具有较多的灵活性。

另外，在支持向量机模型中，通过定义训练数据的各属性的后验概率数组并利用训练数据训练分割超平面；根据最小二乘法使训练数据的数据量达到平衡，并定义超平面的最大边际，从而求得最大边际的分割超平面所对应的参数。

可以通过训练集建立基于核函数的支持向量机分类模型；本实施例中的核函数(kernel)可以采用高斯核函数(rbf)，因为高斯核函数相比基于概率的函数(sigmoid)和线性函数(linear)来说，该支持向量机模型中的数值型数据可以利用欧氏距离来控制函数的径向作用范围。

上述最大边际的分割超平面所对应的参数包括惩罚参数C，该惩罚参数C是对支持向量机模型进行反复多次训练比较所获得的，当C＝1.0时，支持向量机模型的松弛变量最合适，从而支持模型能够更好地泛化。

为了使每一次梯度下降迭代都能尽可能的找到全局最优解，所以在本实施例中的支持向量机模型中不限制迭代次数，直到满足最小误差tol小于0.001时，则该支持向量机模型停止迭代。

在保险领域，由于保险欺诈相比于非保险欺诈的比例较小，因此保险欺诈数据为非平衡数据，本实施例中采用支持向量机能够很好的优化算法，解决非平衡问题。

本实施例通过将贝叶斯模型和支持向量机模型结合使用，可以使获得的第一保险欺诈模型，采用贝叶斯分类模型不仅结合大量的模型信息和数据信息，还能充分发挥和利用先验信息的预测值，对异常情况的发生具有较多的灵活性，使模型的预警效果更好。；另外利用支持向量机分类模型可以使获得的模型参数、日志信息等很好地适配于二分类问题，从而加强了对非平衡数据的适配性，使第一保险欺诈模型的预警效果更好。

S400:利用测试集对所述第一保险欺诈监测模型进行验证，获取第二保险欺诈监测模型；

具体地，利用测试集对保险欺诈监测模型进行测试，获得预测结果，并生成处理结果反馈数据以对预测结果验证；所述处理结果反馈数据包括业务号、地区代码、险种代码、保单号、保险金额、起保日期、累计保额、出险次数、赔付金额、风险标识等字段；

根据所述处理结果反馈数据可以对第一保险欺诈监测模型进行调整，获取第二保险欺诈监测模型，以用于监测并判断待识别的保险数据是否存在欺诈。

本实施例中，主要是通过对保险欺诈数据进行预测的精确率(在所有正常理赔的案件中，成功预测存在保险欺诈的比例)、错报率(在所有正常理赔的案件中，没有成功预测存在保险欺诈的比例)、召回率(在所有拒赔案件中，成功预测存在保险欺诈的比例)、漏报率(在所有拒赔案件中，没有成功预测存在保险欺诈的比例)这四个指标来评价第二保险欺诈监测模型的优劣。

当数据库表中的数据积累到一定量或累计时间达到配置值时，第二保险欺诈监测模型可以读取到数据库表中的增量数据，并自行对第二保险欺诈监测模型进行修正，可以满足数十用户并发处理，并且支持以增量数据和反馈数据为基础；

即当第二保险欺诈监测模型在监测待识别的保险数据是否存在欺诈的过程中触发更新，若最终欺诈因子不变，仅待识别的保险数据量增加，则所述第二保险欺诈监测模型进行自动学习和更新；若最终欺诈因子发生变化(包括无规律的变化或规律变化)，则重新开始循环步骤100-步骤500。

在所述第二保险欺诈监测模型自动学习和更新的过程中，本实施例中可以通过设置判断正确数据过滤条件和判断错误数据过滤条件对第二保险欺诈监测模型的结果进行判定，具体如下：

1)判断正确数据过滤条件：

(风险＝有)and((拒保原因不为空)or(拒赔原因不为空))

(风险＝无)and((拒保原因为空)or(拒赔原因为空))

2)判断错误数据过滤条件：

(风险＝有)and((拒保原因为空)or(拒赔原因为空))

(风险＝无)and((拒保原因不为空)or(拒赔原因不为空))

进一步的，可以将新获取的待识别的保险数据与原有训练数据进行合并，重新构建第二保险欺诈监测模型，通过增加对判断错误数据的权重来修正第二保险欺诈监测模型的错误。

实施例二

图3为本发明的一种识别保险欺诈的系统，所述系统包括预选模块、筛选模块、构建模块、验证模块和判断模块；

所述预选模块用于根据初始保险数据挖掘预选欺诈因子；

进一步的，所述系统还包括确定模块，所述确定模块用于根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。

上述各个模块的具体实施方式与实施例一的各个方法步骤的具体实施方式一致，在此不再赘述。

实施例三

图4为本发明的一种识别保险欺诈的系统的一个实施例的结构示意图，参见图4，在本实施例中，提供一种电子设备，包括但不限于智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备等电子设备，所述电子设备包括：处理器和存储器，所述存储器存储有计算机可读指令，所述计算机可读指令在被所述处理器执行时实现上述本发明的识别保险欺诈的方法。

实施例四

在本实施例中，提供一种计算机可读存储介质，可以为ROM(例如只读存储器、FLASH存储器、转移装置等)、光学存储介质(例如，CD-ROM、DVD-ROM、纸卡等)、磁存储介质(例如，磁带、磁盘驱动器等)或其他类型的程序存储器；所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器或计算机运行时执行上述本发明的识别保险欺诈的方法。

本发明具有以下优点：

本发明通过初始保险数据挖掘预选欺诈因子，采用Relief过滤式特征选择方法筛选最终欺诈因子；将包含最终欺诈因子的训练集输入分类模型构建第一保险欺诈监测模型；利用测试集对所述第一保险欺诈监测模型进行验证，得到第二保险欺诈监测模型；应用所述第二保险欺诈监测模型，判断待识别的保险数据是否存在欺诈。从而使得本发明监测存在保险欺诈的成功率高、错报率低，为用户在投保和理赔等环节提供预测支持。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种识别保险欺诈的方法，其特征在于，包括以下步骤：

根据初始保险数据挖掘预选欺诈因子；

2.根据权利要求1所述的方法，其特征在于，所述根据初始保险数据挖掘预选欺诈因子的步骤包括以下子步骤：

对初始保险数据进行清洗、去重和集成，生成保险数据集；

3.根据权利要求1所述的方法，其特征在于，所述最终欺诈因子通过以下步骤获得：

在训练样本中，获取每一样本的猜对近邻和猜错近邻；

4.根据权利要求1所述的方法，其特征在于，所述第一保险欺诈监测模型是采用贝叶斯和支持向量机分类模型进行构建的。

5.根据权利要求1-4任一项所述的方法，其特征在于，在筛选最终欺诈因子后，还根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。

6.一种识别保险欺诈的系统，其特征在于，所述系统包括预选模块、筛选模块、构建模块、验证模块和判断模块；

所述预选模块用于根据初始保险数据挖掘预选欺诈因子；

7.根据权利要求6所述的系统，其特征在于，所述防欺诈系统还包括确定模块，所述确定模块用于根据挖掘预选欺诈因子过程中缺失的初始保险数据的数量和/或获取初始保险数据的时间调整所述最终欺诈因子。

8.根据权利要求6或7所述的系统，其特征在于，所述筛选模块包括样本近邻获取模块、第一统计量分量获取模块、第二统计量分量获取模块和排序模块；

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有计算机可读指令，所述计算机可读指令在被所述处理器执行时实现根据权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器或计算机运行时执行根据权利要求1-5任一项所述的方法。