CN107909299A

CN107909299A - 人伤理赔数据风险检测方法和系统

Info

Publication number: CN107909299A
Application number: CN201711311457.4A
Authority: CN
Inventors: 王辉; 艾永梅; 王桂元
Original assignee: Kaitaiming Technology (beijing) Co Ltd
Current assignee: Kaitaiming Technology (beijing) Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-04-13
Anticipated expiration: 2037-12-11
Also published as: CN107909299B

Abstract

本发明涉及人伤理赔数据风险检测方法和系统，所述方法实施例包括：取得人伤理赔数据中申赔人信息、医疗数据、残疾鉴定数据、理赔数据中至少一种信息，利用预先构建人伤理赔风险检测建模算法，进行数据处理，发现理赔过程中的虚假欺诈、不合理费用项目结果。本发明结合人伤理赔所特有的性质，构建了人伤理赔风险评估特征体系，奠定统一的评估标准基础。另外，针对现有系统风险评估准确性很低，无法有效保证保险公司和大多数正常客户权益，维护社会正常秩序，本发明进一步地构建了改进的BP神经网络算法作为人伤理赔风险的评估模型，提高了预测准确率与泛化性能。

Description

人伤理赔数据风险检测方法和系统

技术领域

本发明涉及人伤理赔数据风险检测方法和系统。

背景技术

不少不法分子利用保险理赔，制造虚假交通事故，骗取不法赔偿；同时，在真实的交通事故中，因为有保险公司理赔，存在大量不合理治疗方案、过度治疗、不合理用药、不合理伤残鉴定和不合理赔付要求等；利用交通事故治疗自身原有疾病也时有发生；残疾事故时，伤残鉴定材料造假、评残等级严重扩损现象非常常见，60％以上的鉴定机构参与鉴定材料造假，沿海发达地区甚至超过90％；沿海地区的交通事故人伤案件黄牛介入率90％，严重扰乱社会保险秩序。随着医疗成本的逐年上涨，全国各家保险公司的人伤赔案金额占比逐年飞速提升，造成业务亏损。

发明内容

为了解决上述技术问题，本发明的目的是提供一种针对现有的人伤理赔风险评估依靠专家个人经验评估，难以建立相对统一的评估标准，本发明结合人伤理赔所特有的性质，构建了人伤理赔风险评估特征体系，奠定统一的评估标准基础的人伤理赔数据风险检测方法和系统

本发明的技术方案是：人伤理赔数据风险检测方法，该方法具体包括以下步骤：

首先，获取人伤理赔数据样本；

其次，根据获取的人伤理赔数据样本，结合人伤理赔风险评估特征体系，然后对人伤理赔数据样本进行数据处理，得到处理后的数据,再利用预选构建的人伤理赔风险模型对人伤理赔样本数据进行量化及评估；

最后，根据人伤理赔样本数据进行量化及评估的结果，如果评估值为1，则案件有异常为风险案件，如果评估值为0，则为正常案件。

进一步，所述人伤理赔风险模型采用下述方法构建申赔人风险模型：

收集预设类型申赔人信息数据，使用Logistic回归算法确定建模目标；

以所述申赔人属性信息数据作为Logistic回归算法的输入，对建模目标进行建模，确定人伤理赔数据申赔人风险模型，输出申赔人风险概率值；

收集预设类型人伤理赔数据和申赔人风险概率值样本，使用改进BP神经网络算法确定建模目标；

以包括人伤理赔数据和所述申赔人风险概率值样本作为改进过的BP神经网络算法的输入，对所述建模目标进行建模，确定人伤理赔数据风险模型，模型输出理赔案件风险结果。

进一步，其特征在于，所述预设类型的申赔人信息数据样包括：

个人属性信息、消费行为信息、社会行为信息。

进一步，所述预设类型的人伤理赔数据包括：报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据。

进一步，所述改进BP神经网络算法是：根据输入收集预设类型人伤理赔数据和申赔人风险概率值样本建立数据集，提取数据集中数据的特征值，随机选取全部特征值中的10-20％的特征值，将选中的特征值输入置为0，作为冗余特征值，放弃冗余特征值,以降低数据集的不平衡度,得到噪声样本数据X’，将得到噪声样本数据X’代入改进BP神经网络算法，即得到理赔案件风险结果。

本发明的另一目的是提供使用上述方法的一种人伤理赔风险检测系统，其特征在于，该系统包括：数据采集模块、特征构建模块、数据处理模块、评估模型构建模块、评估模型应用模块和人伤理赔风险结果处理模块；

其中，所述数据采集模块，用于采集申赔人信息数据和人伤理赔案件的原始数据；

所述特征构建模块，用于建立人伤理赔风险评估特征体系；

所述数据处理模块，用于结合构建的人伤理赔风险评估特征体系，将采集到的原始数据进行清洗、采样，先对单一变量进行缺失值处理、离群值处理和数据归一化处理，再对多个变量进行相关性分析；

所述评估模型构建模块，用于通过改进过的BP神经网络机器学习算法构建人伤理赔风险评估模型；

所述评估模型应用模块，用于利用构建的人伤理赔风险评估模型对人伤理赔风险进行评估；

所述人伤理赔风险结果处理模块，用于对人伤理赔风险检测结果数据进行检测报告生成。

进一步，所述数据采集模块采集的数据包括：采集申赔人信息，包括个人特征信息、消费行为信息、社会行为样本作；采集人伤理赔案件的报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据信息。

进一步，所述数据处理模块用于对原始数据进行数据泛化处理、缺失值处理、离群值处理、标准化处理、相关性分析和分层采样处理。

进一步，所述数据处理模块包括：

数据泛化单元，用于将数据集从第一概念层抽象到第二概念层，在抽象过程中包括数据字符转换和数据离散化的操作；其中，数据离散化包括把连续型变量切分为若干段，用以更加明确的解释连续型变量特征；

所述数据处理模块包括：

缺失值处理单元，用于删除缺失值，其中，所述缺失值的样本比例低于指定阈值并且所述缺失值在样本中随机出现，再对各个所述完整数据集分别进行分析，并对分析结果进行汇总处理；

离群值处理单元，原始数据框中在±3σ之外的数据根据实际情况判断是否为离群点，若是则使用盖帽法进行替换，将99％以上的点值等于99％的点值，小于1％的点值等于1％的点值；

标准化处理单元，用于将数据按比例缩放，使其固定在一个特定区域并对数据标准化；其中，所述标准化包括将原始数据进行线性函数归一化或0均值标准化计算；

相关性分析单元，对所有变量两两进行相关性分析，计算皮尔逊相关系数，越接近±1时二者的相关性越强，保留小于指定阈值之下的所有变量，对于大于指定阈值的变量，要根据业务关系保留其中之一；

分层抽样单元，用于在建立人伤理赔风险评估模型之前，从数据集中分别抽取出训练集和测试集，其中，所述训练集用于构造模型，所述测试集用于评估模型。

进一步，所述评估模型构建模块包括：模型构建及训练单元，用于通过历史训练数据进行改进的BP神经网络模型的构建，使用梯度下降法确定BP神经网络模型的最小相对误差参数后，再根据最小相对误差参数调整学习效率及隐藏层层数使得模型结果的准确率和召回率达到最高，最终把训练后的BP神经网络模型作为人伤理赔风险的评估模型。

本发明的有益效果是：由于采用上述技术方案，本发明针对现有的人伤理赔风险评估依靠专家个人经验评估，难以建立相对统一的评估标准，本发明结合人伤理赔所特有的性质，构建了人伤理赔风险评估特征体系，奠定统一的评估标准基础。另外，针对现有系统风险评估准确性很低，无法有效保证保险公司和大多数正常客户权益，维护社会正常秩序，本发明进一步地构建了改进的BP神经网络模型作为人伤理赔风险的评估模型，提高了预测准确率与泛化性能。

附图说明

图1示出人伤理赔风险评估流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，本发明一种人伤理赔风险检测系统，该系统包括：数据采集模块、特征构建模块、数据处理模块、评估模型构建模块、评估模型应用模块和人伤理赔风险结果处理模块；

所述特征构建模块，用于建立人伤理赔风险评估特征体系；

进一步，所述数据处理模块包括：

所述数据处理模块包括：

一种使用上述系统的人伤理赔数据风险检测方法，该方法具体包括以下步骤：

首先，获取人伤理赔数据样本；

个人属性信息、消费行为信息、社会行为信息。

在本实施方式中，所述评估模型应用模块包括：

数据采集单元，用于把新数据输入到人伤理赔风险评估模型中，以输出人伤理赔风险预测评估结果。

具体地，本发明构建人伤理赔风险检测，需要采集申赔人信息数据和人伤理赔案件原始数据，结合人伤理赔风险评估特征体系处理后，得到申赔人信息数据包括如下：

所述预设类型的人伤理赔数据样本包括：

1.基本信息

主要包括申赔人的年龄、性别、婚姻状况、户籍、住所、教育程度、房产情况、工作行业、工作地址、工种类别、工作年限、社保情况、社交人脉资源等。

2.收入信息

申赔人的收入信息能够明确地判断申赔人的欺诈风险愿意可能性和用于准确计算误工费，是申赔人特征体系中比较重要的指标。主要包括借款人平均月收入、月支出、月支出占月收入比重、负债情况等。

3.个人征信信息

申赔人的个人征信信息主要是申赔人在征信报告中反映两年来的信用行为记录，能在一定程度上反映申赔人的道德素质和信用历史。

4.公开信息

申赔人的公开信息着重考察申赔人的遵纪守法状况，也能从一定程度上也能够反映申赔人的欺诈可能性。主要包括不良公开记录次数(诉讼记录、互联网交易毁约记录、社交污点等)等。

其中申赔人信息数据包括如下：

其中人伤理赔案件原始数据，结合人伤理赔风险评估特征体系处理后,得到信息包括如下：

1.报案数据

记录人伤事故的时间、地点、出险原因、事故经过等，是案件的基本信息，对于事故真实性和人伤的伤病成因分析起来非常关键的作用。

2.查勘数据

保险公司人员收到报案后，相关人员去到事故现场，记录事故现场的详细信息，用于事后还原事故现场；实地查勘信息记录伤者就诊医院情况；

3.定损数据

定损数据是人伤案件理赔的重要依据，直接反映人伤案件风险的可能性；

4.伤者数据

包括伤者个人属性信息、收入信息、公开信息。

5.医疗数据

详细记录伤者治疗过程和治疗费用数据，是判断费用项目合理性的重要依据。主要包括：

ο医疗费<集合>

■医疗项名称

■医疗项金额

■医疗项不合理金额

■医疗项定损金额

■医疗项扣减比例

■扣减金额

ο医疗药品费<集合>

■药品名称

■药品分类

■药品单价

■药品数量

■药品金额

6.伤残鉴定数据

伤者受伤可能会导致残疾，评残需要专业的评残机构进行鉴定，伤残鉴定数据就是对伤情的详细鉴定结果，主要用于判断伤残评级的合法性、合理性。主要包括：

■鉴定描述

■自评等级

■自评名称

■自评条款

■伤残系数

■参与度

■自评审核人

人伤理赔数据具有噪声和离群点多、特征维度高等特点，只有经过有效合理地数据预处理过程，才能够使得模型分析有更好地决策作用，而且也节约了大量的时间和处理成本。

其中，数据泛化是将数据转换成一种适合数据挖掘的形式，用简洁概要的方式描述数据，是将数据集从较低的概念层抽象到较高的概念层的过程。主要有数据字符转换，数据离散化等。数据字符转换目的是为了后续建模导入数据方便，同时分析更直观。离散化指把连续型数据切分为若干“段”，使得自变量和目标变量之间的关系变得清晰化。主要有等距、等频、优化离散等方法。

如果数据分析建立在有缺失值的情况下结果往往是不可靠的，这就要求在数据预处理过程中要考虑缺失值处理的问题。常用的缺失值处理方法有三种：(1)直接删除缺失值，但前提是缺失样本的比例较少且是随机出现的，这样删除缺失值后对分析结果影响不大；(2)替换缺失值，处理简单且不会减少样本信息，但当缺失值不是随机出现时会产生偏差。

通过将数据按比例缩放，使其固定在一个特定区域，对数据标准化，便于数据挖掘过程。通常标准化包括线性函数归一化或0均值标准化，具体计算如下：

第一、线性函数归一化方法对初始数据进行线性变换处理，处理之后的数据都在[0，1]区间内，公式如下：

其中，X为样本数据中的某一字段，Xmin为样本数据中的最小值，Xmax为样本数据中的最大值。

第二、0均值标准化，将原始数据集归一化为均值为0、方差1的数据集，如下公式：μ、σ分别代表原始数据中的均值和标准差，

然而，标准化后数据的离群值依旧存在，故需对离群值进一步处理。

离群值检测，也被称为异常值检测，目的是检测出特征明显不同于其它数据的观测值。通过原始数据框中在±3σ之外的数据根据实际情况判断是否为离群点，若是则可以使用盖帽法进行替换，将99％以上的点值赋值为99％的点值，小于1％的点值赋值为1％的点值。

此外，需要对所有变量两两进行相关性分析，计算皮尔逊相关系数，其中协方差是一个反映两个随机变量相关程度的指标，如果一个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值，反之相反，公式如下：

X和Y分别代表两个变量，n为元素的个数。

皮尔逊相关系数公式如下：

μ、σ分别代表均值和标准差，E为期望。

由上式可知，一个变量随着另一个变量同时变大或变小，则两个变量的协方差为正(代表正相关)，反之为负(代表负相关)，越接近±1时二者的相关性越强，保留小于指定阈值之下的所有变量，对于大于指定阈值的变量，要根据业务关系保留其中之一。

在建立人伤理赔风险评估模型之前，需要分别从数据集中抽取出训练集与测试集，前者用于构造模型，后者用于评估模型。为保证抽样数据的科学合理，采取随机抽样方式。

通过随机抽样的方法对原数据集进行抽样7∶3抽样后，可能会造成某些变量样本类别的丢失，不足以体现此变量对目标变量的影响，从而影响模型的预测效果，因此使用k-折交叉验证来作为本次交叉验证方法。k-折交叉验证将样本集随机划分为k份，k-1份作为训练集，1份作为验证集，依次轮换训练集和验证集k次，验证误差最小的模型为所求模型。具体方法如下

1.随机将样本集S划分成k个不相交的子集，每个子集中样本数量为m/k个，这些子集分别记作S₁，…，S_k；

2.对于每个模型M_i，进行如下操作：

for j＝1 to k

将S₁∪...∪S_j-1∪S_j+1∪...∪S_k作为训练集，训练模型M_i得到相应的假设函数h_ij。

再将S_j作为验证集，计算泛化误差

3.计算每个模型的平均泛化误差，选择泛化误差最小的模型M_i。

K-折交叉验证方法，每次留作验证的为总样本量的1/k(通常取k＝5或者10)，因此经过k次的模型训练之后，不仅得到的模型泛化误差最小，同时也能保证此模型训练误差最小。

在实践中，有许多的不平衡数据分类问题，这种情况是指二类分类问题二类分问题中，一类样本的数量要比另一类样本数量小的多。传统的分类算法大多默认所有类别分类代价一致，处理非平衡数据时会偏向于多数类，对于多数类样本实例过拟合，对于少数类样本实例欠学习，导致少数类的分类精度很低。然而，在实际生活中，人们往往需要知道少数类是否被正确分类。

BP神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，一般包括单输入层、单输出层与若干隐藏层，是目前应用最广泛的神经网络模型之一。特征向量由输入层传入网络中，经由隐藏层处理后，输出层对处理结果输出。利用误差函数计算输出结果与期望值的误差，然后利用反向传播将计算得到的误差沿神经网络传送使用梯度下降算法进行神经元节点权值的调整，使其沿梯度方向下降。反复训练直至训练的迭代次数达到设定阈值或者训练样本的误差计算值符合预期误差估计时，神经网络训练结束，此时网络的参数最优，能够对输入特征进行预测或者分类。梯度下降是BP神经网络中损失函数计算最常用方法，而随机梯度下降是梯度下降算法中一种迭代求解思路。假设h(x)为待拟合的函数，表示为：

J(θ)为损失函数，表示θ是模型参数，需要迭代求最优解min_θJ_θ。

针对非均衡数据分类中存在的参数不确定性的问题，结合神经网络的较强非线性拟合能力与降噪自编码器对特征更加鲁棒表达的优点，选用一种对3层BP神经网络(只有一个隐藏层)的改进算法，在输入层与隐层之间加入一层特征受损层，使得神经网络对于非平衡数据分类的泛化能力更强，从而增加了非平衡数据的分类性能。在传统BP神经网络基础上，在输入样本特征X时加入噪声，添加噪声的做法采用按一定比例随机将部分特征输入置为0，符合人类大脑的信息处理机制，致使部分冗余特征值丢失，降低数据集的不平衡度，得到X’，再输入到神经网络进行分类并进行误差计算与权值更新。根据梯度下降法进行变化计算，当达到指定迭代次数时停止训练；若未达到指定迭代次数，计算损失函数，达到指定的损失值则停止训练得到最优参数。隐藏层节点数目依据公式a∈[0，10]，k为隐藏层节点数目，m为输出节点数目，n为输入节点数目。

在分类模型的结果中可以使用目前公认的混淆矩阵对其进行模型评估，它可以让人们更好的了解分类结果中的错误，计算召回率和准确率，来评估模型的优劣。二分类混淆矩阵如下：

TP：True Positive，即正确预测出的正样本个数

FP：False Positive，即错误预测出的正样本个数(本来是负样本，被我们预测成了正样本)

TN：True Negative，即正确预测出的负样本个数

FN：False Negative，即错误预测出的负样本个数(本来是正样本，被我们预测成了负样本)

性能评价指标：

AccuracyRate(准确率):(TP+TN)/(TP+TN+FN+FP)，对整体的判断能力，即正确预测的比例

Recall(召回率):TP/(TP+FN)，在所有真实正样本中，分类器中能找到多少

Precision(精确率):TP/(TP+FP)，分类器预测出的正样本中，真实正样本的比例

应用构建的人伤理赔风险评估模型对人伤理赔数据风险进行量化、自动化评估。

以上所述，仅为本发明的具体实施方法，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种人伤理赔数据风险检测方法，其特征在于，该方法具体包括以下步骤：

首先，获取人伤理赔数据样本；

2.如权利要求1所述人伤理赔数据检测方法，所述人伤理赔风险模型采用下述方法构建申赔人风险模型：

3.根据权利要求2所述的人伤理赔数据风险检测方法，其特征在于，所述预设类型的申赔人信息数据样包括：

个人属性信息、消费行为信息、社会行为信息。

4.根据权利要求2所述的人伤理赔数据风险检测方法，其特征在于，所述预设类型的人伤理赔数据包括：报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据。

5.根据权利要求2所述的人伤理赔数据风险检测方法，其特征在于，所述改进BP神经网络算法是：根据输入收集预设类型人伤理赔数据和申赔人风险概率值样本建立数据集，提取数据集中数据的特征值，随机选取全部特征值中的10-20％的特征值，将选中的特征值输入置为0，以降低数据集的不平衡度,得到噪声样本数据X’，将得到噪声样本数据X’代入改进BP神经网络算法，即得到理赔案件风险结果。

6.一种人伤理赔风险检测系统，其特征在于，该系统包括：数据采集模块、特征构建模块、数据处理模块、评估模型构建模块、评估模型应用模块和人伤理赔风险结果处理模块；

所述特征构建模块，用于建立人伤理赔风险评估特征体系；

7.根据权利要求6所述的系统，其特征在于，所述数据采集模块采集的数据包括：采集申赔人信息，包括个人特征信息、消费行为信息、社会行为样本作；采集人伤理赔案件的报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据信息。

8.根据权利要求6所述的系统，其特征在于，所述数据处理模块用于对原始数据进行数据泛化处理、缺失值处理、离群值处理、标准化处理、相关性分析和分层采样处理。

9.根据权利要求8所述的系统，其特征在于，所述数据处理模块包括：

所述数据处理模块包括：

10.根据权利要求6所述的系统，其特征在于，所述评估模型构建模块包括：模型构建及训练单元，用于通过历史训练数据进行改进的BP神经网络模型的构建，使用梯度下降法确定BP神经网络模型的最小相对误差参数后，再根据最小相对误差参数调整学习效率及隐藏层层数使得模型结果的准确率和召回率达到最高，最终把训练后的BP神经网络模型作为人伤理赔风险的评估模型。