CN107909299A - 人伤理赔数据风险检测方法和系统 - Google Patents

人伤理赔数据风险检测方法和系统 Download PDF

Info

Publication number
CN107909299A
CN107909299A CN201711311457.4A CN201711311457A CN107909299A CN 107909299 A CN107909299 A CN 107909299A CN 201711311457 A CN201711311457 A CN 201711311457A CN 107909299 A CN107909299 A CN 107909299A
Authority
CN
China
Prior art keywords
data
people
resolution
risk
hinders
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711311457.4A
Other languages
English (en)
Other versions
CN107909299B (zh
Inventor
王辉
艾永梅
王桂元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaitaiming Technology (beijing) Co Ltd
Original Assignee
Kaitaiming Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaitaiming Technology (beijing) Co Ltd filed Critical Kaitaiming Technology (beijing) Co Ltd
Priority to CN201711311457.4A priority Critical patent/CN107909299B/zh
Publication of CN107909299A publication Critical patent/CN107909299A/zh
Application granted granted Critical
Publication of CN107909299B publication Critical patent/CN107909299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Abstract

本发明涉及人伤理赔数据风险检测方法和系统,所述方法实施例包括:取得人伤理赔数据中申赔人信息、医疗数据、残疾鉴定数据、理赔数据中至少一种信息,利用预先构建人伤理赔风险检测建模算法,进行数据处理,发现理赔过程中的虚假欺诈、不合理费用项目结果。本发明结合人伤理赔所特有的性质,构建了人伤理赔风险评估特征体系,奠定统一的评估标准基础。另外,针对现有系统风险评估准确性很低,无法有效保证保险公司和大多数正常客户权益,维护社会正常秩序,本发明进一步地构建了改进的BP神经网络算法作为人伤理赔风险的评估模型,提高了预测准确率与泛化性能。

Description

人伤理赔数据风险检测方法和系统
技术领域
本发明涉及人伤理赔数据风险检测方法和系统。
背景技术
不少不法分子利用保险理赔,制造虚假交通事故,骗取不法赔偿;同时,在真实的交通事故中,因为有保险公司理赔,存在大量不合理治疗方案、过度治疗、不合理用药、不合理伤残鉴定和不合理赔付要求等;利用交通事故治疗自身原有疾病也时有发生;残疾事故时,伤残鉴定材料造假、评残等级严重扩损现象非常常见,60%以上的鉴定机构参与鉴定材料造假,沿海发达地区甚至超过90%;沿海地区的交通事故人伤案件黄牛介入率90%,严重扰乱社会保险秩序。随着医疗成本的逐年上涨,全国各家保险公司的人伤赔案金额占比逐年飞速提升,造成业务亏损。
发明内容
为了解决上述技术问题,本发明的目的是提供一种针对现有的人伤理赔风险评估依靠专家个人经验评估,难以建立相对统一的评估标准,本发明结合人伤理赔所特有的性质,构建了人伤理赔风险评估特征体系,奠定统一的评估标准基础的人伤理赔数据风险检测方法和系统
本发明的技术方案是:人伤理赔数据风险检测方法,该方法具体包括以下步骤:
首先,获取人伤理赔数据样本;
其次,根据获取的人伤理赔数据样本,结合人伤理赔风险评估特征体系,然后对人伤理赔数据样本进行数据处理,得到处理后的数据,再利用预选构建的人伤理赔风险模型对人伤理赔样本数据进行量化及评估;
最后,根据人伤理赔样本数据进行量化及评估的结果,如果评估值为1,则案件有异常为风险案件,如果评估值为0,则为正常案件。
进一步,所述人伤理赔风险模型采用下述方法构建申赔人风险模型:
收集预设类型申赔人信息数据,使用Logistic回归算法确定建模目标;
以所述申赔人属性信息数据作为Logistic回归算法的输入,对建模目标进行建模,确定人伤理赔数据申赔人风险模型,输出申赔人风险概率值;
收集预设类型人伤理赔数据和申赔人风险概率值样本,使用改进BP神经网络算法确定建模目标;
以包括人伤理赔数据和所述申赔人风险概率值样本作为改进过的BP神经网络算法的输入,对所述建模目标进行建模,确定人伤理赔数据风险模型,模型输出理赔案件风险结果。
进一步,其特征在于,所述预设类型的申赔人信息数据样包括:
个人属性信息、消费行为信息、社会行为信息。
进一步,所述预设类型的人伤理赔数据包括:报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据。
进一步,所述改进BP神经网络算法是:根据输入收集预设类型人伤理赔数据和申赔人风险概率值样本建立数据集,提取数据集中数据的特征值,随机选取全部特征值中的10-20%的特征值,将选中的特征值输入置为0,作为冗余特征值,放弃冗余特征值,以降低数据集的不平衡度,得到噪声样本数据X’,将得到噪声样本数据X’代入改进BP神经网络算法,即得到理赔案件风险结果。
本发明的另一目的是提供使用上述方法的一种人伤理赔风险检测系统,其特征在于,该系统包括:数据采集模块、特征构建模块、数据处理模块、评估模型构建模块、评估模型应用模块和人伤理赔风险结果处理模块;
其中,所述数据采集模块,用于采集申赔人信息数据和人伤理赔案件的原始数据;
所述特征构建模块,用于建立人伤理赔风险评估特征体系;
所述数据处理模块,用于结合构建的人伤理赔风险评估特征体系,将采集到的原始数据进行清洗、采样,先对单一变量进行缺失值处理、离群值处理和数据归一化处理,再对多个变量进行相关性分析;
所述评估模型构建模块,用于通过改进过的BP神经网络机器学习算法构建人伤理赔风险评估模型;
所述评估模型应用模块,用于利用构建的人伤理赔风险评估模型对人伤理赔风险进行评估;
所述人伤理赔风险结果处理模块,用于对人伤理赔风险检测结果数据进行检测报告生成。
进一步,所述数据采集模块采集的数据包括:采集申赔人信息,包括个人特征信息、消费行为信息、社会行为样本作;采集人伤理赔案件的报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据信息。
进一步,所述数据处理模块用于对原始数据进行数据泛化处理、缺失值处理、离群值处理、标准化处理、相关性分析和分层采样处理。
进一步,所述数据处理模块包括:
数据泛化单元,用于将数据集从第一概念层抽象到第二概念层,在抽象过程中包括数据字符转换和数据离散化的操作;其中,数据离散化包括把连续型变量切分为若干段,用以更加明确的解释连续型变量特征;
所述数据处理模块包括:
缺失值处理单元,用于删除缺失值,其中,所述缺失值的样本比例低于指定阈值并且所述缺失值在样本中随机出现,再对各个所述完整数据集分别进行分析,并对分析结果进行汇总处理;
离群值处理单元,原始数据框中在±3σ之外的数据根据实际情况判断是否为离群点,若是则使用盖帽法进行替换,将99%以上的点值等于99%的点值,小于1%的点值等于1%的点值;
标准化处理单元,用于将数据按比例缩放,使其固定在一个特定区域并对数据标准化;其中,所述标准化包括将原始数据进行线性函数归一化或0均值标准化计算;
相关性分析单元,对所有变量两两进行相关性分析,计算皮尔逊相关系数,越接近±1时二者的相关性越强,保留小于指定阈值之下的所有变量,对于大于指定阈值的变量,要根据业务关系保留其中之一;
分层抽样单元,用于在建立人伤理赔风险评估模型之前,从数据集中分别抽取出训练集和测试集,其中,所述训练集用于构造模型,所述测试集用于评估模型。
进一步,所述评估模型构建模块包括:模型构建及训练单元,用于通过历史训练数据进行改进的BP神经网络模型的构建,使用梯度下降法确定BP神经网络模型的最小相对误差参数后,再根据最小相对误差参数调整学习效率及隐藏层层数使得模型结果的准确率和召回率达到最高,最终把训练后的BP神经网络模型作为人伤理赔风险的评估模型。
本发明的有益效果是:由于采用上述技术方案,本发明针对现有的人伤理赔风险评估依靠专家个人经验评估,难以建立相对统一的评估标准,本发明结合人伤理赔所特有的性质,构建了人伤理赔风险评估特征体系,奠定统一的评估标准基础。另外,针对现有系统风险评估准确性很低,无法有效保证保险公司和大多数正常客户权益,维护社会正常秩序,本发明进一步地构建了改进的BP神经网络模型作为人伤理赔风险的评估模型,提高了预测准确率与泛化性能。
附图说明
图1示出人伤理赔风险评估流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,本发明一种人伤理赔风险检测系统,该系统包括:数据采集模块、特征构建模块、数据处理模块、评估模型构建模块、评估模型应用模块和人伤理赔风险结果处理模块;
其中,所述数据采集模块,用于采集申赔人信息数据和人伤理赔案件的原始数据;
所述特征构建模块,用于建立人伤理赔风险评估特征体系;
所述数据处理模块,用于结合构建的人伤理赔风险评估特征体系,将采集到的原始数据进行清洗、采样,先对单一变量进行缺失值处理、离群值处理和数据归一化处理,再对多个变量进行相关性分析;
所述评估模型构建模块,用于通过改进过的BP神经网络机器学习算法构建人伤理赔风险评估模型;
所述评估模型应用模块,用于利用构建的人伤理赔风险评估模型对人伤理赔风险进行评估;
所述人伤理赔风险结果处理模块,用于对人伤理赔风险检测结果数据进行检测报告生成。
进一步,所述数据采集模块采集的数据包括:采集申赔人信息,包括个人特征信息、消费行为信息、社会行为样本作;采集人伤理赔案件的报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据信息。
进一步,所述数据处理模块用于对原始数据进行数据泛化处理、缺失值处理、离群值处理、标准化处理、相关性分析和分层采样处理。
进一步,所述数据处理模块包括:
数据泛化单元,用于将数据集从第一概念层抽象到第二概念层,在抽象过程中包括数据字符转换和数据离散化的操作;其中,数据离散化包括把连续型变量切分为若干段,用以更加明确的解释连续型变量特征;
所述数据处理模块包括:
缺失值处理单元,用于删除缺失值,其中,所述缺失值的样本比例低于指定阈值并且所述缺失值在样本中随机出现,再对各个所述完整数据集分别进行分析,并对分析结果进行汇总处理;
离群值处理单元,原始数据框中在±3σ之外的数据根据实际情况判断是否为离群点,若是则使用盖帽法进行替换,将99%以上的点值等于99%的点值,小于1%的点值等于1%的点值;
标准化处理单元,用于将数据按比例缩放,使其固定在一个特定区域并对数据标准化;其中,所述标准化包括将原始数据进行线性函数归一化或0均值标准化计算;
相关性分析单元,对所有变量两两进行相关性分析,计算皮尔逊相关系数,越接近±1时二者的相关性越强,保留小于指定阈值之下的所有变量,对于大于指定阈值的变量,要根据业务关系保留其中之一;
分层抽样单元,用于在建立人伤理赔风险评估模型之前,从数据集中分别抽取出训练集和测试集,其中,所述训练集用于构造模型,所述测试集用于评估模型。
进一步,所述评估模型构建模块包括:模型构建及训练单元,用于通过历史训练数据进行改进的BP神经网络模型的构建,使用梯度下降法确定BP神经网络模型的最小相对误差参数后,再根据最小相对误差参数调整学习效率及隐藏层层数使得模型结果的准确率和召回率达到最高,最终把训练后的BP神经网络模型作为人伤理赔风险的评估模型。
一种使用上述系统的人伤理赔数据风险检测方法,该方法具体包括以下步骤:
首先,获取人伤理赔数据样本;
其次,根据获取的人伤理赔数据样本,结合人伤理赔风险评估特征体系,然后对人伤理赔数据样本进行数据处理,得到处理后的数据,再利用预选构建的人伤理赔风险模型对人伤理赔样本数据进行量化及评估;
最后,根据人伤理赔样本数据进行量化及评估的结果,如果评估值为1,则案件有异常为风险案件,如果评估值为0,则为正常案件。
进一步,所述人伤理赔风险模型采用下述方法构建申赔人风险模型:
收集预设类型申赔人信息数据,使用Logistic回归算法确定建模目标;
以所述申赔人属性信息数据作为Logistic回归算法的输入,对建模目标进行建模,确定人伤理赔数据申赔人风险模型,输出申赔人风险概率值;
收集预设类型人伤理赔数据和申赔人风险概率值样本,使用改进BP神经网络算法确定建模目标;
以包括人伤理赔数据和所述申赔人风险概率值样本作为改进过的BP神经网络算法的输入,对所述建模目标进行建模,确定人伤理赔数据风险模型,模型输出理赔案件风险结果。
进一步,其特征在于,所述预设类型的申赔人信息数据样包括:
个人属性信息、消费行为信息、社会行为信息。
进一步,所述预设类型的人伤理赔数据包括:报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据。
进一步,所述改进BP神经网络算法是:根据输入收集预设类型人伤理赔数据和申赔人风险概率值样本建立数据集,提取数据集中数据的特征值,随机选取全部特征值中的10-20%的特征值,将选中的特征值输入置为0,作为冗余特征值,放弃冗余特征值,以降低数据集的不平衡度,得到噪声样本数据X’,将得到噪声样本数据X’代入改进BP神经网络算法,即得到理赔案件风险结果。
在本实施方式中,所述评估模型应用模块包括:
数据采集单元,用于把新数据输入到人伤理赔风险评估模型中,以输出人伤理赔风险预测评估结果。
具体地,本发明构建人伤理赔风险检测,需要采集申赔人信息数据和人伤理赔案件原始数据,结合人伤理赔风险评估特征体系处理后,得到申赔人信息数据包括如下:
所述预设类型的人伤理赔数据样本包括:
1.基本信息
主要包括申赔人的年龄、性别、婚姻状况、户籍、住所、教育程度、房产情况、工作行业、工作地址、工种类别、工作年限、社保情况、社交人脉资源等。
2.收入信息
申赔人的收入信息能够明确地判断申赔人的欺诈风险愿意可能性和用于准确计算误工费,是申赔人特征体系中比较重要的指标。主要包括借款人平均月收入、月支出、月支出占月收入比重、负债情况等。
3.个人征信信息
申赔人的个人征信信息主要是申赔人在征信报告中反映两年来的信用行为记录,能在一定程度上反映申赔人的道德素质和信用历史。
4.公开信息
申赔人的公开信息着重考察申赔人的遵纪守法状况,也能从一定程度上也能够反映申赔人的欺诈可能性。主要包括不良公开记录次数(诉讼记录、互联网交易毁约记录、社交污点等)等。
其中申赔人信息数据包括如下:
其中人伤理赔案件原始数据,结合人伤理赔风险评估特征体系处理后,得到信息包括如下:
1.报案数据
记录人伤事故的时间、地点、出险原因、事故经过等,是案件的基本信息,对于事故真实性和人伤的伤病成因分析起来非常关键的作用。
2.查勘数据
保险公司人员收到报案后,相关人员去到事故现场,记录事故现场的详细信息,用于事后还原事故现场;实地查勘信息记录伤者就诊医院情况;
3.定损数据
定损数据是人伤案件理赔的重要依据,直接反映人伤案件风险的可能性;
4.伤者数据
包括伤者个人属性信息、收入信息、公开信息。
5.医疗数据
详细记录伤者治疗过程和治疗费用数据,是判断费用项目合理性的重要依据。主要包括:
ο医疗费<集合>
■医疗项名称
■医疗项金额
■医疗项不合理金额
■医疗项定损金额
■医疗项扣减比例
■扣减金额
ο医疗药品费<集合>
■药品名称
■药品分类
■药品单价
■药品数量
■药品金额
6.伤残鉴定数据
伤者受伤可能会导致残疾,评残需要专业的评残机构进行鉴定,伤残鉴定数据就是对伤情的详细鉴定结果,主要用于判断伤残评级的合法性、合理性。主要包括:
■鉴定描述
■自评等级
■自评名称
■自评条款
■伤残系数
■参与度
■自评审核人
人伤理赔数据具有噪声和离群点多、特征维度高等特点,只有经过有效合理地数据预处理过程,才能够使得模型分析有更好地决策作用,而且也节约了大量的时间和处理成本。
其中,数据泛化是将数据转换成一种适合数据挖掘的形式,用简洁概要的方式描述数据,是将数据集从较低的概念层抽象到较高的概念层的过程。主要有数据字符转换,数据离散化等。数据字符转换目的是为了后续建模导入数据方便,同时分析更直观。离散化指把连续型数据切分为若干“段”,使得自变量和目标变量之间的关系变得清晰化。主要有等距、等频、优化离散等方法。
如果数据分析建立在有缺失值的情况下结果往往是不可靠的,这就要求在数据预处理过程中要考虑缺失值处理的问题。常用的缺失值处理方法有三种:(1)直接删除缺失值,但前提是缺失样本的比例较少且是随机出现的,这样删除缺失值后对分析结果影响不大;(2)替换缺失值,处理简单且不会减少样本信息,但当缺失值不是随机出现时会产生偏差。
通过将数据按比例缩放,使其固定在一个特定区域,对数据标准化,便于数据挖掘过程。通常标准化包括线性函数归一化或0均值标准化,具体计算如下:
第一、线性函数归一化方法对初始数据进行线性变换处理,处理之后的数据都在[0,1]区间内,公式如下:
其中,X为样本数据中的某一字段,Xmin为样本数据中的最小值,Xmax为样本数据中的最大值。
第二、0均值标准化,将原始数据集归一化为均值为0、方差1的数据集,如下公式:μ、σ分别代表原始数据中的均值和标准差,
然而,标准化后数据的离群值依旧存在,故需对离群值进一步处理。
离群值检测,也被称为异常值检测,目的是检测出特征明显不同于其它数据的观测值。通过原始数据框中在±3σ之外的数据根据实际情况判断是否为离群点,若是则可以使用盖帽法进行替换,将99%以上的点值赋值为99%的点值,小于1%的点值赋值为1%的点值。
此外,需要对所有变量两两进行相关性分析,计算皮尔逊相关系数,其中协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:
X和Y分别代表两个变量,n为元素的个数。
皮尔逊相关系数公式如下:
μ、σ分别代表均值和标准差,E为期望。
由上式可知,一个变量随着另一个变量同时变大或变小,则两个变量的协方差为正(代表正相关),反之为负(代表负相关),越接近±1时二者的相关性越强,保留小于指定阈值之下的所有变量,对于大于指定阈值的变量,要根据业务关系保留其中之一。
在建立人伤理赔风险评估模型之前,需要分别从数据集中抽取出训练集与测试集,前者用于构造模型,后者用于评估模型。为保证抽样数据的科学合理,采取随机抽样方式。
通过随机抽样的方法对原数据集进行抽样7∶3抽样后,可能会造成某些变量样本类别的丢失,不足以体现此变量对目标变量的影响,从而影响模型的预测效果,因此使用k-折交叉验证来作为本次交叉验证方法。k-折交叉验证将样本集随机划分为k份,k-1份作为训练集,1份作为验证集,依次轮换训练集和验证集k次,验证误差最小的模型为所求模型。具体方法如下
1.随机将样本集S划分成k不相交的子集,每个子集中样本数量为m/k,这些子集分别记作S1,…,Sk
2.对于每个模型Mi,进行如下操作:
for j=1 to k
将S1∪...∪Sj-1∪Sj+1∪...∪Sk作为训练集,训练模型Mi得到相应的假设函数hij
再将Sj作为验证集,计算泛化误差
3.计算每个模型的平均泛化误差,选择泛化误差最小的模型Mi
K-折交叉验证方法,每次留作验证的为总样本量的1/k(通常取k=5或者10),因此经过k次的模型训练之后,不仅得到的模型泛化误差最小,同时也能保证此模型训练误差最小。
在实践中,有许多的不平衡数据分类问题,这种情况是指二类分类问题二类分问题中,一类样本的数量要比另一类样本数量小的多。传统的分类算法大多默认所有类别分类代价一致,处理非平衡数据时会偏向于多数类,对于多数类样本实例过拟合,对于少数类样本实例欠学习,导致少数类的分类精度很低。然而,在实际生活中,人们往往需要知道少数类是否被正确分类。
BP神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,一般包括单输入层、单输出层与若干隐藏层,是目前应用最广泛的神经网络模型之一。特征向量由输入层传入网络中,经由隐藏层处理后,输出层对处理结果输出。利用误差函数计算输出结果与期望值的误差,然后利用反向传播将计算得到的误差沿神经网络传送使用梯度下降算法进行神经元节点权值的调整,使其沿梯度方向下降。反复训练直至训练的迭代次数达到设定阈值或者训练样本的误差计算值符合预期误差估计时,神经网络训练结束,此时网络的参数最优,能够对输入特征进行预测或者分类。梯度下降是BP神经网络中损失函数计算最常用方法,而随机梯度下降是梯度下降算法中一种迭代求解思路。假设h(x)为待拟合的函数,表示为:
J(θ)为损失函数,表示θ是模型参数,需要迭代求最优解minθJθ
针对非均衡数据分类中存在的参数不确定性的问题,结合神经网络的较强非线性拟合能力与降噪自编码器对特征更加鲁棒表达的优点,选用一种对3层BP神经网络(只有一个隐藏层)的改进算法,在输入层与隐层之间加入一层特征受损层,使得神经网络对于非平衡数据分类的泛化能力更强,从而增加了非平衡数据的分类性能。在传统BP神经网络基础上,在输入样本特征X时加入噪声,添加噪声的做法采用按一定比例随机将部分特征输入置为0,符合人类大脑的信息处理机制,致使部分冗余特征值丢失,降低数据集的不平衡度,得到X’,再输入到神经网络进行分类并进行误差计算与权值更新。根据梯度下降法进行变化计算,当达到指定迭代次数时停止训练;若未达到指定迭代次数,计算损失函数,达到指定的损失值则停止训练得到最优参数。隐藏层节点数目依据公式a∈[0,10],k为隐藏层节点数目,m为输出节点数目,n为输入节点数目。
在分类模型的结果中可以使用目前公认的混淆矩阵对其进行模型评估,它可以让人们更好的了解分类结果中的错误,计算召回率和准确率,来评估模型的优劣。二分类混淆矩阵如下:
TP:True Positive,即正确预测出的正样本个数
FP:False Positive,即错误预测出的正样本个数(本来是负样本,被我们预测成了正样本)
TN:True Negative,即正确预测出的负样本个数
FN:False Negative,即错误预测出的负样本个数(本来是正样本,被我们预测成了负样本)
性能评价指标:
AccuracyRate(准确率):(TP+TN)/(TP+TN+FN+FP),对整体的判断能力,即正确预测的比例
Recall(召回率):TP/(TP+FN),在所有真实正样本中,分类器中能找到多少
Precision(精确率):TP/(TP+FP),分类器预测出的正样本中,真实正样本的比例
应用构建的人伤理赔风险评估模型对人伤理赔数据风险进行量化、自动化评估。
以上所述,仅为本发明的具体实施方法,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种人伤理赔数据风险检测方法,其特征在于,该方法具体包括以下步骤:
首先,获取人伤理赔数据样本;
其次,根据获取的人伤理赔数据样本,结合人伤理赔风险评估特征体系,然后对人伤理赔数据样本进行数据处理,得到处理后的数据,再利用预选构建的人伤理赔风险模型对人伤理赔样本数据进行量化及评估;
最后,根据人伤理赔样本数据进行量化及评估的结果,如果评估值为1,则案件有异常为风险案件,如果评估值为0,则为正常案件。
2.如权利要求1所述人伤理赔数据检测方法,所述人伤理赔风险模型采用下述方法构建申赔人风险模型:
收集预设类型申赔人信息数据,使用Logistic回归算法确定建模目标;
以所述申赔人属性信息数据作为Logistic回归算法的输入,对建模目标进行建模,确定人伤理赔数据申赔人风险模型,输出申赔人风险概率值;
收集预设类型人伤理赔数据和申赔人风险概率值样本,使用改进BP神经网络算法确定建模目标;
以包括人伤理赔数据和所述申赔人风险概率值样本作为改进过的BP神经网络算法的输入,对所述建模目标进行建模,确定人伤理赔数据风险模型,模型输出理赔案件风险结果。
3.根据权利要求2所述的人伤理赔数据风险检测方法,其特征在于,所述预设类型的申赔人信息数据样包括:
个人属性信息、消费行为信息、社会行为信息。
4.根据权利要求2所述的人伤理赔数据风险检测方法,其特征在于,所述预设类型的人伤理赔数据包括:报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据。
5.根据权利要求2所述的人伤理赔数据风险检测方法,其特征在于,所述改进BP神经网络算法是:根据输入收集预设类型人伤理赔数据和申赔人风险概率值样本建立数据集,提取数据集中数据的特征值,随机选取全部特征值中的10-20%的特征值,将选中的特征值输入置为0,以降低数据集的不平衡度,得到噪声样本数据X’,将得到噪声样本数据X’代入改进BP神经网络算法,即得到理赔案件风险结果。
6.一种人伤理赔风险检测系统,其特征在于,该系统包括:数据采集模块、特征构建模块、数据处理模块、评估模型构建模块、评估模型应用模块和人伤理赔风险结果处理模块;
其中,所述数据采集模块,用于采集申赔人信息数据和人伤理赔案件的原始数据;
所述特征构建模块,用于建立人伤理赔风险评估特征体系;
所述数据处理模块,用于结合构建的人伤理赔风险评估特征体系,将采集到的原始数据进行清洗、采样,先对单一变量进行缺失值处理、离群值处理和数据归一化处理,再对多个变量进行相关性分析;
所述评估模型构建模块,用于通过改进过的BP神经网络机器学习算法构建人伤理赔风险评估模型;
所述评估模型应用模块,用于利用构建的人伤理赔风险评估模型对人伤理赔风险进行评估;
所述人伤理赔风险结果处理模块,用于对人伤理赔风险检测结果数据进行检测报告生成。
7.根据权利要求6所述的系统,其特征在于,所述数据采集模块采集的数据包括:采集申赔人信息,包括个人特征信息、消费行为信息、社会行为样本作;采集人伤理赔案件的报案数据、查勘数据、定损数据、伤者数据、医疗数据、伤残鉴定数据信息。
8.根据权利要求6所述的系统,其特征在于,所述数据处理模块用于对原始数据进行数据泛化处理、缺失值处理、离群值处理、标准化处理、相关性分析和分层采样处理。
9.根据权利要求8所述的系统,其特征在于,所述数据处理模块包括:
数据泛化单元,用于将数据集从第一概念层抽象到第二概念层,在抽象过程中包括数据字符转换和数据离散化的操作;其中,数据离散化包括把连续型变量切分为若干段,用以更加明确的解释连续型变量特征;
所述数据处理模块包括:
缺失值处理单元,用于删除缺失值,其中,所述缺失值的样本比例低于指定阈值并且所述缺失值在样本中随机出现,再对各个所述完整数据集分别进行分析,并对分析结果进行汇总处理;
离群值处理单元,原始数据框中在±3σ之外的数据根据实际情况判断是否为离群点,若是则使用盖帽法进行替换,将99%以上的点值等于99%的点值,小于1%的点值等于1%的点值;
标准化处理单元,用于将数据按比例缩放,使其固定在一个特定区域并对数据标准化;其中,所述标准化包括将原始数据进行线性函数归一化或0均值标准化计算;
相关性分析单元,对所有变量两两进行相关性分析,计算皮尔逊相关系数,越接近±1时二者的相关性越强,保留小于指定阈值之下的所有变量,对于大于指定阈值的变量,要根据业务关系保留其中之一;
分层抽样单元,用于在建立人伤理赔风险评估模型之前,从数据集中分别抽取出训练集和测试集,其中,所述训练集用于构造模型,所述测试集用于评估模型。
10.根据权利要求6所述的系统,其特征在于,所述评估模型构建模块包括:模型构建及训练单元,用于通过历史训练数据进行改进的BP神经网络模型的构建,使用梯度下降法确定BP神经网络模型的最小相对误差参数后,再根据最小相对误差参数调整学习效率及隐藏层层数使得模型结果的准确率和召回率达到最高,最终把训练后的BP神经网络模型作为人伤理赔风险的评估模型。
CN201711311457.4A 2017-12-11 2017-12-11 人伤理赔数据风险检测方法和系统 Active CN107909299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711311457.4A CN107909299B (zh) 2017-12-11 2017-12-11 人伤理赔数据风险检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711311457.4A CN107909299B (zh) 2017-12-11 2017-12-11 人伤理赔数据风险检测方法和系统

Publications (2)

Publication Number Publication Date
CN107909299A true CN107909299A (zh) 2018-04-13
CN107909299B CN107909299B (zh) 2018-09-18

Family

ID=61865107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711311457.4A Active CN107909299B (zh) 2017-12-11 2017-12-11 人伤理赔数据风险检测方法和系统

Country Status (1)

Country Link
CN (1) CN107909299B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694520A (zh) * 2018-07-02 2018-10-23 平安健康保险股份有限公司 理赔客户风险识别方法及系统
CN108694521A (zh) * 2018-07-02 2018-10-23 平安健康保险股份有限公司 个人风险定价方法及系统
CN109064065A (zh) * 2018-09-12 2018-12-21 医倍思特(北京)医疗信息技术有限公司 一种人伤理赔风险评估方法及装置
CN109165849A (zh) * 2018-08-27 2019-01-08 众安信息技术服务有限公司 风险评估方法和装置
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN109360109A (zh) * 2018-09-26 2019-02-19 平安医疗健康管理股份有限公司 基于大数据分析和处理的智能理赔审核辅助方法和系统
CN109492095A (zh) * 2018-10-16 2019-03-19 平安健康保险股份有限公司 理赔数据处理方法、装置、计算机设备及存储介质
CN109544103A (zh) * 2018-10-30 2019-03-29 平安医疗健康管理股份有限公司 一种理赔模型的构建方法、装置、服务器及存储介质
CN109544371A (zh) * 2018-10-30 2019-03-29 平安医疗健康管理股份有限公司 一种就医提示方法、装置、服务器及存储介质
CN109636085A (zh) * 2018-10-24 2019-04-16 平安健康保险股份有限公司 基于数据处理的预授权自核方法及系统
CN110119991A (zh) * 2019-04-12 2019-08-13 深圳壹账通智能科技有限公司 基于机器学习的医疗赔付审核方法、装置及存储介质
CN110163467A (zh) * 2019-04-02 2019-08-23 苏州纤联电子商务有限公司 一种基于纺织行业中小型企业信用的风险量化建模方法
CN110427367A (zh) * 2019-07-05 2019-11-08 中国平安财产保险股份有限公司 基于评残参数的定损方法、装置、设备及存储介质
CN110866832A (zh) * 2019-09-30 2020-03-06 北京健康之家科技有限公司 一种风险控制方法、系统、存储介质及计算设备
CN111222994A (zh) * 2018-11-23 2020-06-02 泰康保险集团股份有限公司 客户风险评估方法、装置、介质和电子设备
CN111260484A (zh) * 2020-01-14 2020-06-09 支付宝(杭州)信息技术有限公司 一种人伤识别的数据处理方法、装置、服务器及系统
CN111652614A (zh) * 2020-06-01 2020-09-11 泰康保险集团股份有限公司 数据处理系统、数据处理方法及装置
CN111967999A (zh) * 2020-08-27 2020-11-20 平安养老保险股份有限公司 调查处理方法、装置、计算机设备和存储介质
CN112508745A (zh) * 2021-02-05 2021-03-16 北京肇祺信息科技有限公司 一种文书评估方法及装置
CN112541831A (zh) * 2020-12-16 2021-03-23 中国人寿保险股份有限公司 一种医疗保险的风险识别方法、装置、介质及电子设备
CN114493903A (zh) * 2022-02-17 2022-05-13 平安科技(深圳)有限公司 人伤风险评估中估损模型优化方法及相关设备
CN116342300A (zh) * 2023-05-26 2023-06-27 凯泰铭科技(北京)有限公司 一种保险理赔人员特征分析方法、装置和设备
CN116612475A (zh) * 2023-06-01 2023-08-18 凯泰铭科技(北京)有限公司 一种车险数据中车型名称智能校正方法和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130151283A1 (en) * 2011-08-02 2013-06-13 Hartford Fire Insurance Company System and method for processing data related to group benefit insurance having critical illness coverage
US20150339605A1 (en) * 2014-05-20 2015-11-26 Praedicat, Inc. Methods of generating prospective litigation event set
CN107180389A (zh) * 2017-05-10 2017-09-19 平安科技(深圳)有限公司 人伤理赔定损费用测算方法、装置、服务器和介质
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN107240024A (zh) * 2017-05-22 2017-10-10 中国平安人寿保险股份有限公司 保险理赔的反欺诈识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130151283A1 (en) * 2011-08-02 2013-06-13 Hartford Fire Insurance Company System and method for processing data related to group benefit insurance having critical illness coverage
US20150339605A1 (en) * 2014-05-20 2015-11-26 Praedicat, Inc. Methods of generating prospective litigation event set
CN107180389A (zh) * 2017-05-10 2017-09-19 平安科技(深圳)有限公司 人伤理赔定损费用测算方法、装置、服务器和介质
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN107240024A (zh) * 2017-05-22 2017-10-10 中国平安人寿保险股份有限公司 保险理赔的反欺诈识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHIAPPORI P.,B.SALANIE: "Testing for asymmetric information in insurance markets", 《JOURNAL OF POLITICAL ECONOMY》 *
叶明华: "基于BP神经网络的保险欺诈识别研究——机动车保险索赔为例", 《保险研究》 *
李聪: "中国健康保险欺诈的理论分析与实证研究", 《中国博士学位论文全文数据库 社会科学Ⅰ辑》 *
杨超: "基于BP神经网络的健康保险欺诈识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694521A (zh) * 2018-07-02 2018-10-23 平安健康保险股份有限公司 个人风险定价方法及系统
CN108694520A (zh) * 2018-07-02 2018-10-23 平安健康保险股份有限公司 理赔客户风险识别方法及系统
CN109165849A (zh) * 2018-08-27 2019-01-08 众安信息技术服务有限公司 风险评估方法和装置
CN109064065A (zh) * 2018-09-12 2018-12-21 医倍思特(北京)医疗信息技术有限公司 一种人伤理赔风险评估方法及装置
CN109360109A (zh) * 2018-09-26 2019-02-19 平安医疗健康管理股份有限公司 基于大数据分析和处理的智能理赔审核辅助方法和系统
CN109492095A (zh) * 2018-10-16 2019-03-19 平安健康保险股份有限公司 理赔数据处理方法、装置、计算机设备及存储介质
CN109636085A (zh) * 2018-10-24 2019-04-16 平安健康保险股份有限公司 基于数据处理的预授权自核方法及系统
CN109272056B (zh) * 2018-10-30 2021-09-21 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN109544103A (zh) * 2018-10-30 2019-03-29 平安医疗健康管理股份有限公司 一种理赔模型的构建方法、装置、服务器及存储介质
CN109544371A (zh) * 2018-10-30 2019-03-29 平安医疗健康管理股份有限公司 一种就医提示方法、装置、服务器及存储介质
CN111222994A (zh) * 2018-11-23 2020-06-02 泰康保险集团股份有限公司 客户风险评估方法、装置、介质和电子设备
CN110163467A (zh) * 2019-04-02 2019-08-23 苏州纤联电子商务有限公司 一种基于纺织行业中小型企业信用的风险量化建模方法
CN110119991A (zh) * 2019-04-12 2019-08-13 深圳壹账通智能科技有限公司 基于机器学习的医疗赔付审核方法、装置及存储介质
CN110427367A (zh) * 2019-07-05 2019-11-08 中国平安财产保险股份有限公司 基于评残参数的定损方法、装置、设备及存储介质
CN110427367B (zh) * 2019-07-05 2023-02-14 中国平安财产保险股份有限公司 基于评残参数的定损方法、装置、设备及存储介质
CN110866832A (zh) * 2019-09-30 2020-03-06 北京健康之家科技有限公司 一种风险控制方法、系统、存储介质及计算设备
CN111260484A (zh) * 2020-01-14 2020-06-09 支付宝(杭州)信息技术有限公司 一种人伤识别的数据处理方法、装置、服务器及系统
CN111652614A (zh) * 2020-06-01 2020-09-11 泰康保险集团股份有限公司 数据处理系统、数据处理方法及装置
CN111652614B (zh) * 2020-06-01 2023-08-22 泰康保险集团股份有限公司 数据处理系统、数据处理方法及装置
CN111967999A (zh) * 2020-08-27 2020-11-20 平安养老保险股份有限公司 调查处理方法、装置、计算机设备和存储介质
CN112541831A (zh) * 2020-12-16 2021-03-23 中国人寿保险股份有限公司 一种医疗保险的风险识别方法、装置、介质及电子设备
CN112508745A (zh) * 2021-02-05 2021-03-16 北京肇祺信息科技有限公司 一种文书评估方法及装置
CN112508745B (zh) * 2021-02-05 2021-08-27 北京肇祺信息科技有限公司 一种文书评估方法及装置
CN114493903A (zh) * 2022-02-17 2022-05-13 平安科技(深圳)有限公司 人伤风险评估中估损模型优化方法及相关设备
CN114493903B (zh) * 2022-02-17 2024-04-09 平安科技(深圳)有限公司 人伤风险评估中估损模型优化方法及相关设备
CN116342300A (zh) * 2023-05-26 2023-06-27 凯泰铭科技(北京)有限公司 一种保险理赔人员特征分析方法、装置和设备
CN116612475A (zh) * 2023-06-01 2023-08-18 凯泰铭科技(北京)有限公司 一种车险数据中车型名称智能校正方法和设备
CN116612475B (zh) * 2023-06-01 2024-01-23 凯泰铭科技(北京)有限公司 一种车险数据中车型名称智能校正方法和设备

Also Published As

Publication number Publication date
CN107909299B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN107909299B (zh) 人伤理赔数据风险检测方法和系统
US11900473B2 (en) Method of personalizing, individualizing, and automating the management of healthcare fraud-waste-abuse to unique individual healthcare providers
Abdou et al. Neural nets versus conventional techniques in credit scoring in Egyptian banking
Brockett et al. Fraud classification using principal component analysis of RIDITs
Berk et al. When second best is good enough: A comparison between a true experiment and a regression discontinuity quasi-experiment
CN110417721A (zh) 安全风险评估方法、装置、设备及计算机可读存储介质
US20190180379A1 (en) Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及系统
Dua et al. Supervised learning methods for fraud detection in healthcare insurance
Ibiwoye et al. Artificial neural network model for predicting insurance insolvency
Dbouk et al. Towards a machine learning approach for earnings manipulation detection
Akinbowale et al. The integration of forensic accounting and big data technology frameworks for internal fraud mitigation in the banking industry
Pandey et al. Analyses and detection of health insurance fraud using data mining and predictive modeling techniques
US20220351209A1 (en) Automated fraud monitoring and trigger-system for detecting unusual patterns associated with fraudulent activity, and corresponding method thereof
KR20200091508A (ko) 특허와 논문 데이터를 활용한 국가 및 기업들의 과학 기술력 진단 및 예측 방법
Das et al. Algorithmic fairness
Blackmore et al. Data mining of missing persons data
Wen et al. Identifying smuggling vessels with artificial neural network and logistics regression in criminal intelligence using vessels smuggling case data
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
Nazari et al. Evaluating the effectiveness of data mining techniques in credit scoring of bank customers using mathematical models: a case study of individual borrowers of Refah Kargaran Bank in Zanjan Province, Iran
Brodzinski et al. Using artificial intelligence to model juvenile recidivism patterns
Adeyemo et al. Personnel audit using a forensic mining technique
CN115375113B (zh) 一种基层治理中场所的整体安全指数评估方法及装置
Seong et al. Capturing judgment policy on customers’ creditworthiness: A lens model and SDT approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Hui

Inventor after: Wang Guiyuan

Inventor before: Wang Hui

Inventor before: Ai Yongmei

Inventor before: Wang Guiyuan

CB03 Change of inventor or designer information