CN114187120A - 一种车险理赔欺诈风险识别方法及装置 - Google Patents

一种车险理赔欺诈风险识别方法及装置 Download PDF

Info

Publication number
CN114187120A
CN114187120A CN202111322808.8A CN202111322808A CN114187120A CN 114187120 A CN114187120 A CN 114187120A CN 202111322808 A CN202111322808 A CN 202111322808A CN 114187120 A CN114187120 A CN 114187120A
Authority
CN
China
Prior art keywords
risk
fraud
characteristic
data
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111322808.8A
Other languages
English (en)
Inventor
陈平
焦抚京
颜子昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Life Property and Casualty Insurance Co Ltd
Original Assignee
China Life Property and Casualty Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Life Property and Casualty Insurance Co Ltd filed Critical China Life Property and Casualty Insurance Co Ltd
Priority to CN202111322808.8A priority Critical patent/CN114187120A/zh
Publication of CN114187120A publication Critical patent/CN114187120A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请涉及一种车险理赔欺诈风险识别方法、装置、计算机设备和存储介质。所述方法包括:数据处理,包括数据选取和数据预处理,在线特征因子分析;离线特征因子分析;根据在线特征因子和离线特征因子建立总特征库进行模型训练,建立风险识别模型;核心理赔系统和所述风险识别模型对接,车险理赔欺诈风险预警,实时提示案件风险指数。本发明旨在提高欺诈风险识别精确和识别时效,有效帮助保险公司刷选欺诈理赔案件。

Description

一种车险理赔欺诈风险识别方法及装置
技术领域
本申请涉及人工智能技术领域,特别是涉及一种车险理赔欺诈风险识别方 法及装置。
背景技术
纵观保险业历史发展,保险欺诈一直是影响保险业健康发展的“毒瘤”, 直接侵害了保险消费者的合法权益和保险公司利益,间接推高了保险产品和服 务的价格、扰乱了保险市场秩序。保险欺诈已成为世界各国保险业不得不面对 的共同难题,风控机制相对完善的国外保险行业仍然无法从根源杜绝欺诈行为; 而国内的反保险欺诈起步较晚,经验积累较少;再加之保险欺诈实施犯罪成本 低等情况,导致欺诈形势不断恶化,并且呈现出上升趋势。欺诈风险规则是保 险理赔以反欺诈经验为基础将欺诈场景因子进行组合,形成对应规则,对理赔 事中反欺诈起到一定的辅助作用。但随着保险欺诈更专业化、职业化、团伙化、 复杂化,简单的欺诈风险规则已无法满足及时有效的预防保险欺诈的发生。
目前,保险公司的应对策略仍是更多地依赖理赔人员的自主发现来识别风 险,存在人力耗费大、成本高、专业技能有限等问题,难以有效识别专业欺诈。 现有技术中,也有通过风险识别模型预测风险,但是保险公司的数据量庞大, 样本数据难以有效分类和筛选,样本数据标准不统一,特征因子选取数量和方 式单一,算法使用不当,整体预测效果不佳。
发明内容
基于此,有必要针对上述技术问题,提供一种车险理赔欺诈风险识别方法 及装置,提高风险识别模型的预测效果。
为实现上述目的,本发明提供一种车险理赔欺诈风险识别方法,所述方法 包括:
数据处理,包括数据选取和数据预处理,所述数据选取包括获取车险理赔 已结案件信息,然后选取整案欺诈和部分欺诈案件为正样本,正常案件为负样 本;所述数据预处理建立特征工程,具体包括空值率处理,噪音数据处理,缺 失值处理和离散化处理;
在线特征因子分析,根据特征在正负样本的分布情况从而获得对欺诈具有 区分度的在线特征因子,具体包括选取多个单一特征因子,根据多个单一特征 因子组合构建衍生特征并进行筛选,识别并删除穿越特征因子;所述多个衍生 特征包括延迟报案、批增损失险、相同车辆多次出险等;所述延迟报案包括报 案时间与出险时间差,具体包括出险时间、报案时间、事故号;所述批增损失 险包括批增损失险小于N天,具体包括批增时间、损失险别、出险时间、事故 号;所述相同车辆多次出险包括相同标的与三者车出险次数大于N次,具体包 括标的车牌号、三者车牌号、事故号;
离线特征因子分析,计算历史数据并构建以被保险人纬度的离线特征库, 通过统计方式加工离线特征库,提取离线特征因子;
建立风险识别模型,根据所述在线特征因子和所述离线特征因子建立总特 征库进行模型训练;所述模型训练采用XGBoost算法;具体定义包含n件车险 理赔案件和m个特征因子属性的数据集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈{0,1}), 其中xi表示第i个理赔案件的特征向量,Rm代表m维实数集,yi代表该案件是 否涉嫌欺诈,0为正常案件,1为欺诈案件,将多棵回归树所得的结果进行相加 即可得到最终预测结果,如式(1.1)所示:
Figure BDA0003345947420000021
其中,k为树的总个数,fk表示第k颗树,fk(xi)表示样本xi输入到第k棵树 后得到的叶子节点的预测分数,
Figure BDA0003345947420000022
表示样本xi的预测结果, F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)表示回归树空间,q代表单颗树的结构,T代表 叶子节点的数量,ω代表每个叶子节点的权重,每一棵树都是独立存在的,对 于一件理赔案件通过k棵树,将其映射到对应的叶子节点后,相加所有映射叶 子节点的分数即可得到该样本的最终分数结果;
所述风险识别模型的目标函数Obj(Θ)如式(1.2)所示:
Figure BDA0003345947420000031
式(1.2)分为两部分,第一部分误差函数
Figure BDA0003345947420000032
代表预测值
Figure BDA0003345947420000033
与真实值 的yi之间的训练误差,第二部分代表模型复杂度的惩罚项,Ω(fk)表示第k颗树 fk的复杂度,Ω表示计算复杂度的公式符号;
车险理赔欺诈风险预警,核心理赔系统和所述风险识别模型对接,实时提 示案件风险指数。
优选的,所述空值率处理包括:删除空值率为100%的因子。
优选的,所述离散化处理包括:采用等距分箱算法。
优选的,所述缺失值处理包括:通过均值和/或中位数和/或众数填充缺失值。
优选的,运用迭代的方式对所述风险识别模型求解,每经过一轮迭代增加 一个函数到模型中,如式(1.3)所示:
Figure BDA0003345947420000034
Figure BDA0003345947420000035
Figure BDA0003345947420000036
Figure BDA0003345947420000037
其中
Figure BDA0003345947420000038
为第t次迭代时的预测分数,为加快目标函数迭代速度,对目标函 数进行优化,公式如(1.4)所示:
Figure BDA0003345947420000039
利用泰勒公式对目标函数进行二次展开,加快迭代速率,最终可得第t次迭 代简化目标函数
Figure BDA0003345947420000041
公式如(1.5)所示:
Figure BDA0003345947420000042
gi为损失函数的一阶导数;hi为损失函数的二阶导数,采用树形结构的方式 对函数进行优化,F={f(x)=ωq(x)}(q:Rm→T,ω∈RT),复杂度惩罚项如式(1.6)所 示:
Figure BDA0003345947420000043
λ为L2正则化项系数,γ为控制树的复杂度的正则化项系数,定义每个叶 子节点j中包含的样本集合为:Ij={i|q(xi)=j},得到公式(1.7)所示:
Figure RE-GDA0003461138520000045
目标函数如式(1.8)所示:
Figure RE-GDA0003461138520000046
由式(1.8)等于0得到叶子最优权重以及最优函数如下:
Figure BDA0003345947420000051
Figure BDA0003345947420000052
公式(1.9)可以作为一个评价数结构好坏的标准,利用贪婪算法,从深度为0的树开始进行迭代分裂,通过信息增益Gain的方式,选择信息增益最大的特征及其 最佳分裂点进行分割,直至信息增益<=0或者迭代到预先设定的阈值时停止分 裂,得到最终的分类树结构,信息增益计算如式(1.10)所示:
Figure BDA0003345947420000053
其中,GL和GR分别为由当前节点分裂出的左子节点和右子节点样本集的一 阶梯度统计和,HL和HR分别为左子节点和右子节点样本集的二阶梯度统计和。
此外,为实现上述目的,本发明还提供一种车险理赔欺诈风险识别装置, 实现上述风险识别方法,所述装置包括:数据处理模块,包括数据选取子模块 和数据预处理子模块;在线特征因子分析模块和离线特征因子分析模块;模型 训练模块和风险预警模块。
优选的,数据预处理子模块包括:空值率处理单元,噪音数据处理单元, 缺失值处理单元,离散化处理单元。
优选的,离散化处理单元包括:等距分箱。
另外,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存 储有计算机程序,所述处理器执行实现上述风险识别方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,计算机 程序被处理器执行时实现上述风险识别方法。
本发明提供的技术方案带来的有益效果是:设计一种基于多特征的车险理 赔智能反欺诈识别模型。提供一种通过对车险承保、理赔等原始数据分类并清 理加工;为了避免现有技术中的单一因子分析局限性,本发明先进行在线特征 因子分析,选取对欺诈有区分度的单一特征,然后再对单一特征组合形成多个 衍生特征,最后清除穿越特征;离线特征因子分析,形成以被保险人维度的离 线特征库,提取离线特征因子,基于反欺诈经验对历史数据计算形成离线特征 库,增强了模型预测能力和鲁棒性。在线特征因子和离线特征因子共同建立总 特征工程,同时结合运算速度快,预测精准的XGBoost算法进行模型训练,建 立可精确识别车险理赔风险的模型,通过核心理赔系统实时提示风险。解决传 统规则识别精确度低,风险覆盖不全面、案件筛查工作量大,样本单一,风险 识别时效低的缺陷。
附图说明
图1为一个实施例中车险理赔欺诈风险识别方法的流程示意图;
图2为一个实施例中混淆矩阵图;
图3为一个实施例中ROC曲线图;
图4为一个实施例中PR曲线图;
图5为一个实施例中车险理赔欺诈风险识别装置的结构框图;
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。
实施例一
参照图1,图1为本发明实施例中车险理赔欺诈风险识别方法的流程示意图; 步骤如下:
步骤S1,数据处理;
步骤S11,数据选取;
在本实施例中,选取从2018年6月至2019年12月车险理赔已结案件(事 故维度)。目前理赔系统中已对欺诈案件进行标签化,共分为整案欺诈、部分 欺诈、疑似欺诈、正常案件四种类型,本实施例选取前两种案件为正样本,正 常案件为负样本。具体案件数量如表1.1所示:
表1.1样本数量
Figure BDA0003345947420000071
步骤S12,数据预处理;
为更有效全面的建立特征工程,从承保、理赔数据库中选取三十余张原始 表数据,去掉重复项后,共计特征因子400余项;由于每个特征因子数据完整 性不相同,需对数据进行数据预处理:
空值率处理;
将所有选取的特征因子项进行空值率计算,由于空值率较高的字段对训练 模型影响较小,因此空值率100%的因子将被去除,部分因子空值率如表1.2所 示:
表1.2特征因子空值率
Figure BDA0003345947420000072
噪音数据处理;
对特征因子逐一探查后,样本中存在噪音数据,即数据乱码,非正常字母、 中文等,这些噪音数据会降低训练模型的鲁棒性,因此将部分非合理数据赋均 值或众数等。
缺失值处理;
非重要性特征缺失值处理:使用XGBoost自带缺失值处理方法,在寻找分 割点的时候,不会对该特征为丢失的样本进行遍历统计,只对该列特征值为未 丢失的样本上对应的特征值进行遍历,通过这个技巧来减少了为稀疏离散特征 寻找分割点的时间开销。
重要性特征缺失值处理:通过均值、中位数、众数等方法计算进行填充。
离散化处理;
数据离散化对异常离群点有很强的消除作用,可将缺失值单独分为一类进 入模型,降低数据复杂度,提升模型迭代速度,并降低特征中包含的噪音,提 升因子表达能力。在本实施例选用无监督分箱中的等距分箱。
等距分箱是指选取特征因子中的最大值A和最小值B,将其均分为N等份, 得到区间长度W,将数据分布到每个区间中,其中W形如式(1.0)所示:
Figure BDA0003345947420000081
步骤S2,在线特征因子分析;
在将空值、噪音等样本去除后,采用对剩余因子进行单一特征分析,即特 征在正负样本中分布情况,探查每一项特征在欺诈案件中的重要性,从而尽量 选取对欺诈具有区分度的特征因子。之后基于反欺诈经验对部分特征进行组合 形成衍生特征,并对衍生特征分布进行梳理和筛选。最后考虑到具体业务场景, 发现部分特征为穿越特征(因样本标签化导致原数据改变),需从特征工程中 去掉。
单一特征;
将特征按照小时为单位进行分箱并绘制样本区间分布,分析每个区间正样 本占比率,得出特征与欺诈案件发生的关系,筛选出联系紧密的特征。
衍生特征;
基于反欺诈业务经验,将多个单一特征因子进行组合构建成新的特征因子, 提高特征因子显著性。例如,对历史欺诈案件进行经验总结发现,延迟报案(出 险后延迟报案)案件风险相对较高。案件较多在出险后1小时内报案。
表1.3衍生特征
Figure BDA0003345947420000091
穿越特征;
在特征因子提取的过程中也发现一些特征与欺诈案件相关性很高,但具有 一定穿越的可能性,即该字段在案件确认为欺诈后数据遭到重写。例如,损失 金额与欺诈案件占比率关系,案件欺诈占比率在损失金额为0-1元之间时最高, 于实际场景不符合,经确认后得知案件在确认为欺诈案件后,存在会将损失金 额回写为0-1元的情况,因而该字段与标签字段具有强相关性,如果该特征因子 参与模型训练,将导致模型预测能力下降,因此从特征因子库中将该因子进行 删除。
步骤S3,离线特征因子分析
除直接在理赔系统中实时进行在线特征因子选取外,本实施例基于反欺诈 经验对历史数据进行计算,形成以被保险人维度的离线特征库,丰富特征因子 库,增强模型预测能力和鲁棒性。离线特征由于数据量较大,通过统计的方式 对历史数据进行加工,提供模型训练和预测。
表1.4部分离线特征
Figure BDA0003345947420000092
基于以上,共提取理赔系统中在线特征因子250余项,离线特征库中离线 特征因子共63项,建立总特征库进行模型训练。
步骤S4,建立风险识别模型
车险理赔欺诈风险识别的实质是判断案件理赔是否涉嫌欺诈,是数据挖掘 中典型的二分类问题,且在本实施例中欺诈案件已完成标签化,是有监督学习 场景,决策树算法因其具有可解释性、分类速度快等优点,而在该类问题中被 广泛应用。但其预测结果稳定性较低且容易出现过拟合,即在训练数据集中拟 合效果很好而在新的数据集中预测效果不佳。而这个问题能够通过集成多棵决 策树得以解决,即增强决策树(Tree Boosting)。Adaboost(Adaptive Boosting)、 XGBoost(eXtreme Gradient Boosting)和GBDT(Gradient Boosting Decision Tree) 是最常用的增强决策树算法。其中XGBoost算法,即极端梯度提升算法,是结 合分类与回归树算法(Classification and Regression Tree,CART)提出梯度提升 算法的变体,是一种适用于大规模数据的分布式集成算法。特点是运算速度快, 不易过拟合以及预测极为精准,在当前分类算法场景中得到广泛的应用,因此本实施例选用XGBoost算法建立车险理赔风险识别模型。
建立风险识别模型,根据所述在线特征因子和所述离线特征因子建立总特 征库进行模型训练;所述模型训练采用XGBoost算法;具体定义包含n件车险 理赔案件和m个特征因子属性的数据集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈{0,1}), 其中xi表示第i个理赔案件的特征向量,Rm代表m维实数集,yi代表该案件是 否涉嫌欺诈,0为正常案件,1为欺诈案件,将多棵回归树所得的结果进行相加 即可得到最终预测结果,如式(1.1)所示:
Figure BDA0003345947420000101
其中,k为树的总个数,fk表示第k颗树,fk(xi)表示样本xi输入到第k棵树 后得到的叶子节点的预测分数,
Figure BDA0003345947420000102
表示样本xi的预测结果, F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)表示回归树空间,q代表单颗树的结构,T代表 叶子节点的数量,ω代表每个叶子节点的权重,每一棵树都是独立存在的,对 于一件理赔案件通过k棵树,将其映射到对应的叶子节点后,相加所有映射叶 子节点的分数即可得到该样本的最终分数结果;
所述风险识别模型的目标函数Obj(Θ)如式(1.2)所示:
Figure BDA0003345947420000111
式(1.2)分为两部分,第一部分误差函数
Figure BDA0003345947420000112
代表预测值
Figure BDA0003345947420000113
与真实值 的yi之间的训练误差,第二部分代表模型复杂度的惩罚项,Ω(fk)表示第k颗树 fk的复杂度,Ω表示计算复杂度的公式符号;
运用迭代的方式对所述风险识别模型求解,每经过一轮迭代增加一个函数 到模型中,如式(1.3)所示:
Figure BDA0003345947420000114
Figure BDA0003345947420000115
Figure BDA0003345947420000116
Figure BDA0003345947420000117
其中
Figure BDA0003345947420000118
为第t次迭代时的预测分数,为加快目标函数迭代速度,对目标函 数进行优化,公式如(1.4)所示:
Figure BDA0003345947420000119
利用泰勒公式对目标函数进行二次展开,加快迭代速率,最终可得第t次迭 代简化目标函数
Figure BDA00033459474200001110
公式如(1.5)所示:
Figure BDA0003345947420000121
gi为损失函数的一阶导数;hi为损失函数的二阶导数,采用树形结构的方式 对函数进行优化,F={f(x)=ωq(x)}(q:Rm→T,ω∈RT),复杂度惩罚项如式(1.6)所 示:
Figure BDA0003345947420000122
λ为L2正则化项系数,γ为控制树的复杂度的正则化项系数,定义每个叶 子节点j中包含的样本集合为:Ij={i|q(xi)=j},得到公式(1.7)所示:
Figure RE-GDA0003461138520000123
目标函数如式(1.8)所示:
Figure RE-GDA0003461138520000124
由式(1.8)等于0得到叶子最优权重以及最优函数如下:
Figure BDA0003345947420000127
Figure BDA0003345947420000128
公式(1.9)可以作为一个评价数结构好坏的标准,利用贪婪算法,从深度为0的树开始进行迭代分裂,通过信息增益Gain的方式,选择信息增益最大的特征及其 最佳分裂点进行分割,直至信息增益<=0或者迭代到预先设定的阈值时停止分 裂,得到最终的分类树结构,信息增益计算如式(1.10)所示:
Figure BDA0003345947420000131
其中,GL和GR分别为由当前节点分裂出的左子节点和右子节点样本集的一 阶梯度统计和,HL和HR分别为左子节点和右子节点样本集的二阶梯度统计和。
OOT(Out Of Time)是指时间窗外预测,即用非训练样本时间范围内的数 据进行测试,一般使用训练样本发生之后的数据,如训练样本时间为2019年全 年理赔数据,使用2020年理赔数据进行测试。风险识别模型OOT样本混淆矩 阵如图2所示:
图3和4分别为模型的ROC(接受者操作特性)曲线和PR(精准率和召回 率)曲线,从图中可以得知ROC曲线已近填充完整个空间,经计算的AUC值 为0.95,KS=0.73。PR曲线接近右上角,模型具有较好的分类能力。
将训练完毕的模型特征因子按照重要性排列,输出如表1.4所示:从表中可 以看出,重要性最高的特征因子为查勘估损金额,延迟报案、车辆损伤程度等 均对模型预测起着较大的作用。
表1.5重要特征因子排序
Figure BDA0003345947420000132
步骤S5,车险理赔欺诈风险预警;
在理赔过程中报案、查勘、定损、理算环节基于理赔数据流程信息进行风 险预测。当核心理赔系统在理算环节提交任务时,核心理赔系统会实时发送数 据至风险识别模型,风险识别模型预测完毕后瞬时将预测分值反馈给核心理赔 系统。
本实施例基于不同的特征因子共同建立风险识别模型,其中在线特征因子 由理赔系统直接实时提供给风险识别模型,离线特征因子由风险识别模型调用 离线特征数据库提供,利用XGBoost算法进行模型训练,风险识别模型在调度、 查勘、立案、定损、核损、单证、理算、核赔等环节实时对案件风险指数进行 提示。
实施例二
本发明提供一种车险理赔欺诈风险识别装置,图5为本发明实施例中车险 理赔欺诈风险识别装置的框图;该装置实现实施例一所示方法,其中:数据处 理模块,包括数据选取子模块和数据预处理子模块;在线特征因子分析模块和 离线特征因子分析模块;模型训练模块和风险预警模块。数据预处理子模块包 括:空值率处理单元,噪音数据处理单元,缺失值处理单元,离散化处理单元。 所述离散化处理单元包括:等距分箱。
实施例三
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计 算机程序,其特征在于,所述处理器执行所述计算机程序时实现实施例一所述 方法的步骤。
本发明还提供一种计算机可读存储介质适用于上述方法实施例,在此不再 赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。 非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编 程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局 限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、 同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储 器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改 进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权 利要求为准。

Claims (10)

1.一种车险理赔欺诈风险识别方法,所述方法包括:
数据处理,包括数据选取和数据预处理,所述数据选取包括获取车险理赔已结案件信息,然后选取整案欺诈和部分欺诈案件为正样本,正常案件为负样本;所述数据预处理建立特征工程,具体包括空值率处理,噪音数据处理,缺失值处理和离散化处理;
在线特征因子分析,根据特征在正负样本的分布情况从而获得对欺诈具有区分度的在线特征因子,具体包括选取多个单一特征因子,然后根据多个单一特征因子组合构建多个衍生特征并进行筛选,最后识别并删除穿越特征因子;所述多个衍生特征包括延迟报案、批量损失险、相同车辆多次出险等;所述延迟报案包括报案时间与出险时间差,具体包括出险时间、报案时间、事故号等;所述批量损失险包括批增损失险小于N天,具体包括批增时间、损失险别、出险时间、事故号;所述相同车辆多次出险包括相同标的与三者车出险次数大于N次,具体包括标的车牌号、三者车牌号、事故号;
离线特征因子分析,选取在线特征因子后,根据历史数据构建以被保险人纬度的离线特征库,通过统计方式加工离线特征库,选取离线特征因子;
建立风险识别模型,根据所述在线特征因子和所述离线特征因子建立总特征库进行模型训练;所述模型训练采用XGBoost算法;具体定义包含n件车险理赔案件和m个特征因子属性的数据集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈{0,1}),其中xi表示第i个理赔案件的特征向量,Rm代表m维实数集,yi代表该案件是否涉嫌欺诈,0为正常案件,1为欺诈案件,将多棵回归树所得的结果进行相加即可得到最终预测结果,如式(1.1)所示:
Figure FDA0003345947410000011
其中,k为树的总个数,fk表示第k颗树,fk(xi)表示样本xi输入到第k棵树后得到的叶子节点的预测分数,
Figure FDA0003345947410000012
表示样本xi的预测结果,F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)表示回归树空间,q代表单颗树的结构,T代表叶子节点的数量,ω代表每个叶子节点的权重,每一棵树都是独立存在的,对于一件理赔案件通过k棵树,将其映射到对应的叶子节点后,相加所有映射叶子节点的分数即可得到该样本的最终分数结果;
所述风险识别模型的目标函数Obj(Θ)如式(1.2)所示:
Figure FDA0003345947410000021
式(1.2)分为两部分,第一部分误差函数
Figure FDA0003345947410000022
代表预测值
Figure FDA0003345947410000023
与真实值的yi之间的训练误差,第二部分代表模型复杂度的惩罚项,Ω(fk)表示第k颗树fk的复杂度,Ω表示计算复杂度的公式符号;
车险理赔欺诈风险预警,核心理赔系统和所述风险识别模型对接,实时提示案件风险指数。
2.根据权利要求1所述的方法,其特征在于,所述空值率处理包括:
删除空值率为100%的特征因子。
3.根据权利要求1所述的方法,其特征在于,所述离散化处理包括:采用等距分箱算法。
4.根据权利要求1所述的方法,其特征在于,所述缺失值处理包括:通过均值和/或中位数和/或众数填充缺失值。
5.根据权利要求1-4任一项所述的方法,其特征在于,运用迭代的方式对所述风险识别模型求解,每经过一轮迭代增加一个函数到模型中,如式(1.3)所示:
Figure RE-FDA0003461138510000024
Figure RE-FDA0003461138510000025
Figure RE-FDA0003461138510000026
Figure RE-FDA0003461138510000031
其中
Figure RE-FDA0003461138510000032
为第t次迭代时的预测分数,为加快目标函数迭代速度,对目标函数进行优化,公式如(1.4)所示:
Figure RE-FDA0003461138510000033
利用泰勒公式对目标函数进行二次展开,加快迭代速率,最终可得第t次迭代简化目标函数
Figure RE-FDA0003461138510000034
公式如(1.5)所示:
Figure RE-FDA0003461138510000035
Figure RE-FDA0003461138510000036
Figure RE-FDA0003461138510000037
gi为损失函数的一阶导数;hi为损失函数的二阶导数,采用树形结构的方式对函数进行优化,F={f(x)=ωq(x)}(q:Rm→T,ω∈RT),复杂度惩罚项如式(1.6)所示:
Figure RE-FDA0003461138510000038
λ为L2正则化项系数,γ为控制树的复杂度的正则化项系数,定义每个叶子节点j中包含的样本集合为:Ij={i|q(xi)=j},得到公式(1.7)所示:
Figure RE-FDA0003461138510000041
Figure RE-FDA0003461138510000042
Figure RE-FDA0003461138510000043
目标函数如式(1.8)所示:
Figure RE-FDA0003461138510000044
由式(1.8)等于0得到叶子最优权重以及最优函数如下:
Figure RE-FDA0003461138510000045
Figure RE-FDA0003461138510000046
公式(1.9)可以作为一个评价数结构好坏的标准,利用贪婪算法,从深度为0的树开始进行迭代分裂,通过信息增益Gain的方式,选择信息增益最大的特征及其最佳分裂点进行分割,直至信息增益<=0或者迭代到预先设定的阈值时停止分裂,得到最终的分类树结构,信息增益计算如式(1.10)所示:
Figure RE-FDA0003461138510000047
其中,GL和GR分别为由当前节点分裂出的左子节点和右子节点样本集的一阶梯度统计和,HL和HR分别为左子节点和右子节点样本集的二阶梯度统计和。
6.一种采用权利要求1-5任一项所述方法的车险理赔欺诈风险识别装置,其特征在于,所述装置包括:
数据处理模块,包括数据选取子模块和数据预处理子模块;
在线特征因子分析模块和离线特征因子分析模块;
模型训练模块和风险预警模块。
7.根据权利要求6所述的装置,其特征在于,数据预处理子模块包括:空值率处理单元,噪音数据处理单元,缺失值处理单元,离散化处理单元。
8.根据权利要求7所述的装置,其特征在于,所述离散化处理单元包括:等距分箱。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202111322808.8A 2021-11-09 2021-11-09 一种车险理赔欺诈风险识别方法及装置 Pending CN114187120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111322808.8A CN114187120A (zh) 2021-11-09 2021-11-09 一种车险理赔欺诈风险识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111322808.8A CN114187120A (zh) 2021-11-09 2021-11-09 一种车险理赔欺诈风险识别方法及装置

Publications (1)

Publication Number Publication Date
CN114187120A true CN114187120A (zh) 2022-03-15

Family

ID=80601465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111322808.8A Pending CN114187120A (zh) 2021-11-09 2021-11-09 一种车险理赔欺诈风险识别方法及装置

Country Status (1)

Country Link
CN (1) CN114187120A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456804A (zh) * 2022-11-09 2022-12-09 浙江数秦科技有限公司 基于区块链的重复理赔预警方法
CN116012169A (zh) * 2022-12-21 2023-04-25 南京睿聚科技发展有限公司 一种基于位置数据进行保险理赔风险筛查的方法和系统
CN116051297A (zh) * 2023-02-10 2023-05-02 北京智车睿控信息技术有限公司 一种基于互联网的车险风险识别系统
CN116308434A (zh) * 2023-05-12 2023-06-23 杭州大鱼网络科技有限公司 一种保险欺诈识别方法及系统
CN116720577A (zh) * 2023-08-09 2023-09-08 凯泰铭科技(北京)有限公司 基于决策树的车险规则编写部署方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456804A (zh) * 2022-11-09 2022-12-09 浙江数秦科技有限公司 基于区块链的重复理赔预警方法
CN116012169A (zh) * 2022-12-21 2023-04-25 南京睿聚科技发展有限公司 一种基于位置数据进行保险理赔风险筛查的方法和系统
CN116012169B (zh) * 2022-12-21 2024-03-22 南京睿聚科技发展有限公司 一种基于位置数据进行保险理赔风险筛查的方法和系统
CN116051297A (zh) * 2023-02-10 2023-05-02 北京智车睿控信息技术有限公司 一种基于互联网的车险风险识别系统
CN116308434A (zh) * 2023-05-12 2023-06-23 杭州大鱼网络科技有限公司 一种保险欺诈识别方法及系统
CN116308434B (zh) * 2023-05-12 2023-08-11 杭州大鱼网络科技有限公司 一种保险欺诈识别方法及系统
CN116720577A (zh) * 2023-08-09 2023-09-08 凯泰铭科技(北京)有限公司 基于决策树的车险规则编写部署方法及系统
CN116720577B (zh) * 2023-08-09 2023-10-27 凯泰铭科技(北京)有限公司 基于决策树的车险规则编写部署方法及系统

Similar Documents

Publication Publication Date Title
CN114187120A (zh) 一种车险理赔欺诈风险识别方法及装置
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN112381154A (zh) 预测用户概率的方法、装置和计算机设备
WO2019200742A1 (zh) 短期盈利的预测方法、装置、计算机设备和存储介质
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
Hájek Credit rating analysis using adaptive fuzzy rule-based systems: an industry-specific approach
Fedorova et al. Models for bankruptcy forecasting: Case study of Russian enterprises
CN112561568A (zh) 一种目标客户预测方法、装置及存储介质
CN111738762A (zh) 不良资产回收价的确定方法、装置、设备和存储介质
CN113674087A (zh) 企业信用等级评定方法、装置、电子设备和介质
CN110990529A (zh) 企业的行业明细划分方法及系统
Ramachandra et al. Machine learning application for black friday sales prediction framework
CN110020939B (zh) 建立违约损失率预测模型的装置、方法及存储介质
Groll et al. Churn Modeling of Life Insurance Policies Via Statistical and Machine Learning Methods
CN117114705A (zh) 一种基于持续学习的电商欺诈识别方法与系统
Andrade et al. A machine learning-based system for financial fraud detection
CN115860924A (zh) 供应链金融信用风险预警方法及相关设备
Gnat et al. Parametric and non-parametric methods in mass appraisal on poorly developed real estate markets
CN115238789A (zh) 基于改进gru的金融行业另类数据预测方法和系统
CN115375456A (zh) 用于信贷风险评估的数据处理方法、装置、设备及介质
CN114418236A (zh) 信息预测方法、装置、存储介质及电子设备
CN113627997A (zh) 数据处理方法、装置、电子设备及存储介质
CN113869423A (zh) 一种营销响应模型构建方法、设备及介质
CN112884028A (zh) 一种系统资源调整方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination