CN106127380A - 一种大数据风险分析方法 - Google Patents

一种大数据风险分析方法 Download PDF

Info

Publication number
CN106127380A
CN106127380A CN201610457015.XA CN201610457015A CN106127380A CN 106127380 A CN106127380 A CN 106127380A CN 201610457015 A CN201610457015 A CN 201610457015A CN 106127380 A CN106127380 A CN 106127380A
Authority
CN
China
Prior art keywords
model
rate
big data
compensation
freight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610457015.XA
Other languages
English (en)
Inventor
翟玲智
陈旭
董冠宁
常青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING TUOMING COMMUNICATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING TUOMING COMMUNICATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TUOMING COMMUNICATION TECHNOLOGY Co Ltd filed Critical BEIJING TUOMING COMMUNICATION TECHNOLOGY Co Ltd
Priority to CN201610457015.XA priority Critical patent/CN106127380A/zh
Publication of CN106127380A publication Critical patent/CN106127380A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Abstract

本发明涉及一种大数据风险分析方法。本发明结合大数据,利用机器学习算法模型分析被保人的日常行为习惯,预测出被保人罹患疾病或发生意外的可能性,从而更为人性化地制定相应的保费标准。进一步对新模型的可行性进行了研究,首先是建立了新模型赔偿率和预测准确率的关系式,发现了预测准确率和赔偿率的负相关关系,并且当预测准确率大于50%时,新模型赔偿率将低于原模型赔偿率。并用MATLAB对模型进行可视化分析。然后进行了新模型盈利分析,建立了低风险客户的折扣、预测准确率以及盈利的三维关系,更为直观地得到新模型下增加的盈利空间。

Description

一种大数据风险分析方法
技术领域
本发明具体涉及一种大数据风险分析方法,属于大数据风险分析技术领域。
背景技术
埃博拉疫情、马航MH370客机失事、天津仓库爆炸案、法国巴黎恐怖袭击事件……人类社会进入二十一世纪后不断出现的种种灾害和意外无一例外地警示我们:风险无处不在,一个以风险为特征的新型社会形态正在逐步来临。
传统的风险评估方法已经不能够满足我们对风险评估的需求,传统的风险评估在分析随访资料时存在着很大的困难,不能确定所有的随访资料都具有真实性和可靠性,并且会出现大量失访的情况(失去联系、无法观察到结局、某项研究截止等等),显然,我们可以看出将失访数据无论是算作死亡还是存活似乎都不太合理。这样就对我们进行风险评估和风险管理造成了很大的障碍。保险公司会根据传统的精算模型制定相应的投保方案,但是,传统的信息搜集方式无法全面地获得一个人的生活日常规律,例如一个人的作息时间、出行时间、社交频率等,而恰恰是这些微不足道的细节信息,往往是问题的关键所在。比如,一个经常酗酒泡吧且出行驾驶的人,酒后驾驶的可能性会非常之高,导致交通事故的可能性也会相对很高;另外经常作息不规律、长期熬夜的人患病的几率也比常人高很多。
在大数据时代,由于各类传感器日益普及,通讯技术的飞跃以及网络基础设施的高速发展,越来越多的领域如金融、电商、广告、医疗、生物、物流等开始有意识地收集和积累大量数据,并从中挖掘以前不曾也不可能触及的价值。过去两年所产生的数据量为有史以来所有数据量的90%,其中2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),是2012年所产生的数据量的2倍。精准而又庞大的数据对于我们进行分析风险评估给予了很大的帮助,我们不用再考虑是否会有失访数据的存在,从而使我们对风险的管理更加精确化、系统化。
众所周知,以往支撑保险公司保险体系的是对于投保人的社会关系的充分调查,包括投保人的年龄、性别、行业、家族遗传史等,但是由外界的发病率统计资料不完整,所以,如不考虑年龄差别,保险费率计算所使用的发病率统计资料主要来自保险公司对被保险人的记录,这些统计资料有一定的局限性。当然保险业的一些出版物也是最可靠的统计资料来源。例如:美国保险委员会的精算师编写和出版的《丧失工作能力者收入、住院、外壳费用和大额医疗费用保险的个人保险单经验数据的年度报告》或者《保险监督官丧失工作能力表》。美国保险公司只要对这些已经统计好的数据进行简单的调整,就可以用做计算净保险费和准备金。
保险精算的最基本方法是切比雪夫大数定律,如下所示:
设X1,X2,…,Xi是由相互独立的随机变量所构成的序列,每一随机变量都有有限的方差,并且它们有公共上界,即:Var(X1)≤C,Var(Xi)≤C,...,Var(Xn)≤C,则对于任意的Ξ>O,都有:
lim n &RightArrow; 0 P { | 1 n &Sigma; i = 1 n X i - 1 n &Sigma; i = 1 n E ( X i ) | < &Xi; } = 1
切比雪夫大数定律阐述的是大量随机因素的平均效果与其数学期望有较大偏差的可能性越来越小的规律。从风险的角度看,它表明,如果以Xi表示第i个风险单位的未来损失,则当n很大时,n个风险单位未来损失和以概率1接近它们的期望值。这就是保险人把未来损失的期望值作为纯保险费的主要根据。
当保险人承保了n个相互独立的保险标的后,尽管每个风险单位的实际损失Xi不会等于其期望值E(Xi),但当保险标的数n足够大时,保险标的的平均损失与其损失的平均期望值几乎相等。换言之,如果保险人按照每个风险单位的未来损失期望值作为纯保险费来收取,则当其聚集风险单位足够多时,这些纯保险费将足够支付保险人未来作出的损失赔偿。
投保人可能会刻意隐瞒不利于自己的信息(疾病史、遗传史、工作性质等),造成数据的真实性和可靠性无法保证。因此,依据传统数据得出的风险模型显然存在很大的漏洞。
发明内容
本发明的目的是提供一种大数据风险分析方法。本发明针对现有精算模型存在的弊端,结合大数据的背景,建立了更为精确的预测个人风险的模型系统,并且确定预测准确率和保险公司赔偿率之间的关系,继而确定预测准备率对于保险公司盈利的影响,一方面新型保险模型提高了保险公司的盈利,另一方面还产生了一定的社会价值。
具体的,本发明提供了一种大数据风险分析方法,所述方法包括以下步骤:
步骤(1):在现有精算模型的基础上,结合大数据建立预测用户风险的新模型;
步骤(2):验证新模型可行性;
步骤(3):确定预测准确率和保险公司赔偿率之间的关系,继而确定新模型的盈利空间。
本发明结合大数据的时代背景,利用机器学习算法模型分析被保人的日常行为习惯,预测出被保人罹患疾病或发生意外的可能性,从而更为人性化地制定相应的保费标准。进一步对新模型的可行性进行了研究,首先是建立了新模型赔偿率和预测准确率的关系式,发现了预测准确率和赔偿率的负相关关系,并且当预测准确率大于50%时,新模型赔偿率将低于原模型赔偿率。并用MATLAB对模型进行可视化分析。然后进行了新模型盈利分析,建立了低风险客户的折扣、预测准确率以及盈利的三维关系,更为直观地得到新模型下增加的盈利空间。
附图说明
图1为本发明大数据风险分析方法的流程图。
图2为MATLAB对新模型进行可视化分析时赔偿率为0.01时,预测的准确率和新模式下赔偿率之间的关系曲线图。
图3为MATLAB对新模型进行可视化分析时赔偿率为0.05时,预测的准确率和新模式下赔偿率之间的关系曲线图。
图4为MATLAB对新模型进行可视化分析时赔偿率为0.1时,预测的准确率和新模式下赔偿率之间的关系曲线图。
图5为MATLAB对新模型进行可视化分析时赔偿率为0.2时,预测的准确率和新模式下赔偿率之间的关系曲线图。
图6为MATLAB对新模型进行可视化分析时赔偿率为0.5时,预测的准确率和新模式下赔偿率之间的关系曲线图。
图7为MATLAB对新模型进行可视化分析时赔偿率为0.8时,预测的准确率和新模式下赔偿率之间的关系曲线图。
图8为盈利与折扣以及预测准确率之间的关系曲线图。
图9为当折扣取0.5时,盈利和准确率之间的关系曲线图。
图10为当折扣取0.7时,盈利和准确率之间的关系曲线图。
图11为当折扣取0.8时,盈利和准确率之间的关系曲线图。
图12为当折扣取0.9时,盈利和准确率之间的关系曲线图。
图13为本发明中结合大数据建立预测用户风险的新模型的方法流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明流程如下:
步骤(1):在现有精算模型的基础上,结合大数据建立预测用户风险的新模型;
步骤(2):验证新模型可行性;
步骤(3):确定预测准确率和保险公司赔偿率之间的关系,继而确定新模型的盈利空间。
所述结合大数据的方法,如图13所示,首先运用Hadoop平台完成对原始数据的预处理以及特征工程的训练,然后利用逻辑回归等二分类算法训练机器学习模型,最后采用AUC方法对模型进行评价。
其中风险模型预测方法分为两类,疾病风险预测模型和意外风险预测模型,疾病风险预测模型采用logistic回归算法、决策树以及LS-SVM算法模型;意外风险预测模型使用逻辑回归模型以及贝叶斯网络算法模型。
所述步骤(1)中的现有精算模型为经典离散时间风险模型:
Un=Un-1+Xn-Yn,U0=u>0
Un表示保险公司第n阶段结束时的盈余,Xn表示第n阶段的保费收入,Yn表示第n阶段的赔偿额;
假设从第n阶段开始结合大数据进行改进,则所述新模型为:
U'n=Un-1+X'n-Yn',U'0=u>0
将Un和U'n对比,看改进后保险公司盈余的变化。
结合前面的离散风险模型,则有
Un=Un-1+p
U′n=Un-1+P
即Un-U'n=p-P。
本发明将通过以上预测方法,准确地判断出发生疾病和意外事故的高危人群。疾病预测系统由疾病风险预测模型来支撑,意外预测系统由意外风险预测模型支持。对于保险公司而言,能够准确地预测出高风险人群是至关重要的,大大降低了保险公司的赔偿率,从而有效地控制风险。
本发明将预测结果分为四种情况,如下表1显示。
表1
在新模型下,预测出来的高风险客户将被提高保费,同时低风险客户将在原来的个给予投保优惠,显然该情况下,投保结果将出现调整。
设预测的准确率为Y,赔偿率为X,采用新的模式后赔偿率为Z,则有下式成立,
x 1 + x 3 x 1 + x 2 + x 3 + x 4 = Y ; x 1 x 1 + x 2 = Y x 3 x 3 + x 4 = Y ; x 1 + x 2 = X x 1 + x 2 + x 3 + x 4 = 1 Z = x 2 x 2 + x 3
解得,
其中当Y=1时,X=0。
由于X∈(0,1),下面分别取X=0.01、X=0.05、X=0.1、X=0.2、X=0.5以及X=0.8,采用MATLAB对上述模型进行可视化分析,结果如图2-7所示。
通过MATLAB作图得出,赔偿率Z随着准确率Y的变化而变化。如图2-7所示,图像为递减的,即随着预测准确率Y的增大,赔偿率Z不断降低,并且可以看出X越小,Z下降的趋势越明显。结果显示,当预测准确率Y=0.5时,Z=X,当Y>0.5时,Z>X,即准确率最低保证为50%,在新模型下的赔偿率才低于传统模型的赔偿率。
下面本发明将进一步讨论预测准确率对于保险公司盈利的影响,结合传统的投保模式,将新的模型和传统模型进行对比。
传统模型:设有x人投保,单位保费为a,赔偿率为X,单位赔偿额为b,则盈利
p=a·x-x·X·b
新模型:设有x人投保,单位保费为ca(0<c<1),赔偿率为Z,单位赔偿额为b,则盈利
P = x &CenterDot; c a - x &CenterDot; Z &CenterDot; b = x &CenterDot; c a - x &CenterDot; 1 1 + Y 1 - Y &CenterDot; 1 - X X &CenterDot; b ( Y &NotEqual; 1 )
P是关于折扣c和准确率Y的函数,利用MATLAB进行分析得到盈利与折扣以及预测准确率之间的关系,如图8所示。图中设x=1000;a=1000;b=10000;X=0.08,横截面表示的是原模型下的盈利,曲面表示的是新模型下的盈利,其中箭头指示的即为新模型较传统模型增加的盈利区间。
当折扣取不同定值时,通过二维图像更为直观地显示盈利和准确率之间的关系,如图9-12所示。
如图所示,当折扣c取值为0.5时,准确率大于75%时,新模型的盈利将超过传统模型;当折扣c取值为0.9时,准确率大于55%时,新模型的盈利将超过传统模型。因此,当折扣较高时,对于准确率的要求越高。
通过本发明研究,新模型既满足盈利可行性,又利于督促投保人养成良好的行为习惯,同时还能带来一定的环境效益,相信新型保险模式将会是大势所趋。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种大数据风险分析方法,其特征在于所述方法包括以下步骤:
步骤(1):在现有精算模型的基础上,结合大数据建立预测用户风险的新模型;
步骤(2):验证新模型可行性;
步骤(3):确定预测准确率和保险公司赔偿率之间的关系,继而确定新模型的盈利空间。
2.如权利要求1所述的大数据风险分析方法,其特征在于:
所述结合大数据的方法如下:先运用Hadoop平台完成对原始数据的预处理以及特征工程的训练,然后利用逻辑回归等二分类算法训练机器学习模型,最后采用AUC方法对所述机器学习模型进行评价。
3.如权利要求2所述的大数据风险分析方法,其特征在于:
其中机器学习模型分为两类,疾病风险预测模型和意外风险预测模型。
4.如权利要求3所述的大数据风险分析方法,其特征在于:
所述疾病风险预测模型采用logistic回归算法、决策树以及LS-SVM算法模型。
5.如权利要求3所述的大数据风险分析方法,其特征在于:
所述意外风险预测模型使用逻辑回归模型以及贝叶斯网络算法模型。
6.如权利要求1所述的大数据风险分析方法,其特征在于:
所述步骤(1)中的现有精算模型为经典离散时间风险模型:
Un=Un-1+Xn-Yn,U0=u>0
Un表示保险公司第n阶段结束时的盈余,Xn表示第n阶段的保费收入,Yn表示第n阶段的赔偿额;
假设从第n阶段开始结合大数据进行改进,则所述新模型为:
U'n=Un-1+X'n-Y′n,U'0=u>0。
7.如权利要求1所述的大数据风险分析方法,其特征在于:
所述步骤(2)中使用MATLAB对新模型进行可视化分析,进而验证其可行性。
8.如权利要求6所述的大数据风险分析方法,其特征在于:
所述步骤(3)的具体方法为:
设U'n=Un-1+P,Un=Un-1+p
在现有精算模型下设有x人投保,单位保费为a,赔偿率为X,单位赔偿额为b,则盈利
p=a·x-x·X·b
在新模型下设有x人投保,单位保费为ca(0<c<1),赔偿率为Z,单位赔偿额为b,则盈利
CN201610457015.XA 2016-06-22 2016-06-22 一种大数据风险分析方法 Pending CN106127380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610457015.XA CN106127380A (zh) 2016-06-22 2016-06-22 一种大数据风险分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610457015.XA CN106127380A (zh) 2016-06-22 2016-06-22 一种大数据风险分析方法

Publications (1)

Publication Number Publication Date
CN106127380A true CN106127380A (zh) 2016-11-16

Family

ID=57267858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610457015.XA Pending CN106127380A (zh) 2016-06-22 2016-06-22 一种大数据风险分析方法

Country Status (1)

Country Link
CN (1) CN106127380A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506602A (zh) * 2017-09-07 2017-12-22 北京海融兴通信息安全技术有限公司 一种大数据健康预测系统
CN107705047A (zh) * 2017-11-08 2018-02-16 泰康保险集团股份有限公司 一种保险核保风险预测方法及装置
WO2018149397A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 一种理赔准备金的评估方法、存储介质、终端设备及装置
CN108549954A (zh) * 2018-03-26 2018-09-18 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN109377384A (zh) * 2018-09-03 2019-02-22 阿里巴巴集团控股有限公司 健康险的确定方法、装置和服务器
JP2019521418A (ja) * 2017-02-20 2019-07-25 平安科技(深▲せん▼)有限公司Ping An Technology(Shenzhen)Co.,Ltd. 疾患確率の検出方法、装置、設備およびコンピュータ読み取り可能な記憶媒体
WO2019200742A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 短期盈利的预测方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193456A1 (en) * 2003-03-28 2004-09-30 The Ohio Casualty Insurance Company Out-of-sequence endorsement processing in insurance policy management system
CN105488046A (zh) * 2014-09-16 2016-04-13 钛马信息网络技术有限公司 基于车辆保险业务的大数据分析系统
CN105631235A (zh) * 2016-03-10 2016-06-01 深圳市前海安测信息技术有限公司 基于医疗大数据的医疗保险精算系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193456A1 (en) * 2003-03-28 2004-09-30 The Ohio Casualty Insurance Company Out-of-sequence endorsement processing in insurance policy management system
CN105488046A (zh) * 2014-09-16 2016-04-13 钛马信息网络技术有限公司 基于车辆保险业务的大数据分析系统
CN105631235A (zh) * 2016-03-10 2016-06-01 深圳市前海安测信息技术有限公司 基于医疗大数据的医疗保险精算系统及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149397A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 一种理赔准备金的评估方法、存储介质、终端设备及装置
JP2019521418A (ja) * 2017-02-20 2019-07-25 平安科技(深▲せん▼)有限公司Ping An Technology(Shenzhen)Co.,Ltd. 疾患確率の検出方法、装置、設備およびコンピュータ読み取り可能な記憶媒体
CN107506602A (zh) * 2017-09-07 2017-12-22 北京海融兴通信息安全技术有限公司 一种大数据健康预测系统
CN107705047A (zh) * 2017-11-08 2018-02-16 泰康保险集团股份有限公司 一种保险核保风险预测方法及装置
CN107705047B (zh) * 2017-11-08 2021-07-13 泰康保险集团股份有限公司 一种保险核保风险预测方法及装置
CN108549954A (zh) * 2018-03-26 2018-09-18 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN108549954B (zh) * 2018-03-26 2022-08-02 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
WO2019200742A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 短期盈利的预测方法、装置、计算机设备和存储介质
CN109377384A (zh) * 2018-09-03 2019-02-22 阿里巴巴集团控股有限公司 健康险的确定方法、装置和服务器

Similar Documents

Publication Publication Date Title
CN106127380A (zh) 一种大数据风险分析方法
Lyu et al. Artificial Intelligence and emerging digital technologies in the energy sector
Kim et al. Futuristic data-driven scenario building: Incorporating text mining and fuzzy association rule mining into fuzzy cognitive map
CN103370722B (zh) 通过小波和非线性动力学预测实际波动率的系统和方法
CN112291807B (zh) 一种基于深度迁移学习和跨域数据融合的无线蜂窝网络流量预测方法
US9613309B1 (en) System and method for predicting significant events using a progress curve model
Li et al. MF-TCPV: a machine learning and fuzzy comprehensive evaluation-based framework for traffic congestion prediction and visualization
Yao et al. A modified insurance risk process with uncertainty
Han Discriminating risky software project using neural networks
CN105825269A (zh) 一种基于并行自动编码机的特征学习方法及系统
Javedani Sadaei et al. Multilayer stock forecasting model using fuzzy time series
Mukhitdinov An imitation model of quality utility services to the population
Greco et al. Global investing risk: a case study of knowledge assessment via rough sets
Li et al. A new multipredictor ensemble decision framework based on deep reinforcement learning for regional gdp prediction
Marinelli et al. Earthmoving trucks condition level prediction using neural networks
Wang et al. A new hybrid forecasting model based on SW-LSTM and wavelet packet decomposition: a case study of oil futures prices
Alwadi et al. A framework for vehicle quality evaluation based on interpretable machine learning
CN103106329A (zh) 一种用于svr短期负荷预测的训练样本分组构造方法
Zheng et al. Fairness-enhancing deep learning for ride-hailing demand prediction
Khalili-Damghani et al. Performance measurement of police traffic centres using fuzzy DEA-based Malmquist productivity index
Figueredo et al. An immune-inspired technique to identify heavy goods vehicles incident hot spots
CN111694952A (zh) 一种基于微博的大数据分析模型系统及其实现方法
Liu et al. Research on traffic accident fatality prediction based on BP neural network
El-Kenawy et al. Al-Biruni Earth Radius Optimization for COVID-19 Forecasting.
Wang et al. The applications of rough set theory in civil engineering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116

RJ01 Rejection of invention patent application after publication