CN108694521A - 个人风险定价方法及系统 - Google Patents
个人风险定价方法及系统 Download PDFInfo
- Publication number
- CN108694521A CN108694521A CN201810706906.3A CN201810706906A CN108694521A CN 108694521 A CN108694521 A CN 108694521A CN 201810706906 A CN201810706906 A CN 201810706906A CN 108694521 A CN108694521 A CN 108694521A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- resolution
- model
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000003745 diagnosis Methods 0.000 claims abstract description 17
- 238000002360 preparation method Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 28
- 238000005259 measurement Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 7
- 230000000717 retained effect Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0278—Product appraisal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开涉及一种个人风险定价方法及系统,其中,所述个人是现有或潜在的理赔客户,所述方法包括数据准备阶段、模型训练阶段、模型实施阶段,其中,数据准备阶段包括以下步骤:从医疗理赔大数据中获取与理赔客户风险相关的数据,包括理赔客户的个人信息和就诊信息,就诊信息包括就诊费用信息;从数据中提取训练GBM模型所需的特征,形成数据集。其中,模型训练阶段包括以下步骤:将数据集中的部分数据作为训练集,输入GBM模型的训练器,进行训练;生成训练完毕的GBM模型。其中,模型实施阶段包括以下步骤:采集理赔客户的当前理赔数据,并提取GBM模型所需的特征;将特征输入GBM模型,生成识别结果,识别结果包括理赔客户未来可能产生的就诊费用。
Description
技术领域
本发明涉及基于互联网应用的保险服务技术领域,尤其涉及一种个人风险定价方法及系统。
背景技术
目前,健康险产品定价方式相对简单,主要依赖行业对标,再保险报价,结合简单的宏观风险分析。这种方法不能有效地反映出不同人群的风险特质,不能支持差异化定价。
此外,目前存在相当数量的医保欺诈行为,而现有技术对于医保欺诈缺乏有效的科学鉴别手段,严重影响了医保基金的收支平衡,侵害了广大参保人的利益、乃至公众利益。
因此,为了实现个人差异化服务、并抑制上述不良现象,存在开发高效精准的个人风险定价模型的需要。
发明内容
考虑到现有技术的上述问题,发明人做出了本发明,其主要基于客户理赔的风险识别,将机器学习技术融入保险业务流程,相比于人工审核,大大提高了识别速度,且保证了足够的准确率。
具体地,本发明基于人工智能算法,通过对医疗大数据以及商保理赔数据的分析和洞察,进行案件模式识别、风险预测、理赔决策证据提示、合理诊疗方式归纳、医疗费用预测等,并且可以通过机器学习的认知和算法对历史经验进行学习,实现模型的自动优化和迭代。
根据本发明的实施例,提供了一种个人风险定价方法,其中,所述个人是现有或潜在的理赔客户,其特征在于,所述方法包括数据准备阶段、模型训练阶段、模型实施阶段,
其中,所述数据准备阶段包括以下步骤:
步骤A1、从医疗理赔大数据中获取与理赔客户风险相关的数据,包括理赔客户的个人信息和就诊信息,所述就诊信息包括就诊费用信息;
步骤A2、从所述数据中提取训练GBM模型所需的特征,形成数据集,
其中,所述模型训练阶段包括以下步骤:
步骤B1、将所述数据集中的部分数据作为训练集,输入GBM模型的训练器,进行训练;
步骤B2、生成训练完毕的GBM模型,
其中,所述模型实施阶段包括以下步骤:
步骤C1、采集理赔客户的当前理赔数据,并提取GBM模型所需的特征,
步骤C2、将特征输入所述GBM模型,生成识别结果,识别结果包括所述理赔客户未来可能产生的就诊费用,并根据所述未来可能产生的就诊费用来确定针对所述理赔客户的产品定价。
根据本发明的实施例,其中,训练GBM模型所需的特征包括:
所述理赔客户的人口学特征、地理特征、就诊时间特征、医疗特征、费用特征;
通过计算获得的二次数据,包括所述理赔客户的就诊频率、就诊费用随时间的分布、时间段总花费、费用构成比例。
根据本发明的实施例,其中,所述GBM模型的训练器是XGBoost。
根据本发明的实施例,其中,所述与理赔客户风险相关的数据还包括所述理赔客户的风险级别,
其中,所述模型实施阶段还包括以下步骤:
步骤C1-5、根据所述理赔客户未来可能产生的就诊费用,判定所述理赔客户的风险级别,
其中,所述步骤C2还包括:
根据所述未来可能产生的就诊费用、以及风险级别,为该理赔客户确定产品定价的基准费率。
根据本发明的实施例,其中,通过医疗理赔统计数据,得到所述理赔客户未来可能产生的就诊费用所在的分位点p,其中分位点p的取值范围为0至100,对应于所述就诊费用在所述理赔中的百分数位置,并且,根据所述分位点判定所述理赔客户的风险级别。
根据本发明的实施例,其中,所述方法还包括与模型训练阶段同步的模型测试阶段,包括以下步骤:
步骤D1、将数据集中的部分数据作为测试集,输入GBM模型的训练器,进行测试,其中,所述测试集与所述训练集的数据不重叠;
步骤D2、在所述训练阶段的训练过程中,通过所述测试集对迭代中的GBM模型进行测试,得到不同迭代次数下的GBM模型针对训练集和测试集的错误率和/或性能分数;
步骤D3、根据所述错误率和/或性能分数,确定GBM模型的最终迭代次数、为最终模型保留的树的数量。
根据本发明的实施例,其中,所述方法还包括模型验证阶段,包括以下步骤:
采用与步骤A2中的数据集独立的数据集,对已生成的GBM模型进行性能验证。
根据本发明的实施例,还提供了一种用于所述方法的个人风险定价系统,其特征在于数据准备模块、模型训练模块、模型测试模块、模型验证模块、模型实施模块,
其中,所述数据准备模块用于:
从医疗理赔大数据中获取与理赔客户风险相关的数据,包括理赔客户的个人信息和就诊信息,所述就诊信息包括就诊费用信息;
从所述数据中提取训练GBM模型所需的特征,形成数据集,
其中,所述模型训练模块用于:
将所述数据集中的部分数据作为训练集,输入GBM模型的训练器,进行训练;
生成训练完毕的GBM模型,
其中,所述模型实施模块用于:
采集理赔客户的当前理赔数据,并提取GBM模型所需的特征,
将特征输入所述GBM模型,生成识别结果,识别结果包括所述理赔客户未来可能产生的就诊费用,并根据所述未来可能产生的就诊费用来确定针对所述理赔客户的产品定价。
根据本发明的实施例,所述个人风险定价系统还包括模型测试模块、模型验证模块,
其中,所述模型测试模块用于:
将数据集中的部分数据作为测试集,输入GBM模型的训练器,进行测试,其中,所述测试集与所述训练集的数据不重叠;
在所述训练阶段的训练过程中,通过所述测试集对迭代中的GBM模型进行测试,得到不同迭代次数下的GBM模型针对训练集和测试集的错误率和/或性能分数;
根据所述错误率和/或性能分数,确定GBM模型的最终迭代次数、为最终模型保留的树的数量。
其中,所述模型验证模块用于:采用与步骤A2中的数据集独立的数据集,对已生成的GBM模型进行性能验证。。
根据本发明的实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用于上述方法的程序,所述程序被处理器执行时,执行根据所述方法的步骤。
本发明的有益效果主要在于:1、将机器学习技术融入保险业务流程,为案件理赔审核提供了费用合理性评估以及欺诈风险评估;2、提升理赔自动化率,降低不合理赔付费用;3、更准确的反映投保人的风险特征;4、支持个性化产品开发和定价。
附图说明
图1为示出根据本发明的GBM建模及模型应用过程的概念示意图;
图2为根据本发明的实施例的个人风险定价方法的数据准备阶段的流程示意图;
图3为根据本发明的实施例的个人风险定价方法的模型训练阶段的流程示意图;
图4为根据本发明的实施例的个人风险定价方法的模型实施阶段的流程示意图;
图5为根据本发明的实施例的个人风险定价方法的模型测试阶段的流程示意图;
图6为根据本发明的实施例的个人风险定价方法的GBM模型的输入输出示意图;
图7为根据本发明的实施例的个人风险定价系统的功能模块示意图;
图8为根据本发明实施例的安装了应用程序的系统的运行环境的示意图。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中,可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明书的公开充分性。
下文中,将描述用于进行本发明的实施例。注意,将以下面的次序给出描述:1、发明构思的概要(图1);2、个人风险定价方法(图2至6);3、个人风险定价系统(图7);4、根据本发明的实施例的安装了应用程序的系统(图8)。
1、发明构思的概要
本发明采用深度学习的人工智能算法,通过对医疗大数据以及商保理赔数据的分析和洞察,进行案件模式识别、风险预测、理赔决策证据提示、合理诊疗方式归纳、医疗费用预测等,并且可以通过机器学习的认知和算法对历史经验进行学习,实现模型的自动优化和迭代。
本发明的实施例采用了GBM建模方法,GBM全称为Gradient Boosting Machine(梯度提升机),是一种机器学习概念,它将许多弱模型(例如决策树)依次组合成理论上更强的模型,其主要思想是基于之前建立的基学习器的损失函数的梯度下降方向来建立下一个新的基学习器,目的就是希望通过集成这些基学习器使得模型总体的损失函数不断下降,模型不断改进。图1为示出根据本发明的GBM建模及模型应用过程的概念示意图,如图1所示,GBM建模过程主要包括数据准备阶段、建模阶段、诊断阶段、实施阶段。
本发明的构思主要体现在以下方面:
1)将投保人的基本人口信息、理赔历史、疾病诊断信息和就诊行为等多种维度纳入考量,建立全面的风险特征集;
2)采用GBM算法,通过机器学习构建个人风险定价模型,该算法在处理大样本量和高维度数据方面的能力比传统的精算定价模型有极大提升;
3)通过模型分别预测投保人未来在门诊、住院方面的就诊频次和预期费用,进而得到该人整体医疗费用预测结果;
4)基于对不同人群风险水平的精准预测,制定差异化产品费率结构;
5)对目标客户未来的门诊和住院费用进行精准预测,支持差异化产品定价方案。
下面,结合实施例来说明上述发明构思的实现。
2、个人风险定价方法
本发明的实施例提供了一种个人风险定价方法,所述方法包括数据准备阶段、模型训练阶段、模型测试阶段(可选)、模型验证阶段(可选)、模型实施阶段,
图2为根据本发明的实施例的个人风险定价方法的数据准备阶段的流程示意图。
如图2所示,所述数据准备阶段包括以下步骤:
步骤S100、从医疗理赔大数据中获取与理赔客户的风险相关的数据,包括理赔客户的个人信息、就诊信息、以及对应的风险级别;
步骤S110、对获取的数据进行预处理,包括数据清洗/改造;
步骤S120、从所述数据中提取理赔客户识别模型(如GBM)所需的特征,形成数据集;
其中,所述与理赔客户的风险相关的数据包括:
人口学数据,包括理赔客户的年龄、性别、职业、文化水平;
地理数据,包括理赔客户的籍贯、公司地理位置、医疗机构地理位置、参保区域等;
时间数据,包括理赔客户的就诊时间、就诊间期、参保时间;
医疗特征,包括理赔客户的诊断数据、就诊科室、医疗消费清单、医疗机构规模、医疗机构等级、医疗机构的既往案底标签、医生平均职称;
费用数据,包括理赔客户的单次花费、时间段总花费、费用构成比例。
在所述步骤S120中,所述特征包括理赔对象的各个维度的特征,包括:
可直接从原始数据中导出的特征,如人口学特征、地理特征、时间特征(如就诊时间、就诊间期、参保时间等)、医疗特征(如诊断、就诊科室、医疗消费清单、医疗机构规模、医疗机构等级、医疗机构既往案底标签、医生职称等)、费用特征(如每次就诊花费),等等;
通过计算获得的二次数据,如就诊者的就诊频率(一年内)、就诊费用随时间的分布、时间段总花费、费用构成比例,等等。
图3为根据本发明的实施例的个人风险定价方法的模型训练阶段的流程示意图。如图3所示,模型训练阶段包括以下步骤:
步骤S200、将数据集中的部分数据作为训练集,输入理赔客户识别模型的训练器(例如XGBoost),进行训练,其中,所述理赔客户识别模型是GBM模型;
步骤S210、生成理赔客户识别模型,并保存。
图4为根据本发明的实施例的个人风险定价方法的模型实施阶段的流程示意图。如图4所示,模型实施阶段包括以下步骤:
步骤S300、采集理赔客户的当前理赔数据,并提取GBM模型所需的特征;
步骤S310、根据GBM模型的输入要求,对所述特征数据进行格式转换;
步骤S320、将特征数据输入所述GBM模型,生成识别结果,识别结果包括所述理赔客户未来可能产生的费用、对应的风险级别,并根据所述未来可能产生的就诊费用、以及风险级别,来来确定针对所述理赔客户的产品定价。
例如,根据理赔客户的上述就诊费用特征、以及风险级别,可为该客户确定定价系数,即,将应用于基准费率的系数,这样,在该客户要进行下一阶段(下一年度)的续费时,系统可自动调整该客户的定价。其中,如果该客户的预期费用正常(例如,低于某个标准)、且风险级别较低(意味着客户的信用良好),则可确定小于1的定价系数,即,对客户的保险续费提供优惠。反之,如果该客户的预期费用偏离正常水平(例如,高于某个标准)、且风险级别较高(意味着客户的信用不良),则可确定大于1的定价系数,即,客户保险续费价格需要上浮。
图6为根据本发明的实施例的个人风险定价方法的GBM模型的输入输出示意图。如图6所示,在模型实施阶段中,GBM模型输入输出的示例如下,其中,输入包括理赔对象的个人信息、就诊信息、临床数据,等等,输出包括将来可能产生的治疗费用,等等。
其中,作为示例,所述就诊信息包括个人的就诊结算数据,如下面的表1所示:
表1
作为示例,在得到理赔对象将来可能产生的治疗费用之后,可再次通过所述医疗理赔大数据,得出所述医疗花费所在的分位点p。具体地,通过所述统计数据,得到所述总花费所在的分位点p,其中分位点p的取值范围为0至100,对应于所述总花费在所述理赔统计数据中的百分数位置。
例如,可构建如下的费用合理性打分公式:
score=(p-t)b+t
其中,
其中,pr为离群点边界/2所在的分位点,
其中,离群点边界=60%分位点+1.65×(75%分位点+25%分位点);
其中,
其中,r5=ln(95%分位点/76%分位点)。
上述公式中的各个xx%分位点的含义为各个分位点所对应的具体花费数值。
这样,如果计算出的分数score超过70,则判定为不合理费用。
例如,如果p=60、t=80、b=1,则可以计算出合理性分数为60,未超过阈值70;
如果p=90、t=80、b=1.2,则可以计算出合理性分数为95.84,超过阈值70,被判定为不合理花费。
图5为根据本发明的实施例的个人风险定价方法的模型测试阶段的流程示意图。如图5所示,可选地,模型测试阶段包括以下步骤:
步骤S400、将数据集中的部分数据作为测试集,输入理赔客户识别模型的训练器(例如XGBoost),进行测试,其中,所述测试集与所述训练集的数据不重叠;
步骤S410、在所述训练阶段的训练过程中,通过所述测试集对迭代中的GBM模型进行测试,得到不同迭代次数下的GBM模型针对训练集和测试集的错误率/分数;
步骤S420、根据所述错误率/分数,确定GBM模型的最终迭代次数、为最终模型保留的树的数量;
其中,所述理赔客户识别模型是GBM模型,模型测试阶段与模型训练阶段可以同步进行。
其中,在模型测试阶段的步骤S410中,除了获得GBM模型的评价指标(错误率/分数)之外,还可获得输入特征的相关度(重要度),以便在后期GBM模型优化的过程中可进行数据筛选,筛选出重要度高的特征相关的数据;
类似地,在模型训练阶段,还可获得输入特征的评分,从而表明每个特征对模型训练的重要性;
之后,在迭代训练(模型优化)的过程中,可为不同的特征分配不同的权重。
可选地,除了上述模型测试阶段,还可在模型生成之后,单独进行模型验证阶段,在该阶段中使用与之前的训练集/测试集不同的数据集,以达到独立验证的效果。
此外,可以理解,所述GBM模型可以有多个,例如,在健康保险方面,可以按照医疗类型(住院、门诊和特殊门诊)区分不同的模型。
3、个人风险定价系统
根据本发明的实施例,还提供了一种个人风险定价系统,用于执行本发明的实施例所述方法的各个步骤。
图7为根据本发明的实施例的个人风险定价系统的功能模块示意图。如图7所示,所述个人风险定价系统主要包括数据准备模块、模型训练模块、模型测试模块(可选)、模型验证模块(可选)、模型实施模块。
其中,所述数据准备模块用于:
从医疗理赔大数据中获取与理赔客户的风险相关的数据,包括理赔客户的个人信息、就诊信息、以及对应的风险级别;
对获取的数据进行预处理,包括数据清洗/改造;
从所述数据中提取理赔客户识别模型(如GBM)所需的特征,形成数据集。
其中,所述模型训练模块用于:
将数据集中的部分数据作为训练集,输入理赔客户识别模型的训练器(例如XGBoost),进行训练;
生成理赔客户识别模型,并保存。
其中,所述模型测试模块用于:
将数据集中的部分数据作为测试集,输入理赔客户识别模型的训练器(例如XGBoost),进行测试,其中,所述测试集与所述训练集的数据不重叠;
在所述训练阶段的训练过程中,通过所述测试集对迭代中的GBM模型进行测试,得到不同迭代次数下的GBM模型针对训练集和测试集的错误率/分数;
根据所述错误率/分数,确定GBM模型的最终迭代次数、为最终模型保留的树的数量。
其中,所述模型实施模块用于:
采集理赔客户的特征数据;
根据GBM模型的输入要求,对所述特征数据进行格式转换;
将特征数据输入所述GBM模型,生成识别结果,识别结果包括所述理赔客户未来可能产生的费用、对应的风险级别。
其中,所述模型验证模块用于采用独立的数据集对已生成的GBM模型进行性能验证。
综上所述,本发明的实施例具有以下特点:
1、将GBM模型应用于客户理赔的风险识别,从而将机器学习技术融入保险业务流程,相比于人工审核,大大提高了识别速度,且保证了足够的准确率;
2、在GBM模型的建模阶段,可获取附加输出(模型评分/特征评级)以便对大数据进行清洗、梳理,有利于筛选出风险的主要驱动因素/特征;
3、通过模型实施而输出定量信息(例如,量化的风险指标,从0-100进行风险打分),更准确地反映理赔客户的风险差异;
4、可依据预测结果制订针对性的风险管控措施,例如可进一步进行追踪、稽查和重点管控,从而有助于建立有科学依据的管理体系,为支付方(保险公司)提供科学、合理、精细化的风险管理服务,提升风控效率。
5、通过预测花费并利用以分位点为主的指标来判定医疗花费(索赔费用)合理性的手段,并进一步结合患病病程来综合判定医疗理赔行为的合理性/真实性的手段,通过对临床医疗数据的整合,能够自动识别或发现费用/行为异常的案例,并可进一步进行追踪、稽查和重点管控,从而有助于建立有科学依据的管理体系,为支付方(保险公司)提供科学、合理、精细化的管理服务。
此外,本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现,其中,所述计算机可读指令是当被处理器或设备组件执行时,执行本发明所述的不同的实施例。类似地,软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上,例如RAM、EPROM、EEPROM、闪存、寄存器、硬盘、CD-ROM、DVD等等。
4、根据本发明的实施例的安装了应用程序的系统
参照图8,其示出了根据本发明实施例的安装了应用程序的系统的运行环境。
在本实施例中,所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。该图仅示出了具有上述组件的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器在一些实施例中可以是所述电子装置的内部存储单元,例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据,例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行所述存储器中存储的程序代码或处理数据,例如执行所述安装应用程序的系统等。
所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的客户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解,上述实施方式中的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来,该计算机软件商品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明本申请各个实施例所述的方法。
也就是说,根据本发明的实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用于执行根据本发明的实施例的所述方法的程序,所述程序被处理器执行时,执行所述方法的各个步骤。
由上,将理解,为了说明的目的,这里已描述了本发明的具体实施例,但是,可作出各个修改,而不会背离本发明的范围。本领域的技术人员将理解,流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地,可重新安排步骤的次序,可并行执行步骤,可省略步骤,可包括其它步骤,可作出例程的各种组合或省略。因而,本发明仅由所附权利要求限制。
Claims (10)
1.一种个人风险定价方法,其中,所述个人是现有或潜在的理赔客户,其特征在于,所述方法包括数据准备阶段、模型训练阶段、模型实施阶段,
其中,所述数据准备阶段包括以下步骤:
步骤A1、从医疗理赔大数据中获取与理赔客户的风险相关的数据,包括理赔客户的个人信息和就诊信息,所述个人信息包括保险定价信息,所述就诊信息包括就诊费用信息;
步骤A2、从所述数据中提取训练GBM模型所需的特征,形成数据集,
其中,所述模型训练阶段包括以下步骤:
步骤B1、将所述数据集中的部分数据作为训练集,输入GBM模型的训练器,进行训练;
步骤B2、生成训练完毕的GBM模型,
其中,所述模型实施阶段包括以下步骤:
步骤C1、采集理赔客户的当前理赔数据,并提取GBM模型所需的特征,
步骤C2、将特征输入所述GBM模型,生成识别结果,识别结果包括所述理赔客户未来可能产生的就诊费用,并根据所述未来可能产生的就诊费用来确定针对所述理赔客户的产品定价。
2.根据权利要求1所述的个人风险定价方法,其特征在于,训练GBM模型所需的特征包括:
所述理赔客户的人口学特征、地理特征、就诊时间特征、医疗特征、费用特征;
通过计算获得的二次数据,包括所述理赔客户的就诊频率、就诊费用随时间的分布、时间段总花费、费用构成比例。
3.根据权利要求2所述的个人风险定价方法,其特征在于,所述与理赔客户风险相关的数据还包括所述理赔客户的风险级别,
其中,所述模型实施阶段还包括以下步骤:
步骤C1-5、根据所述理赔客户未来可能产生的就诊费用,判定所述理赔客户的风险级别,
其中,所述步骤C2还包括:
根据所述未来可能产生的就诊费用、以及风险级别,为该理赔客户确定产品定价的基准费率。
4.根据权利要求3所述的个人风险定价方法,其特征在于,通过医疗理赔统计数据,得到所述理赔客户未来可能产生的就诊费用所在的分位点p,其中分位点p的取值范围为0至100,对应于所述就诊费用在所述理赔中的百分数位置,
并且,根据所述分位点判定所述理赔客户的风险级别。
5.根据权利要求1所述的个人风险定价方法,其特征在于还包括与模型训练阶段同步的模型测试阶段,包括以下步骤:
步骤D1、将数据集中的部分数据作为测试集,输入GBM模型的训练器,进行测试,其中,所述测试集与所述训练集的数据不重叠;
步骤D2、在所述训练阶段的训练过程中,通过所述测试集对迭代中的GBM模型进行测试,得到不同迭代次数下的GBM模型针对训练集和测试集的错误率和/或性能分数;
步骤D3、根据所述错误率和/或性能分数,确定GBM模型的最终迭代次数、为最终模型保留的树的数量。
6.根据权利要求1所述的个人风险定价方法,其特征在于还包括模型验证阶段,包括以下步骤:
采用与步骤A2中的数据集独立的数据集,对已生成的GBM模型进行性能验证。
7.根据权利要求1所述的个人风险定价方法,其特征在于,所述GBM模型的训练器是XGBoost。
8.一种用于执行根据权利要求1至7中的任一个所述的方法的个人风险定价系统,其特征在于包括数据准备模块、模型训练模块、模型测试模块、模型验证模块、模型实施模块,
其中,所述数据准备模块用于:
从医疗理赔大数据中获取与理赔客户风险相关的数据,包括理赔客户的个人信息和就诊信息,所述就诊信息包括就诊费用信息;
从所述数据中提取训练GBM模型所需的特征,形成数据集,
其中,所述模型训练模块用于:
将所述数据集中的部分数据作为训练集,输入GBM模型的训练器,进行训练;
生成训练完毕的GBM模型,
其中,所述模型实施模块用于:
将特征输入所述GBM模型,生成识别结果,识别结果包括所述理赔客户未来可能产生的就诊费用,并根据所述未来可能产生的就诊费用来确定针对所述理赔客户的产品定价。
9.根据权利要求8所述的理赔客户风险识别系统,其特征在于还包括模型测试模块、模型验证模块,
其中,所述模型测试模块用于:
将数据集中的部分数据作为测试集,输入GBM模型的训练器,进行测试,其中,所述测试集与所述训练集的数据不重叠;
在所述训练阶段的训练过程中,通过所述测试集对迭代中的GBM模型进行测试,得到不同迭代次数下的GBM模型针对训练集和测试集的错误率和/或性能分数;
根据所述错误率和/或性能分数,确定GBM模型的最终迭代次数、为最终模型保留的树的数量,
其中,所述模型验证模块用于:采用与步骤A2中的数据集独立的数据集,对已生成的GBM模型进行性能验证。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,执行根据权利要求1至7中的任一个所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810706906.3A CN108694521A (zh) | 2018-07-02 | 2018-07-02 | 个人风险定价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810706906.3A CN108694521A (zh) | 2018-07-02 | 2018-07-02 | 个人风险定价方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108694521A true CN108694521A (zh) | 2018-10-23 |
Family
ID=63850236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810706906.3A Pending CN108694521A (zh) | 2018-07-02 | 2018-07-02 | 个人风险定价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108694521A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598629A (zh) * | 2018-11-30 | 2019-04-09 | 平安医疗健康管理股份有限公司 | 心病报销流程的处理方法、装置、设备及可读存储介质 |
CN110288484A (zh) * | 2019-04-02 | 2019-09-27 | 上海瀚之友信息技术服务有限公司 | 一种基于大数据平台的保险分类的用户推荐方法及系统 |
CN113112352A (zh) * | 2021-05-27 | 2021-07-13 | 中国工商银行股份有限公司 | 风险业务检测模型训练方法、风险业务检测方法及装置 |
CN113112351A (zh) * | 2021-05-13 | 2021-07-13 | 中航信托股份有限公司 | 一种风控模型的验证方法及装置 |
CN117634873A (zh) * | 2023-11-15 | 2024-03-01 | 中国人寿保险股份有限公司江苏省分公司 | 一种评估保险行业销售人员风险的系统和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137912A1 (en) * | 2003-03-31 | 2005-06-23 | Rao R. B. | Systems and methods for automated classification of health insurance claims to predict claim outcome |
CN107240024A (zh) * | 2017-05-22 | 2017-10-10 | 中国平安人寿保险股份有限公司 | 保险理赔的反欺诈识别方法及装置 |
CN107292528A (zh) * | 2017-06-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 车险风险预测方法、装置及服务器 |
CN107818513A (zh) * | 2017-11-24 | 2018-03-20 | 泰康保险集团股份有限公司 | 风险评估方法及装置、存储介质、电子设备 |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和系统 |
-
2018
- 2018-07-02 CN CN201810706906.3A patent/CN108694521A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137912A1 (en) * | 2003-03-31 | 2005-06-23 | Rao R. B. | Systems and methods for automated classification of health insurance claims to predict claim outcome |
CN107240024A (zh) * | 2017-05-22 | 2017-10-10 | 中国平安人寿保险股份有限公司 | 保险理赔的反欺诈识别方法及装置 |
CN107292528A (zh) * | 2017-06-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 车险风险预测方法、装置及服务器 |
CN107818513A (zh) * | 2017-11-24 | 2018-03-20 | 泰康保险集团股份有限公司 | 风险评估方法及装置、存储介质、电子设备 |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598629A (zh) * | 2018-11-30 | 2019-04-09 | 平安医疗健康管理股份有限公司 | 心病报销流程的处理方法、装置、设备及可读存储介质 |
CN110288484A (zh) * | 2019-04-02 | 2019-09-27 | 上海瀚之友信息技术服务有限公司 | 一种基于大数据平台的保险分类的用户推荐方法及系统 |
CN110288484B (zh) * | 2019-04-02 | 2022-12-13 | 上海瀚之友信息技术服务有限公司 | 一种基于大数据平台的保险分类的用户推荐方法及系统 |
CN113112351A (zh) * | 2021-05-13 | 2021-07-13 | 中航信托股份有限公司 | 一种风控模型的验证方法及装置 |
CN113112351B (zh) * | 2021-05-13 | 2024-05-28 | 中航信托股份有限公司 | 一种风控模型的验证方法及装置 |
CN113112352A (zh) * | 2021-05-27 | 2021-07-13 | 中国工商银行股份有限公司 | 风险业务检测模型训练方法、风险业务检测方法及装置 |
CN117634873A (zh) * | 2023-11-15 | 2024-03-01 | 中国人寿保险股份有限公司江苏省分公司 | 一种评估保险行业销售人员风险的系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694520A (zh) | 理赔客户风险识别方法及系统 | |
CN108694521A (zh) | 个人风险定价方法及系统 | |
CN109919684A (zh) | 用于生成信息预测模型的方法、电子设备和计算机可读存储介质 | |
Feng et al. | Identifying opportunities for sustainable business models in manufacturing: Application of patent analysis and generative topographic mapping | |
CN107424070A (zh) | 一种基于机器学习的贷款用户信用评级方法及系统 | |
WO2006004132A1 (ja) | 企業評価寄与因子及び/又は指標特定装置、特定プログラム並びに特定方法 | |
JP7140410B2 (ja) | 予測システム、予測方法および予測プログラム | |
CN109360109A (zh) | 基于大数据分析和处理的智能理赔审核辅助方法和系统 | |
Trivedi et al. | The Impact of Artificial Intelligence Integration on Minimizing Patient Wait Time in Hospitals | |
CN115081025A (zh) | 基于数字中台的敏感数据管理方法、装置及电子设备 | |
CN108898316A (zh) | 理赔费用预警方法及系统 | |
CN112950344A (zh) | 数据评估方法、装置、电子设备及存储介质 | |
CN107133862A (zh) | 动态产生增强信用评估的详细交易支付经历的方法和系统 | |
CN110458609A (zh) | 一种新店经营管理预测分析系统 | |
CN114880449A (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN110033165A (zh) | 逾期借款催收方式的推荐方法、装置、介质、电子设备 | |
CN107368941A (zh) | 一种湿地生态系统服务价值大数据评估方法及装置 | |
CN111696662A (zh) | 疾病预测方法、装置及存储介质 | |
CN116843481A (zh) | 知识图谱分析方法、装置、设备及存储介质 | |
KR20170034836A (ko) | 재무 정보 및 비재무 정보에 기초한 신용 평가 방법과 시스템 및 기록매체 | |
CN110348734B (zh) | 一种基于技术应用成熟度的智慧地铁等级确定方法 | |
CN113704407A (zh) | 基于类别分析的投诉量分析方法、装置、设备及存储介质 | |
CN113191805A (zh) | 车主置换评估方法、系统、电子设备及存储介质 | |
Angelini et al. | Progressive visualization of epidemiological models for COVID-19 visual analysis | |
KR101676204B1 (ko) | 구상권 관리 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181023 |