CN108694520A

CN108694520A - 理赔客户风险识别方法及系统

Info

Publication number: CN108694520A
Application number: CN201810706897.8A
Authority: CN
Inventors: 冯晓俊; 夏如雪; 夏天; 羿然
Original assignee: Ping An Health Insurance Company of China Ltd
Current assignee: Ping An Health Insurance Company of China Ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2018-10-23

Abstract

本公开涉及一种理赔客户风险识别方法及系统，其中，所述方法包括数据准备阶段、模型训练阶段、模型实施阶段，其中，数据准备阶段包括以下步骤：从医疗理赔大数据中获取与理赔客户风险相关的数据，包括理赔客户的个人信息和就诊信息，就诊信息包括就诊费用信息；从数据中提取训练GBM模型所需的特征，形成数据集。其中，模型训练阶段包括以下步骤：将数据集中的部分数据作为训练集，输入GBM模型的训练器，进行训练；生成训练完毕的GBM模型。其中，模型实施阶段包括以下步骤：采集理赔客户的当前理赔数据，并提取GBM模型所需的特征；将特征输入GBM模型，生成识别结果，识别结果包括理赔客户未来可能产生的就诊费用。

Description

理赔客户风险识别方法及系统

技术领域

本发明涉及基于互联网应用的保险服务技术领域，尤其涉及一种理赔客户风险识别方法及系统。

背景技术

目前，健康险产品定价方式相对简单，主要依赖行业对标，再保险报价，结合简单的宏观风险分析。这种方法不能有效地反映出不同人群的风险特质，不能支持差异化定价。

此外，目前存在相当数量的医保欺诈行为，而现有技术对于医保欺诈缺乏有效的科学鉴别手段，严重影响了医保基金的收支平衡，侵害了广大参保人的利益、乃至公众利益。

因此，为了实现个人差异化服务、并抑制上述不良现象，存在开发高效精准的理赔客户风险识别模型的需要。

发明内容

考虑到现有技术的上述问题，发明人做出了本发明，其主要基于客户理赔的风险识别，将机器学习技术融入保险业务流程，相比于人工审核，大大提高了识别速度，且保证了足够的准确率。

具体地，本发明基于人工智能算法，通过对医疗大数据以及商保理赔数据的分析和洞察，进行案件模式识别、风险预测、理赔决策证据提示、合理诊疗方式归纳、医疗费用预测等，并且可以通过机器学习的认知和算法对历史经验进行学习，实现模型的自动优化和迭代。

根据本发明的实施例，提供了一种理赔客户风险识别方法，其特征在于，所述方法包括数据准备阶段、模型训练阶段、模型实施阶段，

其中，所述数据准备阶段包括以下步骤：

步骤A1、从医疗理赔大数据中获取与理赔客户风险相关的数据，包括理赔客户的个人信息和就诊信息，所述就诊信息包括就诊费用信息；

步骤A2、从所述数据中提取训练GBM模型所需的特征，形成数据集，

其中，所述模型训练阶段包括以下步骤：

步骤B1、将所述数据集中的部分数据作为训练集，输入GBM模型的训练器，进行训练；

步骤B2、生成训练完毕的GBM模型，

其中，所述模型实施阶段包括以下步骤：

步骤C1、采集理赔客户的当前理赔数据，并提取GBM模型所需的特征，

步骤C2、将特征输入所述GBM模型，生成识别结果，识别结果包括所述理赔客户未来可能产生的就诊费用。

根据本发明的实施例，其中，训练GBM模型所需的特征包括：

所述理赔客户的人口学特征、地理特征、就诊时间特征、医疗特征、费用特征；

通过计算获得的二次数据，包括所述理赔客户的就诊频率、就诊费用随时间的分布、时间段总花费、费用构成比例。

根据本发明的实施例，其中，所述GBM模型的训练器是XGBoost。

根据本发明的实施例，其中，所述与理赔客户风险相关的数据还包括所述理赔客户的风险级别，

其中，所述模型实施阶段还包括以下步骤：

步骤C3、根据所述理赔客户未来可能产生的就诊费用，判定所述理赔客户的风险级别。

根据本发明的实施例，其中，通过医疗理赔统计数据，得到所述理赔客户未来可能产生的就诊费用所在的分位点p，其中分位点p的取值范围为0至100，对应于所述就诊费用在所述理赔中的百分数位置，并且，根据所述分位点判定所述理赔客户的风险级别。

根据本发明的实施例，其中，所述方法还包括与模型训练阶段同步的模型测试阶段，包括以下步骤：

步骤D1、将数据集中的部分数据作为测试集，输入GBM模型的训练器，进行测试，其中，所述测试集与所述训练集的数据不重叠；

步骤D2、在所述训练阶段的训练过程中，通过所述测试集对迭代中的GBM模型进行测试，得到不同迭代次数下的GBM模型针对训练集和测试集的错误率和/或性能分数；

步骤D3、根据所述错误率和/或性能分数，确定GBM模型的最终迭代次数、为最终模型保留的树的数量。

根据本发明的实施例，其中，所述方法还包括模型验证阶段，包括以下步骤：

采用与步骤A2中的数据集独立的数据集，对已生成的GBM模型进行性能验证。

根据本发明的实施例，还提供了一种用于所述方法的理赔客户风险识别系统，其特征在于数据准备模块、模型训练模块、模型实施模块，

其中，所述数据准备模块用于：

从医疗理赔大数据中获取与理赔客户风险相关的数据，包括理赔客户的个人信息和就诊信息，所述就诊信息包括就诊费用信息；

从所述数据中提取训练GBM模型所需的特征，形成数据集，

其中，所述模型训练模块用于：

将所述数据集中的部分数据作为训练集，输入GBM模型的训练器，进行训练；

生成训练完毕的GBM模型，

其中，所述模型实施模块用于：

采集理赔客户的当前理赔数据，并提取GBM模型所需的特征，

将特征输入所述GBM模型，生成识别结果，识别结果包括所述理赔客户未来可能产生的就诊费用。

根据本发明的实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有用于上述方法的程序，所述程序被处理器执行时，执行根据所述方法的步骤。

本发明的有益效果主要在于：1、将机器学习技术融入保险业务流程，为案件理赔审核提供了费用合理性评估以及欺诈风险评估；2、提升理赔自动化率，降低不合理赔付费用；3、更准确的反映投保人的风险特征；4、支持个性化产品开发和定价。

附图说明

图1为示出根据本发明的GBM建模及模型应用过程的概念示意图；

图2为根据本发明的实施例的理赔客户风险识别方法的数据准备阶段的流程示意图；

图3为根据本发明的实施例的理赔客户风险识别方法的模型训练阶段的流程示意图；

图4为根据本发明的实施例的理赔客户风险识别方法的模型实施阶段的流程示意图；

图5为根据本发明的实施例的理赔客户风险识别方法的模型测试阶段的流程示意图；

图6为根据本发明的实施例的理赔客户风险识别方法的GBM模型的输入输出示意图；

图7为根据本发明的实施例的理赔客户风险识别系统的功能模块示意图；

图8为根据本发明实施例的安装了应用程序的系统的运行环境的示意图。

具体实施方式

下面，结合附图对技术方案的实施作进一步的详细描述。

本领域的技术人员能够理解，尽管以下的说明涉及到有关本发明的实施例的很多技术细节，但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合，只要它们不背离本发明的原理和精神即可。

另外，为了避免使本说明书的描述限于冗繁，在本说明书中的描述中，可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理，这对于本领域的技术人员来说是可以理解的，并且这不会影响本说明书的公开充分性。

下文中，将描述用于进行本发明的实施例。注意，将以下面的次序给出描述：1、发明构思的概要(图1)；2、理赔客户风险识别方法(图2至6)；3、理赔客户风险识别系统(图7)；4、根据本发明的实施例的安装了应用程序的系统(图8)。

1、发明构思的概要

本发明采用深度学习的人工智能算法，通过对医疗大数据以及商保理赔数据的分析和洞察，进行案件模式识别、风险预测、理赔决策证据提示、合理诊疗方式归纳、医疗费用预测等，并且可以通过机器学习的认知和算法对历史经验进行学习，实现模型的自动优化和迭代。

本发明的实施例采用了GBM建模方法，GBM全称为Gradient Boosting Machine(梯度提升机)，是一种机器学习概念，它将许多弱模型(例如决策树)依次组合成理论上更强的模型，其主要思想是基于之前建立的基学习器的损失函数的梯度下降方向来建立下一个新的基学习器，目的就是希望通过集成这些基学习器使得模型总体的损失函数不断下降，模型不断改进。图1为示出根据本发明的GBM建模及模型应用过程的概念示意图，如图1所示，GBM建模过程主要包括数据准备阶段、建模阶段、诊断阶段、实施阶段。

本发明的构思主要体现在以下方面：

1)将投保人的基本人口信息、理赔历史、疾病诊断信息和就诊行为等多种维度纳入考量，建立全面的风险特征集；

2)采用GBM算法，通过机器学习构建理赔客户风险识别模型，该算法在处理大样本量和高维度数据方面的能力比传统的精算定价模型有极大提升；

3)通过模型分别预测投保人未来在门诊、住院方面的就诊频次和预期费用，进而得到该人整体医疗费用预测结果；

4)基于对不同人群风险水平的精准预测，制定差异化产品费率结构；

5)对目标客户未来的门诊和住院费用进行精准预测，支持差异化产品定价方案。

下面，结合实施例来说明上述发明构思的实现。

2、理赔客户风险识别方法

本发明的实施例提供了一种理赔客户风险识别方法，所述方法包括数据准备阶段、模型训练阶段、模型测试阶段(可选)、模型验证阶段(可选)、模型实施阶段，

图2为根据本发明的实施例的理赔客户风险识别方法的数据准备阶段的流程示意图。

如图2所示，所述数据准备阶段包括以下步骤：

步骤S100、从医疗理赔大数据中获取与理赔客户的风险相关的数据，包括理赔客户的个人信息、就诊信息、以及对应的风险级别；

步骤S110、对获取的数据进行预处理，包括数据清洗/改造；

步骤S120、从所述数据中提取理赔客户识别模型(如GBM)所需的特征，形成数据集；

其中，所述与理赔客户的风险相关的数据包括：

人口学数据，包括理赔客户的年龄、性别、职业、文化水平；

地理数据，包括理赔客户的籍贯、公司地理位置、医疗机构地理位置、参保区域等；

时间数据，包括理赔客户的就诊时间、就诊间期、参保时间；

医疗特征，包括理赔客户的诊断数据、就诊科室、医疗消费清单、医疗机构规模、医疗机构等级、医疗机构的既往案底标签、医生平均职称；

费用数据，包括理赔客户的单次花费、时间段总花费、费用构成比例。

在所述步骤S120中，所述特征包括理赔对象的各个维度的特征，包括：

可直接从原始数据中导出的特征，如人口学特征、地理特征、时间特征(如就诊时间、就诊间期、参保时间等)、医疗特征(如诊断、就诊科室、医疗消费清单、医疗机构规模、医疗机构等级、医疗机构既往案底标签、医生职称等)、费用特征(如每次就诊花费)，等等；

通过计算获得的二次数据，如就诊者的就诊频率(一年内)、就诊费用随时间的分布、时间段总花费、费用构成比例，等等。

其中，在用户训练的数据集中，所述风险级别可以是通过某种规则标注的，例如，通过个人征信信息、第三方评价的信用等级信息(例如，支付平台对个人的信用评分)等标准，来综合评定所述风险级别。

图3为根据本发明的实施例的理赔客户风险识别方法的模型训练阶段的流程示意图。如图3所示，模型训练阶段包括以下步骤：

步骤S200、将数据集中的部分数据作为训练集，输入理赔客户识别模型的训练器(例如XGBoost)，进行训练，其中，所述理赔客户识别模型是GBM模型；

步骤S210、生成理赔客户识别模型，并保存。

图4为根据本发明的实施例的理赔客户风险识别方法的模型实施阶段的流程示意图。如图4所示，模型实施阶段包括以下步骤：

步骤S300、采集理赔客户的当前理赔数据，并提取GBM模型所需的特征；

步骤S310、根据GBM模型的输入要求，对所述特征数据进行格式转换；

步骤S320、将特征数据输入所述GBM模型，生成识别结果，识别结果包括所述理赔客户未来可能产生的费用、对应的风险级别。

图6为根据本发明的实施例的理赔客户风险识别方法的GBM模型的输入输出示意图。如图6所示，在模型实施阶段中，GBM模型输入输出的示例如下，其中，输入包括理赔对象的个人信息、就诊信息、临床数据，等等，输出包括将来可能产生的治疗费用，等等。

其中，作为示例，所述就诊信息包括个人的就诊结算数据，如下面的表1所示：

表1

作为示例，在得到理赔对象将来可能产生的治疗费用之后，可再次通过所述医疗理赔大数据，得出所述医疗花费所在的分位点p。具体地，通过所述统计数据，得到所述总花费所在的分位点p，其中分位点p的取值范围为0至100，对应于所述总花费在所述理赔统计数据中的百分数位置。

例如，可构建如下的费用合理性打分公式：

score＝(p-t)^b+t

其中，

其中，pr为离群点边界/2所在的分位点，

其中，离群点边界＝60％分位点+1.65×(75％分位点+25％分位点)；

其中，

其中，r5＝ln(95％分位点/76％分位点)。

上述公式中的各个xx％分位点的含义为各个分位点所对应的具体花费数值。

这样，如果计算出的分数score超过70，则判定为不合理费用。

例如，如果p＝60、t＝80、b＝1，则可以计算出合理性分数为60，未超过阈值70；

如果p＝90、t＝80、b＝1.2，则可以计算出合理性分数为95.84，超过阈值70，被判定为不合理花费。

图5为根据本发明的实施例的理赔客户风险识别方法的模型测试阶段的流程示意图。如图5所示，可选地，模型测试阶段包括以下步骤：

步骤S400、将数据集中的部分数据作为测试集，输入理赔客户识别模型的训练器(例如XGBoost)，进行测试，其中，所述测试集与所述训练集的数据不重叠；

步骤S410、在所述训练阶段的训练过程中，通过所述测试集对迭代中的GBM模型进行测试，得到不同迭代次数下的GBM模型针对训练集和测试集的错误率/分数；

步骤S420、根据所述错误率/分数，确定GBM模型的最终迭代次数、为最终模型保留的树的数量；

其中，所述理赔客户识别模型是GBM模型，模型测试阶段与模型训练阶段可以同步进行。

其中，在模型测试阶段的步骤S410中，除了获得GBM模型的评价指标(错误率/分数)之外，还可获得输入特征的相关度(重要度)，以便在后期GBM模型优化的过程中可进行数据筛选，筛选出重要度高的特征相关的数据；

类似地，在模型训练阶段，还可获得输入特征的评分，从而表明每个特征对模型训练的重要性；

之后，在迭代训练(模型优化)的过程中，可为不同的特征分配不同的权重。

可选地，除了上述模型测试阶段，还可在模型生成之后，单独进行模型验证阶段，在该阶段中使用与之前的训练集/测试集不同的数据集，以达到独立验证的效果。

此外，可以理解，所述GBM模型可以有多个，例如，在健康保险方面，可以按照医疗类型(住院、门诊和特殊门诊)区分不同的模型。

3、理赔客户风险识别系统

根据本发明的实施例，还提供了一种理赔客户风险识别系统，用于执行本发明的实施例所述方法的各个步骤。

图7为根据本发明的实施例的理赔客户风险识别系统的功能模块示意图。如图7所示，所述理赔客户风险识别系统主要包括数据准备模块、模型训练模块、模型测试模块(可选)、模型验证模块(可选)、模型实施模块。

其中，所述数据准备模块用于：

从医疗理赔大数据中获取与理赔客户的风险相关的数据，包括理赔客户的个人信息、就诊信息、以及对应的风险级别；

对获取的数据进行预处理，包括数据清洗/改造；

从所述数据中提取理赔客户识别模型(如GBM)所需的特征，形成数据集。

其中，所述模型训练模块用于：

将数据集中的部分数据作为训练集，输入理赔客户识别模型的训练器(例如XGBoost)，进行训练；

生成理赔客户识别模型，并保存。

其中，所述模型测试模块用于：

将数据集中的部分数据作为测试集，输入理赔客户识别模型的训练器(例如XGBoost)，进行测试，其中，所述测试集与所述训练集的数据不重叠；

在所述训练阶段的训练过程中，通过所述测试集对迭代中的GBM模型进行测试，得到不同迭代次数下的GBM模型针对训练集和测试集的错误率/分数；

根据所述错误率/分数，确定GBM模型的最终迭代次数、为最终模型保留的树的数量。

其中，所述模型实施模块用于：

采集理赔客户的特征数据；

根据GBM模型的输入要求，对所述特征数据进行格式转换；

将特征数据输入所述GBM模型，生成识别结果，识别结果包括所述理赔客户未来可能产生的费用、对应的风险级别。

其中，所述模型验证模块用于采用独立的数据集对已生成的GBM模型进行性能验证。

综上所述，本发明的实施例具有以下特点：

1、将GBM模型应用于客户理赔的风险识别，从而将机器学习技术融入保险业务流程，相比于人工审核，大大提高了识别速度，且保证了足够的准确率；

2、在GBM模型的建模阶段，可获取附加输出(模型评分/特征评级)以便对大数据进行清洗、梳理，有利于筛选出风险的主要驱动因素/特征；

3、通过模型实施而输出定量信息(例如，量化的风险指标，从0-100进行风险打分)，更准确地反映理赔客户的风险差异；

4、可依据预测结果制订针对性的风险管控措施，例如可进一步进行追踪、稽查和重点管控，从而有助于建立有科学依据的管理体系，为支付方(保险公司)提供科学、合理、精细化的风险管理服务，提升风控效率。

5、通过预测花费并利用以分位点为主的指标来判定医疗花费(索赔费用)合理性的手段，并进一步结合患病病程来综合判定医疗理赔行为的合理性/真实性的手段，通过对临床医疗数据的整合，能够自动识别或发现费用/行为异常的案例，并可进一步进行追踪、稽查和重点管控，从而有助于建立有科学依据的管理体系，为支付方(保险公司)提供科学、合理、精细化的管理服务。

此外，本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现，其中，所述计算机可读指令是当被处理器或设备组件执行时，执行本发明所述的不同的实施例。类似地，软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上，例如RAM、EPROM、EEPROM、闪存、寄存器、硬盘、CD-ROM、DVD等等。

4、根据本发明的实施例的安装了应用程序的系统

参照图8，其示出了根据本发明实施例的安装了应用程序的系统的运行环境。

在本实施例中，所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。该图仅示出了具有上述组件的电子装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器在一些实施例中可以是所述电子装置的内部存储单元，例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备，例如所述电子装置上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据，例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit，CPU)、微处理器或其他数据处理芯片，用于运行所述存储器中存储的程序代码或处理数据，例如执行所述安装应用程序的系统等。

所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的客户界面，例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解，上述实施方式中的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来，该计算机软件商品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明本申请各个实施例所述的方法。

也就是说，根据本发明的实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有用于执行根据本发明的实施例的所述方法的程序，所述程序被处理器执行时，执行所述方法的各个步骤。

由上，将理解，为了说明的目的，这里已描述了本发明的具体实施例，但是，可作出各个修改，而不会背离本发明的范围。本领域的技术人员将理解，流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地，可重新安排步骤的次序，可并行执行步骤，可省略步骤，可包括其它步骤，可作出例程的各种组合或省略。因而，本发明仅由所附权利要求限制。

Claims

1.一种理赔客户风险识别方法，其特征在于包括数据准备阶段、模型训练阶段、模型实施阶段，

其中，所述数据准备阶段包括以下步骤：

其中，所述模型训练阶段包括以下步骤：

步骤B2、生成训练完毕的GBM模型，

其中，所述模型实施阶段包括以下步骤：

步骤C2、将特征输入所述GBM模型，生成识别结果，所述识别结果包括所述理赔客户未来可能产生的就诊费用。

2.根据权利要求1所述的理赔客户风险识别方法，其特征在于，训练GBM模型所需的特征包括：

3.根据权利要求1所述的理赔客户风险识别方法，其特征在于，所述GBM模型的训练器是XGBoost。

4.根据权利要求2所述的理赔客户风险识别方法，其特征在于，所述与理赔客户风险相关的数据还包括所述理赔客户的风险级别，

其中，所述模型实施阶段还包括以下步骤：

5.根据权利要求4所述的理赔客户风险识别方法，其特征在于，通过医疗理赔统计数据，得到所述理赔客户未来可能产生的就诊费用所在的分位点p，其中分位点p的取值范围为0至100，对应于所述就诊费用在所述理赔中的百分数位置，

并且，根据所述分位点判定所述理赔客户的风险级别。

6.根据权利要求1所述的理赔客户风险识别方法，其特征在于还包括与模型训练阶段同步的模型测试阶段，包括以下步骤：

7.根据权利要求1所述的理赔客户风险识别方法，其特征在于还包括模型验证阶段，包括以下步骤：

8.一种用于执行根据权利要求1至7中的任一个所述的方法的理赔客户风险识别系统，其特征在于数据准备模块、模型训练模块、模型实施模块，

其中，所述数据准备模块用于：

从所述数据中提取训练GBM模型所需的特征，形成数据集，

其中，所述模型训练模块用于：

生成训练完毕的GBM模型，

其中，所述模型实施模块用于：

采集理赔客户的当前理赔数据，并提取GBM模型所需的特征，

9.根据权利要求8所述的理赔客户风险识别系统，其特征在于还包括模型测试模块、模型验证模块，

其中，所述模型测试模块用于：

将数据集中的部分数据作为测试集，输入GBM模型的训练器，进行测试，其中，所述测试集与所述训练集的数据不重叠；

在所述训练阶段的训练过程中，通过所述测试集对迭代中的GBM模型进行测试，得到不同迭代次数下的GBM模型针对训练集和测试集的错误率和/或性能分数；

根据所述错误率和/或性能分数，确定GBM模型的最终迭代次数、为最终模型保留的树的数量，

其中，所述模型验证模块用于：采用与步骤A2中的数据集独立的数据集，对已生成的GBM模型进行性能验证。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，执行权利要求1-7任一所述方法的步骤。