CN109523412A

CN109523412A - 智能核保方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN109523412A
Application number: CN201811354178.0A
Authority: CN
Inventors: 金晓辉; 阮晓雯; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-26

Abstract

本发明公开了智能核保方法、装置、设备及存储介质，方法包括：从保险数据库中获取历史数据集；将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集；基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型；获取待核保保单的数据；以及利用所述核保预警模型对所获取的待核保保单的数据进行评估以得到所述待核保保单的风险值。通过实施本方案可以解决现有技术中对保险保单核保过程需要依靠人工核保方式进行核保的问题以及因人工核保方式而导致的人工成本过高以及容易出现工作失误及漏洞等问题，通过机器学习方式训练预测模型，进而可以实现机器智能核保，有利于实现智能决策。

Description

智能核保方法、装置、计算机设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能核保方法、装置、计算机设备及计算机可读存储介质。

背景技术

在保险核保预警的应用场景中，传统的核保流程采用人工核保方式，向投保人收集被保险人的基本信息以及健康信息，对所收集到的被保险人的信息进行分析、审核，判断该被保险人是否满足接受承保的条件，每一张保单都需要核保人人工手动进行核保，占用大量人力资源，人工成本过高，且人工核保的方式容易出现工作失误及漏洞。另外，人工核保方式只能着重于分析被保险人的基本信息以及健康信息，无法获得更多维度的信息，例如与被保险人相关的投保数据或者与投保人相关的投保数据，无法涵盖更多维度的信息的分析，无法识别出高欺诈理赔风险的保单以及投保人，给保险企业造成较大的损失。

发明内容

本发明实施例提供了一种智能核保方法、装置、计算机设备及计算机可读存储介质，可以实现机器智能核保，有效识别出高欺诈理赔风险的保单以及投保人，可以为核保人的决策提供帮助。

第一方面，本发明实施例提供了一种智能核保方法，其包括：

从保险数据库中获取历史数据集，其中，所述历史数据集为所述保险数据库中预设时间范围内的所有保单数据的集合；

将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集，其中，所述正样本数据集为正常投保或理赔的保单数据的集合，所述负样本数据集为高风险保单数据的集合；

基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型；

获取待核保保单的数据；以及

利用所述核保预警模型对所获取的待核保保单的数据进行评估以得到所述待核保保单的风险值。

第二方面，本发明实施例还提供了一种智能核保装置，其包括：

第一获取单元，用于从保险数据库中获取历史数据集，其中，所述历史数据集为所述保险数据库中预设时间范围内的所有保单数据的集合；

数据划分单元，用于将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集，其中，所述正样本数据集为正常投保或理赔的保单数据的集合，所述负样本数据集为高风险保单数据的集合；

第一训练单元，用于基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型；

第二获取单元，用于获取待核保保单的数据；以及

第一评估单元，用于利用所述核保预警模型对所获取的待核保保单的数据进行评估以得到所述待核保保单的风险值。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述第一方面的方法。

本发明实施例提供了一种智能核保方法、装置、计算机设备及计算机可读存储介质。本发明实施例能够有效克服现有技术中对保险保单核保过程需要依靠人工核保方式进行核保这一问题，解决了因人工核保方式而导致的占用大量人力资源、人工成本过高以及容易出现工作失误及漏洞等问题，可以实现机器智能核保，可以有效识别出高欺诈理赔风险的保单，核保人只需核对待核保保单最终的风险系数，判断是否通过核保即可；相比传统核保方式，对待核保保单的分析以及判断可以涵盖更多维度，更全面，进而从而可以为核保人的决策提供帮助，有利于做出更加科学的决策，大大减少了保险企业的损失。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的一种智能核保方法的流程示意图；

图2为本发明第一实施例提供的一种智能核保方法的子流程示意图；

图3为本发明第一实施例提供的一种智能核保方法的另一子流程示意图；

图4为本发明第二实施例提供的一种智能核保方法的流程示意图；

图5为本发明第二实施例提供的一种智能核保方法的子流程示意图；

图6为本发明第一实施例提供的一种智能核保装置的示意性框图；

图7为本发明第一实施例提供的一种智能核保装置的第一划分单元的示意性框图；

图8为本发明第一实施例提供的一种智能核保装置的第一训练单元的示意性框图；

图9为本发明第二实施例提供的一种智能核保装置的示意性框图；

图10为本发明第二实施例提供的一种智能核保装置的计算单元的示意性框图；以及

图11为本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，其为本发明第一实施例提供的一种智能核保方法的示意性流程图。该智能核保方法应用于保险核保预警场景中，具体地，该智能核保方法可以运行在终端或者服务器中，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑和个人数字助理等电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。如图1所示，该方法可包括步骤S101至S105。

S101、从保险数据库中获取历史数据集。

具体地，所述历史数据集为所述保险数据库中预设时间范围内的所有保单数据的集合；所述保单可以为医疗险保单以及重疾险保单，即该历史数据集是指在所述保险数据库中预设时间范围内的所有医疗险保单以及重疾险保单对应的保单数据的集合，其中，所述预设时间范围由用户根据实际应用场景的需求进行自定义设置，所述预设时间范围可例如为最近一年、最近两年或者最近一个月，所述医疗险保单以及重疾险保单对应的保单数据包括保单的静态数据以及保单的行为数据，其中，所述保单的静态数据包括投保客户信息、保单信息、客户体检信息、险种属性信息等信息，所述保单的静态数据为不会因客户的每次投保或理赔行为的不同而发生改变的数据。例如，所述投保客户信息包括客户号、姓名、生日、性别、证件、工作单位、混应状况等信息；所述保单信息包括部门代码、保单号、主附约号、险种类型、险种代码、生效日期等信息；所述客户体检信息包括客户号，保单号，检验医生，体检类型、体检项目、检查结果、既往病史等信息；所述险种属性信息包括险种代码、险种属性、险种系列等信息。所述保单的行为数据包括核保结果信息、理赔案件信息、理赔账单信息、疾病理赔信息等信息，所述保单的行为数据为会因客户的每次投保或理赔行为的不同而发生改变的动态数据。例如，所述核保结果信息包括保单号，控制号，核保序号，主附约号，客户号，保额，档次，核保原因等信息；所述理赔案件信息包括案件号，处理类型、案件分类、案件状态、报案号、事故发生日等信息；理赔账单信息包括案件号、保单号、住院日期、出院日期、医疗发生额、剩余额、应付保险金等信息；疾病理赔信息包括案件号、疾病序号、疾病代码、疾病诊断结果、手术代码、疾病痊愈情况等信息。

S102、将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集。

具体地，所述历史数据集包括所述正样本数据集以及所述负样本数据集，其中，所述正样本数据集为正常投保或理赔的保单数据的集合，所述负样本数据集为高风险保单数据的集合。所述预设规则为识别存在疑似高风险保单的规则，利用所述预设规则可以找出包括慢病高风险欺诈理赔的保单以及重疾高风险欺诈理赔的保单。在一实施例中，所述预设规则可以为保单的首次生效日到事故发生日间隔天数小于等于180天，即将查找到的首次生效日到事故发生日间隔天数小于或等于180天的保单识别为高风险保单，将该高风险保单的数据划分到负样本数据集，将间隔天数大于180天的保单则作为正常投保或理赔保单，将其对应的保单数据划分到正样本数据集。

S103、基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型。

具体地，将所述正样本数据集按预设比例随机划分为正样本训练数据集和正样本校验数据集，将所述负样本数据集按预设比例随机划分为负样本训练数据集和负样本校验数据集，采用机器学习方法，利用正样本训练数据集和负样本训练数据集对预设算法进行训练建模以及通过正样本校验数据集和负样本校验数据集对所建立模型进行验证以得到最优化核保预警模型，该核保预警模型用于评估等待审核的保单的风险值，以便于保单业务员可以进一步决定是否承保以及以什么样的条件承保的过程。其中，在一实施例中，所述预设算法可例如为GBDT(梯度提升决策树算法)，所述GBDT(梯度提升决策树算法)包括回归提升树算法、二元分类算法以及多元分类算法，其中，在本实施例中，利用所述梯度提升树GBDT的二元分类算法进行训练建模，具体地，将在所述保险数据库中预设时间范围内的所有医疗险保单以及重疾险保单对应的保单数据集合作为该GBDT的二元分类算法的输入变量，使用GBDT的二元分类算法对该输入变量进行训练建模以及验证该模型，最终获得最优化核保预警模型。

S104、获取待核保保单的数据。

具体地，在本步骤中，获取待核保保单的数据，进而可以将所获取的待核保保单的数据放入上述S103步骤中得到的核保预警模型中训练，以得到该待核保保单的风险值，其中，该保单风险值为该核保预警模型的目标值。

S105、利用所述核保预警模型对所获取的待核保保单的数据进行评估以得到所述待核保保单的风险值。

具体地，所述核保预警模型用于对该待核保保单对应的数据特征进行评估以分析该保单是否为高风险保单，其中评估得到的保单风险值用于表明该保单为高风险保单的可能性，该保单风险值比如为风险概率，或者正常保单或者高风险保单两种结果，根据得到的保单风险值，保单业务员可以进一步决定是否承保以及以什么样的条件承保的过程。

在上述实施例中，本方案通过获取预设时间范围内的所有医疗险保单以及重疾险保单的数据，进而利用梯度提升决策树算法对所获取的数据进行训练建模以及校验模型，进而得到最优化核保预警模型，再利用该核保预警模型对待核保保单的数据进行智能核保，进而得到该保单的风险值，该方法有效克服现有技术中对保险保单核保过程需要依靠人工核保方式进行核保这一问题，解决了因人工核保方式而导致的占用大量人力资源、人工成本过高以及容易出现工作失误及漏洞等问题，可以实现机器智能核保，可以有效识别出高欺诈理赔风险的保单，核保人只需核对待核保保单最终的风险系数，判断是否通过核保即可；相比传统核保方式，对待核保保单的分析以及判断可以涵盖更多维度，更全面，进而从而可以为核保人的决策提供帮助，有利于做出更加科学的决策，大大减少了公司的损失。

请参阅图2，其为本发明第一实施例提供的一种智能核保方法的子流程示意图，如图2所示，所述步骤S102中的将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集包括以下步骤S1021-S1025。

S1021、获取所述历史数据集中每一保单的首次生效日以及事故发生日。

具体地，所述保单所对应的保单数据包括保单的静态数据以及保单的行为数据，其中，所述保单的静态数据包括投保客户信息、保单信息、客户体检信息、险种属性信息等信息，所述保单的静态数据为不会因客户的每次投保或理赔行为的不同而发生改变的数据；所述保单的行为数据包括核保结果信息、理赔案件信息、理赔账单信息、疾病理赔信息等信息，所述保单的行为数据为会因客户的每次投保或理赔行为的不同而发生改变的动态数据。因此，从每一保单的静态数据中获取该保单首次生效的日期，以及从每一保单的行为数据中获取该保单理赔案件信息中的事故发生当天的日期。

S1022、计算每一保单的首次生效日以及事故发生日之间间隔天数。

具体地，通过计算每一保单的首次生效日以及事故发生日之间的间隔天数可以确定该保单从首次投保生效后到进行理赔的时间范围的长短。

S1023、判断每一保单的间隔天数是否大于预设天数。

具体地，所述预设天数由用户根据实际应用场景的需求进行自定义设置，例如，在一实施例中，所述预设天数为180天。

S1024、若所述间隔天数大于预设天数，将该间隔天数所对应的保单划分到正样本数据集中。

具体地，在一实施例中，该预设天数为180天，将判断查找到的首次生效日到事故发生日之间的间隔天数大于180天的保单识别为正常投保或理赔保单，将其对应的保单数据划分到正样本数据集。

S1025、若所述间隔天数不大于预设天数，将该间隔天数所对应的保单划分到负样本数据集中。

具体地，将判断查找到的首次生效日到事故发生日之间的间隔天数小于等于180天的保单识别为高风险保单，将该高风险保单的数据划分到负样本数据集。

在上述实施例中，所述预设规则为识别存在疑似高风险保单的规则，利用所述预设规则可以找出包括慢病高风险欺诈理赔的保单以及重疾高风险欺诈理赔的保单，在一实施例中，所述预设规则具体可以为判断保单的首次生效日到事故发生日之间的间隔天数是否大于预设天数，在一实施例中，所述预设天数可例如为180天，即将大于180天的保单划分到正样本数据集中，将小于等于180天的保单划分到负样本数据集。在此不对该预设规则作具体限制。在其他实施例中，所述预设规则可以为其他可以有效识别出存在疑似高风险保单的规则。

请参阅图3，其为本发明第一实施例提供的一种智能核保方法的另一子流程示意图，如图3所示，所述步骤S103中的基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型具体包括以下步骤S1031-S1032。

S1031、根据所述正样本数据集以及负样本数据集分别构建正样本特征宽表以及负样本特征宽表。

具体地，所述正样本特征宽表包括正样本特征训练宽表以及正样本特征校验宽表，所述负样本特征宽表包括负样本特征训练宽表以及负样本特征校验宽表。其中，所述根据所述正样本数据集以及负样本数据集分别构建正样本特征宽表以及负样本特征宽表的步骤具体包括以下步骤A-步骤F：

步骤A：将所述正样本数据集按预设比例随机划分为正样本训练集和正样本校验集。

具体地，所述预设比例可例如为七三比例、八二比例等，例如，以七三比例随机进行划分，则该所述正样本训练数据集占比70％，该正样本校验数据集占比30％。

步骤B：获取所述正样本训练集和正样本校验集中每一保单的静态数据以及行为数据。

步骤C：利用所述正样本训练集以及正样本校验集的静态数据以及行为数据分别构建所述正样本特征训练宽表以及正样本特征校验宽表。

具体地，将正样本训练集中每一保单的序号作为所述正样本特征训练宽表的行数据输入；以及将所述正样本训练集的静态数据以及行为数据作为所述正样本特征训练宽表的列数据输入，进而构建所述正样本特征训练宽表；将正样本校验集中每一保单的序号作为所述正样本特征校验宽表的行数据输入；以及将所述正样本校验集的静态数据以及行为数据作为所述正样本特征校验宽表的列数据输入，进而构建所述正样本特征校验宽表。在一实施例中，该静态数据以及行为数据共计500多条数据，因此，所述正样本特征训练宽表的列数据包括500多条正样本训练集的数据；其行数据包括正样本训练集中的所有保单。同理，所述正样本特征校验宽表的列数据包括500多条正样本校验集的数据；其行数据包括正样本校验集中的所有保单。

步骤D：将所述负样本数据集按预设比例随机划分为负样本训练集和负样本校验集。

步骤E：获取所述负样本训练集和负样本校验集中每一保单的静态数据以及行为数据。

步骤F：利用所述负样本训练集以及负样本校验集的静态数据以及行为数据分别构建所述负样本特征训练宽表以及负样本特征校验宽表。

具体地，所述步骤D～F所执行的步骤过程与所述步骤A～C相似，在此不做过多赘述。

S1032、基于所述正样本特征宽表以及负样本特征宽表，通过GBDT算法建模训练以得到核保预警模型。

具体地，所述基于所述正样本特征宽表以及负样本特征宽表，通过GBDT算法建模训练以得到核保预警模型的步骤具体包括以下步骤G-步骤J：

步骤G：初始化GBDT算法的函数。

步骤H：利用所述正样本特征训练宽表以及负样本特征训练宽表对该GBDT算法的函数进行训练建模以得到核保预警模型。

步骤I：利用所述正样本特征校验宽表以及负样本特征校验宽表对该预测模型进行验证以得到该核保预警模型的最优损失函数。

步骤J：利用所述最优损失函数生成最优核保预警模型。

在上述实施例中，采用梯度提升树GBDT算法的二元分类算法进行建模训练，先初始化该GBDT算法的函数，利用所述正样本特征训练宽表以及负样本特征训练宽表等训练数据对该GBDT算法的函数进行训练建模，利用所述正样本特征校验宽表以及负样本特征校验宽表等校验数据进行验证得到最优损失函数，进而得到最优预测函数，即得到最优化核保预警模型，再通过得到的最优核保预警模型对待核保保单进行风险评估。具体地参照GBDT算法原理，假设Tree1为通过GBDT算法学出来的回归树，即为最优核保预警模型，x为一条输入样本，即x为一张待核保保单，遍历该回归树后，可以输出y值，即该待核保保单的风险值，在一实施例中，该风险值可以为该保单发生高欺诈风险理赔的概率，取值范围为0～100％。在其他实施例中，所述风险值可以为0或1，即为正常保单或者高风险保单这两种结果。

请参阅图4，其为本发明第二实施例提供的一种智能核保方法的流程示意图。该智能核保方法应用于保险核保预警场景中。如图4所示，该方法可包括步骤S201-S207。其中步骤S201-S205与上述实施例中的步骤S101-S105类似，在此不再赘述。下面详细说明本实施例中所增加的步骤S206-步骤S207。

S206、基于所述待核保保单的投保人静态数据，查找所述保险数据库是否存在所述投保人。

具体地，获取该待核保保单的投保人静态数据，所述投保人静态数据为不会因客户的每次投保或理赔行为的不同而发生改变的数据，可例如为投保人的姓名、身份证号以及手机号码等个人数据，根据所述投保人的姓名、身份证号码以及手机号码等数据在所述保险数据库中查找是否存在所述投保人，即查找判断该投保人是否为已经投保过或者理赔过的客户。

S207、若存在所述投保人，根据预设规则引擎以及与所述投保人相关的数据计算所述投保人的风险系数。

具体地，与所述投保人相关的数据包括投保人静态数据以及投保人历史行为数据，所述投保人历史行为数据可例如为历史投保数据以及历史理赔数据，所述预设规则引擎为利用所述正样本数据集以及所述负样本数据集的数据特征分析得到的规则引擎，通过预先设定的规则引擎来明确以该与所述投保人相关数据为输入数据的输出结果，其输出结果为所述投保人的风险系数。其中，在一实施例中，该预设规则引擎用于对与所述投保人相关的数据对应的各项风险项进行加权求和。例如，在一实施例中，通过对所述正样本数据集以及所述负样本数据集的数据特征进行数据分析可以得出各项数据相应的权重值，其中，将各项数据作为保单的各项风险值，其中，所述各项风险项包括性别、年龄、职业、体检结果、过去投保次数、过去了理赔次数、过去风险理赔次数、过去投保短期险占比等，具体地，计算所述正样本数据集以及所述负样本数据集中的各项数据在整体数据上的相应的占比情况，如对性别这一数据得出的权重值为女性的风险理赔占比为60％，男性的风险风险理赔占比为40％，也可以得出年龄这一数据相应的权重值，如0-20岁的风险理赔占比为10％，20-40岁的风险理赔占比为30％，40-60岁的风险理赔占比为60％等，也可以利用所述正样本数据集与所述负样本数据集对应的各项数据之间的差异性分析得出各项数据相应的权重值。通过所述正样本数据集以及所述负样本数据集的数据特征分析得到上述各项风险项相应权重值，将该各项风险项相应权重值作为所述预设规则引擎的参数A，该与投保人相关的数据作为所述预设规则引擎的输入变量X，查找与所述投保人相关的数据对应的各项风险项的权重，并进行加权求和，进而可以输出目标值Y，该目标值Y为所述投保人的风险系数。

在上述实施例中，本方案通过获取预设时间范围内的所有医疗险保单以及重疾险保单的数据，并将所有保单数据集划分为正样本数据集以及负样本数据集，通过对所述正样本数据集以及所述负样本数据集的数据特征进行数据分析可以得出各项数据相应的权重值，或者利用所述正样本数据集与所述负样本数据集对应的各项数据之间的差异性分析得出各项数据相应的权重值，进而利用所得到的各项数据相应的权重值构建预设规则引擎，其中，该预设规则引擎对所得到的各项数据进行加权求和的规则引擎，再将与投保人相关的数据输入所述规则引擎以得到该投保人的风险系数，其中，所述投保人的风险系数为所述预设规则引擎对所得到的各项数据进行加权求和后的和值。实施本发明实施例可以分别对待核保保单以及投保人进行智能核保，该智能核保的输出结果由保单风险值和投保人风险系数两部分组成，即分别针对保单和投保人输出两个风险评估值。该方法可以有效克服现有技术中对保险保单核保过程需要依靠人工核保方式进行核保这一问题，解决了因人工核保方式而导致的占用大量人力资源、人工成本过高以及容易出现工作失误及漏洞等问题，相比传统核保方式，本方案实施例结合保险人的过去投保行为进行分析，对待核保保单的分析以及判断可以涵盖更多维度，更全面，进而有效识别出高欺诈理赔风险的保单以及投保人，从而可以为核保人的决策提供帮助，有利于做出更加科学的决策，大大减少了公司的损失。

请参阅图5，其为本发明第二实施例提供的一种智能核保方法的子流程示意图，如图5所示，所述步骤S207中的根据预设规则引擎以及与所述投保人相关的数据计算所述投保人的风险系数包括以下步骤S2071-S2074。

S2071、对所述正样本数据集以及所述负样本数据集进行数据处理以得到各项数据对应的权重值。

具体地，在一实施例中，可以计算所述正样本数据集以及所述负样本数据集中的各项数据在整体数据上的相应的占比情况来得到各项数据对应的权重值，在其他实施例中，也可以利用所述正样本数据集与所述负样本数据集对应的各项数据之间的差异性分析得出各项数据相应的权重值。

S2072、利用所得到的各项数据对应的权重值构建所述预设规则引擎。

具体地，通过对所述正样本数据集以及所述负样本数据集的数据特征进行处理分析得到上述各项数据相应权重值，将该各项数据相应权重值作为所述预设规则引擎的参数以构建所述预设规则引擎，在一实施例中，该预设规则引擎为对与所述投保人相关的数据对应的各项数据进行加权求和的规则引擎。

S2073、获取与所述投保人相关的数据。

具体地，与所述投保人相关的数据包括投保人静态数据以及投保人历史行为数据，所述投保人历史行为数据可例如为历史投保数据以及历史理赔数据。所述投保人静态数据可例如为投保客户姓名、年龄、身份证号等个人数据；所述历史投保数据包括过去投保次数、投保险种信息、过去投保时间等投保数据；历史理赔数据包括过去了理赔次数、过去风险理赔次数、过去投保短期险占比等理赔数据。

S2074、基于所获取的与所述投保人相关的数据，利用预设规则引擎计算所述投保人的风险系数。

具体地，将该与投保人相关的数据作为所述预设规则引擎的输入变量X，利用预设规则引擎进行加权求和，进而可以输出目标值Y，该目标值Y为所述投保人的风险系数。

请参阅图6，其为本发明第一实施例提供的一种智能核保装置100的示意性框图。如图6所示，该智能核保装置100对应于图1所示的智能核保方法。该智能核保装置100包括用于执行上述智能核保方法的单元，该智能核保装置100可以被配置于终端或者服务器中，其中，该终端可以是智能手机、平板电脑、笔记本电脑、台式电脑和个人数字助理等电子设备；该服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。具体地，请参阅图6，该智能核保装置100包括第一获取单元101、第一划分单元102、第一训练单元103、第二获取单元104以及第一评估单元105。

所述第一获取单元101用于从保险数据库中获取历史数据集。

具体地，所述历史数据集为所述保险数据库中预设时间范围内的所有保单数据的集合；所述保单可以为医疗险保单以及重疾险保单，即该历史数据集是指在所述保险数据库中预设时间范围内的所有医疗险保单以及重疾险保单对应的保单数据的集合。所述医疗险保单以及重疾险保单对应的保单数据包括保单的静态数据以及保单的行为数据；其中，所述保单的静态数据包括投保客户信息、保单信息、客户体检信息、险种属性信息等信息，所述保单的静态数据为不会因客户的每次投保或理赔行为的不同而发生改变的数据；所述保单的行为数据包括核保结果信息、理赔案件信息、理赔账单信息、疾病理赔信息等信息，所述保单的行为数据为会因客户的每次投保或理赔行为的不同而发生改变的动态数据。

所述第一划分单元102用于所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集。

所述第一训练单元103用于基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型。

具体地，所述预设算法可例如为GBDT(梯度提升决策树算法)，将在所述保险数据库中预设时间范围内的所有医疗险保单以及重疾险保单对应的保单数据集合作为该GBDT的二元分类算法的输入变量，使用GBDT的二元分类算法对该输入变量进行训练建模以及验证该模型，最终获得最优化核保预警模型。

所述第二获取单元104用于获取待核保保单的数据。

所述第一评估单元105用于利用所述核保预警模型对所获取的待核保保单的数据进行评估以得到所述待核保保单的风险值。

具体地，所述核保预警模型用于对该待核保保单对应的数据特征进行评估以分析该保单是否为高风险保单，其中评估得到的保单风险值用于表明该保单为高风险保单的可能性，该保单风险值比如为风险概率，或者正常保单或者高风险保单两种结果。

请参阅图7，其为本发明第一实施例提供的一种智能核保装置100的第一划分单元102的示意性框图，所述第一划分单元102包括日期获取单元1011、天数计算单元1012、天数判断单元1013、第一划分子单元1014以及第二划分子单元1015。

所述日期获取单元1011用于获取所述历史数据集中每一保单的首次生效日以及事故发生日。

具体地，从每一保单的静态数据中获取该保单首次生效的日期，以及从每一保单的行为数据中获取该保单理赔案件信息中的事故发生当天的日期。

所述天数计算单元1012用于计算每一保单的首次生效日以及事故发生日之间间隔天数。

所述天数判断单元1013用于判断每一保单的间隔天数是否大于预设天数。

所述第一划分子单元1014用于若所述间隔天数大于预设天数，将该间隔天数所对应的保单划分到正样本数据集中。

所述第二划分子单元1015用于若所述间隔天数不大于预设天数，将该间隔天数所对应的保单划分到负样本数据集中。

请参阅图8，其为本发明第一实施例提供的一种智能核保装置100的第一训练单元103的示意性框图，所述第一训练单元103包括构建单元1031以及第一训练子单元1032。

所述构建单元1031用于根据所述正样本数据集以及负样本数据集分别构建正样本特征宽表以及负样本特征宽表。

具体地，所述正样本特征宽表包括正样本特征训练宽表以及正样本特征校验宽表，所述负样本特征宽表包括负样本特征训练宽表以及负样本特征校验宽表。所述构建单元1031具体用于将所述正样本数据集按预设比例随机划分为正样本训练集和正样本校验集；用于获取所述正样本训练集和正样本校验集中每一保单的静态数据以及行为数据；还用于利用所述正样本训练集以及正样本校验集的静态数据以及行为数据分别构建所述正样本特征训练宽表以及正样本特征校验宽表；所述构建单元1031具体还用于将所述负样本数据集按预设比例随机划分为负样本训练集和负样本校验集；用于获取所述负样本训练集和负样本校验集中每一保单的静态数据以及行为数据；以及用于利用所述负样本训练集以及负样本校验集的静态数据以及行为数据分别构建所述负样本特征训练宽表以及负样本特征校验宽表。

所述第一训练子单元1032用于基于所述正样本特征宽表以及负样本特征宽表，通过GBDT算法建模训练以得到核保预警模型。

具体地，所述第一训练子单元1032用于初始化GBDT算法的函数；用于利用所述正样本特征训练宽表以及负样本特征训练宽表对该GBDT算法的函数进行训练建模以得到核保预警模型；用于利用所述正样本特征校验宽表以及负样本特征校验宽表对该预测模型进行验证以得到该核保预警模型的最优损失函数；还用于利用所述最优损失函数生成最优核保预警模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述智能核保装置100和各单元的具体实现过程以及效果，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

请参阅图9，其为本发明第二实施例提供的一种智能核保装置200的示意性框图。如图9所示，本发明第二实施例提供的一种智能核保装置200是在上述实施例的基础上增加了查找单元206以及计算单元207，即所述装置200包括第三获取单元201、第二划分单元202、第二训练单元203、第四获取单元204、第二评估单元205、查找单元206、计算单元207。其中，该第三获取单元201、第二划分单元202、第二训练单元203、第四获取单元204以及第二评估单元205与上述实施例中的第一获取单元101、第一划分单元102、第一训练单元103、第二获取单元104以及第一评估单元105类似，由于其应用过程以及相应功能与上述实施例中所对应的单元类似，在此不再赘述。

所述查找单元206用于基于所述待核保保单的投保人静态数据，查找所述保险数据库是否存在所述投保人。

具体地，获取该待核保保单的投保人数据，例如，投保人的姓名、身份证号以及手机号码等数据，根据所述投保人的姓名、身份证号码以及手机号码等数据在所述保险数据库中查找是否存在所述投保人，即查找判断该投保人是否为已经投保过或者理赔过的客户。

所述计算单元207用于若存在所述投保人，根据预设规则引擎以及与所述投保人相关的数据计算所述投保人的风险系数；其中，所述与所述投保人相关的数据包括所述投保人静态数据以及投保人历史行为数据。

具体地，与所述投保人相关的数据包括投保人静态数据以及投保人历史行为数据，所述投保人历史行为数据可例如为历史投保数据以及历史理赔数据，所述预设规则引擎为利用所述正样本数据集以及所述负样本数据集的数据特征分析得到的规则引擎，通过预先设定的规则引擎来明确以该与所述投保人相关数据为输入数据的输出结果，其输出结果为所述投保人的风险系数。其中，在一实施例中，该预设规则引擎用于对与所述投保人相关的数据对应的各项风险项进行加权求和。例如，在一实施例中，通过对所述正样本数据集以及所述负样本数据集的数据特征进行数据分析可以得出各项数据相应的权重值，其中，将各项数据作为保单的各项风险值，其中，所述各项风险项包括性别、年龄、职业、体检结果、过去投保次数、过去了理赔次数、过去风险理赔次数、过去投保短期险占比等，具体地，计算所述正样本数据集以及所述负样本数据集中的各项数据在整体数据上的相应的占比情况，也可以利用所述正样本数据集与所述负样本数据集对应的各项数据之间的差异性分析得出各项数据相应的权重值。通过所述正样本数据集以及所述负样本数据集的数据特征分析得到上述各项风险项相应权重值，将该各项风险项相应权重值作为所述预设规则引擎的参数A，该与投保人相关的数据作为所述预设规则引擎的输入变量X，查找与所述投保人相关的数据对应的各项风险项的权重，并进行加权求和，进而可以输出目标值Y，该目标值Y为所述投保人的风险系数。

请参阅图10，其为本发明第二实施例提供的一种智能核保装置200的计算单元207的示意性框图，所述计算单元207包括数据处理单元2071、引擎构建单元2072、数据获取单元2073以及计算子单元2074。

所述数据处理单元2071用于对所述正样本数据集以及所述负样本数据集进行数据处理以得到各项数据对应的权重值。

所述引擎构建单元2072用于利用所得到的各项数据对应的权重值构建所述预设规则引擎。

所述数据获取单元2073用于获取与所述投保人相关的数据。

所述计算子单元2074用于基于所获取的与所述投保人相关的数据，利用预设规则引擎计算所述投保人的风险系数。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述装置200和各单元的具体实现过程以及效果，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述系统可以实现为一种计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，其为本发明实施例提供的一种计算机设备的示意性框图。该计算机设备600可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑和个人数字助理等电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图11，该计算机设备600包括通过系统总线601连接的处理器602、存储器和网络接口605，其中，存储器可以包括非易失性存储介质603和内存储器604。

该非易失性存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032包括程序指令，该程序指令被执行时，可使得处理器602执行一种智能核保方法。

该处理器602用于提供计算和控制能力，以支撑整个计算机设备600的运行。

该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境，该计算机程序6032被处理器602执行时，可使得处理器602执行一种智能核保方法。

该网络接口605用于与其它设备进行网络通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备600的限定，具体的计算机设备600可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器602用于运行存储在存储器中的计算机程序6032，以实现如下步骤：从保险数据库中获取历史数据集，其中，所述历史数据集为所述保险数据库中预设时间范围内的所有保单数据的集合；将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集，其中，所述正样本数据集为正常投保或理赔的保单数据的集合，所述负样本数据集为高风险保单数据的集合；基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型；获取待核保保单的数据；以及利用所述核保预警模型对所获取的待核保保单的数据进行评估以得到所述待核保保单的风险值。

在一实施例中，处理器602在实现所述智能核保方法时，还具体实现如下步骤：基于所述待核保保单的投保人静态数据，查找所述保险数据库是否存在所述投保人；以及若存在所述投保人，根据预设规则引擎以及与所述投保人相关的数据计算所述投保人的风险系数；其中，所述与所述投保人相关的数据包括所述投保人静态数据以及投保人历史行为数据。

在一实施例中，处理器602在实现所述根据预设规则引擎以及与所述投保人相关的数据计算所述投保人的风险系数的步骤时，具体实现如下步骤：。

在一实施例中，处理器602在实现所述将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集的步骤，具体实现如下步骤：获取所述历史数据集中每一保单的首次生效日以及事故发生日；计算每一保单的首次生效日以及事故发生日之间间隔天数；判断每一保单的间隔天数是否大于预设天数；若所述间隔天数大于预设天数，将该间隔天数所对应的保单划分到正样本数据集中；以及若所述间隔天数不大于预设天数，将该间隔天数所对应的保单划分到负样本数据集中。

在一实施例中，处理器602在实现所述基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型的步骤，具体实现如下步骤：根据所述正样本数据集以及负样本数据集分别构建正样本特征宽表以及负样本特征宽表，其中，所述正样本特征宽表包括正样本特征训练宽表以及正样本特征校验宽表，所述负样本特征宽表包括负样本特征训练宽表以及负样本特征校验宽表；以及基于所述正样本特征宽表以及负样本特征宽表，通过GBDT算法建模训练以得到核保预警模型。

在一实施例中，处理器602在实现所述根据所述正样本数据集以及负样本数据集分别构建正样本特征宽表以及负样本特征宽表的步骤，具体实现如下步骤：将所述正样本数据集按预设比例随机划分为正样本训练集和正样本校验集；获取所述正样本训练集和正样本校验集中每一保单的静态数据以及行为数据；利用所述正样本训练集以及正样本校验集的静态数据以及行为数据分别构建所述正样本特征训练宽表以及正样本特征校验宽表；将所述负样本数据集按预设比例随机划分为负样本训练集和负样本校验集；获取所述负样本训练集和负样本校验集中每一保单的静态数据以及行为数据；以及利用所述负样本训练集以及负样本校验集的静态数据以及行为数据分别构建所述负样本特征训练宽表以及负样本特征校验宽表。

在一实施例中，处理器602在实现所述基于所述正样本特征宽表以及负样本特征宽表，通过GBDT算法建模训练以得到核保预警模型的步骤，具体实现如下步骤：初始化GBDT算法的函数；利用所述正样本特征训练宽表以及负样本特征训练宽表对该GBDT算法的函数进行训练建模以得到核保预警模型；利用所述正样本特征校验宽表以及负样本特征校验宽表对该预测模型进行验证以得到该核保预警模型的最优损失函数；利用所述最优损失函数生成最优核保预警模型。

应当理解，在本发明实施例中，处理器602可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器602还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如上所述的智能核保方法。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例系统中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种智能核保方法，其特征在于，包括：

获取待核保保单的数据；以及

2.根据权利要求1所述的智能核保方法，其特征在于，所述方法还包括：

基于所述待核保保单的投保人静态数据，查找所述保险数据库是否存在所述投保人；以及

若存在所述投保人，根据预设规则引擎以及与所述投保人相关的数据计算所述投保人的风险系数；其中，所述与所述投保人相关的数据包括所述投保人静态数据以及投保人历史行为数据。

3.根据权利要求2所述的智能核保方法，其特征在于，所述根据预设规则引擎以及与所述投保人相关的数据计算所述投保人的风险系数，包括：

对所述正样本数据集以及所述负样本数据集进行数据处理以得到各项数据对应的权重值；

利用所得到的各项数据对应的权重值构建所述预设规则引擎；

获取与所述投保人相关的数据；以及

基于所获取的与所述投保人相关的数据，利用预设规则引擎计算所述投保人的风险系数。

4.根据权利要求1所述的智能核保方法，其特征在于，所述将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集，包括：

获取所述历史数据集中每一保单的首次生效日以及事故发生日；

计算每一保单的首次生效日以及事故发生日之间间隔天数；

判断每一保单的间隔天数是否大于预设天数；

若所述间隔天数大于预设天数，将该间隔天数所对应的保单划分到正样本数据集中；以及

若所述间隔天数不大于预设天数，将该间隔天数所对应的保单划分到负样本数据集中。

5.根据权利要求1所述的智能核保方法，其特征在于，所述预设算法包括GBDT算法；

所述基于所述正样本数据集以及负样本数据集，通过预设算法建模训练以得到核保预警模型，包括：

根据所述正样本数据集以及负样本数据集分别构建正样本特征宽表以及负样本特征宽表，其中，所述正样本特征宽表包括正样本特征训练宽表以及正样本特征校验宽表，所述负样本特征宽表包括负样本特征训练宽表以及负样本特征校验宽表；以及

基于所述正样本特征宽表以及负样本特征宽表，通过GBDT算法建模训练以得到核保预警模型。

6.根据权利要求5所述的智能核保方法，其特征在于，所述根据所述正样本数据集以及负样本数据集分别构建正样本特征宽表以及负样本特征宽表，包括：

将所述正样本数据集按预设比例随机划分为正样本训练集和正样本校验集；

获取所述正样本训练集和正样本校验集中每一保单的静态数据以及行为数据；

利用所述正样本训练集以及正样本校验集的静态数据以及行为数据分别构建所述正样本特征训练宽表以及正样本特征校验宽表；

将所述负样本数据集按预设比例随机划分为负样本训练集和负样本校验集；

获取所述负样本训练集和负样本校验集中每一保单的静态数据以及行为数据；以及

利用所述负样本训练集以及负样本校验集的静态数据以及行为数据分别构建所述负样本特征训练宽表以及负样本特征校验宽表。

7.根据权利要求5所述的智能核保方法，其特征在于，所述基于所述正样本特征宽表以及负样本特征宽表，通过GBDT算法建模训练以得到核保预警模型，包括：

初始化GBDT算法的函数；

利用所述正样本特征训练宽表以及负样本特征训练宽表对该GBDT算法的函数进行训练建模以得到核保预警模型；

利用所述正样本特征校验宽表以及负样本特征校验宽表对该预测模型进行验证以得到该核保预警模型的最优损失函数；

利用所述最优损失函数生成核保预警模型。

8.一种智能核保装置，其特征在于，包括：

第一划分单元，用于将所获取的历史数据集通过预设规则划分为正样本数据集以及负样本数据集，其中，所述正样本数据集为正常投保或理赔的保单数据的集合，所述负样本数据集为高风险保单数据的集合；

第二获取单元，用于获取待核保保单的数据；以及

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的智能核保方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的智能核保方法。