CN112837168A

CN112837168A - 保单处理方法、装置、介质及电子设备

Info

Publication number: CN112837168A
Application number: CN201911164268.8A
Authority: CN
Inventors: 刘世强
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2021-05-25

Abstract

本发明提供了一种保单处理方法、装置、介质以及电子设备。该方法可以通过获取当前保单数据，从该当前保单数据中提取特征数据，所述特征数据的中包含当前保单数据的属性和所述属性的属性值，然后通过预设模型根据该当前保单数据的属性和所述属性的属性值确定当前保单数据的退保概率和/或不退保概率，以此方式可以有效地预测出保单数据是否存在退保的风险，进而避免客户退保，减少保险公司的损失，从而为保险公司保留了客户资源。

Description

保单处理方法、装置、介质及电子设备

技术领域

本发明涉及数据处理的技术领域，具体而言，涉及一种保单处理方法、装置、介质及电子设备。

背景技术

随着互联网技术的快速发展，客户可以在线上进行投保，这样导致保险公司的保险产品也越来越多了，进而产生了大量的保单。目前，在保单生效后，客户常常因各种原因提出终止保险合同，即主动发起退保。保险公司每年有许多保单发生退保，客户退保无论是对客户还是对保险公司都会带来一定的损失。退保的发生存在较大的不可预见性，一般难以提前介入挽留客户。因此如何基于保单数据预测客户是否退保成了保险公司目前遇到的技术问题。针对该技术问题，本发明提出了一种保单处理方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种保单处理方法、装置、介质及电子设备，进而至少可以在一定程度上避免客户退保，减少保险公司的损失，从而为保险公司保留了客户资源。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种保单处理方法，包括：获取历史保单数据，所述历史保单数据包括第一历史保单数据和第二历史保单数据，所述第一历史保单数据包括含有退保记录的历史保单数据，第二历史保单数据包括不含退保记录的历史保单数据；从所述第一历史保单数据中提取第一特征数据，以及从第二历史保单中提取第二特征数据，所述第一特征数据包括所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值，所述第二特征数据包括所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值；基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练梯度提升分类器，得到所述预设模型；获取当前保单数据；从所述当前保单数据中提取特征数据，所述特征数据的中包含所述当前保单数据的属性和所述属性的属性值；通过预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率。

在本发明的一些实施例中，所述预测模型中包含有所述决策树，所述决策树的每个分支包含有所述历史保单数据的部分属性、所述历史保单数据的部分属性的属性值、以及退保概率和/或不退保概率。

在本发明的一些实施例中，基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练所述梯度提升分类器包括：通过梯度提升决策树算法根据所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值、以及所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值计算所述历史保单数据中每个属性的信息增益；根据所述历史保单数据中每个属性的信息增益确定每个属性在所述决策树中的分布情况；基于每个属性在所述决策树中的分布情况和所述历史保单数据中标记的退保记录训练所述梯度提升分类器。

在本发明的一些实施例中，所述梯度提升决策树算法的公式为:

其中，S为历史保单数据的集合，A为历史保单数据中的属性，Entropy(S)为S的信息熵，value(A)为A的属性值的集合，v为A的属性值的集合的一个属性值，S_v为S中A的属性值为v时的历史数据的集合，Entropy(S_v)为S_v的信息熵。

在本发明的一些实施例中，该方法还包括：获取测试数据，所述测试数据包括含有退保记录的历史保单数据和不含退保记录的历史保单数据；通过所述预设模型获取所述测试数据的退保概率；对所述测试数据的退保概率进行排序，并根据排序结果将大于等于预设阈值的退保概率的测试数据作为待退保数据；根据所述测试数据的实际退保数量和所述待退保数据的实际退保数量确定所述测试数据的退保覆盖率；根据所述待退保数据的实际退保数量和所述待退保数据的待退保数量确定所述测试数据的退保准确率；以及根据所述测试数据的退保覆盖率和所述测试数据的退保准确率对所述预设模型进行评估。

在本发明的一些实施例中，通过预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率包括：根据所述预设模型中的决策树确定所述当前保单数据的属性和所述属性的属性值在所述决策树的分支；根据所述分支的信息确定所述当前保单数据的退保概率和/或不退保概率。

在本发明的一些实施例中，根据所述分支的信息确定所述当前保单数据的退保概率和/或不退保概率包括：根据所述分支中包含的属性、属性值、以及退保概率和/或不退保概率确定所述当前保单数据的退保概率和/或不退保概率。

根据本发明实施例的第二方面，提供了一种保单处理装置，包括：第一获取模块，用于获取历史保单数据，所述历史保单数据包括第一历史保单数据和第二历史保单数据，所述第一历史保单数据包括含有退保记录的历史保单数据，第二历史保单数据包括不含退保记录的历史保单数据；第一提取模块，用于从所述第一历史保单数据中提取第一特征数据，以及从第二历史保单中提取第二特征数据，所述第一特征数据包括所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值，所述第二特征数据包括所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值；训练模块，基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练梯度提升分类器，得到所述预设模型；第二获取模块，用于获取保单数据；第二提取模块，用于从所述保单数据中提取特征数据，所述特征数据的中包含所述保单数据的属性和所述属性的属性值；第一确定模块，用于通过预设模型根据所述保单数据的属性和所述属性的属性值确定所述保单数据的退保概率和/或不退保概率。

在本发明的一些实施例中，上述训练模块包括：计算模块，用于通过梯度提升决策树算法根据所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值、以及所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值计算所述历史保单数据中每个属性的信息增益；第二确定模块，用于根据所述历史保单数据中每个属性的信息增益确定每个属性在所述决策树中的分布情况；训练子模块，基于每个属性在所述决策树中的分布情况和所述历史保单数据中标记的退保记录训练所述梯度提升分类器。

在本发明的一些实施例中，该装置还包括：第三获取模块，用于获取测试数据，所述测试数据包括含有退保记录的历史保单数据和不含退保记录的历史保单数据；第四获取模块，用于通过所述预设模型获取所述测试数据的退保概率；排序模块，用于对所述测试数据的退保概率进行排序，并根据排序结果将大于等于预设阈值的退保概率的测试数据作为待退保数据；第三确定模块，用于根据所述测试数据的实际退保数量和所述待退保数据的实际退保数量确定所述测试数据的退保覆盖率；第四确定模块，用于根据所述待退保数据的实际退保数量和所述待退保数据的待退保数量确定所述测试数据的退保准确率；以及评估模块，用于根据所述测试数据的退保覆盖率和所述测试数据的退保准确率对所述预设模型进行评估。

在本发明的一些实施例中，上述第一确定模块包括：确定分支模块，用于根据所述预设模型中的决策树确定所述当前保单数据的属性和所述属性的属性值在所述决策树的分支；确定概率模块，用于根据所述当前分支的信息确定所述当前保单数据的退保概率和/或不退保概率。

在本发明的一些实施例中，上述确定概率模块配置为：根据所述分支中包含的属性、属性值、以及退保概率和/或不退保概率确定所述当前保单数据的退保概率和/或不退保概率。

根据本发明实施例的第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的保单处理方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的保单处理方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，获取保单数据，并从该保单数据中提取特征数据，所述特征数据的中包含所述保单数据的属性和所述属性的属性值，然后通过预设模型根据保单数据的属性和所述属性的属性值确定保单数据的退保概率和/或不退保概率，以此方式可以有效地预测出保单数据是否存在退保的风险，进而避免客户退保，减少保险公司的损失，从而为保险公司保留了客户资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的保单处理方法或保单处理装置的示例性系统架构的示意图；

图2示意性示出了根据本发明的实施例的保单处理方法的流程图；

图3示意性示出了根据本发明的另一个实施例的保单处理方法的流程图；

图4示意性示出了根据本发明的实施例的预设模型中决策树的示意图；

图5示意性示出了根据本发明的另一个实施例的保单处理方法的流程图；

图6示意性示出了根据本发明的另一个实施例的保单处理方法的流程图；

图7示意性示出了根据本发明的实施例的保单处理装置的方框图；

图8示意性示出了根据本发明的另一个实施例的保单处理装置的方框图；

图9示意性示出了根据本发明的另一个实施例的保单处理装置的方框图；

图10示意性示出了根据本发明的另一个实施例的保单处理装置的方框图；

图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的保单处理方法或保单处理装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了当前保单数据，服务器105可以从该当前保单数据中提取特征数据，所述特征数据的中包含当前保单数据的属性和属性的属性值，然后通过预设模型根据当前保单数据的属性和属性的属性值确定当前保单数据的退保概率和/或不退保概率，以此方式可以有效地预测出当前保单数据是否存在退保的风险，进而避免客户退保，减少保险公司的损失，从而为保险公司保留了客户资源。

在一些实施例中，本发明实施例所提供的保单处理方法一般由服务器105执行，相应地，保单处理装置一般设置于服务器105中。在另一些实施例中，某些终端可以具有与服务器相似的功能从而执行本方法。因此，本发明实施例所提供的保单处理方法不限定在服务器端执行。

图2示意性示出了根据本发明的实施例的保单处理方法的流程图。

如图2所示，保单处理方法可以包括步骤S210～步骤S260。

在步骤S210中，获取历史保单数据，所述历史保单数据包括第一历史保单数据和第二历史保单数据，所述第一历史保单数据包括含有退保记录的历史保单数据，第二历史保单数据包括不含退保记录的历史保单数据。

在步骤S220中，从所述第一历史保单数据中提取第一特征数据，以及从第二历史保单中提取第二特征数据，所述第一特征数据包括所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值，所述第二特征数据包括所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值。

在步骤S230中，基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练梯度提升分类器，得到所述预设模型。

在步骤S240中，获取当前保单数据。

在步骤S250中，从所述当前保单数据中提取特征数据，所述特征数据的中包含所述当前保单数据的属性和所述属性的属性值。

在步骤S260中，通过预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率。

该方法可以基于含有退保记录的历史保单数据和不含退保记录的历史保单数据对梯度提升分类器进行训练，并得到所述预设模型，以此方式训练得到的预设模型在判断当前保单数据是否存在退保风险时，确定的退保概率更加准确。例如，获取当前保单数据，并从该当前保单数据中提取特征数据，所述特征数据的中包含当前保单数据的属性和所述属性的属性值，然后通过预设模型根据当前保单数据的属性和所述属性的属性值确定当前保单数据的退保概率和/或不退保概率，以此方式可以有效地预测出保单数据是否存在退保的风险，进而避免客户退保，减少保险公司的损失，从而为保险公司保留了客户资源。

在本发明的一个实施例中，上述历史保单数据第一历史保单数据和第二历史保单数据。其中，第一历史保单数据包括含有退保记录的历史保单数据。例如，某客户在2018.9.12对其进行投保的一款保险产品进行了退保申请，并成功办理了退保流程。该客户的保单数据就可以视为第一历史保单数据。再例如，某客户在2019.7.22对一款保险产品进行投保，并成功办理了投保流程，而且至今没有收到该客户的退保申请。该客户的保单数据就可以视为第二历史保单数据。

在本发明的一个实施例中，上述含有退保记录的历史保单数据可以包括但不限于理赔记录的情况、保险产品的种类、投保人或被保人的年龄。其中，理赔记录的情况可以包括有理赔记录、无理赔记录。保险产品的种类可以包括易退的保保险产品、不易退保的保险产品。投保人或被保人的年龄可以包括易退保年龄、不易退保年龄。

在本发明的一个实施例中，从上述含有退保记录的历史保单数据中提取特征数据，所述特征数据的中包含该保单数据的属性(即第一历史保单数据的属性)和该保单数据的属性的属性值(即第一历史保单数据的属性的属性值)。其中，该保单数据的属性可以包括但不限于理赔记录、投保人或被保人的年龄、保险产品的种类。当该保单数据的属性为理赔记录时，该属性的属性值为有理赔记录、无理赔记录。当该保单数据的属性为投保人或被保人的年龄时，该属性的属性值为易退保年龄、不易退保年龄。当该保单数据的属性为保险产品的种类时，该属性的属性值为易退的保保险产品、不易退保的保险产品。

在本发明的一个实施例中，上述不含退保记录的历史保单数据可以包括但不限于理赔记录的情况、保险产品的种类、投保人或被保人的年龄。其中，理赔记录的情况可以包括有理赔记录、无理赔记录。保险产品的种类可以包括易退的保保险产品、不易退保的保险产品。投保人或被保人的年龄可以包括易退保年龄、不易退保年龄。

在本发明的一个实施例中，从上述不含退保记录的历史保单数据中提取特征数据，所述特征数据的中包含该保单数据的属性(即第二历史保单数据的属性)和该保单数据的属性的属性值(即第二历史保单数据的属性的属性值)。其中，该保单数据的属性可以包括但不限于理赔记录、投保人或被保人的年龄、保险产品的种类。当该保单数据的属性为理赔记录时，该属性的属性值为有理赔记录、无理赔记录。当该保单数据的属性为投保人或被保人的年龄时，该属性的属性值为易退保年龄、不易退保年龄。当该保单数据的属性为保险产品的种类时，该属性的属性值为易退的保保险产品、不易退保的保险产品。

在本发明的一个实施例中，上述预测模型中包含有决策树，所述决策树的每个分支包含有所述历史保单数据的部分属性、所述历史保单数据的部分属性的属性值、以及退保概率和/或不退保概率，具体可以参考图4。在决策树200中的退保概率可以基于历史数据中的退保记录和分支信息来确定。

在本发明的一个实施例中，上述当前保单数据可以包括但不限于理赔记录的情况、保险产品的种类、投保人或被保人的年龄。其中，理赔记录的情况可以包括有理赔记录、无理赔记录。保险产品的种类可以包括易退的保保险产品、不易退保的保险产品。投保人或被保人的年龄可以包括易退保年龄、不易退保年龄。

在本发明的一个实施例中，从上述当前保单数据中提取特征数据，所述特征数据的中包含当前保单数据的属性和该当前保单数据的属性的属性值。其中，当前保单数据的属性可以包括但不限于理赔记录、投保人或被保人的年龄、保险产品的种类。当该当前保单数据的属性为理赔记录时，该属性的属性值为有理赔记录、无理赔记录。当该当前保单数据的属性为投保人或被保人的年龄时，该属性的属性值为易退保年龄、不易退保年龄。当该当前保单数据的属性为保险产品的种类时，该属性的属性值为易退的保保险产品、不易退保的保险产品。

在本发明的一个实施例中，上述预设模型可以基于历史保单数据训练得到的。在训练结束后，该预设模型中包含有用于判断当前保单数据是否存在退保风险的决策树，如图4所示的决策树200，该决策树200从左到右一共包括四个分支，依次为理赔记录-有-产品种类-易退保产品-退保概率50％、理赔记录-有-产品种类-不易退保产品-退保概率20％、理赔记录-无-年龄-易退保年龄-退保概率80％、理赔记录-无-年龄-不易退保年龄-退保概率30％。其中，在决策树200中的理赔记录、产品种类、年龄为历史保单数据的属性，在决策树200中的有、无、易退保产品、不易退保产品、易退保年龄、不易退保年龄为历史保单数据的属性的属性值。退保概率50％是指如果一个客户的保单数据中包含有理赔记录、投保的保险产品为易退保产品，则该客户退保的概率为20％。退保概率20％是指如果一个客户的保单数据中包含有理赔记录、投保的保险产品为不易退保产品，则该客户退保的概率为20％。退保概率80％是指如果一个客户的保单数据中包含无理赔记录、投保人或被保人的年龄为易退保年龄，则该客户退保的概率为80％。退保概率30％是指如果一个客户的保单数据中包含无理赔记录、投保人或被保人的年龄为不易退年龄，则该客户退保的概率为30％。

需要说明的是，在决策树200中的有是指有理赔记录，无是指无理赔记录，产品种类是指保险产品的种类。

基于前述方案，通过上述决策树200可以确定出步骤S260中的当前保单数据的退保概率或不退保概率。其中，不退保概率为1-决策树200中的退保概率。不退保概率在决策树200中未示出，在本实例中的不退保概率可以视为客户继续续费的概率。基于该退保概率可以预测出该保单数据否存在退保风险。

需要说明的是，上述决策树200只是示例的展示出保险行业中的部分属性和属性值。也就是说，其他保险行业中的属性和属性值只要造成客户退保的因素都可以展示在决策树200，展示在决策树200的属性和属性值具体根据训练预设模型的历史保单数据决定。

图3示意性示出了根据本发明的另一个实施例的保单处理方法的流程图。

如图3所示，上述步骤S250具体可以包括步骤S310和步骤S320。

在步骤S310中，根据所述预设模型中的决策树确定所述当前保单数据的属性和所述属性的属性值在所述决策树的分支。

在步骤S320中，根据所述分支的信息确定所述当前保单数据的退保概率和/或不退保概率。

该方法可以根据上述预设模型中的决策树来确定该当前保单数据的属性和所述属性的属性值在上述决策树的分支，然后根据该分支的信息确定当前保单数据的退保概率和/或不退保概率，以此方式确定出的退保概率和/或不退保概率更加准确。

在本发明的一个实施例中，根据上述分支的信息确定当前保单数据的退保概率和/或不退保概率包括：根据分支中包含的属性、属性值、以及退保概率和/或不退保概率确定当前保单数据的退保概率和/或不退保概率。

参考图4，决策树200从左到右一共包括四个分支，每个分支的信息分别为理赔记录-有-产品种类-易退保产品-退保概率50％、理赔记录-有-产品种类-不易退保产品-退保概率20％、理赔记录-无-年龄-易退保年龄-退保概率80％、理赔记录-无-年龄-不易退保年龄-退保概率30％。

在本实例中，如果获取的当前保单数据的属性包括理赔记录、保险产品的种类、以及投保人或被保人的年龄，通过决策树200可以确定出这些属性分布在决策树200的四个分支上。进而如果理赔记录的属性值为有、保险产品的种类为易退保的保险产品，则决策树200可以确定出该当前保单数据分布在决策树200的左边第一个分支，即根据该分支的退保概率可以确定该当前保单数据的退保概率为50％和/或不退保概率也为50％(图中未示出)。

再例如，如果理赔记录的属性值为无、投保人或被保人的年龄为易退保年龄，则决策树200可以确定出该当前保单数据分布在决策树200的从左边数第三个分支，即根据该分支的退保概率可以确定该当前保单数据的退保概率为80％和/或不退保概率也为20％(图中未示出)。

在本发明的一个实施例中，可以根据退保概率将退保风险分为三个等级。例如，将退保概率为1％～40％定义为低退保风险。将将退保概率为40％～70％定义为中退保风险。将退保概率为70％～100％定义为高退保风险。当通过预设模型确定出保单数据为高退保风险时，需要保险公司的相关人员与该保单数据的客户进行联系，以对其进行及时挽留。

图5示意性示出了根据本发明的另一个实施例的保单处理方法的流程图。

如图5所示，上述步骤230可以包括步骤S510～步骤S530。

在步骤S510中，通过梯度提升决策树算法根据所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值、以及所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值计算所述历史保单数据中每个属性的信息增益。

在步骤S520中，根据所述历史保单数据中每个属性的信息增益确定每个属性在所述决策树中的分布情况。

在步骤S530中，基于每个属性在所述决策树中的分布情况和所述历史保单数据中标记的退保记录训练所述梯度提升分类器。

该方法可以根据历史保单数据中每个属性的信息增益确定每个属性在所述决策树中的分布情况，以此方式可以将判别力高的属性设置在决策树的根节点，即这样可以容易的找到影响客户退保的主要因素。后然后基于每个属性在所述决策树中的分布情况和所述历史保单数据中标记的退保记录训练所述梯度提升分类器，以此方式训练梯度提升分类器在后续判断当前保单数据是否存在退保风险时，确定的退保概率更加准确。

在本发明的一个实施例中，上述梯度提升决策树算法的公式为：

在本发明的一个实施例中，通过上述公式可以确定出历史保单数据中每个属性的信息熵。根据每个属性的信息熵可以确定每个属性在决策树的位置。例如，历史保单数据中包含三个属性，分别为理赔记录、产品种类、年龄。根据上述公式分别计算属性为理赔记录、产品种类、年龄的信息熵，计算结果为理赔记录的信息熵最高(即理赔记录为最有判别力的属性)，产品种类的信息熵和年龄的信息熵相近。基于该计算结果可以确定的属性分布情况参考图4，将理赔记录作为根节点，将产品种类和年龄作为理赔记录的子节点。

图6示意性示出了根据本发明的另一个实施例的保单处理方法的流程图。

如图6所示，在对梯度提升分类器训练结束后，上述方法还包括步骤S610～步骤S660。

在步骤S610中，获取测试数据，所述测试数据包括含有退保记录的历史保单数据和不含退保记录的历史保单数据。

在步骤S620中，通过所述预设模型获取所述测试数据的退保概率。

在步骤S630中，对所述测试数据的退保概率进行排序，并根据排序结果将大于等于预设阈值的退保概率的测试数据作为待退保数据。

在步骤S640中，根据所述测试数据的实际退保数量和所述待退保数据的实际退保数量确定所述测试数据的退保覆盖率。

在步骤S650中，根据所述待退保数据的实际退保数量和所述待退保数据的待退保数量确定所述测试数据的退保准确率。

在步骤S660中，根据所述测试数据的退保覆盖率和所述测试数据的退保准确率对所述预设模型进行评估。

该方法可以根据测试数据的退保覆盖率和测试数据的退保准确率对上述预设模型进行评估，这样可以进一步提升后续通过预设模型确定退保概率的准确度。

在本发明的一个实施例中，测试数据可以包括多个客户的历史保单数据，例如测试数据为1000个客户的历史保单数据，其中，有300个客户已经退保，700个客户没有退保。在本实例中，通过上述预设模型对1000个客户的历史保单户数进行处理，可以得到1000个退保概率，以从小到大的顺序对其进行排序，将大于等于预设阈值的退保概率视为将要退保。例如，预设阈值为70％，具体可以根据实际情况进行调整。

基于前述例子，根据排序结果确定出有200个退保概率大于等于上述预设阈值，将这200个客户的历史保单数据作为待退保数据。其中，该200个客户的历史保单数据中有180个客户是实际退保的。根据测试数据的实际退保数量(300)和待退保数据的实际退保数量(180)确定所述测试数据的退保覆盖率为180/300＝60％。根据待退保数据的实际退保数量(180)和待退保数据的待退保数量(200)确定测试数据的退保准确率为180/200＝90％。在这种情况下，根据测试数据的退保覆盖率和测试数据的退保准确率对所述预设模型进行评估。一般地测试数据的退保覆盖率和测试数据的退保准确率越大对预设模型的评估结果越稳定，在本实施例中，退保覆盖率较低，可以继续增加历史保单数据重新对梯度提升分类器进行训练，或者也可以对预设阈值进行调整，再重新基于测试数据对预设模型进行评估。

图7示意性示出了根据本发明的实施例的保单处理装置的方框图。

如图7所示，保单处理装置700包括第一获取模块701、第一提取模块702和训练模块703、第二获取模块704、第二提取模块705和第一确定模块706。

具体地，第一获取模块701，用于获取历史保单数据，所述历史保单数据包括第一历史保单数据和第二历史保单数据，所述第一历史保单数据包括含有退保记录的历史保单数据，第二历史保单数据包括不含退保记录的历史保单数据。

第一提取模块702，用于从所述第一历史保单数据中提取第一特征数据，以及从第二历史保单中提取第二特征数据，所述第一特征数据包括所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值，所述第二特征数据包括所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值

训练模块703，基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练梯度提升分类器，得到所述预设模型

第二获取模块704，用于获当前取保单数据。

第二提取模块705，用于从所述当前保单数据中提取特征数据，所述特征数据的中包含所述保单数据的属性和所述属性的属性值。

第一确定模块706，用于通过预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率。

该保单处理装置700可以基于含有退保记录的历史保单数据和不含退保记录的历史保单数据对梯度提升分类器进行训练，并得到所述预设模型，以此方式训练得到的预设模型在判断当前保单数据是否存在退保风险时，确定的退保概率更加准确。例如，获取当前保单数据，并从该当前保单数据中提取特征数据，所述特征数据的中包含当前保单数据的属性和所述属性的属性值，然后通过预设模型根据当前保单数据的属性和所述属性的属性值确定当前保单数据的退保概率和/或不退保概率，以此方式可以有效地预测出保单数据是否存在退保的风险，进而避免客户退保，减少保险公司的损失，从而为保险公司保留了客户资源。

根据本发明的实施例，该保单处理装置700可以用于实现图2实施例描述的保单处理方法。

图8示意性示出了根据本发明的另一个实施例的保单处理装置的方框图。

如图8所示，上述第一确定模块706包括确定分支模块706-1和确定概率模块706-2。

具体地，确定分支模块706-1，用于根据所述预设模型中的决策树确定所述当前保单数据的属性和所述属性的属性值在所述决策树的分支。

确定概率模块706-2，用于根据所述分支的信息确定所述当前保单数据的退保概率和/或不退保概率。

该上述第一确定模块706可以根据上述预设模型中的决策树来确定该当前保单数据的属性和所述属性的属性值在上述决策树的分支，然后根据该分支的信息确定当前保单数据的退保概率和/或不退保概率，以此方式确定出的退保概率和/或不退保概率更加准确。

根据本发明的实施例，该上述第一确定模块706可以用于实现图3实施例描述的保单处理方法。

图9示意性示出了根据本发明的另一个实施例的保单处理装置的方框图。

如图9所示，上述训练模块703包括计算模块703-1、第二确定模块703-2和训练子模块703-3。

具体地，计算模块703-1，用于通过梯度提升决策树算法根据所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值、以及所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值计算所述历史保单数据中每个属性的信息增益，

第二确定模块703-2，用于根据所述历史保单数据中每个属性的信息增益确定每个属性在所述决策树中的分布情况。

训练子模块703-3，基于每个属性在所述决策树中的分布情况和所述历史保单数据中标记的退保记录训练所述梯度提升分类器。

该训练模块703可以根据历史保单数据中每个属性的信息增益确定每个属性在所述决策树中的分布情况，以此方式可以将判别力高的属性设置在决策树的根节点，即这样可以容易的找到影响客户退保的主要因素。后然后基于每个属性在所述决策树中的分布情况和所述历史保单数据中标记的退保记录训练所述梯度提升分类器，以此方式训练梯度提升分类器在后续判断当前保单数据是否存在退保风险时，确定的退保概率更加准确。

根据本发明的实施例，该训练模块703可以用于实现图5实施例描述的保单处理方法。

图10示意性示出了根据本发明的另一个实施例的保单处理装置的方框图。

如图10所示，上述保单处理装置700包括第三获取模块707、第四获取模块708、排序模块709、第三确定模块710、第四确定模块711和评估模块712。

具体地，第三获取模块707，用于获取测试数据，所述测试数据包括含有退保记录的历史保单数据和不含退保记录的历史保单数据。

第四获取模块708，用于通过所述预设模型获取所述测试数据的退保概率。

排序模块709，用于对所述测试数据的退保概率进行排序，并根据排序结果将大于等于预设阈值的退保概率的测试数据作为待退保数据。

第三确定模块710，用于根据所述测试数据的实际退保数量和所述待退保数据的实际退保数量确定所述测试数据的退保覆盖率。

第四确定模块711，用于根据所述待退保数据的实际退保数量和所述待退保数据的待退保数量确定所述测试数据的退保准确率。

评估模块712，用于根据所述测试数据的退保覆盖率和所述测试数据的退保准确率对所述预设模型进行评估。

该保单处理装置700可以根据测试数据的退保覆盖率和测试数据的退保准确率对上述预设模型进行评估，这样可以进一步提升后续通过预设模型确定退保概率的准确度。

根据本发明的实施例，该保单处理装置700可以用于实现图6实施例描述的保单处理方法。

由于本发明的示例实施例的保单处理装置的各个模块可以用于实现上述2～图6描述的保单处理方法的示例实施例的步骤，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的保单处理方法的实施例。

可以理解的是，第一获取模块701、第一提取模块702、训练模块703、计算模块703-1、第二确定模块703-2、训练子模块703-3、第二获取模块704、第二提取模块705、第一确定模块706、确定分支模块706-1、确定概率模块706-2、第三获取模块707、第四获取模块708、排序模块709、第三确定模块710、第四确定模块711、以及评估模块712可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，第一获取模块701、第一提取模块702、训练模块703、计算模块703-1、第二确定模块703-2、训练子模块703-3、第二获取模块704、第二提取模块705、第一确定模块706、确定分支模块706-1、确定概率模块706-2、第三获取模块707、第四获取模块708、排序模块709、第三确定模块710、第四确定模块711、以及评估模块712中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，第一获取模块701、第一提取模块702、训练模块703、计算模块703-1、第二确定模块703-2、训练子模块703-3、第二获取模块704、第二提取模块705、第一确定模块706、确定分支模块706-1、确定概率模块706-2、第三获取模块707、第四获取模块708、排序模块709、第三确定模块710、第四确定模块711、以及评估模块712中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

下面参考图11，其示出了适于用来实现本发明实施例的电子设备的计算机系统800的结构示意图。图11示出的电子设备的计算机系统800仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的保单处理方法。

例如，所述的电子设备可以实现如图2中所示的：在步骤S210中，获取历史保单数据，所述历史保单数据包括第一历史保单数据和第二历史保单数据，所述第一历史保单数据包括含有退保记录的历史保单数据，第二历史保单数据包括不含退保记录的历史保单数据。在步骤S220中，从所述第一历史保单数据中提取第一特征数据，以及从第二历史保单中提取第二特征数据，所述第一特征数据包括所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值，所述第二特征数据包括所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值。在步骤S230中，基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练梯度提升分类器，得到所述预设模型。在步骤S240中，获取当前保单数据。在步骤S250中，从所述当前保单数据中提取特征数据，所述特征数据的中包含所述当前保单数据的属性和所述属性的属性值。在步骤S240中，通过预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种保单处理方法，其特征在于，包括：

获取历史保单数据，所述历史保单数据包括第一历史保单数据和第二历史保单数据，所述第一历史保单数据包括含有退保记录的历史保单数据，第二历史保单数据包括不含退保记录的历史保单数据；

从所述第一历史保单数据中提取第一特征数据，以及从第二历史保单中提取第二特征数据，所述第一特征数据包括所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值，所述第二特征数据包括所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值；

基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练梯度提升分类器，得到所述预设模型；

获取当前保单数据；

从所述当前保单数据中提取特征数据，所述特征数据的中包含所述当前保单数据的属性和所述属性的属性值；

通过所述预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率。

2.根据权利要求1所述的方法，其特征在于，所述预测模型中包含有所述决策树，所述决策树的每个分支包含有所述历史保单数据的部分属性、所述历史保单数据的部分属性的属性值、以及退保概率和/或不退保概率。

3.根据权利要求1所述的方法，其特征在于，基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练所述梯度提升分类器包括：

通过梯度提升决策树算法根据所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值、以及所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值计算所述历史保单数据中每个属性的信息增益；

根据所述历史保单数据中每个属性的信息增益确定每个属性在所述决策树中的分布情况；

基于每个属性在所述决策树中的分布情况和所述历史保单数据中标记的退保记录训练所述梯度提升分类器。

4.根据权利要求3所述的方法，其特征在于，所述梯度提升决策树算法的公式为：

5.根据权利要求1所述的方法，其特征在于，该方法还包括：

获取测试数据，所述测试数据包括含有退保记录的历史保单数据和不含退保记录的历史保单数据；

通过所述预设模型获取所述测试数据的退保概率；

对所述测试数据的退保概率进行排序，并根据排序结果将大于等于预设阈值的退保概率的测试数据作为待退保数据；

根据所述测试数据的实际退保数量和所述待退保数据的实际退保数量确定所述测试数据的退保覆盖率；

根据所述待退保数据的实际退保数量和所述待退保数据的待退保数量确定所述测试数据的退保准确率；以及

根据所述测试数据的退保覆盖率和所述测试数据的退保准确率对所述预设模型进行评估。

6.根据权利要求1所述的方法，其特征在于，通过预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率包括：

根据所述预设模型中的决策树确定所述当前保单数据的属性和所述属性的属性值在所述决策树的分支；

根据所述分支的信息确定所述当前保单数据的退保概率和/或不退保概率。

7.根据权利要求1所述的方法，其特征在于，根据所述分支的信息确定所述当前保单数据的退保概率和/或不退保概率包括：

根据所述分支中包含的属性、属性值、以及退保概率和/或不退保概率确定所述当前保单数据的退保概率和/或不退保概率。

8.一种保单处理装置，其特征在于，包括：

第一获取模块，用于获取历史保单数据，所述历史保单数据包括第一历史保单数据和第二历史保单数据，所述第一历史保单数据包括含有退保记录的历史保单数据，第二历史保单数据包括不含退保记录的历史保单数据；

第一提取模块，用于从所述第一历史保单数据中提取第一特征数据，以及从第二历史保单中提取第二特征数据，所述第一特征数据包括所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值，所述第二特征数据包括所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值；

训练模块，基于所述第一历史保单数据的属性和所述第一历史保单数据的属性的属性值和所述第二历史保单数据的属性和所述第二历史保单数据的属性的属性值训练梯度提升分类器，得到所述预设模型；

第二获取模块，用于获取当前保单数据；

第二提取模块，用于从所述当前保单数据中提取特征数据，所述特征数据的中包含所述当前保单数据的属性和所述属性的属性值；

第一确定模块，用于通过预设模型根据所述当前保单数据的属性和所述属性的属性值确定所述当前保单数据的退保概率和/或不退保概率。

9.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据权利要求1～7中任意一项所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现根据权利要求1～7中任意一项所述的方法。