CN113988221A

CN113988221A - 一种保险用户分类模型建立方法、分类方法、装置及设备

Info

Publication number: CN113988221A
Application number: CN202111420590.XA
Authority: CN
Inventors: 张子成; 白玉坤; 周国平; 史振光; 耿珍珍
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-01-28

Abstract

本文提供了一种保险用户分类模型建立方法、分类方法、装置及设备，所述方法包括：获取历史保险用户的用户保险数据和用户属性，以及所述历史保险用户所属区域的区域保险数据；确定所述用户保险数据和所述区域保险数据中不同数据的类型特征；将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据；利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型，通过所述保险用户分类模型可以提高了对既存保险用户分类的准确性，进而为保险服务提供了可靠性指导。

Description

一种保险用户分类模型建立方法、分类方法、装置及设备

技术领域

本文属于保险技术领域，具体涉及一种保险用户分类模型建立方法、分类方法、装置及设备。

背景技术

在保险营销过程中一般会选择即将到期的既存客户进行营销，目前的营销策略是简单的根据年龄、购买的产品筛选出一批客户或者随机筛选进行消息的触达，这种营销效果召回效果不佳，并且逐一召回客户造成一定的运营成本。保险复购预测是保险行业管理部门的重要工作，因此准确的对用户进行分类，有利于帮助保险公司更清晰的掌握客户诉求和行为特征，对既存客户进行针对性营销，精准推荐产品可以提高客户的二次转化效率，解决企业客户增长问题，满足客户的保险需求。因此如何提高保险用户分类的准确性，降低召回成本成为目前亟需解决的技术问题。

发明内容

针对现有技术的上述问题，本文的目的在于，提供一种保险用户分类模型建立方法、分类方法、装置及设备，可以提高保险用户的分类准确性。

为了解决上述技术问题，本文的具体技术方案如下：

一方面，本文提供一种保险用户分类模型建立方法，所述方法包括：

获取历史保险用户的用户保险数据和用户属性，以及所述历史保险用户所属区域的区域保险数据，所述用户属性包括既存用户已复购保险和未复购保险；

确定所述用户保险数据和所述区域保险数据中不同数据的类型特征，所述类型特征包括类别型数据和连续型数据；

将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据；

利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型。

进一步地，所述区域保险数据至少包括保险密度、保险深度和保险覆盖度；

所述保险深度为区域的年度保费收入占区域年度生产总值的比例；

所述保险密度为区域的年度保费收入与区域的年度总人口的比值；

所述保险覆盖度为区域年度购买保险的人数占区域年度总人口的比例。

进一步地，所述历史保险用户所属区域的区域保险数据之后还包括：

根据所述历史保险用户所属区域的保险密度和保险深度，计算获得区域的保险消费系数，所述保险消费系数表示所述区域中用户针对保险消费的比重；

根据所述保险消费系数所处的范围区间，以及所述范围区间对应的预设修正规则，对所述保险消费系数进行修正；

将修正后的保险消费系数和历史保险用户的保险覆盖度作为所述历史保险用户所属区域的区域保险数据。

进一步地，所述将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到编码后的连续型数据，包括：

针对每一种连续型数据进行如下步骤：

将所述连续型数据对应的样本值按照从小到大排序，获取样本值队列；

将所述样本值队列中相邻两个样本值的平均值作为叶子划分点，得到叶子划分点集合；

依次计算所述叶子划分点集合中每个叶子划分点作为二元分类点时的基尼系数，将基尼系数最小的叶子划分点作为最优划分点；

以所述最优划分点将所述连续型数据对应的样本值分成两个子集，按照预设编码方式将所述两个子集进行编码处理，得到编码后的数据。

进一步地，所述将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据，包括：

将所述用户保险数据和所述区域保险数据中不同的数据类型作为不同的二叉树特征节点；

根据所述二叉树特征节点，生成多个二叉树，每个二叉树包括不同的二叉树特征节点划分组合；

根据每个二叉树中二叉树特征节点对应的数据，依次计算每个二叉树的基尼系数；

将基尼系数最小的二叉树对应的二叉树特征节点划分组合作为目标节点组合，以使按照所述目标节点组合生成的二叉树以及用户属性作为所述预设初始分类模型的训练集数据。

进一步地，所述利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型，包括：

确定待训练的预设初始分类模型的所属区域以及与所属区域对应的训练集数据；

将所述训练集数据输入到预设初始分类模型中，利用预设损失函数进行训练，得到预先训练完成的第一分类模型；

根据预先训练完成的第一分类模型，确定训练过程中不同数据类型的用户保险数据的增益评分；

对不同数据类型的用户保险数据的增益评分进行评分排序；

按照排序从高到低将预设类型数量的用户保险数据作为目标用户保险数据组合；

根据所述目标用户保险数据组合，从所述训练集数据中提取目标训练集数据；

通过所述目标训练集数据对所述第一分类模型进行微调，得到训练完成的保险用户分类模型。

另一方面，本文还提供一种保险用户分类模型建立装置，所述装置包括：

数据获取模块，用于获取历史保险用户的用户保险数据和用户属性，以及所述历史保险用户所属区域的区域保险数据，所述用户属性包括既存用户已复购保险和未复购保险；

类型特征确定模块，用于确定所述用户保险数据和所述区域保险数据中不同数据的类型特征，所述类型特征包括类别型数据和连续型数据；

处理模块，用于将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据；

训练模块，用于利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型。

另一方面，本文还提供一种保险用户分类方法，所述方法包括：

获取待分类用户的用户保险数据以及所述待分类用户所属区域的区域保险数据；

将所述用户保险数据和所述区域保险数据代入到由上述所述的方法建立的保险用户分类模型中，得到所述待分类用户的用户属性。

另一方面，本文还提供一种保险用户分类装置，所述装置包括：

待分类用户数据获取模块，用于获取待分类用户的用户保险数据以及所述待分类用户所属区域的区域保险数据；

分类模块，用于将所述用户保险数据和所述区域保险数据代入到由上述所述的方法建立的保险用户分类模型中，得到所述待分类用户的用户属性。

另一方面，本文还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述的方法。

最后，本文还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的方法。

采用上述技术方案，本文所述一种保险用户分类模型建立方法、分类方法、装置及设备，通过获取历史保险用户的用户保险数据和区域保险数据，并对用户保险数据和所述区域保险数据中的连续型数据进行分箱转码处理，以获得用于训练的训练集数据，其中以用户属性作为训练的目标输出，从而得到用于对用户分类的保险用户分类模型，提高了对既存保险用户的分类准确性，进而为保险服务提供了可靠性指导。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例提供的方法的实施环境示意图；

图2示出了本文实施例提供的保险用户分类模型建立方法的步骤示意图；

图3示出了本文实施例中对保险消费系数处理步骤示意图；

图4示出了本文实施例中对连续型数据处理步骤示意图；

图5示出了本文实施例中对训练集数据处理步骤示意图；

图6示出了本文实施例中保险用户分类模型训练步骤示意图；

图7示出了本文实施例提供的保险用户分类模型建立装置结构示意图；

图8示出了本文实施例提供的保险用户分类方法的步骤示意图；

图9示出了本文实施例提供的保险用户分类装置结构示意图；

图10示出了本文实施例提供的设备的结构示意图。

附图符号说明：

10、服务器；

20、数据库；

100、数据获取模块；

200、类型特征确定模块；

300、处理模块；

400、训练模块；

500、待分类用户数据获取模块；

600、分类模块；

1002、计算机设备；

1004、处理器；

1006、存储器；

1008、驱动机构；

1010、输入/输出模块；

1012、输入设备；

1014、输出设备；

1016、呈现设备；

1018、图形用户接口；

1020、网络接口；

1022、通信链路；

1024、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，在保险营销过程中，针对既存客户的营销只是根据年龄、购买的产品筛选出部分客户或随机筛选进行消息的触发，但是这种营销方式召回效果不佳，准确性较低，而且还得带来较大的运营成本，因此如何提高对既存保险用户的分类的准确性，进而提高了保险服务的可靠性，降低了保险服务的成本成为目前亟需解决的技术问题。

为了解决上述问题，本说明书实施例提供一种保险用户分类模型建立方法，通过利用该方法建立的保险用户分类模型，可以快速准确的确定既存保险用户的用户属性，提高了对用户保险服务的效率，降低了成本。如图1所示，为所述方法的实施环境示意图，可以包括服务器10和数据库20，所述服务器10与所述数据库20连接，可以实现信息的交互，所述数据库20可以为保险领域的数据库，用于存储保险的相关数据，比如用户的保险数据，以及不同区域的保险数据，其中不同区域的保险数据可以从相关的信息库中获得，用户的保险数据则为用户购买的保险数据、以及用户和保险机构之间交互过程中生成的数据，需要说明的是，用户保险数据中涉及用户隐私的数据均为经过用户授权得到的。所述服务器10配置有保险用户分类模型训练的巡逻，通过获取所述数据库20中的历史保险用户的用户保险数据和用户属性，以及所述历史保险用户所属区域的区域保险数据，然后再对上述数据中的连续型数据进行分箱编码处理以实现将连续型数据转换成类别型数据，然后再利用转换后的数据结合原先的类别型数据，对预设初始分类模型进行训练，以获得训练后的保险用户分类模型。通过训练后的保险用户分类模型对既存保险用户进行分类识别，可以提高对用户属性的分类效率，进而为保险机构的保险服务提供的可靠依据，降低了成本。

作为可选地，所述服务器10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中，所述实施环境也可以包括终端，终端可以结合服务器10训练保险用户分类模型。具体的，终端可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(Augmented Reality，AR)/虚拟现实(VirtualReality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、Linux、Windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境，例如保险用户分类模型的训练，也可以在终端上实现。

具体地，本文实施例提供了保险用户分类模型建立方法，能够提供准确可靠的用户分类识别模型，节约了保险服务成本。图2是本文实施例提供的一种保险用户分类模型建立方法的步骤示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示，所述方法可以包括：

S101：获取历史保险用户的用户保险数据和用户属性，以及所述历史保险用户所属区域的区域保险数据，所述用户属性包括既存用户已复购保险和未复购保险；

S102：确定所述用户保险数据和所述区域保险数据中不同数据的类型特征，所述类型特征包括类别型数据和连续型数据；

S103：将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据；

S104：利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型。

可以理解为，本说明书实施例中是通过历史保险用户的用户保险数据以及用户所属区域的区域保险数据联合训练预设初始分类模型，来得到用于对用户分类的保险用户分类模型，其中对所述用户保险数据和所述区域保险数据中连续型数据进行分箱编码处理，以实现将所述用户保险数据和所述区域保险数据都是以类别型数据(即离散型数据)存在的形式，然后将处理后的数据结合用户属性训练模型，得到用于对用户分类的保险用户分类模型，从而可以通过该分类模型对保险机构中既存保险用户进行分类，并根据分类结果采用不同的服务策略，提高了服务的准确性，相对于现有技术随机或简单的筛选方式，本申请能降低服务成本，提升用户的服务体验。

其中，所述用户属性包括既存用户已复购保险和未复购保险，既存用户已复购保险可以为历史保险用户再次购买保险，再次购买保险的类型可以和上次购买保险的类型一致或相关性较高，这样保险类型的相关性较高的两次购买过程，用户的保险数据也必然有一定的相关性，因此通过用户保险数据作为分类模型的输入数据可以提高用户分类的准确性。既存用户未复购保险可以为历史保险用户在指定时间点内未再次购买相关性较高的保险，所述指定时间点可以为上次购买保险的到期日，或超过所述到期日的预设时长，比如上次购买保险的到期日为10月1日，所述指定时间点可以为10月1日，或超过该到期日半个月(10月16日)，超过该到期日一个月(11月1日)等，所述指定时间点的设置在本说明书实施例中不做限定。

在本说明书实施例中，所述区域保险数据至少包括保险密度、保险深度和保险覆盖度；

可以理解为，本说明书实施例通过对不同区域的保险特征的采集，可以确定每个区域独特的保险数据，从而确定每个区域针对保险业务的发展水平，进而可以从一定程度上反映该区域中用户的保险意识，因此将区域保险数据作为用户分类的指标也可以提高对用户分类的准确性和可靠性。其中每个区域的划分可以按照区域地理位置进行划分，比如按照行政区域(如地级市)进行划分，不同地级市的发展水平不同，用户的保险意识也会随着发展水平的不同发生变化，比如发达地区的用户保险意识要比欠发达地区的用户保险意识要强，进而有更强的购买保险的可能性，因此通过行政区域进行划分可以得到多个划分区域。

在本说明书实施例中，所述保险深度可以为区域的年度保费收入占区域年度生产总值的比例，则表示该区域中用户保险服务在国民经济中的比重；所述保险密度为区域的年度保费收入与区域的年度总人口的比值，则表示该区域中人均保险消费水平，进一步表现该区域用户保险消费能力的高低；所述保险覆盖度为区域年度购买保险的人数占区域年度总人口的比例，则表示该区域居民的保险消费人数比例，进一步表现该区域用户保险意识的水平。

区域的年度保费收入可以通过保险机构的保费数据中查询得到，相应地，为了提高数据的准确性和全面性，所述区域的年度保费收入可以为多个保险机构的保费数据，可以通过每个保险机构公布的保险数据中查询得到，所述区域年度生产总值可以每个区域公布的年度生产数据(GDP)，所述区域的年度总人口可以为每个区域公布的人口数据。区域年度购买保险的人数可以通过保险机构或银保监会公布的年度保险数据中查询得到。

在本说明书实施例中，如图3所示，所述历史保险用户所属区域的区域保险数据之后还包括：

S201：根据所述历史保险用户所属区域的保险密度和保险深度，计算获得区域的保险消费系数，所述保险消费系数表示所述区域中用户针对保险消费的比重；

S202：根据所述保险消费系数所处的范围区间，以及所述范围区间对应的预设修正规则，对所述保险消费系数进行修正；

S203：将修正后的保险消费系数和历史保险用户的保险覆盖度作为所述历史保险用户所属区域的区域保险数据。

发明人通过对历史保险用户的用户属性及其所属区域保险数据进行数据相关性分析可以得到：“保险密度/保险深度”这一复合指标与用户保险消费决策的相关性显著，即可以通过“保险密度/保险深度”(即保险消费系数)作为对保险用户分类的指标。具体分析的过程如下：

获取不同区域的保险密度数据和保险深度数据，并计算相应的保险消费系数(E值)，进行汇总得到下表1：

表1历史保险数据统计表

采用复购决策(是)的一组数据进行皮尔逊相关性计算，皮尔逊相关性计算为相关性计算常用的手段，本说明书实施例不做详细说明，可以得到保险消费系数和保险复购决策之间的相关性，计算结果如下表2所示：

表2皮尔逊计算结果

通过表2可知，保险消费系数与保险消费决策(即复购决策(是)人数)相关性紧密(一般相关系数在0.7以上说明关系非常紧密，0.4～0.7之间说明关系紧密，0.2～0.4说明关系一般)，并且通过了双侧显著性检验(小于等于0.01算通过)，即保险消费系数和复购决策(是)是呈显著性相关。

同理，通过对历史保险用户所属区域的保险覆盖度的相关性分析，也可以得到保险覆盖度和保险复购决策的相关性也较为显著。

继续参考表1可知，在保险消费系数(E值)和复购决策(是)存在显著性相关性的基础上，可以建立所述保险消费系数和所述复购决策(是)之间的对应关系，即不同的保险消费系数的变化范围，所述复购决策(是)的比重也会不同，也就是说，在不同变化范围的保险消费系数对保险用户复购决策(是)的影响程度不同，因此在对保险消费系数修正时，可以通过历史数据提前确定不同影响程度的保险消费系数的范围区间，然后基于不同的范围区间调整所述保险消费系数在模型训练时的权重比例，比如对用户复购决策影响程度较高的保险消费系数，增加其在模型训练时的权重比例；对用户复购决策影响较低的消费系数，减少其在模型训练时的权重比例，从而进一步保证了模型训练的准确性。

在本说明书实施例中，所述预设修正规则可以为对消费系数训练权重的修正，可以根据所述消费系数历史数据的表现确定，具体确定方式在本说明书实施例中不做限定。

在本说明书实施例中，所述用户保险数据可以包括用户消费保险数据和用户服务保险数据，所述用户消费保险数据可以为用户过往保险消费的数据和用户保险行为数据，所述用户服务保险数据可以为保险机构对用户的服务数据。

用户消费保险数据可以包括：多次购买、给自己购买次数、产品浏览次数、理财险数量、婚姻状态、平台登录次数、60天是否活跃、近一年浏览次数、30天是否活跃、是否绑定微信、7天是否活跃、购买渠道数、购买产品数、理赔单数和满期保单数等

所述用户服务保险数据可以包括：客服接待次数、理赔次数、理赔金额、赔付金额、客服坐席接待人数、通话时长、投诉次数等。

通过对用户保险数据和区域保险数据的分析，可以得到不同数据的类型特征，比如用户婚姻状态数据就可以为类别型数据(即离散型数据)，用户产品浏览次数可以为连续型数据等，为了提高模型训练的可靠性和准确性，作为可选地，如图4所示，所述将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到编码后的连续型数据，包括：

针对每一种连续型数据进行如下步骤：

S301：将所述连续型数据对应的样本值按照从小到大排序，获取样本值队列；

S302：将所述样本值队列中相邻两个样本值的平均值作为叶子划分点，得到叶子划分点集合；

S303：依次计算所述叶子划分点集合中每个叶子划分点作为二元分类点时的基尼系数，将基尼系数最小的叶子划分点作为最优划分点；

S304：以所述最优划分点将所述连续型数据对应的样本值分成两个子集，按照预设编码方式将所述两个子集进行编码处理，得到编码后的数据。

可以理解为，针对连续型数据，本说明书实施例通过计算由每个叶子划分点划分得到的二元分类数据集的基尼系数，进而得到不同叶子划分点划分得到的离散型数据区间的离散效果，基尼系数越小，则离散效果越好，将基尼系数最小的叶子划分点作为最优划分点，可以提高了对连续型数据的特征离散化效果，其中基尼系数的计算为本领域技术人员熟知的计算公式，在本说明书实施例中不做限定。

在一些其他实施例中，为了保证数据划分后的可靠性，避免数据划分后出现样本量过度集中的情况，还可以计算划分后每个叶子节点中数据集的样本数量，当所述样本数量低于预设的样本比例(比如总样本数量的5％)时，可以需要调整所述最优划分点，将基尼系数第二小的叶子划分点作为最优划分点，并重复计算每个叶子节点中数据集的样本数量，直到所述样本数量低于预设的样本比例。

所述预设编码方式可以为独热编码(One-Hot Encoding)，可以实现对有实际意义(比如有单位的数据)的数据的处理，同时还可以起到扩充特征的作用。

在一些其他实施例中，针对编码后的数据，还可以通过主成分分析(PrincipalComponent Analysis，PCA)方法进行粗粒度的特征提取，可以从多种数据中选出一定数量重要程度较高的数据，具体的分析过程在本说明书实施例中不做限定。

在本说明书实施例中，如图5所示，所述将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据，包括：

S401：将所述用户保险数据和所述区域保险数据中不同的数据类型作为不同的二叉树特征节点；

S402：根据所述二叉树特征节点，生成多个二叉树，每个二叉树包括不同的二叉树特征节点划分组合；

S403：根据每个二叉树中二叉树特征节点对应的数据，依次计算每个二叉树的基尼系数；

S404：将基尼系数最小的二叉树对应的二叉树特征节点划分组合作为目标节点组合，以使按照所述目标节点组合生成的二叉树以及用户属性作为所述预设初始分类模型的训练集数据。

可以理解为，在通过上述对连续型数据进行离散化处理之后，可以得到离散化的用户保险数据和区域保险数据，进而可以对训练集数据进行整合处理，以得到更有利于训练的数据集合。由于用户属性是包括两种类型(即既存用户已复购保险和未复购保险)，因此本说明书实施例通过对离散化的数据进行二分处理，从而可以得到不同数据组合(即二分顺序)的数据集合。

其中，由二叉树特征节点生成的二叉树可以为由每个二叉树特征节点按照节点顺序生成的划分序列，这样可以通过不同的特征节点的顺序得到不同的二叉树，进而通过计算每个二叉树对应的基尼系数，所述基尼系数可以为二叉树中不同节点位置对应的基尼系数之和，这样将基尼系数最小的二叉树特征节点划分组合作为目标节点组合，以使按照所述目标节点组合生成的二叉树作为所述预设初始分类模型的训练集数据，减少了训练时的计算量，提高了模型训练的效率和准确性。

示例性地，当离散化的用户保险数据和区域保险数据有N种，则可以得到N！种节点组合，进而可以确定N！种二叉树，依次计算每种二叉树中每个节点对应的基尼系数，将基尼系数之和最小的二叉树中的节点组合作为目标节点组合，因此从训练集中提前将数据的组合和顺序进行整合处理，从而可以进一步提高了保险用户分类模型训练的效率。

在一些其他实施例中，还可以通过逐层进行二分操作确定目标节点组合，比如，首选确定二叉树中第一节点，以每个节点为第一节点，相应地，该节点以外的所有节点为后续节点，这样得到多个节点集合(即第一节点和后续节点)，依次计算每个节点集合对应的基尼系数，将基尼系数最小的节点集合中第一节点作为目标第一节点，然后从目标第一节点以外的后续节点中确定目标第二节点，循环上述步骤，依次确定后续节点中的节点顺序，进而得到目标节点组合，通过上述步骤可以快速确定目标节点组合，从而提高了训练集数据的优化效率。示例性地，有n种类型的保险数据[A₁,A₂…A_n]，首选依次将A₁、A₂…A_n作为第一节点，这样可以得到n个节点集合，以A₁为例，A₁为第一节点，后续节点为[A₂…A_n]，依次计算每个节点集合对应的基尼系数，当以A₁为第一节点的节点集合对应的基尼系数最小时，则将A₁作为目标第一节点，后续节点[A₂…A_n]作为另一节点，但是在该节点中没有将每个节点的特征分开，需要将后续节点[A₂…A_n]进一步划分，划分规则与上述方法一致，依次确定第二节点，第三节点直到确定最后一个节点。

在本说明书实施例中，如图6所示，所述利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型，包括：

S501：确定待训练的预设初始分类模型的所属区域以及与所属区域对应的训练集数据；

S502：将所述训练集数据输入到预设初始分类模型中，利用预设损失函数进行训练，得到预先训练完成的第一分类模型；

S503：根据预先训练完成的第一分类模型，确定训练过程中不同数据类型的用户保险数据的增益评分；

S504：对不同数据类型的用户保险数据的增益评分进行评分排序；

S505：按照排序从高到低将预设类型数量的用户保险数据作为目标用户保险数据组合；

S506：根据所述目标用户保险数据组合，从所述训练集数据中提取目标训练集数据；

S507：通过所述目标训练集数据对所述第一分类模型进行微调，得到训练完成的保险用户分类模型。

可以理解为，所述训练集数据可以是通过上述步骤S103确定的训练集数据，也可以是由上述步骤S401～S404确定的训练集数据。所述预设初始分类模型可以为XGboost模型，通过XGboost模型进行完一次迭代后，会将叶子节点的权重乘上学习速率，主要是为了削弱每棵树的影响，让后面有更大的学习空间。在实际训练过程中，可以先通过全量类型的历史数据(即训练集数据)进行训练，会得到调整后的模型参数，进而得到通用的第一分类模型，由于不同区域对应模型也会有针对性(即每个数据类型的贡献程度不同)，因此通过在XGboost模型训练过程中计算每个数据类型的增益评分，最大增益的特征会被选出来作为分裂依据，从而记忆了每个特征对在模型训练时的重要性。因此通过数据类型重要性排序可以确定预设类型数量的用户保险数据作为目标保险数据组合，进而实现对第一分类模型的微调，保证了不同区域数据对应不同的分类模型，使训练后的分类模型具有区域特点。

在一些其他实施例中，所述用户保险数据可以包括用户消费保险数据和用户服务保险数据，因此也在进行评分排序时，可以分别计算用户消费保险数据评分排序和用户服务保险数据评分排序，进而针对不同的入模特征因子组合，即用户消费保险数据组合和用户服务保险数据组合，示例性地，比如可以选择15个类型数量作为用户消费保险数据组合(参考表3)，以及选择8个类型数量作为用户服务保险数据组合(参考表4)。

表3用户消费保险数据组合

数据类型	增益评分
		总购买单数	0.9333936
给自己购买次数	0.6448525
		产品浏览次数	0.6245873
医疗险购买单数	0.1735075
		理财险数量	0.1587547
是否已婚	0.1568718
		平台登录次数	0.120805
60天是否活跃	0.0952249
		近1年浏览次数	0.0937207
30天是否活跃	0.0824651
		是否绑定微信	0.0790407
7天是否活跃	0.0468789
		为子女购买单数	0.0356029
为父母购买单数	0.0338616
		为配偶购买单数	0.0256321

表4用户服务保险数据组合

在本说明书实施例中，所述预设损失函数包括：

其中：L为损失函数的计算总值，L_i为样本i的损失函数的计算值，y_i表示样本i的标签，正类为1，负类为0；p_i表示样本i预测为正类的概率。

需要说明的是，所述分类模型还可以为其他的模型，比如梯度提升决策树(Gradient Boosting Decision Tree，GBDT)，具体的模型在本说明书实施例中不做限定。

本说明书实施例提供的一种保险用户分类模型建立方法，通过获取历史保险用户的用户保险数据和区域保险数据，并对用户保险数据和所述区域保险数据中的连续型数据进行分箱转码处理，以获得用于训练的训练集数据，其中以用户属性作为训练的目标输出，从而得到用于对用户分类的保险用户分类模型，提高了对既存保险用户的分类准确性，进而为保险服务提供了可靠性指导。

基于同一发明构思，本说明书实施例还提供一种保险用户分类模型建立装置，如图7所示，所述装置包括：

数据获取模块100，用于获取历史保险用户的用户保险数据和用户属性，以及所述历史保险用户所属区域的区域保险数据，所述用户属性包括既存用户已复购保险和未复购保险；

类型特征确定模块200，用于确定所述用户保险数据和所述区域保险数据中不同数据的类型特征，所述类型特征包括类别型数据和连续型数据；

处理模块300，用于将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据；

训练模块400，用于利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型。

本说明书实施例提供的装置所取得的有益效果和上述方法所取得的有益效果一致，本说明书实施例不做赘述。

在上述提供的保险用户分类模型建立方法的基础上，在本说明书实施例还提供一种保险用户分类方法，如图8所示，所述方法包括：

S601：获取待分类用户的用户保险数据以及所述待分类用户所属区域的区域保险数据；

S602：将所述用户保险数据和所述区域保险数据代入到由上述所述的方法建立的保险用户分类模型中，得到所述待分类用户的用户属性。

可以理解为，通过上述方法建立的保险用户分类模型可以用于对保险机构中的既存用户进行分类，以确定所述既存用户复购决策的方向，从而便于保险机构服务人员进行相应的服务操作，比如对用户进行分类得到用户属性属于复购决策(是)这一类型时，则可以对该用户进行针对性的营销，从而提高了保险服务的准确性和效率。

基于同一发明构思，本说明书实施例还提供一种保险用户分类装置，如图9所示，所述装置可以包括：

待分类用户数据获取模块500，获取待分类用户的用户保险数据以及所述待分类用户所属区域的区域保险数据；

分类模块600，将所述用户保险数据和所述区域保险数据代入到由上述所述的方法建立的保险用户分类模型中，得到所述待分类用户的用户属性。

如图10所示，为本文实施例提供的一种计算机设备，本文中的装置可以为本实施例中的计算机设备，执行上述本文的方法，所述计算机设备1002可以包括一个或多个处理器1004，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备1002还可以包括任何存储器1006，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1006可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1002的固定或可移除部件。在一种情况下，当处理器1004执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1002可以执行相关联指令的任一操作。计算机设备1002还包括用于与任何存储器交互的一个或多个驱动机构1008，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1002还可以包括输入/输出模块1010(I/O)，其用于接收各种输入(经由输入设备1012)和用于提供各种输出(经由输出设备1014))。一个具体输出机构可以包括呈现设备1016和相关联的图形用户接口(GUI)1018。在其他实施例中，还可以不包括输入/输出模块1010(I/O)、输入设备1012以及输出设备1014，仅作为网络中的一台计算机设备。计算机设备1002还可以包括一个或多个网络接口1020，其用于经由一个或多个通信链路1022与其他设备交换数据。一个或多个通信总线1024将上文所描述的部件耦合在一起。

通信链路1022可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1022可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图2-图6或图8中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图2-图6或图8所示的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种保险用户分类模型建立方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述区域保险数据至少包括保险密度、保险深度和保险覆盖度；

3.根据权利要求2所述的方法，其特征在于，所述历史保险用户所属区域的区域保险数据之后还包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到编码后的连续型数据，包括：

针对每一种连续型数据进行如下步骤：

5.根据权利要求1所述的方法，其特征在于，所述将所述用户保险数据和所述区域保险数据中连续型数据通过分箱编码处理，得到转换后的连续型数据，并将所述用户保险数据和所述区域保险数据中类别型数据和编码后的连续型数据、以及用户属性整合成训练集数据，包括：

6.根据权利要求1或5所述的方法，其特征在于，所述利用所述训练集数据对预设初始分类模型进行训练，得到训练后的保险用户分类模型，包括：

对不同数据类型的用户保险数据的增益评分进行评分排序；

7.一种保险用户分类方法，其特征在于，所述方法包括：

将所述用户保险数据和所述区域保险数据代入到由权利要求1至6任一项所述的方法建立的保险用户分类模型中，得到所述待分类用户的用户属性。

8.一种保险用户分类模型建立装置，其特征在于，所述装置包括：

9.一种保险用户分类装置，其特征在于，所述装置包括：

分类模块，用于将所述用户保险数据和所述区域保险数据代入到由权利要求1至6任一项所述的方法建立的保险用户分类模型中，得到所述待分类用户的用户属性。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。