CN109492191B

CN109492191B - 计算投保概率的方法、装置、计算机设备和存储介质

Info

Publication number: CN109492191B
Application number: CN201811082318.3A
Authority: CN
Inventors: 伍可; 陈依云
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2024-05-07
Anticipated expiration: 2038-09-17
Also published as: CN109492191A

Abstract

本申请揭示了一种计算投保概率的方法、装置、计算机设备和存储介质，其中方法包括：获取目标客户的基础数据，所述基础数据包括客户的保单信息、个人信息、访问服务器信息；将所述基础数据输入到预设的GBDT模型中，得出所述目标客户的投保预测向量；将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率。本申请将购买保险的客户数据通过GBDT模型计算出购买保险的客户的共有特征，再将目标客户的客户数据输入到这个模型，得出目标客户的投保概率，更加准确而且具有客观性。GBDT的模型是在SPARK平台上计算，使得计算出来的数据更加迅速。计算出客户的投保概率后，进行排名，更精准的找出潜在的准客户，有利于提升销售额。

Description

计算投保概率的方法、装置、计算机设备和存储介质

技术领域

本申请涉及到计算机技术领域，特别是涉及到一种计算投保概率的方法、装置、计算机设备和存储介质。

背景技术

目前市面上客户投保模型很大部分是基于Apriori(Apriori算法是一种挖掘关联规则的频繁项集算法)或者Logistic算法，在精准度、提升度上不高。其次，过去寿险常常使用SAS(统计分析软件)挖掘平台进行模型训练预测，在效率上不能保证，扩容性较差。再者，市面上算法研究数据量不大，用户指标不够全面，对于推荐后客户行为的反馈、业务员业绩跟踪没有详细分析。

所以提供一种新的计算投保概率的方法是亟需解决的问题。

发明内容

本申请的主要目的为提供一种准确计算客户的投保概率的计算投保概率的方法、装置、计算机设备和存储介质。

为了实现上述发明目的，本申请提出一种计算投保概率的方法，包括：

获取目标客户的基础数据，所述基础数据包括客户的保单信息、个人信息、访问服务器信息；

将所述基础数据输入到预设的GBDT模型中，得出所述目标客户的投保预测向量，所述GBDT模型根据所述基础数据的信息类型设置；

将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率。

进一步地，所述输出所述目标客户的投保概率的步骤之后，包括：

对所述目标客户的投保概率进行排序，生成排行榜。

进一步地，所述对所述目标客户的投保概率进行排序，生成排行榜的步骤，包括：

将投保概率分配到符合概率区间要求的小组内，所述小组包括多个，每个所述小组对应一个概率区间，多个小组根据其对应的概率区间的大小，按照预设的排序规则进行排序，其中，多个所述小组对应的概率区间为概率大小连续且无重合的概率区间；

以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序，其中每个小组对应一个独立的线程；

将多个经过小组内投保概率排序后的所述小组按照所述排序规则进行合并，生成投保概率排序名单。

进一步地，所述以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序的步骤，包括：

将多个所述小组分别发送给各小组对应的子服务器，以通过所述子服务器对所述小组内的投保概率按照所述排序规则进行排序；

接收各子服务器的反馈，得到按照所述排序规则排序后的小组。

对高于概率阈值的投保概率对应的目标客户发送保险产品信息。

进一步地，所述获取目标客户的基础数据的步骤，包括：

获取多个客户的基础数据，根据所述多个客户的基本数据筛选出符合购买条件的目标客户，并获取所述目标客户的基础数据

进一步地，所述GBDT的模型是在SPARK平台上计算的。

本申请还提供一种计算投保概率的装置，包括：

获取模块，用于获取目标客户的基础数据，所述基础数据包括客户的保单信息、个人信息、访问服务器信息；

输入模块，用于将所述基础数据输入到预设的GBDT模型中，得出所述目标客户的投保预测向量，所述GBDT模型根据所述基础数据的信息类型设置；

输出模块，用于将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的计算投保概率的方法、装置、计算机设备和存储介质，将购买保险的客户数据通过GBDT模型计算出购买保险的客户的共有特征，再将目标客户的客户数据输入到这个模型，得出目标客户的投保概率，更加准确而且具有客观性。GBDT的模型是在SPARK平台上计算，使得计算出来的数据更加迅速。计算出客户的投保概率后，进行排名，更精准的找出潜在的准客户，有利于提升销售额。

附图说明

图1为本申请一实施例的计算投保概率的方法的流程示意图；

图2为本申请一实施例的计算投保概率的方法的流程示意图；

图3为本申请一实施例的上述计算投保概率的方法中步骤S4的具体流程示意图；

图4为本申请一实施例的上述步骤S4中的步骤S42的具体流程示意图；

图5为本申请一实施例的计算投保概率的方法的流程示意图；

图6为本申请一实施例的计算投保概率的装置的结构示意框图；

图7为本申请一实施例的计算投保概率的装置的结构示意框图；

图8为本申请一实施例的上述计算投保概率的装置的排行模块的结构示意框图；

图9为本申请一实施例的上述计算投保概率的装置的并行单元的结构示意框图；

图10为本申请一实施例的计算投保概率的装置的结构示意框图；

图11为本申请一实施例的计算机设备的结构示意框图；

图12为本申请一实施例的最高学历的决策树模型的示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种计算投保概率的方法，包括步骤：

S1、获取目标客户的基础数据，所述基础数据包括客户的保单信息、个人信息、访问服务器信息；

S2、将所述基础数据输入到预设的GBDT模型中，得出所述目标客户的投保预测向量，所述GBDT模型根据所述基础数据的信息类型设置；

S3、将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率。

如上述步骤S1所述，目标客户的基础数据是指目标客户关于有可能购买保险的相关信息。保单信息是指目标客户已经购买的保险产品的信息，包括已购买保险产品的种类、数量、金额等。个人信息是指目标客户的身份证号、姓名、年龄、性别、身体健康状态、籍贯、住址、最高学历等个人信息。访问服务器信息是指目标客户通过手机APP或者网页登录到个人的保险账户后进行点击、浏览、转发、评论、搜索等在保险产品的服务器上的访问记录。系统先获取到客户登录的账户，然后根据目标客户的账户，查找到客户在注册账户时填写的个人信息；然后通过个人信息中的身份证号，访问服务器，查找服务器里有该身份证号的保单信息；同时，还获取到服务器里的该客户的访问服务器信息。

如上述步骤S2所述，GBDT模型又叫梯度提升树(Gradient Boosting DecisonTree)模型。后台人员根据客户的基础数据的信息类型设置不同层次的GBDT模型。梯度提升树有至少一棵决策树，每棵树均有多个叶子节点。根据数据的类型以及维度设置不同数量的叶子节点。在一具体实施例中，个人信息中包含有最高学历信息，系统需要反映目标客户的基础数据的最高学历情况，设置有一棵树，设置该树的决策为最高学历是否是大学以上，对应的有两个节点，第一个节点是最高学历是大学以上，第二个节点是最高学历不是大学以上。对第一个节点的决策为最高学历是否是硕士以上，则第一个节点下有两个子节点，第一个子节点是硕士以上，第二个子节点是“大学以上且不是硕士以上”——即大学。第二个节点的决策类型为最高学历是否是高中以上，该节点有两个子节点，第一个子节点最高学历是高中以上——即高中，第二个子节点是“最高学历不是高中以上”——即初中及以下。综上，该梯度提升树一个有五个子节点，对应的分别是：硕士以上、大学、高中、初中及以下。上述以上包括本数，以下不包括本数。将目标客户的基础数据中的个人信息输入到这个梯度提升树模型中，对应的输出一个向量，样本落在这个叶子节点上面，取值为1，没有落在该叶子节点的话，取值为0。如果客户的学历是大学，则输出向量[0,1,0,0]。上述实施例只是针对个人信息中的最高学历类型举的一个例子，在其他实施例中，梯度提升树模型中决策树还根据个人信息中的年收入信息这一类型再进行增加子节点，使输出的向量的维度更进一步增加，使数据更加精准。同样，在其他实施例中，梯度提升树模型还可以分别将保单信息、访问服务器信息等中的各个信息类型增加相应的决策树模型，则对应的梯度提升树模型具有多个决策树模型，将基础数据输入到梯度提升树模型中，分别输出三个决策树模型的向量，合并得到梯度提升树模型的向量。客户的投保动作跟自身的基础数据相关，因此收集整合基础数据可以预测客户的投保动作，因此输出的向量定义为客户的投保预测向量。

参照图12，是一个最高学历的决策树模型。

在训练GBDT模型时，工作人员根据所有客户的基础数据的信息类型，设置至少一棵决策树，每个叶子节点对应该客户的一个信息类型对应的特征。例如计算客户投保与性别、年龄和资产的关系，则设置三棵决策树，第一棵决策树对应的信息类型是性别类型(男或者女)，具有两个叶子节点；第二棵决策树的对应的类型是大致年龄层(客户的年龄是否是大于30岁)，具有两个叶子节点；第三棵决策树对应的类型是个人资产(个人资产是否超过50 万)，具有两个叶子节点。在训练时输入一个投保的客户的数据到这个梯度提升树模型，然后，梯度提升树的三个决策树分别输出一个二维向量，这三个二维向量按照一定的顺序合并，得到一个购买该保险产品的六维向量。

如上述步骤S3所述，逻辑回归模型的应用主要是用于概率表达式，该模型的优点是求解速度快，应用方便。在训练该逻辑回归模型时，先输入大量的购买保险的用户的基础数据对应的投保预测向量，然后计算各子节点的购买保险的比例，得到各子节点的对应的系数。在一具体实施例中，有p个叶子节点，对应的生成的向量是一个p维向量。然后通过公式计算出投保概率。其中g(x)＝b1x1+b2x2+…+bpxp，b是指叶子节点对应的权重系数，是经过训练后得出的各叶子节点对应的购买产品的概率，x是指每个叶子节点对应的向量结果。将投保预测向量输入到训练后的逻辑回归模型，输出该客户的投保概率。

参照图2，在一个实施例中，上述输出所述目标客户的投保概率的步骤之后，包括：

S4、对所述目标客户的投保概率进行排序，生成排行榜。

如上述步骤S4所述，计算出目标客户的投保概率后，对目标客户的投保概率进行排序，按照从大到小的顺序进行排序。在排序时，采用归并排序算法。归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法, 该算法是采用分治法(Divide andConquer)的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。在本系统中，保险公司的具有非常庞大的客户群体，对应的生成的投保概率数量也非常多。采用归并排序算法可以快速的对大量投保概率进行排序。排序后，将所有的投保概率记录在一个表单中，该表单即排行榜。对所有的目标客户进行排序，便于将目标客户进行分类，便于保险公司管理。

参照图3，在一个实施例中，上述对所述目标客户的投保概率进行排序，生成排行榜的步骤包括：

S41、将投保概率分配到符合概率区间要求的小组内，所述小组包括多个，每个所述小组对应一个概率区间，多个小组根据其对应的概率区间的大小，按照预设的排序规则进行排序，其中，多个所述小组对应的概率区间为概率大小连续且无重合的概率区间；

S42、以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序，其中每个小组对应一个独立的线程；

S43、将多个经过小组内投保概率排序后的所述小组按照所述排序规则进行合并，生成投保概率排序名单。

如上述步骤S41所述，上述小组要求是指一个区间，每个小组对应一个概率区间。多个小组中，任意两个小组之间没有交集，而且多个小组所有的并集是[0,1]，这样每个投保概率都能有且仅有一个符合要求的小组。每个小组根据概率区间的最大值或最小值进行排序。在一具体实施例中，一共有5 个小组，分别是第一小组[0,0.2)、第二小级[0.2,0.4)、第三小组[0.4,0.6)、第四小组[0.6,0.8)、第五小组[0.8,1]。这五个小组按照各概率区间的最小值从小到大的顺序进行排列，0<0.2<0.4<0.6<0.8，则对应的，排名顺序分别是第一小组、第二小组、第三小组、第四小组、第五小组。将所有的投保概率均放置到对应的小组内。最终，每个小组内均有多个投保概率。投保概率分配到小组内时，先获取投保概率的数值，判断是符合哪个区间，再分配到适合区间对应的小组。例如，一个投保概率是0.75，在[0.6,0.8)这个范围内，就将这个投保概率分配到第四小组。

如上述步骤S42所述，将多个小组以多线程并行处理的方式进行排序，即多个小组同时进行排序。具体的，可以为每个小组设置一个对应的纯种，每个线程均处理与小组内的投保概率对应的排序，多个线程同时对多具小组内的投保概率进行排序。将全部的投保概率分配到各小组内后，每个小组内都有至少一个投保概率。然后每个小组分别将里面的投保概率进行排序。各小组内的投保概率的排序的顺序与多个小组之间的排序的顺序是一样的。上述步骤S1内的方案中小组排序的顺序是从小到大的排序，对应的各小组内投保概率的排序也是从小到大的顺序排列。服务器设置5个线程，分别处理这5 个小组的排序，平均每个线程处理五分之一的投保概率的排序，处理的速度会提高很多。各小组内会出现多个投保概率相同的情况，将投保概率相同的投保概率并列排序。在将各小组内的投保概率排序时，采用快速排序算法进行排序。快速排序的基本思想是：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。

如上述步骤S43所述，当所有的投保概率全部分配到各自对应的小组之后，然后各小组将对应的投保概率全部按照从小到大的顺序依次排序，而且各小组之前也是按照从小到大的顺序依次排序。然后将多个小组合并，依次将第一小组至第五小组内的全部投保概率按照排序排列出来，形成分数排序名单。在一具体实施例中，平安科技集团对全球1亿的平安客户进行打分，对应的生成1亿个投保概率，通过本实施例的方法，服务器将这1亿个投保概率分成五个小组，然后分别将这五个小组的投保概率进行排序，最后将五个小组排序后的投保概率合并得到全部的投保概率排序名单，共计用时半小时。而用一般的方法，将全部1亿个客户全部一起排序，需要用时3个小时。

参照图4，在一个实施例中，上述以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序的步骤，包括：

S421、将多个所述小组分别发送给各小组对应的子服务器，以通过所述子服务器对所述小组内的投保概率按照所述排序规则进行排序；

S422、接收各子服务器的反馈，得到按照所述排序规则排序后的小组。

如上述步骤S421所述，服务器获取到小组的数量后，对应的设置与小组数量相同的线程。然后将每个小组分别放入到一个线程中。多个线程之间是独立运行计算，不与其他线程互相影响。服务器将全部的投保概率分配到各个小组后，得到多个包含有客户分数的小组。如果服务器分别将多个小组一一进行排序，这样排序的速度会比较慢。因此，各线程分别将多个小组分别发送给与线程分别对应的子服务器，同时分别发送排序规则给子服务器，每个子服务器均接收到一个小组和对应的排序规则，根据排序规则将小组内的投保概率进行排序。子服务器是上述服务器之外的服务器，一个子服务器只是用于处理一个小组内的分数排序，然后将排序好的小组发送回对应的线程。

如上述步骤S422所述，线程将小组发送给子服务器后，实时访问子服务器的处理状态，当确认子服务器处理完成后，接收子服务器按照排序规则进行排序后的小组。这样，多个子服务器对所有的小组分别完成排序，大大的节省了排序的时间。服务器只需要将多个小组的排序进行合并即可完成所有投保概率的排序。

参照图5，在一个实施例中，上述输出所述目标客户的投保概率的步骤之后，包括：

S5、对高于概率阈值的投保概率对应的目标客户发送保险产品信息。

如上述步骤S5所述，概率阈值是用于区分目标客户是否具有明显购买保险的倾向。投保概率高于该概率阈值，说明客户很有可能购买保险，因此，直接发送保险产品信息到目标客户的手机APP用户端，或者发送购买产品的链接至用户的手机。提高公司的销售业绩，提高客户的满意程度。

在一个实施例中，上述获取目标客户的基础数据的步骤，包括：

S11、获取多个客户的基础数据，根据所述多个客户的基本数据筛选出符合购买条件的目标客户，并获取所述目标客户的基础数据。

如上述步骤S11所述，基础数据包括客户的年龄与性别。因为保险产品的性质比较特殊，有些性别对应的年龄段一般是不能购买保险产品的。因此将符合性别对应的年龄段的客户筛选出来，定义为目标客户。在一具体保险产品中，可以购买该保险产品的性别对应的预设年龄范围是：男性，18岁到 60岁；女性，18岁到65岁。在筛选时，先获取客户的性别，然后选择与客户性别对应的年龄范围，然后获取客户的年龄，判断是否在预设的年龄范围内，如是，就将该客户定义为目标客户，将该目标客户的基础数据放入指定的存储区域。将无法购买该保险产品的人群直接筛选淘汰出去，减少后续进行计算客户购买保险产品的概率，提高了计算的速度。

在一个实施例中，上述GBDT的模型是在SPARK平台上计算的。

本实施例中，上述Spark是UC Berkeley AMP lab(加州大学伯克利分校的 AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。SPARK平台是专为大规模数据处理而设计的快速通用的计算引擎，在训练、预测效率上能够及时满足业务要求。Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

综上所述，本申请的计算投保概率的方法，将购买保险的客户数据通过 GBDT模型计算出购买保险的客户的共有特征，再将目标客户的客户数据输入到这个模型，得出目标客户的投保概率，更加准确而且具有客观性。GBDT 的模型是在SPARK平台上计算，使得计算出来的数据更加迅速。计算出客户的投保概率后，进行排名，更精准的找出潜在的准客户，有利于提升销售额。

参照图6，本申请实施例中还提供一种计算投保概率的装置，包括：

获取模块1，用于获取目标客户的基础数据，所述基础数据包括客户的保单信息、个人信息、访问服务器信息；

输入模块2，用于将所述基础数据输入到预设的GBDT模型中，得出所述目标客户的投保预测向量，所述GBDT模型根据所述基础数据的信息类型设置；

输出模块3，用于将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率。

本实施例中，目标客户的基础数据是指目标客户关于有可能购买保险的相关信息。保单信息是指目标客户已经购买的保险产品的信息，包括已购买保险产品的种类、数量、金额等。个人信息是指目标客户的身份证号、姓名、年龄、性别、身体健康状态、籍贯、住址、最高学历等个人信息。获取模块1 访问服务器信息是指客户通过手机APP或者网页登录到个人的保险账户后进行点击、浏览、转发、评论、搜索等在保险产品的服务器上的访问记录。获取模块1先获取到客户登录的账户，然后根据目标客户的账户，查找到客户在注册账户时填写的个人信息；然后通过个人信息中的身份证号，访问服务器，查找服务器里有该身份证号的保单信息；同时，获取模块1还获取到服务器里的该客户的访问服务器信息。

GBDT模型又叫梯度提升树(Gradient Boosting Decison Tree)模型。后台人员根据客户的基础数据的信息类型，而设置不同层次的GBDT模型。梯度提升树有至少一棵决策树，每棵树均有多个叶子节点。根据数据的类型以及维度设置不同数量的叶子节点。在一具体实施例中，个人信息中包含有最高学历信息，系统需要反映目标客户的基础数据的最高学历情况，设置有一棵树，设置该树的决策为最高学历是否是大学以上，对应的有两个节点，第一个节点是最高学历是大学以上，第二个节点是最高学历不是大学以上。对第一个节点的决策为最高学历是否是硕士以上，则第一个节点下有两个子节点，第一个子节点是硕士以上，第二个子节点是“大学以上且不是硕士以上”——即大学。第二个节点的决策类型为最高学历是否是高中以上，该节点有两个子节点，第一个子节点最高学历是高中以上——即高中，第二个子节点是“最高学历不是高中以上”——即初中及以下。综上，该梯度提升树一个有五个子节点，对应的分别是：硕士以上、大学、高中、初中及以下。上述以上包括本数，以下不包括本数。输入模块2将目标客户的基础数据中的个人信息输入到这个梯度提升树模型中，对应的输出一个向量，样本落在这个叶子节点上面，取值为1，没有落在该叶子节点的话，取值为0。如果客户的学历是大学，则输出向量[0,1,0,0]。上述实施例只是针对个人信息中的最高学历类型举的一个例子，在其他实施例中，梯度提升树模型中决策树还根据个人信息中的年收入信息这一类型再进行增加子节点，使输出的向量的维度更进一步增加，使数据更加精准。同样，在其他实施例中，梯度提升树模型还可以分别将保单信息、访问服务器信息等中的各个信息类型增加相应的决策树模型，则对应的梯度提升树模型具有多个决策树模型，输入模块2将基础数据输入到梯度提升树模型中，分别输出三个决策树模型的向量，合并得到梯度提升树模型的向量。客户的投保动作跟自身的基础数据相关，因此收集整合基础数据可以预测客户的投保动作，因此输出的向量定义为客户的投保预测向量。

参照图12，是一个最高学历的决策树模型。

在训练GBDT模型时，工作人员根据所有客户的基础数据的信息类型，设置至少一棵决策树，每个叶子节点对应该客户的一个信息类型对应的特征。例如计算客户投保与性别、年龄和资产的关系，则设置三棵决策树，第一哥决策对应的信息类型是性别类型(男或者女)，具有两个叶子节点；第二棵决策树对应的类型是大致年龄层(客户的年龄是否是大于30岁)，具有两个叶子节点；第三棵决策树对应的类型是个人资产层(个人资产是否超过50万)，具有两个叶子节点。在训练时输入一个投保的客户的数据到这个梯度提升棵模型，然后，梯度提升树的三个决策树分别输出一个二维向量，这三个二维向量按照一定的顺序合并，得到一个购买该保险产品六维向量。

逻辑回归模型的应用主要是用于概率表达式，该模型的优点是求解速度快，应用方便。在训练该逻辑回归模型时，先输入大量的购买保险的用户的基础数据对应的投保预测向量，然后计算各子节点的购买保险的比例，得到各子节点的对应的系数。在一具体实施例中，有p个叶子节点，对应的生成的向量是一个p维向量。然后通过公式计算出投保概率。其中 g(x)＝b1x1+b2x2+…+bpxp，b是指叶子节点对应的权重系数，是经过训练后得出的各叶子节点对应的购买产品的概率，x是指每个叶子节点对应的向量结果。输出模块3将输入模块2得出的投保预测向量输入到训练后的逻辑回归模型，输出该客户的投保概率。

参照图7，在一个实施例中，上述计算投保概率的装置还包括：

排行模块4，用于对所述目标客户的投保概率进行排序，生成排行榜。

本实施例中，计算出目标客户的投保概率后，排行模块4对目标客户的投保概率进行排序，按照从大到小的顺序进行排序。排行模块4在排序时，采用归并排序算法。归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divideand Conquer)的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。在本系统中，保险公司的具有非常庞大的客户群体，对应的生成的投保概率数量也非常多。采用归并排序算法可以快速的对大量投保概率进行排序。排序后，排行模块4将所有的投保概率记录在一个表单中，该表单即排行榜。对所有的目标客户进行排序，便于将目标客户进行分类，便于保险公司管理。

参照图8，进一步地，上述排行模块4包括：

分配单元41，用于将投保概率分配到符合概率区间要求的小组内，所述小组包括多个，每个所述小组对应一个概率区间，多个小组根据其对应的概率区间的大小，按照预设的排序规则进行排序，其中，多个所述小组对应的概率区间为概率大小连续且无重合的概率区间；

并行单元42，用于以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序，其中每个小组对应一个独立的线程；

合并单元43，用于将多个经过小组内投保概率排序后的所述小组按照所述排序规则进行合并，生成投保概率排序名单。

本实施例中，上述小组要求是指一个区间，每个小组对应一个概率区间。多个小组中，任意两个小组之间没有交集，而且多个小组所有的并集是[0,1]，这样每个投保概率都能有且仅有一个符合要求的小组。每个小组根据概率区间的最大值或最小值进行排序。在一具体实施例中，一共有5个小组，分别是第一小组[0,0.2)、第二小级[0.2,0.4)、第三小组[0.4,0.6)、第四小组[0.6,0.8)、第五小组[0.8,1]。这五个小组按照各概率区间的最小值从小到大的顺序进行排列，0<0.2<0.4<0.6<0.8，则对应的，排名顺序分别是第一小组、第二小组、第三小组、第四小组、第五小组。分配单元41将所有的投保概率均放置到对应的小组内。最终，每个小组内均有多个投保概率。投保概率分配到小组内时，分配单元41先获取投保概率的数值，判断是符合哪个区间，再分配到适合区间对应的小组。例如，一个投保概率是0.75，在[0.6,0.8)这个范围内，就将这个投保概率分配到第四小组。

将多个小组以多线程并行处理的方式进行排序，即多个小组同时进行排序。具体的，可以为每个小组设置一个对应的纯种，每个线程均处理与小组内的投保概率对应的排序，多个线程同时对多具小组内的投保概率进行排序。分配单元41将全部的投保概率分配到各小组内后，每个小组内都有至少一个投保概率。然后并行单元42同时将各小组里面的投保概率进行排序。各小组内的投保概率的排序的顺序与多个小组之间的排序的顺序是一样的。上述获取模块1中小组排序的顺序是从小到大的排序，对应的各小组内投保概率的排序也是从小到大的顺序排列。分配单元41设置5个线程，分别处理这5个小组的排序，平均每个线程处理五分之一的投保概率的排序，处理的速度会提高很多。各小组内会出现多个投保概率相同的情况，将投保概率相同的投保概率并列排序。在将各小组内的投保概率排序时，采用快速排序算法进行排序。快速排序的基本思想是：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。

当所有的投保概率全部分配到各自对应的小组之后，然后各小组将对应的投保概率全部按照从小到大的顺序依次排序，而且各小组之前也是按照从小到大的顺序依次排序。然后合并单元43将多个小组合并，依次将第一小组至第五小组内的全部投保概率按照排序排列出来，形成分数排序名单。在一具体实施例中，平安科技集团对全球1亿的平安客户进行打分，对应的生成1 亿个投保概率，通过本实施例的方法，服务器将这1亿个投保概率分成五个小组，然后分别将这五个小组的投保概率进行排序，最后将五个小组排序后的投保概率合并得到全部的投保概率排序名单，共计用时半小时。而用一般的方法，将全部1亿个客户全部一起排序，需要用时3个小时。

参照图9，在一个实施例中，上述并行单元42包括：

发送子单元421，用于将多个所述小组分别发送给各小组对应的子服务器，以通过所述子服务器对所述小组内的投保概率按照所述排序规则进行排序；

接收子单元422，用于接收各子服务器的反馈，得到按照所述排序规则排序后的小组。

本实施例中，服务器获取到小组的数量后，对应的设置与小组数量相同的线程。然后将每个小组分别放入到一个线程中。多个线程之间是独立运行计算，不与其他线程互相影响。服务器将全部的投保概率分配到各个小组后，得到多个包含有客户分数的小组。如果服务器分别将多个小组一一进行排序，这样排序的速度会比较慢。因此，发送子单元421分别将多个小组分别发送给与线程分别对应的子服务器，同时分别发送排序规则给子服务器，每个子服务器均接收到一个小组和对应的排序规则，根据排序规则将小组内的投保概率进行排序。子服务器是上述服务器之外的服务器，一个子服务器只是用于处理一个小组内的分数排序，然后将排序好的小组发送回对应的线程。发送子单元421将小组发送给子服务器后，接收子单元422实时访问子服务器的处理状态，当确认子服务器处理完成后，接收子单元422接收子服务器按照排序规则进行排序后的小组。这样，多个子服务器对所有的小组分别完成排序，大大的节省了排序的时间。服务器只需要将多个小组的排序进行合并即可完成所有投保概率的排序。

参照图10，在一个实施例中，上述计算投保概率的装置还包括：

发送模块5，用于对高于概率阈值的投保概率对应的客户发送保险产品信息。

本实施例中，概率阈值是用于区分客户是否具有明显购买保险的倾向。投保概率高于该概率阈值，说明客户很有可能购买保险，因此，发送模块5 直接发送保险产品信息到客户的手机APP用户端，或者发送购买产品的链接至用户的手机。提高公司的销售业绩，提高客户的满意程度。

在一个实施例中，上述获取模块1包括：

筛选单元，用于获取多个客户的基础数据，根据所述多个客户的基本数据筛选出符合购买条件的目标客户，并获取所述目标客户的基础数据。。

基础数据包括客户的年龄与性别。因为保险产品的性质比较特殊，有些性别对应的年龄段一般是不能购买保险产品的。因此筛选单元将符合性别对应的年龄段的客户筛选出来，定义为目标客户。在一具体保险产品中，可以购买该保险产品的性别对应的预设年龄范围是：男性，18岁到60岁；女性， 18岁到65岁。在筛选时，先获取客户的性别，然后选择与客户性别对应的年龄范围，然后获取客户的年龄，判断是否在预设的年龄范围内，如是，就将该客户定义为目标客户，将该目标客户的基础数据放入指定的存储区域。筛选单元将无法购买该保险产品的人群直接筛选淘汰出去，减少后续进行计算客户购买保险产品的概率，提高了计算的速度。

在一个实施例中，上述GBDT的模型是在SPARK平台上计算的。

综上所述，本申请的计算投保概率的装置，将购买保险的客户数据通过 GBDT模型计算出购买保险的客户的共有特征，再将目标客户的客户数据输入到这个模型，得出目标客户的投保概率，更加准确而且具有客观性。GBDT 的模型是在SPARK平台上计算，使得计算出来的数据更加迅速。计算出客户的投保概率后，进行排名，更精准的找出潜在的准客户，有利于提升销售额。

参照图11，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储GBDT模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种计算投保概率的方法。

上述处理器执行上述计算投保概率的方法的步骤：获取目标客户的基础数据，所述基础数据包括客户的保单信息、个人信息、访问服务器信息；将所述基础数据输入到预设的GBDT模型中，得出所述目标客户的投保预测向量，所述GBDT模型根据所述基础数据的信息类型设置；将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率。

在一个实施例中，上述处理器输出所述目标客户的投保概率的步骤之后，包括：对所述目标客户的投保概率进行排序，生成排行榜。

在一个实施例中，上述处理器对所述目标客户的投保概率进行排序，生成排行榜的步骤，包括：将投保概率分配到符合概率区间要求的小组内，所述小组包括多个，每个所述小组对应一个概率区间，多个小组根据其对应的概率区间的大小，按照预设的排序规则进行排序，其中，多个所述小组对应的概率区间为概率大小连续且无重合的概率区间；以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序，其中每个小组对应一个独立的线程；将多个经过小组内投保概率排序后的所述小组按照所述排序规则进行合并，生成投保概率排序名单。

在一个实施例中，上述处理器以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序的步骤，包括：将多个所述小组分别发送给各小组对应的子服务器，以通过所述子服务器对所述小组内的投保概率按照所述排序规则进行排序；接收各子服务器的反馈，得到按照所述排序规则排序后的小组。

在一个实施例中，上述处理器输出所述目标客户的投保概率的步骤之后，包括：对高于概率阈值的投保概率对应的目标客户发送保险产品信息。

在一个实施例中，上述处理器获取目标客户的基础数据的步骤，包括：

获取多个客户的基础数据，根据所述多个客户的基本数据筛选出符合购买条件的目标客户，并获取所述目标客户的基础数据。

在一个实施例中，上述处理器中的GBDT的模型是在SPARK平台上计算的。

综上所述，本申请的计算机设备将购买保险的客户数据通过GBDT模型计算出购买保险的客户的共有特征，再将目标客户的客户数据输入到这个模型，得出目标客户的投保概率，更加准确而且具有客观性。GBDT的模型是在SPARK平台上计算，使得计算出来的数据更加迅速。计算出客户的投保概率后，进行排名，更精准的找出潜在的准客户，有利于提升销售额。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种计算投保概率的方法，具体为：获取目标客户的基础数据，所述基础数据包括客户的保单信息、个人信息、访问服务器信息；将所述基础数据输入到预设的GBDT模型中，得出所述客户的投保预测向量，所述GBDT模型根据所述基础数据的信息类型设置；将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率。

综上所述，本申请的存储介质将购买保险的客户数据通过GBDT模型计算出购买保险的客户的共有特征，再将目标客户的客户数据输入到这个模型，得出目标客户的投保概率，更加准确而且具有客观性。GBDT的模型是在 SPARK平台上计算，使得计算出来的数据更加迅速。计算出客户的投保概率后，进行排名，更精准的找出潜在的准客户，有利于提升销售额。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchl ink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种计算投保概率的方法，其特征在于，包括：

将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率；

后台人员根据客户的基础数据的信息类型设置不同层次的GBDT模型；梯度提升树有至少一棵决策树，每棵树均有多个叶子节点；根据数据的类型以及维度设置不同数量的叶子节点；

所述输出所述目标客户的投保概率的步骤之后，包括：

对所述目标客户的投保概率进行排序，生成排行榜；

所述对所述目标客户的投保概率进行排序，生成排行榜的步骤，包括：

2.如权利要求1所述的计算投保概率的方法，其特征在于，所述以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序的步骤，包括：

3.如权利要求1所述的计算投保概率的方法，其特征在于，所述输出所述目标客户的投保概率的步骤之后，包括：

4.如权利要求1所述的计算投保概率的方法，其特征在于，所述获取目标客户的基础数据的步骤，包括：

5.如权利要求1所述的计算投保概率的方法，其特征在于，所述GBDT的模型是在SPARK平台上计算的。

6.一种计算投保概率的装置，所述的计算投保概率的装置用于执行根据权利要求1-5中任一项所述的计算投保概率的方法，其特征在于，包括：

输出模块，用于将所述投保预测向量输入到训练后的逻辑回归模型，输出所述目标客户的投保概率；

所述计算投保概率的装置还包括：

排行模块，用于对所述目标客户的投保概率进行排序，生成排行榜；

所述排行模块包括：

分配单元，用于将投保概率分配到符合概率区间要求的小组内，所述小组包括多个，每个所述小组对应一个概率区间，多个小组根据其对应的概率区间的大小，按照预设的排序规则进行排序，其中，多个所述小组对应的概率区间为概率大小连续且无重合的概率区间；

并行单元，用于以多线程并行处理的方式分别将各小组内的投保概率按照所述排序规则进行排序，其中每个小组对应一个独立的线程；

合并单元，用于将多个经过小组内投保概率排序后的所述小组按照所述排序规则进行合并，生成投保概率排序名单。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。