CN110389970A

CN110389970A - 用户意向预测方法、装置、计算机设备及存储介质

Info

Publication number: CN110389970A
Application number: CN201910501838.1A
Authority: CN
Inventors: 程克喜
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-10-29
Anticipated expiration: 2039-06-11
Also published as: CN110389970B

Abstract

本发明公开了一种用户意向预测方法、装置、计算机设备及存储介质，所述方法包括：获取用户历史产品信息，采用大数据技术计算所述用户历史产品信息，得到用户产品因子；对每一所述用户产品因子进行数据变换，得到每一所述用户意向因子；将所述用户意向因子输入到预设的随机森林模型中进行分类，得到每一所述用户对应的分类结果；将每一所述用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果。上述用户意向预测方法对用户历史产品信息采用大数据技术和机器学习技术进行处理，提升了用户意向预测结果的准确率与效率。

Description

用户意向预测方法、装置、计算机设备及存储介质

技术领域

本发明涉及智能决策领域，尤其涉及一种用户意向预测方法、装置、计算机设备及存储介质。

背景技术

随着人民生活水平的提高，人们对于人身安全和生命健康的保障意识也逐步提高，越来越多的个人或公司选择购买保险产品，以给未来的不确定性提供更多的保障。以用户购买的保险产品意向为例，对于保险公司来说，在保用户在购买的保险产品到期后，会期望在保用户进行续保，如何维系好现有的用户，保证一定的续保人数，这其中就需要使用数据分析手段去预测哪些用户会续保。即使在保用户有不续保的意愿，保险公司也希望通过对该用户进行个性化定制以使其能够续保。

传统地，对于用户的续保行为进行预测的方法，也即，对用户意向的预测，主要是基于销售员根据有限的信息和个人经验来判断用户是否会续保，但对于大量用户而言，这种人为判断的方式准确性不高，而且不稳定，影响保险公司的效益。

发明内容

本发明实施例提供一种用户意向预测方法、装置、计算机设备及存储介质，以解决人为预测用户意向的效率不高的问题。

一种用户意向预测方法，包括：

获取用户历史产品信息，采用大数据技术计算所述用户历史产品信息，得到用户产品因子；

对每一所述用户产品因子进行数据变换，得到每一所述用户意向因子；

将所述用户意向因子输入到预设的随机森林模型中进行分类，得到每一所述用户对应的分类结果；

将每一所述用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果。

一种用户意向预测装置，包括：

保单因子获取模块，用于获取用户历史产品信息，采用大数据技术计算所述用户历史产品信息，得到用户产品因子；

续保因子获取模块，用于对每一所述用户产品因子进行数据变换，得到每一所述用户意向因子；

分类结果获取模块，用于将所述用户意向因子输入到预设的随机森林模型中进行分类，得到每一所述用户对应的分类结果；

续保结果预测模块，用于将每一所述用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述用户意向预测方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述用户意向预测方法。

上述用户意向预测方法、装置、计算机设备及存储介质中，首先，获取用户历史产品信息，采用大数据技术计算用户历史产品信息，得到用户产品因子，利用大数据技术对大数据处理的高效性的特点，提高了用户产品因子的获取效率；然后，对每一用户产品因子进行数据变换，得到每一用户意向因子，使得该续保因子更加准确，从后有利于提高后续的数据处理效率；接着，将用户意向因子输入到预设的随机森林模型中进行分类，得到每一用户对应的分类结果，保证了分类结果的准确性；最后，将每一用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果，避免了人工对用户意向预测结果的繁琐和不确定性，提升了用户意向预测结果的准确率与效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的用户意向预测方法的应用环境示意图；

图2是本发明实施例提供的用户意向预测方法一示例图；

图3是本发明实施例提供的用户意向预测方法的另一示例图；

图4是本发明实施例提供的用户意向预测方法的另一示例图；

图5是本发明实施例提供的用户意向预测方法的另一示例图；

图6是本发明实施例提供的用户意向预测方法的另一示例图；

图7是本发明实施例提供的用户意向预测装置的一原理框图；

图8是本发明实施例提供的用户意向预测装置的另一原理框图；

图9是本发明实施例提供的计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的用户意向预测方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信，服务端接收客户端发送的用户历史产品信息，采用大数据技术计算用户历史产品信息，得到用户产品因子；对每一用户产品因子进行数据变换，得到每一用户意向因子；进而将用户意向因子输入到预设的随机森林模型中进行分类，得到每一用户对应的分类结果；最后，将每一用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果。其中，客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，以该方法应用于图1中的服务端为例进行说明，包括如下步骤：

S10：获取用户历史产品信息，采用大数据技术计算用户历史产品信息，得到用户产品因子。

其中，用户历史产品信息是指与保险合同以及保险理赔相关的保单信息，包括用户基本信息、理赔信息和保险信息，其中的用户基本信息包括被保人的年龄、性别等个人信息；其中的理赔信息包括出险年份、出险地点和理赔金额等信息；其中的保险信息包括保险类型、连续承保年连续未出险年数、是否绑定好车主APP、最近登录时间和上年保费等信息。该用户历史产品信息用于作为预测对应用户的意向的基础信息。具体地，获取用户历史产品信息可以是通过从系统的后台数据库中进行获取，也可以通过第三方数据接口进行获取，还可以通过爬虫技术进行获取。具体可根据实际需求确定，此处不做限制。

其中，用户产品因子是指对预测用户续保意愿有影响的因素，用于预测用户续保意愿概率。示例性地，用户产品因子可以为保险类型、保险金额或者保费金额等。大数据技术是指对海量数据进行挖掘的技术，如对海量数据进行大量的算法模型的运算、对海量数据进行统计分析得到属性标签等。大数据技术包括但不限于hadoop技术。hadoop技术是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法，用于对海量数据进行分析计算。具体地，通过hadoop技术中的数据处理框架对用户历史产品信息进行分析统计，即创建hadoop分区，将用户历史产品信息转存到hadoop分区，进而利用hadoop计算能力对hadoop分区的用户历史产品信息进行分析统计，然后基于分析统计的结果进行用户画像(用户的各种属性标签)，即通过sqoop工具将分析统计的结果导入HDFS，利用Spark RDD变换API和预设的续保定义，计算用户历史产品信息中与续保定义的续保相似度，提取出续保相似度大于预设相似度阈值的用户历史产品信息，也即用户的各个属性标签作为用户产品因子。可以理解地，保单数据信息海量，通过大数据技术计算，也即利用hadoop技术对大数据处理的高效性的特点，提高了用户产品因子的获取效率。

S20：对每一用户产品因子进行数据变换，得到每一用户意向因子。

其中，数据变换是指对数据进行规范化的处理过程，如清理异常值、纠正错误数据或者对数据进行归一化等，用于减少无用数据的干扰以及对数据进行挖掘，以便后续对数据进行进一步处理。用户意向因子是指对用户产品因子进行数据变换后得到的数据。例如，用户产品因子中的用户基本信息如姓名、身份证号码或者联系方式等对续保概率预测没有影响的因素，因此，将该用户产品因子进行剔除；又例如，对于是否绑定好车主APP这一用户产品因子则需要对该用户产品因子进行0/1转化处理，即对用户产品因子对应的信息通过使用0或者1进行标识。在一具体实施方式中，有如下用户产品因子：“姓名：张三”、“性别：男”、“绑定好车主APP”，将该用户产品因子进行数据变换后，得到用户意向因子：“1”，即将用户产品因子“姓名：张三”、“性别：男”进行剔除，并将用户产品因子“绑定好车主APP”转化为“1”，进而得到用户意向因子：“1”。可以理解地，由于对用户产品因子进行数据变换得到用户意向因子，使得该用户意向因子更加准确简洁，从后有利于提高后续的数据处理效率。

S30：将用户意向因子输入到预设的随机森林模型中进行分类，得到每一用户对应的分类结果。

其中，预设的随机森林模型是指预先采用随机森林算法进行训练得到的分类决策模型，用于对信息进行分类。其中，随机森林算法是由预设数量的决策树组成，这些决策树属于回归树，在这些树的每个节点都会得到每一节点对应的分类特征的预测值，对于未确定具体数值的分类特征，使用该分类特征的平均值作为该分类特征的预测值。可以理解地，由于用户意向因子的数据量较大，因此采用随机森林算法能够提高训练速度，同时随机森林算法适用于多分类问题，而且本实施例中的用户续保概率预测涉及多个续保概率区间，因此，该预设的随机森林模型具有较高的性能，保证了分类结果的准确性。分类结果是指构建的随机森林模型来对用户意向因子的特征进行预测分类，进而得到多个类别，每个类别包含多个相同特征用户意向因子，可以理解地由于随机森林模型为分类模型，因此，该模型的的输出即为多个类别。

在一具体实施方式中，使用预设的随机森林模型得到的一个具体的分类结果，该随机森林模型按照是否绑定好车主APP的用户意向因子分成了绑定好即“1”和未绑定即“0”，这2个节点，进而按照连续未出险年数的用户意向因子分成了小于2年、3-6年之间以及大于7年共3个节点，将是否绑定好车主APP这一用户意向因子中的2个节点与连续未出险年数这一用户意向因子中的3个节点进行两两组合，得到了6个节点，分别为：{1，小于2年}、{1，3-6年之间}、{1，大于7年}、{0，小于2年}、{0，3-6年之间}和{0，大于7年}，也即对应的6个类别。

S40：将每一用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果。

其中，逻辑回归(Logistic Regression，LR)模型是一种有监督的统计学习方法，将特征空间映射成一种可能性，用于处理因变量为分类变量的回归问题。具体地，在获取到每个用户对应的分类结果后，针对每个分类结果，将不同用户对应的分类结果作为逻辑回归模型中的一个自变量，基于该逻辑回归模型，计算该自变量在预设的用户意向因子中获得的分类结果的续保概率，进而根据预设的概率阈值来获取该用户的意向预测结果。其中，概率值越大表明用户续保的概率越大。例如，预设的概率阈值为0.6，在概率值大于等于0.6时，则表明该该用户在保单到期后会续保，否则，表明该用户在保单到期后不会续保。可以理解地，通过将每一用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果，避免了人工对续保结果预测的繁琐和不确定性，提升了用户意向预测结果准确率与效率。

本实施例中，首先，获取用户历史产品信息，采用大数据技术计算用户历史产品信息，得到用户产品因子，利用大数据技术对大数据处理的高效性的特点，提高了用户产品因子的获取效率；然后，对每一用户产品因子进行数据变换，得到每一用户意向因子，使得该续保因子更加准确，从后有利于提高后续的数据处理效率；接着，将用户意向因子输入到预设的随机森林模型中进行分类，得到每一用户对应的分类结果，保证了分类结果的准确性；最后，将每一用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果，避免了人工对用户意向预测结果的繁琐和不确定性，提升了用户意向预测结果的准确率与效率。

在一实施例中，如图3所示，步骤S40中，将每一用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果，具体包括如下步骤：

S41：针对每个用户，将用户对应的分类结果作为自变量输入到逻辑回归模型中，计算自变量的概率，作为用户对应的意向评估分值。

其中，自变量的概率是指通过逻辑回归模型计算得到的概率数值，例如，在线性回归模型，该模型的输出为y，其中y是一个定性变量且范围为[0,1]，则y的数值即为自变量的概率。并将自变量的概率作为用户对应的续保评估分值，也即y的数值即为用户对应的意向评估分值。具体地，在获取到每个用户对应的分类结果后，针对每个分类结果，将不同用户对应的分类结果作为逻辑回归模型中的一个自变量，进行逻辑回归函数计算，得到用户对应的概率，也即用户对应的意向评估分值。

继续以步骤S30中的分类结果为例，即6个节点对应的6个类别，同时将这6类别中的每一个类别作为一个自变量，输入到逻辑回归模型中。进一步地，针对每一自变量，使用softmax函数的逻辑回归模型计算该自变量的发生概率。

具体地，在softmax函数的逻辑回归模型中，针对多个类别，softmax函数可表示为：

其中，k为类别个数，为第i个类别对应的权重向量，b_i为第i个类别对应的偏移向量，为softmax回归分类模型的多个的输出，且输出个数与类别个数相等，输出为各个类别的概率。

S42：将每一意向评估分值和N个预设阈值区间进行匹配，得到每一续保评估分值对应的目标阈值区间，其中，每个预设阈值区间对应一个意向等级，N为正整数。

其中，预设阈值区间是指预先设定的用于分类的临界数值型区间，N是区间的个数，该区间的个数可以与意向等级个数一致，N的大小可根据实际需要选取，如N＝3，此时，意向等级为三个，如“意向程度高”、“意向程度一般”和“意向程度低”三个等级。具体地，将每一意向评估分值和N个预设阈值区间进行匹配，判断每个意向评估分值落在预设的阈值区间作为目标阈值区间。例如，3个预设阈值区间分别为[0,0.5]、[0.51,0.7]和[0.71,1]，若意向评估分值为0.6，这该意向评估分值对应的目标阈值区间为[0.51,0.7]。

S43：将目标阈值区间对应的意向等级作为用户对应的目标意向等级。

其中，目标意向等级是指最终计算得到的用于反映用户意向程度大小的标识。具体地，目标意向等级为目标阈值将目标阈值区间对应的意向等级，更加直观了反映了用户意向可能性，以便后续根据该目标意向等级进行进一步地处理。如，让销售技巧较高的坐席服务续目标意向等级较低的用户，从而提高用户的续保意愿。

本实施例中，首先，针对每个用户，将用户对应的分类结果作为自变量输入到逻辑回归模型中，计算自变量的概率，作为用户对应的续保评估分值；然后，将每一续保评估分值和N个预设阈值区间进行匹配，得到每一意向评估分值对应的目标阈值区间，其中，每个预设阈值区间对应一个意向等级；最后，将目标阈值区间对应的意向等级作为用户对应的目标意向等级，更加直观了反映了用户意向可能性，以便后续根据该目标意向等级进行进一步地处理。

在一实施例中，如图4所示，步骤S10中，获取用户历史产品信息，采用大数据技术计算用户历史产品信息，得到用户意向因子，具体包括如下步骤：

S11：通过sqoop工具将用户历史产品信息的增量数据导入src层。

其中，sqoop是Apache顶级项目，用于在hadoop和关系数据库中传递数据。通过sqoop工具可以方便的将数据从关系数据库导入到HDFS，或者将数据从HDFS导出到关系数据库。增量数据是指用户历史产品信息在预设的时间段进行更新后的用户历史产品信息，具体地，可以通过更新时间对数据库进行查询获取用户历史产品信息的增量数据，也可以采用sqoop工具直接创建一个sqoop job，通过job获取用户历史产品信息的增量数据。src层是数据仓库的一个层级，预设时间段内的增量的镜像数据保留在该数据层级。导入方式有sqoop支持的全量数据导入和增量数据导入两种，同时可以指定数据是否以并发形式导入。优选地，本实施例中采用增量导入的方式对新增的用户历史产品信息进行导入到src，从而保证海量用户历史产品信息的全面性。

S12：按照主键对src层中的数据进行除重处理，生成数据镜像，作为用户产品因子。

其中，主键是表中的一个或多个字段，它的值用于唯一地标识表中的某一条记录，本步骤中的主键为src层中的标识用户历史产品信息的字段。除重是指对src层级的外部表中在若干字段上存在重复现象进行删除若干字段上值相同的多条记录，只保留其中一条的操作，可以理解地，增量同步数据(incre)和存量数据(store)冲突时，默认增量数据为最新的，并且无论增量数据表，还是存量数据表，通过除重处理使得表内没有重复字段。数据镜像就是为同一份数据保留两个或两个以上的在线拷贝。以两个镜像磁盘为例，所有写操作需要在两个独立的磁盘上进行；当两个磁盘都正常工作时，数据可以从任一磁盘读取；如果其中任一个磁盘失效，则数据可以从另外的一个正常工作的磁盘读出，从而保证正常数据存取业务能够持续进行。具体地，按照主键对src层中的数据进行除重，生成数据镜像，也即用户产品因子，去除了重复信息，同时也保证了用户产品因子完整性，并且使得用户产品因子更加简单准确。

本实施例中，通过sqoop工具将用户历史产品信息的增量数据导入src层，从而保证海量用户历史产品信息的全面性。进而按照主键对src层中的数据进行除重处理，生成数据镜像，作为用户产品因子，保证了用户产品因子完整性，并且使得用户产品因子更加简单准确。

在一实施例中，如图5所示，步骤S20中，对每一用户产品因子进行数据变换，得到每一用户意向因子，具体包括如下步骤：

S21：对用户产品因子按照数据类型进行分类，得到数值类型因子和非数值类型因子。

其中，数据类型是指数据的格式，包括数值类型和非数值类型。具体地，采用函数typeof()对用户产品因子对应的信息进行判断，从而确定用户产品因子的数据类型是数值类型或者非数值类型。如用户产品因子中有“连续承保年数：3年、连续未出险年数：2年、最近登录时间：20个小时或者上年保费：3000元”，其中的3年、2年、20个小时或者3000元等，均为数值类型因子。如用户产品因子中有险种：C0/C5、是否绑定好车主APP：Y/N等，其中的C0/C5或者Y/N均为非数值类型因子。

S22：将数值类型因子进行均值计算，得到数值因子数据，并对非数值类型因子进行0/1转化处理，得到二值因子数据。

其中，数值因子数据是指数值为一个具体大小的数据，二值因子数据是指非0即1或者非1即0的数据。

具体地，均值计算是指计算多个数值类型因子的平均值。0/1转化处理是指对非数值类型因子进行二分类的转化，例如，将用户意向因子中的车险C0重置为0，那么C5则重置为1，又例如，将是否绑定好车主APP的Y重置为1，则N重置为0。可以理解地，将数值类型因子进行均值计算，避免了对每一数值类型因子进行一一处理的繁琐步骤，对非数值类型因子进行0/1转化处理，使得非数值类型因子更加准确具体，因此，通过将数值类型因子进行均值计算，得到数值因子数据，并对非数值类型因子进行0/1转化处理，减少了对数据的冗余操作，能够提高对用户产品因子处理效率。

S23：将数值因子数据和二值因子数据确定为用户意向因子。

具体地，将数值因子数据和二值因子数据都作为用户意向因子，保证了用户意向因子的完整性和准确性。

本实施例中，首先，对用户产品因子按照数据类型进行分类，得到数值类型因子和非数值类型因子；然后，将数值类型因子进行均值计算，得到数值因子数据，并对非数值类型因子进行0/1转化处理，得到二值因子数据，减少了对数据的冗余操作，能够提高对用户产品因子处理效率；最后，将数值因子数据和二值因子数据都作为用户意向因子，保证了用户意向因子的完整性和准确性。

在一实施例中，在步骤S43之后，即在将目标阈值区间对应的意向等级作为用户对应的目标意向等级之后，还包括如下步骤：

根据目标意向等级对用户进行坐席分配，或者，根据根据续目标意向等级向用户推送对应的目标活动。

具体地，根据续保概率序列进行坐席分配，如，让销售技巧较高的坐席服务目标意向等级较低的用户，从而提高对应用户的意向。或者，根据根据续目标意向等级向用户推送对应的目标活动，如向目标意向等级较低的用户推送续保优惠活动等，不仅能提高服务质量，还能够提高续保概率，进而为保险公司带来经济效益。

本实施例中，根据目标意向等级对用户进行坐席分配，或者，根据根据续目标意向等级向用户推送对应的营销活动，不仅能提高服务质量，还能够提高续保概率，进而为保险公司带来经济效益。

在一实施例中，如图6所示，在步骤S30之前，即在将用户意向因子输入到预设的随机森林模型中进行计算分类之前，该用户意向预测方法还包括如下步骤：

S51：获取用户产品信息作为训练样本。

其中，训练样本是指用于进行模型训练的样本。具体地，可以从保险系统的后台数据库中获取用户产品信息作为训练样本，也可以通过爬虫技术从保险网页中获取用户产品信息作为训练样本，还可以通过数据采集接口采集用户产品信息作为训练样本。具体获取方法此处不作限制。

S52：采用随机森林算法对训练样本进行训练，得到决策树，并判断决策树的数量是否达到预设的数目。

其中，随机森林算法(RandomForest)是指随利用多棵树对样本进行训练并预测的一种分类器的方法，用于进行训练或者回归的算法。具体地，随机选取M个样本进行一次训练，得到一棵决策树。其中，决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为分类结果。根据随机森林算法的训练次数可以确定决策树的数目，即训练次数即为决策树的数量，然后将该数目与预设的数目进行比较，判断决策树的数量是否达到预设的数目。

S53：若决策树的数目达到预设的数目，则停止训练，得到预设的随机森林模型。

具体地，当决策树的数目达到预设的数目时，停止训练，得到预设的随机森林模型。可以理解地，如果在预设数目的决策树进行下一次训练，这该训练过程的节点选出来的那一个属性是其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了，一直到不能够再分裂为止整个决策树形成过程中没有进行剪枝，从而得到随机森林模型。且该随机训练方法在数据集上通过随机性的引入，使得随机森林不容易陷入过拟合，同时能够处理很高维度的数据，并且不用做特征选择，对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化，使得到随机森林模型更加方便准确。

本实施例中，首先，获取用户产品信息作为训练样本；然后，采用随机森林算法对训练样本进行训练，得到决策树，并判断决策树的数量是否达到预设的数目；当决策树的数目达到预设的数目时，则停止训练，得到预设的随机森林模型，使得到的随机森林模型更加方便准确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种用户意向预测装置，该用户意向预测装置与上述实施例中用户意向预测方法一一对应。如图7所示，该用户意向预测装置包括保单因子获取模块10、续保因子获取模块20、分类结果获取模块30和续保结果预测模块40。各功能模块详细说明如下：

保单因子获取模块10，用于获取用户历史产品信息，采用大数据技术计算用户历史产品信息，得到用户产品因子；

续保因子获取模块20，用于对每一用户产品因子进行数据变换，得到每一用户意向因子；

分类结果获取模块30，用于将用户意向因子输入到预设的随机森林模型中进行分类，得到每一用户对应的分类结果；

续保结果预测模块40，用于将每一用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果。

优选地，如图8所示，续保结果预测模块40包括续保评估分值计算单元41、目标阈值区间获取单元42和意向等级获取单元43。

续保评估分值计算单元41，用于针对每个用户，将用户对应的分类结果作为自变量输入到逻辑回归模型中，计算自变量的概率，作为用户对应的续保评估分值；

目标阈值区间获取单元42，用于将每一续保评估分值和N个预设阈值区间进行匹配，得到每一续保评估分值对应的目标阈值区间，其中，每个预设阈值区间对应一个意向等级，N为正整数；

意向等级获取单元43，用于将目标阈值区间对应的意向等级作为用户对应的目标意向等级。

优选地，保单因子获取模块包括src层信息获取单元和保单因子获取单元。

src层信息获取单元，用于通过sqoop工具将用户历史产品信息的增量数据导入src层；

保单因子获取单元，用于按照主键对src层中的数据进行除重处理，生成数据镜像，作为用户产品因子。

优选地，续保因子获取模块包括保单因子分类单元、因子数据获取单元和续保因子获取单元。

保单因子分类单元，用于对用户产品因子按照数据类型进行分类，得到数值类型因子和非数值类型因子；

因子数据获取单元，用于将数值类型因子进行均值计算，得到数值因子数据，并对非数值类型因子进行0/1转化处理，得到二值因子数据；

续保因子获取单元，用于将数值因子数据和二值因子数据确定为用户意向因子。

优选地，用户意向预测方法还包括续保提高模块，用于根据目标意向等级对用户进行坐席分配，或者，根据根据续目标意向等级向用户推送对应的目标活动。

优选地，用户意向预测方法还包括样本获取模块、样本训练模块和随机森林模型获取模块。

样本获取模块，用于获取用户产品信息作为训练样本；

样本训练模块，用于采用随机森林算法对训练样本进行训练，得到决策树，并判断决策树的数量是否达到预设的数目；

随机森林模型获取模块，用于若决策树的数目达到预设的数目，则停止训练，得到预设的随机森林模型。

关于用户意向预测装置的具体限定可以参见上文中对于用户意向预测方法的限定，在此不再赘述。上述用户意向预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户意向预测方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户意向预测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种用户意向预测方法，其特征在于，所述用户意向预测方法包括：

2.如权利要求1所述的用户意向预测方法，其特征在于，所述将每一所述用户对应的分类结果作为自变量输入到逻辑回归模型，获取用户意向预测结果，包括：

针对每个所述用户，将所述用户对应的分类结果作为自变量输入到逻辑回归模型中，计算所述自变量的概率，作为所述用户对应的意向评估分值；

将每一所述意向评估分值和N个预设阈值区间进行匹配，得到每一所述意向评估分值对应的目标阈值区间，其中，每个所述预设阈值区间对应一个意向等级，N为正整数；

将所述目标阈值区间对应的意向等级作为所述用户对应的目标意向等级。

3.如权利要求1所述的用户意向预测方法，其特征在于，所述获取用户历史产品信息，采用大数据技术计算所述用户历史产品信息，得到用户产品因子，包括：

通过sqoop工具将所述用户历史产品信息的增量数据导入src层；

按照主键对src层中的数据进行除重处理，生成数据镜像，作为所述用户产品因子。

4.如权利要求1所述的用户意向预测方法，其特征在于，所述对所述用户产品因子进行数据变换，得到用户意向因子，包括：

对所述用户产品因子按照数据类型进行分类，得到数值类型因子和非数值类型因子；

将所述数值类型因子进行均值计算，得到数值因子数据，并对所述非数值类型因子进行0/1转化处理，得到二值因子数据；

将所述数值因子数据和所述二值因子数据确定为所述用户意向因子。

5.如权利要求2所述的用户意向预测方法，其特征在于，在所述将目标阈值区间对应的意向等级作为所述用户对应的目标意向等级之后，所述用户意向预测方法还包括：

根据所述目标意向等级对所述用户进行坐席分配，或者，根据根据所述目标意向等级向所述用户推送对应的目标活动。

6.如权利要求1所述的用户意向预测方法，其特征在于，在所述将所述用户意向因子输入到预设的随机森林模型中进行计算分类之前，所述用户意向预测方法还包括：

获取用户产品信息作为训练样本；

采用随机森林算法对所述训练样本进行训练，得到决策树，并判断所述决策树的数量是否达到预设的数目；

若所述决策树的数目达到预设的数目，则停止训练，得到所述预设的随机森林模型。

7.一种用户意向预测装置，其特征在于，所述用户意向预测装置包括：

续保结果预测模块，用于将每一所述用户对应的分类结果作为自变量输入到逻辑回归模型，进行用户续保结果预测。

8.如权利要求7所述的基于用户意向预测装置，其特征在于，所述续保结果预测模块，包括：

续保评估分值计算单元，用于针对每个所述用户，将所述用户对应的分类结果作为自变量输入到逻辑回归模型中，计算所述自变量的概率，作为所述用户对应的意向评估分值；

目标阈值区间获取单元，用于将每一所述意向评估分值和N个预设阈值区间进行匹配，得到每一所述意向评估分值对应的目标阈值区间，其中，每个所述预设阈值区间对应一个意向等级，N为正整数；

意向等级获取单元，用于将所述目标阈值区间对应的意向等级作为所述用户对应的目标意向等级。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述用户意向预测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用户意向预测方法。