CN111626879A

CN111626879A - 数据预测方法、装置、设备及存储介质

Info

Publication number: CN111626879A
Application number: CN202010466420.4A
Authority: CN
Inventors: 朱建林; 周勇; 李傲梅; 柴敏; 周景
Original assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-04

Abstract

本发明实施例提供一种数据预测方法、装置、设备及存储介质，该方法包括：获取目标客户的特征数据，所述目标客户为待预测缺口保额的客户；根据所述目标客户的特征数据，通过第一目标模型，得到所述目标客户的多个第一目标收入值；根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值。本实施例提供的方法能够克服在保险领域现有技术针对客户的收入值预测精度较低的问题。

Description

数据预测方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据预测方法、装置、设备及存储介质。

背景技术

随着技术的发展，现在对数据的预测方法各式各样，可以应用到不同的领域。因此，在不同的领域，对于数据预测均有着重要意义。

例如，在保险行业，可以对保险客户的缺口保额预测(缺口保额或保费缺口是指客户每年需要配置在保险领域的资产额度)，进一步地为客户提供优质服务。目前有运用线性回归的方法，基于客户信息中记录的缴纳的3-6个月保险费用，来预测保险客户未来时间可以缴纳的保险费用，进一步地预测出保险客户的缺口保额。

但是，在保险领域现有技术针对客户的收入值预测精度较低。

发明内容

本发明实施例提供一种数据预测方法、装置、设备及存储介质，以克服在保险领域现有技术针对客户的收入值预测精度较低的问题。

第一方面，本发明实施例提供一种数据预测方法，包括：

获取目标客户的特征数据，所述目标客户为待预测缺口保额的客户；

根据所述目标客户的特征数据，通过第一目标模型，得到所述目标客户的多个第一目标收入值，所述第一目标模型是根据多个历史客户中的每个历史客户的特征数据，对LightGBM模型训练得到的，所述多个第一目标收入值包括所述目标客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值；

根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，所述第二目标模型是以通过所述LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对 LSTM模型训练得到的。

可选地，在通过第一目标模型，得到所述目标客户的多个第一目标收入值之前，所述方法还包括：

获取每个所述历史客户的特征数据，所述历史客户的特征数据包括：年龄、职业、民族、性别、学历、消费指标以及实际收入值；

对所述年龄、职业、民族、性别、学历、消费指标以及实际收入值进行预处理，得到所述年龄、职业、民族、性别、学历、消费指标以及实际收入值分别对应的标签值，所述标签值用于表示所述特征数据的标识符；

以每个所述历史客户对应的所述标签值为一个第一样本，形成第一训练集和第一验证集，所述第一训练集和所述第一验证集合并为全集且所述第一训练集和所述第一验证集无交集；

根据所述第一训练集中的第一样本，对所述LightGBM模型进行训练，得到训练后的LightGBM模型；

根据所述第一验证集中的第一样本，对所述训练后的LightGBM模型进行验证，得到所述第一验证集中的第一样本对应的待校验收入值；

若所述第一验证集中的第一样本包含的所述实际收入值与所述第一验证集中的第一样本对应的待校验收入值之间的误差在第一预设误差范围内，则将所述训练后的LightGBM模型作为所述第一目标模型。

可选地，在得到所述第一目标模型之后，所述方法还包括：

获取每个所述历史客户在多个预设历史时间段中每个预设历史时间段对应的历史职业、每个所述历史客户在每个所述预设历史时间段对应的历史年龄、每个所述历史客户在每个所述预设历史时间段对应的历史学历以及每个所述历史客户在每个所述预设历史时间段对应的历史消费指标；

将所述历史职业、所述历史年龄、所述历史学历、所述历史消费指标、所述性别以及所述民族作为第二样本，每个所述历史客户在每个所述预设历史时间段对应一个第二样本；

将每个所述历史客户对应的每个所述第二样本依次输入到所述第一目标模型中，得到每个所述历史客户对应的多个历史收入值，一个第二样本对应一个历史收入值。

可选地，在所述通过第二目标模型，得到所述目标客户当前的预测收入值之前，所述方法还包括：

根据每个所述历史客户对应的每个所述第二样本、每个所述第二样本对应的所述多个历史收入值以及每个所述第一样本，生成第三样本，一个所述历史客户对应一个第三样本；

根据每个所述第三样本，形成第二训练集和第二验证集，所述第二训练集和所述第二验证集合并为全集且所述第二训练集和所述第二验证集无交集；

根据所述第二训练集中的第三样本，对所述LSTM模型进行训练，得到训练后的LSTM模型；

根据所述第二验证集中的第三样本，对所述训练后的LSTM模型进行验证，得到所述第二验证集中的第三样本对应的待校验当前收入值；

若所述第二验证集中的第三样本包含的所述实际收入值与所述第二验证集中的第三样本对应的待校验当前收入值之间的误差在第二预设误差范围内，则将所述训练后的LSTM模型作为所述第二目标模型。

可选地，所述目标客户的特征数据包括所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标、所述目标客户当前的学历；

所述根据所述目标客户的特征数据，通过第一目标模型，得到所述目标客户的多个第一目标收入值，包括：

将所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标作为第一目标数据，一个预设历史时间段对应一个第一目标数据；

将每个所述第一目标数据依次输入到所述第一目标模型中，得到所述目标客户在每个所述预设历史时间段对应的目标历史收入值，并将所述目标历史收入值作为所述第一目标收入值。

可选地，所述根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，包括：

将每个所述第一目标数据、与每个所述第一目标数据匹配的所述目标历史收入值、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标生成第二目标数据；

将所述第二目标数据输入到所述第二目标模型中，得到所述目标客户当前的预测收入值；

其中，所述目标客户当前的预测收入值用于表示与所述目标客户在当前的特征数据匹配的预测收入值，所述当前的特征数据包括所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标、所述目标客户当前的学历、目标民族、目标性别。

可选地，在所述得到所述目标客户当前的预测收入值之后，所述方法还包括：

根据所述目标客户当前的预测收入值、当前时间节点、所述多个第一目标收入值以及每个所述第一目标收入值对应的历史时间节点，生成时间 -收入值趋势图；

将所述时间-收入值趋势图发送至目标终端，以使所述目标终端对所述目标客户进行行为分析；

在所述得到所述目标客户当前的预测收入值之后，所述方法还包括：

根据预设的缺口保额与收入值之间的函数关系和所述目标客户当前的预测收入值，确定所述目标客户当前的预测缺口保额。

第二方面，本发明实施例提供一种数据预测装置，包括：

特征数据获取模块，用于获取目标客户的特征数据，所述目标客户为待预测缺口保额的客户；

第一目标收入值确定模块，用于根据所述目标客户的特征数据，通过第一目标模型，得到所述目标客户的多个第一目标收入值，所述第一目标模型是根据多个历史客户中的每个历史客户的特征数据，对LightGBM模型训练得到的，所述多个第一目标收入值包括所述目标客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值；

预测收入值确定模块，用于根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，所述第二目标模型是以通过所述LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM模型训练得到的。

第三方面，本发明实施例提供一种数据预测设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的数据预测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的数据预测方法。

本实施例提供的数据预测方法、装置、设备及存储介质，先获取目标客户的特征数据，这里的目标客户为待预测缺口保额的客户，然后根据待预测缺口保额的客户的特征数据，通过由多个历史客户中的每个历史客户的特征数据，对LightGBM模型训练得到的第一目标模型，得到目标客户的多个第一目标收入值，其中，第一目标收入值包括所述目标客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值；再根据所述目标历史收入值和所述目标客户的特征数据，由以通过所述 LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM 模型训练得到的第二目标模型，得到所述目标客户当前的预测收入值，实现对客户收入值的准确、有效地预测。本发明基于获取的目标客户的特征数据，通过运用大数据机器学习的双层模型架构，能够有效地预测目标客户当前的收入值，预测的收入值准确度高，进而基于准确地数据能够进一步地为客户提供优质服务，使得提高用户的满意度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据预测方法的流程示意图；

图2为本发明另一实施例提供的数据预测方法的流程示意图；

图3为本发明又一实施例提供的数据预测方法的流程示意图；

图4为本发明再一实施例提供的数据预测方法的流程示意图；

图5为本发明另一实施例提供的数据预测方法的流程示意图；

图6为本发明又一实施例提供的数据预测方法的流程示示意图；

图7为本发明再一实施例提供的数据预测方法的流程示示意图；

图8为本发明实施例提供的数据预测装置的结构示意图；

图9为本发明实施例提供的数据预测设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决上述技术问题，本发明实施例提供一种数据预测方法以解决上述问题。

图1为本发明实施例提供的数据预测方法的流程示意图，本实施例的执行主体可以为终端，也可以为服务器。本实施例此处对执行主体不做限定。

参见图1，所述数据预测方法，包括：

S101、获取目标客户的特征数据，所述目标客户为待预测缺口保额的客户。

在实际应用中，可以通过业务终端或预设的数据库中存储的客户信息中获取待预测缺口保额的客户的特征数据，这里的特征数据可以包括在年龄、职业、民族、性别、学历、消费指标，其中，除了民族、性别以外，特征数据中的其他数据可以是多个，即各个预设历史时间段上的年龄、职业、学历、消费指标等。

S102、根据所述目标客户的特征数据，通过第一目标模型，得到所述目标客户的多个第一目标收入值，所述第一目标模型是根据多个历史客户中的每个历史客户的特征数据，对LightGBM模型训练得到的，所述多个第一目标收入值包括所述目标客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值。

本实施例中，采用两层的模型结构，第一层为根据多个历史客户中的每个历史客户的特征数据，对LightGBM模型训练得到的第一目标模型，第一目标模型的输入是特征数据，输出为客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值即第一目标收入值。

S103、根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，所述第二目标模型是以通过所述LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM模型训练得到的。

本实施例中，采用两层的模型结构，第二层为以通过所述LightGBM 模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM模型训练得到的第二目标模型，第二目标模型的输入是特征数据以及由第一目标模型输出的目标客户在每个所述预设历史时间段对应的目标历史收入值，第二目标模型的输出为目标客户当前收入的预测值即目标客户当前的预测收入值。

本实施例中，通过先获取目标客户的特征数据，这里的目标客户为待预测缺口保额的客户，然后根据待预测缺口保额的客户的特征数据，通过由多个历史客户中的每个历史客户的特征数据，对LightGBM模型训练得到的第一目标模型，得到目标客户的多个第一目标收入值，其中，第一目标收入值包括所述目标客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值；再根据所述目标历史收入值和所述目标客户的特征数据，由以通过所述LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM模型训练得到的第二目标模型，得到所述目标客户当前的预测收入值，实现对客户收入值的准确、有效地预测。

本发明基于获取的目标客户的特征数据，通过运用大数据机器学习的双层模型架构，能够有效地预测目标客户当前的收入值，预测的收入值准确度高，进而基于准确地数据能够进一步地为客户提供优质服务，使得提高用户的满意度。

具体地，如何搭建第一目标模型，参见图2所示，图2为本发明另一实施例提供的数据预测方法的流程示意图，本实施例在上述实施例的基础上，对数据预测方法进行了详细的说明。在通过第一目标模型，得到所述目标客户的多个第一目标收入值之前，所述方法还包括：

S201、获取每个所述历史客户的特征数据，所述历史客户的特征数据包括：年龄、职业、民族、性别、学历、消费指标以及实际收入值；

S202、对所述年龄、职业、民族、性别、学历、消费指标以及实际收入值进行预处理，得到所述年龄、职业、民族、性别、学历、消费指标以及实际收入值分别对应的标签值，所述标签值用于表示所述特征数据的标识符；

S203、以每个所述历史客户对应的所述标签值为一个第一样本，形成第一训练集和第一验证集，所述第一训练集和所述第一验证集合并为全集且所述第一训练集和所述第一验证集无交集；

S204、根据所述第一训练集中的第一样本，对所述LightGBM模型进行训练，得到训练后的LightGBM模型；

S205、根据所述第一验证集中的第一样本，对所述训练后的LightGBM 模型进行验证，得到所述第一验证集中的第一样本对应的待校验收入值；

S206、若所述第一验证集中的第一样本包含的所述实际收入值与所述第一验证集中的第一样本对应的待校验收入值之间的误差在第一预设误差范围内，则将所述训练后的LightGBM模型作为所述第一目标模型。

本实施例中，首先获取每个历史客户的特征数据，这里历史客户的特征数据包括：年龄、职业、民族、性别、学历、消费指标以及实际收入值；这里的实际收入值即为客户的真实收入，且收入是指年收入。然后对特征数据进行数据预处理，即对年龄、职业、民族、性别、学历、消费指标以及实际收入值进行标签化。具体地，首先去掉实际收入指小于第一预设收入值对应的特征数据，然后根据绝对位差去掉高于第二预设收入值对应的数据，然后基于剩下的所有历史客户的特征数据通过标签来记作特征数据的标识符，根据标识符就能确定特征数据。

比如，对年龄、收入值等数值型数据，年龄的标签化依然为年龄值，收入值可以通过分箱处理，得到每个收入值对应的标签值，消费指标可以是是否抽烟、是否喝酒等指示型数据，通过0和1表示，即抽烟或喝酒标识为1，不喝酒或不吸烟标识为0作为消费指标的标签值，这里消费指标的标签值可以是[0，0]、[1，0]、[0，1]、[1，1]；对学历等有序型数据，根据学历顺序文盲、小学、初中、高中、本科、硕士、博士连续量化为0、 1、2、3、4、5、6；对职业、民族等枚举型数据，如果取值个数少于指定的个数n，则每个取值类型占一列，如果多于指定个数n，则按出现次数排序将前n个取值分别作为一列，其它所有取值作为其它列处理，对每个取值按其出现次数填入相应的列中，以民族为例，比如，汉族、满族、回族、傣族各占一列，其他占一列，比如，历史客户A是满族，则民族对应的标签为[0，1，0，0，0]，职业对应的标签类似，最后将一个历史客户的特征数据对应的所有标签作为一个一行多列的矩阵，即将每个所述历史客户对应的所述标签值作为第一样本，生成第一训练集和第一验证集，其中第一训练集和第一验证集中均包含多个第一样本，第一训练集和所述第一验证集合并为全集且所述第一训练集和所述第一验证集无交集。比如，将80％的样本作为训练集、20％的样本作为验证集，将第一训练集中的各个第一样本代入LightGBM模型中，对第一训练集进行LightGBM模型训练、优化，然后将第一验证集中的各个第一样本输入到训练、优化后的LightGBM模型中，根据第一验证集中收入值的准确率、召回率和F1值确定最优的LightGBM模型，即第一目标模型。

具体地，在得到所述第一目标模型之后，为了搭建第二层模型，首先需要确定第二层模型的输入量，参见图3所示，图3为本发明又一实施例提供的数据预测方法的流程示意图，本实施例在上述实施例的基础上，例如，在图2所述的实施例的基础上，对数据预测方法进行了详细说明。在得到所述第一目标模型之后，所述方法还包括：

S301、获取每个所述历史客户在多个预设历史时间段中每个预设历史时间段对应的历史职业；

S302、将每个所述历史客户在每个所述预设历史时间段对应的历史职业、每个所述历史客户在每个所述预设历史时间段对应的历史年龄、每个所述历史客户在每个所述预设历史时间段对应的历史学历、每个所述历史客户在每个所述预设历史时间段对应的历史消费指标、所述性别以及所述民族作为第二样本，每个所述历史客户在每个所述预设历史时间段对应一个第二样本；

S303、将每个所述历史客户对应的每个所述第二样本依次输入到所述第一目标模型中，得到每个所述历史客户对应的多个历史收入值，一个第二样本对应一个历史收入值。

本实施例中，首先针对上述历史客户，先获取每个所述历史客户在多个预设历史时间段中每个预设历史时间段对应的历史职业、每个所述历史客户在每个所述预设历史时间段对应的历史年龄、每个所述历史客户在每个所述预设历史时间段对应的历史学历以及每个所述历史客户在每个所述预设历史时间段对应的历史消费指标，然后将所述历史职业、所述历史年龄、所述历史学历、所述历史消费指标、所述性别以及所述民族作为第二样本，并将第二样本输入到第一目标模型中，即可得到每个所述历史客户在每个所述预设历史时间段对应的历史收入值，因此，可以得到每个所述历史客户对应的多个历史收入值。将每个所述历史客户在每个预设历史时间段对应的历史职业、每个所述历史客户在每个所述预设历史时间段对应的历史年龄、每个所述历史客户在每个所述预设历史时间段对应的历史学历以及每个所述历史客户在每个所述预设历史时间段对应的历史消费指标以及每个所述历史客户在每个所述预设历史时间段对应的历史收入以及每个历史客户对应的第一样本作为训练第二层模型的样本。

为了降低过拟合的风险，第二层模型使用LSTM模型，具体地，参见图4所示，图4为本发明再一实施例提供的数据预测方法的流程示意图，本实施例在上述实施例的基础上，例如，在图3所述的实施例的基础上，对数据预测方法进行了详细说明。在所述通过第二目标模型，得到所述目标客户当前的预测收入值之前，所述方法还包括：

S401、根据每个所述历史客户对应的每个所述第二样本、每个所述第二样本对应的所述多个历史收入值以及每个所述第一样本，生成第三样本，一个所述历史客户对应一个第三样本；

S402、根据每个所述第三样本，形成第二训练集和第二验证集，所述第二训练集和所述第二验证集合并为全集且所述第二训练集和所述第二验证集无交集；

S403、根据所述第二训练集中的第三样本，对所述LSTM模型进行训练，得到训练后的LSTM模型；

S404、根据所述第二验证集中的第三样本，对所述训练后的LSTM模型进行验证，得到所述第二验证集中的第三样本对应的待校验当前收入值；

S405、若所述第二验证集中的第三样本包含的所述实际收入值与所述第二验证集中的第三样本对应的待校验当前收入值之间的误差在第二预设误差范围内，则将所述训练后的LSTM模型作为所述第二目标模型。

本实施例中，将每个所述历史客户对应的每个所述第二样本、每个所述第二样本对应的所述多个历史收入值以及每个所述第一样本作为一个新的样本即第三样本，一个历史客户对应一个第三样本。

具体地，与搭建第一层模型类似，首先将所有第三样本划分为第二训练集和第二验证集，第二训练集和第二验证集中均包含多个第三样本，其中第二训练集和所述第二验证集合并为全集且所述第二训练集和所述第二验证集无交集。然后将第二训练集中的第三样本输入到LSTM模型中训练、优化，得到训练后的LSTM模型，然后将第二验证集中的第三样本输入到训练后的LSTM模型中，根据第二验证集中当前收入值的准确率、召回率和F1值确定最优的LSTM模型，即第二目标模型。

在实际应用中，第一层模型中，由于使用了复杂的非线性变化提取特征，更易产生过拟合的情况。为降低过拟合的风险，第二层模型使用LSTM 模型。具体地，用LightGBM分别预测同一客户现在、1、3、5年前收入，然后按时序把所有模型预测的距今5年收入、距今3年收入、距今1年收入、现在收入依次排序放入，这样就为LSTM提供的具有时序特征的多个收入序列。然后，把客户实际收入作为Y，构建LSTM模型，进而实现基于双层架构的预测系统。

比如：

表1

假设有10000条样本，用LightGBM训练为一个模型。之后为每条样本预测之前1年、3年、5年3个收入。那么，第二条2008年的样本就会变为4行数据，数据如下：

表2

其中，表2中的前3条都是重新计算当年X1-Xn，代入第一目标模型来预测当时收入。然后，将4年时序数据合并为LSTM模型的训练数据格式：X是“2003，男，41，12，22，-,-,180000，2005，男，43，12，24， 220000，2007，男，45，12，26，250000，2008，男，46，12，27，-，-”， Y是280000。这样原始的10000条样本就变成LSTM带时序的10000条样本，用这带时序的10000条样本训练LSTM模型，预测任何一个客户的当前真实收入。因此，预测一个客户的真实收入分两步；第一步用第一目标模型预测当前时间点前1、3、5年三个收入值；第二步将3个预测的当时特征的4行矩阵整合为LSTM的输入数据格式，输入到LSTM模型以预测客户当前真实收入。

根据搭建好的双层模型架构，如何实现对目标客户当前收入值的预测，参见图5和图6所示。其中，首先计算出目标客户在各个预设历史时间段对应的数据，然后通过第一目标模型输出目标客户在各个预设历史时间段对应的收入值，然后将目标客户在各个预设历史时间段对应的数据、收入值以及当前数据作为第二目标模型的输入量，输入到第二目标模型中，预测出目标客户当前的输入值。

具体地，如何得到目标客户在每个所述预设历史时间段对应的目标历史收入值，参见图5所示，图5为本发明另一实施例提供的数据预测方法的流程示意图，本实施例在上述实施例的基础上，例如，在图4所述的实施例的基础上，对S102进行了详细说明。其中，所述目标客户的特征数据包括所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标、所述目标客户当前的学历；所述根据所述目标客户的特征数据，通过第一目标模型，得到所述目标客户的多个第一目标收入值，包括：

S501、将所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标作为第一目标数据，一个预设历史时间段对应一个第一目标数据；

S502、将每个所述第一目标数据依次输入到所述第一目标模型中，得到所述目标客户在每个所述预设历史时间段对应的目标历史收入值，并将所述目标历史收入值作为所述第一目标收入值。

本实施例中，将所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标作为第一目标模型的输入量，通过第一目标模型，输出目标客户在每个所述预设历史时间段对应的目标历史收入值。

如何基于目标历史收入值和所述目标客户的特征数据，预测出目标客户当前的收入值，参见图6所示，图6为本发明又一实施例提供的数据预测方法的流程示意图，本实施例在上述实施例的基础上，例如，在图5手术的实施例的基础上，对S103进行了详细说明。所述根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，包括：

S601、将每个所述第一目标数据、与每个所述第一目标数据匹配的所述目标历史收入值、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标生成第二目标数据；

S602、将所述第二目标数据输入到所述第二目标模型中，得到所述目标客户当前的预测收入值；其中，所述目标客户当前的预测收入值用于表示与所述目标客户在当前的特征数据匹配的预测收入值，所述当前的特征数据包括所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标、所述目标客户当前的学历、目标民族、目标性别。

本实施例中，将通过第一目标模型得到的每个所述第一目标数据、与每个所述第一目标数据匹配的所述目标历史收入值、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标进行时序排列为在一个矩阵，作为第二目标数据，这里的第二目标数据是带时序的数据。如上述X是“2003，男，41，12，22，-,-,180000，2005，男， 43，12，24，220000，2007，男，45，12，26，250000，2008，男，46， 12，27，-，-”，针对目标客户，这里没有Y，Y是需要预测的，因此，将带时序的样本输入到第二目标模型中，得到目标客户当前的预测收入值。

本发明使用不同来源不同客户收入相关数据作为训练数据，增强了 LightGBM模型训练过程中输出值的差异性，通过第二层LSTM模型进一步学习后，能够在第一层模型中取长补短，避免过拟合情况，提升预测的准确度和稳定性。

为了实现对目标客户缺口保额的预测以及目标客户在近几年收入情况的变化趋势，参见图7所示，图7为本发明再一实施例提供的数据预测方法的流程示意图，本实施例在上述实施例的基础上，对数据预测方法进行了详细说明。在所述得到所述目标客户当前的预测收入值之后，所述方法还包括：

S701、根据所述目标客户当前的预测收入值、当前时间节点、所述多个第一目标收入值以及每个所述第一目标收入值对应的历史时间节点，生成时间-收入值趋势图；

S702、将所述时间-收入值趋势图发送至目标终端，以使所述目标终端对所述目标客户进行行为分析；

本实施例中，将目标客户对应的每个所述第一目标收入值对应的历史时间节点和当前时间节点作为横轴，将历史时间节点匹配的第一目标收入值和目标客户当前的预测收入值作为纵轴，生成时间-收入值趋势图，并将时间-收入值趋势图发送至目标终端，目标终端通过接收时间-收入值趋势图对所述目标客户进行行为分析，为目标客户提供匹配的业务需求，提高客户体验。

其中，在所述得到所述目标客户当前的预测收入值之后，可以根据预设的缺口保额与收入值之间的函数关系比如客户每年的保险配置额度即缺口保额为收入值的10％-15％，能够确定所述目标客户当前的预测缺口保额，为目标客户提供匹配的业务需求，提高客户体验。

本发明基于获取的目标客户的特征数据，通过运用大数据机器学习的双层模型架构，能够有效地预测目标客户当前的收入值，预测的收入值准确度高，同时基于预测的收入值可以生成时间-收入值趋势图以供参考还可以预估出目标客户的缺口保额，因此基于准确地数据能够进一步地为客户提供优质服务，使得提高用户的满意度。

为了实现所述数据预测方法，本实施例提供了一种数据预测装置。参见图8，图8为本发明实施例提供的数据预测装置的结构示意图；所述数据预测装置80，包括：特征数据获取模块801、第一目标收入值确定模块 802以及预测收入值确定模块803，特征数据获取模块801，用于获取目标客户的特征数据，所述目标客户为待预测缺口保额的客户；第一目标收入值确定模块802，用于根据所述目标客户的特征数据，通过第一目标模型，得到所述目标客户的多个第一目标收入值，所述第一目标模型是根据多个历史客户中的每个历史客户的特征数据，对LightGBM模型训练得到的，所述多个第一目标收入值包括所述目标客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值；预测收入值确定模块 803，用于根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，所述第二目标模型是以通过所述LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM模型训练得到的。

本实施例中通过特征数据获取模块801、第一目标收入值确定模块802 以及预测收入值确定模块803，用于获取目标客户的特征数据，这里的目标客户为待预测缺口保额的客户，然后根据待预测缺口保额的客户的特征数据，通过由多个历史客户中的每个历史客户的特征数据，对LightGBM 模型训练得到的第一目标模型，得到目标客户的多个第一目标收入值，其中，第一目标收入值包括所述目标客户在多个预设历史时间段中的每个所述预设历史时间段对应的目标历史收入值；再根据所述目标历史收入值和所述目标客户的特征数据，由以通过所述LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM模型训练得到的第二目标模型，得到所述目标客户当前的预测收入值，实现对客户收入值的准确、有效地预测。本发明基于获取的目标客户的特征数据，通过运用大数据机器学习的双层模型架构，能够有效地预测目标客户当前的收入值，预测的收入值准确度高，进而基于准确地数据能够进一步地为客户提供优质服务，使得提高用户的满意度。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，所述装置还包括：第一目标模型确定模块；第一目标模型确定模块，用于：

在通过第一目标模型，得到所述目标客户的多个第一目标收入值之前，获取每个所述历史客户的特征数据，所述历史客户的特征数据包括：年龄、职业、民族、性别、学历、消费指标以及实际收入值；对所述年龄、职业、民族、性别、学历、消费指标以及实际收入值进行预处理，得到所述年龄、职业、民族、性别、学历、消费指标以及实际收入值分别对应的标签值，所述标签值用于表示所述特征数据的标识符；以每个所述历史客户对应的所述标签值为一个第一样本，形成第一训练集和第一验证集，所述第一训练集和所述第一验证集合并为全集且所述第一训练集和所述第一验证集无交集；根据所述第一训练集中的第一样本，对所述LightGBM模型进行训练，得到训练后的LightGBM模型；根据所述第一验证集中的第一样本，对所述训练后的LightGBM模型进行验证，得到所述第一验证集中的第一样本对应的待校验收入值；若所述第一验证集中的第一样本包含的所述实际收入值与所述第一验证集中的第一样本对应的待校验收入值之间的误差在第一预设误差范围内，则将所述训练后的LightGBM模型作为所述第一目标模型。

可选地，所述装置还包括：历史收入值确定模块；历史收入值确定模块，用于：

在得到所述第一目标模型之后，获取每个所述历史客户在多个预设历史时间段中每个预设历史时间段对应的历史职业、每个所述历史客户在每个所述预设历史时间段对应的历史年龄、每个所述历史客户在每个所述预设历史时间段对应的历史学历以及每个所述历史客户在每个所述预设历史时间段对应的历史消费指标；将所述历史职业、所述历史年龄、所述历史学历、所述历史消费指标、所述性别以及所述民族作为第二样本，每个所述历史客户在每个所述预设历史时间段对应一个第二样本；将每个所述历史客户对应的每个所述第二样本依次输入到所述第一目标模型中，得到每个所述历史客户对应的多个历史收入值，一个第二样本对应一个历史收入值。

可选地，所述装置还包括：第二目标模型确定模块；第二目标模型确定模块，用于：

在所述通过第二目标模型，得到所述目标客户当前的预测收入值之前，根据每个所述历史客户对应的每个所述第二样本、每个所述第二样本对应的所述多个历史收入值以及每个所述第一样本，生成第三样本，一个所述历史客户对应一个第三样本；根据每个所述第三样本，形成第二训练集和第二验证集，所述第二训练集和所述第二验证集合并为全集且所述第二训练集和所述第二验证集无交集；根据所述第二训练集中的第三样本，对所述LSTM模型进行训练，得到训练后的LSTM模型；根据所述第二验证集中的第三样本，对所述训练后的LSTM模型进行验证，得到所述第二验证集中的第三样本对应的待校验当前收入值；若所述第二验证集中的第三样本包含的所述实际收入值与所述第二验证集中的第三样本对应的待校验当前收入值之间的误差在第二预设误差范围内，则将所述训练后的LSTM 模型作为所述第二目标模型。

可选地，所述目标客户的特征数据包括所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标、所述目标客户当前的学历；所述第一目标收入值确定模块，具体用于：

将所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标作为第一目标数据，一个预设历史时间段对应一个第一目标数据；将每个所述第一目标数据依次输入到所述第一目标模型中，得到所述目标客户在每个所述预设历史时间段对应的目标历史收入值，并将所述目标历史收入值作为所述第一目标收入值。

可选地，所述预测收入值确定模块，具体用于：

将每个所述第一目标数据、与每个所述第一目标数据匹配的所述目标历史收入值、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标生成第二目标数据；将所述第二目标数据输入到所述第二目标模型中，得到所述目标客户当前的预测收入值；其中，所述目标客户当前的预测收入值用于表示与所述目标客户在当前的特征数据匹配的预测收入值，所述当前的特征数据包括所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标、所述目标客户当前的学历、目标民族、目标性别。

可选地，所述装置还包括：趋势图生成模块和缺口保额确定模块；趋势图生成模块，用于根据所述目标客户当前的预测收入值、当前时间节点、所述多个第一目标收入值以及每个所述第一目标收入值对应的历史时间节点，生成时间-收入值趋势图；将所述时间-收入值趋势图发送至目标终端，以使所述目标终端对所述目标客户进行行为分析；缺口保额确定模块，用于在所述得到所述目标客户当前的预测收入值之后，根据预设的缺口保额与收入值之间的函数关系和所述目标客户当前的预测收入值，确定所述目标客户当前的预测缺口保额。

为了实现所述数据预测方法，本实施例提供了一种数据预测设备。图 9为本发明实施例提供的数据预测设备的结构示意图。如图9所示，本实施例的数据预测设备90包括：处理器901以及存储器902；其中，存储器 902，用于存储计算机执行指令；处理器901，用于执行存储器存储的计算机执行指令，以实现上述实施例中所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的数据预测方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文： Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。总线可以是工业标准体系结构(Industry Standard Architecture， ISA)总线、外部设备互连(PeripheralComponent，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据预测方法，其特征在于，包括：

根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，所述第二目标模型是以通过所述LightGBM模型得到的每个所述历史客户在每个所述历史时间段对应的多个第一历史收入值和每个所述历史客户的特征数据为训练样本，对LSTM模型训练得到的。

2.根据权利要求1所述的方法，其特征在于，在通过第一目标模型，得到所述目标客户的多个第一目标收入值之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在得到所述第一目标模型之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，在所述通过第二目标模型，得到所述目标客户当前的预测收入值之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述目标客户的特征数据包括所述目标客户在每个所述预设历史时间段对应的目标年龄、目标职业、目标民族、目标性别、目标学历、目标消费指标、所述目标客户当前的年龄、所述目标客户当前的职业、所述目标客户当前的目标消费指标、所述目标客户当前的学历；

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标历史收入值和所述目标客户的特征数据，通过第二目标模型，得到所述目标客户当前的预测收入值，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，在所述得到所述目标客户当前的预测收入值之后，所述方法还包括：

根据所述目标客户当前的预测收入值、当前时间节点、所述多个第一目标收入值以及每个所述第一目标收入值对应的历史时间节点，生成时间-收入值趋势图；

8.一种数据预测装置，其特征在于，包括：

9.一种数据预测设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的数据预测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的数据预测方法。