CN109376766B

CN109376766B - 一种画像预测分类方法、装置及设备

Info

Publication number: CN109376766B
Application number: CN201811089700.7A
Authority: CN
Inventors: 金戈; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2023-10-24
Anticipated expiration: 2038-09-18
Also published as: CN109376766A

Abstract

本申请公开了一种画像预测分类方法、装置及设备，先利用源领域的大量样本数据，对神经网络进行初次训练，得到能够对源领域的画像进行准确分类的神经网络模型，将神经网络模型作为能够对源领域画像进行分类识别的预测分类模型，然后再利用其他领域的少量样本数据，对得到的神经网络模型进行迁移学习训练，将神经网络模型中与其他领域的数据相匹配的参数进行保留，不匹配的参数进行相应修改，进而得到能够对其他领域的画像进行准确分类的预测分类模型。这样就可以利用对应领域的预测分类模型对该领域的画像进行分类识别，缩减了预测分类模型的建模时间，避免了对应领域低数据量对预测分类模型的分类识别准确率的影响。

Description

一种画像预测分类方法、装置及设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种画像预测分类方法、装置及设备。

背景技术

随着人们经济水平的提高，越来越多的人开始重视资金管理和人身财产的安全，因此金融机构的客户也就越来越多，得到的各个客户的画像也越来越多，这些客户的画像一般涉及多个领域(例如，银行领域、保险领域、期货投资领域、基金投资领域)。针对每个领域的客户都有自己的特点，可以根据各个领域的客户特点对相应的客户画像进行识别分类。

目前，针对某一领域的画像识别分析中，需要对该领域的客户画像单独建模，如果涉及多个领域的画像识别，需要利用多个领域的大量数据，对这多个领域分别都进行单独建模。

但是，这种单独建模的方式对数据量要求较大，如果目标领域的数据量较低时，就会致使单独建立的模型的分类效果较差，影响使用效果。

发明内容

有鉴于此，本申请提供了一种画像预测分类方法、装置及设备。主要目的在于解决目前针对画像识别分类所使用的模型，一般采用单独建模的方式，但是单独建模较为耗时，且效果可能受到低数据量的影响的技术问题。

依据本申请的第一方面，提供了一种画像预测分类方法，所述方法包括：

获取待分类画像以及相对应的待分类数据特征；

根据所述待分类数据特征确定所述待分类画像所属的目标领域；

从多个预测分类模型中获取所述目标领域的预测分类模型，其中，所述多个预测分类模型包括预先利用源领域的样本数据，对神经网络进行初次训练得到的源领域对应的神经网络模型，以及利用其他领域中每个领域的样本数据，通过迁移学习方式对所述神经网络模型进行再次训练后，得到的与其他领域的每个领域一一对应的多个预测分类模型，所述源领域的样本数据的数量大于其他领域中每个领域的样本数据的数量，所述源领域的样本数据包括：源领域的画像、源领域的数据特征和源领域的画像对应的类别标识，所述其他领域中每个领域的样本数据包括：其他领域中每个领域的画像、其他领域中每个领域的数据特征和其他领域中每个领域的画像对应的类别标识；

将所述待分类画像和所述待分类数据特征，输入所述目标领域的预测分类模型，经过所述目标领域的预测分类模型处理，输出所述待分类画像的类别。

依据本申请的第二方面，提供了一种画像预测分类装置，所述装置包括：

获取单元，用于获取待分类画像以及相对应的待分类数据特征；

领域确定单元，用于根据所述待分类数据特征确定所述待分类画像所属的目标领域；

模型获取单元，用于从多个预测分类模型中获取所述目标领域的预测分类模型，其中，所述多个预测分类模型包括预先利用源领域的样本数据，对神经网络进行初次训练得到的源领域对应的神经网络模型，以及利用其他领域中每个领域的样本数据，通过迁移学习方式对所述神经网络模型进行再次训练后，得到的与其他领域的每个领域一一对应的多个预测分类模型，所述源领域的样本数据的数量大于其他领域中每个领域的样本数据的数量，所述源领域的样本数据包括：源领域的画像、源领域的数据特征和源领域的画像对应的类别标识，所述其他领域中每个领域的样本数据包括：其他领域中每个领域的画像、其他领域中每个领域的数据特征和其他领域中每个领域的画像对应的类别标识；

处理单元，用于将所述待分类画像和所述待分类数据特征，输入所述目标领域的预测分类模型，经过所述目标领域的预测分类模型处理，输出所述待分类画像的类别。

依据本申请的第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述画像预测分类方法的步骤。

依据本申请的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述画像预测分类的步骤。

借由上述技术方案，本申请提供的一种画像预测分类方法、装置和设备，先利用源领域的大量样本数据，对神经网络进行初次训练，得到能够对源领域的画像进行准确的分类识别的神经网络模型，将神经网络模型作为能够对源领域画像进行分类识别的预测分类模型，然后再利用其他领域的少量样本数据，对得到的神经网络模型进行迁移学习训练，将神经网络模型中与其他领域的数据相匹配的参数进行保留，不匹配的参数进行相应修改，进而得到能够对其他领域的画像进行准确的分类识别的预测分类模型。这样就可以利用对应领域的预测分类模型对该领域的画像进行分类识别，通过这种方案大大缩减了预测分类模型的建模时间，还能避免对应领域低数据量对预测分类模型的分类识别准确率的影响。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请的画像预测分类方法的一个实施例的流程图；

图2为本申请的画像预测分类装置的一个实施例的结构框图；

图3为本申请的计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种画像预测分类方法，利用源领域的大量样本数据对神经网络进行初次训练得到神经网络模型，然后再用其他领域的少量样本数据对神经网络模型进行再次迁移学习训练，得到预测分类模型，将预测分类模型与神经网络模型组合在一起，能够对各个领域的画像进行分类识别，这样在缩短预测分类模型的建立时间的同时，还能保证各个领域的分类效果。

如图1所示，本申请实施例提供了一种画像预测分类方法，方法包括如下步骤：

步骤101，获取待分类画像以及相对应的待分类数据特征。

在该步骤中，一些银行、保险公司等，都有大量的客户，公司会将这些客户的画像和对应的一些个人信息、商业信息等数据特征，关联在一起并存储在数据库中，方便查找和使用。这样当用户想要对某一个或多个客户画像进行分类时，只需从数据库中调取相应客户的画像和数据特征即可。

例如，银行客户的数据特征包括：存款额度、存款期限、贷款额度、贷款期限等，保险公司客户的数据特征包括：理赔额度、理赔历史金额、理赔次数等。

步骤102，根据待分类数据特征确定待分类画像所属的目标领域；

在该步骤中，每个待分类数据特征中都加入符合其领域的标签，预先将各个领域及其对应的标签列表存储，这样就可以根据待分类数据特征中包含的标签，从表格中查找确定出待分类数据特征所属的领域即目标领域。

步骤103，从多个预测分类模型中获取目标领域的预测分类模型，其中，多个预测分类模型包括预先利用源领域的样本数据，对神经网络进行初次训练得到的源领域对应的神经网络模型，以及利用其他领域中每个领域的样本数据，通过迁移学习方式对神经网络模型进行再次训练后，得到的与其他领域的每个领域一一对应的多个预测分类模型，源领域的样本数据的数量大于其他领域中每个领域的样本数据的数量，源领域的样本数据包括：源领域的画像、源领域的数据特征和源领域画像对应的类别标识，其他领域中每个领域的样本数据包括：其他领域中每个领域的画像、其他领域中每个领域的数据特征和其他领域中每个领域的画像对应的类别标识。

在该步骤中，提取源领域的样本数据中的源领域的画像和源领域的数据特征，将源领域的画像和源领域的数据特征输入神经网络，经过神经网络的处理之后输出分类结果，将分类结果与该源领域的画像对应的类别标识进行比对，如果分类结果与该源领域的画像对应的类别标识相同，则输入下一组源领域的画像和源领域的数据特征进行处理，如果分类结果与该源领域的画像对应的类别标识不同，则对神经网络进行调整使输出结果与该源领域的画像对应的类别标识相同，然后再输入下一组源领域的画像和源领域的数据特征进行处理，重复上述过程直至所有的源领域的样本数据全部训练完成为止，得到神经网络模型。

提取其他各个领域中每个领域的样本数据中其他领域中每个领域的画像和其他领域中每个领域的数据特征，将其他领域中每个领域的画像和其他领域中每个领域的数据特征输入基础模型，通过迁移学习方式进行再次训练，并将再次训练输出的分类结果与其他领域中每个领域的画像对应的类别标识进行对比，如果分类结果与其他领域中每个领域的画像对应的类别标识相同，则输入下一组其他领域中每个领域的画像和其他领域中每个领域的数据特征进行处理，如果分类结果与其他领域中每个领域的画像对应的类别标识不同，则利用迁移学习的方式对神经网络模型的各项数据进行调整使输出结果与其他领域中每个领域的画像对应的类别标识相同，然后再输入下一组其他领域中每个领域的画像和其他领域中每个领域的数据特征进行处理，重复上述过程直至其他各个领域的每个领域的样本数据全部训练完成为止，得到与其他各个领域的每个领域一一对应的多个预测分类模型。

初次训练使用的源领域的样本数据的数量比较大，这样使得初次训练后的神经网络模型，能够比较准确地对源领域的画像进行分类。再次训练使用的其他领域中每个领域(除源领域之外)的样本数据的数量比较少，对神经网络模型进行再次迁移学习训练之后得到预测分类模型。这样在神经网络模型的基础上得到的预测分类模型，即使使用较少的其他领域的画像和数据特征，也能够精确的对其他领域的画像进行分类。由于再次训练的数据量较少，所以再次训练消耗的时间较少，并且成本也相对较低。

本申请将神经网络模型作为对源领域画像进行分类的预测分类模型，并与经过迁移学习训练得到的与其他领域的每个领域一一对应的预测分类模型组合在一起，并将每个领域与相应的预测分类模型进行关联，并存储在表格中。这样，就可以直接从表格中获取对应目标领域的预测分类模型。

其中，可以使用对应的画像和数据特征的数量较多的领域作为源领域，例如，银行领域。并且为了使再次迁移学习训练，得到的预测分类模型的准确率能够有效提高，本申请的源领域和其他领域的数据特征比较相似，例如，银行领域和保险领域。

步骤104，将待分类数据特征输入目标领域的预测分类模型，经过目标领域的预测分类模型处理，输出待分类画像的类别。

在该步骤中，预测分类模型中包含输入层、隐层和输出层，将待分类画像和待分类数据特征从输入层输入之后，将待分类数据特征传送至隐层，利用隐层中包含的各个模拟神经元对各个待分类数据特征之间的联系进行分析，确定出该待分类数据特征对应的类别，然后将确定的类别与相应的待分类画像关联后从输出层输出。

其中，如果预测分类模型属于银行领域，则能够预测的类别包括：大额保守型、大额冒险型、小额保守型、小额冒险型等。

例如，用户想用进行画像分类的领域是银行领域，经过上述方案得到银行领域的预测分类模型，然后用户将银行客户的画像(即待分类画像)和数据特征(即，待分类数据特征)输入该预测分类模型。其中数据特征为：存款额度1万，存款期限一年，贷款额度0，贷款期限0。预测分类模型将这些数据特征进行分析处理后，得出该客户的类别属于小额保守型客户。

通过上述技术方案，利用源领域的大量样本数据对神经网络进行初次训练得到神经网络模型，然后再用其他领域的少量样本数据对神经网络模型进行再次迁移学习训练，得到预测分类模型，将预测分类模型与神经网络模型组合在一起，能够对各个领域的画像进行分类识别。通过这种方案大大缩减了预测分类模型的建模时间，还能避免对应领域低数据量对预测分类模型的分类识别准确率的影响。

神经网络模型的获取步骤如下：

步骤(1)，从源领域的样本数据中提取源领域的数据特征，并从源领域的数据特征中筛选对应的源领域有效数据特征。

在该步骤中，源领域的数据特征中有一些不能使用的数据，这些数据占据一定量的空间，并且还会延长初次训练的训练时间。因此需要将这些不能使用的数据去除出去。

步骤(2)，将源领域有效数据特征与对应的源领域的画像进行关联，组成源领域特征空间数据。

在该步骤中，为了能够更好的对源领域的画像进行分类训练，需要将筛选出来的有效数据特征和相应的画像进行关联。并将每个人的画像和对应的有效数据特征进行列表存储，组成源领域特征空间数据。

步骤(3)，将源领域特征空间数据输入神经网络，对神经网络进行初次训练，得到神经网络模型。

在该步骤中，源领域特征空间数据输入神经网络后，利用神经网络的各个神经元，对各个源领域有效数据特征进行分析，确定出源领域有效数据特征对应的分类结果，将该分类结果和对应的画像关联从神经网络输出，如果该分类结果正确，则将下一个源领域特征空间数据输入神经网络继续进行分析训练，如果该分类结果错误，对神经网络的输出层进行纠正，并利用纠正后的神经网络，对下一个源领域特征空间数据进行分析训练。不断重复上述方案的过程，直至所有的源领域特征空间数据全部训练完成，进而得到神经网络模型。

通过上述方案，能够利用源领域的大量样本数据对神经网络进行初次训练，这样得到的神经网络模型，能够对源领域的客户画像进行准确地分类识别。如果用户想要对其他领域的客户画像进行分类识别，只需在该神经网络模型的基础上再利用少量的其他领域的样本数据对其进行迁移学习训练，即可得到能够对其他领域的客户画像进行准确分类识别的预测分类模型。

上述步骤(1)具体包括：

步骤(11)，对源领域的数据特征进行项目划分。

在该步骤中，为了能够更好的对源领域的数据特征进行处理，需要将这些数据特征按照对应的特点划分为不同的项目，例如，源领域为银行领域，则对应的项目有：活期存款项、定期存款项、贷款项等。

步骤(12)，将各项源领域的数据特征与对应项目的合格数据范围进行比较，筛选出在合格数据范围内的合格数据特征。

在该步骤中，用户可以根据自己的需要为各个项目设置相应的合格数据范围，例如，贷款项的合格数据范围是数据不能为空(即，0)。

这样，就可以将源领域的数据特征中，不合格的的数据(即合格数据范围之外的数据)剔除，只保留能够使用的合格数据特征。既降低了数据的空间占量，又能避免不合格的数据对初次训练的影响。

步骤(13)，计算每项合格数据特征的数量在每项源领域的数据特征的数量中的比例值。

步骤(14)，若比例值大于等于预定比例值，则将对应项目的合格数据特征作为源领域有效数据特征。

在上述步骤中，为了能够提升初次训练的精度，需要对合格的数据特征进行进一步筛选，计算每项合格数据特征的饱和度(即，每项合格数据特征的数量在每项源领域的数据特征的数量中的比例值)，并根据各项的饱和度，筛选出一项或多项源领域有效数据特征。

例如，贷款项的合格数据特征的数量为2.12万，该贷款项的数据特征的总数为3万，则计算得出的比例值为0.71。而预先设定的预定比例值为0.4，0.71＞0.4，则将该贷款项的所有合格数据特征作为源领域有效数据特征。

步骤(3)具体包括：

步骤(31)，为神经网络设置输入层、N个隐层和输出层，N为正整数。

在该步骤中，输入层可以有一个或多个输入口，可以根据上述方案得到的源领域有效数据特征的项目数量进行设定。隐层的数量可以是有经验的人员根据实际情况依照经验进行设定。

步骤(32)，将源领域特征空间数据从输入层输入，经过N个隐层处理之后得到对应的源领域分类结果。

在该步骤中，将源领域特征空间数据按照对应的项目从输入层的输入口输入，输入层将输入的源领域特征空间数据中的源领域有效数据特征发送至隐层进行处理，经过N个隐层的各层的神经元处理之后，得到相应的分类结果。

步骤(33)，将源领域分类结果与源领域特征空间数据中的源领域的画像发送至输出层，从输出层输出。

在该步骤中，将该分类结果与源领域特征空间数据中的源领域的画像进行组合，一起发送至输出层。输出层可以有多个输出口，分别对应不同的类别，根据分类结果中的类别，将分类结果和对应的画像从该类别对应的输出口输出。

步骤(34)，将源领域分类结果与源领域画像对应的类别标识进行对比，若相同，则不修改源领域分类结果，若不同，则将源领域分类结果按照源领域画像对应的类别标识进行调整，完成对神经网络的一次训练，将下一个源领域特征空间数据从输入层输入对神经网络进行再次训练，直至所有的源领域特征空间数据全部训练完成，得到神经网络模型。

在该步骤中，对得出的分类结果进行检验，并对检验失败的分类结果进行纠正，以保证神经网络分类的准确性，并迭代训练过程，直至所有的源领域特征空间数据全部训练完成，得到能够准确对源领域进行分类的神经网络模型。并且该神经网络模型还具有再学习能力，能够在使用该神经网络模型的同时，不断提高神经网络模型的准确率。

具体预测分类模型的获取步骤如下：

步骤(A)，从其他领域中每个领域的样本数据中提取其他领域中每个领域的数据特征，并从其他领域中每个领域的数据特征中筛选对应的其他领域中每个领域的有效数据特征。

在该步骤中，首先，为了能够更好的对其他领域中每个领域的数据特征进行再次训练处理，需要将这些数据特征按照对应的特点划分为不同的项目，例如，其他领域为保险领域，则对应的项目有：长期保险、短期保险、大额保险、小额保险等。

然后，用户可以根据自己的需要为各个项目设置相应的合格数据范围，这样，就可以将其他领域的数据特征中不合格的的数据(即合格数据范围之外的数据)剔除，只保留能够使用的合格数据特征。

最后，计算每项合格数据特征的数量在每项其他领域的数据特征的数量中的比例值(即，饱和度)，若比例值大于等于预定比例值(例如，0.5)，则将对应项目的合格数据特征作为其他领域有效数据特征。

步骤(B)将其他领域中每个领域的有效数据特征与对应的其他领域中每个领域的画像进行关联，组成其他领域中每个领域的特征空间数据。

在该步骤中，将筛选出来的有效数据特征和相应的画像进行关联，并将每个人的画像和对应的有效数据特征进行列表存储，组成其他领域中每个领域的特征空间数据。

步骤(C)，将其他领域中每个领域的特征空间数据输入神经网络模型，利用迁移学习方式对神经网络模型进行再次训练，得到与其他领域的每个领域一一对应的多个预测分类模型。

在该步骤中，神经网络模型能够分析输入的其他领域中每个领域的特征空间数据与源领域的特征空间数据的相同点和不同点，将分析出的相同点保留，根据不同点之间的差距，对神经网络模型进行调整，进而完成对神经网络模型的迁移学习训练，得到能够对其他领域的客户画像进行分类识别的预测分类模型。

通过上述技术方案，在神经网络模型的基础上利用少量的其他领域的数据进行迁移学习训练，能够得到对其他领域的画像进行准确分类的预测分类模型，既保证了预测分类模型的准确率，又大大缩减了预测分类模型的建模时间。

步骤(C)具体包括：

步骤(C1)，根据其他领域中每个领域的特征空间数据对神经网络模型的输入层进行调整，使其他领域中每个领域的特征空间数据能够直接从神经网络模型的输入层输入。

在步骤中，需要根据有效数据特征对应的项目对神经网络的输入层的输入口进行修改，然后，再将其他领域中每个领域的特征空间数据从修改后的输入口输入。

步骤(C2)，神经网络模型的第一个隐层，接收神经网络模型的输入层发来的其他领域中每个领域的特征空间数据，并对第一个隐层进行训练，得到相应的隐藏特征。

步骤(C3)，将隐藏特征作为神经网络模型下一个隐层的输入数据，利用输入数据对下一个隐层对进行训练，直至神经网络模型的N个隐层全部训练完成。

在上述步骤中，隐层用来对输入的其他领域中每个领域的特征空间数据进行迁移学习训练。第一个隐层根据其他领域中每个领域的特征空间数据的特点，判断第一隐层的参数与源领域是否相同，是则保持该参数，并将第一个隐层处理后的隐藏特征输入第二个隐层进行处理；否侧对第一个隐层的参数进行修改后，对其他领域中每个领域的特征空间数据再次进行处理，并将再次处理后的隐藏特征输入第二个隐层进行处理，来进行迁移学习训练，并以此类推，直至N个隐层全部训练完毕。

步骤(C4)，在最后一个隐层输出其他领域中每个领域的特征空间数据对应的其他领域分类结果，根据其他领域分类结果，对神经网络模型的输出层的各个输出口的类别名称进行对应调整，将调整后的神经网络模型作为与其他领域的每个领域一一对应的多个预测分类模型。

在该步骤中，最后一个隐层能够得出对应的分类结果，该分类结果是与其他领域进行对应的，对应的类别名称与源领域是不同的，因此需要对神经网络模型的输出层的各个输出口进行调整，这样就得到了能够根据其他领域的数据对其他领域的画像进行分类识别的预测分类模型。

在步骤(C2)之前还包括：

步骤(C2’)，在神经网络模型的每一个隐层中加入自编码结构。

在该步骤中，自编码结构能够自动根据每一个特征空间数据的进行学习训练，并自动对每一个隐层的参数进行相应的调整。

则对应的步骤(C2)为：神经网络模型的第一个隐层，接收神经网络模型的输入层发来的其他领域中每个领域的特征空间数据，利用第一个隐层的自编码结构对第一个隐层进行训练，得到相应的隐藏特征。

则对应的步骤(C3)为：将隐藏特征作为神经网络模型下一个隐层的输入数据，利用下一个隐层的自编码结构，根据输入数据对下一个隐层对进行训练，直至神经网络模型的N个隐层全部训练完成。

通过上述实施例的画像预测分类方法，先利用源领域的大量数据特征及对应的画像，对神经网络进行初次训练，得到能够对源领域的画像进行准确的分类识别的神经网络模型，然后再利用其他领域的少量数据特征及对应的画像，对得到的神经网络模型进行迁移学习训练，将神经网络模型中与其他领域的数据相匹配的参数进行保留，不匹配的参数进行相应修改，进而得到能够对其他领域的画像进行准确的分类识别的预测分类模型。通过这种方案大大缩减了预测分类模型的建模时间，还能避免对应领域低数据量对预测分类模型的分类识别准确率的影响。

在本申请的另一个实施例的画像预测分类方法的包括如下步骤：

一、以源领域大数据量的客户画像数据库为基础，建立神经网络模型。

1、获取源领域每个客户画像对应的数据特征，例如，银行客户对应的存款额度、存款期限、贷款额度、贷款期限；以及保险客户对应的理赔额度、理赔历史金额、理赔次数。

将这些数据特征按照不同的特点进行项目划分(例如，将银行客户的数据特征分为存款额度项、存款期限项、贷款额度项、贷款期限项；或者将保险客户的数据特征分为理赔额度项、理赔历史金额项、理赔次数项)。

2、提取每项数据特征中的有效数据(例如，银行客户中存款数额超过10万的数据，或者存款期限未到期的数据等)，计算有效数据占该项数据特征总数的比例值，将该比例值作为该项的饱和度。

3、选取饱和度大于预定阈值(例如，0.4)的一项或多项有效数据特征，并获取有效数据特征对应每个客户的画像特征，将客户的画像和对应的有效数据特征进行列表存储组成特征空间。

其中，不同领域的特征空间往往具有不同的特征，即相异的特征分布。例如，银行领域与保险领域的经过筛选后得到的特征空间是不同的。

4、特征空间建立完毕后，利用特征空间对神经网络进行训练，得到含有多隐层的神经网络模型。

神经网络模型训练过程如下：

首先，在神经网络的输入层和输出层之间添加n个隐层，隐层的数量为有经验的人员根据实际的情况依照经验进行设定。

然后，将特征空间中的客户画像对应的一个或多个有效数据特征从神经网络的输入层输入，各个有效数据特征经过各个隐层模拟人体神经元进行处理之后，通过输出层输出对应客户画像的类别。判断输出的类别是否正确，如果该类别正确，则对下一个客户画像的有效数据特征进行输入；如果该类别是错误的，则对神经网络的输出层的分类进行纠正，进而完成对神经网络的一次训练。

按照上述方式，依次将特征空间中所有客户的有效数据特征全部输入神经网络进行训练之后，建立最终的神经网络模型。

所建立的神经网络模型能够用于源领域的对客户画像进行分类的问题(例如，源领域为银行领域，则建立的神经网络模型，可以将客户画像分为四类，分别为，大额存储客户、小额存储客户、长期客户、短期客户)，将客户画像对应的数据特征从神经网络模型的输入层输入之后，就会从输出层输出该客户画像对应的类别。

二、建立完神经网络模型后，需要将神经网络模型迁移至目标领域，建立能够应用于目标领域的预测分类模型。

由于源领域和目标领域两类领域具有不同的特征空间，因此需要改建神经网络模型，并在目标领域的数据集上利用迁移学习的方法对神经网络模型进行进一步训练。

具体为：

首先，获取目标领域的每个客户画像对应的数据特征，将这些数据特征按照特点进行项目划分，提取每项数据特征中数据特征中的有效数据，计算有效数据占该项数据特征的比例值，将该比例值作为该项数据特征的饱和度。选取饱和度大于预定阈值的一项或多项数据特征作为有效数据特征，并获取有效数据特征对应每个客户的画像特征，将客户的画像和对应的有效数据特征进行列表存储组成目标领域的特征空间。

然后，根据上述得到的特征空间中目标领域有效数据特征的项目名称，将神经网络模型的输入层的入口，进行一一对应调整，使得目标领域的有效数据特征能够直接从神经网络模型的输入层输入。

再然后，对隐层的每层加入自编码结构，利用输入层输入的目标领域的有效数据特征从隐层的第一层开始进行自编码训练，并将每一层训练完成后得到的隐藏特征作为下一层的输入，然后下一层再进行自编码训练直至将所有隐层全部训练完成。

最后，由于经过上述训练之后隐层推送给输出层的分类结果的类别名称与源领域的分类类别名称并不相同，因此，需要根据隐层推送的分类结果调整神经网络模型中输出层的输出口的类别名称，进而得到能够对目标领域的客户画像进行识别分类的预测分类模型。

需要注意的是，迁移学习的前提条件是源领域与目标领域具有相似的特征空间或者相似的分类目标，否则迁移学习的模型精度将受到影响。

综上所述，当目标领域的客户画像具有较低数据量，或者需要降低在不同业务领域的建模成本，我们可以根据另一含高数据量的领域客户画像建立神经网络模型，随后采用迁移学习方法在神经网络模型基础上针对目标领域进行训练获得目标领域的预测模型，以避免目标领域低数据量的影响，通过上述方案，不但能够保证预测分类模型的分类识别的准确度，还能减少建模时间，降低建模成本。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种画像预测分类装置，如图2所示，装置包括：获取单元21、领域确定单元22、模型获取单元23和处理单元24。

获取单元21，用于获取待分类画像以及相对应的待分类数据特征；

领域确定单元22，用于根据待分类数据特征确定待分类画像所属的目标领域；

模型获取单元23，用于从多个预测分类模型中获取目标领域的预测分类模型，其中，多个预测分类模型包括预先利用源领域的样本数据，对神经网络进行初次训练得到的源领域对应的神经网络模型，以及利用其他领域中每个领域的样本数据，通过迁移学习方式对神经网络模型进行再次训练后，得到的与其他领域的每个领域一一对应的多个预测分类模型，源领域的样本数据的数量大于其他领域中每个领域的样本数据的数量，源领域的样本数据包括：源领域的画像、源领域的数据特征和源领域的画像对应的类别标识，其他领域中每个领域的样本数据包括：其他领域中每个领域的画像、其他领域中每个领域的数据特征和其他领域中每个领域的画像对应的类别标识；

处理单元24，用于将待分类画像和待分类数据特征，输入目标领域的预测分类模型，经过目标领域的预测分类模型处理，输出待分类画像的类别。

在具体实施例中，装置还包括：

筛选单元，用于从源领域的样本数据中提取源领域的数据特征，并从源领域的数据特征中筛选对应的源领域有效数据特征；

关联单元，用于将源领域有效数据特征与对应的源领域的画像进行关联，组成源领域特征空间数据；

初次训练单元，用于将源领域特征空间数据输入神经网络，对神经网络进行初次训练，得到神经网络模型。

在具体实施例中，筛选单元具体包括：

划分模块，用于对源领域的数据特征进行项目划分；

比较模块，用于将各项源领域的数据特征与对应项目的合格数据范围进行比较，筛选出在合格数据范围内的合格数据特征；

计算模块，用于计算每项合格数据特征的数量在每项源领域的数据特征的数量中的比例值；

确定模块，用于若比例值大于等于预定比例值，则将对应项目的合格数据特征作为源领域有效数据特征。

在具体实施例中，初次训练单元具体包括：

设置模块，用于为神经网络设置输入层、N个隐层和输出层，N为正整数；

处理模块，用于将源领域特征空间数据从输入层输入，经过N个隐层处理之后得到对应的源领域分类结果；

输出模块，用于将源领域分类结果与源领域特征空间数据中对应的源领域的画像发送至输出层，从输出层输出；

初次训练模块，用于将源领域分类结果与源领域画像对应的类别标识进行对比，若相同，则不修改源领域分类结果，若不同，则将源领域分类结果按照源领域画像对应的类别标识进行调整，完成对神经网络的一次训练，将下一个源领域特征空间数据从输入层输入对神经网络进行再次训练，直至所有的源领域特征空间数据全部训练完成，得到神经网络模型。

在具体实施例中，

筛选单元，还用于从其他领域中每个领域的样本数据中提取其他领域中每个领域的数据特征，并从其他领域中每个领域的数据特征中筛选对应的其他领域中每个领域的有效数据特征；

关联单元，还用于将其他领域中每个领域的有效数据特征与对应的其他领域中每个领域的画像进行关联，组成其他领域中每个领域的特征空间数据；

装置还包括：

再次训练单元，用于将其他领域中每个领域的特征空间数据，按照相应的领域分别输入神经网络模型，利用迁移学习方式对神经网络模型进行再次训练，得到与其他领域的每个领域一一对应的多个预测分类模型。

在具体实施例中，再次训练单元具体包括：

调整模块，用于根据其他领域中每个领域的特征空间数据对神经网络模型的输入层进行调整，使其他领域中每个领域的特征空间数据能够直接从神经网络模型的输入层输入；

隐层训练模块，用于神经网络模型的第一个隐层，接收神经网络模型的输入层发来的其他领域中每个领域的特征空间数据，并对第一个隐层进行训练，得到相应的隐藏特征；

隐层训练模块，还用于将隐藏特征作为神经网络模型下一个隐层的输入数据，利用输入数据对下一个隐层对进行训练，直至神经网络模型的N个隐层全部训练完成；

调整模块，还用于在最后一个隐层输出其他领域中每个领域的特征空间数据对应的其他领域分类结果，根据其他领域分类结果，对神经网络模型的输出层的各个输出口的类别名称进行对应调整，将调整后的神经网络模型作为与其他领域的每个领域一一对应的多个预测分类模型。

在具体实施例中，再次训练单元还包括：

添加模块，用于在神经网络模型的每一个隐层中加入自编码结构；

则隐层训练模块，还用于神经网络模型的第一个隐层，接收神经网络模型的输入层发来的其他领域中每个领域的特征空间数据，利用第一个隐层的自编码结构对第一个隐层进行训练，得到相应的隐藏特征；

将隐藏特征作为神经网络模型下一个隐层的输入数据，利用下一个隐层的自编码结构，根据输入数据对下一个隐层对进行训练，直至神经网络模型的N个隐层全部训练完成。

基于上述图1所示方法和图2所示装置的实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，如图3所示，包括存储器32和处理器31，其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序，处理器31执行计算机程序时实现图1所示的画像预测分类方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述如图1所示方法和图2所示装置的实施例，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的画像预测分类方法。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与计算机设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，先利用源领域的大量样本数据，对神经网络进行初次训练，得到能够对源领域的画像进行准确的分类识别的神经网络模型，将神经网络模型作为能够对源领域画像进行分类识别的预测分类模型，然后再利用其他领域的少量样本数据，对得到的神经网络模型进行迁移学习训练，将神经网络模型中与其他领域的数据相匹配的参数进行保留，不匹配的参数进行相应修改，进而得到能够对其他领域的画像进行准确的分类识别的预测分类模型。这样就可以利用对应领域的预测分类模型对该领域的画像进行分类识别，通过这种方案大大缩减了预测分类模型的建模时间，还能避免对应领域低数据量对预测分类模型的分类识别准确率的影响。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种画像预测分类方法，其特征在于，所述方法包括：

获取待分类画像以及相对应的待分类数据特征；

从多个预测分类模型中获取所述目标领域的预测分类模型，其中，所述多个预测分类模型通过以下方式得到：提取源领域的样本数据中的源领域的画像和源领域的数据特征，将源领域的画像和源领域的数据特征输入神经网络，经过神经网络的处理之后输出分类结果，将分类结果与该源领域的画像的类别标识进行比对，如果分类结果与该源领域的画像的类别标识相同，则输入下一组源领域的画像和源领域的数据特征进行处理，如果分类结果与该源领域的画像的类别标识不同，则对神经网络进行调整使输出结果与该源领域的画像的类别标识相同，然后再输入下一组源领域的画像和源领域的数据特征进行处理，重复直至所有的源领域的样本数据全部训练完成为止，得到神经网络模型；提取其他各个领域中每个领域的样本数据中其他领域中每个领域的画像和其他领域中每个领域的数据特征，将其他领域中每个领域的画像和其他领域中每个领域的数据特征输入基础模型，通过迁移学习方式进行再次训练，并将再次训练输出的分类结果与其他领域中每个领域的画像的类别标识进行对比，如果分类结果与其他领域中每个领域的画像的类别标识相同，则输入下一组其他领域中每个领域的画像和其他领域中每个领域的数据特征进行处理，如果分类结果与其他领域中每个领域的画像的类别标识不同，则利用迁移学习的方式对神经网络模型的各项数据进行调整使输出结果与其他领域中每个领域的画像的类别标识相同，然后再输入下一组其他领域中每个领域的画像和其他领域中每个领域的数据特征进行处理，重复以上过程直至其他各个领域的每个领域的样本数据全部训练完成为止，得到与其他各个领域的每个领域一一对应的多个预测分类模型；所述源领域的样本数据的数量大于其他领域中每个领域的样本数据的数量；

将所述待分类画像和所述待分类数据特征，输入所述目标领域的预测分类模型，经过所述目标领域的预测分类模型处理，输出所述待分类画像的类别，其中，预测分类模型中包含输入层、隐层和输出层，将待分类画像和待分类数据特征从输入层输入之后，将待分类数据特征传送至隐层，利用隐层中包含的各个模拟神经元对各个待分类数据特征之间的联系进行分析，确定出该待分类数据特征对应的类别，然后将确定的类别与相应的待分类画像关联后从输出层输出。

2.根据权利要求1所述的画像预测分类方法，其特征在于，在所述从多个预测分类模型中获取所述目标领域的预测分类模型之前，还包括：

从所述源领域的样本数据中提取所述源领域的数据特征，并从所述源领域的数据特征中筛选对应的源领域有效数据特征；

将所述源领域有效数据特征与对应的源领域的画像进行关联，组成源领域特征空间数据；

将所述源领域特征空间数据输入神经网络，对神经网络进行初次训练，得到神经网络模型。

3.根据权利要求2所述的画像预测分类方法，其特征在于，从所述源领域的样本数据中提取所述源领域的数据特征，并从所述源领域的数据特征中筛选对应的源领域有效数据特征，具体包括：

对所述源领域的数据特征进行项目划分；

将各项源领域的数据特征与对应项目的合格数据范围进行比较，筛选出在合格数据范围内的合格数据特征；

计算每项合格数据特征的数量在每项源领域的数据特征的数量中的比例值；

若所述比例值大于等于预定比例值，则将对应项目的合格数据特征作为源领域有效数据特征。

4.根据权利要求2所述的画像预测分类方法，其特征在于，将所述源领域特征空间数据输入神经网络，对神经网络进行初次训练，得到神经网络模型，具体包括：

为神经网络设置输入层、N个隐层和输出层，N为正整数；

将所述源领域特征空间数据从所述输入层输入，经过所述N个隐层处理之后得到对应的源领域分类结果；

将所述源领域分类结果与所述源领域特征空间数据中对应的源领域的画像发送至所述输出层，从所述输出层输出；

将所述源领域分类结果与源领域画像对应的类别标识进行对比，若相同，则不修改所述源领域分类结果，若不同，则将所述源领域分类结果按照对应的源领域画像对应的类别标识进行调整，完成对所述神经网络的一次训练，将下一个源领域特征空间数据从所述输入层输入对所述神经网络进行再次训练，直至所有的源领域特征空间数据全部训练完成，得到神经网络模型。

5.根据权利要求1所述的画像预测分类方法，其特征在于，在所述从多个预测分类模型中获取所述目标领域的预测分类模型之前，还包括：

从所述其他领域中每个领域的样本数据中提取所述其他领域中每个领域的数据特征，并从所述其他领域中每个领域的数据特征中筛选对应的其他领域中每个领域的有效数据特征；

将所述其他领域中每个领域的有效数据特征与对应的其他领域中每个领域的画像进行关联，组成其他领域中每个领域的特征空间数据；

将所述其他领域中每个领域的特征空间数据，按照相应的领域分别输入所述神经网络模型，利用迁移学习方式对所述神经网络模型进行再次训练，得到与其他领域的每个领域一一对应的多个预测分类模型。

6.根据权利要求5所述的画像预测分类方法，其特征在于，将所述其他领域中每个领域的特征空间数据，按照相应的领域分别输入所述神经网络模型，利用迁移学习方式对所述神经网络模型进行再次训练，得到与其他领域的每个领域一一对应的多个预测分类模型，具体包括：

根据所述其他领域中每个领域的特征空间数据对所述神经网络模型的输入层进行调整，使所述其他领域中每个领域的特征空间数据能够直接从所述神经网络模型的输入层输入；

所述神经网络模型的第一个隐层，接收所述神经网络模型的输入层发来的所述其他领域中每个领域的特征空间数据，并对第一个隐层进行训练，得到相应的隐藏特征；

将所述隐藏特征作为所述神经网络模型下一个隐层的输入数据，利用所述输入数据对下一个隐层对进行训练，直至所述神经网络模型的N个隐层全部训练完成；

在最后一个隐层输出所述其他领域中每个领域的特征空间数据对应的其他领域分类结果，根据所述其他领域分类结果，对所述神经网络模型的输出层的各个输出口的类别名称进行对应调整，将调整后的神经网络模型作为与其他领域的每个领域一一对应的多个预测分类模型。

7.根据权利要求6所述的画像预测分类方法，其特征在于，在所述神经网络模型的第一个隐层，接收所述神经网络模型的输入层发来的所述其他领域中每个领域的特征空间数据之前，所述方法还包括：

在所述神经网络模型的每一个隐层中加入自编码结构；

所述神经网络模型的第一个隐层，接收所述神经网络模型的输入层发来的所述其他领域中每个领域的特征空间数据，并对第一个隐层进行训练，得到相应的隐藏特征，具体包括：

所述神经网络模型的第一个隐层，接收所述神经网络模型的输入层发来的所述其他领域中每个领域的特征空间数据，利用第一个隐层的自编码结构对第一个隐层进行训练，得到相应的隐藏特征；

将所述隐藏特征作为所述神经网络模型下一个隐层的输入数据，利用所述输入数据对下一个隐层对进行训练，直至所述神经网络模型的N个隐层全部训练完成，具体包括：

将所述隐藏特征作为所述神经网络模型下一个隐层的输入数据，利用下一个隐层的自编码结构，根据所述输入数据对下一个隐层对进行训练，直至所述神经网络模型的N个隐层全部训练完成。

8.一种画像预测分类装置，其特征在于，所述装置包括：

模型获取单元，用于从多个预测分类模型中获取所述目标领域的预测分类模型，其中，所述多个预测分类模型通过以下方式得到：提取源领域的样本数据中的源领域的画像和源领域的数据特征，将源领域的画像和源领域的数据特征输入神经网络，经过神经网络的处理之后输出分类结果，将分类结果与该源领域的画像的类别标识进行比对，如果分类结果与该源领域的画像的类别标识相同，则输入下一组源领域的画像和源领域的数据特征进行处理，如果分类结果与该源领域的画像的类别标识不同，则对神经网络进行调整使输出结果与该源领域的画像的类别标识相同，然后再输入下一组源领域的画像和源领域的数据特征进行处理，重复直至所有的源领域的样本数据全部训练完成为止，得到神经网络模型；提取其他各个领域中每个领域的样本数据中其他领域中每个领域的画像和其他领域中每个领域的数据特征，将其他领域中每个领域的画像和其他领域中每个领域的数据特征输入基础模型，通过迁移学习方式进行再次训练，并将再次训练输出的分类结果与其他领域中每个领域的画像的类别标识进行对比，如果分类结果与其他领域中每个领域的画像的类别标识相同，则输入下一组其他领域中每个领域的画像和其他领域中每个领域的数据特征进行处理，如果分类结果与其他领域中每个领域的画像的类别标识不同，则利用迁移学习的方式对神经网络模型的各项数据进行调整使输出结果与其他领域中每个领域的画像的类别标识相同，然后再输入下一组其他领域中每个领域的画像和其他领域中每个领域的数据特征进行处理，重复以上过程直至其他各个领域的每个领域的样本数据全部训练完成为止，得到与其他各个领域的每个领域一一对应的多个预测分类模型；所述源领域的样本数据的数量大于其他领域中每个领域的样本数据的数量

处理单元，用于将所述待分类画像和所述待分类数据特征，输入所述目标领域的预测分类模型，经过所述目标领域的预测分类模型处理，输出所述待分类画像的类别，其中，预测分类模型中包含输入层、隐层和输出层，将待分类画像和待分类数据特征从输入层输入之后，将待分类数据特征传送至隐层，利用隐层中包含的各个模拟神经元对各个待分类数据特征之间的联系进行分析，确定出该待分类数据特征对应的类别，然后将确定的类别与相应的待分类画像关联后从输出层输出。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述画像预测分类方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述画像预测分类方法的步骤。