CN109766911A

CN109766911A - 一种行为预测方法

Info

Publication number: CN109766911A
Application number: CN201811473054.4A
Authority: CN
Inventors: 阳文斯; 张昱航; 孙婉琳; 叶可江; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-05-17
Also published as: WO2020114302A1

Abstract

本申请属于信息技术领域，特别是涉及一种行为预测方法。通过数据对用户的行为进行预测，可是现在拥有的数据之间属性完全不同，但实际上这些数据可能本身没有关联，一刀切式的数据处理方法不适合现在大数据下的精准预测。本申请提供了一种行为预测方法，所述方法包括：将One‑Hot Encoding编码和Label Encoding编码融合成多维特征码；将采集的样本数据表示为步骤1中的多维特征码；采用生成对抗网络丰富已有标签数据；将多个模型集成在一起，反复训练，从而产生每个模型的权重因子，然后得到一个带权重的集成模型后，对步骤3得到的数据进行分类；输出预测行为。使得数据分类更加准确，有效对用户行为进行预测。

Description

一种行为预测方法

技术领域

本申请属于信息技术领域，特别是涉及一种行为预测方法。

背景技术

特征编码方法由来已久，常见诸于机器学习中。特征编码大体上分为两类，其一是One-Hot Encoding，其二是Label Encoding。两种方法中，第一种适合用于毫无关联的数据，用做独立分析，这样的特征编码就能保证其独立同分布特性；第二种Label Encoding，适合用于数据相当巨大的情况下，为了防止出现维度灾难从而简化数据。生成对抗网络(Generative Adversarial Networks，即GAN)广泛的被用于机器学习中无监督算法中。

通过数据对用户的行为进行预测，可是现在拥有的数据很多都是用户属性客观数据以及一些其他行为数据，这些数据之间属性完全不同，不能做到很好的统一，如果将它们转成某种十进制数字，会给这些数据强行加上某种数值关联，但实际上这些数据可能本身没有关联，一刀切式的数据处理方法不适合现在大数据下的精准预测。

发明内容

1.要解决的技术问题

基于通过数据对用户的行为进行预测，可是现在拥有的数据很多都是用户属性客观数据以及一些其他行为数据，这些数据之间属性完全不同，不能做到很好的统一，如果将它们转成某种十进制数字，会给这些数据强行加上某种数值关联，但实际上这些数据可能本身没有关联，一刀切式的数据处理方法不适合现在大数据下的精准预测的问题，本申请提供了一种行为预测方法。

2.技术方案

为了达到上述的目的，本申请提供了一种行为预测方法，所述方法包括如下步骤：

步骤1、将One-Hot Encoding编码和Label Encoding编码融合成多维特征码；

步骤2、将采集的样本数据表示为步骤1中的多维特征码；

步骤3、采用生成对抗网络丰富已有标签数据；

步骤4、将多个模型集成在一起，反复训练，从而产生每个模型的权重因子，然后得到一个带权重的集成模型后，对步骤3得到的数据进行分类；

步骤5、输出预测行为。

可选地，所述步骤1中One-Hot Encoding编码部分的数据是采用了二进制数字来表示的一系列相同属性的数字；所述数据只是表示一个客观事实，并没有数值含义。

可选地，所述步骤1中Label Encoding编码部分的数据表示一个权重或者数值，具有数学意义；所述数据之间有关联，类内有联系；所述数据采用十进制数表示不超过两位数。

可选地，所述步骤3包括通过生成器反复生成假数据，然后通过判别器鉴别生成数据是否是假数据，不断博弈，直到再也无法判断出这是假数据还是真实数据；将这些制造的数据用以平衡样本数据集。

可选地，所述制造的数据的判别公式为：

其中，D(x)表示判别器判断下的数据取自原始数据的概率；D(G(z))表示判别器判断下的数据取自生成器的概率；x～P_data表示数据来自原始数据；z～P_Z(z)表示数据来自生成器；代表求其均值；

Min(G)Max(D)P(D，G)表示在当前生成器和判别器P(D，G)情况下，保证最大化判别器Max(D)的同时做到Min(G)生成器误差最小。

可选地，所述步骤4包括对不同的数据采用不同的模型进行训练然后找出所有训练中表现最好的几种模型，依据其分类得到的正确率，根据准确度从大到小赋予从大到小的权重比例。

可选地，所述权重比例之和为1。

可选地，所述表现最好的几种模型包括分类决策树模型、随机森林模型、AdaBoost模型和XGBoost模型。

可选地，所述模型判别式为：

f(x)＝(ω₁*θ₁+ω₂*θ₂+ω₃*θ₃+ω₄*θ₄)/4

其中，ω₁，ω₂，ω₃，ω₄为四种模型赋予的权重，θ₁，θ₂，θ₃，θ₄为分类决策树模型得到的预测结果；

若f(x)的值超过设定的阈值，则判断该样本是正例，未超过则为负例。

可选地，所述行为包括金融投资行为。

3.有益效果

与现有技术相比，本申请提供的一种行为预测方法的有益效果在于：

本申请提供的行为预测方法，将样本数据采用One-Hot Encoding编码和LabelEncoding编码融合成多维特征码，然后采用生成对抗网络丰富已有标签数据，最后使用多模型融合权重对数据进行分类后输出。避免了了数据一刀切，使得数据有效特征被充分利用，生成对抗网络平衡了样本不平衡的缺陷，使得数据分类更加准确，有效对用户行为进行预测。

附图说明

图1是本申请的一种行为预测方法流程图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

参见图1，本申请提供一种行为预测方法，所述方法包括如下步骤：

步骤2、将采集的样本数据表示为步骤1中的多维特征码；

步骤3、采用生成对抗网络丰富已有标签数据；

步骤5、输出预测行为。

可选地，所述制造的数据的判别公式为：

可选地，所述权重比例之和为1。

可选地，所述模型判别式为：

f(x)＝(ω₁*θ₁+ω₂*θ₂+ω₃*θ₃+ω₄*θ₄)/4

其中，ω₁，ω₂，ω₂，ω₄为四种模型赋予的权重，θ₁，θ₂，θ₃，θ₄为分类决策树模型得到的预测结果；

可选地，所述行为包括金融投资行为。

实施例

本申请以金融投资行为为例进行说明：

长期以来，金融机构饱受客户数据分析的困扰，金融机构想利用手中数据来进行二分类的预测，即用户会或者不会进行某种行为。例如：会不会存钱、会不会办理信用卡、会不会贷款等问题。

金融机构有了用户数据后，面临的第一个问题是找不到一种具体问题的数据表示形式，即是用具体数值直接来做分析还是转换成其他数据格式来做数据分析，本申请首先给出一种基于数据的混合特征编码方法，考虑到两种编码方法应用的不用场景，同时认真分析了其他类别数据类间和类内的关联，对于那些类内没有关联，类间不影响的数据，采用One-HotEncoding方案进行编码，剩余部分数据间有关联，受数值影响的，采用LabelEncoding编码。将两种编码融合，对于每一个个体，形成一列长序列包括One-Hot Encoding和Label Encoding编码的特征编码序列。统一对数据做编码转换，有了这种编码，即可以对已有数据进行统一分析，不再用做其他转换，实现转换后的数据输入直接对应于一个分类算法从而输出。

首先将数据分为可以用One-Hot Encoding编码的部分和要用Label Encoding编码的部分。

其中One-Hot Encoding编码的数据要满足以下条件：

数据本身是文字，只是用了二进制数字来表示这一系列相同属性的数字，也就是说数据本身没有数学属性，只是用编码来表示：比如性别：男、女分别用10、00来表示；例如一周七天从周一到周天可以分别表示为：000，001，010，011，100，101，110，111。

数据是数字，但只是表示一个客观事实，并没有数值含义：比如年龄，23，25，62这种就可以用不同的0和1的编码组合来表示，可以表示为十进制对应的二进制编码，若出现编码后位数不同，则在高位补0，一直补到使得所有同属性的数据的位数相同为止。本方法使用的就是这种编码方式。

Label Encoding编码要遵从以下要求：

数据本身表示一个权重或者数值，是具有数学意义的。例如一个用户有几张银行卡：总共出现了1、2、3……7等七种可能，那么Label Encoding编码直接就是1、2、3……7。

采用Label Encoding编码的数据必须是数据之间有关联的，类内有联系。例如一个用户的行为影响另外一个用户的行为，那么这种一般采用这种编码方式。

采用Label Encoding编码的数据用十进制数表示不超过两位数，也就是最多表示到99，，表示范围为0～99(此为本方法要求)。

结合以上两种编码方式，本方法规定One-Hot Encoding编码在前，LabelEncoding编码在后。即：

One-Hot Encoding

Label Encoding

表1编码方式

例如以下：

110011

00110

111001

00010

11101

1

23

78

61

24

表2编码方式

之所以称之为多维特征码，就是因为这种编码方式融合了两种主要的编码方式，是因为考虑到了数据的两大特性，其一就是One-Hot Encoding编码，若数据间没有关联且出现了文字特征，那么就使用这种编码方式，编码的位数(即长度)视情况而定，没有硬性要求，只要能区分出来类内的各种特征即可，但必须保证类内特征的编码长度均相同。若要使用Label Encoding，则是数据的数值影响到了特征结果，所以此时就要保留这部分影响特征的数据，但若位数超过两位，则用第一种表示成对应数值更为方便，所以，两位对第二种编码来说就是合适的。

其次，本申请考虑到银行标记数据量较少，在特征编码转换后，可以利用生成对抗网络(简称为“GAN”)丰富为数不多的标记数据即产生高度迷惑性的假样本，这些假样本用来增强标记样本数据不多的弊端，机器学习中，如果标记样本和非标记样本相差悬殊，则会造成训练产生严重的欠拟合，严重影响最终分类精度，这样就可以批量增强标记数据，利用GAN生成了相当数量的假标记样本实现数据的平衡，通过实验发现，数据的平衡对最终的结果影响是显著的，平衡后的数据明显有助于提升判别准确率。

GAN通常由两部分构成，第一部分是生成器，第二部分是判别器。生成器用于反复生成假数据，判别器用于鉴别生成器给它的数据是否是假数据，两个部分不断博弈，直到判别器再也无法判断出这是假数据还是真实数据，那么就完成了这样一个“造假”的过程。完成表1所示的编码后，会生成n行如表2一样的编码。每一行代表一个用户的特征编码。我们将已经标好标签(即判定为具有某种行为)的数据按照表1方式整理，将这张特征表输入给GAN，然后GAN经过上述的过程再给我们制造出很多带标签的但是是人为制造的数据以此来平衡我们的样本集。

假设整理出了一张m*n的表格，表示一个有m个样本，n个小类别的标记数据。将其传送给GAN网络，在这个网络中，用x代表这张网格上的数据，生成器学习一种数据分布P_g,因为数据分布中存在噪声，定义一个噪声分布函数：P_z(Z)，这样是为了保证算法最终的鲁棒性，网络中有原有的参数θ_g,故而定义出了G(z，θ_g)为原有数据的一个映射，这就是生成器生成假数据的原理和方法。判别器D(x)用来表示数据来自于x的概率，训练D(x)使其能够最大能力即最大概率识别出数据是来自于自身训练数据集还是G(x)。同时也使得G所表示的log(1-D(G(z)))最小，这个公式最内层嵌套的是生成器，若要使得该公式最小，则内层的D(G(z))必须最大，这样的含义是判别器最大化概率准确识别来自于生成器的内容。将以上两个内容结合，我们得到：

算法反复迭代直至其收敛或者满足Min(G)Max(D)小于某个特定的值之后，即完成了一个生成器和判别器的构造，此时的生成器生成的数据即为可以使用的带标签的假数据。以此完成平衡样本中正负样例差别过大的弊端。

最后，将多模型融合，机器学习中有很多用于分类的算法，这些模型有决策树模型、随机森林模型和AdaBoost模型等等，本申请将多种模型融合，利用投票规则，最终并联成为一个大的分类器来做分类利用权重方法融合为一个强模型来做分类。

有些模型对数据是敏感的，但是有些模型对数据不敏感。例如对数据敏感的模型有支持向量机(简称为“SVM”)、线性回归模型(简称为“LR”)；对数据不敏感的模型有决策树(Decision Tree)模型、随机森林(Random Forest)模型等；模型集成上表现优异的模型有AdaBoost算法和XGBoost算法。考虑到我们的数据也是分成了无关联和有关联的两类。故而我们采用投票权重的办法来计算。多模型融合就是对不同的数据采用不同的模型进行训练然后找出所有训练中表现最好的四种模型，依据其分类得到的正确率，根据准确度从大到小赋予从大到小的权重比例，这些权重比例相加为1.

根据多次试验证实，对于我们的数据和要分析的金融客户的行为来说，以下四种模型融合在一起效果最好：(因以下四种方法均有成熟体系和表达，故不再赘述。θ为预测是“是”的概率。)

Decision Tree：

分类决策树模型是一种描述对实例进行分类的树形结构，决策树由节点(node)和有向边(directed edge)组成，结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。决策树模型主要优点是模型具有可读性，分类速度快。决策树学习算法通常是一个递归地选择最优特征，并根据最优的特征对训练数据进行分割，使得对各个子数据集有一个最好的分类过程。经过决策树算法，得到一个预测结果为θ₁。

Random Forest：

随机森林是一种多功能的机器学习算法，指的是利用多棵树对样本进行训练并预测的一种分类器，能够执行回归和分类的任务。它也是集成学习中的重要方法之一，可以在将几个低效模型整合为一个高效模型时大显身手，使得最终的分类效果能够超过单个模型的一种算法。随机森林中的子树的每一个分裂过程是从所有的待选特征中随机选取一定的特征，之后再在随机选取的特征中选取最优的特征从而使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。经过随机森林算法，得到该模型的预测结果为θ₂。

AdaBoost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。AdaBoost通过使用当前分布D_i(x)加权的训练数据集，学习基本分类器G_i(x)，计算基本分类器G_i(x)的系数α_i.α_i表示G_i(x)在最终分类器中的重要性。然后构建基本分类器的线性组合：

得到最终分类器对应的表达式为：

由此可得，此时模型预测的结果的θ₃。

XGBoost算法是基于树的boosting算法，最大的特点在于，它能够自动利用CPU的多线程进行并行，同时在算法上加以改进提高了精度。我们使用XGBoost得到预测结果为θ₄。

按照准确率大小依次对这四种模型赋予权重为ω₁，ω₂，ω₃，ω₄。若在模型1计算得到其结果为θ₁，θ₂，θ₃，θ₄。则最终的判别为：

f(x)＝(ω₁*θ₁+ω₂*θ₂+ω₃*θ₃+ω₄*θ₄)/4

若f(x)的值超过设定的阈值，则判断该样本是正例，未超过则为负例，由此完成判断。(阈值人为设定，一般超过0.7认为是可信的。)

将原有的文本和数字混合的数据结构，统一的变成了一行多维特征码。文本和数字混合的数据结构下将它们统一变成具有相同属性的数据，能够一起被分类器处理。这个特征码的One-Hot Encoding编码在前，Label Encoding编码在后。而且不破坏原有数据的关联，即独立的依旧保持独立，有关联的依旧保证其关联。

根据带标签即人工标记数据少的特点，利用生成的多维特征码，在GAN中不断制造带“标签”的数据，这样用来平衡由于样本集正负样本不平衡带来的精确度低的问题。

根据权重和数据敏感性不同，设计了一个融合多个模型的大模型，这个大模型能够兼容各种敏感和不敏感数据，使得其分类结果是鲁棒的。这四种办法能够有效预测在几种二分类金融行为。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims

1.一种行为预测方法，其特征在于：所述方法包括如下步骤：

步骤2、将采集的样本数据表示为步骤1中的多维特征码；

步骤3、采用生成对抗网络丰富已有标签数据；

步骤5、输出预测行为。

2.如权利要求1所述的行为预测方法，其特征在于：所述步骤1中One-Hot Encoding编码部分的数据是采用了二进制数字来表示的一系列相同属性的数字；所述数据只是表示一个客观事实，并没有数值含义。

3.如权利要求1所述的行为预测方法，其特征在于：所述步骤1中Label Encoding编码部分的数据表示一个权重或者数值，具有数学意义；所述数据之间有关联，类内有联系；所述数据采用十进制数表示不超过两位数。

4.如权利要求1所述的行为预测方法，其特征在于：所述步骤3包括通过生成器反复生成假数据，然后通过判别器鉴别生成数据是否是假数据，不断博弈，直到再也无法判断出这是假数据还是真实数据；将这些制造的数据用以平衡样本数据集。

5.如权利要求4所述的行为预测方法，其特征在于：所述制造的数据的判别公式为：

6.如权利要求1所述的行为预测方法，其特征在于：所述步骤4包括对不同的数据采用不同的模型进行训练然后找出所有训练中表现最好的几种模型，依据其分类得到的正确率，根据准确度从大到小赋予从大到小的权重比例。

7.如权利要求6所述的行为预测方法，其特征在于：所述权重比例之和为1。

8.如权利要求7所述的行为预测方法，其特征在于：所述表现最好的几种模型包括分类决策树模型、随机森林模型、AdaBoost模型和XGBoost模型。

9.如权利要求8所述的行为预测方法，其特征在于：所述模型判别式为：

f(x)＝(ω₁*θ₁+ω₂*θ₂+ω₃*θ₃+ω₄*θ₄)/4

10.如权利要求1～9中任一项所述的行为预测方法，其特征在于：所述行为包括金融投资行为。