CN112256964A

CN112256964A - 一种基于多维度数据学习的金融机构潜在客户推荐方法

Info

Publication number: CN112256964A
Application number: CN202011140311.XA
Authority: CN
Inventors: 钱鹰; 安春生; 陈雪; 姜美兰; 宋阳; 张蓝; 刘娟; 张化友
Original assignee: Chongqing Housing Provident Fund Management Center; Chongqing University of Post and Telecommunications
Current assignee: Chongqing Housing Provident Fund Management Center; Chongqing University of Post and Telecommunications
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-22

Abstract

本发明涉及一种基于多维度数据学习的金融机构潜在客户推荐方法，属于数据处理技术领域。通过数据获取模块获取初始样本数据，根据预设的数据结构将所述样本数据建立初始数据集并存储至服务器主体中；数据处理模块对数据进行清洗，去除唯一属性，进行缺失值处理和异常值处理，最后对数据标准化，保证数据集中的数据全都真实有效；数据筛选模块对所述数据集进行筛选，用PCA对数据降维，方便之后数据的可视化；推荐模型模块先获取上述经过处理之后的多维数据，然后将多维数据送入推荐模型中进行数据分析得到分析结果，并为每个客户进行等级预测。本发明在保证数据分析速度时同时兼顾精度，提高数据分析的效率。

Description

一种基于多维度数据学习的金融机构潜在客户推荐方法

技术领域

本发明属于数据处理技术领域，涉及一种基于多维度数据学习的金融机构潜在客户推荐方法。

背景技术

金融机构是指从事金融业有关的金融中介机构，其包括银行、证券、保险、信托、基金等行业。当今我国的金融机构正在向国际接轨，金融机构的管理更加智能化，信息获取途径多种多样，客户面覆盖广，数据处理方式更加先进。由于区域发展不平衡，不同收入人群存在使用片面性问题等等，都会造成潜在客户的增长。一个金融机构要想长久的运营下去，就得不断地推广自己的产品，使自己的产品覆盖范围更广，受众面积更大。对潜在客户推荐产品，可以使用网络寻找法、广告寻找法、介绍寻找法、资料查询寻找法、企业活动寻找法等等，但是这些方法都盲目耗时，而且找的潜在客户可能并没有购买产品的意愿。所以我们需要一种潜在客户的推荐装置，首先需要获取潜在客户数据，对潜在客户进行分析，获取潜客户的推荐等级，根据推荐等级就能知道需要对那些潜在客户进行产品的推广。

发明内容

有鉴于此，本发明的目的在于提供一种基于多维度数据学习的金融机构潜在客户推荐方法。

为达到上述目的，本发明提供如下技术方案：

一种基于多维度数据学习的金融机构潜在客户推荐方法，包括以下具体步骤：

步骤一：数据获取模块获取多维样本数据(如公积金数据、工商局数据)，根据预设的数据结构将所述的多维数据建立数据集并存储，得到初始数据集；

步骤二：数据处理对初始数据集进行去除唯一属性处理，缺失值处理，异常值处理，数据标准化处理，得到清理数据集；

优选的，对初始数据集进行唯一属性剔除处理，具体步骤包括：

步骤一：通过初始数据集分析，找到每个客户的唯一属性(比如组织机构代码，身份证号等)；

步骤二：对唯一值属性进行剔除；

优选的，对初始数据集的数据进行缺失值处理，具体步骤包括：

步骤一：利用公式

对初始数据集进行均值计算，得到初始数据集中每个特征的平均值。其中x代表到初始数据集中每个特征的平均值，x₁，x₂……x_n代表每个特征的样本值，n代表每个特征的样本数量；

步骤二：将缺失值替换为平均值；

优选的，对初始数据集进行异常值处理，具体步骤包括：

步骤一：利用公式

计算初始数据集每个特征的均值，其中，h₁，h₂……h代表样本值，n代表样本数，h代表初始数据集每个特征的平均值；

步骤二：假设初始数据集X为n行n列：

使用公式

对数据集进行中心化，其中，a₁，a₂……a_n代表初始数据集的某个特征，b₁，b₂……b_n，y₁，y₂……y_n同理，h₁，h₂……h_n代表步骤一中所求的每个特征的均值，Y代表中心化后的数据；

步骤三：利用公式

求得协方差矩阵∑，其中n代表样本数，Y代表中心化后的数据集；

步骤四，利用

计算马氏距离，得到任意两个样本x，y之间的距离。其中x，y代表两个不同的样本，∑代表步骤三计算出来的方差；

步骤五：对马氏距离进行升序排序，假设得到的结果为[a,b,c……]，其中a马氏距离计算后的最小距离；

步骤六：通过公式threshold＝a(m-ceil(m*0.02))设定要剔除样本的阈值，其中a为步骤五计算出来的马氏距离的最小距离，m代表每个特征的样本数量。

步骤七：当d(x,y)>threshold则判断数据为正常值，不对其进行操作。当d(x,y)<threshold则判断数据为异常值，要对其进行提剔除。

优选的，对初始数据集进行数据标准化处理，具体步骤包括

步骤一：通过排序得到特征的最大值和最小值，假设得到的结果为[min……max]

步骤二：通过

公式将数据进行(max-min)标准化，得到值在[0,1]之间的数据。其中max，min为步骤一求出的最大值和最小值，x为某特征的样本值；

步骤三：数据筛选对清理数据集进行降维，得到客户最主要的特征，将最主要的特征提取出来，形成筛选数据集；

优选的，使用主成分分析对清理数据集进行降维，得到企业最主要的特征，具体操作步骤为：

步骤一：假设数据集X为n行m列，使用公式

对所有的样本进行中心化，其中等式左边x_i代表某样本中心化的值，等式右边x_i代表原始样本的值，n代表样本数量；

步骤二：使用公式

计算，得出协方差矩阵，假设得到的协方差矩阵C为

其中n代表样本数量，X代表步骤一求出的中心化后的数据集，X^T代表中心化后数据的转置，C代表协方差矩阵；

步骤三：使用公式

计算出特征值λ(λ₁,λ₂,λ₃…λ_n),其中，C代表步骤二求出来的协方差矩阵，λ代表需要求出的特征值，E代表单位向量，λ_i代表特征值，i＝1，2，3…n；

步骤四，使用公式η_i＝(C-λ_iE)求出每一个特征值的特征向量，其中，C代表步骤二求出来的协方差矩阵，λ_i代表步骤三求出来的特征值，η_i代表第i个特征值求出的特征向量；

步骤五：将特征值进行降序排序，选择前k个特征值对应的特征向量作为主成分，得到投影矩阵

步骤六：使用公式Z＝K^TX得到降维后的k*m数据，其中，K为步骤五求出的投影矩阵，X为清理数据集的数据，得到的Z就是筛选数据集；

步骤四：等级预测将筛选数据集放到推荐模型中，推荐模型给出每个客户的等级预测；

优选的，直方图算法，先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点；

优选的，LightGBM的直方图做差加速，LightGBM构造一个叶子节点，使用这个叶子节点的父亲节点直方图减去这个叶子节点的直方图得到这个叶子节点的兄弟节点的直方图；

优选的，带深度限制的Leaf-wise叶子生长，每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。

优选的，处理类别特征。直接输入类别特征，在1个k维的类别特征中寻找最优切分。在枚举分割点之前，先把直方图按每个类别的均值进行排序；然后按照均值的结果依次枚举最优分割点。

优选的，数据并行，在不同机器的不同特征集合上分别寻找最优的分割点；不同机器在本地构造直方图，进行全局的合并，在合并的直方图上寻找最优分割点

步骤五：客户推荐根据每个客户的等级预测，对某些客户进行产品推广。

本发明的有益效果在于：本发明使用LightGBM框架来生成推荐模型。使用LightGBM框架生成的推荐模型可以处理大规模数据，并且它还支持并行学习，这让计算效率得到提高，对海量的客户信息进行分析计算，使用LightGBM框架是非常有益的。由于数据量大，可能出现内存不够的情况，LightGBM框架生成的推荐模型不会将整个数据都放入内存中进行迭代训练，而是将特征值转变为bin值，这样，极大的减少了内存的消耗。除此之外，使用LightGBM框架生成的推荐模型通过控制树的深度和每个叶子节点的最小数据量来减少训练过程中可能出现的过拟合问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1所示，一种基于多维度学习的未缴公积金企业推荐技术，所述方法包括：

步骤一：数据获取使用爬虫方式获得企业多维度数据，并使其一一对应，不能对应的数据予以剔除，然后筛选出未缴纳公积金数据的企业，得到初始数据集；

步骤一：通过初始数据集分析，找到每个企业的唯一属性(组织机构代码)；

步骤二：对唯一值属性进行剔除；

优选的，对初始数据集进行缺失值处理，具体步骤包括：

步骤一：利用公式

步骤二：将缺失值替换为平均值；

由此可计算出未缴公积金企业的人均单位月缴存额、人员规模等的样本平均值；

优选的，对初始数据集进行异常值处理，具体步骤包括：

步骤一：利用公式

步骤二：假设初始数据集X为n行n列：

使用公式

步骤三：利用公式

步骤四，利用

步骤六：通过公式threshold＝a(m-ceil(m*0.02))设定要剔除样本的阈值，其中a为步骤四计算出来的马氏距离的最小距离，m代表每个特征的样本数量。

优选的，对初始数据集进行数据标准化处理，具体步骤包括

步骤二：通过

步骤三：数据筛选对清理数据集进行降维，得到企业最主要的特征，将最主要的特征提取出来，形成筛选数据集；

步骤一：假设数据集X为n行m列，使用公式

步骤二：使用公式

计算，得出协方差矩阵，假设得到的协方差矩阵C为

步骤三：使用公式

上一步骤结束后，取最前面的五个维度作为最后模型的维度，分别为单位行业、单位性质、注册资本、失信次数、被执行次数；

步骤四：等级预测将筛选数据集放到推荐模型中，推荐模型给出每个企业的等级预测；

步骤五：推荐企业根据每个企业的等级预测，对某些企业进行公积金的推广。

本发明的工作原理为：

使用爬虫方式获取海量的企业各项数据，得到初始数据集；对初始数据集进行去除唯一属性处理(组织机构代码)，缺失值处理，异常值处理，数据标准化处理，得到清理数据集；通过初始数据集分析，找到每个企业的唯一属性并剔除；对所述数据集进行缺失值识别并处理，利用公式

对初始数据集进行均值计算，得到初始数据集中每个特征的平均值，其中x代表到初始数据集中每个特征的平均值，x₁，x₂……x_n代表每个特征的样本值，n代表每个特征的样本数量，然后将缺失值替换为平均值；对所述数据集进行异常值处理，利用公式

计算初始数据集每个特征的均值，其中，h₁，h₂……h代表样本值，n代表样本数，h代表初始数据集每个特征的平均值；假设初始数据集X为n行n列：

使用公式

对数据集进行中心化，其中，a₁，a₂……a_n代表初始数据集的某个特征，b₁，b₂……b_n，y₁，y₂……y_n同理，h₁，h₂……h_n代表步骤一中所求的每个特征的均值，Y代表中心化后的数据；利用公式

求得协方差矩阵∑，其中n代表样本数，Y代表中心化后的数据集；利用

计算马氏距离，得到任意两个样本x，y之间的距离。其中x，y代表两个不同的样本，∑代表计算出来的方差；对马氏距离进行升序排序，假设得到的结果为[a,b,c……]，其中a马氏距离计算后的最小距离；通过公式threshold＝a(m-ceil(m*0.02))设定要剔除样本的阈值，其中a为计算出来的马氏距离的最小距离，m代表每个特征的样本数量；当d(x,y)>threshold则判断数据为正常值，不对其进行操作。当d(x,y)<threshold则判断数据为异常值，要对其进行提剔除；对数据集进行标准化处理，通过排序得到特征的最大值和最小值，假设得到的结果为[min……max]，通过

公式将数据进行(max-min)标准化，得到值在[0,1]之间的数据，其中max，min为步骤一求出的最大值和最小值，x为某特征的样本值；数据筛选对清理数据集进行降维，得到企业最主要的特征，将最主要的特征提取出来，形成筛选数据集；使用主成分分析法对清理数据集进行降维，得到企业最主要的特征，假设数据集X为n行m列，使用公式

对所有的样本进行中心化，其中等式左边x_i代表某样本中心化的值，等式右边x_i代表原始样本的值，n代表样本数量；使用公式

计算，得出协方差矩阵，假设得到的协方差矩阵C为

其中n代表样本数量，X代表步骤一求出的中心化后的数据集，X^T代表中心化后数据的转置；

得到投影矩阵

使用公式Z＝K^TX得到降维后的k*m数据，其中，K为步骤五求出的投影矩阵，X为清理数据集的数据，得到的Z就是清理数据集；等级预测将清理数据集放到推荐模型中，推荐模型随给出每个企业的等级预测；直方图算法，先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点；LightGBM的直方图做差加速，LightGBM构造一个叶子节点，使用这个叶子节点的父亲节点直方图减去这个叶子节点的直方图得到这个叶子节点的兄弟节点的直方图；带深度限制的Leaf-wise叶子生长，每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环；处理类别特征。直接输入类别特征，在1个k维的类别特征中寻找最优切分；在枚举分割点之前，先把直方图按每个类别的均值进行排序；然后按照均值的结果依次枚举最优分割点；数据并行，在不同机器的不同特征集合上分别寻找最优的分割点；不同机器在本地构造直方图，进行全局的合并，在合并的直方图上寻找最优分割点；推荐企业根据每个企业的等级预测，对某些企业进行公积金的推广。

本发明中的装置包括数据获取模块、数据处理模块、数据筛选模块、推荐模型模块、客户推荐模块，通过获取海量的多维样本数据，将多维样本数据和多维样本数据训练分析得到的数据关系存储至服务器；

通过对获取的海量多维样本数据进行训练分析，可以得到海量多维样本数据之间的关系，通过预设的数据结构对多维样本数据进行初期分析，得到初始数据集，有利于提高后期对初始数据集的训练分析速度；将初始数据集进行去除唯一值属性处理、缺失值处理、异常值识别并处理，可以有效消除无用的维度和值异常值对构建数据分析模型的影响，提高数据分析模型中数据关系的平稳性；对初始数据集进行标准化，可以提高模型的训练速度，对前边进行处理后的数据集进行训练分析能有效提高对大数据分析的效率；

通过对初始数据集进行分析，找到每个客户的唯一属性(比如组织机构代码、身份证号等)，对唯一值属性进行剔除；对初始数据集进行均值计算，得到初始数据集中每个特征的平均值，将缺失值替换成平均值；对初始数据集进行异常值识别并处理，使用均值计算公式对初始数据集中数据进行均值计算，得到初始数据集中数据的样本平均值，利用公式对初始数据集进行中心化，得到中心化后的数据，继续利用公式求得协方差矩阵进而计算出马氏距离，之后对马氏距离进行升序排序，通过公式设定剔除样本的阈值，当d(x,y)>threshold则判断数据为正常值，不对其进行操作；当d(x,y)<threshold则判断数据为异常值，要对其进行提剔除；通过公式对数据集进行标准化处理，得到清理数据集，再对其使用主成分分析法进行降维，得到影响企业公积金缴纳的最主要特征，以上处理得到的结果有效提高多维度数据的准确性和平稳性，为推荐模型的等级预测提供了有效的数据，提高了推荐模型对多维度数据等级预测的准确性。将筛选后的数据集放到推荐模型中，推荐模型会给出每个企业的等级预测，最后再根据得到的等级预测对某些企业进行公积金推广。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多维度数据学习的金融机构潜在客户推荐方法，其特征在于：该方法包括以下步骤：

S1：数据获取模块获取多维样本数据，包括公积金数据和工商局数据，根据预设的数据结构将所述的多维数据建立数据集并存储，得到初始数据集；

S2：数据处理，对初始数据集进行去除唯一属性处理、缺失值处理、异常值处理和数据标准化处理，得到清理数据集；

S3：数据筛选对清理数据集进行降维，得到客户最主要的特征，将最主要的特征提取出来，形成筛选数据集；

S4：等级预测将筛选数据集放到推荐模型中，推荐模型给出每个客户的等级预测；

S5：客户推荐根据每个客户的等级预测，对某些客户进行产品推广。

2.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法，其特征在于：所述对初始数据集进行去除唯一属性处理具体为：

S211：通过初始数据集分析，找到每个客户的唯一属性，包括组织机构代码和身份证号等；

S212：对唯一值属性进行剔除。

3.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法，其特征在于：所述缺失值处理具体为：

S221：利用公式

对初始数据集进行均值计算，得到初始数据集中每个特征的平均值；其中x代表到初始数据集中每个特征的平均值，x₁，x₂……x_n代表每个特征的样本值，n代表每个特征的样本数量；

S222：将缺失值替换为平均值。

4.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法，其特征在于：所述异常值处理具体为：

S231：利用公式

S232：假设初始数据集X为n行n列：

使用公式

对数据集进行中心化，其中，a₁，a₂……a_n代表初始数据集的某个特征，b₁，b₂……b_n，y₁，y₂……y_n同理，h₁，h₂……h_n代表S231中所求的每个特征的均值，Y代表中心化后的数据；

S233：利用公式

S234：利用

计算马氏距离，得到任意两个样本x，y之间的距离；其中x，y代表两个不同的样本，∑代表S233计算出来的方差；

S235：对马氏距离进行升序排序，假设得到的结果为[a,b,c……]，其中a马氏距离计算后的最小距离；

S236：通过公式threshold＝a(m-ceil(m*0.02))设定要剔除样本的阈值，其中a为步骤五计算出来的马氏距离的最小距离，m代表每个特征的样本数量；

S237：当d(x,y)>threshold则判断数据为正常值，不对其进行操作；当d(x,y)<threshold则判断数据为异常值，要对其进行提剔除。

5.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法，其特征在于：所述数据标准化处理具体为：

S241：通过排序得到特征的最大值和最小值，假设得到的结果为[min……max]

S242：通过

公式将数据进行(max-min)标准化，得到值在[0,1]之间的数据；其中max，min为S241求出的最大值和最小值，x为某特征的样本值。

6.根据权利要求5所述的一种基于多维度数据学习的金融机构潜在客户推荐方法，其特征在于：所述S3具体为：

S31：假设数据集X为n行m列，使用公式

S32：使用公式

计算，得出协方差矩阵，假设得到的协方差矩阵C为

其中n代表样本数量，X代表S31求出的中心化后的数据集，X^T代表中心化后数据的转置，C代表协方差矩阵；

S33：使用公式

计算出特征值λ(λ₁,λ₂,λ₃…λ_n),其中，C代表S32求出来的协方差矩阵，λ代表需要求出的特征值，E代表单位向量，λ_i代表特征值，i＝1，2，3…n；

S34，使用公式η_i＝(C-λ_iE)求出每一个特征值的特征向量，其中，C代表S32求出来的协方差矩阵，λ_i代表S33求出来的特征值，η_i代表第i个特征值求出的特征向量；

S36：将特征值进行降序排序，选择前k个特征值对应的特征向量作为主成分，得到投影矩阵

S36：使用公式Z＝K^TX得到降维后的k*m数据，其中，K为步骤五求出的投影矩阵，X为清理数据集的数据，得到的Z就是筛选数据集。

7.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法，其特征在于：在所述S4中，通过直方图算法，先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图；在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点；

LightGBM的直方图做差加速，LightGBM构造一个叶子节点，使用这个叶子节点的父亲节点直方图减去这个叶子节点的直方图得到这个叶子节点的兄弟节点的直方图；

带深度限制的Leaf-wise叶子生长，每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环；

处理类别特征；直接输入类别特征，在1个k维的类别特征中寻找最优切分；在枚举分割点之前，先把直方图按每个类别的均值进行排序；然后按照均值的结果依次枚举最优分割点；

数据并行，在不同机器的不同特征集合上分别寻找最优的分割点；不同机器在本地构造直方图，进行全局的合并，在合并的直方图上寻找最优分割点。