CN112256964A - 一种基于多维度数据学习的金融机构潜在客户推荐方法 - Google Patents

一种基于多维度数据学习的金融机构潜在客户推荐方法 Download PDF

Info

Publication number
CN112256964A
CN112256964A CN202011140311.XA CN202011140311A CN112256964A CN 112256964 A CN112256964 A CN 112256964A CN 202011140311 A CN202011140311 A CN 202011140311A CN 112256964 A CN112256964 A CN 112256964A
Authority
CN
China
Prior art keywords
data
data set
value
feature
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011140311.XA
Other languages
English (en)
Inventor
钱鹰
安春生
陈雪
姜美兰
宋阳
张蓝
刘娟
张化友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Housing Provident Fund Management Center
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing Housing Provident Fund Management Center
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Housing Provident Fund Management Center, Chongqing University of Post and Telecommunications filed Critical Chongqing Housing Provident Fund Management Center
Priority to CN202011140311.XA priority Critical patent/CN112256964A/zh
Publication of CN112256964A publication Critical patent/CN112256964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多维度数据学习的金融机构潜在客户推荐方法,属于数据处理技术领域。通过数据获取模块获取初始样本数据,根据预设的数据结构将所述样本数据建立初始数据集并存储至服务器主体中;数据处理模块对数据进行清洗,去除唯一属性,进行缺失值处理和异常值处理,最后对数据标准化,保证数据集中的数据全都真实有效;数据筛选模块对所述数据集进行筛选,用PCA对数据降维,方便之后数据的可视化;推荐模型模块先获取上述经过处理之后的多维数据,然后将多维数据送入推荐模型中进行数据分析得到分析结果,并为每个客户进行等级预测。本发明在保证数据分析速度时同时兼顾精度,提高数据分析的效率。

Description

一种基于多维度数据学习的金融机构潜在客户推荐方法
技术领域
本发明属于数据处理技术领域,涉及一种基于多维度数据学习的金融机构潜在客户推荐方法。
背景技术
金融机构是指从事金融业有关的金融中介机构,其包括银行、证券、保险、信托、基金等行业。当今我国的金融机构正在向国际接轨,金融机构的管理更加智能化,信息获取途径多种多样,客户面覆盖广,数据处理方式更加先进。由于区域发展不平衡,不同收入人群存在使用片面性问题等等,都会造成潜在客户的增长。一个金融机构要想长久的运营下去,就得不断地推广自己的产品,使自己的产品覆盖范围更广,受众面积更大。对潜在客户推荐产品,可以使用网络寻找法、广告寻找法、介绍寻找法、资料查询寻找法、企业活动寻找法等等,但是这些方法都盲目耗时,而且找的潜在客户可能并没有购买产品的意愿。所以我们需要一种潜在客户的推荐装置,首先需要获取潜在客户数据,对潜在客户进行分析,获取潜客户的推荐等级,根据推荐等级就能知道需要对那些潜在客户进行产品的推广。
发明内容
有鉴于此,本发明的目的在于提供一种基于多维度数据学习的金融机构潜在客户推荐方法。
为达到上述目的,本发明提供如下技术方案:
一种基于多维度数据学习的金融机构潜在客户推荐方法,包括以下具体步骤:
步骤一:数据获取模块获取多维样本数据(如公积金数据、工商局数据),根据预设的数据结构将所述的多维数据建立数据集并存储,得到初始数据集;
步骤二:数据处理对初始数据集进行去除唯一属性处理,缺失值处理,异常值处理,数据标准化处理,得到清理数据集;
优选的,对初始数据集进行唯一属性剔除处理,具体步骤包括:
步骤一:通过初始数据集分析,找到每个客户的唯一属性(比如组织机构代码,身份证号等);
步骤二:对唯一值属性进行剔除;
优选的,对初始数据集的数据进行缺失值处理,具体步骤包括:
步骤一:利用公式
Figure BDA0002738024470000021
对初始数据集进行均值计算,得到初始数据集中每个特征的平均值。其中x代表到初始数据集中每个特征的平均值,x1,x2……xn代表每个特征的样本值,n代表每个特征的样本数量;
步骤二:将缺失值替换为平均值;
优选的,对初始数据集进行异常值处理,具体步骤包括:
步骤一:利用公式
Figure BDA0002738024470000022
计算初始数据集每个特征的均值,其中,h1,h2……h代表样本值,n代表样本数,h代表初始数据集每个特征的平均值;
步骤二:假设初始数据集X为n行n列:
Figure BDA0002738024470000023
使用公式
Figure BDA0002738024470000024
对数据集进行中心化,其中,a1,a2……an代表初始数据集的某个特征,b1,b2……bn,y1,y2……yn同理,h1,h2……hn代表步骤一中所求的每个特征的均值,Y代表中心化后的数据;
步骤三:利用公式
Figure BDA0002738024470000025
求得协方差矩阵∑,其中n代表样本数,Y代表中心化后的数据集;
步骤四,利用
Figure BDA0002738024470000026
计算马氏距离,得到任意两个样本x,y之间的距离。其中x,y代表两个不同的样本,∑代表步骤三计算出来的方差;
步骤五:对马氏距离进行升序排序,假设得到的结果为[a,b,c……],其中a马氏距离计算后的最小距离;
步骤六:通过公式threshold=a(m-ceil(m*0.02))设定要剔除样本的阈值,其中a为步骤五计算出来的马氏距离的最小距离,m代表每个特征的样本数量。
步骤七:当d(x,y)>threshold则判断数据为正常值,不对其进行操作。当d(x,y)<threshold则判断数据为异常值,要对其进行提剔除。
优选的,对初始数据集进行数据标准化处理,具体步骤包括
步骤一:通过排序得到特征的最大值和最小值,假设得到的结果为[min……max]
步骤二:通过
Figure BDA0002738024470000027
公式将数据进行(max-min)标准化,得到值在[0,1]之间的数据。其中max,min为步骤一求出的最大值和最小值,x为某特征的样本值;
步骤三:数据筛选对清理数据集进行降维,得到客户最主要的特征,将最主要的特征提取出来,形成筛选数据集;
优选的,使用主成分分析对清理数据集进行降维,得到企业最主要的特征,具体操作步骤为:
步骤一:假设数据集X为n行m列,使用公式
Figure BDA0002738024470000031
对所有的样本进行中心化,其中等式左边xi代表某样本中心化的值,等式右边xi代表原始样本的值,n代表样本数量;
步骤二:使用公式
Figure BDA0002738024470000032
计算,得出协方差矩阵,假设得到的协方差矩阵C为
Figure BDA0002738024470000033
其中n代表样本数量,X代表步骤一求出的中心化后的数据集,XT代表中心化后数据的转置,C代表协方差矩阵;
步骤三:使用公式
Figure BDA0002738024470000034
计算出特征值λ(λ123…λn),其中,C代表步骤二求出来的协方差矩阵,λ代表需要求出的特征值,E代表单位向量,λi代表特征值,i=1,2,3…n;
步骤四,使用公式ηi=(C-λiE)求出每一个特征值的特征向量,其中,C代表步骤二求出来的协方差矩阵,λi代表步骤三求出来的特征值,ηi代表第i个特征值求出的特征向量;
步骤五:将特征值进行降序排序,选择前k个特征值对应的特征向量作为主成分,得到投影矩阵
Figure BDA0002738024470000035
步骤六:使用公式Z=KTX得到降维后的k*m数据,其中,K为步骤五求出的投影矩阵,X为清理数据集的数据,得到的Z就是筛选数据集;
步骤四:等级预测将筛选数据集放到推荐模型中,推荐模型给出每个客户的等级预测;
优选的,直方图算法,先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点;
优选的,LightGBM的直方图做差加速,LightGBM构造一个叶子节点,使用这个叶子节点的父亲节点直方图减去这个叶子节点的直方图得到这个叶子节点的兄弟节点的直方图;
优选的,带深度限制的Leaf-wise叶子生长,每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。
优选的,处理类别特征。直接输入类别特征,在1个k维的类别特征中寻找最优切分。在枚举分割点之前,先把直方图按每个类别的均值进行排序;然后按照均值的结果依次枚举最优分割点。
优选的,数据并行,在不同机器的不同特征集合上分别寻找最优的分割点;不同机器在本地构造直方图,进行全局的合并,在合并的直方图上寻找最优分割点
步骤五:客户推荐根据每个客户的等级预测,对某些客户进行产品推广。
本发明的有益效果在于:本发明使用LightGBM框架来生成推荐模型。使用LightGBM框架生成的推荐模型可以处理大规模数据,并且它还支持并行学习,这让计算效率得到提高,对海量的客户信息进行分析计算,使用LightGBM框架是非常有益的。由于数据量大,可能出现内存不够的情况,LightGBM框架生成的推荐模型不会将整个数据都放入内存中进行迭代训练,而是将特征值转变为bin值,这样,极大的减少了内存的消耗。除此之外,使用LightGBM框架生成的推荐模型通过控制树的深度和每个叶子节点的最小数据量来减少训练过程中可能出现的过拟合问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1所示,一种基于多维度学习的未缴公积金企业推荐技术,所述方法包括:
步骤一:数据获取使用爬虫方式获得企业多维度数据,并使其一一对应,不能对应的数据予以剔除,然后筛选出未缴纳公积金数据的企业,得到初始数据集;
步骤二:数据处理对初始数据集进行去除唯一属性处理,缺失值处理,异常值处理,数据标准化处理,得到清理数据集;
优选的,对初始数据集进行唯一属性剔除处理,具体步骤包括:
步骤一:通过初始数据集分析,找到每个企业的唯一属性(组织机构代码);
步骤二:对唯一值属性进行剔除;
优选的,对初始数据集进行缺失值处理,具体步骤包括:
步骤一:利用公式
Figure BDA0002738024470000051
对初始数据集进行均值计算,得到初始数据集中每个特征的平均值。其中x代表到初始数据集中每个特征的平均值,x1,x2……xn代表每个特征的样本值,n代表每个特征的样本数量;
步骤二:将缺失值替换为平均值;
由此可计算出未缴公积金企业的人均单位月缴存额、人员规模等的样本平均值;
优选的,对初始数据集进行异常值处理,具体步骤包括:
步骤一:利用公式
Figure BDA0002738024470000052
计算初始数据集每个特征的均值,其中,h1,h2……h代表样本值,n代表样本数,h代表初始数据集每个特征的平均值;
步骤二:假设初始数据集X为n行n列:
Figure BDA0002738024470000053
使用公式
Figure BDA0002738024470000061
对数据集进行中心化,其中,a1,a2……an代表初始数据集的某个特征,b1,b2……bn,y1,y2……yn同理,h1,h2……hn代表步骤一中所求的每个特征的均值,Y代表中心化后的数据;
步骤三:利用公式
Figure BDA0002738024470000062
求得协方差矩阵∑,其中n代表样本数,Y代表中心化后的数据集;
步骤四,利用
Figure BDA0002738024470000063
计算马氏距离,得到任意两个样本x,y之间的距离。其中x,y代表两个不同的样本,∑代表步骤三计算出来的方差;
步骤五:对马氏距离进行升序排序,假设得到的结果为[a,b,c……],其中a马氏距离计算后的最小距离;
步骤六:通过公式threshold=a(m-ceil(m*0.02))设定要剔除样本的阈值,其中a为步骤四计算出来的马氏距离的最小距离,m代表每个特征的样本数量。
步骤七:当d(x,y)>threshold则判断数据为正常值,不对其进行操作。当d(x,y)<threshold则判断数据为异常值,要对其进行提剔除。
优选的,对初始数据集进行数据标准化处理,具体步骤包括
步骤一:通过排序得到特征的最大值和最小值,假设得到的结果为[min……max]
步骤二:通过
Figure BDA0002738024470000064
公式将数据进行(max-min)标准化,得到值在[0,1]之间的数据。其中max,min为步骤一求出的最大值和最小值,x为某特征的样本值;
步骤三:数据筛选对清理数据集进行降维,得到企业最主要的特征,将最主要的特征提取出来,形成筛选数据集;
优选的,使用主成分分析对清理数据集进行降维,得到企业最主要的特征,具体操作步骤为:
步骤一:假设数据集X为n行m列,使用公式
Figure BDA0002738024470000065
对所有的样本进行中心化,其中等式左边xi代表某样本中心化的值,等式右边xi代表原始样本的值,n代表样本数量;
步骤二:使用公式
Figure BDA0002738024470000066
计算,得出协方差矩阵,假设得到的协方差矩阵C为
Figure BDA0002738024470000067
其中n代表样本数量,X代表步骤一求出的中心化后的数据集,XT代表中心化后数据的转置,C代表协方差矩阵;
步骤三:使用公式
Figure BDA0002738024470000071
计算出特征值λ(λ123…λn),其中,C代表步骤二求出来的协方差矩阵,λ代表需要求出的特征值,E代表单位向量,λi代表特征值,i=1,2,3…n;
步骤四,使用公式ηi=(C-λiE)求出每一个特征值的特征向量,其中,C代表步骤二求出来的协方差矩阵,λi代表步骤三求出来的特征值,ηi代表第i个特征值求出的特征向量;
步骤五:将特征值进行降序排序,选择前k个特征值对应的特征向量作为主成分,得到投影矩阵
Figure BDA0002738024470000072
步骤六:使用公式Z=KTX得到降维后的k*m数据,其中,K为步骤五求出的投影矩阵,X为清理数据集的数据,得到的Z就是筛选数据集;
上一步骤结束后,取最前面的五个维度作为最后模型的维度,分别为单位行业、单位性质、注册资本、失信次数、被执行次数;
步骤四:等级预测将筛选数据集放到推荐模型中,推荐模型给出每个企业的等级预测;
优选的,直方图算法,先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点;
优选的,LightGBM的直方图做差加速,LightGBM构造一个叶子节点,使用这个叶子节点的父亲节点直方图减去这个叶子节点的直方图得到这个叶子节点的兄弟节点的直方图;
优选的,带深度限制的Leaf-wise叶子生长,每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。
优选的,处理类别特征。直接输入类别特征,在1个k维的类别特征中寻找最优切分。在枚举分割点之前,先把直方图按每个类别的均值进行排序;然后按照均值的结果依次枚举最优分割点。
优选的,数据并行,在不同机器的不同特征集合上分别寻找最优的分割点;不同机器在本地构造直方图,进行全局的合并,在合并的直方图上寻找最优分割点
步骤五:推荐企业根据每个企业的等级预测,对某些企业进行公积金的推广。
本发明的工作原理为:
使用爬虫方式获取海量的企业各项数据,得到初始数据集;对初始数据集进行去除唯一属性处理(组织机构代码),缺失值处理,异常值处理,数据标准化处理,得到清理数据集;通过初始数据集分析,找到每个企业的唯一属性并剔除;对所述数据集进行缺失值识别并处理,利用公式
Figure BDA0002738024470000081
对初始数据集进行均值计算,得到初始数据集中每个特征的平均值,其中x代表到初始数据集中每个特征的平均值,x1,x2……xn代表每个特征的样本值,n代表每个特征的样本数量,然后将缺失值替换为平均值;对所述数据集进行异常值处理,利用公式
Figure BDA0002738024470000082
计算初始数据集每个特征的均值,其中,h1,h2……h代表样本值,n代表样本数,h代表初始数据集每个特征的平均值;假设初始数据集X为n行n列:
Figure BDA0002738024470000083
使用公式
Figure BDA0002738024470000084
对数据集进行中心化,其中,a1,a2……an代表初始数据集的某个特征,b1,b2……bn,y1,y2……yn同理,h1,h2……hn代表步骤一中所求的每个特征的均值,Y代表中心化后的数据;利用公式
Figure BDA0002738024470000085
求得协方差矩阵∑,其中n代表样本数,Y代表中心化后的数据集;利用
Figure BDA0002738024470000086
计算马氏距离,得到任意两个样本x,y之间的距离。其中x,y代表两个不同的样本,∑代表计算出来的方差;对马氏距离进行升序排序,假设得到的结果为[a,b,c……],其中a马氏距离计算后的最小距离;通过公式threshold=a(m-ceil(m*0.02))设定要剔除样本的阈值,其中a为计算出来的马氏距离的最小距离,m代表每个特征的样本数量;当d(x,y)>threshold则判断数据为正常值,不对其进行操作。当d(x,y)<threshold则判断数据为异常值,要对其进行提剔除;对数据集进行标准化处理,通过排序得到特征的最大值和最小值,假设得到的结果为[min……max],通过
Figure BDA0002738024470000087
公式将数据进行(max-min)标准化,得到值在[0,1]之间的数据,其中max,min为步骤一求出的最大值和最小值,x为某特征的样本值;数据筛选对清理数据集进行降维,得到企业最主要的特征,将最主要的特征提取出来,形成筛选数据集;使用主成分分析法对清理数据集进行降维,得到企业最主要的特征,假设数据集X为n行m列,使用公式
Figure BDA0002738024470000088
对所有的样本进行中心化,其中等式左边xi代表某样本中心化的值,等式右边xi代表原始样本的值,n代表样本数量;使用公式
Figure BDA0002738024470000091
计算,得出协方差矩阵,假设得到的协方差矩阵C为
Figure BDA0002738024470000092
其中n代表样本数量,X代表步骤一求出的中心化后的数据集,XT代表中心化后数据的转置;
得到投影矩阵
Figure BDA0002738024470000093
使用公式Z=KTX得到降维后的k*m数据,其中,K为步骤五求出的投影矩阵,X为清理数据集的数据,得到的Z就是清理数据集;等级预测将清理数据集放到推荐模型中,推荐模型随给出每个企业的等级预测;直方图算法,先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点;LightGBM的直方图做差加速,LightGBM构造一个叶子节点,使用这个叶子节点的父亲节点直方图减去这个叶子节点的直方图得到这个叶子节点的兄弟节点的直方图;带深度限制的Leaf-wise叶子生长,每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环;处理类别特征。直接输入类别特征,在1个k维的类别特征中寻找最优切分;在枚举分割点之前,先把直方图按每个类别的均值进行排序;然后按照均值的结果依次枚举最优分割点;数据并行,在不同机器的不同特征集合上分别寻找最优的分割点;不同机器在本地构造直方图,进行全局的合并,在合并的直方图上寻找最优分割点;推荐企业根据每个企业的等级预测,对某些企业进行公积金的推广。
本发明中的装置包括数据获取模块、数据处理模块、数据筛选模块、推荐模型模块、客户推荐模块,通过获取海量的多维样本数据,将多维样本数据和多维样本数据训练分析得到的数据关系存储至服务器;
通过对获取的海量多维样本数据进行训练分析,可以得到海量多维样本数据之间的关系,通过预设的数据结构对多维样本数据进行初期分析,得到初始数据集,有利于提高后期对初始数据集的训练分析速度;将初始数据集进行去除唯一值属性处理、缺失值处理、异常值识别并处理,可以有效消除无用的维度和值异常值对构建数据分析模型的影响,提高数据分析模型中数据关系的平稳性;对初始数据集进行标准化,可以提高模型的训练速度,对前边进行处理后的数据集进行训练分析能有效提高对大数据分析的效率;
通过对初始数据集进行分析,找到每个客户的唯一属性(比如组织机构代码、身份证号等),对唯一值属性进行剔除;对初始数据集进行均值计算,得到初始数据集中每个特征的平均值,将缺失值替换成平均值;对初始数据集进行异常值识别并处理,使用均值计算公式对初始数据集中数据进行均值计算,得到初始数据集中数据的样本平均值,利用公式对初始数据集进行中心化,得到中心化后的数据,继续利用公式求得协方差矩阵进而计算出马氏距离,之后对马氏距离进行升序排序,通过公式设定剔除样本的阈值,当d(x,y)>threshold则判断数据为正常值,不对其进行操作;当d(x,y)<threshold则判断数据为异常值,要对其进行提剔除;通过公式对数据集进行标准化处理,得到清理数据集,再对其使用主成分分析法进行降维,得到影响企业公积金缴纳的最主要特征,以上处理得到的结果有效提高多维度数据的准确性和平稳性,为推荐模型的等级预测提供了有效的数据,提高了推荐模型对多维度数据等级预测的准确性。将筛选后的数据集放到推荐模型中,推荐模型会给出每个企业的等级预测,最后再根据得到的等级预测对某些企业进行公积金推广。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于多维度数据学习的金融机构潜在客户推荐方法,其特征在于:该方法包括以下步骤:
S1:数据获取模块获取多维样本数据,包括公积金数据和工商局数据,根据预设的数据结构将所述的多维数据建立数据集并存储,得到初始数据集;
S2:数据处理,对初始数据集进行去除唯一属性处理、缺失值处理、异常值处理和数据标准化处理,得到清理数据集;
S3:数据筛选对清理数据集进行降维,得到客户最主要的特征,将最主要的特征提取出来,形成筛选数据集;
S4:等级预测将筛选数据集放到推荐模型中,推荐模型给出每个客户的等级预测;
S5:客户推荐根据每个客户的等级预测,对某些客户进行产品推广。
2.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法,其特征在于:所述对初始数据集进行去除唯一属性处理具体为:
S211:通过初始数据集分析,找到每个客户的唯一属性,包括组织机构代码和身份证号等;
S212:对唯一值属性进行剔除。
3.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法,其特征在于:所述缺失值处理具体为:
S221:利用公式
Figure FDA0002738024460000011
对初始数据集进行均值计算,得到初始数据集中每个特征的平均值;其中x代表到初始数据集中每个特征的平均值,x1,x2……xn代表每个特征的样本值,n代表每个特征的样本数量;
S222:将缺失值替换为平均值。
4.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法,其特征在于:所述异常值处理具体为:
S231:利用公式
Figure FDA0002738024460000012
计算初始数据集每个特征的均值,其中,h1,h2……h代表样本值,n代表样本数,h代表初始数据集每个特征的平均值;
S232:假设初始数据集X为n行n列:
Figure FDA0002738024460000013
使用公式
Figure FDA0002738024460000014
对数据集进行中心化,其中,a1,a2……an代表初始数据集的某个特征,b1,b2……bn,y1,y2……yn同理,h1,h2……hn代表S231中所求的每个特征的均值,Y代表中心化后的数据;
S233:利用公式
Figure FDA0002738024460000021
求得协方差矩阵∑,其中n代表样本数,Y代表中心化后的数据集;
S234:利用
Figure FDA0002738024460000022
计算马氏距离,得到任意两个样本x,y之间的距离;其中x,y代表两个不同的样本,∑代表S233计算出来的方差;
S235:对马氏距离进行升序排序,假设得到的结果为[a,b,c……],其中a马氏距离计算后的最小距离;
S236:通过公式threshold=a(m-ceil(m*0.02))设定要剔除样本的阈值,其中a为步骤五计算出来的马氏距离的最小距离,m代表每个特征的样本数量;
S237:当d(x,y)>threshold则判断数据为正常值,不对其进行操作;当d(x,y)<threshold则判断数据为异常值,要对其进行提剔除。
5.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法,其特征在于:所述数据标准化处理具体为:
S241:通过排序得到特征的最大值和最小值,假设得到的结果为[min……max]
S242:通过
Figure FDA0002738024460000023
公式将数据进行(max-min)标准化,得到值在[0,1]之间的数据;其中max,min为S241求出的最大值和最小值,x为某特征的样本值。
6.根据权利要求5所述的一种基于多维度数据学习的金融机构潜在客户推荐方法,其特征在于:所述S3具体为:
S31:假设数据集X为n行m列,使用公式
Figure FDA0002738024460000024
对所有的样本进行中心化,其中等式左边xi代表某样本中心化的值,等式右边xi代表原始样本的值,n代表样本数量;
S32:使用公式
Figure FDA0002738024460000025
计算,得出协方差矩阵,假设得到的协方差矩阵C为
Figure FDA0002738024460000026
其中n代表样本数量,X代表S31求出的中心化后的数据集,XT代表中心化后数据的转置,C代表协方差矩阵;
S33:使用公式
Figure FDA0002738024460000031
计算出特征值λ(λ123…λn),其中,C代表S32求出来的协方差矩阵,λ代表需要求出的特征值,E代表单位向量,λi代表特征值,i=1,2,3…n;
S34,使用公式ηi=(C-λiE)求出每一个特征值的特征向量,其中,C代表S32求出来的协方差矩阵,λi代表S33求出来的特征值,ηi代表第i个特征值求出的特征向量;
S36:将特征值进行降序排序,选择前k个特征值对应的特征向量作为主成分,得到投影矩阵
Figure FDA0002738024460000032
S36:使用公式Z=KTX得到降维后的k*m数据,其中,K为步骤五求出的投影矩阵,X为清理数据集的数据,得到的Z就是筛选数据集。
7.根据权利要求1所述的一种基于多维度数据学习的金融机构潜在客户推荐方法,其特征在于:在所述S4中,通过直方图算法,先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图;在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点;
LightGBM的直方图做差加速,LightGBM构造一个叶子节点,使用这个叶子节点的父亲节点直方图减去这个叶子节点的直方图得到这个叶子节点的兄弟节点的直方图;
带深度限制的Leaf-wise叶子生长,每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环;
处理类别特征;直接输入类别特征,在1个k维的类别特征中寻找最优切分;在枚举分割点之前,先把直方图按每个类别的均值进行排序;然后按照均值的结果依次枚举最优分割点;
数据并行,在不同机器的不同特征集合上分别寻找最优的分割点;不同机器在本地构造直方图,进行全局的合并,在合并的直方图上寻找最优分割点。
CN202011140311.XA 2020-10-22 2020-10-22 一种基于多维度数据学习的金融机构潜在客户推荐方法 Pending CN112256964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011140311.XA CN112256964A (zh) 2020-10-22 2020-10-22 一种基于多维度数据学习的金融机构潜在客户推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011140311.XA CN112256964A (zh) 2020-10-22 2020-10-22 一种基于多维度数据学习的金融机构潜在客户推荐方法

Publications (1)

Publication Number Publication Date
CN112256964A true CN112256964A (zh) 2021-01-22

Family

ID=74264108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011140311.XA Pending CN112256964A (zh) 2020-10-22 2020-10-22 一种基于多维度数据学习的金融机构潜在客户推荐方法

Country Status (1)

Country Link
CN (1) CN112256964A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672809A (zh) * 2021-08-18 2021-11-19 广州创显科教股份有限公司 一种基于个性化推荐算法的智能导学方法及系统
CN117614845A (zh) * 2023-11-13 2024-02-27 纬创软件(武汉)有限公司 基于大数据分析的通讯信息处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944986A (zh) * 2017-12-28 2018-04-20 广东工业大学 一种o2o商品推荐方法、系统及设备
CN108665355A (zh) * 2018-05-18 2018-10-16 深圳壹账通智能科技有限公司 金融产品推荐方法、装置、设备和计算机存储介质
CN109509040A (zh) * 2019-01-03 2019-03-22 广发证券股份有限公司 预测基金潜在客户的建模方法、营销方法及装置
CN109657977A (zh) * 2018-12-19 2019-04-19 重庆誉存大数据科技有限公司 一种风险识别方法和系统
CN110189191A (zh) * 2019-05-05 2019-08-30 苏宁易购集团股份有限公司 一种基于实时模型的金融产品推荐方法及系统
CN111626766A (zh) * 2020-04-23 2020-09-04 深圳索信达数据技术有限公司 一种融合多个机器学习模型的手机银行营销客户筛选方法
CN111783818A (zh) * 2020-04-10 2020-10-16 南通大学 一种基于Xgboost和DBSCAN的精准营销方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944986A (zh) * 2017-12-28 2018-04-20 广东工业大学 一种o2o商品推荐方法、系统及设备
CN108665355A (zh) * 2018-05-18 2018-10-16 深圳壹账通智能科技有限公司 金融产品推荐方法、装置、设备和计算机存储介质
CN109657977A (zh) * 2018-12-19 2019-04-19 重庆誉存大数据科技有限公司 一种风险识别方法和系统
CN109509040A (zh) * 2019-01-03 2019-03-22 广发证券股份有限公司 预测基金潜在客户的建模方法、营销方法及装置
CN110189191A (zh) * 2019-05-05 2019-08-30 苏宁易购集团股份有限公司 一种基于实时模型的金融产品推荐方法及系统
CN111783818A (zh) * 2020-04-10 2020-10-16 南通大学 一种基于Xgboost和DBSCAN的精准营销方法
CN111626766A (zh) * 2020-04-23 2020-09-04 深圳索信达数据技术有限公司 一种融合多个机器学习模型的手机银行营销客户筛选方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672809A (zh) * 2021-08-18 2021-11-19 广州创显科教股份有限公司 一种基于个性化推荐算法的智能导学方法及系统
CN117614845A (zh) * 2023-11-13 2024-02-27 纬创软件(武汉)有限公司 基于大数据分析的通讯信息处理方法及装置
CN117614845B (zh) * 2023-11-13 2024-05-10 纬创软件(武汉)有限公司 基于大数据分析的通讯信息处理方法及装置

Similar Documents

Publication Publication Date Title
Khalili-Damghani et al. Hybrid soft computing approach based on clustering, rule mining, and decision tree analysis for customer segmentation problem: Real case of customer-centric industries
Shi et al. A data classification method using genetic algorithm and K-means algorithm with optimizing initial cluster center
CN109815987B (zh) 一种人群分类方法和分类系统
CN112256964A (zh) 一种基于多维度数据学习的金融机构潜在客户推荐方法
CN109902168B (zh) 一种专利评价方法和系统
Gao et al. Research and improvement of isolation forest in detection of local anomaly points
CN112288465B (zh) 一种基于半监督聚类集成学习的客户细分方法
CN113204603B (zh) 金融数据资产的类别标注方法及装置
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
CN112735536A (zh) 一种基于子空间随机化单细胞集成聚类方法
Alaziz et al. Clustering of COVID-19 multi-time series-based K-means and PCA with forecasting
Alexandropoulos et al. A new ensemble method for outlier identification
Pugazhenthi et al. Selection of optimal number of clusters and centroids for k-means and fuzzy c-means clustering: A review
CN114169998A (zh) 一种金融大数据分析与挖掘算法
Hsieh et al. Adaptive structural co-regularization for unsupervised multi-view feature selection
CN108805181B (zh) 一种基于多分类模型的图像分类装置及分类方法
Zhang et al. Non-parameter clustering algorithm based on saturated neighborhood graph
Zhang et al. A new outlier detection algorithm based on fast density peak clustering outlier factor.
Deja SISSA: Using Machine Learning techniques for Data Quality Monitoring in CMS and ALICE experiments
CN111639673A (zh) 一种处理混合特征数据的自解释规约建模方法
CN112288571B (zh) 一种基于快速构建邻域覆盖的个人信用风险评估方法
Liço et al. Analyzing Performance of Clustering Algorithms on a Real Retail Dataset
Heinecke et al. Unsupervised statistical learning for die analysis in ancient numismatics
Budiyanto et al. The Prediction of Best-Selling Product Using Naïve Bayes Algorithm (A Case Study at PT Putradabo Perkasa)
CN113724060A (zh) 一种信用风险评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210122

RJ01 Rejection of invention patent application after publication