CN107679917A - 基于数据处理的精准营销方法、装置、设备及存储介质 - Google Patents

基于数据处理的精准营销方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107679917A
CN107679917A CN201710962599.0A CN201710962599A CN107679917A CN 107679917 A CN107679917 A CN 107679917A CN 201710962599 A CN201710962599 A CN 201710962599A CN 107679917 A CN107679917 A CN 107679917A
Authority
CN
China
Prior art keywords
data
unit
data unit
target
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710962599.0A
Other languages
English (en)
Inventor
谢开斌
高昊江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Capital Infotech Share Co Ltd
Original Assignee
North Capital Infotech Share Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Capital Infotech Share Co Ltd filed Critical North Capital Infotech Share Co Ltd
Priority to CN201710962599.0A priority Critical patent/CN107679917A/zh
Publication of CN107679917A publication Critical patent/CN107679917A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种基于数据处理的精准营销方法、装置、设备及存储介质,其中,方法包括:根据历史客户数据的属性构建数据空间立方体;将数据空间立方体划分成多个子数据单元;获得子数据单元中的全部正数据单元;确定全部正数据单元所在的高维数据空间,确定与高维数据空间对应的客户群体。采用本方案提高了金融业务的营销精准度,降低了金融业务营销的人力资源和费用的消耗,有效避免了高质量客户的流失。

Description

基于数据处理的精准营销方法、装置、设备及存储介质
技术领域
本发明实施例涉及大数据营销技术领域,尤其涉及一种基于数据处理的精准营销方法、装置、设备及存储介质。
背景技术
精准营销的概念在1999年由美国的莱斯特·伟门(Lester Wunderman)提出,是一种以消费者的行为为基础、精细划分客户的归属类别、力求最大业务收益的方法。
目前金融产品的营销方式,主要依靠金融业务人员的经验或直觉来进行决策。以电话营销为例,银行的业务人员通常根据自己对业务的理解和对不同客户群体的直观感觉,来确定待营销的客户群体。这种营销方式存在如下缺陷:
1、业务人员仅凭个人的经验、理解和直觉进行营销的准确率通常比较低;
2、大量的人力资源和费用,被消耗在无效的营销对象上;
3、容易流失潜在的高质量客户群。
发明内容
为解决相关技术问题,本发明实施例提供一种基于数据处理的精准营销方法、装置、设备及存储介质,提高了金融业务的营销精准度,降低了金融业务营销的人力资源和费用的消耗。
为实现上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种基于数据处理的精准营销方法,包括:
根据历史客户数据的属性构建数据空间立方体;
将所述数据空间立方体划分成多个子数据单元;
获得所述子数据单元中的全部正数据单元;
确定所述全部正数据单元所在的高维数据空间,确定与所述高维数据空间对应的客户群体。
第二方面,本发明实施例提供了一种基于数据处理的精准营销装置,包括:
数据空间立方体构建模块,用于根据历史客户数据的属性构建数据空间立方体;
数据空间立方体划分模块,用于将所述数据空间立方体划分成多个子数据单元;
正数据单元获得模块,用于获得所述子数据单元中的全部正数据单元;
客户群体确定模块,用于确定所述全部正数据单元所在的高维数据空间,确定与所述高维数据空间对应的客户群体。
第三方面,本发明实施例提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例所提供的基于数据处理的精准营销方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所提供的基于数据处理的精准营销方法。
本发明实施例提供的技术方案带来的有益效果:
本发明实施例提供一种基于数据处理的精准营销方法、装置、设备及存储介质,本方案基于历史客户数据的属性构建数据空间立方体,按一定的规则将数据空间立方体划分成多个子数据单元,获得其中全部的正数据单元,并确定全部的正数据单元所在的高维数据空间,以及该高维数据空间所对应的客户群体,该客户群体即为相应金融业务的营销对象;采用本方案提高了金融业务的营销精准度,降低了金融业务营销的人力资源和费用的消耗,有效避免了高质量客户的流失。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明实施例提供的一种基于数据处理的精准营销方法的流程示意图;
图2是本发明实施例提供的另一种基于数据处理的精准营销方法的流程示意图;
图3是图2中S220的一种可选实施方式的流程示意图;
图4是本发明实施例提供的另一种基于数据处理的精准营销方法的流程示意图;
图5是本发明实施例提供的另一种基于数据处理的精准营销方法的流程示意图;
图6是图1中S130的一种可选实施方式的流程示意图;
图7是本发明实施例提供的一种基于数据处理的精准营销装置的架构示意图;
图8是本发明实施例提供的一种设备的结构示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本实施例提供的一种基于数据处理的精准营销方法,适用于银行等金融企业为相应金融业务确定客户群体的场景,该方法可以由基于数据处理的精确营销装置来执行,该装置由软件和/或硬件实现,一般配置于服务器、个人电脑等设备上。
如图1所示,本实施例提供的具体方案如下:
S110、根据历史客户数据的属性构建数据空间立方体。
在一个实施例中,历史客户数据是指金融业务(如银行的理财产品)的历史营销数据,每一个历史客户数据中均包含相应客户的职业、学历、年龄、性别、收入等属性信息,还相应记录有该客户营销成功或营销失败的信息,通常一个历史客户数据中均包含的属性信息有非常多。以各条属性为坐标轴建立多维坐标系,根据各条属性的属性值在多维坐标系中构建数据空间立方体。
S120、将数据空间立方体划分成多个子数据单元。
S130、获得子数据单元中的全部正数据单元。
在一个实施例中,按照设定规则对数据空间立方体划分成多个子数据单元,子数据单元又可以进一步分为四类:只包含正样本数据的正数据单元,只包含负样本数据的负数据单元,既包含正样本数据又包含负样本数据的混合数据单元,以及不包含任何数据的空数据单元;其中,混合数据单元按照一定的规则最终可以划分成正数据单元和/或负数据单元,正样本数据是指记录有营销成功信息的历史客户数据,负样本数据是指记录有营销失败信息的历史客户数据。因此,子数据单元最终可以分为正数据单元、负数据单元和空数据单元三类,本实施例的技术方案中,对负数据单元和空数据单元作丢弃处理。
S140、确定全部正数据单元所在的高维数据空间,确定与高维数据空间对应的客户群体。
示例性的,高维数据空间由数据空间立方体划分出的全部正数据单元构成,即高维数据空间不包含任何负数据单元或空数据单元。高维数据空间中各条历史客户数据对应的客户的集合,即为该高维数据空间所对应的客户群体,这个客户群体就是当前金融业务精确营销的对象。金融企业以该客户群体作为精确营销的对象,从而提高营销效率,减少消耗在无效营销上的营销费用。
综上,本实施例的技术方案基于历史客户数据的属性构建数据空间立方体,按一定的规则将数据空间立方体划分成多个子数据单元,获得其中全部的正数据单元,并确定全部的正数据单元所在的高维数据空间,以及该高维数据空间所对应的客户群体,该客户群体即为相应金融业务的营销对象;采用本方案提高了金融业务的营销精准度,降低了金融业务营销的人力资源和费用的消耗,有效避免了高质量客户的流失。
请参考图2和图3,在上述实施例的基础上,可选的,所述根据历史客户数据的属性构建数据空间立方体,包括:
从历史客户数据中选取第一设定比例的数据作为目标数据;
对目标数据进行预处理,获得预处理数据;
根据预处理数据的属性构建数据空间立方体。
进一步的,所述对目标数据进行预处理,获得预处理数据,包括:
将目标数据的非数值属性的属性值转化为相应数值;
修正目标数据的异常属性值和缺失属性值;
采用主成分分析法将目标数据的属性维度进行降维;
分别对降维后各属性维度的属性值进行归一化处理,获得预处理数据。
由此,通过选取部分历史客户数据进行处理,以及对目标数据的属性维度降维,降低了计算复杂度,通过将非数值属性的属性值转化为相应数值,修正异常属性值和缺失属性值,以及对属性值作归一化处理,保证了数据空间立方体的完整性和准确性,并使得数据空间立方体各条边长均为单位1,便于处理。
基于上述优化,如图2所示,本实施例提供的技术方案具体如下:
S210、从历史客户数据中选取第一设定比例的数据作为目标数据。
在一个实施例中,从相应金融业务的历史客户数据中随机选取80%的数据作为目标数据用于后续处理。在其它实施例中,第一设定比例可以视具体情况相应设置为50%、60%等,在此不对第一设定比例的具体取值作限定。
S220、对目标数据进行预处理,获得预处理数据。
优选的,如图3所示,S220具体可以包括:
S321、将目标数据的非数值属性的属性值转化为相应数值。
在一个实施例中,目标数据的部分属性可以直接用数值表示,例如年龄、收入等,非数值属性,例如职业、学历等一般不用数值表示,对于非数值属性,可以自定义一套映射规则,以建立非数值属性与相应数值之间的映射关系,根据这套映射规则将非数值属性转化为相应的数值。
S322、修正目标数据的异常属性值和缺失属性值。
在一个实施例中,目标数据的数值属性均有相应的取值范围,例如年龄的取值范围为16~80,如果一个目标数据中记录的客户年龄为300,则判定该目标数据中记录的年龄值为异常属性值,可以将年龄值修正为30。对于目标数据中存在某个属性缺失属性值的情形,可以根据该目标数据中其它属性的取值来预估该属性的取值并填补,或者通过分析多个同类的目标数据中该属性的属性值,来预估该属性的取值并填补。
S323、采用主成分分析法将目标数据的属性维度进行降维。
在一个实施例中,采用主成分分析法分析各个属性与目标数据的相关度,按相关度由高到低的顺序对全部属性进行排序,择优保留相关度较高的前m个属性,将目标数据的属性维度降至m维,其中,根据具体业务m可以取不同值,例如m取值为10、20、100等。
S324、分别对降维后各属性维度的属性值进行归一化处理,获得预处理数据。
S230、根据预处理数据的属性构建数据空间立方体。
示例性的,对目标数据的属性维度降维及对属性值归一化处理后,构建的数据空间立方体有m条边长,且各条边的边长均为单位1。
S240、将数据空间立方体划分成多个子数据单元。
优选的,所述将数据空间立方体划分成多个子数据单元,具体为:分别将数据空间立方体的各条边长进行等量划分,获得多个子数据单元。
在一个实施例中,将数据空间立方体的m条边长分别等量划分成N1、N2、……Nm等分,该m维的数据空间立方体被划分成M个子数据单元,每个目标数据被划分到这M个子数据单元中的某一个上,一个子数据单元通常可以包括多个目标数据,极端情况下,可能存在不包含任何目标数据的子数据单元,其中,M=N1*N2*……*Nm,N1、N2、……Nm均为不小于2的正整数。
S250、获得子数据单元中的全部正数据单元。
S260、确定全部正数据单元所在的高维数据空间,确定与高维数据空间对应的客户群体。
综上,在本实施例的技术方案中,对部分历史客户数据进行处理,以及对目标数据的属性维度降维,降低了计算复杂度;转化非数值属性值,修正异常属性值和缺失属性值,以及对属性值作归一化处理,保证了数据空间立方体的完整性和准确性,并使得数据空间立方体各条边长均为单位1,便于后续处理。
请参考图4和图5,在上述实施例的基础上,可选的,所述获得子数据单元中的全部正数据单元,包括:
根据子数据单元中的数据信息,对子数据单元进行分类,获得正数据单元、负数据单元、混合数据单元和空数据单元;
若混合数据单元中正样本数据的正样本比例不小于第二设定比例,则判定混合数据单元为正数据单元;
若混合数据单元的正样本比例大于第三设定比例且小于第二设定比例,则划分混合数据单元,获得正数据单元和/或负数据单元。
进一步的,所述划分混合数据单元,获得正数据单元和/或负数据单元,包括:
判断混合数据单元的体积是否大于设定体积阈值;
若是,则将混合数据单元划分成多个子数据单元,并返回执行对子数据单元的分类操作;
若否,当正样本比例不小于第四设定比例且小于第二设定比例时,则判定混合数据单元为正数据单元,当正样本比例大于第三设定比例且小于第四设定比例时,则判定混合数据单元为负数据单元。
由此,为子数据单元分类提供分类依据,为划分混合数据单元提供可选的实施方式,并进一步设定了针对混合数据单元的划分终止条件。
基于上述优化,如图4所示,本实施例提供的技术方案具体如下:
S410、根据历史客户数据的属性构建数据空间立方体。
S420、将数据空间立方体划分成多个子数据单元。
S430、根据子数据单元中的数据信息,对子数据单元进行分类,获得正数据单元、负数据单元、混合数据单元和空数据单元。
在一个实施例中,先根据子数据单元中各目标数据记录的营销成功或营销失败的信息,对子数据单元中的目标数据进行分类,记录营销成功的目标数据为正样本数据,记录营销失败的目标数据为负样本数据;再根据子数据单元中包含的数据类型对子数据单元进行初步分类,即只包含正样本数据的子数据单元为正数据单元,只包含负样本数据的子数据单元为负数据单元,同时包含有正样本数据和负样本数据的子数据单元为混合数据单元,特殊的,不包含任何目标数据的子数据单元为空数据单元。
S440、若混合数据单元中正样本数据的正样本比例不小于第二设定比例,则判定混合数据单元为正数据单元。
S450、若混合数据单元的正样本比例大于第三设定比例且小于第二设定比例,则划分混合数据单元,获得正数据单元和/或负数据单元。
需要说明的是,S440和S450两个序号并不是对这两个步骤的执行顺序进行限定,对于一个混合数据单元来说,根据正样本比例的大小,这两个步骤是择一执行。
优选的,如图5所示,S450可以包括:
S451、若混合数据单元的正样本比例大于第三设定比例且小于第二设定比例,则判断混合数据单元的体积是否大于设定体积阈值。
S452、若是,则将混合数据单元划分成多个子数据单元,并返回执行对子数据单元的分类操作。
S453、若否,当正样本比例不小于第四设定比例且小于第二设定比例时,则判定混合数据单元为正数据单元,当正样本比例大于第三设定比例且小于第四设定比例时,则判定混合数据单元为负数据单元。
需要说明的是,S452和S453两个序号并不是对这两个步骤的执行顺序进行限定,对于一个混合数据单元来说,根据混合数据单元的体积大小,这两个步骤是择一执行。
示例性的,混合数据单元不能直接用于后续处理,需按一定规则将混合数据单元归类为正数据单元或负数据单元,或者进一步划分成正数据单元或负数据单元。
在一个实施例中,首先根据正样本数据在相应混合数据单元全部目标数据中所占的正样本比例λ,来判断是否对该混合数据单元进行划分。计算数据空间立方体中正样本数据占全部目标数据的比例为α,α为所述第四设定比例(α通常非常小,如2%、3%等),若混合数据单元中正样本比例λ≥N*α,则将该混合数据单元归类为正数据单元,其中,N>1,且N*α<1;若混合数据单元中正样本比例λ≤α/P,其中P>1,则将该混合数据单元归类为负数据单元;若混合数据单元中正样本比例λ介于α/P和N*α之间,即α/P<λ<N*α,则需要进一步判断是否对该混合数据单元进行划分。
在α/P<λ<N*α的情况下,再根据混合数据单元中正样本比例λ及混合数据单元中目标数据的稀疏程度,来进一步判断是否对该混合数据单元进行划分。将数据空间立方体中目标数据的总数,除以数据空间立方体的体积,获得数据空间立方体整体的密度为ρ,其中,数据空间立方体的体积等于数据空间立方体在各个维度坐标轴上投影的边长的乘积,同理,计算出混合数据单元的密度为ρm,记K=ρ/ρm,K即为混合数据单元中目标数据的稀疏程度,K的取值越大,表示混合数据单元中目标数据越稀疏。若α≤λ<N*α,则当K*λ≥Km,即当Km/K≤λ<N*α时,将该混合数据单元归类为正数据单元;若α/P<λ<α,则当K*λ≤Ks,即当α/P<λ≤Ks/K时,将该混合数据单元归类为负数据单元;若Ks/K<λ<Km/K,则还需要进一步判断是否对该混合数据单元进行划分;其中,Km/K为所述第二设定比例,Ks/K为所述第三设定比例,根据不同的业务Km和Ks可以取不同的值,且Km>Ks,α<Km/K<N*α,α/P<Ks/K<α。
优选的,在Ks/K<λ<Km/K的情况下时,则最后还需要根据混合数据单元的体积大小,来进一步判断是否对该混合数据单元进行划分。设数据空间立方体被划分的最小数据单元的体积为ε,即所述设定体积阈值为ε,ε为混合数据单元的划分终止条件。判断混合数据单元的体积是否大于ε,若否,表示该混合数据单元不可再被划分,则当α≤λ<Km/K时,将该混合数据单元归类为正数据单元,当Ks/K<λ<α,将该混合数据单元归类为负数据单元;若是,表示该混合数据单元还可以继续划分,则继续将则将混合数据单元划分成多个子数据单元,并返回执行S430中对子数据单元分类的操作,直到混合数据单元被划分至体积不大于ε时,将最后不可再划分的混合数据单元归类为正数据单元或负数据单元。
总结来说,在本实施例中,若混合数据单元中正样本数据的正样本比例λ≥Km/K,则将混合数据单元归类为正数据单元,其中,Km/K为所述第二设定比例;若混合数据单元中正样本数据的正样本比例λ≤Ks/K,则将混合数据单元归类为负数据单元,其中,Ks/K为所述第三设定比例;若Ks/K<λ<Km/K,如果混合数据单元的体积不大于设定体积阈值ε,则不再划分该混合数据单元,如果混合数据单元的体积大于设定体积阈值ε,则继续划分该混合数据单元,直至划分到获得混合数据单元的体积不大于设定体积阈值ε,不可再被划分为止;并且对于不可再被划分的混合数据单元,如果α≤λ<Km/K,则将该混合数据单元归类为正数据单元,如果Ks/K<λ<α,则将该混合数据单元归类为负数据单元,其中,α为所述第四设定比例。
S460、确定全部正数据单元所在的高维数据空间,确定与高维数据空间对应的客户群体。
综上,在本实施例的技术方案中,通过多重判断机制来判断是否对混合数据单元进行划分,并设定了针对混合数据单元的划分终止条件,避免混合数据单元被划分的次数过多,降低了数据处理的计算复杂度的同时,又保证了数据处理结果的准确度。
请参考图6,在上述实施例的基础上,可选的,S130在所述划分混合数据单元,获得正数据单元和/或负数据单元之后,进一步还可以包括:
选取混合数据单元划分设定次数之后继续划分获得的正数据单元,作为目标正数据单元;
将目标数据单元的边长扩展设定倍数,构成包含有目标数据单元的高维空间单元,其中,高维空间单元包含于数据空间立方体;
若在高维空间单元内,除目标正数据单元外还存在至少一个正数据单元,则判定目标正数据单元为正数据单元;
若在高维空间单元内,除目标正数据单元外不存在其它正数据单元,则改判目标正数据单元为负数据单元。
由此,通过正则化方法对由混合数据单元划分出的部分正数据单元进行判别,防止对混合数据单元的划分出现过拟合,减小噪声对数据处理结果的影响,提高数据处理结果的准确度。
如图6所示,所述获得子数据单元中的全部正数据单元(S130)可以包括:
S631、根据子数据单元中的数据信息,对子数据单元进行分类,获得正数据单元、负数据单元、混合数据单元和空数据单元。
S632、若混合数据单元中正样本数据的正样本比例不小于第二设定比例,则判定混合数据单元为正数据单元。
S633、若混合数据单元的正样本比例大于第三设定比例且小于第二设定比例,则划分混合数据单元,获得正数据单元和/或负数据单元。
S634、选取数据空间立方体划分设定次数之后继续划分获得的正数据单元,作为目标正数据单元。
在一个实施例中,数据空间立方体划分结束后获得全部的正数据单元,为减小或避免噪声影响,对部分正数据单元进一步验证。假设数据空间立方体总共被划分了W次,定义整数L(即所述设定次数)表示对数据空间立方体划分L次之后继续划分所获得的正数据单元进行过拟合判别,即对数据空间立方体第L+1次到第W次划分获得正数据单元为所述目标正数据单元,其中,设定次数L根据不同业务取值可不同,且1≤L<W。
S635、将目标数据单元的边长扩展设定倍数,构建包含有目标数据单元的高维空间单元,其中,高维空间单元包含于数据空间立方体。
在一个实施例中,对于目标正数据单元,假设该m维的目标正数据单元投影到高维空间的每个坐标轴的边的端点分别为Xi1和Xi2,相应边长为Ei=Xi2-Xi1,以及边的中心点为Oi=(Xi1+Xi2)/2,其中1≤i≤m,将目标正数据单元的边长Ei扩展C倍(即所述设定倍数,且C>1),构建出空间体积为该目标正数据单元的体积的Cm倍的高维空间单元,要求边长扩展C倍后C*Ei<1,即目标正数据单元包含在高维空间单元内部,高维空间单元包含于数据空间立方体内部。其中,该高维空间单元在每个维度坐标轴上的坐标按如下方法确定:若边的中心点Oi-(C*Ei)/2≥0且Oi+(C*Ei)/2≤1成立,即该条边以Oi为中心扩展C倍后不会超出该条边所在维度的取值范围,则高维空间单元在该维度上的边的两个端点的取值分别为Yi1=Oi-(C*Ei)/2以及Yi2=Oi+(C*Ei)/2;若边的中心点Oi-(C*Ei)/2<0成立,即该条边扩展C倍后靠近坐标原点的端点超出取值范围,为保证该条边扩展C倍后不会超出该条边所在维度的取值范围,则取Yi1=0,Yi2=C*Ei;若边的中心点Oi+(C*Ei)/2>1成立,即该条边扩展C倍后远离坐标原点的端点超出取值范围,为保证该条边扩展C倍后不会超出该条边所在维度的取值范围,则取Yi2=1,Yi1=1-C*Ei
S636、若在高维空间单元内,除目标正数据单元外还存在至少一个正数据单元,则判定目标正数据单元为正数据单元。
S637、若在高维空间单元内,除目标正数据单元外不存在其它正数据单元,则改判目标正数据单元为负数据单元。
在一个实施例中,在目标正数据单元的基础上构建出合格的高维空间单元后,采用正则化方法对目标正数据单元进行验证判别,正则化条件为:若在高维空间单元内,除目标正数据单元外还存在至少一个其它的正数据单元,则判定目标正数据单元为正数据单元;若在高维空间单元内,除目标正数据单元外不存在任何其它正数据单元,则认为该目标正数据单元是由于噪声造成的误判,改判目标正数据单元为负数据单元。
综上,在本实施例的技术方案中,数据空间立方体被划分结束后,为减少或避免噪声误差,通过正则化条件进一步验证判别部分正数据单元,有效防止对混合数据单元的划分出现过拟合,减小噪声对数据处理结果的影响,提高了数据处理结果的准确度。
请参考图7,本实施例提供的一种基于数据处理的精准营销装置700,用于执行上述任一实施例提供的基于数据处理的精准营销方法,具备执行方法相应的功能模块和有益效果,在装置的实施例中未详尽描述的细节内容,可参考上述方法的实施例。
如图7所示,本实施例的基于数据处理的精准营销装置700,可以包括:
数据空间立方体构建模块710,用于根据历史客户数据的属性构建数据空间立方体。
数据空间立方体划分模块720,用于将数据空间立方体划分成多个子数据单元。
正数据单元获得模块730,用于获得子数据单元中的全部正数据单元。
客户群体确定模块740,用于确定全部正数据单元所在的高维数据空间,确定与高维数据空间对应的客户群体。
综上,本实施例的技术方案基于历史客户数据的属性构建数据空间立方体,按一定的规则将数据空间立方体划分成多个子数据单元,获得其中全部的正数据单元,并确定全部的正数据单元所在的高维数据空间,以及该高维数据空间所对应的客户群体,该客户群体即为相应金融业务的营销对象;采用本方案提高了金融业务的营销精准度,降低了金融业务营销的人力资源和费用的消耗,有效避免了高质量客户的流失。
在上述技术方案的基础上,所述数据空间立方体划分模块720具体用于:
从历史客户数据中选取第一设定比例的数据作为目标数据;
对目标数据进行预处理,获得预处理数据;
根据预处理数据的属性构建数据空间立方体。
在上述技术方案的基础上,所述对目标数据进行预处理,获得预处理数据,包括:
将目标数据的非数值属性的属性值转化为相应数值;
修正目标数据的异常属性值和缺失属性值;
采用主成分分析法将目标数据的属性维度进行降维;
分别对降维后各属性维度的属性值进行归一化处理,获得预处理数据。
在上述技术方案的基础上,所述数据空间立方体划分模块720具体用于:
分别将数据空间立方体的各条边长进行等量划分,获得多个子数据单元。
在上述技术方案的基础上,所述正数据单元获得模块730具体用于:
根据子数据单元中的数据信息,对子数据单元进行分类,获得正数据单元、负数据单元、混合数据单元和空数据单元;
若混合数据单元中正样本数据的正样本比例不小于第二设定比例,则判定混合数据单元为正数据单元;
若混合数据单元的正样本比例大于第三设定比例且小于第二设定比例,则划分混合数据单元,获得正数据单元和/或负数据单元;
选取数据空间立方体划分设定次数之后继续划分获得的正数据单元,作为目标正数据单元;
将目标数据单元的边长扩展设定倍数,构建包含有目标数据单元的高维空间单元,其中,高维空间单元包含于数据空间立方体;
若在高维空间单元内,除目标正数据单元外还存在至少一个正数据单元,则判定目标正数据单元为正数据单元;
若在高维空间单元内,除目标正数据单元外不存在其它正数据单元,则改判目标正数据单元为负数据单元。
在上述实施例的基础上,所述划分混合数据单元,获得正数据单元和/或负数据单元,具体可以包括:
判断混合数据单元的体积是否大于设定体积阈值;
若是,则将混合数据单元划分成多个子数据单元,并返回执行对子数据单元的分类操作;
若否,当正样本比例不小于第四设定比例且小于第二设定比例时,则判定混合数据单元为正数据单元,当正样本比例大于第三设定比例且小于第四设定比例时,则判定混合数据单元为负数据单元。
图8是本发明实施例提供的一种设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性设备12的框图。图8显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于数据处理的精准营销方法。
本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于数据处理的精准营销方法,该方法包括:
根据历史客户数据的属性构建数据空间立方体;
将所述数据空间立方体划分成多个子数据单元;
获得所述子数据单元中的全部正数据单元;
确定所述全部正数据单元所在的高维数据空间,确定与所述高维数据空间对应的客户群体。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于数据处理的精准营销方法,其特征在于,包括:
根据历史客户数据的属性构建数据空间立方体;
将所述数据空间立方体划分成多个子数据单元;
获得所述子数据单元中的全部正数据单元;
确定所述全部正数据单元所在的高维数据空间,确定与所述高维数据空间对应的客户群体。
2.如权利要求1所述的方法,其特征在于,所述根据历史客户数据的属性构建数据空间立方体,包括:
从所述历史客户数据中选取第一设定比例的数据作为目标数据;
对所述目标数据进行预处理,获得预处理数据;
根据所述预处理数据的属性构建数据空间立方体。
3.如权利要求2所述的方法,其特征在于,所述对所述目标数据进行预处理,获得预处理数据,包括:
将所述目标数据的非数值属性的属性值转化为相应数值;
修正所述目标数据的异常属性值和缺失属性值;
采用主成分分析法将所述目标数据的属性维度进行降维;
分别对降维后各属性维度的属性值进行归一化处理,获得预处理数据。
4.如权利要求1所述的方法,其特征在于,所述将所述数据空间立方体划分成多个子数据单元,包括:
分别将所述数据空间立方体的各条边长进行等量划分,获得多个子数据单元。
5.如权利要求1所述的方法,其特征在于,所述获得所述子数据单元中的全部正数据单元,包括:
根据所述子数据单元中的数据信息,对所述子数据单元进行分类,获得正数据单元、负数据单元、混合数据单元和空数据单元;
若所述混合数据单元中正样本数据的正样本比例不小于第二设定比例,则判定所述混合数据单元为正数据单元;
若所述混合数据单元的所述正样本比例大于第三设定比例且小于所述第二设定比例,则划分所述混合数据单元,获得正数据单元和/或负数据单元。
6.如权利要求5所述的方法,其特征在于,所述划分所述混合数据单元,获得正数据单元和/或负数据单元,包括:
判断所述混合数据单元的体积是否大于设定体积阈值;
若是,则将所述混合数据单元划分成多个子数据单元,并返回执行对子数据单元的分类操作;
若否,当所述正样本比例不小于第四设定比例且小于所述第二设定比例时,则判定所述混合数据单元为正数据单元,当所述正样本比例大于所述第三设定比例且小于所述第四设定比例时,则判定所述混合数据单元为负数据单元。
7.如权利要求5或6所述的方法,其特征在于,所述划分所述混合数据单元,获得正数据单元和/或负数据单元之后,还包括:
选取所述数据空间立方体划分设定次数之后继续划分获得的正数据单元,作为目标正数据单元;
将所述目标数据单元的边长扩展设定倍数,构建包含有所述目标数据单元的高维空间单元,其中,所述高维空间单元包含于所述数据空间立方体;
若在高维空间单元内,除所述目标正数据单元外还存在至少一个正数据单元,则判定所述目标正数据单元为正数据单元;
若在高维空间单元内,除所述目标正数据单元外不存在其它正数据单元,则改判所述目标正数据单元为负数据单元。
8.一种基于数据处理的精准营销装置,其特征在于,包括:
数据空间立方体构建模块,用于根据历史客户数据的属性构建数据空间立方体;
数据空间立方体划分模块,用于将所述数据空间立方体划分成多个子数据单元;
正数据单元获得模块,用于获得所述子数据单元中的全部正数据单元;
客户群体确定模块,用于确定所述全部正数据单元所在的高维数据空间,确定与所述高维数据空间对应的客户群体。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于数据处理的精准营销方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于数据处理的精准营销方法。
CN201710962599.0A 2017-10-17 2017-10-17 基于数据处理的精准营销方法、装置、设备及存储介质 Pending CN107679917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710962599.0A CN107679917A (zh) 2017-10-17 2017-10-17 基于数据处理的精准营销方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710962599.0A CN107679917A (zh) 2017-10-17 2017-10-17 基于数据处理的精准营销方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN107679917A true CN107679917A (zh) 2018-02-09

Family

ID=61140452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710962599.0A Pending CN107679917A (zh) 2017-10-17 2017-10-17 基于数据处理的精准营销方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107679917A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750038A (zh) * 2005-09-06 2006-03-22 上海理想信息产业(集团)有限公司 大型电信企业的计算机管理系统
CN101089846A (zh) * 2006-06-16 2007-12-19 国际商业机器公司 数据分析方法、设备以及数据分析辅助方法
CN102737327A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 一种划分客户群集的计算机实现的方法和系统
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法
WO2016004445A1 (en) * 2014-06-30 2016-01-07 Shaaban Ahmed Farouk System and method for the management of professionals and workers
KR20160097780A (ko) * 2015-02-10 2016-08-18 고려대학교 산학협력단 Tv 홈쇼핑에서의 상품 판매 패턴 분석 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750038A (zh) * 2005-09-06 2006-03-22 上海理想信息产业(集团)有限公司 大型电信企业的计算机管理系统
CN101089846A (zh) * 2006-06-16 2007-12-19 国际商业机器公司 数据分析方法、设备以及数据分析辅助方法
CN102737327A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 一种划分客户群集的计算机实现的方法和系统
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法
WO2016004445A1 (en) * 2014-06-30 2016-01-07 Shaaban Ahmed Farouk System and method for the management of professionals and workers
KR20160097780A (ko) * 2015-02-10 2016-08-18 고려대학교 산학협력단 Tv 홈쇼핑에서의 상품 판매 패턴 분석 장치 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
关莉莉: "银行卡客户群体聚类挖掘研究", 《微计算机信息》 *
常晓磊 等: "基于空间定位的聚类算法在电信业客户划分中的应用", 《科学技术与工程》 *
潘玉奇 等: "基于多维数据模型的聚类分析的研究", 《山东省计算机学会2005年信息技术与信息化研讨会论文集(一)》 *
陈敏: "《认知计算导论》", 31 May 2017 *

Similar Documents

Publication Publication Date Title
CN104915879B (zh) 基于金融数据的社会关系挖掘的方法及装置
Kim et al. Power dependence, diversification strategy, and performance in keiretsu member firms
US20220066691A1 (en) Data writing method, device, storage server, and computer readable storage medium
CN109447461B (zh) 用户信用评估方法及装置、电子设备、存储介质
CN110378786B (zh) 模型训练方法、违约传导风险识别方法、装置及存储介质
WO2021164317A1 (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN113468227B (zh) 基于图神经网络的信息推荐方法、系统、设备和存储介质
Markose Systemic risk analytics: A data-driven multi-agent financial network (MAFN) approach
CN111695938B (zh) 产品推送方法及系统
CN110490203A (zh) 图像分割方法及装置、电子设备和计算机可读存储介质
CN113239914B (zh) 课堂学生表情识别及课堂状态评估方法、装置
US20230004979A1 (en) Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium
WO2024016830A1 (zh) 数据处理方法、装置、设备及存储介质
Canepa et al. Global cities and local housing market cycles
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
Fagni et al. Fine-grained prediction of political leaning on social media with unsupervised deep learning
CN110889340A (zh) 一种基于迭代注意力机制的视觉问答模型
CN112836137B (zh) 人物网络支持度计算系统及方法、终端、设备、存储介质
CN113822144A (zh) 一种目标检测方法、装置、计算机设备和存储介质
CN108921598A (zh) 广告实时出价优化方法、装置、介质和计算机设备
CN107679917A (zh) 基于数据处理的精准营销方法、装置、设备及存储介质
CN112070853A (zh) 图像生成方法及装置
CN115953245A (zh) 基于序列到图的股票趋势预测方法和装置
CN113435748A (zh) 网点状态确定方法、装置、电子设备以及存储介质
CN114004513A (zh) 一种需求预测方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209