CN113269263A - 客户分类方法、装置、计算机设备及计算机可读存储介质 - Google Patents
客户分类方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113269263A CN113269263A CN202110621014.5A CN202110621014A CN113269263A CN 113269263 A CN113269263 A CN 113269263A CN 202110621014 A CN202110621014 A CN 202110621014A CN 113269263 A CN113269263 A CN 113269263A
- Authority
- CN
- China
- Prior art keywords
- clustering
- group
- characteristic variables
- variables
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 description 6
- 230000004622 sleep time Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000004138 cluster model Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种客户分类方法、装置、计算机设备及计算机可读存储介质,该方法包括:获取样本数据对应的至少一组特征变量;对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量;分别将每一组所述加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组所述聚类结果对应的聚类误差;根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型;调用所述目标聚类模型进行客户分类,输出客户分类结果,提高了客户分类的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种客户分类方法、装置、计算机设备及计算机可读存储介质。
背景技术
目前,聚类分析被广泛应用于各个领域,比如对银行客户进行分析和客群分类。可以通过构建聚类模型,使用聚类模型进行客群分类。但是,由于聚类模型训练所使用的变量的重要程度有所差异,不重要的变量会在一定程度上影响聚类模型的精度,导致客户分类结果不准确。
因此,如何提高客户分类的准确性成为亟待解决的问题。
发明内容
本申请实施例提供一种客户分类方法、计算机设备及计算机可读存储介质,可以提高业务推荐的可靠性。
第一方面,本申请实施例提供了一种客户分类方法,包括:
获取样本数据对应的至少一组特征变量;
对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量;
分别将每一组所述加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组所述聚类结果对应的聚类误差;
根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型;
调用所述目标聚类模型进行客户分类,输出客户分类结果。
第二方面,本申请实施例还提供了一种客户分类装置,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行上述的客户分类方法。
第三方面,本申请实施例还提供了一种计算机设备,所述计算机设备包括上述的客户分类装置。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述的客户分类方法。
本申请实施例提供了一种客户分类方法、装置、计算机设备及计算机可读存储介质,通过获取样本数据对应的至少一组特征变量,对至少一组特征变量进行权重赋权,获得对应的多组加权特征变量,分别将每一组加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组聚类结果对应的聚类误差,根据多组聚类结果对应的聚类误差,获得目标聚类模型,之后,调用目标聚类模型进行客户分类,输出客户分类结果。由于目标聚类模型经过权重优化,采用该目标聚类模型进行客户分类的结果由重要变量主导,降低了不重要变量的影响,因此,提高了客户分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种客户分类方法的步骤示意流程图;
图2是本申请实施例提供的一种获取样本数据对应的至少一组特征变量的步骤示意流程图;
图3是本申请实施例提供的一种对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量的步骤示意流程图;
图4是本申请实施例提供的另一种对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量的步骤示意流程图;
图5是本申请实施例提供的一种根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型的步骤示意流程图;
图6是本申请实施例提供的一种根据所述最小聚类误差,确定所述目标聚类模型的步骤示意流程图;
图7是本申请实施例提供的一种确定目标聚类模型的流程示意图;
图8是本申请实施例提供的一种客户分类装置的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请的实施例提供了一种客户分类方法、装置、计算机设备及存储介质,用于实现提高客户分类的准确性。
请参阅图1,图1是本申请一实施例提供的客户分类方法的流程示意图。其中,该客户分类方法可以应用于计算机设备中,以实现提高客户分类的准确性。
如图1所示,该客户分类方法具体包括步骤S101至步骤S105。
S101、获取样本数据对应的至少一组特征变量。
以对银行客户进行睡眠客户激活场景应用为例,样本数据为大量银行客户对应的客户数据。客户数据包括但不限于客户基本信息、交易信息、产品持有及购买情况、账户余额、交易对手信息、客户活跃度、激活难度等。
样本数据对应多维度的特征变量,示例性的,特征变量包括原始变量、衍生变量等。衍生变量是指在原始变量的基础上,结合业务场景,通过计算不同时间戳和统计指标,衍生出来的更具有业务含义的指标信息。
银行客户对应的原始变量包括账户余额、交易数量、交易金额、(同行转账、行外转账、同名转账、异名转账)、交易对手数量、交易种类、沉睡时间、活跃时间、企业网银借方金融类交易笔数、手机银行登录次数、电子银行渠道对账交易笔数、理财购买交易数量(电子渠道或柜面渠道)、电子银行渠道电子票据系列交易数量、代发工资交易数量、B2B或招投标类型附属账户交易笔数、电子银行渠道支付笔数、电子银行渠道转账笔数、银联代付或代理收款笔数(电子银行渠道)、考核产品持有数量等。
衍生变量包括睡眠时间点近半年/1年/2年交易数量、睡眠时间点近半年/1年/2年转入交易数量、睡眠时间点近半年/1年/2年转出交易数量、睡眠时间点近半年/1年/2年交易金额、睡眠时间点近半年/1年/2年转入交易金额、睡眠时间点近半年/1年/2年转出交易金额、睡眠时间点近半年/1年/2年日均余额、睡眠时间点上1年/2年年日均、睡眠时间点近12个月的月日均最大值/平均值、睡眠时间点近12个月的月日均波动情况(方差)等。
在一些实施例中,如图2所示,步骤S101可以包括子步骤S1011和子步骤S1012。
S1011、对所述样本数据进行数据预处理,获得所述样本数据对应的特征变量集合。
仍以对银行客户进行睡眠客户激活场景应用为例,基于银行客户对应的样本数据,对样本数据进行数据预处理。其中,数据预处理包括数据清洗、特征构建、特征筛选、特征标准化、特征归一化中的一种或多种。
示例性的,对样本数据进行数据清洗,筛选聚类模型训练所需要使用的有用样本数据,并对缺失值、异常值进行分析,删除其中缺失率较高的数据,保证使用的均为有价值、有信息含量的数据。
其中,缺失值是指样本数据中,字段内容存在缺失或存在0值的情况,缺失值或0值意味着字段中存在无效信息,某字段缺失值或0值的占比过高,表示该字段的有效信息含量低,对后续数据分析工作起到的作用不大,应该剔除(分析中将缺失值替换成0,统计0值占比,某字段0值占比越高,该字段有效信息含量越低)。
异常值是指样本数据中,字段内容存在不属于该字段业务含义的取值,如账户余额字段合理取值范围为[0,+∞),当字段中出现负值时,该取值为异常值,需要进行异常值处理,将异常值替换为均值或0值。
缺失率较高数据包含近半年累计交易金额、近两年累计交易金额(贷方)、近1年产品持有数量、一年累计交易笔数(贷方)、半年累计交易笔数(贷方)、半年交易笔均金额(贷方)等。
特征构建,是基于原始变量构造对聚类模型有正向影响,或者对客群区分度较大的变量,也即衍生变量,衍生变量能够在一定程度上提高聚类模型分类的准确率,得到聚类结果后,重要的衍生变量还可以对聚类结果进行解释,描述客群之间区别。
对于原始变量及衍生变量,需要进行变量重要性分析,同时还要进行缺失率及零值率分析,剔除缺失率或零值率较高的变量,该类变量由于有效信息含量较少,在一定程度上会影响聚类结果,需要剔除。
示例性的,通过零值率可以判断字段有效信息含量,使用零值率较低(信息量较高)的变量进行聚类模型训练,使聚类模型能够捕捉更多有效信息,提高聚类模型准确度。
为了保证每个特征变量具有相同的量纲,通过标准化或归一化方法对特征变量进行无量纲化处理。标准化是将各个指标取值,压缩到均值为0,方差为1的区间内;归一化是指使用minmax方法,将指标取值压缩到[0,1]区间内。
通过上述的数据清洗、特征构建、特征筛选、特征标准化、特征归一化等处理,获得样本数据对应的各特征变量,组成相应的特征变量集合。
S1012、从所述特征变量集合中选取预设数量的特征变量,生成至少一组所述特征变量。
为了获得用于进行聚类模型训练的特征变量,从样本数据对应的特征变量集合中,选取预设数量的特征变量,生成相应的至少一组特征变量。例如,选取其中n个特征变量,生成单组特征变量。又例如,多次选取其中n个不同的特征变量,生成多组特征变量。
S102、对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量。
示例性的,若至少一组特征变量的组数为单组,也即只有一组特征变量,将该组特征变量进行多次权重赋权,获得对应的多组加权特征变量。若至少一组特征变量的组数为多组,也即有多组特征变量,分别将每一组特征变量进行权重赋权,获得每一组特征变量对应的加权特征变量。
在一些实施例中,如图3所示,步骤S102可以包括子步骤S1021和子步骤S1022。
S1021、若至少一组所述特征变量的组数为多组,则生成多组所述特征变量中每一组所述特征变量对应的权重组,每组所述权重组中包含的权重值的数量与每一组所述特征变量的数量一致。
例如,以其中任意一组特征变量为例,若该组特征变量的数量为n,则生成该组特征变量对应的权重组[r1,r2,…,rn],该权重组包含n个权重值。针对于其中的每一组特征变量,生成每一组特征变量对应的权重组。
示例性的,权重组中所有权重值之和,与权重组中的权重值的数量一致。例如,以上述权重组[r1,r2,…,rn]为例,该权重组中包含n个权重值,则sum([r1,r2,…,rn])=n。
S1022、依次将每一组所述特征变量中的每个特征变量与对应权重组中的权重值相乘,获得对应的每一组所述加权特征变量。
通过生成权重组,每个特征变量对应一个相应的权重值,依次将每个特征变量与其对应的权重值相乘,获得每个特征变量对应的加权特征变量。
例如,若其中一组特征变量为[c1,c2,…,cn],对应的权重组为[r1,r2,…,rn],获得该组特征变量对应的加权特征变量为[c1*r1,c2*r2,…,cn*rn]。
在一些实施例中,如图4所示,步骤S102可以包括子步骤S1023和子步骤S1024。
S1023、若至少一组所述特征变量的组数为单组,则生成单组所述特征变量对应的多组权重组,每组所述权重组中包含的权重值的数量与单组所述特征变量的数量一致。
示例性的,根据单组特征变量的数量,分别生成包含该数量的权重值的多组权重组。例如,若单组特征变量的数量为n,则生成多组权重组,其中每组权重组中包含n个权重值。
S1024、依次将单组所述特征变量中的每个特征变量与每组所述权重组中对应的权重值相乘,获得单组所述特征变量对应每组所述权重组的每一组所述加权特征变量。
对于多组权重组中的每一组权重组,依次将单组特征变量中的每个特征变量与权重组中对应的权重值相乘,获得该单组特征变量对应每组权重组的一组加权特征变量。若生成了m组权重组,则通过加权获得该单组特征变量对应的m组加权特征变量。
S103、分别将每一组所述加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组所述聚类结果对应的聚类误差。
示例性的,聚类模型为K-Means聚类模型。依次将获得的每一组加权特征变量输入聚类模型进行聚类训练,得到每一组加权特征变量的权重组对应的聚类结果,并计算该聚类结果对应的聚类误差。
例如,若获得m组加权特征变量,依次将每一组加权特征变量输入聚类模型进行聚类训练,获得对应的m组聚类结果、以及m个聚类误差。
S104、根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型。
每一次聚类模型进行聚类训练所获得的聚类误差会有所不同,根据这些聚类误差,确定全局最优聚类的目标聚类模型。
在一些实施例中,如图5所示,步骤S104可以包括子步骤S1041和子步骤S1042。
S1041、将多组所述聚类结果对应的所述聚类误差进行比对,确定最小聚类误差。
多个聚类误差有大有小,将多个聚类误差进行比对,确定最小聚类误差。例如,若获得的多个聚类误差为[w1,w2,…,wm],将w1、w2、…、wm进行比对,确定其中的最小聚类误差wi。
S1042、根据所述最小聚类误差,确定所述目标聚类模型。
根据所确定的最小聚类误差,确定该最小聚类误差对应的权重组,基于该权重组,对聚类模型进行权重优化,获得权重优化后的目标聚类模型。
在一些实施例中,如图6所示,步骤S1042可以包括子步骤S10421和子步骤S10422。
S10421、确定所述最小聚类误差对应的聚类结果。
例如,若确定最小聚类误差wi,则根据获得的各个聚类结果、以及各个聚类结果对应的聚类误差,确定最小聚类误差wi对应的聚类结果。
S10422、将所述聚类结果对应的聚类训练获得的训练后的聚类模型,确定为所述目标聚类模型。
每个聚类结果是由相应的一组加权特征变量输入聚类模型训练获得,每个聚类结果对应一个训练后的聚类模型。确定最小聚类误差wi对应的聚类结果后,将该聚类结果对应的训练后的聚类模型,确定为目标聚类模型。
在一些实施例中,除了将每一组加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组聚类结果对应的聚类误差以外,再获取一组未经加权的特征变量,将该组未经加权的特征变量输入聚类模型进行聚类训练,获得对应的一组聚类结果、以及聚类误差。
之后,基于最小聚类误差w,确定目标聚类模型。具体操作详见上述过程,在此不再赘述。
示例性的,如图7所示,图7为确定目标聚类模型的流程步骤,具体步骤如下:
Step1,对样本数据进行数据清洗;
Step2,根据数据清洗后的数据,进行特征构建,生成特征变量;
Step3,进行重要的特征变量筛选;
Step4,对选取的特征变量进行特征标准化、归一化处理,生成多组特征变量;
Step5,生成每组特征变量对应的权重组;
Step6,根据权重组,对每组特征变量进行加权,获得对应的每组加权特征变量;
Step7,根据每组加权特征变量,对聚类模型进行训练;
Step8,选择最优聚类数量;
Step9,获得聚类结果、以及聚类误差;
Step10,记录每组权重组下对应的聚类误差;
Step11,根据最小聚类误差,确定目标聚类模型,最小聚类误差对应的权重为目标聚类模型的最优权重。
S105、调用所述目标聚类模型进行客户分类,输出客户分类结果。
通过调用确定的目标聚类模型,进行客户分类,输出相应的客户分类结果。
由于目标聚类模型进行了权重优化,对于重要的特征变量赋予较高的权重值,对于不重要的特征变量赋予较低的权重。经过权重优化后,最终的分类结果由重要的特征变量主导,而不重要的特征变量依然会参与分类过程,但不会主导分类结果。优化后的目标聚类模型,分类结果更加准确。而且,分类的每个客群中客户的特征都比较集中,具有更好的客群解释性。
上述实施例通过获取样本数据对应的至少一组特征变量,对至少一组特征变量进行权重赋权,获得对应的多组加权特征变量,分别将每一组加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组聚类结果对应的聚类误差,根据多组聚类结果对应的聚类误差,获得目标聚类模型,之后,调用目标聚类模型进行客户分类,输出客户分类结果。由于目标聚类模型经过权重优化,采用该目标聚类模型进行客户分类的结果由重要变量主导,降低了不重要变量的影响,因此,提高了客户分类的准确性。
请参阅图8,图8为本申请实施例提供的一种客户分类装置的示意性框图。如图8所示,客户分类装置700可以包括处理器710和存储器720。处理器710和存储器720通过总线连接,该总线比如为I2C(Inter-integrated Circuit)总线。
具体地,处理器710可以是微控制单元(Micro-controller Unit,MCU)、中央处理单元(Central Processing Unit,CPU)或数字信号处理器(Digital Signal Processor,DSP)等。
具体地,存储器720可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。
其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现如下步骤:
获取样本数据对应的至少一组特征变量;
对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量;
分别将每一组所述加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组所述聚类结果对应的聚类误差;
根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型;
调用所述目标聚类模型进行客户分类,输出客户分类结果。
在一些实施例中,所述处理器在实现所述对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量时,用于实现:
若至少一组所述特征变量的组数为单组,则生成单组所述特征变量对应的多组权重组,每组所述权重组中包含的权重值的数量与单组所述特征变量的数量一致;
依次将单组所述特征变量中的每个特征变量与每组所述权重组中对应的权重值相乘,获得单组所述特征变量对应每组所述权重组的每一组所述加权特征变量;或者
若至少一组所述特征变量的组数为多组,则生成多组所述特征变量中每一组所述特征变量对应的权重组,每组所述权重组中包含的权重值的数量与每一组所述特征变量的数量一致;
依次将每一组所述特征变量中的每个特征变量与对应权重组中的权重值相乘,获得对应的每一组所述加权特征变量。
在一些实施例中,每一组所述权重组中所有权重值之和,与每一组所述权重组中的权重值的数量一致。
在一些实施例中,所述处理器在实现所述根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型时,用于实现:
将多组所述聚类结果对应的所述聚类误差进行比对,确定最小聚类误差;
根据所述最小聚类误差,确定所述目标聚类模型。
在一些实施例中,所述处理器在实现所述根据所述最小聚类误差,确定所述目标聚类模型时,用于实现:
确定所述最小聚类误差对应的聚类结果;
将所述聚类结果对应的聚类训练获得的训练后的聚类模型,确定为所述目标聚类模型。
在一些实施例中,所述处理器在实现所述获取样本数据对应的至少一组特征变量时,用于实现:
对所述样本数据进行数据预处理,获得所述样本数据对应的特征变量集合;
从所述特征变量集合中选取预设数量的特征变量,生成至少一组所述特征变量。
在一些实施例中,所述数据预处理包括数据清洗、特征构建、特征筛选、特征标准化、特征归一化中的一种或多种。
上述实施例通过获取样本数据对应的至少一组特征变量,对至少一组特征变量进行权重赋权,获得对应的多组加权特征变量,分别将每一组加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组聚类结果对应的聚类误差,根据多组聚类结果对应的聚类误差,获得目标聚类模型,之后,调用目标聚类模型进行客户分类,输出客户分类结果。由于目标聚类模型经过权重优化,采用该目标聚类模型进行客户分类的结果由重要变量主导,降低了不重要变量的影响,因此,提高了客户分类的准确性。
本申请的实施例中还提供一种计算机设备,该计算机设备包括上述的客户分类装置。计算机设备可执行的操作可参见前面的实施例,在此不再赘述。
由于该计算机设备可以执行本申请实施例所提供的任一种客户分类方法,因此,可以实现本申请实施例所提供的任一种客户分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现上述实施例提供的客户分类方法的步骤。例如,该计算机程序被处理器加载,可以执行如下步骤:
获取样本数据对应的至少一组特征变量;
对至少一组所述特征变量进行权重赋权,获得每一组所述特征变量对应的加权特征变量;
分别将每一组所述加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组所述聚类结果对应的聚类误差;
根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型;
调用所述目标聚类模型进行客户分类,输出客户分类结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,计算机可读存储介质可以是前述实施例的客户分类装置或计算机设备的内部存储单元,例如客户分类装置或计算机设备的硬盘或内存。计算机可读存储介质也可以是客户分类装置或计算机设备的外部存储设备,例如客户分类装置或计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种客户分类方法,因此,可以实现本申请实施例所提供的任一种客户分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅是本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种客户分类方法,其特征在于,包括:
获取样本数据对应的至少一组特征变量;
对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量;
分别将每一组所述加权特征变量输入聚类模型进行聚类训练,获得对应的多组聚类结果,以及获得每一组所述聚类结果对应的聚类误差;
根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型;
调用所述目标聚类模型进行客户分类,输出客户分类结果。
2.根据权利要求1所述的方法,其特征在于,所述对至少一组所述特征变量进行权重赋权,获得对应的多组加权特征变量,包括:
若至少一组所述特征变量的组数为单组,则生成单组所述特征变量对应的多组权重组,每组所述权重组中包含的权重值的数量与单组所述特征变量的数量一致;
依次将单组所述特征变量中的每个特征变量与每组所述权重组中对应的权重值相乘,获得单组所述特征变量对应每组所述权重组的每一组所述加权特征变量;或者
若至少一组所述特征变量的组数为多组,则生成多组所述特征变量中每一组所述特征变量对应的权重组,每组所述权重组中包含的权重值的数量与每一组所述特征变量的数量一致;
依次将每一组所述特征变量中的每个特征变量与对应权重组中的权重值相乘,获得对应的每一组所述加权特征变量。
3.根据权利要求2所述的方法,其特征在于,每一组所述权重组中所有权重值之和,与每一组所述权重组中的权重值的数量一致。
4.根据权利要求1所述的方法,其特征在于,所述根据多组所述聚类结果对应的所述聚类误差,获得目标聚类模型,包括:
将多组所述聚类结果对应的所述聚类误差进行比对,确定最小聚类误差;
根据所述最小聚类误差,确定所述目标聚类模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述最小聚类误差,确定所述目标聚类模型,包括:
确定所述最小聚类误差对应的聚类结果;
将所述聚类结果对应的聚类训练获得的训练后的聚类模型,确定为所述目标聚类模型。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述获取样本数据对应的至少一组特征变量,包括:
对所述样本数据进行数据预处理,获得所述样本数据对应的特征变量集合;
从所述特征变量集合中选取预设数量的特征变量,生成至少一组所述特征变量。
7.根据权利要求6所述的方法,其特征在于,所述数据预处理包括数据清洗、特征构建、特征筛选、特征标准化、特征归一化中的一种或多种。
8.一种客户分类装置,其特征在于,所述客户分类装置包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7中任一项所述的客户分类方法。
9.一种计算机设备,其特征在于,所述计算机设备包括如权利要求8所述的客户分类装置。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的客户分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110621014.5A CN113269263B (zh) | 2021-06-03 | 2021-06-03 | 客户分类方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110621014.5A CN113269263B (zh) | 2021-06-03 | 2021-06-03 | 客户分类方法、装置、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269263A true CN113269263A (zh) | 2021-08-17 |
CN113269263B CN113269263B (zh) | 2024-04-09 |
Family
ID=77234176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110621014.5A Active CN113269263B (zh) | 2021-06-03 | 2021-06-03 | 客户分类方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269263B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107749033A (zh) * | 2017-11-09 | 2018-03-02 | 厦门市美亚柏科信息股份有限公司 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
US20200081865A1 (en) * | 2018-09-10 | 2020-03-12 | Google Llc | Rejecting Biased Data Using a Machine Learning Model |
CN111667022A (zh) * | 2020-06-30 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 用户数据处理方法、装置、计算机设备和存储介质 |
CN112232406A (zh) * | 2020-10-12 | 2021-01-15 | 上海移卓网络科技有限公司 | 聚类评估改进方法、装置、计算机设备及存储介质 |
CN112560731A (zh) * | 2020-12-22 | 2021-03-26 | 苏州科达科技股份有限公司 | 特征聚类方法、数据库更新方法、电子设备及存储介质 |
-
2021
- 2021-06-03 CN CN202110621014.5A patent/CN113269263B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107749033A (zh) * | 2017-11-09 | 2018-03-02 | 厦门市美亚柏科信息股份有限公司 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
US20200081865A1 (en) * | 2018-09-10 | 2020-03-12 | Google Llc | Rejecting Biased Data Using a Machine Learning Model |
CN111667022A (zh) * | 2020-06-30 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 用户数据处理方法、装置、计算机设备和存储介质 |
CN112232406A (zh) * | 2020-10-12 | 2021-01-15 | 上海移卓网络科技有限公司 | 聚类评估改进方法、装置、计算机设备及存储介质 |
CN112560731A (zh) * | 2020-12-22 | 2021-03-26 | 苏州科达科技股份有限公司 | 特征聚类方法、数据库更新方法、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
XUE, ZA等: "A Weighting Fuzzy Clustering Algorithm Based on Euclidean Distance", 《FIFTH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》, vol. 1, 5 November 2008 (2008-11-05), pages 172 - 175 * |
袁慎: "基于属性加权的聚类算法在银行客户细分中的应用研究", 《CNKI中国优秀硕士毕业论文全文库(信息科技辑)》, no. 02, 15 February 2021 (2021-02-15), pages 138 - 704 * |
Also Published As
Publication number | Publication date |
---|---|
CN113269263B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214248A1 (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN112102073A (zh) | 信贷风险控制方法及系统、电子设备及可读存储介质 | |
CN108205580A (zh) | 一种图像检索方法、装置及计算机可读存储介质 | |
US8145585B2 (en) | Automated methods and systems for the detection and identification of money service business transactions | |
CN110737917A (zh) | 基于隐私保护的数据共享装置、方法及可读存储介质 | |
CN110503566A (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
CN111062806B (zh) | 个人金融信用风险评价方法、系统和存储介质 | |
CN105359172A (zh) | 计算企业存在拖欠的概率 | |
CN111860698A (zh) | 确定学习模型的稳定性的方法和装置 | |
CN112348685A (zh) | 信用评分方法、装置、设备及存储介质 | |
CN111612624A (zh) | 一种数据特征重要性的分析方法及系统 | |
CN113269263A (zh) | 客户分类方法、装置、计算机设备及计算机可读存储介质 | |
CN116596277A (zh) | 任务规划的方法、装置、设备以及存储介质 | |
CN115936841A (zh) | 一种构建信贷风险评估模型的方法及装置 | |
CN106779843B (zh) | 一种基于客户群体特征的商户竞合关系分析的方法和装置 | |
CN112598228B (zh) | 企业竞争力的分析方法、装置、设备及存储介质 | |
CN114862243A (zh) | 用于辅助决策的数据处理方法和装置 | |
CN114926261A (zh) | 汽车金融用户申请欺诈概率预测方法及介质 | |
CN109670976B (zh) | 特征因子确定方法及设备 | |
CN113034264A (zh) | 客户流失预警模型的建立方法、装置、终端设备及介质 | |
CN112785443A (zh) | 基于客户群体的理财产品推送方法及装置 | |
CN110377592B (zh) | 定量变量到虚拟变量的数据预处理方法、装置及终端设备 | |
CN113689299B (zh) | 新闻信息指数模型的构建方法及新闻信息分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |