CN117291714A - 一种客户行为的预测方法、系统、设备及可读存储介质 - Google Patents
一种客户行为的预测方法、系统、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117291714A CN117291714A CN202311334079.7A CN202311334079A CN117291714A CN 117291714 A CN117291714 A CN 117291714A CN 202311334079 A CN202311334079 A CN 202311334079A CN 117291714 A CN117291714 A CN 117291714A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- classifier
- data set
- preset threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006399 behavior Effects 0.000 claims abstract description 126
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 38
- 238000012795 verification Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000007621 cluster analysis Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种客户行为的预测方法、系统、设备及可读存储介质,涉及行为预测技术领域,包括获取不平衡数据集,并将所述不平衡数据集聚类分析,选取小于或等于预设阈值的聚类簇;将这些聚类簇经过WGAN‑GP模型的训练,以生成新的数据;将生成的数据与原始数据集融合,形成平衡数据集,将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;将所述不平衡数据集发送至所述训练后的分类器进行客户行为预测,得到客户行为的预测结果。该技术的效果是提高不平衡数据集的平衡性,使分类器更准确地预测客户行为,有助于决策和风险管理。
Description
技术领域
本发明涉及行为预测技术领域,具体而言,涉及一种客户行为的预测方法、系统、设备及可读存储介质。
背景技术
在对银行客户行为中有大量的情况都是不平衡分类,比如欺诈检测,信用违约等。传统的分类算法以降低总体分类精度为目标,将所有样本同等对待,导致在不平衡分类的情况下,学到的分类器在样本个数多的类别上的分类精度较高,而在样本个数少的类别上的分类精度很低。因此,在不平衡数据的情况下对客户的行为进行有效的预测分类,具有重大的现实意义。
现需要一种能够有效对客户行为进行预测分类的方法和系统,用于减少银行的成本,减轻客户行为预测分类时的数据不平衡程度。
发明内容
本发明的目的在于提供一种客户行为的预测方法、系统、设备及可读存储介质,以改善上述问题。为了实现上述目的,本发明采取的技术方案如下:
第一方面,本申请提供了一种客户行为的预测方法,包括:
获取不平衡数据集,所述不平衡数据集包括所有客户对应行为的数据信息;
将所述不平衡数据集进行聚类分析,并将预设的阈值和聚类分析得到的所有聚类簇内客户对应行为数据的数量进行对比,得到小于或等于预设阈值的聚类簇;
将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型;
将预设的随机噪声数据发送至训练后的WGAN-GP模型进行数据生成处理,得到至少一条生成数据;
将所有的生成数据发送至不平衡数据集进行融合,得到平衡数据集,所述平衡数据集为包含不平衡数据集和所有的生成数据的集合;
将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
将所述不平衡数据集发送至所述训练后的分类器进行客户行为预测,得到客户行为的预测结果。
第二方面,本申请还提供了一种客户行为的预测系统,包括:
获取单元,用于获取不平衡数据集,所述不平衡数据集包括所有客户对应行为的数据信息;
分析单元,用于将所述不平衡数据集进行聚类分析,并将预设的阈值和聚类分析得到的所有聚类簇内客户对应行为数据的数量进行对比,得到小于或等于预设阈值的聚类簇;
发送单元,用于将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型;
处理单元,用于将预设的随机噪声数据发送至训练后的WGAN-GP模型进行数据生成处理,得到至少一条生成数据;
融合单元,用于将所有的生成数据发送至不平衡数据集进行融合,得到平衡数据集,所述平衡数据集为包含不平衡数据集和所有的生成数据的集合;
训练单元,用于将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
预测单元,用于将所述不平衡数据集发送至所述训练后的分类器进行客户行为预测,得到客户行为的预测结果。
第三方面,本申请还提供了一种客户行为的预测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述客户行为的预测方法的步骤。
第四方面,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于客户行为的预测方法的步骤。
本发明的有益效果为:
本发明通过对采用WGAN-GP模型进行预测分类能够有效减小生成的少类样本与其他样本之间重叠的可能性,且能够克服离散等问题。采用WGAN-GP用作数据增强,生成少类数据,减轻客户信贷行为预测分类时的数据不平衡程度,从而训练出有效的预测分类器,进而有效的对客户行为进行预测分类。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中所述的客户行为的预测方法流程示意图;
图2为本发明实施例中所述的客户行为的预测系统结构示意图;
图3为本发明实施例中所述的客户行为的预测设备结构示意图。
图中:701、获取单元;702、分析单元;703、发送单元;704、处理单元;705、融合单元;706、训练单元;707、预测单元;7021、第一分析子单元;7022、第二分析子单元;7031、第一处理子单元;7032、第二处理子单元;7033、第三处理子单元;7034、第四处理子单元;7035、第五处理子单元;7061、第一训练子单元;7062、第二训练子单元;7063、第三训练子单元;800、标记接收设备;801、处理器;802、存储器;803、多媒体组件;804、输入/输出(I/O)接口;805、通信组件。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1:
本实施例提供了一种客户行为的预测方法。
参见图1,图中示出了本方法包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5、步骤S6和步骤S7。
步骤S1、获取不平衡数据集,所述不平衡数据集包括所有客户对应行为的数据信息;
可以理解的是本步骤通过获得包括所有客户对应行为的不平衡数据集,这为后续的数据处理和分析提供了原始数据源。
步骤S2、将所述不平衡数据集进行聚类分析,并将预设的阈值和聚类分析得到的所有聚类簇内客户对应行为数据的数量进行对比,得到小于或等于预设阈值的聚类簇;
可以理解的是本步骤通过将不平衡数据集进行聚类分析,以便将客户行为数据分成不同的聚类簇。然后,与预设的阈值进行比较,以选择小于或等于预设阈值的聚类簇。这有助于确定哪些客户行为数据需要进一步处理以改善平衡,其中,步骤S2包括步骤S21和步骤S22。
步骤S21、将所述不平衡数据集按照客户对应行为进行聚类,得到至少一个聚类簇,每个聚类簇包含每个类别的客户对应行为数据;
可以理解的是本步骤通过将不平衡数据集按照客户对应行为进行聚类,形成至少一个聚类簇。每个聚类簇包含每个类别的客户对应行为数据。这有助于将相似的客户行为数据归类在一起。
步骤S22、对每个聚类簇内的客户对应行为数据进行遍历,得到所述聚类簇内客户对应行为数据的数量,并将所述聚类簇内客户对应行为数据的数量与预设的阈值进行对比,得到多类数据和少类数据,其中多类数据为客户对应行为数据的数量大于预设阈值的聚类簇数据,其中少类数据为客户对应行为数据的数量小于或等于预设阈值的聚类簇数据。
可以理解的是本步骤通过对每个聚类簇内的客户对应行为数据进行遍历,并计算每个聚类簇内客户对应行为数据的数量。然后将每个聚类簇内客户对应行为数据的数量与预设的阈值进行对比,以得到多类数据和少类数据的分类。这有助于更好地理解数据集的不平衡性,并为后续的处理步骤提供了有针对性的数据。这些步骤提供了更多的数据分析和分类工作,以支持整个处理流程的优化。
步骤S3、将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型;
可以理解的是本步骤通过使用选定的小于或等于预设阈值的聚类簇数据来训练WGAN-GP模型,这个模型被训练用于生成数据,以便增加不足的数据量,从而改善数据集的平衡。其中,步骤S3包括步骤S31和步骤S32。
步骤S31、将所述小于或等于预设阈值的聚类簇进行特征提取,得到小于或等于预设阈值的聚类簇中客户行为的特征数据;
步骤S32、将所述特征数据发送至WGAN-GP模型进行训练,其中,WGAN-GP模型的生成器和判别器的结构都为三层全连接网络,生成器前两层全连接的激活函数为Relu函数,生成器的最后一层的结构为去掉激活函数Sigmoid函数并保留全连接的结构,所述判别器前两层全连接的激活函数为Relu函数,最后一层全连接的激活函数为Sigmoid函数,得到训练后的WGAN-GP模型。
可以理解的是本步骤通过在判别器的损失函数中加入梯度惩罚,作为额外损失,额外损失的计算公式为:
其中,D(x)为判别器函数,为判别器函数D(x)的梯度,/>为判别器函数D(x)梯度的p范数,K为常数。
将K取为1,WGAN-GP中判别器的优化目标改进为:
其中,为判别器D(x)的数学期望,其中x服从真实数据概率分布,为判别器D(x)的数学期望,其中,PG为生成数据概率,x服从生成数据概率分布PG,/> 为惩罚项,表示判别器函数/>梯度的L2范数与1距离的数学期望,其中/>α是[0,1]之间均匀采样的值,用于插值真实数据和生成数据的样本,其中,γ是一个超参数,用于控制梯度惩罚的重要性。
可以理解的是步骤S3之后还包括步骤S33、步骤S34和步骤S35。
步骤S33、基于所述平衡数据集内小于或等于预设阈值的聚类簇数据和所述生成数据构建边际分布图,得到所述边际分布图内小于或等于预设阈值的聚类簇数据和所述生成数据的分布差异;
可以理解的是本步骤为了获得关于小于或等于预设阈值的聚类簇数据和生成数据之间的分布差异信息。
步骤S34、基于所述平衡数据集内大于预设阈值的聚类簇数据和所述平衡数据集内小于或等于预设阈值的聚类簇数据构建降维分布图;
可以理解的是本步骤为了比较不同聚类簇数据之间的分布特征。
步骤S35、基于分布差异和所述降维分布图调整WGAN-GP模型的超参数,得到调整后的WGAN-GP模型。
可以理解的是本步骤通过改进WGAN-GP模型,以更好地生成数据,从而提高不平衡数据集的平衡性。其中,通过分析边际分布和降维分布以及根据这些信息调整模型的超参数来改善生成效果。这有助于提高生成的少类数据的质量,使其更好地匹配实际数据分布,从而增强后续分类器的性能。
步骤S4、将预设的随机噪声数据发送至训练后的WGAN-GP模型进行数据生成处理,得到至少一条生成数据;
可以理解的是本步骤通过使用训练好的WGAN-GP模型生成至少一条客户行为数据,这个生成的数据可以用于增强原始不平衡数据集。
步骤S5、将所有的生成数据发送至不平衡数据集进行融合,得到平衡数据集,所述平衡数据集为包含不平衡数据集和所有的生成数据的集合;
可以理解的是本步骤通过将生成的数据与不平衡数据集合并,从而形成一个平衡数据集,这有助于确保在后续分类器训练中更好地处理不平衡数据问题。
步骤S6、将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
可以理解的是本步骤通过使用平衡数据集来训练分类器,这个分类器被训练用于预测客户的行为,所述分类器是客户行为预测常用的分类器,比如逻辑回归LR、XGBoost、LightGBM等,其中,步骤S6之后还包括步骤S61、步骤S62和步骤S63。
步骤S61、将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
步骤S62、将预设的验证集发送至训练后的分类器进行验证处理,其中,通过计算所述训练后的分类器的准确率、召回率和综合评价指标进行评价,得到验证结果;
步骤S63、若所述验证结果在预设范围外,则调整所述分类器的参数,并重新训练所述分类器,直至所述验证结果在预设范围内,得到调整后的分类器。
可以理解的是本步骤通过计算分类器的准确率、召回率和综合评价指标等评价指标,可以得到分类器的验证结果。这些指标用于评估分类器在验证数据集上的性能。并且本步骤通过确保经过训练和调整的分类器能够提供准确的客户行为预测结果。其中,通过不断迭代和优化,可以获得更符合实际需求的分类器,从而提高决策和预测的准确性。本步骤中,通过如下公式对训练后的分类器进行评价:
对训练后的分类器进行评价包括分类器的准确率、召回率和综合评价指标的计算公式,其中分类器的准确率的计算公式如下:
其中,recall为分类器的准确率,TP表示样本是正类并且被预测为正类的个数,FN表示样本是正类但是被预测为负类的个数。
其中,召回率的计算公式如下:
其中,precision为分类器的召回率,TP表示样本是正类并且被预测为正类的个数,FP表示样本是负类但是被预测为正类的个数。
其中,综合评价指标的计算公式如下:
其中,F-measure和G-mean均为综合评价指标,β表示预设的参数,recall为分类器的准确率,precision为分类器的召回率,TP表示样本是正类并且被预测为正类的个数,FN表示样本是正类但是被预测成为负类的个数,FP表示样本是负类但是被预测成为正类的个数,TN表示样本是负类并且被预测成为负类的个数。
步骤S7、将所述不平衡数据集发送至所述训练后的分类器进行客户行为预测,得到客户行为的预测结果。
可以理解的是本步骤通过聚类、生成和融合数据,以及使用平衡数据集来改善不平衡数据集的质量,并进一步提高客户行为的预测准确性,这有望提供更可靠的决策和预测结果,从而对各种领域的应用产生积极影响。
实施例2:
如图2所示,本实施例提供了一种客户行为的预测系统,参见图2所述系统包括获取单元701、分析单元702、发送单元703、处理单元704、融合单元705、训练单元706和预测单元707。
获取单元701,用于获取不平衡数据集,所述不平衡数据集包括所有客户对应行为的数据信息;
分析单元702,用于将所述不平衡数据集进行聚类分析,并将预设的阈值和聚类分析得到的所有聚类簇内客户对应行为数据的数量进行对比,得到小于或等于预设阈值的聚类簇;
其中,所述分析单元702包括第一分析子单元7021和第二分析子单元7022。
第一分析子单元7021,用于将所述不平衡数据集按照客户对应行为进行聚类,得到至少一个聚类簇,每个聚类簇包含每个类别的客户对应行为数据;
第二分析子单元7022,用于对每个聚类簇内的客户对应行为数据进行遍历,得到所述聚类簇内客户对应行为数据的数量,并将所述聚类簇内客户对应行为数据的数量与预设的阈值进行对比,得到多类数据和少类数据,其中多类数据为客户对应行为数据的数量大于预设阈值的聚类簇数据,其中少类数据为客户对应行为数据的数量小于或等于预设阈值的聚类簇数据。
发送单元703,用于将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型;
其中,所述发送单元703包括第一处理子单元7031和第二处理子单元7032。
第一处理子单元7031,用于将所述小于或等于预设阈值的聚类簇进行特征提取,得到小于或等于预设阈值的聚类簇中客户行为的特征数据;
第二处理子单元7032,用于将所述特征数据发送至WGAN-GP模型进行训练,其中,WGAN-GP模型的生成器和判别器的结构都为三层全连接网络,生成器前两层全连接的激活函数为Relu函数,生成器的最后一层的结构为去掉激活函数Sigmoid函数并保留全连接的结构,所述判别器前两层全连接的激活函数为Relu函数,最后一层全连接的激活函数为Sigmoid函数,得到训练后的WGAN-GP模型。
其中,所述发送单元703还包括第三处理子单元7033、第四处理子单元7034和第五处理子单元7035。
第三处理子单元7033,用于基于所述平衡数据集内小于或等于预设阈值的聚类簇数据和所述生成数据构建边际分布图,得到所述边际分布图内小于或等于预设阈值的聚类簇数据和所述生成数据的分布差异;
第四处理子单元7034,用于基于所述平衡数据集内大于预设阈值的聚类簇数据和所述平衡数据集内小于或等于预设阈值的聚类簇数据构建降维分布图;
第五处理子单元7035,用于基于分布差异和所述降维分布图调整WGAN-GP模型的超参数,得到调整后的WGAN-GP模型。
处理单元704,用于将预设的随机噪声数据发送至训练后的WGAN-GP模型进行数据生成处理,得到至少一条生成数据;
融合单元705,用于将所有的生成数据发送至不平衡数据集进行融合,得到平衡数据集,所述平衡数据集为包含不平衡数据集和所有的生成数据的集合;
训练单元706,用于将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
其中,所述训练单元706还包括第一训练子单元7061、第二训练子单元7062和第三训练子单元7063。
第一训练子单元7061,用于将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
第二训练子单元7062,用于将预设的验证集发送至训练后的分类器进行验证处理,其中,通过计算所述训练后的分类器的准确率、召回率和综合评价指标进行评价,得到验证结果;
第三训练子单元7063,用于若所述验证结果在预设范围外,则调整所述分类器的参数,并重新训练所述分类器,直至所述验证结果在预设范围内,得到调整后的分类器。
预测单元707,用于将所述不平衡数据集发送至所述训练后的分类器进行客户行为预测,得到客户行为的预测结果。
需要说明的是,关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例3:
相应于上面的方法实施例,本实施例中还提供了一种客户行为的预测设备,下文描述的一种客户行为的预测设备与上文描述的一种客户行为的预测方法可相互对应参照。
图3是根据示例性实施例示出的一种客户行为的预测设备800的框图。如图3所示,该客户行为的预测设备800可以包括:处理器801,存储器802。该客户行为的预测设备800还可以包括多媒体组件803,I/O接口804,以及通信组件805中的一者或多者。
其中,处理器801用于控制该客户行为的预测设备800的整体操作,以完成上述的客户行为的预测方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该客户行为的预测设备800的操作,这些数据例如可以包括用于在该客户行为的预测设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该客户行为的预测设备800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,客户行为的预测设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal ProcessingDevice,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的客户行为的预测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的客户行为的预测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器802,上述程序指令可由客户行为的预测设备800的处理器801执行以完成上述的客户行为的预测方法。
实施例4:
相应于上面的方法实施例,本实施例中还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种客户行为的预测方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的客户行为的预测方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (13)
1.一种客户行为的预测方法,其特征在于,包括:
获取不平衡数据集,所述不平衡数据集包括所有客户对应行为的数据信息;
将所述不平衡数据集进行聚类分析,并将预设的阈值和聚类分析得到的所有聚类簇内客户对应行为数据的数量进行对比,得到小于或等于预设阈值的聚类簇;
将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型;
将预设的随机噪声数据发送至训练后的WGAN-GP模型进行数据生成处理,得到至少一条生成数据;
将所有的生成数据发送至不平衡数据集进行融合,得到平衡数据集,所述平衡数据集为包含不平衡数据集和所有的生成数据的集合;
将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
将所述不平衡数据集发送至所述训练后的分类器进行客户行为预测,得到客户行为的预测结果。
2.根据权利要求1所述的客户行为的预测方法,其特征在于,将所述不平衡数据集进行聚类分析,并将预设的阈值和聚类分析得到的所有聚类簇内客户对应行为数据的数量进行对比,得到小于或等于预设阈值的聚类簇,包括:
将所述不平衡数据集按照客户对应行为进行聚类,得到至少一个聚类簇,每个聚类簇包含每个类别的客户对应行为数据;
对每个聚类簇内的客户对应行为数据进行遍历,得到所述聚类簇内客户对应行为数据的数量,并将所述聚类簇内客户对应行为数据的数量与预设的阈值进行对比,得到多类数据和少类数据,其中多类数据为客户对应行为数据的数量大于预设阈值的聚类簇数据,其中少类数据为客户对应行为数据的数量小于或等于预设阈值的聚类簇数据。
3.根据权利要求1所述的客户行为的预测方法,其特征在于,将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型,包括:
将所述小于或等于预设阈值的聚类簇进行特征提取,得到小于或等于预设阈值的聚类簇中客户行为的特征数据;
将所述特征数据发送至WGAN-GP模型进行训练,其中,WGAN-GP模型的生成器和判别器的结构都为三层全连接网络,生成器前两层全连接的激活函数为Relu函数,生成器的最后一层的结构为去掉激活函数Sigmoid函数并保留全连接的结构,所述判别器前两层全连接的激活函数为Relu函数,最后一层全连接的激活函数为Sigmoid函数,得到训练后的WGAN-GP模型。
4.根据权利要求1所述的客户行为的预测方法,其特征在于,将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型之后,还包括:
基于所述平衡数据集内小于或等于预设阈值的聚类簇数据和所述生成数据构建边际分布图,得到所述边际分布图内小于或等于预设阈值的聚类簇数据和所述生成数据的分布差异;
基于所述平衡数据集内大于预设阈值的聚类簇数据和所述平衡数据集内小于或等于预设阈值的聚类簇数据构建降维分布图;
基于分布差异和所述降维分布图调整WGAN-GP模型的超参数,得到调整后的WGAN-GP模型。
5.根据权利要求1所述的客户行为的预测方法,其特征在于,将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器之后,还包括:
将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
将预设的验证集发送至训练后的分类器进行验证处理,其中,通过计算所述训练后的分类器的准确率、召回率和综合评价指标进行评价,得到验证结果;
若所述验证结果在预设范围外,则调整所述分类器的参数,并重新训练所述分类器,直至所述验证结果在预设范围内,得到调整后的分类器。
6.根据权利要求5所述的客户行为的预测方法,其特征在于,通过如下公式对训练后的分类器进行评价:
对训练后的分类器进行评价包括分类器的准确率、召回率和综合评价指标的计算公式,其中分类器的准确率的计算公式如下:
其中,recall为分类器的准确率,TP表示样本是正类并且被预测为正类的个数,FN表示样本是正类但是被预测为负类的个数。
其中,召回率的计算公式如下:
其中,precision为分类器的召回率,TP表示样本是正类并且被预测为正类的个数,FP表示样本是负类但是被预测为正类的个数。
其中,综合评价指标的计算公式如下:
其中,F-measure和G-mean均为综合评价指标,β表示预设的参数,recall为分类器的准确率,precision为分类器的召回率,TP表示样本是正类并且被预测为正类的个数,FN表示样本是正类但是被预测成为负类的个数,FP表示样本是负类但是被预测成为正类的个数,TN表示样本是负类并且被预测成为负类的个数。
7.一种客户行为的预测系统,其特征在于,包括:
获取单元,用于获取不平衡数据集,所述不平衡数据集包括所有客户对应行为的数据信息;
分析单元,用于将所述不平衡数据集进行聚类分析,并将预设的阈值和聚类分析得到的所有聚类簇内客户对应行为数据的数量进行对比,得到小于或等于预设阈值的聚类簇;
发送单元,用于将小于或等于预设阈值的聚类簇发送至WGAN-GP模型进行训练,得到训练后的WGAN-GP模型;
处理单元,用于将预设的随机噪声数据发送至训练后的WGAN-GP模型进行数据生成处理,得到至少一条生成数据;
融合单元,用于将所有的生成数据发送至不平衡数据集进行融合,得到平衡数据集,所述平衡数据集为包含不平衡数据集和所有的生成数据的集合;
训练单元,用于将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
预测单元,用于将所述不平衡数据集发送至所述训练后的分类器进行客户行为预测,得到客户行为的预测结果。
8.根据权利要求7所述的客户行为的预测系统,其特征在于,所述分析单元包括:
第一分析子单元,用于将所述不平衡数据集按照客户对应行为进行聚类,得到至少一个聚类簇,每个聚类簇包含每个类别的客户对应行为数据;
第二分析子单元,用于对每个聚类簇内的客户对应行为数据进行遍历,得到所述聚类簇内客户对应行为数据的数量,并将所述聚类簇内客户对应行为数据的数量与预设的阈值进行对比,得到多类数据和少类数据,其中多类数据为客户对应行为数据的数量大于预设阈值的聚类簇数据,其中少类数据为客户对应行为数据的数量小于或等于预设阈值的聚类簇数据。
9.根据权利要求7所述的客户行为的预测系统,其特征在于,所述发送单元包括:
第一处理子单元,用于将所述小于或等于预设阈值的聚类簇进行特征提取,得到小于或等于预设阈值的聚类簇中客户行为的特征数据;
第二处理子单元,用于将所述特征数据发送至WGAN-GP模型进行训练,其中,WGAN-GP模型的生成器和判别器的结构都为三层全连接网络,生成器前两层全连接的激活函数为Relu函数,生成器的最后一层的结构为去掉激活函数Sigmoid函数并保留全连接的结构,所述判别器前两层全连接的激活函数为Relu函数,最后一层全连接的激活函数为Sigmoid函数,得到训练后的WGAN-GP模型。
10.根据权利要求7所述的客户行为的预测系统,其特征在于,所述发送单元还包括:
第三处理子单元,用于基于所述平衡数据集内小于或等于预设阈值的聚类簇数据和所述生成数据构建边际分布图,得到所述边际分布图内小于或等于预设阈值的聚类簇数据和所述生成数据的分布差异;
第四处理子单元,用于基于所述平衡数据集内大于预设阈值的聚类簇数据和所述平衡数据集内小于或等于预设阈值的聚类簇数据构建降维分布图;
第五处理子单元,用于基于分布差异和所述降维分布图调整WGAN-GP模型的超参数,得到调整后的WGAN-GP模型。
11.根据权利要求7所述的客户行为的预测系统,其特征在于,所述训练单元还包括:
第一训练子单元,用于将所述平衡数据集输入至预设的分类器进行训练,得到训练后的分类器;
第二训练子单元,用于将预设的验证集发送至训练后的分类器进行验证处理,其中,通过计算所述训练后的分类器的准确率、召回率和综合评价指标进行评价,得到验证结果;
第三训练子单元,用于若所述验证结果在预设范围外,则调整所述分类器的参数,并重新训练所述分类器,直至所述验证结果在预设范围内,得到调整后的分类器。
12.一种客户行为的预测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述客户行为的预测方法的步骤。
13.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述客户行为的预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311334079.7A CN117291714A (zh) | 2023-10-16 | 2023-10-16 | 一种客户行为的预测方法、系统、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311334079.7A CN117291714A (zh) | 2023-10-16 | 2023-10-16 | 一种客户行为的预测方法、系统、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117291714A true CN117291714A (zh) | 2023-12-26 |
Family
ID=89240729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311334079.7A Pending CN117291714A (zh) | 2023-10-16 | 2023-10-16 | 一种客户行为的预测方法、系统、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117291714A (zh) |
-
2023
- 2023-10-16 CN CN202311334079.7A patent/CN117291714A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943186B2 (en) | Machine learning model training method and device, and electronic device | |
CN109983483B (zh) | 用于管理机器学习模型的计算机实现的方法和计算设备 | |
CN109684554B (zh) | 新闻的潜在用户的确定方法及新闻推送方法 | |
CN108229963B (zh) | 用户操作行为的风险识别方法及装置 | |
CN111932269B (zh) | 设备信息处理方法及装置 | |
CN110929799B (zh) | 用于检测异常用户的方法、电子设备和计算机可读介质 | |
US11948102B2 (en) | Control system for learning to rank fairness | |
CN112329816A (zh) | 数据分类方法、装置、电子设备和可读存储介质 | |
US11481707B2 (en) | Risk prediction system and operation method thereof | |
CN111311030B (zh) | 基于影响因素检测的用户信用风险预测方法及装置 | |
CN113011895A (zh) | 关联账户样本筛选方法、装置和设备及计算机存储介质 | |
CN114638234B (zh) | 应用于线上业务办理的大数据挖掘方法及系统 | |
CN113553624A (zh) | 基于改进pate的wgan-gp隐私保护系统和方法 | |
US20190220924A1 (en) | Method and device for determining key variable in model | |
CN111898675A (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN113449011A (zh) | 基于大数据预测的信息推送更新方法及大数据预测系统 | |
CN115718826A (zh) | 图结构数据中的目标节点分类方法、系统、设备及介质 | |
Suleman et al. | Google play store app ranking prediction using machine learning algorithm | |
Zheng et al. | Modeling stochastic service time for complex on-demand food delivery | |
CN105608460A (zh) | 多分类器融合方法和系统 | |
CN117291714A (zh) | 一种客户行为的预测方法、系统、设备及可读存储介质 | |
CN115358330A (zh) | 客户端用户流失预测方法、装置、设备及存储介质 | |
CN111737319B (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
JP2015103019A (ja) | データ処理装置、及びデータ処理方法 | |
Yuan et al. | Modeling Long-and Short-Term Service Recommendations with a Deep Multi-Interest Network for Edge Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |