CN112308703A - 用户分群方法、装置、设备及存储介质 - Google Patents
用户分群方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112308703A CN112308703A CN202011201399.1A CN202011201399A CN112308703A CN 112308703 A CN112308703 A CN 112308703A CN 202011201399 A CN202011201399 A CN 202011201399A CN 112308703 A CN112308703 A CN 112308703A
- Authority
- CN
- China
- Prior art keywords
- credit data
- categories
- users
- user
- credit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims description 50
- 238000010606 normalization Methods 0.000 claims description 41
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000003064 k means clustering Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种用户分群方法、装置、设备及存储介质,其中,用户分群方法包括步骤:获取若干个用户的信贷数据;对若干个用户的信贷数据进行粗粒度分群,以将若干个用户的信贷数据划分为m个类别的信贷数据;根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据;合并m*n个类别的信贷数据,以得到若干个用户的信贷数据的分组结果;根据述若干个用户的信贷数据的分组结果确定若干个用户的信贷类型。本申请能够把用户分成不同且不重合的若干个群体,并保证了每个群体的数目处于相同规模大小,以使得采用不同的群体数据分别进行机器学习建模时,能够提高模型针对用户信贷风险的评估精确性。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种用户分群方法、装置、设备及存储介质。
背景技术
现有分群方法目的是归类相似客户用以发现潜在客户或者设计针对不同客户的差异化销售/推销策略,结果是归类结果满足了业务可解释性,群体内相似性,群体间差异性。但是缺点是这种分群结果并不能帮助后续针对模型的训练效果提升,即无法提高模型针对用户信贷风险的评估精确性。
发明内容
本申请实施例的目的在于提供一种用户分群方法、装置、设备及存储介质,用以把用户分成不同且不重合的若干个群体,并保证了每个群体的数目处于相同规模大小,以使得采用不同的群体数据分别进行机器学习建模时,能够提高模型针对用户信贷风险的评估精确性。
为此,本申请提供一种用户分群方法,所述方法包括步骤:
获取若干个用户的信贷数据;
对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据,其中,m大于等于1,且m为整数;
根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,其中,n大于等于1,且n为整数;
合并所述m*n个类别的信贷数据,以得到所述若干个用户的信贷数据的分组结果;
根据述若干个用户的信贷数据的分组结果确定所述若干个用户的信贷类型。
本申请第一方面的用户分群方法能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
在本申请第一方面中,作为一种可选的实施方式,所述对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据,包括步骤:
依次根据每个所述用户的信贷数据中的字段值确定每个所述用户的信贷数据的空值状态矩阵;
根据无监督聚类算法对所述空值状态矩阵进行无监督聚类,以得到所述空值状态矩阵的m个类别;
根据所述空值状态矩阵的m个类别将所述若干个用户的信贷数据划分为m个类别的用户信贷数据。
在本可选的实施方式中,通过根据每个用户的信贷数据中的字段值确定每个用户的信贷数据的空值状态矩阵,进而根据无监督聚类算法可对空值状态矩阵进行无监督聚类而得到空值状态矩阵的m个类别,进而根据空值状态矩阵的m个类别将若干个用户的信贷数据划分为m个类别的用户信贷数据。
在本申请第一方面中,作为一种可选的实施方式,所述无监督聚类算法为K均值聚类算法或高斯混合算法。
在本可选的实施方式中,通过K均值聚类算法或高斯混合算法可对空值状态矩阵进行无监督聚类而得到空值状态矩阵的m个类别。
在本申请第一方面中,作为一种可选的实施方式,在所述对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据之后,所述根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据之前,所述方法包括:
根据数据连续化算法依次对所述m个类别的信贷数据进行类别特征连续化处理,以将每个所述用户的信贷数据中的字段值转换为数值类型;
归一化字段值转换为数值类型后的每个所述用户的信贷数据,以得到归一化结果;
以及,根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据为:
基于所述归一化结果,根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
在本申请第一方面中,作为一种可选的实施方式,所述基于所述归一化结果,根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,包括:
根据所述归一化结果训练预设模型,以使得所述预设模型输出与用户违约最相关的若干个特征,
根据所述与用户违约最相关的若干个特征,将所述m个类别的信贷数据进行划分,得到所述m*n个类别的信贷数据。
在本可选的实施方式中,通过根据归一化结果训练预设模型,可使得预设模型输出与用户违约最相关的若干个特征,进而能够根据与用户违约最相关的若干个特征,将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
在本申请第一方面中,作为一种可选的实施方式,所述归一化字段值转换为数值类型后的每个所述用户的信贷数据,以得到归一化结果,包括:
根据最大最小值归一化算法归一化字段值转换为数值类型后的每个所述用户的信贷数据,以得到所述归一化结果。
在本可选的实施方式中,根据最大最小值归一化算法归一化字段值转换为数值类型后的每个用户的信贷数据,可得到归一化结果。
在本申请第一方面中,作为一种可选的实施方式,所述合并所述m*n个类别的信贷数据,以得到所述若干个用户的信贷数据的分组结果,包括:
计算所述m*n个类别的信贷数据中两个信贷数据之间的相似值;
根据所述两个信贷数据之间的相似值合并所述两个信贷数据;
将合并后的m*n个类别的信贷数据作为所述若干个用户的信贷数据的分组结果。
在本可选的实施方式中,通过计算m*n个类别的信贷数据中两个信贷数据之间的相似值可合并两个信贷数据,进而可将合并后的m*n个类别的信贷数据作为若干个用户的信贷数据的分组结果。
本申请第二方面公开一种用户分群装置,所述装置包括:
获取模块,用于获取若干个用户的信贷数据;
第一分群模块,用于对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据,其中,m大于等于1,且m为整数;
聚类模块,用于根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,其中,n大于等于1,且n为整数;
合并模块,用于合并所述m*n个类别的信贷数据,以得到所述若干个用户的信贷数据的分组结果;
确定模块,用于根据述若干个用户的信贷数据的分组结果确定所述若干个用户的信贷类型。
本申请第二方面的装置通过执行用户分群方法,能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
本申请第三方面公开一种用户分群设备,所述设备包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行本申请第一方面的用户分群方法。
本申请第三方面的设备执行用户分群方法,能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
本申请第四方面公开一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时执行本申请第一方面的用户分群方法。
本申请第四方面的设备执行用户分群方法,能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例公开的一种用户分群方法的流程示意图;
图2为步骤102的子步骤的流程示意图;
图3是本申请实施例公开的一种户分群装置的结构示意图;
图4是本申请实施例公开的一种用户分群设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一
请参阅图1,图1是本申请实施例公开的一种用户分群方法的流程示意图。如图1所示,该方法包括步骤:
101、获取若干个用户的信贷数据;
102、对若干个用户的信贷数据进行粗粒度分群,以将若干个用户的信贷数据划分为m个类别的信贷数据,其中,m大于等于1,且m为整数;
103、根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,其中,n大于等于1,且n为整数;
104、合并m*n个类别的信贷数据,以得到若干个用户的信贷数据的分组结果;
105、根据述若干个用户的信贷数据的分组结果确定若干个用户的信贷类型。
本申请实施例的用户分群方法能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
示例性地,将若干个用户的信贷数据进行粗粒度分群,得到{C_1,C_2,C_3,...C_m}个类别的信贷数据。
再示例性地,对{C_1,C_2,C_3,...C_m}个类别的信贷数据进行划分,可得到{C_1_1,C_1_2,...C_1_n,...C_m_1,C_m_2,...C_m_n}个类别的信贷数据。
在本申请实施例中,作为一种可选的实施方式,如图2所示,步骤:102对若干个用户的信贷数据进行粗粒度分群,以将若干个用户的信贷数据划分为m个类别的信贷数据,包括步骤:
1021、依次根据每个用户的信贷数据中的字段值确定每个用户的信贷数据的空值状态矩阵;
1021、根据无监督聚类算法对空值状态矩阵进行无监督聚类,以得到空值状态矩阵的m个类别;
1023、根据空值状态矩阵的m个类别将若干个用户的信贷数据划分为m个类别的用户信贷数据。
在本可选的实施方式中,通过根据每个用户的信贷数据中的字段值确定每个用户的信贷数据的空值状态矩阵,进而根据无监督聚类算法可对空值状态矩阵进行无监督聚类而得到空值状态矩阵的m个类别,进而根据空值状态矩阵的m个类别将若干个用户的信贷数据划分为m个类别的用户信贷数据。
在本可选的实施方式中,具体地,步骤1021:依次根据每个用户的信贷数据中的字段值确定每个用户的信贷数据的空值状态矩阵的具体方式为:
根据连续化算法依次根据每个用户的信贷数据中的字段值转换为数值型;
根据转换后的每个用户的信贷数据中的字段,确定个用户的信贷数据的空值状态矩阵。
在本可选的实施,可选地,连续化算法为One-hot连续化算法、Label连续化、WOE连续化算法、条件概率连续化算法中一种。
示例性地,假设用户的信贷数据为:['女','23','产品经理','北京','本科'],经过Label类别特征连续化处理后为:[1,23,21,1,4],其中特征“性别女”被映射为数字1,“职业产品经理”被映射为数字21,“城市北京”被映射为数字1,“学历本科”被映射为数字4。
在本申请实施例中,作为一种可选的实施方式,无监督聚类算法为K均值聚类算法或高斯混合算法。
在本可选的实施方式中,通过K均值聚类算法或高斯混合算法可对空值状态矩阵进行无监督聚类而得到空值状态矩阵的m个类别。
在本申请实施例中,作为一种可选的实施方式,在步骤102对若干个用户的信贷数据进行粗粒度分群,以将若干个用户的信贷数据划分为m个类别的信贷数据之后,步骤103:根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据之前,本申请实施例的方法包括:
根据数据连续化算法依次对m个类别的信贷数据进行类别特征连续化处理,以将每个用户的信贷数据中的字段值转换为数值类型;
归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果。
相应地,步骤103:根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据的具体方式为:
基于归一化结果,根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
进一步地,步骤:基于归一化结果,根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,包括子步骤:
根据归一化结果训练预设模型,以使得预设模型输出与用户违约最相关的若干个特征;
根据与用户违约最相关的若干个特征,将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
在本可选的实施方式中,通过根据归一化结果训练预设模型,可使得预设模型输出与用户违约最相关的若干个特征,进而能够根据与用户违约最相关的若干个特征,将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
在本申请实施例中,作为一种可选的实施方式,步骤:归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果,包括子步骤:
根据最大最小值归一化算法归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果。
在本可选的实施方式中,根据最大最小值归一化算法归一化字段值转换为数值类型后的每个用户的信贷数据,可得到归一化结果。
在本可选的实施方式中,可选地,最大最小值归一化算法归一化字段值转换为数值类型后的每个用户的信贷数据,可得到归一化结果的计算式为:
x*=(x-x_min)/(x_max-x_min);
其中,x表示信贷数据,x*表示归一化结果,x_max表示数值最大的信贷数据,x_min表示数值最小的信贷数据。
在本可选的实施方式中,可选地,归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果的具体方式还可以为:
根据计算式x*=(x-μ)/σ归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果,其中,μ为所有字段值转换为数值类型后的信贷数据的均值,σ为所有字段值转换为数值类型后的信贷数据的标准差。
在本申请实施例中,作为一种可选的实施方式,步骤104:合并m*n个类别的信贷数据,以得到若干个用户的信贷数据的分组结果,包括子步骤:
计算m*n个类别的信贷数据中两个信贷数据之间的相似值;
根据两个信贷数据之间的相似值合并两个信贷数据;
将合并后的m*n个类别的信贷数据作为若干个用户的信贷数据的分组结果。
在本可选的实施方式中,通过计算m*n个类别的信贷数据中两个信贷数据之间的相似值可合并两个信贷数据,进而可将合并后的m*n个类别的信贷数据作为若干个用户的信贷数据的分组结果。
在本可选的实施方式中,计算m*n个类别的信贷数据中两个类别信贷数据之间的相似值的具体计算公式为:
S=abs(μ_a_i-μ_b_i)/(σ_a_i+σ_b_i);
其中,S为相似值,μ_a_i表示a类别信贷数据中i字段的均值,μ_b_i表示b类别信贷数据中i字段的均值,σ_a_i表示a类别信贷数据中i字段的标准差,σ_b_i表ba类别信贷数据中i字段的标准差,abs表示取绝对值。
在本申请实施例中,作为一种可选的实施方式,步骤104:合并m*n个类别的信贷数据,以得到若干个用户的信贷数据的分组结果,包括子步骤:
统计m*n个类别的信贷数据的数据总量num;
统计m*n个类别中每个类别的数据量c;
将数据量c小于预设值的类别进行合并,以得到p个类别的信贷数据。
在本可选的实施方式,预设值为num/(m*n*1.5)。
实施例二
请参阅图3,图3是本申请实施例公开的一种用户分群装置的结构示意图。如图3所示,该装置包括:
获取模块201,用于获取若干个用户的信贷数据;
第一分群模块202,用于对若干个用户的信贷数据进行粗粒度分群,以将若干个用户的信贷数据划分为m个类别的信贷数据,其中,m大于等于1,且m为整数;
聚类模块203,用于根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,其中,n大于等于1,且n为整数;
合并模块204,用于合并m*n个类别的信贷数据,以得到若干个用户的信贷数据的分组结果;
确定模块205,用于根据述若干个用户的信贷数据的分组结果确定若干个用户的信贷类型。
本申请实施例的装置通过执行用户分群方法,能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
示例性地,将若干个用户的信贷数据进行粗粒度分群,得到{C_1,C_2,C_3,...C_m}个类别的信贷数据。
再示例性地,对{C_1,C_2,C_3,...C_m}个类别的信贷数据进行划分,可得到{C_1_1,C_1_2,...C_1_n,...C_m_1,C_m_2,...C_m_n}个类别的信贷数据。
在本申请实施例中,作为一种可选的实施方式,第一分群模块202执行对若干个用户的信贷数据进行粗粒度分群,以将若干个用户的信贷数据划分为m个类别的信贷数据的具体方式为:
依次根据每个用户的信贷数据中的字段值确定每个用户的信贷数据的空值状态矩阵;
根据无监督聚类算法对空值状态矩阵进行无监督聚类,以得到空值状态矩阵的m个类别;
根据空值状态矩阵的m个类别将若干个用户的信贷数据划分为m个类别的用户信贷数据。
在本可选的实施方式中,通过根据每个用户的信贷数据中的字段值确定每个用户的信贷数据的空值状态矩阵,进而根据无监督聚类算法可对空值状态矩阵进行无监督聚类而得到空值状态矩阵的m个类别,进而根据空值状态矩阵的m个类别将若干个用户的信贷数据划分为m个类别的用户信贷数据。
在本可选的实施方式中,具体地,第一分群模块202执行依次根据每个用户的信贷数据中的字段值确定每个用户的信贷数据的空值状态矩阵的具体方式为:
根据连续化算法依次根据每个用户的信贷数据中的字段值转换为数值型;
根据转换后的每个用户的信贷数据中的字段,确定个用户的信贷数据的空值状态矩阵。
在本可选的实施,可选地,连续化算法为One-hot连续化算法、Label连续化、WOE连续化算法、条件概率连续化算法中一种。
示例性地,假设用户的信贷数据为:['女','23','产品经理','北京','本科'],经过Label类别特征连续化处理后为:[1,23,21,1,4],其中特征“性别女”被映射为数字1,“职业产品经理”被映射为数字21,“城市北京”被映射为数字1,“学历本科”被映射为数字4。
在本申请实施例中,作为一种可选的实施方式,无监督聚类算法为K均值聚类算法或高斯混合算法。
在本可选的实施方式中,通过K均值聚类算法或高斯混合算法可对空值状态矩阵进行无监督聚类而得到空值状态矩阵的m个类别。
在本申请实施例中,作为一种可选的实施方式,本申请实施例的装置包括:
连续化处理模块,用于根据数据连续化算法依次对m个类别的信贷数据进行类别特征连续化处理,以将每个用户的信贷数据中的字段值转换为数值类型;
归一化模块,用于归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果。
相应地,聚类模块203执行根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据的具体方式为:
基于归一化结果,根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
进一步地,聚类模块203执行基于归一化结果,根据预设模型对m个类别的信贷数据进行聚类,以将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据的具体方式为:
根据归一化结果训练预设模型,以使得预设模型输出与用户违约最相关的若干个特征;
根据与用户违约最相关的若干个特征,将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
在本可选的实施方式中,通过根据归一化结果训练预设模型,可使得预设模型输出与用户违约最相关的若干个特征,进而能够根据与用户违约最相关的若干个特征,将m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
在本申请实施例中,作为一种可选的实施方式,归一化模块执行归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果的具体方式为:
根据最大最小值归一化算法归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果。
在本可选的实施方式中,根据最大最小值归一化算法归一化字段值转换为数值类型后的每个用户的信贷数据,可得到归一化结果。
在本可选的实施方式中,可选地,最大最小值归一化算法归一化字段值转换为数值类型后的每个用户的信贷数据,可得到归一化结果的计算式为:
x*=(x-x_min)/(x_max-x_min);
其中,x表示信贷数据,x*表示归一化结果,x_max表示数值最大的信贷数据,x_min表示数值最小的信贷数据。
在本可选的实施方式中,可选地,归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果的具体方式还可以为:
根据计算式x*=(x-μ)/σ归一化字段值转换为数值类型后的每个用户的信贷数据,以得到归一化结果,其中,μ为所有字段值转换为数值类型后的信贷数据的均值,σ为所有字段值转换为数值类型后的信贷数据的标准差。
在本申请实施例中,作为一种可选的实施方式,合并模块204执行合并m*n个类别的信贷数据,以得到若干个用户的信贷数据的分组结果的具体方式为:
计算m*n个类别的信贷数据中两个信贷数据之间的相似值;
根据两个信贷数据之间的相似值合并两个信贷数据;
将合并后的m*n个类别的信贷数据作为若干个用户的信贷数据的分组结果。
在本可选的实施方式中,通过计算m*n个类别的信贷数据中两个信贷数据之间的相似值可合并两个信贷数据,进而可将合并后的m*n个类别的信贷数据作为若干个用户的信贷数据的分组结果。
在本可选的实施方式中,计算m*n个类别的信贷数据中两个类别信贷数据之间的相似值的具体计算公式为:
S=abs(μ_a_i-μ_b_i)/(σ_a_i+σ_b_i);
其中,S表示相似值,μ_a_i表示a类别信贷数据中i字段的均值,μ_b_i表示b类别信贷数据中i字段的均值,σ_a_i表示a类别信贷数据中i字段的标准差,σ_b_i表ba类别信贷数据中i字段的标准差,abs表示取绝对值。
在本申请实施例中,作为一种可选的实施方式,合并模块204执行合并m*n个类别的信贷数据,以得到若干个用户的信贷数据的分组结果的具体方式为:
统计m*n个类别的信贷数据的数据总量num;
统计m*n个类别中每个类别的数据量c;
将数据量c小于预设值的类别进行合并,以得到p个类别的信贷数据。
在本可选的实施方式,预设值为num/(m*n*1.5)。
实施例三
请参阅图4,图4是本申请实施例公开的一种用户分群设备的结构示意图。如图4所示,本申请实施例公开一种用户分群设备,设备包括:
处理器301;以及
存储器302,配置用于存储机器可读指令,指令在由处理器301执行时执行本申请实施例的用户分群方法。
本申请实施例的设备执行用户分群方法,能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
实施例四
本申请实施例公开一种存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时执行本申请第一方面的用户分群方法。
本申请第四方面的设备执行用户分群方法,能够若干个用户的信贷数据划分为m个类别的信贷数据,进而再将m个类别的信贷数据换分为m*n个类别的信贷数据,进而通过将m*n个类别的信贷数据合并,进而将若干个用户的信贷数据的划分为规模大小类似或者相同的群体数据并将其作为分组结果,进而根据分组结果能够更加精确地确定用户的信贷类型,即确定用户的信贷风险等级。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种用户分群方法,其特征在于,所述方法包括:
获取若干个用户的信贷数据;
对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据,其中,m大于等于1,且m为整数;
根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,其中,n大于等于1,且n为整数;
合并所述m*n个类别的信贷数据,以得到所述若干个用户的信贷数据的分组结果;
根据述若干个用户的信贷数据的分组结果确定所述若干个用户的信贷类型。
2.如权利要求1所述的用户分群方法,其特征在于,所述对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据,包括:
依次根据每个所述用户的信贷数据中的字段值确定每个所述用户的信贷数据的空值状态矩阵;
根据无监督聚类算法对所述空值状态矩阵进行无监督聚类,以得到所述空值状态矩阵的m个类别;
根据所述空值状态矩阵的m个类别将所述若干个用户的信贷数据划分为m个类别的用户信贷数据。
3.如权利要求2所述的方法,其特征在于,所述无监督聚类算法为K均值聚类算法或高斯混合算法。
4.如权利要求1所述的方法,其特征在于,在所述对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据之后,所述根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据之前,所述方法包括:
根据数据连续化算法依次对所述m个类别的信贷数据进行类别特征连续化处理,以将每个所述用户的信贷数据中的字段值转换为数值类型;
归一化字段值转换为数值类型后的每个所述用户的信贷数据,以得到归一化结果;
以及,根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据为:
基于所述归一化结果,根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据。
5.如权利要求4所述的方法,其特征在于,所述基于所述归一化结果,根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,包括:
根据所述归一化结果训练预设模型,以使得所述预设模型输出与用户违约最相关的若干个特征;
根据所述与用户违约最相关的若干个特征,将所述m个类别的信贷数据进行划分,得到所述m*n个类别的信贷数据。
6.如权利要求4所述的方法,其特征在于,所述归一化字段值转换为数值类型后的每个所述用户的信贷数据,以得到归一化结果,包括:
根据最大最小值归一化算法归一化字段值转换为数值类型后的每个所述用户的信贷数据,以得到所述归一化结果。
7.如权利要求1所述的方法,其特征在于,所述合并所述m*n个类别的信贷数据,以得到所述若干个用户的信贷数据的分组结果,包括:
计算所述m*n个类别的信贷数据中两个信贷数据之间的相似值;
根据所述两个信贷数据之间的相似值合并所述两个信贷数据;
将合并后的m*n个类别的信贷数据作为所述若干个用户的信贷数据的分组结果。
8.一种用户分群装置,其特征在于,所述装置包括:
获取模块,用于获取若干个用户的信贷数据;
第一分群模块,用于对所述若干个用户的信贷数据进行粗粒度分群,以将所述若干个用户的信贷数据划分为m个类别的信贷数据,其中,m大于等于1,且m为整数;
聚类模块,用于根据预设模型对所述m个类别的信贷数据进行聚类,以将所述m个类别的信贷数据进行划分,得到m*n个类别的信贷数据,其中,n大于等于1,且n为整数;
合并模块,用于合并所述m*n个类别的信贷数据,以得到所述若干个用户的信贷数据的分组结果;
确定模块,用于根据述若干个用户的信贷数据的分组结果确定所述若干个用户的信贷类型。
9.一种用户分群设备,其特征在于,所述设备包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行如权利要求1-7任一项所述的用户分群方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如权利要求1-7任一项所述的用户分群方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201399.1A CN112308703B (zh) | 2020-11-02 | 2020-11-02 | 用户分群方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201399.1A CN112308703B (zh) | 2020-11-02 | 2020-11-02 | 用户分群方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308703A true CN112308703A (zh) | 2021-02-02 |
CN112308703B CN112308703B (zh) | 2024-07-16 |
Family
ID=74334234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011201399.1A Active CN112308703B (zh) | 2020-11-02 | 2020-11-02 | 用户分群方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308703B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360778A (zh) * | 2021-08-09 | 2021-09-07 | 深圳索信达数据技术有限公司 | 划分用户群体的方法、装置、设备和介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251921A (zh) * | 2008-04-10 | 2008-08-27 | 覃征 | 信用评估多代理系统及其方法 |
WO2014016841A1 (en) * | 2012-07-27 | 2014-01-30 | Neuner Tomer | Intelligent state determination |
US20150269669A1 (en) * | 2014-03-21 | 2015-09-24 | Xerox Corporation | Loan risk assessment using cluster-based classification for diagnostics |
US20160086185A1 (en) * | 2014-10-15 | 2016-03-24 | Brighterion, Inc. | Method of alerting all financial channels about risk in real-time |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN110111192A (zh) * | 2019-02-19 | 2019-08-09 | 西北大学 | 多过滤器结合nsd指标的信贷客户特征选择方法和系统 |
CN110135626A (zh) * | 2019-04-17 | 2019-08-16 | 平安科技(深圳)有限公司 | 信贷管理方法及装置、电子设备、存储介质 |
CN110334936A (zh) * | 2019-06-28 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种信贷资质评分模型的构建方法、装置和设备 |
CN110675243A (zh) * | 2019-08-30 | 2020-01-10 | 北京银联金卡科技有限公司 | 一种融合机器学习的信贷预测逾期方法及系统 |
CN110717818A (zh) * | 2019-08-30 | 2020-01-21 | 深圳壹账通智能科技有限公司 | 基于大数据管理信贷数据的方法、装置及存储介质 |
CN111125658A (zh) * | 2019-12-31 | 2020-05-08 | 深圳市分期乐网络科技有限公司 | 识别欺诈用户的方法、装置、服务器和存储介质 |
CN111507831A (zh) * | 2020-05-29 | 2020-08-07 | 长安汽车金融有限公司 | 信贷风险自动评估方法和装置 |
CN111768246A (zh) * | 2020-06-30 | 2020-10-13 | 创新奇智(北京)科技有限公司 | 一种数据处理方法、模型建立方法、装置及电子设备 |
-
2020
- 2020-11-02 CN CN202011201399.1A patent/CN112308703B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251921A (zh) * | 2008-04-10 | 2008-08-27 | 覃征 | 信用评估多代理系统及其方法 |
WO2014016841A1 (en) * | 2012-07-27 | 2014-01-30 | Neuner Tomer | Intelligent state determination |
US20150269669A1 (en) * | 2014-03-21 | 2015-09-24 | Xerox Corporation | Loan risk assessment using cluster-based classification for diagnostics |
US20160086185A1 (en) * | 2014-10-15 | 2016-03-24 | Brighterion, Inc. | Method of alerting all financial channels about risk in real-time |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN110111192A (zh) * | 2019-02-19 | 2019-08-09 | 西北大学 | 多过滤器结合nsd指标的信贷客户特征选择方法和系统 |
CN110135626A (zh) * | 2019-04-17 | 2019-08-16 | 平安科技(深圳)有限公司 | 信贷管理方法及装置、电子设备、存储介质 |
CN110334936A (zh) * | 2019-06-28 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种信贷资质评分模型的构建方法、装置和设备 |
CN110675243A (zh) * | 2019-08-30 | 2020-01-10 | 北京银联金卡科技有限公司 | 一种融合机器学习的信贷预测逾期方法及系统 |
CN110717818A (zh) * | 2019-08-30 | 2020-01-21 | 深圳壹账通智能科技有限公司 | 基于大数据管理信贷数据的方法、装置及存储介质 |
CN111125658A (zh) * | 2019-12-31 | 2020-05-08 | 深圳市分期乐网络科技有限公司 | 识别欺诈用户的方法、装置、服务器和存储介质 |
CN111507831A (zh) * | 2020-05-29 | 2020-08-07 | 长安汽车金融有限公司 | 信贷风险自动评估方法和装置 |
CN111768246A (zh) * | 2020-06-30 | 2020-10-13 | 创新奇智(北京)科技有限公司 | 一种数据处理方法、模型建立方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
王宁;王澍;张江;陶鹏;: "大数据背景下融资企业信用特征分析", 经济研究导刊, no. 35, 15 December 2019 (2019-12-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360778A (zh) * | 2021-08-09 | 2021-09-07 | 深圳索信达数据技术有限公司 | 划分用户群体的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112308703B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104466B (zh) | 一种海量数据库表快速分类的方法 | |
Yang et al. | A fast image retrieval method designed for network big data | |
CN107992477B (zh) | 文本主题确定方法及装置 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
WO2014047725A1 (en) | Method and system for analysing sentiments | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
Wu et al. | BTM and GloVe similarity linear fusion-based short text clustering algorithm for microblog hot topic discovery | |
CN110188357A (zh) | 对象的行业识别方法及装置 | |
CN115186650B (zh) | 数据检测方法及相关装置 | |
Meng et al. | Classifier ensemble selection based on affinity propagation clustering | |
Zhang et al. | Text emotion classification system based on multifractal methods | |
CN109213833A (zh) | 二分类模型训练方法、数据分类方法及对应装置 | |
CN112308703A (zh) | 用户分群方法、装置、设备及存储介质 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN113850643A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN113407700A (zh) | 一种数据查询方法、装置和设备 | |
CN115495636A (zh) | 网页搜索方法、装置及存储介质 | |
CN113298145A (zh) | 标签填充方法及装置 | |
CN111831819B (zh) | 一种文本更新方法及装置 | |
CN112541357B (zh) | 实体识别方法、装置及智能设备 | |
WO2018100700A1 (ja) | データ変換装置とデータ変換方法 | |
CN113760918A (zh) | 一种确定数据血缘关系的方法、装置、计算机设备和介质 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN112632229A (zh) | 文本聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |