CN114139657B - 客群画像生成方法、装置、电子设备和储存介质 - Google Patents
客群画像生成方法、装置、电子设备和储存介质 Download PDFInfo
- Publication number
- CN114139657B CN114139657B CN202210115289.6A CN202210115289A CN114139657B CN 114139657 B CN114139657 B CN 114139657B CN 202210115289 A CN202210115289 A CN 202210115289A CN 114139657 B CN114139657 B CN 114139657B
- Authority
- CN
- China
- Prior art keywords
- portrait
- guest
- guest group
- data
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了客群画像生成方法、装置、电子设备和储存介质,其中方法包括:获取第一画像数据集,包括作为正样本的画像客群数据和作为负样本的非画像客群数据,其样本规模相同;使用第一树模型对第一画像数据集进行二分类数据建模后,基于第一树模型中的特征变量确定客群间差异特征,将客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;获取第二画像数据集,第二画像数据集通过对画像客群数据进行无监督聚类建模获得;使用第二树模型对第二画像数据集进行数据建模后,基于第二树模型中的特征变量确定客群内差异特征,添加到客群画像展示字段库,作为客群内差异字段;根据客群画像字段库中的目标字段,生成并展示客群画像。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及客群画像生成方法、装置、电子设备和储存介质。
背景技术
近年来,随着知识图谱与大数据的快速发展,画像技术受到广泛关注。在各行业领域为了提供更好的服务,经常需要将客群细分,并针对已经筛选出来的细分客群做客群画像分析,精准了解客户偏好和需求。
目前细分客群的筛选和客群画像的制作大都依赖于数据分析的手工操作,部分平台虽然可以支持客群的筛选和客户画像的展示,其客群画像的展示采用事先定义的维度,不能很好的适配筛选出来的客群,因此不能很好的刻画出筛选出来的细分客群的特征。
发明内容
本申请提供了客群画像生成方法、装置、电子设备和储存介质。
第一方面,提供了一种客群画像生成方法,包括:
获取第一画像数据集,所述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,所述画像客群数据与所述非画像客群数据的样本规模相同;
使用第一树模型对所述第一画像数据集进行二分类数据建模后,基于所述第一树模型中的特征变量确定客群间差异特征,将所述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;
获取第二画像数据集,所述第二画像数据集通过对所述画像客群数据进行无监督聚类建模获得;
使用第二树模型对所述第二画像数据集进行数据建模后,基于所述第二树模型中的特征变量确定客群内差异特征,将所述客群内差异特征添加到所述客群画像展示字段库,作为客群内差异字段;
根据所述客群画像字段库中的目标字段,生成并展示所述画像客群数据对应的客群画像,所述目标字段包括所述客群间差异字段和所述客群内差异字段。
第二方面,提供了一种客群画像生成装置,包括:
获取模块,用于获取第一画像数据集,所述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,所述画像客群数据与非画像客群数据的样本规模相同;
第一确定模块,用于使用第一树模型对所述第一画像数据集进行二分类数据建模后,基于所述第一树模型中的特征变量确定客群间差异特征;
字段添加模块,用于将所述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;
所述获取模块还用于,获取第二画像数据集,所述第二画像数据集通过对所述画像客群数据进行无监督聚类建模获得;
第二确定模块,用于使用第二树模型对所述第二画像数据集进行数据建模后,基于所述第二树模型中的特征变量确定客群内差异特征;
所述字段添加模块还用于,将所述客群内差异特征添加到所述客群画像展示字段库,作为客群内差异字段;
展示模块,用于根据所述客群画像字段库中的目标字段,生成并展示所述画像客群数据对应的客群画像,所述目标字段包括所述客群间差异字段和所述客群内差异字段。
第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面及其任一种可能的实现方式的步骤。
第四方面,提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如上述第一方面及其任一种可能的实现方式的步骤。
本申请通过获取第一画像数据集,上述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,画像客群数据与非画像客群数据的样本规模相同;使用第一树模型对上述画像数据集进行二分类数据建模后,基于上述第一树模型中的特征变量确定客群间差异特征,将上述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;获取第二画像数据集,上述第二画像数据集通过对上述画像客群数据进行无监督聚类建模获得;使用第二树模型对上述第二画像数据集进行数据建模后,基于上述第二树模型中的特征变量确定客群内差异特征,将上述客群内差异特征添加到上述客群画像展示字段库,作为客群内差异字段;根据上述客群画像字段库中的目标字段,生成并展示上述画像客群数据对应的客群画像,上述目标字段包括上述客群间差异字段和上述客群内差异字段,可以针对客群数据确定更匹配的客群画像字段,自动化生成和展示客户画像,输出的客群画像能更准确地反映出客群的特点。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种客群画像生成方法的流程示意图;
图2为本申请实施例提供的另一种客群画像生成方法的流程示意图;
图3为本申请实施例提供的一种客群画像展示页面示意图;
图4为本申请实施例提供的一种客群画像生成装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1是本申请实施例提供的一种客群画像生成方法的流程示意图。如图1所示,该方法包括:
101、获取第一画像数据集,上述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,上述画像客群数据与上述非画像客群数据的样本规模相同。
本申请实施例中的执行主体可以为一种客群画像生成装置,可以为电子设备,具体实现中,上述电子设备可以为一种服务器,或者终端设备,包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,上述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
本申请实施例中将需要进行数据分析的客户群体称为细分客群,客群画像的生成可以基于客群的信息和数据,也称为画像客群数据,是本申请中待展示画像的数据。本申请实施例中还设置相应的非画像客群数据,即无需做画像的客户数据,所使用的非画像客群数据与画像客群数据样本规模相同。
上述画像客群数据的获取,主要可以通过画像对象的用户标识从对应的用户信息中提取。金融机构在做精准营销时经常需要将进行客群细分,并针对已经筛选出来的细分客群做客群画像分析,客群画像和细分客群形成营销线索最后进行落地营销。细分客群(画像对象)通常以用户标识(ID)的方式存放,具体的,可以通过用户标识去关联全用户信息宽表,提取出全部的细分客群的行和列数据,全客户信息表中需要存放尽可能多的字段,力图包含客户多维度的信息。
上述非画像客群数据的获取,主要可以通过对除该画像客群数据以外的用户数据进行采样获得。具体的,可以对宽表中的全量数据剔除掉画像对象的数据后做无放回的均匀采样,采样数据的规模和画像客群数据规模保持相当。
在上述两个步骤的基础上将抽取出来的数据进行样本定义,具体规则即画像客群数据为正样本,非画像客群数据为负样本,并形成建模需要的第一画像数据集。
102、使用第一树模型对上述第一画像数据集进行二分类数据建模后,基于上述第一树模型中的特征变量确定客群间差异特征,将上述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段。
具体的,在定义好的第一画像数据集上可以使用自动化建模库进行二分类的数据建模,由于只是用于特征变量的提取不是对结果进行预测,因此对建模过程的精度要求可以不高。可选的,建模过程中使用决策树或者集成树模型,借助树模型的良好的可解释性,可以提取出相对重要的特征变量作为候选评估对象。
基于建模后的第一树模型,可以从中提取特征变量,添加到客群画像展示字段库,字段组别定义为客群间差异特征,即这类特征字段可称为客群间差异字段。
在一种可选的实施方式中,上述基于上述第一树模型中的特征变量确定客群间差异特征,包括:
21、提取上述第一树模型中处于前N个分类节点的第一候选特征变量,上述N为大于1的整数;
22、对上述第一候选特征变量进行组合,计算产生的每种特征变量组合的信息损失,每种上述特征变量组合至少包含一个特征变量;
23、保留上述信息损失最少且特征数量最少的第一特征变量组合,确定上述第一特征变量组合中的特征变量为上述客群间差异特征。
具体的,对于步骤21,提取重要的候选特征变量,可以根据需要设置上述个数N,例如N可以取3或5;建模后可以根据展示界面大小选择前N个重要的特征变量,决策树模型特征变量重要程度由分类节点的位置决定,即提取决策树模型的前N个分类节点。可选的,若使用集成树模型,能直接提供特征变量的重要程度,根据重要程度排序,选取N个即可。
由于展示界面的限制,需要通过科学的方法把相对最相关的、最重要的变量提取出来,本申请实施例中使用了信息损失量的方案来做特征变量组合的进一步的压缩和优化。即对第一候选特征变量进行组合,计算产生的每种特征变量组合的信息损失,保留其中信息损失最少且特征数量最少的特征变量组合,获得上述客群间差异特征。
进一步可选的,上述步骤22中计算产生的每种特征变量组合的信息损失,包括:
计算全部上述第一候选特征变量进行组合时的初始信息容量,计算上述产生的每种特征变量组合对应的信息容量;
基于上述初始信息容量和上述产生的每种特征变量组合对应的信息容量,计算获得上述每种特征变量组合的信息损失。
具体的,可以根据需要定义和使用信息容量的公式来计算信息容量和信息损失。举例来讲,可以使用下面的公式计算画像客群数据的信息容量:
其中,代表该画像客群数据的编码需要的最小字节数,Z代表画像客群数据,是个二维矩阵,是个大于0的标量值,代表要编码Z数据是,重构解码Z数据的最大误差值。是标签数据加工出来的一系列对角矩阵集合,矩阵对角数值为标识出客群的类别信息。函数为对角阵求迹操作,函数为求对数操作,函数为矩阵的行列式计算,中的T代表矩阵转置操作,j代表客群中的第j个类别。
即基于初始信息容量和产生的每种特征变量组合对应的信息容量作差,可以获得每种特征变量组合的信息损失。进而可以根据信息损失确定保留的客群间差异特征。
103、获取第二画像数据集,上述第二画像数据集通过对上述画像客群数据进行无监督聚类建模获得。
除了要了解细分客群和整体客群的差异点外也需要了解客群的内在的特点,细分客群一般可以再进行细粒度的划分微客群,该步骤主要是捕捉到细分客群内部的差异信息,提取出来,以充分洞察客群的内部结构。
本申请实施例中可以对画像客群数据做无监督聚类建模,获得第二画像数据集。其中模型算法可选取常见的聚类算法如:k-Means、DBSCAN、Hierarchical Clustering等,簇类的个数K可以根据需要设置,比如可以控制在2-10之间。
在一种实施方式中,上述步骤103,包括:
对上述画像客群数据做无监督聚类建模处理,获得聚类模型;
使用轮廓系数评估聚类模型,选择上述轮廓系数最大的分类模型对上述画像客群数据进行标签预测,获得上述画像客群数据对应的标签数据;
基于上述画像客群数据和上述标签数据生成上述第二画像数据集。
具体的,可以使用轮廓系数(Silhouette Coefficient)评估聚类模型,自动选择轮廓系数最大的分类模型对画像客群数据进行预测打标,客群的簇类即为标签数据。细分客群的全维度数据和分群的标签数据形成了后续建模需要的第二画像数据集。可以提取簇类中心点,计算出离簇类中心点最近的K个样本点,以做备用。通过上述步骤可以获得第二画像数据集,即包括待展示画像数据,以及聚类输出的标签数据。
104、使用第二树模型对上述第二画像数据集进行数据建模后,基于上述第二树模型中的特征变量确定客群内差异特征,将上述客群内差异特征添加到上述客群画像展示字段库,作为客群内差异字段。
具体的,在定义好的第二画像数据集上可以使用自动化建模库进行二分类或者多分类的数据建模,由于只是用于特征变量的提取不是对结果进行预测,因此对建模过程的精度要求可以不高。可选的,建模过程中使用决策树或者集成树模型,借助树模型的良好的可解释性,提取出相对重要的特征变量作为候选评估对象。
基于建模后的第二树模型,可以从中提取特征变量,添加到客群画像展示字段库,字段组别定义为客群内差异特征,即这类特征字段可称为客群内差异字段。该步骤104与上述步骤102类似。
在一种可选的实施方式中,上述基于上述第二树模型中的特征变量确定客群内差异特征,包括:
41、提取上述第二树模型中处于前M个分类节点的第二候选特征变量,上述M为大于1的整数;
42、对上述第二候选特征变量进行组合,计算产生的每种特征变量组合的信息损失,每种上述特征变量组合至少包含一个特征变量;
43、保留上述信息损失最少且特征数量最少的第二特征变量组合,确定上述第二特征变量组合中的特征变量为上述客群内差异特征。
其中,上述步骤41-步骤43可以参考图1所示实施例中步骤21-步骤23的具体描述,并且,信息损失的计算也可以使用相同的方法和公式,此处不再赘述。
105、根据上述客群画像字段库中的目标字段,生成并展示上述画像客群数据对应的客群画像,上述目标字段包括上述客群间差异字段和上述客群内差异字段。
本申请实施例中可以根据客群画像字段库中的字段使用常见统计描述客群特征和典型客户样例,在系统界面上进行展示。
在一种可选的实施方式中,上述步骤105包括:
针对上述客群画像字段库中的目标字段生成并展示上述画像客群数据的数据分布信息,上述数据分布信息包括数据的均值、最大值和/或最小值,上述数据分布信息通过图表展示。
在一种可选的实施方式中,上述客群画像字段库中的目标字段还包括常态展示字段;
在上述根据上述客群画像字段库中的目标字段,生成并展示上述画像客群数据对应的客群画像之前,上述方法还包括:
在上述客群画像字段库添加上述常态展示字段;
上述根据上述客群画像字段库中的目标字段,生成并展示上述画像客群数据对应的客群画像,包括:
根据上述客群间差异字段,生成并展示上述客群间差异特征的展示结果;
根据上述客群内差异字段,生成并展示上述客群内差异特征的展示结果;
根据上述常态展示字段,生成并展示上述画像客群数据对应的常态信息。
本申请实施例中还可以进行典型客户信息展示:即使用聚类模型产生的K个样本点来描述细分客群的局部信息,相关数据可通过表格方式展示。
为了更清楚地展示本申请实施例中方法的全流程,图2为本申请实施例中提供的另一种客群画像生成方法的流程示意图,如图2所示,该方法包括:
第一步,获取待展示客群画像的客群数据(画像客群数据);
第二步,采样非展示的客群数据(非画像客群数据),样本规模跟画像客群数据规模相当;
第三步,定义正负样本:画像客群为正样本,非画像客群为负样本,形成数据集A;
第四步,在定义好的数据集A上使用树模型进行二分类数据建模;
第五步,提取构造好树模型前3-5个重要的特征变量(前3-5个分类节点),并添加到客群画像展示字段库中,字段组别定义为客群间差异特征;
第六步,评估重要特征变量的可能组合,选取信息损失最少的一组特征变量组合保留;
第七步,对待展示客群画像的客群数据做无监督聚类建模,簇类的个数K选择2-10之间;
第八步,使用平均轮廓系数最大的聚类模型对聚类出来的各个客群打上客群类别标签,形成训练数据集B;
第九步,在定义好的数据集B上使用另外一个树模型进行数据建模;
第十步,提取树模型前3-5个重要的特征变量,并添加到客群画像展示字段库中,字段组别定义为客群内差异特征;
第十一步,评估重要特征变量的可能组合,选取信息损失最少的一组特征变量组合保留;
第十二步,剔除客群内差异特征和客群间差异特征重复的字段;
第十三步,在添加客群画像字段库添加固定的需要常态展示的字段;
第十四步,根据客群画像字段库的现有的字段使用常见统计描述客群特征和典型客户样例。
具体的,可以基于确定的字段展示画像客群数据的数据分布信息。举例来讲,可以参见图3所示的一种客群画像展示页面示意图。如图3所示,该页面中展示了金融机构针对90后宝妈的客群画像,其中分三个区域展示相关特征和信息:固定展示栏位、客群间特征展示和客群内特征展示。固定展示栏位中为根据画像客群数据生成的常态展示字段,包括客户数、平均月日均和月日均登录手机银行次数;客群间特征展示主要包括性别分布情况、价值贡献情况和年龄分布情况;客群内特征展示主要包括资金流向情况、客户分层情况和资金存留情况。其中,上述展示效果仅为示意,对于不同客群所展示的内容和形式可以不同,且展示的不同类别信息可以使用不同的图表展示,例如折线图、柱状图、圆饼图等,本申请实施例对此不作限制。本申请实施例中的客群画像生成方法可以应用于银行、证券等金融行业的客群精准化营销领域,也可以应用于其他需要进行客群画像分析的领域。
本申请通过获取第一画像数据集,上述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,画像客群数据与非画像客群数据的样本规模相同;使用第一树模型对上述画像数据集进行二分类数据建模后,基于上述第一树模型中的特征变量确定客群间差异特征,将上述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;获取第二画像数据集,上述第二画像数据集通过对上述画像客群数据进行无监督聚类建模获得;使用第二树模型对上述第二画像数据集进行数据建模后,基于上述第二树模型中的特征变量确定客群内差异特征,将上述客群内差异特征添加到上述客群画像展示字段库,作为客群内差异字段;根据上述客群画像字段库中的目标字段,生成并展示上述画像客群数据对应的客群画像,上述目标字段包括上述客群间差异字段和上述客群内差异字段,可以针对客群数据确定更匹配的客群画像字段,自动化生成和展示客户画像,输出的客群画像能更准确地反映出客群的特点。
金融机构在做客户营销的时候需要对客群进行细分,营销人员对于需要营销的细分客群往往了解不够深入,需要以其配套的客户画像来帮助营销人员快速的了解客群的特点,并针对客群的特点有针对性的使用营销手段和话术来开展营销活动。通常细分客群的筛选和客群画像的制作都依赖于数据分析的手工操作。本申请中借助数据建模技术,对数据分析人员筛选出来的客群进行数据建模,自动化的提取出客群的客群间差异性特征、客群内差异特征,最终合并上固定展示的特征,形成用来描述细分客群的特征库,最终通过图形界面或者导出的PPT或者图片的方式将客群的统计量信息传递给需要的营销人员,准确展示客群画像,最终提升精准营销的效果。
图4为本申请实施例提供的一种客群画像生成装置的结构示意图。如图4所示,该客群画像生成装置400包括:
获取模块410,用于获取第一画像数据集,上述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,上述画像客群数据与非画像客群数据的样本规模相同;
第一确定模块420,用于使用第一树模型对上述第一画像数据集进行二分类数据建模后,基于上述第一树模型中的特征变量确定客群间差异特征;
字段添加模块430,用于将上述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;
上述获取模块410还用于,获取第二画像数据集,上述第二画像数据集通过对上述画像客群数据进行无监督聚类建模获得;
第二确定模块440,用于使用第二树模型对上述第二画像数据集进行数据建模后,基于上述第二树模型中的特征变量确定客群内差异特征;
上述字段添加模块430还用于,将上述客群内差异特征添加到上述客群画像展示字段库,作为客群内差异字段;
展示模块450,用于根据上述客群画像字段库中的目标字段,生成并展示上述画像客群数据对应的客群画像,上述目标字段包括上述客群间差异字段和上述客群内差异字段。
根据本申请的一个实施例,图1所示实施例中的方法所涉及的各个步骤均可以是由图4所示的客群画像生成装置400中的各个模块执行的,此处不再赘述。
本申请实施例中的客群画像生成装置400,客群画像生成装置400可以获取第一画像数据集,上述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,上述画像客群数据与非画像客群数据的样本规模相同;使用第一树模型对上述画像数据集进行二分类数据建模后,基于上述第一树模型中的特征变量确定客群间差异特征,将上述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;获取第二画像数据集,上述第二画像数据集通过对上述画像客群数据进行无监督聚类建模获得;使用第二树模型对上述第二画像数据集进行数据建模后,基于上述第二树模型中的特征变量确定客群内差异特征,将上述客群内差异特征添加到上述客群画像展示字段库,作为客群内差异字段;根据上述客群画像字段库中的目标字段,生成并展示上述画像客群数据对应的客群画像,上述目标字段包括上述客群间差异字段和上述客群内差异字段,可以针对客群数据确定更匹配的客群画像字段,自动化生成和展示客户画像,输出的客群画像能更准确地反映出客群的特点。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种电子设备。请参见图5,该电子设备500至少包括处理器501、存储器502以及输入/输出单元503。上述处理器501可以为中央处理器(central processing unit,CPU),作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。
计算机存储介质可以存储在电子设备500的存储器502中,上述计算机存储介质用于存储计算机程序,上述计算机程序包括程序指令,上述处理器501可以执行上述存储器502存储的程序指令。本申请实施例中的预设的分类模型等也可以存储在上述存储器502中。
在一个实施例中,本申请实施例上述的电子设备500可以用于进行一系列的处理,包括如图1所示任一实施例中方法等等。
本申请实施例还提供了一种计算机存储介质(Memory),上述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括电子设备中的内置存储介质,当然也可以包括电子设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了电子设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器501加载并执行计算机存储介质中存放的一条或多条指令,以实现上述实施例中的相应步骤;具体实现中,计算机存储介质中的一条或多条指令可以由处理器501加载并执行图1中方法的任意步骤,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk ,SSD)等。
Claims (8)
1.一种客群画像生成方法,其特征在于,包括:
获取第一画像数据集,所述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,所述画像客群数据与所述非画像客群数据的样本规模相同;
使用第一树模型对所述第一画像数据集进行二分类数据建模后,基于所述第一树模型中的特征变量确定客群间差异特征,将所述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;
所述基于所述第一树模型中的特征变量确定客群间差异特征,包括:提取所述第一树模型中处于前N个分类节点的第一候选特征变量,所述N为大于1的整数;对所述第一候选特征变量进行组合,计算产生的每种特征变量组合的信息损失,每种所述特征变量组合至少包含一个特征变量;保留所述信息损失最少且特征数量最少的第一特征变量组合,确定所述第一特征变量组合中的特征变量为所述客群间差异特征;
获取第二画像数据集,所述第二画像数据集通过对所述画像客群数据进行无监督聚类建模获得;
使用第二树模型对所述第二画像数据集进行数据建模后,基于所述第二树模型中的特征变量确定客群内差异特征,将所述客群内差异特征添加到所述客群画像展示字段库,作为客群内差异字段;
所述基于所述第二树模型中的特征变量确定客群内差异特征,包括:提取所述第二树模型中处于前M个分类节点的第二候选特征变量,所述M为大于1的整数;对所述第二候选特征变量进行组合,计算产生的每种特征变量组合的信息损失,每种所述特征变量组合至少包含一个特征变量;保留所述信息损失最少且特征数量最少的第二特征变量组合,确定所述第二特征变量组合中的特征变量为所述客群内差异特征;
根据所述客群画像字段库中的目标字段,生成并展示所述画像客群数据对应的客群画像,所述目标字段包括所述客群间差异字段和所述客群内差异字段。
2.根据权利要求1所述的客群画像生成方法,其特征在于,所述计算产生的每种特征变量组合的信息损失,包括:
计算全部所述第一候选特征变量进行组合时的初始信息容量,计算所述产生的每种特征变量组合对应的信息容量;
基于所述初始信息容量和所述产生的每种特征变量组合对应的信息容量,计算获得所述每种特征变量组合的信息损失。
3.根据权利要求1所述的客群画像生成方法,其特征在于,所述获取第二画像数据集,包括:
对所述画像客群数据做无监督聚类建模处理,获得聚类模型;
使用轮廓系数评估聚类模型,选择所述轮廓系数最大的分类模型对所述画像客群数据进行标签预测,获得所述画像客群数据对应的标签数据;
基于所述画像客群数据和所述标签数据生成所述第二画像数据集。
4.根据权利要求1所述的客群画像生成方法,其特征在于,所述客群画像字段库中的目标字段还包括常态展示字段;
在所述根据所述客群画像字段库中的目标字段,生成并展示所述画像客群数据对应的客群画像之前,所述方法还包括:
在所述客群画像字段库添加所述常态展示字段;
所述根据所述客群画像字段库中的目标字段,生成并展示所述画像客群数据对应的客群画像,包括:
根据所述客群间差异字段,生成并展示所述客群间差异特征的展示结果;
根据所述客群内差异字段,生成并展示所述客群内差异特征的展示结果;
根据所述常态展示字段,生成并展示所述画像客群数据对应的常态信息。
5.根据权利要求1所述的客群画像生成方法,其特征在于,所述根据所述客群画像字段库中的目标字段,生成并展示所述画像客群数据对应的客群画像,包括:
针对所述客群画像字段库中的目标字段生成并展示所述画像客群数据的数据分布信息,所述数据分布信息包括数据的均值、最大值和/或最小值,所述数据分布信息通过图表展示。
6.一种客群画像生成装置,其特征在于,包括:
获取模块,用于获取第一画像数据集,所述第一画像数据集包括作为正样本的画像客群数据和作为负样本的非画像客群数据,所述画像客群数据与非画像客群数据的样本规模相同;
第一确定模块,用于使用第一树模型对所述第一画像数据集进行二分类数据建模后,基于所述第一树模型中的特征变量确定客群间差异特征;所述基于所述第一树模型中的特征变量确定客群间差异特征,包括:提取所述第一树模型中处于前N个分类节点的第一候选特征变量,所述N为大于1的整数;对所述第一候选特征变量进行组合,计算产生的每种特征变量组合的信息损失,每种所述特征变量组合至少包含一个特征变量;保留所述信息损失最少且特征数量最少的第一特征变量组合,确定所述第一特征变量组合中的特征变量为所述客群间差异特征;
字段添加模块,用于将所述客群间差异特征添加到客群画像展示字段库,作为客群间差异字段;
所述获取模块还用于,获取第二画像数据集,所述第二画像数据集通过对所述画像客群数据进行无监督聚类建模获得;
第二确定模块,用于使用第二树模型对所述第二画像数据集进行数据建模后,基于所述第二树模型中的特征变量确定客群内差异特征;所述基于所述第二树模型中的特征变量确定客群内差异特征,包括:提取所述第二树模型中处于前M个分类节点的第二候选特征变量,所述M为大于1的整数;对所述第二候选特征变量进行组合,计算产生的每种特征变量组合的信息损失,每种所述特征变量组合至少包含一个特征变量;保留所述信息损失最少且特征数量最少的第二特征变量组合,确定所述第二特征变量组合中的特征变量为所述客群内差异特征;
所述字段添加模块还用于,将所述客群内差异特征添加到所述客群画像展示字段库,作为客群内差异字段;
展示模块,用于根据所述客群画像字段库中的目标字段,生成并展示所述画像客群数据对应的客群画像,所述目标字段包括所述客群间差异字段和所述客群内差异字段。
7.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述的客群画像生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述的客群画像生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210115289.6A CN114139657B (zh) | 2022-02-07 | 2022-02-07 | 客群画像生成方法、装置、电子设备和储存介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210115289.6A CN114139657B (zh) | 2022-02-07 | 2022-02-07 | 客群画像生成方法、装置、电子设备和储存介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114139657A CN114139657A (zh) | 2022-03-04 |
CN114139657B true CN114139657B (zh) | 2022-04-26 |
Family
ID=80381905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210115289.6A Active CN114139657B (zh) | 2022-02-07 | 2022-02-07 | 客群画像生成方法、装置、电子设备和储存介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139657B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738527A (zh) * | 2019-10-17 | 2020-01-31 | 中国建设银行股份有限公司 | 一种特征重要性排序方法、装置、设备和存储介质 |
CN110807527A (zh) * | 2019-09-30 | 2020-02-18 | 北京淇瑀信息科技有限公司 | 一种基于客群筛选的额度调整方法、装置和电子设备 |
CN112396428A (zh) * | 2020-11-05 | 2021-02-23 | 北京易观智库网络科技有限公司 | 一种基于用户画像数据的客群分类管理方法及装置 |
-
2022
- 2022-02-07 CN CN202210115289.6A patent/CN114139657B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807527A (zh) * | 2019-09-30 | 2020-02-18 | 北京淇瑀信息科技有限公司 | 一种基于客群筛选的额度调整方法、装置和电子设备 |
CN110738527A (zh) * | 2019-10-17 | 2020-01-31 | 中国建设银行股份有限公司 | 一种特征重要性排序方法、装置、设备和存储介质 |
CN112396428A (zh) * | 2020-11-05 | 2021-02-23 | 北京易观智库网络科技有限公司 | 一种基于用户画像数据的客群分类管理方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于特征分析和标签提取的医生画像构建研究;唐晓波等;《情报科学》;20200501(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114139657A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6402265B2 (ja) | 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス | |
Tsiotas | Detecting different topologies immanent in scale-free networks with the same degree distribution | |
US20170200205A1 (en) | Method and system for analyzing user reviews | |
CA3066029A1 (en) | Image feature acquisition | |
Scheel et al. | The influence of missing value imputation on detection of differentially expressed genes from microarray data | |
CN111783039B (zh) | 风险确定方法、装置、计算机系统和存储介质 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN113095408A (zh) | 风险的确定方法、装置和服务器 | |
CN111950279A (zh) | 实体关系的处理方法、装置、设备及计算机可读存储介质 | |
Zhou et al. | Classifying fabric defects with evolving Inception v3 by improved L2, 1-norm regularized extreme learning machine | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN110276382A (zh) | 基于谱聚类的人群分类方法、装置及介质 | |
CN110717806A (zh) | 产品信息推送方法、装置、设备及存储介质 | |
CN113313538A (zh) | 用户消费能力预测方法、装置、电子设备和存储介质 | |
CN110362481A (zh) | 自动测试方法及终端设备 | |
CN112686312A (zh) | 一种数据分类方法、装置及系统 | |
CN109614982A (zh) | 产品分析方法、装置、计算机设备以及存储介质 | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN117522519A (zh) | 产品推荐方法、装置、设备、存储介质和程序产品 | |
CN114139657B (zh) | 客群画像生成方法、装置、电子设备和储存介质 | |
CN116894721A (zh) | 一种指标预测方法、装置、计算机设备 | |
CN112632275B (zh) | 基于个人文本信息的人群聚类数据处理方法、装置及设备 | |
McAllister et al. | Towards personalised training of machine learning algorithms for food image classification using a smartphone camera | |
CN113052512A (zh) | 风险预测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |