CN111582912B - 一种基于深度嵌入聚类算法的画像建模方法 - Google Patents

一种基于深度嵌入聚类算法的画像建模方法 Download PDF

Info

Publication number
CN111582912B
CN111582912B CN202010313899.8A CN202010313899A CN111582912B CN 111582912 B CN111582912 B CN 111582912B CN 202010313899 A CN202010313899 A CN 202010313899A CN 111582912 B CN111582912 B CN 111582912B
Authority
CN
China
Prior art keywords
commodity
user
portrait
clustering algorithm
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010313899.8A
Other languages
English (en)
Other versions
CN111582912A (zh
Inventor
陈锐
张彩霞
袁国文
李纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan University
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN202010313899.8A priority Critical patent/CN111582912B/zh
Publication of CN111582912A publication Critical patent/CN111582912A/zh
Application granted granted Critical
Publication of CN111582912B publication Critical patent/CN111582912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明公开一种基于深度嵌入聚类算法的画像建模方法,包括:采集用户信息和商品信息进行聚类得到用户画像和商品画像,进行关联分析得到数据进行神经网络训练得到预测模型和预测结果;本发明针对用户基本信息和商品基本信息,应用深度聚类算法来来客户群体进行画像建模、聚类,能够处理复杂的数据,得到形象较为具体化的客户画像,增强用户体验;本发明可用于客户画像的建立。

Description

一种基于深度嵌入聚类算法的画像建模方法
技术领域
本发明涉及基于算法的画像建模技术领域,尤其涉及一种基于深度嵌入聚类算法的画像建模方法。
背景技术
随着电子商务近年来的不断进步和完善,商品趋于多样化而竞争趋于激烈化。要想有效保留客户、防止客户流失、提高电子商务系统的销售能力,就要提高电子商务系统的个性化,让每一个客户都觉得这个网站是为自己量身定制的。客户画像最初也是在电子商务领域得到应用的,在大数据时代背景下,客户信息充斥在网络中,将客户的每个具体信息抽象成标签,利用这些标签将客户形象具体化,从而为客户提供有针对性的服务。
聚类分析在电子商务中网站建设数据挖掘中是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。然而传统的聚类分析算法(如k-means算法)没办法处理维度较高的复杂数据(如图像数据),无法得到形象较为具体化的客户画像。
发明内容
本发明的目的在于提出一种基于深度嵌入聚类算法的画像建模方法,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
为解决上述技术问题所采用的技术方案:一种基于深度嵌入聚类算法的画像建模方法,所述方法包括以下步骤:
S100、采集用户基本信息,采集商品基本信息,包括商品属性;通过深度嵌入聚类算法分别对用户基本信息和商品基本信息进行聚类,得到用户画像和商品画像;
S200、将用户画像和商品画像进行关联分析得到总样本,总样本分为独立的两部分:训练集和验证集,训练集占样本的75%,验证集占样本的25%;
S300、将训练集的数据输入到神经网络进行训练,得到神经网络预测模型模型;将验证集的数据输入到神经网络预测模型进行预测,得到预测结果;
S400、分析预测结果,通过深度学习算法优化神经网络预测模型;保存神经网络预测模型。
作为以上技术方案的进一步改进,步骤S100中,深入嵌入聚类算法具体为:
S101、使用去噪自编码器进行逐层贪婪训练;
S102、将去噪自编码器的编码层按顺序连接、解码层按逆序连接,形成一个栈式自编码器,对网络参数进行微调;
S103、保留栈式自编码器的编码层,移除解码层,在潜在特征空间使用K均值聚类算法对聚类质心进行初始化;
S104、使用KL散度进行迭代,调节网络参数,直到满足收敛判定准则;
其中,深入嵌入聚类算法的过程满足下式:
Figure BDA0002458759010000031
其中,qij表示原始空间xi经过非线性映射到潜在特征空间的嵌入点zj和聚类质心uj的相似性,也即拟合分布Q的表示,a表示学生t分布的自由度,通常取值为1,qij表达了样本xi属于类簇uj的概率;
目标分布P由拟合分布Q来定义,
Figure BDA0002458759010000032
拟合分布Q和目标分布P之间的KL散度为,
Figure BDA0002458759010000033
作为以上技术方案的进一步改进,步骤S100中,所述用户基本信息包括:客户id、客户人像、购买商品记录、商品收藏记录、商品浏览记录、用户社会属性;所述用户社会属性包括:用户年龄、用户收入和用户信用评级。
作为以上技术方案的进一步改进,步骤S100中,所述商品基本信息包括商品属性;所述商品属性包括:商品类别、商品名称、商品价格和商品的联动性。
作为以上技术方案的进一步改进,步骤S400中,通过深度学习算法优化神经网络预测模型具体为:通过Batch-size和Learning-rate深度学习算法对神经网络模型进行优化。
本发明的有益效果:本发明针对用户基本信息和商品基本信息,应用深度聚类算法来来客户群体进行画像建模、聚类,能够处理复杂的数据,得到形象较为具体化的客户画像,增强用户体验。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明提供的一种基于深度嵌入聚类算法的画像建模方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
请参照图1,一种基于深度嵌入聚类算法的画像建模方法,所述方法包括以下步骤:
S100、采集用户基本信息,采集商品基本信息,包括商品属性;通过深度嵌入聚类算法分别对用户基本信息和商品基本信息进行聚类,得到用户画像和商品画像;
优选地,所述用户基本信息包括:客户id、客户人像、购买商品记录、商品收藏记录、商品浏览记录、用户社会属性;所述用户社会属性包括:用户年龄、用户收入和用户信用评级。
优选地,所述商品基本信息包括商品属性;所述商品属性包括:商品类别、商品名称、商品价格和商品的联动性。
优选地,用随机梯度下降算法学习映射,通过深度神经网络对映射进行参数化来实现深度嵌入聚类。
具体地,深入嵌入聚类算法具体为:
S101、使用去噪自编码器进行逐层贪婪训练;
S102、将去噪自编码器的编码层按顺序连接、解码层按逆序连接,形成一个栈式自编码器,对网络参数进行微调;
S103、保留栈式自编码器的编码层,移除解码层,在潜在特征空间使用K均值聚类算法对聚类质心进行初始化;
S104、使用KL散度进行迭代,调节网络参数,直到满足收敛判定准则;
其中,深入嵌入聚类算法的过程满足下式:
Figure BDA0002458759010000061
其中,qij表示原始空间xi经过非线性映射到潜在特征空间的嵌入点zj和聚类质心uj的相似性,也即拟合分布Q的表示,a表示学生t分布的自由度,通常取值为1,qij表达了样本xi属于类簇uj的概率;
目标分布P由拟合分布Q来定义,
Figure BDA0002458759010000062
拟合分布Q和目标分布P之间的KL散度为,
Figure BDA0002458759010000063
S200、将用户画像和商品画像进行关联分析得到总样本,总样本分为独立的两部分:训练集和验证集,训练集占样本的75%,验证集占样本的25%;
优选地,采用FP-growth算法对用户画像和商品画像进行关联分析。
S300、将训练集的数据输入到神经网络进行训练,得到神经网络预测模型模型;将验证集的数据输入到神经网络预测模型进行预测,得到预测结果;
将训练集的数据输入到神经网络进行训练,得到神经网络预测模型模型具体为:
clear;clc;
x=-1:0.1:1;
y=-1:0.1:1;
P=[x',y']';%输入向量
T=x.*x+y.*y%目标向量
net=newff(P,T,10);%建立一个三层BP网络,隐层神经元数量为10
net.divideFcn=”%数据全部用来训练
net.trainParam.show=20;
net.trainParam.epochs=200;%训练次数
net.trainParam.goal=0.000001;%性能指数
net.trainParam.min_grad=1e-10;%最小梯度
net=train(net,P,T);
C=sim(net,P)%仿真网络
E=T-C%误差。
S400、分析预测结果,通过深度学习算法优化神经网络预测模型;保存神经网络预测模型。
优选地,通过深度学习算法优化神经网络预测模型具体为:通过Batch-size和Learning-rate深度学习算法对神经网络模型进行优化。
Batch就是每次送入网络中训练的一部分数据,而Batch Size就是每个batch中训练样本的数量。为了在内存效率和内存容量之间寻求最佳平衡,Batch size应该精心设置,从而最优化网络模型的性能及速度。
学习率(Learning rate)作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。
通过调整学习率来优化参数的方法有多种,本实施例采用指数减缓(exponentialdecay)。对于深度学习来说,学习率按训练轮数增长指数差值递减。指数减缓公式为:
α=0.95epoch_num*α0;
其中epoch_num为当前epoch的迭代轮数。
本发明针对用户基本信息和商品基本信息,应用深度聚类算法来来客户群体进行画像建模、聚类,能够处理复杂的数据,得到形象较为具体化的客户画像,增强用户体验。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种基于深度嵌入聚类算法的画像建模方法,其特征在于:所述方法包括以下步骤:
S100、采集用户基本信息,采集商品基本信息,包括商品属性;通过深度嵌入聚类算法分别对用户基本信息和商品基本信息进行聚类,得到用户画像和商品画像;
S200、将用户画像和商品画像进行关联分析得到总样本,总样本分为独立的两部分:训练集和验证集,训练集占样本的75%,验证集占样本的25%;
S300、将训练集的数据输入到神经网络进行训练,得到神经网络预测模型模型;将验证集的数据输入到神经网络预测模型进行预测,得到预测结果;
S400、分析预测结果,通过深度学习算法优化神经网络预测模型;保存神经网络预测模型;
步骤S100中,深入嵌入聚类算法具体为:
S101、使用去噪自编码器进行逐层贪婪训练;
S102、将去噪自编码器的编码层按顺序连接、解码层按逆序连接,形成一个栈式自编码器,对网络参数进行微调;
S103、保留栈式自编码器的编码层,移除解码层,在潜在特征空间使用K均值聚类算法对聚类质心进行初始化;
S104、使用KL散度进行迭代,调节网络参数,直到满足收敛判定准则;
其中,深入嵌入聚类算法的过程满足下式:
其中,表示原始空间经过非线性映射到潜在特征空间的嵌入点和聚类质心的相似性,也即拟合分布Q的表示,a表示学生t分布的自由度,取值为1,表达了样本属于类簇的概率;目标分布P由拟合分布Q来定义,
拟合分布Q和目标分布P之间的KL散度为,
2.根据权利要求1所述的一种基于深度嵌入聚类算法的画像建模方法,其特征在于:步骤S100中,所述用户基本信息包括:客户id、客户人像、购买商品记录、商品收藏记录、商品浏览记录、用户社会属性;所述用户社会属性包括:用户年龄、用户收入和用户信用评级。
3.根据权利要求1所述的一种基于深度嵌入聚类算法的画像建模方法,其特征在于:步骤S100中,所述商品基本信息包括商品属性;所述商品属性包括:商品类别、商品名称、商品价格和商品的联动性。
4.根据权利要求1所述的一种基于深度嵌入聚类算法的画像建模方法,其特征在于:步骤S400中,通过深度学习算法优化神经网络预测模型具体为:通过Batch-size和Learning-rate深度学习算法对神经网络模型进行优化。
CN202010313899.8A 2020-04-20 2020-04-20 一种基于深度嵌入聚类算法的画像建模方法 Active CN111582912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010313899.8A CN111582912B (zh) 2020-04-20 2020-04-20 一种基于深度嵌入聚类算法的画像建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010313899.8A CN111582912B (zh) 2020-04-20 2020-04-20 一种基于深度嵌入聚类算法的画像建模方法

Publications (2)

Publication Number Publication Date
CN111582912A CN111582912A (zh) 2020-08-25
CN111582912B true CN111582912B (zh) 2023-04-25

Family

ID=72120646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010313899.8A Active CN111582912B (zh) 2020-04-20 2020-04-20 一种基于深度嵌入聚类算法的画像建模方法

Country Status (1)

Country Link
CN (1) CN111582912B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819540A (zh) * 2021-02-08 2021-05-18 佛山科学技术学院 预测售货机商品销量方法及装置、计算机可读存储介质
CN112862530A (zh) * 2021-02-09 2021-05-28 江之龙 一种基于大数据的营销系统
CN117273246B (zh) * 2023-11-23 2024-02-06 湖南小翅科技有限公司 一种基于ai的智能排班大数据预测系统与方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447098A (zh) * 2018-08-27 2019-03-08 西北大学 一种基于深度语义嵌入的图像聚类算法
CN109670277A (zh) * 2019-02-19 2019-04-23 南京邮电大学 一种基于多模态数据融合与多模型集成的旅行时间预测方法
CN110020426A (zh) * 2019-01-21 2019-07-16 阿里巴巴集团控股有限公司 将用户咨询分配到客服业务组的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447098A (zh) * 2018-08-27 2019-03-08 西北大学 一种基于深度语义嵌入的图像聚类算法
CN110020426A (zh) * 2019-01-21 2019-07-16 阿里巴巴集团控股有限公司 将用户咨询分配到客服业务组的方法及装置
CN109670277A (zh) * 2019-02-19 2019-04-23 南京邮电大学 一种基于多模态数据融合与多模型集成的旅行时间预测方法

Also Published As

Publication number Publication date
CN111582912A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111582912B (zh) 一种基于深度嵌入聚类算法的画像建模方法
CN110659744B (zh) 训练事件预测模型、评估操作事件的方法及装置
AU2016272732B2 (en) Discovering population structure from patterns of identity-by-descent
CN110516910A (zh) 基于大数据的保单核保模型训练方法和核保风险评估方法
CN107146089A (zh) 一种刷单识别方法及装置,电子设备
CN108550065B (zh) 评论数据处理方法、装置及设备
CN108985929A (zh) 训练方法、业务数据分类处理方法及装置、电子设备
CN113742492B (zh) 保险方案生成方法、装置、电子设备及存储介质
CN109903095A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN112364937A (zh) 用户类别确定方法及装置、推荐内容确定方法、电子设备
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
CN116402625B (zh) 客户评估方法、装置、计算机设备及存储介质
CN108629381A (zh) 基于大数据的人群筛选方法及终端设备
CN117557331A (zh) 一种产品推荐方法、装置、计算机设备及存储介质
CN110134861B (zh) 一种基于项目类别和用户偏好的推荐方法
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN110992111A (zh) 基于大数据的投保人用户画像挖掘方法
CN117194966A (zh) 对象分类模型的训练方法和相关装置
CN113033090B (zh) 推送模型训练方法、数据推送方法、装置及存储介质
CN113781247A (zh) 协议数据推荐方法、装置、计算机设备及存储介质
CN113627997A (zh) 数据处理方法、装置、电子设备及存储介质
CN110837894B (zh) 一种特征处理方法、装置及存储介质
CN113052692A (zh) 数据处理的方法、装置、电子设备及计算机可读存储介质
CN111984842A (zh) 银行客户数据处理方法及装置
CN112184431A (zh) 用户风险确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant