CN114840766A - 一种用户画像构建方法、系统、设备及存储介质 - Google Patents
一种用户画像构建方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN114840766A CN114840766A CN202210582910.XA CN202210582910A CN114840766A CN 114840766 A CN114840766 A CN 114840766A CN 202210582910 A CN202210582910 A CN 202210582910A CN 114840766 A CN114840766 A CN 114840766A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- users
- clustering
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户画像构建方法、系统、设备及存储介质,S1,获取用户数据;S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。可以将虚假用户有效删除,提高数据的真实性,构建出精准实时的用户画像模型。
Description
技术领域
本发明属于推荐算法领域,涉及一种用户画像构建方法、系统、设备及存储介质。
背景技术
“交互设计之父”Alan Cooper提出了用户画像的概念,Alan Cooper认为用户画像是真实用户的虚拟表示,是建立在一系列真实属性数据之上的目标用户模型。用户画像是根据大量用户的真实信息构建用户标签体系,将用户的基础数据、行为数据和兴趣进行特征化处理进而形成虚拟的用户模型,会将一个真实的用户全面、动态的表示出来。用户画像在推荐系统中起着至关重要的作用,一个优秀的用户画像会大大提升推荐系统的推荐效率。用户画像可分为以下四种流派:
(1)用户画像行为流派
用户画像行为流派根据用户的真实行为数据构建用户画像模型。用户行为数据是指用户在操作某网站时留下来的行为痕迹,比如用户在某电商网站中浏览、点击、加购物车和购买等行为表现。用户画像行为流派通过用户的与系统交互作用时所表现出来的行为数据构建用户画像模型,主要对用户行为数据进行研究。
国外的研究主要有:Adomavicius等人通过对用户阅读时间和点击率等行为进行构建了用户画像模型,该模型可以有效的分析到用户的行为特征。Svendsen等人认为性格和接受技术程度有很大关系,以性格和接受技术程度作为行为特征构建用户画像模型,该模型可以明显的发现技术接受程度与人的性格之间的关系,发现性格比较内向的人接受技术程度不高,而越外向的人接受技术的程度越高,该模型也可以有效的分析到用户的行为特征。
国内代表性的研究主要有:何胜等人利用图书馆用户日志数据,从用户的点击、浏览、搜索等行为分析用户的兴趣爱好,可以发现用户的显性兴趣和隐性需求。郑鑫等人利用从网页爬虫CSDN的用户数据,使用用户的交互行为数据构建用户画像模型,并开发了可视化平台,将用户画像模型嵌入可视化平台当中,通过该平台可以为企业招聘提供帮助。
(2)用户画像社交媒体流派
网络是一个虚拟性的世界,人们通过网络在社交媒体中进行交流、评论、点赞、转发等行为,社交媒体改变了人与人之间交流的方式,也改变了获取信息的方式,人们在社交媒体上可以构建虚拟的社会关系。社交媒体产生的数据很庞大,在社交媒体数据中挖掘有用的信息非常有价值,所以社交媒体用户画像模型研究也是十分火热。
徐海玲等人使用爬虫软件爬取了豆瓣电影数据,通过分析电影数据、用户基础数据和用户评论数据构建了用户画像组合模型,将豆瓣电影的内部数据和除豆瓣电影的其他电影平台数据进行跨平台数据匹配与聚合,从而提供个性化推荐。赵曙光等人为了保证用户的多样化,随机对五百名用户进行采访,对用户的动机和行为进行分析,对社交互动活跃度、兴趣享乐信息关注取向、行业资讯关注取向、新闻资讯关注取向和自我表达积极性这五个特征进行提取,提高了社交媒体营销效果。
(3)用户画像兴趣流派
用户画像兴趣流派是根据用户的兴趣爱好、需求、偏好和心理状态等数据构建用户画像模型。国外代表性的研究成果主要有:Li等人使用主题聚类对用户进行标签化,将人以类聚标注这一类人的兴趣实现用户画像的构建。国内代表性的研究成果主要有:吴树芳等人利用微博用户的数据,借鉴生命周期理论对用户兴趣构建函数,使用用户基础数据和兴趣转移的动态标签相结合构建出基于动态的兴趣用户画像模型。唐晓波等人也是利用微博数据,对用户历史微博进行聚类,结合用户的行为特征和交互特征构建用户画像模型。王庆等人利用图书馆馆藏资源数据,收集了用户的浏览日志,通过分析用户的浏览日志构建了单用户和多用户兴趣用户画像模型;
(4)基于本体的用户画像流派
基于本体的用户画像模型利用本体中定义的结构化概念及其之间关系来刻画用户。国外代表性的研究有:Razmerita等人利用基于本体的用户画像架构对知识管理领域的用户进行研究,并提出来了基于知识管理的移动用户画像模型;Hawalah等人为了提升用户体验,参考本体的概念,将用户兴趣和不同的浏览行为映射到参考本体,将用户的兴趣爱好保存在系统配置文件中,并实时的对用户的行为进行反馈。国内代表性的研究有:陆素梅等人对数字图书馆的数字知识进行领域本体分析与概念聚合,将数字图书馆中稀疏的数据进行规整化,构建基于本体数字图书馆的用户画像模型。
综上可知,用户画像目前存在以下几点问题:第一,目前用户画像构建依赖人工设计特征标签,难以快速的对用户进行分类和聚类,耗时费力。第二,用户画像主要根据用户和项目的显性数据进行标签化设计,所用机器学习和深度学习技术比较少,难以获取用户和项目的深层含义,而机器学习和深度学习可以获取深层次隐形数据,可以得到用户和项目更好的表征;第三,由于虚拟网络世界和现实世界不同,有些用户会在虚拟网络中创建出一个与现实生活中的自己完全不同的虚拟形象,因此研究者需要严格辨别用户数据的真实性。这对于企业来说是很大的资源浪费。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种用户画像构建方法、系统、设备及存储介质,可以将虚假用户有效删除,提高数据的真实性,构建出精准实时的用户画像模型。
为达到上述目的,本发明采用以下技术方案予以实现:
一种用户画像构建方法,包括以下过程:
S1,获取用户数据;
S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;
S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;
S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;
S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
优选的,S1中,用户数据包括用户基本数据、用户行为数据和物品属性数据。
进一步,用户基本数据为用户的基本信息;用户行为数据为用户的订单信息;物品属性数据为该订单所属物品的信息。
优选的,S1结束进入S2之前,对用户数据进行清洗和过滤。
优选的,S1结束进入S2之前,对用户数据进行关键词的特征提取。
优选的,S3中聚类分析的具体过程为:
(1)在嵌入词向量中随机取k个用户,作为k个初始聚类中心用户u=u1,u2,u3,...uk,;
(2)对于嵌入词向量中的除了聚类中心用户u的每一个用户xi,分别计算xi到k个初始聚类用户u的欧氏距离,将距离小于阈值的xi分给相应的聚类中心u中;
(3)对每一个聚类中心重新计算中心用户u,根据新的聚类中心用户使用步骤(2)重新聚类;
(4)重复步骤(2)和步骤(3),直到新的聚类中心用户和旧的聚类中心用户相同就结束循环,得到聚类结果。
优选的,S4的具体过程为:
(1)将嵌入词向量作为KNN模型的输入,计算匿名用户与KNN模型中所有用户之间的余弦相似度;
(2)通过交叉验证选取在KNN模型中测试集上失误最少的K值,然后确定K值,找出匿名用户与训练集中的相似度最大k个用户数据;
(3)分别计算匿名用户属于每个类别的权重W;
(4)将拥有最大权重的类别标签赋予该匿名用户;
(5)确定将所有的匿名用户全部分类,将所有的匿名用户分类结果标签和所有用户的标签汇总,得到所有用户的标签。
一种用户画像构建方法,包括以下过程:
用户数据获取模块,用于获取用户数据;
词嵌入处理模块,用于采用词嵌入模型对用户数据进行处理,得到嵌入词向量;
聚类分析模块,用于使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;
标签获取模块,用于使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;
画像构建模块,用于根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述用户画像构建方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述用户画像构建方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明针对传统用户画像构建十分依赖人工设计问题,使用Kmeans对用户进行聚类分析,运用KNN对用户进行分类分析,可以快速的对用户进行分类和聚类。针对难以获取用户和项目的深层含义等问题,使用word2vec构建词嵌入模型,对数据进行词嵌入,可以获取用户和项目的潜在信息。提出基于数据挖掘和机器学习技术的用户画像构建方法。使用数据挖掘技术对数据进行预处理,使用Kmeans对用户进行聚类分析,运用KNN对用户进行分类分析;针对辨别用户数据的真实性问题,使用数据挖掘技术对数据进行预处理,可以将虚假用户有效删除,提高数据的真实性,丰富用户画像,构建出精准实时的用户画像模型。
附图说明
图1为本发明的用户画像构件流程图;
图2为本发明的Kmeans算法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示,为了建立更全面、准确的用户画像,本发明提出基于WKK的用户画像构建方法,在构建用户画像时,首先获取用户数据建立原始数据库,包括用户基本数据、用户行为数据和物品属性数据,将原始数据库的数据进行数据清洗、过滤去停用词、结构化、标准化等数据预处理操作。然后使用数据挖掘,关键词提取、词嵌入、分类和聚类实现数据的向量化和特征提取。将聚类和分类后的标签和特征作为多粒度添加到用户画像数据库中作为用户和项目的补充信息。
本实施例中用户基本数据包括用户的基本属性特征分别是用户的姓名、昵称、年龄、性别、城市和学校等。如表1所示。
表1用户基本数据
如表2所示,用户行为数据包括用户的订单详细信息、订单的标识、订单状态和接单状态等数据。
表2用户行为数据
属性 | 含义 | 类型 |
_id | 订单唯一标识 | String |
_openid | 用户在小程序唯一标识 | String |
name | 姓名 | String |
time | 订单创建时间 | Data |
jiedan | 接单情况 | String |
address | 用户的地址 | String |
number | 购买数量 | Number |
order | 订单详情 | Array |
order_id | 订单id | String |
payment_status | 支付状态 | String |
price | 价格 | String |
school | 学校 | String |
beizhu | 备注 | String |
如表3所示,物品属性数据包括该订单所属物品的物品名称、物品类别、物品描述、物品价格和售卖数量等数据。
表3物品属性数据
Step1:在互联网应用中由于各种原因存在数据不完整、缺省、重复和格式错误的问题。这些问题会严重影响用户画像的建模,只有完整性、时效性、一致性、可信性和真实性的数据才能更好的进行用户画像建模。
首先检查用户数据是否完整,有无缺失值,有的话进行缺失值填充处理。其次去除掉特殊值和特殊用户避免产生矩阵稀疏问题。最后对文本进行分词处理,由于用户的基础属性信息和交互信息一般包括汉字、英文和数字组成。由于中文的结构特点,中文文本是由词语组合而成的,没有天然的空格符,要让机器理解文本的意思就需要先将文本做分词处理。所以在清洗掉中文文本中的无关信息后,紧接着就要对文本进行分词处理。本文使用jieba分词库对文本信息进行分词处理,jieba是一个开源的分词库,本文选用全模式对训练集和测试集数据进行分词,全模式的特点是切词粒度更精细,把可能的词都显示出来,可以更好的涵盖文本的语义信息,非常适合本文的用户画像构建任务。
Step2:文本分析任务中最常做的工作是停用词处理,停用词是没有实际含义的一类词,常见的停用词有“哈”“得”“呀”“而且”“不仅”“看来”等等。为了提高模型的准确率,在数据集中分词后需要去掉这些噪声词。
为了尽可能地将关键词提取出来,减小矩阵稀疏,增加向量的可读性,从而更准确的把握用户偏好,本文根据拟开发原型系统的特点,构建了自定义词库StopWord.txt与四川大学机器智能实验室使用的停用词表结合,对文本分词结果进行过滤。
Step3:由于大部分数据集数据量十分庞大,里面包括大量冗余数据,导致数据稀疏,耗费算法性能,训练结果不理想。特征提取是将原始数据集的高维特征映射到低维特征空间当中,将冗余信息去除,提高数据集质量,低维特征有利于算法的输入;同时将原始数据集的特征进行重新组合,以便提高算法性能。
Step4:本文使用Word2vec的CBOW建立模型,通过模型获取嵌入词向量。词向量维度设置120维,上下文窗口设置8,词向量训练迭代的次数为20,采用负采样优化机制,采用梯度上升进行优化,通过训练得到词向量。具体参数如表4所示:
表4 Word2vec参数表
参数 | 值 |
Size | 120 |
Window | 8 |
alpha | 0.025 |
seed | 1 |
min_count | 5 |
workers | 3 |
cbow_mean | 1 |
iter | 20 |
batch_words | 10000 |
Step5:用户画像的构建需要考虑两种情况,第一种情况是有明显的分类标准,例如根据用户的基础数据中的年龄、性别和城市等可以直接获取到的属性类别将用户分群。第二种情况是没有明显的分类标准,没有办法直接找到影响分类的关键属性,而且分类规则是完全不知道的,比如用户对系统的使用频率和用户的购买转化率等无法直接的得到信息。但是用户群体之间存在着潜在的联系,当无法定义分类规则时就可以使用无监督学习的聚类算法来分析。本文使用Kmeans聚类算法对用户进行聚类分析,该算法的工作流程如图2所示。对用户进行聚类的具体步骤如下:
(1)在用户数据集中随机取k个用户,作为k个初始聚类中心用户u=u1,u2,u3,...uk,;
(2)对于数据集中的除了聚类中心用户u的每一个用户xi,分别计算xi到k个初始聚类用户u的欧氏距离,将距离小于阈值的xi分给相应的聚类中心u中;
(3)对每一个聚类中心重新计算中心用户u,根据新的聚类中心用户使用第二步重新聚类;重新计算聚类中心公示如3-1所示:
Uk为k个类簇的类簇中心,Ci表示第k个簇,|Ci|表示第k个簇中数据对象的个数。
(4)重复步骤2和步骤3,直到新的聚类中心用户和旧的聚类中心用户相同就结束循环;
(5)将最终的聚类结果作为辅助信息添加到用户基础资源库中;
Step6:由于在很多系统中存在匿名用户,匿名用户是指使用该系统的时候未使用真实的个人信息或者使用虚假的个人信息,无法直接判定该用户属于哪一类。所以使用KNN分类给匿名用户打相应的标签,首先根据用户基本数据的性别、注册城市、年龄和学校等特征对用户进行建模。其次将匿名用户作为输入数据,得到的标签添加到该用户的特征向量中。最后将分类的标签作为辅助信息输出到用户基础资源库相应的用户特征向量中。对用户进行KNN分类具体步骤如下:
(1)将用户基础数据作为KNN的输入,计算匿名用户与训练好的模型中所有用户之间的余弦相似度,余弦夹角公式3-2所示:
Sim(d1,d2)表示为为w1与w2的余弦相似度,w为用户的特征向量。
(2)通过交叉验证选取在测试集上失误最少的K值,然后确定K值,找出匿名用户与训练集中的相似度最大k个用户数据。
(3)分别计算匿名用户属于每个类别的权重W,权重计算公式如3-3所示:
W(dj,cq)表示匿名用户所属类别权重,di表示已知标签用户,dj表示该匿名用户,cq表示类别。
(4)将拥有最大权重的类别标签赋予该匿名用户。
(5)确定将所有的匿名用户全部分类,将所有的匿名用户分类结果标签和所有用户的标签作为辅助信息分别输出到用户基础资源库相应的用户特征向量中。
最终将Kmeans聚类与KNN分类的结果作为辅助信息输入到用户基础资源库和物品基础资源库中,生成用户画像的数据资源库,最终根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
为了评估提出基于机器学习的用户画像构建方法性能,将用户画像嵌入SMGNN-CF推荐算法模型,通过消融实验来测试用户画像模型对SMGNN-CF模型推荐效果的影响,验证该模型的有效性。
本实验在“考拉校园派”数据集上进行试验,用户画像WKK模型对SMGNN-CF模型的影响,实验结果如表5所示。
表5消融实验对模型的影响
Method | P@20 | MRR@20 |
SMGNN-CF | 56.19 | 26.14 |
SMGNN-CF+WKK | 64.78 | 28.36 |
由表5可以看出模型加上用户画像(WKK)模型后推荐准确率提升了8%,将使用数据挖掘和机器学习的用户画像模型应用在推荐模型的推荐准确率和推荐效果有所提升,证明了本文提出的用户画像模型在推荐系统中的有效性。
本用户画像构建方法克服了以下几点问题。第一,使用数据挖掘技术对数据进行预处理,使用Kmeans对用户进行聚类分析,运用KNN对用户进行分类分析。该方法不依赖人工设计特征标签,可以快速的对用户进行分类和聚类,耗时费力。第二,使用机器学习技术可以获取用户和项目的深层含义,可以获取深层次隐形数据,可以得到用户和项目更好的表征;第三,通过数据挖掘技术进行预处理,将虚假信息和噪声信息删除,提高用户数据的真实性。
本方法可以应用到各大电商网站、音乐视频网站和社交网络的用户画像构建中。用来刻画用户个体或者用户群体全方位的特征,为运营分析人员提供用户的偏好、行为等信息进而优化运营策略;为产品提供准确的用户角色信息以便进行针对性的产品设计,完善产品运营,提升服务质量;进行精准营销,分析产品潜在用户,针对特定群体利用短信邮件等方式进行营销。精准直邮、短信、App消息推送、个性化广告等,更好的服务用户;为用户提供对应的个性化服务方式,将服务资源定向营销至合适的用户,提高用户的留存率。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
本发明再一个实施例中,提供了一种用户画像构建系统,该用户画像构建系统可以用于实现上述用户画像构建方法,具体的,该用户画像构建系统包括用户数据获取模块、词嵌入处理模块、聚类分析模块、标签获取模块以及画像构建模模块。
其中,用户数据获取模块用于获取用户数据。
词嵌入处理模块用于采用词嵌入模型对用户数据进行处理,得到嵌入词向量。
聚类分析模块用于使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果。
标签获取模块用于使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签。
画像构建模块用于根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于用户画像构建方法的操作,包括:S1,获取用户数据;S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
再一个实施例中,本发明还提供了一种计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关用户画像构建方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:S1,获取用户数据;S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施例和许多应用对本领域技术人员来说都将是显而易见的。因此,本教导的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。出于全面之目的,所有文章和参考包括专利申请和公告的公开都通过参考结合在本文中。在前述权利要求中省略这里公开的主题的任何方面并不是为了放弃该主题内容,也不应该认为申请人没有将该主题考虑为所公开的发明主题的一部分。
Claims (10)
1.一种用户画像构建方法,其特征在于,包括以下过程:
S1,获取用户数据;
S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;
S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;
S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;
S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
2.根据权利要求1所述的用户画像构建方法,其特征在于,S1中,用户数据包括用户基本数据、用户行为数据和物品属性数据。
3.根据权利要求2所述的用户画像构建方法,其特征在于,用户基本数据为用户的基本信息;用户行为数据为用户的订单信息;物品属性数据为该订单所属物品的信息。
4.根据权利要求1所述的用户画像构建方法,其特征在于,S1结束进入S2之前,对用户数据进行清洗和过滤。
5.根据权利要求1所述的用户画像构建方法,其特征在于,S1结束进入S2之前,对用户数据进行关键词的特征提取。
6.根据权利要求1所述的用户画像构建方法,其特征在于,S3中聚类分析的具体过程为:
(1)在嵌入词向量中随机取k个用户,作为k个初始聚类中心用户u=u1,u2,u3,...uk,;
(2)对于嵌入词向量中的除了聚类中心用户u的每一个用户xi,分别计算xi到k个初始聚类用户u的欧氏距离,将距离小于阈值的xi分给相应的聚类中心u中;
(3)对每一个聚类中心重新计算中心用户u,根据新的聚类中心用户使用步骤(2)重新聚类;
(4)重复步骤(2)和步骤(3),直到新的聚类中心用户和旧的聚类中心用户相同就结束循环,得到聚类结果。
7.根据权利要求1所述的用户画像构建方法,其特征在于,S4的具体过程为:
(1)将嵌入词向量作为KNN模型的输入,计算匿名用户与KNN模型中所有用户之间的余弦相似度;
(2)通过交叉验证选取在KNN模型中测试集上失误最少的K值,然后确定K值,找出匿名用户与训练集中的相似度最大k个用户数据;
(3)分别计算匿名用户属于每个类别的权重W;
(4)将拥有最大权重的类别标签赋予该匿名用户;
(5)确定将所有的匿名用户全部分类,将所有的匿名用户分类结果标签和所有用户的标签汇总,得到所有用户的标签。
8.一种用户画像构建方法,其特征在于,包括以下过程:
用户数据获取模块,用于获取用户数据;
词嵌入处理模块,用于采用词嵌入模型对用户数据进行处理,得到嵌入词向量;
聚类分析模块,用于使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;
标签获取模块,用于使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;
画像构建模块,用于根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述用户画像构建方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述用户画像构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582910.XA CN114840766A (zh) | 2022-05-26 | 2022-05-26 | 一种用户画像构建方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582910.XA CN114840766A (zh) | 2022-05-26 | 2022-05-26 | 一种用户画像构建方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114840766A true CN114840766A (zh) | 2022-08-02 |
Family
ID=82572608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210582910.XA Pending CN114840766A (zh) | 2022-05-26 | 2022-05-26 | 一种用户画像构建方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114840766A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115458099A (zh) * | 2022-09-14 | 2022-12-09 | 广州商学院 | 基于问卷测评的人物心理画像获取方法、系统、电子设备 |
CN115600945A (zh) * | 2022-09-07 | 2023-01-13 | 淮阴工学院(Cn) | 基于多粒度的冷链配载用户画像构建方法及装置 |
-
2022
- 2022-05-26 CN CN202210582910.XA patent/CN114840766A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600945A (zh) * | 2022-09-07 | 2023-01-13 | 淮阴工学院(Cn) | 基于多粒度的冷链配载用户画像构建方法及装置 |
CN115458099A (zh) * | 2022-09-14 | 2022-12-09 | 广州商学院 | 基于问卷测评的人物心理画像获取方法、系统、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649455B (zh) | 一种大数据开发的标准化系统归类、命令集系统 | |
He et al. | Comment-based multi-view clustering of web 2.0 items | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
Bhuvaneshwari et al. | Spam review detection using self attention based CNN and bi-directional LSTM | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
Qian et al. | Identifying multiple userids of the same author | |
CN110990683B (zh) | 一种基于地域与情感特征的微博谣言集成识别方法及装置 | |
CN106294500B (zh) | 内容项目的推送方法、装置及系统 | |
CN114840766A (zh) | 一种用户画像构建方法、系统、设备及存储介质 | |
CN107590128B (zh) | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 | |
Lu et al. | Identifying your customers in social networks | |
CN107193883B (zh) | 一种数据处理方法和系统 | |
Huang et al. | A multi-source integration framework for user occupation inference in social media systems | |
CN112257419A (zh) | 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质 | |
CN113268667B (zh) | 一种基于中文评论情感引导的序列推荐方法及系统 | |
CN110990670B (zh) | 一种成长激励型图书推荐方法及推荐系统 | |
Zhou et al. | Relevance feature mapping for content-based multimedia information retrieval | |
Xiang et al. | Spam detection in reviews using LSTM-based multi-entity temporal features | |
Hu et al. | EGC: A novel event-oriented graph clustering framework for social media text | |
Mehrotra et al. | Comparative analysis of K-Means with other clustering algorithms to improve search result | |
CN108090074A (zh) | 图书推荐系统和方法 | |
CN113705217B (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 | |
Fallatah et al. | A hybrid approach for large knowledge graphs matching | |
Xiang | Research on clustering algorithm based on web log mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |