CN115018545A - 基于用户画像与聚类算法的相似用户分析方法及系统 - Google Patents

基于用户画像与聚类算法的相似用户分析方法及系统 Download PDF

Info

Publication number
CN115018545A
CN115018545A CN202210635111.4A CN202210635111A CN115018545A CN 115018545 A CN115018545 A CN 115018545A CN 202210635111 A CN202210635111 A CN 202210635111A CN 115018545 A CN115018545 A CN 115018545A
Authority
CN
China
Prior art keywords
user
similarity
clustering
users
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210635111.4A
Other languages
English (en)
Inventor
管洪清
徐亮
王伟
张元杰
张大千
尹广楹
孙浩云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Windaka Technology Co ltd
Original Assignee
Qingdao Windaka Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Windaka Technology Co ltd filed Critical Qingdao Windaka Technology Co ltd
Priority to CN202210635111.4A priority Critical patent/CN115018545A/zh
Publication of CN115018545A publication Critical patent/CN115018545A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于用户画像与聚类算法的相似用户分析方法及系统,将用户画像相似度较高的用户聚类为多个簇,降低相似用户检索过程所产生的时间复杂度,由RV‑UP‑MSC方法,按照用户画像被归类为多个簇,并且每个簇的中心点将簇内所有用户的画像特征整合,以虚拟用户的形式进行表示,目标用户在检索过程中,仅需对每个簇所对应的中心点进行用户画像相似度比对,判断出与自己的兴趣爱好可能相似的簇。

Description

基于用户画像与聚类算法的相似用户分析方法及系统
技术领域
本发明属于大数据分析领域,尤其涉及一种基于用户画像与聚类算法的相似用户分析方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
相似用户的分析方法在许多服务类应用中具有广泛的应用。其目的在于通过分析用户的某一类或者某几类特征,进而根据特征的相似度寻找出与目标用户特征相似度较高的近邻用户,从而进一步地为目标用户提供与近邻用户相关的推荐候选项。其中,推荐候选项一般是实际存在于现实世界的对象(如商品、地点等),在某些特殊情况下也可能是一种行为(如当前道路的交通情况下推荐采取的措施,向左转或者直行)。
协同过滤方法是衡量用户相似度的常用方法,该方法以用户-对象的评分矩阵为准,通常采用Pearson相关系数对目标用户与其它用户的相似度进行衡量,然而Pearson相关系数在用户之间的共同评分项较少的情况下也会得出相对较高的相似度值,因此在数据稀疏的情况下可靠性较差。因此,通常采用Jaccard相似度作为置信因子修正Pearson相关系数所得出的相似度值,Jaccard相似度以并交比的形式衡量用户之间的轨迹相似度,能够很好的规避用户共同交互项较少的情况下相似度计算所产生的误差,但对于未留下任何评分以及记录的新用户,其相似度的计算相对来说较为困难,在Pearson相关系数或Jaccard相似度无法计算的情况下,目标用户无法通过喜好特征相似度寻找与自己兴趣爱好相近的近邻用户。
基于协同过滤的相似用户分析方法对各类相似度函数进行整合与修正,从而以多角度准确计算用户之间的相似度,但是协同过滤本身的检索代价过高,对于相似用户的商品推荐,如果想要完全找到与自己最为相似的虚拟用户,则需要对整个用户表进行遍历,过程复杂且繁琐,需要花费大量的时间,大大降低了挖掘相应相似特征对象的效率。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于用户画像与聚类算法的相似用户分析方法及系统,实现挖掘出相同用户兴趣爱好的相近用户,其目的在于将整个用户的历史商品信息按照兴趣爱好相似度聚类为多个簇,簇的中心点为簇内用户的整体喜好特征,目标用户仅仅通过与聚类过程生成的聚类中心点进行相似度比较,判断中心点所代表的簇是否与自己拥有相同的兴趣爱好特征,并对目标用户未接触过但是所倾向的目标商品进行挖掘。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种基于用户画像与聚类算法的相似用户分析方法,包括如下步骤:
采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户-商品评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;
基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;
保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;
寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
根据一些实施例,本公开的第二方案提供了一种基于用户画像与聚类算法的相似用户分析系统,包括:
数据采集单元,用于采集用户对于商品的历史行为信息数据;
函数构建单元,用于基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
用户聚类单元,用于基于用户画像相似度的度量函数对用户画像进行聚类操作;
存储单元,用于保存生成的聚类簇以及聚类中心点;
用户推荐单元,用于寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
以上一个或多个技术方案存在以下有益效果:
基于用户画像与聚类算法的相似用户分析方法有效地减少相似用户的查询长度,在提高检索准确度的同时提高了检索效率。
基于半径变化与用户画像的均值偏移聚类方法(以下称RV-UP-MSC),RV-UP-MSC继承了原均值偏移聚类方法的爬山优化思想,将相似用户聚类至密度较高的点,并且在此基础之上优化了用户距离(即相似度)的度量过程以及聚类半径的调整过程,目标用户在检索过程中,仅需对每个簇所对应的中心点(即虚拟用户)进行用户画像相似度比对,即可判断出与自己的兴趣爱好可能相似的簇。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明所提出的相似用户分析方法的总体流程;
图2为本发明所提出的RV-UP-MSC方法的原理图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提出的总体思路:
由于本发明的目的是将用户按照其喜好特征与历史轨迹相似度划分为多个簇,衡量目标用户与每个簇之间的距离以判断与目标用户相似的群组,从而为目标用户寻找兴趣爱好相似的其它用户,并实现与目标用户相关的推荐,其中,用户画像的定义是指用户本身的喜好特征以及用户历史轨迹所组成的集合,以用户画像相似度为基准,目标用户能够被准确地归类为多个簇,每个簇中的用户之间具有相似的兴趣爱好,但归类的过程中簇的划分数量往往是未知的,而用户画像相似度的度量函数也影响簇的划分效果,所以本发明提出了一种基于半径变化与用户画像的均值偏移聚类方法(Mean Shift Clustering basedon Radius Variation and User Portrayal,以下称RV-UP-MSC),根据用户的相似度分布情况生成一组候选半径以调整聚类效果,并且设置用户画像相似度度量函数使用户的聚类更加准确。而用户画像相似度由协同相似度、喜好特征相似度与历史轨迹相似度组成:协同相似度由用户-对象(商品或地点)评分矩阵计算得出,并以历史轨迹相似度为置信因子进行修正,而喜好特征相似度由用户的喜好标签访问频率得出,将三者进行加权整合,即可得出相对全面的用户画像相似度的度量函数。根据上述用户画像相似度度量函数,RV-UP-MSC自动地将用户准确地按照用户画像特征聚类为多个簇。与其它的聚类算法相比,RV-UP-MSC能够以多角度衡量用户之间的相似度并进行准确聚类,降低相似用户检索过程所产生的时间复杂度,并且在每一次的聚类过程中能够根据情况自发地调整聚类半径,以优化最终的聚类结果。依据RV-UP-MSC的聚类结果,目标用户能够以多特征的角度准确找出相似度较高的用户群组,从而获得与群组相关的兴趣爱好推荐项。
实施例一
图1为本发明所提出的相似用户分析方法的总体流程,本实施例公开了一种基于用户画像与聚类算法的相似用户分析方法,实现过程包括以下步骤:
S101:采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户-商品评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;
上述步骤101中,由于本发明的主要应用场景为社区电子商务服务平台,因此采集来自于台的用户-商品评分矩阵、商品信息、用户浏览记录以及商品的访问频率为聚类分析作准备,其中,用户评分矩阵主要用于Pearson相似度(即协同相似度)的计算,而用户浏览记录则用于Jaccard相似度(即轨迹相似度)的计算。此外,商品信息包含商品本身的基本信息,包括名称、性质。以及商品所属的喜好标签信息,如所属类型、是否优惠。
根据用户浏览记录,统计用户的喜好标签特征。喜好标签特征以多维向量(以下称喜好特征向量)的形式进行表示,每一维的值代表当前维度所对应的喜好标签的访问次数。为了解决新用户问题,通常在用户注册社区应用账户的同时通过一系列与用户喜好相关的问题确定用户的喜好标签特征。在用户-商品评分矩阵中,将用户对应的行数据进行提取,即可获得当前用户对所有商品的评分信息,同样以向量(以下称评分向量)的形式进行表示,且每一维的值代表用户对当前维度所对应商品的评分。而用户浏览记录则以集合的形式进行表示,集合中的每一个元素为相应的商品标识符,该集合将作为用户的轨迹特征参与均值偏移聚类过程中偏移量的计算。经过上述步骤,用户信息被整理为一个三元组:
ui=<si,hi,vi>
其中ui表示第i个用户,si表示用户i的评分向量,hi表示用户i的历史轨迹,而vi表示用户i的喜好特征向量。
S102:基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
对于经过预处理的用户数据,建立适当的用户画像相似度的度量函数,以准确计算出目标用户的近邻用户,所提出的用户画像相似度度量函数由三个部分组成:协同相似度、轨迹相似度以及喜好标签特征相似度。其中协同相似度以Pearson相关系数进行计算,而轨迹相似度以Jaccard相似度公式进行计算,与此同时轨迹相似度将作为置信因子对协同相似度加以修正。此外,喜好标签特征相似度所衡量的是两个特征向量之间的相似度,因而采用余弦相似度函数进行计算。经过整理,用户画像相似度的度量函数如下所示:
Figure BDA0003681756740000061
Pearson相关系数能够根据用户的共同评分项计算两者的相似程度,但Pearson系数无法有效地应对数据稀疏的情况,当两个用户之间仅有一个共同评分项时,所计算出的相似度值会变得比较高。为了规避数据稀疏所造成的Pearson相似度计算误差,使用Jaccard相似度作为置信因子修正Pearson相关系数。Jaccard相似度公式以并交比的形式计算用户之间的轨迹重合程度,如果两个用户之间的重合项较少,那么两者之间的Jaccard相似度值较低,因此适用于Pearson稀疏误差的修正。另外,用户画像度量函数中引入喜好标签相似度的目的在于有效解决新用户问题。新用户在初次使用社区服务类应用时,通常没有可供参考的评分信息或历史轨迹以进行相似度分析,因此需要通过一系列的初始设置(一般以问卷的形式进行)确定用户的喜好倾向,从而进一步地确定用户的喜好标签特征,并且该喜好标签特征能够根据用户记录的变化而作出自适应的改变。综上,用户画像度量函数能够在数据稀疏的情况下准确地计算用户之间的相似度,并且能够有效地应对新用户问题。
S103:基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;
具体的,以用户画像度量函数为基准,使用RV-UP-MSC方法对社区用户进行准确聚类。RV-UP-MSC方法,又称基于半径变化与用户画像的均值偏移聚类方法,在原本的均值偏移聚类方法上作出改进,优化聚类半径的选择过程,并且使用上一步所构造的用户画像相似度度量函数衡量用户之间的距离。RV-UP-MSC方法的聚类过程如下步骤所述:
步骤1、在未被分类的用户数据点中随机选择一个点作为聚类中心点;
步骤2、找出距离中心点小于R的所有用户数据点,这些数据点组成集合G(u),并将这些点加入聚类中心点所代表的簇,其中数据点之间的距离取两点之间用户画像相似度的倒数。
步骤3、计算集合G(u)中每个用户的均值,将聚类中心点偏移至所得均值的位置。用户均值并非数据库中的具体用户信息,而是整合G(u)中每个用户的画像所形成的虚拟用户数据,均值的具体计算方式在之后会作出详细讲述。
步骤4、重复步骤2、3,直到没有新的数据点加入至簇中,将此时的聚类中心点与最终所形成的簇记录下来。
步骤5、重复步骤1、2、3、4直到所有的点都被归类。
此外,图2对RV-UP-MSC方法的聚类过程作出了图示说明,均值偏移聚类实质上是以爬山优化的思想不断地将聚类中心点往数据点密度较高的地区移动,并且将途中所遇到的数据点进行归类的过程。所形成的聚类簇形状与大小不一,能够细致地反映数据的分布情况。但在本发明所应用的场景中,聚类半径的选取过程与均值偏移的计算过程最为关键。针对社区用户的数据特性,RV-UP-MSC方法重新对上述两种过程进行设计。最终,RV-UP-MSC将用户数据按照用户画像相似度归类为多个簇,并且为每个簇生成了聚类中心点,该中心点整合了簇中每一个用户的特征数据,以虚拟用户的形式参与相似度的计算。在每一步的聚类过程中,均值的计算方式如下:
Figure BDA0003681756740000081
其中
Figure BDA0003681756740000082
为用户均值,表示聚类中心点在下一步聚类中所取的值(即中心点的下一步移动位置)。而G(u)表示与中心点之间的相对距离小于R的所有用户数据点所组成的集合,
Figure BDA0003681756740000083
表示u与ui之间的用户画像相似度。上述算式实质上是用户数据的加权平均值计算公式,因此每一次的乘法操作中的常数因子(即权值)的大小在0~1之间。而用户数据ui的加法与乘法运算与一般的数据点有所不同,由于ui是一个由si(评分向量)、hi(历史轨迹集合)、vi(喜好标签特征向量)所组成的三元组,因此本方法将ui的运算过程分别转化为si、hi、vi的运算过程。其中si和vi以向量的形式表示,因此具体的均值计算过程可参考向量的计算过程。而对于hi,其加法过程转化为集合之间的并集操作,而其与常数的乘法操作过程如下所示:
1、对hi中的对象以评分大小进行降序排序;
2、在均值偏移计算过程中,常数a的大小在0~1之间,按照常数所对应的比例取hi中的前l×a个对象,并组成一个新的集合,以下将其称为ahi
3、对所生成的ahi,由于其集合的性质,同样可以进行上述乘法与加法的计算。
综上,用户均值的求解问题转化为三元组中每一个元素的均值求解问题。最终形成的用户均值同样为一个三元组,该三元组所对应的
Figure BDA0003681756740000091
(平均评分向量)、
Figure BDA0003681756740000092
(历史轨迹集合)、
Figure BDA0003681756740000093
(喜好标签特征向量)由簇内所有用户的三元组特征加权计算得出,但该三元组所对应的数据实际上并不存在于数据库中,因此最终形成的用户均值为虚拟用户,该虚拟用户作为聚类中心点,能够很好地反映簇内用户喜好的整体情况。
为了对聚类半径R的选择过程进行优化,根据用户数据之间的最小距离与最大距离生成M个半径候选值,并且将这M个候选值依次代入聚类过程中进行计算,如果在M个聚类结果中存在连续重复的项,则取重复数量较多的聚类结果为最终的聚类结果。如果没有出现重复的聚类结果,则取第M/2个半径候选值所对应的聚类结果为最终的聚类结果。
S104:保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;
S105:寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
最后,将RV-UP-MSC方法在聚类过程中生成的簇与聚类中心点进行存储,并且以聚类中心点所对应的虚拟用户为基准计算目标用户的相似用户。首先对所有的虚拟用户进行遍历,计算每一个虚拟用户与目标用户的画像相似度。其次选取相似度较高的虚拟用户,以该用户为中心,在所对应的聚类簇中寻找与虚拟用户相似度最高的前n个用户,这n个用户同时也是与目标用户最为相近的用户。最后,目标用户在这n个用户中挖掘出自己未访问过的喜好项,在本发明所涉及到的应用场景中,目标用户的喜好项主要是指用户所偏好的商品。最终,本发明所提出的基于用户画像与聚类算法的相似用户分析方法有效地减少相似用户的查询长度,在提高检索准确度的同时提高了检索效率。
实施例二
本实施例的目的是提供一种基于用户画像与聚类算法的相似用户分析系统,包括:
数据采集单元,用于采集用户对于商品的历史行为信息数据;
函数构建单元,用于基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
用户聚类单元,用于基于用户画像相似度的度量函数对用户画像进行聚类操作;
存储单元,用于保存生成的聚类簇以及聚类中心点;
用户推荐单元,用于寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
上述基于用户画像与聚类算法的相似用户分析系统运行一种基于用户画像与聚类算法的相似用户分析方法,实施以下步骤:
1)采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户-商品评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;
2)基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
3)基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;
4)保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;
5)寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
进一步地,在所述步骤1中,由于本发明的主要应用场景为社区电子商务服务平台,因此搜集来自于平台的用户-商品评分矩阵、商品信息、用户浏览记录以及商品的访问频率为聚类分析作准备。其中,用户-商品评分矩阵主要用于Pearson相似度(即协同相似度)的计算,而用户浏览记录则用于Jaccard相似度(即轨迹相似度)的计算。此外,商品信息包含商品本身的基本信息(如名称、性质等)以及商品所属的喜好标签信息(如所属类型、是否优惠等)。根据用户浏览记录,用户的喜好标签特征得以统计。喜好标签特征以多维向量(以下称喜好特征向量)的形式进行表示,每一维的值代表当前维度所对应的喜好标签的访问次数。为了解决新用户问题,通常在用户注册社区应用账户的同时通过一系列与用户喜好相关的问题确定用户的喜好标签特征。在用户-商品评分矩阵中,将用户对应的行数据进行提取,即可获得当前用户对所有商品的评分信息,同样以向量(以下称评分向量)的形式进行表示,且每一维的值代表用户对当前维度所对应商品的评分。而用户浏览记录则以集合的形式进行表示,集合中的每一个元素为相应的商品标识符,该集合将作为用户的轨迹特征参与均值偏移聚类过程中偏移量的计算。经过上述步骤,用户信息被整理为一个三元组:
ui=<si,hi,vi>
其中ui表示第i个用户,si表示用户i的评分向量,hi表示用户i的历史轨迹,而vi表示用户i的喜好特征向量。
进一步地,在所属步骤2中,建立适当的用户画像相似度的度量函数,以准确计算出目标用户的近邻用户。本发明所提出的用户画像相似度度量函数由三个部分组成:协同相似度、轨迹相似度以及喜好标签特征相似度。其中协同相似度以Pearson相关系数进行计算,而轨迹相似度以Jaccard相似度公式进行计算,与此同时轨迹相似度将作为置信因子对协同相似度加以修正。此外,喜好标签特征相似度所衡量的是两个特征向量之间的相似度,因而采用余弦相似度函数进行计算。经过整理,用户画像相似度的度量函数如下所示:
Figure BDA0003681756740000121
Pearson相关系数能够根据用户的共同评分项计算两者的相似程度,但Pearson系数无法有效地应对数据稀疏的情况,当两个用户之间仅有一个共同评分项时,所计算出的相似度值会变得比较高。为了规避数据稀疏所造成的Pearson相似度计算误差,使用Jaccard相似度作为置信因子修正Pearson相关系数。Jaccard相似度公式以并交比的形式计算用户之间的轨迹重合程度,如果两个用户之间的重合项较少,那么两者之间的Jaccard相似度值较低,因此适用于Pearson稀疏误差的修正。另外,用户画像度量函数中引入喜好标签相似度的目的在于有效解决新用户问题。新用户在初次使用社区服务类应用时,通常没有可供参考的评分信息或历史轨迹以进行相似度分析,因此需要通过一系列的初始设置(一般以问卷的形式进行)确定用户的喜好倾向,从而进一步地确定用户的喜好标签特征,并且该喜好标签特征能够根据用户记录的变化而作出自适应的改变。综上,用户画像度量函数能够在数据稀疏的情况下准确地计算用户之间的相似度,并且能够有效地应对新用户问题。以用户画像度量函数为基准,RV-UP-MSC方法对社区用户进行准确聚类。
进一步地,在所属步骤3中,本发明提出了一种基于半径变化与用户画像的均值偏移聚类方法(Mean Shift Clustering based on Radius Variation and UserPortrayal,即RV-UP-MSC),并且以此方法将社区用户聚类为多个簇。RV-UP-MSC方法在原本的均值偏移聚类方法上作出改进,优化聚类半径的选择过程,并且使用步骤2中所构造的用户画像相似度度量函数衡量用户之间的距离。RV-UP-MSC方法的聚类过程与原本的均值偏移聚类方法相同:首先在未被归类的数据点集合中随机选择其中一个数据点作为聚类中心点;其次在每一次的均值偏移过程中根据所计算出的偏移方向移动该点,与此同时将中心点聚类半径范围内的其它所有数据点进行归类。如果在聚类中心点偏移过程中没有出现新的需要被归类的点,则结束当前中心点的聚类过程。此外,若存在没有被归类的数据点,则重复上述步骤,直至所有的数据点被归类。数据点归类结束后,所生成的聚类中心点均位于密度较高的区域,该中心点代表整个聚类区域(即聚类簇)中所有数据点的综合情况。
均值偏移聚类实质上是以爬山优化的思想不断地将聚类中心点往数据点密度较高的地区移动,并且将途中所遇到的数据点进行归类的过程。所形成的聚类簇形状与大小不一,能够细致地反映数据的分布情况。但在本发明所应用的场景中,聚类半径的选取过程与均值偏移的计算过程最为关键。针对社区用户的数据特性,RV-UP-MSC方法重新对上述两种过程进行设计。最终,RV-UP-MSC将用户数据按照用户画像相似度归类为多个簇,并且为每个簇生成了聚类中心点,该中心点整合了簇中每一个用户的特征数据,以虚拟用户的形式参与相似度的计算。聚类半径的选取过程与均值偏移的计算过程将在实施例1中作出了详细讲述。
进一步地,在所述步骤4中,将RV-UP-MSC方法在聚类过程中生成的簇与聚类中心点进行存储,并且以聚类中心点所对应的虚拟用户为基准计算目标用户的相似用户。首先对所有的虚拟用户进行遍历,计算每一个虚拟用户与目标用户的画像相似度。其次选取相似度较高的虚拟用户,以该用户为中心,在所对应的聚类簇中寻找与虚拟用户相似度最高的前n个用户,这n个用户同时也是与目标用户最为相近的用户。最后,目标用户在这n个用户中挖掘出自己未访问过的喜好项,在本发明所涉及到的应用场景中,目标用户的喜好项主要是指用户所偏好的商品。最终,本发明所提出的基于用户画像与聚类算法的相似用户分析方法有效地减少相似用户的查询长度,在提高检索准确度的同时提高了检索效率。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于用户画像与聚类算法的相似用户分析方法,其特征在于,包括如下步骤:
1)采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户-商品评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;
2)基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
3)基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;
4)保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;
5)寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
2.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,在步骤1)中,所述的商品信息包含商品本身的基本信息,即名称、性质以及商品所属的喜好标签信息,所述商品所属的喜好标签信息为商品所属类型以及是否优惠。
3.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,根据所述用户浏览商品记录统计用户的喜好标签特征,所述喜好标签特征以多维向量的形式进行表示,每一维的值代表当前维度所对应的喜好标签的访问频率次数;
根据所述用户-商品评分矩阵获取用户对当前维度所对应商品的评分。
4.如权利要求3所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,获取用户当前维度对应商品的评分的方式为:
利用用户-商品评分矩阵,将用户对应的行数据进行提取,则获得当前用户对所有商品的评分信息,并以向量的形式进行表示,所述向量为评分向量,且每一维的值代表用户对当前维度所对应商品的评分。
5.如权利要求1所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述用户画像相似度的度量函数由协同相似度、轨迹相似度以及喜好标签特征相似度三部分组成,所述协同相似度以Pearson相关系数进行计算,所述轨迹相似度以Jaccard相似度公式进行计算,所述轨迹相似度将作为置信因子对协同相似度加以修正。
6.如权利要求5所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述喜好标签特征相似度所衡量的是两个特征向量之间的相似度,采用余弦相似度函数进行计算,并构建用户画像相似度的度量函数为:
Figure FDA0003681756730000021
其中ui表示第i个用户,si表示用户i的评分向量,h表示用户i的历史轨迹,而vi表示用户i的喜好特征向量。
7.如权利要求1所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述基于用户画像相似度的度量函数对用户画像进行聚类的方式为:以用户画像度量函数为基准,利用基于半径变化与用户画像的均值偏移聚类方法对用户画像进行准确聚类,聚类过程如下:
步骤1:在未被分类的用户数据点中随机选择一个点作为聚类中心点;
步骤2:找出距离聚类中心点小于R的所有用户数据点,这些数据点组成集合G(u),并将这些点加入聚类中心点所代表的簇,其中数据点之间的距离取两点之间用户画像相似度的倒数;
步骤3:计算集合G(u)中每个用户的均值,将聚类中心点偏移至所得均值的位置;
步骤4:重复步骤2、3,直到没有新的数据点加入至簇中,并将此时的聚类中心点与最终所形成的簇记录下来;
步骤5:重复步骤1、2、3、4直到所有的点都被归类。
8.如权利要求7所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述基于半径变化与用户画像的均值偏移聚类方法将用户数据按照用户画像相似度归类为多个簇,并且为每个簇生成了聚类中心点,该中心点整合簇中每一个用户的特征数据,以虚拟用户的形式参与相似度的计算,在每一步的聚类过程中,均值的计算方式如下:
Figure FDA0003681756730000031
其中
Figure FDA0003681756730000032
为用户均值,表示聚类中心点在下一步聚类中所取的值,G(u)表示与中心点之间的相对距离小于R的所有用户数据点所组成的集合,
Figure FDA0003681756730000033
表示u与ui之间的用户画像相似度。
9.如权利要求7所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,将RV-UP-MSC方法在聚类过程中生成的簇与聚类中心点进行存储,并且以聚类中心点所对应的虚拟用户为基准计算目标用户的相似用户的方法为:对所有的虚拟用户进行遍历,计算每一个虚拟用户与目标用户的画像相似度,其次选取相似度较高的虚拟用户,以该用户为中心,在所对应的聚类簇中寻找与虚拟用户相似度最高的前n个用户,这n个用户是与目标用户最为相近的用户。
10.一种基于用户画像与聚类算法的相似用户分析系统,其特征在于,包括:
数据采集单元,用于采集用户对于商品的历史行为信息数据;
函数构建单元,用于基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
用户聚类单元,用于基于用户画像相似度的度量函数对用户画像进行聚类操作;
存储单元,用于保存生成的聚类簇以及聚类中心点;
用户推荐单元,用于寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
CN202210635111.4A 2022-06-07 2022-06-07 基于用户画像与聚类算法的相似用户分析方法及系统 Pending CN115018545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210635111.4A CN115018545A (zh) 2022-06-07 2022-06-07 基于用户画像与聚类算法的相似用户分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210635111.4A CN115018545A (zh) 2022-06-07 2022-06-07 基于用户画像与聚类算法的相似用户分析方法及系统

Publications (1)

Publication Number Publication Date
CN115018545A true CN115018545A (zh) 2022-09-06

Family

ID=83072748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210635111.4A Pending CN115018545A (zh) 2022-06-07 2022-06-07 基于用户画像与聚类算法的相似用户分析方法及系统

Country Status (1)

Country Link
CN (1) CN115018545A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116080847A (zh) * 2022-09-27 2023-05-09 河北东来工程技术服务有限公司 一种船舶安全管理的方法、系统、装置和存储介质
CN117520994A (zh) * 2024-01-03 2024-02-06 深圳市活力天汇科技股份有限公司 基于用户画像和聚类技术识别机票异常搜索用户方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116080847A (zh) * 2022-09-27 2023-05-09 河北东来工程技术服务有限公司 一种船舶安全管理的方法、系统、装置和存储介质
CN117520994A (zh) * 2024-01-03 2024-02-06 深圳市活力天汇科技股份有限公司 基于用户画像和聚类技术识别机票异常搜索用户方法及系统
CN117520994B (zh) * 2024-01-03 2024-04-19 深圳市活力天汇科技股份有限公司 基于用户画像和聚类技术识别机票异常搜索用户方法及系统

Similar Documents

Publication Publication Date Title
WO2021189729A1 (zh) 复杂关系网络的信息分析方法、装置、设备及存储介质
CN107220365B (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN115018545A (zh) 基于用户画像与聚类算法的相似用户分析方法及系统
CN107833117B (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
CA2470899A1 (en) Method and system for similarity search and clustering
Houle et al. Dimensional testing for multi-step similarity search
CN107256238B (zh) 一种多约束条件下的个性化信息推荐方法及信息推荐系统
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN110532351A (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
CN112380433A (zh) 面向冷启动用户的推荐元学习方法
CN109977299A (zh) 一种融合项目热度和专家系数的推荐算法
Liu et al. Fast recommendation on latent collaborative relations
CN112926635A (zh) 一种基于迭代自适应近邻传播算法的目标聚类方法
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN109919227A (zh) 一种面向混合属性数据集的密度峰值聚类方法
CN117056761A (zh) 一种基于x-dbscan算法的客户细分方法
CN107423319B (zh) 一种垃圾网页检测方法
CN110737796A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN115730248A (zh) 一种机器账号检测方法、系统、设备及存储介质
Yang et al. Adaptive density peak clustering for determinging cluster center
CN115510959A (zh) 基于自然最近邻和多簇合并的密度峰值聚类方法
CN114610967A (zh) 一种应用于用户画像领域的数据增广方法
CN115114517A (zh) 基于用户属性和项目评分的协同过滤推荐算法
Kajimura et al. Quality control for crowdsourced POI collection
Li et al. Novel multidimensional collaborative filtering algorithm based on improved item rating prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination