CN110532429B - 一种基于聚类和关联规则的线上用户群体分类方法及装置 - Google Patents

一种基于聚类和关联规则的线上用户群体分类方法及装置 Download PDF

Info

Publication number
CN110532429B
CN110532429B CN201910832959.4A CN201910832959A CN110532429B CN 110532429 B CN110532429 B CN 110532429B CN 201910832959 A CN201910832959 A CN 201910832959A CN 110532429 B CN110532429 B CN 110532429B
Authority
CN
China
Prior art keywords
user
association rule
similarity
interest
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910832959.4A
Other languages
English (en)
Other versions
CN110532429A (zh
Inventor
代劲
尹航
夏鲁宏
胡峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Express (Beijing) Technology Co.,Ltd.
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910832959.4A priority Critical patent/CN110532429B/zh
Publication of CN110532429A publication Critical patent/CN110532429A/zh
Application granted granted Critical
Publication of CN110532429B publication Critical patent/CN110532429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机技术领域,特别涉及一种基于聚类和关联规则的线上用户群体分类方法及装置,所述方法包括确定作为聚类中心的用户,利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算;将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与聚类中心的用户之间兴趣特征的相似度;将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;根据综合用户相似度对所有用户更新分簇,确定每个簇的中心,当前中心用户的各特征值与上一次更新的中心用户的特征相同,则输出分簇的用户群体,完成分类;本发明解决了簇中心的更新过程中无法对多值离散特征进行合理更新的问题,并提高了用户行为聚类的质量。

Description

一种基于聚类和关联规则的线上用户群体分类方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种基于聚类和关联规则的线上用户群体分类方法及装置。
背景技术
随着网络技术的不断发展,网络越来越多复杂,网站内容也越来越丰富,通常可以通过确定网络用户的类别来确定目标用户,以实现信息推荐、网络监测和网站优化。
对线上用户群体分类的目的是分析核心用户的特征,可以应用于精准营销、商业决策、舆情分析、预警等领域;例如运用在精准营销领域,针对某电商品类进行营销时,需要向目标用户推荐相应的信息,通常将浏览过该类产品的网络用户作为目标用户,从而确定目标用户所属的类别信息,通过类别信息向用户精准推荐商品,通过聚类分析可以发现用户之间隐藏的信息,可应用于构建更详细的用户画像,可以发现隐藏的目标用户,向更多用户进行营销。
用户行为分析面临的关键问题是:(1)系统获取的用户行为数据的类型很多,包括数值型、二值型、单值离散型、多值离散型特征等,这些特征对于分析用户行为均具有价值,但由于其结构具有多样性,一般的算法无法进行直接分析;(2)当前对于用户行为聚类分析的研究,大多只针对数值型特征进行分析,而未考虑离散型特征的价值。
目前对用户行为聚类分析的研究主要是分析用户的特征或服务于推荐系统。例如,对直播平台上的高消费群体进行分析,其首先利用在直播平台上采集的直播数据以构建受众特征,并使用Gower距离度量混合特征的相似性,最后通过Medoids聚类方法对高消费群体进行聚类分析;采用k-means聚类算法分析电动汽车用户行为的热图和充电时间分布,总结出电动汽车用户的行为特征;结合改进的k-means算法对用户进行聚类,并挑选一个代表用户以帮助完成后期的推荐工作。
这些方法在一定程度上可以划分出相似特征的用户,并分析其特点。而当前大部分对用户行为进行聚类分析的算法只能通过欧式距离计算用户行为数据中的数值型特征的相似度。虽然其中一些方法可用来度量离散数据的相似性,但它们针对的是单值离散特征,不能处理多值离散特征,如用户的兴趣;另外现有的用户分类方法在数据量过多时,分类的性能会有所下降。
发明内容
有鉴于此,本发明提出了一种基于聚类和关联规则的线上用户群体分类方法,能够直接对用户行为数据中存在的兴趣特征进行相似性度量,并通过聚类分析发现主要用户群体的特点,以提高发现用户群体的质量,具体包括以下步骤:
S1、获取用户群体,根据用户群体的兴趣特征获得关于用户兴趣的关联规则集;
S2、随机确定用户群体中k个用户作为聚类分析的初始中心用户;
S3、利用简单匹配的方法对数据集中单值离散特征进行相似度计算;
S4、将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
S5、将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;
S6、分别将每个用户分配到与之相似度最高的中心用户的所属簇中;
S7、利用改进的中心用户更新方法确定簇新中心;
S8、判断当前中心用户的各特征值与上一次更新的中心用户的特征是否相同,若不相同,返回步骤S3;否则,停止迭代并输出能代表k个用户群体的k个用户数据,每个用户群体为一个类别,完成分类。
进一步的,综合用户相似度表示为:
Figure BDA0002191307480000031
其中,Dis(a,b)表示用户a与用户b之间的综合用户相似度;Dis(a,b)′表示用户a与用户b之间的单值离散特征相似度;μ为单值离散特征相似度的权重;Dis(a,b)″表示用户a与用户b之间的基于兴趣特征的相似度;
Figure BDA0002191307480000032
为基于兴趣特征的相似度的权重。
进一步的,用户a与用户b之间的基于兴趣特征的相似度Dis(a,b)″表示为:
Figure BDA0002191307480000033
其中,NI(a,b)表示用户a与用户b之间交集的个数;NU(a,b)表示用户a与用户b之间并集的个数;Aa,b为近似交集数的数量。
进一步的,所述近似交集数的数量Aa,b的值为满足判断条件的所有强关联规则的置信度之和,近似交集数的数量Aa,b的计算过程包括:
S400、采用Apriori算法进行关联规则挖掘,获得关联规则集,关联规则集中的一个关联规则表示为:X→Y;
S401、判断是否已经将关联规则集遍历完,若没有遍历完则执行步骤S402继续遍历关联规则集;若遍历完成,则执行步骤S406;
S402、若用户a和用户b同时包含第t个关联规则的前件,则执行S403;
若用户a包含第t个关联规则的前件、而用户b不包含,且用户a不包含第t个关联规则的后件、而用户b包含,则执行S405;
否则,将0赋给Vt并返回S401,判断下一个关联规则;
S403、如果用户a和用户b中的其中一个包含第t个关联规则的后件,则执行S404;否则,返回S401;
S404、从第t+1个关联规则开始向后遍历,比较第t个关联规则的置信度Ct与第t′个关联规则的置信度Ct′,记录较大的置信度,并删除第t个和第t′个关联规则以及对应子集的关联规则;遍历结束后,将最大置信度赋给Vt,返回S401;
S405、将Ct/2赋值给Vt,并删除第t个关联规则以及其子集的关联规则,返回S401;
S406、根据每次遍历的最大置信度为第t个关联规则向后遍历取最大值Vt计算近似交集数的数量Aa,b,表示为:
Figure BDA0002191307480000041
Aa,b<NU(a,b)-NI(a,b)
其中,X和Y为非空不相交项集,X为一个关联规则的前件;Y为一个关联规则的后件;d表示关联规则的总数;NI(a,b)表示用户a与用户b交集的个数;NU(a,b)表示用户a与用户b并集的个数;Vt由每次遍历关联规则集中的最大置信度转换而来,每次遍历的最大置信度为第t个关联规则向后遍历取最大值;第t′个关联规则是指向后遍历的任意一个关联规则。
一种基于聚类和关联规则的线上用户群体分类装置,包括:
用户信息采集模块,用于从线上获取用户的单值离散特征和兴趣特征;
关联规则挖掘模块,用于根据用户的兴趣特征挖掘出关于用户兴趣的关联规则集;
中心用户初始化模块,用于确定k个初始中心用户;
用户相似度计算模块,用于针对不同类型的特征采用不同的用户相似度计算方法,并进行加权相加,获得综合用户相似度;
用户群体划分模块,用于将每个用户分配到与之相似度最高的中心用户的所属簇中;
中心用户更新模块,用于利用改进的中心用户更新方法确定新中心用户;
核心中心用户识别模块,用于识别更新后的k个用户群体的k个用户数据,完成分类。
本发明的有益效果:本发明具有如下优点:将杰卡德距离应用于用户行为数据中多值离散特征的相似度计算,使得聚类算法可以处理多值离散特征,解决了当前用户行为聚类算法无法处理多值离散特征的问题。将关联规则引入杰卡德距离的计算过程以挖掘潜在信息,提高了用户相似性度量的精度。提出了一种针对多值离散特征的簇中心更新方法,该方法可以合理地反映多值离散特征在当前簇中的分布情况,解决了簇中心的更新过程中无法对多值离散特征进行合理更新的问题;提高了用户行为聚类的质量。
附图说明
图1为本发明一种基于聚类和关联规则的线上用户群体分类方法的流程图;
图2为本发明对比算法的各指标随聚类数k和轮廓系数(SC)的变化折线图;
图3为本发明对比算法的各指标随聚类数k和紧密度(CP)的变化折线图;
图4为本发明对比算法的各指标随聚类数k和分离度(SP)的变化折线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于聚类和关联规则的线上用户群体分类方法及装置,如图1所示,它包括如下步骤:
S1、获取用户群体,根据用户群体的兴趣特征获得关于用户兴趣的关联规则集;
S2、随机确定用户群体中k个用户作为聚类分析的初始中心用户;
S3、利用简单匹配的方法对数据集中单值离散特征进行相似度计算;
S4、将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
S5、将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;
S6、分别将每个用户分配到与之相似度最高的中心用户的所属簇中;
S7、利用改进的中心用户更新方法确定簇新中心;
S8、判断当前中心用户的各特征值与上一次更新的中心用户的特征是否相同,若不相同,返回步骤S3;否则,停止迭代并输出能代表k个用户群体的k个用户数据,每个用户群体为一个类别,完成分类。
在本实施例中,单值离散特征为用户的个人信息,至少包括性别、年龄段、学历;兴趣特征为用户的业余娱乐活动以及在该娱乐活动中喜爱的项目,例如某用户的业余娱乐活动为看电影,该用户在娱乐活动中喜爱的项目即为该用户最喜爱的电影名称;又例如某用户的业余娱乐活动为运动,该用户在娱乐活动中喜爱的项目即为该用户喜爱的运动名称;优选的,用户的可以选择一个或者多个业余娱乐活动,且在一个业余娱乐活动中选择一个或多个喜爱的项目。
作为一种可选方式,本发明基于基础k-modes聚类算法进行了聚类方法的设计。k-modes聚类算法的定义为:
设U={x1,…,xi,…,xn}为包含n个对象的分类型数据集,对象xi被表示为[xi1,xi2,…,xim],其中,m是特征数量,xim表示对象xi的第m个特征;设对象xi和对象xi′分别为[xi1,xi2,…,xim]、[xi′1,xi′2,…,xi′m],则对象xi与对象xi′之间距离的计算公式定义如下:
Figure BDA0002191307480000065
k-modes算法的优化模型定义为:
Figure BDA0002191307480000061
其中,
Figure BDA0002191307480000062
表示用户i的第j个特征xij与第p个用户群体的中心用户的第j个特征zpj的相似度;uip表示用户i是否属于第p个用户群体,uip∈{0,1},
Figure BDA0002191307480000063
wj表示用户特征j的重要性,
Figure BDA0002191307480000064
0≤wpj≤1;
U为隶属度矩阵,隶属度矩阵是一个n×k的二元矩阵,在每次迭代的过程中,若对象i归属于簇p,那么令uip=1,否则uip=0;Z为聚类中心的集合,表示为Z={z1,z2,…,zk},zk为第k个聚类中心,聚类中心的总数量为k;W为数据集中所有特征的权重向量的集合,表示为W={w1,w2,…,wm},wm表示第m个特征的权重向量。
优选的,关联规则被用来对数据中多值离散特征进行数据挖掘,以发现更有价值的信息,其定义为:
一个关联规则是对形如X→Y形式的推断,其中X和Y为非空不相交项集,X表示该规则的前件,Y表示该规则的后件,一般由三个指标度量关联规则,分别是支持度、置信度和提升度。本发明采用进行关联规则挖掘,以获得关联规则集。优选的,在本实施例中,将支持度设为0.1,置信度设为0.5,提升度设为3。
其中本发明获得的关联规则集的后件的项目数均为1,如图2所示。
优选的,处理单值离散特征的距离计算公式如下:
Figure BDA0002191307480000071
其中,
Figure BDA0002191307480000074
代表xi与zj特征值不同的数量,m是特征总数。处理单值离散特征的方法是基于简单匹配的思想,将Dis(xi,zj)′的值域控制在[0,1]。
优选的,本发明使用杰卡德距离处理多值离散特征。所述杰卡德距离定义为1减去杰卡德系数。杰卡德系数定义为集合的交集的元素个数除以并集的元素个数,其取值范围为[0,1]。公式如下:
Figure BDA0002191307480000072
优选的,将关联规则引入到杰卡德距离的计算过程中的具体描述如下:
定义了一个近似交集数,该近似交集满足判断条件的所有强关联规则的置信度之和,定义如下:
Figure BDA0002191307480000073
其中,其中NI(a,b)和NU(a,b)分别表示a与b交集和并集的个数。Vt由最大置信度转换而来,最大置信度为第t个关联规则向后遍历取最大值,d表示关联规则的总数。则近似交集数的数量Aa,b的计算过程包括:
S400、采用Apriori算法进行关联规则挖掘,获得关联规则集,关联规则集中的一个关联规则表示为:X→Y;
S401、判断是否已经将关联规则集遍历完,若没有遍历完则执行步骤S402继续遍历关联规则集;若遍历完成,则执行步骤S406;
S402、若用户a和用户b同时包含第t个关联规则的前件,则执行S403;
若用户a包含第t个关联规则的前件、而用户b不包含,且用户a不包含第t个关联规则的后件、而用户b包含,则执行S405;
否则,将0赋给Vt并返回S401,判断下一个关联规则;
S403、如果用户a和用户b中的其中一个包含第t个关联规则的后件,则执行S404;否则,返回S401;
S404、从第t+1个关联规则开始向后遍历,比较第t个关联规则的置信度Ct与第t′个关联规则的置信度Ct′,记录较大的置信度,并删除第t个和第t′个关联规则以及对应子集的关联规则;遍历结束后,将最大置信度赋给Vt,返回S401;
S405、将Ct/2赋值给Vt,并删除第t个关联规则以及其子集的关联规则,返回S401;
S406、根据每次遍历的最大置信度为第t个关联规则向后遍历取最大值Vt计算近似交集数的数量Aa,b,表示为:
Figure BDA0002191307480000081
Aa,b<NU(a,b)-NI(a,b)
其中,X和Y为非空不相交项集,X为一个关联规则的前件;Y为一个关联规则的后件;d表示关联规则的总数;NI(a,b)表示用户a与用户b交集的个数;NU(a,b)表示用户a与用户b并集的个数;Vt由每次遍历关联规则集中的最大置信度转换而来,每次遍历的最大置信度为第t个关联规则向后遍历取最大值;第t′个关联规则是指向后遍历的任意一个关联规则。
对上述提及的某关联规则对应子集的关联规则进行具体描述:
若一个关联规则为1,2,3,4,5→6,其对应子集的关联规则为1,2,3,4→6,1,2,3→6,1,2→6,1→6等,即{1,2,3,4,5}的任意一个非空子集→6。
针对多值离散特征,将关联规则引入到杰卡德距离的计算过程中后的计算公式为:
Figure BDA0002191307480000091
基于上述处理单值离散特征与多值离散特征的距离计算方法,提出综合距离公式如下:
Figure BDA0002191307480000092
其中μ和
Figure BDA0002191307480000093
是调和参数,根据数据特点和实际需求,以设置单值离散特征与多值离散特征的权重。这里将μ设置为0.8,
Figure BDA0002191307480000094
设置为1,以增强多值离散特征对计算相似度时的影响,即将计算出的综合距离范围控制在[0,1.8]。
作为一种可选方式,聚类数k的取值范围设为[10,50],步长为5,以观察不同指标在不同聚类数条件下算法性能的变化趋势,从而得到各算法合理的综合评价结果。
优选的,改进的簇中心更新方法具体包括如下:
S701、逐个判断簇j中用户的特征类型,若为单值离散特征,执行步骤S702;否则执行步骤S703;
S702、将簇j的新中心的每个特征的值分别更新为簇j中对应每个特征的最频繁值,转到下个特征执行S701;
S703、若Cj=[vj1,...,vje,...,vjl]为簇j中所有多值离散特征值的并集,如果簇j中值为vje的数量Nvje不小于簇j中所有对象的数量的二分之一Nj/2,将vje添加到簇j的新中心的对应特征中,否则不添加;
S704、判断簇j中所有多值离散特征值的并集中所有的值是否遍历完毕,若遍历完毕则返回步骤S701,判断下一个簇中用户的特征类型;否则返回步骤S703继续遍历;
其中,l表示并集中的元素数量。
在本发明中,为了验证提出的算法的正确性和有效性,对2018年腾讯广告算法大赛提供的用户特征文件进行对比实验。其数据的值,即特征值,已全部替换为数字,数据集中包含11420039个用户的分类型特征信息,包括单值离散数据和多值离散数据,共计23个特征。在本实验中,我们从数据集中提取了数据量为500的数据集(dataset1)、数据量为5000的数据集(dataset2)和数据量为10000的数据集(dataset3)的用户特征,分别作为三个实验数据集,并选择其中的用户id(user id)、年龄(age group)、性别(gender)、教育背景(education)和兴趣爱好(Interest)作为实验特征,如表1所示。
表1特征提取后的部分数据集样本
Figure BDA0002191307480000101
无法明确地得知用户实际属于哪一类人,无法选择外部聚类验证指标来评估聚类结果。为了评价聚类性能,本实验选择了三个内部聚类验证指标,包括紧密度(CP)、分离度(SP)和轮廓系数(SC)。
紧密度越低,簇内平均距离越近。其定义如下:
Figure BDA0002191307480000102
Figure BDA0002191307480000103
其中,CPj表示用户j的紧密度,xij表示对象i的第j个特征;
Figure BDA0002191307480000104
为平均紧密度。
分离度越高,簇间平均距离越远,簇间平均距离
Figure BDA0002191307480000105
定义如下:
Figure BDA0002191307480000106
轮廓系数定义如下:
Figure BDA0002191307480000111
其中,n为数据集中的对象(用户)总数,k为聚类数,Si为个体轮廓系数。
其中,Si的定义如下:
Figure BDA0002191307480000112
其中,a(i)表示i与i所属集群的其他对象的平均距离;b(i)表示i到其他簇的平均距离的最小值;SC的取值范围为[-1,1],越接近1,聚类效果越好。
在本发明中,设计了两个基于k-modes的聚类算法进行对比实验以验证本发明方法的有效性。
其一,结合杰卡德距离的k-modes聚类算法(JDKM)。假设数据集同时包含单值离散特征和多值离散特征,将这两种特征全部融合到一个特征中,也就是让数据集只包含一个多值离散特征。然后采用杰卡德距离作为用户相似性度量方法,并利用以下公式计算聚类过程中用户行为之间的距离:
Figure BDA0002191307480000114
其二,结合杰卡德距离的加权k-modes聚类算法(JDWKM)。该改进方法的流程与本发明的流程相同。唯一不同的是对于多值离散特征的相似度是由以下公式计算得出:
Figure BDA0002191307480000113
本实验中,将各算法在每个k值下运行5次,并分别计算平均值。再将三个数据集的结果分别在三个指标下求平均值。各指标随聚类数k的变化折线图如图2~4所示。
从表2中可以看出,本发明方法与两个对比方法分别在三个数据集中使用三个指标进行评估的结果。
表2各方法在三个指标上的对比
Figure BDA0002191307480000121
可观察到,本发明方法在轮廓系数上的性能始终优于其他两种算法。随着数据量的增加,本发明方法逐渐成为三个指标中聚类表现最好的,这说明本发明方法在用户数据量较大时可以取得更好的效果。
如图2,随着聚类中心k数量增加,本发明方法、JDKM方法以及JDWKM方法的轮廓系数SC均上升,但本发明得轮廓系数还是高于其他两个方法的轮廓系数;
如图3,随着聚类中心k数量增加,本发明方法、JDKM方法以及JDWKM方法的紧密度CP均下降,本发明方法与JDWKM方法均优于JDKM方法,且本发明方法略优于JDWKM方法;
如图4,随着聚类中心k数量增加,本发明方法、JDKM方法以及JDWKM方法的分离度SP整体趋势是上升状态,本发明方法与JDKM方法均优于JDWKM方法,本发明方法略低于JDKM方法;
但是综合轮廓系数SC、紧密度CP以及分离度SP,本发明方法优于JDKM方法以及JDWKM,特别是在数据量较大的情况下。
本发明还提出一种基于聚类和关联规则的线上用户群体分类装置,包括:
用户信息采集模块,用于从线上获取用户的单值离散特征和兴趣特征;
关联规则挖掘模块,用于根据用户的兴趣特征挖掘出关于用户兴趣的关联规则集;
中心用户初始化模块,用于确定k个初始中心用户;
用户相似度计算模块,用于针对不同类型的特征采用不同的用户相似度计算方法,并进行加权相加,获得综合用户相似度;
用户群体划分模块,用于将每个用户分配到与之相似度最高的中心用户的所属簇中;
中心用户更新模块,用于利用改进的中心用户更新方法确定新中心用户;
核心中心用户识别模块,用于识别更新后的k个用户群体的k个用户数据,完成分类。
进一步的,所述用户相似度计算模块包括单值离散特征相似度计算单元、兴趣特征相似度计算单元以及综合加权单元,其中:
单值离散特征相似度计算单元利用简单匹配的方法进行相似度计算;
兴趣特征相似度计算单元将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
综合加权单元将单值离散特征相似度计算单元以及兴趣特征相似度计算单元输出的值进行加权相加,获得综合用户相似度。
进一步的,所述中心用户更新模块包括:用户特征类型判断单元、单值离散特征处理单元、兴趣特征处理单元以及更新完成判断单元;其中:
用户特征类型判断单元用于判断用户特征的类型,若为单值离散特征则将该特征输入单值离散特征处理单元,否则输入兴趣特征处理单元;
单值离散特征处理单元用于将用户的单子离散特征更改为单子离散特征中最频繁的值;
兴趣特征处理单元用于对多值离散特征值进行聚类处理,输出用户的兴趣特征;
更新完成判断单元用于判断中心用户的各个特征值是否与上一次更新的中心用户的特征值一直,若一致,则输出用户分类结果完成分类;否则继续更新中心用户的特征值。
本发明所述的一种基于聚类和关联规则的线上用户群体分类装置还包括存储器和处理器,以上装置可以以计算机程序的形式存储在存储器中,并通过处理器运行该存储器中的计算机程序,得出分类结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,包括以下步骤:
S1、获取用户群体的用户信息数据集,对用户信息数据集中的兴趣特征进行关联规则挖掘,获得关于用户兴趣的关联规则集;
S2、随机确定用户群体中k个用户作为聚类分析的初始中心用户;
S3、利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算;
S4、将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
S5、将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;
S6、分别将每个用户分配到与之相似度最高的中心用户的所属簇中;
S7、利用改进的中心用户更新方法确定簇的新中心;
S8、判断当前中心用户的各特征值与上一次更新的中心用户的特征是否相同,若不相同,返回步骤S3;否则,停止迭代并输出能代表k个用户群体的k个用户数据,每个用户数据为一个类别,完成分类。
2.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,单值离散特征为用户的个人信息;兴趣特征为用户的一个或多个业余娱乐活动以及在该娱乐活动中喜爱的一个或多个项目。
3.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,综合用户相似度表示为:
Figure FDA0002191307470000011
其中,Dis(a,b)表示用户a与用户b之间的综合用户相似度;Dis(a,b)′表示用户a与用户b之间的单值离散特征相似度;μ为单值离散特征相似度的权重;Dis(a,b)″表示用户a与用户b之间的基于兴趣特征的相似度;
Figure FDA0002191307470000021
为基于兴趣特征的相似度的权重。
4.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,用户a与用户b之间的单值离散特征相似度Dis(a,b)′表示为:
Figure FDA0002191307470000022
其中,Nf(a,b)代表用户a与用户b特征值不同的数量;m为特征总数。
5.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,用户a与用户b之间的基于兴趣特征的相似度Dis(a,b)″表示为:
Figure FDA0002191307470000023
其中,NI(a,b)表示用户a与用户b之间交集的个数;NU(a,b)表示用户a与用户b之间并集的个数;Aa,b为近似交集数的数量。
6.根据权利要求5所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,所述近似交集数的数量Aa,b的值为满足判断条件的所有强关联规则的置信度之和,近似交集数的数量Aa,b的计算过程包括:
S400、采用Apriori算法进行关联规则挖掘,获得关联规则集,关联规则集中的一个关联规则表示为:X→Y;
S401、判断是否已经将关联规则集遍历完,若没有遍历完则执行步骤S402继续遍历关联规则集;若遍历完成,则执行步骤S406;
S402、若用户a和用户b同时包含第t个关联规则的前件,则执行S403;
若用户a包含第t个关联规则的前件、而用户b不包含,且用户a不包含第t个关联规则的后件、而用户b包含,则执行S405;
否则,将0赋给Vt并返回S401,判断下一个关联规则;
S403、如果用户a和用户b中的其中一个包含第t个关联规则的后件,则执行S404;否则,返回S401;
S404、从第t+1个关联规则开始向后遍历,比较第t个关联规则的置信度Ct与第t′个关联规则的置信度Ct′,记录较大的置信度,并删除第t个和第t′个关联规则以及对应子集的关联规则;遍历结束后,将最大置信度赋给Vt,返回S401;
S405、将Ct/2赋值给Vt,并删除第t个关联规则以及其子集的关联规则,返回S401;
S406、根据每次遍历的最大置信度为第t个关联规则向后遍历取最大值Vt计算近似交集数的数量Aa,b,表示为:
Figure FDA0002191307470000031
Aa,b<NU(a,b)-NI(a,b)
其中,X和Y为非空不相交项集,X为一个关联规则的前件;Y为一个关联规则的后件;d表示关联规则的总数;NI(a,b)表示用户a与用户b交集的个数;NU(a,b)表示用户a与用户b并集的个数;Vt由每次遍历关联规则集中的最大置信度转换而来,每次遍历的最大置信度为第t个关联规则向后遍历取最大值;第t′个关联规则是指向后遍历的任意一个关联规则。
7.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,所述利用改进的中心用户更新方法确定新中心包括:
S701、逐个判断簇j中用户的特征类型,若为单值离散特征,执行步骤S702;否则执行步骤S703;
S702、将簇j的新中心的每个特征的值分别更新为簇j中对应每个特征的最频繁值,转到下个特征执行S701;
S703、若Cj=[vj1,...,vje,...,vjl]为簇j中所有多值离散特征值的并集,如果簇j中第e个多值离散特征值vje的数量
Figure FDA0002191307470000032
不小于簇j中所有对象的数量的二分之一,将第e个多值离散特征值vje添加到簇j的新中心的对应特征中,否则不添加;
S704、判断簇j中所有多值离散特征值的并集中所有的值是否遍历完毕,若遍历完毕则返回步骤S701,判断下一个簇中用户的特征类型;否则返回步骤S703继续遍历;
其中,l表示并集的多值离散特征值种类的数量。
8.一种基于聚类和关联规则的线上用户群体分类装置,其特征在于,包括:
用户信息采集模块,用于从线上获取用户的单值离散特征和兴趣特征;
关联规则挖掘模块,用于根据用户的兴趣特征挖掘出关于用户兴趣的关联规则集;
中心用户初始化模块,用于确定k个初始中心用户;
用户相似度计算模块,用于针对不同类型的特征采用不同的用户相似度计算方法,并进行加权相加,获得综合用户相似度;
用户群体划分模块,用于将每个用户分配到与之相似度最高的中心用户的所属簇中;
中心用户更新模块,用于利用改进的中心用户更新方法确定新中心用户;
核心中心用户识别模块,用于识别更新后的k个用户群体的k个用户数据,完成分类。
9.根据权利要求8所述的装置,其特征在于,所述用户相似度计算模块包括单值离散特征相似度计算单元、兴趣特征相似度计算单元以及综合加权单元,其中:
单值离散特征相似度计算单元利用简单匹配的方法进行相似度计算;
兴趣特征相似度计算单元将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
综合加权单元将单值离散特征相似度计算单元以及兴趣特征相似度计算单元输出的值进行加权相加,获得综合用户相似度。
10.根据权利要求8所述的装置,其特征在于,所述中心用户更新模块包括:用户特征类型判断单元、单值离散特征处理单元、兴趣特征处理单元以及更新完成判断单元;其中:
用户特征类型判断单元用于判断用户特征的类型,若为单值离散特征则将该特征输入单值离散特征处理单元,否则输入兴趣特征处理单元;
单值离散特征处理单元用于将用户的单子离散特征更改为单子离散特征中最频繁的值;
兴趣特征处理单元用于对多值离散特征值进行聚类处理,输出用户的兴趣特征;
更新完成判断单元用于判断中心用户的各个特征值是否与上一次更新的中心用户的特征值一直,若一致,则输出用户分类结果完成分类;否则继续更新中心用户的特征值。
CN201910832959.4A 2019-09-04 2019-09-04 一种基于聚类和关联规则的线上用户群体分类方法及装置 Active CN110532429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910832959.4A CN110532429B (zh) 2019-09-04 2019-09-04 一种基于聚类和关联规则的线上用户群体分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910832959.4A CN110532429B (zh) 2019-09-04 2019-09-04 一种基于聚类和关联规则的线上用户群体分类方法及装置

Publications (2)

Publication Number Publication Date
CN110532429A CN110532429A (zh) 2019-12-03
CN110532429B true CN110532429B (zh) 2021-05-11

Family

ID=68666837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910832959.4A Active CN110532429B (zh) 2019-09-04 2019-09-04 一种基于聚类和关联规则的线上用户群体分类方法及装置

Country Status (1)

Country Link
CN (1) CN110532429B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586001B (zh) * 2020-04-28 2022-11-22 咪咕文化科技有限公司 异常用户识别方法、装置、电子设备及存储介质
CN112926998B (zh) * 2021-03-24 2022-05-06 支付宝(杭州)信息技术有限公司 作弊识别方法和装置
CN114781624B (zh) * 2022-05-23 2023-01-10 上海行蕴信息科技有限公司 基于大数据分析的用户行为意图挖掘方法及大数据系统
CN116527620A (zh) * 2023-06-25 2023-08-01 上海帜讯信息技术股份有限公司 基于多种消息体的机器学习发送方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122031B1 (en) * 2009-06-11 2012-02-21 Google Inc. User label and user category based content classification
CN103853831A (zh) * 2014-03-10 2014-06-11 中国电子科技集团公司第二十八研究所 一种基于用户兴趣的个性化搜索实现方法
CN107391687A (zh) * 2017-07-24 2017-11-24 华中师范大学 一种面向地方志网站的混合推荐系统
CN109685159A (zh) * 2019-01-13 2019-04-26 胡燕祝 一种基于aprior算法的树扩展朴素贝叶斯场景分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389341B (zh) * 2015-10-22 2019-04-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN108595499A (zh) * 2018-03-18 2018-09-28 西安财经学院 一种克隆优化的粒子群聚类高维数据分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122031B1 (en) * 2009-06-11 2012-02-21 Google Inc. User label and user category based content classification
CN103853831A (zh) * 2014-03-10 2014-06-11 中国电子科技集团公司第二十八研究所 一种基于用户兴趣的个性化搜索实现方法
CN107391687A (zh) * 2017-07-24 2017-11-24 华中师范大学 一种面向地方志网站的混合推荐系统
CN109685159A (zh) * 2019-01-13 2019-04-26 胡燕祝 一种基于aprior算法的树扩展朴素贝叶斯场景分类方法

Also Published As

Publication number Publication date
CN110532429A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN103927675B (zh) 判断用户年龄段的方法及装置
CN110866782B (zh) 一种客户分类方法、系统以及电子设备
Romdhane et al. An efficient approach for building customer profiles from business data
CN113268669B (zh) 基于联合神经网络的面向关系挖掘的兴趣点推荐方法
CN106126549A (zh) 一种基于概率矩阵分解的社区信任推荐方法及其系统
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN112100512A (zh) 一种基于用户聚类和项目关联分析的协同过滤推荐方法
Grbovic et al. Supervised clustering of label ranking data using label preference information
Hicham et al. Analysis of unsupervised machine learning techniques for an efficient customer segmentation using clustering ensemble and spectral clustering
CN113343077A (zh) 一种融合用户兴趣时序波动的个性化推荐方法及系统
Chen et al. An extended study of the K-means algorithm for data clustering and its applications
Arevalillo Ensemble learning from model based trees with application to differential price sensitivity assessment
Gong et al. Sentiment analysis of online reviews for electric vehicles using the SMAA-2 method and interval type-2 fuzzy sets
Vaganov et al. Forecasting purchase categories with transition graphs using financial and social data
CN115905648B (zh) 基于高斯混合模型的用户群和金融用户群分析方法及装置
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN108133296B (zh) 基于活动的社交网络下的一种结合环境数据的活动出席预测方法
Wang et al. Computer supported data-driven decisions for service personalization: a variable-scale clustering method
CN108805199B (zh) 一种基于遗传算法的实体商业营销方法
Sitepu et al. Analysis of Fuzzy C-Means and Analytical Hierarchy Process (AHP) Models Using Xie-Beni Index
You et al. A hotel ranking model through online reviews with aspect-based sentiment analysis
Hauger et al. Comparison of recommender system algorithms focusing on the new-item and user-bias problem
Yong et al. Empirical study on credit classification of E-commerce sellers based on FCM algorithm
Darbanibasmanj et al. Application of machine learning to mining customer reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240716

Address after: Unit 708, 7th Floor, Building 3, No. 42 Qibei Road, Changping District, Beijing 102209

Patentee after: Smart Express (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China