CN113554041B - 一种对用户标记标签的方法和装置 - Google Patents
一种对用户标记标签的方法和装置 Download PDFInfo
- Publication number
- CN113554041B CN113554041B CN202010260060.2A CN202010260060A CN113554041B CN 113554041 B CN113554041 B CN 113554041B CN 202010260060 A CN202010260060 A CN 202010260060A CN 113554041 B CN113554041 B CN 113554041B
- Authority
- CN
- China
- Prior art keywords
- attribute value
- attribute
- centroid
- user
- centroids
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种对用户标记标签的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据属性值的大小,将各个用户划分为多个类别;分别计算各个所述类别对应的属性值质心和画像特征质心;基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类;根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签。该实施方式能够解决无法准确地对用户标记标的技术问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种对用户标记标签的方法和装置。
背景技术
随着用户数量的增加,需要对各个用户划分类别,目前常用的方法是根据某一个维度的属性值,将用户划分为若干个类别。比如,按照属性值的取值范围划分成多个区间,或者,按照用户人数的比例划分成多个区间。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
仅依据单一维度进行属性值区间划分,参考的信息比较单一,因此划分结果不够合理,从而导致无法准确地对用户标记标签。
发明内容
有鉴于此,本发明实施例提供一种对用户标记标签的方法和装置,以解决无法准确地对用户标记标的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种对用户标记标签的方法,包括:
根据属性值的大小,将各个用户划分为多个类别;
分别计算各个所述类别对应的属性值质心和画像特征质心;
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类;
根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签。
可选地,根据属性值的大小,将各个用户划分为多个类别,包括:
按照属性值由小到大的顺序,对各个用户进行排序;
将属性值划分为N个区间,根据所述各个用户的属性值将所述各个用户匹配至对应的区间,从而将所述各个用户划分为N个类别;其中,N为正整数。
可选地,对于每个类别,采用如下方法计算所述类别对应的属性值质心和画像特征质心:
从所述类别中各个用户的属性值中筛选出中位数,将所述中位数作为所述类别的属性值质心;
计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心。
可选地,计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心,包括:
对于特征向量中的每个特征维度,计算所述类别中各个用户的特征向量中所述特征维度对应的平均值,从而得到各个特征维度对应的平均值;
基于所述各个特征维度对应的平均值,构建所述类别的画像特征质心。
可选地,基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,包括:
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,从而确定任意两个相邻的所述属性值质心之间的属性分割点;
根据各个所述属性分割点,重新将所述各个用户划分为多个类别。
可选地,对于任意两个相邻的属性值质心,采用如下方法确定所述两个相邻的属性值质心之间的属性分割点:
在两个相邻的第一属性值质心与第二属性值质心之间确定属性分割点,使得:属性值在所述第一属性值质心与所述属性分割点之间的用户的特征向量到所述第一属性值质心对应的第一画像特征质心的距离,以及,属性值在所述属性分割点与所述第二属性值质心之间的用户的特征向量到所述第二属性值质心对应的第二画像特征质心的距离,之和最小。
可选地,根据各个所述属性分割点,重新将所述各个用户划分为多个类别,包括:
将属性值在任意两个相邻的属性分割点之间的用户聚为一簇,从而重新将所述各个用户划分为多个类别。
可选地,根据聚类结果将所述属性值划分为多个标记区间,包括:
将任意两个相邻的属性分割点分别作为一个标记区间的最小值和最大值,从而将所述属性值划分为多个标记区间;其中,每个标记区间对应于一个标签。
另外,根据本发明实施例的另一个方面,提供了一种对用户标记标签的装置,包括:
划分模块,用于根据属性值的大小,将各个用户划分为多个类别;
质心模块,用于分别计算各个所述类别对应的属性值质心和画像特征质心;
聚类模块,用于基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类;
标记模块,用于根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签。
可选地,所述划分模块还用于:
按照属性值由小到大的顺序,对各个用户进行排序;
将属性值划分为N个区间,根据所述各个用户的属性值将所述各个用户匹配至对应的区间,从而将所述各个用户划分为N个类别;其中,N为正整数。
可选地,所述质心模块还用于:对于每个类别,采用如下方法计算所述类别对应的属性值质心和画像特征质心:
从所述类别中各个用户的属性值中筛选出中位数,将所述中位数作为所述类别的属性值质心;
计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心。
可选地,所述质心模块还用于:
对于特征向量中的每个特征维度,计算所述类别中各个用户的特征向量中所述特征维度对应的平均值,从而得到各个特征维度对应的平均值;
基于所述各个特征维度对应的平均值,构建所述类别的画像特征质心。
可选地,所述聚类模块还用于:
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,从而确定任意两个相邻的所述属性值质心之间的属性分割点;
根据各个所述属性分割点,重新将所述各个用户划分为多个类别。
可选地,所述聚类模块还用于:对于任意两个相邻的属性值质心,采用如下方法确定所述两个相邻的属性值质心之间的属性分割点:
在两个相邻的第一属性值质心与第二属性值质心之间确定属性分割点,使得:属性值在所述第一属性值质心与所述属性分割点之间的用户的特征向量到所述第一属性值质心对应的第一画像特征质心的距离,以及,属性值在所述属性分割点与所述第二属性值质心之间的用户的特征向量到所述第二属性值质心对应的第二画像特征质心的距离,之和最小。
可选地,所述聚类模块还用于:
将属性值在任意两个相邻的属性分割点之间的用户聚为一簇,从而重新将所述各个用户划分为多个类别。
可选地,所述标记模块还用于:
将任意两个相邻的属性分割点分别作为一个标记区间的最小值和最大值,从而将所述属性值划分为多个标记区间;其中,每个标记区间对应于一个标签。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用分别计算各个类别对应的属性值质心和画像特征质心,基于各个画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类的技术手段,所以克服了现有技术中无法准确地对用户标记标签的技术问题。本发明实施例在现有聚类方法的基础上引入了属性值质心,并基于属性值质心和画像特征质心对用户进行聚类,结合了多维度的用户特征信息对属性值划分区间,使得区间的划分更加合理,从而能够准确地对用户标记标签。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的对用户标记标签的方法的主要流程的示意图;
图2是根据本发明实施例的确定属性分割点的示意图;
图3是根据本发明一个可参考实施例的对用户标记标签的方法的主要流程的示意图;
图4是根据本发明另一个可参考实施例的对用户标记标签的方法的主要流程的示意图;
图5是根据本发明实施例的对用户标记标签的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的对用户标记标签的方法的主要流程的示意图。作为本发明的一个实施例,如图1所示,所述对用户标记标签的方法可以包括:
步骤101,根据属性值的大小,将各个用户划分为多个类别。
在本发明的实施例中,属性值可以是用户的年龄、身高、积分、消费能力或者考试成绩等单一维度的属性值,基于单一维度的属性值将各个用户划分为多个类别。
可选地,步骤101可以包括:按照属性值由小到大的顺序,对各个用户进行排序;将属性值划分为N个区间,根据所述各个用户的属性值将所述各个用户匹配至对应的区间,从而将所述各个用户划分为N个类别;其中,N为正整数。在本发明的实例中,首先确定要划分的类别数量N,然后按照用户的属性值大小将用户划分为N个类别,并使得每个类别中的用户数量相等或者尽可能相等。需要指出的是,在本发明的实施例中,由于按照属性值由小到大的顺序将用户划分为N个类别,那么划分后的各个类别之间也同样按照由小到大的顺序排序。也就是说,对于任意一个类别来说,该类别中每个用户的属性值都小于与该类别相邻的某一个类别中每个用户的属性值,同时大于与该类别相邻的另一个类别中每个用户的属性值。
步骤102,分别计算各个所述类别对应的属性值质心和画像特征质心。
能够代表用户特点的信息有很多维度,例如:用户的性别、年龄、职业等静态信息,用户使用商家服务的频率、月平均消费等服务使用特性以及用户的偏好等。本发明实施例综合考虑了多个不同维度的信息,并使用聚类的方法协同使用不同维度的信息实现标记区间的划分。为了改进现有的聚类方法,本发明实施例在现有聚类方法的基础上引入了属性值质心,然后基于属性值质心和画像特征质心对用户进行聚类。
对于每个类别,采用如下方法计算所述类别对应的属性值质心和画像特征质心:从所述类别中各个用户的属性值中筛选出中位数,将所述中位数作为所述类别的属性值质心;计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心。
不同于聚类方法中原本的画像特征质心,属性值质心表示了一个类别中各个用户的属性值的中位数。同时,本发明实施例也保留了聚类方法中原本的画像特征质心,首先将用户的画像特征(用户的性别、年龄、职业等静态信息,用户使用商家服务的频率、月平均消费等服务使用特性以及用户的偏好等不同维度的特征)加工成特征向量,一个类别中各个用户的特征向量的平均值即为该类别的画像特征质心。在本发明的实施例中,画像特征质心的作用是帮助与之接近的用户聚集到同一个类别,属性值质心的作用是帮助属性值高的用户聚集到用户类别高的类别,属性值低的用户聚集到用户类别低的类别。
可选地,计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心,包括:对于特征向量中的每个特征维度,计算所述类别中各个用户的特征向量中所述特征维度对应的平均值,从而得到各个特征维度对应的平均值;基于所述各个特征维度对应的平均值,构建所述类别的画像特征质心。假设特征向量为M个维度,则对每个维度分别计算一个平均值,从而形成一个新的M个维度的向量(即为画像特征质心)。
步骤103,基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类。
在聚类的过程中,主要考虑两个原则:1、属性值相同或相似的用户在类别划分的过程中相邻;2、属性值与用户类别单调,即,属性值高的用户类别不能低于属性值低的用户。而且在进行聚类的过程中,要求聚在同一类别中的用户的属性值必须相邻。
可选地,步骤103可以包括:基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,从而确定任意两个相邻的所述属性值质心之间的属性分割点;根据各个所述属性分割点,重新将所述各个用户划分为多个类别。在要求属性值相邻的用户,分级也必须相邻的情况下,聚类实际上就是在积分的维度上划分几个属性分割点,让相邻两个属性分割点之间的用户聚在一个类别中。因此,在给定属性值质心的情况下,只需要决定两个属性值质心之间的用户从哪里分割,属性分割点左侧的用户向较小的属性值质心和对应的画像特征质心聚类,属性分割点右侧的用户向较大的属性值质心和对应的画像特征质心聚类。
可选地,对于任意两个相邻的属性值质心,采用如下方法确定所述两个相邻的属性值质心之间的属性分割点:在两个相邻的第一属性值质心与第二属性值质心之间确定属性分割点,使得:属性值在所述第一属性值质心与所述属性分割点之间的用户的特征向量到所述第一属性值质心对应的第一画像特征质心的距离,以及,属性值在所述属性分割点与所述第二属性值质心之间的用户的特征向量到所述第二属性值质心对应的第二画像特征质心的距离,之和最小。考虑到聚类问题的目标为每个数据点到所属质心的距离最短,本发明实施例使用用户的特征向量到所属的画像特征质心的距离的总和最小作为要优化的目标。也就是说,在所有的属性分割点中,选取使每个用户的特征向量到所对应的画像特征质心距离最短的结果。在完成了一步聚类以后,可以再根据聚类结果更新属性值质心和画像特征质心(即执行步骤102),然后再进行聚类(即执行步骤103),直到结果不再发生变化为止。
可选地,根据各个所述属性分割点,重新将所述各个用户划分为多个类别,包括:将属性值在任意两个相邻的属性分割点之间的用户聚为一簇,从而重新将所述各个用户划分为多个类别。根据聚类结果,重新划分类别,重新划分类别后仍然得到N个类别。
如图2所示,沿着从左到右的方向,属性值逐渐变大。聚类过程包括:对于每两个相邻的属性值质心,划分一个属性值的分割点,该分割点以左和以右分别向左侧和右侧的属性值质心和相对应的画像户特征质心聚集。具体的距离过程如下:
1)首先,两个相邻的属性值质心的值分别为a和b,属性值小于a的用户必定向a或者小于a的属性值质心聚集,积分大于b的用户必定向b或者大于b的属性值质心聚集。因此,对于属性值质心a和b,要划定一个a和b之间的属性分割点c,那么>=c的用户向b聚集,<c的用户向a聚集。
2)属性值质心a和b对应的用户特征质心表示为xa和xb。a和b之间的某一点i的用户特征质心表示为xi。i与a和b的距离分别为和/>选择属性分割点c,使得
∑a≤iccd(i,a)+∑c≤i≤bd(i,b)最小。
3)按照属性分割点,把每两个相邻的属性分割点之间的用户聚为一个类别(属性值最大分割点以右和属性值最小分界点以左各为一个类别)。
4)重复步骤2)和3),直到收敛为止(聚类的结果不再发生变化)。
步骤104,根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签。
按照步骤103得到的聚类结果将属性值划分为多个标记区间,比如将属性值最小的标记区间作为一级,依次类推,属性值最大的标记区间作为N级。对于每一个待标记的目标用户,判断该目标用户的属性值落在哪个标记区间,就将该目标用户划分到哪个类别。
可选地,步骤104可以包括:将任意两个相邻的属性分割点分别作为一个标记区间的最小值和最大值,从而将所述属性值划分为多个标记区间;其中,每个标记区间对应于一个标签。在本发明的实施例中,将任意两个相邻的属性分割点作为属性值的一个标记区间,其中一个属性分割点为该标记区间的最小值,另一个属性分割点为该标记区间的最大值。而且,每个标记区间对应于一个标签(比如低、中、高等标签),如果目标用户的属性值落在某一个标记区间内,则将该目标用户标记为对应的标签。
根据上面所述的各种实施例,可以看出本发明实施例通过分别计算各个类别对应的属性值质心和画像特征质心,基于各个画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类的技术手段,解决了现有技术中无法准确地对用户标记标签的技术问题。本发明实施例在现有聚类方法的基础上引入了属性值质心,并基于属性值质心和画像特征质心对用户进行聚类,结合了多维度的用户特征信息对属性值划分区间,使得区间的划分更加合理,从而能够准确地对用户标记标签。
图3是根据本发明一个可参考实施例的对用户标记标签的方法的主要流程的示意图。作为本发明的又一个实施例,如图3所示,所述对用户标记标签的方法可以包括:
步骤301,获取各个用户的属性值和特征数据,并将各个用户的特征数据加工成特征向量。
在该步骤中,获取每个用户的属性值(比如用户的年龄、身高、积分、消费能力或者考试成绩等单一维度的属性值)和特征数据,能够代表用户特点的信息有很多维度,例如:用户的性别、年龄、职业等静态信息,用户使用商家服务的频率、月平均消费等服务使用特性以及用户的偏好等都可以作为用户的特征数据,这些可以从用户的基础信息中提取得到。
另外,特征数据还可以包括用户在获得属性值的周期内与获得属性值相关的行为。比如,每月平均的特快送单量,每月平均的特惠送单量,每月平均的特快送消费金额,每月平均的特惠送消费金额,每月所有产品的总平均单量和金额,这些信息可以从个人快递的运单记录中统计。可选地,特征数据还可以包括用户其它的行为信息,包括每月的消费频率和金额,这些可以从订单信息的表格中提取。在特征数据提取完以后,将这些维度的特征数据加工成特征向量。每个向量对应了一个用户的相关记录,向量中的每个特征维度对应了一个维度的特征信息。某个用户的每个特征向量同时也对应了该用户的属性值。
步骤302,对各个用户的特征向量进行预处理。
在数据提取完并加工成特征向量以后,开始对数据进行预处理。数据预处理的目的是将数据进行数学上的处理,使其更有利于进行聚类。例如,有的数据特征分布十分不均衡,在取值较低的区间频次高,取值较高的区间频次低。例如,每月平均单量大的用户是少数,平均单量小的用户是多数。如果不加以预处理,就会使每月平均单量特别小的用户被优先聚集在一起,形成一个非常大的集群,影响聚类效果。因此,对于这样的特征要先取其对数,让分布更接近高斯分布。
另外,对于每个特征维度,还要进行标准化操作,使其方差一致,具体操作为每个特征维度的数据减去这个特征维度的数据的均值,再除以这个特征维度的数据的标准差。这种方法排除有些特征方差过大,在聚类过程中占据了主导地位。例如,每月单量和每月消费金额的单位不同,导致其取值的区间也不同,一般来说,由于每单的价格在十几元左右,每月消费金额的取值一般会是每月平均单量的十几倍。如果不进行标准化,数据受每月平均消费金额的影响就会特别大,影响聚类效果。对数据进行标准化就能够避免这一问题。
步骤303,根据属性值的大小,将各个用户划分为多个类别。
在完成了数据预处理之后,就开始了正式的聚类。首先要确定需要将用户分成多少个类别。例如,可以分为初级会员,中级会员,高级会员,铁杆会员,资深会员等5类,会员的类别依次升高,则按照用户的属性值大小将用户划分为5个类别,并使得每个类别中的用户数量相等或者尽可能相等。
步骤304,分别计算各个所述类别对应的属性值质心和画像特征质心。
本发明实施例综合考虑了多个不同维度的信息,并使用聚类的方法协同使用不同维度的信息实现标记区间的划分。为了改进现有的聚类方法,本发明实施例在现有聚类方法的基础上引入了属性值质心,然后基于属性值质心和画像特征质心对用户进行聚类。
对于每个类别,采用如下方法计算所述类别对应的属性值质心和画像特征质心:从所述类别中各个用户的属性值中筛选出中位数,将所述中位数作为所述类别的属性值质心;计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心。
不同于聚类方法中原本的画像特征质心,属性值质心表示了一个类别中各个用户的属性值的中位数。同时,本发明实施例也保留了聚类方法中原本的画像特征质心,首先将用户的画像特征(用户的性别、年龄、职业等静态信息,用户使用商家服务的频率、月平均消费等服务使用特性以及用户的偏好等不同维度的特征)加工成特征向量,一个类别中各个用户的特征向量的平均值即为该类别的画像特征质心。在本发明的实施例中,画像特征质心的作用是帮助与之接近的用户聚集到同一个类别,属性值质心的作用是帮助属性值高的用户聚集到用户类别高的类别,属性值低的用户聚集到用户类别低的类别。
步骤305,基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类。
通过步骤305进行一次聚类,然后基于聚类结果迭代式计算属性值质心和画像特征质心并更新划分结果,重复执行步骤304和步骤305,直到聚类的结果不再发生变化。
步骤306,根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签。
在聚类结束以后,按照聚类得到的结果将属性值划分为多个标记区间,属性值积分最小的一个类别的用户为初级会员,以此递推,属性值最大的一个类别的用户为资深会员。对于每一个待标记的目标用户,判断该目标用户的属性值落在哪个标记区间,就将该目标用户划分到哪个类别,将该目标用户标记为对应的标签。
另外,在本发明一个可参考实施例中对用户标记标签的方法的具体实施内容,在上面所述对用户标记标签的方法中已经详细说明了,故在此重复内容不再说明。
图4是根据本发明另一个可参考实施例的对用户标记标签的方法的主要流程的示意图。作为本发明的另一个实施例,如图4所示,所述对用户标记标签的方法可以包括:
步骤401,按照属性值由小到大的顺序,对各个用户进行排序。
步骤402,将属性值划分为N个区间,根据所述各个用户的属性值将所述各个用户匹配至对应的区间,从而将所述各个用户划分为N个类别。
首先确定要划分的类别数量N,然后按照用户的属性值大小将用户划分为N个类别,并使得每个类别中的用户数量相等或者尽可能相等。由于按照属性值由小到大的顺序将用户划分为N个类别,那么划分后的各个类别之间也同样按照由小到大的顺序排序。
步骤403,分别计算各个类别对应的属性值质心和画像特征质心。
在本发明的实施例中,属性值质心表示了一个类别中各个用户的属性值的中位数。可以通过如下方法计算画像特征执行:对于特征向量中的每个特征维度,计算所述类别中各个用户的特征向量中所述特征维度对应的平均值,从而得到各个特征维度对应的平均值;基于所述各个特征维度对应的平均值,构建所述类别的画像特征质心。
步骤404,基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,从而确定任意两个相邻的所述属性值质心之间的属性分割点。
在要求属性值相邻的用户,分级也必须相邻的情况下,聚类实际上就是在积分的维度上划分几个属性分割点,让相邻两个属性分割点之间的用户聚在一个类别中。因此,在给定属性值质心的情况下,只需要决定两个属性值质心之间的用户从哪里分割,属性分割点左侧的用户向较小的属性值质心和对应的画像特征质心聚类,属性分割点右侧的用户向较大的属性值质心和对应的画像特征质心聚类。
可选地,对于任意两个相邻的属性值质心,采用如下方法确定所述两个相邻的属性值质心之间的属性分割点:在两个相邻的第一属性值质心与第二属性值质心之间确定属性分割点,使得:属性值在所述第一属性值质心与所述属性分割点之间的用户的特征向量到所述第一属性值质心对应的第一画像特征质心的距离,以及,属性值在所述属性分割点与所述第二属性值质心之间的用户的特征向量到所述第二属性值质心对应的第二画像特征质心的距离,之和最小。
步骤405,根据各个所述属性分割点,重新将所述各个用户划分为N个类别。
完成一次聚类后,将属性值在任意两个相邻的属性分割点之间的用户聚为一簇,从而重新将所述各个用户划分为N个类别。
步骤406,再次计算各个类别的属性值质心和画像特征质心,判断是否发生变化;若是,则执行步骤404;若否,则执行步骤407。
基于步骤405的分类结果,计算重新划分类别后的各个类别的属性值质心和画像特征质心与前一次的计算结果是否一致,如果一致,则停止聚类,执行步骤407;如果不一致,则再次执行步骤404,直到聚类结果不再发生变化。
步骤407,将任意两个相邻的属性分割点分别作为一个标记区间的最小值和最大值,从而将所述属性值划分为多个标记区间。
步骤408,基于各个所述标记区间对目标用户标记标签。
如果目标用户的属性值落在某一个标记区间内,则将该目标用户标记为对应的标签。
另外,在本发明另一个可参考实施例中对用户标记标签的方法的具体实施内容,在上面所述对用户标记标签的方法中已经详细说明了,故在此重复内容不再说明。
图5是根据本发明实施例的对用户标记标签的装置的主要模块的示意图,如图5所示,所述对用户标记标签的装置500包括划分模块501、质心模块502、聚类模块503和标记模块504;其中,划分模块501用于根据属性值的大小,将各个用户划分为多个类别;质心模块502用于分别计算各个所述类别对应的属性值质心和画像特征质心;聚类模块503用于基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类;标记模块504用于根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签。
可选地,所述划分模块501还用于:
按照属性值由小到大的顺序,对各个用户进行排序;
将属性值划分为N个区间,根据所述各个用户的属性值将所述各个用户匹配至对应的区间,从而将所述各个用户划分为N个类别;其中,N为正整数。
可选地,所述质心模块502还用于:对于每个类别,采用如下方法计算所述类别对应的属性值质心和画像特征质心:
从所述类别中各个用户的属性值中筛选出中位数,将所述中位数作为所述类别的属性值质心;
计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心。
可选地,所述质心模块502还用于:
对于特征向量中的每个特征维度,计算所述类别中各个用户的特征向量中所述特征维度对应的平均值,从而得到各个特征维度对应的平均值;
基于所述各个特征维度对应的平均值,构建所述类别的画像特征质心。
可选地,所述聚类模块503还用于:
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,从而确定任意两个相邻的所述属性值质心之间的属性分割点;
根据各个所述属性分割点,重新将所述各个用户划分为多个类别。
可选地,所述聚类模块503还用于:对于任意两个相邻的属性值质心,采用如下方法确定所述两个相邻的属性值质心之间的属性分割点:
在两个相邻的第一属性值质心与第二属性值质心之间确定属性分割点,使得:属性值在所述第一属性值质心与所述属性分割点之间的用户的特征向量到所述第一属性值质心对应的第一画像特征质心的距离,以及,属性值在所述属性分割点与所述第二属性值质心之间的用户的特征向量到所述第二属性值质心对应的第二画像特征质心的距离,之和最小。
可选地,所述聚类模块503还用于:
将属性值在任意两个相邻的属性分割点之间的用户聚为一簇,从而重新将所述各个用户划分为多个类别。
可选地,所述标记模块504还用于:
将任意两个相邻的属性分割点分别作为一个标记区间的最小值和最大值,从而将所述属性值划分为多个标记区间;其中,每个标记区间对应于一个标签。
根据上面所述的各种实施例,可以看出本发明实施例通过分别计算各个类别对应的属性值质心和画像特征质心,基于各个画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类的技术手段,解决了现有技术中无法准确地对用户标记标签的技术问题。本发明实施例在现有聚类方法的基础上引入了属性值质心,并基于属性值质心和画像特征质心对用户进行聚类,结合了多维度的用户特征信息对属性值划分区间,使得区间的划分更加合理,从而能够准确地对用户标记标签。
需要说明的是,在本发明所述对用户标记标签的装置的具体实施内容,在上面所述对用户标记标签的方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的对用户标记标签的方法或对用户标记标签的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的对用户标记标签的方法一般由服务器605执行,相应地,所述对用户标记标签的装置一般设置在服务器605中。本发明实施例所提供的对用户标记标签的方法也可以由终端设备601、602、603执行,相应地,所述对用户标记标签的装置可以设置在终端设备601、602、603中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括划分模块、质心模块、聚类模块和标记模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,该设备实现如下方法:根据属性值的大小,将各个用户划分为多个类别;分别计算各个所述类别对应的属性值质心和画像特征质心;基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类;根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签。
根据本发明实施例的技术方案,因为采用分别计算各个类别对应的属性值质心和画像特征质心,基于各个画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类的技术手段,所以克服了现有技术中无法准确地对用户标记标签的技术问题。本发明实施例在现有聚类方法的基础上引入了属性值质心,并基于属性值质心和画像特征质心对用户进行聚类,结合了多维度的用户特征信息对属性值划分区间,使得区间的划分更加合理,从而能够准确地对用户标记标签。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (9)
1.一种对用户标记标签的方法,其特征在于,包括:
根据属性值的大小,将各个用户划分为多个类别;
分别计算各个所述类别对应的属性值质心和画像特征质心;
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类;
根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签;
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,包括:
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,从而确定任意两个相邻的所述属性值质心之间的属性分割点;
根据各个所述属性分割点,重新将所述各个用户划分为多个类别;
对于任意两个相邻的属性值质心,采用如下方法确定所述两个相邻的属性值质心之间的属性分割点:
在两个相邻的第一属性值质心与第二属性值质心之间确定属性分割点,使得:属性值在所述第一属性值质心与所述属性分割点之间的用户的特征向量到所述第一属性值质心对应的第一画像特征质心的距离,以及,属性值在所述属性分割点与所述第二属性值质心之间的用户的特征向量到所述第二属性值质心对应的第二画像特征质心的距离,之和最小。
2.根据权利要求1所述的方法,其特征在于,根据属性值的大小,将各个用户划分为多个类别,包括:
按照属性值由小到大的顺序,对各个用户进行排序;
将属性值划分为N个区间,根据所述各个用户的属性值将所述各个用户匹配至对应的区间,从而将所述各个用户划分为N个类别;其中,N为正整数。
3.根据权利要求1所述的方法,其特征在于,对于每个类别,采用如下方法计算所述类别对应的属性值质心和画像特征质心:
从所述类别中各个用户的属性值中筛选出中位数,将所述中位数作为所述类别的属性值质心;
计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心。
4.根据权利要求3所述的方法,其特征在于,计算所述类别中各个用户的特征向量的平均值,将所述平均值作为所述类别的画像特征质心,包括:
对于特征向量中的每个特征维度,计算所述类别中各个用户的特征向量中所述特征维度对应的平均值,从而得到各个特征维度对应的平均值;
基于所述各个特征维度对应的平均值,构建所述类别的画像特征质心。
5.根据权利要求1所述的方法,其特征在于,根据各个所述属性分割点,重新将所述各个用户划分为多个类别,包括:
将属性值在任意两个相邻的属性分割点之间的用户聚为一簇,从而重新将所述各个用户划分为多个类别。
6.根据权利要求5所述的方法,其特征在于,根据聚类结果将所述属性值划分为多个标记区间,包括:
将任意两个相邻的属性分割点分别作为一个标记区间的最小值和最大值,从而将所述属性值划分为多个标记区间;其中,每个标记区间对应于一个标签。
7.一种对用户标记标签的装置,其特征在于,包括:
划分模块,用于根据属性值的大小,将各个用户划分为多个类别;
质心模块,用于分别计算各个所述类别对应的属性值质心和画像特征质心;
聚类模块,用于基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类;
标记模块,用于根据聚类结果将所述属性值划分为多个标记区间,基于各个所述标记区间对目标用户标记标签;
所述聚类模块还用于:
基于各个所述画像特征质心,对属性值在任意两个相邻的属性值质心之间的各个用户进行聚类,从而确定任意两个相邻的所述属性值质心之间的属性分割点;
根据各个所述属性分割点,重新将所述各个用户划分为多个类别;
所述聚类模块还用于:对于任意两个相邻的属性值质心,采用如下方法确定所述两个相邻的属性值质心之间的属性分割点:
在两个相邻的第一属性值质心与第二属性值质心之间确定属性分割点,使得:属性值在所述第一属性值质心与所述属性分割点之间的用户的特征向量到所述第一属性值质心对应的第一画像特征质心的距离,以及,属性值在所述属性分割点与所述第二属性值质心之间的用户的特征向量到所述第二属性值质心对应的第二画像特征质心的距离,之和最小。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010260060.2A CN113554041B (zh) | 2020-04-03 | 2020-04-03 | 一种对用户标记标签的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010260060.2A CN113554041B (zh) | 2020-04-03 | 2020-04-03 | 一种对用户标记标签的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113554041A CN113554041A (zh) | 2021-10-26 |
CN113554041B true CN113554041B (zh) | 2023-09-26 |
Family
ID=78100867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010260060.2A Active CN113554041B (zh) | 2020-04-03 | 2020-04-03 | 一种对用户标记标签的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113554041B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699573A (zh) * | 2013-11-28 | 2014-04-02 | 微梦创科网络科技(中国)有限公司 | 社交平台的ugc标签聚类方法和装置 |
CN104641337A (zh) * | 2012-08-30 | 2015-05-20 | 谷歌公司 | 显示图形键盘 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN109977177A (zh) * | 2019-03-27 | 2019-07-05 | 新奥数能科技有限公司 | 生成用户画像的方法及装置 |
CN110363387A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于大数据的画像分析方法、装置、计算机设备及存储介质 |
CN110909222A (zh) * | 2019-10-12 | 2020-03-24 | 中国平安人寿保险股份有限公司 | 基于聚类的用户画像建立方法、装置、介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235623B2 (en) * | 2016-02-12 | 2019-03-19 | Adobe Inc. | Accurate tag relevance prediction for image search |
-
2020
- 2020-04-03 CN CN202010260060.2A patent/CN113554041B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104641337A (zh) * | 2012-08-30 | 2015-05-20 | 谷歌公司 | 显示图形键盘 |
CN103699573A (zh) * | 2013-11-28 | 2014-04-02 | 微梦创科网络科技(中国)有限公司 | 社交平台的ugc标签聚类方法和装置 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN109977177A (zh) * | 2019-03-27 | 2019-07-05 | 新奥数能科技有限公司 | 生成用户画像的方法及装置 |
CN110363387A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于大数据的画像分析方法、装置、计算机设备及存储介质 |
CN110909222A (zh) * | 2019-10-12 | 2020-03-24 | 中国平安人寿保险股份有限公司 | 基于聚类的用户画像建立方法、装置、介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Ravish Sharma ; Punam Bedi.Personalized Tag Recommendations to Enhance User's Perception.《2009 International Conference on Advances in Recent Technologies in Communication and Computing》.2009,摘要. * |
电力用户行为画像构建技术研究;傅军;许鑫;罗迪;朱天博;刘霞;;电气应用(13);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113554041A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536650B (zh) | 生成梯度提升树模型的方法和装置 | |
CN112527649A (zh) | 一种测试用例的生成方法和装置 | |
CN109697641A (zh) | 计算商品相似度的方法和装置 | |
CN109903105B (zh) | 一种完善目标商品属性的方法和装置 | |
CN108764319A (zh) | 一种样本分类方法和装置 | |
CN114219545B (zh) | 一种数据处理的方法和装置 | |
CN112418258B (zh) | 一种特征离散化方法和装置 | |
CN110443264A (zh) | 一种聚类的方法和装置 | |
CN110298371A (zh) | 数据聚类的方法和装置 | |
CN110910178A (zh) | 一种生成广告的方法和装置 | |
CN110503117A (zh) | 数据聚类的方法和装置 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN112784861B (zh) | 相似度的确定方法、装置、电子设备和存储介质 | |
CN113554041B (zh) | 一种对用户标记标签的方法和装置 | |
CN107463628B (zh) | 数据填充方法及其系统 | |
CN113239687B (zh) | 一种数据处理方法和装置 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN111046892A (zh) | 异常识别方法和装置 | |
CN111046894B (zh) | 识别马甲账号的方法和装置 | |
CN113468354A (zh) | 推荐图表的方法、装置、电子设备及计算机可读介质 | |
CN110837525B (zh) | 数据处理方法及其装置、电子设备以及计算机可读介质 | |
CN107368597B (zh) | 信息输出方法和装置 | |
CN110378714B (zh) | 一种处理访问数据的方法和装置 | |
CN113760695A (zh) | 一种定位问题代码的方法和装置 | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |