CN106202388B

CN106202388B - 一种用户等级自动划分方法及系统

Info

Publication number: CN106202388B
Application number: CN201610537520.5A
Authority: CN
Inventors: 龚灿
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2017-12-08
Anticipated expiration: 2036-07-08
Also published as: CN106202388A; WO2018006631A1

Abstract

本发明公开了一种用户等级自动划分方法及系统，涉及数据挖掘技术领域。该方法包括：S1、选取原始样本数据；S2、选取至少一种用户特征作为计算距离的维度；S3、确定分类的个数K；S4、随机在原始样本数据中挑选K个用户作为初始类心；S5、测量原始样本数据中剩余的每个用户到当前各个类心的距离，将剩余的每个用户归类到距离最近的一个类中，完成K个类的划分；S6、重新计算各个类的类心；S7、重复迭代S5、S6，直至新的类心与原类心相等或者变化量小于指定阈值时停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类。本发明能实现用户等级的自动划分，准确、高效，节省人力成本。

Description

一种用户等级自动划分方法及系统

技术领域

本发明涉及数据挖掘技术领域，具体来讲是一种用户等级自动划分方法及系统。

背景技术

随着互联网技术的迅速发展，越来越多的用户可以使用电脑、手机等终端通过网络在各种网站上进行娱乐和工作。而对于各类网站来说，其用户群也随着用户数量的不断增多而变得越来越庞大。为了满足日益增大的用户群，提高网站服务质量，提升用户体验，通常需要对用户等级进行划分。例如，在视频直播网站的各业务场景中，为了刺激用户的观看兴致，提高观看量和用户体验，通常会对网站中的用户等级进行一系列的划分。

目前，各大网站在进行用户等级的划分时，普遍采用的是一种人工经验划分的方式。然而，在实际操作中，全由人工采用手动划分用户等级的方法，往往带有较大程度的主观性，使得划分标准不统一；另外，在海量数据的场景下，用户数据往往维度多、数据量大，靠人工评判用户等级划分标准往往不准确、覆盖率也不够高、重复性的工作也容易导致失误，而且人工操作时间较长，划分效率较低，人力成本较大。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种用户等级自动划分方法及系统，能实现用户等级的自动划分，准确、高效、节省人力成本。

为达到以上目的，本发明提供一种用于直播网站的直播房间推荐方法，包括以下步骤：

步骤S1、选择样本数据：选取指定时间段内的用户行为数据作为原始样本数据，转入步骤S2；

步骤S2、选择用户特征：在用户行为数据中选取至少一种用户特征作为计算距离的维度，转入步骤S3；

步骤S3、确定分类的个数K值：根据用户被分成几个类别等级，确定分类的个数K，K为正整数，转入步骤S4；

步骤S4、确定初始类心：随机在原始样本数据中挑选K个用户作为初始类心，转入步骤S5；

步骤S5、归类划分：根据步骤S2中选取的维度，测量原始样本数据中剩余的每个用户到当前各个类心的距离D；将所述剩余的每个用户归类到距离最近的一个类中，完成K个类的划分，转入步骤S6；

步骤S6、计算新的类心：在当前已经划分好的K个类中，重新计算各个类的类心，转入步骤S7；

步骤S7、重复迭代步骤S5、S6，直至新的类心与原类心相等或者变化量小于指定阈值时，停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类。

在上述技术方案的基础上，步骤S2中所述用户特征包括用户观看时长、用户观看次数、用户发送弹幕数、用户发送免费道具数、用户在线领取免费道具数、用户发送付费道具数、用户关注房间数、用户关注分区数。

在上述技术方案的基础上，在步骤S2之后还包括归一化特征值的操作：对每个选取的用户特征进行特征值的归一化计算，计算公式为：Y＝(X-MinValue(X))/(MaxValue(X)-MinValue(X))，其中，Y为归一化后的特征值，X为某个用户特征对应的一个用户特征值，MinValue(X)为该用户特征中最小的用户特征值，MaxValue(X)为该用户特征中最大的用户特征值，归一化之后的用户特征值都集中在(0,1]之间。

在上述技术方案的基础上，步骤S5中，距离D的计算公式为：

D＝(x_j-μ_i)²

其中，x_j为第j个用户特征，j为正整数，μ_i为第i个类的类心，i为1～K的正整数。

在上述技术方案的基础上，步骤S6具体包括以下操作：步骤S601：针对当前K类中每一类下属的每一个用户，分别计算该用户到本类其他用户的距离和V，距离和计算公式为：

其中，x_j为第j个用户特征，j为正整数，μ_i为第i个类的类心，i为1～K的正整数，s_i表示用户特征的集合，转入步骤S602；步骤S602：为K类中的每一类选取距离和最小的用户作为该类的新的类心。

本发明同时还提供一种用户等级自动划分系统，包括该系统包括样本数据选择模块、用户特征选择模块、初始类心确定模块、归类划分模块、新类心计算模块和迭代运算模块；所述样本数据选择模块用于：选取指定时间段内的用户行为数据作为原始样本数据；所述用户特征选择模块用于：在用户行为数据中选取至少一种用户特征作为计算距离的维度；所述初始类心确定模块用于：根据用户被分成几个类别等级，确定分类的个数K，K为正整数；随机在原始样本数据中挑选K个用户作为初始类心；所述归类划分模块用于：根据用户特征选择模块选取的维度，测量原始样本数据中剩余的每个用户到当前各个类心的距离D；将所述剩余的每个用户归类到距离最近的一个类中，完成K个类的划分；所述新类心计算模块用于：在当前已经划分好的K个类中，重新计算各个类的类心；所述迭代运算模块用于：重复迭代调用归类划分模块和新类心计算模块进行归类划分操作及新类心计算操作，直至新的类心与原类心相等或者变化量小于指定阈值时，停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类。

在上述技术方案的基础上，所述用户特征包括用户观看时长、用户观看次数、用户发送弹幕数、用户发送免费道具数、用户在线领取免费道具数、用户发送付费道具数、用户关注房间数、用户关注分区数。

在上述技术方案的基础上，该系统还包括特征值归一化模块，特征值归一化模块用于对每个选取的用户特征进行特征值的归一化计算，计算公式为：Y＝(X-MinValue(X))/(MaxValue(X)-MinValue(X))，其中，Y为归一化后的特征值，X为某个用户特征对应的一个用户特征值，MinValue(X)为该用户特征中最小的用户特征值，MaxValue(X)为该用户特征中最大的用户特征值，归一化之后的用户特征值都集中在(0,1]之间。

在上述技术方案的基础上，所述归类划分模块测量距离D的计算公式为：

D＝(x_j-μ_i)²

在上述技术方案的基础上，所述新类心计算模块重新计算各个类的类心的具体过程为：针对当前K类中每一类下属的每一个用户，分别计算该用户到本类其他用户的距离和V，距离和计算公式为：

其中，x_j为第j个用户特征，j为正整数，μ_i为第i个类的类心，i为1～K的正整数，s_i表示用户特征的集合；为K类中的每一类选取距离和最小的用户作为该类的新的类心。

本发明的有益效果在于：

(1)本发明在进行用户等级划分时，先选取指定时间段内的用户行为数据作为原始样本数据；然后选取至少一种用户特征作为计算距离的维度；当确定分类的个数K后，随机在原始样本数据中挑选K个用户作为初始类心；接着，测量原始样本数据中剩余的每个用户到当前各个类心的距离，将剩余的每个用户归类到距离最近的一个类中，完成K个类的划分；再重新计算各个类的类心；最后重复迭代进行归类划分操作及新类心计算操作，直至新的类心与原类心相等或者变化量小于指定阈值时，停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类。

与现有技术相比，本发明能实现用户等级的自动划分，不但使得用户的等级划分过程变得更加的智能化、自动化；而且用户等级分类的质量高、效率高、可靠性强，有效的节省了人力成本，用户体验效果好。

(2)本发明中，在选取用户特征后，会对每一个选取的特征属性进行归一化特征值的操作，该操作能避免所选的用户特征量纲不同，对分类结果造成影响，从而提高用户等级划分的准确性。

(3)相比传统的K-means聚类算法，本发明基于的K-medios聚类的类心采用中心值的计算方式，使得分类算法受离群点的影响更小，分类更准确。

附图说明

图1为本发明实施例中用户等级自动划分方法的流程图；

图2为本发明实施例中用户等级自动划分系统的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。

聚类分析是数据挖掘及机器学习领域内的重点问题之一，在数据挖掘、模式识别、决策支持、机器学习及图像分割等领域有广泛的应用，是最重要的数据分析方法之一。而K-means算法是一种使用最广泛的基于划分的硬聚类分析算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

而本发明中，采用的是K-means聚类的改良算法—K-medios，K-medios基本原理与K-means聚类相同，但K-means聚类通过计算每一类的质心(即求平均值)来确定类心，而K-medios聚类是通过计算每一类的中心(在每一类中找到离该类其他所有点最近的点)来确定类心的。相比传统的K-means聚类，K-medios聚类的类心采用中心值的计算方式，使得分类算法受离群点的影响更小，分类更准确。

基于上述改进，参见图1所示，本发明实施例提供一种用户等级自动划分方法，该方法基于K-medios聚类算法，具体包括以下步骤：

步骤S1、选择样本数据：选取指定时间段内的用户行为数据作为原始样本数据，转入步骤S2。

可以理解的是，在实际操作中，所述指定时间段可根据不同情况由设计人员自行设置，通常情况下，指定时间段一般设置为一个月，即选取一个月内的用户行为数据作为原始样本数据。

步骤S2、选择用户特征：在用户行为数据中选取至少一种用户特征作为计算距离的维度，所述用户特征包括用户观看时长、用户观看次数、用户发送弹幕数、用户发送免费道具数(如鱼丸数)、用户在线领取免费道具数(如鱼丸数)、用户发送付费道具数(如鱼翅金额)、用户关注房间数、用户关注分区数，转入步骤S3。

可以理解的是，为了避免所选的用户特征量纲不同，对分类结果造成影响，在步骤S2之后还包括归一化特征值的操作：对每个选取的用户特征进行特征值的归一化计算，计算公式为：

Y＝(X-MinValue(X))/(MaxValue(X)-MinValue(X))，其中，Y为归一化后的特征值，X为某个用户特征对应的一个用户特征值，MinValue(X)为该用户特征中最小的用户特征值，MaxValue(X)为该用户特征中最大的用户特征值，归一化之后的用户特征值都集中在(0,1]之间。

步骤S3、确定分类的个数K值：根据用户被分成几个类别等级，确定分类的个数K，K为正整数，转入步骤S4。

步骤S4、确定初始类心：随机在原始样本数据中挑选K个用户作为初始类心，转入步骤S5。

步骤S5、归类划分：根据步骤S2中选取的维度(即用户特征)，测量原始样本数据中剩余的每个用户(即除类心以外的用户)到当前各个类心的距离D，距离计算公式为：

D＝(x_j-μ_i)²

其中，x_j为第j个用户特征(j为正整数)，μ_i为第i个类的类心(i为1～K的正整数)；将所述剩余的每个用户归类到距离最近的一个类中，完成K个类的划分，转入步骤S6。至此，每一个用户都被划分到K个分类中的某一个类中。

实际操作时，步骤S6具体包括以下操作：

步骤S601：针对当前K类中每一类下属的每一个用户，分别计算该用户到本类其他用户的距离和V，距离和计算公式为：

其中，s_i表示用户特征的集合，转入步骤S602；

步骤S602：为K类中的每一类选取距离和最小的用户作为该类的新的类心。

步骤S7、重复迭代步骤S5、S6，直至新的类心与原类心(此次迭代过程中的原类心)相等(保持不变)或者变化量小于指定阈值时，停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类。本实施例中，所述指定阈值为1％，即变化量小于1％。

参见图2所示，本发明实施例还提供一种用户等级自动划分系统。该系统包括样本数据选择模块、用户特征选择模块、初始类心确定模块、归类划分模块、新类心计算模块和迭代运算模块。

其中，样本数据选择模块用于：选取指定时间段内的用户行为数据作为原始样本数据；

用户特征选择模块用于：在用户行为数据中选取至少一种用户特征作为计算距离的维度；

初始类心确定模块用于：根据用户被分成几个类别等级，确定分类的个数K，K为正整数；随机在原始样本数据中挑选K个用户作为初始类心；

归类划分模块用于：根据用户特征选择模块选取的维度，测量原始样本数据中剩余的每个用户到当前各个类心的距离D，距离计算公式为：

D＝(x_j-μ_i)²

其中，x_j为第j个用户特征，j为正整数，μ_i为第i个类的类心，i为1～K的正整数；将所述剩余的每个用户归类到距离最近的一个类中，完成K个类的划分；

新类心计算模块用于：在当前已经划分好的K个类中，重新计算各个类的类心；

迭代运算模块用于：重复迭代调用归类划分模块和新类心计算模块进行归类划分操作及新类心计算操作，直至新的类心与原类心相等或者变化量小于指定阈值时，停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类。

同样可以理解的是，为了避免所选的用户特征量纲不同，对分类结果造成影响，本系统还包括特征值归一化模块。该特征值归一化模块用于对每个选取的用户特征进行特征值的归一化计算，计算公式为：Y＝(X-MinValue(X))/(MaxValue(X)-MinValue(X))，其中，Y为归一化后的特征值，X为某个用户特征对应的一个用户特征值，MinValue(X)为该用户特征中最小的用户特征值，MaxValue(X)为该用户特征中最大的用户特征值，归一化之后的用户特征值都集中在(0,1]之间。

需要说明的是：上述实施例提供的系统在进行操作时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种用户等级自动划分方法，其特征在于，该方法包括以下步骤：

步骤S5、归类划分：根据步骤S2中选取的维度，测量原始样本数据中剩余的每个用户到当前各个类心的距离D，距离D的计算公式为：

D＝(x_j-μ_i)²

其中，x_j为第j个用户特征，j为正整数，μ_i为第i个类的类心，i为1～K的正整数；将所述剩余的每个用户归类到距离最近的一个类中，完成K个类的划分，转入步骤S6；

步骤S7、重复迭代步骤S5、S6，直至新的类心与重新计算前的类心相等或者变化量小于指定阈值时，停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类；

其中，步骤S6具体包括以下操作：

<mrow> <mi>V</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> </mrow> </munder> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

其中，x_j为第j个用户特征，j为正整数，μ_i为第i个类的类心，i为1～K的正整数，S_i表示用户特征的集合，转入步骤S602；

2.如权利要求1所述的用户等级自动划分方法，其特征在于：步骤S2中所述用户特征包括用户观看时长、用户观看次数、用户发送弹幕数、用户发送免费道具数、用户在线领取免费道具数、用户发送付费道具数、用户关注房间数、用户关注分区数。

3.如权利要求1所述的用户等级自动划分方法，其特征在于，在步骤S2之后还包括归一化特征值的操作：

对每个选取的用户特征进行特征值的归一化计算，计算公式为：

Y＝(X-MinValue(X))/(MaxValue(X)-MinValue(X))，

其中，Y为归一化后的特征值，X为某个用户特征对应的一个用户特征值，MinValue(X)为该用户特征中最小的用户特征值，MaxValue(X)为该用户特征中最大的用户特征值，归一化之后的用户特征值都集中在(0,1]之间。

4.一种用户等级自动划分系统，其特征在于：该系统包括样本数据选择模块、用户特征选择模块、初始类心确定模块、归类划分模块、新类心计算模块和迭代运算模块；

所述样本数据选择模块用于：选取指定时间段内的用户行为数据作为原始样本数据；

所述用户特征选择模块用于：在用户行为数据中选取至少一种用户特征作为计算距离的维度；

所述初始类心确定模块用于：根据用户被分成几个类别等级，确定分类的个数K，K为正整数；随机在原始样本数据中挑选K个用户作为初始类心；

所述归类划分模块用于：根据用户特征选择模块选取的维度，测量原始样本数据中剩余的每个用户到当前各个类心的距离D，距离D的计算公式为：

D＝(x_j-μ_i)²

所述新类心计算模块用于：在当前已经划分好的K个类中，重新计算各个类的类心；

所述迭代运算模块用于：重复迭代调用归类划分模块和新类心计算模块进行归类划分操作及新类心计算操作，直至新的类心与重新计算前的类心相等或者变化量小于指定阈值时，停止迭代运算，则当前所划分的K个分类即为所需划分的用户等级分类；

其中，所述新类心计算模块重新计算各个类的类心的具体过程为：针对当前K类中每一类下属的每一个用户，分别计算该用户到本类其他用户的距离和V，距离和计算公式为：

5.如权利要求4所述的用户等级自动划分系统，其特征在于：所述用户特征包括用户观看时长、用户观看次数、用户发送弹幕数、用户发送免费道具数、用户在线领取免费道具数、用户发送付费道具数、用户关注房间数、用户关注分区数。

6.如权利要求4所述的用户等级自动划分系统，其特征在于：该系统还包括特征值归一化模块，所述特征值归一化模块用于对每个选取的用户特征进行特征值的归一化计算，计算公式为：

Y＝(X-MinValue(X))/(MaxValue(X)-MinValue(X))，