CN110874609B

CN110874609B - 基于用户行为的用户聚类方法、存储介质、设备及系统

Info

Publication number: CN110874609B
Application number: CN201811026024.9A
Authority: CN
Inventors: 肖源
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2022-08-16
Anticipated expiration: 2038-09-04
Also published as: CN110874609A

Abstract

本发明公开了基于用户行为的用户聚类方法、存储介质、设备及系统，涉及互联网直播领域，该方法包括获取相同行为下的每个用户的M个行为参数，所述M为大于0的整数。将各个行为参数作为M维空间坐标值，计算任意两个用户之间的欧式距离作为行为差距值。若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇，其中，N为大于1的整数。本发明能够更好的将差异较小的用户分为一个组/簇。

Description

基于用户行为的用户聚类方法、存储介质、设备及系统

技术领域

本发明涉及互联网直播领域，具体涉及基于用户行为的用户聚类基于用户行为的用户聚类方法、存储介质、设备及系统。

背景技术

直播平台作为一个泛娱乐化的群众平台，拥有海量的用户资源，这些资源构成了一个强大的群众基础，用户可以在直播间、贴吧等等互联网平台上进行信息交流和分享。同时，为支持的主播和直播分类增添乐趣，增加用户和平台的粘着度，社交网站会将志趣相投或有共同目的的人聚集起来，为人际交往提供了极大便利，是一种现实社会之外的全新社交方式。

但是，当下的直播平台社交多基于用户自发的组织和活动的线下通知，没有合理的将虽然兴趣一致，但是并没有行动以及言谈一致的用户进行匹配。即有的用户在线时间长而有的短，有的喜欢发送弹幕有的则不，有的用户观看直播间广泛而有的是固定几个直播间，而如果将这些用户分为一类，起不到较好的用户分类效果，应为这些用户行为差异大，相互之间言行不一致，如果直接将这些分为同一个团队，团队的集体活动可能效果较差。

因此，需要一种兴趣度匹配算法，用于发现匹配更高的用户群体，将这些群体促成一个团队，并给予团队一定的奖励，刺激群体的活跃性。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供基于用户行为的用户聚类基于用户行为的用户聚类方法、存储介质、设备及系统，能够根据用户在直播平台上的行为参数计算相同兴趣用户之间，行为特征上的差异，从而较好的将差异较小的用户分为一个团队，更加的合理。

为达到以上目的，第一方面，本发明实施例提供一种基于用户行为的用户聚类方法，其包括：

获取相同行为下的每个用户的M个行为参数，所述M为大于0的整数；

将各个行为参数作为M维空间坐标值，计算任意两个用户之间的欧式距离作为行为差距值；

若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇，其中，N为大于1的整数。

优选的，所述行为参数包括观看参数和弹幕内容，所述观看参数包括用户观看时长、观看时间段、关注主播数量和/或送虚拟礼物金额；

根据观看参数计算用户之间在观看习惯上的偏差值作为观看偏差值，根据弹幕内容计算用户之间在弹幕用语上的偏差值作为用语偏差值；

根据观看偏差值和用语偏差值计算用户行为偏差值。

优选的，所述根据观看参数计算用户之间在观看习惯上的偏差值作为观看偏差值：

所述行为参数包括A个观看参数，将每个用户的所述A个观看参数的值作为A维空间的坐标值，计算两个用户的欧式距离作为观看偏差值，所述A为大于0的整数。

优选的，所述根据弹幕内容计算用户之间在弹幕用语上的偏差值作为用语偏差值：

使用word2vec模型将所述词组转换为B维的词向量，计算两个用户对应词向量的欧式距离作为语言偏差值。

优选的，所述根据观看偏差值和用语偏差值计算用户行为偏差值具体为：

所述观看偏差和语言偏差均设有对应的权重，所述行为差距等于观看偏差、语言偏差与各自权重相乘后的和。

优选的，所述预设算法使用的具体公式为：

其中，D_XY为用户X和用户Y的行为偏差，m为观看参数的总数，n为词向量参数的总个数，M_Xi为用户X的第i个观看参数，M_Yi为用户Y的第i个观看参数，L_Xi为用户X的第i个词向量参数，L_Yi为用户Y的第i个词向量参数，W₁为观看偏差的权重，W₂为语言偏差的权重。

优选的，所述若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇包括以下步骤：

A设定所有所述与该未分簇的用户的行为差距小于预设阈值的用户为待确认用户，选定一个待确认用户；

B统计与所述待确认用户的行为差距小于预设阈值的用户的个数，若所述个数大于预设的密集度个数，则将与待确认用户的行为差距小于预设阈值的用户以及与未分簇的用户的行为差距小于预设阈值的用户归于同一簇，并将该簇的用户设为待确认用户；

C针对每一个待确认用户，执行步骤B，直至所有待确认用户确认完毕。

第二方面，本发明实施例还提供一种基于用户行为的用户聚类系统，其包括：

统计模块，用于获取相同行为下的每个用户的M个行为参数，所述M为大于0的整数；

计算模块，用于将各个行为参数作为M维空间坐标值，计算任意两个用户之间的欧式距离作为行为差距值；

分簇模块，用于若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇，其中，N为大于1的整数。

第三方面，本发明实施例还提供一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面实施例中的方法。

第四方面，本发明实施例还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面实施例中的方法。

与现有技术相比，本发明的优点在于：

本发明对同一兴趣下的用户进行类聚，对用户的多个行为特征进行了采集，并通过算法算出任意两个用户之间行为差距的数值，通过数值的圈定，找到用户数据较接近且人数多的人，从而能够组成行为相似度更高的用户组，即将行为差异较小的用户组合在一起，使得用户体验更好，用户的粘着度更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对实施例对应的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于用户行为的用户聚类方法的流程图；

图2为本发明一种基于用户行为的用户聚类方法的另一流程图；

图3为本发明一种基于用户行为的用户聚类系统的结构示意图。

图中：1-统计模块，2-计算模块，3-分簇模块。

具体实施方式

以下结合附图对本发明的实施例作进一步详细说明。

参见图1所示，本发明实施例提供基于用户行为的用户聚类基于用户行为的用户聚类方法、存储介质、设备及系统，其通过相同兴趣用户的行为参数计算用户之间的差距，并定义用户之间差距以及密集程度，进行用户的类聚，能够帮助用户在平台上发现匹配更高的用户群体，将这些群体促成一个团队，并给予团队一定的奖励，刺激群体的活跃性。

为达到上述技术效果，本申请的总体思路如下：

综上所述，本发明获取用户观看直播时候，所产生的行为参数，并使用特定的公式对这些行为参数进行衡量，产生一个总的参数，然后计算每两个用户之间的行为差距。如果在一个特定区域内的多个用户行为相近，同时比较密集，则可以将这些用户分为一个簇，即形成一个组。

需要说明的是，上述的特定的公式可以是通过多次试验直接设定，也可以是直接将用户行为参数作为多维空间的向量坐标，公式计算向量距离。只要能够以一特定的数值统一的衡量用户的行为差距即可。

此外，本文中的向量距离为将用户的行为参数作为多维空间的向量的坐标参数，并计算两个用户之间坐标距离得到的欧式距离。

此外，对于特定的区域，可以根据多次试验保证分簇来设定，比如如果设定区域过广，可能会将实际上多个簇的分为一个簇。而设定区域过窄则可能将1个簇打散，甚至不能合成簇，由于参数、平台等等因素，其获取的数据汇集形式均不同，因此针对不同的情况，需要通过多次试验来调整和设定的区域。

同时，与该未分簇的用户的行为差距小于预设阈值的其他用户的个数中，其他用户

为了更好的理解上述技术方案，下面结合具体实施方式进行详细的说明。

实施例一

本发明实施例提供一种基于用户行为的用户聚类方法，其包括：

S1：获取相同行为下的每个用户的M个行为参数，所述M为大于0的整数。

具体来说，每个用户的行为参数为其和网络平台进行观看以及交互时候产生的参数。通过这些特征平台能够了解用户的部分习惯和喜好，从而找出习惯、喜好相近的用户

举例来说，对于直播平台，该行为参数可以是在直播平台上消费的打赏数据、发出的弹幕数据、关注兴趣范围下的主播数目、最近3个月内观看直播的时间长度、最近3个月内的每一天中最早的开始观看时间、最近3个月内的每一天中最晚的结束观看时间。

进一步的，对于平台来说，其发送弹幕也包含了用户的用于习惯、文化水平、喜好等等，因此还可以根据用户的弹幕中的词语，进一步的获取用户的信息。

举例来说，M个行为参数包括A个观看参数和用户发送的B个弹幕，所述A和B未大于0的整数，所述观看参数包括/为用户在直播平台观看直播产生的参数。

S2：将各个行为参数作为M维空间坐标值，计算任意两个用户之间的欧式距离作为行为差距值。

具体的，将用户的每一个行为参数最为一个维度，将多个行为参数作为多维空间向量来表达一个用户的行为特征在多维空间的坐标，通过计算两个用户之间的向量距离就可以通过实际的数值，计算出两个用户实际的行为差距。

作为另一个可选的试试方案，将用户的行为参数分为观看参数和弹幕：

S201获取两名用户的观看参数，根据所述两名用户的观看参数，计算用户的观看数值，所述观看数值乘以观看权重得到观看偏差；

S202获取两名用户的弹幕，根据所述两名用户的弹幕计算用户的语言数值，所述语言数值乘以语言权重得到语言偏差；

S203所述观看偏差加上语言偏差得到行为偏差。

具体来说，除了用户发出的弹幕外，用户和直播平台上交互的各个方面的参数作为观看参数，通过这些观看参数具体计算用户之间的差异。而对于用户发出的弹幕，进行单独的计算，获取用户的语言偏差。

举例来说，根据所述两名用户的观看参数，计算用户的观看数值，具体为：将每个用户的所述A个观看参数的值作为A维空间的坐标值，计算两个用户的欧式距离作为观看数值。

将用户的观看参数作为空间向量的坐标，通过计算向量距离即欧式距离，能够直观的从数值上体现两个用户的在和平台交互上的行为差异性。

举例来说，根据所述两名用户的弹幕计算用户的语言数值，具体为：对两个用户的B个弹幕进行分词得到每个用户的词组，使用word2vec模型将所述词组转换为词向量，根据各个用户的词向量，计算两个用户的向量距离，将所述向量距离作为语言数值。

进一步的，对两个用户的弹幕进行分词得到每个用户的词组，使用word2vec模型将所述词组转换为词向量，根据各个用户的词向量，计算两个用户的向量距离，将所述向量距离作为语言数值。

需要说明的是，上述分词可以是对用户的弹幕进行分词可以使用NLPIR，NLPIR为汉语分词系统能够进行文本信息抽取，并从中分出词语。也可以是直播平台根据用户弹幕语言设置并查找常用的词语，从而进行分词，只要能够将弹幕语言进行分词即可。

需要说明的是word2vec是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本，可用来映射每个词到一个向量，可用来表示词对词之间的关系。

将用户的弹幕语言转换成词向量，计算词向量的向量距离反映用户语言差异，其和行为差异的计算类似，能够较好的在语言上反应用户的偏差。

作为一个优选的方案，在观看偏差加上语言偏差得到行为偏差时，为观看偏差和语言偏差设置不同的权重，不同用户在弹幕上体现的差异和于网站平台的交互上差异是不能同等对待的，因此需要设置不同的权值，即观看偏差、语言偏差和各自的权重后相加得到行为偏差。

进一步的，由于语言数值收到到网站展示内容等等影响较大，具有较大的不确定性，设置语言偏差权重小于观看偏差的权重。

具体来说，其计算用户之间差异性的公式为：

S3：若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇，其中，N为大于1的整数。

在计算了所有用户之间差距，并通过数值表示出来后，就能够反映所有用户在多维空间中的汇聚情况，对于距离较近且汇聚程度高的用户群则可以分为一类。

具体来说，如图2所示，将所述未分簇的用户和行为差距小于预设阈值的其他用户归为一簇还包括以下步骤：

在多维空间内，用户汇集形状可能以一个用户为中心是不能完全覆盖的，因此，需要在已经汇集的部分上进行进一步的查找。

举例来说，在三维空间中，一簇用户汇聚为L字形，使用一个用户进行汇聚，可能只汇聚了L字形的横或者竖，而并没有全部归于同一簇，而在汇聚了横或者竖之后，可以进一步的，判断汇聚好的横或者竖之后，再逐个确认已经归位一簇用户周围的汇聚程度，即再检查L字形的其他部分，并添加进来，从而完成了对用户的汇聚。

基于同一发明构思，本申请提供实施例二，其具体实施方式如下。

实施例二

如图3所示，本发明实施例提供一种基于用户行为的用户聚类系统，其包括：

前述方法实施例中的各种变化方式和具体实例同样适用于本实施例的系统，通过前述方法的详细描述，本领域技术人员可以清楚的知道本实施例中系统的实施方法，所以为了说明书的简洁，在此不再详述。

基于同一发明构思，本申请提供实施例三。

实施例三

本发明第三实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一实施例中的所有方法步骤或部分方法步骤。

本发明实现上述第一实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

基于同一发明构思，本申请提供实施例四。

实施例四

本发明第四实施例还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一实施例中的所有方法步骤或部分方法步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

总体来说，本发明实施例提供的基于用户行为的用户聚类基于用户行为的用户聚类方法、存储介质、设备及系统，通过将用户的行为参数在多维空间中进行表述，并计算用户之间的向量距离，从而得到在多维空间中汇聚、密集程度较高的用户群，并将这些用户群归为一类，更好的为用户提供兴趣相同的用户群/簇，相较于传统的技术等等，能够更加准确的为用户分配用户组，能够是用户得到更好的和其他用户交互感受，进一步提高网站平台对用户的粘着度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于用户行为的用户聚类方法，其特征在于，其包括：

若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇，其中，N为大于1的整数；

所述行为参数包括观看参数和弹幕内容，所述观看参数包括用户观看时长、观看时间段、关注主播数量和/或送虚拟礼物金额；

根据观看偏差值和用语偏差值计算用户行为偏差值；

所述计算用户行为偏差值使用的具体公式为：

2.如权利要求1所述的一种基于用户行为的用户聚类方法，其特征在于，所述根据观看参数计算用户之间在观看习惯上的偏差值作为观看偏差值：

3.如权利要求1所述的一种基于用户行为的用户聚类方法，其特征在于，所述根据弹幕内容计算用户之间在弹幕用语上的偏差值作为用语偏差值：

使用word2vec模型将所述弹幕内容转换为B维的词向量，计算两个用户对应词向量的欧式距离作为语言偏差值。

4.如权利要求1所述的一种基于用户行为的用户聚类方法，其特征在于，所述若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇包括以下步骤：

S1设定所有与未分簇的用户的行为差距小于预设阈值的用户为待确认用户，选定一个待确认用户；

S2统计与所述待确认用户的行为差距小于预设阈值的用户的个数，若所述个数大于预设的密集度个数，则将与待确认用户的行为差距小于预设阈值的用户以及与未分簇的用户的行为差距小于预设阈值的用户归于同一簇，并将该簇的用户设为待确认用户；

S3针对每一个待确认用户，执行步骤S2，直至所有待确认用户确认完毕。

5.一种存储介质，该存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。

6.一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的方法。

7.一种基于用户行为的用户聚类系统，其特征在于，其包括：

分簇模块，用于若N个用户之间的行为差距值小于预设阈值，且N大于预设的密集度个数，则将所述N个用户归为一簇，其中，N为大于1的整数；

根据观看偏差值和用语偏差值计算用户行为偏差值；

所述计算用户行为偏差值使用的具体公式为：