CN111488941B

CN111488941B - 一种基于改进Kmeans算法的视频用户分组方法和装置

Info

Publication number: CN111488941B
Application number: CN202010297221.5A
Authority: CN
Inventors: 韦宁; 刘磊
Original assignee: Wuhan Fonsview Technologies Co ltd; Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Wuhan Fonsview Technologies Co ltd; Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2022-05-13
Anticipated expiration: 2040-04-15
Also published as: CN111488941A

Abstract

本发明公开了一种基于改进Kmeans算法的视频用户分组方法，包括：将视频用户数据分区存储；对每个分区的视频用户数据进行特征提取，将提取的特征输入改进的局部Kmeans算法，得到每个分区的分组结果；对每个分区的每个分组进行特征提取，将提取的所有分组的特征再次输入改进的局部Kmeans算法，得到所有用户的分组结果。本发明提出了一种分区双层用户分组方案，先将视频用户数据分区存储，并对用户数据进行两级分组，该方案易于数据的并行计算，可降低计算开销，缩短分组响应时间，提升计算效率；本发明在Kmeans算法的基础上进行改进，得出得到一种局部Kmeans(Partial‑Kmeans)算法，可以降低一定的计算复杂度。本发明还提供了相应的基于改进Kmeans算法的视频用户分组装置。

Description

一种基于改进Kmeans算法的视频用户分组方法和装置

技术领域

本发明属于视频用户分析领域，更具体地，涉及一种基于改进Kmeans算法的视频用户分组方法和装置。

背景技术

目前对于视频用户，例如使用IPTV(网路协议电视，Internet ProtocolTelevision)/OTT(Over The Top)盒子的EPG(电子节目指南，Electrical Program Guide)用户之间的相互关系并没有得到很好的利用，如：用户的操作行为、观看习惯、偏好设置等相似性分析，若对用户的这些数据进行分析，将用户“分而治之”，近而为每组用户提供更为精致的服务，相信会比目前“千篇一律”的内容呈现方式达到更引人注目的效果。

视频用户的分组一般在每个系统中都会存在，相比于目前通过后台手动进行分组的方式，本方案采用机器学习中相关聚类算法对视频用户进行动态分组，使得操作行为和观看习惯相似的用户分为一组，从而为不同组提供组内用户所期望的内容及效果。Kmeans算法是聚类算法中比较常见，也比较简单的算法，自然在各领域应用也非常的广泛，随着研究的深入，算法的不足也纷纷暴露出来，主要包括：要预先确定K值，会受到初始聚类中心的影响，容易收敛于局部最优解，面且数据量大时，算法的计算开销也非常的大，所以如何在实际应用中降低Kmeans算法的复杂度，加快算法的响应速度，是一件很有意义的事情。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于改进Kmeans算法的视频用户分组方法和装置，其目的在于对Kmeans算法做改进得到Partial-Kmeans算法，降低一定计算量后应用于视频用户分组中，提出基于Partial-Kmeans算法的视频用户分组方案。由此解决现有技术中算法复杂度高、计算开销大以及分组响应时间长的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于改进Kmeans算法的视频用户分组方法，包括：

将视频用户数据分区存储；

对每个分区的视频用户数据进行特征提取，将提取的特征输入改进的局部Kmeans算法，得到每个分区的分组结果；

对每个分区的每个分组进行特征提取，将提取的所有分组的特征再次输入改进的局部Kmeans算法，得到所有用户的分组结果。

本发明的一个实施例中，所述改进的局部Kmeans算法中，第k个分组的中心点的计算公式为：

其中，μ_k为第k个分组的中心点，C^(k)为第k个分组的所有用户，d(x)为第k个分组内用户x到当前中心点的欧氏距离，avg(x)为第k个分组内所有用户到当前中心点欧氏距离的均值，m表示第k个分组内满足d(x)≤avg(x)条件的用户数。

本发明的一个实施例中，所述第k个分组内所有用户到中心点欧氏距离的均值为：

其中x⁽ⁱ⁾表示用户i的特征向量，

为用户i的第j个特征值，j＝1,2,…,n_x，每个用户一共有n_x个特征，第k个分组内的用户i到中心点的欧氏距离为：d(x⁽ⁱ⁾)＝sqrt(sum(power(x⁽ⁱ⁾-μ_k,2)))，其中power(·)表示乘方运算，power(k⁽ⁱ⁾-μ_k,2)表示对x⁽ⁱ⁾-μ_k的结果按列对向量的每个元素求2次方；sum(·)表示求和运算，即按列对向量的所有元素求和；sqrt(·)表示求二次方根运算。

本发明的一个实施例中，所述对每个分区的每个分组进行特征提取具体为：将每个分组内所有用户特征的均值作为该分组的特征。

本发明的一个实施例中，所述将视频用户数据分区存储具体为：将一个服务器或多个服务器上报的视频用户数据作为一个分区存储。

本发明的一个实施例中，所述对每个分区的视频用户数据进行特征提取，具体为：将用户某一段时间内的观看记录和/或操作行为统计后直接作为用户的特征，或者进行预处理后作为用户的特征。

本发明的一个实施例中，所述方法还包括：完成用户的分组后，为每个用户分组定制不同的服务。

按照本发明的另一方面，还提供了一种基于改进Kmeans算法的视频用户分组装置，包括分区存储单元、一级分组单元和二级分组单元，其中：

所述分区存储单元，用于将视频用户数据分区存储；

所述一级分组单元，用于对每个分区的视频用户数据进行特征提取，将提取的特征输入改进的局部Kmeans算法，得到每个分区的分组结果；

所述二级分组单元，用于对每个分区的每个分组进行特征提取，将提取的所有分组的特征再次输入改进的局部Kmeans算法，得到所有用户的分组结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)本发明提出了一种分区双层用户分组方案，先将视频用户数据分区存储，并对用户数据进行两级分组，该方案易于数据的并行计算，可降低计算开销，缩短分组响应时间，提升计算效率；

(2)本发明在Kmeans算法的基础上进行改进，得到一种局部Kmeans(Partial-Kmeans)算法，可以降低一定的计算复杂度；

(3)本发明方案对视频用户的观看行为进行统计分析分组后，使得每个分组内的用户有相似的观看习惯和喜好，对后续的分组用户期望内容推荐和首页风格个性化都颇有益处。

附图说明

图1是本发明提供的基于改进Kmeans算法的视频用户分组方法的流程图；

图2是本发明实施例中一种基于改进Kmeans算法的视频用户分组方法的流程图；

图3是本发明实施例中一种基于改进Kmeans算法的视频用户分组装置的结构图；

图4是本发明实施例中一种分区双层用户分组实施方案的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互分组合。

本发明要解决的技术问题是：视频用户分组及Kmeans算法计算复杂度高问题。为了解决上述技术问题，本发明提出了一种基于Partial-Kmeans算法的视频用户分组方案，对Kmeans算法进行改进提供了一种针对本发明技术问题的改进的局部Kmeans算法，并且提供了一种分区双层用户分组方案。

实施例1

如图1所示为本发明提供的一种基于改进Kmeans算法的视频用户分组方法，包括：

S1、将视频用户数据分区存储；

S2、对每个分区的视频用户数据进行特征提取，将提取的特征输入改进的局部Kmeans算法，得到每个分区的分组结果；

S3、对每个分区的每个分组进行特征提取，将提取的所有分组的特征再次输入改进的局部Kmeans算法，得到所有用户的分组结果。

以下对本发明提出的改进的Partial-Kmeans算法，以及分区双层用户分组方案进行详细描述。

改进的Kmeans算法(Partial-Kmeans)

针对Kmeans算法在数据量比较大时，计算复杂度较高问题，本发明提出Partial-Kmeans算法，Partial-Kmeans是在Kmeans的基础上进行改进，两者的不同之处在于更新分组中心点的计算上。Kmeans算法分组中心点的计算公式为：

而Partial-Kmeans算法分组中心点的计算公式为：

以上两式中，μ_k为第k个分组的中心点，C^(k)为第k个分组的所有用户，d(x)为第k个分组内用户x到当前中心点的欧氏距离，avg(x)为第k个分组内所有用户到当前中心点欧氏距离的均值，n表示第k个分组内所有用户数，m表示第k个分组内满足d(x)≤avg(x)条件的用户数。

若以x⁽ⁱ⁾表示用户i的特征向量，

为用户i的第j个特征值，j＝1,2,…,n_x，每个用户一共有n_x个特征，则第k个分组内的用户i到中心点的欧氏距离为：

d(x⁽ⁱ⁾)＝sqrt(sum(power(x⁽ⁱ⁾-μ_k,2)))

上式中power(·)表示乘方运算，power(x⁽ⁱ⁾-μ_k,2)表示对x⁽ⁱ⁾-μ_k的结果按列对向量的每个元素求2次方；sum(·)表示求和运算，即按列对向量的所有元素求和；sqrt(·)表示求二次方根运算。第k个分组内所有用户到中心点欧氏距离的均值为：

由以上所述可知：Partial-Kmeans算法在更新每个分组的中心点时，只取当前分组内离当前中心点的欧氏距离小于或等于分组内所有用户到当前中心点欧氏距离的均值的用户，来计算新的中心点，即计算每个分组的新中心点时，忽略分组内较远用户的影响，该措施在用户特征数较多时，可减少一定的计算量，降低算法的计算复杂度。

分区双层用户分组方案

考虑大量用户特征数据的情况，如果把数据统一存储，统一同时处理，不仅需要一块很大的存储空间，也不利于数据的并行处理，随着数据的增多，很可能会导致算法的响应速度变慢，针对这一问题提出分区双层的用户分组方案。

该方案的主要思想是：数据进行分区存储，可以将一个服务器或多个服务器上报的数据作为一个分区存储，首先对每个分区的用户进行特征提取，输入Partial-Kmeans算法，得到每个分区的分组结果，然后对每个分区的每个分组提取特征，这里将每个分组内所有用户特征的均值作为分组的特征，将所有分组的特征再次输入Partial-Kmeans算法，最后得到所有用户的分组结果。此分区双层用户分组方案，每个分区的数据量相对较小，算法的响应也更快，而且利于数据的并行处理。

实施例2

如图2所示，为本发明实施例中一种基于改进Kmeans算法的视频用户分组方法，包括：

步骤101，单个或多个服务器为一组，每个服务器组将用户操作数据统一上报至同一地方进行存储，实现用户数据分区存储；

步骤102，统计每个分区内的用户数据进行，为每个用户提取特征向量。例如，可以将用户某一段时间内的观看记录、操作行为等统计后直接作为用户的特征，也可以先进行一定的预处理后再作为用户的特征；

步骤103，把每个分区内的用户及其特征向量输入Partial-Kmeans算法进行分组，得到每个分区内的用户分组结果。

步骤104，为每个分区输出的每个用户组提取特征向量，取用户组内所有用户特征的均值作为该用户组的特征向量。

步骤105，将所有分区的所有用户组的特征向量输入Partial-Kmeans算法，输出所有用户组的分组情况，根据用户组的分组情况，即可得到所有用户最后的分组结果。

步骤106，拿到用户的分组结果后，因为同一组内的用户有着相似的操作行为、观看习惯和偏好等，基于此信息，可精确的为每个用户组定制不同的首页风格、突出或推荐用户组所期望的内容等，提供更为精致的服务。

实施例3

如图3所示，本发明提供了一种基于改进Kmeans算法的视频用户分组装置，包括分区存储单元、一级分组单元和二级分组单元，其中：

所述分区存储单元，用于将视频用户数据分区存储；

进一步地，所述改进的局部Kmeans算法中，第k个分组的中心点的计算公式为：

进一步地，所述对每个分区的每个分组进行特征提取具体为：将每个分组内所有用户特征的均值作为该分组的特征。

实施例4

以下结合理论分析具体说明本发明技术方案的技术效果：

关于准确性：因为二级分组中，第二次分组的粒度为用户组，不是用户，所以在准确性上要差于一次分组运算得出的结果。

关于分组数K的取值：K的取值可通过“肘部法则”来确定，但强烈建议通过下游应用来确定K的值。则第二次分组的分组数k₂等于按下游应用确定的K值，第一次分组的分组数k₁应大于或等于k₂，由于K越大，Kmeans算法的计算量也越大，所以可取k₁＝k₂。

关于计算量：

Kmeans算法是一种迭代算法，当中心点不再移动时，得到最终的各分组中心点及分组结果，所以迭代次数越小，计算量也就越小。又因为迭代次数受随机初始化中心点的影响很大，若初始中心点合理，算法可以以更少的迭代次数得到最终的分组结果。

如图4所示，对一级分组中的n个分区，首先执行分区1的Partial-Kmeans算法，得到分区1的分组结果及各分组的中心点，利用数据的共性，将分区1的各分组中心点作为剩下n-1个分区的初始中心点，然后并行执行，因为有较合理的初始中心点，则此n-1个分区的Partial-Kmeans算法的迭代次数会更少，计算量也将减少。

Partial-Kmeans算法相比于Kmeans在一次迭代的一个分组中能减少的计算量为：(n-m)×n_x个加法和n_x个除法运算。额外引入的计算量为：n个加法，1个除法和n个比较运算。所以用户特征数越多，Partial-Kmeans算法能减少的计算量也就越大。另外因为在计算中心点时，忽略了组内较远用户的影响，而组内较远用户其实很有可能不属于这个组，所以忽略较远用户也有助于中心点朝正确的方向更快的移动。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进Kmeans算法的视频用户分组方法，其特征在于，包括：

将视频用户数据分区存储；

对每个分区的视频用户数据进行特征提取，将提取的特征输入改进的局部Kmeans算法，得到每个分区的分组结果；所述改进的局部Kmeans算法中，第k个分组的中心点的计算公式为：

其中，μ_k为第k个分组的中心点，C^(k)为第k个分组的所有用户，d(x)为第k个分组内用户x到当前中心点的欧氏距离，avg(x)为第k个分组内所有用户到当前中心点欧氏距离的均值，m表示第k个分组内满足d(x)≤avg(x)条件的用户数；

2.如权利要求1所述的基于改进Kmeans算法的视频用户分组方法，其特征在于，所述第k个分组内所有用户到中心点欧氏距离的均值为：

其中x⁽ⁱ⁾表示用户i的特征向量，

为用户i的第j个特征值，j＝1，2，…，n_x，每个用户一共有n_x个特征，第k个分组内的用户i到中心点的欧氏距离为：d(x⁽ⁱ⁾)＝sqrt(sum(power(x⁽ⁱ⁾-μ_k，2)))，其中power(·)表示乘方运算，power(x⁽ⁱ⁾-μ_k，2)表示对x⁽ⁱ⁾-μ_k的结果按列对向量的每个元素求2次方；sum(·)表示求和运算，即按列对向量的所有元素求和；sqrt(·)表示求二次方根运算。

3.如权利要求1或2所述的基于改进Kmeans算法的视频用户分组方法，其特征在于，所述对每个分区的每个分组进行特征提取具体为：将每个分组内所有用户特征的均值作为该分组的特征。

4.如权利要求1或2所述的基于改进Kmeans算法的视频用户分组方法，其特征在于，所述将视频用户数据分区存储具体为：

将一个服务器或多个服务器上报的视频用户数据作为一个分区存储。

5.如权利要求1或2所述的基于改进Kmeans算法的视频用户分组方法，其特征在于，所述对每个分区的视频用户数据进行特征提取，具体为：

将用户某一段时间内的观看记录和/或操作行为统计后直接作为用户的特征，或者进行预处理后作为用户的特征。

6.如权利要求1或2所述的基于改进Kmeans算法的视频用户分组方法，其特征在于，所述方法还包括：

完成用户的分组后，为每个用户分组定制不同的服务。

7.一种基于改进Kmeans算法的视频用户分组装置，其特征在于，包括分区存储单元、一级分组单元和二级分组单元，其中：

所述分区存储单元，用于将视频用户数据分区存储；

所述一级分组单元，用于对每个分区的视频用户数据进行特征提取，将提取的特征输入改进的局部Kmeans算法，得到每个分区的分组结果；所述改进的局部Kmeans算法中，第k个分组的中心点的计算公式为：

8.如权利要求7所述的基于改进Kmeans算法的视频用户分组装置，其特征在于，所述对每个分区的每个分组进行特征提取具体为：将每个分组内所有用户特征的均值作为该分组的特征。