CN105163182B

CN105163182B - 基于例外挖掘算法的智能电视用户行为获取方法及系统

Info

Publication number: CN105163182B
Application number: CN201510521464.1A
Authority: CN
Inventors: 王巍
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2019-06-11
Anticipated expiration: 2035-08-24
Also published as: CN105163182A

Abstract

本发明公开了一种基于例外挖掘算法的智能电视用户行为获取方法及系统，方法包括：检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的用户特征向量，将用户特征向量正则化，并进行哈希降维，得到降维用户特征向量；根据K‑均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分，得到不同K值对应的多个聚类树，并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量。本发明实现了对稀有用户的识别，扩大了内容服务的多样性或覆盖率，同时在识别过程中计算效率较高，成簇效果更佳。

Description

基于例外挖掘算法的智能电视用户行为获取方法及系统

技术领域

本发明涉及智能电视技术领域，尤其涉及的是一种基于例外挖掘算法的智能电视用户行为获取方法及系统。

背景技术

智能电视用户行为分析的目的是挖掘智能电视用户的行为特征，了解用户的收视习惯,根据用户需求向用户提供有价值的节目内容。如果对用户行为分析的质量很高，给用户推荐喜欢的电视节目和产品，那么用户会对该智能电视产生依赖。为了加强内容服务，为用户提供个性化服务，需要了解用户需求，了解用户对电视的使用行为，并且对用户使用习惯进行分析，从而为产品规划部门提供产品规划和产品定位，为用户提供更好的内容服务和个性化的服务。因此，对用户行为进行分析不仅能够为用户提供个性化的推荐服务，而且能与用户建立长期稳定的关系，从而有效保留客户, 提高客户的忠诚度，防止客户流失。

目前的用户行为分析多数是基于聚类或者分类算法把用户分为几种类型，针对不同类型的用户做相应的产品设计或者内容服务，但是对于某些少量用户，其观看电视的时间、内容异于大多数人群的（如打开电视机的时间为凌晨四点，看的内容多为手球，冰球等小众运动类的）却难以得到考虑。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于例外挖掘算法的智能电视用户行为获取方法及系统，旨在解决现有技术中对用户行为分析多数是基于聚类或者分类算法把用户分为几种类型，针对不同类型的用户做相应的产品设计或者内容服务，但未分析观看电视的时间、内容异于大多数人群的小众用户的用户行为，并提供针对性服务的缺陷。

本发明的技术方案如下：

一种基于例外挖掘算法的智能电视用户行为获取方法，其中，所述方法包括以下步骤：

A、检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的用户特征向量，将用户特征向量正则化，并进行哈希降维，得到降维用户特征向量；

B、根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分，得到不同K值对应的多个聚类树，并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；

C、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量。

所述基于例外挖掘算法的智能电视用户行为获取方法，其中，所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。

所述基于例外挖掘算法的智能电视用户行为获取方法，其中，所述步骤A具体包括：

A1、检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的F维用户特征向量；其中，F为正整数；

A2、将F维用户特征向量中非数字型数据编码数值化后，得到正则化F维用户特征向量；

A3、根据哈希降维的算法对所述正则化F维用户特征向量进行降维，得到维度为D的降维用户特征向量；其中，D为小于F的正整数。

所述基于例外挖掘算法的智能电视用户行为获取方法，其中，所述步骤B具体包括：

B1、根据K-均值聚类算法对降维用户特征向量进行划分，得到K个约束类；其中，K为正整数；

B2、根据层次聚类法对K个约束类中每一约束类均进行凝聚，得到K颗子聚类树；

B3、根据层次聚类法将K颗子聚类树合并，得到聚类树，并获取当前K值对应聚类树的Gini不纯度；

B4、对K-均值聚类算法中包括的多个K值依次重复执行步骤B1-B3，直至获取每一K值对应的聚类树，及与每一聚类树相对应的Gini不纯度；

B5、获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。

所述基于例外挖掘算法的智能电视用户行为获取方法，其中，所述步骤C中各聚类的型心之间的距离为欧拉距离。

一种基于例外挖掘算法的智能电视用户行为获取系统，其中，包括：

向量获取模块，用于当检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的用户特征向量，将用户特征向量正则化，并进行哈希降维，得到降维用户特征向量；

聚类树获取模块，用于根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分，得到不同K值对应的多个聚类树，并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；

判断及存储模块，用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量。

所述基于例外挖掘算法的智能电视用户行为获取系统，其中，所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。

所述基于例外挖掘算法的智能电视用户行为获取系统，其中，所述向量获取模块具体包括：

原始向量获取单元，用于检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的F维用户特征向量；其中，F为正整数；

正则化单元，用于将F维用户特征向量中非数字型数据编码数值化后，得到正则化F维用户特征向量；

降维单元，用于根据哈希降维的算法对所述正则化F维用户特征向量进行降维，得到维度为D的降维用户特征向量；其中，D为小于F的正整数。

所述基于例外挖掘算法的智能电视用户行为获取系统，其中，所述聚类树获取模块具体包括：

向量划分单元，用于根据K-均值聚类算法对降维用户特征向量进行划分，得到K个约束类；其中，K为正整数；

子聚类树获取单元，用于根据层次聚类法对K个约束类中每一约束类均进行凝聚，得到K颗子聚类树；

不纯度获取单元，用于根据层次聚类法将K颗子聚类树合并，得到聚类树，并获取当前K值对应聚类树的Gini不纯度；

控制单元，用于对K-均值聚类算法中包括的多个K值依次重复启动向量划分单元、子聚类树获取单元及不纯度获取单元，直至获取每一K值对应的聚类树，及与每一聚类树相对应的Gini不纯度；

最佳聚类树获取单元，用于获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。

所述基于例外挖掘算法的智能电视用户行为获取系统，其中，所述判断及存储模块中各聚类的型心之间的距离为欧拉距离。

本发明提供了一种基于例外挖掘算法的智能电视用户行为获取方法及系统，方法包括：检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的用户特征向量，将用户特征向量正则化，并进行哈希降维，得到降维用户特征向量；根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分，得到不同K值对应的多个聚类树，并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量。本发明实现了对稀有用户的识别，扩大了内容服务的多样性或覆盖率，同时在识别过程中计算效率较高，成簇效果更佳。

附图说明

图1为本发明所述基于例外挖掘算法的智能电视用户行为获取方法较佳实施例的流程图。

图2为本发明图1所示方法中步骤S100的具体流程图。

图3为本发明图1所示方法中步骤S200的具体流程图。

图4为本发明所述基于例外挖掘算法的智能电视用户行为获取系统较佳实施例的结构框图。

具体实施方式

本发明提供一种基于例外挖掘算法的智能电视用户行为获取方法及系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1是本发明所述基于例外挖掘算法的智能电视用户行为获取方法较佳实施例的流程图。如图1所示，其包括以下步骤：

步骤S100、检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的用户特征向量，将用户特征向量正则化，并进行哈希降维，得到降维用户特征向量。

本发明的实施例中，在检测到用户收看电视节目时，所采集的用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据等数据。在采集的数据中一部分是数值型数据，如音量，色度大小（1，2，3）等；也包括非数值型数据，如电视台的名称（CCTV1，CCTV2）等。对于非数值型数据，需先编码成数值型数据后，再进行进一步处理。

在步骤S100中，在将非数值型数据编码成数值型数据后，导致用户特征向量的维度剧增，导致算法效率下降。故为了提高算法效率，在对用户特征向量正则化后进行哈希降维，即通过哈希函数将原来的用户特征向量对应的用户变量空间降到较低的变量空间，同时最大程度的保留了原有的变量信息。

步骤S200、根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分，得到不同K值对应的多个聚类树，并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。

在现有的用户行为分析算法中，一般采用层次聚类算法，如果在其中一步做出错误合并，由于每步所做的处理不能撤销，类与类之间也不能交换对象，因此这些错误会在之后的凝聚过程中叠加，导致低质量的聚类结果。本发明中为了确保高质量的聚类结果，则采用K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分。

其中，K-均值算法（即K-means算法）是一种数据挖掘算法，其基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

层次聚类算法对给定的数据集进行层次的分解，直到某种条件满足为止。具体又可分为凝聚和分裂这两种方案。凝聚的层次聚类算法是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足，绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定义上有所不同。分裂的层次聚类算法与凝聚的层次聚类算法相反，采用自顶向下的策略，它首先将所有对象置于同一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终止条件。层次凝聚算法的代表是AGNES算法，层次分裂算法的代表是DIANA算法。本发明中采用K-均值聚类算法和层次凝聚算法，以获取最佳聚类树。

步骤S300、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量。

在步骤S300中，各聚类的型心之间的距离为欧拉距离。显然，当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则说明该用户为行为不寻常的用户（也即小众用户），可以保存该最佳聚类树对应的用户特征向量作为小众用户服务推送的依据。

进一步的，如图2所示，所述步骤S100中获取降维用户特征向量的具体流程包括：

步骤S101、检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的F维用户特征向量；其中，F为正整数；

步骤S102、将F维用户特征向量中非数字型数据编码数值化后，得到正则化F维用户特征向量；

步骤S103、根据哈希降维的算法对所述正则化F维用户特征向量进行降维，得到维度为D的降维用户特征向量；其中，D为小于F的正整数。

在步骤S103中，维度D是智能电视厂商在出厂前已设定好的，智能电视用户无法设定。同时，在对用户特征向量进行降维处理后，还需进行变量规范化处理。因为不同的变量的取值范围不同，比如音量键的取值范围为（0-100），而电视尺寸的大小为（40，49，51）等离散值。为了在聚类空间中的各个特征维度形成一致，则将每一变量转化为标准分，计算方式为normaized_i=（feature_i-μ_i）/σ_i，其中feature_i为聚类空间中的变量，μ_i为聚类空间中变量的平均值，σ_i为聚类空间中变量的方差。当每个变量都减去均值后，对聚类效果无影响。

进一步的，如图3所示，所述步骤S200中获取最佳聚类树的具体流程包括：

步骤S201、根据K-均值聚类算法对降维用户特征向量进行划分，得到K个约束类；其中，K为正整数；

步骤S202、根据层次聚类法对K个约束类中每一约束类均进行凝聚，得到K颗子聚类树；

步骤S203、根据层次聚类法将K颗子聚类树合并，得到聚类树，并获取当前K值对应聚类树的Gini不纯度；

步骤S204、对K-均值聚类算法中包括的多个K值依次重复执行步骤S201-S203，直至获取每一K值对应的聚类树，及与每一聚类树相对应的Gini不纯度；

步骤S205、获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。

一般来说，一个好的聚类模型应该把同种类型的用户聚集在一起。 Gini不纯度是常用的评价类簇同构性的计算方法。Gini不纯度值越低，说明类的纯度越高。本发明在具体实施时，预先抽取了多种行为特征的用户，打上“普通电视迷”、“上班族”、“夜猫子”、冰球爱好者等的标签对用户行进预分类，从而可以利用Gini不纯度来评估聚类的效果。Gini不纯度越低，说明聚类模型越好。

可见，本发明所述的基于例外挖掘算法的智能电视用户行为获取方法与现有的用户行为分析方法相比，有以下技术好处：

1）该算法优先考虑了稀有用户的识别，从而避免了常规算法只考虑大部分用户的缺点，扩大了产品设计和内容服务的多样性和覆盖率。

2）该算法可以和其他聚类算法配合使用，由于行为异常的用户较少，因此不管使用那种算法，计算量都相对较小，计算高效可行。

3）K-均值聚类算法是的时间和空间复杂度是线性或接近线性的，因此数据量的增大，并不会导致计算量的快速正常，计算时间是可控的，并且参数选择过程中的模型构建可以并行进行。

（4）K-均值聚类算法和层次聚类算法的混合算法优点在于，既可以因使用K-均值聚类算法从数据集的全局特征得益，又可以从凝聚层次算法所使用的局部特征得益，因此成簇效果较好。

基于上述方法实施例，本发明还提供一种基于例外挖掘算法的智能电视用户行为获取系统，如图4所示，其包括：

向量获取模块100，用于当检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的用户特征向量，将用户特征向量正则化，并进行哈希降维，得到降维用户特征向量；

聚类树获取模块200，用于根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分，得到不同K值对应的多个聚类树，并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；

判断及存储模块300，用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量。

进一步的，在所述基于例外挖掘算法的智能电视用户行为获取系统中所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。

进一步的，在所述基于例外挖掘算法的智能电视用户行为获取系统中所述向量获取模块100具体包括：

进一步的，在所述基于例外挖掘算法的智能电视用户行为获取系统中所述聚类树获取模块200具体包括：

进一步的，在所述基于例外挖掘算法的智能电视用户行为获取系统中，所述判断及存储模块300中各聚类的型心之间的距离为欧拉距离。

综上所述，本发明提供了一种基于例外挖掘算法的智能电视用户行为获取方法及系统，方法包括：检测到智能电视开机时，则采集用于确定用户观看电视时用户数据的用户特征向量，将用户特征向量正则化，并进行哈希降维，得到降维用户特征向量；根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分，得到不同K值对应的多个聚类树，并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量。本发明实现了对稀有用户的识别，扩大了内容服务的多样性或覆盖率，同时在识别过程中计算效率较高，成簇效果更佳。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于例外挖掘算法的智能电视用户行为获取方法，其特征在于，所述方法包括以下步骤：

C、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量；

所述步骤B具体包括：

B5、获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；

在步骤C中，当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则说明该用户为小众用户，保存该最佳聚类树对应的用户特征向量作为小众用户服务推送的依据。

2.根据权利要求1所述基于例外挖掘算法的智能电视用户行为获取方法，其特征在于，所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。

3.根据权利要求1所述基于例外挖掘算法的智能电视用户行为获取方法，其特征在于，所述步骤A具体包括：

4.根据权利要求1所述基于例外挖掘算法的智能电视用户行为获取方法，其特征在于，所述步骤C中各聚类的型心之间的距离为欧拉距离。

5.一种基于例外挖掘算法的智能电视用户行为获取系统，其特征在于，包括：

判断及存储模块，用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则保存该最佳聚类树对应的用户特征向量；

所述聚类树获取模块具体包括：

最佳聚类树获取单元，用于获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树；

所述判断及存储模块还用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时，则说明该用户为小众用户，保存该最佳聚类树对应的用户特征向量作为小众用户服务推送的依据。

6.根据权利要求5所述基于例外挖掘算法的智能电视用户行为获取系统，其特征在于，所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。

7.根据权利要求5所述基于例外挖掘算法的智能电视用户行为获取系统，其特征在于，所述向量获取模块具体包括：

8.根据权利要求5所述基于例外挖掘算法的智能电视用户行为获取系统，其特征在于，所述判断及存储模块中各聚类的型心之间的距离为欧拉距离。