CN105163182B - 基于例外挖掘算法的智能电视用户行为获取方法及系统 - Google Patents

基于例外挖掘算法的智能电视用户行为获取方法及系统 Download PDF

Info

Publication number
CN105163182B
CN105163182B CN201510521464.1A CN201510521464A CN105163182B CN 105163182 B CN105163182 B CN 105163182B CN 201510521464 A CN201510521464 A CN 201510521464A CN 105163182 B CN105163182 B CN 105163182B
Authority
CN
China
Prior art keywords
user
clustering
algorithm
tree
clustering tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510521464.1A
Other languages
English (en)
Other versions
CN105163182A (zh
Inventor
王巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201510521464.1A priority Critical patent/CN105163182B/zh
Publication of CN105163182A publication Critical patent/CN105163182A/zh
Application granted granted Critical
Publication of CN105163182B publication Critical patent/CN105163182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于例外挖掘算法的智能电视用户行为获取方法及系统,方法包括:检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;根据K‑均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。本发明实现了对稀有用户的识别,扩大了内容服务的多样性或覆盖率,同时在识别过程中计算效率较高,成簇效果更佳。

Description

基于例外挖掘算法的智能电视用户行为获取方法及系统
技术领域
本发明涉及智能电视技术领域,尤其涉及的是一种基于例外挖掘算法的智能电视用户行为获取方法及系统。
背景技术
智能电视用户行为分析的目的是挖掘智能电视用户的行为特征,了解用户的收视习惯,根据用户需求向用户提供有价值的节目内容。如果对用户行为分析的质量很高,给用户推荐喜欢的电视节目和产品,那么用户会对该智能电视产生依赖。为了加强内容服务,为用户提供个性化服务,需要了解用户需求,了解用户对电视的使用行为,并且对用户使用习惯进行分析,从而为产品规划部门提供产品规划和产品定位,为用户提供更好的内容服务和个性化的服务。因此,对用户行为进行分析不仅能够为用户提供个性化的推荐服务,而且能与用户建立长期稳定的关系,从而有效保留客户, 提高客户的忠诚度,防止客户流失。
目前的用户行为分析多数是基于聚类或者分类算法把用户分为几种类型,针对不同类型的用户做相应的产品设计或者内容服务,但是对于某些少量用户,其观看电视的时间、内容异于大多数人群的(如打开电视机的时间为凌晨四点,看的内容多为手球,冰球等小众运动类的)却难以得到考虑。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种基于例外挖掘算法的智能电视用户行为获取方法及系统,旨在解决现有技术中对用户行为分析多数是基于聚类或者分类算法把用户分为几种类型,针对不同类型的用户做相应的产品设计或者内容服务,但未分析观看电视的时间、内容异于大多数人群的小众用户的用户行为,并提供针对性服务的缺陷。
本发明的技术方案如下:
一种基于例外挖掘算法的智能电视用户行为获取方法,其中,所述方法包括以下步骤:
A、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;
B、根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;
C、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。
所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。
所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述步骤A具体包括:
A1、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数;
A2、将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量;
A3、根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。
所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述步骤B具体包括:
B1、根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数;
B2、根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树;
B3、根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度;
B4、对K-均值聚类算法中包括的多个K值依次重复执行步骤B1-B3,直至获取每一K值对应的聚类树,及与每一聚类树相对应的Gini不纯度;
B5、获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。
所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述步骤C中各聚类的型心之间的距离为欧拉距离。
一种基于例外挖掘算法的智能电视用户行为获取系统,其中,包括:
向量获取模块,用于当检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;
聚类树获取模块,用于根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;
判断及存储模块,用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。
所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。
所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述向量获取模块具体包括:
原始向量获取单元,用于检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数;
正则化单元,用于将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量;
降维单元,用于根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。
所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述聚类树获取模块具体包括:
向量划分单元,用于根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数;
子聚类树获取单元,用于根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树;
不纯度获取单元,用于根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度;
控制单元,用于对K-均值聚类算法中包括的多个K值依次重复启动向量划分单元、子聚类树获取单元及不纯度获取单元,直至获取每一K值对应的聚类树,及与每一聚类树相对应的Gini不纯度;
最佳聚类树获取单元,用于获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。
所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述判断及存储模块中各聚类的型心之间的距离为欧拉距离。
本发明提供了一种基于例外挖掘算法的智能电视用户行为获取方法及系统,方法包括:检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。本发明实现了对稀有用户的识别,扩大了内容服务的多样性或覆盖率,同时在识别过程中计算效率较高,成簇效果更佳。
附图说明
图1为本发明所述基于例外挖掘算法的智能电视用户行为获取方法较佳实施例的流程图。
图2为本发明图1所示方法中步骤S100的具体流程图。
图3为本发明图1所示方法中步骤S200的具体流程图。
图4为本发明所述基于例外挖掘算法的智能电视用户行为获取系统较佳实施例的结构框图。
具体实施方式
本发明提供一种基于例外挖掘算法的智能电视用户行为获取方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参见图1,图1是本发明所述基于例外挖掘算法的智能电视用户行为获取方法较佳实施例的流程图。如图1所示,其包括以下步骤:
步骤S100、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量。
本发明的实施例中,在检测到用户收看电视节目时,所采集的用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据等数据。在采集的数据中一部分是数值型数据,如音量,色度大小(1,2,3)等;也包括非数值型数据,如电视台的名称(CCTV1,CCTV2)等。对于非数值型数据,需先编码成数值型数据后,再进行进一步处理。
在步骤S100中,在将非数值型数据编码成数值型数据后,导致用户特征向量的维度剧增,导致算法效率下降。故为了提高算法效率,在对用户特征向量正则化后进行哈希降维,即通过哈希函数将原来的用户特征向量对应的用户变量空间降到较低的变量空间,同时最大程度的保留了原有的变量信息。
步骤S200、根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。
在现有的用户行为分析算法中,一般采用层次聚类算法,如果在其中一步做出错误合并,由于每步所做的处理不能撤销,类与类之间也不能交换对象,因此这些错误会在之后的凝聚过程中叠加,导致低质量的聚类结果。本发明中为了确保高质量的聚类结果,则采用K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分。
其中,K-均值算法(即K-means算法)是一种数据挖掘算法,其基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
层次聚类算法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为凝聚和分裂这两种方案。凝聚的层次聚类算法是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。分裂的层次聚类算法与凝聚的层次聚类算法相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。层次凝聚算法的代表是AGNES算法,层次分裂算法的代表是DIANA算法。本发明中采用K-均值聚类算法和层次凝聚算法,以获取最佳聚类树。
步骤S300、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。
在步骤S300中,各聚类的型心之间的距离为欧拉距离。显然,当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则说明该用户为行为不寻常的用户(也即小众用户),可以保存该最佳聚类树对应的用户特征向量作为小众用户服务推送的依据。
进一步的,如图2所示,所述步骤S100中获取降维用户特征向量的具体流程包括:
步骤S101、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数;
步骤S102、将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量;
步骤S103、根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。
在步骤S103中,维度D是智能电视厂商在出厂前已设定好的,智能电视用户无法设定。同时,在对用户特征向量进行降维处理后,还需进行变量规范化处理。因为不同的变量的取值范围不同,比如音量键的取值范围为(0-100),而电视尺寸的大小为(40,49,51)等离散值。为了在聚类空间中的各个特征维度形成一致,则将每一变量转化为标准分,计算方式为normaizedi=(featureii)/σi,其中featurei为聚类空间中的变量,μi为聚类空间中变量的平均值,σi为聚类空间中变量的方差。当每个变量都减去均值后,对聚类效果无影响。
进一步的,如图3所示,所述步骤S200中获取最佳聚类树的具体流程包括:
步骤S201、根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数;
步骤S202、根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树;
步骤S203、根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度;
步骤S204、对K-均值聚类算法中包括的多个K值依次重复执行步骤S201-S203,直至获取每一K值对应的聚类树,及与每一聚类树相对应的Gini不纯度;
步骤S205、获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。
一般来说,一个好的聚类模型应该把同种类型的用户聚集在一起。 Gini不纯度是常用的评价类簇同构性的计算方法。Gini不纯度值越低,说明类的纯度越高。本发明在具体实施时,预先抽取了多种行为特征的用户,打上“普通电视迷”、“上班族”、“夜猫子”、冰球爱好者等的标签对用户行进预分类,从而可以利用Gini不纯度来评估聚类的效果。Gini不纯度越低,说明聚类模型越好。
可见,本发明所述的基于例外挖掘算法的智能电视用户行为获取方法与现有的用户行为分析方法相比,有以下技术好处:
1)该算法优先考虑了稀有用户的识别,从而避免了常规算法只考虑大部分用户的缺点,扩大了产品设计和内容服务的多样性和覆盖率。
2) 该算法可以和其他聚类算法配合使用,由于行为异常的用户较少,因此不管使用那种算法,计算量都相对较小,计算高效可行。
3)K-均值聚类算法是的时间和空间复杂度是线性或接近线性的,因此数据量的增大,并不会导致计算量的快速正常,计算时间是可控的,并且参数选择过程中的模型构建可以并行进行。
(4)K-均值聚类算法和层次聚类算法的混合算法优点在于,既可以因使用K-均值聚类算法从数据集的全局特征得益,又可以从凝聚层次算法所使用的局部特征得益,因此成簇效果较好。
基于上述方法实施例,本发明还提供一种基于例外挖掘算法的智能电视用户行为获取系统,如图4所示,其包括:
向量获取模块100,用于当检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;
聚类树获取模块200,用于根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;
判断及存储模块300,用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。
进一步的,在所述基于例外挖掘算法的智能电视用户行为获取系统中所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。
进一步的,在所述基于例外挖掘算法的智能电视用户行为获取系统中所述向量获取模块100具体包括:
原始向量获取单元,用于检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数;
正则化单元,用于将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量;
降维单元,用于根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。
进一步的,在所述基于例外挖掘算法的智能电视用户行为获取系统中所述聚类树获取模块200具体包括:
向量划分单元,用于根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数;
子聚类树获取单元,用于根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树;
不纯度获取单元,用于根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度;
控制单元,用于对K-均值聚类算法中包括的多个K值依次重复启动向量划分单元、子聚类树获取单元及不纯度获取单元,直至获取每一K值对应的聚类树,及与每一聚类树相对应的Gini不纯度;
最佳聚类树获取单元,用于获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。
进一步的,在所述基于例外挖掘算法的智能电视用户行为获取系统中,所述判断及存储模块300中各聚类的型心之间的距离为欧拉距离。
综上所述,本发明提供了一种基于例外挖掘算法的智能电视用户行为获取方法及系统,方法包括:检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。本发明实现了对稀有用户的识别,扩大了内容服务的多样性或覆盖率,同时在识别过程中计算效率较高,成簇效果更佳。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (8)

1.一种基于例外挖掘算法的智能电视用户行为获取方法,其特征在于,所述方法包括以下步骤:
A、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;
B、根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;
C、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量;
所述步骤B具体包括:
B1、根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数;
B2、根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树;
B3、根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度;
B4、对K-均值聚类算法中包括的多个K值依次重复执行步骤B1-B3,直至获取每一K值对应的聚类树,及与每一聚类树相对应的Gini不纯度;
B5、获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;
在步骤C中,当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则说明该用户为小众用户,保存该最佳聚类树对应的用户特征向量作为小众用户服务推送的依据。
2.根据权利要求1所述基于例外挖掘算法的智能电视用户行为获取方法,其特征在于,所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。
3.根据权利要求1所述基于例外挖掘算法的智能电视用户行为获取方法,其特征在于,所述步骤A具体包括:
A1、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数;
A2、将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量;
A3、根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。
4.根据权利要求1所述基于例外挖掘算法的智能电视用户行为获取方法,其特征在于,所述步骤C中各聚类的型心之间的距离为欧拉距离。
5.一种基于例外挖掘算法的智能电视用户行为获取系统,其特征在于,包括:
向量获取模块,用于当检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;
聚类树获取模块,用于根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;
判断及存储模块,用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量;
所述聚类树获取模块具体包括:
向量划分单元,用于根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数;
子聚类树获取单元,用于根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树;
不纯度获取单元,用于根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度;
控制单元,用于对K-均值聚类算法中包括的多个K值依次重复启动向量划分单元、子聚类树获取单元及不纯度获取单元,直至获取每一K值对应的聚类树,及与每一聚类树相对应的Gini不纯度;
最佳聚类树获取单元,用于获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;
所述判断及存储模块还用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则说明该用户为小众用户,保存该最佳聚类树对应的用户特征向量作为小众用户服务推送的依据。
6.根据权利要求5所述基于例外挖掘算法的智能电视用户行为获取系统,其特征在于,所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。
7.根据权利要求5所述基于例外挖掘算法的智能电视用户行为获取系统,其特征在于,所述向量获取模块具体包括:
原始向量获取单元,用于检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数;
正则化单元,用于将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量;
降维单元,用于根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。
8.根据权利要求5所述基于例外挖掘算法的智能电视用户行为获取系统,其特征在于,所述判断及存储模块中各聚类的型心之间的距离为欧拉距离。
CN201510521464.1A 2015-08-24 2015-08-24 基于例外挖掘算法的智能电视用户行为获取方法及系统 Active CN105163182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510521464.1A CN105163182B (zh) 2015-08-24 2015-08-24 基于例外挖掘算法的智能电视用户行为获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510521464.1A CN105163182B (zh) 2015-08-24 2015-08-24 基于例外挖掘算法的智能电视用户行为获取方法及系统

Publications (2)

Publication Number Publication Date
CN105163182A CN105163182A (zh) 2015-12-16
CN105163182B true CN105163182B (zh) 2019-06-11

Family

ID=54803922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510521464.1A Active CN105163182B (zh) 2015-08-24 2015-08-24 基于例外挖掘算法的智能电视用户行为获取方法及系统

Country Status (1)

Country Link
CN (1) CN105163182B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021299B (zh) * 2016-05-03 2020-07-10 Tcl科技集团股份有限公司 文本的降维特征向量确定方法及装置
CN107239796B (zh) * 2017-05-19 2020-06-30 四川长虹电器股份有限公司 基于使用行为区分电视归属属性的系统与方法
CN109819282B (zh) * 2017-11-22 2021-04-23 腾讯科技(深圳)有限公司 一种视频用户类别识别方法、装置和介质
CN108304888B (zh) * 2018-02-28 2020-07-07 广州虎牙信息科技有限公司 直播平台用户分类方法及计算机存储介质、终端
CN111277871A (zh) * 2018-12-05 2020-06-12 华为技术有限公司 网络协议电视iptv中推荐内容的方法和装置
CN114780606B (zh) * 2022-03-30 2022-10-14 上海必盈特软件系统有限公司 一种大数据挖掘方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572543A (zh) * 2012-02-29 2012-07-11 中山大学 一种数字电视节目推荐系统及方法
CN102737055A (zh) * 2011-04-06 2012-10-17 祁勇 一种在社交网络中确定用户特征的方法和系统
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN102946566A (zh) * 2012-10-24 2013-02-27 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN104102726A (zh) * 2014-07-22 2014-10-15 南昌航空大学 基于层次聚类的改进k均值聚类算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9502073B2 (en) * 2010-03-08 2016-11-22 Magisto Ltd. System and method for semi-automatic video editing
US20130183736A1 (en) * 2012-01-18 2013-07-18 C2 Biotechnologies, Llc Process for Designing, Constructing, and Characterizing Fusion Enzymes for Operation in an Industrial Process

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737055A (zh) * 2011-04-06 2012-10-17 祁勇 一种在社交网络中确定用户特征的方法和系统
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN102572543A (zh) * 2012-02-29 2012-07-11 中山大学 一种数字电视节目推荐系统及方法
CN102946566A (zh) * 2012-10-24 2013-02-27 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN104102726A (zh) * 2014-07-22 2014-10-15 南昌航空大学 基于层次聚类的改进k均值聚类算法

Also Published As

Publication number Publication date
CN105163182A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
CN105163182B (zh) 基于例外挖掘算法的智能电视用户行为获取方法及系统
US11657079B2 (en) System and method for identifying social trends
CN109614517B (zh) 视频的分类方法、装置、设备及存储介质
KR100953394B1 (ko) 아이템들의 추천기에서 아이템들의 근접도를 평가하기위한 방법 및 장치
CN103229169B (zh) 内容提供方法和系统
CN104809163A (zh) 一种基于移动终端推荐用户服饰搭配的方法及移动终端
Rathore et al. DeepCachNet: A proactive caching framework based on deep learning in cellular networks
CN112800805A (zh) 视频剪辑方法、系统、计算机设备及计算机存储介质
CN109977296B (zh) 一种信息推送方法、装置、设备及存储介质
WO2012084025A1 (en) Method and apparatus for providing temporal context for recommending content for consumption by a user device
CN103716702A (zh) 电视节目推荐装置和方法
CN110427548B (zh) 信息推送方法、信息推送装置及计算机可读存储介质
CN109348287B (zh) 视频摘要生成方法、装置、存储介质和电子设备
CN109213802B (zh) 用户画像构建方法、装置、终端和计算机可读存储介质
TWI621989B (zh) Graph-based method and system for analyzing users
CN105812937A (zh) 一种电视节目推荐方法和电视节目推荐装置
CN112329811A (zh) 异常账号识别方法、装置、计算机设备和存储介质
US20160328466A1 (en) Label filters for large scale multi-label classification
CN111241381A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN111382605A (zh) 视频内容审核方法、装置、存储介质和计算机设备
CN112148942B (zh) 基于数据聚类的业务指标数据分类方法及装置
CN106951244B (zh) 智能分享方法、系统与装置
CN111861555A (zh) 用于行为分析的RFM-Session用户建模方法和系统及介质
JP5973309B2 (ja) 配信装置及びコンピュータプログラム
CN111104550A (zh) 视频推荐方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant