CN108366276B

CN108366276B - 收视偏好分析方法及系统

Info

Publication number: CN108366276B
Application number: CN201810220530.5A
Authority: CN
Inventors: 王妍; 柴剑平; 冯熙; 李波; 殷复莲; 江茜; 檀雷雷
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2020-05-01
Anticipated expiration: 2038-03-16
Also published as: CN108366276A

Abstract

本发明提供一种收视偏好分析方法及系统，包括：设定参数；构建收视指标模型得到每个用户对各节目收视指标；根据各用户各节目收视指标确定各用户对各节目收视偏好，包括偏好顺序和偏好程度，采用因子分析法分析每个用户对各节目收视指标，按照因子得分对各节目进行排序，因子得分越高，偏好顺序越靠前，获得每个用户对各节目偏好顺序；将收视指标作为聚类变量分别采用聚类算法对各用户节目收视指标进行聚类，得到各节目的多个聚类结果，将每个节目的多个聚类结果按照收视指标总值和类平均值进行排序，收视指标总值和类平均值越高对所述节目的偏好程度越高。所述方法及系统可描述个体收视偏好，在给定决策条件下准确找到各类节目目标收视群体。

Description

收视偏好分析方法及系统

技术领域

本发明涉及广播电视领域，更为具体地，涉及一种收视偏好分析方法及系统。

背景技术

目前，面对三网融合带来的挑战，广播电视基本业务正受到OTT、IPTV以及社交电视等新型媒体应用的蚕食。同时，广播电视运营商、节目制作商、广告商等各部门缺乏用户的基本信息，能用于用户分析的数据指标较少。在这样的环境下，如何从收视行为中发现用户的收视特征，从传统的“粗放式”服务向“个性化”服务转变的问题显得十分重要，广播电视用户收视偏好挖掘系统能够有效解决这一问题。

广播电视用户收视偏好挖掘的理论基础为数据挖掘技术与客户关系管理。数据挖掘是指从大量数据中发现有用知识的过程。在大数据的时代背景下，广播电视领域累积了大量的用户收视行为数据，数据调查方法从传统的抽样调查逐步向全样本数据转变。通过对这些收视数据进行描述性分析和探索性分析，并运用合适的数据挖掘算法，能够挖掘出个体的收视偏好。客户关系管理是指利用信息技术以及互联网技术管理顾客，将顾客细分为不同类别，并且向不同类别的客户制定不同服务策略的方法。将客户关系管理运用到广播电视领域中，对收视用户进行群体的划分，并根据特定的决策条件找到目标用户群体，有助于网络运营商对增值业务进行精准营销。

用户收视偏好挖掘的本质是对用户在不同类型节目的收视偏好进行描述。现有的广播电视用户收视分析集中于对特定频道、节目的收视分析，缺乏对收视用户个体特征的描述，同时，在依据收视偏好对收视群体进行划分时缺乏科学的、定量的阈值判定方法。

发明内容

鉴于上述问题，本发明的目的是提供一种描述个体收视偏好的收视偏好分析方法及系统。

根据本发明的一个方面，提供一种收视偏好分析系统，包括：设定部，设定用于确定广播电视用户收视偏好所需的参数，其中，所述参数至少包括：时间区域和收视指标；采集部，采集用户对广播电视节目的收视数据；调用部，调用用户在所述时间区域内的收视数据，发送给收视指标矩阵构建部；收视指标矩阵构建部，构建收视指标的模型，将调用部传来的各用户的收视数据代入所述模型，得到各用户的各节目的收视指标；收视偏好获得部，包括偏好顺序模块和偏好程度模块中的一个或两个，其中，所述偏好顺序模块采用因子分析法分析每个用户对各节目的收视指标，按照因子得分对各节目进行排序，因子得分越高，偏好顺序越靠前，获得每个用户对各节目的偏好顺序；所述偏好程度模块，将收视指标作为聚类变量，各节目分别采用聚类算法对各用户对所述节目的收视指标进行聚类，得到各节目的多个聚类结果，将每一个节目的多个聚类结果按照收视指标总值或/和类平均值进行排序，收视指标总值或/和类平均值越高对所述节目的偏好程度越高，获得每个用户对各节目的偏好程度。

根据本发明的另一个方面，提供一种收视偏好分析方法，包括：设定用于确定广播电视用户收视偏好所需的参数，其中，所述参数至少包括：时间区域和收视指标；采集用户对广播电视节目的收视数据；构建收视指标的模型，将每个用户在所述时间区域内的收视数据代入所述模型，得到每个用户的各节目的收视指标；根据各用户的各节目的收视指标，确定各用户对各节目的收视偏好，所述收视偏好包括偏好顺序和偏好程度中的一个或两个，其中，采用因子分析法分析每个用户对各节目的收视指标，按照因子得分对各节目进行排序，因子得分越高，偏好顺序越靠前，获得每个用户对各节目的偏好顺序；将收视指标作为聚类变量，各节目分别采用聚类算法对各用户对所述节目的收视指标进行聚类，得到各节目的多个聚类结果，将每一个节目的多个聚类结果按照收视指标总值或/和类平均值进行排序，收视指标总值或/和类平均值越高对所述节目的偏好程度越高，获得每个用户对各节目的偏好程度。

本发明所述收视偏好分析系统及方法，从不同维度挖掘用户收视偏好并进行描述，以及提供个人收视偏好挖掘方法，能够判定用户的收视偏好以及偏好的顺序，达到精准化营销与个性化服务的目的，可以实现对个体收视偏好的描述，并能够在给定决策条件下找到目标收视群体的关键问题。

附图说明

通过参考以下结合附图的说明，随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1是本发明所述收视偏好分析系统的构成框图；

图2是本发明所述收视偏好分析方法的流程图。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。

以下将结合附图对本发明的具体实施例进行详细描述。

图1是本发明所述收视偏好分析系统的构成框图，如图1所示，本发明所述收视偏好分析系统包括：

设定部1，设定用于确定广播电视用户收视偏好所需的参数，其中，所述参数至少包括：时间区域和收视指标，例如，时间区域为2016年1月1日至2017年1月1日；所述收视指标可以是收视率、收视时长、收视频次等各种表征用户收视情况的指标；

采集部2，采集用户对广播电视节目的收视数据；

调用部3，调用用户在所述时间区域内的收视数据，发送给收视指标矩阵构建部；

收视指标矩阵构建部4，构建收视指标的模型(收视指标的函数)，将调用部传来的各用户的收视数据代入所述模型，得到各用户的各节目的收视指标；

收视偏好获得部5，包括偏好顺序模块51和偏好程度模块52中的一个或两个，其中，所述偏好顺序模块51采用因子分析法分析每个用户对各节目的收视指标，按照因子得分对各节目进行排序，因子得分越高，偏好顺序越靠前，获得每个用户对各节目的偏好顺序；所述偏好程度模块52，将收视指标作为聚类变量，各节目分别采用聚类算法对各用户对所述节目的收视指标进行聚类，得到各节目的多个聚类结果，将每一个节目的多个聚类结果按照收视指标总值或/和类平均值进行排序，收视指标总值或/和类平均值越高对所述节目的偏好程度越高，获得每个用户对各节目的偏好程度。

优选地，上述收视偏好分析系统，还包括：

分类部6，将节目按节目类型分类，收视指标矩阵构建部得到各用户各节目类型的收视指标，收视偏好获得部获得各用户对各节目类型的偏好顺序或/和偏好程度，节目类型可以包含财经类、电视剧类、电影类、法治类、教学类、青少类、生活服务类、体育类、外语类、戏剧类、新闻/时事类、音乐类、专题类、综艺类、其它类共15类，也可以按照节目子类分类，节目子类包含财经新闻、内地电视剧、青少专题、新闻评述等88类。

另外，优选地，优选地，上述收视偏好分析系统还包括：

结果输出模块7，以表格或/和标签的形式输出各用户对各节目或节目类型的收视偏好，所述结果输出模块可以是显示屏等具有显示功能的构件，也可以是网络或射频等信号发射模块，将用户的收视偏好通过网络、射频等传输给广播电视厂商，另外，还可以包括节目推荐模块，根据用户的收视偏好推送节目，再者，还可以包括。还可以包括输入模块(电脑、手机、触摸屏等)。

在本发明的一个实施例中，上述偏好程度模块52包括：

第一聚类单元521，各节目或各节目类型以收视指标为聚类变量采用聚类方法进行(k_m-1)次聚类，得到k_m个聚类个数，其中，k_m为小于或等于

的最大正整数，N为待聚类的样本总数，样本为一个节目或节目类型的一个用户的收视指标；

伪F统计单元522，统计各节目或各节目类型的每一次聚类的伪F统计量，

其中，T为节目总数或节目类型总数，P_k为聚类个数为k时的总类内离差平方和，F_k为聚类个数为k时的伪F统计量，k为聚类个数索引，1<k≤k_m；

差值计算单元523，对各节目或各节目类型的(k_m-1)个伪F统计量按照生成的先后顺序进行排序并计算相邻两个伪F统计量之间的差值，获取(k_m-2)个伪F统计量的差值；

聚类个数确定单元524，将各节目或节目类型的最大的所述伪F统计量的差值对应的聚类个数作为各节目或节目类型的最佳聚类个数k₀；

第二聚类单元525，各节目或节目类型分别采用聚类算法对各用户的收视指标进行聚类，每个节目或节目类型分别获得k₀个用户类；

第二排序单元526，将每一个节目或节目类型的k₀个用户类分别按照收视指标总值或/和类平均值进行排序，将收视指标总值或/和类平均值最大的用户类作为1级偏好者，从而得到各节目或各节目类型的1级至k₀级偏好者，级数越大，偏好程度越低。

在本发明的一个实施例中，上述偏好顺序模块51包括：

因子分析单元511，对各用户对多个节目或节目类型的收视指标进行因子分析得到协方差矩阵，所述因子为一个用户对一个节目或节目类型收视指标；

第一计算单元512，通过所述协方差矩阵利用主成分法计算因子与载荷矩阵；

判断单元513，判断各节目或节目类型的因子个数是否大于1，将判断结果发送给第二计算单元514；

第二计算单元514，用于计算因子得分，当节目或节目类型的因子个数不大于1时，根据因子和载荷矩阵的载荷系数得到因子得分得到所述节目或节目类型的因子得分，当节目或节目类型的因子个数大于1时，采用正交旋转法对所述因子进行选择，根据因子和载荷矩阵的载荷系数得到选择的因子的因子得分，在每个选择的因子得分的基础上继续计算因子综合得分；

第一排序单元515，按照第二计算单元的因子得分或因子综合得分对所述节目或节目类型进行排序。

图2是本发明所述收视偏好分析方法的流程图，如图2所示，所述收视偏好分析方法包括：

步骤S1，设定用于确定广播电视用户收视偏好所需的参数，其中，所述参数至少包括：时间区域和收视指标；

步骤S2，采集用户对广播电视节目的收视数据；

步骤S3，构建收视指标的模型，将每个用户在所述时间区域内的收视数据代入所述模型，得到每个用户的各节目的收视指标；

步骤S4，根据各用户的各节目的收视指标，确定各用户对各节目的收视偏好，所述收视偏好包括偏好顺序和偏好程度中的一个或两个，其中，采用因子分析法分析每个用户对各节目的收视指标，按照因子得分对各节目进行排序，因子得分越高，偏好顺序越靠前，获得每个用户对各节目的偏好顺序；将收视指标作为聚类变量，各节目分别采用聚类算法对各用户对所述节目的收视指标进行聚类，得到各节目的多个聚类结果，将每一个节目的多个聚类结果按照收视指标总值或/和类平均值进行排序，收视指标总值或/和类平均值越高对所述节目的偏好程度越高，获得每个用户对各节目的偏好程度。

优选地，在步骤3中，将节目按节目类型分类，得到各用户各节目类型的收视指标，在步骤4中，根据各用户各节目类型的收视指标获得各用户对各节目类型的收视偏好。

在本发明的一个实施例中，步骤S4中所述确定各用户对各节目或节目类型的偏好顺序的方法包括：

步骤S41＇，对各用户对多个节目或节目类型的收视指标进行因子分析得到协方差矩阵，所述因子为一个用户对一个节目或节目类型收视指标；

步骤S42＇，通过所述协方差矩阵利用主成分法计算因子与载荷矩阵；

步骤S43＇，判断各节目或节目类型的因子个数是否大于1；

当节目或节目类型的因子个数不大于1时，步骤S44＇，根据因子和载荷矩阵的载荷系数得到因子得分得到所述节目或节目类型的因子得分；

当节目或节目类型的因子个数大于1时，步骤S45＇，采用正交旋转法对所述因子进行选择，根据因子和载荷矩阵的载荷系数得到选择的因子的因子得分，在每个选择的因子得分的基础上继续计算因子综合得分；

步骤S46＇，按照因子得分或因子综合得分对所述节目或节目类型进行排序。

在本发明的一个实施例中，步骤S4中所述确定各用户对各节目或节目类型的偏好程度的方法包括：

步骤S41，各节目或各节目类型分别以收视指标为聚类变量采用聚类方法进行(k_m-1)次聚类，得到k_m个聚类个数，其中，k_m为小于或等于

统计各节目或各节目类型的每一次聚类的伪F统计量，

步骤S42，对各节目或各节目类型的(k_m-1)个伪F统计量按照生成的先后顺序进行排序并计算相邻两个伪F统计量之间的差值，获取(k_m-2)个伪F统计量的差值；

步骤S43，将各节目或节目类型的最大的所述伪F统计量的差值对应的聚类个数作为各节目或节目类型的最佳聚类个数k₀；

步骤S44，各节目或节目类型分别采用聚类算法对各用户的收视指标进行聚类，每个节目或节目类型分别获得k₀个用户类；

步骤S45，将每一个节目或节目类型的k₀个用户类分别按照收视指标总值或/和类平均值进行排序，将收视指标总值或/和类平均值最大的用户类作为1级偏好者，从而得到各节目或各节目类型的1级至k₀级偏好者，级数越大，偏好程度越低。

优选地，在步骤S44中，包括：

步骤S441：从一个节目或节目类型的N个用户中随机选取k₀个用户，将选取的k₀个用户的收视指标矩阵作为初始聚类中心；

步骤S442：将所述节目或节目类型的剩余的每个用户分配到与类均值的欧几里得距离最小的初始聚类中心，所述类均值为初始聚类中心中样本的平均值，得到所述节目或节目类型的k₀个初始用户类；

步骤S443，计算初始用户类的均值；

步骤S444，循环步骤S442-步骤S443，直到更新后k₀个初始用户类不发生变化，即组成用户类的用户收视指标矩阵不在变化，得到所述节目或节目类型的k₀个用户类；

步骤S445，其他节目或节目类型重复上述过程，得到各节目或节目类型的k₀个用户类。

上述收视偏好分析系统及方法的各实施例中的收视指标可以为多个，组成收视指标矩阵，收视指标的个数越多，获得的各用户对各节目的收视偏好越精确，优选地，所述收视指标包括总收视时长、收视完整度和收视稳定值中的一个或多个，

其中：L_t表示一个用户对节目类型t或节目t的总收视时长；P_t表示用户对节目类型t或节目t的的收视完整度；S_t表示用户对节目类型t或节目t的收视稳定值；n₁表示用户对节目类型t或节目t的收视天数；n₂表示第i日用户收看节目类型t或节目t的个数；L_i,j表示第i日用户收看第j个节目类型t或节目t的有效收视时长；B_i,j表示第i日用户收看第j个节目类型t或节目t的节目播出时长。

本发明基于广播电视用户收视偏好分析方法及系统，通过从不同维度挖掘用户收视偏好并进行描述，以及提供个人收视偏好挖掘方法，能够判定用户的收视偏好以及偏好的顺序。收视群体划分方法能够对各类用户偏好进行最优分级，并描述用户偏好的具体程度。本发明能够帮助网络运营商、节目制作商了解用户，并根据特定收视偏好筛选目标收视用户，以达到精准化营销与个性化服务的目的。

综上所述，参照附图以示例的方式描述了根据本发明提出的收视偏好分析方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的系统及方法，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种收视偏好分析系统，其特征在于，包括：

设定部，设定用于确定广播电视用户收视偏好所需的参数，其中，所述参数至少包括：时间区域和收视指标；

采集部，采集用户对广播电视节目的收视数据；

调用部，调用用户在所述时间区域内的收视数据，发送给收视指标矩阵构建部；

收视指标矩阵构建部，构建收视指标的模型，将调用部传来的各用户的收视数据代入所述模型，得到各用户的各节目的收视指标；

收视偏好获得部，包括偏好顺序模块和偏好程度模块中的一个或两个，其中，所述偏好顺序模块采用因子分析法分析每个用户对各节目的收视指标，按照因子得分对各节目进行排序，因子得分越高，偏好顺序越靠前，获得每个用户对各节目的偏好顺序；所述偏好程度模块，将收视指标作为聚类变量，各节目分别采用聚类算法对各用户对所述节目的收视指标进行聚类，得到各节目的多个聚类结果，将每一个节目的多个聚类结果按照收视指标总值或/和类平均值进行排序，收视指标总值或/和类平均值越高对所述节目的偏好程度越高，获得每个用户对各节目的偏好程度，

其中，所述偏好顺序模块包括：

因子分析单元，对各用户对多个节目或节目类型的收视指标进行因子分析得到协方差矩阵，所述因子为一个用户对一个节目或节目类型收视指标；

第一计算单元，通过所述协方差矩阵利用主成分法计算因子与载荷矩阵；

判断单元，判断各节目或节目类型的因子个数是否大于1，将判断结果发送给第二计算单元；

第二计算单元，当节目或节目类型的因子个数不大于1时，根据因子和载荷矩阵的载荷系数得到因子得分得到所述节目或节目类型的因子得分，当节目或节目类型的因子个数大于1时，采用正交旋转法对所述因子进行选择，根据因子和载荷矩阵的载荷系数得到选择的因子的因子得分，在每个选择的因子得分的基础上继续计算因子综合得分；

第一排序单元，按照第二计算单元的因子得分或因子综合得分对所述节目或节目类型进行排序，

其中，所述偏好程度模块包括：

第一聚类单元，各节目或各节目类型分别以收视指标为聚类变量采用聚类方法进行(k_m-1)次聚类，得到k_m个聚类个数，其中，k_m为小于或等于

伪F统计单元，统计各节目或各节目类型的每一次聚类的伪F统计量，

其中，T为节目总数或节目类型总数，P_k为聚类个数为k时的总类内离差平方和，F_k为聚类个数为k时的伪F统计量，k为聚类个数索引，1＜k≤k_m；

差值计算单元，对各节目或各节目类型的(k_m-1)个伪F统计量按照生成的先后顺序进行排序并计算相邻两个伪F统计量之间的差值，获取(k_m-2)个伪F统计量的差值；

聚类个数确定单元，将各节目或节目类型的最大的所述伪F统计量的差值对应的聚类个数作为各节目或节目类型的最佳聚类个数k₀；

第二聚类单元，各节目或节目类型分别采用聚类算法对各用户的收视指标进行聚类，每个节目或节目类型分别获得k₀个用户类；

第二排序单元，将每一个节目或节目类型的k₀个用户类分别按照收视指标总值或/和类平均值进行排序，将收视指标总值或/和类平均值最大的用户类作为1级偏好者，从而得到各节目或各节目类型的1级至k₀级偏好者，级数越大，偏好程度越低。

2.根据权利要求1所述的收视偏好分析系统，其特征在于，还包括：

分类部，将节目按节目类型分类，收视指标矩阵构建部得到各用户各节目类型的收视指标，收视偏好获得部获得各用户对各节目类型的偏好顺序或/和偏好程度。

3.根据权利要求1所述的收视偏好分析系统，其特征在于，所述收视指标包括总收视时长、收视完整度和收视稳定值中的一个或多个，

4.根据权利要求1所述的收视偏好分析系统，其特征在于，还包括：

结果输出模块，以表格或/和标签的形式输出各用户对各节目或节目类型的收视偏好。

5.一种收视偏好分析方法，其特征在于，包括：

设定用于确定广播电视用户收视偏好所需的参数，其中，所述参数至少包括：时间区域和收视指标；

采集用户对广播电视节目的收视数据；

构建收视指标的模型，将每个用户在所述时间区域内的收视数据代入所述模型，得到每个用户的各节目的收视指标；

根据各用户的各节目的收视指标，确定各用户对各节目的收视偏好，所述收视偏好包括偏好顺序和偏好程度中的一个或两个，其中，采用因子分析法分析每个用户对各节目的收视指标，按照因子得分对各节目进行排序，因子得分越高，偏好顺序越靠前，获得每个用户对各节目的偏好顺序；将收视指标作为聚类变量，各节目分别采用聚类算法对各用户对所述节目的收视指标进行聚类，得到各节目的多个聚类结果，将每一个节目的多个聚类结果按照收视指标总值或/和类平均值进行排序，收视指标总值或/和类平均值越高对所述节目的偏好程度越高，获得每个用户对各节目的偏好程度，

其中，确定各用户对各节目的偏好程度的方法包括：

各节目或各节目类型分别以收视指标为聚类变量采用聚类方法进行(k_m-1)次聚类，得到k_m个聚类个数，其中，k_m为小于或等于

统计各节目或各节目类型的每一次聚类的伪F统计量，

对各节目或各节目类型的(k_m-1)个伪F统计量按照生成的先后顺序进行排序并计算相邻两个伪F统计量之间的差值，获取(k_m-2)个伪F统计量的差值；

将各节目或节目类型的最大的所述伪F统计量的差值对应的聚类个数作为各节目或节目类型的最佳聚类个数k₀；

各节目或节目类型分别采用聚类算法对各用户的收视指标进行聚类，每个节目或节目类型分别获得k₀个用户类；

将每一个节目或节目类型的k₀个用户类分别按照收视指标总值或/和类平均值进行排序，将收视指标总值或/和类平均值最大的用户类作为1级偏好者，从而得到各节目或各节目类型的1级至k₀级偏好者，级数越大，偏好程度越低，

其中，确定各用户对各节目的偏好顺序的方法包括：

对各用户对多个节目或节目类型的收视指标进行因子分析得到协方差矩阵，所述因子为一个用户对一个节目或节目类型收视指标；

通过所述协方差矩阵利用主成分法计算因子与载荷矩阵；

判断各节目或节目类型的因子个数是否大于1；

当节目或节目类型的因子个数不大于1时，根据因子和载荷矩阵的载荷系数得到因子得分得到所述节目或节目类型的因子得分；

当节目或节目类型的因子个数大于1时，采用正交旋转法对所述因子进行选择，根据因子和载荷矩阵的载荷系数得到选择的因子的因子得分，在每个选择的因子得分的基础上继续计算因子综合得分；

按照因子得分或因子综合得分对所述节目或节目类型进行排序。

6.根据权利要求5所述的收视偏好分析方法，其特征在于，还包括：

将节目按节目类型分类，根据各用户各节目类型的收视指标获得各用户对各节目类型的收视偏好。