CN109640128A

CN109640128A - 一种电视用户观看行为特征提取方法及系统

Info

Publication number: CN109640128A
Application number: CN201811471869.9A
Authority: CN
Inventors: 陈昊; 易鑫睿; 黎明; 张聪炫; 李军华
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-04-16
Anticipated expiration: 2038-12-04
Also published as: CN109640128B

Abstract

本发明公开了一种电视用户观看行为特征提取方法及系统。该方法包括：生成用户属性列表；计算用户价值指标；生成用户价值指标矩阵；划分用户价值类型；针对不同用户价值类型计算用户价值指标的均值和标准差，建立用户价值类别列表；相似度计算处理得到每一用户的用户价值类型；生成用户偏好习惯矩阵；划分用户偏好类型，针对不同用户偏好类型计算用户偏好习惯的均值和标准差，建立用户偏好类别列表；相似度计算处理，得到每一用户的用户偏好类型；针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐。采用本发明的方法及系统，具有能够根据用户不同时期动态提取电视用户观看行为特征，便于进行个性化推荐的优点。

Description

一种电视用户观看行为特征提取方法及系统

技术领域

本发明涉及个性化推荐技术领域，特别是涉及一种电视用户观看行为特征提取方法及系统。

背景技术

个性化推荐系统是通过挖掘用户的兴趣偏好信息，筛选并推送给用户感兴趣的项目，帮助用户解决选择困难的一种技术手段。电视用户观看行为的多样性和易变性是影响个性化推荐系统性能的主要因素，提取电视用户观看行为特征对提升个性化推荐系统性有极大帮助。

传统的提取电视用户观看行为特征可通过显式反馈和隐式反馈两种方式。显式反馈方式获取用户偏好信息包括：根据用户消费过的项目，利用信息熵的项目加权的方法表征用户不同程度的兴趣；利用属性和内容信息对项目和用户聚类处理，具体而言，根据用户观看的电视节目内容进行用户聚类，以用户组中的频繁项集表征整类用户偏好；以及根据单个用户观看过的电视节目包含的元数据和用户评分共同组成用户偏好向量的方法。隐式反馈是在不需要电视用户对电视节目内容做出明确的评分前提下，仅通过用户历史记录隐式推断用户对观看的电视节目内容的兴趣。以上两种反馈方式提取电视用户观看行为特征时通常认为所有用户的偏好习惯是不会随时间产生变化，不能及时根据用户现阶段观看电视的偏好进行个性化推荐。

发明内容

本发明的目的是提供一种电视用户观看行为特征提取方法及系统，具有能够根据用户不同时期动态提取电视用户观看行为特征，便于进行个性化推荐的优点。

为实现上述目的，本发明提供了如下方案：

一种电视用户观看行为特征提取方法，包括：获取用户观看电视的历史记录数据，根据所述历史记录数据的属性生成用户属性列表；所述用户属性包括用户观看电视节目的次数信息和时间信息以及用户所用设备信息；

根据所述用户属性列表计算用户价值指标；根据所述用户价值指标生成用户价值指标矩阵；所述用户价值指标矩阵的行表示用户机顶盒设备号，列表示用户价值指标；所述用户价值指标反应用户观看电视的操作信息；

对所述用户价值指标矩阵中的元素进行聚类处理，按照用户对电视的操作特征划分用户价值类型；针对不同用户价值类型计算用户价值指标的均值和标准差，建立用户价值类别列表；所述用户价值类别列表的行表示用户价值类型，列表示用户价值指标的均值和标准差；所述用户价值类型表示用户对电视依赖程度的层次；

根据所述用户价值类别列表对所述用户价值指标矩阵中的元素进行相似度计算处理，得到每一用户的用户价值类型；

获取电视节目类型，根据所述用户属性列表计算用户在所述电视节目类型的用户偏好习惯，根据所述用户偏好习惯生成用户偏好习惯矩阵；所述用户偏好习惯矩阵的行表示用户机顶盒设备号，列表示用户偏好习惯；所述用户偏好习惯反应用户观看所述电视节目类型的时间信息；

对所述用户偏好习惯矩阵中的元素进行聚类处理，按照用户观看所述电视节目类型的时间特征划分用户偏好类型，针对不同用户偏好类型计算用户偏好习惯的均值和标准差，建立用户偏好类别列表；所述用户偏好类别所列表的行表示用户偏好类型，列表示用户偏好习惯的均值和标准差；所述用户偏好类型表示用户对各电视节目的喜好程度的层次；

根据所述用户偏好类别列表对所述用户偏好习惯矩阵中的元素进行相似度计算处理，得到每一用户的用户偏好类型；

针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐。

可选的，所述用户属性列表内容，具体包括：用户机顶盒设备号、用户操作时间、用户观看电视节目时间、用户观看电视节目的总次数、各类电视节目的观看次数和观看时长。

可选的，所述用户价值指标包括用户整体操作平均频次、用户近期操作平均频次、操作频次比率和第一时间间隔；

所述用户整体操作平均频次为所述用户观看电视节目的总次数与用户观看行为总统计周期的比值；

所述用户近期操作平均频次为用户在近期统计周期内观看电视节目的总次数与近期统计周期的比值；所述近期统计周期为距离所述总统计周期结束的前N天，10<N<30；

所述操作频次比率为所述用户近期操作平均频次与所述用户近期操作平均频次比值的百分比；

所述第一时间间隔为用户最后一次操作时间与所述总统计周期结束时间的时间差。

可选的，所述对所述用户价值指标矩阵中的元素进行聚类处理，按照用户对电视的操作特征划分用户价值类型，针对不同用户价值类型计算用户价值指标的均值和标准差，建立用户价值类别列表，具体包括：

对所述用户价值指标矩阵中的每列元素采用K-means聚类算法进行聚类，按照用户对电视的操作特征将所述用户划分为忠诚用户、新兴用户、一般用户和流失用户四种用户价值类型；

对每一用户价值类型计算所述用户整体操作平均频次的均值和标准差，所述用户近期操作平均频次的均值和标准差，所述操作频次比率的均值和标准差和所述第一时间间隔的均值和标准差；

建立用户价值类别列表，所述用户价值类别列表大小为4行8列，行表示用户价值类型，列按顺序依次表示所述用户整体操作平均频次的均值和标准差，所述用户近期操作平均频次的均值和标准差，所述操作频次比率的均值和标准差以及所述第一时间间隔的均值和标准差。

可选的，所述根据所述用户价值类别列表对所述用户价值指标矩阵中的元素进行相似度计算处理，得到每一用户的用户价值类型，具体包括：

根据所述用户价值类别列表计算每一用户的用户价值特征相似度，计算所述用户价值特征相似度的公式如下：

式中，f(x,m,s)表示用户价值特征相似度，x表示所述用户价值指标矩阵中用户价值指标的取值，s表示与x对应的用户价值指标在所述用户价值类别列表中任一用户价值类别的均值，m表示与x对应的用户价值指标在所述用户价值类别列表中任一用户价值类别的标准差；

根据所述用户价值特征相似度计算所述用户价值特征的平均相似度，计算公式如下：

式中，i表示用户价值指标，f_i(x,m,s)表示第i个用户价值指标的用户价值特征相似度，表示所述忠诚用户、新兴用户、一般用户和流失用户中任一类用户的用户价值特征的平均相似度，v表示用户价值指标个数；

比较不同用户价值类型的用户价值特征的平均相似度，选取所述用户价值特征的平均相似度的最大值对应的所述用户价值类型为所述每一用户的用户价值类型。

可选的，所述用户偏好习惯包括用户平均每日观看任一电视节目类型的时间、用户近期平均每日观看任一类电视节目的时间、日均时间比率和第二时间间隔；所述电视节目类型包括电视剧、电影、综艺、少儿、纪录片、体育、新闻、娱乐、音乐、财经、生活和戏曲；

所述用户平均每日观看任一类电视节目类型的时间为用户观看任一类电视节目类型的总时间与所述总统计周期的比值；

所述用户近期平均每日观看任一类电视节目的时间为用户在近期统计周期内观看任一类电视节目类型的总时间与近期统计周期的比值；所述近期统计周期为距离所述总统计周期结束的前M天，10<M<30；

所述日均时间比率为所述用户近期平均每日观看任一类电视节目的时间与所述用户平均每日观看任一类电视节目类型的时间比值的百分比；

所述第二时间间隔为用户最后一次观看任一类电视节目的时间与所述总统计周期结束时间的时间差。

可选的，所述对所述用户偏好习惯矩阵中的元素进行聚类处理，按照用户观看电视的节目类型特征划分用户偏好类型，对不同用户偏好类型计算用户偏好习惯的均值和标准差，建立用户偏好类别列表，具体包括：

对所述用户偏好习惯矩阵中的每列元素采用K-means聚类算法进行聚类，按照用户观看电视的节目类型特征将所述电视用户划分为活跃且稳定用户、活跃不稳定用户、稳定不活跃用户和不活跃不稳定用户四种用户偏好类型；

对任一电视节目类型计算每一用户偏好类型的所述用户平均每日观看任一类电视节目类型的时间的均值和标准差，所述用户近期平均每日观看任一类电视节目的时间的均值和标准差，所述日均时间比率的均值和标准差和所述第二时间间隔的均值和标准差；

对任一电视节目类型建立用户偏好类别列表，所述用户偏好类别列表大小为4行8列，行表示用户偏好类型，列按顺序依次表示所述用户平均每日观看任一类电视节目类型的时间的均值和标准差，所述用户近期平均每日观看任一类电视节目的时间的均值和标准差，所述日均时间比率的均值和标准差和所述第二时间间隔的均值和标准差。

可选的，根据所述用户偏好类别列表对所述用户偏好习惯矩阵中的元素进行相似度计算处理，得到每一用户的用户偏好类型，具体包括：

根据所述用户偏好类别列表计算每一用户的用户偏好类型相似度，计算所述用户偏好类型相似度的公式如下：

式中，f(x^’,m’,s’)表示用户偏好类型相似度，x’表示所述用户偏好习惯矩阵中用户偏好习惯的取值，s^’表示与x^’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的均值，m^’表示与x^’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的标准差；

根据所述用户偏好类型相似度计算所述用户偏好类型的平均相似度，计算公式如下：

式中，j表示用户偏好习惯，f_j(x',m',s')表示第j个用户偏好习惯的用户偏好类型相似度，表示所述活跃且稳定用户、活跃不稳定用户、稳定不活跃用户和不活跃不稳定用户中任一类用户的用户偏好类型的平均相似度，w表示用户偏好习惯个数；

比较活跃且稳定用户、活跃不稳定用户、稳定不活跃用户和不活跃不稳定用户的的用户偏好类型的平均相似度，选取所述用户偏好类型的平均相似度的最大值对应的所述用户偏好类型为每一用户的用户偏好类型。

可选的，针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐，具体包括：

计算每一用户对不同电视节目类型的偏好权重，所述偏好权重为所述用户在总统计周期内对任一电视节目类型的观看次数与所述用户观看电视节目的总次数的比值；

根据所述用户观看任一类电视节目类型的偏好类型确定用户对不同电视节目类型的偏好权重系数；所述偏好类型为活跃且稳定用户确定的偏好权重系数大于偏好类型为活跃不稳定用户确定的偏好权重系数；所述偏好类型为活跃不稳定用户确定的偏好权重系数大于偏好类型为不活跃稳定用户确定的偏好权重系数；所述偏好类型为不活跃稳定用户确定的偏好权重系数大于不活跃不稳定用户确定的偏好权重系数；

计算同一电视节目类型的偏好权重与偏好权重系数的乘积；

比较同一用户所有电视节目类型的偏好权重与偏好权重系数的乘积值，选取所述乘积值按降序排列的前Q个乘积值对应的电视节目类型类别为所述用户偏好类型；其中，Q的数值小于所述电视节目类型的个数；

针对所述每一用户的用户价值类型和所述用户偏好类型进行电视节目个性化推荐。

本发明还提供一种电视用户观看行为特征提取系统，包括：

用户属性列表生成模块，用于获取用户观看电视的历史记录数据，根据所述历史记录数据的属性生成用户属性列表；所述用户属性包括用户观看电视节目的次数信息和时间信息以及用户所用设备信息；

用户价值指标矩阵生成模块，用于根据所述用户属性列表计算用户价值指标；根据所述用户价值指标生成用户价值指标矩阵；所述用户价值指标矩阵的行表示用户机顶盒设备号，列表示用户价值指标；所述用户价值指标反应用户观看电视的操作信息；

用户价值类别列表生成模块，用于对所述用户价值指标矩阵中的元素进行聚类处理，按照用户对电视的操作特征划分用户价值类型；针对不同用户价值类型计算用户价值指标的均值和标准差，建立用户价值类别列表；所述用户价值类别列表的行表示用户价值类型，列表示用户价值指标的均值和标准差；所述用户价值类型表示用户对电视依赖程度的层次；

每一用户的用户价值类型生成模块，用于根据所述用户价值类别列表对所述用户价值指标矩阵中的元素进行相似度计算处理，得到每一用户的用户价值类型；

用户偏好习惯矩阵生成模块，用于获取电视节目类型，根据所述用户属性列表计算用户在所述电视节目类型的用户偏好习惯，根据所述用户偏好习惯生成用户偏好习惯矩阵；所述用户偏好习惯矩阵的行表示用户机顶盒设备号，列表示用户偏好习惯；所述用户偏好习惯反应用户观看所述电视节目类型的时间信息；

用户偏好类别列表生成模块，用于对所述用户偏好习惯矩阵中的元素进行聚类处理，按照用户观看所述电视节目类型的时间特征划分用户偏好类型，针对不同用户偏好类型计算用户偏好习惯的均值和标准差，建立用户偏好类别列表；所述用户偏好类别所列表的行表示用户偏好类型，列表示用户偏好习惯的均值和标准差；所述用户偏好类型表示用户对各电视节目的喜好程度的层次；

每一用户的用户偏好类型生成模块，用于根据所述用户偏好类别列表对所述用户偏好习惯矩阵中的元素进行相似度计算处理，得到每一用户的用户偏好类型；

电视节目个性化推荐模块，用于针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐。

与现有技术相比，本发明的有益效果是：

本发明提供了一种电视用户观看行为特征提取方法及系统，根据能够反映用户观看电视操作信息的用户价值指标计算每一用户的用户价值类型，用户价值类型体现出用户对电视依赖程度的层次；根据能够反映用户观看所述电视节目类型时间信息的用户偏好习惯计算每一用户的用户偏好类型，用户偏好类型体现出用户对各电视节目的喜好程度的层次，针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐，具有能够根据用户不同时期动态提取电视用户观看行为特征，便于进行个性化推荐的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一中电视用户观看行为特征提取方法流程图；

图2发明实施例一中机顶盒设备号5的用户观看行为特征图；

图3为本发明实施例二中电视用户观看行为特征提取系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一：

图1为电视用户观看行为特征提取方法流程图，如图1所示，一种电视用户观看行为特征提取方法方法，包括：

步骤101：获取用户观看电视的历史记录数据，根据所述历史记录数据的属性生成用户属性列表。

根据用户机顶盒设备历史记录数据，采取网络爬虫技术丰富补充相关数据。获取的历史记录数据中对节目类型等属性存在缺失，不利于分析电视用户观看行为，运用Python软件进行正则匹配操作从网络平台获取相关数据。其中，直播观看记录数据需要先获得电视频道节目单，利用单条记录观看的时间节点获得节目内容名称，然后再次爬取节目的相关属性；点播观看记录数据则只需根据点播的节目名称，爬取节目的相关属性。用户属性列表内容包括：用户机顶盒设备号、用户操作时间、用户观看电视节目时间、用户观看电视节目的总次数、各类电视节目的观看次数和观看时长。

步骤102：生成用户价值指标矩阵。

根据所述用户属性列表计算用户价值指标，用户价值指标包括用户整体操作平均频次、用户近期操作平均频次、操作频次比率和第一时间间隔。

所述用户整体操作平均频次TF为所述用户观看电视节目的总次数与用户观看行为总统计周期的比值。

所述用户近期操作平均频次rf为用户在近期统计周期内观看电视节目的总次数与近期统计周期的比值；所述近期统计周期为距离所述总统计周期结束的前N天，10<N<30。

所述操作频次比率f_ratio为所述用户近期操作平均频次与所述用户近期操作平均频次比值的百分比。

所述第一时间间隔R为用户最后一次操作时间与所述总统计周期结束时间的时间差。

根据所述用户价值指标生成用户价值指标矩阵U_n×4＝{TF,rf,f_ratio,R}；n表示用户机顶盒设备号，所述用户价值指标反应用户观看电视的操作信息。表1为用户价值指标矩阵数据。

表1用户价值指标矩阵数据

步骤103：建立用户价值类别列表。

对所述用户价值指标矩阵中的每列元素采用K-means聚类算法进行聚类，按照用户对电视的操作特征将所述用户划分为忠诚用户、新兴用户、一般用户和流失用户四种用户价值类型。用户价值类型表示用户对电视依赖程度的层次。

对每一用户价值类型计算所述用户整体操作平均频次的均值和标准差，所述用户近期操作平均频次的均值和标准差，所述操作频次比率的均值和标准差和所述第一时间间隔的均值和标准差。建立用户价值类别列表，所述用户价值类别列表的行表示用户价值类型，列按顺序依次表示所述用户整体操作平均频次的均值和标准差，所述用户近期操作平均频次的均值和标准差，所述操作频次比率的均值和标准差以及所述第一时间间隔的均值和标准差。表2为用户价值类别列表数据。

表2用户价值类别列表数据

步骤104：根据所述用户价值类别列表对所述用户价值指标矩阵中的元素进行相似度计算处理，得到每一用户的用户价值类型。

式中，f(x,m,s)表示用户价值特征相似度，x表示所述用户价值指标矩阵中用户价值指标的取值，s表示与x对应的用户价值指标在所述用户价值类别列表中任一用户价值类别的均值，m表示与x对应的用户价值指标在所述用户价值类别列表中任一用户价值类别的标准差。

式中，i表示用户价值指标，f_i(x,m,s)表示第i个用户价值指标的用户价值特征相似度，表示所述忠诚用户、新兴用户、一般用户和流失用户中任一类用户的用户价值特征的平均相似度，v表示用户价值指标个数，v＝4。

比较不同用户价值类型的用户价值特征的平均相似度，选取所述用户价值特征的平均相似度的最大值对应的所述用户价值类型为所述每一用户的用户价值类型。表3为用户价值分类结果数据。

表3用户价值分类结果数据

步骤105：生成用户偏好习惯矩阵。

获取电视节目类型，电视节目类型包括电视剧、电影、综艺、少儿、纪录片、体育、新闻、娱乐、音乐、财经、生活和戏曲。根据步骤101中的用户属性列表计算用户在所述电视节目类型的用户偏好习惯，用户偏好习惯包括用户平均每日观看任一电视节目类型的时间、用户近期平均每日观看任一类电视节目的时间、日均时间比率和第二时间间隔。

所述用户平均每日观看任一类电视节目类型的时间mt为用户观看任一类电视节目类型的总时间与所述总统计周期的比值。

所述用户近期平均每日观看任一类电视节目的时间re-mt为用户在近期统计周期内观看任一类电视节目类型的总时间与近期统计周期的比值；所述近期统计周期为距离所述总统计周期结束的前M天，10<M<30。

所述日均时间比率为所述用户近期平均每日观看任一类电视节目的时间与所述用户平均每日观看任一类电视节目类型的时间比值的百分比。

所述第二时间间隔R为用户最后一次观看任一类电视节目的时间与所述总统计周期结束时间的时间差。

根据所述用户偏好习惯生成用户偏好习惯矩阵n表示用户机顶盒设备号，列表示用户偏好习惯；所述用户偏好习惯反应用户观看所述电视节目类型的时间信息。

步骤106：建立用户偏好类别列表。

对所述用户偏好习惯矩阵中的每列元素采用K-means聚类算法进行聚类，按照用户观看电视的节目类型特征将所述电视用户划分为活跃且稳定用户、活跃不稳定用户、稳定不活跃用户和不活跃不稳定用户四种用户偏好类型。

对任一电视节目类型计算每一用户偏好类型的所述用户平均每日观看任一类电视节目类型的时间的均值和标准差，所述用户近期平均每日观看任一类电视节目的时间的均值和标准差，所述日均时间比率的均值和标准差和所述第二时间间隔的均值和标准差。对任一电视节目类型建立用户偏好类别列表，列表的行表示用户偏好类型，列按顺序依次表示所述用户平均每日观看任一类电视节目类型的时间的均值和标准差，所述用户近期平均每日观看任一类电视节目的时间的均值和标准差，所述日均时间比率的均值和标准差和所述第二时间间隔的均值和标准差。表4为电视剧类用户偏好类别列表数据，表5为少儿类用户偏好类别列表数据，表6为戏曲类用户偏好类别列表数据，表4-6中V1表示活跃且稳定用户，V2表示活跃不稳定用户，V3表示稳定不活跃用户，V4表示不活跃不稳定用户。

表4电视剧类用户偏好类别列表

表5少儿类用户偏好类别列表

表6戏曲类用户偏好类别列表

步骤107：根据所述用户偏好类别列表对所述用户偏好习惯矩阵中的元素进行相似度计算处理，得到每一用户的用户偏好类型。

式中，f(x^’,m^’,s^’)表示用户偏好类型相似度，x^’表示所述用户偏好习惯矩阵中用户偏好习惯的取值，s^’表示与x’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的均值，m^’表示与x^’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的标准差；

步骤108：针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐。

计算每一用户对不同电视节目类型的偏好权重，所述偏好权重为所述用户在总统计周期内对任一电视节目类型的观看次数与所述用户观看电视节目的总次数的比值。表7为用户对各类电视节目类型的偏好权重数据。

表7用户对各类电视节目类型的偏好权重数据

根据所述用户观看任一类电视节目类型的偏好类型确定用户对不同电视节目类型的偏好权重系数；所述偏好类型为活跃且稳定用户确定的偏好权重系数为0.4，偏好类型为活跃不稳定用户确定的偏好权重系数为0.3，偏好类型为不活跃稳定用户确定的偏好权重系数为0.2；偏好类型为不活跃不稳定用户确定的偏好权重系数为0.1。

计算同一电视节目类型的偏好权重与偏好权重系数的乘积。

比较同一用户所有电视节目类型的偏好权重与偏好权重系数的乘积值，选取所述乘积值按降序排列的前Q个乘积值对应的电视节目类型类别为所述用户偏好类型；其中，Q的数值小于所述电视节目类型的个数。

图2为机顶盒设备号5的用户观看行为特征图，如图2所示，该电视用户作为一般用户群体，这类用户粘合度高，但对于电视运营商而言，这类用户的消费行为难以改变，营销价值不高，应加强与该用户的联系，提升用户营销价值，该用户关注的电视节目种类排名前五项为综艺、新闻、电视剧、生活、纪录片，并且用户对于这几类电视节目的偏好习惯均是活跃且稳定，因此在进行个性化推荐系统设计时应将推荐节目范围锁定在这几类电视节目，推荐重点应该锁定在前三类电视节目，即综艺、新闻、电视剧电视节目，对应推荐频次应设置更频繁，推荐策略可采用短信推荐或电视表单推荐。与此同时，用户对于戏曲类电视节目没有需求，且对于少儿节目需求很低，分析该用户背后观看电视的观众是中青年群体，具有一定消费基础。

实施例二：

图3为本发明实施例中电视用户观看行为特征提取系统结构图，如图3所示，电视用户观看行为特征提取系统，包括：

用户属性列表生成模块201，用于获取用户观看电视的历史记录数据，根据所述历史记录数据的属性生成用户属性列表；所述用户属性包括用户观看电视节目的次数信息和时间信息以及用户所用设备信息。

用户价值指标矩阵生成模块202，用于根据所述用户属性列表计算用户价值指标；根据所述用户价值指标生成用户价值指标矩阵；所述用户价值指标矩阵的行表示用户机顶盒设备号，列表示用户价值指标；所述用户价值指标反应用户观看电视的操作信息。

用户价值指标矩阵生成模块202，具体包括：

用户整体操作平均频次计算单元，用于计算所述用户观看电视节目的总次数与用户观看行为总统计周期的比值。

用户近期操作平均频次计算单元，用于计算用户在近期统计周期内观看电视节目的总次数与近期统计周期的比值；所述近期统计周期为距离所述总统计周期结束的前N天，10<N<30。

操作频次比率计算单元，用于计算用户近期操作平均频次与所述用户近期操作平均频次比值的百分比。

第一时间间隔计算单元，用于计算用户最后一次操作时间与所述总统计周期结束时间的时间差。

用户价值指标矩阵生成单元，用于根据所述用户价值指标生成用户价值指标矩阵。

用户价值类别列表生成模块203，用于对所述用户价值指标矩阵中的元素进行聚类处理，按照用户对电视的操作特征划分用户价值类型；针对不同用户价值类型计算用户价值指标的均值和标准差，建立用户价值类别列表；所述用户价值类别列表的行表示用户价值类型，列表示用户价值指标的均值和标准差；所述用户价值类型表示用户对电视依赖程度的层次。

用户价值类别列表生成模块203，具体包括：

第一聚类单元，用于对所述用户价值指标矩阵中的每列元素采用K-means聚类算法进行聚类，按照用户对电视的操作特征将所述用户划分为忠诚用户、新兴用户、一般用户和流失用户四种用户价值类型。

第一均值和标准差计算单元计算单元，用于对每一用户价值类型计算所述用户整体操作平均频次的均值和标准差，所述用户近期操作平均频次的均值和标准差，所述操作频次比率的均值和标准差和所述第一时间间隔的均值和标准差。

用户价值类别列表生成单元，用于建立用户价值类别列表，所述用户价值类别列表大小为4行8列，行表示用户价值类型，列按顺序依次表示所述用户整体操作平均频次的均值和标准差，所述用户近期操作平均频次的均值和标准差，所述操作频次比率的均值和标准差以及所述第一时间间隔的均值和标准差。

每一用户的用户价值类型生成模块204，用于根据所述用户价值类别列表对所述用户价值指标矩阵中的元素进行相似度计算处理，得到每一用户的用户价值类型。

每一用户的用户价值类型生成模块204，具体包括：

用户价值特征相似度计算单元，用于根据所述用户价值类别列表计算每一用户的用户价值特征相似度，计算所述用户价值特征相似度的公式如下：

用户价值特征的平均相似度计算单元，用于根据所述用户价值特征相似度计算所述用户价值特征的平均相似度，计算公式如下：

式中，i表示用户价值指标，f_i(x,m,s)表示第i个用户价值指标的用户价值特征相似度，表示所述忠诚用户、新兴用户、一般用户和流失用户中任一类用户的用户价值特征的平均相似度，v表示用户价值指标个数。

每一用户的用户价值类型生成单元，用于比较不同用户价值类型的用户价值特征的平均相似度，选取所述用户价值特征的平均相似度的最大值对应的所述用户价值类型为所述每一用户的用户价值类型。

用户偏好习惯矩阵生成模块205，用于获取电视节目类型，根据所述用户属性列表计算用户在所述电视节目类型的用户偏好习惯，根据所述用户偏好习惯生成用户偏好习惯矩阵；所述用户偏好习惯矩阵的行表示用户机顶盒设备号，列表示用户偏好习惯；所述用户偏好习惯反应用户观看所述电视节目类型的时间信息。

用户偏好习惯矩阵生成模块205，具体包括：

用户平均每日观看任一类电视节目类型的时间计算单元，用于计算用户观看任一类电视节目类型的总时间与所述总统计周期的比值。

用户近期平均每日观看任一类电视节目的时间计算单元，用于计算用户在近期统计周期内观看任一类电视节目类型的总时间与近期统计周期的比值；所述近期统计周期为距离所述总统计周期结束的前M天，10<M<30。

日均时间比率计算单元，用于计算用户近期平均每日观看任一类电视节目的时间与所述用户平均每日观看任一类电视节目类型的时间比值的百分比。

第二时间间隔计算单元，用于计算用户最后一次观看任一类电视节目的时间与所述总统计周期结束时间的时间差。

用户偏好类别列表生成模块206，用于对所述用户偏好习惯矩阵中的元素进行聚类处理，按照用户观看所述电视节目类型的时间特征划分用户偏好类型，针对不同用户偏好类型计算用户偏好习惯的均值和标准差，建立用户偏好类别列表；所述用户偏好类别所列表的行表示用户偏好类型，列表示用户偏好习惯的均值和标准差；所述用户偏好类型表示用户对各电视节目的喜好程度的层次。

用户偏好类别列表生成模块206，具体包括：

第二聚类单元，用于对所述用户偏好习惯矩阵中的每列元素采用K-means聚类算法进行聚类，按照用户观看电视的节目类型特征将所述电视用户划分为活跃且稳定用户、活跃不稳定用户、稳定不活跃用户和不活跃不稳定用户四种用户偏好类型。

第二均值和标准差计算单元，用于对任一电视节目类型计算每一用户偏好类型的所述用户平均每日观看任一类电视节目类型的时间的均值和标准差，所述用户近期平均每日观看任一类电视节目的时间的均值和标准差，所述日均时间比率的均值和标准差和所述第二时间间隔的均值和标准差。

用户偏好类别列表生成单元，用于对任一电视节目类型建立用户偏好类别列表，所述用户偏好类别列表大小为4行8列，行表示用户偏好类型，列按顺序依次表示所述用户平均每日观看任一类电视节目类型的时间的均值和标准差，所述用户近期平均每日观看任一类电视节目的时间的均值和标准差，所述日均时间比率的均值和标准差和所述第二时间间隔的均值和标准差。

每一用户的用户偏好类型生成模块207，用于根据所述用户偏好类别列表对所述用户偏好习惯矩阵中的元素进行相似度计算处理，得到每一用户的用户偏好类型。

每一用户的用户偏好类型生成模块207，具体包括：

用户偏好类型相似度计算单元，用于根据所述用户偏好类别列表计算每一用户的用户偏好类型相似度，计算所述用户偏好类型相似度的公式如下：

式中，f(x^’,m’,s’)表示用户偏好类型相似度，x’表示所述用户偏好习惯矩阵中用户偏好习惯的取值，s’表示与x’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的均值，m’表示与x^’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的标准差。

用户偏好类型的平均相似度计算单元，用于根据所述用户偏好类型相似度计算所述用户偏好类型的平均相似度，计算公式如下：

式中，j表示用户偏好习惯，f_j(x',m',s')表示第j个用户偏好习惯的用户偏好类型相似度，表示所述活跃且稳定用户、活跃不稳定用户、稳定不活跃用户和不活跃不稳定用户中任一类用户的用户偏好类型的平均相似度，w表示用户偏好习惯个数。

每一用户的用户偏好类型生成单元，用于比较活跃且稳定用户、活跃不稳定用户、稳定不活跃用户和不活跃不稳定用户的的用户偏好类型的平均相似度，选取所述用户偏好类型的平均相似度的最大值对应的所述用户偏好类型为每一用户的用户偏好类型。

电视节目个性化推荐模块208，用于针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐。

电视节目个性化推荐模块208，具体包括：

偏好权重计算单元，用于计算每一用户对不同电视节目类型的偏好权重，所述偏好权重为所述用户在总统计周期内对任一电视节目类型的观看次数与所述用户观看电视节目的总次数的比值。

偏好权重系数生成单元，用于根据所述用户观看任一类电视节目类型的偏好类型确定用户对不同电视节目类型的偏好权重系数；所述偏好类型为活跃且稳定用户确定的偏好权重系数大于偏好类型为活跃不稳定用户确定的偏好权重系数；所述偏好类型为活跃不稳定用户确定的偏好权重系数大于偏好类型为不活跃稳定用户确定的偏好权重系数；所述偏好类型为不活跃稳定用户确定的偏好权重系数大于不活跃不稳定用户确定的偏好权重系数。

同一电视节目类型的偏好权重与偏好权重系数的乘积计算单元，用于计算同一电视节目类型的偏好权重与偏好权重系数的乘积。

用户偏好类型生成单元，用于比较同一用户所有电视节目类型的偏好权重与偏好权重系数的乘积值，选取所述乘积值按降序排列的前Q个乘积值对应的电视节目类型类别为所述用户偏好类型；其中，Q的数值小于所述电视节目类型的个数。

电视节目个性化推荐单元，用于针对所述每一用户的用户价值类型和所述用户偏好类型进行电视节目个性化推荐。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种电视用户观看行为特征提取方法，其特征在于，包括：

获取用户观看电视的历史记录数据，根据所述历史记录数据的属性生成用户属性列表；所述用户属性包括用户观看电视节目的次数信息和时间信息以及用户所用设备信息；

2.根据权利要求1所述的电视用户观看行为特征提取方法，其特征在于，所述用户属性列表内容，具体包括：用户机顶盒设备号、用户操作时间、用户观看电视节目时间、用户观看电视节目的总次数、各类电视节目的观看次数和观看时长。

3.根据权利要求2所述的电视用户观看行为特征提取方法，其特征在于，所述用户价值指标包括用户整体操作平均频次、用户近期操作平均频次、操作频次比率和第一时间间隔；

4.根据权利要求1所述的电视用户观看行为特征提取方法，其特征在于，所述对所述用户价值指标矩阵中的元素进行聚类处理，按照用户对电视的操作特征划分用户价值类型，针对不同用户价值类型计算用户价值指标的均值和标准差，建立用户价值类别列表，具体包括：

5.根据权利要求4所述的电视用户观看行为特征提取方法，其特征在于，所述根据所述用户价值类别列表对所述用户价值指标矩阵中的元素进行相似度计算处理，得到每一用户的用户价值类型，具体包括：

6.根据权利要求2所述的电视用户观看行为特征提取方法，其特征在于，所述用户偏好习惯包括用户平均每日观看任一电视节目类型的时间、用户近期平均每日观看任一类电视节目的时间、日均时间比率和第二时间间隔；所述电视节目类型包括电视剧、电影、综艺、少儿、纪录片、体育、新闻、娱乐、音乐、财经、生活和戏曲；

7.根据权利要求1所述的电视用户观看行为特征提取方法，其特征在于，所述对所述用户偏好习惯矩阵中的元素进行聚类处理，按照用户观看电视的节目类型特征划分用户偏好类型，对不同用户偏好类型计算用户偏好习惯的均值和标准差，建立用户偏好类别列表，具体包括：

8.根据权利要求7所述的电视用户观看行为特征提取方法，其特征在于，根据所述用户偏好类别列表对所述用户偏好习惯矩阵中的元素进行相似度计算处理，得到每一用户的用户偏好类型，具体包括：

式中，f(x^’,m’,s^’)表示用户偏好类型相似度，x^’表示所述用户偏好习惯矩阵中用户偏好习惯的取值，s’表示与x’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的均值，m’表示与x’对应的用户偏好习惯在所述用户偏好类别列表中任一用户偏好类别的标准差；

9.根据权利要求1所述的电视用户观看行为特征提取方法，其特征在于，针对每一用户的用户价值类型和用户偏好类型进行电视节目个性化推荐，具体包括：

计算同一电视节目类型的偏好权重与偏好权重系数的乘积；

10.一种电视用户观看行为特征提取系统，其特征在于，包括：