CN110149556B - 一种基于tdc-lda模型的iptv用户行为模式挖掘方法 - Google Patents

一种基于tdc-lda模型的iptv用户行为模式挖掘方法 Download PDF

Info

Publication number
CN110149556B
CN110149556B CN201910416747.8A CN201910416747A CN110149556B CN 110149556 B CN110149556 B CN 110149556B CN 201910416747 A CN201910416747 A CN 201910416747A CN 110149556 B CN110149556 B CN 110149556B
Authority
CN
China
Prior art keywords
user
distribution
time
interest
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910416747.8A
Other languages
English (en)
Other versions
CN110149556A (zh
Inventor
顾军华
李晓雪
杨亮
谢志坚
田泽培
陈博
佘士耀
张亚娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN201910416747.8A priority Critical patent/CN110149556B/zh
Publication of CN110149556A publication Critical patent/CN110149556A/zh
Application granted granted Critical
Publication of CN110149556B publication Critical patent/CN110149556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44204Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections

Abstract

本发明公开了一种基于TDC‑LDA模型的IPTV用户行为模式挖掘方法,该方法首先用概率生成模型的思想来假设用户具体行为模式中的观看的节目、观看的时间点和观看时长的生成过程,建立TDC‑LDA模型;其次,用Gibbs采样的方式进行模型拟合,推导隐变量条件概率的采样公式以及用户‑行为模式矩阵、兴趣主题‑节目矩阵和时段‑时间点矩阵的计算公式;然后,根据TDC‑LDA模型的Gibbs采样过程,得到每一个用户的行为模式矩阵、兴趣主题‑节目矩阵和时段‑时间点矩阵;最后,通过用户的收视行为模式分布,给用户做出推荐。本发明提出了一种新的TDC‑LDA用户收视行为模式挖掘模型,在现有的cLDA模型的基础上加入了观看时长信息。

Description

一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法
技术领域
本发明涉及IPTV用户行为模式的挖掘方法,具体是一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法。
背景技术
随着互联网的发展,IPTV(网络协议电视)迅速普及,其海量的视频资源及优质的服务吸引了广大用户。IPTV利用宽带网将多媒体信息传递给用户,为用户提供包括数字电视在内的多种交互式服务。它在传统电视的基础上,加入点播、回看等交互功能,这使得电视观众与电视服务提供商之间有了更好的互动。然而,随着网络信息承载量的飞速增长,IPTV中的视频资源层出不穷,这不但给用户寻找节目造成了一定的困扰,也直接影响了用户对IPTV平台的满意度。为了给用户提供更好的收视服务,电视服务提供商可以通过大数据分析用户行为,为用户建模。IPTV用户行为建模可以通过分析用户行为来优化网络规划,进而提升IPTV系统的性能;可以通过挖掘用户收视兴趣,给IPTV用户提供诸如个性化电子菜单、节目推荐、个性化情景广告等服务,以此提升用户收视体验。
现有的用户收视行为模式挖掘方法大致分为两类。一类是通过适当抽象节目类别信息,将收看节目归纳为不同类型,从而建立用户兴趣模型。其中,《AIMED:A personalizedTV recommendation system》是一种利用人工神经网络技术结合用户的活动、兴趣和心情等属性构建的推荐系统,该系统可以预测用户对IPTV节目的偏好。《Towards TVRecommender System:Experiments with User Modeling》通过应用矢量空间模型和信息检索中的聚类假设来建立用户收视兴趣模型。《Recommender System of iptv tv programusing ontology and k-means clustering》通过本体论和K-means聚类算法为用户建模然后进行推荐。另一类方法是基于主题模型LDA算法的改进。LDA(Latent Dirichletallocation,潜在狄利克雷分配)是一种基于概率模型的文本主题建模方法。当不考虑收看时间时,可以把一个IPTV用户当成一篇文档,IPTV节目当成词语,用户由其观看的IPTV节目记录表示。例如,隐式反馈LDA模型结合IPTV用户收视过程中的点播、收藏和浏览等行为,采用LDA联合建模为用户做推荐。TMUD模型将两个LDA模型通过主题连接成为一个统一的模型,用于相似用户群分组和IPTV节目推荐。考虑到一个IPTV用户对应一个家庭,不同的家庭成员会在不同时段观看节目,张娅等人(Zhang Y,Chen W,Zha H,et al.A Time-TopicCoupled LDA Model for IPTV User Behaviors[J].IEEE Transactions onBroadcasting,2015,61(1):56-65.)提出基于时间耦合主题模型(cLDA)的IPTV用户建模方法,该模型通过对用户收视节目与收视时间点的联合建模,挖掘IPTV用户在每个时段的收视兴趣主题。
以上基于LDA模型的改进算法在用户行为建模方面取得了良好的效果,但这些方法忽略了对节目观看时长的利用,而节目的观看时长在很大程度上反映用户对节目的喜爱程度。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法。
本发明解决所述技术问题的技术方案是,提供一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于该方法包括以下步骤:
步骤1、对IPTV节目的收视行为进行研究,得出IPTV用户的收视行为具有周期性;并且IPTV用户观看行为有如下几个特点:(1)一个IPTV用户有一个或多个成员;(2)每个成员有多种不同的收视兴趣;(3)不同成员看电视的时段不同,每个成员倾向于在固定时段观看同一类型的节目;(4)用户对节目的观看时长体现了他对节目的喜爱程度;用户对某个节目的观看时长越长,则对此节目的喜爱程度越高;
步骤2、建立TDC-LDA模型:在TDC-LDA模型中,每个用户对应一个描述该用户观看兴趣主题、观看时段与观看时长的行为模式分布,具体表现为在不同时段所呈现出的兴趣主题分布,且兴趣主题分布受观看时长影响;行为模式具体是指用户选择在哪个时段观看哪种类型的节目以及其观看时长,其中用户的观看时长体现了其对此类型节目的喜爱程度;
假设在TDC-LDA模型中,有K个兴趣主题,Vw个不同的IPTV节目,则兴趣主题对应的IPTV节目的多项式分布描述成K×Vw维的兴趣主题-节目矩阵Φ,
Figure BDA0002064642200000031
是节目vw属于兴趣主题k的概率;假设有L个时段,Vt个不同的时间点,时段对应的时间点的多项式分布描述成L×Vt维的时段-时间点矩阵Ψ,
Figure BDA0002064642200000038
是时间点vt属于时段l的概率;
对于用户m,把其由兴趣主题和时段构成的K×L维的行为模式矩阵分解成K·L维的向量
Figure BDA0002064642200000032
为用户m的行为模式分布;
Figure BDA0002064642200000033
中第z项代表用户m在zm,n,1时段选择兴趣主题zm,n,2这个行为并且观看时长为dm,n的概率;其中zm,n,1和zm,n,2由式(1)求得:
Figure BDA0002064642200000034
式1)中,zm,n为用户m的第n个收视记录的行为模式,zm,n,1为用户m的第n个收视记录的时段,zm,n,2为用户m的第n个收视记录的兴趣主题,K为兴趣主题的数量,mod函数是一个求余函数;
收视记录由观看的IPTV节目、观看的时间点和观看时长组成,则用户m的第n个收视记录包括wm,n、tm,n和dm,n;其中,wm,n表示用户m的第n个收视记录中观看的IPTV节目,tm,n表示用户m的第n个收视记录的观看时间点,dm,n表示用户m的第n个收视记录中的观看时长;
步骤3、根据步骤2得到的TDC-LDA模型,进行模型拟合,得到TDC-LDA模型的Gibbs采样公式;
采用Gibbs采样对TDC-LDA模型中的zm,n进行推断;在每次采样迭代中,根据
Figure BDA0002064642200000035
对zm,n采样;
Figure BDA0002064642200000036
表示用户m的除第n个收视记录以外的其他收视记录的行为模式;条件概率
Figure BDA0002064642200000037
可以由联合概率
Figure BDA0002064642200000041
通过贝叶斯定理求出,如式(2)所示:
Figure BDA0002064642200000042
式2)中,
Figure BDA0002064642200000043
是IPTV节目wm,n被赋予兴趣主题zm,n,2的次数,
Figure BDA0002064642200000044
是时间点tm,n被赋予时段zm,n,1的次数,
Figure BDA0002064642200000045
表示用户m被赋予行为模式zm,n的次数,Vw代表所有IPTV节目总数,Vt代表所有时间点总数,α为行为模式分布
Figure BDA0002064642200000046
的Dirichlet先验,β为兴趣主题分布
Figure BDA0002064642200000047
的Dirichlet先验,γ为时段分布
Figure BDA0002064642200000048
的Dirichlet先验,λ为指数分布的参数;
每一次迭代用式(3)来更新λ:
Figure BDA0002064642200000049
Figure BDA00020646422000000410
是属于当前兴趣主题zm,n,2的所有节目观看时长的均值;
TDC-LDA模型中,用户m的行为模式分布
Figure BDA00020646422000000411
兴趣主题k的节目分布
Figure BDA00020646422000000412
和时段l的时间点分布
Figure BDA00020646422000000413
是以Dirichlet分布为先验分布的多项式分布;因为Dirichlet分布与多项式分布为共轭分布,因此每一个用户对应的行为模式矩阵Θ、兴趣主题对应的IPTV节目矩阵Φ、时段对应的时间点矩阵Ψ作为后验分布可以用Dirichlet分布的期望进行推导得到,如式(4)-(6)所示:
Figure BDA00020646422000000414
Figure BDA00020646422000000415
Figure BDA0002064642200000051
式4-6中,θm,i代表用户m具有行为模式i的概率,
Figure BDA0002064642200000052
代表IPTV节目vw属于兴趣主题k的概率,
Figure BDA0002064642200000053
表示时间点vt属于时段l的概率,
Figure BDA0002064642200000054
是IPTV节目vw被赋予兴趣主题k的次数,
Figure BDA0002064642200000055
是时间点vt被赋予时段l的次数,
Figure BDA0002064642200000056
是用户m被赋予行为模式i的次数;
步骤4、对用户收视记录数据进行处理,提取用户的观看节目名称、观看时间点和观看时长信息,得到每个用户的每个收视记录;
步骤5、对步骤4得到的每个用户的每个收视记录的行为模式进行初始化;然后通过Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定;最后根据式4)-6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
步骤6、对步骤5得到的三个矩阵进行分析,得到兴趣主题表示的节目类型和每个时段的具体时间区间,进而挖掘到每个用户在不同时段的兴趣主题分布。
与现有技术相比,本发明有益效果在于:
(1)本发明提出了一种新的TDC-LDA用户收视行为模式挖掘模型,在现有的cLDA模型的基础上加入了观看时长信息。TDC-LDA模型是一个概率生成模型,它先假设用户的行为(诸如观看的节目、观看的时间点和观看时长)是如何产生的,改变了原有用户行为模式的生成假设。基于此假设,先推算出如何通过具体行为(观看的节目、观看的时间点和观看时长)来求得行为模式(收视兴趣、收视时段)的计算公式和采样公式,然后通过对已有的大量的IPTV用户收视行为数据进行训练,达到通过用户的观看节目、时段与时长等信息求得用户收视兴趣和收视时段的目的。
(2)本方法首先用概率生成模型的思想来假设用户具体行为模式中的观看的节目、观看的时间点和观看时长的生成过程,建立TDC-LDA模型;其次,用Gibbs采样的方式进行模型拟合,推导隐变量条件概率的采样公式以及用户-行为模式矩阵、兴趣主题-节目矩阵和时段-时间点矩阵的计算公式;然后,用TDC-LDA模型的Gibbs采样公式对每个用户的每个收视记录完成采样,进而得到每一个用户的行为模式矩阵、兴趣主题-节目矩阵和时段-时间点矩阵;最后,通过用户的收视行为模式分布,给用户做出推荐。
(3)本方法从观看的节目、观看的时间点和观看时长三个维度来挖掘用户行为,区分了家庭组成成员在不同时段的观看兴趣,从更精细的时段维度上为用户建模。通过实验表明,本发明可以挖掘到相关性较高的兴趣主题与收视时段,比较精确的挖掘到用户在不同时段的收视兴趣。相比于LDA模型,本发明提出的TDC-LDA模型在推荐任务上有更高的准确率。
(4)本TDC-LDA模型中,观看时间点与观看的节目由Dirichlet分布生成,观看时长由指数分布生成。
附图说明
图1为本发明用户收视记录的周期性变化图;
图2为本发明建立的TDC-LDA模型图;
图3为本发明中TDC-LDA模型挖掘到的用户时段行为模式图;
具体实施方式
下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明,不限制本申请权利要求的保护范围。
本发明提供了一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法(简称方法),其特征在于该方法包括以下步骤:
步骤1、对IPTV节目的收视行为进行研究;图1展示了一部动画片、一部爱情片和一档综艺节目在三周内的用户收视曲线图,图中横坐标记录了每周周一的起始时间,观看次数以两小时为间隔进行统计,纵坐标记录了每个节目的播放次数;由图1可知该曲线(IPTV用户的收视行为)具有较强的周期性,其周期为一周;假设同一类型的节目会在固定的时段被收看,不同家庭成员看电视的时段不同,在同一时段用户倾向于观看同一类型的节目,用户对节目的观看时长体现了他对节目的喜爱程度;基于上述假设,IPTV用户观看行为有如下几个特点:(1)一个IPTV用户有一个或多个成员;(2)每个成员有多种不同的收视兴趣;(3)每个成员倾向于在每周的特定时段观看电视;(4)用户对某个节目的观看时长越长,则对此节目的喜爱程度越高;
步骤2、建立TDC-LDA模型:将现有的LDA模型中的兴趣主题分布扩展为表示用户观看兴趣主题、观看时段与观看时长的行为模式分布,建立TDC-LDA(时段-时长耦合LDA,Time-Duratioan Coupled LDA)模型;建立的TDC-LDA模型是一个概率生成模型(如图2所示);在LDA模型中,每个IPTV用户的兴趣主题分布不区分时段;而在TDC-LDA模型中,每个IPTV用户对应一个描述该用户观看兴趣主题、观看时段与观看时长的行为模式分布,每个IPTV用户会因时段的不同而有不同的兴趣主题分布,且兴趣主题分布受观看时长影响;
假设在TDC-LDA模型中,有K个兴趣主题,Vw个不同的IPTV节目,则兴趣主题对应的IPTV节目的多项式分布可以描述成K×Vw维的兴趣主题-节目矩阵Φ,
Figure BDA0002064642200000071
是节目vw属于兴趣主题k的概率;同样,假设有L个时段(时段指一些特定的时间区间,例如,工作日17-19pm),Vt个不同的时间点,时段对应的时间点的多项式分布描述成L×Vt维的时段-时间点矩阵Ψ,
Figure BDA0002064642200000076
是时间点vt属于时段l的概率;
用户观看的节目类型(即兴趣主题)、时段以及观看时长为该用户的行为模式;行为模式具体是指用户选择在哪个时段观看哪种类型的节目以及其观看时长,其中用户的观看时长体现了其对此类型节目的喜爱程度;对于用户m,把其由兴趣主题和时段构成的K×L维的行为模式矩阵分解成K·L维的向量
Figure BDA0002064642200000072
Figure BDA0002064642200000073
为用户m的行为模式分布;
Figure BDA0002064642200000074
中第z项代表用户m在zm,n,1时段选择兴趣主题zm,n,2这个行为并且观看时长为dm,n的概率;其中zm,n,1和zm,n,2由式(1)求得:
Figure BDA0002064642200000075
式1)中,zm,n为用户m的第n个收视记录的行为模式,zm,n,1为用户m的第n个收视记录的时段,zm,n,2为用户m的第n个收视记录的兴趣主题,K为兴趣主题的数量,mod函数是一个求余函数;
收视记录由观看的IPTV节目、观看的时间点和观看时长组成,则用户m的第n个收视记录包括wm,n、tm,n和dm,n;其中,wm,n表示用户m的第n个收视记录中观看的IPTV节目;tm,n表示用户m的第n个收视记录的观看时间点;dm,n表示用户m的第n个收视记录中的观看时长;
用户m采用TDC-LDA模型生成收视记录的过程如下:
(1)根据Dirichlet分布选择用户m的行为模式分布
Figure BDA0002064642200000081
其中m∈{1,...,M},
Figure BDA0002064642200000082
是参数为α的Dirichlet分布;
(2)根据Dirichlet分布选择兴趣主题k的节目分布
Figure BDA0002064642200000083
其中k∈{1,...,K},
Figure BDA0002064642200000084
是参数为β的Dirichlet分布;
(3)根据Dirichlet分布选择时段l的时间点分布
Figure BDA0002064642200000085
其中l∈{1,...,L},
Figure BDA0002064642200000086
是参数为γ的Dirichlet分布;
(4)生成用户m的第n个收视记录(收视记录由观看的IPTV节目、观看时间点和观看时长组成),其中n∈{1,...,Nm};
a、从该用户的行为模式分布
Figure BDA0002064642200000087
中,选择一个行为模式
Figure BDA0002064642200000088
b、根据选择的行为模式zm,n对应的兴趣主题找到这个兴趣主题生成IPTV节目的多项式分布,然后根据兴趣主题对应的节目分布生成IPTV节目
Figure BDA0002064642200000089
c、根据选择的行为模式zm,n对应的时段找到这个时段生成时间点的多项式分布,然后根据时段对应的时间点分布生成时间点
Figure BDA00020646422000000810
d、根据行为模式zm,n对应的兴趣主题,生成观看时长
Figure BDA00020646422000000811
其中,指数分布
Figure BDA00020646422000000812
(其参数
Figure BDA00020646422000000813
)的概率密度函数如式
Figure BDA00020646422000000814
所示;
表1
喜剧片 0.4
战争片 0.3
家庭片 0.3
表2
Figure BDA0002064642200000091
表1是LDA模型的兴趣主题分布的一个实例,表明该用户观看喜剧片的概率为0.4,观看战争片的概率为0.3,观看家庭片的概率为0.3;表2是TDC-LDA模型的行为模式分布的一个实例,表明该用户在工作日15-18pm这个时段观看喜剧片的概率为0.1,在工作日20-22pm这个时段观看喜剧片的概率为0.1,在周末14-20pm这个时段观看喜剧片的概率为0.2,以此类推;
步骤3、根据步骤2得到的TDC-LDA模型,进行模型拟合,得到TDC-LDA模型的Gibbs采样公式;
采用Gibbs采样对TDC-LDA模型中的隐变量zm,n进行推断;在每次采样迭代中,根据用户m的除第n个收视记录(wm,n,tm,n,dm,n)以外的其他收视记录的行为模式
Figure BDA0002064642200000092
对用户m的第n个收视记录(wm,n,tm,n,dm,n)的行为模式zm,n采样;条件概率
Figure BDA0002064642200000093
可以由联合概率
Figure BDA0002064642200000094
通过贝叶斯定理求出,其公式如式(2)所示:
Figure BDA0002064642200000095
式2)中,
Figure BDA0002064642200000101
是IPTV节目wm,n被赋予兴趣主题zm,n,2的次数,
Figure BDA0002064642200000102
是时间点tm,n被赋予时段zm,n,1的次数,
Figure BDA0002064642200000103
表示用户m被赋予行为模式zm,n的次数,Vw代表所有IPTV节目总数,Vt代表所有时间点总数,α为行为模式分布
Figure BDA0002064642200000104
的Dirichlet先验,β为兴趣主题分布
Figure BDA0002064642200000105
的Dirichlet先验,γ为时段分布
Figure BDA0002064642200000106
的Dirichlet先验,λ为指数分布的参数;
每一次迭代用式(3)来更新λ:
Figure BDA0002064642200000107
Figure BDA0002064642200000108
是属于当前兴趣主题zm,n,2的所有节目观看时长的均值;迭代次数一般选为1000次;
TDC-LDA模型中,
Figure BDA0002064642200000109
(用户m的行为模式分布)、
Figure BDA00020646422000001010
(兴趣主题k的节目分布)和
Figure BDA00020646422000001011
(时段l的时间点分布)是以Dirichlet分布为先验分布的多项式分布;因为Dirichlet分布与多项式分布为共轭分布,因此用户对应的行为模式矩阵Θ(简称用户-行为模式矩阵)、兴趣主题对应的IPTV节目矩阵Φ(简称兴趣主题-节目矩阵)、时段对应的时间点矩阵Ψ(简称时段-时间点矩阵)作为后验分布可以用Dirichlet分布的期望进行推导得到,如式(4)-(6)所示:
Figure BDA00020646422000001012
Figure BDA00020646422000001013
Figure BDA00020646422000001014
式4-6中,θm,i代表用户m具有行为模式i的概率,
Figure BDA00020646422000001015
代表IPTV节目vw属于兴趣主题k的概率,
Figure BDA00020646422000001016
表示时间点vt属于时段l的概率,
Figure BDA00020646422000001017
是IPTV节目vw被赋予兴趣主题k的次数,
Figure BDA0002064642200000111
是时间点vt被赋予时段l的次数,
Figure BDA0002064642200000112
是用户m被赋予行为模式i的次数;
步骤4、对用户收视记录数据进行处理,提取用户的观看节目名称、观看时间点和观看时长信息,得到每个用户的每个收视记录;具体处理遵循以下几个原则:
(1)将IPTV节目名称中集数与季去掉,不同季与不同集数的节目视为同一节目;
(2)将时间点改成“星期-时”的形式,不同的时间点Vt总共是7×24个;
(3)只保留观看时长超过3分钟的观看记录(节目的平均观看时长是35分钟);即如果用户相邻观看记录之间的时间间隔小于三分钟,则删除上一个观看记录;
(4)删除无效节目,处理重复和错误数据;
步骤5、对步骤4得到的每个用户的每个收视记录的行为模式进行初始化;然后通过Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定;最后根据式4)-6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
具体是:(1)对每个用户的每个收视记录的行为模式进行初始化,为每个用户的每个收视记录的行为模式赋予一个初始值;具体实施过程如下:
Figure BDA0002064642200000113
Figure BDA0002064642200000121
(2)用Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定,具体实施过程如下:
Figure BDA0002064642200000122
(3)根据式(4)-(6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
步骤6、对步骤5得到的三个矩阵进行分析,得到兴趣主题表示的节目类型和每个时段的具体时间区间,进而挖掘到每个用户在不同时段的兴趣主题分布;
(1)根据兴趣主题对应的IPTV节目矩阵Φ,按每个兴趣主题中节目的概率高低进行排序,进而得到每个兴趣主题表示的节目类型;表3是兴趣主题中按节目的概率高低进行排序后的该兴趣主题的IPTV节目分布,由表3可以得出兴趣主题6的节目类型为古装片,兴趣主题35的节目类型为动画片。
表3
Figure BDA0002064642200000131
(2)根据时段对应的时间点矩阵Ψ,按每个时段中时间点的概率高低进行排序,进而得到每个时段具体对应的时间区间;图3中为根据本方法划分的时段,每个表格代表一个时间点,图中将一周的时间点总共分为8个时段,用序号“0-7”来标记,相同时段的时间点用同种填充图案标记;
具体是时段0包括周一的6-7am、周二的6-7am、周三的6-8am、周四的6-7am、周五的7am、周六的7am和周日的7am;时段1包括周一的9-11am、周二的9-11am、周三的9-11am、周四的10am、周五的10-11am和周六的9-11am;时段2包括周一的12-14pm、周二的12-14pm、周三的12-14pm、周四的12pm、周五的12-13pm、周六的12-13pm和周日的12pm;时段3包括周一至周日的16-17pm;时段4包括周一至周日的18pm;时段5包括周一至周日的19pm;时段6包括周一至周日的20-21pm;时段7包括周一至周日的22-23pm;
(3)根据用户的行为模式矩阵Θ,对每个用户的行为模式按概率高低进行排序,进而分析每个用户在不同时段的兴趣主题;表4为挖掘到的用户行为模式;由表4可知,该用户m倾向于在时段3(下午4-5点)收看动画类节目,在时段6和时段7(晚上8点到11点之间)收看古装爱情类节目。
表4
Figure BDA0002064642200000132
Figure BDA0002064642200000141
为验证TDC-LDA模型的效果,用TDC-LDA模型在IPTV用户收视记录数据集上执行推荐任务,并计算LDA、cLDA和TDC-LDA模型的预测困惑度(predictive-perplexity)。推荐任务的目标是预测IPTV用户在特定的时段打开电视时会收看什么节目。实验中,将IPTV用户分为训练集和测试集,训练集包括每个用户除最后一个收视记录外的所有记录,测试集由每个用户的最后一个收视记录构成。推荐任务要完成的是,通过每一个用户最后一个收视记录的时间点来预测用户收看的节目。预测困惑度指标定义如下:
Figure BDA0002064642200000142
式7)中,Mtest是测试集中用户数目;困惑度越低表示模型泛化性能越好,推荐更准确。实验中,令cLDA与TDC-LDA的时段L=8,通过将兴趣主题K设置为不用的值来比较不同模型的困惑度,如表5所示。由表5可知,TDC-LDA、cLDA、LDA模型的推荐效果依次降低。这说明,在挖掘用户不同时段的收视兴趣时加入用户观看时长信息是非常有必要的。
表5
Figure BDA0002064642200000143
本发明未述及之处适用于现有技术。

Claims (3)

1.一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于该方法包括以下步骤:
步骤1、建立TDC-LDA模型:在TDC-LDA模型中,每个用户对应一个描述该用户观看兴趣主题、观看时段与观看时长的行为模式分布,具体表现为在不同时段所呈现出的兴趣主题分布,且兴趣主题分布受观看时长影响;行为模式具体是指用户选择在哪个时段观看哪种类型的节目以及其观看时长,其中用户的观看时长体现了其对此类型节目的喜爱程度;
在TDC-LDA模型中,有K个兴趣主题,Vw个不同的IPTV节目,则兴趣主题对应的IPTV节目的多项式分布描述成K×Vw维的兴趣主题-节目矩阵Φ,
Figure FDA0002985979510000011
是节目vw属于兴趣主题k的概率;TDC-LDA模型中有L个时段,Vt个不同的时间点,时段对应的时间点的多项式分布描述成L×Vt维的时段-时间点矩阵Ψ,
Figure FDA0002985979510000012
是时间点vt属于时段l的概率;
对于用户m,把其由兴趣主题和时段构成的K×L维的行为模式矩阵分解成K·L维的向量
Figure FDA0002985979510000013
为用户m的行为模式分布;
Figure FDA0002985979510000014
中第z项代表用户m在zm,n,1时段选择兴趣主题zm,n,2这个行为并且观看时长为dm,n的概率;其中zm,n,1和zm,n,2由式(1)求得:
Figure FDA0002985979510000015
式(1)中,zm,n为用户m的第n个收视记录的行为模式,zm,n,1为用户m的第n个收视记录的时段,zm,n,2为用户m的第n个收视记录的兴趣主题,mod函数是一个求余函数;
收视记录由观看的IPTV节目、观看的时间点和观看时长组成,则用户m的第n个收视记录包括wm,n、tm,n和dm,n;其中,wm,n表示用户m的第n个收视记录中观看的IPTV节目,tm,n表示用户m的第n个收视记录的观看时间点,dm,n表示用户m的第n个收视记录中的观看时长;
用户m采用TDC-LDA模型生成收视记录的过程如下:
(1)根据Dirichlet分布选择用户m的行为模式分布
Figure FDA0002985979510000021
其中m∈{1,...,M},
Figure FDA0002985979510000022
是参数为α的Dirichlet分布;
(2)根据Dirichlet分布选择兴趣主题k的节目分布
Figure FDA0002985979510000023
其中k∈{1,...,K},
Figure FDA0002985979510000024
是参数为β的Dirichlet分布;
(3)根据Dirichlet分布选择时段l的时间点分布
Figure FDA0002985979510000025
其中l∈{1,...,L},
Figure FDA0002985979510000026
是参数为γ的Dirichlet分布;
(4)生成用户m的第n个收视记录,收视记录由观看的IPTV节目、观看时间点和观看时长组成,其中n∈{1,...,Nm};
a、从该用户的行为模式分布
Figure FDA0002985979510000027
中,选择一个行为模式
Figure FDA0002985979510000028
b、根据选择的行为模式zm,n对应的兴趣主题找到这个兴趣主题生成IPTV节目的多项式分布,然后根据兴趣主题对应的节目分布生成IPTV节目
Figure FDA0002985979510000029
c、根据选择的行为模式zm,n对应的时段找到这个时段生成时间点的多项式分布,然后根据时段对应的时间点分布生成时间点
Figure FDA00029859795100000210
d、根据行为模式zm,n对应的兴趣主题,生成观看时长
Figure FDA00029859795100000211
步骤2、根据步骤1得到的TDC-LDA模型,进行模型拟合,得到TDC-LDA模型的Gibbs采样公式;
采用Gibbs采样对TDC-LDA模型中的zm,n进行推断;在每次采样迭代中,根据
Figure FDA00029859795100000212
对zm,n采样;
Figure FDA00029859795100000213
表示用户m的除第n个收视记录以外的其他收视记录的行为模式;条件概率
Figure FDA0002985979510000031
可以由联合概率
Figure FDA0002985979510000032
通过贝叶斯定理求出,如式(2)所示:
Figure FDA0002985979510000033
式(2)中,
Figure FDA0002985979510000034
是IPTV节目wm,n被赋予兴趣主题zm,n,2的次数,
Figure FDA0002985979510000035
是时间点tm,n被赋予时段zm,n,1的次数,
Figure FDA0002985979510000036
表示用户m被赋予行为模式zm,n的次数,Vw代表所有IPTV节目总数,Vt代表所有时间点总数,α为行为模式分布
Figure FDA0002985979510000037
的Dirichlet先验,β为兴趣主题分布
Figure FDA0002985979510000038
的Dirichlet先验,γ为时段分布
Figure FDA0002985979510000039
的Dirichlet先验,λ为指数分布的参数;βw为每个IPTV节目w对应兴趣主题分布
Figure FDA00029859795100000310
的Dirichlet先验;γt为每个时间点t对应时段分布
Figure FDA00029859795100000311
的Dirichlet先验;
Figure FDA00029859795100000312
用户m的第n个收视记录的行为模式对应行为模式分布
Figure FDA00029859795100000313
的Dirichlet先验;αi为第i个行为模式对应的行为模式分布
Figure FDA00029859795100000314
的Dirichlet先验;
Figure FDA00029859795100000315
是用户m的第n个收视记录的兴趣主题对应指数分布的参数;
Figure FDA00029859795100000316
是IPTV节目vw被赋予兴趣主题zm,n,2的次数,
Figure FDA00029859795100000317
是时间点vt被赋予时段zm,n,1的次数,
Figure FDA00029859795100000318
是用户m被赋予行为模式i的次数;
每一次迭代用式(3)来更新λ:
Figure FDA00029859795100000319
Figure FDA00029859795100000320
是属于当前兴趣主题zm,n,2的所有节目观看时长的均值;
TDC-LDA模型中,用户m的行为模式分布
Figure FDA00029859795100000321
兴趣主题k的节目分布
Figure FDA00029859795100000322
和时段l的时间点分布
Figure FDA00029859795100000323
是以Dirichlet分布为先验分布的多项式分布;因为Dirichlet分布与多项式分布为共轭分布,因此每一个用户对应的行为模式矩阵Θ、兴趣主题对应的IPTV节目矩阵Φ、时段对应的时间点矩阵Ψ作为后验分布可以用Dirichlet分布的期望进行推导得到,如式(4)-(6)所示:
Figure FDA0002985979510000041
Figure FDA0002985979510000042
Figure FDA0002985979510000043
式(4)-(6)中,θm,i代表用户m具有行为模式i的概率,
Figure FDA0002985979510000044
代表IPTV节目vw属于兴趣主题k的概率,
Figure FDA0002985979510000045
表示时间点vt属于时段l的概率,
Figure FDA0002985979510000046
是IPTV节目vw被赋予兴趣主题k的次数,
Figure FDA0002985979510000047
是时间点vt被赋予时段l的次数;
步骤3、对用户收视记录数据进行处理,提取用户的观看节目名称、观看时间点和观看时长信息,得到每个用户的每个收视记录;
步骤4、对步骤3得到的每个用户的每个收视记录的行为模式进行初始化;然后通过Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定;最后根据式(4)-(6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
步骤5、对步骤4得到的三个矩阵进行分析,得到兴趣主题表示的节目类型和每个时段的具体时间区间,进而挖掘到每个用户在不同时段的兴趣主题分布。
2.根据权利要求1所述的基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于步骤3中,对用户收视记录数据进行处理具体是:将IPTV节目名称中集数与季去掉,不同季与不同集数的节目视为同一节目;将时间点改成星期-时的形式,不同的时间点Vt总共是7×24个;用户相邻观看记录之间的时间间隔小于三分钟,则删除上一个观看记录;删除无效节目。
3.根据权利要求1所述的基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于步骤5具体是:(1)根据兴趣主题对应的IPTV节目矩阵Φ,按每个兴趣主题中节目的概率高低进行排序,进而得到每个兴趣主题表示的节目类型;(2)根据时段对应的时间点矩阵Ψ,按每个时段中时间点的概率高低进行排序,进而得到每个时段具体对应的时间区间;(3)根据用户的行为模式矩阵Θ,对每个用户的行为模式按概率高低进行排序,进而分析每个用户在不同时段的兴趣主题。
CN201910416747.8A 2019-05-20 2019-05-20 一种基于tdc-lda模型的iptv用户行为模式挖掘方法 Active CN110149556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910416747.8A CN110149556B (zh) 2019-05-20 2019-05-20 一种基于tdc-lda模型的iptv用户行为模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910416747.8A CN110149556B (zh) 2019-05-20 2019-05-20 一种基于tdc-lda模型的iptv用户行为模式挖掘方法

Publications (2)

Publication Number Publication Date
CN110149556A CN110149556A (zh) 2019-08-20
CN110149556B true CN110149556B (zh) 2021-05-04

Family

ID=67591919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910416747.8A Active CN110149556B (zh) 2019-05-20 2019-05-20 一种基于tdc-lda模型的iptv用户行为模式挖掘方法

Country Status (1)

Country Link
CN (1) CN110149556B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113852867B (zh) * 2021-05-27 2023-09-08 天翼数字生活科技有限公司 一种基于核密度估计的节目推荐方法和装置
CN114003326B (zh) * 2021-10-22 2023-10-13 北京字跳网络技术有限公司 消息处理方法、装置、设备及存储介质
CN114971400B (zh) * 2022-06-24 2023-01-31 东南大学溧阳研究院 一种基于Dirichlet分布-多项分布共轭先验的用户侧储能聚合方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354293A (zh) * 2015-11-02 2016-02-24 海信集团有限公司 一种移动终端上进行播放对象推送的辅助实现方法及装置
CN109672938A (zh) * 2019-01-07 2019-04-23 河北工业大学 一种iptv节目推荐方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929938B (zh) * 2012-09-28 2015-09-30 北京奇艺世纪科技有限公司 一种可播放型网络资源的排序方法及装置
CN103856790B (zh) * 2012-12-05 2018-01-23 北京四达时代软件技术股份有限公司 一种vod系统用户行为分析方法及系统
CN103533393B (zh) * 2013-09-17 2017-08-01 上海交通大学 基于家庭收视纪录的家庭分析及节目推荐方法
KR101496181B1 (ko) * 2013-10-04 2015-03-02 성균관대학교산학협력단 컨텐츠의 주제를 사용하는 컨텐츠 추천 방법 및 장치
CN105516810A (zh) * 2015-12-04 2016-04-20 山东大学 一种基于lda模型的电视用户家庭成员分析方法
CN106658091B (zh) * 2016-12-01 2020-02-28 北京学之途网络科技有限公司 一种实现收视信息处理的方法及装置
CN108521586B (zh) * 2018-03-20 2020-01-14 西北大学 兼顾时间上下文与隐式反馈的iptv电视节目个性化推荐方法
CN108965937A (zh) * 2018-06-27 2018-12-07 广东技术师范学院 一种面向网络电视家庭用户的动态兴趣模型构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354293A (zh) * 2015-11-02 2016-02-24 海信集团有限公司 一种移动终端上进行播放对象推送的辅助实现方法及装置
CN109672938A (zh) * 2019-01-07 2019-04-23 河北工业大学 一种iptv节目推荐方法

Also Published As

Publication number Publication date
CN110149556A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110149556B (zh) 一种基于tdc-lda模型的iptv用户行为模式挖掘方法
JP5421469B2 (ja) 対象を定めたテレビ番組配信のためのシステム、プリファレンスエンジン、機械可読媒体およびテレビ視聴習慣を判断する方法
Salehi-Abari et al. Preference-oriented social networks: Group recommendation and inference
US20170171580A1 (en) Clustering and adjudication to determine a recommendation of multimedia content
EP2817970B1 (en) Automatically recommending content
US20070288965A1 (en) Recommended program information providing method and apparatus
US20150019573A1 (en) Feedback loop content recommendation
US6556958B1 (en) Fast clustering with sparse data
CN104182449A (zh) 基于用户兴趣建模的个性化视频推荐系统和方法
WO2010005942A2 (en) Recommender system
WO2018082531A1 (en) Apparatus and method for ranking content categories
EP2749038B1 (en) Audiovisual content recommendation method and device
JP2004519902A (ja) テレビジョン視聴者プロファイルイニシャライザ及び関連する方法
Velusamy et al. An efficient ad recommendation system for TV programs
CN113836406A (zh) 信息流推荐方法及装置
JP5172826B2 (ja) 対象を定めた広告に適したリアルタイム視聴者推定およびコマーシャル選択を実施する方法および装置
Oh et al. Comparison of techniques for time aware TV channel recommendation
US9897987B2 (en) Method and apparatus for controlling a system
WO2003090466A2 (en) Improved programme selection
US20240129569A1 (en) Predictive Measurement of End-User Activities at Specified Times
Ren et al. User preference and behavior pattern in Push VOD systems
Zhang et al. Research on User Interest Model Mining Method Based on Time-Tag
CN117520659A (zh) 基于影视知识图谱多轮影视推荐方法
Gutta et al. From Stereotypes to Personal Profiles via Viewer Feedback
Kang Multimedia content preference using the moving average technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant