CN110149556B - 一种基于tdc-lda模型的iptv用户行为模式挖掘方法 - Google Patents
一种基于tdc-lda模型的iptv用户行为模式挖掘方法 Download PDFInfo
- Publication number
- CN110149556B CN110149556B CN201910416747.8A CN201910416747A CN110149556B CN 110149556 B CN110149556 B CN 110149556B CN 201910416747 A CN201910416747 A CN 201910416747A CN 110149556 B CN110149556 B CN 110149556B
- Authority
- CN
- China
- Prior art keywords
- user
- distribution
- time
- interest
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44204—Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
Abstract
本发明公开了一种基于TDC‑LDA模型的IPTV用户行为模式挖掘方法,该方法首先用概率生成模型的思想来假设用户具体行为模式中的观看的节目、观看的时间点和观看时长的生成过程,建立TDC‑LDA模型;其次,用Gibbs采样的方式进行模型拟合,推导隐变量条件概率的采样公式以及用户‑行为模式矩阵、兴趣主题‑节目矩阵和时段‑时间点矩阵的计算公式;然后,根据TDC‑LDA模型的Gibbs采样过程,得到每一个用户的行为模式矩阵、兴趣主题‑节目矩阵和时段‑时间点矩阵;最后,通过用户的收视行为模式分布,给用户做出推荐。本发明提出了一种新的TDC‑LDA用户收视行为模式挖掘模型,在现有的cLDA模型的基础上加入了观看时长信息。
Description
技术领域
本发明涉及IPTV用户行为模式的挖掘方法,具体是一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法。
背景技术
随着互联网的发展,IPTV(网络协议电视)迅速普及,其海量的视频资源及优质的服务吸引了广大用户。IPTV利用宽带网将多媒体信息传递给用户,为用户提供包括数字电视在内的多种交互式服务。它在传统电视的基础上,加入点播、回看等交互功能,这使得电视观众与电视服务提供商之间有了更好的互动。然而,随着网络信息承载量的飞速增长,IPTV中的视频资源层出不穷,这不但给用户寻找节目造成了一定的困扰,也直接影响了用户对IPTV平台的满意度。为了给用户提供更好的收视服务,电视服务提供商可以通过大数据分析用户行为,为用户建模。IPTV用户行为建模可以通过分析用户行为来优化网络规划,进而提升IPTV系统的性能;可以通过挖掘用户收视兴趣,给IPTV用户提供诸如个性化电子菜单、节目推荐、个性化情景广告等服务,以此提升用户收视体验。
现有的用户收视行为模式挖掘方法大致分为两类。一类是通过适当抽象节目类别信息,将收看节目归纳为不同类型,从而建立用户兴趣模型。其中,《AIMED:A personalizedTV recommendation system》是一种利用人工神经网络技术结合用户的活动、兴趣和心情等属性构建的推荐系统,该系统可以预测用户对IPTV节目的偏好。《Towards TVRecommender System:Experiments with User Modeling》通过应用矢量空间模型和信息检索中的聚类假设来建立用户收视兴趣模型。《Recommender System of iptv tv programusing ontology and k-means clustering》通过本体论和K-means聚类算法为用户建模然后进行推荐。另一类方法是基于主题模型LDA算法的改进。LDA(Latent Dirichletallocation,潜在狄利克雷分配)是一种基于概率模型的文本主题建模方法。当不考虑收看时间时,可以把一个IPTV用户当成一篇文档,IPTV节目当成词语,用户由其观看的IPTV节目记录表示。例如,隐式反馈LDA模型结合IPTV用户收视过程中的点播、收藏和浏览等行为,采用LDA联合建模为用户做推荐。TMUD模型将两个LDA模型通过主题连接成为一个统一的模型,用于相似用户群分组和IPTV节目推荐。考虑到一个IPTV用户对应一个家庭,不同的家庭成员会在不同时段观看节目,张娅等人(Zhang Y,Chen W,Zha H,et al.A Time-TopicCoupled LDA Model for IPTV User Behaviors[J].IEEE Transactions onBroadcasting,2015,61(1):56-65.)提出基于时间耦合主题模型(cLDA)的IPTV用户建模方法,该模型通过对用户收视节目与收视时间点的联合建模,挖掘IPTV用户在每个时段的收视兴趣主题。
以上基于LDA模型的改进算法在用户行为建模方面取得了良好的效果,但这些方法忽略了对节目观看时长的利用,而节目的观看时长在很大程度上反映用户对节目的喜爱程度。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法。
本发明解决所述技术问题的技术方案是,提供一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于该方法包括以下步骤:
步骤1、对IPTV节目的收视行为进行研究,得出IPTV用户的收视行为具有周期性;并且IPTV用户观看行为有如下几个特点:(1)一个IPTV用户有一个或多个成员;(2)每个成员有多种不同的收视兴趣;(3)不同成员看电视的时段不同,每个成员倾向于在固定时段观看同一类型的节目;(4)用户对节目的观看时长体现了他对节目的喜爱程度;用户对某个节目的观看时长越长,则对此节目的喜爱程度越高;
步骤2、建立TDC-LDA模型:在TDC-LDA模型中,每个用户对应一个描述该用户观看兴趣主题、观看时段与观看时长的行为模式分布,具体表现为在不同时段所呈现出的兴趣主题分布,且兴趣主题分布受观看时长影响;行为模式具体是指用户选择在哪个时段观看哪种类型的节目以及其观看时长,其中用户的观看时长体现了其对此类型节目的喜爱程度;
假设在TDC-LDA模型中,有K个兴趣主题,Vw个不同的IPTV节目,则兴趣主题对应的IPTV节目的多项式分布描述成K×Vw维的兴趣主题-节目矩阵Φ,是节目vw属于兴趣主题k的概率;假设有L个时段,Vt个不同的时间点,时段对应的时间点的多项式分布描述成L×Vt维的时段-时间点矩阵Ψ,是时间点vt属于时段l的概率;
对于用户m,把其由兴趣主题和时段构成的K×L维的行为模式矩阵分解成K·L维的向量为用户m的行为模式分布;中第z项代表用户m在zm,n,1时段选择兴趣主题zm,n,2这个行为并且观看时长为dm,n的概率;其中zm,n,1和zm,n,2由式(1)求得:
式1)中,zm,n为用户m的第n个收视记录的行为模式,zm,n,1为用户m的第n个收视记录的时段,zm,n,2为用户m的第n个收视记录的兴趣主题,K为兴趣主题的数量,mod函数是一个求余函数;
收视记录由观看的IPTV节目、观看的时间点和观看时长组成,则用户m的第n个收视记录包括wm,n、tm,n和dm,n;其中,wm,n表示用户m的第n个收视记录中观看的IPTV节目,tm,n表示用户m的第n个收视记录的观看时间点,dm,n表示用户m的第n个收视记录中的观看时长;
步骤3、根据步骤2得到的TDC-LDA模型,进行模型拟合,得到TDC-LDA模型的Gibbs采样公式;
采用Gibbs采样对TDC-LDA模型中的zm,n进行推断;在每次采样迭代中,根据对zm,n采样;表示用户m的除第n个收视记录以外的其他收视记录的行为模式;条件概率可以由联合概率通过贝叶斯定理求出,如式(2)所示:
式2)中,是IPTV节目wm,n被赋予兴趣主题zm,n,2的次数,是时间点tm,n被赋予时段zm,n,1的次数,表示用户m被赋予行为模式zm,n的次数,Vw代表所有IPTV节目总数,Vt代表所有时间点总数,α为行为模式分布的Dirichlet先验,β为兴趣主题分布的Dirichlet先验,γ为时段分布的Dirichlet先验,λ为指数分布的参数;
每一次迭代用式(3)来更新λ:
TDC-LDA模型中,用户m的行为模式分布兴趣主题k的节目分布和时段l的时间点分布是以Dirichlet分布为先验分布的多项式分布;因为Dirichlet分布与多项式分布为共轭分布,因此每一个用户对应的行为模式矩阵Θ、兴趣主题对应的IPTV节目矩阵Φ、时段对应的时间点矩阵Ψ作为后验分布可以用Dirichlet分布的期望进行推导得到,如式(4)-(6)所示:
式4-6中,θm,i代表用户m具有行为模式i的概率,代表IPTV节目vw属于兴趣主题k的概率,表示时间点vt属于时段l的概率,是IPTV节目vw被赋予兴趣主题k的次数,是时间点vt被赋予时段l的次数,是用户m被赋予行为模式i的次数;
步骤4、对用户收视记录数据进行处理,提取用户的观看节目名称、观看时间点和观看时长信息,得到每个用户的每个收视记录;
步骤5、对步骤4得到的每个用户的每个收视记录的行为模式进行初始化;然后通过Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定;最后根据式4)-6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
步骤6、对步骤5得到的三个矩阵进行分析,得到兴趣主题表示的节目类型和每个时段的具体时间区间,进而挖掘到每个用户在不同时段的兴趣主题分布。
与现有技术相比,本发明有益效果在于:
(1)本发明提出了一种新的TDC-LDA用户收视行为模式挖掘模型,在现有的cLDA模型的基础上加入了观看时长信息。TDC-LDA模型是一个概率生成模型,它先假设用户的行为(诸如观看的节目、观看的时间点和观看时长)是如何产生的,改变了原有用户行为模式的生成假设。基于此假设,先推算出如何通过具体行为(观看的节目、观看的时间点和观看时长)来求得行为模式(收视兴趣、收视时段)的计算公式和采样公式,然后通过对已有的大量的IPTV用户收视行为数据进行训练,达到通过用户的观看节目、时段与时长等信息求得用户收视兴趣和收视时段的目的。
(2)本方法首先用概率生成模型的思想来假设用户具体行为模式中的观看的节目、观看的时间点和观看时长的生成过程,建立TDC-LDA模型;其次,用Gibbs采样的方式进行模型拟合,推导隐变量条件概率的采样公式以及用户-行为模式矩阵、兴趣主题-节目矩阵和时段-时间点矩阵的计算公式;然后,用TDC-LDA模型的Gibbs采样公式对每个用户的每个收视记录完成采样,进而得到每一个用户的行为模式矩阵、兴趣主题-节目矩阵和时段-时间点矩阵;最后,通过用户的收视行为模式分布,给用户做出推荐。
(3)本方法从观看的节目、观看的时间点和观看时长三个维度来挖掘用户行为,区分了家庭组成成员在不同时段的观看兴趣,从更精细的时段维度上为用户建模。通过实验表明,本发明可以挖掘到相关性较高的兴趣主题与收视时段,比较精确的挖掘到用户在不同时段的收视兴趣。相比于LDA模型,本发明提出的TDC-LDA模型在推荐任务上有更高的准确率。
(4)本TDC-LDA模型中,观看时间点与观看的节目由Dirichlet分布生成,观看时长由指数分布生成。
附图说明
图1为本发明用户收视记录的周期性变化图;
图2为本发明建立的TDC-LDA模型图;
图3为本发明中TDC-LDA模型挖掘到的用户时段行为模式图;
具体实施方式
下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明,不限制本申请权利要求的保护范围。
本发明提供了一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法(简称方法),其特征在于该方法包括以下步骤:
步骤1、对IPTV节目的收视行为进行研究;图1展示了一部动画片、一部爱情片和一档综艺节目在三周内的用户收视曲线图,图中横坐标记录了每周周一的起始时间,观看次数以两小时为间隔进行统计,纵坐标记录了每个节目的播放次数;由图1可知该曲线(IPTV用户的收视行为)具有较强的周期性,其周期为一周;假设同一类型的节目会在固定的时段被收看,不同家庭成员看电视的时段不同,在同一时段用户倾向于观看同一类型的节目,用户对节目的观看时长体现了他对节目的喜爱程度;基于上述假设,IPTV用户观看行为有如下几个特点:(1)一个IPTV用户有一个或多个成员;(2)每个成员有多种不同的收视兴趣;(3)每个成员倾向于在每周的特定时段观看电视;(4)用户对某个节目的观看时长越长,则对此节目的喜爱程度越高;
步骤2、建立TDC-LDA模型:将现有的LDA模型中的兴趣主题分布扩展为表示用户观看兴趣主题、观看时段与观看时长的行为模式分布,建立TDC-LDA(时段-时长耦合LDA,Time-Duratioan Coupled LDA)模型;建立的TDC-LDA模型是一个概率生成模型(如图2所示);在LDA模型中,每个IPTV用户的兴趣主题分布不区分时段;而在TDC-LDA模型中,每个IPTV用户对应一个描述该用户观看兴趣主题、观看时段与观看时长的行为模式分布,每个IPTV用户会因时段的不同而有不同的兴趣主题分布,且兴趣主题分布受观看时长影响;
假设在TDC-LDA模型中,有K个兴趣主题,Vw个不同的IPTV节目,则兴趣主题对应的IPTV节目的多项式分布可以描述成K×Vw维的兴趣主题-节目矩阵Φ,是节目vw属于兴趣主题k的概率;同样,假设有L个时段(时段指一些特定的时间区间,例如,工作日17-19pm),Vt个不同的时间点,时段对应的时间点的多项式分布描述成L×Vt维的时段-时间点矩阵Ψ,是时间点vt属于时段l的概率;
用户观看的节目类型(即兴趣主题)、时段以及观看时长为该用户的行为模式;行为模式具体是指用户选择在哪个时段观看哪种类型的节目以及其观看时长,其中用户的观看时长体现了其对此类型节目的喜爱程度;对于用户m,把其由兴趣主题和时段构成的K×L维的行为模式矩阵分解成K·L维的向量 为用户m的行为模式分布;中第z项代表用户m在zm,n,1时段选择兴趣主题zm,n,2这个行为并且观看时长为dm,n的概率;其中zm,n,1和zm,n,2由式(1)求得:
式1)中,zm,n为用户m的第n个收视记录的行为模式,zm,n,1为用户m的第n个收视记录的时段,zm,n,2为用户m的第n个收视记录的兴趣主题,K为兴趣主题的数量,mod函数是一个求余函数;
收视记录由观看的IPTV节目、观看的时间点和观看时长组成,则用户m的第n个收视记录包括wm,n、tm,n和dm,n;其中,wm,n表示用户m的第n个收视记录中观看的IPTV节目;tm,n表示用户m的第n个收视记录的观看时间点;dm,n表示用户m的第n个收视记录中的观看时长;
用户m采用TDC-LDA模型生成收视记录的过程如下:
(4)生成用户m的第n个收视记录(收视记录由观看的IPTV节目、观看时间点和观看时长组成),其中n∈{1,...,Nm};
表1
喜剧片 | 0.4 |
战争片 | 0.3 |
家庭片 | 0.3 |
表2
表1是LDA模型的兴趣主题分布的一个实例,表明该用户观看喜剧片的概率为0.4,观看战争片的概率为0.3,观看家庭片的概率为0.3;表2是TDC-LDA模型的行为模式分布的一个实例,表明该用户在工作日15-18pm这个时段观看喜剧片的概率为0.1,在工作日20-22pm这个时段观看喜剧片的概率为0.1,在周末14-20pm这个时段观看喜剧片的概率为0.2,以此类推;
步骤3、根据步骤2得到的TDC-LDA模型,进行模型拟合,得到TDC-LDA模型的Gibbs采样公式;
采用Gibbs采样对TDC-LDA模型中的隐变量zm,n进行推断;在每次采样迭代中,根据用户m的除第n个收视记录(wm,n,tm,n,dm,n)以外的其他收视记录的行为模式对用户m的第n个收视记录(wm,n,tm,n,dm,n)的行为模式zm,n采样;条件概率可以由联合概率通过贝叶斯定理求出,其公式如式(2)所示:
式2)中,是IPTV节目wm,n被赋予兴趣主题zm,n,2的次数,是时间点tm,n被赋予时段zm,n,1的次数,表示用户m被赋予行为模式zm,n的次数,Vw代表所有IPTV节目总数,Vt代表所有时间点总数,α为行为模式分布的Dirichlet先验,β为兴趣主题分布的Dirichlet先验,γ为时段分布的Dirichlet先验,λ为指数分布的参数;
每一次迭代用式(3)来更新λ:
TDC-LDA模型中,(用户m的行为模式分布)、(兴趣主题k的节目分布)和(时段l的时间点分布)是以Dirichlet分布为先验分布的多项式分布;因为Dirichlet分布与多项式分布为共轭分布,因此用户对应的行为模式矩阵Θ(简称用户-行为模式矩阵)、兴趣主题对应的IPTV节目矩阵Φ(简称兴趣主题-节目矩阵)、时段对应的时间点矩阵Ψ(简称时段-时间点矩阵)作为后验分布可以用Dirichlet分布的期望进行推导得到,如式(4)-(6)所示:
式4-6中,θm,i代表用户m具有行为模式i的概率,代表IPTV节目vw属于兴趣主题k的概率,表示时间点vt属于时段l的概率,是IPTV节目vw被赋予兴趣主题k的次数,是时间点vt被赋予时段l的次数,是用户m被赋予行为模式i的次数;
步骤4、对用户收视记录数据进行处理,提取用户的观看节目名称、观看时间点和观看时长信息,得到每个用户的每个收视记录;具体处理遵循以下几个原则:
(1)将IPTV节目名称中集数与季去掉,不同季与不同集数的节目视为同一节目;
(2)将时间点改成“星期-时”的形式,不同的时间点Vt总共是7×24个;
(3)只保留观看时长超过3分钟的观看记录(节目的平均观看时长是35分钟);即如果用户相邻观看记录之间的时间间隔小于三分钟,则删除上一个观看记录;
(4)删除无效节目,处理重复和错误数据;
步骤5、对步骤4得到的每个用户的每个收视记录的行为模式进行初始化;然后通过Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定;最后根据式4)-6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
具体是:(1)对每个用户的每个收视记录的行为模式进行初始化,为每个用户的每个收视记录的行为模式赋予一个初始值;具体实施过程如下:
(2)用Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定,具体实施过程如下:
(3)根据式(4)-(6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
步骤6、对步骤5得到的三个矩阵进行分析,得到兴趣主题表示的节目类型和每个时段的具体时间区间,进而挖掘到每个用户在不同时段的兴趣主题分布;
(1)根据兴趣主题对应的IPTV节目矩阵Φ,按每个兴趣主题中节目的概率高低进行排序,进而得到每个兴趣主题表示的节目类型;表3是兴趣主题中按节目的概率高低进行排序后的该兴趣主题的IPTV节目分布,由表3可以得出兴趣主题6的节目类型为古装片,兴趣主题35的节目类型为动画片。
表3
(2)根据时段对应的时间点矩阵Ψ,按每个时段中时间点的概率高低进行排序,进而得到每个时段具体对应的时间区间;图3中为根据本方法划分的时段,每个表格代表一个时间点,图中将一周的时间点总共分为8个时段,用序号“0-7”来标记,相同时段的时间点用同种填充图案标记;
具体是时段0包括周一的6-7am、周二的6-7am、周三的6-8am、周四的6-7am、周五的7am、周六的7am和周日的7am;时段1包括周一的9-11am、周二的9-11am、周三的9-11am、周四的10am、周五的10-11am和周六的9-11am;时段2包括周一的12-14pm、周二的12-14pm、周三的12-14pm、周四的12pm、周五的12-13pm、周六的12-13pm和周日的12pm;时段3包括周一至周日的16-17pm;时段4包括周一至周日的18pm;时段5包括周一至周日的19pm;时段6包括周一至周日的20-21pm;时段7包括周一至周日的22-23pm;
(3)根据用户的行为模式矩阵Θ,对每个用户的行为模式按概率高低进行排序,进而分析每个用户在不同时段的兴趣主题;表4为挖掘到的用户行为模式;由表4可知,该用户m倾向于在时段3(下午4-5点)收看动画类节目,在时段6和时段7(晚上8点到11点之间)收看古装爱情类节目。
表4
为验证TDC-LDA模型的效果,用TDC-LDA模型在IPTV用户收视记录数据集上执行推荐任务,并计算LDA、cLDA和TDC-LDA模型的预测困惑度(predictive-perplexity)。推荐任务的目标是预测IPTV用户在特定的时段打开电视时会收看什么节目。实验中,将IPTV用户分为训练集和测试集,训练集包括每个用户除最后一个收视记录外的所有记录,测试集由每个用户的最后一个收视记录构成。推荐任务要完成的是,通过每一个用户最后一个收视记录的时间点来预测用户收看的节目。预测困惑度指标定义如下:
式7)中,Mtest是测试集中用户数目;困惑度越低表示模型泛化性能越好,推荐更准确。实验中,令cLDA与TDC-LDA的时段L=8,通过将兴趣主题K设置为不用的值来比较不同模型的困惑度,如表5所示。由表5可知,TDC-LDA、cLDA、LDA模型的推荐效果依次降低。这说明,在挖掘用户不同时段的收视兴趣时加入用户观看时长信息是非常有必要的。
表5
本发明未述及之处适用于现有技术。
Claims (3)
1.一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于该方法包括以下步骤:
步骤1、建立TDC-LDA模型:在TDC-LDA模型中,每个用户对应一个描述该用户观看兴趣主题、观看时段与观看时长的行为模式分布,具体表现为在不同时段所呈现出的兴趣主题分布,且兴趣主题分布受观看时长影响;行为模式具体是指用户选择在哪个时段观看哪种类型的节目以及其观看时长,其中用户的观看时长体现了其对此类型节目的喜爱程度;
在TDC-LDA模型中,有K个兴趣主题,Vw个不同的IPTV节目,则兴趣主题对应的IPTV节目的多项式分布描述成K×Vw维的兴趣主题-节目矩阵Φ,是节目vw属于兴趣主题k的概率;TDC-LDA模型中有L个时段,Vt个不同的时间点,时段对应的时间点的多项式分布描述成L×Vt维的时段-时间点矩阵Ψ,是时间点vt属于时段l的概率;
对于用户m,把其由兴趣主题和时段构成的K×L维的行为模式矩阵分解成K·L维的向量为用户m的行为模式分布;中第z项代表用户m在zm,n,1时段选择兴趣主题zm,n,2这个行为并且观看时长为dm,n的概率;其中zm,n,1和zm,n,2由式(1)求得:
式(1)中,zm,n为用户m的第n个收视记录的行为模式,zm,n,1为用户m的第n个收视记录的时段,zm,n,2为用户m的第n个收视记录的兴趣主题,mod函数是一个求余函数;
收视记录由观看的IPTV节目、观看的时间点和观看时长组成,则用户m的第n个收视记录包括wm,n、tm,n和dm,n;其中,wm,n表示用户m的第n个收视记录中观看的IPTV节目,tm,n表示用户m的第n个收视记录的观看时间点,dm,n表示用户m的第n个收视记录中的观看时长;
用户m采用TDC-LDA模型生成收视记录的过程如下:
(4)生成用户m的第n个收视记录,收视记录由观看的IPTV节目、观看时间点和观看时长组成,其中n∈{1,...,Nm};
步骤2、根据步骤1得到的TDC-LDA模型,进行模型拟合,得到TDC-LDA模型的Gibbs采样公式;
采用Gibbs采样对TDC-LDA模型中的zm,n进行推断;在每次采样迭代中,根据对zm,n采样;表示用户m的除第n个收视记录以外的其他收视记录的行为模式;条件概率可以由联合概率通过贝叶斯定理求出,如式(2)所示:
式(2)中,是IPTV节目wm,n被赋予兴趣主题zm,n,2的次数,是时间点tm,n被赋予时段zm,n,1的次数,表示用户m被赋予行为模式zm,n的次数,Vw代表所有IPTV节目总数,Vt代表所有时间点总数,α为行为模式分布的Dirichlet先验,β为兴趣主题分布的Dirichlet先验,γ为时段分布的Dirichlet先验,λ为指数分布的参数;βw为每个IPTV节目w对应兴趣主题分布的Dirichlet先验;γt为每个时间点t对应时段分布的Dirichlet先验;用户m的第n个收视记录的行为模式对应行为模式分布的Dirichlet先验;αi为第i个行为模式对应的行为模式分布的Dirichlet先验;是用户m的第n个收视记录的兴趣主题对应指数分布的参数;是IPTV节目vw被赋予兴趣主题zm,n,2的次数,是时间点vt被赋予时段zm,n,1的次数,是用户m被赋予行为模式i的次数;
每一次迭代用式(3)来更新λ:
TDC-LDA模型中,用户m的行为模式分布兴趣主题k的节目分布和时段l的时间点分布是以Dirichlet分布为先验分布的多项式分布;因为Dirichlet分布与多项式分布为共轭分布,因此每一个用户对应的行为模式矩阵Θ、兴趣主题对应的IPTV节目矩阵Φ、时段对应的时间点矩阵Ψ作为后验分布可以用Dirichlet分布的期望进行推导得到,如式(4)-(6)所示:
式(4)-(6)中,θm,i代表用户m具有行为模式i的概率,代表IPTV节目vw属于兴趣主题k的概率,表示时间点vt属于时段l的概率,是IPTV节目vw被赋予兴趣主题k的次数,是时间点vt被赋予时段l的次数;
步骤3、对用户收视记录数据进行处理,提取用户的观看节目名称、观看时间点和观看时长信息,得到每个用户的每个收视记录;
步骤4、对步骤3得到的每个用户的每个收视记录的行为模式进行初始化;然后通过Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定;最后根据式(4)-(6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
步骤5、对步骤4得到的三个矩阵进行分析,得到兴趣主题表示的节目类型和每个时段的具体时间区间,进而挖掘到每个用户在不同时段的兴趣主题分布。
2.根据权利要求1所述的基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于步骤3中,对用户收视记录数据进行处理具体是:将IPTV节目名称中集数与季去掉,不同季与不同集数的节目视为同一节目;将时间点改成星期-时的形式,不同的时间点Vt总共是7×24个;用户相邻观看记录之间的时间间隔小于三分钟,则删除上一个观看记录;删除无效节目。
3.根据权利要求1所述的基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于步骤5具体是:(1)根据兴趣主题对应的IPTV节目矩阵Φ,按每个兴趣主题中节目的概率高低进行排序,进而得到每个兴趣主题表示的节目类型;(2)根据时段对应的时间点矩阵Ψ,按每个时段中时间点的概率高低进行排序,进而得到每个时段具体对应的时间区间;(3)根据用户的行为模式矩阵Θ,对每个用户的行为模式按概率高低进行排序,进而分析每个用户在不同时段的兴趣主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416747.8A CN110149556B (zh) | 2019-05-20 | 2019-05-20 | 一种基于tdc-lda模型的iptv用户行为模式挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416747.8A CN110149556B (zh) | 2019-05-20 | 2019-05-20 | 一种基于tdc-lda模型的iptv用户行为模式挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110149556A CN110149556A (zh) | 2019-08-20 |
CN110149556B true CN110149556B (zh) | 2021-05-04 |
Family
ID=67591919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910416747.8A Active CN110149556B (zh) | 2019-05-20 | 2019-05-20 | 一种基于tdc-lda模型的iptv用户行为模式挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110149556B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852867B (zh) * | 2021-05-27 | 2023-09-08 | 天翼数字生活科技有限公司 | 一种基于核密度估计的节目推荐方法和装置 |
CN114003326B (zh) * | 2021-10-22 | 2023-10-13 | 北京字跳网络技术有限公司 | 消息处理方法、装置、设备及存储介质 |
CN114971400B (zh) * | 2022-06-24 | 2023-01-31 | 东南大学溧阳研究院 | 一种基于Dirichlet分布-多项分布共轭先验的用户侧储能聚合方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354293A (zh) * | 2015-11-02 | 2016-02-24 | 海信集团有限公司 | 一种移动终端上进行播放对象推送的辅助实现方法及装置 |
CN109672938A (zh) * | 2019-01-07 | 2019-04-23 | 河北工业大学 | 一种iptv节目推荐方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929938B (zh) * | 2012-09-28 | 2015-09-30 | 北京奇艺世纪科技有限公司 | 一种可播放型网络资源的排序方法及装置 |
CN103856790B (zh) * | 2012-12-05 | 2018-01-23 | 北京四达时代软件技术股份有限公司 | 一种vod系统用户行为分析方法及系统 |
CN103533393B (zh) * | 2013-09-17 | 2017-08-01 | 上海交通大学 | 基于家庭收视纪录的家庭分析及节目推荐方法 |
KR101496181B1 (ko) * | 2013-10-04 | 2015-03-02 | 성균관대학교산학협력단 | 컨텐츠의 주제를 사용하는 컨텐츠 추천 방법 및 장치 |
CN105516810A (zh) * | 2015-12-04 | 2016-04-20 | 山东大学 | 一种基于lda模型的电视用户家庭成员分析方法 |
CN106658091B (zh) * | 2016-12-01 | 2020-02-28 | 北京学之途网络科技有限公司 | 一种实现收视信息处理的方法及装置 |
CN108521586B (zh) * | 2018-03-20 | 2020-01-14 | 西北大学 | 兼顾时间上下文与隐式反馈的iptv电视节目个性化推荐方法 |
CN108965937A (zh) * | 2018-06-27 | 2018-12-07 | 广东技术师范学院 | 一种面向网络电视家庭用户的动态兴趣模型构建方法 |
-
2019
- 2019-05-20 CN CN201910416747.8A patent/CN110149556B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354293A (zh) * | 2015-11-02 | 2016-02-24 | 海信集团有限公司 | 一种移动终端上进行播放对象推送的辅助实现方法及装置 |
CN109672938A (zh) * | 2019-01-07 | 2019-04-23 | 河北工业大学 | 一种iptv节目推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110149556A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110149556B (zh) | 一种基于tdc-lda模型的iptv用户行为模式挖掘方法 | |
JP5421469B2 (ja) | 対象を定めたテレビ番組配信のためのシステム、プリファレンスエンジン、機械可読媒体およびテレビ視聴習慣を判断する方法 | |
Salehi-Abari et al. | Preference-oriented social networks: Group recommendation and inference | |
US20170171580A1 (en) | Clustering and adjudication to determine a recommendation of multimedia content | |
EP2817970B1 (en) | Automatically recommending content | |
US20070288965A1 (en) | Recommended program information providing method and apparatus | |
US20150019573A1 (en) | Feedback loop content recommendation | |
US6556958B1 (en) | Fast clustering with sparse data | |
CN104182449A (zh) | 基于用户兴趣建模的个性化视频推荐系统和方法 | |
WO2010005942A2 (en) | Recommender system | |
WO2018082531A1 (en) | Apparatus and method for ranking content categories | |
EP2749038B1 (en) | Audiovisual content recommendation method and device | |
JP2004519902A (ja) | テレビジョン視聴者プロファイルイニシャライザ及び関連する方法 | |
Velusamy et al. | An efficient ad recommendation system for TV programs | |
CN113836406A (zh) | 信息流推荐方法及装置 | |
JP5172826B2 (ja) | 対象を定めた広告に適したリアルタイム視聴者推定およびコマーシャル選択を実施する方法および装置 | |
Oh et al. | Comparison of techniques for time aware TV channel recommendation | |
US9897987B2 (en) | Method and apparatus for controlling a system | |
WO2003090466A2 (en) | Improved programme selection | |
US20240129569A1 (en) | Predictive Measurement of End-User Activities at Specified Times | |
Ren et al. | User preference and behavior pattern in Push VOD systems | |
Zhang et al. | Research on User Interest Model Mining Method Based on Time-Tag | |
CN117520659A (zh) | 基于影视知识图谱多轮影视推荐方法 | |
Gutta et al. | From Stereotypes to Personal Profiles via Viewer Feedback | |
Kang | Multimedia content preference using the moving average technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |