CN105142028A - 面向三网融合的电视节目内容搜索与推荐方法 - Google Patents
面向三网融合的电视节目内容搜索与推荐方法 Download PDFInfo
- Publication number
- CN105142028A CN105142028A CN201510455189.8A CN201510455189A CN105142028A CN 105142028 A CN105142028 A CN 105142028A CN 201510455189 A CN201510455189 A CN 201510455189A CN 105142028 A CN105142028 A CN 105142028A
- Authority
- CN
- China
- Prior art keywords
- label
- video
- user
- preference
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4622—Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4665—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种面向三网融合的电视节目内容搜索与推荐方法。包括:提出同义词标签丰富、评论标签丰富和视频相似度标签丰富三种视频标签自丰富方法生成能详细描述海量电视节目内容的标签描述文件;设计接口完整收集电视节目观众的显式和隐式行为信息,并分别提出了显式和隐式偏好权重计算方法构建基于标签的用户偏好模型,同时考虑了用户偏好随时间的变化;提出基于标签满足关系的相似度计算方法,实现三网融合环境下海量电视节目内容的个性化搜索与主动推荐服务。本方法解决了三网融合环境下海量电视节目内容详细描述的需求,同时为用户提供了更好体验的电视节目个性化服务,从而减少了用户的浏览时间,提高了用户的检索效率。
Description
技术领域
本发明属于计算机应用技术领域,更具体地,涉及一种面向三网融合的电视节目内容搜索与推荐方法,通过视频标签自丰富实现对海量电视节目内容的详细描述,详细收集用户行为信息并挖掘用户偏好,根据得到的用户偏好信息为用户提供电视节目个性化搜索和主动推荐两种个性化服务。
背景技术
“三网融合”是指互联网、广播电视网和电信网三网相互渗透、互相兼容并逐步发展成为资源共享,能为用户提供数据、广播电视和数字语音等多种服务的统一信息网络。近年来,随着我国数字电视的改造、“三网融合”业务的不断发展以及多媒体技术的持续进步,电视频道越来越多,视频数据的生成和处理变得很方便,视频的数量呈现爆炸性的增长,用户获取这些视频数据的途径也更多。例如,用户可以快速地在优酷土豆、YouTube、腾讯等平台上传和分享自己喜爱的视频;与此同时,相较于传统的线性接收有线电视节目,如今的用户可以随时随地通过互联网观看相应的有线电视节目。然而,虽然用户获取视频数据的方式很多,但一方面视频数据的增长太快,另一方面人们的工作生活节奏越来越快,真正用于观看视频的时间越来越少,越来越零散。面对大量的电视频道和海量的互联网视频内容,用户往往无所适从,仅有的一点娱乐时间往往消耗在视频的搜索和选择上。因此随着电视频道的增加、视频内容的海量增长、用户生活节奏的加快,如何有效组织、管理和获取这些视频节目,使电视节目观众能够方便有效地在海量电视节目中获得自己感兴趣的视频内容即为用户提供个性化视频服务已经成为一种需要。
虽然在个性化服务方面国内外学者已经进行了大量的研究,但是三网融合环境下电视节目内容个性化服务(个性化搜索和主动推荐)仍然面临如下几个问题:
1.三网融合环境下电视节目数据量呈现海量性,仅靠节目提供者一一对视频内容进行详细描述是不现实的,必须依靠其他力量实现对视频内容的详细描述。
2.个性化服务对实时性要求很高,如何完整收集用户行为信息,如何快速且准确地构建用户偏好模型,实现对偏好模型的实时更新以及提供高效的个性化服务仍然面临着挑战。
3.目前已有的个性化服务只关注点播视频,或者只关注直播电视节目,缺少同时对这两类电视节目考虑的个性化服务即三网融合环境下电视节目的个性化服务。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向三网融合的电视节目内容搜索与推荐方法,其目的在于自动生成能详细描述海量电视节目内容的标签描述文件,详细收集用户显式和隐式行为信息挖掘用户偏好,并通过改进的相似度计算方法,实现三网融合环境下海量电视节目内容的个性化搜索与主动推荐服务,能有效提高用户的检索效率,减少用户的浏览时间。
为实现上述目的,本发明提供了一种面向三网融合的电视节目内容搜索与推荐方法,其特征在于,包括如下步骤:
(1)生成视频描述标签;
(2)收集用户的显式行为信息和隐式行为信息;
其中,显式行为信息包括用户密码保护问题答案和个性化签名;隐式行为信息包括用户播放的点播视频和直播电视节目名,播放开始、暂停和结束信息,检索关键词,视频评论信息,以及网页浏览信息;
(3)挖掘用户偏好,进一步包括如下步骤:
(3-1)从用户的显式行为信息和隐式行为信息中提取显式偏好标签和隐式偏好标签;
(3-2)计算显式偏好标签的权重和隐式偏好标签的权重;
(3-3)用逻辑回归衰减函数对显式偏好标签的权重和隐式偏好标签的权重进行衰减,其中,T(i)为用户ui的偏好的全衰期,t为时间;
(4)计算用户的偏好标签与视频描述标签的相似度,为用户提供视频搜索结果重排序和视频主动推荐两种个性化服务;
其中,视频搜索结果重排序是指:读取点播视频的检索结果,根据用户的偏好标签与视频描述标签的相似度对检索结果进行重排序后展示给观众;视频主动推荐是指:读取待推荐视频的描述标签,将描述标签与用户的偏好标签的相似度最大的预定个数的视频推荐给观众。
优选地,所述步骤(1)进一步包括如下步骤:(1-1)对视频初始描述文本进行分词和过滤,提取有效的分词结果作为视频初始标签;(1-2)由视频初始标签从同义词标签集中得到同义词标签,从用户对视频的评论信息中提取视频评论标签,根据用户的视频搜索和播放记录信息计算视频之间的相似度得到视频相似度标签;(1-3)得到包括视频初始标签、同义词标签、视频评论标签和视频相似度标签在内的能详细描述视频内容的视频描述标签。
优选地,所述步骤(3-1)进一步包括如下步骤:(3-1-1)对用户的行为信息进行过滤,去除无效的行为信息,得到有效的用户的行为信息;(3-1-2)将相同连接会话内同一个视频的所有播放记录中的播放时间叠加,得到该视频的累积播放时间,进而将任一视频的播放记录整合为一条,得到视频播放行为描述标签;(3-1-3)对有效的用户的显式行为信息进行分词,提取关键词信息得到显式偏好标签;对除已生成描述标签的视频播放行为信息之外的有效的用户的隐式行为信息进行分词,提取关键词信息,将提取的关键词信息与视频播放行为描述标签一起作为隐式偏好标签。
优选地,所述步骤(3-2)中,用户的隐式偏好标签的权重用该隐式偏好标签出现的次数与该用户的所有有效的行为信息的条数之商表示;其中,用户对同一对象的一次检索、浏览和评论行为算一条行为信息;对于整合后的视频播放记录,计算总播放时长与视频总时长的比例ρ,当比例ρ>=0.8时,该条播放记录的权重为1,否则为ρ,在视频播放记录参与隐式偏好标签的权值的计算时另乘以对应的权重。
优选地,所述步骤(3-2)中,显式偏好标签的权重的计算方法具体为:设置所有显式偏好标签的权重为1;对任一显式偏好标签,若其未出现在当前连接会话中,则根据其最近一次出现的连接会话距离当前连接会话的次数n对其权重进行n次减半操作。
优选地,所述步骤(3-3)中,用户ui的偏好的全衰期T(i)通过如下方法得到:
(A1)计算用户ui的偏好标签tx对其偏好挖掘的影响:
其中,pj为删除偏好标签tx后用户ui的偏好全衰期为T(i)时偏好标签tj的预测权重,qj为偏好标签tj的真实权重,Ni为用户ui的偏好标签的个数;
(A2)将用户ui的平均绝对误差表示为:
(A3)为所有用户的偏好的全衰期预设一个范围[Tmin,Tmax],在该范围内计算用户ui的偏好的全衰期T(i),使得MAE(T(i))的值最小。
优选地,所述步骤(4)中,用户ui的偏好标签与视频vr的描述标签的相似度其中,wix表示用户ui的偏好标签tx的权重,wrx表示用户ui的偏好标签tx作为视频vr的描述标签时的权重,当视频vr的描述标签中不存在偏好标签tx时,wrx=0,Ni为用户ui的偏好标签的个数,l表示视频vr的描述标签中包含用户ui的偏好标签的个数,α是相似度调节参数。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明实现了一种视频标签描述文件自动生成方案,解决了三网融合环境下海量电视节目内容详细描述的问题。
2.本发明详细收集了用户在三网融合环境下的显式和隐式行为信息,分别提出了显式偏好权值和隐式偏好权值的计算方法,同时考虑了用户偏好随时间的变化,快速且准确地构建了用户偏好模型。
3.本发明提出了一种基于标签满足关系的相似度计算方法,同时为电视节目观众提供点播视频和直播电视节目的个性化服务,包括个性化视频搜索和主动推荐服务。
附图说明
图1是本发明实施例的面向三网融合的电视节目内容搜索与推荐方法的总体设计框图;
图2是生成视频标签描述文件的流程图;
图3是生成视频初始标签的流程图;
图4是co-click相似度矩阵示意图;
图5是个性化搜索的流程图;
图6是主动推荐的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,电视节目搜索引擎为用户接口部分,提供点播视频、直播电视节目的搜索和播放,与此同时包含用户行为信息收集接口和点播、直播视频资源的更新。个性化推荐服务器负责个性化服务的数据计算部分,包括对用户行为信息进行分析并构建用户偏好模型,为电视节目资源生成标签描述文件,提供直播和点播电视节目推荐、搜索结果个性化重排序和相关视频推荐等个性化服务。
本发明实施例的面向三网融合的电视节目内容搜索与推荐方法通过三种视频标签自丰富方法生成能详细描述海量电视节目内容的视频标签描述文件,并通过详细收集用户的显式和隐式行为信息挖掘用户的偏好,进而为电视节目观众提供个性化视频搜索和主动推荐两种个性化服务,具体包括如下步骤:
(1)生成视频描述标签
如图2所示,使用同义词标签丰富、评论标签丰富和视频相似度标签丰富三种视频标签丰富方式生成视频描述标签;包括如下步骤:
(1-1)对视频初始描述文本进行分词(即将长段句子分成单独的词)和过滤,提取有效的分词结果作为视频初始标签;
如图3所示,使用中科院分词工具NLPIR导入特定领域词典,使用该工具对视频初始描述文本进行分词;根据导入的领域词典对分词结果进行过滤,提取有效的分词结果作为初始标签,并设置其标签权值为1。
(1-2)由视频初始标签从同义词标签集中得到同义词标签,从用户对视频的评论信息中提取视频评论标签,根据用户的视频搜索和播放记录信息计算视频之间的相似度得到视频相似度标签;
对于同义词标签集中的标签ty,如果存在标签tz∈vinitialSet且标签ty和tz互为同义词标签,则标签ty的权重wvy=1,其中,vinitialSet为视频v的初始标签集。
对于评论标签tp,如果tp∈vtrueSet或者∝vp≥θ,则标签tp的权重wvp=1,否则wvp=∝vp,其中vtrueSet为视频v的真实标签集即权重为1的标签集合,∝vp即为评论标签tp在视频v的所有评论中的比例,θ为阈值变量。
如图4所示,根据所有用户的查询和播放记录构造co-click二维矩阵,其中,Cr表示视频vr被点击播放的次数,Cs表示视频vs被点击播放的次数,Crs表示视频vr和vs在相同的检索词query下播放的次数;根据co-click二维矩阵计算视频vr和vs的相似度:
由此视频vr由co-click相似度丰富得到的视频相似度标签tc的权重为:
wrc=ω(vr,vs)*wsc
其中,wsc为标签tc在视频vs中的权重。
(1-3)得到包括视频初始标签、同义词标签、视频评论标签和视频相似度标签在内的能详细描述视频内容的视频描述标签。
(2)收集用户的行为信息
用户的行为信息是对用户行为的记录,包括用户的显式行为信息和隐式行为信息。前者包括用户的注册信息(例如在网站注册时提供的姓名、性别、年龄、爱好、密码保护问题答案、个性化签名等主动提交的信息),后者包括视频(点播视频和直播电视节目)播放记录(例如节目名、播放开始、暂停和结束信息)、视频评论信息、网页浏览信息、检索信息等隐式的由网站后台自动为用户记录的信息。用户的行为信息是用户偏好挖掘的数据来源,在个性化服务的提供中起着重要作用,本实施例的方法在对用户行为信息进行收集时分别按显式行为信息和隐式行为信息进行收集。
显式行为信息由用户主动提供,故能够很好地反应用户的真实信息,对用户偏好挖掘来说是一个很重要的参考。
用户愿意主动提交个人信息一般在设置搜索引擎个人文档时,如用户注册和更改个性化签名时。考虑到多数搜索引擎为提高用户帐户安全性均会提供密码保护功能,即向用户提供几个简单但又与其自身相关的问题,用户为保证在丢失密码时能正常找回,在提供密码保护问题答案时一般愿意提供真实的个人信息。基于此,实施例设计了相应的密码保护问题供用户选择。通过分析用户密保问题的答案,能很容易地获取用户的显式偏好。除了对用户密码保护问题答案显式行为信息的收集,实施例还提供了个性化签名信息收集接口,当用户添加或更改搜索引擎个性签名时,后台能自动记录用户最新的个性签名并将这一显式反馈信息发送到个性化推荐服务器。
本实施例的方法收集的用户的隐式行为信息有:用户对点播视频和直播电视节目的检索关键词、用户对球员球队联赛信息的检索关键词、用户观看点播视频记录、用户观看直播视频记录、用户对观看视频的评论信息、用户网页浏览信息和用户加入专区信息。
(3)挖掘用户偏好
挖掘用户偏好是指对收集的用户行为信息进行分析、提取反馈特征、设计偏好模型和计算偏好权值的过程。本实施例的方法的个性化推荐服务器负责用户偏好的挖掘,首先对从电视节目搜索引擎接收到的用户行为信息进行预处理,过滤掉无效的行为信息,对各类行为信息进行分词并提取标签,同时根据连接会话对点播视频和电视直播播放记录进行整合,分析用户对播放电视节目的喜爱程度。从这些经过预处理的各类用户行为信息中提取出有效的用户偏好标签后,计算偏好标签对应的权值同时使用逻辑时间衰减函数模拟用户偏好随时间的变化,由此根据提取出的用户偏好标签和计算得到的偏好权值创建或者更新用户的偏好文件。
包括如下步骤:
(3-1)从用户的显式行为信息和隐式行为信息中提取显式偏好标签和隐式偏好标签。
进一步包括如下步骤:
(3-1-1)对用户的行为信息进行过滤,去除无效的行为信息,得到有效的用户的行为信息。
无效的用户行为信息会影响用户偏好的挖掘,必须要进行清除。例如用户更改个性化签名时,对于以前的个性化签名就应该进行过滤;用户刷新网页时,产生的重复行为信息同样要进行过滤。
(3-1-2)将相同连接会话内同一个视频的所有播放记录中的播放时间叠加,得到该视频的累积播放时间,进而将任一视频的播放记录整合为一条,得到视频播放行为描述标签,为后续计算用户对该视频的喜爱程度提供依据。
在同一个连接会话中,用户可能会对相同电视节目进行多次操作如播放、暂停、快进、后退、关闭一段时间后又重新观看等,每个操作均会产生一条视频播放反馈记录,为了方便对同一个视频的播放记录进行处理,本方法对相同连接会话内同一个视频的所有播放记录进行了合并。
(3-1-3)对有效的用户的显式行为信息进行分词,提取关键词信息得到显式偏好标签;对除已生成描述标签的视频播放行为信息之外的有效的用户的隐式行为信息进行分词,提取关键词信息,将提取的关键词信息与视频播放行为描述标签一起作为隐式偏好标签。
对于有效的用户的行为信息,在进行偏好挖掘时均是利用其关键词信息,因此除了已经生成描述标签的视频播放行为信息外,其他类型的行为信息均需要进行分词,提取关键词信息即标签。记录用户对视频的评论信息使得通过评论标签丰富方式获取描述视频内容的评论标签;记录新用户的用户名信息便于统一管理;对用户的已播放视频id进行记录,防止在主动推荐时向用户推荐已看过的视频内容。
用户的行为信息类型不一,为了能够完整地利用其中每一条用户的行为信息,同时考虑到每条行为信息均可以表示成标签集,因此本方法在对不同类型的用户的行为信息进行利用时提取共同的反馈特征即标签来表示用户的偏好。对于具体的用户偏好模型则使用由<tagLabel,tagWeight>组成的标签向量进行表示,其中tagLabel表示标签文本,tagWeight表示标签权重,即用户对该标签的喜爱程度。使用标签向量表示用户的偏好模型,一方面能直观表现出用户的偏好信息,另一方面与视频资源的标签描述文件格式保持一致,使得用户偏好模型能够更方便地参与到个性化服务的计算中去。
(3-2)计算显式偏好标签的权重和隐式偏好标签的权重
其中,显式偏好标签从用户的显式行为信息中提取出来,其权重的计算方法具体为:设置所有显式偏好标签的权重为1;对任一显式偏好标签,若其未出现在当前连接会话中,则根据其最近一次出现的连接会话距离当前连接会话的次数n对其权重进行n次减半操作。
隐式偏好标签从用户的隐式行为信息中提取出来,并不能显式地表示用户的偏好,因此不能简单地设置其权值为1或根据连接会话对权值进行减半操作。目前隐式偏好标签权值的计算方法主要有TF和TF-IUF两种。
TF即词频,使用标签出现的次数表示其权值,此种方式不利于区分用户在不同时刻的偏好,同样对于非活跃用户简单地使用TF也不能反映其对偏好标签的喜好程度;TF-IUF是词频-反用户,即使用标签出现的次数与包含该标签的用户数之商作为偏好标签的权值,TF-IUF考虑了偏好标签对于不同用户的区分度,认为包含于多数用户的偏好标签权值应较低,然而对于用户来说,其兴趣的高低程度应与其他用户无关,因此TF-IUF也不合理。
本方法使用标准化词频从各类隐式行为信息中计算隐式偏好标签的权重,具体为:用户的隐式偏好标签的权重用该隐式偏好标签出现的次数与该用户的所有有效的行为信息的条数之商表示,其中,用户对同一对象的一次检索行为、浏览行为、评论行为等算一条行为信息。对于整合后的视频播放记录,计算总播放时长与视频总时长的比例ρ,当比例ρ>=0.8时,该条播放记录的权重为1,否则为ρ,即在参与上述隐式偏好标签的权值的计算时另乘以对应的权重。
(3-3)用逻辑回归衰减函数对显式偏好标签的权重和隐式偏好标签的权重进行衰减。
本方法在挖掘用户偏好时考虑到用户偏好不是一成不变的,时间较久的用户行为信息的权重应该相对较低,故使用逻辑回归衰减函数对用户行为信息的权重进行衰减,函数公式为:
其中,T(i)为用户ui的偏好的全衰期,t为时间。由于每位用户的偏好不同,因此全衰期也不同。
用户偏好的全衰期T(i)的确定使用leave-one-out策略,即从用户ui偏好标签集中删除一个偏好标签tx,然后只根据不包含标签tx的用户ui的行为信息计算用户ui的其他偏好标签的权重,使用平均绝对误差(MeanAbsoluteError,MAE)计算用户ui的偏好标签tx对其偏好挖掘的影响:
其中,pj为删除偏好标签tx后用户ui的偏好全衰期为T(i)时偏好标签集中的偏好标签tj的预测权重,qj为偏好标签tj的真实权重即用户ui的偏好的全衰期为T(i)时计算的权重,Ni为用户ui的偏好标签的个数。用户ui的MAE为:
为所有用户的偏好的全衰期预设一个范围[Tmin,Tmax],在该范围内计算用户ui的偏好的全衰期T(i),使得MAE(T(i))的值最小。
(4)为用户提供个性化服务
进一步包括如下步骤:
(4-1)计算用户的偏好标签(包括显式偏好标签和隐式偏好标签)与视频描述标签的相似度。
在根据用户偏好模型为用户提供个性化视频搜索和主动推荐服务时,提出基于标签满足关系的相似度计算用户偏好标签与视频描述标签之间的相似度,该相似度认为视频资源描述标签文件中包含用户的偏好标签越多,该视频资源与用户的相似度越高。
具体地,用户ui的偏好标签与视频vr的描述标签的相似度:
其中,wix表示用户ui的偏好标签tx的权重,wrx表示用户ui的偏好标签tx作为视频vr的描述标签时的权重,当视频vr的描述标签中不存在偏好标签tx时,wrx=0,Ni为用户ui的偏好标签的个数,l表示视频vr的描述标签中包含用户ui的偏好标签的个数,α则是相似度调节参数,α越大表示相似度计算越注重视频资源中包含用户偏好标签的个数,实际计算时可以根据满足条件重视程度进行调节。满足相似度计算方法避免了主流余弦相似度在视频资源标签丰富时会降低相似度的值使得原本相似度较低、标签较稀疏的视频反而能获得较高的排序位置或者推荐度的不足。
(4-2)提供视频搜索结果重排序和视频主动推荐两种个性化服务。
其中,视频搜索结果重排序是指:读取点播视频的检索结果,根据用户的偏好标签与视频描述标签的相似度对视频检索结果进行重排序后展示给观众(如图5所示)。通常按相似度由大到小的顺序排序,优先将相似度大的视频展示给观众。
视频主动推荐是指:读取待推荐视频的描述标签,将描述标签与用户的偏好标签的相似度最大的预定个数的视频推荐给观众(如图6所示)。本方法提供的主动推荐包含三种,点播视频推荐、直播电视节目推荐和相关视频推荐,其中直播电视节目推荐只推荐当前正在播放或者还未播放的直播电视节目,相关视频推荐根据当前正在播放的视频内容为其推荐相似的视频,故在按图6计算电视节目推荐度时使用当前正在播放的视频描述标签代替用户的偏好标签。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种面向三网融合的电视节目内容搜索与推荐方法,其特征在于,包括如下步骤:
(1)生成视频描述标签;
(2)收集用户的显式行为信息和隐式行为信息;
其中,显式行为信息包括用户密码保护问题答案和个性化签名;隐式行为信息包括用户播放的点播视频和直播电视节目名,播放开始、暂停和结束信息,检索关键词,视频评论信息,以及网页浏览信息;
(3)挖掘用户偏好,进一步包括如下步骤:
(3-1)从用户的显式行为信息和隐式行为信息中提取显式偏好标签和隐式偏好标签;
(3-2)计算显式偏好标签的权重和隐式偏好标签的权重;
(3-3)用逻辑回归衰减函数对显式偏好标签的权重和隐式偏好标签的权重进行衰减,其中,T(i)为用户ui的偏好的全衰期,t为时间;
(4)计算用户的偏好标签与视频描述标签的相似度,为用户提供视频搜索结果重排序和视频主动推荐两种个性化服务;
其中,视频搜索结果重排序是指:读取点播视频的检索结果,根据用户的偏好标签与视频描述标签的相似度对检索结果进行重排序后展示给观众;视频主动推荐是指:读取待推荐视频的描述标签,将描述标签与用户的偏好标签的相似度最大的预定个数的视频推荐给观众。
2.如权利要求1所述的面向三网融合的电视节目内容搜索与推荐方法,其特征在于,所述步骤(1)进一步包括如下步骤:
(1-1)对视频初始描述文本进行分词和过滤,提取有效的分词结果作为视频初始标签;
(1-2)由视频初始标签从同义词标签集中得到同义词标签,从用户对视频的评论信息中提取视频评论标签,根据用户的视频搜索和播放记录信息计算视频之间的相似度得到视频相似度标签;
(1-3)得到包括视频初始标签、同义词标签、视频评论标签和视频相似度标签在内的能详细描述视频内容的视频描述标签。
3.如权利要求1或2所述的面向三网融合的电视节目内容搜索与推荐方法,其特征在于,所述步骤(3-1)进一步包括如下步骤:
(3-1-1)对用户的行为信息进行过滤,去除无效的行为信息,得到有效的用户的行为信息;
(3-1-2)将相同连接会话内同一个视频的所有播放记录中的播放时间叠加,得到该视频的累积播放时间,进而将任一视频的播放记录整合为一条,得到视频播放行为描述标签;
(3-1-3)对有效的用户的显式行为信息进行分词,提取关键词信息得到显式偏好标签;对除已生成描述标签的视频播放行为信息之外的有效的用户的隐式行为信息进行分词,提取关键词信息,将提取的关键词信息与视频播放行为描述标签一起作为隐式偏好标签。
4.如权利要求3所述的面向三网融合的电视节目内容搜索与推荐方法,其特征在于,所述步骤(3-2)中,用户的隐式偏好标签的权重用该隐式偏好标签出现的次数与该用户的所有有效的行为信息的条数之商表示;其中,用户对同一对象的一次检索、浏览和评论行为算一条行为信息;对于整合后的视频播放记录,计算总播放时长与视频总时长的比例ρ,当比例ρ>=0.8时,该条播放记录的权重为1,否则为ρ,在视频播放记录参与隐式偏好标签的权值的计算时另乘以对应的权重。
5.如权利要求1或2所述的面向三网融合的电视节目内容搜索与推荐方法,其特征在于,所述步骤(3-2)中,显式偏好标签的权重的计算方法具体为:设置所有显式偏好标签的权重为1;对任一显式偏好标签,若其未出现在当前连接会话中,则根据其最近一次出现的连接会话距离当前连接会话的次数n对其权重进行n次减半操作。
6.如权利要求1或2所述的面向三网融合的电视节目内容搜索与推荐方法,其特征在于,所述步骤(3-3)中,用户ui的偏好的全衰期T(i)通过如下方法得到:
(A1)计算用户ui的偏好标签tx对其偏好挖掘的影响:
其中,pj为删除偏好标签tx后用户ui的偏好全衰期为T(i)时偏好标签tj的预测权重,qj为偏好标签tj的真实权重,Ni为用户ui的偏好标签的个数;
(A2)将用户ui的平均绝对误差表示为:
(A3)为所有用户的偏好的全衰期预设一个范围[Tmin,Tmax],在该范围内计算用户ui的偏好的全衰期T(i),使得MAE(T(i))的值最小。
7.如权利要求1或2所述的面向三网融合的电视节目内容搜索与推荐方法,其特征在于,所述步骤(4)中,用户ui的偏好标签与视频vr的描述标签的相似度 其中,wix表示用户ui的偏好标签tx的权重,wrx表示用户ui的偏好标签tx作为视频vr的描述标签时的权重,当视频vr的描述标签中不存在偏好标签tx时,wrx=0,Ni为用户ui的偏好标签的个数,l表示视频vr的描述标签中包含用户ui的偏好标签的个数,α是相似度调节参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510455189.8A CN105142028B (zh) | 2015-07-29 | 2015-07-29 | 面向三网融合的电视节目内容搜索与推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510455189.8A CN105142028B (zh) | 2015-07-29 | 2015-07-29 | 面向三网融合的电视节目内容搜索与推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105142028A true CN105142028A (zh) | 2015-12-09 |
CN105142028B CN105142028B (zh) | 2018-02-27 |
Family
ID=54727212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510455189.8A Active CN105142028B (zh) | 2015-07-29 | 2015-07-29 | 面向三网融合的电视节目内容搜索与推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105142028B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653693A (zh) * | 2015-12-30 | 2016-06-08 | 东软集团股份有限公司 | 一种个性化推荐方法及装置 |
CN106028071A (zh) * | 2016-05-17 | 2016-10-12 | Tcl集团股份有限公司 | 一种视频推荐方法及系统 |
CN106534903A (zh) * | 2016-12-15 | 2017-03-22 | 四川长虹电器股份有限公司 | 智能电视直播点播聚合推荐方法 |
WO2017128146A1 (zh) * | 2016-01-27 | 2017-08-03 | 张仓 | 根据身份证推荐影视的方法和推荐系统 |
WO2017128147A1 (zh) * | 2016-01-27 | 2017-08-03 | 张仓 | 根据身份证推荐影视时的技术信息采集方法和推荐系统 |
CN107635151A (zh) * | 2017-09-25 | 2018-01-26 | 四川长虹电器股份有限公司 | 一种基于域分解机的机器学习电视节目推荐方法 |
CN108134950A (zh) * | 2017-12-07 | 2018-06-08 | 上海斐讯数据通信技术有限公司 | 一种智能视频推荐方法及系统 |
CN108322827A (zh) * | 2018-01-31 | 2018-07-24 | 武汉斗鱼网络科技有限公司 | 度量用户的视频偏好的方法、系统及计算机可读存储介质 |
CN109154939A (zh) * | 2016-04-08 | 2019-01-04 | 培生教育公司 | 用于自动内容聚合生成的系统和方法 |
CN109729395A (zh) * | 2018-12-14 | 2019-05-07 | 广州市百果园信息技术有限公司 | 视频质量评估方法、装置、存储介质和计算机设备 |
CN110020149A (zh) * | 2017-11-30 | 2019-07-16 | Tcl集团股份有限公司 | 用户信息的标签化处理方法、装置、终端设备及介质 |
CN110111183A (zh) * | 2019-05-06 | 2019-08-09 | 北京车薄荷科技有限公司 | 一种产品推荐方法及装置 |
CN110413837A (zh) * | 2019-05-30 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 视频推荐方法和装置 |
CN111339357A (zh) * | 2020-02-21 | 2020-06-26 | 广州欢网科技有限责任公司 | 基于直播用户行为的推荐方法及装置 |
CN111931041A (zh) * | 2020-07-03 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 一种标签推荐方法、装置、电子设备及存储介质 |
CN112135193A (zh) * | 2020-09-24 | 2020-12-25 | 湖南快乐阳光互动娱乐传媒有限公司 | 视频推荐方法及装置 |
WO2020259572A1 (zh) * | 2019-06-26 | 2020-12-30 | 广州市百果园信息技术有限公司 | 用于负反馈的标签确定方法、视频推荐方法、装置、设备和存储介质 |
CN113873333A (zh) * | 2021-09-30 | 2021-12-31 | 海看网络科技(山东)股份有限公司 | 一种iptv上节目画像的计算方法 |
CN114898246A (zh) * | 2022-04-12 | 2022-08-12 | 广州阿凡提电子科技有限公司 | 一种基于大数据的用户分类方法、系统和装置 |
CN114971817A (zh) * | 2022-07-29 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
CN115878905A (zh) * | 2023-03-03 | 2023-03-31 | 北京缔业科技有限公司 | 一种智慧商圈的个性服务推荐系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184235A (zh) * | 2011-05-13 | 2011-09-14 | 广州星海传媒有限公司 | 一种基于机顶盒的数字电视节目推荐方法及系统 |
CN102630052A (zh) * | 2012-04-16 | 2012-08-08 | 上海交通大学 | 面向实时流的电视节目推荐系统 |
US20130166488A1 (en) * | 2011-12-16 | 2013-06-27 | Alibaba Group Holding Limited | Personalized information pushing method and device |
CN103209342A (zh) * | 2013-04-01 | 2013-07-17 | 电子科技大学 | 一种引入视频流行度和用户兴趣变化的协作过滤推荐方法 |
WO2014090057A1 (zh) * | 2012-12-14 | 2014-06-19 | 百度在线网络技术(北京)有限公司 | 一种移动应用的推送方法及系统 |
-
2015
- 2015-07-29 CN CN201510455189.8A patent/CN105142028B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184235A (zh) * | 2011-05-13 | 2011-09-14 | 广州星海传媒有限公司 | 一种基于机顶盒的数字电视节目推荐方法及系统 |
US20130166488A1 (en) * | 2011-12-16 | 2013-06-27 | Alibaba Group Holding Limited | Personalized information pushing method and device |
CN102630052A (zh) * | 2012-04-16 | 2012-08-08 | 上海交通大学 | 面向实时流的电视节目推荐系统 |
WO2014090057A1 (zh) * | 2012-12-14 | 2014-06-19 | 百度在线网络技术(北京)有限公司 | 一种移动应用的推送方法及系统 |
CN103209342A (zh) * | 2013-04-01 | 2013-07-17 | 电子科技大学 | 一种引入视频流行度和用户兴趣变化的协作过滤推荐方法 |
Non-Patent Citations (1)
Title |
---|
DING Y, LI X: "Time weight collaborative filtering", 《PROCEEDINGS OF THE 14TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653693A (zh) * | 2015-12-30 | 2016-06-08 | 东软集团股份有限公司 | 一种个性化推荐方法及装置 |
WO2017128146A1 (zh) * | 2016-01-27 | 2017-08-03 | 张仓 | 根据身份证推荐影视的方法和推荐系统 |
WO2017128147A1 (zh) * | 2016-01-27 | 2017-08-03 | 张仓 | 根据身份证推荐影视时的技术信息采集方法和推荐系统 |
CN109154939A (zh) * | 2016-04-08 | 2019-01-04 | 培生教育公司 | 用于自动内容聚合生成的系统和方法 |
CN106028071A (zh) * | 2016-05-17 | 2016-10-12 | Tcl集团股份有限公司 | 一种视频推荐方法及系统 |
CN106534903A (zh) * | 2016-12-15 | 2017-03-22 | 四川长虹电器股份有限公司 | 智能电视直播点播聚合推荐方法 |
CN107635151A (zh) * | 2017-09-25 | 2018-01-26 | 四川长虹电器股份有限公司 | 一种基于域分解机的机器学习电视节目推荐方法 |
CN110020149A (zh) * | 2017-11-30 | 2019-07-16 | Tcl集团股份有限公司 | 用户信息的标签化处理方法、装置、终端设备及介质 |
WO2019109592A1 (zh) * | 2017-12-07 | 2019-06-13 | 上海斐讯数据通信技术有限公司 | 一种智能视频推荐方法及系统 |
CN108134950A (zh) * | 2017-12-07 | 2018-06-08 | 上海斐讯数据通信技术有限公司 | 一种智能视频推荐方法及系统 |
CN108322827B (zh) * | 2018-01-31 | 2021-02-02 | 武汉斗鱼网络科技有限公司 | 度量用户的视频偏好的方法、系统及计算机可读存储介质 |
CN108322827A (zh) * | 2018-01-31 | 2018-07-24 | 武汉斗鱼网络科技有限公司 | 度量用户的视频偏好的方法、系统及计算机可读存储介质 |
CN109729395A (zh) * | 2018-12-14 | 2019-05-07 | 广州市百果园信息技术有限公司 | 视频质量评估方法、装置、存储介质和计算机设备 |
CN109729395B (zh) * | 2018-12-14 | 2022-02-08 | 广州市百果园信息技术有限公司 | 视频质量评估方法、装置、存储介质和计算机设备 |
CN110111183A (zh) * | 2019-05-06 | 2019-08-09 | 北京车薄荷科技有限公司 | 一种产品推荐方法及装置 |
CN110413837B (zh) * | 2019-05-30 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 视频推荐方法和装置 |
CN110413837A (zh) * | 2019-05-30 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 视频推荐方法和装置 |
WO2020259572A1 (zh) * | 2019-06-26 | 2020-12-30 | 广州市百果园信息技术有限公司 | 用于负反馈的标签确定方法、视频推荐方法、装置、设备和存储介质 |
CN111339357A (zh) * | 2020-02-21 | 2020-06-26 | 广州欢网科技有限责任公司 | 基于直播用户行为的推荐方法及装置 |
CN111931041A (zh) * | 2020-07-03 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 一种标签推荐方法、装置、电子设备及存储介质 |
CN112135193A (zh) * | 2020-09-24 | 2020-12-25 | 湖南快乐阳光互动娱乐传媒有限公司 | 视频推荐方法及装置 |
CN113873333A (zh) * | 2021-09-30 | 2021-12-31 | 海看网络科技(山东)股份有限公司 | 一种iptv上节目画像的计算方法 |
CN114898246A (zh) * | 2022-04-12 | 2022-08-12 | 广州阿凡提电子科技有限公司 | 一种基于大数据的用户分类方法、系统和装置 |
CN114971817A (zh) * | 2022-07-29 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
CN114971817B (zh) * | 2022-07-29 | 2022-11-22 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
CN115878905A (zh) * | 2023-03-03 | 2023-03-31 | 北京缔业科技有限公司 | 一种智慧商圈的个性服务推荐系统 |
CN115878905B (zh) * | 2023-03-03 | 2023-05-05 | 北京缔业科技有限公司 | 一种智慧商圈的个性服务推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105142028B (zh) | 2018-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105142028A (zh) | 面向三网融合的电视节目内容搜索与推荐方法 | |
Abeza et al. | Social media scholarship in sport management research: A critical review | |
CN108140041B (zh) | 针对视频搜索的观看时间聚类 | |
Sayre et al. | Agenda setting in a digital age: Tracking attention to California Proposition 8 in social media, online news and conventional news | |
CN103106267B (zh) | 基于微博的众包问答系统信息采集方法 | |
CN103793537B (zh) | 一种基于多维时间序列分析的个性化音乐推荐系统及其实现方法 | |
CN110020437A (zh) | 一种视频和弹幕相结合的情感分析及可视化方法 | |
KR20160055930A (ko) | 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법 | |
US8600969B2 (en) | User interest pattern modeling server and method for modeling user interest pattern | |
CN104219575A (zh) | 相关视频推荐方法及系统 | |
CN105898209A (zh) | 视频平台监控分析系统 | |
CN110457615A (zh) | 个性化页面的展示处理方法、装置、设备及可读存储介质 | |
CN103778260A (zh) | 一种个性化微博信息推荐系统和方法 | |
CN101141607A (zh) | 可用于iptv的互动关联方法及其实现系统 | |
CN101764661A (zh) | 基于数据融合的视频节目推荐系统 | |
CN105045864B (zh) | 一种数字化资源个性化推荐方法 | |
CN106971006A (zh) | 一种体育赛事信息的个性化推送方法及系统 | |
CN103310362A (zh) | 基于gps定位的广电智能营销辅助方法及系统 | |
CN105183925A (zh) | 内容关联推荐方法及装置 | |
CN112839063A (zh) | 消息推送方法、消息显示方法、存储介质和计算机设备 | |
WO2010027299A2 (en) | A method for increasing the popularity of creative projects and a computer server for its realization | |
De Pessemier et al. | Collaborative recommendations with content-based filters for cultural activities via a scalable event distribution platform | |
Ntalianis et al. | Non-Gatekeeping on Social Media: A Reputation Monitoring Approach and its Application in Tourism Services. | |
JP2003323458A (ja) | 情報検索方法及びその装置、並びに該方法の実行プログラム及び該方法の実行プログラムを記録した記録媒体 | |
Jain et al. | Video recommendation system based on human interest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |