CN104853248B - 一种视频推荐方法及装置 - Google Patents

一种视频推荐方法及装置 Download PDF

Info

Publication number
CN104853248B
CN104853248B CN201510228328.3A CN201510228328A CN104853248B CN 104853248 B CN104853248 B CN 104853248B CN 201510228328 A CN201510228328 A CN 201510228328A CN 104853248 B CN104853248 B CN 104853248B
Authority
CN
China
Prior art keywords
video
class
keywords
keyword
video presentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510228328.3A
Other languages
English (en)
Other versions
CN104853248A (zh
Inventor
胡伟凤
周翚
高雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201510228328.3A priority Critical patent/CN104853248B/zh
Publication of CN104853248A publication Critical patent/CN104853248A/zh
Application granted granted Critical
Publication of CN104853248B publication Critical patent/CN104853248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频推荐方法及装置,可基于描述视频内容的视频描述关键字进行视频推荐,从而相较于基于固定视频类别进行视频推荐来说,可达到更好地描述视频特征与更细致地扑捉用户兴趣的效果,提高视频推荐的准确性。另外,由于在聚类过程中,可使用启发式方法对聚类初始值与分类初始值进行初始化,因而可大大降低聚类分类过程中初始值对结果产生的巨大影响,进一步提高视频推荐的准确性。再有,由于在聚类分类过程中,不仅考虑视频描述关键字的出现与否,还考虑用户对视频描述关键字的关注度,并以视频描述关键字与用户关注度作为分类初始值,从而使得推荐结果更能适应用户对相应视频描述关键字的关注度需求,进一步提高视频推荐的准确性。

Description

一种视频推荐方法及装置
技术领域
本发明涉及视频处理技术领域,尤其涉及一种视频推荐方法及装置。
背景技术
随着智能电视的不断发展,用户的可观看视频内容成倍增长,极大地提升了用户的视频应用体验。但是面对纷繁复杂的视频数据,用户难以快速定位自己喜欢的视频内容,因而,为了解决上述问题,随之出现了在线视频推荐。
在线视频推荐是视频网站帮助用户查找,以使用户能够观看某种特定领域视频的方法和工具。相对于传统的视频目录浏览方式或者视频搜索方式,视频推荐能够在用户不确定合适的搜索词的情况下,通过分析用户行为,得到用户需求的特定视频领域,并在该视频领域内进行推荐,避免了搜索词的输入和层次目录的多次点击过程,使得查找并观看某种特定类型的视频更加简单容易。
具体地,目前,业界主要可通过以下方式为用户进行相应的视频推荐:从固有视频类别出发,通过用户对事先固定类别的视频的喜好为用户推荐视频内容,以提升用户体验。但是,由于此种方法对视频分类事先固定,因而不能细致地体现用户偏好,使得用户真正的个性化需求难以被挖掘到位,导致最终所得到的视频推荐结果并不准确。
也就是说,现有视频推荐方法大多基于事先固定的视频类别为用户进行推荐,无法细致地体现用户偏好,使得最终所得到的视频推荐结果并不准确。
发明内容
本发明实施例提供了一种视频推荐方法及装置,用以解决现有视频推荐方式所得到的推荐结果准确性低的问题。
本发明实施例提供了一种视频推荐方法,包括:
对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,所述N为大于1的正整数;其中,所述第一历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;
根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,并针对每一定制关键字类,根据所述第二历史视频数据集中的归属于所述定制关键字类的各视频描述关键字集合,计算所述定制关键字类所对应的关键字重合度;其中,所述第二历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;且,针对每一定制关键字类,所述定制关键字类所对应的关键字重合度是指,第二历史视频数据集中的归属于所述定制关键字类的所有视频描述关键字集合中的重合度最高的元素的数量;
根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,形成与所述设定用户相对应的视频推荐列表,并推荐给所述设定用户;其中,所述视频推荐列表中的各定制关键字类中的视频总个数之比与所述N个定制关键字类所对应的关键字重合度之比相一致。
相应地,本发明实施例还提供了一种视频推荐装置,包括:
第一聚类模块,用于对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,所述N为大于1的正整数;其中,所述第一历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;
第二聚类模块,用于根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,并针对每一定制关键字类,根据所述第二历史视频数据集中的归属于所述定制关键字类的各视频描述关键字集合,计算所述定制关键字类所对应的关键字重合度;其中,所述第二历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;且,针对每一定制关键字类,所述定制关键字类所对应的关键字重合度是指,第二历史视频数据集中的归属于所述定制关键字类的所有视频描述关键字集合中的重合度最高的元素的数量;
视频分类模块,用于根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,形成与所述设定用户相对应的视频推荐列表,并推荐给所述设定用户;其中,所述视频推荐列表中的各定制关键字类中的视频总个数之比与所述N个定制关键字类所对应的关键字重合度之比相一致。
本发明有益效果如下:
本发明实施例提供了一种视频推荐方法及装置,可基于描述视频内容的视频描述关键字进行视频推荐,从而相较于现有技术中所述的基于固定视频类别为用户进行视频推荐来说,可达到更好地描述视频特征与更细致地扑捉用户兴趣的效果,进而提高视频推荐的准确性、提高用户的应用体验。另外,在本发明实施例所述技术方案中,由于在进行初始聚类以及定制聚类时,是基于设定时间段内的与设定用户相关的历史视频数据集中的各视频描述关键字集合进行的,即可使用启发式方法对聚类初始值与分类初始值进行初始化,因而可大大降低聚类分类过程中初始值对结果产生的巨大影响,从而进一步提高视频推荐的准确性。再有,在本发明实施例所述技术方案中,由于在聚类分类过程中,不仅考虑视频描述关键字的出现与否,还考虑用户对相应视频描述关键字的关注度,并以视频描述关键字与用户关注度作为启发式分类初始值,从而使得随着时间的推移,推荐结果不仅会根据视频描述关键字的出现与否而变化,还会根据用户对相应视频描述关键字的关注度而变化,使得推荐结果更能动态适应用户对相应视频描述关键字的关注度需求,进一步提高视频推荐的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明实施例一中所述视频推荐方法的流程示意图;
图2所示为本发明实施例二中所述视频推荐装置的结构示意图。
具体实施方式
本发明实施例提供了一种视频推荐方法及装置,所述视频推荐方法具体可包括初始聚类、定制聚类以及视频分类等三个步骤。且,在进行相应的聚类以及分类时,可基于描述视频内容的视频描述关键字进行,即,可基于描述视频内容的视频描述关键字进行视频推荐,从而相较于现有技术中所述的基于固定视频类别为用户进行视频推荐来说,可达到更好地描述视频特征与更细致地扑捉用户兴趣的效果,进而提高视频推荐的准确性、提高用户的应用体验。
另外,在本发明实施例所述技术方案中,由于在进行初始聚类以及定制聚类时,是基于设定时间段内的与设定用户相关的历史视频数据集中的各视频描述关键字集合进行的,即可使用启发式方法对聚类初始值与分类初始值进行初始化,因而可大大降低聚类分类过程中初始值对结果产生的巨大影响,从而进一步提高视频推荐的准确性。再有,在本发明实施例所述技术方案中,由于在聚类分类过程中,不仅考虑视频描述关键字的出现与否,还考虑用户对相应视频描述关键字的关注度,并以视频描述关键字与用户关注度作为启发式分类初始值,从而使得随着时间的推移,推荐结果不仅会根据视频描述关键字的出现与否而变化,还会根据用户对相应视频描述关键字的关注度而变化,使得推荐结果更能动态适应用户对相应视频描述关键字的关注度需求,进一步提高视频推荐的准确性。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一:
本发明实施例一提供了一种视频推荐方法,如图1所示,其为本发明实施例一中所述视频推荐方法的流程示意图,所述视频推荐方法可包括以下步骤:
步骤101:对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,所述N为大于1的正整数;其中,所述第一历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合。
可选地,所述第一设定时间段通常可为距离当前时间较近、且对应的时长较短的一个时间段,如近七天、近两周等。即,在本发明所述实施例中,可先利用启发式聚类算法根据用户近期的视频操作记录生成规定数目的初始关键字类,从而相对于随机选取初始关键字类的方式而言,可大大减少初始值的选取对聚类结果的影响,提高视频推荐的准确性。另外,选取用户近期的视频操作记录作为初始聚类数据源,还可较大程度地抓住用户的现时兴趣,以进一步提高视频推荐的准确性。
需要说明的是,用户的视频操作记录至少可包括视频观看记录和/或视频收藏记录等。另外,所述第一历史视频数据集中的各视频描述关键字集合通常是基于对相应视频的视频内容数据进行预处理所得到的,本发明实施例对此均不作赘述。
进一步地,所述第一历史视频数据集中的每一组与相应视频相关的视频数据除了包括用于描述相应视频的视频内容的视频描述关键字集合之外,通常还可包括用于唯一标识该相应视频的视频标识等信息。另外,所述第一历史视频数据集中除了包括上述信息之外,通常还可包括用于唯一标识所述设定用户的用户标识等信息,本发明实施例对此也均不作赘述。
例如,获取到的所述第一历史视频数据集可表示为:
user_id:{media1:[key11,key12,…],media2:[key21,key22,...],…};
其中,user_id为用户唯一标识,media1、meida2等为相应的视频唯一标识,key11、key12等为相应的视频描述关键字。
再例如,以具体的实例为例,获取到的所述第一历史视频数据集可表示为:
‘001’:{‘00046789’:[‘周星驰’,‘最新上线’,‘喜剧’,‘2013’,‘穿越’],‘00046790’:[‘周星驰’,‘经典’,‘喜剧’,‘2013’],…};
其中,‘001’即为用户唯一标识,‘00046789’、‘00046790’等即为相应的视频唯一标识,‘周星驰’、‘最新上线’、‘喜剧’、‘2013’、‘穿越’等即为相应的视频描述关键字。
可选地,在获取到第一设定时间段内的与设定用户相关的第一历史视频数据集之后,对获取到的第一设定时间段内的与所述设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,具体可执行为:
将所述第一历史视频数据集中的每一组视频描述关键字集合作为一类,得到K个类;所述K为大于N的正整数;
从所述K个类中,选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类;
计算执行上述合并操作后所得到的各类所对应的视频描述关键字,并在计算完毕后,重新执行上述选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类以及计算执行合并操作后所得到的各类所对应的视频描述关键字的操作,直至将所述K个类合并为N个类为止。
具体地,以将类A与类B合并为类C为例,在计算类C所对应的视频描述关键字时,可将类A、类B所分别对应的视频描述关键字集合的并集中的各视频描述关键字作为合并后的类C所对应的视频描述关键字。
例如,以将[‘周星驰’,‘最新上线’,‘喜剧’,‘2013’,‘穿越’]所对应的类A,以及,[‘周星驰’,‘经典’,‘喜剧’,‘2013’]所对应的类B合并为类C为例,合并后的类C所对应的视频描述关键字集合可表示为[‘周星驰’,‘最新上线’,‘喜剧’,‘2013’,‘穿越’,‘经典’]。
也就是说,在本发明所述实施例中,可采用自底向上的层次聚类方式,对获取到的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类。当然需要说明的是,在本发明所述实施例中,还可采用其他的聚类方式,如自顶向下的层次聚类方式等,对获取到的第一历史视频数据集中的各视频描述关键字集合进行聚类,以得到N个初始关键字类,本发明实施例对此不作任何限定。
进一步地,需要说明的是,在本发明所述实施例中,所得到的N个初始关键字类可表示为:[{cluser1:[key11,key12,…]},{cluser2:[key21,key22,…]},…],其中,cluser1、cluser2等为相应初始关键字类的唯一标识,key11、key12等为相应的视频描述关键字,本发明实施例对此不作赘述。
进一步地,在对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类之前,所述方法还可包括:
确定设定时长到达,或者,确定所述设定用户的视频操作行为的次数超过设定阈值。其中,与前述描述类似,用户的视频操作行为至少可包括用户观看了某个视频和/或用户收藏了某个视频等,本发明实施例对此不作赘述。
也就是说,在本发明所述实施例中,可实时监控并记录设定用户的视频操作行为,当确定用户动作积累达到设定阈值或者达到设定时间阈值时,则为用户运行本发明实施例所述的视频推荐流程。
步骤102:根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,并针对每一定制关键字类,根据所述第二历史视频数据集中的归属于所述定制关键字类的各视频描述关键字集合,计算所述定制关键字类所对应的关键字重合度;其中,所述第二历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;且,针对每一定制关键字类,所述定制关键字类所对应的关键字重合度是指,第二历史视频数据集中的归属于所述定制关键字类的所有视频描述关键字集合中的重合度最高的元素的数量。
可选地,所述第二设定时间段通常可为距离当前时间较远、且对应的时长较长的一个时间段,如近一个月、或近三个月等。即,在本发明所述实施例中,所述第一设定时间段的起始时间点通常可迟于所述第二设定时间段的起始时间点,且所述第一设定时间段所占用的时长通常可小于所述第二设定时间段所占用的时长。
另外需要说明的是,与第一历史视频数据集相类似,所述第二历史视频数据集中的各视频描述关键字集合通常也可以是基于对相应视频的视频内容数据进行预处理所得到的;且,所述第二历史视频数据集中的每一组与相应视频相关的视频数据除了包括用于描述相应视频的视频内容的视频描述关键字集合之外,通常还可包括用于唯一标识该相应视频的视频标识等信息;另外,所述第二历史视频数据集中除了包括上述信息之外,通常还可包括用于唯一标识所述设定用户的用户标识等信息,本发明实施例对此也均不作赘述。
进一步地,在获取到第二设定时间段内的与设定用户相关的第二历史视频数据集之后,根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,可具体执行为:
针对所述第二历史视频数据集中的任一组视频描述关键字集合,执行以下操作:
通过以下公式,计算所述任一组视频描述关键字集合应属于的类(即,计算所述任一组视频描述关键字集合与所述N个初始关键字类中距离最近的类):
其中,Ni'为所述N个初始关键字类中的第i个类所对应的视频描述关键字集合,所述i为不大于N的正整数,I'为所述任一组视频描述关键字集合,clusterNi为所述任一组视频描述关键字集合应属于的类;
将所述任一组视频描述关键字集合合并至其应属于的类中,并通过以下公式,重新计算所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
clusterNi':=Ni'∪I';其中,clusterNi'为所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
确定所述第二历史视频数据集中是否仍存在尚未执行上述操作的视频描述关键字集合,若是,则针对尚未执行上述操作的各视频描述关键字集合,执行上述操作;否则,将最终所得到的N个类作为所述N个定制关键字类。
需要说明的是,针对所述第二历史视频数据集中的任一组视频描述关键字集合,除了可采用上述公式计算所述任一组视频描述关键字集合应属于的类,还可以采用其他公式,如(该公式中的各符号的含义与前一公式相同)等,本发明实施例对此不作任何限定。
进一步地,针对所述N个定制关键字类中的第i个定制关键字类Ni,可通过以下公式计算所述第i个定制关键字类Ni所对应的关键字重合度(即关键字关注度):
coincide(clusterNi)=max value of(Counter(k1+k2+...+kk));
其中,clusterNi为所述第i个定制关键字类Ni,k1、k2…kk为第二历史视频数据集中的归属于所述第i个定制关键字类Ni的各视频描述关键字集合,Counter为计算集合中所有重复元素的数量的函数,所述i为不大于N的正整数。
进一步地,需要说明的是,在本发明所述实施例中,所得到的N个定制关键字类可表示为:[{cluster1:[key11,key12,…],coincide1:num1},{cluster2:[key21,key22,…],coincide2:num2},…],其中,cluster1、cluster2等为相应初始关键字类的唯一标识,key11、key12等为相应的视频描述关键字,coincide1、coincide2等为相应的关键字重合度,本发明实施例对此不作赘述。
步骤103:根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,形成与所述设定用户相对应的视频推荐列表,并推荐给所述设定用户;其中,所述视频推荐列表中的各定制关键字类中的视频总个数之比与所述N个定制关键字类所对应的关键字重合度之比相一致。
具体地,所述视频源具体可表示为:{media1:[key11,key12,…],media2:[key21,key22,...],…};其中,media1、meida2等为相应的视频唯一标识,key11、key12等为相应的视频描述关键字,本发明实施例对此不作赘述。
可选地,根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,具体可执行为:
针对视频源中的任一视频V,若确定所述视频V满足以下条件,则将所述视频V划分至定制关键字类Ni中:
clusterNi:=max(V'∩Ni');且,
其中,V'为视频V对应的视频描述关键字集合,Ni'为所述N个定制关键字类中的第i个定制关键字类所对应的视频描述关键字集合,所述i为不大于N的正整数,所述L为大于1的正整数。
可选地,所述L可取值为2、3等,即在本发明所述实施例中,若某视频的视频标签(即对应的视频描述关键字集合)与已有分类的共有部分小于该视频的视频标签长度的一半或三分之一时,则可将其丢弃,即认为用户不喜欢此视频,以达到过滤掉一些视频标签与已有分类重合度非常小的视频的效果。
进一步地,需要说明的是,在本发明所述实施例中,所得到的视频推荐列表具体可表示为:
{user_id:[{keys1:[media11,media12,…]},{keys2:[media21,media22,…]},…]};其中,user_id为用户唯一标识,keys1、keys2等为相应定制关键字类所对应的视频描述关键字集合,media11、meida12等为相应的视频唯一标识。
另外,需要说明的是,所述视频推荐列表中的各定制关键字类中的视频总个数之比与所述N个定制关键字类所对应的关键字重合度之比相一致是指:针对视频推荐列表中的各定制关键字类,如类A、类B以及类C,若类A、类B以及类C对应的关键字重合度分别为3、4、5,则最终所得到的视频推荐列表中的类A中的视频总个数、类B中的视频总个数以及类C中的视频总个数之比为3:4:5,本发明实施例对此不再赘述。
再有,需要说明的是,在本发明所述实施例中,对应的关键字重合度越高的类,在最终所得到的视频推荐列表中的排序可越靠前,本发明实施例对此不作赘述。
进一步地,需要说明的是,在本发明所述实施例中,为了提高视频推荐的效率,可以并行处理多用户的情况,即可通过多条进程并行处理多用户的情况,以更加高效地形成对应用户的视频推荐列表,并推荐给相应用户,本发明实施例对此不作赘述。
本发明实施例提供了一种视频推荐方法,所述视频推荐方法具体可包括初始聚类、定制聚类以及视频分类等三个步骤(即,聚类-聚类-再分类)。且,在进行相应的聚类以及分类时,可基于描述视频内容的视频描述关键字进行,即,可基于描述视频内容的视频描述关键字进行视频推荐,从而相较于现有技术中所述的基于固定视频类别为用户进行视频推荐来说,可达到更好地描述视频特征与更细致地扑捉用户兴趣的效果,进而提高视频推荐的准确性、提高用户的应用体验。
另外,在本发明实施例所述技术方案中,由于在进行初始聚类以及定制聚类时,可使用启发式方法对聚类初始值与分类初始值进行初始化,因而可大大降低聚类分类过程中初始值对结果产生的巨大影响,从而进一步提高视频推荐的准确性。再有,在本发明实施例所述技术方案中,由于在聚类分类过程中,不仅考虑视频描述关键字的出现与否,还考虑用户对相应视频描述关键字的关注度,并以视频描述关键字与用户关注度作为启发式分类初始值,从而使得随着时间的推移,推荐结果不仅会根据视频描述关键字的出现与否而变化,还会根据用户对相应视频描述关键字的关注度而变化,使得推荐结果更能动态适应用户对相应视频描述关键字的关注度需求,进一步提高视频推荐的准确性。
实施例二:
基于同一发明构思,本申请实施例二提供了一种视频推荐装置,该视频推荐装置的具体实施可参见上述方法实施例一中的相关描述,重复之处不再赘述,如图2所示,该视频推荐装置主要可包括:
第一聚类模块21可用于对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,所述N为大于1的正整数;其中,所述第一历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;
第二聚类模块22可用于根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,并针对每一定制关键字类,根据所述第二历史视频数据集中的归属于所述定制关键字类的各视频描述关键字集合,计算所述定制关键字类所对应的关键字重合度;其中,所述第二历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;且,针对每一定制关键字类,所述定制关键字类所对应的关键字重合度是指,第二历史视频数据集中的归属于所述定制关键字类的所有视频描述关键字集合中的重合度最高的元素的数量;
视频分类模块23可用于根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,形成与所述设定用户相对应的视频推荐列表,并推荐给所述设定用户;其中,所述视频推荐列表中的各定制关键字类中的视频总个数之比与所述N个定制关键字类所对应的关键字重合度之比相一致。
其中,所述第一设定时间段的起始时间点迟于所述第二设定时间段的起始时间点;且所述第一设定时间段所占用的时长小于所述第二设定时间段所占用的时长。
可选地,所述装置还可包括:
条件确定模块24可用于在第一聚类模块21对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类之前,确定设定时长到达,或者,确定所述设定用户的视频操作行为的次数超过设定阈值。
具体地,所述第一聚类模块21具体可用于将所述第一历史视频数据集中的每一组视频描述关键字集合作为一类,得到K个类;所述K为大于N的正整数;
从所述K个类中,选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类;
计算执行上述合并操作后所得到的各类所对应的视频描述关键字,并在计算完毕后,重新执行上述选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类以及计算执行合并操作后所得到的各类所对应的视频描述关键字的操作,直至将所述K个类合并为N个类为止。
进一步地,所述第二聚类模块22具体可用于针对所述第二历史视频数据集中的任一组视频描述关键字集合,执行以下操作:
通过以下公式,计算所述任一组视频描述关键字集合应属于的类:
其中,Ni'为所述N个初始关键字类中的第i个类所对应的视频描述关键字集合,所述i为不大于N的正整数,I'为所述任一组视频描述关键字集合,clusterNi为所述任一组视频描述关键字集合应属于的类;
将所述任一组视频描述关键字集合合并至其应属于的类中,并通过以下公式,重新计算所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
clusterNi':=Ni'∪I';其中,clusterNi'为所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
确定所述第二历史视频数据集中是否仍存在尚未执行上述操作的视频描述关键字集合,若是,则针对尚未执行上述操作的各视频描述关键字集合,执行上述操作;否则,将最终所得到的N个类作为所述N个定制关键字类。
进一步地,所述第二聚类模块22具体可用于针对所述N个定制关键字类中的第i个定制关键字类Ni,通过以下公式计算得到所述第i个定制关键字类Ni所对应的关键字重合度:
coincide(clusterNi)=max value of(Counter(k1+k2+...+kk));
其中,clusterNi为所述第i个定制关键字类Ni,k1、k2…kk为第二历史视频数据集中的归属于所述第i个定制关键字类Ni的各视频描述关键字集合,Counter为计算集合中所有重复元素的数量的函数,所述i为不大于N的正整数。
进一步地,所述视频分类模块23具体可用于针对视频源中的任一视频V,若确定所述视频V满足以下条件,则将所述视频V划分至定制关键字类Ni中:
clusterNi:=max(V'∩Ni');且,
其中,V'为视频V对应的视频描述关键字集合,Ni'为所述N个定制关键字类中的第i个定制关键字类所对应的视频描述关键字集合,所述i为不大于N的正整数,所述L为大于1的正整数。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种视频推荐方法,其特征在于,包括:
对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,所述N为大于1的正整数;其中,所述第一历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;其中所述每组视频数据至少对应一个视频;
根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,并针对每一定制关键字类,根据所述第二历史视频数据集中的归属于所述定制关键字类的各视频描述关键字集合,计算所述定制关键字类所对应的关键字重合度;其中,所述第二历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;且,针对每一定制关键字类,所述定制关键字类所对应的关键字重合度是指,第二历史视频数据集中的归属于所述定制关键字类的所有视频描述关键字集合中的重合度最高的元素的数量;
根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,形成与所述设定用户相对应的视频推荐列表,并推荐给所述设定用户;其中,所述视频推荐列表中的各定制关键字类中的视频总个数之比与所述N个定制关键字类所对应的关键字重合度之比相一致;
其中,所述第一设定时间段的起始时间点迟于所述第二设定时间段的起始时间点;且所述第一设定时间段所占用的时长小于所述第二设定时间段所占用的时长。
2.如权利要求1所述的方法,其特征在于,在对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类之前,所述方法还包括:
确定设定时长到达,或者,确定所述设定用户的视频操作行为的次数超过设定阈值。
3.如权利要求1~2任一所述的方法,其特征在于,对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,包括:
将所述第一历史视频数据集中的每一组视频描述关键字集合作为一类,得到K个类;所述K为大于N的正整数;
从所述K个类中,选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类;
计算执行上述合并操作后所得到的各类所对应的视频描述关键字,并在计算完毕后,重新执行上述选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类以及计算执行合并操作后所得到的各类所对应的视频描述关键字的操作,直至将所述K个类合并为N个类为止。
4.如权利要求1~2任一所述的方法,其特征在于,根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,包括:
针对所述第二历史视频数据集中的任一组视频描述关键字集合,执行以下操作:
通过以下公式,计算所述任一组视频描述关键字集合应属于的类:
其中,Ni'为所述N个初始关键字类中的第i个类所对应的视频描述关键字集合,所述i为不大于N的正整数,I'为所述任一组视频描述关键字集合,clusterNi为所述任一组视频描述关键字集合应属于的类;
将所述任一组视频描述关键字集合合并至其应属于的类中,并通过以下公式,重新计算所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
clusterNi':=Ni'∪I';其中,clusterNi'为所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
确定所述第二历史视频数据集中是否仍存在尚未执行上述操作的视频描述关键字集合,若是,则针对尚未执行上述操作的各视频描述关键字集合,执行上述操作;否则,将最终所得到的N个类作为所述N个定制关键字类。
5.如权利要求1~2任一所述的方法,其特征在于,针对所述N个定制关键字类中的第i个定制关键字类Ni,所述第i个定制关键字类Ni所对应的关键字重合度是通过以下公式计算得到的:
coincide(clusterNi)=max value of(Counter(k1+k2+...+kk));
其中,clusterNi为所述第i个定制关键字类Ni,k1、k2...kk为第二历史视频数据集中的归属于所述第i个定制关键字类Ni的各视频描述关键字集合,Counter为计算集合中所有重复元素的数量的函数,所述i为不大于N的正整数。
6.如权利要求1~2任一所述的方法,其特征在于,根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,包括:
针对视频源中的任一视频V,若确定所述视频V满足以下条件,则将所述视频V划分至定制关键字类Ni中:
clusterNi:=max(V'∩Ni');且,
其中,clusterNi为所述第i个定制关键字类Ni,V'为视频V对应的视频描述关键字集合,Ni'为所述N个定制关键字类中的第i个定制关键字类所对应的视频描述关键字集合,所述i为不大于N的正整数,所述L为大于1的正整数。
7.一种视频推荐装置,其特征在于,包括:
第一聚类模块,用于对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类,得到N个初始关键字类,所述N为大于1的正整数;其中,所述第一历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;其中所述每组视频数据至少对应一个视频;
第二聚类模块,用于根据所述N个初始关键字类,对获取到的第二设定时间段内的与所述设定用户相关的第二历史视频数据集中的各视频描述关键字集合进行聚类,得到N个定制关键字类,并针对每一定制关键字类,根据所述第二历史视频数据集中的归属于所述定制关键字类的各视频描述关键字集合,计算所述定制关键字类所对应的关键字重合度;其中,所述第二历史视频数据集中包括多组与相应视频相关的视频数据,每组视频数据包括用于描述相应视频的视频内容的视频描述关键字集合;且,针对每一定制关键字类,所述定制关键字类所对应的关键字重合度是指,第二历史视频数据集中的归属于所述定制关键字类的所有视频描述关键字集合中的重合度最高的元素的数量;
视频分类模块,用于根据所述N个定制关键字类,将视频源中的各视频划分至所述N个定制关键字类中,形成与所述设定用户相对应的视频推荐列表,并推荐给所述设定用户;其中,所述视频推荐列表中的各定制关键字类中的视频总个数之比与所述N个定制关键字类所对应的关键字重合度之比相一致;
其中,所述第一设定时间段的起始时间点迟于所述第二设定时间段的起始时间点;且所述第一设定时间段所占用的时长小于所述第二设定时间段所占用的时长。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
条件确定模块,用于在第一聚类模块对获取到的第一设定时间段内的与设定用户相关的第一历史视频数据集中的各视频描述关键字集合进行聚类之前,确定设定时长到达,或者,确定所述设定用户的视频操作行为的次数超过设定阈值。
9.如权利要求7~8任一所述的装置,其特征在于,
所述第一聚类模块,具体用于将所述第一历史视频数据集中的每一组视频描述关键字集合作为一类,得到K个类;所述K为大于N的正整数;
从所述K个类中,选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类;
计算执行上述合并操作后所得到的各类所对应的视频描述关键字,并在计算完毕后,重新执行上述选取所共有的视频描述关键字最多的两个类,并将所述两个类合并为一类以及计算执行合并操作后所得到的各类所对应的视频描述关键字的操作,直至将所述K个类合并为N个类为止。
10.如权利要求7~8任一所述的装置,其特征在于,
所述第二聚类模块,具体用于针对所述第二历史视频数据集中的任一组视频描述关键字集合,执行以下操作:
通过以下公式,计算所述任一组视频描述关键字集合应属于的类:
其中,Ni'为所述N个初始关键字类中的第i个类所对应的视频描述关键字集合,所述i为不大于N的正整数,I'为所述任一组视频描述关键字集合,clusterNi为所述任一组视频描述关键字集合应属于的类;
将所述任一组视频描述关键字集合合并至其应属于的类中,并通过以下公式,重新计算所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
clusterNi':=Ni'∪I';其中,clusterNi'为所述任一组视频描述关键字集合应属于的类所对应的视频描述关键字集合;
确定所述第二历史视频数据集中是否仍存在尚未执行上述操作的视频描述关键字集合,若是,则针对尚未执行上述操作的各视频描述关键字集合,执行上述操作;否则,将最终所得到的N个类作为所述N个定制关键字类。
11.如权利要求7~8任一所述的装置,其特征在于,
所述第二聚类模块,具体用于针对所述N个定制关键字类中的第i个定制关键字类Ni,通过以下公式计算得到所述第i个定制关键字类Ni所对应的关键字重合度:
coincide(clusterNi)=max value of(Counter(k1+k2+...+kk));
其中,clusterNi为所述第i个定制关键字类Ni,k1、k2...kk为第二历史视频数据集中的归属于所述第i个定制关键字类Ni的各视频描述关键字集合,Counter为计算集合中所有重复元素的数量的函数,所述i为不大于N的正整数。
12.如权利要求7~8任一所述的装置,其特征在于,
所述视频分类模块,具体用于针对视频源中的任一视频V,若确定所述视频V满足以下条件,则将所述视频V划分至定制关键字类Ni中:
clusterNi:=max(V'∩Ni');且,
其中,clusterNi为所述第i个定制关键字类Ni,V'为视频V对应的视频描述关键字集合,Ni'为所述N个定制关键字类中的第i个定制关键字类所对应的视频描述关键字集合,所述i为不大于N的正整数,所述L为大于1的正整数。
CN201510228328.3A 2015-05-07 2015-05-07 一种视频推荐方法及装置 Active CN104853248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510228328.3A CN104853248B (zh) 2015-05-07 2015-05-07 一种视频推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510228328.3A CN104853248B (zh) 2015-05-07 2015-05-07 一种视频推荐方法及装置

Publications (2)

Publication Number Publication Date
CN104853248A CN104853248A (zh) 2015-08-19
CN104853248B true CN104853248B (zh) 2017-09-22

Family

ID=53852542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510228328.3A Active CN104853248B (zh) 2015-05-07 2015-05-07 一种视频推荐方法及装置

Country Status (1)

Country Link
CN (1) CN104853248B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095516B (zh) * 2015-09-16 2019-02-15 中国传媒大学 基于谱聚类集成的广播电视用户分群系统及方法
CN105550207B (zh) * 2015-12-02 2021-02-09 阿里巴巴(中国)有限公司 一种信息推广方法及装置
CN105631033B (zh) * 2015-12-31 2020-06-19 北京奇艺世纪科技有限公司 一种视频数据的挖掘方法和装置
CN107229622B (zh) * 2016-03-23 2021-02-05 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN106202475B (zh) * 2016-07-18 2020-04-21 优酷网络技术(北京)有限公司 一种视频推荐列表的推送方法及装置
CN106484773B (zh) * 2016-09-12 2020-02-14 传线网络科技(上海)有限公司 确定多媒体资源的关键词的权重的方法及装置
CN112632147B (zh) * 2020-12-11 2023-10-24 邦彦技术股份有限公司 数据差异化比较方法、系统和存储介质
CN113099267B (zh) * 2021-06-04 2021-11-12 武汉卓尔数字传媒科技有限公司 视频生成方法、装置、电子设备及存储介质
CN116521936B (zh) * 2023-06-30 2023-09-01 云南师范大学 一种基于用户行为分析的课程推荐方法、装置及存储介质
CN117440182B (zh) * 2023-10-25 2024-06-07 北京华星酷娱文化传媒有限公司 一种基于视频内容分析和用户标签的智能推荐方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289478A (zh) * 2011-08-01 2011-12-21 江苏广播电视大学 基于模糊聚类的视频点播推荐系统及方法
CN102946566A (zh) * 2012-10-24 2013-02-27 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN104469508A (zh) * 2013-09-13 2015-03-25 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2568396A1 (en) * 2011-09-08 2013-03-13 Axel Springer Digital TV Guide GmbH Method and apparatus for generating a sorted list of items

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289478A (zh) * 2011-08-01 2011-12-21 江苏广播电视大学 基于模糊聚类的视频点播推荐系统及方法
CN102946566A (zh) * 2012-10-24 2013-02-27 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN104469508A (zh) * 2013-09-13 2015-03-25 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统

Also Published As

Publication number Publication date
CN104853248A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN104853248B (zh) 一种视频推荐方法及装置
CN106126669B (zh) 基于标签的用户协同过滤内容推荐方法及装置
US10693981B2 (en) Provisioning personalized content recommendations
AU2016247184B2 (en) Attribute weighting for media content-based recommendation
JP6756158B2 (ja) 学習教材からの知識点及び関係の抽出
CN105095508B (zh) 一种多媒体内容推荐方法和多媒体内容推荐装置
Anastasia et al. Twitter sentiment analysis of online transportation service providers
CN108287864A (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN108228758B (zh) 一种文本分类方法及装置
CN104102819B (zh) 一种用户自然属性的确定方法和装置
US11176586B2 (en) Data analysis method and system thereof
CN112800097A (zh) 基于深度兴趣网络的专题推荐方法及装置
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
EP2973023A1 (en) Scoring concept terms using a deep network
CN110263272A (zh) 用于呈现与主题相关的内容项目的系统和方法
US20210192552A1 (en) Clothing design attribute identification for geographical regions
US20150248424A1 (en) Sorting and displaying documents according to sentiment level in an online community
US9146989B2 (en) Analytic comparison of libraries and playlists
CN109903127A (zh) 一种群组推荐方法、装置、存储介质及服务器
US11106710B2 (en) Displaying answers in accordance with answer classifications
CN111932342B (zh) 基于Apriori算法的用户冷启动产品推荐方法及系统
CN105824961B (zh) 一种标签确定方法及装置
DE112016000851B4 (de) Algorithmisches Identifizieren von kindgerechten Inhalten ohne menschliches Zutun
CN112948575A (zh) 文本数据处理方法、装置和计算机可读存储介质
CN104866490B (zh) 一种视频智能推荐方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant