CN106980666B - 一种推荐视频的方法和装置 - Google Patents

一种推荐视频的方法和装置 Download PDF

Info

Publication number
CN106980666B
CN106980666B CN201710172871.5A CN201710172871A CN106980666B CN 106980666 B CN106980666 B CN 106980666B CN 201710172871 A CN201710172871 A CN 201710172871A CN 106980666 B CN106980666 B CN 106980666B
Authority
CN
China
Prior art keywords
video
videos
similarity
user
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710172871.5A
Other languages
English (en)
Other versions
CN106980666A (zh
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Uc Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Uc Network Technology Co ltd filed Critical Guangzhou Uc Network Technology Co ltd
Priority to CN201710172871.5A priority Critical patent/CN106980666B/zh
Publication of CN106980666A publication Critical patent/CN106980666A/zh
Application granted granted Critical
Publication of CN106980666B publication Critical patent/CN106980666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种推荐视频的方法和装置。所述方法包括:确定视频库里的两两视频所具有的标签集之间的相似性;基于所述相似性来确定用户对视频库里的视频的兴趣度;基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。

Description

一种推荐视频的方法和装置
技术领域
本发明涉及信息处理技术领域,具体而言涉及一种推荐视频的方法和装置。
背景技术
随着互联网的发展、以及3G和4G移动通信网络的推广和智能终端的普及,大量的应用也应运而生。互联网提供的资讯也越来越丰富,传统的文字配图片的网页资讯已经不能满足用户的需求,新发展起来的业务场景资讯是“短视频”资讯,例如秒拍APP、美拍APP、微视APP等流行的第三方应用可以为用户提供“短视频”的上传和观看等功能。“短视频”资讯主要是给用户展示时长较短且优质的视频内容给用户观看。但是,视频的流量大于文字的流量,在3G和4G的无线网络观看大量的短视频会让用户消耗过多的流量,给用户带来过高的通讯消费。
另外,用户也越来越喜欢随手拍摄身边发生的一些事,然后上传网上进行分享,还有业余爱好者拍摄并在网上分享的微电影等等,这些目前可以在以提供视频为主要服务的网站上可以大量浏览,例如优酷网等等。但是,用户想从海量的视频资料库里找到感兴趣的视频,还是需要花费不少时间。
因此有必要在向用户展示“短视频”资讯时,向用户推荐其感兴趣的“短视频”资讯;或者在用户登录例如优酷网等浏览其他用户上传的自拍视频时,例如优酷网上提供的拍客栏目,向用户推荐其感兴趣的视频内容。但是不同用户的偏好是不同的,针对动辄几十万、上百万的用户群体,实现个性化推荐视频内容或“短视频”资讯,即针对不同用户向其推荐其感兴趣的不同视频或“短视频”资讯是一个技术难题。
发明内容
本发明的目的在于提供一种推荐视频的方法和装置,以改善上述问题。
本发明第一实施例提供了一种推荐视频的方法,其包括:
确定视频库里的两两视频的标题之间的第一相似性;
基于所述第一相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
本发明第二实施例提供了一种推荐视频的方法,其包括:
确定视频库里的两两视频之间的第二相似性;
基于所述第二相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
本发明第三实施例提供了一种推荐视频的方法,其包括:
确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
基于所述第三相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
本发明第四实施例提供了一种推荐视频的方法,其包括:
确定视频库里的两两视频的标题之间的第一相似性;
确定视频库里的两两视频之间的第二相似性;
确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
本发明第五实施例还提供了一种推荐视频的装置,其包括:
相似性确定单元,可以用于确定视频库里的两两视频的标题之间的相似性;或者还可以用于确定视频库里的两两视频之间的相似性;或者还可以用于确定视频库里的两两视频各自所具有的标签集之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
本发明第六实施例还提供了一种推荐视频的装置,其包括:
相似性确定单元,用于确定视频库里的两两视频的标题之间的相似性,或者是确定视频库里的两两视频之间的相似性,或者是确定视频库里的两两视频各自所具有的标签集之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐。
本发明第七实施例还提供了一种推荐视频的装置,其包括:
第一相似性确定单元,用于确定视频库里的两两视频的标题之间的第一相似性;
第二相似性确定单元,用于确定视频库里的两两视频之间的第二相似性;
第三相似性确定单元,用于确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
综合相似性确定单元,用于基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
兴趣度确定单元,用于基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
本发明第八实施例还提供了一种推荐视频的装置,包括:
第一相似性确定单元,用于确定视频库里的两两视频的标题之间的第一相似性;
第二相似性确定单元,用于确定视频库里的两两视频之间的第二相似性;
第三相似性确定单元,用于确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
综合相似性确定单元,用于基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
兴趣度确定单元,用于基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐。
根据本发明的一种推荐视频的方法和装置,通过获取不同视频之间的相似性,据此计算用户对视频的兴趣度,实现了根据不同用户的偏好给用户推荐不同的视频或短视频,从而针对不同用户实现个性化推荐的目的。
附图说明
图1是本发明第一实施例提供的推荐视频的方法的流程图;
图2是具有标题的短视频的一个例子的截图;
图3是本发明第二实施例提供的推荐视频的方法的流程图;
图4是本发明第三实施例提供的推荐视频的方法的流程图;
图5是本发明第四实施例提供的推荐视频的方法的流程图;
图6是本发明第五实施例提供的推荐视频的装置的示意性框图;
图7是本发明第六实施例提供的推荐视频的装置的示意性框图;
图8是本发明第七实施例提供的推荐视频的装置的示意性框图。
图9是本发明第八实施例提供的推荐视频的装置的示意性框图。
具体实施方式
下面将结合本发明实施例和附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所涉及的视频为不限于某一具体时长的视频,可以为任意可播放时长的视频。目前流行的视频资讯的播放时间一般为十几秒-几分钟,但随着用户的需求不断提升,也有部分用户在呼吁制作长于10分钟的视频资讯,因此在一些例如体育节目的视频栏里提供的视频的播放时间可以长达十几分钟、甚至多达二十多分钟,例如优酷网上提供的各种类型的视频,因此服务方为满足众多用户需要而推出的各种播放时间长度的视频都适用于本发明。但是电影视频、电视剧视频、或者完整的电视节目(例如春节晚会、综艺节目等)等一般都有节目名称,如电影名称、电视剧名称、电视节目名称,而除了有特定名称的视频之外的没有节目名称的视频常常会带有标题,以便让用户快速了解短视频的大致内容,为了描述方便,本发明将带有标题的播放时间在几秒到十几分钟(甚至二十多分钟)的视频片段统一称为短视频,以便与具有节目名称的电影或电视视频等相区分。下面以短视频为例来描述本发明的推荐视频的方法和装置的具体实施例,但本领域技术人员都知道,对部分技术细节稍作变形就能够将本发明提供的方法应用于具有节目名称的电影或电视等视频。
图1是本发明第一实施例提供的推荐视频的方法的流程图。如图1所示,本发明的推荐视频的方法包括以下步骤:
S101:确定视频库里的两两视频的标题之间的第一相似性。
这里所述的视频库以及视频库里保存的视频可以为任意播放时长的视频。一般来说,提供视频服务的第三方应用都会在服务端建立视频库,里面存放各种播放时长的视频,包括用户上传的视频,有几十秒时长的视频,也有几分钟时长的视频,还有20多分钟时长的视频,例如参见优酷网上提供的各种类型的视频。为了能让用户快速了解短视频的大致内容,也为了吸引用户的兴趣,提供短视频服务的服务商都会给加入到视频库的每个短视频编辑一个标题,如图2所示。当然,这些标题也可以由短视频的提供者自己编辑并与短视频一起传送给服务商,而不是必须由服务商来编辑。下面使用了术语视频库或短视频库,正如上面所述,所谓短视频是相对而言,对于实现本发明的技术方案没有限制,尽管有些地方使用短视频或短视频库术语,但优选使用通用术语视频或视频库。本发明的技术方案之一采用确定视频库里的两两视频的标题之间的第一相似性的方法,确定所述第一相似性的具体方法如下:
A)对视频库里的每个视频的标题进行分词处理,得到一个分词集合;
使用任意已知的分词方法对视频库或短视频库里的每个视频的标题进行分词处理,例如:图2所示的一个视频的标题为“宝贝与螃蟹盖的较量,吃到螃蟹肉的那一刻激动了”,得到的分词为:“宝贝”、“螃蟹盖”、“较量”、“吃”、“螃蟹肉”、“那一刻”、“激动”。将视频库里的所有视频的标题经过分词处理后得到的分词集合记为L。
B)确定所述分词集合里不同分词的逆向文件频率:
Figure BDA0001251581870000061
其中:L表示分词集合;
l表示分词集合L中的任意一个分词;
idfl表示分词集合L中的分词l的逆向文件频率;
di表示视频库或短视频库里的视频i的标题的分词集合;
|V|表示视频库或短视频库里的视频总数量;
|{i:l∈di}|表示包含分词l的视频数量;
C)确定视频库或短视频库里的每个视频的标题的词频:
Figure BDA0001251581870000071
其中,l表示分词集合L中的任意一个分词;
di表示视频库或短视频库里的视频i的标题的分词集合;
tfi,l表示视频i的标题的分词l的词频;
ni,l表示分词l在视频i的标题中出现的次数;
Figure BDA0001251581870000079
表示视频i的标题中所有分词的出现次数之和;
D)生成视频库或短视频库里的不同视频的标题的分词的特征向量:
对于任意一个视频i,首先计算分词l对于视频i的标题的权重,记为wi,l,计算公式如下:wi,l=tfi,l×idfl
设视频i的分词的特征向量为
Figure BDA0001251581870000072
则该特征向量的稀疏表达式为:
Figure BDA0001251581870000073
同理,对于任意一个视频j,首先计算分词l对于视频j的标题的权重,记为wj,l,计算公式如下:wj,l=tfj,l×idfl
设视频j的分词的特征向量为
Figure BDA0001251581870000074
则该特征向量的稀疏表达式为:
Figure BDA0001251581870000075
E)计算视频库或短视频库里的两两视频中的标题的第一相似性:
Figure BDA0001251581870000076
其中:
s1i,j表示视频库或短视频库里的视频i与视频j的标题之间的第一相似性;
Figure BDA0001251581870000077
是视频库或短视频库里的视频i的分词的特征向量;
Figure BDA0001251581870000078
是视频库或短视频库里的视频j的分词的特征向量。
这里所述的词频和逆向文件频率都是本领域熟知的术语。例如,在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。
S102:基于所述第一相似性来确定用户对视频库里的视频的兴趣度。
基于所述第一相似性来确定用户对视频库里的视频的兴趣度时,例如短视频库里的视频,确定所述兴趣度的方法如下:
Figure BDA0001251581870000081
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s1i,j表示视频库里的视频i与视频j的标题之间的第一相似性。
S103:基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
通过得到的用户对例如短视频库的视频库里的视频的兴趣度,就可以知道用户对哪些视频更感兴趣,这样基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。优选的,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐。所述一定数量可以根据实际应用场景来任意选定具体数量,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。这样,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
除了采用上述优选方式来选取推荐视频之外,还可以预先设置一个阈值,从大于或等于该预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。
当视频库里保存的不带标题而有节目名称的电影视频、电视剧视频等时,用节目名称替换标题,即可将上述的本发明方法应用于电影视频、电视剧视频等。
图3是本发明第二实施例提供的推荐视频的方法的流程图。如图3所示,本发明的推荐视频的方法包括以下步骤:
S201:确定视频库里的两两视频之间的第二相似性。
本发明的技术方案之二采用确定例如短视频库的视频库里的两两视频之间的第二相似性的方法,确定所述第二相似性的具体方法如下:
Figure BDA0001251581870000091
其中:
s2i,j表示视频库里的视频i与视频j之间的第二相似性;
Ui表示点击视频库里的两两视频中的视频i的用户集合;
Uj表示点击视频库里的两两视频中的视频j的用户集合。
S202:基于所述第二相似性来确定用户对视频库里的视频的兴趣度。
基于所述第二相似性来确定用户对视频库里的视频的兴趣度时,例如短视频库里的视频,确定所述兴趣度的方法如下:
Figure BDA0001251581870000092
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s2i,j表示视频库里的视频i与视频j之间的第二相似性。
S203:基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
通过得到的用户对例如短视频库的视频库里的视频的兴趣度,就可以知道用户对哪些视频更感兴趣,这样基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。优选的,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐。所述一定数量可以根据实际应用场景来任意选定具体数量,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。这样,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
除了采用上述优选方式来选取推荐视频之外,还可以预先设置一个阈值,从大于或等于该预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。
图4是本发明第三实施例提供的推荐视频的方法的流程图。如图4所示,本发明的推荐视频的方法包括以下步骤:
S301:确定视频库里的两两视频各自所具有的标签集之间的第三相似性。
本领域技术人员都知道,一般都会给视频分类以便让用户快速查找感兴趣的视频。除了采用分类版块的方式之外,还在视频列表的下方给每个视频标上1个或多个标签,标签内容也代表着视频的一种分类方式,可以通过点击标签来查找同类的视频资讯。所以,本发明的技术方案之三可以采用确定视频库里的两两视频各自所具有的标签集之间的第三相似性的方法,确定所述第三相似性的具体方法如下:
Figure BDA0001251581870000101
其中:
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的第三相似性;
Ti表示视频库里的两两视频中的视频i具有的标签集;
Tj表示视频库里的两两视频中的视频j具有的标签集。
S302:基于所述第三相似性来确定用户对视频库里的视频的兴趣度。
基于所述第三相似性来确定用户对视频库里的视频的兴趣度时,例如短视频库里的视频,确定所述兴趣度的方法如下:
Figure BDA0001251581870000111
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的第三相似性。
S303:基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
通过得到的用户对例如短视频库的视频库里的视频的兴趣度,就可以知道用户对哪些视频更感兴趣,这样基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。优选的,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐。所述一定数量可以根据实际应用场景来任意选定具体数量,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。这样,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
除了采用上述优选方式来选取推荐视频之外,还可以预先设置一个阈值,从大于或等于该预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。
图5是本发明第四实施例提供的推荐视频的方法的流程图。如图5所示,本发明的推荐视频的方法包括以下步骤:
S401:确定视频库里的两两视频的标题之间的第一相似性。
这里所述的视频库以及视频库里保存的视频可以为任意播放时长的视频。一般来说,提供视频服务的第三方应用都会在服务端建立视频库,里面存放各种播放时长的视频,包括用户上传的视频,有几十秒时长的视频,也有几分钟时长的视频,还有20多分钟时长的视频,例如参见优酷网上提供的各种类型的视频。为了能让用户快速了解短视频的大致内容,也为了吸引用户的兴趣,提供短视频服务的服务商都会给加入到视频库的每个短视频编辑一个标题,如图2所示。当然,这些标题也可以由短视频的提供者自己编辑并与短视频一起传送给服务商,而不是必须由服务商来编辑。本发明的技术方案之四首先确定视频库里的两两视频的标题之间的第一相似性,确定所述第一相似性的具体方法如下:
A)对视频库里的每个视频的标题进行分词处理,得到一个分词集合;
使用任意已知的分词方法对视频库或短视频库里的每个视频的标题进行分词处理,例如:图2所示的一个视频的标题为“宝贝与螃蟹盖的较量,吃到螃蟹肉的那一刻激动了”,得到的分词为:“宝贝”、“螃蟹盖”、“较量”、“吃”、“螃蟹肉”、“那一刻”、“激动”。将视频库里的所有视频的标题经过分词处理后得到的分词集合记为L。
B)确定所述分词集合里不同分词的逆向文件频率:
Figure BDA0001251581870000121
其中:L表示分词集合;
l表示分词集合L中的任意一个分词;
idfl表示分词集合L中的分词l的逆向文件频率;
di表示视频库或短视频库里的视频i的标题的分词集合;
|V|表示视频库或短视频库里的视频总数量;
|{i:l∈di}|表示包含分词l的视频数量;
C)确定视频库或短视频库里的每个视频的标题的词频:
Figure BDA0001251581870000122
其中,l表示分词集合L中的任意一个分词;
di表示视频库或短视频库里的视频i的标题的分词集合;
tfi,l表示视频i的标题的分词l的词频;
ni,l表示分词l在视频i的标题中出现的次数;
Figure BDA0001251581870000139
表示视频i的标题中所有分词的出现次数之和;
D)生成视频库或短视频库里的不同视频的标题的分词的特征向量:
对于任意一个视频i,首先计算分词l对于视频i的标题的权重,记为wi,l,计算公式如下:wi,l=tfi,l×idfl
设视频i的分词的特征向量为
Figure BDA0001251581870000131
则该特征向量的稀疏表达式为:
Figure BDA0001251581870000132
同理,对于任意一个视频j,首先计算分词l对于视频j的标题的权重,记为wj,l,计算公式如下:wj,l=tfj,l×idfl
设视频j的分词的特征向量为
Figure BDA0001251581870000133
则该特征向量的稀疏表达式为:
Figure BDA0001251581870000134
E)计算视频库或短视频库里的两两视频中的标题的第一相似性:
Figure BDA0001251581870000135
其中:
s1i,j表示视频库里的视频i与视频j的标题之间的第一相似性;
Figure BDA0001251581870000136
是视频库或短视频库里的视频i的分词的特征向量;
Figure BDA0001251581870000137
是视频库或短视频库里的视频j的分词的特征向量。
这里所述的词频和逆向文件频率都是本领域熟知的术语。例如,在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。
S402:确定视频库里的两两视频之间的第二相似性。
本发明的技术方案之四还需要确定例如短视频库里的两两短视频之间的第二相似性,确定所述第二相似性的具体方法如下:
Figure BDA0001251581870000138
其中:
s2i,j表示视频库里的视频i与视频j之间的第二相似性;
Ui表示点击视频库里的两两视频中的视频i的用户集合;
Uj表示点击视频库里的两两视频中的视频j的用户集合。
S403:确定视频库里的两两视频各自所具有的标签集之间的第三相似性。
本领域技术人员都知道,一般都会给视频分类以便让用户快速查找感兴趣的视频。除了采用分类版块的方式之外,还在视频列表的下方给每个视频标上1个或多个标签,标签内容也代表着视频的一种分类方式,可以通过点击标签来查找同类的视频资讯。所以,本发明的技术方案之四还需要确定例如短视频库的视频库里的两两视频各自所具有的标签集之间的第三相似性,确定所述第二相似性的具体方法如下:
Figure BDA0001251581870000141
其中:
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的第三相似性;
Ti表示视频库里的两两视频中的视频i具有的标签集;
Tj表示视频库里的两两视频中的视频j具有的标签集。
S404:基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性。
在得到上述的三个相似性参数后,本发明的技术方案之四需要基于获得的所述三个相似性参数确定例如短视频库的视频库里的两两视频之间的综合相似性,确定所述综合相似性的具体方法如下:
si,j=α·s1i,j+β·s2i,j+γ·s3i,j
其中α、β、γ∈[0,1],且α+β+γ=1;
s1i,j表示所述第一相似性,s2i,j表示所述第二相似性,s3i,j表示所述第三相似性,si,j表示视频库里的视频i与视频j之间的综合相似性。
该公式考虑了关于两两视频的3个方面的相似性作为最后综合相似性的因素,通过α、β、和γ来调节每个因素的权重,以根据实践需要侧重考虑哪1个或2个因素作为最后综合相似性的主要衡量因素。下面通过举例来详细说明。
α+β+γ=1,且α、β、γ∈[0,1],当α=1、β=0和γ=0时,则综合相似性是所述第一相似性,当α=0、β=1和γ=0时,则综合相似性是所述第二相似性,当α=0、β=0和γ=1时,则综合相似性是所述第三相似性;当α=0.5、β=0.5和γ=0(α和β也可以取非0的其它值,且满足α+β=1即可)时,综合相似性是所述第一相似性和所述第二相似性的组合考量,也可以让α=0、β=0.5和γ=0.5(β和γ也可以取非0的其它值,且满足β+γ=1即可),或者α=0.5、β=0和γ=0.5(α和γ也可以取非0的其它值,且满足α+γ=1即可),以此类推,还可以选取其它两两组合,这里不再举例;如果将这3种相似性同时考虑,则α+β+γ=1,且α、β、γ∈(0,1),即α、β和γ均不为0和1,当认为某个相似性作为综合相似性的主要衡量因素时,可以使该相似性的权重值更大,例如α=0.5、β=0.3和γ=0.2,此时认为所述的第一相似性是作为综合相似性的主要衡量因素,所述的第二相似性其次,所述的第三相似性在最后;以此类推,也可以选取不同的α、β、和γ值来列举所述第一相似性、所述第二相似性和所述第三相似性作为综合相似性的主要衡量因素的前后顺序,当然也可以使得所述第一相似性、所述第二相似性和所述第三相似性作为衡量因素同等重要,这里不再举例描述。
S405:基于所述综合相似性来确定用户对视频库里的视频的兴趣度。
在基于所述综合相似性来确定用户对视频库里的视频的兴趣度时,例如短视频库里的视频,确定所述兴趣度的方法如下:
Figure BDA0001251581870000151
其中:|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
si,j表示视频库里的视频i与视频j之间的综合相似性。
S406:基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。
通过得到的用户对例如短视频库的视频库里的视频的兴趣度,就可以知道用户对哪些视频更感兴趣,这样基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。优选的,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐。所述一定数量可以根据实际应用场景来任意选定具体数量,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。这样,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
除了采用上述优选方式来选取推荐视频之外,还可以预先设置一个阈值,从大于或等于该预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频。
本领域技术人员都知道,尽管在本发明的技术方案之四(第四实施例)中以步骤S1-S3的方式讲述了确定第一、第二和第三相似性参数的方法,但这仅仅是一个具体实施例,确定这三个相似性参数的步骤没有先后顺序之分,无论先确定这三个相似性参数中的哪一个相似性参数,还是同时确定这三个相似性参数,都不会影响实现本发明的目的。本发明的技术方案的核心是基于获得的所述三个相似性参数来确定例如短视频库的视频库里的两两视频之间的综合相似性,基于所述综合相似性来确定用户对例如短视频库的视频库里的视频的兴趣度,基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,只要能够获得第一、二和第三相似性参数即可,与得到这三个参数的先后顺序无关。
在上述第一至第四实施例之一所述的方法中,当基于所述兴趣度按预设方式选取一定数量的视频比较多时,例如基于所述兴趣度值从大到小顺序选取一定数量的视频比较多时,或者从大于或等于所述预设阈值的兴趣度所对应的视频中随机选取一定数量的视频比较多时,例如超过50个、100个、300个或者更多时,还可以对这些选取的多个视频做进一步的优选排序,以便向用户首选展示推荐的视频为更符合不同用户的偏好的视频。由此,在下面将要介绍的一个优选实施例中,需要对选取的一定数量的视频进行再排序,以便向用户首选展示推荐的视频为更符合不同用户的偏好的视频。
在该优选实施例中,首先计算4个权重:用户u对视频i的兴趣度权重vi,1、用户u对视频i的点击率权重vi,2、用户u对视频i的点赞率权重vi,3、用户u对视频i的完成率权重vi,4。注意,视频i是来自于上述基于所述兴趣度按预设方式选取的一定数量的视频集合。
1、计算所述用户u对视频i的兴趣度权重vi,1的方法为:
Figure BDA0001251581870000171
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
lu,i表示用户u对视频集合F中的视频i的兴趣度;
avgj∈F(lu,j)表示用户u对视频集合F中的所有视频j的平均兴趣度。
用户u对视频集合F中的任意视频的兴趣度的计算方法在上面已经在多个实施例中做了介绍,这里不再重复,这里直接使用在确定用户对视频库里的视频的兴趣度步骤中得到的兴趣度值。
2、计算所述用户u对视频i的点击率权重vi,2的方法为:
Figure BDA0001251581870000172
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
ctri表示对视频集合F中的视频i的点击率:
Figure BDA0001251581870000173
avgj∈F(ctrj)表示对视频集合F中的所有视频j的平均点击率。
3、计算所述用户u对视频i的点赞率权重vi,3的方法为:
Figure BDA0001251581870000181
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
ltri表示对视频集合F中的视频i的点赞率:
Figure BDA0001251581870000182
avgj∈F(ltrj)表示对视频集合F中的所有视频j的平均点赞率。
4、计算所述用户u对视频i的完成率权重vi,4的方法为:
Figure BDA0001251581870000183
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
ftri表示对视频集合F中的视频i的完成率:
Figure BDA0001251581870000184
avgj∈F(ftrj)表示对视频集合F中的所有视频j的平均完成率。
接着,使用该4个权重参数来确定排序权重sorti
sorti=δ·vi,1+θ·vi,2+μ·vi,3+σ·vi,4
其中δ,θ,μ,σ∈[0,1],且δ+θ+μ+σ=1,这四个系数为自定义系数,每个系数的大小用于调节不同权重对排序的重要程度,其作用与本发明第四实施例中描述步骤S404中的调节系数α、β、和γ的作用相同,使用方法也相同,这里就不重复举例说明了。
在得到了排序权重sorti之后,就可以从通过兴趣度选取的一定数量的视频中选择优质的视频优先展示推荐给用户。
根据本发明的上述各个实施例介绍的推荐视频方法,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
图6是本发明第五实施例提供的推荐视频的装置的示意性框图。如图6所示,本发明的推荐视频的装置包括:
相似性确定单元,可以用于确定视频库里的两两视频的标题之间的相似性;或者还可以用于确定视频库里的两两视频之间的相似性;或者还可以用于确定视频库里的两两视频各自所具有的标签集之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。优选的,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐;或者,也可以用于从大于或等于预先设置的一个阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐。
本第五实施例中的相似性确定单元执行确定所述相似性的工作过程,可以使用上述相应的第一实施例、第二实施例或第三实施例描述的方法过程来实现这里的功能描述。同理,兴趣度确定单元和推荐单元也可以使用上述相应的第一实施例、第二实施例或第三实施例描述的相应方法过程来实现这里的功能描述,所以这里不再重复赘述了。
根据本发明的推荐视频的装置,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
图7是本发明第六实施例提供的推荐视频的装置的示意性框图。如图7所示,本发明的推荐视频的装置,包括:
相似性确定单元,用于确定视频库里的两两视频的标题之间的相似性,或者是确定视频库里的两两视频之间的相似性,或者是确定视频库里的两两视频各自所具有的标签集之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐。
本第六实施例中的相似性确定单元执行确定所述相似性的工作过程,可以使用上述相应的第一实施例、第二实施例或第三实施例描述的方法过程来实现这里的功能描述。同理,兴趣度确定单元也可以使用上述相应的第一实施例、第二实施例或第三实施例描述的相应方法过程来实现这里的功能描述,所以这里不再重复赘述了。候选视频确定单元的工作很简单,就是通过用户对视频的兴趣度,按预设方式选取一定数量的视频,优选的,选择排序在最前面的兴趣度所对应的一定数量的视频,或者预先设置一个阈值,从大于或等于该预设阈值的兴趣度所对应的视频中随机选取一定数量的视频;所述一定数量可以根据实际应用场景来任意选定具体数量,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频,将选取出来的一定数量的视频作为候选视频集。
而推荐单元在针对候选视频集来计算排序权重时,可以使用上述优选实施例中介绍的方法,即首先计算4个权重:用户u对视频i的兴趣度权重vi,1、用户u对视频i的点击率权重vi,2、用户u对视频i的点赞率权重vi,3、用户u对视频i的完成率权重vi,4。计算方法与上述方法的优选实施例中介绍的计算方法相同,这里不重复介绍了。
根据本发明的推荐视频的装置,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
图8是本发明第七实施例提供的推荐视频的装置的示意性框图。如图8所示,本发明的推荐视频的装置包括:
第一相似性确定单元,用于确定视频库里的两两视频的标题之间的第一相似性;
第二相似性确定单元,用于确定视频库里的两两视频之间的第二相似性;
第三相似性确定单元,用于确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
综合相似性确定单元,用于基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
兴趣度确定单元,用于基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐。优选的,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐;或者,也可以用于从大于或等于预先设置的一个阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐。
针对本第七实施例中的第一相似性确定单元、第二相似性确定单元、第三相似性确定单元、综合相似性确定单元、兴趣度确定单元和推荐单元的工作过程,可以使用第四实施例描述的相应方法过程来实现这里的功能描述,所以这里不再重复赘述了。
根据本发明的推荐视频的装置,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
图9是本发明第八实施例提供的推荐视频的装置的示意性框图。如图9所示,本发明的推荐视频的装置包括:
第一相似性确定单元,用于确定视频库里的两两视频的标题之间的第一相似性;
第二相似性确定单元,用于确定视频库里的两两视频之间的第二相似性;
第三相似性确定单元,用于确定视频库里的两两视频具有的标签集之间的第三相似性;
综合相似性确定单元,用于基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
兴趣度确定单元,用于基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐。
优选的,所述候选视频确定单元是基于所述兴趣度值从大到小顺序选取一定数量的视频作为候选视频;或者,也可以用于从大于或等于预先设置的一个阈值的兴趣度所对应的视频中随机选取一定数量的视频作为候选视频集
针对本第八实施例中的第一相似性确定单元、第二相似性确定单元、第三相似性确定单元、综合相似性确定单元、和兴趣度确定单元的工作过程,可以使用第四实施例描述的相应方法过程来实现这里的功能描述,所以这里不再重复赘述了。候选视频确定单元的工作很简单,就是通过用户对视频的兴趣度,按预设方式选取一定数量的视频,优选的,选择排序在最前面的兴趣度所对应的一定数量的视频,或者预先设置一个阈值,从大于或等于该预设阈值的兴趣度所对应的视频中随机选取一定数量的视频;所述一定数量可以根据实际应用场景来任意选定具体数量,例如可以是5-20个,或者20-50个,或者也可以是更多数量的视频,将选取出来的一定数量的视频作为候选视频集。
而推荐单元在针对候选视频集来计算排序权重时,可以使用上述优选实施例中介绍的方法,即首先计算4个权重:用户u对视频i的兴趣度权重vi,1、用户u对视频i的点击率权重vi,2、用户u对视频i的点赞率权重vi,3、用户u对视频i的完成率权重vi,4。计算方法与上述方法的优选实施例中介绍的计算方法相同,即
1、计算所述用户u对视频i的兴趣度权重vi,1的方法为:
Figure BDA0001251581870000221
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
lu,i表示用户u对视频集合F中的视频i的兴趣度;
avgj∈F(lu,j)表示用户u对视频集合F中的所有视频j的平均兴趣度。
用户u对视频集合F中的任意视频的兴趣度的计算方法在上面已经在多个实施例中做了介绍,这里不再重复,这里直接使用在确定用户对视频库里的视频的兴趣度步骤中得到的兴趣度值。
2、计算所述用户u对视频i的点击率权重vi,2的方法为:
Figure BDA0001251581870000231
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
ctri表示对视频集合F中的视频i的点击率:
Figure BDA0001251581870000232
avgj∈F(ctrj)表示对视频集合F中的所有视频j的平均点击率。
3、计算所述用户u对视频i的点赞率权重vi,3的方法为:
Figure BDA0001251581870000233
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
ltri表示对视频集合F中的视频i的点赞率:
Figure BDA0001251581870000234
avgj∈F(ltrj)表示对视频集合F中的所有视频j的平均点赞率。
4、计算所述用户u对视频i的完成率权重vi,4的方法为:
Figure BDA0001251581870000235
其中:
F表示基于所述兴趣度按预设方式选取的一定数量的视频集合;
ftri表示对视频集合F中的视频i的完成率:
Figure BDA0001251581870000241
avgj∈F(ftrj)表示对视频集合F中的所有视频j的平均完成率。
接着,使用该4个权重参数来确定排序权重sorti
sorti=δ·vi,1+θ·vi,2+μ·vi,3+σ·vi,4
其中δ,θ,μ,σ∈[0,1],且δ+θ+μ+σ=1,这四个系数为自定义系数,每个系数的大小用于调节不同权重对排序的重要程度,其作用与本发明第四实施例中描述步骤S404中的调节系数α、β、和γ的作用相同,使用方法也相同,这里就不重复举例说明了。
在得到了所述排序权重sorti之后,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐。
根据本发明的推荐视频的装置,实现了根据不同用户的偏好给用户推荐不同的视频的个性化推荐的目的。
尽管本发明在第七实施例中采用了对选取的一定数量的视频进行重新排序的方法,优先向用户推荐排在前面的视频,但是本领域技术人员都知道,对选取的多个视频进行再排序的方式也可以应用到第五实施例,这只需要简单替换就可以了,因此不再重复描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所描述的装置的具体工作过程可以参考相关的方法实施例中的对应过程,在此不再重复描述。
本发明实施例所提供的一种推荐视频的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,智能平板电脑,智能手机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (23)

1.一种推荐视频的方法,其包括:
确定视频库里的两两视频的标题之间的第一相似性;
基于所述第一相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,确定所述兴趣度的方法如下:
Figure FDA0002413245580000011
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s1i,j表示视频库里的视频i与视频j的标题之间的第一相似性。
2.根据权利要求1所述的方法,其特征在于在确定视频库里的两两视频的标题之间的第一相似性的步骤中,确定所述第一相似性的方法如下:
A)对视频库里的每个视频的标题进行分词处理,得到一个分词集合;
B)确定所述分词集合里不同分词的逆向文件频率:
Figure FDA0002413245580000012
其中:L表示分词集合;
l表示分词集合L中的任意一个分词;
idfl表示分词集合L中的分词l的逆向文件频率;
di表示视频库里的视频i的标题的分词集合;
|V|表示视频库里的视频总数量;
|{i:l∈di}|表示包含分词l的视频数量;
C)确定视频库里的每个视频的标题的词频:
Figure FDA0002413245580000021
其中,l表示分词集合L中的任意一个分词;
di表示视频库里的视频i的标题的分词集合;
tfi,l表示视频i的标题的分词l的词频;
ni,l表示分词l在视频i的标题中出现的次数;
Figure FDA0002413245580000022
表示视频i的标题中所有分词的出现次数之和;
D)生成视频库里的不同视频的标题的分词的特征向量:
对于任意一个视频i,首先计算分词l对于视频i的标题的权重,记为wi,l,计算公式如下:wi,l=tfi,l×idfl
设视频i的分词的特征向量
Figure FDA0002413245580000023
为则该特征向量的稀疏表达式为:
Figure FDA0002413245580000024
同理,对于任意一个视频j,首先计算分词l对于视频j的标题的权重,记为wj,l,计算公式如下:wj,l=tfj,l×idfl
设视频j的分词的特征向量
Figure FDA0002413245580000025
为则该特征向量的稀疏表达式为:
Figure FDA0002413245580000026
E)计算视频库里的两两视频中的标题的第一相似性:
Figure FDA0002413245580000027
其中:
s1i,j表示视频库里的视频i与视频j的标题之间的第一相似性;
Figure FDA0002413245580000028
是视频库里的视频i的分词的特征向量;
Figure FDA0002413245580000029
是视频库里的视频j的分词的特征向量。
3.根据权利要求1所述的方法,其特征在于在基于所述兴趣度按预设方式选取一定数量的视频向用户推荐的步骤中,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐,或是从大于或等于预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐。
4.一种推荐视频的方法,其包括:
确定视频库里的两两视频之间的第二相似性;
基于所述第二相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,确定所述兴趣度的方法如下:
Figure FDA0002413245580000031
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s2i,j表示视频库里的视频i与视频j的第二相似性。
5.根据权利要求4所述的方法,其特征在于在确定视频库里的两两视频之间的第二相似性的步骤中,确定所述第二相似性的方法如下:
Figure FDA0002413245580000032
其中:
s2i,j表示视频库里的视频i与视频j之间的第二相似性;
Ui表示点击视频库里的两两视频中的视频i的用户集合;
Uj表示点击视频库里的两两视频中的视频j的用户集合。
6.根据权利要求4所述的方法,其特征在于在基于所述兴趣度按预设方式选取一定数量的视频向用户推荐的步骤中,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐,或是从大于或等于预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐。
7.一种推荐视频的方法,其包括:
确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
基于所述第三相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,确定所述兴趣度的方法如下:
Figure FDA0002413245580000041
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的第三相似性。
8.根据权利要求7所述的方法,其特征在于在确定视频库里的两两视频各自所具有的标签集之间的第三相似性的步骤中,所述确定所述第三相似性的具体方法如下:
Figure FDA0002413245580000042
其中:
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的第三相似性;
Ti表示视频库里的两两视频中的视频i具有的标签集;
Tj表示视频库里的两两视频中的视频j具有的标签集。
9.根据权利要求7所述的方法,其特征在于在基于所述兴趣度按预设方式选取一定数量的视频向用户推荐的步骤中,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐,或是从大于或等于预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐。
10.一种推荐视频的方法,其包括:
确定视频库里的两两视频的标题之间的第一相似性;
确定视频库里的两两视频之间的第二相似性;
确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,确定所述兴趣度的方法如下:
Figure FDA0002413245580000051
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
si,j表示视频库里的视频i与视频j之间的综合相似性。
11.根据权利要求10所述的方法,其特征在于在确定视频库里的两两视频的标题之间的第一相似性的步骤中,确定所述第一相似性的方法如下:
A)对视频库里的每个视频的标题进行分词处理,得到一个分词集合;
B)确定所述分词集合里不同分词的逆向文件频率:
Figure FDA0002413245580000052
其中:L表示分词集合;
l表示分词集合L中的任意一个分词;
idfl表示分词集合L中的分词l的逆向文件频率;
di表示视频库里的视频i的标题的分词集合;
|V|表示视频库里的视频总数量;
|{i:l∈di}|表示包含分词l的视频数量;
C)确定视频库里的每个视频的标题的词频:
Figure FDA0002413245580000061
其中,l表示分词集合L中的任意一个分词;
di表示视频库里的视频i的标题的分词集合;
tfi,l表示视频i的标题的分词l的词频;
ni,l表示分词l在视频i的标题中出现的次数;
Figure FDA0002413245580000062
表示视频i的标题中所有分词的出现次数之和;
D)生成视频库里的不同视频的标题的分词的特征向量:
对于任意一个视频i,首先计算分词l对于视频i的标题的权重,记为wi,l,计算公式如下:wi,l=tfi,l×idfl
设视频i的分词的特征向量
Figure FDA0002413245580000063
为则该特征向量的稀疏表达式为:
Figure FDA0002413245580000064
同理,对于任意一个视频j,首先计算分词l对于视频j的标题的权重,记为wj,l,计算公式如下:wj,l=tfj,l×idfl
设视频j的分词的特征向量
Figure FDA0002413245580000065
为则该特征向量的稀疏表达式为:
Figure FDA0002413245580000066
E)计算视频库里的两两视频中的标题的第一相似性:
Figure FDA0002413245580000067
其中:
s1i,j表示视频库里的视频i与视频j的标题之间的第一相似性;
Figure FDA0002413245580000068
是视频库里的视频i的分词的特征向量;
Figure FDA0002413245580000069
是视频库里的视频j的分词的特征向量。
12.根据权利要求10所述的方法,其特征在于在确定视频库里的两两视频之间的第二相似性的步骤中,确定所述第二相似性的方法如下:
Figure FDA00024132455800000610
其中:
s2i,j表示视频库里的视频i与视频j之间的第二相似性;
Ui表示点击视频库里的两两视频中的视频i的用户集合;
Uj表示点击视频库里的两两视频中的视频j的用户集合;
在确定视频库里的两两视频各自所具有的标签集之间的第三相似性的步骤中,确定所述第三相似性的具体方法如下:
Figure FDA0002413245580000071
其中:
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的第三相似性;
Ti表示视频库里的两两视频中的视频i具有的标签集;
Tj表示视频库里的两两视频中的视频j具有的标签集。
13.根据权利要求10所述的方法,其特征在于在基于获得的上述三个相似性参数确定视频库里的两两视频之间的综合相似性的步骤中,确定所述综合相似性的方法如下:
si,j=α·s1i,j+β·s2i,j+γ·s3i,j
其中α、β、γ∈[0,1],且α+β+γ=1;
s1i,j表示所述第一相似性,s2i,j表示所述第二相似性,s3i,j表示所述第三相似性,si,j表示视频库里的视频i与视频j之间的综合相似性。
14.根据权利要求10所述的方法,其特征在于在基于所述兴趣度按预设方式选取一定数量的视频向用户推荐的步骤中,基于所述兴趣度值从大到小顺序选取一定数量的视频向用户推荐,或是从大于或等于预设阈值的兴趣度所对应的视频中随机选取一定数量的视频向用户推荐。
15.根据权利要求10所述的方法,其特征在于进一步包括:基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐。
16.一种推荐视频的装置,包括:
相似性确定单元,用于确定视频库里的两两视频的标题之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000081
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s1i,j表示视频库里的视频i与视频j的标题之间的相似性。
17.一种推荐视频的装置,包括:
相似性确定单元,用于确定视频库里的两两视频之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000082
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s2i,j表示视频库里的视频i与视频j的相似性。
18.一种推荐视频的装置,包括:
相似性确定单元,用于确定视频库里的两两视频各自所具有的标签集之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000091
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的相似性。
19.一种推荐视频的装置,包括:
相似性确定单元,用于确定视频库里的两两视频的标题之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000101
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s1i,j表示视频库里的视频i与视频j的标题之间的相似性。
20.一种推荐视频的装置,包括:
相似性确定单元,用于确定视频库里的两两视频之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000102
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s2i,j表示视频库里的视频i与视频j的相似性。
21.一种推荐视频的装置,包括:
相似性确定单元,用于确定视频库里的两两视频各自所具有的标签集之间的相似性;
兴趣度确定单元,用于基于获得的所述相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000111
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
s3i,j表示视频库里的视频i与视频j各自所具有的标签集之间的相似性。
22.一种推荐视频的装置,包括:
第一相似性确定单元,用于确定视频库里的两两视频的标题之间的第一相似性;
第二相似性确定单元,用于确定视频库里的两两视频之间的第二相似性;
第三相似性确定单元,用于确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
综合相似性确定单元,用于基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
兴趣度确定单元,用于基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
推荐单元,用于基于所述兴趣度按预设方式选取一定数量的视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000121
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
si,j表示视频库里的视频i与视频j之间的综合相似性。
23.一种推荐视频的装置,包括:
第一相似性确定单元,用于确定视频库里的两两视频的标题之间的第一相似性;
第二相似性确定单元,用于确定视频库里的两两视频之间的第二相似性;
第三相似性确定单元,用于确定视频库里的两两视频各自所具有的标签集之间的第三相似性;
综合相似性确定单元,用于基于获得的所述三个相似性参数确定视频库里的两两视频之间的综合相似性;
兴趣度确定单元,用于基于所述综合相似性来确定用户对视频库里的视频的兴趣度;
候选视频确定单元,用于基于所述兴趣度按预设方式选取一定数量的视频作为候选视频集;
推荐单元,用于针对候选视频集来计算排序权重,通过该排序权重的大小优先将排序权重大的候选视频向用户推荐,
其中,所述兴趣度确定单元使用下述公式确定用户对视频库里的视频的兴趣度:
Figure FDA0002413245580000131
其中:
|V|表示视频库里的视频总数量;
lu,i表示用户u对视频库里的视频i的兴趣度;
cu,i表示用户u是否点击过视频i,点击过视频i时取值为1,没有点击过视频i时取值为0;
si,j表示视频库里的视频i与视频j之间的综合相似性。
CN201710172871.5A 2017-03-22 2017-03-22 一种推荐视频的方法和装置 Active CN106980666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710172871.5A CN106980666B (zh) 2017-03-22 2017-03-22 一种推荐视频的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710172871.5A CN106980666B (zh) 2017-03-22 2017-03-22 一种推荐视频的方法和装置

Publications (2)

Publication Number Publication Date
CN106980666A CN106980666A (zh) 2017-07-25
CN106980666B true CN106980666B (zh) 2020-08-21

Family

ID=59338771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710172871.5A Active CN106980666B (zh) 2017-03-22 2017-03-22 一种推荐视频的方法和装置

Country Status (1)

Country Link
CN (1) CN106980666B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170868A (zh) * 2018-02-09 2018-06-15 宁夏灵智科技有限公司 视频推荐方法和装置
CN109360028B (zh) * 2018-10-30 2020-11-27 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN109684512A (zh) * 2018-11-20 2019-04-26 北京奇虎科技有限公司 一种用户兴趣点的挖掘方法及装置
CN113626638A (zh) * 2021-09-06 2021-11-09 深圳市易平方网络科技有限公司 短视频推荐处理方法、装置、智能终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103226569A (zh) * 2013-03-21 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种视频提供方法、装置和系统
CN105574132A (zh) * 2015-12-15 2016-05-11 海信集团有限公司 一种多媒体文件推荐方法和终端
CN105677715A (zh) * 2015-12-29 2016-06-15 海信集团有限公司 一种基于多用户的视频推荐方法及装置
CN105808537A (zh) * 2014-12-29 2016-07-27 Tcl集团股份有限公司 一种基于Storm的实时推荐方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103226569A (zh) * 2013-03-21 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种视频提供方法、装置和系统
CN105808537A (zh) * 2014-12-29 2016-07-27 Tcl集团股份有限公司 一种基于Storm的实时推荐方法及系统
CN105574132A (zh) * 2015-12-15 2016-05-11 海信集团有限公司 一种多媒体文件推荐方法和终端
CN105677715A (zh) * 2015-12-29 2016-06-15 海信集团有限公司 一种基于多用户的视频推荐方法及装置

Also Published As

Publication number Publication date
CN106980666A (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
US11601703B2 (en) Video recommendation based on video co-occurrence statistics
CN107888950B (zh) 一种推荐视频的方法和系统
US10437896B2 (en) Singular, collective, and automated creation of a media guide for online content
US9078036B2 (en) Mechanism to evaluate the geographic popularity of geographically-located user-generated content items
CN108875022B (zh) 一种视频推荐方法及装置
JP5735087B2 (ja) 個人化されたリソースをオンデマンドで消費者デバイスアプリケーションに広帯域ネットワークを介して提供すること
CN106326391B (zh) 多媒体资源推荐方法及装置
CN109033149B (zh) 信息推荐方法、装置、服务器及存储介质
US20170188102A1 (en) Method and electronic device for video content recommendation
CN106980666B (zh) 一种推荐视频的方法和装置
US8695031B2 (en) System, device, and method for delivering multimedia
CN107454442B (zh) 一种推荐视频的方法和装置
CN105095431A (zh) 根据用户的行为信息推送视频的方法和装置
CN107562848B (zh) 一种视频推荐方法和装置
CN102855256B (zh) 用于确定网站评价信息的方法、装置及设备
CN110574387A (zh) 使用机器学习推荐直播流内容
RU2641663C1 (ru) Способ рекомендации телевизионной программы и сервер
CN112507163B (zh) 时长预测模型训练方法、推荐方法、装置、设备及介质
CN105701226A (zh) 多媒体资源评估方法和装置
CN105338408B (zh) 基于时间因子的视频推荐方法
KR20070105722A (ko) 모바일 웹 기반의 이미지검색을 위한 초기질의 집합의자동생성방법
CN105956061B (zh) 一种用户间相似度确定方法及装置
CN109063080B (zh) 一种视频推荐方法及装置
CN111324733A (zh) 内容推荐方法、装置、设备及存储介质
CN107341172B (zh) 视频收益计算建模装置与方法及视频推荐装置与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200902

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02

Patentee before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right