CN105677715A

CN105677715A - 一种基于多用户的视频推荐方法及装置

Info

Publication number: CN105677715A
Application number: CN201511008301.XA
Authority: CN
Inventors: 刘朋; 李海涛
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-15
Anticipated expiration: 2035-12-29
Also published as: CN105677715B

Abstract

本发明实施例提供一种基于多用户的视频推荐方法及装置，能够针对多用户中每个用户需求和兴趣，为其推荐喜欢的视频，提高推荐的准确性。该方法包括：根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度；根据所述任意两视频之间的第一相似度和第二相似度，得到任意两视频之间的综合相似度；根据所述任意两视频之间的综合相似度，对所述视频进行聚类，得到多个兴趣点；根据所述用户对视频历史操作信息，统计每个用户的历史操作视频在划分时间段所属的兴趣点；根据所述兴趣点分布，为每个用户生成推荐列表。

Description

一种基于多用户的视频推荐方法及装置

技术领域

本发明涉及推荐技术领域，尤其涉及一种基于多用户的视频推荐方法及装置。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载的时代，推荐系统应运而生。推荐系统或基于视频内容，或基于用户历史行为记录，向用户找到其已知范围之外的感兴趣的视频，拓展其观影体验。

现有的推荐系统通常都是针对单设备单用户来进行推荐，而在单设备中还可能会涉及多用户。以电视为例，在一个家庭中，通常会有多个用户观看电视，在各个时间段的观看兴趣点是不同的，每个成员会按照自己的兴趣主动选择相关视频进行观看，从而导致在电视上获取的历史记录是多个隐含用户的兴趣叠加。例如：一个家庭由四口人组成，分别为父亲、母亲、奶奶和孩子。父亲喜欢动作片，母亲喜欢爱情片，奶奶喜欢京剧戏曲，孩子喜欢动画片。同一家庭的四个成员共享一台电视，在推荐系统的历史记录中标记为同一个用户，那么，推荐系统会同时推荐动作片、爱情片、京剧戏曲、动画片等相似视频，这样就会导致对每个家庭成员推荐的结果都掺杂了大量的无用视频，造成不能针对每个家庭成员的兴趣和爱好进行推荐，推荐准确度不高，用户体验差。

发明内容

本发明的实施例提供一种基于多用户的视频推荐方法，能够针对多用户中每个用户需求和兴趣，为其推荐喜欢的视频，提高推荐的准确性。

为达到上述目的，本发明的实施例采用如下技术方案：

本发明实施例提供一种基于多用户的视频推荐方法，包括以下步骤：

根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度，所述视频信息包括用户对视频历史操作信息；

根据所述任意两视频之间的第一相似度和第二相似度，得到任意两视频之间的综合相似度；

根据所述任意两视频之间的综合相似度，对所述视频进行聚类，得到多个兴趣点；

根据所述用户对视频历史操作信息，统计每个用户的历史操作视频在划分时间段所属的兴趣点；

根据所述兴趣点分布，为每个用户生成推荐列表。

本发明实施例还提供了一种基于多用户的视频推荐装置，包括：

相似度计算模块，用于根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度，所述视频信息包括用户对视频历史操作信息；

综合模块，用于根据所述任意两视频之间的第一相似度和第二相似度，得到任意两视频之间的综合相似度；

聚类模块，用于根据所述任意两视频之间的综合相似度，对所述视频进行聚类，得到多个兴趣点；

统计模块，用于根据所述用户对视频历史操作信息，统计每个用户的历史操作视频在划分时间段所属的兴趣点；

推荐模块，用于根据所述兴趣点分布，为每个用户生成推荐列表。

本发明实施例所提供的基于多用户的视频推荐方法及装置，根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度，并根据得到的任意两视频之间的第一相似度和第二相似度得到任意两视频之间综合的相似度，根据所述任意两视频之间的综合相似度，对所述视频进行聚类，可以获得多个兴趣点，每个兴趣点代表一个聚类簇，相似度高的视频可以被聚类在一起，形成一个聚类簇，表征用户的喜好，再根据每个用户对视频的历史操作信息，可以对每个用户的历史操作信息中操作视频的时间点和操作视频分别所属的时间段和兴趣点进行统计，这样就了解了当每个用户在各个时间段的喜好，那么就可以根据每个用户在各个时间段的兴趣点分布情况进行兴趣点中视频的选取，进而根据选取的视频生成推荐列表为用户进行推荐。因为该方法可以针对每个用户的历史操作记录对每个用户在各个时间段的喜好情况进行了解，进而针对每个用户在各个不同时间段的兴趣和爱好生成其喜欢的视频的推荐列表进行推荐，所以满足了多用户对于推荐的需求，提高了对于多用户推荐的准确性，对于多用户来说用户体验更好。并且，由于用户操作类型权重反映了用户对视频的喜好度，用户对视频历史操作是视频在实际应用场景中场景特性的直接体现，因此得到的任意两视频之间的综合相似度包含了基于用户操作行为的视频间的相似度，反映视频在具体场景中的相关度，而根据任意两视频之间的综合相似度，对所述视频进行聚类，可以把因为具体应用场景关联在一起和视频本身相似度高的视频聚集在一起，从而为后续推荐提供了结合用户行为和应用场景的视频间的关联性数据和与视频本身相似的数据，使得聚类后的兴趣点中的视频数据更加全面，避免了对单一视频相似度进行聚类导致的从兴趣点中选取用户喜欢视频信息不全面的问题，推荐准确性更高。另一方面，根据任意两视频之间的综合相似度，对所述视频进行聚类，在对每个用户在每个时间段的操作视频情况进行统计的时候，范围限定到聚类后生成的兴趣点中的视频，相比于对所有数据库中的视频进行统计，大大减少了计算量，提高了推荐效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多用户的视频推荐方法的方法流程图；

图2为本发明实施例提供的一种基于多用户的视频推荐装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于多用户的视频推荐方法，如图1所示，该方法包括：

101、基于多用户的视频推荐装置根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度。

本发明实施例中的基于多用户的视频推荐装置可以为管理所有终端设备的服务器，也可以为某一终端设备，该终端设备可以是智能电视或便携式、袖珍式或手持式的电子设备，例如，智能手机、平板电脑以及个人数字助理等。

本发明实施例中的视频信息包括视频属性信息和用户对视频历史操作信息。

视频属性信息包括视频标识、名称、类型、国家、导演、演员、简介等。对简介进行文本分词处理，并去除停用词(介词、连接词、语气词等虚词)，将剩下的实词和名称、类型、国家、导演、演员等信息，作为视频的标签特征，构成标签库。每个视频对应一个标签库，可以用视频ID表示下标，即视频0001v₀₀₀₁对应标签库tag₀₀₀₁，所有视频标签库构成总标签库T＝{tag₀₀₀₁，tag₀₀₀₂,…}。

其中，视频标识可以为该视频的名称或视频的ID或其他可唯一表示该视频的标识，本实施例中采用v1、v2、v3、……、vm表示不同视频的标识。

示例性的，获取多用户的视频推荐装置会获取预定时间范围内所有用户对视频的操作数据，然后，对这个用户的操作数据进行预处理，提取出用户对视频所执行的特定用户操作的数据，然后将用户对视频所执行的特定用户操作的数据作为用户对视频的历史操作信息。

其中，本发明实施例中用户对视频的历史操作信息包括：用户标识、用户标识对视频标识操作行为，用户标识对视频标识操作时间。例如，对于视频来说，该特定用户操作类型包括：点击、收藏、购买等。需要说明的是，上述的具体用户操作类型仅仅是一种示例，仅仅是将可以代表用户喜好的用户操作类型筛选出来，然后，为其赋不同的权重来表示不同的用户对不同的视频的喜好度。例如，{点击1、收藏2、购买3}。

其中，上述的用户标识可以为该用户的登陆账号或者其他可唯一表示该用户的标识，本实施例中采用u1、u2、u3……un形式表示不同用户的标识。

优选的，在步骤101中，可以设置一个更新周期，更新周期的长短可以根据视频数据的数据库更新情况进行设定，例如，可以设为一个月，一周或一天，本发明对此不进行限制，在每个更新周期内获取所述每个更新周期内的视频数据的属性信息并进行更新。本实施例下述各步骤均以当前周期为例进行说明。

具体地，所述任意两视频之间的第一相似度具体计算方式为：根据所述视频属性信息，获取每个视频的词频和逆文档频率因子，根据所述每个视频的词频和逆文档频率因子，获得每个视频第一特征向量，根据第一相似度计算公式获得任意两视频之间的第一相似度，其中，第一相似度计算公式为：

{sim}_{p} (v 1, v 2) = c o s < p_{v 1}, p_{v 2} > = \frac{p_{v 1} \cdot p_{v 2}}{| | p_{v 1} | | \cdot | | p_{v 2} | |},

p_v1为视频v₁第一特征向量，p_v2为视频v₂第一特征向量。

具体地，根据词频计算公式，计算每个视频标签库中的标签特征的词频，词频计算公式为：其中，w_i为标签特征，i∈1,2,…,n，n为标签特征总数，为视频v_j的视频标签库，j∈1,2,…,m，m为视频总数，若中，标签特征w_i与视频标签库中视频v的第j个标签特征相同，那么为1，否则为0，T为总视频标签库，|W|表示每个视频标签库中的标签特征集合在一起去重后的总数。

示例性的，对每一个视频标签库中的每一个标签特征，统计其在所有视频标签库中出现的次数，可以用每个标签特征在所有视频标签库中出现的次数除以每个视频标签库中的标签特征集合在一起去重后的总数获得。

具体地，根据逆文档频率因子的计算公式，计算每个标签特征的逆文档频率因子，逆文档频率因子计算公式为：其中，W为每个视频标签库中的标签特征集合在一起去重后的总数，tag_v为视频v的视频标签库，I(w_i∈tag_v)为指示函数，若标签特征w_i属于视频v对应的视频标签库，则I(w_i∈tag_v)为1，否则为0，|V|表示所有视频的总数。

示例性的，可以对视频标签库中的所有标签特征，查找包含该标签特征的所有视频，并构建文档倒排表。计算每个标签特征在文档倒排表中对应的行的长度，然后用视频总数除以每个标签特征在文档倒排表中对应的行的长度加上1的值，对相除后的结果取其log值即为每个标签特征的逆文档频率因子。

具体地，将每个视频的标签特征的词频和逆文档频率因子相乘，获得每个视频第一特征向量。

即：TFIDF(w_i)＝TF(w_i)*IDF(w_i)。

对于W中的每一个标签特征都分别计算TF(w_i)，得到TF(W)向量；对于W中的每一个标签特征都分别计算IDF(w_i)，得到IDF(W)向量；将TF(W)向量和IDF(W)向量中的每一项分别相乘，得到TFIDF(W)向量，通过这种方式可以得到每个视频的第一特征向量。

优选地，在将词频向量和逆文档频率因子向量相乘时，再乘以预设影响因子，得到最终的每个视频第一特征向量。

设置影响因子是因为对于视频属性信息，视频的名称、类型、国家、导演、演员等标签特征为视频的专有名词，相比于简介占用的权重应该大一些，所以权重应该设置高于简介的权重。

示例性的，可以将视频的名称、类型、国家、导演、演员的权重设置为2，简介的权重设置为1。

具体地，在获得每个视频第一特征向量后，根据第一相似度计算公式计算任意两个视频之间的第一相似度，第一相似度计算公式为：p_v1为视频v₁第一特征向量，p_v2为视频v₂第一特征向量。

以下通过具体实例进行说明：

示例性的，如视频v₀₀₀₁，视频标识为v0001，名称为港囧，类型为喜剧，国家为中国，导演为徐峥，演员为徐峥/赵薇/包贝尔，简介经过分词后留下实词和上述标签特征共同构成视频v0001的视频标签库tag₀₀₀₁，即{港囧*，喜剧*，中国*，徐峥*，徐峥*，赵薇*，包贝尔*，港囧，北京，光线，传媒，香港，旅程，人在囧途…}。

视频v₀₀₁₁，视频标识为v0011，名称为寂静岭，类型为恐怖，国家为美国，导演为克里斯多夫·甘斯，演员为拉妲·米契尔/肖恩·宾/祖蒂·弗兰/劳瑞·侯登/黛博拉·卡拉·安格/罗伯托·坎帕内利亚，简介经过分词后留下实词和上述标签特征共同构成视频v0011的视频标签库tag₀₀₁₁，即{寂静岭*，恐怖*，美国*，克里斯多夫·甘斯*，拉妲·米契尔*，肖恩·宾*，祖蒂·弗兰，*劳瑞·侯登，*黛博拉·卡拉·安格，*罗伯托·坎帕内利亚，寂静岭，悬疑，恶魔，致命疾病，美国…}。

其中，加*的标签特征为专有名词，未加星标为简介分词后得到的标签特征。

分别统计两个视频中每个标签特征在所有视频标签库中出现的次数，分别将每个标签特征在所有视频标签库中出现的次数除以所有视频标签库去重后的总标签特征数，得到两个视频中每个标签特征的词频TF(w_i)。

计算IDF(w_i)步骤如下：

首先建立文档倒排表，扫描所有视频标签库，每扫描一个视频特征w_i，将当前视频标签库ID置入对应的集合中，即将包含有每个视频特征w_i的视频标签库并入一个集合中，格式如下：

w₁:{tag₀₀₀₁,tag₀₀₀₂,tag₀₀₁₉,…}，

w₂:{tag₀₀₀₁,tag₀₀₀₈,tag₀₀₂₂,…}，

w₃:{tag₀₀₀₂,tag₀₀₄₂,tag₀₇₁₂,…}，

……

针对视频《港囧》，文档倒排表为：

徐峥：{tag₀₀₀₁,tag₀₆₇₇,tag₁₂₈₁,…}，

喜剧：{tag₀₀₀₁,tag₀₀₀₂,tag₀₀₀₇,…}，

中国：{tag₀₀₀₁,tag₀₀₀₂,tag₀₀₀₃,…}，

……

针对视频《寂静岭》，文档倒排表为：

寂静岭：{tag₀₀₀₁,tag₀₃₂₆,tag₀₅₇₉,…}，

恐怖：{tag₀₀₀₁,tag₀₀₀₄,tag₀₀₆₆,…}，

美国：{tag₀₀₀₁,tag₀₀₁₂,tag₀₀₂₃,…}，

……

对W中的每一个标签特征w_i，计算文档倒排表中包含该标签特征的视频标签库总数，然后根据IDF计算公式得到IDF(w_i)。

对于W中的每一个标签特征，都分别计算IDF(w_i)，根据每个标签特征的IDF(w_i)，得到整个视频的逆文档频率因子向量，即IDF(W)向量。

将TF(W)向量与IDF(W)向量，每一项分别相乘得到TFIDF(W)向量。

视频v0001《港囧》第一特征向量如表1所示：

W

喜剧

中国

港囧

徐峥

赵薇

故事

…5 -->

TFIDF(W)

0.8

0.1

12.01

11.2

10.8

0.02

…

表1

视频v0011《寂静岭》第一特征向量如表2所示：

W

恐怖

美国

寂静岭

克里斯多夫·甘斯

悬疑

故事

…

TFIDF(W)

0.9

0.3

6.2

4.5

0.77

0.02

…

表2

根据预设影响因子，生成最终的视频第一特征向量。其中，名称、类型、国家、导演、演员专有名词标签特征权重为2，简介标签特征权重为1。

具体如表3所示：

表3

根据表2及表3中结果分别得到两个视频第一特征向量，如下：

《港囧》v0001第一特征向量为：p(0001)＝(1.6,0.2,24.02,22.4,0.02,0,0,0,…)；

《寂静岭》v0011第一特征向量为：p(0011)＝(0,0,0,0,0.02,0,1.8,15.4,…)；

根据第一相似度计算公式，计算两个视频之间的第一相似度为：

s i m (p_{0001}, p_{0011}) = \frac{1.6 * 0 + 0.2 * 0 + 24.02 * 0 + 22.4 * 0 + 0.02 * 0.02 + 0 * 1.8 + 0 * 15.4}{\sqrt{{1.6}^{2} + {0.2}^{2} + {24.02}^{2} + {22.4}^{2} + {0.02}^{2}} \sqrt{{0.02}^{2} + {1.8}^{2} + {1.54}^{2}}} .

通过这种方式可以获得任意两视频之间的第一相似度。

通过视频本身特性来计算两个视频之间的第一相似度，从而为用户推荐相似度高的视频，是因为通常用户会喜欢同种类型的视频，如喜欢综艺片中的《快乐大本营》的话，也会喜欢《天天向上》，喜欢《中国好声音》的话，通常也会喜欢《我是歌手》。基于这样的假设，通过计算视频本身之间第一相似度来为用户寻找类似的视频进行推荐。

所述任意两视频之间的第二相似度具体计算方式为：根据所述视频信息和预设用户操作类型权重，生成用户-视频矩阵，对所述用户-视频矩阵进行UV分解，获得每个视频第二特征向量，根据第二相似度计算公式获得任意两视频之间的第二相似度，其中，第二相似度计算公式为：

{sim}_{p}^{'} (v 1, v 2) = c o s < {p_{v 1}}^{'}, {p_{v 2}}^{'} > = \frac{{p_{v 1}}^{'} \cdot {p_{v 2}}^{'}}{| | {p_{v 1}}^{'} | | \cdot | | {p_{v 2}}^{'} | |},

p_v1′为视频v₁第二特征向量，p_v2′为视频v₂第二特征向量。

其中，所述根据所述视频信息和预设用户操作类型权重，生成用户-视频矩阵具体为：统计每个用户对每个视频操作类型及操作次数，每个用户对每个视频操作类型次数乘以预设的对应操作类型权重，求和并归一化处理得到用户-视频矩阵。

示例性的，根据视频信息，可以生成多个用户操作类型行为集合，每个用户操作行为集合的格式为{用户标识：视频标识，用户操作，时间}，如用户1在2015年10月1号18:02:46点击观看了视频1，则生成的集合为{用户1，视频1，类型：点击，时间20151001-18:02:46}。

示例性的，用户操作类型可以为：点击、收藏、购买，权重可以设置为{点击1、收藏2、购买3}。

具体地，根据生成的多个用户操作行为集合和预设的用户操作类型权重，生成矩阵R。

上述的用户操作类型的权重用于表示用户对视频喜好度，矩阵R的行和列分别表示用户标识和视频标识，矩阵R的元素R_ij表示用户i对视频j的喜好度。具体的，该矩阵R的元素R_ij可以为用户i在预定时间内对视频j执行的所有次用户操作类型权重累加值，i∈1,2,……，n；j∈1,2,……，m；上述的n为用户个数，上述的m为记录中n个用户所观看的不重复的视频总和。

具体地，根据生成的多个用户操作行为集合和预设的用户操作类型权重，按照用户操作类型，生成每种操作类型对应的矩阵S，再将每种操作类型对应的矩阵S加和得到矩阵R。

具体地，对矩阵R进行归一化处理，得到用户-视频矩阵。

因为不同用户发生操作行为的频率不同，需要对生成的矩阵R进行归一化操作，计算矩阵R中每一行(即每个用户)的最大值，将该行中每个元素分别除以该最大值，得到归一化后的矩阵，即用户-视频矩阵，矩阵中每个元素的值在0-1之间。

具体地，对归一化后得到的用户-视频矩阵使用随机梯度下降法进行UV分解，得到一个n*l维矩阵和一个m*l维矩阵，其中，l为特征向量维度，n为用户个数，m为视频个数。

n*l维矩阵和m*l维矩阵分别表示用户及视频在对应隐含维度的特征，将m*l矩阵作为基于用户行为视频的特征向量矩阵，每一行代表一个视频基于用户行为的特征向量。

其中，l初始值可以设为20，后续可通过结果反馈调节l的值。

具体如何使用随机梯度下降法对用户-视频矩阵进行UV分解，本领域技术人员根据公知常识即可做到，此处不再详细赘述。

具体地，在获得每个视频第二特征向量后，根据第二相似度计算公式计算任意两视频之间的第二相似度。

基于用户行为计算任意两视频的第二相似度是因为用户在观看视频的过程中，并不都是观看类型相同的视频，比如在一个时间段都观看动作片，观看动作片的用户还可能会观看战争片，虽然战争片和动作片不是同一类型。用基于用户行为的这种第二相似度计算方式，可以把不是同一类型视频但是用户也喜欢观看的视频挖掘出来。在后续使用聚类方法进行聚类时，可以被聚类为同一个聚类簇中，成为同一个兴趣点。

下面以具体实施例进行详细介绍：

首先根据多个用户点击行为集合，生成点击操作对应的矩阵S，如表4所示：

需要说明的是，真实的矩阵S以及矩阵R、用户-视频矩阵具有百万级的维度，下述的表4、表5、表6、表7、表8仅仅是对矩阵S、矩阵R以及用户-视频矩阵的含义进行说明，仅仅是一种示例。

表4

其中，矩阵中的数字表示每个用户点击每个视频的次数。

根据多个用户点击行为集合，生成收藏操作对应的矩阵S，如表5所示：

表5

矩阵中的数字表示每个用户点击收藏每个视频的次数。

根据多个用户点击行为集合，生成购买操作对应的矩阵S，如表6所示：

表6

其中矩阵中的数字表示每个用户点击购买每个视频的次数。

则，根据预设的三种操作行为的权重，矩阵R为1*点击对应矩阵S+2*收藏对应矩阵S+3*购买对应矩阵S。

即矩阵R如表7所示：

表7

对表7进行归一化处理，每行中的每个元素除以每行中的最大值，得到用户-视频矩阵，如表8所示：

表8

对用户-视频矩阵进行UV分解，得到m*l维矩阵，l这里设置为20。如表9所示：

需说明的是：矩阵中的数值只是示意性数值，用于举例。

表9

从m*l矩阵中，可以得到每个视频的第二特征向量，即每行对应一个视频的第二特征向量，如表9中，v0001和v0002的第二特征向量为：

p(0001)＝(0.51,0.1,0.299,0,0.0125,…,0.04)，

p(0002)＝(0,0.3,0.5,0.104,0.233,…,0.511)，

根据第二相似度计算公式可以得到两个视频之间的第二相似度。

通过这种方式可以得到任意两视频之间的第二相似度。

102、基于多用户的视频推荐装置根据所述任意两视频之间的第一相似度和第二相似度，得到任意两视频之间的综合相似度。

具体地，通过设置融合因子来对任意两视频之间的第一相似度和第二相似度进行融合，生成任意两视频之间的综合相似度。

优选地，融合公式为：sim(v1,v2)＝αsim_p(v1,v2)+(1-α)sim_q(v1,v2)，其中α为融合因子，sim_p(v1,v2)为视频v1和视频v2之间的第一相似度，sim_q(v1,v2)为视频v1和视频v2之间的第二相似度。

其中α变量用来平衡第一相似度及第二相似度的权重，它的值可以通过经验设置初始值，并根据后续反馈结果调节，如果后续反馈结果，用户观看视频偏向基于视频本身特性相似的视频，则可以把α变量设置的大一些，如果用户观看视频偏向具体应用场景关联的视频，则可以把α变量设置的小一些。

需要说明的是：本发明实施例只是列出了一种根据任意两视频之间的第一相似度和第二相似度生成任意两视频之间的综合相似度的方式，但是本发明实施例并不局限于这种方式，任何在其基础上的变形均在本发明保护范围之内。

103、基于多用户的视频推荐装置根据所述任意两视频之间的综合相似度，对所述视频进行聚类，得到多个兴趣点。

具体地，可以用K-means聚类方法根据所述得到的任意两视频之间的综合相似度，对所述视频进行聚类，得到多个兴趣点。

需要说明的是：本发明并不局限于K-means聚类方法这一种聚类方法根据所述获取的任意两视频之间的综合相似度，对所述视频进行聚类，还可以采用其他现有技术中涉及的聚类方法。

优选地，根据所述获取的任意两视频之间的综合相似度，对所述视频进行聚类，获取多个兴趣点可以为：根据所述获取的任意两视频之间的综合相似度生成综合相似度矩阵，根据所述综合相似度矩阵，对所述视频进行聚类，获取多个兴趣点。

由K-means算法根据所述获得的综合相似度矩阵，对所述视频进行聚类，得到多个兴趣点，此处的兴趣点对应聚类后得到的聚类簇。

聚类后，相似度比较高的视频被划归为一个聚类簇，即一个兴趣点，这样形成多个兴趣点。

需要说明的是：本发明实施例中对于任意两视频之间的综合相似度数据的排布采用基于综合相似度矩阵的方式进行后续聚类处理，但是本发明不限于使用矩阵的方式，还可以采用哈希表的方式，或者其他已有便于后续聚类的数据排布方式，均在本发明的保护范围之内。

根据任意两视频之间的综合相似度，对所述视频进行聚类，这样就可以对数据库中的视频进行处理，将范围从数据库中的所有视频限定到聚类后生成的兴趣点中的视频范围，在后续进行兴趣点分布统计的时候，就大大减少了计算量，提高了推荐效率。

所述基于综合相似度矩阵的行和列分别用视频ID表示，并且因为所获得的数据使对称分布的，所以只需要构建上对角线或下对角线的数据即可，两个相同视频之间的相似度值默认为1。

这里以表10来说明对基于综合相似度矩阵的含义，表10仅仅是对基于综合相似度矩阵的含义进行说明，仅仅是一种示例。

	v0001	v0002	…	v0011	…
						v0001	1	sim(p0001,p0002)	…	sim(p0001,p0011)	…
v0002	-	1	…	sim(p0002,p0011)	…
						…	-	-	1	…	…
v0011	-	-	-	1	…
						…	-	-	-	-	1

表10

具体地，通过K-means聚类方法根据所述综合相似度矩阵，对所述视频进行聚类，获得多个兴趣点。

K-means算法，也被称为K-平均或K-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类内紧凑，类间独立。

在计算数据样本之间的距离时，可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量，其中最常用的是欧式距离。

具体地，在本发明实施例中，用1减去两个视频之间的综合相似度的值来表示两个视频之间的距离。

下面举例说明：

综合相似度矩阵如表11所示，作为一个聚类分析的二维样本，要求的簇的数量k＝2。

需要说明的是：真实的综合相似度矩阵具有百万级的维度，下述的表11仅仅是对综合相似度矩阵的含义进行说明，仅仅是一种示例。

	v0001	v0002	v0003	v0004	v0005
						v0001	1	0.88	0.75	0.31	0.37
v0002	-	1	0.28	0.63	0.59
						v0003	-	-	1	0.49	0.61
v0004	-	-	-	1	0.77
						v0005	-	-	-	-	1

表11

(1)、随机选择视频v0001及视频v0002作为聚类簇中心；

(2)、分别计算其余视频与视频v0001及视频v0002的距离，如果该视频与视频v0001的距离近于与视频v0002的距离，则将该视频置入到视频v0001的簇中。具体地，通过计算1与两个视频之间的综合相似度的差值作为两个视频之间的距离。参照表11，视频v0003与视频v0001之间的距离为1-0.75＝0.25，视频v0003与视频v0002之间的距离为1-0.28＝0.72，因为0.25<0.72，所以，视频v0003到视频v0001的距离近于视频v0003到视频v0002的距离，则把视频v0003置入到视频v0001的簇中。同理，视频v0004到视频v0001的距离为1-0.31＝0.69，视频v0004到视频v0002的距离为1-0.63＝0.37，因为0.37<0.69，所以，视频v0004到视频v0002的距离近于视频v0004到视频v0001的距离，则把视频v0004置入到视频v0002的簇中。视频v0005到视频v0001的距离为1-0.37＝0.63，视频v0005到视频v0002的距离为1-0.59＝0.41，因为0.41<0.63，所以，视频v0005到视频v0002的距离近于视频v0005到视频v0001的距离，则把视频v0005置入到视频v0002的簇中。自此，更新后的聚类簇为{v0001,v0003}和{v0002,v0004,v0005}。

(3)、计算新的聚类中心：视频v0001到视频v0003的距离为1-0.75＝0.25，随机选择视频v0001作为聚类簇中心；视频v0002到视频v0004视频v0005的距离为((1-0.63)+(1-0.59))/2＝0.39，视频v0004到视频v0002视频v0005的距离为((1-0.63)+(1-0.77))/2＝0.3，v5到v2v4距离为((1-0.59)+(1-0.77))/2＝0.32，因为视频v0004到其余两个视频之间的距离最近，所以选择视频v0004作为聚类簇中心。

(4)、重复步骤(2)，分别计算其余视频与新的聚类簇中心视频v0001及视频v0004的距离，如果该视频与视频v0001的距离近于与视频v0004的距离，则将该视频置入到视频v0001的簇中。参照表11，视频v0002与视频v0001之间的距离为1-0.88＝0.12，视频v0002与视频v0004之间的距离为1-0.63＝0.37，因为0.12<0.37，所以，视频v0002到视频v0001的距离近于视频v0002到视频v0004的距离，则把视频v0002置入到视频v0001的簇中。同理，视频v0003到视频v0001的距离为1-0.75＝0.25，视频v0003到视频v0004的距离为1-0.49＝0.51，因为0.25<0.51，所以，视频v0003到视频v0001的距离近于视频v0003到视频v0004的距离，则把视频v0003置入到视频v0001的簇中。视频v0005到视频v0001的距离为1-0.37＝0.63，视频v0005到视频v0004的距离为1-0.77＝0.23，因为0.23<0.63，所以，视频v0005到视频v0004的距离近于视频v0005到视频v0001的距离，则把视频v0005置入到视频v0004的簇中。自此，更新后的聚类簇为{v0001,，v0002，v0003}和{v0004,v0005}。

(5)重复执行步骤(3)和步骤(4)，直到迭代次数达到预设值，或重新计算的各聚类簇中心不再改变，则结束。其中，预设值可以设为100次。

按照上述的聚类方式，可以根据所有获得的两视频之间的综合相似度，将所有视频聚类为多个兴趣点，将相似度高的视频聚类为一个兴趣点。

步骤104、基于多用户的视频推荐装置根据所述用户对视频历史操作信息，统计每个用户的历史操作视频在划分时间段所属的兴趣点。

具体地，根据每个用户操作历史视频的时间，统计每个用户的历史操作视频在划分时间段所属的兴趣点，对该时间段的兴趣点次数进行累计，生成时间段-兴趣点列表。

示例性的，将时间段划分为24个时间段，从0点到24点，每一小时为一个时间段，如0点-1点，8-9点，20-21点。聚类后生成的多个兴趣点作为兴趣点和划分的时间段生成时间段-兴趣点列表。

本发明实施例以聚类生成12个兴趣点为例进行说明。

示例性的，查看某一用户的历史操作信息，如该用户于2015年10月1日晚20时点击观看影片v0030，而影片v0030属于第7个兴趣点(聚类簇)，则在建立的列表中，对应时间段20-21点，第7个兴趣点的位置数值加一，按照这种方式，统计该用户的所有历史操作信息，得到每个兴趣点在各个时间段上的频率分布即兴趣点次数分布。

根据这种方式，可以获得每个用户在各个时间段的兴趣点分布情况，进而了解每个用户在各个时间段的喜好。

这里以表12来说明时间段-兴趣点列表的含义，需要说明的是：表12仅仅是一种示例。

表12

步骤105、基于多用户的视频推荐装置根据所述兴趣点分布，为每个用户生成推荐列表。

具体地，根据所述兴趣点分布，确定推荐的兴趣点，计算所述推荐的兴趣点中未观看视频与已操作视频的相似度，对所述相似度进行排序，根据预先确定的推荐个数生成推荐列表。

具体地，对所述兴趣点进行排序，根据预先确定的推荐个数确定推荐的兴趣点。

具体地，可以根据预先确定的推荐个数从确定推荐的兴趣点中按照比例选取视频，生成推荐列表进行推荐。

具体地，所述未观看视频与已操作视频的相似度为：未观看视频与已操作视频之间的平均相似度。所述已操作视频包括每个用户点击过的视频或点击收藏过的视频或点击购买过的视频。

示例性的，假如需要提供某一用户19时的推荐列表，那么首先根据统计的兴趣点分布情况，查看该用户在19时兴趣点分布情况，对兴趣点进行排序，按照数值大小的顺序，根据需要推荐的视频个数来确定兴趣点。以表12为例，该用户在19时的兴趣点分布，对12个兴趣点按照数值大小进行排序，其中兴趣点10、兴趣点11、兴趣点8、兴趣点6、兴趣点1排在前5位。若需要给该用户推荐20个视频，可以从排名前两位的兴趣点10、兴趣点11中选取，根据兴趣点10和兴趣点11比例确定分别从中选取的视频个数，比如排名第一的兴趣点10数值为144，排名第二的兴趣点11数值为96，将统计的19时两个兴趣点数值分别相除所得比例为从两个兴趣点中选取视频比例，来选取视频，比如144/96＝3:2，则按照3:2的比例，从兴趣点10中选取12个平均相似度排在前12位的视频，从兴趣点11中选取8个平均相似度排在前8位的视频，一起生成推荐列表，为该用户进行推荐。

根据这种方式，可以得到每个用户在每个时间段的推荐列表，继而为每个用户进行推荐，这样准确度就大大提高了，用户体验也会更好。

需要说明的是：这种按照统计的兴趣点数值比例从确定推荐的兴趣点中选取视频的方式只是一种实施例而已，本发明实施例不限于这种方式，也可以采用其他的方式进行视频的选取，比如根据推荐视频的个数从排名最高的兴趣点中选取平均相似度最高的推荐视频个数的视频来作为最终推荐视频生成推荐列表。

凡是本领域技术人员不需要进行创造性劳动可想到的变形均在本发明的保护范围之内。

示例性的，未观看视频与已操作视频之间的平均相似度的计算方式为：根据每个用户的历史操作信息，获取到每个用户的操作视频的集合，再根据之前所获取的任意两视频之间的相似度，从兴趣点中每个用户未观看视频中计算每个未观看视频与已操作视频之间的平均相似度。

参考表11，如某一用户未观看视频集合有{v0002，v0004，v0005}，已操作视频集合为{v0001，v0003}，根据表11中计算的任意两视频之间的综合相似度，得到v0002与已操作视频的平均相似度为：(0.88+0.28)/2＝0.58，v0004与已操作视频的平均相似度为：(0.31+0.49)/2＝0.4，v0005与已操作视频的平均相似度为：(0.37+0.61)/2＝0.49，则平均相似度排序为v0002与已操作视频的平均相似度>v0005与已操作视频的平均相似度>v0004与已操作视频的平均相似度。

后续进行推荐的时候，可以根据当前观看视频的用户的不同，选择其在该时间段对应的推荐列表对其进行推荐。

其中，确定当前观看视频的用户的方式可以依据现有技术中确定观看用户的方式进行，如采用人脸识别的技术，如采用账户登录的方式，也可采用其他的方式，此处不再详细赘述。

本发明实施例所提供的基于多用户的视频推荐方法，根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度，并根据得到的任意两视频之间的第一相似度和第二相似度得到任意两视频之间综合的相似度，根据所述任意两视频之间的综合相似度，对所述视频进行聚类，可以获得多个兴趣点，每个兴趣点代表一个聚类簇，相似度高的视频可以被聚类在一起，形成一个聚类簇，表征用户的喜好，再根据每个用户对视频的历史操作信息，可以对每个用户的历史操作信息中操作视频的时间点和操作视频分别所属的时间段和兴趣点进行统计，这样就了解了当每个用户在各个时间段的喜好，那么就可以根据每个用户在各个时间段的兴趣点分布情况进行兴趣点中视频的选取，进而根据选取的视频生成推荐列表为用户进行推荐。因为该方法可以针对每个用户的历史操作记录对每个用户在各个时间段的喜好情况进行了解，进而针对每个用户在各个不同时间段的兴趣和爱好生成其喜欢的视频的推荐列表进行推荐，所以满足了多用户对于推荐的需求，提高了对于多用户推荐的准确性，对于多用户来说用户体验更好。并且，由于用户操作类型权重反映了用户对视频的喜好度，用户对视频历史操作是视频在实际应用场景中场景特性的直接体现，因此得到的任意两视频之间的综合相似度包含了基于用户操作行为的视频间的相似度，反映视频在具体场景中的相关度，而根据任意两视频之间的综合相似度，对所述视频进行聚类，可以把因为具体应用场景关联在一起和视频本身相似度高的视频聚集在一起，从而为后续推荐提供了结合用户行为和应用场景的视频间的关联性数据和与视频本身相似的数据，使得聚类后的兴趣点中的视频数据更加全面，避免了对单一视频相似度进行聚类导致的从兴趣点中选取用户喜欢视频信息不全面的问题，推荐准确性更高。另一方面，根据任意两视频之间的综合相似度，对所述视频进行聚类，在对每个用户在每个时间段的操作视频情况进行统计的时候，范围限定到聚类后生成的兴趣点中的视频，相比于对所有数据库中的视频进行统计，大大减少了计算量，提高了推荐效率。

另一方面，本发明实施例还提供了一种基于多用户的视频推荐装置，该装置用于实现上述的基于多用户的视频推荐方法，如图2所示，该装置包括：相似度计算模块，综合模块，聚类模块，统计模块，推荐模块，其中：

相似度计算模块，用于根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度；

优选地，该基于多用户的视频推荐装置中的推荐模块中根据所述兴趣点分布，为每个用户生成推荐列表具体为：根据所述兴趣点分布，确定推荐的兴趣点，计算所述推荐的兴趣点中未观看视频与已操作视频的相似度，对所述相似度进行排序，根据预先确定的推荐个数生成推荐列表。

优选地，所述推荐的兴趣点中未观看视频与已操作视频之间的相似度为未观看视频与已操作视频之间的平均相似度。

优选地，该基于多用户的视频推荐装置中的统计模块中所述根据所述用户对视频历史操作信息，统计每个用户的历史操作视频在划分时间段所属的兴趣点具体为：根据每个用户操作历史视频的时间，统计每个用户的历史操作视频在划分时间段所属的兴趣点，对该时间段的兴趣点次数进行累计，生成时间段-兴趣点列表。

优选地，该基于多用户的视频推荐装置中的推荐模块中所述根据所述兴趣点分布，确定推荐的兴趣点具体为：对所述兴趣点进行排序，根据预先确定的推荐个数确定推荐的兴趣点。

优选地，所述相似度计算模块中第二相似度计算方式具体为：根据所述视频信息和预设用户操作类型权重，生成用户-视频矩阵，根据所述用户-视频矩阵，获得每个视频第二特征向量，根据第二相似度计算公式计算任意两视频之间的第二相似度，其中，第二相似度计算公式为：

{sim}_{p}^{'} (v 1, v 2) = c o s < {p_{v 1}}^{'}, {p_{v 2}}^{'} > = \frac{{p_{v 1}}^{'} \cdot {p_{v 2}}^{'}}{| | {p_{v 1}}^{'} | | \cdot | | {p_{v 2}}^{'} | |},

优选地，通过设置融合因子来对任意两视频之间的第一相似度和第二相似度进行融合，生成任意两视频之间的综合相似度。

融合公式为：sim(v1,v2)＝αsim_p(v1,v2)+(1-α)sim_q(v1,v2)，其中α为融合因子，sim_p(v1,v2)为视频v1和视频v2之间的第一相似度，sim_q(v1,v2)为视频v1和视频v2之间的第二相似度。

其中，α变量用来平衡第一相似度及第二相似度的权重，它的值可以通过经验设置初始值，并根据后续反馈结果调节，如果后续反馈结果，用户观看视频偏向基于视频本身特性相似的视频，则可以把α变量设置的大一些，如果用户观看视频偏向具体应用场景关联的视频，则可以把α变量设置的小一些。

本发明实施例所提供的基于多用户的视频推荐装置，根据视频信息及预设用户操作类型权重，计算任意两视频之间的第一相似度和第二相似度，并根据得到的任意两视频之间的第一相似度和第二相似度得到任意两视频之间综合的相似度，根据所述任意两视频之间的综合相似度，对所述视频进行聚类，可以获得多个兴趣点，每个兴趣点代表一个聚类簇，相似度高的视频可以被聚类在一起，形成一个聚类簇，表征用户的喜好，再根据每个用户对视频的历史操作信息，可以对每个用户的历史操作信息中操作视频的时间点和操作视频分别所属的时间段和兴趣点进行统计，这样就了解了当每个用户在各个时间段的喜好，那么就可以根据每个用户在各个时间段的兴趣点分布情况进行兴趣点中视频的选取，进而根据选取的视频生成推荐列表为用户进行推荐。因为该方法可以针对每个用户的历史操作记录对每个用户在各个时间段的喜好情况进行了解，进而针对每个用户在各个不同时间段的兴趣和爱好生成其喜欢的视频的推荐列表进行推荐，所以满足了多用户对于推荐的需求，提高了对于多用户推荐的准确性，对于多用户来说用户体验更好。并且，由于用户操作类型权重反映了用户对视频的喜好度，用户对视频历史操作是视频在实际应用场景中场景特性的直接体现，因此得到的任意两视频之间的综合相似度包含了基于用户操作行为的视频间的相似度，反映视频在具体场景中的相关度，而根据任意两视频之间的综合相似度，对所述视频进行聚类，可以把因为具体应用场景关联在一起和视频本身相似度高的视频聚集在一起，从而为后续推荐提供了结合用户行为和应用场景的视频间的关联性数据和与视频本身相似的数据，使得聚类后的兴趣点中的视频数据更加全面，避免了对单一视频相似度进行聚类导致的从兴趣点中选取用户喜欢视频信息不全面的问题，推荐准确性更高。另一方面，根据任意两视频之间的综合相似度，对所述视频进行聚类，在对每个用户在每个时间段的操作视频情况进行统计的时候，范围限定到聚类后生成的兴趣点中的视频，相比于对所有数据库中的视频进行统计，大大减少了计算量，提高了推荐效率。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(RandomAccessMemory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于多用户的视频推荐方法，其特征在于，包括以下步骤：

根据所述兴趣点分布，为每个用户生成推荐列表。

2.根据权利要求1所述的基于多用户的视频推荐方法，其特征在于，所述根据所述兴趣点分布，为每个用户生成推荐列表具体为：根据所述兴趣点分布，确定推荐的兴趣点，计算所述推荐的兴趣点中未观看视频与已操作视频的相似度，对所述相似度进行排序，根据预先确定的推荐个数生成推荐列表。

3.根据权利要求1所述的基于多用户的视频推荐方法，其特征在于，所述第一相似度具体计算方式为：根据所述视频属性信息，得到每个视频的词频和逆文档频率因子，根据所述每个视频的词频和逆文档频率因子，获得每个视频第一特征向量，根据相似度计算公式计算任意两视频之间的第一相似度，其中，第一相似度计算公式为：，为视频第一特征向量，为视频第一特征向量。

4.根据权利要求1所述的基于多用户的视频推荐方法，其特征在于，所述任意两视频之间的第二相似度具体计算方式为：根据所述视频信息和预设用户操作类型权重，生成用户-视频矩阵，根据所述用户-视频矩阵，获得每个视频第二特征向量，根据第二相似度计算公式计算任意两视频之间的第二相似度，其中，第二相似度计算公式为：，为视频第二特征向量，为视频第二特征向量。

5.根据权利要求4所述的基于多用户的视频推荐方法，其特征在于，所述根据所述视频信息和预设用户操作类型权重，生成用户-视频矩阵具体为：统计每个用户对每个视频操作类型及操作次数，每个用户对每个视频操作类型次数乘以预设的对应操作类型权重，求和并归一化处理得到用户-视频矩阵。

6.根据权利要求1所述的基于多用户的视频推荐方法，其特征在于，所述用户操作类型为点击、收藏、购买。

7.根据权利要求1所述的基于多用户的视频推荐方法，其特征在于，所述根据所述用户对视频历史操作信息，统计每个用户的历史操作视频在划分时间段所属的兴趣点具体为：

根据每个用户操作历史视频的时间，统计每个用户的历史操作视频在划分时间段所属的兴趣点，对该时间段的兴趣点次数进行累计，生成时间段-兴趣点列表。

8.一种基于多用户的视频推荐装置，其特征在于，包括：

9.根据权利要求8所述的基于多用户的视频推荐装置，其特征在于，所述相似度计算模块中第二相似度计算方式具体为：根据所述视频信息和预设用户操作类型权重，生成用户-视频矩阵，根据所述用户-视频矩阵，获得每个视频第二特征向量，根据第二相似度计算公式计算任意两视频之间的第二相似度，其中，第二相似度计算公式为：，为视频第二特征向量，为视频第二特征向量。

10.根据权利要求8所述的基于多用户的视频推荐装置，其特征在于，所述统计模块中所述根据所述用户对视频历史操作信息，统计每个用户的历史操作视频在划分时间段所属的兴趣点具体为：