CN104506895A

CN104506895A - 视频归类方法

Info

Publication number: CN104506895A
Application number: CN201410800808.8A
Authority: CN
Inventors: 庞斌; 卢学裕; 严金龙; 王晓龙; 姚键; 潘柏宇; 卢述奇
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: Alibaba China Co Ltd; Youku Network Technology Beijing Co Ltd
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2015-04-08
Anticipated expiration: 2034-12-22
Also published as: CN104506895B

Abstract

本发明公开了一种视频归类方法，包括：搜集用户在终端处理视频时的用户行为数据；依据所述用户行为数据产生视频推荐列表，其中所述视频推荐列表包括多个视频的推荐列表和对应的第二推荐权重；利用所述视频推荐列表获得所述多个视频的每两个相互间的第三推荐权重；以及当所述第三推荐权重超过第一阈值时，将所述两个视频进行合并形成第一视频圈，直至所述第一视频圈没有可以合并的其他视频。本发明可将单个视频通过用户行为数据组成视频圈，这样就将语义上相关的视频组成了一个一个的视频圈；可进一步将视频圈进行合并，这样就将语义上相关的视频圈进一步进行合并，增加了视频的扩展性；无需人工参与分类，大大节约了人力成本。

Description

视频归类方法

技术领域

本发明涉及视频处理方法，更具体地，涉及视频的归类方法。

背景技术

在当今信息呈爆发式增长的时代，用户在访问网络、观看电视等过程中，向用户自动推荐其感兴趣的视频可方便用户的操作，并增强其体验度，还可有效地帮助视频的拥有者进行宣传和推广。因此，如何将视频归类，是本领域技术人员关注的一个问题。

目前存在多种归类视频的技术方案，这些技术方案可概括为两种：一种是基于用户观看的行为归类视频；一种是基于资源内容归类视频。这些技术方案是以行为相关性或者内容相关性为设计核心。其中，基于用户观看行为归类视频的技术方案是以用户观看行为的行为相关性对视频进行归类。例如，三个关于宝宝搞笑的视频：第一个：Baby的有趣表情；第二个：可爱宝宝，好搞笑！！！第三个：爆笑！1岁宝宝超强的下楼梯方式。很多用户看完第一个后又看了第二个，或者看完第二个后又看了第一个，通过这些用户行为，分析得出这两个视频具有行为相关性。但是这种方法没有考虑到视频其内容本身，因此很容易造成归类出的视频的内容呈现多样性，归类的视频的内容之间缺乏相关性，从而造成归类准确性降低。基于视频的内容归类视频的技术方案是以视频的内容相关性对视频进行归类。例如，在上述三个关于宝宝的搞笑视频中，第二个和第三个根据其视频标题都包含“宝宝”而得出两者之间具有内容相关性。但该技术方案没有考虑用户行为这一因素，因此很容易使得归类出的视频的内容单一，对于不同的用户，可能归类的视频比较相似甚至相同。

因此，需要一种新的视频的归类方法以解决所述问题。

发明内容

有鉴于此，本发明提供一种视频归类方法，其特征在于，包括：

搜集用户在终端处理视频时的用户行为数据；

依据所述用户行为数据产生视频推荐列表，其中所述视频推荐列表包括多个视频的推荐列表和对应的第二推荐权重；

利用所述视频推荐列表获得所述多个视频的每两个相互间的第三推荐权重；以及

当所述第三推荐权重超过第一阈值时，将所述两个视频进行合并形成第一视频圈，直至所述第一视频圈没有可以合并的其他视频。

优选地，其中，所述视频归类方法进一步包括：

将所述每个第一视频圈再依据第四推荐权重进行合并形成第二视频圈，直至所述第二视频圈没有可以合并的其他第一视频圈。

优选地，其中，搜集预定时间段的所述用户行为数据。

优选地，其中，所述用户对于所述视频的处理方式是“观看”时，所述用户行为数据包括观看的视频的视频时长和视频被播放的播放时长。

优选地，其中，通过所述用户行为数据得到观看顺序及播放完成率，计算影响步长下的视频之间的推荐关系和第一推荐权重，其中，所述播放完成率等于所述播放时长除以所述视频时长，所述第一推荐权重为所述推荐关系所包括的所有视频的所述播放完成率的乘积。

优选地，其中，所述用户为多个用户，综合所有用户的所述影响步长下的视频之间的所述推荐关系和所述第一推荐权重，得到所观看的每个视频的所述推荐视频和对应的所述第一推荐权重，对该对应的所述第一推荐权重取均值，得到所述第二推荐权重。

优选地，其中，所述多个视频包括第一视频和第二视频，所述第三推荐权重等于所述第一视频的所述推荐列表中的所述第二视频的所述第二推荐权重加上所述第二视频的所述推荐列表中所述第一视频的所述第二推荐权重。

优选地，其中，所述第一视频圈包括第一第一视频圈和第二第一视频圈，所述第四推荐权重等于所述第一第一视频圈中每个视频分别与所述第二第一视频圈中每个视频的视频相互间的所述第三推荐权重的总和除以所述第一第一视频圈中视频的数目，再除以所述第二第一视频圈中视频的数目。

优选地，其中，使用所述第一阈值来判断是否合并所述第一视频圈。

优选地，其中，使用不同于所述第一阈值的第二阈值来判断是否合并所述第一视频圈。

本发明提出的视频归类方法，具有以下优点：

1）可将单个视频通过用户行为数据组成视频圈，这样就将语义上相关的视频组成了一个一个的视频圈；

2）可进一步将视频圈进行合并，这样就将语义上相关的视频圈进一步进行合并，增加了视频的扩展性；

3）无需人工参与分类，大大节约了人力成本。

当然，实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为依据本发明一实施例的视频归类方法。

图2为依据本发明另一实施例的视频归类方法。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

在本发明的实施方式中，视频圈是指同一类型的视频所形成的集合。例如，依据视频的内容，可将视频分为以下类型：影视型、学习型、游戏型、美食型、保健型和/或社交型等等。影视型的视频形成的集合便称作影视资源圈、学习型的视频形成的集合便称作学习资源圈、美食型的视频形成的集合便称作美食资源圈、以此类推。

图1为依据本发明一实施例的视频归类方法。如图1所示，该视频归类方法包括以下步骤。

步骤101，在步骤101中，搜集用户在终端处理视频时的用户行为数据。

请注意的是，在本发明的实施例中，终端可以是通信终端、上网终端、音频/视频播放终端，例如可以是PDA、 MID和/或具有音频、视频播放功能的移动电话，还可以是台式电脑、笔记本型电脑、掌上电脑、智能电视、机顶盒等设备等。

用户的处理方式包括观看、搜索、收藏、评论、分享等。用户行为数据包括行为日志。例如，行为日志中包括用户cookie、用户ID等字段；行为日志还可进一步包括用户对于视频的处理方式（例如，观看、搜索、收藏、评论或分享）。在本发明的一实施例中，若用户对于视频的处理方式是“观看”时，行为日志还可进一步包括所处理（例如观看）的视频的播放情况（例如，视频时长、视频被播放的播放时长等）、所处理的视频的数量（例如，用户观看了1部电影、收听了3首歌曲等）等等。

在本发明的一实施例中，可以搜集预定时间段的用户行为数据。该预定时间段可以为24小时、36小时、48小时等等，本发明并不限制预定时间段的具体数值。所属技术领域的技术人员应可理解，预定时间段越长，用户行为数据就会越多，这将提高视频归类的准确度，但相应的也会增加视频归类方法的计算复杂度。

步骤102，在步骤102中，依据用户行为数据产生视频推荐列表。

依据预定时间段内的用户行为数据产生视频推荐列表。例如，预定时间段被预设为24小时，统计这24小时中用户的观看视频的行为。以用户A和用户B两个用户为例，用户A在24小时内观看视频如下：视频A-> 视频B-> 视频C->视频D；用户B在24小时内观看视频如下：视频A-> 视频C-> 视频D->视频B->视频E。其中，用户A的用户行为数据表明视频A的播放完成率为P1、视频B的播放完成率为P2、视频C的播放完成率为P3、视频D的播放完成率为P4；用户B的用户行为数据表明视频A的播放完成率为P5、视频C的播放完成率为P6、视频D的播放完成率为P7、视频B的播放完成率为P8、视频E的播放完成率为P9。其中，在本发明的实施例中，播放完成率等于播放时长除以视频时长。设定视频的影响步长，其表示用户观看视频顺序中的两个视频之间的间隔。例如，影响步长为1，表示两个视频相邻；影响步长为2，表示两个视频中间隔有另一个视频，以此类推。

通过用户行为数据得到观看顺序及视频播放完成率，并设定影响步长的最大值，计算该最大值之内（包括该最大值）的影响步长下的视频之间的推荐关系和第一推荐权重。在本发明的一实施例中，设定该最大值为2，计算推荐关系和第一推荐权重的方法如下：

对于用户A，影响步长为1时，依据视频观看顺序，在预定时间（例如24小时）所观看视频之间的推荐关系如下：视频A-> 视频B；视频B-> 视频C；视频C->视频D。第一推荐权重为推荐关系所包括的所有视频的播放完成率的乘积。因此，视频A-> 视频B的第一推荐权重为P1*P2；视频B-> 视频C的第一推荐权重为P2*P3；视频C->视频D的第一推荐权重为P3*P4。

对于用户A，影响步长为2时，依据视频观看顺序，在预定时间（例如24小时）所观看视频之间的推荐关系如下：视频A-> 视频C；视频B->视频D。第一推荐权重为推荐关系所包括的所有视频的播放完成率的乘积。因此，视频A-> 视频C的第一推荐权重为P1*P2*P3；视频B-> 视频D的第一推荐权重为P2*P3*P4。

对于用户B，影响步长为1时，依据视频观看顺序，在预定时间（例如24小时）所观看视频之间的推荐关系如下：视频A-> 视频C；视频C-> 视频D；视频D->视频B; 视频B->视频E。第一推荐权重为推荐关系所包括的所有视频的播放完成率的乘积。因此，视频A-> 视频C的第一推荐权重为P5*P6；视频C-> 视频D的第一推荐权重为P6*P7；视频D->视频B的第一推荐权重为P7*P8；视频B->视频E的第一推荐权重为P8*P9。

对于用户B，影响步长为2时，依据视频观看顺序，在预定时间（例如24小时）所观看视频之间的推荐关系如下：视频A-> 视频D；视频C-> 视频B；视频D->视频E。第一推荐权重为推荐关系所包括的所有视频的播放完成率的乘积。因此，视频A-> 视频D的第一推荐权重为P5*P6*P7；视频C-> 视频B的第一推荐权重为P6*P7*P8；视频D->视频E的第一推荐权重为P7*P8*P9。

综合通过所有用户产生的最大（包括该最大）值之内的影响步长下的视频之间的推荐关系和第一推荐权重，得到所观看的每个视频的推荐视频和对应的第一推荐权重，对该对应的第一推荐权重取均值，得到该被推荐视频的第二推荐权重，该推荐关系和第二推荐权重则组成视频推荐列表。以所有用户为上述的用户A和用户B为例，并假设影响步长的最大值为2。通过用户A和用户B的用户行为数据得到视频A、视频B、视频C、视频D和视频E的推荐视频和对应的第一推荐权重，例如对于用户A而言，视频A-> 视频C的第一推荐权重为P1*P2*P3，对于用户B而言，视频A-> 视频C的第一推荐权重为P5*P6，对视频A-> 视频C的第一推荐权重取均值，即：(p1*p2*p3+ p5*p6)/2，该均值则为视频A-> 视频C的第二推荐权重。以此类推，并代入p1~p9的具体值，可得到视频推荐列表，例如如下的表1。

表1

视频A的推荐列表

第二推荐权重

视频B的推荐列表

第二推荐权重

视频C的推荐列表

第二推荐权重

…

B

0.62

D

0.51

D

0.47

…

C

0.27

A

0.56

E

0.11

…

E

0.09

C

0.19

B

0.36

…

从上述视频推荐列表中可以获得两两视频相互之间的第三推荐权重，例如视频A和视频B的第三推荐权重=视频A的推荐列表中的B的第二推荐权重+ 视频B的推荐列表中A的第二推荐权重，若推荐列表中不存在推荐关系，则值为零。

从上述视频推荐列表中可得出，推荐列表中的视频不一定包含相同的关键字，但是却有语义上的相关性（因为根据用户的用户行为数据统计出的推荐关系）。

如本领域技术人员所了解的，可依据设计的需要，灵活改变预定时间段的数值、影响步长的最大值的数值、所有均等性改变均属于本发明的保护范畴。

步骤103，在步骤103中，利用视频推荐列表进行视频的聚类操作，用以形成视频圈。在本发明的一实施例中，利用视频之间的推荐权重，进行从底向上聚类，具体如下：

计算视频推荐列表中每个视频关系相近的视频，其中该相近关系可以通过视频相互间的第三推荐权重表示，当该第三推荐权重超过第一阈值时，将两个视频合并为一个视频圈（称做第一视频圈）。以此类推，将每个视频进行合并，直至新合并的视频圈（第一视频圈）没有可以合并的其他视频。其中，该第三推荐权重可由步骤102中获得的视频推荐列表得到。

参考表1举例而言，假设第一阈值为0.4，视频推荐列表包括视频A、视频B、视频C，通过视频A和视频B的视频推荐列表可知，视频A和视频B相互的推荐权重为0.62+0.56=1.18，该推荐权重超过第一阈值，因此，视频A和视频B合并为视频圈A1。假设此时视频A与其他视频相互的推荐权重不超过第一阈值，则停止合并与视频A有关的视频。由于视频圈A1包括视频B，因此，通过视频B和视频C的视频推荐列表可知，视频B和视频C相互的推荐权重为0.19+0.36=0.55，该推荐权重超过第一阈值，因此，将视频C合并入视频圈A1形成视频圈A2。以此类推，将每个视频进行合并，直至新合并的视频圈（第一视频圈）没有可以合并的其他视频。

如本领域技术人员所了解的，可依据设计的需要，灵活改变第一阈值的数值、所有均等性改变均属于本发明的保护范畴。

通过图1所示的视频归类方法，可将单个视频通过用户行为数据组成视频圈。这样就将语义上相关的视频组成了一个一个的视频圈。

图2为依据本发明一实施例的视频归类方法。如图2所示，该视频归类方法与图1所示的方法相比，多了步骤204。

步骤204，将步骤203得到的第一视频圈再依据第四推荐权重进行合并，以此类推，将每个第一视频圈进行合并，直至新合并的视频圈（第二视频圈）没有可以合并的的其他第一视频圈。

在本发明的一实施例中，假如通过步骤203得到两个合并后的第一视频圈A2和A3。其中第一视频圈A2包括视频A、视频B、视频C；第一视频圈A3包括视频D、视频E。第一视频圈A2和A3之间的第四推荐权重等于第一视频圈A2中每个视频分别与第一视频圈A3中每个视频的视频相互间的第三推荐权重的总和除以第一视频圈A2中视频的数目，再除以第一视频圈A3中视频的数目。即，第一视频圈A2和A3之间的第四推荐权重= ( (视频A和视频D间第三推荐权重+视频B和视频D间第三推荐权重+视频C和视频D间第三推荐权重+视频A和视频E间第三推荐权重+视频B和视频E间第三推荐权重+视频C和视频E间第三推荐权重)/2)/3。

得到第二视频圈之间的上述第四推荐权重之后，再利用步骤203中类似的原则进行合并。在本发明的一实施例中，使用第一阈值进行判断是否合并，在本发明的另一实施例中，可使用不同于第一阈值的第二阈值来判断是否合并。直至第二视频圈没有满足合并条件的关系相近的其他视频圈。

通过图2所示的视频归类方法，可进一步将视频圈进行合并。这样就将语义上相关的视频圈进一步进行合并，增加了视频的扩展性。

除此之外，图1和图2所示的视频归类方法无需人工参与分类，大大节约了人力成本。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者系统中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种视频归类方法，其特征在于，包括：

搜集用户在终端处理视频时的用户行为数据；

2. 如权利要求1所述的视频归类方法，其特征在于，所述视频归类方法进一步包括：

3. 如权利要求1所述的视频归类方法，其特征在于，搜集预定时间段的所述用户行为数据。

4. 如权利要求1所述的视频归类方法，其特征在于，所述用户对于所述视频的处理方式是“观看”时，所述用户行为数据包括观看的视频的视频时长和视频被播放的播放时长。

5. 如权利要求4所述的视频归类方法，其特征在于，通过所述用户行为数据得到观看顺序及播放完成率，计算影响步长下的视频之间的推荐关系和第一推荐权重，其中，所述播放完成率等于所述播放时长除以所述视频时长，所述第一推荐权重为所述推荐关系所包括的所有视频的所述播放完成率的乘积。

6. 如权利要求5所述的视频归类方法，其特征在于，所述用户为多个用户，综合所有用户的所述影响步长下的视频之间的所述推荐关系和所述第一推荐权重，得到所观看的每个视频的所述推荐视频和对应的所述第一推荐权重，对该对应的所述第一推荐权重取均值，得到所述第二推荐权重。

7. 如权利要求1所述的视频归类方法，其特征在于，所述多个视频包括第一视频和第二视频，所述第三推荐权重等于所述第一视频的所述推荐列表中的所述第二视频的所述第二推荐权重加上所述第二视频的所述推荐列表中所述第一视频的所述第二推荐权重。

8. 如权利要求2所述的视频归类方法，其特征在于，所述第一视频圈包括第一第一视频圈和第二第一视频圈，所述第四推荐权重等于所述第一第一视频圈中每个视频分别与所述第二第一视频圈中每个视频的视频相互间的所述第三推荐权重的总和除以所述第一第一视频圈中视频的数目，再除以所述第二第一视频圈中视频的数目。

9. 如权利要求8所述的视频归类方法，其特征在于，使用所述第一阈值来判断是否合并所述第一视频圈。

10. 如权利要求8所述的视频归类方法，其特征在于，使用不同于所述第一阈值的第二阈值来判断是否合并所述第一视频圈。