CN106921867A

CN106921867A - 一种视频代表性图片、片段确定方法和装置

Info

Publication number: CN106921867A
Application number: CN201510997707.9A
Authority: CN
Inventors: 姜任帮
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2017-07-04

Abstract

本发明实施例提供了一种视频代表性图片、片段确定方法和装置，其中的方法包括：根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略，将关键度最高的图片确定为所述视频的代表性图片，这样，能够完全依据观众的需要为出发点，以一种科学的方法来确定视频的代表性图片，且在代表性图片的确定过程中，并不要人工参与，实现方式简单、便捷。

Description

一种视频代表性图片、片段确定方法和装置

技术领域

本发明涉及多媒体技术领域，特别是涉及一种视频代表性图片、片段确定方法和装置。

背景技术

随着多媒体技术的飞速发展，各种终端，如，个人电脑PC、平板电脑PAD、智能手机已经成为了人们生活中的重要组成部分。而通观看视频也成为了各种终端的主要用途。

目前，各种各样的视频提供平台能够为用户提供大量可供观看、下载的内容，然而大量的内容中，用户除了根据平时获取的一些信息来选择观看哪些视频之外，就只能通过视频提供平台所提供的视频信息，如：名称、简介等来对视频内容有一个大致的了解，从而对是否关注或观看该视频做出选择，但是，这种方式仍然不够直观，用户往往没有充足时间逐个了解视频的信息。

视频提供平台通常会在展示视频资源时，同时显示视频的代表性图片、或者进一步提供视频的代表性片段供用户查看，而大多数的用户也会选择通过这种直观的方式来了解视频内容，并选择是否观看，因此，视频的代表性图片和片段的选择很大程度上能够影响一个视频的点击率。

申请号为201210006960.X的专利申请文件中公开了一种确定视频代表性图片(缩影)的方法，该方法通过结构化视频解析，在逻辑上将一部完整视频按照故事情况分为多个片段，由用户手动根据自身理解来确定出视频片段的一个或多个代表性图片。

显而易见的，上述方案在实现上需要借助人工操作来完成，费时费力，且主观色彩强，无法通过科学、易行的方法确定视频的代表性图片和片段。

发明内容

为了解决现有技术中无法通过科学、易行的方法确定视频的代表性图片和片段的问题，本发明实施例期望提供一种视频代表性图片、片段确定方法和装置。

依据本发明的一个方面，提供了一种视频代表性图片确定方法，包括：根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；将关键度最高的图片确定为所述视频的代表性图片。

根据本发明的另一方面，提供了一种视频代表性图片确定装置，包括：第一关键度确定模块和代表性图片确定模块；其中，所述第一关键度确定模块，用于根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；所述代表性图片确定模块，用于将关键度最高的图片确定为所述视频的代表性图片。

根据本发明的又一方面，提供了一种视频代表性片段确定方法，包括：根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；将关键度最高的视频片段确定为所述视频的代表性片段。

根据本发明的再一方面，提供了一种视频代表性片段确定装置，包括：第二关键度确定模块和代表性片段确定模块；其中，所述第二关键度确定模块，用于根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；所述代表性片段确定模块，用于将关键度最高的视频片段确定为所述视频的代表性片段。

本发明实施例至少具备以下优点：

本发明实施例所提供的一种视频代表性图片、片段确定方法和装置，根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略，将关键度最高的图片确定为所述视频的代表性图片，这样，能够提供一种科学的方法来确定视频的代表性图片，即，完全以观众的需要出发来进行视频代表性图片的确定，且在代表性图片的确定过程中，并不要人工参与，避免了用户主观意见造成的偏见，且实现方式简单、便捷。

附图说明

图1示出了本发明方法实施例一提供的一种视频代表性图片确定方法的步骤流程图；

图2示出了本发明方法实施例二提供的一种视频代表性片段确定方法实的步骤流程图；

图3示出了本发明装置实施例一提供的一种视频代表性图片确定装置的结构框图；

图4示出了本发明装置实施例一提供的一种视频代表性图片确定装置的一种优选结构框图；

图5示出了本发明装置实施例一提供的一种视频代表性图片确定装置的另一种优选结构框图；

图6示出了本发明装置实施例二提供的一种视频代表性片段确定装置的基本结构框图；

图7示出了本发明装置实施例二提供的一种视频代表性片段确定装置的一种优选结构框图；以及

图8示出了本发明装置实施例二提供的一种视频代表性片段确定装置的另一种优选结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

方法实施例一

参照图1，示出了本发明的一种视频代表性图片确定方法实施例的步骤流程图，具体可以包括：

步骤101、根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

这一步骤中，根据第一预设策略来确定视频中每一帧图片的关键度，因此，需要确定第一预设策略，而第一预设策略可以包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕策略；也就是，第一预设策略可以为上述三种策略其中之一、或任意策略之间的组合。在实际应用中，如何应用第一预设策略，其实可以根据视频提供平台的需要来进行设置和调整。

顾名思义，关注度策略是由用户对视频的关注度来作为视频中每一帧图片的关键度的衡量标准的，具体是指，用户对视频中的人，如：演员或表演者的关注度；音频分析策略，是由视频中某些特定音频，如，掌声和/或尖叫声的出现时间和音量大小来决定的；弹幕分析策略，是与视频播放过程中用户所发表的文字弹幕或声音弹幕的出现时间和数量相关的。

按照第一预设策略所包含的以上三种策略的个数，对于视频中每一帧图片的关键度的确定可以分为以下两种情况：

第一种情况：当所述第一预设策略包括所述策略其中之一时，所述根据第一预设策略确定视频中每一帧图片的关键度，包括：确定所述视频中每一帧图片在所述第一预设策略下的得分，将所述每一帧图片的得分确定为所述每一帧图片的关键度。

第二种情况：当所述第一预设策略包括所述策略中一种以上时，所述根据第一预设策略确定视频中每一帧图片的关键度，包括：确定每一帧图片在所述第一预设策略中每一种策略下得分的加权和；将所述每一帧图片的加权和确定为所述每一帧图片的关键度。

针对第一种情况，又可以细分为三种情况，即，当第一预设策略仅包含关注度策略时、当第一预设策略仅包含音频分析策略时、当第一预设策略仅包含弹幕分析策略时，也就是，第一预设策略为关注度策略、第一预设策略为音频分析策略、第一预设策略为弹幕分析策略。

以上三种情况下可以分别通过以下方式确定每一帧图片在相应策略下的得分：

一、通过以下方式确定所述视频中每一帧图片在关注度策略下的得分：

确定所述视频中每一帧图片的关注度得分，将所述视频中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分。

具体的，所述确定所述视频中每一帧图片的关注度得分，包括：

确定所述每一帧图片中人物的个数和每个人物的关注度等级；

根据所述每一帧图片中人物的个数和每个人物的关注度等级分别确定所述每一帧图片的关注度得分。

在上述方法之前，需要确定视频中每一个人物的关注度等级，通常需要考虑多种因素来确定每一个人物的关注度等级，一般情况下，关注度可以根据需要划分为多个等级，但是，关注度等级的划分数量不宜过多，通常可以为二至四个。通常，在视频中，主角的关注度等级可以设置为最高，主角的人数可以根据需要进行设置，一般为一至三个，配角则根据人气的大小进行等级划分，每一个等级中的人数一般为一至三个。当然不同人物的关注度等级也可以综合考虑该人物的角色重要性及实时人气和观众的喜爱程度来综合进行评定。

举例来说，假设某视频中，所有人物按照关注度划分为三个等级，其中，一级为最高级，然后是二级、三级；其中，演员A、B为一级，记为3分；C为二级，记为2分；D为三级，记为1分；则通过人脸识别技术对视频中每一帧图片中的人物进行识别，识别出包含A、B、C、D的图片，则计算每一个图片的关注度得分，图片中A、B、C、D以外的人物不计入得分，这样就可以得出每一帧图片的关注度得分。

二、通过以下方式确定所述视频中每一帧图片在音频分析策略下的得分：

确定所述视频中每一帧图片的音频分析得分，将所述视频中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分。

具体的，所述确定所述视频中每一帧图片的音频分析得分，包括：

判断所述视频中的图片所对应的音频片段是否包含鼓掌声和/或尖叫声；

当所述视频中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；

根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

该方法在实际实现中，通常提取视频中所有包含鼓掌声和/或尖叫声的图片，之后，确定鼓掌声和/或尖叫声的音量等级，每一个音量等级对应一音量区间，该音量区间可以根据实际需要进行确定，例如，可以将音量划分为三个等级，一级为最高级，二级、三级次之；假设在一种划分方式下，一级对应的音量为：150-200分贝、二级对应的音量为100-150分贝、三级对应的音量为50-100分贝；另一种划分方式下，一级对应的音量区间为：200-220分贝、二级对应的音量为180-200分贝、三级对应的音量为160-180分贝。

相应的，每一个等级都有其对应的音频分析得分，假设，一级对应3分、二级对应2分、三级对应3分。如果没有提取到尖叫声和/或鼓掌声、或提取的尖叫声和/或鼓掌声不属于以上三个区间，则记为0分。这样，就可以确定出图片音频分析得分。

三、通过以下方式确定所述视频中每一帧图片在弹幕分析策略下的得分：

确定所述视频中每一帧图片的弹幕分析得分，将所述视频中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

具体的，所述确定所述视频中每一帧图片的弹幕分析得分，包括：

判断所述视频中的图片的播放时间内用户是否发送文字弹幕和/或声音弹幕；

当所述视频中的图片的播放时间内用户发送文字弹幕和/或声音弹幕时，确定所述文字弹幕和/或声音弹幕的数量等级；

根据所述文字弹幕和/或声音弹幕的数量等级确定所述图片的弹幕分析得分。

具体的，在实际实现中，首先提取所有包含文字弹幕和/或声音弹幕的图片，并计算每一帧图片所包含的文字弹幕和/或声音弹幕的数量，按照数量等级确定图片的弹幕分析得分。

在此之前，需要对弹幕数量划分等级，假设将弹幕数量划分为三个等级，其中，一级为最高级别，二级、三级次之。每一个等级都有其对应的弹幕数量区间，假设一级对应的弹幕数量为80-100，二级对应的弹幕数量为60-80，三级对应的弹幕数量为40-60，则可以确定每一帧图片的弹幕数量等级，每一个等级都有其对应的弹幕分析得分，假设，一级对应3分、二级对应2分、三级对应1分。这样，就可以确定每一帧图片的弹幕分析得分。

针对第二种情况，当第一预设策略包括所述三种策略中一种以上时，视频中的每一帧图片在每一种策略下都可以计算得到一个得分，这时，根据需要设置每一种策略的权值，从而得到每一帧图片在各个策略下得分的加权和，而所述每一帧图片在各个策略下得分的加权和记为所述图片的关键度。

举例来说，当第一预设策略包括：关注度策略和弹幕分析策略时，假设关注度策略的权值为0.6、弹幕分析策略的权值为0.4，在这种方式下，优选地，不同策略下取值的量化区间应该相同、且所划分的等级数量应相同，举例来说，关注度划分为三级时，弹幕数量也应该被划分为三个等级，每一个等级的得分应该相同，即，关注度策略下一级得分为3分，则弹幕分析策略下一级的得分也应该为3分，以此类推。假设，图片1的关注度得分为3分、弹幕分析得分为2分，图片2的关注度得分为3分、弹幕分析得分为3分，图片3的关注度得分为2分、弹幕分析得分为3分；

则根据第二种情况下每一帧图片的关键度确定方法，图片1的关键度为：3×0.6+2×0.4＝2.6；图片2的关键度为：3×0.6+3×0.4＝3.0；图片3的关键度为：2×0.6+3×0.4＝2.4。

优选地，为了计算方便，第一预设策略中所有策略的权值之和可以设置为1。

步骤102、将关键度最高的图片确定为所述视频的代表性图片。

步骤101中确定了每一帧图片的关键度之后，可以将关键度最高的图片确定为所述视频的代表性图片。

如果通过步骤101所确定的关键度最高的图片为一个时，可以直接将所述图片确定为该视频的代表性图片。但在实际实现中，关键度最高的图片通常会有很多，这时，可以根据需要设置不同的规则来确定出一帧图片作为代表性图片。例如，可以从所确定的关键度最高的图片中随机选择一张作为代表性图片、或者按一特定顺序为图片编号，并将某一特定编号的图片确定为代表性图片。当然也可以在所述关键度最高的图片中，依据一特定规则进行进一步的筛选，最终确定出某一帧图片作为代表性图片。

上述方案中，根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略，将关键度最高的图片确定为所述视频的代表性图片，这样，能够提供一种科学的方法来确定视频的代表性图片，即，完全以观众的需要出发来进行视频代表性图片的确定，且在代表性图片的确定过程中，并不要人工参与，避免了用户主观意见造成的偏见，且实现方式简单、便捷。

方法实施例二

在本发明实施例一所提供的视频代表性图片确定方法的基础上，本发明实施例二提供了一种视频代表性片段的确定方法。该方法的流程图如图2所示，具体可以包括：

步骤201、根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

在该步骤之前需要确定第二预设策略，第二预设规则包括：关注度策略、音频分析策略和弹幕分析策略其中之一。

与实施例一所不同的是，实施例一种第一预设策略的分析对象是视频中的每一帧图片，而实施例二所提供的方法中，第二预设策略的分析对象为视频中一预设时长的视频片段。这里的预设时长可以根据实际需要进行设置，而所取的预设时长的视频片段是一连续视频片段。

按照第一预设策略所包含的以上三种策略的个数，对于视频中一预设时长视频片段的关键度的确定可以分为以下两种情况：

第一种情况：当所述第二预设策略包括所述策略其中之一时，所述根据第二预设策略确定所述视频中预设时长视频片段的关键度，包括：确定所述预设时长视频片段中每一帧图片在所述第二预设策略下的得分，将所述每一帧图片的得分之和确定为所述预设时长视频片段的关键度。

第二种情况：当所述第二预设策略包括所述策略中一个以上时，所述根据第二预设策略确定所述预设时长视频片段的关键度，包括：确定所述预设时长视频片段中每一帧图片在所述第二预设策略中每一种策略下得分之和；确定所述每一种策略下的得分之和的加权和；将所述加权和确定为所述预设时长视频片段的关键度。

针对第一种情况，也可以细分为三种情况，即，第二预设策略仅包含关注度策略、或音频分析策略、或弹幕分析策略。

以上三种情况下可以分别通过以下方式确定所述预设时长视频片段中每一帧图片在相应策略下的得分：

该方法之前，需要确定视频中人物的关注度等级，且确定不同关注度等级所对应的得分。

该方法之前，需要确定鼓掌声和/或尖叫声音量的等级，且确定不同音量等级所对应的得分。

在此之前，需要对弹幕数量划分等级，并确定不同等级所对应的得分

针对第二种情况，当第一预设策略包括所述三种策略中一种以上时，视频中的每一帧图片在每一种策略下都可以通过上述方案计算得到一个得分，这时，根据需要设置每一种策略的权值，从而得到每一帧图片在各个策略下得分的加权和，而所述每一帧图片在各个策略下得分的加权和记为所述图片的关键度。

在本发明的一种可选实施例中，不同策略下取值的量化区间应该相同、且所划分的等级数量应相同。

在本发明的一种可选实施例中，第一预设策略中所有策略的权值之和可以设置为1。

步骤202、将关键度最高的视频片段确定为所述视频的代表性片段。

步骤201中，确定了不同视频片段的关键度之后，如果关键度最高的视频片段个数为一个，则可以直接将该视频片段确定为该视频的代表性片段，但是实际实现中，很可能会出现关键度最高的视频片段的数量为多个的情况，这时，可以根据需要设置不同的规则来确定出代表性片段。例如，可以从所确定的关键度最高的视频片段中随机选择一个作为代表性片段、或者按一特定顺序为所选出的关键度最高的视频片段编号，并将某一特定编号的视频片段确定为代表性片段。当然也可以在所述关键度最高的片段中，依据一特定规则进行进一步的筛选，最终确定出某一个片段作为该视频的代表性片段。

上述方案中，根根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略，将关键度最高的视频片段确定为所述视频的代表性片段，这样，能够完全以观众需要作为出发点来依据一种科学的方法确定视频的代表性片段，而且，该方法在代表性片段的确定过程中，并不要人工参与，避免了用户主观意见造成的偏见，且实现方式简单、便捷。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例一

参照图3，示出了本发明一种视频代表性图片确定装置实施例的结构框图，所述装置位于视频服务器或任何具备数据处理能力的终端设备上，包括：第一关键度确定模块31和代表性图片确定模块32；其中，

所述第一关键度确定模块31，用于根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

所述代表性图片确定模块32，用于将关键度最高的图片确定为所述视频的代表性图片。

具体的，所述第一关键度确定模块31，用于当所述第一预设策略包括所述策略其中之一时，确定所述视频中每一帧图片在所述第一预设策略下的得分，将所述每一帧图片的得分确定为所述每一帧图片的关键度；还用于，当所述第一预设策略包括所述策略中一种以上时，确定每一帧图片在所述第一预设策略中每一种策略下得分的加权和，将所述每一帧图片的加权和确定为所述每一帧图片的关键度。

在本发明的一种可选实施例中，如图4所示，所述第一关键度确定模块31，包括：第一确定子模块3101、第二确定子模块3101及第三确定子模块3103；其中，

所述第一确定子模块3101，用于确定所述视频中每一帧图片的关注度得分，将所述视频中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；

所述第二确定子模块3102，用于确定所述视频中每一帧图片的音频分析得分，将所述视频中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；

所述第三确定子模块3103，用于确定所述视频中每一帧图片的弹幕分析得分，将所述视频中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

在本发明的一种可选实施例中，如图5所示，所述第一确定子模块3101，包括：

第一关注度等级确定单元310101，用于确定所述每一帧图片中人物的个数和每个人物的关注度等级；

第一关注度得分确定单元310102，用于根据所述每一帧图片中人物的个数和每个人物的关注度等级分别确定所述每一帧图片的关注度得分。

所述第二确定子模块3102，包括：

第一音频判断单元310201，用于判断所述视频中的图片所对应的音频片段是否包含鼓掌声和/或尖叫声；

第一音量等级确定单元310202，用于当所述视频中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；

第一音频分析得分确定单元310203，用于根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

所述第三确定单元3103，包括：

第一弹幕判断单元310301，用于判断所述视频中的图片的播放时间内用户是否发送文字弹幕和/或声音弹幕；

第一数量等级确定单元310302，用于当所述视频中的图片的播放时间内用户发送文字弹幕和/或声音弹幕时，确定所述文字弹幕和/或声音弹幕的数量等级；

第一弹幕分析得分确定单元310303，用于根据所述文字弹幕和/或声音弹幕的数量等级确定所述图片的弹幕分析得分。

在具体实施过程中，上述第一关键度确定模块31、代表性图片确定模块32、第一确定子模块3101、第二确定子模块3101及第三确定子模块3103、第一关注度等级确定单元310101、第一关注度得分确定单元310102、第一音频判断单元310201、第一音量等级确定单元310202、第一音频分析得分确定单元310203、第一弹幕判断单元310301、第一数量等级确定单元310302及第一弹幕分析得分确定单元310303均可以由视频服务器或任何具备数据处理能力的终端设备内的中央处理器(CPU，Central Processing Unit)、微处理器(MPU，Micro Processing Unit)、数字信号处理器(DSP，DigitalSignal Processor)或可编程逻辑阵列(FPGA，Field－Programmable GateArray)来实现。

装置实施例二

参照图6，示出了本发明一种视频代表性图片、片段确定装置实施例的结构框图，所述装置位于视频服务器或任何具备数据处理能力的终端设备上，包括：第二关键度确定模块61和代表性片段确定模块62；其中，

所述第二关键度确定模块61，用于根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

所述代表性片段确定模块62，用于将关键度最高的视频片段确定为所述视频的代表性片段。

具体的，所述第二关键度确定模块61，用于当所述第二预设策略包括所述策略其中之一时，确定所述预设时长视频片段中每一帧图片在所述第二预设策略下的得分，将所述每一帧图片的得分之和确定为所述预设时长视频片段的关键度；还用于，当所述第二预设策略包括所述策略中一种以上时，确定所述预设时长视频片段中每一帧图片在所述第二预设策略中每一种策略下得分之和，确定所述每一种策略下的得分之和的加权和，将所述加权和确定为所述预设时长视频片段的关键度。

本发明的一种可选实施例中，如图7所示，所述第二关键度确定模块61，包括：第四确定子模块6101、第五确定子模块6102和第六确定子模块6103；其中，

所述第四确定子模块6101，用于确定所述视频片段中每一帧图片的关注度得分，将所述视频片段中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；

所述第五确定子模块6102，用于确定所述视频片段中每一帧图片的音频分析得分，将所述视频片段中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；

所述第六确定子模块6103，用于确定所述视频片段中每一帧图片的弹幕分析得分，将所述视频片段中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

本发明的一种可选实施例中，如图8所示，所述第四确定子模块6101，包括：

第二关注度等级确定单元610101，用于确定所述每一帧图片中人物的个数和每个人物的关注度等级；

第二关注度得分确定单元610102，用于根据所述每一帧图片中人物的个数和每个人物的关注度等级分别确定所述每一帧图片的关注度得分。

所述第五确定子模块6102，包括：

第二音频判断单元610201，用于判断所述视频片段中的图片所对应的音频片段是否包含鼓掌声和/或尖叫声；

第二音量等级确定单元610202，用于当所述视频片段中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；

第二音频分析得分确定单元610203，用于根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

所述第六确定子模块6103，包括：

第二弹幕判断单元610301，用于判断所述视频片段中的图片播放时间内是否包含鼓掌声和/或尖叫声；

第二数量等级确定单元610302，用于当所述视频片段中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；

第二弹幕分析得分确定单元610302，用于根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

在具体实施过程中，上述第二关键度确定模块61和代表性片段确定模块62、第四确定子模块6101、第五确定子模块6102、第六确定子模块6103、第二关注度等级确定单元610101、第二关注度得分确定单元610102、第二音频判断单元610201、第二音量等级确定单元610202、第二音频分析得分确定单元610203、第二弹幕判断单元610301、第二数量等级确定单元610302及第二弹幕分析得分确定单元610303均可以由视频服务器或具备数据处理能力的终端设备内的CPU、MPU、数字DSP或FPGA来实现。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种视频代表性图片、片段确定方法和装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种视频代表性图片的确定方法，包括：根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；将关键度最高的图片确定为所述视频的代表性图片。

A2、如A1所述的方法，当所述第一预设策略包括所述策略其中之一时，所述根据第一预设策略确定视频中每一帧图片的关键度，包括：确定所述视频中每一帧图片在所述第一预设策略下的得分，将所述每一帧图片的得分确定为所述每一帧图片的关键度；当所述第一预设策略包括所述策略中一种以上时，所述根据第一预设策略确定视频中每一帧图片的关键度，包括：确定每一帧图片在所述第一预设策略中每一种策略下得分的加权和；将所述每一帧图片的加权和确定为所述每一帧图片的关键度。

A3、如A2所述的方法，通过以下方式确定所述视频中每一帧图片在关注度策略下的得分：确定所述视频中每一帧图片的关注度得分，将所述视频中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；

通过以下方式确定所述视频中每一帧图片在音频分析策略下的得分：确定所述视频中每一帧图片的音频分析得分，将所述视频中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；

通过以下方式确定所述视频中每一帧图片在弹幕分析策略下的得分：确定所述视频中每一帧图片的弹幕分析得分，将所述视频中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

A4、如A3所述的方法，所述确定所述视频中每一帧图片的关注度得分，包括：确定所述每一帧图片中人物的个数和每个人物的关注度等级；根据所述每一帧图片中人物的个数和每个人物的关注度等级分别确定所述每一帧图片的关注度得分。

A5、如A3所述的方法，所述确定所述视频中每一帧图片的音频分析得分，包括：判断所述视频中的图片所对应的音频片段是否包含鼓掌声和/或尖叫声；当所述视频中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

A6、如A3至A5所述的方法，所述确定所述视频中每一帧图片的弹幕分析得分，包括：判断所述视频中的图片的播放时间内用户是否发送文字弹幕和/或声音弹幕；当所述视频中的图片的播放时间内用户发送文字弹幕和/或声音弹幕时，确定所述文字弹幕和/或声音弹幕的数量等级；根据所述文字弹幕和/或声音弹幕的数量等级确定所述图片的弹幕分析得分。

B7、一种视频代表性片段的确定方法，包括：根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；将关键度最高的视频片段确定为所述视频的代表性片段。

B8、如B7所述的方法，当所述第二预设策略包括所述策略其中之一时，所述根据第二预设策略确定所述视频中预设时长视频片段的关键度，包括：确定所述预设时长视频片段中每一帧图片在所述第二预设策略下的得分，将所述每一帧图片的得分之和确定为所述预设时长视频片段的关键度；

当所述第二预设策略包括所述策略中一种以上时，所述根据第二预设策略确定所述预设时长视频片段的关键度，包括：确定所述预设时长视频片段中每一帧图片在所述第二预设策略中每一种策略下得分之和；确定所述每一种策略下的得分之和的加权和；将所述加权和确定为所述预设时长视频片段的关键度。

B9、如B8所述的方法，通过以下方式确定所述视频片段中每一帧图片在关注度策略下的得分：确定所述视频片段中每一帧图片的关注度得分，将所述视频片段中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；

通过以下方式确定所述视频片段中每一帧图片在音频分析策略下的得分：确定所述视频片段中每一帧图片的音频分析得分，将所述视频片段中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；

通过以下方式确定所述视频中每一帧图片在弹幕分析策略下的得分：确定所述视频片段中每一帧图片的弹幕分析得分，将所述视频片段中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

B10、如B9所述的方法，所述确定所述视频片段中每一帧图片的关注度得分，包括：确定所述每一帧图片中人物的个数和每个人物的关注度等级；根据所述每一帧图片中人物的个数和每个人物的关注度等级分别确定所述每一帧图片的关注度得分。

B11、如9所述的方法，所述确定所述视频片段中每一帧图片的音频分析得分，包括：判断所述视频片段中的图片所对应的音频片段是否包含鼓掌声和/或尖叫声；当所述视频片段中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

B12、如B9至B11所述的方法，所述确定所述视频片段中每一帧图片的弹幕分析得分，包括：判断所述视频片段中的图片播放时间内是否包含鼓掌声和/或尖叫声；当所述视频片段中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

C13、一种视频代表性图片的确定装置，所述装置包括：第一关键度确定模块和代表性图片确定模块；其中，

所述第一关键度确定模块，用于根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

所述代表性图片确定模块，用于将关键度最高的图片确定为所述视频的代表性图片。

C14、如C13所述的装置，所述第一关键度确定模块，用于当所述第一预设策略包括所述策略其中之一时，确定所述视频中每一帧图片在所述第一预设策略下的得分，将所述每一帧图片的得分确定为所述每一帧图片的关键度；还用于，当所述第一预设策略包括所述策略中一种以上时，确定每一帧图片在所述第一预设策略中每一种策略下得分的加权和，将所述每一帧图片的加权和确定为所述每一帧图片的关键度。

C15、如C14所述的装置，所述第一关键度确定模块，包括：第一确定子模块、第二确定子模块及第三确定子模块；其中，所述第一确定子模块，用于确定所述视频中每一帧图片的关注度得分，将所述视频中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；所述第二确定子模块，用于确定所述视频中每一帧图片的音频分析得分，将所述视频中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；所述第三确定子模块，用于确定所述视频中每一帧图片的弹幕分析得分，将所述视频中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

C16、如C15所述的装置，所述第一确定子模块，包括：第一关注度等级确定单元，用于确定所述每一帧图片中人物的个数和每个人物的关注度等级；第一关注度得分确定单元，用于根据所述每一帧图片中人物的个数和每个人物的关注度等级分别确定所述每一帧图片的关注度得分。

C17、如C15所述的装置，所述第二确定子模块，包括：第一音频判断单元，用于判断所述视频中的图片所对应的音频片段是否包含鼓掌声和/或尖叫声；第一音量等级确定单元，用于当所述视频中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；第一音频分析得分确定单元，用于根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

C18、如C15至C17所述的装置，所述第三确定单元，包括：第一弹幕判断单元，用于判断所述视频中的图片的播放时间内用户是否发送文字弹幕和/或声音弹幕；第一数量等级确定单元，用于当所述视频中的图片的播放时间内用户发送文字弹幕和/或声音弹幕时，确定所述文字弹幕和/或声音弹幕的数量等级；第一弹幕分析得分确定单元，用于根据所述文字弹幕和/或声音弹幕的数量等级确定所述图片的弹幕分析得分。

D19、一种视频代表性片段的确定装置，所述装置包括：第二关键度确定模块和代表性片段确定模块；其中，所述第二关键度确定模块，用于根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；所述代表性片段确定模块，用于将关键度最高的视频片段确定为所述视频的代表性片段。

C20、如C19所述的装置，所述第二关键度确定模块，用于当所述第二预设策略包括所述策略其中之一时，确定所述预设时长视频片段中每一帧图片在所述第二预设策略下的得分，将所述每一帧图片的得分之和确定为所述预设时长视频片段的关键度；还用于，当所述第二预设策略包括所述策略中一种以上时，确定所述预设时长视频片段中每一帧图片在所述第二预设策略中每一种策略下得分之和，确定所述每一种策略下的得分之和的加权和，将所述加权和确定为所述预设时长视频片段的关键度。

C21、如C20所述的装置，所述第二关键度确定模块，包括：第四确定子模块、第五确定子模块和第六确定子模块；其中，所述第四确定子模块，用于确定所述视频片段中每一帧图片的关注度得分，将所述视频片段中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；所述第五确定子模块，用于确定所述视频片段中每一帧图片的音频分析得分，将所述视频片段中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；所述第六确定子模块，用于确定所述视频片段中每一帧图片的弹幕分析得分，将所述视频片段中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

C22、如C21所述的装置，所述第四确定子模块，包括：第二关注度等级确定单元，用于确定所述每一帧图片中人物的个数和每个人物的关注度等级；第二关注度得分确定单元，用于根据所述每一帧图片中人物的个数和每个人物的关注度等级分别确定所述每一帧图片的关注度得分。

C23、如C21所述的装置，所述第五确定子模块，包括：第二音频判断单元，用于判断所述视频片段中的图片所对应的音频片段是否包含鼓掌声和/或尖叫声；第二音量等级确定单元，用于当所述视频片段中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；第二音频分析得分确定单元，用于根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

C24、如C21至C23所述的装置，所述第六确定子模块，包括：第二弹幕判断单元，用于判断所述视频片段中的图片播放时间内是否包含鼓掌声和/或尖叫声；第二数量等级确定单元，用于当所述视频片段中的图片包含鼓掌声和/或尖叫声时，确定所述鼓掌声和/或尖叫声的音量等级；第二弹幕分析得分确定单元，用于根据所述鼓掌声和/或尖叫的音量等级确定所述图片的音频分析得分。

Claims

1.一种视频代表性图片的确定方法，其特征在于，所述方法包括：

根据第一预设策略确定视频中每一帧图片的关键度，所述第一预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

将关键度最高的图片确定为所述视频的代表性图片。

2.根据权利要求1所述的方法，其特征在于，当所述第一预设策略包括所述策略其中之一时，所述根据第一预设策略确定视频中每一帧图片的关键度，包括：

确定所述视频中每一帧图片在所述第一预设策略下的得分，将所述每一帧图片的得分确定为所述每一帧图片的关键度；

当所述第一预设策略包括所述策略中一种以上时，所述根据第一预设策略确定视频中每一帧图片的关键度，包括：

确定每一帧图片在所述第一预设策略中每一种策略下得分的加权和；

将所述每一帧图片的加权和确定为所述每一帧图片的关键度。

3.根据权利要求2所述的方法，其特征在于，通过以下方式确定所述视频中每一帧图片在关注度策略下的得分：

确定所述视频中每一帧图片的关注度得分，将所述视频中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；

通过以下方式确定所述视频中每一帧图片在音频分析策略下的得分：

确定所述视频中每一帧图片的音频分析得分，将所述视频中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；

通过以下方式确定所述视频中每一帧图片在弹幕分析策略下的得分：

4.根据权利要求3所述的方法，其特征在于，所述确定所述视频中每一帧图片的关注度得分，包括：

5.一种视频代表性片段的确定方法，其特征在于，所述方法包括：

根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

将关键度最高的视频片段确定为所述视频的代表性片段。

6.根据权利要求5所述的方法，其特征在于，当所述第二预设策略包括所述策略其中之一时，所述根据第二预设策略确定所述视频中预设时长视频片段的关键度，包括：

确定所述预设时长视频片段中每一帧图片在所述第二预设策略下的得分，将所述每一帧图片的得分之和确定为所述预设时长视频片段的关键度；

当所述第二预设策略包括所述策略中一种以上时，所述根据第二预设策略确定所述预设时长视频片段的关键度，包括：

确定所述预设时长视频片段中每一帧图片在所述第二预设策略中每一种策略下得分之和；

确定所述每一种策略下的得分之和的加权和；

将所述加权和确定为所述预设时长视频片段的关键度。

7.根据权利要求6所述的方法，其特征在于，通过以下方式确定所述视频片段中每一帧图片在关注度策略下的得分：

确定所述视频片段中每一帧图片的关注度得分，将所述视频片段中每一帧图片的关注度得分确定为所述每一帧图片在关注度策略下的得分；

通过以下方式确定所述视频片段中每一帧图片在音频分析策略下的得分：

确定所述视频片段中每一帧图片的音频分析得分，将所述视频片段中每一帧图片的音频分析得分确定为所述每一帧图片在音频分析策略下的得分；

确定所述视频片段中每一帧图片的弹幕分析得分，将所述视频片段中每一帧图片的弹幕分析得分确定为所述每一帧图片在弹幕分析策略下的得分。

8.根据权利要求7所述的方法，其特征在于，所述确定所述视频片段中每一帧图片的关注度得分，包括：

9.一种视频代表性图片的确定装置，其特征在于，所述装置包括：第一关键度确定模块和代表性图片确定模块；其中，

10.一种视频代表性片段的确定装置，其特征在于，所述装置包括：第二关键度确定模块和代表性片段确定模块；其中，

所述第二关键度确定模块，用于根据第二预设策略确定所述视频中预设时长视频片段的关键度，所述第二预设策略包括以下策略至少其中之一：关注度策略、音频分析策略和弹幕分析策略；

所述代表性片段确定模块，用于将关键度最高的视频片段确定为所述视频的代表性片段。