CN111339367B

CN111339367B - 视频处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111339367B
Application number: CN202010099389.5A
Authority: CN
Inventors: 牟帅; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2022-10-18
Anticipated expiration: 2040-02-18
Also published as: CN111339367A

Abstract

本申请涉及图像处理技术领域，公开了一种视频处理方法、装置、电子设备及计算机可读存储介质，视频处理方法包括：获取多个初始视频，获取与各个初始视频分别对应的特征向量；基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频；获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频；分别获取各个第二视频的关键帧画面；基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注。本申请提供的视频处理方法可以在待标注的初始视频的数量较大时，可以从初始视频中筛选出有效的第二视频，减少标注的耗时，提高标注效率。

Description

视频处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种视频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展和互联网视频的蓬勃兴起，视频处理在多种领域得到了广泛应用，如视频推荐、视频监控等多种领域得到了广泛应用。然而在多种应用场景下，都需要对视频进行标注。

通常对多个视频进行标注时，需要对每一个视频的每一帧视频帧的信息进行分析，当待标注的视频的数量较大时，视频标注的耗时长，效率较低。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

第一方面，提供了一种视频处理方法，包括：

获取多个初始视频，获取与各个初始视频分别对应的特征向量；

基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频；

获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频；

分别获取各个第二视频的关键帧画面；基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注。

在第一方面的可选实施例中，获取与各个初始视频分别对应的特征向量，包括：

针对每一初始视频，间隔第一预设时间从该初始视频中抽取多帧初始帧图像，将多帧初始帧图像拼接得到与该初始视频对应的初始画面；

基于初始画面获取特征向量。

在第一方面的可选实施例中，基于初始画面获取特征向量，包括：

将初始画面划分为多个图像区域，针对多个图像区域中的每一图像区域，获取该图像区域中的像素的灰度值之和；

基于每一图像区域的像素的灰度值之和获取至少一个灰度差值特征，将至少一个灰度差值特征拼接得到特征向量。

在第一方面的可选实施例中，基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频，包括：

针对多个初始视频中的每一初始视频，若该初始视频的特征向量与其他初始视频的特征向量均不相同，将该初始视频作为第一视频；

若该初始视频的特征向量与至少一个其他初始视频的特征向量相同，从该初始视频和具有相同的特征向量的至少一个其他初始视频中，选取任一初始视频作为一个第一视频。

在第一方面的可选实施例中，获取与各个第一视频的视频信息分别相关的特征值，包括：

针对每一第一视频，分别获取该第一视频的视频类型的第一特征值、获取该第一视频的视频标题的第二特征值、以及获取该第一视频的视频画面的第三特征值；

基于第一特征值、第二特征值和第三特征值获取特征值。

在第一方面的可选实施例中，根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频，包括：

将特征值高于第一预设阈值的第一视频作为第二视频。

在第一方面的可选实施例中，分别获取各个第二视频的关键帧画面，包括：

针对每一第二视频，间隔第二预设时间从该第二视频中抽取多帧第二视频帧图像；

针对多帧第二视频帧图像中的每一第二视频帧图像，分别获取该第二视频帧图像的视频帧差值和视频类别相关值；

基于每一第二视频帧图像的视频帧差值和视频类别相关值，从多个第二视频帧图像中筛选出预设数量的关键帧图像；

将筛选得到的关键帧图像拼接得到关键帧画面。

在第一方面的可选实施例中，分别获取该第二视频帧图像的视频帧差值和视频类别相关值，包括：

获取该第二视频帧图像与预设类别之间的视频类别相关值，并获取该第二视频帧图像的颜色特征值；

分别获取该第二视频帧图像的颜色特征值与其他第二视频帧图像的颜色特征值之间的差值，将绝对值最大的差值作为该第二视频帧图像的视频帧差值。

在第一方面的可选实施例中，基于每一第二视频帧图像的视频帧差值和视频类别相关值，从多个第二视频帧图像中筛选出预设数量的关键帧图像，包括：

将视频帧差值高于第二预设阈值或视频类别相关值高于第三预设阈值的视频帧图像作为关键帧图像。

第二方面，提供了一种视频处理装置，包括：

第一获取模块，用于获取多个初始视频，获取与各个初始视频分别对应的特征向量；

第二获取模块，用于基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频；

第三获取模块，用于获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频；

标注模块，用于分别获取各个第二视频的关键帧画面；基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注。

在第二方面的可选实施例中，第一获取模块在获取与各个初始视频分别对应的特征向量时，具体用于：

基于初始画面获取特征向量。

在第二方面的可选实施例中，第一获取模块在基于初始画面获取特征向量时，具体用于：

在第二方面的可选实施例中，第二获取模块在基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频时，具体用于：

在第二方面的可选实施例中，第三获取模块在获取与各个第一视频的视频信息分别相关的特征值时，具体用于：

基于第一特征值、第二特征值和第三特征值获取特征值。

在第二方面的可选实施例中，第三获取模块在根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频时，具体用于：

将特征值高于第一预设阈值的第一视频作为第二视频。

在第二方面的可选实施例中，标注模块在分别获取各个第二视频的关键帧画面时，具体用于：

将筛选得到的关键帧图像拼接得到关键帧画面。

在第二方面的可选实施例中，标注模块在分别获取该第二视频帧图像的视频帧差值和视频类别相关值时，具体用于：

在第二方面的可选实施例中，标注模块在基于每一第二视频帧图像的视频帧差值和视频类别相关值，从多个第二视频帧图像中筛选出预设数量的关键帧图像时，具体用于：

第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本申请第一方面所示的视频处理方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的视频处理方法。

本申请提供的技术方案带来的有益效果是：

通过各个初始视频的特征向量从多个初始视频中筛选得到多个第一视频，再获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频，然后分别获取各个第二视频的关键帧画面，基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注，当待标注的初始视频的数量较大时，可以从初始视频中筛选出有效的第二视频，从而有效减少标注的耗时，提高标注效率。

进一步的，得到的所有第一视频分别对应的特征向量各不相同，即各个第一视频所对应的内容和信息各不相同，可以更具有代表性，从而提高视频标注的准确性。

进一步的，第二视频帧图像对应视频帧差值越大，说明该第二视频帧图像的内容越具代表性；第二视频帧图像对应的视频类别分越高，说明该第二视频帧图像与预设类别更加相关，基于第二视频帧图像的视频帧差值选取关键帧图像，可以获取到根据代表性且与预设类别更加相关的关键帧画面，从而使视频帧画面更具有参考价值，可以提高视频标注的准确性。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种视频处理方法的应用环境图；

图2为本申请实施例提供的一种视频处理方法的流程示意图；

图3为本申请实施例提供的一个示例中获取初始视频的特征向量的方案的示意图；

图4为本申请实施例提供的一个示例中获取第一视频的特征值的方案的示意图；

图5为本申请实施例提供的一个示例中视频标题模型和视频描述模型的结构示意图；

图6为本申请实施例提供的一个示例中视频画面时序模型的结构示意图；

图7为本申请实施例提供的一个示例中从第二视频中获取关键帧画面的方案的示意图；

图8为本申请实施例提供的一种视频处理装置的结构示意图；

图9为本申请实施例提供的一种视频处理的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的视频处理方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请提供的视频处理方法，可以应用于如图1所示的应用环境中。具体的，获取N个初始视频，分别获取各个初始视频的特征向量，基于各个特征向量从N个初始视频中筛选得到M个第一视频，获取与M各第一视频分别相关的特征值，根据各个特征值从M个第一视频中筛选出P个第二视频，获取各个第二视频的关键帧画面，基于各个第二视频的关键帧画面，对P个第二视频进行聚类，以对聚类后的第二视频进行标注。

其中，N、M和P均为大于或等于2的自然数，且N大于或等于M，M大于或等于P。

本申请实施例中提供了一种可能的实现方式，如图2所示，提供了一种视频处理方法，本方法可以应用在服务器或终端上，本实施例以该方法应用在终端上举例说明，可以包括以下步骤：

步骤S201，获取多个初始视频，获取与各个初始视频分别对应的特征向量。

其中，每一特征向量是基于对应的初始视频中提取的多个初始帧图像得到的。

在具体实施过程中，终端统计每一初始视频的多个初始帧图像中的像素的灰度值之和，基于多个初始帧图像的像素的灰度值之和获取对应的特征向量，具体的获取特征向量的过程将在下文进行进一步详细阐述。

步骤S202，基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频。

具体的，终端可以基于各个初始视频分别对应的特征向量，去除多个初始视频中具有重复的特征向量的初始视频，即多个相同的特征向量中，指保留任一个特征向量以进行去重。

例如，多个初始视频中有100个初始视频具有相同的特征向量，则只需从100个初始视频中选取1个初始视频，将选取的1个初始视频作为1个第一视频。

在具体实施过程中，所筛选得到的多个第一视频分别的特征向量各不相同。

步骤S203，获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频。

其中，视频信息可以包括视频类型、视频标题和视频画面等，特征值可以与视频类型、视频标题和视频画面均相关。

在具体实施过程中，终端可以将第一视频分别输入不同的网络模型，得到与视频类型、视频标题和视频画面分别相关的数值，再根据与视频类型、视频标题和视频画面分别相关的数值获取特征值。

具体的，终端可以将特征值符合预设条件的第一视频作为第二视频，例如，将特征值大于预设阈值的第一视频作为第二视频。

步骤S204，分别获取各个第二视频的关键帧画面；基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注。

其中，关键帧画面是由第二视频中的至少一帧第二视频帧图像拼接形成。

具体的，终端可以从第二视频中抽取多帧第二视频帧图像，从多帧第二视频帧图像中获取至少一帧关键帧图像，再将获取的至少一帧关键帧图像拼接形成关键帧画面。

在具体实施过程中，终端可以将多个第二视频分别对应的关键帧画面输入预设的聚类模型，如k-means模型进行聚类，对聚类后的关键帧画面进行标注。

上述实施例中，通过各个初始视频的特征向量从多个初始视频中筛选得到多个第一视频，再获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频，然后分别获取各个第二视频的关键帧画面，基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注，当待标注的初始视频的数量较大时，可以从初始视频中筛选出有效的第二视频，从而有效减少标注的耗时，提高标注效率。

本申请实施例中提供了一种可能的实现方式，步骤S201的获取与各个初始视频分别对应的特征向量，可以包括：

(1)针对每一初始视频，间隔第一预设时间从该初始视频中抽取多帧初始帧图像，将多帧初始帧图像拼接得到与该初始视频对应的初始画面。

在具体实施过程中，若每一初始视频的时间都相同，则针对每一初始视频，终端都可以间隔相同的第一预设时间抽取得到相同数量的初始帧图像；若不同的初始视频的时间不一定相同，则针对任一初始视频，可以间隔一个预设的时间抽取多帧初始帧图像，不同的初始视频所对应设置的预设时间不一定相同，但最终从抽取得到的多帧初始帧图像的数量相同。

例如，对于所有的初始视频中的每一初始视频，终端都等时间间隔抽取9帧初始帧图像，将9帧初始帧图像拼接为3×3的一张初始画面。

(2)基于初始画面获取特征向量。

具体的，基于初始画面获取特征向量，可以包括：

a、将初始画面划分为多个图像区域，针对多个图像区域中的每一图像区域，获取该图像区域中的像素的灰度值之和；

b、基于每一图像区域的像素的灰度值之和获取至少一个灰度差值特征，将至少一个灰度差值特征拼接得到特征向量。

在一个示例中，如图3所示，终端可以将多个初始帧图像拼接为一张初始画面，再将初始画面按照16宫格划分，得到16个图像区域，统计每一区域中的像素的灰度值之和，将下宫格减去上宫格，得到一个3×4的宫格；将右宫格减去左宫格，得到4×3的宫格，再分别将3×4的宫格和4×3的宫格进行转换，将小于或等于0的数值取0，将大于0的数值取1，得到转换后的3×4的宫格和4×3的宫格，将转换后的3×4的宫格转换为一个12维的向量，同样的，将转换后的4×3的宫格转换为一个12维的向量，如图3中的上方的转换后的3×4的宫格，可以转换为[0,0,0,1,1,1,1,0,1,0,1,0]，然后再将两个12为向量进行拼接，得到最终的特征向量。

本申请实施例中提供了一种可能的实现方式，步骤S202的基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频，可以包括：

(1)针对多个初始视频中的每一初始视频，若该初始视频的特征向量与其他初始视频的特征向量均不相同，将该初始视频作为第一视频；

(2)若该初始视频的特征向量与至少一个其他初始视频的特征向量相同，从该初始视频和具有相同的特征向量的至少一个其他初始视频中，选取任一初始视频作为一个第一视频。

其中，其他初始视频是指，针对每一初始视频时，多个视频中除该一个初始视频以外的初始视频。

具体的，终端将每一初始视频的特征向量与其他初始视频的特征向量进行对比，若该一个初始视频的特征向量和其他初始视频的特征向量均不同，则该一个初始视频可以确定为第一视频；若还存在至少一个其他的初始视频的特征向量与该一个初始视频的特征向量相同，则从所有具有相同的特征向量的初始视频中选取任一个确定为第一视频。

在具体实施过程中，若至少两个初始视频对应的特征向量相同，说明至少两个初始视频所代表的内容和信息比较接近或相同，则终端可以从中选取一个确定为第一视频即可，得到的所有第一视频分别对应的特征向量各不相同，即各个第一视频所对应的内容和信息各不相同，可以更具有代表性，从而提高视频标注的准确性。

本申请实施例中提供了一种可能的实现方式，步骤S203的获取与各个第一视频的视频信息分别相关的特征值，可以包括：

(1)针对每一第一视频，分别获取该第一视频的视频类型的第一特征值、获取该第一视频的视频标题的第二特征值、以及获取该第一视频的视频画面的第三特征值；

(2)基于第一特征值、第二特征值和第三特征值获取特征值。

具体的，终端可以将该第一视频分别输入视频描述模型，得到视频类型的第一特征值；输入视频标题模型，得到视频标题的第二特征值；输入视频画面时序模型，得到视频画面的第三特征值。

在一个示例中，如图4所示，图4中将视频数据(即第一视频)分别输入视频描述模型，得到描述分数(即第一特征值)；将视频数据(即第一视频)输入视频标题模型，得到标题分数(即第二特征值)；将视频数据(即第一视频)输入视频画面时序模型，得到画面分数(即第三特征值)。

在一个示例中，视频描述模型可以采用Embedding层(嵌入层)结合预设层数的卷积层的Text-CNN模型，例如5层卷积层；视频标题模型也可以采用Embedding层结合预设层数的卷积层的Text-CNN模型，视频标题模型和视频描述模型的模型结构均可以如图5所示，也可以采用其他形式，具体在此不作限制。

可以理解的是，视频标题模型和视频描述模型的模型结构相同，但模型的参数设置、训练数据可以不同。

其中，视频画面时序模型可以采用CNN(卷积神经网络)结合LSTM(长短期记忆网络)的形式，具体网络结构可以如图6所示，也可以采用其他形式，在此不作具体限制。

在具体实施过程中，终端可以分别设置第一特征值、第二特征值和第三特征值的加权系数，获取加权和，得到最终的特征值，具体根据第一特征值、第二特征值和第三特征值获取最终的特征值的方式在此不作限制。

本申请实施例中提供了一种可能的实现方式，步骤S203的根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频，可以包括：将特征值高于第一预设阈值的第一视频作为第二视频。

具体的，终端还可以对所有的第一视频的特征值进行排序，选取特征值最高的预设个数的第一视频作为第二视频。

本申请实施例中提供了一种可能的实现方式，步骤S204的分别获取各个第二视频的关键帧画面，可以包括：

(1)针对每一第二视频，间隔第二预设时间从该第二视频中抽取多帧第二视频帧图像。

在具体实施过程中，若每一第二视频的时间都相同，则针对每一第二视频，终端都可以间隔相同的第二预设时间抽取得到相同数量的第二视频帧图像；若不同的第二视频的时间不一定相同，则针对任一第二视频，可以间隔一个预设的时间抽取多帧第二视频帧图像，不同的第二视频所对应设置的预设时间不一定相同，但最终从抽取得到的多帧第二视频帧图像的数量相同。

(2)针对多帧第二视频帧图像中的每一第二视频帧图像，分别获取该第二视频帧图像的视频帧差值和视频类别相关值。

具体的，分别获取该第二视频帧图像的视频帧差值和视频类别相关值，可以包括：

a、获取该第二视频帧图像与预设类别之间的视频类别相关值，并获取该第二视频帧图像的颜色特征值。

具体的，终端可以将第二视频帧图像输入预设的视频帧画面时序模型，得到与预设类别之间的视频类别相关值；将第二视频帧图像输入另一种预设的网络模型，得到第二视频帧图像的颜色特征值。

b、分别获取该第二视频帧图像的颜色特征值与其他第二视频帧图像的颜色特征值之间的差值，将绝对值最大的差值作为该第二视频帧图像的视频帧差值。

(3)基于每一第二视频帧图像的视频帧差值和视频类别相关值，从多个第二视频帧图像中筛选出预设数量的关键帧图像。

具体的，终端可以将视频帧差值高于第二预设阈值或视频类别相关值高于第三预设阈值的视频帧图像作为关键帧图像。

在具体实施过程中，终端还可以选取视频帧差值最高的预设个数的视频帧图像作为关键帧图像，或者选取视频类别相关值最高的预设个数的视频帧图像作为关键帧图像。

例如，可以在所有视频帧图像中选取视频帧差值最高的10％的视频帧图像作为关键帧图像，并在所有视频帧图像中选取视频类别相关值最高的10％的视频帧图像作为关键帧图像。

(4)将筛选得到的关键帧图像拼接得到关键帧画面。

如图7所示，从源视频(即第二视频)中等间隔抽取多个第二视频帧图像，分别获取各个第二视频帧图像的视频帧类别分(即视频类别相关值)以及视频帧差分(即视频帧差值)，再基于视频帧类别分和视频帧差分从第二视频帧图像中获取关键帧图像，将关键帧图像拼接得到关键帧(即关键帧画面)。

上述实施例中，第二视频帧图像对应视频帧差值越大，说明该第二视频帧图像的内容越具代表性；第二视频帧图像对应的视频类别分越高，说明该第二视频帧图像与预设类别更加相关，基于第二视频帧图像的视频帧差值选取关键帧图像，可以获取到根据代表性且与预设类别更加相关的关键帧画面，从而使视频帧画面更具有参考价值，可以提高视频标注的准确性。

上述的视频处理方法，通过各个初始视频的特征向量从多个初始视频中筛选得到多个第一视频，再获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频，然后分别获取各个第二视频的关键帧画面，基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注，当待标注的初始视频的数量较大时，可以从初始视频中筛选出有效的第二视频，从而有效减少标注的耗时，提高标注效率。

本申请实施例中提供了一种可能的实现方式，如图8所示，提供了一种视频处理装置80，包括第一获取模块801、第二获取模块802、第三获取模块803和标注模块804，其中，

第一获取模块801，用于获取多个初始视频，获取与各个初始视频分别对应的特征向量；

第二获取模块802，用于基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频；

第三获取模块803，用于获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频；

标注模块804，用于分别获取各个第二视频的关键帧画面；基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注。

本申请实施例中提供了一种可能的实现方式，第一获取模块801在获取与各个初始视频分别对应的特征向量时，具体用于：

基于初始画面获取特征向量。

本申请实施例中提供了一种可能的实现方式，第一获取模块801在基于初始画面获取特征向量时，具体用于：

本申请实施例中提供了一种可能的实现方式，第二获取模块802在基于与各个初始视频分别对应的特征向量，从多个初始视频中筛选出多个第一视频时，具体用于：

本申请实施例中提供了一种可能的实现方式，第三获取模块803在获取与各个第一视频的视频信息分别相关的特征值时，具体用于：

基于第一特征值、第二特征值和第三特征值获取特征值。

本申请实施例中提供了一种可能的实现方式，第三获取模块803在根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频时，具体用于：

将特征值高于第一预设阈值的第一视频作为第二视频。

本申请实施例中提供了一种可能的实现方式，标注模块804在分别获取各个第二视频的关键帧画面时，具体用于：

将筛选得到的关键帧图像拼接得到关键帧画面。

本申请实施例中提供了一种可能的实现方式，标注模块804在分别获取该第二视频帧图像的视频帧差值和视频类别相关值时，具体用于：

本申请实施例中提供了一种可能的实现方式，标注模块804在基于每一第二视频帧图像的视频帧差值和视频类别相关值，从多个第二视频帧图像中筛选出预设数量的关键帧图像时，具体用于：

上述的视频处理装置，通过各个初始视频的特征向量从多个初始视频中筛选得到多个第一视频，再获取与各个第一视频的视频信息分别相关的特征值；根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频，然后分别获取各个第二视频的关键帧画面，基于各个第二视频的关键帧画面，对多个第二视频进行聚类，以对聚类后的多个第二视频进行标注，当待标注的初始视频的数量较大时，可以从初始视频中筛选出有效的第二视频，从而有效减少标注的耗时，提高标注效率。

本公开实施例的图片的视频处理装置可执行本公开的实施例所提供的一种图片的视频处理方法，其实现原理相类似，本公开各实施例中的图片的视频处理装置中的各模块所执行的动作是与本公开各实施例中的图片的视频处理方法中的步骤相对应的，对于图片的视频处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的视频处理方法中的描述，此处不再赘述。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的视频处理方法。与现有技术相比，本申请中的视频处理方法可以在待标注的初始视频的数量较大时，可以从初始视频中筛选出有效的第二视频，从而有效减少标注的耗时，提高标注效率。

在一个可选实施例中提供了一种电子设备，如图9所示，图9所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的视频处理方法可以在待标注的初始视频的数量较大时，可以从初始视频中筛选出有效的第二视频，从而有效减少标注的耗时，提高标注效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，标注模块还可以被描述为“用于对第二视频进行聚类并标注的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频处理方法，其特征在于，包括：

获取多个初始视频，针对每一初始视频，确定初始视频中的多个初始帧图像中的像素的灰度值之和，基于所确定的灰度值之和获取对应的特征向量；

基于与各个初始视频分别对应的特征向量，从所述多个初始视频中筛选出多个第一视频；

2.根据权利要求1所述的视频处理方法，其特征在于，所述针对每一初始视频，确定初始视频中的多个初始帧图像中的像素的灰度值之和，包括：

将所述初始画面划分为多个图像区域，针对多个图像区域中的每一图像区域，获取该图像区域中的像素的灰度值之和。

3.根据权利要求2所述的视频处理方法，其特征在于，所述基于所确定的灰度值之和获取对应的特征向量，包括：

基于每一图像区域的像素的灰度值之和获取至少一个灰度差值特征，将至少一个灰度差值特征拼接得到所述特征向量。

4.根据权利要求1所述的视频处理方法，其特征在于，所述基于与各个初始视频分别对应的特征向量，从所述多个初始视频中筛选出多个第一视频，包括：

5.根据权利要求1所述的视频处理方法，其特征在于，所述获取与各个第一视频的视频信息分别相关的特征值，包括：

基于所述第一特征值、所述第二特征值和所述第三特征值获取所述特征值。

6.根据权利要求1所述的视频处理方法，其特征在于，所述根据各个第一视频的特征值从多个第一视频中筛选出多个第二视频，包括：

将特征值高于第一预设阈值的第一视频作为所述第二视频。

7.根据权利要求1所述的视频处理方法，其特征在于，所述分别获取各个第二视频的关键帧画面，包括：

将筛选得到的关键帧图像拼接得到所述关键帧画面。

8.根据权利要求7所述的视频处理方法，其特征在于，所述分别获取该第二视频帧图像的视频帧差值和视频类别相关值，包括：

9.根据权利要求7所述的视频处理方法，其特征在于，所述基于每一第二视频帧图像的视频帧差值和视频类别相关值，从多个第二视频帧图像中筛选出预设数量的关键帧图像，包括：

将视频帧差值高于第二预设阈值或视频类别相关值高于第三预设阈值的视频帧图像作为所述关键帧图像。

10.一种视频处理装置，其特征在于，包括：

第一获取模块，用于获取多个初始视频，针对每一初始视频，确定初始视频中的多个初始帧图像中的像素的灰度值之和，基于所确定的灰度值之和获取对应的特征向量；

第二获取模块，用于基于与各个初始视频分别对应的特征向量，从所述多个初始视频中筛选出多个第一视频；

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-9任一项所述的视频处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-9任一项所述的视频处理方法。