CN111107392A

CN111107392A - 视频处理方法、装置和电子设备

Info

Publication number: CN111107392A
Application number: CN201911423461.9A
Authority: CN
Inventors: 张继丰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-05
Anticipated expiration: 2039-12-31
Also published as: CN111107392B

Abstract

本申请公开了一种视频处理方法、装置和电子设备，涉及大数据技术领域。其中方法包括：识别视频段的场景；根据所述视频段的场景，从预设的转场库中选择与所述视频段的场景相匹配的目标转场；为所述视频段添加所述目标转场。本申请中的一个实施例具有如下优点或有益效果：由于视频段的场景可基于视频图像识别出，而无需对视频帧的像素进行分析，从而能够简化转场添加过程，所涉及到的数据处理也较为简单，所需消耗的资源也相应较少。并且，根据视频段的场景来添加转场，更加具有通用性。

Description

视频处理方法、装置和电子设备

技术领域

本申请涉及图像处理技术，尤其涉及大数据技术领域，具体涉及一种视频处理方法、装置和电子设备。

背景技术

随着移动互联网的推广，越来越多的用户用视频记录、分享生活，为了得到质量较高的视频，需要对视频进行相应的编辑。当用户需要将多个视频片段连接起来时，需要在视频片段之间添加转场，以提高视频的整体感。目前，添加转场的方式一般是通过分析视频片段的首(或尾)视频帧的像素，并根据像素差别来选择合适的转场效果。然而，这种方式由于需要分析视频帧的像素，涉及到的处理过程较为复杂，需要耗费较多的资源。

发明内容

本申请提供一种视频处理方法、装置和电子设备，以解决现有视频转场添加方式所存在的处理过程复杂的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请提供了一种视频处理方法，包括：

识别视频段的场景；

根据所述视频段的场景，从预设的转场库中选择与所述视频段的场景相匹配的目标转场；

为所述视频段添加所述目标转场。

可选的，所述识别视频段的场景，包括：

将所述视频段输入卷积神经网络，所述卷积神经网络预先训练有不同的场景类别对应的图像样本；

从所述视频段中抽取N帧图像，所述N为正整数；

根据所述图像样本，识别所述N帧图像的每帧图像的场景；

将识别出的每帧图像的场景进行整合，作为所述视频段的场景。

可选的，所述根据所述图像样本，识别所述N帧图像的每帧图像的场景，包括：

将所述N帧图像的每帧图像划分为M个图像区域，所述M为正整数；

根据所述图像样本，识别各帧图像的所述M个图像区域的每个图像区域的场景；

将识别出的各帧图像的每个图像区域的场景进行整合，作为各帧图像的场景。

可选的，所述识别各帧图像的所述M个图像区域的每个图像区域的场景，包括：

在对各帧图像的各图像区域进行场景识别的过程中，将在各图像区域识别出的首个物体图像对应的场景作为各图像区域的场景。

可选的，所述将所述N帧图像的每帧图像划分为M个图像区域，包括：

对所述N帧图像的各帧图像进行特征提取，生成特征向量；

根据所述特征向量，将所述N帧图像的各帧图像划分为M个图像区域。

可选的，所述识别所述N帧图像的每帧图像的场景，还包括：

获取所述视频段的描述信息；

确定所述描述信息对应的目标场景类别；

根据所述目标场景类别对应的图像样本，对所述N帧图像的每帧图像进行场景识别。

第二方面，本申请提供了一种视频处理装置，包括：

识别模块，用于识别视频段的场景；

选择模块，用于根据所述视频段的场景，从预设的转场库中选择与所述视频段的场景相匹配的目标转场；

添加模块，用于为所述视频段添加所述目标转场。

可选的，所述识别模块包括：

输入子模块，用于将所述视频段输入卷积神经网络，所述卷积神经网络预先训练有不同的场景类别对应的图像样本；

抽取子模块，用于从所述视频段中抽取N帧图像，所述N为正整数；

第一识别子模块，用于根据所述图像样本，识别所述N帧图像的每帧图像的场景；

整合子模块，用于将识别出的每帧图像的场景进行整合，作为所述视频段的场景。

可选的，所述识别子模块包括：

划分单元，用于将所述N帧图像的每帧图像划分为M个图像区域，所述M为正整数；

识别单元，用于根据所述图像样本，识别各帧图像的所述M个图像区域的每个图像区域的场景；

整合单元，用于将识别出的各帧图像的每个图像区域的场景进行整合，作为各帧图像的场景。

可选的，所述识别单元具体用于：

可选的，所述划分单元包括：

提取子单元，用于对所述N帧图像的各帧图像进行特征提取，生成特征向量；

划分子单元，用于根据所述特征向量，将所述N帧图像的各帧图像划分为M个图像区域。

可选的，所述识别模块还包括：

获取子模块，用于获取所述视频段的描述信息；

确定子模块，用于确定所述描述信息对应的目标场景类别；

第二识别子模块，用于根据所述目标场景类别对应的图像样本，对所述N帧图像的每帧图像进行场景识别。

第三方面，本申请提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中的任一项方法。

第四方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行第一方面中的任一项方法。

上述申请中的一个实施例具有如下优点或有益效果：通过识别视频段的场景，从预设的转场库中选择与视频段的场景相匹配的转场，以实现为视频段添加转场。因为采用上述技术手段，由于视频段的场景识别可基于视频段的图像帧进行获取，而无需对图像帧的像素进行分析，从而能够简化转场添加过程，所涉及到的数据处理也较为简单，所需消耗的资源也相应较少。并且，通过识别视频段的场景来添加转场，更加具有通用性。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的视频处理方法的流程示意图；

图2是本申请实施例提供的视频处理装置的结构示意图；

图3是用来实现本申请实施例的视频处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请提供一种视频处理方法，该方法可应用于视频处理装置，该视频处理装置例如可以是手机、平板电脑等移动终端。如图2所示，该视频处理方法包括如下步骤：

步骤101：识别视频段的场景；

步骤102：根据所述视频段的场景，从预设的转场库中选择与所述视频段的场景相匹配的目标转场；

步骤103：为所述视频段添加所述目标转场。

其中，术语“视频段的场景”是指视频段中所体现出的场面、情景，是指在一定的时间、空间内发生的一定的任务行动或因人物关系所构成的具体生活画面。例如，对于篮球赛的视频段，其场景可以是篮球赛场景；对于同学聚会的视频段，其场景可以是聚会场景；等等。

术语“转场”也可理解场景过渡，也就是说，转场是场景与场景之间的过渡或转换。对于视频段之间的转场，往往也是由多个视频帧组成的动态视频段，因此，转场实际也可理解为一个视频段。

预设的转场库可以是通过模型创建的，也可以通过分析广大用户的操作行为而得到的。预设的转场库可存储于服务器或云端，也可存储于本地，即，存储于视频处理装置。

由于视频段的场景通过视频段的图像体现，因此，视频段的场景识别可基于图像(或称图像帧、视频帧)实现，而不需要对图像的像素进行分析。可见，通过识别视频段的场景，并根据视频段的场景来获取视频段的转场，其过程容易实现，所涉及到的数据处理也较为简单，所需消耗的资源也相应较少。并且，视频段的场景能够体现视频段的整体特点，通过识别视频段的场景来为视频段添加转场，更加具有通用性。

本申请中，在选择了目标转场之后，视频处理装置可将目标转场与视频段融合，由于根据视频段的场景选择匹配的转场，该转场能够较好地与视频段的场景融合在一起，相比于根据视频段的首(或尾)视频帧的像素所选择的转场来说，具有更好的融合效果。

转场与视频段的融合可通过神经网络实现，具体的，可训练出视频融合模型和视频融合算法，并使用该训练出的视频融合模型和视频融合算法，将目标转场与视频段融合。也可采用现有视频转场技术中的视频融合技术，将目标转场与视频段融合。

以下针对识别视频段的场景的可选实施方式进行具体的说明。

可选的，所述识别视频段的场景，包括：

从所述视频段中抽取N帧图像，所述N为正整数；

根据所述图像样本，识别所述N帧图像的每帧图像的场景；

本申请中，视频处理装置可通过卷积神经网络实现视频段的场景识别，该卷积神经网络可通过深度学习进行构建。具体的，该卷积神经网络通过深度学习可预先训练包含各种场景类别对应的图像样本的数据集，每个图像样本可以创建有准确的场景标签，每种场景类别可包含多个图像样本。

该实施方式中，在卷积神经网络创建之后，可将视频段输入卷积神经网络中进行场景识别。具体的，可从视频段中抽取一帧或多帧图像，并根据卷积神经网络预先训练的图像样本，对从视频段所抽取的每帧图像进行场景识别，在每帧图像的场景识别出来之后，再将每个图像的场景进行整合，以得到整个视频段的场景。

该实施方式中，从视频段抽取的图像帧数可根据需求确定，抽取的图像帧数越多，最后整合形成的视频段的场景更加精准，但可能存在较为接近的图像帧，需要耗费较高的处理成本。考虑到大部分用户拍摄的视频段一般较短，其所拍摄的视频段一般在较精准的场景下拍摄，因此，可适当减少所抽取的图像帧数，以提高处理效率。

该实施方式中，由于预先训练了各种场景类别对应的图像样本，因此，识别每帧图像的场景的方式，可通过将每帧图像与图像样本进行特征比对，该图像特征比对的过程较容易实现，所需耗费的处理成本较低。

该实施方式可以以较低的处理成本较精准地实现视频段的场景识别，从而可以以较低的处理成本较精准地为视频段匹配合适的转场。

该实施方式中，由于每帧图像中可能包含较丰富的内容，因此，为了提高每帧图像的场景识别的精准度，可将每帧图像划分为一个或多个图像区域。在每帧图像的各图像区域的场景识别出来之后，再将每帧图像的各图像区域的场景进行整合，以得到每帧图像的场景。

该实施方式中，对每帧图像划分图像区域的个数可根据需求确定，划分的图像区域越多，最后整合形成的每帧图像的场景更加精准，但可能存在较为接近的图像区域，需要耗费较高的处理成本。考虑到即便是将整帧图像作为一个整体去识别，也完全能够较精准地识别图像的场景，因此，每帧图像可划分为较少的图像区域，以提高场景识别的精准度和处理效率。例如，可将每帧图像划分为左右(或上下)两个图像区域，等等。

该实施方式中，各帧图像的各图像区域可能包含多个物体图像，例如，对于滑雪的图像，某个图像区域可能包括雪橇图像、还可以包括雪花图像，则当在该图像区域首先识别到雪橇图像时，可将该雪橇图像对应的场景作为该图像区域的场景。例如，雪橇图像对应的场景为滑雪场景，则该图像区域的场景为滑雪场景。

该实施方式中，在某个图像区域识别出一个物体图像对应的场景之后，就不需要再对该图像区域进行其他物体图像的识别，有利于加快图像区域的场景识别效率，降低图像区域场景识别的处理成本，并且基本上不会影响图像区域的场景识别精度。

对所述N帧图像的各帧图像进行特征提取，生成特征向量；

根据所述特征向量，将所述N帧图像的各帧图像划分为多个区域。

该实施方式中，可通过对各帧图像进行特征提取生成特征向量来实现图像区域的划分。

可选的，所述识别所述N帧图像的每帧图像的场景，还包括：

获取所述视频段的描述信息；

确定所述描述信息对应的目标场景类别；

该实施方式中，若视频段预先设置有描述信息，可以通过描述信息来确定视频段的大致的场景类别，然后再在这个大致的场景类别下，根据该场景类别对应的图像样本，对每帧图像进行场景识别。例如，用户输入的视频段的描述信息为“运动”，则卷积神经网络可直接在运动场景类别下进行更精准的场景识别。

例如，用户在录制了视频段之后，可能会对视频段进行命名，也可能会在视频段上传时对视频段进行说明或参与话题讨论等，在视频段上传之后，互联网用户还可能对视频段进行评论，等等。这些信息均可以作为视频段的描述信息。

该实施方式中，由于确定了大致的场景类别，视频段的场景识别的处理过程更加简单，所需消耗的资源也更少。

作为一个具体的示例，可以构建由图像特征提取模块、描述信息筛选模块、图像区域划分模块、图像区域调优模块等组成的卷积神经网络模型。输入视频段至该卷积神经网络，对视频段进行图像帧抽取，图像特征提取模块可以对抽取的图像帧进行图像特征提取并生成特征向量，图像区域划分模块可以根据特征向量对图像帧进行图像区域的划分，图像区域调优模块可以在对图像区域识别出一个物体图像对应的场景之后就不再对此图像区域进行场景识别。此外，描述信息筛选模块可以根据用户输入的描述信息进行场景类别的快速大致匹配。最后，卷积神经网络可将视频段所抽取的各帧图像的场景进行整合，以得到视频段的场景。

一般的，转场添加于两个视频段之间，因此，上述视频段可包括第一视频段和第二视频段。其中，第一视频段和第二视频段可以是两个独立的视频段，也可以是由一个视频分割形成的两个视频段。

如果第一视频段和第二视频段为两个独立的视频段，则本申请用于将这两个视频段合并成一个视频，这两个视频段合并时，在这两个视频段之间添加转场效果。具体实现时，用户可以输入视频合并指令，并选择或确定待合并的第一视频段和第二视频段，视频处理装置接收到用户输入的视频合并指令之后，即可自动触发添加转场的功能，或者，在用户确认之后触发添加视频转场效果的功能。

如果第一视频段和第二视频段是由一个视频分割形成的，则用户可以输入视频分割指令，并确定视频分割的位置，视频处理装置接收到用户输入的视频分割指令之后，即可自动触发添加转场的功能，或者，在用户确认之后触发添加视频转场效果的功能。

举例来说，用户分割完多个视频段之后，视频处理装置可弹出是否添加视频转场效果的选项，用户选择“是”之后，视频处理装置触发添加视频转场效果的功能。

本申请的上述实施例至少具有如下优点或有益效果：通过识别视频段的场景，从预设的转场库中选择与视频段的场景相匹配的转场，以实现为视频段添加转场。因为采用上述技术手段，由于视频段的场景识别可基于视频段的图像帧进行获取，而无需对图像帧的像素进行分析，从而能够简化转场添加过程，所涉及到的数据处理也较为简单，所需消耗的资源也相应较少。并且，通过识别视频段的场景来添加转场，更加具有通用性。

可选的，若所述转场库中存在多个与所述视频段的场景匹配的转场，则获取所述多个匹配的转场的每个转场的使用频率；

将使用频率满足预设条件的转场作为所述目标转场。

该实施方式中，当与视频段的场景信息匹配的转场有多个时，可进一步基于这多个转场的使用频率来选择一个目标转场。通常情况下，转场的使用频率能够较好地反映广大用户的操作行为，使用频率越高，说明该转场更符合广大用户的需求，因此，这里的预设条件可以是使用频率最高的条件。

该实施方式中，基于转场的使用频率来选择目标转场，体现了广大用户的操作行为，有利于选择出效果更佳的转场，增强用户的使用满意度。

可选的，在所述生成目标视频之后，所述方法还包括：

播放所述目标视频；

接收用户对所述目标视频的响应消息；

若接收到用户对所述目标视频的确认消息，则保存所述目标视频。

该实施方式中，将视频段与转场融合生成目标视频之后，通过播放目标视频，能够供用户预览视频添加转场的效果，从而能够供用户对所添加的转场进行确认，有利于提高用户的使用满意度。

若用户对所添加的转场效果满意，则上述响应消息为确认消息。若用户对所添加的转场效果不满意，则上述响应消息为否定消息，这是，用户可自行选择转场，或者，视频处理装置再次从预设的转场库中选择其他的目标转场，直至接收到用户的确认消息。

可选的，在所述接收用户对所述目标视频的响应消息之后，所述方法还包括：

根据所述响应消息，更新所述目标转场的使用频率。

该实施方式中，用户在对视频添加转场的效果进行响应之后，视频处理装置可根据用户的响应消息，对目标转场的使用频率进行更新。尤其是预设的转场库存储于视频处理装置本地的情况下，视频处理装置可根据响应消息，更新目标转场的使用频率。

此外，若预设的转场库存储于服务器或云端，则视频处理装置可以根据响应消息对目标转场的使用频率进行更新，并将更新后的目标转场的使用频率上报给服务器或云端。或者，视频处理装置还可以直接将响应消息上报给服务器和云端，以使服务器或云端基于响应消息对目标转场的使用频率进行更新。

无论上述何种方式，该实施方式均可实现转场素材的大数据分析和采集，为视频转场素材提供更加精准的大数据预测，提高视频转场添加效率和效果。

需要说明的是，本申请中的视频处理方法中的多种可选的实施方式，彼此可以相互结合实现，也可以单独实现，对此本申请不作限定。

本申请的上述实施例具有如下优点或有益效果：通过获取视频段的场景信息，从预设的转场库中选择与场景信息相匹配的转场，以实现在视频段之间添加转场。因为采用上述技术手段，由于视频段的场景信息可基于视频图像或视频描述信息获取，而无需对视频帧的像素进行分析，从而能够简化转场添加过程，所涉及到的数据处理也较为简单，所需消耗的资源也相应较少。并且，根据视频段的场景信息来添加转场，更加具有通用性。

本申请还提供了一种视频处理装置，如图2所示，视频处理装置200包括：

识别模块201，用于识别视频段的场景；

选择模块202，用于根据所述视频段的场景，从预设的转场库中选择与所述视频段的场景相匹配的目标转场；

添加模块203，用于为所述视频段添加所述目标转场。

可选的，识别模块201包括：

可选的，所述识别子模块包括：

可选的，所述识别单元具体用于：

可选的，所述划分单元包括：

可选的，识别模块201还包括：

获取子模块，用于获取所述视频段的描述信息；

确定子模块，用于确定所述描述信息对应的目标场景类别；

本申请提供的视频处理装置200能够实现上述视频处理方法实施例中视频处理装置实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图3所示，是根据本申请实施例的视频处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图3所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图3中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频处理方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频处理方法对应的程序指令/模块(例如，附图2所示的识别模块201、选择模块202和添加模块203)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频处理方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频处理方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至视频处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频处理方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图3中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与视频处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过获取视频段的场景信息，从预设的转场库中选择与场景信息相匹配的转场，以实现在视频段之间添加转场。因为采用上述技术手段，由于视频段的场景信息可基于视频图像或视频描述信息获取，而无需对视频帧的像素进行分析，从而能够简化转场添加过程，所涉及到的数据处理也较为简单，所需消耗的资源也相应较少。并且，根据视频段的场景信息来添加转场，更加具有通用性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

识别视频段的场景；

为所述视频段添加所述目标转场。

2.根据权利要求1所述的方法，其特征在于，所述识别视频段的场景，包括：

从所述视频段中抽取N帧图像，所述N为正整数；

根据所述图像样本，识别所述N帧图像的每帧图像的场景；

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像样本，识别所述N帧图像的每帧图像的场景，包括：

4.根据权利要求3所述的方法，其特征在于，所述识别各帧图像的所述M个图像区域的每个图像区域的场景，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述N帧图像的每帧图像划分为M个图像区域，包括：

对所述N帧图像的各帧图像进行特征提取，生成特征向量；

6.根据权利要求2所述的方法，其特征在于，所述识别所述N帧图像的每帧图像的场景，还包括：

获取所述视频段的描述信息；

确定所述描述信息对应的目标场景类别；

7.一种视频处理装置，其特征在于，包括：

识别模块，用于识别视频段的场景；

添加模块，用于为所述视频段添加所述目标转场。

8.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

9.根据权利要求8所述的装置，其特征在于，所述识别子模块包括：

10.根据权利要求9所述的装置，其特征在于，所述识别单元具体用于：

11.根据权利要求9所述的装置，其特征在于，所述划分单元包括：

12.根据权利要求7所述的装置，其特征在于，所述识别模块还包括：

获取子模块，用于获取所述视频段的描述信息；

确定子模块，用于确定所述描述信息对应的目标场景类别；

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至6中任一项所述的方法。