CN111757149B

CN111757149B - 视频剪辑方法、装置、设备及存储介质

Info

Publication number: CN111757149B
Application number: CN202010694551.8A
Authority: CN
Inventors: 饶安逸; 徐霖宁; 蒋学锟; 黄青虬; 周博磊; 林达华
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-07-05
Anticipated expiration: 2040-07-17
Also published as: CN111757149A

Abstract

公开了一种视频剪辑方法、装置、设备及存储介质。所述方法包括：基于视频流中的多个原始图像，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像；对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果；基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合；基于所述目标图像集合，得到所述视频流的视频剪辑结果。

Description

视频剪辑方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术，尤其涉及一种视频剪辑方法、装置、设备及存储介质。

背景技术

视频剪辑在视频制作中具有重要的作用，在视频剪辑过程中，使用不同的镜头类型可以呈现不同的效果，传递出不同的情感。由于剪辑过程中镜头类型的调整需要消耗大量人力成本和时间成本，因此需要研究和开发更高效的视频自动剪辑方法。

发明内容

本公开实施例提供了一种视频剪辑方案。

根据本公开的一方面，提供一种视频剪辑方法，所述方法包括：基于视频流中的多个原始图像，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像；对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果；基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合；基于所述目标图像集合，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述基于所述目标图像集合，得到所述视频流的视频剪辑结果，包括：利用所述目标图像集合中的至少一个候选图像对所述多个原始图像中的至少一个原始图像进行替换处理，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述基于所述目标图像集合，得到所述视频流的视频剪辑结果，包括：对所述目标图像集合和背景模板进行图像合成处理，得到所述视频流的视频剪辑结果；或者对所述目标图像集合和所述多个原始图像进行图像合成处理，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述基于所述目标图像集合，得到所述视频流的视频剪辑结果，包括：基于剪辑风格信息，对所述目标图像集合进行视频合成处理，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述基于视频流中的多个原始图像，得到至少一个候选图像集合，包括：通过对所述视频流的多个原始图像中至少一个原始图像的处理，得到至少一个候选图像集合；或者基于对所述视频流的多个原始图像中至少一个原始图像的识别结果以及素材库，得到至少一个候选图像集合；或者通过对所述视频流的多个原始图像中至少一个原始图像进行裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括通过同一裁剪方式对所述多个图像中至少一个图像进行处理得到的结果图像。

结合本公开提供的任一实施方式，所述基于视频流中的多个原始图像，得到至少一个候选图像集合，包括：根据所述多个原始图像中每个原始图像中所包含的主体对象的位置信息，对所述每个原始图像进行多次裁剪处理，得到所述每个原始图像的至少一个候选图像。

结合本公开提供的任一实施方式，每个所述候选图像包含所述主体对象的至少一部分。

结合本公开提供的任一实施方式，所述主体对象包括以下中的至少一项：说话主体、动作主体、目标人物。

结合本公开提供的任一实施方式，所述基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合，包括：基于预设剪辑策略对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合；或者基于所述多个原始图像对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

结合本公开提供的任一实施方式，所述镜头分类结果包括预测镜头类别和预测置信度；所述基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合，包括：基于所述至少一个候选图像集合中每个候选图像集合的预测镜头类别，从所述至少一个候选图像集合中选取目标图像集合；和/或在所述至少一个候选图像集合中存在至少两个候选图像集合的预测镜头类别相同的情况下，基于所述至少两个候选图像集合的预测置信度，选取所述目标图像集合。

结合本公开提供的任一实施方式，所述目标图像集合中包括的候选图像是从所述原始图像裁剪得到的；所述基于所述目标图像集合，得到所述视频流的视频剪辑结果，包括：确定所述目标图像集合包括的至少一个候选图像在所属的原始图像中的位置信息；基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合；基于所述处理图像集合，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合，包括：响应于所述目标图像集合中存在偏移图像，所述偏移图像在所属的原始图像中的位置与所述目标图像集合对应的参考位置之间的差异超过设定阈值，对所述偏移图像进行替换。

结合本公开提供的任一实施方式，所述对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果，包括：通过对第一候选图像集合中的至少一个候选图像进行处理，得到所述至少一个候选图像中每个候选图像的掩膜图像，其中，所述至少一个候选图像集合包括第一候选图像集合，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息；根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果。

结合本公开提供的任一实施方式，所述根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果，包括：根据所述至少一个候选图像以及所述至少一个候选图像的前景图像，得到所述第一候选图像集合的景别分类结果；和/或，根据所述至少一个候选图像以及所述至少一个候选图像的背景图像，得到所述候选图像集合的运镜分类结果。

结合本公开提供的任一实施方式，所述根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果，包括：将所述至少一个候选图像以及所述至少一个候选图像的掩膜图像输入至镜头分类网络进行处理，输出所述第一候选图像集合的镜头分类结果。

结合本公开提供的任一实施方式，所述根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果，包括：对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息，并对所述每个候选图像的的掩膜图像到进行特征提取处理，得到第二特征信息；对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果。

结合本公开提供的任一实施方式，所述第一特征信息和所述第二特征信息均包括n阶特征信息；所述对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息，包括：对所述候选图像的所述第一特征信息中的第i-1阶特征信息或所述候选图像进行特征提取，得到所述候选图像的第i阶初始特征信息；将所述候选图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。

结合本公开提供的任一实施方式，所述对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果，包括：对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行连接处理，得到所述每个候选图像的连接特征信息；基于所述至少一个候选图像中每个候选图像的连接特征信息，确定所述第一候选图像集合的镜头分类结果。

根据本公开的一方面，提出一种视频剪辑装置，所述装置包括：所述装置包括：获取单元，用于基于视频流中的多个原始图像，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像；分类单元，用于对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果；选取单元，用于基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合；剪辑单元，用于基于所述目标图像集合，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述剪辑单元具体用于：利用所述目标图像集合中的至少一个候选图像对所述多个原始图像中的至少一个原始图像进行替换处理，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述剪辑单元具体用于：对所述目标图像集合和背景模板进行图像合成处理，得到所述视频流的视频剪辑结果；或者对所述目标图像集合和所述多个原始图像进行图像合成处理，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述剪辑单元具体用于：基于剪辑风格信息，对所述目标图像集合进行视频合成处理，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述剪辑单元具体用于：通过对所述视频流的多个原始图像中至少一个原始图像的处理，得到至少一个候选图像集合；或者基于对所述视频流的多个原始图像中至少一个原始图像的识别结果以及素材库，得到至少一个候选图像集合；或者通过对所述视频流的多个原始图像中至少一个原始图像进行裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括通过同一裁剪方式对所述多个图像中至少一个图像进行处理得到的结果图像。

结合本公开提供的任一实施方式，所述获取单元具体用于：根据所述多个原始图像中每个原始图像中所包含的主体对象的位置信息，对所述每个原始图像进行多次裁剪处理，得到所述每个原始图像的至少一个候选图像。

结合本公开提供的任一实施方式，每个所述候选图像包含所述主体对象的至少一部分，其中，所述主体对象包括以下中的至少一项：说话主体、动作主体、目标人物。

结合本公开提供的任一实施方式，所述选取单元具体用于：基于预设剪辑策略对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合；或者基于所述多个原始图像对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

结合本公开提供的任一实施方式，所述镜头分类结果包括预测镜头类别和预测置信度；所述选取单元具体用于：基于所述至少一个候选图像集合中每个候选图像集合的预测镜头类别，从所述至少一个候选图像集合中选取目标图像集合；和/或在所述至少一个候选图像集合中存在至少两个候选图像集合的预测镜头类别相同的情况下，基于所述至少两个候选图像集合的预测置信度，选取所述目标图像集合。

结合本公开提供的任一实施方式，所述目标图像集合中包括的候选图像是从所述原始图像裁剪得到的；所述剪辑单元具体用于：确定所述目标图像集合包括的至少一个候选图像在所属的原始图像中的位置信息；基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合；基于所述处理图像集合，得到所述视频流的视频剪辑结果。

结合本公开提供的任一实施方式，所述剪辑单元在基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合时，具体用于：响应于所述目标图像集合中存在偏移图像，所述偏移图像在所属的原始图像中的位置与所述目标图像集合对应的参考位置之间的差异超过设定阈值，对所述偏移图像进行替换。

结合本公开提供的任一实施方式，所述分类单元具体用于：通过对第一候选图像集合中的至少一个候选图像进行处理，得到所述至少一个候选图像中每个候选图像的掩膜图像，其中，所述至少一个候选图像集合包括第一候选图像集合，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息；根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果。

结合本公开提供的任一实施方式，所述分类单元在用于根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果时，具体用于：根据所述至少一个候选图像以及所述至少一个候选图像的前景图像，得到所述第一候选图像集合的景别分类结果；和/或，根据所述至少一个候选图像以及所述至少一个候选图像的背景图像，得到所述候选图像集合的运镜分类结果。

结合本公开提供的任一实施方式，所述分类单元在用于根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果时，具体用于：将所述至少一个候选图像以及所述至少一个候选图像的掩膜图像输入至镜头分类网络进行处理，输出所述第一候选图像集合的镜头分类结果。

结合本公开提供的任一实施方式，所述分类单元在用于根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果时，具体用于：对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息，并对所述每个候选图像的的掩膜图像到进行特征提取处理，得到第二特征信息；对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果。

结合本公开提供的任一实施方式，所述第一特征信息和所述第二特征信息均包括n阶特征信息；所述分类单元在用于对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息时，具体用于：对所述候选图像的所述第一特征信息中的第i-1阶特征信息或所述候选图像进行特征提取，得到所述候选图像的第i阶初始特征信息；将所述候选图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。

结合本公开提供的任一实施方式，所述分类单元在用于对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果时，具体用于：对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行连接处理，得到所述每个候选图像的连接特征信息；基于所述至少一个候选图像中每个候选图像的连接特征信息，确定所述第一候选图像集合的镜头分类结果。

根据本公开的一方面，提供一种视频剪辑设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现任一实施方式所述的方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现任一实施方式所述的方法。

本公开一个或多个实施例的视频剪辑方法、装置、设备及可读存储介质，基于视频流中的多个原始图像，得到至少一个候选图像集合，并基于对每个候选图像集合进行镜头分类处理所得到的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合，并基于选取的目标图像集合得到所述视频流的剪辑结果，实现了基于镜头分类的自动视频剪辑，提高了视频剪辑的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开实施例提出的一种视频剪辑方法的流程图；

图2A和图2B分别示出了根据一种剪辑策略进行剪辑的原始图像和目标图像集合；

图3A和图3B分别示出了根据另一种剪辑策略进行剪辑的原始图像和目标图像集合；

图4是本公开实施例所提出的视频剪辑方法的示意图；

图5是本公开实施例提出的一种信息处理装置的结构示意图；

图6是本公开实施例提出的一种信息处理设备的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1示出了本公开一些实施例提出的视频剪辑方法，该方法可以包括步骤101～104。

在步骤101中，基于视频流中的多个原始图像，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像。

其中，所述视频流可以包括一个或多个镜头，所述镜头可以是由多个连续的视频帧图像组成的视频片段。

在本公开实施例中，可以基于视频流中的多个原始图像，得到一个或多个候选图像集合，每个候选图像集合包括至少一个候选图像。在一些实施例中，候选图像集合包括一个候选图像，该候选图像对应于多个原始图像中的一个原始图像，此时，作为一个例子，不同的候选图像集合可以对应于同一个原始图像，即基于多个原始图像中的同一个原始图像得到多个候选图像，作为另一个例子，可以基于多个原始图像中的至少两个原始图像，得到多个候选图像集合，其中，每个原始图像对应一个或多个候选图像。

在一些实施例中，候选图像集合包括多个候选图像，该多个候选图像可以对应于同一个原始图像或不同的原始图像，作为一个例子，可以基于同一个原始图像，得到一个候选图像集合中的多个候选图像，此时，如果有多个候选图像集合，不同的候选图像集合可以对应于不同的原始图像，作为另一个例子，可以基于多个原始图像中的至少两个原始图像，得到一个候选图像集合中的多个候选图像，其中，该多个候选图像可以是通过同一种策略基于所述至少两个原始图像得到的，例如，采用同一种裁剪方式对至少两个原始图像进行裁剪处理，得到多个候选图像，再例如，采用同一种选取策略从素材库选取该至少两个原始图像分别对应的候选图像，等等，该至少两个原始图像与多个候选图像可以是一对一或一对多关系，本公开实施例对此不做限定。

在本公开实施例中，可以通过多种方式得到候选图像集合。例如，通过对多个原始图像中的至少一个原始图像进行一种或多种处理，得到每个原始图像的候选图像。再例如，可以基于多个原始图像中的至少一个原始图像，按照一定策略以从素材库选取、从用户提供的多个素材图像中选取、从模板库中选取、或者网络爬取等方式获取候选图像集合中的至少一个候选图像，等等，一个候选图像集合中的至少一个候选图像可以是通过相同或不同的方式得到的，本公开实施例对此不做限定。此外，该至少一个候选图像集合可以是通过同一种方式得到的，例如，均通过图像裁剪处理得到的，也可以是通过不同方式得到的，例如，其中一部分候选图像集合是通过图像裁剪处理得到的，另一部分候选图像集合是通过从素材库或用户提供的图像中选取，本公开实施例对此不做限定。

在步骤102中，对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果。在一些实施例中，候选图像集合包括对应于同一个原始图像的一个或多个候选图像，此时，可选地，候选图像集合的镜头分类结果可以包括其中的每个候选图像的镜头分类结果。作为一个例子，一个候选图像的镜头分类结果可以通过将该候选图像复制多份，得到由该多个相同的候选图像得到的视频片段，然后对该视频片段进行镜头分类处理，得到该候选图像的镜头分类结果。或者，也可以通过其他方式得到一个候选图像的镜头分类结果，本公开实施例对此不做限定。

在一些实施例中，候选图像集合包括对应于不同原始图像的多个候选图像，此时，可选地，候选图像集合的镜头分类结果可以包括其中的每个候选图像的镜头分类结果，或者也可以包括该多个候选图像构成的一个或多个镜头片段中每个镜头片段的镜头分类结果。例如，候选图像集合包括多个原始图像中每个原始图像对应的一个候选图像，则可以基于该多个原始图像所属的镜头，将该多个候选图像划分为一个或多个镜头片段，但本公开实施例对此不做限定。

在本公开实施例中，所述镜头分类结果可以包括一种或多种目标类别的镜头分类结果，例如景别、镜头运动方式、镜头焦距等等。

在步骤103中，基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合。

根据每个候选图像集合所包含的至少一个候选图像的镜头分类结果，可以从至少一个候选图像集合中确定所包含的各个候选图像的镜头分类结果符合预设标准的目标图像集合。

在步骤104中，基于所述目标图像集合，得到所述视频流的视频剪辑结果。

在本公开实施例中，基于视频流中的多个原始图像，得到至少一个候选图像集合，并基于对每个候选图像集合进行镜头分类处理所得到的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合，得到所述视频流的剪辑结果，从而实现了基于镜头分类的自动视频剪辑，提高了视频剪辑的效率。

在本公开实施例中，可以可选地通过以下方式基于所述目标图像集合，得到所述视频流的视频剪辑结果。

在一些实施例中，可以利用所述目标图像集合中的至少一个候选图像对所述多个原始图像中的至少一个原始图像进行替换处理，得到所述视频流的视频剪辑结果。

其中，可以利用目标图像集合中的一个候选图像对多个原始图像中的一个或多个原始图像进行替换处理，或者，也可以利用目标图像集合中的至少两个候选图像对多个原始图像中的部分或所有原始图像进行替换处理，其中，这里的替换处理可以是对整个原始图像的替换，或者是对原始图像的一部分的替换，例如，将原始图像中的特定部分所在区域(如目标对象所在区域或背景区域)的图像进行替换，本公开实施例对此不做限定。

在一个示例中，可以利用目标图像集中具有特定镜头类别的候选图像，对所述视频流中的一个或多个原始图像进行替换处理，例如，利用目标图像集合中的近景候选图像，对所述视频流中的中景原始图像进行替换处理，从而改变了视频流的镜头类别。

在一个示例中，所述目标图像集合中的候选图像可以是从素材库中选取的与各个原始图像相似度最高的素材图像，其中，这里的相似度较高可以指在特定类别上具有较高相似度，具有相同的镜头类别、或者具有相同的对象主体、或者具有相同的图像风格等等，或者是通过图像相似度模型确定的两个图像的相似度较高，本公开实施例对此不做限定。通过利用各个素材图像分别替换对应的原始图像，可快速生成与所述视频流具有相似构架的视频剪辑结果。

通过利用目标图像集合中的候选图像，对原始图像进行替换处理，可以使视频剪辑结果呈现与原视频流不同的效果和风格。

在一些实施例中，可以对所述目标图像集合和背景模板进行图像合成处理，得到所述视频流的视频剪辑结果。

可选地，背景模板可以是基于剪辑视频风格信息所确定的，例如简洁的纯色背景；或者可以是特定场景下的背景模板，例如以大海、天空为背景的模板，或者是用户指定的，或者是通过其他方式确定的。通过将目标图像集合中的至少一个图像(可以是所述目标图像集合的全部或部分)与所述背景模板进行图像合成处理，可以得到不同效果、风格或者不同场景下的视频剪辑结果。

在一个示例中，所述背景模板是以海滩为背景的模板，所述目标图像集合中的图像为原始图像中的主体对象的近景图像，通过将所述目标图像集合中的近景图像与海滩背景模板进行合成处理，获得了所述主体对象在海滩场景下的视频剪辑结果。

在一个示例中，所述背景模板为纯白色背景模板，所述目标图像集合中的图像为原始图像中的主体对象的特写图像，通过将所述目标图像集合中的特写图像与纯白色背景模板进行合成处理，可以实现更加突出主体对象的效果。

在一些实施例中，可以对所述目标图像集合和所述多个原始图像进行图像合成处理，得到所述视频流的视频剪辑结果。

通过将目标图像集合中全部或部分的图像与所述图像与所述原始图像进行图像合成处理，可以得到具有设定效果视频剪辑结果，例如相同的目标对象在同一图像的不同位置出现，或者对称呈现等等。

在一些实施例中，可以基于剪辑风格信息，对所述目标图像集合进行视频合成处理，得到所述视频流的视频剪辑结果。

所述剪辑风格信息包括但不限于简洁效果剪辑、节奏性效果剪辑等中的至少一种。

响应于所述剪辑风络信息指示简洁效果剪辑，在对于所述目标图像集合中的全部或部分图像进行视频合成处理时，可以跳跃性地选择所述目标集合中的图像，使得视频剪辑结果呈现简洁明快的效果。

响应于所述剪辑风格信息指示节奏性效果剪辑，在对于所述目标图像集合中的全部或部分图像进行视频合成处理时，可以使画面转换快的镜头和画面转换慢的镜头交替出现，从而造成观众心理情绪起伏的效果。

对于所述目标图像集合中的全部或部分图像，进行视频合成处理，可以得到新的视频流作为原始视频流的视频剪辑结果，所述视频剪辑结果可以呈现出与原视频流不同的效果和风格。

在本公开实施例中，可以通过以下方式基于视频流中的多个原始图像，得到至少一个候选图像集合。

在一些实施例中，可以通过对所述视频流的多个原始图像的处理，得到至少一个候选图像集合。其中，对所述原始图像的处理包括进行目标识别处理、关键点提取处理、裁剪处理等一种或多种。

在一些实施例中，可以基于对所述视频流的多个原始图像的识别结果以及素材库，得到至少一个候选图像集合。

根据所述原始图像的识别结果，可以从素材库中选取相应的素材。例如，可根据识别出的原始图像的场景，从素材库中选取具有相同场景的素材图像，再例如，可根据识别出的原始图像的图像风格，从素材库中选取具有相同图像风格的素材图像，再例如，可根据识别出的原始图像的镜头类别，从素材库中选取与原始图像具有相同镜头类别的素材图像，再例如，可根据识别出的原始图像中主体对象的类型，从素材库中选取具有相同类型的主体对象的素材图像；再例如，可根据识别的原始图像中主体对象的属性信息，从素材库中选取与主体对象的属性相匹配的素材图像。比如，在识别出所述原始图像中的主体对象的面部轮廓的情况下，可根据该面部轮廓从素材库中选出与面部轮廓匹配的面部配件图像，例如眼镜图像、口罩图像等等。通过所述素材与所述原始图像结合，或者通过所述素材对所述原始图像进行处理，可以得到相应的候选图像，使所述候选图像呈现出与所述原始图像中的内容更加匹配和贴合的视觉效果。

在一些实施例中，可以通过对所述视频流的多个原始图像中每个原始图像进行裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括通过同一裁剪方式对所述多个原始图像中每个原始图像进行处理得到的结果图像。或者，针对于每个原始图像，可以通过不同裁剪方式进行处理得到多张候选图像，获得对应于每个所述原始图像的候选图像集合。

可以通过多种不同的裁剪方式分别对视频流的多个原始图像进行裁剪处理，得到至少一个候选图像集合，作为一个示例，所述同一裁剪方式，可以指基于相同的位置和/或相同的尺寸对所述多个原始图像进行裁剪。

在本公开实施例中，所述目标图像集合包含通过同一裁剪方式得到的结果图像，根据所述目标候选集合所得到的视频剪辑结果中各个图像的中以点位置稳定，实现了平衡舒适的效果。

对原始图像进行裁剪图像的方式可以通过多种方式确定。在一些实施例中，可以进行随机裁剪，得到具有相同尺寸的多个裁剪图像。在一些实施例中，可以预先设置多个裁剪位置，并基于预先设置的裁剪位置对原始图像进行裁剪，得到多个裁剪图像。在一些实施例中，根据所述原始图像中所包含的主体对象的位置信息，对所述原始图像进行多次裁剪处理，得到所述原始图像的多个候选图像。其中，可选地，可以基于主体对象的位置信息进行随机裁剪，或者基于主体对象的位置信息按照特定划窗机制进行划窗裁剪，或者基于主体对象的位置信息按照主体对象的不同部位进行裁剪，包括头部、包括上半身、包括全身，等等，本公开实施例对此不做限定。

在一些示例中，每个所述候选图像包含所述主体对象的至少一部分。例如，候选图像包括主体对象的整个区域，候选图像包括主体对象的主体区域，等等。

基于所述视频流中的每个原始图像可以确定多个裁剪区域(cropping regions)，所述多个裁剪区域可以包括不同尺寸、不同位置的图像区域，或者包括相同尺寸、不同位置的图像区域，等等。

在本公开一些实施例中，所述多个裁剪区域可以是根据主体对象的位置确定的，其中有些裁剪区域包含所述主体对象的全部或部分，有些裁剪区域不包含主体对象。根据所述多个裁剪区域对所述原始图像进行多次裁剪，可以得到每个原始图像的至少一个候选图像。

根据原始图像中所包含的主体对象的位置信息来确定候选图像，目的通常在于想要强调或突出所述主体对象。因此，可以根据各个候选图像是否包含主体对象，或者包含主体对象的质量来确定目标图像集合。

其中，在一些实施例中，所述主体对象包括以下中的至少一项：说话主体、动作主体、目标人物。该目标人物可以是某一个特定人物，或者是画面中面对镜头的人物，等等，本公开实施例对此不做限定。

在所述主体对象包括说话主体的情况下，所获得的至少一个候选图像是与所述原始图像的说话主体相关的，例如为包含了说话主体的至少一部分的候选图像。在此基础上，基于相应的目标图像集合所得到的视频剪辑结果，能够实现突出说话主体的效果；同理，在所述主体对象包括动作主体的情况下，相应的视频剪辑结果，能够实现突出动作主体的效果；而在所述主体对象包括目标人物的情况下，则可以突出目标人物。

本领域技术人员应当理解，以上主体对象仅为示例，也可以包括其他类型的、想要突出或强调的主体对象。

在本公开实施例中，可以基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合。

在一个示例中，可以基于预设剪辑策略对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

预设剪辑策略例如为关于主体对象的中景镜头之后，跟随关于所述主体对象的近景镜头；或者在远景镜头之间，利用中景镜头进行衔接，等等。根据所述预设剪辑策略对应的目标镜头类别，可以从至少一个候选图像集合中确定目标图像集合。

图2A和图2B分别示出了根据一种剪辑策略进行剪辑的原始图像和目标图像集合。如图2A所示，原始视频流所包含的四张原始图像均是中景镜头。利用在中景镜头之后，跟随关于所述主体对象的近景镜头这一剪辑策略，从所述原始图像所对应的至少一个候选图像集合中，将包含的目标镜头类别为中景-近景-中景-近景的候选图像集合，作为目标图像集合，如图2B所示。

图3A和图3B分别示出了根据另一种剪辑策略进行剪辑的原始图像和目标图像集合。如图3A所示，原始视频流所包含的四张原始图像均是远景镜头。利用在远景镜头之间，利用中景镜头进行衔接这一剪辑策略，从所述原始图像所对应的至少一个候选图像集合中，将包含的目标镜头类别为远景-中景-中景-远景的候选图像集合，作为目标图像集合，如图3B所示。

在本公开实施例中，通过利用预设剪辑策略对应的目标镜头类别来选取目标图像集合，能够自动对原始视频流剪辑进行剪辑，得到符合预期风格和效果的视频剪辑效果。

在一些实施例中，基于所述多个原始图像对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

在需要对原始图像的镜头类别进行变化时，可以对于原始图像设置对应的目标镜头类别。例如，在所述原始图像所对应的目标镜头类别为近景的情况下，可以从至少一个候选图像集合中，选取出所包含的候选图像为近景的目标图像集合。

在本公开实施例中，可以利用神经网络获得每个候选图像集合中的至少一个候选图像的预测镜头类别，并根据每个候选图像集合的预测镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

在所述至少一个候选图像集合中存在至少两个候选图像集合的预测镜头类别相同的情况下，基于所述至少两个候选图像集合的预测置信度，选取所述目标图像集合。例如，选取预测置信度最高的候选图像集合作为目标图像集合。在所述候选图像是根据所述多个原始图像中每个原始图像中所包含的主体对象的位置信息获得的情况下，所述预测置信度与所述候选图像中所包含的主体对象有关。在候选图像未包含或者只包含了部分主体对象时，预测置信度相低较低；在候选图像包含了完整的主体对象，且主体对象在候选图像中的位置适当时，则预测置信度较高。

在所述目标图像集合中包括的候选图像是从所述原始图像裁剪得到的情况下，可以通过以下方式得到所述视频流的视频剪辑结果。

首先，确定所述目标图像集合包括的至少一个候选图像在所属的原始图像中的位置信息。所述候选图像在所属的原始图像中的位置信息，可以基于所述原始图像的像素点坐标进行描述，例如，对于尺寸为100*100(单位为像素)的原始图像、尺寸为10*10的候选图像，所述候选图像在所述原始图像中的中心点坐标为50*50。

基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合，并基于所述处理图像集合，得到所述视频流的视频剪辑结果。

响应于所述目标图像集合中存在偏移图像，所述偏移图像在所属的原始图像中的位置与所述目标图像集合对应的参考位置之间的差异超过设定阈值，对所述偏移图像进行替换。

所述目标图像集合对应的参考位置可以是预先设置的，也可以是根据所述目标图像集合中的各个候选图像在所各自所属的原始图像中的平均位置确定的。

由于偏移图像在所属的原始图像中的位置与参考位置之间的差异超过设定阈值，所以偏移图像的中心点相较于其他候选图像产生了较大偏移，会导致视觉不连续，影响观看感受。通过从所述原始图像所对应的候选图像中选择其他候选图像来替换所述偏移图像，使得到的视频剪辑结果中各个图像的中心点位置平稳，提升了观看感受。

本公开还提出了一种对于候选图像集合进行镜头分类的方法。

首先，通过对第一候选图像集合中的至少一个候选图像进行处理，得到所述至少一个候选图像中每个候选图像的掩膜图像。

其中，所述至少一个候选图像集合包括第一候选图像集合，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种。

所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息，其中，所述概率的数值范围在[0,1]之间。作为一个例子，主体掩膜中的各个像素点的值表示该像素点属于前景的概率，相应地，前景区域的像素点在主体掩膜中对应的像素点的概率值较高，而背景区域的像素点在主体掩膜中对应的像素点的概率值较低。在一些实施例中，所述主体掩膜可以与所述图像具有相同的宽和高，所述主体掩膜可以为显著性特征图(Saliency Map)，但本公开实施例对此不做限定。

所述前景图像可以为前景区域的图像，所述背景图像可以为背景区域的图像。前景图像和背景图像可选地可以与所述图像具有相同的尺寸，但本公开实施例不限于此。

接下来，根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果。

在一些实施例中，根据所述至少一个候选图像以及所述至少一个候选图像的前景图像，得到所述第一候选图像集合的景别分类结果。

景别是指由于摄像机与被摄主体的距离不同，而造成被摄主体在画面中所呈现的范围大小的不同。在一个示例中，景别可以分为五种：特写、近景、中景、全景、远景，或者景别也可以具有其他的划分方式。

在一些实施例中，根据所述至少一个候选图像以及所述至少一个候选图像的背景图像，得到所述候选图像集合的运镜分类结果。

镜头运动方式是指拍摄所述视频的摄像头自身的运动状态，也可以称为运镜方式。在一个示例中，镜头运动方式可以分为四种：静止镜头、运动镜头、推近镜头、拉远镜头，或者镜头运动方式也可以具有其他的划分方式。

在一些实施例中，可以将所述至少一个候选图像以及所述至少一个候选图像的掩膜图像输入至镜头分类网络进行处理，输出所述第一候选图像集合的镜头分类结果。

在一些实施例中，可以对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息，并对所述每个候选图像的的掩膜图像到进行特征提取处理，得到第二特征信息；对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果。

在一个示例中，对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行连接处理，得到所述每个候选图像的连接特征信息；基于所述至少一个候选图像中每个候选图像的连接特征信息，确定所述第一候选图像集合的镜头分类结果。

通过将第一特征信息和第二特征信息进行融合，有利于前景特征信息或背景特征信息的提取，可以提高镜头分类的准确度。

在一个示例中，所述第一特征信息和所述第二特征信息均包括n阶特征信息；针对所述少一个候选图像中每个候选图像，对所述候选图像的所述第一特征信息中的第i-1阶特征信息或所述候选图像进行特征提取，得到所述候选图像的第i阶初始特征信息；将所述候选图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。其中，i为小于等于n的正整数。

在本公开实施例中，将第二特征信息的各阶特征信息分别与第一特征信息的各阶特征信息结合，共同作为第一特征信息的下一阶特征信息的输入。

通过进行多阶特征信息的提取，并将第一特征信息和第二特征信息的各阶特征信息进行融合，有利于前景特征信息或背景特征信息的提取，从而能够进一步提高镜头分类的准确度。

图4示出了本公开实施例所提出的视频剪辑方法的示意图。

如图4所示，首先对于原始图像400进行裁剪处理，得到包含候选图像的候选图像集合。

在本示例中，可以根据原始图像400中说话主体(在本示例中为女主角)的位置信息，确定多个裁剪区域，所述多个裁剪区域可以包括不同尺寸、不同位置的图像的图像区域。其中，有些裁剪区域包含了说话主体的全部或部分，有些裁剪区域不包含主体对象。根据所述多个裁剪区域对所述原始图像进行多次裁剪，可以获得与各个裁剪区域相对应的候选图像。在该示例中，根据原始图像400中说话主体的位置信息，对所述原始图像进行多次裁剪，得到了候选图像401～406。其中，候选图像401、403、405包含了说话主体的全部；候选图像402包含了说话主体的一部分；候选图像404、406中未包含说话主体。

利用镜头分类网络410，对于候选图像401～406分别获得关于景别的镜头分类结果，

以候选图像401为例，可以首先对候选图像401进行复制，得到多个相同的候选图像401。对于所述多个相同的候选图像401中的每个候选图像401，分别获得对应的前景图像；根据各个候选图像401以及对应的前景图像，得到候选图像401的预测景别。在本示例中，通过对候选图像进行复制并根据复制得到的多个候选图像共同确定镜头分类结果，可以提高镜头分类的准确性。

在本示例中，利用镜头分类网络410所得到的镜头分类结果，在预测景别之外还包括了预测置信度。所述预测置信度是根据候选图像中所包含的说话主体的完整程度，以及所述说话主体在所述候选图像中的比例、位置等等确定的。

如图4所示，候选图像401、402、406的预测镜头类别为中景，403、404为近景，405为特写。其中，由于候选图像402、404、406中，未包含说话主体，或者只包含了部分说话主体，预测置信度是很低的；而候选图像401、403、405中分别包含了完整的说话主体，预测置信度较高。

根据所述原始图像所对应的目标图像的目标镜头类别，则可以从候选图像401、403、405中确定目标候选图像。例如，所述原始图像对应的目标图像为近镜图像，则候选图像403为最终所确定的目标候选图像。

在本公开实施例中，通过根据候选图像的预测镜头类别以及预测置信度来确定目标图像集合，可以使视频剪辑结果更好地表达出真实意图。

图5是本公开实施例提出的一种信息处理装置的结构示意图。如图5所示，所述装置包括：获取单元501，用于基于视频流中的多个原始图像，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像；分类单元502，用于对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果；选取单元503，用于基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合；剪辑单元504，用于基于所述目标图像集合，得到所述视频流的视频剪辑结果。

在一些实施例中，所述剪辑单元具体用于：利用所述目标图像集合中的至少一个候选图像对所述多个原始图像中的至少一个原始图像进行替换处理，得到所述视频流的视频剪辑结果。

在一些实施例中，所述剪辑单元具体用于：对所述目标图像集合和背景模板进行图像合成处理，得到所述视频流的视频剪辑结果；或者对所述目标图像集合和所述多个原始图像进行图像合成处理，得到所述视频流的视频剪辑结果。

在一些实施例中，所述剪辑单元具体用于：基于剪辑风格信息，对所述目标图像集合进行视频合成处理，得到所述视频流的视频剪辑结果。

在一些实施例中，所述剪辑单元具体用于：通过对所述视频流的多个原始图像中至少一个原始图像的处理，得到至少一个候选图像集合；或者基于对所述视频流的多个原始图像中至少一个原始图像的识别结果以及素材库，得到至少一个候选图像集合；或者通过对所述视频流的多个原始图像中至少一个原始图像进行裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括通过同一裁剪方式对所述多个图像中至少一个图像进行处理得到的结果图像。

在一些实施例中，所述获取单元具体用于：根据所述多个原始图像中每个原始图像中所包含的主体对象的位置信息，对所述每个原始图像进行多次裁剪处理，得到所述每个原始图像的至少一个候选图像。

在一些实施例中，每个所述候选图像包含所述主体对象的至少一部分，所述主体对象包括以下中的至少一项：说话主体、动作主体、目标人物。

在一些实施例中，所述选取单元具体用于：基于预设剪辑策略对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合；或者基于所述多个原始图像对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

在一些实施例中，所述镜头分类结果包括预测镜头类别和预测置信度；所述选取单元具体用于：基于所述至少一个候选图像集合中每个候选图像集合的预测镜头类别，从所述至少一个候选图像集合中选取目标图像集合；和/或在所述至少一个候选图像集合中存在至少两个候选图像集合的预测镜头类别相同的情况下，基于所述至少两个候选图像集合的预测置信度，选取所述目标图像集合。

在一些实施例中，所述目标图像集合中包括的候选图像是从所述原始图像裁剪得到的；所述剪辑单元具体用于：确定所述目标图像集合包括的至少一个候选图像在所属的原始图像中的位置信息；基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合；基于所述处理图像集合，得到所述视频流的视频剪辑结果。

在一些实施例中，所述剪辑单元在基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合时，具体用于：响应于所述目标图像集合中存在偏移图像，所述偏移图像在所属的原始图像中的位置与所述目标图像集合对应的参考位置之间的差异超过设定阈值，对所述偏移图像进行替换。

在一些实施例中，所述分类单元具体用于：通过对第一候选图像集合中的至少一个候选图像进行处理，得到所述至少一个候选图像中每个候选图像的掩膜图像，其中，所述至少一个候选图像集合包括第一候选图像集合，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息；根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果。

在一些实施例中，所述分类单元在用于根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果时，具体用于：根据所述至少一个候选图像以及所述至少一个候选图像的前景图像，得到所述第一候选图像集合的景别分类结果；和/或，根据所述至少一个候选图像以及所述至少一个候选图像的背景图像，得到所述候选图像集合的运镜分类结果。

在一些实施例中，所述分类单元在用于根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果时，具体用于：将所述至少一个候选图像以及所述至少一个候选图像的掩膜图像输入至镜头分类网络进行处理，输出所述第一候选图像集合的镜头分类结果。

在一些实施例中，所述分类单元在用于根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果时，具体用于：对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息，并对所述每个候选图像的的掩膜图像到进行特征提取处理，得到第二特征信息；对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果。

在一些实施例中，所述第一特征信息和所述第二特征信息均包括n阶特征信息；所述分类单元在用于对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息时，具体用于：对所述候选图像的所述第一特征信息中的第i-1阶特征信息或所述候选图像进行特征提取，得到所述候选图像的第i阶初始特征信息；将所述候选图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。

在一些实施例中，所述分类单元在用于对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果时，具体用于：对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行连接处理，得到所述每个候选图像的连接特征信息；基于所述至少一个候选图像中每个候选图像的连接特征信息，确定所述第一候选图像集合的镜头分类结果。

本公开还提供一种视频分类设备，如图6所示，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现任一实施例所述的方法。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现任一实施例所述的方法。

在本申请实施例中，计算机可读存储介质可以是多种形式，比如，在不同的例子中，所述机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。特殊的，所述的计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。使用这些介质，这些程序可以被通过电学的方式获取到(例如，光学扫描)、可以被以合适的方式编译、解释和处理，然后可以被存储到计算机介质中。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

基于对视频流中的多个原始图像的裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像；

对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果；

基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合；

基于所述目标图像集合，得到所述视频流的视频剪辑结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像集合，得到所述视频流的视频剪辑结果，包括：

利用所述目标图像集合中的至少一个候选图像对所述多个原始图像中的至少一个原始图像进行替换处理，得到所述视频流的视频剪辑结果。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像集合，得到所述视频流的视频剪辑结果，包括：

对所述目标图像集合和背景模板进行图像合成处理，得到所述视频流的视频剪辑结果；或者

对所述目标图像集合和所述多个原始图像进行图像合成处理，得到所述视频流的视频剪辑结果。

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像集合，得到所述视频流的视频剪辑结果，包括：

基于剪辑风格信息，对所述目标图像集合进行视频合成处理，得到所述视频流的视频剪辑结果。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于视频流中的多个原始图像，得到至少一个候选图像集合，包括：

通过对所述视频流的多个原始图像中至少一个原始图像进行裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括通过同一裁剪方式对所述多个原始图像中至少一个图像进行处理得到的结果图像。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述基于视频流中的多个原始图像，得到至少一个候选图像集合，包括：

根据所述多个原始图像中每个原始图像中所包含的主体对象的位置信息，对所述每个原始图像进行多次裁剪处理，得到所述每个原始图像的至少一个候选图像。

7.根据权利要求6所述的方法，其特征在于，每个所述候选图像包含所述主体对象的至少一部分，其中，所述主体对象包括以下中的至少一项：说话主体、动作主体、目标人物。

8.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合，包括：

基于预设剪辑策略对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合；或者

基于所述多个原始图像对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合，其中，所述原始图像对应的目标镜头类别是在对原始图像的镜头类别进行变化时所设置的。

9.根据权利要求1至4任一项所述的方法，其特征在于，所述镜头分类结果包括预测镜头类别和预测置信度；

所述基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合，包括：

基于所述至少一个候选图像集合中每个候选图像集合的预测镜头类别，从所述至少一个候选图像集合中选取目标图像集合；和/或

在所述至少一个候选图像集合中存在至少两个候选图像集合的预测镜头类别相同的情况下，基于所述至少两个候选图像集合的预测置信度，选取所述目标图像集合。

10.根据权利要求1至4任一项所述的方法，其特征在于，所述目标图像集合中包括的候选图像是从所述原始图像裁剪得到的；

所述基于对所述目标图像集合的裁剪处理，得到所述视频流的视频剪辑结果，包括：

确定所述目标图像集合包括的至少一个候选图像在所属的原始图像中的位置信息；

基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合；

基于所述处理图像集合，得到所述视频流的视频剪辑结果。

11.根据权利要求10所述的方法，其特征在于，所述基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合，包括：

12.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果，包括：

通过对第一候选图像集合中的至少一个候选图像进行处理，得到所述至少一个候选图像中每个候选图像的掩膜图像，其中，所述至少一个候选图像集合包括第一候选图像集合，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息；

根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果。

13.根据权利要求12所述的方法，其特征在于，所述根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果，包括：

根据所述至少一个候选图像以及所述至少一个候选图像的前景图像，得到所述第一候选图像集合的景别分类结果；和/或，

根据所述至少一个候选图像以及所述至少一个候选图像的背景图像，得到所述候选图像集合的运镜分类结果。

14.根据权利要求12所述的方法，其特征在于，所述根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果，包括：

将所述至少一个候选图像以及所述至少一个候选图像的掩膜图像输入至镜头分类网络进行处理，输出所述第一候选图像集合的镜头分类结果。

15.根据权利要求12所述的方法，其特征在于，所述根据所述至少一个候选图像以及所述至少一个候选图像的掩膜图像，得到所述第一候选图像集合的镜头分类结果，包括：

对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息，并对所述每个候选图像的掩膜图像到进行特征提取处理，得到第二特征信息；

对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果。

16.根据权利要求15所述的方法，其特征在于，所述第一特征信息和所述第二特征信息均包括n阶特征信息；

所述对所述至少一个候选图像中每个候选图像进行特征提取处理，得到第一特征信息，包括：

对所述候选图像的所述第一特征信息中的第i-1阶特征信息或所述候选图像进行特征提取，得到所述候选图像的第i阶初始特征信息；

将所述候选图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。

17.根据权利要求15或16所述的方法，其特征在于，所述对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行处理，得到所述第一候选图像集合的镜头分类结果，包括：

对所述至少一个候选图像中每个候选图像的所述第一特征信息和所述第二特征信息进行连接处理，得到所述每个候选图像的连接特征信息；

基于所述至少一个候选图像中每个候选图像的连接特征信息，确定所述第一候选图像集合的镜头分类结果。

18.一种视频分类装置，其特征在于，所述装置包括：

获取单元，用于基于对视频流中的多个原始图像的裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像；

分类单元，用于对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头分类结果；

选取单元，用于基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合；

剪辑单元，用于基于所述目标图像集合，得到所述视频流的视频剪辑结果。

19.一种视频分类设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至17任一所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至17任一所述的方法。