CN113542909A

CN113542909A - 视频处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113542909A
Application number: CN202010318715.7A
Authority: CN
Inventors: 夏朱荣; 耿致远; 张士伟; 唐铭谦
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2021-10-22

Abstract

本发明实施例提供了一种视频处理方法、装置、电子设备及计算机存储介质。其中，所述视频处理方法，包括：响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段；按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果；至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。通过本发明实施例，可以对视频进行拆分。

Description

视频处理方法、装置、电子设备及计算机存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种视频处理方法、装置、电子设备及计算机存储介质。

背景技术

随着生活节奏的加快，碎片化时间增多，利用碎片化时间的需求也越来越强烈。以视频为例，用户希望用较短的时间从视频中获取需要的信息，而不必将完整的视频看完。而现有技术中满足这种需求通常是自己调整以更快的速度播放视频，从而在较短的时间内观看完视频，并获得自己需要的信息。或者，在视频播放过程中，用户自己手动调整播放进度，以跳过一些内容。

上述两种方式存在的问题在于，用户都需要自己手动操作调整，仍然需要完整观看视频，如果对视频内容不了解，则可能丢失掉需要的信息。

发明内容

有鉴于此，本发明实施例提供一种视频处理方案，以解决上述部分或全部问题。

根据本发明实施例的第一方面，提供了一种视频处理方法，包括：响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段；按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果；至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

根据本发明实施例的第二方面，提供了一种视频处理方法，包括：通过交互界面接收用户输入的待拆分视频的信息，根据所述待拆分视频的信息生成视频拆分请求，其中，所述视频拆分请求用于指示获得所述待拆分视频对应的拆分出的视频；获取响应于所述视频拆分请求的拆分出的视频，并在预览界面中展示至少部分拆分出的所述视频，所述拆分出的视频为通过前述第一方面所述的方法获得的拆分出的视频。

根据本发明实施例的第三方面，提供了一种视频处理装置，包括：切分模块，用于响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段；分析模块，用于按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果；聚合模块，用于至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

根据本发明实施例的第四方面，提供了一种视频处理装置，包括请求模块，用于通过交互界面接收用户输入的待拆分视频的信息，根据所述待拆分视频的信息生成视频拆分请求，其中，所述视频拆分请求用于指示获得所述待拆分视频对应的拆分出的视频；展示模块，用于获取响应于所述视频拆分请求的拆分出的视频，并在预览界面中展示至少部分拆分出的所述视频，所述拆分出的视频为通过前述第三方面的装置获得的拆分出的视频。

根据本发明实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的视频处理方法对应的操作。

根据本发明实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的视频处理方法。

根据本发明实施例提供的视频处理方案，针对待拆分视频进行切分，获得对应的视频片段，按照配置信息指示的分析维度对各视频片段进行分析，获得可规范化的结构化分析结果，从而可以根据结构化分析结果对视频片段进行聚合，获得需要的拆分出的视频，这样实现了自动化地对待拆分视频进行拆分，而且可以满足不同的分析维度需求，有助于提升适应性和视频拆分效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1a为根据本发明实施例一的一种视频处理方法的步骤流程图；

图1b为根据本发明实施例一的一种使用场景示意图；

图2为根据本发明实施例二的一种视频处理方法的步骤流程图；

图3为根据本发明实施例三的一种视频处理方法的步骤流程图；

图4为根据本发明实施例四的一种视频处理方法的步骤流程图；

图5a为根据本发明实施例五的一种视频处理方法的步骤流程图；

图5b为根据本发明实施例五的一种使用场景示意图；

图5c为根据本发明实施例五的另一种使用场景示意图；

图6为根据本发明实施例六的一种视频处理装置的结构框图；

图7为根据本发明实施例七的一种视频处理装置的结构框图；

图8为根据本发明实施例八的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1a，示出了根据本发明实施例一的一种视频处理方法的步骤流程图。

本实施例的视频处理方法包括以下步骤：

步骤S102：响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段。

视频拆分请求用于指示将待拆分视频拆分为一个或多个拆分出的视频(例如为视频拆条)。待拆分视频可以为任意适当的视频，可以为长视频，也可以为短视频。

本领域技术人员可以采用任何适当的方式获得待拆分视频中的视频片段，例如，在一具体实现中，步骤S102可以实现为：按照预设拆分方式对所述待拆分视频进行拆分处理，获得与所述预设拆分方式对应的至少一个视频片段。这样可以更加灵活地对待拆分视频进行切分，从而满足不同的需求。

预设的拆分方式可以根据需要配置，例如，预设拆分方式包括下列至少之一：按照镜头拆分、按照人物拆分、按照待拆分视频中的图像帧的背景拆分、按照待拆分视频中的图像帧的明暗阈值拆分。

针对不同的预设拆分方式可以采用适当的处理过程，如在按照人物拆分时，可以识别待拆分视频中图像帧包含的人物，如果相邻两个图像帧包含的人物不同，则进行切分，以获得不同人物对应的视频片段。类似地，可以按照图像帧中的背景、明暗阈值等进行拆分。

再例如，在按照镜头将待拆分视频拆分为与镜头对应的视频片段时，可以采用任何现有的镜头切分算法，如镜头边界检测技术(SBD，Shot Boundary Detection)等。SBD可以检测待拆分视频中是否存在镜头转换，从而根据是否存在镜头转换对待拆分视频进行拆分。

在视频处理领域，镜头是指视频编辑中两个剪辑点间的一组画面，是组成整个视频的基本单位。基于此，本发明实施例中的镜头对应的视频片段可以是单个镜头对应的视频片段，也可以是多个镜头对应的视频片段组合成的视频片段。在本实施例中，以视频片段是与单镜头对应的视频片段为例进行说明。

步骤S104：按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果。

分析维度用于指示需要对视频片段进行的分析的角度，分析维度包括下列至少之一：场景分析维度、人物分析维度和事件分析维度。

配置信息指示的分析维度可以根据预设的第一配置信息确定，也可以根据用户输入的第二配置信息确定，这样使得用户可以根据需要配置分析维度，以控制对视频片段进行对应的分析，进而满足用户的拆条需求。

对视频片段进行分析可以是对其进行结构化分析，结构化分析可以指从视频片段中获取可规范化的结构性信息的过程。

结构化分析与分析维度对应，也就是说，结构化分析包括下列至少之一：场景分析、人物分析和事件分析。

以结构化分析中的人物分析为例，从原始视频片段的二进制数据中，分析出来人物出现的开始时间点和结束时间点、人脸对应的人物等信息，并将其形成可规范化的结构性信息的过程即可称为结构化分析，其输出的规范化的结构性信息可以称为结构化分析结果。

通过对视频片段进行场景分析，至少可以确定各视频片段包含的场景、以及各场景对应的场景时间信息。例如，视频片段1包含室内场景，场景时间信息为1：00～2:20。视频片段2包含室外场景，场景时间信息为2:25～3：03等。

本领域技术人员可以采用任何适当的方式进行场景分析，本实施例对此不作限制，例如，通过Resnet-50神经网络模型，使用place365数据集进行场景识别。

通过对视频片段进行人物分析，至少可以确定各视频片段包含的人物、以及人物的出现时间信息。例如，视频片段3包含人物A、人物B和人物C，人物A的出现时间信息为3:10～3:15，人物B的出现时间信息为3:07～3:12，人物C的出现时间信息为3:16～3:22等。

本领域技术人员可以采用任何适当的方式进行人物分析，本实施例对此不作限制。例如，通过RetinaFace人脸检测算法检测视频片段中至少部分图像帧中的人脸，通过ArcFace人脸特征算法获得检测出的人脸的特征信息，通过计算人脸的特征信息与预设的人物特征信息的cos距离，确定人脸对应的人物等。

通过对视频片段进行事件分析，至少可以确定各视频片段包含的事件、以及事件的出现时间信息。例如，视频片段4包括事件A，事件A的事件出现时间信息为4:00～4:50，视频片段5也包括事件A，对应的出现时间信息为4:55～5:30。视频片段6包括事件B，事件B的出现时间信息为5:31～6:10等。

本领域技术人员可以采用任何适当的方式进行事件分析，本实施例对此不作限制。例如，通过I3D神经网络模型进行事件分析等。

通过对视频片段进行分析，获得结构化分析结果，使得后续针对不同的类型的聚合需求，均可以使用对应的结构化分析结果快速地获得拆分出的视频，从而实现快速地对待拆分视频进行一个或多个维度的拆分的目的，以满足用户的需求。

步骤S106：至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

在一具体实现中，可以根据与不同的分析维度对应的结构化分析结果，对视频片段进行聚合，从而获得拆分出的视频。

例如，根据与场景分析维度对应的场景结构化分析结果，将包含相同或相似场景、且在时间上连续的视频片段进行聚合，以形成基于场景拆分的、拆分出的视频(也可以称为视频拆条)。

具体地，根据各视频片段对应的场景结构化分析结果，确定视频片段7～9均包括室内场景A，视频片段10包括室外场景B，视频片段11和12均包括室内场景A，则将视频片段7～9进行聚合形成一个拆分出的视频，视频片段10独自形成一个拆分出的视频，视频片段11和12聚合形成一个拆分出的视频。

需要说明的是，在本实施例中，通过起始时间和终止时间的方式指示聚合的拆分出的视频(为了便于描述记作视频拆条)。例如，前述的将视频片段7～9进行聚合形成的视频拆条I可以通过视频片段7的起始时间(如10:33)和视频片段9的终止时间(如12:01)进行表示。以这种方式表示视频拆条无需实际对待拆分视频进行截取，因而后续用户如果需要调整拆分出的视频包含的内容则十分方便，避免用户调整时需要频繁地截取待拆分视频，减少数据处理量和对硬件资源(如存储空间和CPU等的计算资源)的占用。

当然，在其他实施例中，也可以采用其他方式表示拆分出的视频，如通过在待拆分视频上设置标记的方式、或者直接从待拆分视频中截取出拆分出的视频的方式等，本实施例对此不作限制。

类似地，可以根据人物分析维度对应的人物结构化分析结果进行聚合，获得按照人物拆分出的视频等，在此不再赘述。

下面结合一种具体的使用场景对视频处理方法的实现过程进行说明如下：

如图1b所示，用户可以在终端设备的交互界面中添加待拆分视频，该待拆分视频可以是用户上传的视频，也可以是用户从视频列表中选择的视频。终端设备根据待拆分视频的信息(如视频的名称、ID或者对应的URL地址)，生成视频拆分请求。

可选地，用户可以根据需要在交互界面中进行其他配置，如选择分析维度、配置聚合条件、配置滤镜等。如果用户进行了其他配置，则可以根据用户进行的配置获得对应的第二配置信息，并根据待拆分视频的信息和第二配置信息生成视频拆分请求。后续可以根据视频拆分请求，对待拆分视频执行视频处理方法，获得对应的拆分出的视频。

在本使用场景中，以用户的第二配置信息中指示用户选择了场景分析维度和人物分析维度为例进行说明。该视频处理方法可以由服务端执行(服务端包括服务器和/或云端)。当然，在其他使用场景中该视频处理方法可以由终端设备执行，本使用场景中对此不作限制。

根据视频拆分请求，获得待拆分视频中的至少一个视频片段。例如，按照预设拆分方式对待拆分视频进行切分，获得该拆分方式对应的视频片段。在本使用场景中，预设拆分方式可以是按照镜头切分，获得镜头对应的视频片段，该视频片段可以通过起始时间和终止时间表示，例如，镜头A对应的视频片段14的起始时间为5:04～5：30。

根据用户的第二配置信息，确定分析维度包括场景分析维度和人物分析维度。基于此，对各视频片段进行场景分析，获得各视频片段的场景结构化分析结果，场景结构化分析结果包括的场景和场景时间信息；以及对视频片段进行人物分析，获得各视频片段的人物结构化分析结果，人物结构化分析结果包括视频片段包括的人物和人物的出现时间信息等。

根据场景结构化分析结果，一方面，将包含相同场景、且时序上连续的视频片段进行聚合形成拆分出的视频。如视频片段1～3包含的场景的相似度满足场景聚合阈值，则将视频片段1～3进行聚合，获得拆分出的视频(也可以称为视频拆条A)的起始时间和终止时间以通过其表示视频拆条A。视频片段5～9包含的场景的相似度满足场景聚合阈值，则将视频片段5～9聚合为一个拆分出的视频(也可以称为视频拆条C)。

另一方面，将独立的视频片段形成独立的拆分出的视频。如视频片段4包含的场景与视频片段3包括的场景的相似度小于场景聚合阈值，且视频片段4包括的场景与视频片段5包括的场景的相似度小于场景聚合阈值，则将视频片段4单独作为一个拆分出的视频(也可以称为视频拆条B)。

需要说明的是，上述两个方面并非必须全部存在。例如，在其他使用场景中，根据场景结构化分析结果，可以仅将包含场景、且时序上连续的视频片段进行聚合形成拆分出的视频，或者，仅将独立的视频片段形成独立的拆分出的视频。

根据人物结构化分析结果，将包含相同人物的视频片段进行聚合，形成拆分出的视频。例如，视频片段1～3、5和8包含人物A，则将这些视频片段聚合，形成拆分出的视频(也可以称为视频拆条D)。视频片段2、4、6～9包含人物B，则将这些视频片段聚合，形成拆分出的视频(也可以称为视频拆条E)。

在获得拆分出的视频后可以将拆分出的视频发送至终端设备，以通过终端设备将拆分出的视频展示给用户，使用户能够浏览拆分出的视频或者根据自己的需要对拆分出的视频进行调整。

若视频拆分请求中未包括第二配置信息，则可以根据第一配置信息确定分析维度，根据第一配置信息确定分析维度并对待拆分视频进行拆分的过程与上述的根据第二配置信息进行拆分的过程类似，故不再赘述。

通过本实施例，针对待拆分视频进行切分，获得对应的视频片段，按照配置信息指示的分析维度对各视频片段进行分析，获得可规范化的结构化分析结果，从而可以根据结构化分析结果对视频片段进行聚合，获得需要的拆分出的视频，这样实现了自动化地对待拆分视频进行拆分，而且可以满足不同的分析维度需求，有助于提升适应性和视频拆分效率。

本实施例的视频处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等。

实施例二

参照图2，示出了根据本发明实施例二的一种视频处理方法的步骤流程图。

本实施例的视频处理方法包括前述的步骤S102～步骤S106。

其中，步骤S104包括以下子步骤：

步骤S1041：根据预设的第一配置信息包括的分析维度或者用户输入的第二配置信息包括的分析维度，确定目标分析维度。

第一配置信息包括默认配置的分析维度。第一配置信息可以在视频拆分请求中未包含第二配置信息时使用。

第二配置信息包括用户选择的分析维度。可选地，第二配置信息中还可以包括用户上传的衔接图像的信息、人物类别信息、视频内容类别信息等。其中，衔接图像的信息用于指示所述待拆分视频中用于衔接不同场景的衔接图像帧(如转场图像)。人物类别的信息用于指示所述待拆分视频中包含的人物所属的身份类别(如明星等)。视频内容类别信息用于指示待拆分视频的内容类别，如影视剧集或新闻等。

用户可以通过终端设备的交互界面进行配置，从而生成第二配置信息。这样提升了拆分出的视频过程中的交互性，用户可以根据自己的需要选择分析维度，进而可以根据分析维度确定对视频片段进行聚合时的据聚合条件。

若视频拆分请求中携带有第二配置信息，则可以根据第二配置信息确定目标分析维度(将其作为配置信息指示的分析维度)。反之，若视频拆分请求中未携带第二配置信息，则可以根据预设的第一配置信息确定目标分析维度。

目标分析维度可以包括下列至少之一：场景分析维度、人物分析维度和事件分析维度。在本实施例中，以其包括场景分析维度、人物分析维度和事件分析维度为例进行说明。

步骤S1042：按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果。

针对分析维度指示进行不同的分析，步骤S1042可以包括下述的过程A1到C1中至少之一。

过程A1：若所述目标分析维度包括场景分析维度，则对所述视频片段进行场景分析，并获得场景结构化分析结果，其中，所述场景结构化分析结果包括所述视频片段对应的场景、和所述场景的场景时间信息。

本领域技术人员可以采用任何适当的方式对视频片段进行场景分析。例如，将各视频片段分别输入到用于进行场景分析的Resnet-50神经网络模型中，获得其输出的、与输入的视频片段对应的场景结构化分析结果。场景结构化分析结果中包含对应视频片段的场景、该场景的场景时间信息。

如将视频片段1输入到Resnet-50神经网络模型中，获得与视频片段1对应的场景结构化分析结果A，其指示视频片段1对应的场景为室内场景A，场景时间信息为“1：00～2:20”。

将视频片段2输入到Resnet-50神经网络模型中，获得与视频片段2对应的场景结构化分析结果B，其指示视频片段2对应的场景为室外场景B，场景时间信息为“2:25～3：03”。

可选地，在过程A1中，为了提升场景分析的准确性，使得场景时间信息更加准确，如果第二配置信息中包括衔接图像的信息，则过程A1中，所述对所述视频片段进行场景分析，并获得场景结构化分析结果可以实现为：使用场景分析算法，根据所述衔接图像对所述视频片段进行分析，并获得所述场景结构化分析结果。

所述衔接图像的信息用于指示所述待拆分视频中用于衔接不同场景的衔接图像帧，由于衔接图像通常用于衔接不同的场景，因而如果用户上传了衔接图像，则使用场景分析算法(如基于Resnet-50神经网络模型的算法)对视频片段进行分析时，可以结合衔接图像，从而使得场景结构化分析结果中包含的场景时间信息更加准确，进而使得根据结构化分析结果获得的拆分出的视频更加准确。

过程B1：若所述目标分析维度包括人物分析维度，则对所述视频片段进行人物分析，并获得人物结构化分析结果，其中，所述人物结构化分析结果包括所述视频片段包含的人脸对应的人物、和所述人物的出现时间信息。

本领域技术人员可以采用任何适当的方式对各视频片段进行人物分析。例如，通过RetinaFace人脸检测算法检测视各频片段中至少部分图像帧中包含的人脸、以及人脸在所在图像帧中的位置。再通过ArcFace人脸特征算法获得检测出的人脸的特征信息。根据人脸的特征信息和预设的人物的特征信息确定人脸对应的人物，进而确定人物的出现时间信息，以此生成人物结构化分析结果。

可选地，在过程B1中，为了提升人物分析的准确性，如果第二配置信息中包含人物类别信息，则过程B1中，所述对所述视频片段进行人物分析，并获得人物结构化分析结果包括：使用与所述人物类别信息对应的人物分析算法对所述视频片段进行分析，并获得所述人物结构化分析结果。

为了提升对人物分析的准确度，可以预先使用不同身份类型的人脸图像对人脸检测算法、人脸特征算法等进行训练，从而获得不同的人脸检测算法和人脸特征算法，然后由不同的人脸检测算法和人脸特征算法可以统称为人物分析算法。

这样如果人物类别信息指示人物的身份类别为明星，则使用与明星对应的人物分析算法(如使用包含明星的人脸的图像训练的人脸检测算法和人脸特征算法)对视频片段进行人物分析，获得人物结构化分析结果。人物结构化分析结果中至少包括视频片段中的人物和人物的出现时间信息。

过程C1：若所述目标分析维度包括事件分析维度，则对所述视频片段进行事件分析，并获得事件结构化分析结果，其中，所述事件结构化分析结果包括所述视频片段包含的事件、和所述事件的出现时间信息。

本领域技术人员可以采用任何适当的方式对视频片段进行事件分析。例如，使用I3D神经网络模型进行事件分析，获得各视频片段包含的事件和事件的出现时间信息。

此外，该方法可以允许用户进行个性化配置，在用户配置的情况下(即有第二配置信息的情况下)，能够最大程度地满足用户的精准拆分需求。而且还能够适应用户不进行配置的情况(即没有第二配置信息的情况)，此种情况下可以按照多个维度进行分析，并获得对应的结构化分析结果从而依据结构化分析结果进行视频拆分，保证可以满足用户的不同维度的拆分需求。

实施例三

参照图3，示出了根据本发明实施例三的一种视频处理方法的步骤流程图。

本实施例的视频处理方法包括前述的步骤S102～步骤S106。其中，步骤S104可以采用前述任一实施例中的实现方式。

在本实施例中，步骤S106包括子步骤S1061和子步骤S1062。

子步骤S1061：根据配置信息，确定目标聚合条件。

所述目标聚合条件包括下列至少之一：场景聚合条件、人物聚合条件和事件聚合条件。

配置信息可以是第一配置信息或第二配置信息。例如，若第二配置信息中用户选择了目标聚合条件则直接根据其确定目标聚合条件。或者，若第二配置信息中未包括用户选择的目标聚合条件，但是用户选择了分析维度，则可以根据分析维度确定对应的目标聚合条件，如分析维度包括场景分析维度，则目标聚合条件对应地包括场景聚合条件。

子步骤S1062：根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

针对不同的目标聚合条件，子步骤S1062可以包括过程A2到C2中至少之一。

过程A2：目标聚合条件包括场景聚合条件时，过程A2可以通过子步骤I～子步骤III实现。

子步骤I：若所述目标聚合条件包括场景聚合条件，则获取多个视频片段对应的场景结构化分析结果。

由于对视频片段进行了多个维度的分析，因此在进行聚合时，可以根据目标聚合条件对应的结构化分析结果进行聚合。例如，基于场景进行聚合时，根据场景结构化分析结果进行聚合。

场景结构化分析结果包括对应视频片段的场景、和场景时间信息。在本实施例中，场景时间信息包括场景的起始时间和终止时间。

当然，在其他实施例中，场景结构化分析结果可以包括其他信息，只要能够指示视频片段包括的场景即可。

子步骤II：根据所述多个场景结构化分析结果，获取与所述拆分出的视频对应的片段集合。

其中，所述片段集合包括第一集合和/或第二集合，所述第一集合包括满足相似度条件的至少两个视频片段，所述相似度条件包括：所述至少两个视频片段时序上连续，且任意相邻两个视频片段对应的场景结构化分析结果之间的相似度满足场景聚合阈值，所述第二集合包括未满足所述相似性条件的一个视频片段。

在一具体实现中，针对某个视频片段，可以通过判断其与相邻的在前视频片段和在后视频片段之间是否满足相似度条件，确定视频片段所属的片段集合。

例如，子步骤II可以实现为：

根据视频片段之间的时序关系，确定当前视频片段相邻的后一视频片段是否满足相似度条件。

以视频片段1作为当前视频片段为例，若视频片段1的场景结构化分析结果和视频片段2的场景结构化分析结果之间的相似度满足场景聚合阈值，则视频片段1和2满足相似度条件。

场景聚合阈值可以根据需要确定，本实施例对此不作限制。例如，其可以是70％、80％、90％、100％等。本实施例中以场景聚合阈值为100％为例进行说明。该场景聚合阈值可以保证聚合的准确性，确保将相同场景进行聚合。

本领域技术人员可以通过任何适当的方式计算相似度，例如通过计算场景的欧式距离等。

一种情况中,若后一视频片段满足相似度条件，则将后一视频片段加入当前视频片段所在集合(记作片段集合A)，并将后一视频片段确定为新的当前视频片段，返回根据视频片段之间的时序关系，确定当前视频片段相邻的后一视频片段是否满足相似度条件继续执行。

例如，视频片段2满足相似度条件，将视频片段2加入片段集合A中，此时片段集合A包括视频片段1和2。此外，将视频片段2作为新的当前视频片段。判断视频片段3是否满足相似度条件。若视频片段3满足，则将视频片段3加入片段集合A中，此时，片段集合A包括视频片段1到3。

另一种情况中，若后一视频片段未满足相似度条件，则为后一视频片段创建一个新的集合，并将后一视频片段作为新的当前视频片段，返回根据视频片段之间的时序关系，确定当前视频片段相邻的后一视频片段是否满足相似度条件继续执行。

例如，视频片段3作为当前视频片段时，视频片段4未满足相似度条件，则为视频片段4创建一个新的集合(记作片段集合B)，并将视频片段4作为新的当前视频片段，确定视频片段5是否满足相似度条件。若视频片段5未满足，则为视频片段5创建一个新的集合(记作片段集合C)，并将视频片段5作为新的当前视频片段，如此重复，直至确定完最后一个视频片段。

获取的片段集合A由于其中包括满足相似度条件的视频片段1～3，因此其可以认为是第一集合。片段集合B由于仅包括视频片段4，因此可以认为是第二集合。

需要说明的是，在本实施例中，以根据时序后向逐个确定视频片段是否满足相似度条件的方式对子步骤II进行说明。但在其他实施例中，也可以通过根据时序前向逐个确定的方式实现子步骤II，或者采用其他实现方式。

子步骤III：对所述片段集合中的视频片段进行聚合，以获得拆分出的视频。

在获取到各拆分出的视频(即视频拆条，下面为了描述更加简要，以视频拆条指代拆分出的视频，但是，本领域技术人员能够知道，拆分出的视频可以是其他形式，本实施例对此不作限制)对应的片段集合后，通过对各片段集合中的视频片段进行聚合，获得对应的视频拆条。

在一种可行方式中，片段集合A中包括视频片段1～3，则可以通过视频片段1的场景结构化分析结果中场景时间信息的起始时间作为视频拆条的起始时间，以视频片段3的场景结构化分析结果中场景时间信息的终止时间作为视频拆条的终止时间，以此表示聚合出的视频拆条。

当然，在其他实施例中，可以采用其他方式表示视频拆条，或者直接从待拆分视频中截取出视频拆条。

在本实施例中，除了可以基于场景进行聚合外，还可以基于人物进行聚合，此时，子步骤S1062包括过程B2。

过程B2：在基于人物进行聚合时，过程B2可以通过子步骤IV～子步骤V实现。

子步骤IV：若所述目标聚合条件包括人物聚合条件，则获取多个视频片段对应的人物结构化分析结果。

人物结构化分析结果包括对应的视频片段包括的人物和人物的出现时间信息。

根据需要人物结构化分析结果还可以包括其他信息，如人物对应的人脸在所在图像帧中的位置等等，本实施例对此不作限制。

子步骤V：针对所述多个人物结构化分析结果包括的人物，将包含当前人物的人物结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

例如，根据视频片段1～3对应的人物结构化分析结果，确定视频片段1～3包括人物A，则将视频片段1～3聚合成为一个与人物A对应的视频拆条。聚合出的视频拆条也可以通过包括的视频片段的起始时间和终止时间的方式表示。

例如，视频拆条A利用视频片段1～3的起始时间和终止时间表示，如{“1：00～2:20”，“2：30～2:50”“2:55～3:33”}。

需要说明的是，该人物可以是待拆分视频中的角色，也可以是扮演该角色的演员。如，某个演员在某个待拆分视频中一人分饰两角，则可以将所有包括该演员的视频片段聚合成为一个视频拆条，也可以将每个角色聚合成一个视频拆条，本实施例对此不作限制。

与基于人物进行聚合的实现原理类似地，还可以基于事件进行聚合。此时，步骤S106包括过程C2。

过程C2：在基于事件进行聚合时，过程C2可以通过子步骤VI～子步骤VII实现。

子步骤VI：若所述目标聚合条件包括事件聚合条件，则获取多个所述视频片段对应的所述事件结构化分析结果。

事件结构化分析结果包括对应的视频片段中的事件、事件的出现时间信息。

当然，在其他实施例中，根据需要还可以包括其他信息，本实施例对此不作限制。

子步骤S1066：针对所述多个事件结构化分析结果中的事件，将与当前事件的相似度大于或等于事件聚合阈值的事件结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

事件聚合阈值可以根据需要确定，本实施例对此不作限制。例如，可以是80％、90％、100％等。

本领域技术人员可以采用任何适当的方式计算事件的相似度，本实施例对此不作限制。

例如，根据视频片段1～4对应的各事件结构化分析结果确定视频片段1～4均包括事件A，则将视频片段1～4进行聚合，获得事件A对应的视频拆条。视频拆条可以通过包含的视频片段的起始时间和终止时间的方式进行表示，或者通过其他任何适当的方式表示，本实施例对此不作限制。

此外，本实施例的方法可以基于场景结构化分析结果、事件结构化分析结果和人物结构化分析结果，满足基于对应的镜头聚合条件对视频片段进行聚合的需求，从而实现在不同维度对待拆分视频进行拆条。

实施例四

参照图4，示出了根据本发明实施例四的一种视频处理方法的步骤流程图。

本实施例的视频处理方法包括前述的步骤S102～步骤S106。其中，步骤S104和步骤S106均可以采用前述任一实施例中的实现方式。

在本实施例中，所述方法还包括以下步骤：

步骤S108：对所述待拆分视频进行音频分析，并获得所述待拆分视频中人物对话的时间信息。

在一具体实现中，可以采用音频转文本算法(ASR算法)，识别出待拆分视频中的人物对话，以及人物对话的时间信息。当然，在其他实现方式中，可以采用其他适当的算法获得人物对话的时间信息。

步骤S110：使用所述人物对话的时间信息，调整所述拆分出的视频对应的起始时间和/或终止时间。

为了提升拆分出的视频的精度，避免拆分出的视频出现人物对话中断的现象，使用人物对话的时间信息对拆分出的视频进行调整。下面以拆分出的视频是视频拆条为例对调整的过程进行说明：

例如，根据视频拆条A的起始时间和人物对话的时间信息，确定视频拆条A的起始边界位于某句人物对话的中间，则将视频拆条A的起始时间调整到该人物对话的起始时间或者终止时间。

又例如，根据视频拆条B的终止时间和人物对话的时间信息，确定视频拆条B的终止边界位于某句人物对话的中间，则将视频拆条B的终止时间调整到该人物对话的起始时间或者终止时间。

可选地，为了进一步提升拆分出的视频的质量，在本实施例中，所述方法还包括步骤S112。

需要说明的是，步骤S112可以在上述步骤的之前、之后执行，或者并行执行，本实施例对此不作限制。

步骤S112：根据用户配置的拆分时长和所述拆分出的视频的时长，对所述拆分出的视频进行过滤，以筛除时长小于所述配置的拆分时长的拆分出的视频。

用户可以通过交互界面配置拆分时长，如10秒、30秒、1分钟、5分钟等等。该拆分时长用于指示允许的拆分出的视频的最短时长。若拆分出的视频的时长小于拆条时长，则将该拆分出的视频删除，这样可以筛除时长过短的拆分出的视频，提升拆分出的视频的质量，减少无意义的拆分出的视频数量。

可选地，为了提升交互性，更好地满足用户的需求，所述方法还包括步骤S114～步骤S116。

需要说明的是，步骤S114可以在上述步骤之前、之后执行或者并行执行，本实施例对此不作限制。

步骤S114：获取用于指示调整拆分出的视频边界的边界调整请求，其中，所述边界调整请求中包括目标拆分出的视频的信息，以及，目标起始时间和/或目标终止时间。

边界调整请求可以是根据用户通过交互界面对展示的拆分出的视频进行边界调整操作生成的请求。例如，用户通过交互界面对展示的某个拆分出的视频(如视频拆条F)的起始边界进行调整，则生成对应的边界调整请求。

边界调整请求中包括用户操作的目标拆分出的视频的信息，如其ID、名称或者其他标识。此外，还包括目标拆分出的视频的目标起始时间和/或目标终止时间。如目标拆分出的视频的起始时间为1:40，调整后的目标起始时间为1:35等。

步骤S116：将所述目标拆分出的视频的信息指示的拆分出的视频的起始时间和/或终止时间，调整为对应的所述目标起始时间和/或目标终止时间。

通过将目标拆分出的视频的起始时间调整为对应的目标起始时间，和/或，将其终止时间调整为目标终止时间，使得调整后的拆分出的视频的边界满足用户的需求，由此提升了拆分视频时的交互性，而且可以为用户提供更多自由度。

此外，在调整目标拆分出的视频时，根据需要对其他时序上相邻的拆分出的视频进行调整，或者也可以不调整，本实施例对此不作限制。

在调整时，若在前的拆分出的视频的终止时间位于目标起始时间之后，则可以将在前的拆分出的视频的终止时间调整为目标起始时间。类似的，若在后的拆分出的视频的起始时间位于目标终止时间之前，则可以将在后的拆分出的视频的起始时间调整为目标终止时间。

可选地，为了提升交互性，满足用户个性化需求，所述方法还包括步骤S118～步骤S120。

需要说明的是，步骤S118可以在上述步骤的之前、之后执行或者并行执行。

步骤S118：获取用于指示增加拆分出的视频的增加请求。

用户可以通过交互界面在获得的拆分出的视频的基础上增加新的视频。基于用户的增加操作可以生成增加请求。所述增加请求中包括待增加视频的时间信息。

例如，待增加视频的时间信息可以是一个或多个视频片段的时间信息。如，其可以表示为{“1:00-1:35”，“2:04-2:35”}。

步骤S120：根据所述待增加视频的时间信息，获得所述增加请求所请求的待增加视频。

在增加新的视频时，可以根据待增加视频的时间信息从待拆分视频中截取出对应的部分视频，并组合成所请求的待增加视频。

或者，在其他实施例中，可以采用其他方式获得所请求的待增加视频，本实施例对此不作限制。

此外，本实施例的方法用户可以根据需要调整获得的拆分出的视频，包括但不限于调整拆分出的视频的边界，增加新的视频(即视频拆条)，删除已有拆分出的视频等等，实现了交互式的视频拆分，提升了交互能力。

实施例五

参照图5a，示出了根据本发明实施例五的一种视频处理方法的步骤流程图。

本实施例的视频处理方法从终端设备侧的角度对本发明实施例提供的视频处理方法进行说明，包括以下步骤：

步骤S502：通过交互界面接收用户输入的待拆分视频的信息，根据所述待拆分视频的信息生成视频拆分请求。

本实施例的视频处理方法可以由终端设备执行，也可以由配置有显示屏幕的服务端执行。该显示屏可以与服务端分离，并通过网络实现数据传输。显示屏可以仅用于显示画面、接收用户操作、输出声音和与服务端通信。

在本实施例中，以由终端设备执行为例进行说明。

当交互界面如图5b中界面1所示时，用户可以通过交互界面输入待拆分视频的信息。待拆分视频的信息可以包括待拆分视频，也可以包括待拆分视频的名称、ID、URL等。

根据待拆分视频的信息可以生成用于指示获得所述待拆分视频对应的拆分出的视频的视频拆分请求。终端设备可以将视频拆分请求发送给服务端。

可选地，为了进一步提升交互性，步骤S502可以实现为：获取用户通过所述交互界面添加的第二配置信息；根据所述待拆分视频的信息和所述第二配置信息，生成所述视频拆分请求。

当交互界面如图5b中界面2所示时，用户可以通过交互界面添加第二配置信息。

所述第二配置信息中至少包括用户配置的分析维度。如场景分析维度、事件分析维度和人物分析维度等。

此外，第二配置信息还可以包括待拆分视频的类型、衔接图像的信息、人物身份类别信息等。待拆分视频的类型可以用于指示待拆分视频为影视剧集或者新闻视频等。衔接图像可以是待拆分视频中包含的用于衔接不同的场景的图像(如转场图像)。人物身份类别信息可以是指示待拆分视频中人物的身份类型，如明星等。

在包括第二配置信息的情况下，可以根据所述待拆分视频的信息和所述第二配置信息，生成所述视频拆分请求。这样使得在对待拆分视频进行视频拆分时可以根据第二配置信息的指示进行拆分，从而满足用户的个性化需求。

步骤S504：获取响应于所述视频拆分请求的拆分出的视频，并在预览界面中展示至少部分拆分出的视频。

拆分出的视频可以是通过前述的实施例的方法获得的。通过交互界面展示获得的拆分出的视频，从而提升交互性，使用户能够根据自己的需求对拆分出的视频进行调整。

下面结合一个具体使用场景，对视频处理方法的实现过程进行说明如下：

如图5b所示，当交互界面为图5b中界面1所示时，用户可以添加待拆分视频的信息。用户点击确定后，交互界面可以显示为图5b中界面2所示界面。在该界面中，用户配置第二配置信息。第二配置信息中包括用户选择的分析维度，如场景分析维度、事件分析维度、人物分析维度等。此外，还可以上传衔接图像。之后，根据待拆分视频的信息和第二配置信息生成视频拆分请求。

根据视频拆分请求，使用镜头拆分技术(如SBD)对待拆分视频进行拆分，将待拆分视频拆分为细粒度的、与镜头对应的视频片段。

针对各视频片段，进行结构化分析。例如，如果用户选择了场景分析维度、人物分析维度和事件分析维度，则对镜头粒度的视频片段进行场景分析、人物分析和事件分析，获得对应的结构化分析结果。

例如，针对视频片段1分别获得场景结构化分析结果、人物结构化分析结果和事件结构化分析结果。结构化分析结果中包含精确的边界的时间信息，如场景时间信息、人物的出现时间信息和事件的出现时间信息等。这样使得后续可以使用不同的结构化分析结果方便地生成不同维度的拆分出的视频，提升便捷性。

此外，还可以对待拆分视频进行音频分析，如通过音频转文本(ASR)技术，将其中的人物对话转为带精准时间边界的文本。该时间边界用于指示人物对话的时间信息。

根据用户选择的镜头聚合条件和对应的结构化分析结果进行视频聚合。

例如，若镜头聚合条件包括场景聚合条件，则将包含的场景相同，且时间连续的视频片段进行聚合。如将卧室场景的视频片段进行聚合，聚合的拆分出的视频(也可以称为视频拆条)可以通过包含的视频片段的场景时间信息表示。此外，还可以将包含火车站场景且时序上连续的视频片段进行聚合。或者将包含厨房场景且时序上连续的场景进行聚合等。按照场景进行聚合时，除了按照环境场景进行聚合外，还可以按照动作场景进行聚合，如将包含打斗场景的视频片段进行聚合，或者将包含亲吻场景的视频片段进行聚合。

需要说明的是，时序上连续可以理解为两个视频片段之间不存在第三个视频片段，并非必须其中一个视频片段的终止时间与另一个视频片段的起始时间重合。

又例如，若镜头聚合条件包括人物聚合条件，则将相同人脸出现的视频片段进行聚合，比如将所有某个演员出现的视频片段进行聚合。

再例如，若镜头聚合条件包括事件聚合条件，则将相同事件出现的视频片段进行聚合，比如将某个新闻事件出现的视频片段进行聚合。

此外，在聚合过程中，使用人物对话的时间信息对聚合出的拆分出的视频的边界进行调整，避免出现人物对话出现中断的现象。

在获得拆分出的视频后，可以根据用户选择的过滤条件进行拆分出的视频过滤。例如，根据用户选择的拆分时长对拆分出的视频进行过滤，筛除过短的拆分出的视频。

针对获得的拆分出的视频可以发送给终端设备，由终端设备对拆分出的视频进行展示。用户如果对拆分出的视频不满意，可以对其进行调整，如增加任意时间边界的拆分出的视频(也可以称为视频拆条)、删除某些拆分出的视频，或者对已有拆分出的视频的时间边界重新进行调整等。此外，用户可以通过下载选项下载选中的拆分出的视频。

在本使用场景中，通过交互界面可以满足用户需要对待拆分视频进行二次加工，将原来完整的一条待拆分视频，按照某种逻辑思维或特定需要拆分成多条拆分出的视频的需求。而且还可以实现用户对获得的拆分出的视频进行开始时间、结束时间调整，添加或者删除拆分出的视频的操作。

此外，除了能在用户进行配置的情况下更好地满足用户需求外，还可以在用户不参与的情况下按照多个维度进行拆分，以满足对待拆分视频进行二次加工的需求。

在另一使用场景中，视频处理方法的实现过程如下：

如图5c所示，当交互界面为图5c中界面1所示时，用户可以添加待拆分视频。用户点击确定后，可以将基于待拆分视频生成的视频拆分请求发送给服务端。

服务端根据视频拆分请求，可以按照预设拆分方式对待拆分视频进行拆分，获得拆分出的视频片段。例如，按照图像帧背景对待拆分视频进行拆分，获得不同图像帧背景对应的视频片段。

针对获得的各视频片段，按照第一配置信息指示的分析维度对其进行结构化分析。例如，第一配置信息指示对视频片段进行场景分析维度的分析，或者，进行场景分析维度的分析、人物分析维度的分析和事件分析维度的分析等。

以分别对视频片段进行场景分析维度、人物分析维度和事件分析维度的结构化分析为例，通过进行结构化分析，获得对应的场景结构化分析结果、人物结构化分析结果和事件结构化分析结果。

这些结构化分析结果可以返回给终端设备，在终端设备的交互界面中进行展示，以供用户查看。例如，图5c中界面2示出了终端设备通过交互界面展示结构化分析结果的简略信息示意图，其中，st指示场景对应的视频片段的起始时间，et指示场景对应的视频片段对应的终止时间。除了展示结构划分分析结果外，还可以根据需要展示其他相关信息，本使用场景对此不作限制。

用户可以在界面2中选择进行目标聚合条件(例如，用户通过点击界面中的复选框选择聚合的场景，此时表示用户需要根据场景进行聚合，且只聚合用户选择的场景对应的视频片段。或者用户直接点击场景分析结果则表示用户需要根据场景进行聚合，且需要聚合所有场景对应的视频片段)。此外，还可以选择对拆分出的视频进行处理，如添加滤镜、添加特效、添加字幕、添加贴图等等。根据用户的输入生成聚合请求，并发送给服务端。

服务端根据聚合请求确定目标聚合条件，并根据目标聚合条件和对应的结构化分析结果，对视频片段进行聚合，获得拆分出的视频。

例如，目标聚合条件包括场景聚合条件，则获得对应的场景结构化分析结果，根据场景结构化分析结果将包含相同场景且时序上连续的视频片段进行聚合，获得拆分出的视频。

目标聚合条件包括人物聚合条件和事件聚合条件时的聚合过程类似，故不再赘述。

若聚合请求指示对拆分出的视频添加滤镜、特效等处理，则针对拆分出的视频，添加滤镜、特效等，并将处理后的视频发送给终端设备，由终端设备进行显示。

在本使用场景中，除了能够进行视频拆分外，还可以进行视频辅助生成，例如，将拆分出的视频与用户选择的其他视频进行组合，生成新的视频。或者，根据人物结构化分析结果确定包含人物A的视频片段，并将包含人物A的视频片段与用户上传的包含另一人物B的视频片段进行剪辑，形成剪辑后的人物A和人物B对话的新的视频等。通过本实施例，针对待拆分视频进行切分，获得对应的视频片段，按照配置信息指示的分析维度对各视频片段进行不同的分析，获得结构化分析结果，从而针对不同的镜头聚合条件均可以根据对应的结构化分析结果对视频片段进行聚合，获得需要的拆分出的视频，这样实现了自动化地对待拆分视频进行拆分，而且可以满足不同的镜头聚合条件。

实施例六

参照图6，示出了根据本发明实施例六的一种视频处理装置的结构框图。

本实施例的视频处理装置包括：切分模块602，用于响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段；分析模块604，用于按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果；聚合模块606，用于至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

可选地，切分模块602用于在响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段时，按照预设拆分方式对所述待拆分视频进行拆分处理，获得与所述预设拆分方式对应的至少一个视频片段。

可选地，所述预设拆分方式包括下列至少之一：按照镜头拆分、按照人物拆分、按照待拆分视频中的图像帧的背景拆分、按照待拆分视频中的图像帧的明暗阈值拆分。

可选地，分析模块604，用于根据预设的第一配置信息包括的分析维度或者用户输入的第二配置信息包括的分析维度，确定目标分析维度，其中，所述目标分析维度包括下列至少之一：场景分析维度、人物分析维度和事件分析维度；按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果。

可选地，分析模块604用于在按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果时，若所述目标分析维度包括场景分析维度，则对所述视频片段进行场景分析，并获得场景结构化分析结果，其中，所述场景结构化分析结果包括所述视频片段对应的场景、和所述场景的场景时间信息。

可选地，所述第二配置信息还包括用户输入的衔接图像的信息，所述衔接图像的信息用于指示所述待拆分视频中用于衔接不同场景的衔接图像帧；

分析模块604用于在对所述视频片段进行场景分析，并获得场景结构化分析结果时，使用场景分析算法，根据所述衔接图像对所述视频片段进行分析，并获得所述场景结构化分析结果。

可选地，分析模块604用于在按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果时，若所述目标分析维度包括人物分析维度，则对所述视频片段进行人物分析，并获得人物结构化分析结果，其中，所述人物结构化分析结果包括所述视频片段包含的人脸对应的人物、和所述人物的出现时间信息。

可选地，所述第二配置信息还包括用户输入的人物类别信息，所述人物类别信息用于指示所述待拆分视频中包含的人物所属的身份类别；分析模块604用于在对所述视频片段进行人物分析，并获得人物结构化分析结果时，使用与所述人物类别信息对应的人物分析算法对所述视频片段进行分析，并获得所述人物结构化分析结果。

可选地，分析模块604用于在按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果时，若所述目标分析维度包括事件分析维度，则对所述视频片段进行事件分析，并获得事件结构化分析结果，其中，所述事件结构化分析结果包括所述视频片段包含的事件、和所述事件的出现时间信息。

可选地，聚合模块606用于根据配置信息，确定目标聚合条件，所述目标聚合条件包括下列至少之一：场景聚合条件、人物聚合条件和事件聚合条件；根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

可选地，聚合模块606用于在根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频时，若所述目标聚合条件包括场景聚合条件，则获取多个视频片段对应的场景结构化分析结果；根据所述多个场景结构化分析结果，获取与所述拆分出的视频对应的片段集合；其中，所述片段集合包括第一集合和/或第二集合，所述第一集合包括满足相似度条件的至少两个视频片段，所述相似度条件包括：所述至少两个视频片段时序上连续，且任意相邻两个视频片段对应的场景结构化分析结果之间的相似度满足场景聚合阈值，所述第二集合包括未满足所述相似性条件的一个视频片段；对所述片段集合中的视频片段进行聚合，以获得拆分出的视频。

可选地，聚合模块606用于在根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频时，若所述目标聚合条件包括人物聚合条件，则获取多个视频片段对应的人物结构化分析结果；针对所述多个人物结构化分析结果包括的人物，将包含当前人物的人物结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

可选地，聚合模块606用于在根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频时，若所述目标聚合条件包括事件聚合条件，则获取多个所述视频片段对应的所述事件结构化分析结果；针对所述多个事件结构化分析结果中的事件，将与当前事件的相似度大于或等于事件聚合阈值的事件结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

可选地，所述装置还包括：

音频分析模块608，用于对所述待拆分视频进行音频分析，并获得所述待拆分视频中人物对话的时间信息；

第一边界调整模块610，用于使用所述人物对话的时间信息，调整所述拆分出的视频对应的起始时间和/或终止时间。

可选地，所述装置还包括：

筛除模块612，用于根据用户配置的拆分时长和拆分出的所述视频的时长，对拆分出的所述视频进行过滤，以筛除时长小于所述配置的拆分时长的拆分出的所述视频。

可选地，所述装置还包括：

第一请求获取模块614，用于获取用于指示调整拆分出的所述视频边界的边界调整请求，其中，所述边界调整请求中包括目标拆分出的视频的信息，以及，目标起始时间和/或目标终止时间；

第二边界调整模块616，用于将所述目标拆分出的视频的信息指示的拆分出的视频的起始时间和/或终止时间，调整为对应的所述目标起始时间和/或目标终止时间。

可选地，所述装置还包括：

第二请求获取模块618，用于获取用于指示增加拆分出的视频的增加请求，其中，所述增加请求中包括待增加视频的时间信息；

增加模块620，根据所述待增加视频的时间信息，获得所述增加请求所请求的待增加视频。

本实施例的视频处理装置用于实现前述多个方法实施例中相应的视频处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的视频处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例七

参照图7，示出了根据本发明实施例七的一种视频处理装置的结构框图。

本实施例的视频处理装置包括：

请求模块702，通过交互界面接收用户输入的待拆分视频的信息，根据所述待拆分视频的信息生成视频拆分请求，其中，所述视频拆分请求用于指示获得所述待拆分视频对应的拆分出的视频；

展示模块704，用于获取响应于所述视频拆分请求的拆分出的视频，并在预览界面中展示至少部分拆分出的所述视频，所述拆分出的视频为通过实施例六的装置获得的拆分出的视频。

可选地，请求模块702用于获取用户通过所述交互界面添加的第二配置信息，其中，所述第二配置信息中至少包括用户配置的分析维度；根据所述待拆分视频的信息和所述第二配置信息，生成所述视频拆分请求。

实施例八

参照图8，示出了根据本发明实施例八的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。

其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。

通信接口804，用于与其它电子设备如终端设备或服务器进行通信。

处理器802，用于执行程序810，具体可以执行上述视频处理方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行以下操作：响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段；按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果；至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

在一种可选的实施方式中，程序810还用于使得处理器802在所述响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段时，按照预设拆分方式对所述待拆分视频进行拆分处理，获得与所述预设拆分方式对应的至少一个视频片段。

在一种可选的实施方式中，所述预设拆分方式包括下列至少之一：按照镜头拆分、按照人物拆分、按照待拆分视频中的图像帧的背景拆分、按照待拆分视频中的图像帧的明暗阈值拆分。

在一种可选的实施方式中，程序810还用于使得处理器802在所述按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果时，根据预设的第一配置信息包括的分析维度或者用户输入的第二配置信息包括的分析维度，确定目标分析维度，其中，所述目标分析维度包括下列至少之一：场景分析维度、人物分析维度和事件分析维度；按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果。

在一种可选的实施方式中，程序810还用于使得处理器802在所述按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果时，若所述目标分析维度包括场景分析维度，则对所述视频片段进行场景分析，并获得场景结构化分析结果，其中，所述场景结构化分析结果包括所述视频片段对应的场景、和所述场景的场景时间信息。

在一种可选的实施方式中，所述第二配置信息还包括用户输入的衔接图像的信息，所述衔接图像的信息用于指示所述待拆分视频中用于衔接不同场景的衔接图像帧；程序810还用于使得处理器802在所述对所述视频片段进行场景分析，并获得场景结构化分析结果时，使用场景分析算法，根据所述衔接图像对所述视频片段进行分析，并获得所述场景结构化分析结果。

在一种可选的实施方式中，程序810还用于使得处理器802在所述按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果时，若所述目标分析维度包括人物分析维度，则对所述视频片段进行人物分析，并获得人物结构化分析结果，其中，所述人物结构化分析结果包括所述视频片段包含的人脸对应的人物、和所述人物的出现时间信息。

在一种可选的实施方式中，所述第二配置信息还包括用户输入的人物类别信息，所述人物类别信息用于指示所述待拆分视频中包含的人物所属的身份类别；程序810还用于使得处理器802在所述对所述视频片段进行人物分析，并获得人物结构化分析结果时，使用与所述人物类别信息对应的人物分析算法对所述视频片段进行分析，并获得所述人物结构化分析结果。

在一种可选的实施方式中，程序810还用于使得处理器802在所述按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果时，若所述目标分析维度包括事件分析维度，则对所述视频片段进行事件分析，并获得事件结构化分析结果，其中，所述事件结构化分析结果包括所述视频片段包含的事件、和所述事件的出现时间信息。

在一种可选的实施方式中，程序810还用于使得处理器802在所述至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频时，根据配置信息，确定目标聚合条件，所述目标聚合条件包括下列至少之一：场景聚合条件、人物聚合条件和事件聚合条件；根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

在一种可选的实施方式中，程序810还用于使得处理器802在所述根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频时，若所述目标聚合条件包括场景聚合条件，则获取多个视频片段对应的场景结构化分析结果；根据所述多个场景结构化分析结果，获取与所述拆分出的视频对应的片段集合；其中，所述片段集合包括第一集合和/或第二集合，所述第一集合包括满足相似度条件的至少两个视频片段，所述相似度条件包括：所述至少两个视频片段时序上连续，且任意相邻两个视频片段对应的场景结构化分析结果之间的相似度满足场景聚合阈值，所述第二集合包括未满足所述相似性条件的一个视频片段；对所述片段集合中的视频片段进行聚合，以获得拆分出的视频。

在一种可选的实施方式中，程序810还用于使得处理器802在所述根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频时，若所述目标聚合条件包括人物聚合条件，则获取多个视频片段对应的人物结构化分析结果；针对所述多个人物结构化分析结果包括的人物，将包含当前人物的人物结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

在一种可选的实施方式中，程序810还用于使得处理器802在所述根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频时，若所述目标聚合条件包括事件聚合条件，则获取多个所述视频片段对应的所述事件结构化分析结果；针对所述多个事件结构化分析结果中的事件，将与当前事件的相似度大于或等于事件聚合阈值的事件结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

在一种可选的实施方式中，程序810还用于使得处理器802对所述待拆分视频进行音频分析，并获得所述待拆分视频中人物对话的时间信息；使用所述人物对话的时间信息，调整所述拆分出的视频对应的起始时间和/或终止时间。

在一种可选的实施方式中，程序810还用于使得处理器802根据用户配置的拆分时长和拆分出的所述视频的时长，对拆分出的所述视频进行过滤，以筛除时长小于所述配置的拆分时长的拆分出的所述视频。

在一种可选的实施方式中，程序810还用于使得处理器802获取用于指示调整拆分出的所述视频边界的边界调整请求，其中，所述边界调整请求中包括目标拆分出的视频的信息，以及，目标起始时间和/或目标终止时间；将所述目标拆分出的视频的信息指示的拆分出的视频的起始时间和/或终止时间，调整为对应的所述目标起始时间和/或目标终止时间。

在一种可选的实施方式中，程序810还用于使得处理器802获取用于指示增加拆分出的视频的增加请求，其中，所述增加请求中包括待增加视频的时间信息；根据所述待增加视频的时间信息，获得所述增加请求所请求的待增加视频。

或者，

程序810具体可以用于使得处理器802执行以下操作：通过交互界面接收用户输入的待拆分视频的信息，根据所述待拆分视频的信息生成视频拆分请求，其中，所述视频拆分请求用于指示获得所述待拆分视频对应的拆分出的视频；获取响应于所述视频拆分请求的拆分出的视频，并在预览界面中展示至少部分拆分出的所述视频，所述拆分出的视频为通过权利要求1-17中任一项所述的方法获得的拆分出的视频。

在一种可选的实施方式中，程序810还用于使得处理器802在根据用户通过交互界面添加的待拆分视频，生成视频拆分请求时，获取用户通过所述交互界面添加的第二配置信息，其中，所述第二配置信息中至少包括用户配置的分析维度；根据所述待拆分视频的信息和所述第二配置信息，生成所述视频拆分请求。

程序810中各步骤的具体实现可以参见上述视频处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的视频处理方法。此外，当通用计算机访问用于实现在此示出的视频处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的视频处理方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种视频处理方法，包括：

响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段；

按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果；

至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

2.根据权利要求1所述的方法，其中，所述响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段，包括：

按照预设拆分方式对所述待拆分视频进行拆分处理，获得与所述预设拆分方式对应的至少一个视频片段。

3.根据权利要求2所述的方法，其中，所述预设拆分方式包括下列至少之一：按照镜头拆分、按照人物拆分、按照待拆分视频中的图像帧的背景拆分、按照待拆分视频中的图像帧的明暗阈值拆分。

4.根据权利要求1所述的方法，其中，所述按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果，包括：

根据预设的第一配置信息包括的分析维度或者用户输入的第二配置信息包括的分析维度，确定目标分析维度，其中，所述目标分析维度包括下列至少之一：场景分析维度、人物分析维度和事件分析维度；

按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果。

5.根据权利要求4所述的方法，其中，所述按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果，包括：

若所述目标分析维度包括场景分析维度，则对所述视频片段进行场景分析，并获得场景结构化分析结果，其中，所述场景结构化分析结果包括所述视频片段对应的场景、和所述场景的场景时间信息。

6.根据权利要求5所述的方法，其中，所述第二配置信息还包括用户输入的衔接图像的信息，所述衔接图像的信息用于指示所述待拆分视频中用于衔接不同场景的衔接图像帧；

所述对所述视频片段进行场景分析，并获得场景结构化分析结果，包括：

使用场景分析算法，根据所述衔接图像对所述视频片段进行分析，并获得所述场景结构化分析结果。

7.根据权利要求4所述的方法，其中，所述按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果，包括：

若所述目标分析维度包括人物分析维度，则对所述视频片段进行人物分析，并获得人物结构化分析结果，其中，所述人物结构化分析结果包括所述视频片段包含的人脸对应的人物、和所述人物的出现时间信息。

8.根据权利要求7所述的方法，其中，所述第二配置信息还包括用户输入的人物类别信息，所述人物类别信息用于指示所述待拆分视频中包含的人物所属的身份类别；

所述对所述视频片段进行人物分析，并获得人物结构化分析结果，包括：

使用与所述人物类别信息对应的人物分析算法对所述视频片段进行分析，并获得所述人物结构化分析结果。

9.根据权利要求4所述的方法，其中，所述按照所述目标分析维度对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果，包括：

若所述目标分析维度包括事件分析维度，则对所述视频片段进行事件分析，并获得事件结构化分析结果，其中，所述事件结构化分析结果包括所述视频片段包含的事件、和所述事件的出现时间信息。

10.根据权利要求1所述的方法，其中，所述至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频，包括：

根据配置信息，确定目标聚合条件，所述目标聚合条件包括下列至少之一：场景聚合条件、人物聚合条件和事件聚合条件；

根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

11.根据权利要求10所述的方法，其中，所述根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频，包括：

若所述目标聚合条件包括场景聚合条件，则获取多个视频片段对应的场景结构化分析结果；

根据所述多个场景结构化分析结果，获取与所述拆分出的视频对应的片段集合；

其中，所述片段集合包括第一集合和/或第二集合，所述第一集合包括满足相似度条件的至少两个视频片段，所述相似度条件包括：所述至少两个视频片段时序上连续，且任意相邻两个视频片段对应的场景结构化分析结果之间的相似度满足场景聚合阈值，所述第二集合包括未满足所述相似性条件的一个视频片段；

对所述片段集合中的视频片段进行聚合，以获得拆分出的视频。

12.根据权利要求10所述的方法，其中，所述根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频，包括：

若所述目标聚合条件包括人物聚合条件，则获取多个视频片段对应的人物结构化分析结果；

针对所述多个人物结构化分析结果包括的人物，将包含当前人物的人物结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

13.根据权利要求10所述的方法，其中，所述根据所述目标聚合条件和对应的所述结构化分析结果，对视频片段进行聚合，以获得拆分出的视频，包括：

若所述目标聚合条件包括事件聚合条件，则获取多个所述视频片段对应的所述事件结构化分析结果；

针对所述多个事件结构化分析结果中的事件，将与当前事件的相似度大于或等于事件聚合阈值的事件结构化分析结果对应的视频片段进行聚合，以获得拆分出的视频。

14.根据权利要求1所述的方法，其中，所述方法还包括：

对所述待拆分视频进行音频分析，并获得所述待拆分视频中人物对话的时间信息；

使用所述人物对话的时间信息，调整所述拆分出的视频对应的起始时间和/或终止时间。

15.根据权利要求1所述的方法，其中，所述方法还包括：

根据用户配置的拆分时长和拆分出的所述视频的时长，对拆分出的所述视频进行过滤，以筛除时长小于所述配置的拆分时长的拆分出的所述视频。

16.根据权利要求1所述的方法，其中，所述方法还包括：

获取用于指示调整拆分出的所述视频边界的边界调整请求，其中，所述边界调整请求中包括目标拆分出的视频的信息，以及，目标起始时间和/或目标终止时间；

将所述目标拆分出的视频的信息指示的拆分出的视频的起始时间和/或终止时间，调整为对应的所述目标起始时间和/或目标终止时间。

17.根据权利要求1所述的方法，其中，所述方法还包括：

获取用于指示增加拆分出的视频的增加请求，其中，所述增加请求中包括待增加视频的时间信息；

根据所述待增加视频的时间信息，获得所述增加请求所请求的待增加视频。

18.一种视频处理方法，包括：

通过交互界面接收用户输入的待拆分视频的信息，根据所述待拆分视频的信息生成视频拆分请求，其中，所述视频拆分请求用于指示获得所述待拆分视频对应的拆分出的视频；

获取响应于所述视频拆分请求的拆分出的视频，并在预览界面中展示至少部分拆分出的所述视频，所述拆分出的视频为通过权利要求1-17中任一项所述的方法获得的拆分出的视频。

19.根据权利要求18所述的方法，其中，所述根据用户通过交互界面添加的待拆分视频，生成视频拆分请求，包括：

获取用户通过所述交互界面添加的第二配置信息，其中，所述第二配置信息中至少包括用户配置的分析维度；

根据所述待拆分视频的信息和所述第二配置信息，生成所述视频拆分请求。

20.一种视频处理装置，包括：

切分模块，用于响应于视频拆分请求，获得所述请求指示的待拆分视频中的至少一个视频片段；

分析模块，用于按照配置信息指示的分析维度，对所述视频片段进行分析，并获得所述视频片段对应的结构化分析结果；

聚合模块，用于至少根据结构化分析结果，对视频片段进行聚合，以获得拆分出的视频。

21.一种视频处理装置，包括：

请求模块，用于通过交互界面接收用户输入的待拆分视频的信息，根据所述待拆分视频的信息生成视频拆分请求，其中，所述视频拆分请求用于指示获得所述待拆分视频对应的拆分出的视频；

展示模块，用于获取响应于所述视频拆分请求的拆分出的视频，并在预览界面中展示至少部分拆分出的所述视频，所述拆分出的视频为通过权利要求20所述的装置获得的拆分出的视频。

22.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存储至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-17中任一项所述的视频处理方法对应的操作，或者，执行如权利要求18或19所述的视频处理方法对应的操作。

23.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-17中任一所述的视频处理方法，或者，执行时实现如权利要求18或19所述的视频处理方法。