CN113438500B

CN113438500B - 视频处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113438500B
Application number: CN202010208198.8A
Authority: CN
Inventors: 张士伟; 夏朱荣; 耿致远; 唐铭谦
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Damo Academy Beijing Technology Co ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2023-03-24
Anticipated expiration: 2040-03-23
Also published as: US11847829B2; CN113438500A; US20210295056A1

Abstract

本发明实施例提供了一种视频处理方法、装置、电子设备及计算机存储介质，其中，一种视频处理方法包括：获取待拆分视频中的多个镜头视频片段单位；按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段。通过本发明实施例，实现了可满足不同需要的不同粒度的场景拆分，且无需人工手动操作，大大提高了场景拆分效率，降低了人工成本。

Description

视频处理方法、装置、电子设备及计算机存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种视频处理方法、装置、电子设备及计算机存储介质。

背景技术

在基于各种不同需要的视频处理中，视频拆条是根据互联网视频和新媒体短视频内容平台的需要，对视频进行二次加工，将原来完整的一条视频按照某种逻辑思维或特定需要拆分成多条视频的一种处理技术。

目前，视频拆条主要分为按照镜头拆分和按照场景拆分。但是，在按照场景拆分时，场景往往无法明确定义。因此，现有的视频拆条都是按照镜头进行拆分。当有场景拆分需求时，再通过人工进行合成。

但是，这种方式效率低下，且浪费人工成本。

发明内容

有鉴于此，本发明实施例提供一种视频处理方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种视频处理方法，包括：获取待拆分视频中的多个镜头视频片段单位之间；按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段。

根据本发明实施例的第二方面，提供了另一种视频处理方法，包括：接收客户端发送的针对待拆分视频的拆分请求，其中，所述拆分请求中包括待拆分层级的信息；对所述待拆分视频中，所述待拆分层级的信息指示的拆分层级进行场景边界检测，获得所述拆分层级对应的场景视频片段，其中，所述场景视频片段根据如第一方面所述的视频处理方法获得；将获得的所述场景视频片段返回所述客户端。

根据本发明实施例的第三方面，提供了再一种视频处理方法，包括：通过交互界面接收用户输入的拆分信息，其中，所述拆分信息中包括待拆分视频的信息，和，针对所述待拆分视频的待拆分层级的信息；根据所述拆分信息生成拆分请求并发送给服务端；接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段。

根据本发明实施例的第四方面，提供了一种视频处理装置，包括：第一获取模块，用于获取待拆分视频中的多个镜头视频片段单位；处理模块，用于按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段。

根据本发明实施例的第五方面，提供了另一种视频处理装置，包括：第一接收模块，用于接收客户端发送的针对待拆分视频的拆分请求，其中，所述拆分请求中包括待拆分层级的信息；第二获取模块，用于对所述待拆分视频中，所述待拆分层级的信息指示的拆分层级进行场景边界检测，获得所述拆分层级对应的场景视频片段，其中，所述场景视频片段根据如第三方面所述的视频处理装置获得；返回模块，用于将获得的所述场景视频片段返回所述客户端。

根据本发明实施例的第六方面，提供了再一种视频处理装置，包括：第二接收模块，用于通过交互界面接收用户输入的拆分信息，其中，所述拆分信息中包括待拆分视频的信息，和，针对所述待拆分视频的待拆分层级的信息；生成模块，用于根据所述拆分信息生成拆分请求并发送给服务端；第三接收模块，用于接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段。

根据本发明实施例的第七方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面或第三方面所述的视频处理方法对应的操作。

根据本发明实施例的第八方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的视频处理方法。

根据本发明实施例提供的视频处理方案，以镜头视频片段单位为基本的处理单元，在多个拆分层级(表征拆分粒度)上，根据镜头视频片段单位之间的相似度，分别将待拆分视频拆分成与各拆分层级的粒度相匹配的多个场景视频片段，以此实现不同拆分层级对应不同粒度的场景视频片段。由此，实现了可满足不同需要的不同粒度的场景拆分，且无需人工手动操作，大大提高了场景拆分效率，降低了人工成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本发明实施例一的一种视频处理方法的步骤流程图；

图1B为图1A所示实施例中的一种视频拆分示例的示意图；

图2A为根据本发明实施例二的一种视频处理方法的步骤流程图；

图2B为图2A所示实施例中的一种视频拆分结果的示意图；

图3A为根据本发明实施例三的一种视频处理方法的步骤流程图；

图3B为图3A所示实施例中的一种场景示例的示意图；

图4为根据本发明实施例四的一种视频处理方法的步骤流程图；

图5为根据本发明实施例五的一种视频处理装置的结构框图；

图6为根据本发明实施例六的一种视频处理装置的结构框图；

图7为根据本发明实施例七的一种视频处理装置的结构框图；

图8为根据本发明实施例八的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1A，示出了根据本发明实施例一的一种视频处理方法的步骤流程图。

本实施例的视频处理方法包括以下步骤：

步骤S102：获取待拆分视频中的多个镜头视频片段单位。

本发明实施例中，待拆分视频可以为任意适当的视频，可以为长视频，也可以为短视频。

在视频处理领域，镜头是指视频编辑中两个剪辑点间的一组画面，是组成整个视频的基本单位。基于此，本发明实施例中的所述镜头视频片段单位可以采用上述单个镜头的形式。但不限于此，在实际应用中，若有需要，本领域技术人员也可以将多个单镜头组合成一个镜头视频片段单位。也即，本发明实施例中，所述镜头视频片段单位可以为一个镜头，也可以包括多个镜头。需要说明的是，若无特殊说明，“多个”，“多种”等与“多”有关的数量均意指两个及两个以上。

步骤S104：按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段。

其中，拆分层级用于指示需要将待拆分视频进行不同场景粒度拆分的层数，不同层级的场景粒度大小不同。在实际应用中，拆分层级可以由本领域技术人员根据实际需求适当设置，本发明实施例对此不作限制。

各个拆分层级对应的镜头视频片段单位的相似度可以预先获得，包括预先计算获得，或者，预先从第三方接口或应用获得等。在一种可行方式中，在初始获得待拆分视频中的多个镜头视频片段单位后，各个拆分层级可以均以该多个镜头视频片段单位之间的相似度为依据，根据不同拆分层级要求的不同的相似度进行不同粒度的场景视频片段的拆分。在另一种可行方式中，在初始获得待拆分视频中的多个镜头视频片段单位后，起始拆分层级可以以该多个镜头视频片段单位之间的相似度为依据，获得起始拆分层级对应的粒度的场景视频片段。然后，再以该起始拆分层级对应的多个场景视频片段作为下一层级的镜头视频片段单位，依据新的镜头视频片段单位之间的相似度进行下一层级的视频拆分，获得下一层级对应的粒度的场景视频片段。据此，实现了针对某一视频的、多种不同粒度的场景视频片段的拆分。

其中，多个镜头视频片段单位之间的相似度可以由本领域技术人员采用任意适当的方式确定，包括但不限于余弦距离等方式。以A、B和C三个镜头视频片段单位为示例进行简单说明，则这三个片段单位之间的相似度包括：A和B之间的相似度，B和C之间的相似度,以及A和C之间的相似度。相似度从某种程度上可以反映不同镜头视频片段单位是否可能归属于一个场景。

在一种可行方式中，本步骤可以实现为：确定预设的多个拆分层级中，各个拆分层级对应的多个镜头视频片段单位和多个镜头视频片段单位之间的相似度；在各个拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合；根据聚合结果，获得各个拆分层级对应的场景视频片段。

其中，各个镜头视频片段单位之间的时序关系可以表征各个镜头视频片段单位在时间上的先后顺序，例如，若常规播放时，镜头视频片段单位A先于B播放，B先于C播放，则A、B和C三者之间的时序关系为A->B->C。

因每个拆分层级的场景粒度大小不同，因此，针对每个拆分层级，需要根据该层级的场景粒度需求，预设相应的相似度阈值，将相似度满足预设相似度阈值的镜头视频片段单位进行聚合，获得每个拆分层级对应的聚合结果，即，不同粒度的场景视频片段。

需要说明的是，获得的场景视频片段可以是逻辑上的片段也可以是物理上的片段。例如，对于视频X的某一个拆分层级来说，通过上述处理，记录该层级对应的三个场景视频片段各自都包括哪些镜头视频片段单位，但并未进行实际的物理拆分，视频数据仍为视频X。通过这种方式，可以满足不同场景的需求，例如，在某些场景中需要上述逻辑拆分的信息，进而再根据这些信息对相应的场景视频片段进行处理，并且，还可以有效节省存储空间。又或者，对于视频X的某一个拆分层级来说，不但确定了视频X在该拆分层级上的三个场景视频片段，还拆分成了独立的场景视频片段X1、X2和X3，则存在的视频数据除包括视频X外，还包括X1、X2和X3。通过这种方式，同样可满足不同场景的需求，如直接获得场景视频片段的场景的需求，并且，在后续可以直接提供场景视频片段，提高了视频拆分效率。也即，通过逻辑拆分和物理拆分的方式，满足了不同场景需求。

以下，以一个视频拆分示例对上述过程进行示例性说明，如图1B所示。

本示例中，为便于说明，仅以初始时五个镜头视频片段单位，拆分层级为二层为例，进行简单示意说明，但本领域技术人员应当明了，实际应用中更复杂的情况同样也参照本示例实现本发明实施例提供的视频处理方案。

具体地，假设初始的镜头视频片段单位为A、B、C、D和E五个单镜头视频片段，五个片段之间的相似度如下表1中所示：

表1

	A	B	C	D	E
						A	/	0.8	0.5	0.3	0.1
B	0.8	/	0.5	0.2	0.1
						C	0.5	0.5	/	0.3	0.1
D	0.3	0.2	0.3	/	0.7
						E	0.1	0.1	0.1	0.7	/

又假设，为第一拆分层级设定的相似度阈值为0.6，为第二拆分层级设定的相似度阈值为0.4。

根据上述设定，针对第一拆分层级，因镜头视频片段A和B之间的相似度为0.8，B和C之间的相似度为0.5，C和D之间的相似度为0.3，D和E之间的相似度为0.7。基于此，在第一拆分层级，A和B进行聚合，D和E之间进行聚合，形成的第一拆分层级的场景视频片段包括X1(包括A和B)，X2(包括C)，X3(包括D和E)。该X1、X2和X3将作为第二拆分层级的镜头视频片段单位。

针对第二拆分层级，假设设定的相似度阈值为0.4，则因镜头视频片段A和B之间的相似度为0.8，B和C之间的相似度为0.5，C和D之间的相似度为0.3，D和E之间的相似度为0.7，因此，在第二拆分层级，A和B和C进行聚合，D和E进行聚合，形成的第二拆分层级的场景视频片段包括Y1(包括A、B和C)、Y2(包括D和E)。

可见，通过上述过程，生成了两个拆分层级对应的不同粒度的场景视频片段，相似度阈值越高，粒度越小；反之，则粒度越大，从而可满足不同需求。

通过本实施例，以镜头视频片段单位为基本的处理单元，在多个拆分层级(表征拆分粒度)上，根据镜头视频片段单位之间的相似度，分别将待拆分视频拆分成与各拆分层级的粒度相匹配的多个场景视频片段，以此实现不同拆分层级对应不同粒度的场景视频片段。由此，实现了可满足不同需要的不同粒度的场景拆分，且无需人工手动操作，大大提高了场景拆分效率，降低了人工成本。

本实施例的视频处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、云端设备、PC机等。

实施例二

参照图2A，示出了根据本发明实施例二的一种视频处理方法的步骤流程图。

本实施例的视频处理方法包括以下步骤：

步骤S202:获取待拆分视频中的多个镜头视频片段单位。

镜头视频片段单位可以是单镜头对应的视频片段，也可以是包含多个镜头的视频片段作为一个整体进行处理，具体采用的形式可根据实际需求设置。

步骤S204：确定预设的多个拆分层级中，各个拆分层级对应的多个镜头视频片段单位和多个镜头视频片段单位之间的相似度。

如前所述，拆分层级的具体层数可以由本领域技术人员根据实际需求适当设置，本发明实施例对此不作限制。此外，各个拆分层级对应的多个镜头视频片段单位可以相同，如均为初始时获得的镜头视频片段单位，也可以不同，如以前一层级的场景视频片段作为当前层级的镜头视频片段单位。

在确定多个镜头视频片段单位之间的相似度时，一种可行方式中，可以获取各个镜头视频片段单位的多模态特征；根据各个镜头视频片段单位的多模态特征，获取各个镜头视频片段单位之间的相似度。

可选地，多模态特征可以包括视觉特征、语音特征和文本特征，则获取各个镜头视频片段单位的多模态特征可以包括：获取各个镜头视频片段单位的视觉特征、语音特征和文本特征；对视觉特征、语音特征和文本特征进行组合，获得各个镜头视频片段单位的多模态特征。

多模态特征能从多个角度反映视频片段单位的视频特性，据此确定镜头视频片段单位之间的相似度更为准确，也更为有效。其中，多模态特征可由本领域技术人员采用适当方式获取。

在一种具体实现中，若镜头视频片段单位即为所述镜头，则可以先对视频进行镜头边界检测，按照镜头切分，即单镜头切分，以期获得多个镜头级别的片段。其中，镜头边界检测可以采用任意适当的方式实现，包括但不限于：连续帧相减方式、直方图相减方式、时空切片方式等。

然后，提取每个镜头的多模态特征，包括：根据镜头切分结果，获得以单个镜头为单位的多个镜头视频片段单位(多个镜头)；利用CNN(卷积神经网络)或者颜色直方图，对多个镜头视频片段单位分别进行特征提取，获得每个镜头视频片段单位的、包括视觉特征、语音特征、文本特征等多模态在内的特征；将每个模态的特征组合在一起(如进行拼接，然后l₂归一化)，作为每个镜头视频片段单位的最终特征。

步骤S206：在各个拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合。

其中，各个拆分层级对应的预设相似度阈值不同，以实现不同粒度的场景拆分。

在一种可行方式中，可以针对每个拆分层级，按照对应的多个镜头视频片段单位之间的时序关系，获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的预设相似度阈值的至少一个镜头视频片段集合；对各个镜头视频片段集合中包含的镜头视频片段单位分别进行聚合。其中，所述预设数量范围可以由本领域技术人员根据需求适当设置，兼顾数量和效率平衡，如设置为5等，本发明实施例对其不作限制。由此，既避免过细拆分导致计算量过大且不符合需求，又能保证拆分的合适粒度。

可选地，在获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的预设相似度阈值的至少一个镜头视频片段集合时，可以判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位；若存在，则以所述镜头视频片段单位为新的基准镜头视频片段单位，并返回所述判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位的操作继续执行，直至判断结果为不存在满足所述预设相似度阈值的镜头视频片段单位；将满足所述预设相似度阈值的多个基准镜头视频片段单位之间的镜头视频片段单位，划分为一个镜头视频片段集合。或者，若不存在与基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位，则根据当前基准镜头视频片段单位生成一个镜头视频片段集合。

其中，基准镜头视频片段单位可以是在实际应用中选择的任意适当的片段单位。可选地，初始时，可以以某个镜头视频片段单位作为基准镜头视频片段单位(起始镜头视频片段单位)，来判断预设数量范围内，是否存在与其相似度满足预设相似度阈值的镜头视频片段单位。在存在的情况下，再以存在的那个镜头视频片段单位为新的基准镜头视频片段单位，继续判断预设数量范围内，是否存在与该新的基准镜头视频片段单位的相似度满足预设相似度阈值的片段单位。依此进行连续判断，直至在距离最新的基准镜头视频片段单位的预设数量范围内不再存在相似度满足预设相似度阈值的片段单位，则将前述自起始基准镜头视频片段单位始至最末个基准镜头视频片段单位之间的片段单位划分为一个集合，以便后续形成一个场景视频片段。

通过上述方式，实现了当前拆分级别下的场景视频片段的准确拆分。

在一种可行的具体实现中，以镜头视频片段单位为单个镜头为例，基于步骤S204中获得的多模态特征，构建所有镜头中每两个镜头之间的相似度(参照表1)，得到一个相似度矩阵，该矩阵的长和宽都是该视频的镜头个数。进而，设置拆分层级，例如，可以按照经验值，设置一个较大的层级值L，比如L＝10，对拆分时长暂不作限制。

基于此，在相似度矩阵上，按照镜头之间的时序关系，即分别沿着时间维度，对相近的几个镜头进行聚合，具体过程如下：

A)假设当前拆分层级为第l层，设置阈值为σ＝0.8-l*(0.8-0.1)/L。

其中，1<＝l<＝L。

但不限于上述阈值设置形式，在实际应用中也可采用其它设置方式，如根据经验设置等等，可使阈值σ的最小值不小于相似度矩阵的平均值即可。阈值σ越大，场景粒度越小；反之，则场景粒度越大。

B)假设当前为第i个镜头视频片段单位(其中，1<＝i<＝N，N为各拆分层级中的镜头视频片段单位的数量，初始时i＝1，基准镜头视频片段单位)，则判断第i个镜头视频片段单位是不是和i+1个镜头视频片段单位的相似度(如，计算两者的余弦距离)是不是大于σ，1)如果不满足相似度大于σ，则看第i+2个镜头视频片段单位，最多看n＝5个镜头视频片段单位；如果在n个镜头视频片段单位范围内没有找到满足条件(与第i个镜头视频片段单位的相似度大于σ)的镜头视频片段单位，则该镜头视频片段单位i保持不变，作为独立的镜头视频片段单位作为第l层的场景视频片段(仅包括一个镜头视频片段单位的场景视频片段)；2)如果在n个镜头视频片段单位范围内找到满足条件的镜头视频片段单位，那么，则以满足条件的那个镜头视频片段单位作为新的起始点(新的基准镜头视频片段单位)，继续往后重复第1)步，直至找不到满足条件的镜头视频片段单位j。假设2)获得的镜头视频片段单位有m个，则将该m个聚合为一个场景视频片段。

然后，再以第j个镜头视频片段单位为基准镜头视频片段单位，继续执行上述1)和2)，直接第l层所有的镜头视频片段单位处理完成。

C)l＝l+1(即l增加一层)；判断新的l是否小于等于L，若是，则返回A)继续执行；若否，则结束视频拆分。

由此，实现了对视频在不同拆分层级的场景拆分，将获得与每个拆分层级对应的不同粒度的场景视频片段。

但不限于此，在另一种可行方式中，步骤S206还可以实现为：针对每个拆分层级，按照多个镜头视频片段单位之间的时序关系，将相似度满足当前拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合，获得当前拆分层级对应的多个场景视频片段；计算所述多个场景视频片段之间的相似度，并将当前拆分层级对应的多个场景视频片段确定为下一拆分层级的多个镜头视频片段单位；根据计算的所述相似度和确定的所述多个镜头视频片段单位，对下一拆分层级进行镜头视频片段单位的聚合处理。

也即，在上述B)之后，可以将第l拆分层级进行了聚合后的镜头，即第l拆分层级的场景视频片段，作为下一拆分层级的镜头视频片段单位，即第l拆分层级的每一个场景作为下一拆分层级的聚合单元。即，在上述B)之后，还包括B+1)，以第l拆分层级的多个场景视频片段作为新的多个镜头视频片段单位，并且计算该多个场景视频片段之间的相似度作为新的多个镜头视频片段单位之间的相似度。然后，执行步骤C)。其中，多个场景视频片段之间的相似度计算的一种可行方式为：对每个场景视频片段中包含的镜头视频片段单位的特征值求平均，将求平均后获得的平均值作为当前场景视频片段的特征值，进而基于此通过余弦距离确定每两个场景视频片段的相似度。通过这种方式，最大程度地利用了已获得的拆分成果，提高了拆分效率。

仍以前述1B中所示的场景为示例，初始的五个镜头视频片段单位A、B、C、D和E之间的相似度仍如表1中所示。

在第一拆分层级对应的相似度阈值为0.6，第二拆分层级对应的相似度阈值为0.4的情况下，针对第一拆分层级的处理与实施例一中所述相同，将获得X1(包括A和B)，X2(包括C)，和X3(包括D和E)三个场景视频片段。

与实施例一中所述不同的是，在获得X1、X2和X3后，需要再计算三者之间的相似度，假设计算后的相似度如下表2所示：

表2

	X1	X2	X3
				X1	/	0.3	0.2
X2	0.3	/	0.5
				X3	0.2	0.5	/

则在针对第二拆分层级时，以X1、X2和X3作为新的镜头视频片段单位，因X1和X2之间的相似度为0.3，不满足第二拆分层级对应的预设相似度阈值0.4，而X2和X3之间的相似度为0.5，满足第二拆分层级对应的预设相似度阈值0.4，因此，X2和X3可以进行聚合。基于此，第二拆分层级获得的场景视频片段Y1(包括X1)、Y2(包括X2和X3)。该拆分的结果如图2B所示。

需要说明的是，为了便于理解，以上描述对实际处理进行了简化，但本领域技术人员应当明了，实际复杂情况可参照该描述和前述相关描述实现，均在本发明实施例的保护范围内。

步骤S208：根据聚合结果，获得各个拆分层级对应的场景视频片段。

即，获得各个拆分层级对应的不同粒度的多个场景视频片段。

基于上述过程，实现了对待拆分视频的多拆分层级的场景拆分。基于该拆分结果，进一步可选地，还可以执行下述步骤S210。

步骤S210：根据各个拆分层级对应的场景视频片段，确定推荐拆分层级和推荐拆分时长。

包括：获得多个拆分层级分别对应的场景纯度；将多个场景纯度中，最接近预设场景纯度的层级确定为推荐拆分层级；将推荐拆分层级中的场景视频片段的最大时长确定为推荐拆分时长。

其中，推荐拆分层级和推荐拆分时长均用于向各种需求用户如需进行视频拆分的用户进行推荐，以方便不同需求用户选择和操作。

本发明实施例中，场景纯度意指单个场景视频片段中镜头视频片段单位的相似程度。预设场景纯度可以由本领域技术人员根据需求设置，本发明实施例对此不作限制。

例如，针对每一个拆分层级，计算其场景纯度。具体地，以第l层为例，计算第l层的每个场景视频片段中的每个镜头视频片段单位之间的相似度，然后进行平均，得到该场景视频片段对应的场景纯度。然后，第l层的所有的场景纯度取平均值，作为第l层的场景纯度。接着，选择场景纯度大于并最接近τ＝0.4的拆分层级，作为向用户推荐的拆分层级，该拆分层级最大的场景视频片段的时长作为向用户推荐的拆分时长。

可见，通过上述过程，既实现了不同粒度的场景拆分，又实现了拆分层级和拆分时长的用户推荐，极大地满足了用户后续的需求。

通过本实施例，以镜头视频片段单位为基本的处理单元，在一个或多个拆分层级(表征拆分粒度)上，根据镜头视频片段单位之间的相似度，对镜头视频片段单位进行聚合，以形成与各拆分层级的粒度相匹配的多个场景视频片段。由此，实现了可满足不同需要的不同粒度的场景拆分，且无需人工手动操作，大大提高了场景拆分效率，降低了人工成本。

实施例三

参照图3A，示出了根据本发明实施例三的一种视频处理方法的步骤流程图。

在通过实施例一和二实现了不同拆分层级的场景视频片段的拆分后，即可基于该结果为后续的应用提供服务。本实施例从基于拆分结果提供服务的角度，对本发明实施例提供的视频处理方法进行说明。

本实施例的视频处理方法包括以下步骤：

步骤S302：接收客户端发送的针对待拆分视频的拆分请求。

其中，拆分请求中包括待拆分层级的信息。

在一种可行方式中，所述拆分请求可通过以下方式生成：根据用户输入的待拆分层级的信息，生成拆分请求。即，由实际的用户人工输入相应信息后生成，由此，提高了用户使用的灵活性。针对用户输入的情况，可以将待拆分层级的范围设置在4-10范围内。

在另一种可行方式中，所述拆分请求可通过以下方式生成：将待拆分视频的推荐拆分层级的信息发送给客户端，以使客户端通过展示界面向用户展示。进而，接收用户根据展示的推荐拆分层级而输入的待拆分层级的信息而生成的拆分请求。其中，推荐拆分层级的具体实现可参照前述实施例二中的相关描述，在此不再赘述。

在一种可选方案中，拆分请求中还可以包括待拆分时长的信息。

其中，待拆分时长的信息可以使用实施例二中确定的推荐拆分时长，或者，也可以通过用户人工输入。在采用推荐拆分时长的方式时，可以将待拆分视频的推荐拆分层级的信息和推荐拆分时长的信息发送给客户端，以使客户端通过展示界面向用户展示。进而，供用户选择输入。在采用用户人工输入的方式时，需要预先向用户提供待拆分层级对应的场景视频片段，用户通过人工观看场景视频片段后，选择场景视频片段中时长最长的场景视频片段，将其时长作为可用时长，输入该可用时长作为待拆分时长。

在另一种可选方案中，拆分请求中还包括待请求的目标内容的信息。其中，所述目标内容的信息用于指示用户想要获得的、针对待拆分视频中的某些内容，比如，与商品的详情有关的内容，与某个角色或情节或场景有关的内容等等。

这里需要说明的是，在客户端确定待拆分层级和待拆分时长时，如果用户输入了相应信息，则以用户输入为主；如果用户没有输入，则使用推荐的拆分层级和拆分时长。

步骤S304：对待拆分视频中，待拆分层级的信息指示的拆分层级进行场景边界检测，获得拆分层级对应的场景视频片段。

其中，场景视频片段根据如前述实施例一或二所述的视频处理方法获得，在此不再赘述。

本实施例中，设定通过前述实施例一或二获得的拆分层级对应的场景视频片段为逻辑片段，而非物理片段。也即，虽然对某一拆分层级进行了场景视频片段的拆分，但这些场景视频片段仍处于视频中，而未被独立出来。而通过本步骤的场景边界检测，可以将这些场景视频片段独立为物理片段。

例如，经前述拆分，视频X的第一拆分层级对应有X1、X2和X3三个场景视频片段，但这三个场景视频片段仍包含于视频X中。而通过本步骤，则会形成X1、X2和X3三个独立于视频X的片段。

在一种可行方式中，所述场景边界检测可以根据各个镜头视频片段单位的多模态特征和所述待拆分层级实现。通过待拆分层级可以获得该层级对应的各个场景视频片段都包含哪些镜头，而通过多模态特征，则可以明晰各个场景视频片段在待拆分视频中的边界，进而将其独立拆分出来。

需要说明的是，若通过前述实施例一或二获得了独立的场景视频片段，则无需进行场景边界检测，可直接根据拆分请求提供相应的场景视频片段。

此外，若拆分请求中包含有待拆分时长的信息，则获得的场景视频片段可能是时长与待拆分时长一致的片段，也可能是时长与待拆分时长最接近的场景视频片段。也即，若服务端不存在时长与待拆分时长完全一样的场景视频片段，将会把时长与待拆分时长最接近的场景视频片段返回给客户端。

步骤S306：将获得的场景视频片段返回客户端。

例如，将获得的第一拆分层级的三个独立的场景视频片段返回给客户端。

当拆分请求中还包括待拆分时长的信息时，一种可行方式中，可以从获得的场景视频片段中，确定场景视频片段的时长与待拆分时长的信息指示的时长相匹配的场景视频片段；将相匹配的场景视频片段返回客户端。以精准地满足用户需求，并减少数据传输数量。

当拆分请求中还包括目标内容的信息时，将获得的场景视频片段返回客户端可以包括：获取所述拆分层级对应的场景视频片段的内容信息；从所述场景视频片段中，确定所述场景视频片段的内容信息与所述目标内容的信息相匹配的场景视频片段；将相匹配的所述场景视频片段返回客户端。此种情况下，服务端(如服务器或云端)会根据该目标内容的信息，从与拆分层级对应的场景视频片段中，将与该目标内容无关的片段去掉，不再返回给客户端。进一步可选地，可以对与目标内容有关的片段进行合并，以生成相应的与该目标内容相对应的内容集锦。其中，场景视频片段的内容信息可以预先设定或检测获得，可以是摘要信息的形式，也可以是特征图像的形式。采用特征图像的形式时，可以在需要与目标内容匹配时，对其进行内容检测，再根据检测结果与目标内容进行匹配。

以下，以一个视频推荐为例，对上述过程进行示例性说明，如图3B所示。

图3B中，假设待推荐视频X已被拆分为10个拆分层级，每个层级对应不同粒度的场景视频片段。需要说明的是，若服务端不存在已被拆分的视频，则可以先通过其它途径将视频上传至服务端，由服务端通过实施例一或二中所述的方法进行拆分，并在服务端存储相应的拆分结果。

通过客户端用户界面向有需求的用户展示可供选择的层级和时长，假设某用户在层级输入框输入了“4”，在时长输入框输入了“30”(秒)，则客户端会据此生成相应的拆分请求，并向后台服务端发送。服务端在接收到该拆分请求后，获取到待拆分层级的信息“4”，则会查找待推荐视频X的第4个拆分层级及其对应的场景视频片段的信息，假设第4个拆分层级对应有10个场景视频片段，其中有5个的时长均为30秒(假设为第3、4、5、7、8号片段)，则服务端会先进行场景边界检测，获得独立的5个场景视频片段，然后，将该5个时长为30秒的场景视频片段均发送给客户端。客户端在接收到该5个场景视频片段后，向用户进行展示，由用户进行选择。若用户浏览后确定选择第3个场景视频片段，则其将会将该场景视频片段发布至相应的视频网站，以向该视频网站的观众进行推荐。

此外，不限于上述视频推荐场景，在诸如视频预告片展示场景、视频介绍场景、视频精彩片段推介场景中，均可参考上述视频推荐场景的描述，从用户所需的拆分层级中确定一个或多个场景视频片段，进而进行符合需求的相应处理。

实施例四

参照图4，示出了根据本发明实施例四的一种视频处理方法的步骤流程图。

本实施例从客户端的角度，对本发明提供的视频处理方法进行说明。本实施例的视频处理方法包括以下步骤：

步骤S100：通过交互界面接收用户输入的拆分信息。

其中，所述拆分信息中包括待拆分视频的信息，和，针对待拆分视频的待拆分层级的信息。

通过待拆分视频的信息和待拆分层级的信息，可以确定用户需要针对哪个视频进行何种粒度的视频拆分。

在一种可行方式中，所述拆分信息中还可以包括待拆分时长的信息，以表征用户所需要的场景视频片段的时长。

在另一种可行方式中，所述拆分信息中还包括待请求的目标内容的信息，以表征用户所需要的视频内容。

用户通过交互界面输入的拆分信息，一种可行方式中，用户可以直接输入，另一种可行方式中，用户可以根据服务端(服务器或云端)针对待拆分视频的推荐进行输入。基于此，可选地，本步骤可以实现为：接收服务端发送的推荐信息，其中，所述推荐信息包括：根据对待拆分视频的拆分处理确定的推荐拆分层级的信息和推荐拆分时长的信息；通过交互界面展示推荐拆分层级的信息和推荐拆分时长的信息；接收用户根据推荐拆分层级的信息，和/或，推荐拆分时长的信息输入的拆分信息。其中，推荐拆分层级和推荐拆分时长的具体实现和获得可参照前述实施例二中的相关描述，在此不再赘述。

步骤S200：根据拆分信息生成拆分请求并发送给服务端。

拆分请求的形式和具体实现可以根据实际情况采用任意适当方式实现，本发明实施例对此不作限制。

步骤S300：接收服务端根据拆分请求返回的、与待拆分层级对应的待拆分视频的场景视频片段。

其中，服务端针对待拆分视频的场景视频片段根据前述实施例一或二中所述的方式实现，在此不再赘述。

当拆分信息中还包括待拆分时长的信息时，本步骤可以实现为：接收所述服务端根据所述拆分请求返回的、与所述待拆分层级和所述待拆分时长对应的所述待拆分视频的场景视频片段。

若拆分信息中包含有待拆分时长的信息，则获得的场景视频片段可能是时长与待拆分时长一致的片段，也可能是时长与待拆分时长最接近的场景视频片段。也即，若服务端不存在时长与待拆分时长完全一样的场景视频片段，将会把时长与待拆分时长最接近的场景视频片段返回给客户端。

若拆分信息中还包括待请求的目标内容的信息；则本步骤可以实现为：接收服务端根据所述拆分请求返回的、与待拆分层级和目标内容的信息相匹配的待拆分视频的场景视频片段。如，可以是与某个商品或某个角色或某个场景相关的一个或多个场景视频片段，或者是目标内容的视频集锦片段等等，而与该目标内容无关的场景视频片段将会被服务端去除，不返回给客户关。通过本实施例，为客户端用户提供了获取不同粒度的场景视频片段的方式，可满足不同需要的不同粒度的场景拆分，且无需客户端用户人工拆分，提升了用户的视频拆分体验。

本实施例的视频处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于PC机等终端设备。

实施例五

参照图5，示出了根据本发明实施例五的一种视频处理装置的结构框图。

本实施例的视频处理装置包括：第一获取模块402，用于获取待拆分视频中的多个镜头视频片段单位；处理模块404，用于按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段。

可选地，处理模块404，用于确定预设的多个拆分层级中，各个拆分层级对应的多个镜头视频片段单位和多个镜头视频片段单位之间的相似度；在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合；根据聚合结果，获得各个所述拆分层级对应的场景视频片段。

可选地，处理模块404在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合时：针对每个拆分层级，按照对应的多个镜头视频片段单位之间的时序关系，获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的所述预设相似度阈值的至少一个镜头视频片段集合；对各个镜头视频片段集合中包含的镜头视频片段单位分别进行聚合。

可选地，处理模块404在获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的所述预设相似度阈值的至少一个镜头视频片段集合时：判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位；若存在，则以所述镜头视频片段单位为新的基准镜头视频片段单位，并返回所述判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位的操作继续执行，直至判断结果为不存在满足所述预设相似度阈值的镜头视频片段单位；将满足所述预设相似度阈值的多个基准镜头视频片段单位之间的镜头视频片段单位，划分为一个镜头视频片段集合。

可选地，处理模块404，还用于若不存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位，则根据当前基准镜头视频片段单位生成一个镜头视频片段集合。

可选地，处理模块404，用于在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合时：针对每个拆分层级，按照多个镜头视频片段单位之间的时序关系，将相似度满足当前拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合，获得当前拆分层级对应的多个场景视频片段；计算所述多个场景视频片段之间的相似度，并将当前拆分层级对应的多个场景视频片段确定为下一拆分层级的多个镜头视频片段单位；根据计算的所述相似度和确定的所述多个镜头视频片段单位，对下一拆分层级进行镜头视频片段单位的聚合处理。

可选地，第一获取模块402，还用于通过以下方式获得镜头视频片段单位的相似度：获取各个镜头视频片段单位的多模态特征；根据各个镜头视频片段单位的多模态特征，获取各个镜头视频片段单位之间的相似度。

可选地，第一获取模块402在获取各个镜头视频片段单位的多模态特征时，获取待拆分视频中的多个镜头视频片段单位，以及，获取各个镜头视频片段单位的视觉特征、语音特征和文本特征；对所述视觉特征、语音特征和文本特征进行组合，获得各个镜头视频片段单位的多模态特征；根据各个镜头视频片段单位的多模态特征，获取各个镜头视频片段单位之间的相似度。

可选地，本实施例的视频处理装置还包括：确定模块406，用于获得所述多个拆分层级分别对应的场景纯度；将多个所述场景纯度中，最接近预设场景纯度的层级确定为推荐拆分层级；将所述推荐拆分层级中的场景视频片段的最大时长确定为推荐拆分时长。

本实施例的视频处理装置用于实现前述方法实施例一或二中相应的视频处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的视频处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例六

参照图6，示出了根据本发明实施例六的一种视频处理装置的结构框图。

本实施例的视频处理装置包括：第一接收模块502，用于接收客户端发送的针对待拆分视频的拆分请求，其中，所述拆分请求中包括待拆分层级的信息；第二获取模块504，用于对所述待拆分视频中，所述待拆分层级的信息指示的拆分层级进行场景边界检测，获得所述拆分层级对应的场景视频片段，其中，所述场景视频片段根据如实施例四中所述的视频处理装置获得；返回模块506，用于将获得的所述场景视频片段返回所述客户端。

可选地，本实施例的视频处理装置还包括：发送模块508，用于在所述接收模块502接收客户端发送的针对待拆分视频的拆分请求之前，将所述待拆分视频的推荐拆分层级的信息发送给所述客户端，以供所述客户端通过展示界面向用户展示。

可选地，发送模块508，用于将所述待拆分视频的推荐拆分层级的信息和推荐拆分时长的信息发送给所述客户端，以使所述客户端通过展示界面向用户展示。

可选地，所述拆分请求中还包括待拆分时长的信息；返回模块506，用于从获得的所述场景视频片段中，确定场景视频片段的时长与所述待拆分时长的信息指示的时长相匹配的场景视频片段；将相匹配的所述场景视频片段返回所述客户端。

可选地，所述拆分请求中还包括待请求的目标内容的信息；返回模块506，用于从所述场景视频片段中，确定所述场景视频片段的内容信息与所述目标内容的信息相匹配的场景视频片段；将相匹配的所述场景视频片段返回所述客户端。

本实施例的视频处理装置用于实现前述方法实施例三中相应的视频处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的视频处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例七

参照图7，示出了根据本发明实施例七的一种视频处理装置的结构框图。

本实施例的视频处理装置包括：第二接收模块501，用于通过交互界面接收用户输入的拆分信息，其中，所述拆分信息中包括待拆分视频的信息，和，针对所述待拆分视频的待拆分层级的信息；生成模块503，用于根据所述拆分信息生成拆分请求并发送给服务端；第三接收模块505，用于接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段。

可选地，所述场景视频片段为所述服务端根据实施例五中所述的视频处理装置对所述待处理视频进行处理获得。

可选地，所述拆分信息中还包括待拆分时长的信息；第三接收模块505，用于接收所述服务端根据所述拆分请求返回的、与所述待拆分层级和所述待拆分时长对应的所述待拆分视频的场景视频片段。

可选地，第二接收模块501，用于接收所述服务端发送的推荐信息，其中，所述推荐信息包括：根据对所述待拆分视频的拆分处理确定的推荐拆分层级的信息和推荐拆分时长的信息；通过交互界面展示所述推荐拆分层级的信息和所述推荐拆分时长的信息；接收用户根据所述推荐拆分层级的信息，和/或，所述推荐拆分时长的信息输入的所述拆分信息。

可选地，所述拆分信息中还包括待请求的目标内容的信息；第三接收模块505，用于接收所述服务端根据所述拆分请求返回的、与所述待拆分层级和所述目标内容的信息相匹配的所述待拆分视频的场景视频片段。

本实施例的视频处理装置用于实现前述方法实施例四中相应的视频处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的视频处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例八

参照图8，示出了根据本发明实施例八的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。在一种可行方式中，智能设备可实现为车机。

如图8所示，该智能设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它智能设备或服务器进行通信。

处理器602，用于执行程序610，具体可以执行上述视频处理方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在第一种实施方式中，该电子设备可以实现为服务器的形式，其中：

程序610具体可以用于使得处理器602执行以下操作：获取待拆分视频中的多个镜头视频片段单位；按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段。

在一种可选的实施方式中，程序610还用于使得处理器602在按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段时，确定预设的多个拆分层级中，各个拆分层级对应的多个镜头视频片段单位和多个镜头视频片段单位之间的相似度；在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合；根据聚合结果，获得各个所述拆分层级对应的场景视频片段。

在一种可选的实施方式中，程序610还用于使得处理器602在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合时，针对每个拆分层级，按照对应的多个个镜头视频片段单位之间的时序关系，获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的所述预设相似度阈值的至少一个镜头视频片段集合；对各个镜头视频片段集合中包含的镜头视频片段单位分别进行聚合。

在一种可选的实施方式中，程序610还用于使得处理器602在获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的所述预设相似度阈值的至少一个镜头视频片段集合时，判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位；若存在，则以所述镜头视频片段单位为新的基准镜头视频片段单位，并返回所述判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位的操作继续执行，直至判断结果为不存在满足所述预设相似度阈值的镜头视频片段单位；将满足所述预设相似度阈值的多个基准镜头视频片段单位之间的镜头视频片段单位，划分为一个镜头视频片段集合。

在一种可选的实施方式中，程序610还用于使得处理器602在若不存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位时，则根据当前基准镜头视频片段单位生成一个镜头视频片段集合。

在一种可选的实施方式中，程序610还用于使得处理器602在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合时，针对每个拆分层级，按照多个镜头视频片段单位之间的时序关系，将相似度满足当前拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合，获得当前拆分层级对应的多个场景视频片段；计算所述多个场景视频片段之间的相似度，并将当前拆分层级对应的多个场景视频片段确定为下一拆分层级的多个镜头视频片段单位；根据计算的所述相似度和确定的所述多个镜头视频片段单位，对下一拆分层级进行镜头视频片段单位的聚合处理。

在一种可选的实施方式中，程序610还用于使得处理器602在通过以下方式获取多个镜头视频片段单位之间的相似度：获取各个镜头视频片段单位的多模态特征；根据各个镜头视频片段单位的多模态特征，获取各个镜头视频片段单位之间的相似度。

在一种可选的实施方式中，程序610还用于使得处理器602在获取各个镜头视频片段单位的多模态特征时，获取各个镜头视频片段单位的视觉特征、语音特征和文本特征；对所述视觉特征、语音特征和文本特征进行组合，获得各个镜头视频片段单位的多模态特征。

在一种可选的实施方式中，程序610还用于使得处理器602获得所述多个拆分层级分别对应的场景纯度；将多个所述场景纯度中，最接近预设场景纯度的层级确定为推荐拆分层级；将所述推荐拆分层级中的场景视频片段的最大时长确定为推荐拆分时长。

在第二种实施方式中，该电子设备可以实现为服务器的形式，其中：

程序610具体可以用于使得处理器602执行以下操作：接收客户端发送的针对待拆分视频的拆分请求，其中，所述拆分请求中包括待拆分层级的信息；对所述待拆分视频中，所述待拆分层级的信息指示的拆分层级进行场景边界检测，获得所述拆分层级对应的场景视频片段，其中，所述场景视频片段根据如第一种实施方式中所述的视频处理方法获得；将获得的所述场景视频片段返回所述客户端。

在一种可选的实施方式中，程序610还用于使得处理器602在接收客户端发送的针对待拆分视频的拆分请求之前，将所述待拆分视频的推荐拆分层级的信息发送给所述客户端，以使所述客户端通过展示界面向用户展示。

在一种可选的实施方式中，程序610还用于使得处理器602在将所述待拆分视频的推荐拆分层级的信息发送给所述客户端，以使所述客户端通过展示界面向用户展示时，将所述待拆分视频的推荐拆分层级的信息和推荐拆分时长的信息发送给所述客户端，以供所述客户端通过展示界面向用户展示。

在一种可选的实施方式中，拆分请求中还包括待拆分时长的信息；程序610还用于使得处理器602在将获得的所述场景视频片段返回所述客户端时，从获得的所述场景视频片段中，确定场景视频片段的时长与所述待拆分时长的信息指示的时长相匹配的场景视频片段；将相匹配的所述场景视频片段返回所述客户端。

在一种可选的实施方式中，所述拆分请求中还包括待请求的目标内容的信息；程序610还用于使得处理器602在将获得的所述场景视频片段返回所述客户端时，获取所述拆分层级对应的所述场景视频片段的内容信息；从所述场景视频片段中，确定所述场景视频片段的内容信息与所述目标内容的信息相匹配的场景视频片段；将相匹配的所述场景视频片段返回所述客户端。

在第三种实施方式中，该电子设备可以实现为客户端设备的形式，其中：

程序610具体可以用于使得处理器602执行以下操作：通过交互界面接收用户输入的拆分信息，其中，所述拆分信息中包括待拆分视频的信息，和，针对所述待拆分视频的待拆分层级的信息；根据所述拆分信息生成拆分请求并发送给服务端；接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段。

在一种可选的实施方式中，所述场景视频片段为所述服务端根据第一种实施方式所述的视频处理方法对所述待处理视频进行处理获得。

在一种可选的实施方式中，所述拆分信息中还包括待拆分时长的信息；程序610还用于使得处理器602在接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段时，接收所述服务端根据所述拆分请求返回的、与所述待拆分层级和所述待拆分时长对应的所述待拆分视频的场景视频片段。

在一种可选的实施方式中，程序610还用于使得处理器602在通过交互界面接收用户输入的拆分信息时，接收所述服务端发送的推荐信息，其中，所述推荐信息包括：根据对所述待拆分视频的拆分处理确定的推荐拆分层级的信息和推荐拆分时长的信息；通过交互界面展示所述推荐拆分层级的信息和所述推荐拆分时长的信息；接收用户根据所述推荐拆分层级的信息，和/或，所述推荐拆分时长的信息输入的所述拆分信息。

在一种可选的实施方式中，所述拆分请求中还包括待请求的目标内容的信息；程序610还用于使得处理器602在接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段时，接收所述服务端根据所述拆分请求返回的、与所述待拆分层级和所述目标内容的信息相匹配的所述待拆分视频的场景视频片段。

程序610中各步骤的具体实现可以参见上述视频处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，以镜头视频片段单位为基本的处理单元，在一个或多个拆分层级(表征拆分粒度)上，根据镜头视频片段单位之间的相似度，对镜头视频片段单位进行聚合，以形成与各拆分层级的粒度相匹配的多个场景视频片段。由此，实现了可满足不同需要的不同粒度的场景拆分，且无需人工手动操作，大大提高了场景拆分效率，降低了人工成本。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的视频处理方法。此外，当通用计算机访问用于实现在此示出的视频处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的视频处理方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种视频处理方法，包括：

获取待拆分视频中的多个镜头视频片段单位；

按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段，其中，所述拆分层级用于指示将所述待拆分视频进行不同场景粒度拆分的层数；

所述按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段，包括：

在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合；

根据聚合结果，获得各个所述拆分层级对应的场景视频片段。

2.根据权利要求1所述的方法，其中，所述在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合，包括：

针对各个拆分层级，按照对应的多个镜头视频片段单位之间的时序关系，获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的所述预设相似度阈值的至少一个镜头视频片段集合；

对各个镜头视频片段集合中包含的镜头视频片段单位分别进行聚合。

3.根据权利要求2所述的方法，其中，所述获得片段间隔数量在预设数量范围内、且相似度满足当前拆分层级对应的所述预设相似度阈值的至少一个镜头视频片段集合，包括：

判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位；

若存在，则以所述镜头视频片段单位为新的基准镜头视频片段单位，并返回所述判断在与基准镜头视频片段单位相邻的预设数量的镜头视频片段单位中，是否存在与所述基准镜头视频片段单位的相似度满足当前拆分层级对应的所述预设相似度阈值的镜头视频片段单位的操作继续执行，直至判断结果为不存在满足所述预设相似度阈值的镜头视频片段单位；

将满足所述预设相似度阈值的多个基准镜头视频片段单位之间的镜头视频片段单位，划分为一个镜头视频片段集合。

4.根据权利要求3所述的方法，其中，所述方法还包括：

若不存在，则根据当前基准镜头视频片段单位生成一个镜头视频片段集合。

5.根据权利要求2所述的方法，其中，所述在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合，包括：

针对每个拆分层级，按照多个镜头视频片段单位之间的时序关系，将相似度满足当前拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合，获得当前拆分层级对应的多个场景视频片段；

计算所述多个场景视频片段之间的相似度，并将当前拆分层级对应的多个场景视频片段确定为下一拆分层级的多个镜头视频片段单位；

根据计算的所述相似度和确定的所述多个镜头视频片段单位，对下一拆分层级进行镜头视频片段单位的聚合处理。

6.根据权利要求1-5任一项所述的方法，其中，所述镜头视频片段单位的相似度通过以下方式获得：

获取各个镜头视频片段单位的多模态特征；

根据各个镜头视频片段单位的多模态特征，获取各个镜头视频片段单位之间的相似度。

7.根据权利要求6所述的方法，其中，所述获取各个镜头视频片段单位的多模态特征，包括：

获取各个镜头视频片段单位的视觉特征、语音特征和文本特征；

对所述视觉特征、语音特征和文本特征进行组合，获得各个镜头视频片段单位的多模态特征。

8.根据权利要求1所述的方法，其中，所述方法还包括：

获得所述多个拆分层级分别对应的场景纯度；

将多个所述场景纯度中，最接近预设场景纯度的层级确定为推荐拆分层级；

将所述推荐拆分层级中的场景视频片段的最大时长确定为推荐拆分时长。

9.一种视频处理方法，包括：

接收客户端发送的针对待拆分视频的拆分请求，其中，所述拆分请求中包括待拆分层级的信息；

对所述待拆分视频中，所述待拆分层级的信息指示的拆分层级进行场景边界检测，获得所述拆分层级对应的场景视频片段，其中，所述场景视频片段根据如权利要求1-8中任一所述的视频处理方法获得；

将获得的所述场景视频片段返回所述客户端。

10.根据权利要求9所述的方法，其中，在所述接收客户端发送的针对待拆分视频的拆分请求之前，所述方法还包括：

将所述待拆分视频的推荐拆分层级的信息发送给所述客户端，以使所述客户端通过展示界面向用户展示。

11.根据权利要求10所述的方法，其中，所述将所述待拆分视频的推荐拆分层级的信息发送给所述客户端，以使所述客户端通过展示界面向用户展示，包括：

将所述待拆分视频的推荐拆分层级的信息和推荐拆分时长的信息发送给所述客户端，以使所述客户端通过展示界面向用户展示。

12.根据权利要求11所述的方法，其中，所述拆分请求中还包括待拆分时长的信息；

所述将获得的所述场景视频片段返回所述客户端，包括：从获得的所述场景视频片段中，确定场景视频片段的时长与所述待拆分时长的信息指示的时长相匹配的场景视频片段；将相匹配的所述场景视频片段返回所述客户端。

13.根据权利要求9所述的方法，其中，所述拆分请求中还包括待请求的目标内容的信息；

所述将获得的所述场景视频片段返回所述客户端，包括：获取所述拆分层级对应的所述场景视频片段的内容信息；从所述场景视频片段中，确定所述场景视频片段的内容信息与所述目标内容的信息相匹配的场景视频片段；将相匹配的所述场景视频片段返回所述客户端。

14.一种视频处理方法，包括：

通过交互界面接收用户输入的拆分信息，其中，所述拆分信息中包括待拆分视频的信息，和，针对所述待拆分视频的待拆分层级的信息；

根据所述拆分信息生成拆分请求并发送给服务端；

接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段，其中，所述场景视频片段为所述服务端根据权利要求1-8中任一所述的视频处理方法对待处理视频进行处理获得。

15.根据权利要求14所述的方法，其中，所述拆分信息中还包括待拆分时长的信息；

所述接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段，包括：接收所述服务端根据所述拆分请求返回的、与所述待拆分层级和所述待拆分时长对应的所述待拆分视频的场景视频片段。

16.根据权利要求14所述的方法，其中，所述通过交互界面接收用户输入的拆分信息，包括：

接收所述服务端发送的推荐信息，其中，所述推荐信息包括：根据对所述待拆分视频的拆分处理确定的推荐拆分层级的信息和推荐拆分时长的信息；

通过交互界面展示所述推荐拆分层级的信息和所述推荐拆分时长的信息；

接收用户根据所述推荐拆分层级的信息，和/或，所述推荐拆分时长的信息输入的所述拆分信息。

17.根据权利要求14所述的方法，其中，所述拆分信息中还包括待请求的目标内容的信息；

所述接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段，包括：接收所述服务端根据所述拆分请求返回的、与所述待拆分层级和所述目标内容的信息相匹配的所述待拆分视频的场景视频片段。

18.一种视频处理装置，包括：

第一获取模块，用于获取待拆分视频中的多个镜头视频片段单位；

处理模块，用于按照预设的多个拆分层级，和，各个拆分层级对应的镜头视频片段单位的相似度，将所述待拆分视频拆分为与多个拆分层级分别对应的不同粒度的场景视频片段，其中，所述拆分层级用于指示将所述待拆分视频进行不同场景粒度拆分的层数；

所述处理模块具体用于：在各个所述拆分层级上，根据多个镜头视频片段单位之间的时序关系，将相似度满足各个所述拆分层级对应的预设相似度阈值的镜头视频片段单位进行聚合；根据聚合结果，获得各个所述拆分层级对应的场景视频片段。

19.一种视频处理装置，包括：

第一接收模块，用于接收客户端发送的针对待拆分视频的拆分请求，其中，所述拆分请求中包括待拆分层级的信息；

第二获取模块，用于对所述待拆分视频中，所述待拆分层级的信息指示的拆分层级进行场景边界检测，获得所述拆分层级对应的场景视频片段，其中，所述场景视频片段根据如权利要求18所述的视频处理装置获得；

返回模块，用于将获得的所述场景视频片段返回所述客户端。

20.一种视频处理装置，包括：

第二接收模块，用于通过交互界面接收用户输入的拆分信息，其中，所述拆分信息中包括待拆分视频的信息，和，针对所述待拆分视频的待拆分层级的信息；

生成模块，用于根据所述拆分信息生成拆分请求并发送给服务端；

第三接收模块，用于接收所述服务端根据所述拆分请求返回的、与所述待拆分层级对应的所述待拆分视频的场景视频片段，其中，所述场景视频片段根据权利要求18所述的视频处理装置获得。

21.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8中任一项、或者9-13中任一项、或者14-17中任一项所述的视频处理方法对应的操作。

22.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8中任一项、或者9-13中任一项、或者14-17中任一项所述的视频处理方法。