CN114189754A

CN114189754A - 一种视频情节分段方法及系统

Info

Publication number: CN114189754A
Application number: CN202111491984.4A
Authority: CN
Inventors: 杨杰; 胡玮; 余意; 王心莹; 宋施恩
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-15

Abstract

本发明提供了一种视频情节分段方法及系统，对待分段视频进行镜头分段，得到多个待处理镜头；提取每个待处理镜头的特征数据；从多个待处理镜头中确定起始镜头；基于镜头表征特征，确定与起始镜头相同的待处理镜头并将其作为第一镜头，利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建初始视频情节分段；基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，得到起始镜头对应的最终视频情节分段。不需要以人工分段的方式对待分段视频进行情节分段，提高情节分段的效率和准确率。

Description

一种视频情节分段方法及系统

技术领域

本发明涉及视频处理技术领域，具体涉及一种视频情节分段方法及系统。

背景技术

在诸如电影和电视剧等视频的制作中，通常采用镜头和情节将故事线分成易于理解的部分，为在不影响视频的观看体验的基础上开展业务(如寻找广告插入点)，需对视频进行情节分段。

目前对视频进行情节分段的方式为：业务人员观看完整的视频，并采用人工判断的方式对视频进行情节分段。但是，一方面由于视频的数量较多，业务人员需要花费大量的时间观看视频，情节分段的效率较低，另一方面，人工进行情节分段容易出现纰漏，情节分段的准确率较低。

发明内容

有鉴于此，本发明实施例提供一种视频情节分段方法及系统，以解决现有情节分段方式存在的效率较低和准确率较低等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种视频情节分段方法，所述方法包括：

对待分段视频进行镜头分段，得到多个待处理镜头；

提取每个所述待处理镜头的镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征；

从多个所述待处理镜头中确定起始镜头；

基于所述镜头表征特征，确定与所述起始镜头相同的所述待处理镜头并将其作为第一镜头，利用所述起始镜头、所述第一镜头、及所述起始镜头至所述第一镜头之间的所述待处理镜头，构建初始视频情节分段；

基于所述人脸表征特征、所述人体表征特征、所述场景表征特征和所述音频表征特征，从不属于所述初始视频情节分段的所述待处理镜头中，确定满足预设条件的所述待处理镜头，并将所有满足所述预设条件的所述待处理镜头添加至所述初始视频情节分段中，得到所述起始镜头对应的最终视频情节分段。

优选的，所述提取每个所述待处理镜头的镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征，包括：

抽取每个所述待处理镜头的指定帧位的图像，所述指定帧位的图像包含：起始帧图像、中间帧图像和终止帧图像；

针对每个待处理镜头，对所述待处理镜头的所述指定帧位的图像进行人脸数量的检测，确定人脸数量最少的所述指定帧位的图像为第一图像，以及确定人脸数量最多的所述指定帧位的图像为第二图像；

针对每个待处理镜头，利用预先训练得到的人脸检测模型从所述待处理镜头的第二图像中提取人脸表征特征，及利用预先训练得到的人体检测模型从所述待处理镜头的第二图像中提取人体表征特征，及利用预先训练得到的场景识别模型从所述待处理镜头的第一图像中提取场景表征特征，及利用预先训练得到的镜头特征提取模型从所述待处理镜头的中间帧图像中提取镜头表征特征，及利用预先训练得到的音频特征提取模型从所述待处理镜头中提取音频表征特征；

其中，所述人脸检测模型、所述人体检测模型、所述场景识别模型、所述镜头特征提取模型和所述音频特征提取模型分别为基于对应的样本数据训练神经网络模型得到。

优选的，所述基于所述镜头表征特征，确定与所述起始镜头相同的所述待处理镜头并将其作为第一镜头，利用所述起始镜头、所述第一镜头、及所述起始镜头至所述第一镜头之间的所述待处理镜头，构建初始视频情节分段，包括：

基于所述镜头表征特征，从与所述起始镜头左相邻的N个所述待处理镜头以及与所述起始镜头右相邻的N个所述待处理镜头中，确定与所述起始镜头相同的第一镜头；

利用所述起始镜头、所述第一镜头、及所述起始镜头至所述第一镜头之间的所述待处理镜头，构建第一视频情节分段；

重复执行以下步骤，直至将所有与第二镜头相同且不属于所述第一视频情节分段的所述待处理镜头添加至所述第一视频情节分段，得到初始视频情节分段，所述第二镜头为所述第一视频情节分段中除所述起始镜头外的所述待处理镜头；

所述以下步骤包括：

针对每个第二镜头，基于所述镜头表征特征，从与所述第二镜头左相邻的N个所述待处理镜头以及与所述第二镜头右相邻的N个所述待处理镜头中，确定与所述第二镜头相同的所述待处理镜头并将其添加至所述第一视频情节分段。

优选的，基于所述人脸表征特征、所述人体表征特征、所述场景表征特征和所述音频表征特征，从不属于所述初始视频情节分段的所述待处理镜头中，确定满足预设条件的所述待处理镜头，并将所有满足所述预设条件的所述待处理镜头添加至所述初始视频情节分段中，得到所述起始镜头对应的最终视频情节分段，包括：

从不属于所述初始视频情节分段的所述待处理镜头中，确定与所述初始视频情节分段的边界相邻的第一个所述待处理镜头并将其作为第三镜头；

从所述初始视频情节分段中确定与所述第三镜头最近的M个第四镜头，所述第四镜头为所述初始视频情节分段中的所述待处理镜头；

基于所述第三镜头和M个第四镜头对应的所述人脸表征特征、所述人体表征特征、所述场景表征特征和所述音频表征特征，若确定所述第三镜头满足预设条件，将所述第三镜头添加至所述初始视频情节分段，返回执行确定与所述初始视频情节分段的边界相邻的第一个所述待处理镜头并将其作为第三镜头这一步骤，直至所确定的所述第三镜头不满足所述预设条件，得到所述起始镜头对应的最终视频情节分段。

优选的，确定所述第三镜头满足预设条件的过程，包括：

分别比对所述第三镜头和M个第四镜头之间的所述人脸表征特征以及所述人体表征特征，得到第一比对结果；

当所述第一比对结果指示所述第三镜头与M个第四镜头中任一所述第四镜头之间存在相同人物，比对所述第三镜头和M个第四镜头之间的所述场景表征特征，得到第二比对结果；

当所述第二比对结果指示所述第三镜头与M个第四镜头中任一所述第四镜头之间存在相同场景，确定所述第三镜头满足预设条件；

当所述第一比对结果指示所述第三镜头与M个第四镜头之间均不存在相同人物，或者，当所述第二比对结果指示所述第三镜头与M个第四镜头之间均不存在相同场景，基于所述第三镜头的所述音频表征特征，判断所述第三镜头的内容是否指示背景音乐延续或人物对话延续；

若所述第三镜头的内容指示非背景音乐延续和非人物对话延续，确定所述第三镜头不满足所述预设条件；

若所述第三镜头的内容指示背景音乐延续或人物对话延续，计算所述第三镜头中的最大人脸屏占比；

当所述最大人脸屏占比大于屏占比阈值，确定所述第三镜头满足所述预设条件；

当所述最大人脸屏占比小于或等于所述屏占比阈值，确定所述第三镜头不满足所述预设条件。

优选的，基于样本数据训练神经网络模型得到所述镜头特征提取模型的过程，包括：

获取样本视频并对所述样本视频进行镜头分段，得到多个样本镜头；

利用每个所述样本镜头中的L帧图像，构建样本数据集；

基于损失函数和所述样本数据集，训练神经网络模型直至所述神经网络模型收敛，得到所述镜头特征提取模型。

本发明实施例第二方面公开一种视频情节分段系统，所述系统包括：

分段单元，用于对待分段视频进行镜头分段，得到多个待处理镜头；

提取单元，用于提取每个所述待处理镜头的镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征；

确定单元，用于从多个所述待处理镜头中确定起始镜头；

第一处理单元，用于基于所述镜头表征特征，确定与所述起始镜头相同的所述待处理镜头并将其作为第一镜头，利用所述起始镜头、所述第一镜头、及所述起始镜头至所述第一镜头之间的所述待处理镜头，构建初始视频情节分段；

第二处理单元，用于基于所述人脸表征特征、所述人体表征特征、所述场景表征特征和所述音频表征特征，从不属于所述初始视频情节分段的所述待处理镜头中，确定满足预设条件的所述待处理镜头，并将所有满足所述预设条件的所述待处理镜头添加至所述初始视频情节分段中，得到所述起始镜头对应的最终视频情节分段。

优选的，所述提取单元包括：

抽取模块，用于抽取每个所述待处理镜头的指定帧位的图像，所述指定帧位的图像包含：起始帧图像、中间帧图像和终止帧图像；

检测模块，用于针对每个待处理镜头，对所述待处理镜头的所述指定帧位的图像进行人脸数量的检测，确定人脸数量最少的所述指定帧位的图像为第一图像，以及确定人脸数量最多的所述指定帧位的图像为第二图像；

提取模块，用于针对每个待处理镜头，利用预先训练得到的人脸检测模型从所述待处理镜头的第二图像中提取人脸表征特征，及利用预先训练得到的人体检测模型从所述待处理镜头的第二图像中提取人体表征特征，及利用预先训练得到的场景识别模型从所述待处理镜头的第一图像中提取场景表征特征，及利用预先训练得到的镜头特征提取模型从所述待处理镜头的中间帧图像中提取镜头表征特征，及利用预先训练得到的音频特征提取模型从所述待处理镜头中提取音频表征特征；

优选的，所述第一处理单元包括：

确定模块，用于基于所述镜头表征特征，从与所述起始镜头左相邻的N个所述待处理镜头以及与所述起始镜头右相邻的N个所述待处理镜头中，确定与所述起始镜头相同的第一镜头；

构建模块，用于利用所述起始镜头、所述第一镜头、及所述起始镜头至所述第一镜头之间的所述待处理镜头，构建第一视频情节分段；

处理模块，用于重复执行以下步骤，直至将所有与第二镜头相同且不属于所述第一视频情节分段的所述待处理镜头添加至所述第一视频情节分段，得到初始视频情节分段，所述第二镜头为所述第一视频情节分段中除所述起始镜头外的所述待处理镜头；

所述以下步骤包括：

优选的，所述第二处理单元包括：

第一确定模块，用于从不属于所述初始视频情节分段的所述待处理镜头中，确定与所述初始视频情节分段的边界相邻的第一个所述待处理镜头并将其作为第三镜头；

第二确定模块，用于从所述初始视频情节分段中确定与所述第三镜头最近的M个第四镜头，所述第四镜头为所述初始视频情节分段中的所述待处理镜头；

处理模块，用于基于所述第三镜头和M个第四镜头对应的所述人脸表征特征、所述人体表征特征、所述场景表征特征和所述音频表征特征，若确定所述第三镜头满足预设条件，将所述第三镜头添加至所述初始视频情节分段，返回执行所述第一确定模块，直至所确定的所述第三镜头不满足所述预设条件，得到所述起始镜头对应的最终视频情节分段。

基于上述本发明实施例提供的一种视频情节分段方法及系统，该方法为：对待分段视频进行镜头分段，得到多个待处理镜头；提取每个待处理镜头的镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征；从多个待处理镜头中确定起始镜头；基于镜头表征特征，确定与起始镜头相同的待处理镜头并将其作为第一镜头，利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建初始视频情节分段；基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，得到起始镜头对应的最终视频情节分段。不需要以人工分段的方式对待分段视频进行情节分段，提高情节分段的效率和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种视频情节分段方法的流程图；

图2为本发明实施例提供的确定最终视频情节分段的流程图；

图3为本发明实施例提供的一种视频情节分段系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前通常采用人工判断的方式对视频进行情节分段。但是，由于视频的数量较多和人工进行情节分段容易出现纰漏，导致人工进行情节分段的效率较低和准确率较低。

因此，本发明实施例提供一种视频情节分段方法及系统，对待分段视频进行镜头分段，得到多个待处理镜头。提取每个待处理镜头的特征数据。从多个待处理镜头中确定起始镜头。基于镜头表征特征，确定与起始镜头相同的待处理镜头并将其作为第一镜头，利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建初始视频情节分段。基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，得到起始镜头对应的最终视频情节分段。不需要以人工分段的方式对待分段视频进行情节分段，以提高情节分段的效率和准确率。

需要说明的是，对于本发明实施例中所涉及的镜头和视频情节，镜头具体是指：同一台摄像机在同一时间段内捕获的一系列帧图像；视频情节具体是指：一系列描绘语义上有凝聚力的镜头的合集。

也就是说，镜头(或者说分镜)是由多帧图像组成，视频情节是由多个镜头组成，整个视频由多个视频情节组成。

参见图1，示出了本发明实施例提供的一种视频情节分段方法的流程图，该视频情节分段方法包括：

步骤S101：对待分段视频进行镜头分段，得到多个待处理镜头。

在具体实现步骤S101的过程中，获取待分段视频(例如电影和电视剧等视频)，对该待分段视频进行镜头分段，得到构成该待分段视频的多个待处理镜头。

在一些具体实施例中，可采用PySceneDetect(PySceneDetect是一个命令行工具和Python库，用于分析视频，查找场景更改或剪辑)对待分段视频进行镜头分段，从而得到构成该待分段视频的多个待处理镜头，同理，也可采用其它方式进行镜头分段，在此不做限定。

步骤S102：提取每个待处理镜头的镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征。

在具体实现步骤S102的过程中，抽取每个待处理镜头的指定帧位的图像，指定帧位的图像包含：起始帧图像、中间帧图像和终止帧图像。也就是说，对于每个待处理镜头，均抽取该待处理镜头的起始帧图像、中间帧图像和终止帧图像。

针对每个待处理镜头，对待处理镜头的指定帧位的图像进行人脸数量的检测，确定人脸数量最少的指定帧位的图像为第一图像，以及确定人脸数量最多的指定帧位的图像为第二图像。具体而言，对于每个待处理镜头，可利用mtcnn模型(用于人脸检测的模型，仅举例)对该待处理镜头的起始帧图像、中间帧图像和终止帧图像分别进行人脸检测，并确定得到起始帧图像、中间帧图像和终止帧图像对应的人脸数量，按照人脸数量对该待处理镜头的起始帧图像、中间帧图像和终止帧图像进行排序。确定人脸数量最少的指定帧位的图像(起始帧图像、中间帧图像或终止帧图像)为第一图像，以及确定人脸数量最多的指定帧位的图像为第二图像(起始帧图像、中间帧图像或终止帧图像)。

需要说明的是，对于每个待处理镜头，若该待处理镜头的起始帧图像、中间帧图像和终止帧图像的人脸数量一致，则优选将中间帧图像作为第一图像和第二图像。

针对每个待处理镜头，利用预先训练得到的人脸检测模型(如retinaface模型)从该待处理镜头的第二图像(人脸数量最多的指定帧位的图像)中提取人脸表征特征(也就是人脸embedding特征集)；利用预先训练得到的人体检测模型(例如其包含casecadercnn检测模型和resnet50特征提取器)从该待处理镜头的第二图像中提取人体表征特征(也就是人体embedding特征集)；利用预先训练得到的场景识别模型(例如places365 resnet50模型)从该待处理镜头的第一图像(人脸数量最少的指定帧位的图像)中提取场景表征特征(也就是场所embedding特征)；利用预先训练得到的镜头特征提取模型(如shotembeddingextractor模型)从该待处理镜头的中间帧图像中提取镜头表征特征(也就是镜头embedding特征)；利用预先训练得到的音频特征提取模型(如开源的panns_inference模型)从该待处理镜头中提取音频表征特征(也就是音频embedding特征)。

通过以上方式，即可提取得到每个待处理镜头的特征数据，该特征数据至少包含：镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征。

需要说明的是，上述提及的人脸检测模型、人体检测模型、场景识别模型、镜头特征提取模型和音频特征提取模型，可通过对应的样本数据训练神经网络模型得到。

在一些具体实施例中，基于样本数据训练神经网络模型得到镜头特征提取模型的过程为：获取样本视频(例如不同年代和不同类型的电影和电视剧)并对样本视频进行镜头分段，得到多个样本镜头；利用每个样本镜头中的L(正整数)帧图像，构建样本数据集；基于损失函数和样本数据集，训练神经网络模型直至神经网络模型收敛，得到镜头特征提取模型。例如：从电影数据集和电视剧数据集中，随机选择电影和电视剧作为样本视频。对样本视频进行镜头分段得到多个样本镜头，将每个样本镜头中的10(也就是L的取值)帧图像作为一组数据，根据多组数据构建样本数据集。基于样本数据集和cosineloss损失函数训练神经网络模型直至神经网络模型收敛，得到镜头特征提取模型。

步骤S103：从多个待处理镜头中确定起始镜头。

在具体实现步骤S103的过程中，若存在预设的用于指示起始镜头的指定信息，则根据该指定信息从多个待处理镜头中确定起始镜头，例如：假设指定信息指定中间镜头作为起始镜头，则将待处理视频的中间位置对应的待处理镜头作为起始镜头；若不存在该指定信息，则将待处理视频的第一个待处理镜头作为起始镜头。

步骤S104：基于镜头表征特征，确定与起始镜头相同的待处理镜头并将其作为第一镜头，利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建初始视频情节分段。

需要说明的是，在判断两个镜头是否为相同镜头时，可通过两个镜头的镜头表征特征来判断该两个镜头是否相同，具体而言，通过两个镜头的镜头表征特征计算余弦距离，若余弦距离大于距离阈值，则确定该两个镜头为相同分镜。例如：通过两个镜头的镜头表征特征计算余弦距离，若余弦距离大于0.95，确定该两个镜头为相同分镜。

在具体实现步骤S104的过程中，以起始镜头为开始，基于镜头表征特征，从与起始镜头左相邻的N个待处理镜头(也就是起始镜头之前的N个待处理镜头，N为整数，例如N为4)中，确定与起始镜头相同的待处理镜头并将其作为第一镜头；以及从与起始镜头右相邻的N个待处理镜头(也就是起始镜头之后的N个待处理镜头)中，确定与起始镜头相同的待处理镜头并将其作为第一镜头。也就是说，基于镜头表征特征，从与起始镜头左相邻和右相邻的总共2N个待处理镜头中，确定与起始镜头相同的第一镜头。判断起始镜头与待处理镜头是否相同的方式可参见上述内容，在此不再赘述。

利用起始镜头、第一镜头(与起始镜头相同的待处理镜头)、及起始镜头至第一镜头之间的待处理镜头，构建第一视频情节分段。也就是说，先构建一个为空集的第一视频情节分段中，在确定得到第一镜头后，将起始镜头和第一镜头添加至该第一视频情节分段中，以及将起始镜头到第一镜头之间的待处理镜头也添加至第一视频情节分段中，从而完成构建第一视频情节分段。需要说明的是，第一视频情节分段中不包含重复的待处理镜头，即不会重复将同一个待处理镜头添加到第一视频情节分段中。

可以理解的是，第一视频情节分段中仅包含部分待处理镜头(其中包括起始镜头)，因此，基于镜头表征特征，从不属于第一视频情节分段中的待处理镜头中确定能够添加至第一视频情节分段中的待处理镜头，相当于不断扩大第一视频情节分段的边界直到寻找不到能够添加至第一视频情节分段中的待处理镜头，此时将所有能够添加到第一视频情节分段的待处理镜头添加到该第一视频情节分段后，即可得到初始视频情节分段。

需要说明的是，在以下实施例中，第二镜头为第一视频情节分段中除起始镜头外的待处理镜头。

在一些具体实施例中，确定得到初始视频情节分段的具体方式为：重复执行以下步骤，直至将所有与第二镜头相同且不属于第一视频情节分段的待处理镜头添加至第一视频情节分段，得到初始视频情节分段；前述所提及的以下步骤为：针对每个第二镜头，基于镜头表征特征，从与第二镜头左相邻的N个待处理镜头以及与第二镜头右相邻的N个待处理镜头中，确定与第二镜头相同的待处理镜头并将其添加至第一视频情节分段。

也就是说，在利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建得到第一视频情节分段之后，对第一视频情节分段中的各个第二镜头均进行诸如“确定与起始镜头相同的待处理镜头”的计算，不断扩大第一视频情节分段的边界，直至寻找不到与第二镜头相同且不属于第一视频情节分段的的待处理镜头，最终即可得到初始视频情节分段。

步骤S105：基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，得到起始镜头对应的最终视频情节分段。

需要说明的是，确定得到初始视频情节分段之后，还未完成针对起始镜头的情节分段，需要从不属于初始视频情节分段的待处理镜头中寻找能够添加至初始视频情节分段的待处理镜头。

在具体实现步骤S105的过程中，基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头并将其添加至初始视频情节分段中，循环执行前述内容，直至将所有满足预设条件的待处理镜头添加至初始视频情节分段中(也就是直至寻找不到满足预设条件且不属于初始视频情节分段的待处理镜头)，将所有满足预设条件的待处理镜头添加至初始视频情节分段后即可得到起始镜头对应的最终视频情节分段。也就是在确定得到起始镜头对应的最终视频情节分段后，指示完成针对起始镜头的情节分段。

优选的，在确定的起始镜头对应的最终视频情节分段后，在某些应用场景下，如果还需要确定下一个情节分段，则再次从不属于前述确定得到的最终视频情节分段的待处理镜头中确定起始镜头，并利用上述步骤S101至步骤S105的内容确定得到新确定的起始镜头对应的最终视频情节分段。

在本发明实施例中，对待分段视频进行镜头分段，得到多个待处理镜头。提取每个待处理镜头的特征数据。从多个待处理镜头中确定起始镜头。基于镜头表征特征，确定与起始镜头相同的待处理镜头并将其作为第一镜头，利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建初始视频情节分段。基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，得到起始镜头对应的最终视频情节分段。不需要以人工分段的方式对待分段视频进行情节分段，提高情节分段的效率和准确率。

上述本发明实施例图1步骤S105中涉及的确定起始镜头对应的最终视频情节分段的过程，参见图2，示出了本发明实施例提供的确定最终视频情节分段的流程图，包括以下步骤：

步骤S201：从不属于初始视频情节分段的待处理镜头中，确定与初始视频情节分段的边界相邻的第一个待处理镜头并将其作为第三镜头。

在具体实现步骤S201的过程中，从不属于初始视频情节分段的待处理镜头中，确定与初始视频情节分段的边界相邻的第一个待处理镜头并将其作为第三镜头。

可以理解的是，初始视频情节分段存在左边界和右边界，因此从不属于初始视频情节分段的待处理镜头中，将与初始视频情节分段的左边界相邻的第一个待处理镜头(没有则可不获取)并将其作为第三镜头，以及将与初始视频情节分段的右边界相邻的第一个待处理镜头(没有则可不获取)并将其作为第三镜头。

也就是说，将初始视频情节分段的左边界的前一个待处理镜头作为第三镜头，以及将初始视频情节分段的右边界的后一个待处理镜头作为第三镜头。

步骤S202：从初始视频情节分段中确定与第三镜头最近的M个第四镜头。

需要说明的是，第四镜头为初始视频情节分段中的待处理镜头。

在具体实现步骤S202的过程中，对于所确定的每个第三镜头，从初始视频情节分段中确定与该第三镜头最近的M个第四镜头。例如：从初始视频情节分段中确定与该第三镜头相邻且最近的4(M为4)个第四镜头。

步骤S203：基于第三镜头和M个第四镜头对应的人脸表征特征、人体表征特征、场景表征特征和音频表征特征，若确定第三镜头满足预设条件，将第三镜头添加至初始视频情节分段，返回执行步骤S201，直至所确定的第三镜头不满足预设条件，得到起始镜头对应的最终视频情节分段。

在具体实现步骤S203的过程中，对于每个第三镜头，基于该第三镜头和与其相邻且最近的M个第四镜头对应的人脸表征特征、人体表征特征、场景表征特征和音频表征特征，判断该第三镜头是否满足预设条件；若该第三镜头满足预设条件则将其添加至初始视频情节分段。对本轮所确定的第三镜头进行前述判断后，返回执行步骤S201再次确定新的第三镜头，并执行步骤S202至步骤S203的内容，直至所确定的第三镜头不满足预设条件，从而最终得到起始镜头对应的最终视频情节分段。需要说明的是，不满足预设条件的第三镜头即为情节分段的分界。

在一些具体实施例中，判断第三镜头是否满足预设条件的具体实现方式详见以下说明：

分别比对第三镜头和M个第四镜头之间的人脸表征特征以及人体表征特征，得到第一比对结果，该第一比对结果可以指示第三镜头和第四镜头之间是否存在相同人物。

当第一比对结果指示第三镜头与M个第四镜头中任一第四镜头之间存在相同人物，比对第三镜头和M个第四镜头之间的场景表征特征，得到第二比对结果，该第二比对结果可以指示第三镜头和第四镜头之间是否存在相同场景；当第二比对结果指示第三镜头与M个第四镜头中任一第四镜头之间存在相同场景，确定第三镜头满足预设条件。也就是说，如果第三镜头和M个第四镜头中任一第四镜头之间存在相同人物和相同场景，则可确定第三镜头满足预设条件，此时可将第三镜头添加至初始视频情节分段。

当第一比对结果指示第三镜头与M个第四镜头之间均不存在相同人物，或者，当第二比对结果指示第三镜头与M个第四镜头之间均不存在相同场景，基于第三镜头的音频表征特征，判断第三镜头的内容是否指示背景音乐延续或人物对话延续。需要说明的是，音频表征特征可用于表示背景音乐(或人物对话)持续的时间跨度，因此可通过第三镜头的音频表征特征，判断第三镜头的内容是否指示背景音乐延续或人物对话延续，即判断第三镜头是否和与其相邻的M个第四镜头属于同一背景音乐段(或人物对话段)内。

若第三镜头的内容指示非背景音乐延续和非人物对话延续，也就是第三镜头和与其相邻的M个第四镜头不属于同一背景音乐段和同一人物对话段内，此时确定第三镜头不满足预设条件，即不满足预设条件的第三镜头为情节分段的分界。

若第三镜头的内容指示背景音乐延续或人物对话延续，计算第三镜头中的最大人脸屏占比(最大的人脸屏占比)，最大人脸屏占比可用于确定第三镜头是否为人物特写镜头。

需要说明的是，人脸屏占比为人脸面积与帧面积的比例，具体而言，人脸屏占比＝face_area/frame_area，其中，face_area为人脸面积，frame_area为帧面积。人脸面积face_area＝face_width*face_height，帧面积frame_area＝frame_width*frame_height。face_width为人脸宽度，face_height为人脸高度，frame_width为帧宽度，frame_height为帧高度。

当第三镜头的最大人脸屏占比大于屏占比阈值，确定第三镜头满足预设条件，此时可将第三镜头添加至初始视频情节分段。例如：当第三镜头的最大人脸屏占比大于0.02，此时可确定第三镜头为人物特写镜头，确定第三镜头满足预设条件，此时可将第三镜头添加至初始视频情节分段。

当最大人脸屏占比小于或等于屏占比阈值，确定第三镜头不满足预设条件，即不满足预设条件的第三镜头为情节分段的分界。

在本发明实施例中，构建得到初始视频情节后，从不属于初始视频情节分段的所述待处理镜头中确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，最终得到起始镜头对应的最终视频情节分段。不需要以人工分段的方式对待分段视频进行情节分段，提高情节分段的效率和准确率。

与上述本发明实施例提供的一种视频情节分段方法相对应，参见图3，本发明实施例还提供了一种视频情节分段系统的结构框图，该视频情节分段系统包括：分段单元301、提取单元302、确定单元303、第一处理单元304和第二处理单元305；

分段单元301，用于对待分段视频进行镜头分段，得到多个待处理镜头。

提取单元302，用于提取每个待处理镜头的镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征。

确定单元303，用于从多个待处理镜头中确定起始镜头。

第一处理单元304，用于基于镜头表征特征，确定与起始镜头相同的待处理镜头并将其作为第一镜头，利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建初始视频情节分段。

第二处理单元305，用于基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，得到起始镜头对应的最终视频情节分段。

优选的，结合图3示出的内容，提取单元302包括：抽取模块、检测模块和提取模块，各个模块的执行原理为：

抽取模块，用于抽取每个待处理镜头的指定帧位的图像，指定帧位的图像包含：起始帧图像、中间帧图像和终止帧图像。

检测模块，用于针对每个待处理镜头，对待处理镜头的指定帧位的图像进行人脸数量的检测，确定人脸数量最少的指定帧位的图像为第一图像，以及确定人脸数量最多的指定帧位的图像为第二图像。

提取模块，用于针对每个待处理镜头，利用预先训练得到的人脸检测模型从待处理镜头的第二图像中提取人脸表征特征，及利用预先训练得到的人体检测模型从待处理镜头的第二图像中提取人体表征特征，及利用预先训练得到的场景识别模型从待处理镜头的第一图像中提取场景表征特征，及利用预先训练得到的镜头特征提取模型从待处理镜头的中间帧图像中提取镜头表征特征，及利用预先训练得到的音频特征提取模型从待处理镜头中提取音频表征特征。

其中，人脸检测模型、人体检测模型、场景识别模型、镜头特征提取模型和音频特征提取模型分别为基于对应的样本数据训练神经网络模型得到。

在具体实现中，用于基于样本数据训练神经网络模型得到镜头特征提取模型的提取模块，具体用于：获取样本视频并对样本视频进行镜头分段，得到多个样本镜头；利用每个样本镜头中的L帧图像，构建样本数据集；基于损失函数和样本数据集，训练神经网络模型直至神经网络模型收敛，得到镜头特征提取模型。

优选的，结合图3示出的内容，第一处理单元包括：确定模块、构建模块和处理模块，各个模块的执行原理为：

确定模块，用于基于所述镜头表征特征，从与起始镜头左相邻的N个待处理镜头以及与起始镜头右相邻的N个待处理镜头中，确定与起始镜头相同的第一镜头。

构建模块，用于利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建第一视频情节分段。

处理模块，用于重复执行以下步骤，直至将所有与第二镜头相同且不属于第一视频情节分段的待处理镜头添加至第一视频情节分段，得到初始视频情节分段，第二镜头为第一视频情节分段中除起始镜头外的待处理镜头；

以下步骤包括：

针对每个第二镜头，基于镜头表征特征，从与第二镜头左相邻的N个待处理镜头以及与第二镜头右相邻的N个待处理镜头中，确定与第二镜头相同的待处理镜头并将其添加至第一视频情节分段。

优选的，结合图3示出的内容，第二处理单元包括：第一确定模块、第二确定模块和处理模块，各个模块的执行原理如下：

第一确定模块，用于从不属于初始视频情节分段的待处理镜头中，确定与初始视频情节分段的边界相邻的第一个待处理镜头并将其作为第三镜头。

第二确定模块，用于从初始视频情节分段中确定与第三镜头最近的M个第四镜头，第四镜头为初始视频情节分段中的待处理镜头。

处理模块，用于基于第三镜头和M个第四镜头对应的人脸表征特征、人体表征特征、场景表征特征和音频表征特征，若确定第三镜头满足预设条件，将第三镜头添加至初始视频情节分段，返回执行第一确定模块，直至所确定的第三镜头不满足预设条件，得到起始镜头对应的最终视频情节分段。

在具体实现中，处理模块具体用于：分别比对第三镜头和M个第四镜头之间的人脸表征特征以及人体表征特征，得到第一比对结果；当第一比对结果指示第三镜头与M个第四镜头中任一第四镜头之间存在相同人物，比对第三镜头和M个第四镜头之间的场景表征特征，得到第二比对结果；当第二比对结果指示第三镜头与M个第四镜头中任一第四镜头之间存在相同场景，确定第三镜头满足预设条件；当第一比对结果指示第三镜头与M个第四镜头之间均不存在相同人物，或者，当第二比对结果指示第三镜头与M个第四镜头之间均不存在相同场景，基于第三镜头的音频表征特征，判断第三镜头的内容是否指示背景音乐延续或人物对话延续；若第三镜头的内容指示非背景音乐延续和非人物对话延续，确定第三镜头不满足预设条件；若第三镜头的内容指示背景音乐延续或人物对话延续，计算第三镜头中的最大人脸屏占比；当最大人脸屏占比大于屏占比阈值，确定第三镜头满足预设条件；当最大人脸屏占比小于或等于屏占比阈值，确定第三镜头不满足预设条件。

综上所述，本发明实施例提供一种视频情节分段方法及系统，对待分段视频进行镜头分段，得到多个待处理镜头。提取每个待处理镜头的特征数据。从多个待处理镜头中确定起始镜头。基于镜头表征特征，确定与起始镜头相同的待处理镜头并将其作为第一镜头，利用起始镜头、第一镜头、及起始镜头至第一镜头之间的待处理镜头，构建初始视频情节分段。基于人脸表征特征、人体表征特征、场景表征特征和音频表征特征，从不属于初始视频情节分段的待处理镜头中，确定满足预设条件的待处理镜头，并将所有满足预设条件的待处理镜头添加至初始视频情节分段中，得到起始镜头对应的最终视频情节分段。不需要以人工分段的方式对待分段视频进行情节分段，提高情节分段的效率和准确率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频情节分段方法，其特征在于，所述方法包括：

对待分段视频进行镜头分段，得到多个待处理镜头；

从多个所述待处理镜头中确定起始镜头；

2.根据权利要求1所述的方法，其特征在于，所述提取每个所述待处理镜头的镜头表征特征、人脸表征特征、人体表征特征、场景表征特征和音频表征特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述镜头表征特征，确定与所述起始镜头相同的所述待处理镜头并将其作为第一镜头，利用所述起始镜头、所述第一镜头、及所述起始镜头至所述第一镜头之间的所述待处理镜头，构建初始视频情节分段，包括：

所述以下步骤包括：

4.根据权利要求1所述的方法，其特征在于，基于所述人脸表征特征、所述人体表征特征、所述场景表征特征和所述音频表征特征，从不属于所述初始视频情节分段的所述待处理镜头中，确定满足预设条件的所述待处理镜头，并将所有满足所述预设条件的所述待处理镜头添加至所述初始视频情节分段中，得到所述起始镜头对应的最终视频情节分段，包括：

5.根据权利要求4所述的方法，其特征在于，确定所述第三镜头满足预设条件的过程，包括：

6.根据权利要求2所述的方法，其特征在于，基于样本数据训练神经网络模型得到所述镜头特征提取模型的过程，包括：

利用每个所述样本镜头中的L帧图像，构建样本数据集；

7.一种视频情节分段系统，其特征在于，所述系统包括：

确定单元，用于从多个所述待处理镜头中确定起始镜头；

8.根据权利要求7所述的系统，其特征在于，所述提取单元包括：

9.根据权利要求7所述的系统，其特征在于，所述第一处理单元包括：

所述以下步骤包括：

10.根据权利要求7所述的系统，其特征在于，所述第二处理单元包括：