CN114758274A

CN114758274A - 一种空镜素材识别方法、装置、终端及存储介质

Info

Publication number: CN114758274A
Application number: CN202210356702.8A
Authority: CN
Inventors: 李冠楠
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-15

Abstract

本发明实施例提供了一种空镜素材识别方法、装置、终端及存储介质，其中，方法包括：从目标视频文件中提取待识别的目标帧图像；将目标帧图像输入训练好的空镜识别模型，并获取空镜识别模型对目标帧图像处理得到的空镜识别结果；其中，空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，目标帧图像经卷积神经网络层处理后分别输入各个分类器，根据至少两个不同功能的分类器的识别结果，得到空镜识别结果；当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中；可以实现自动提取出目标视频文件中的空镜素材，并将提取出的空镜素材保存到预设存储路径中，从而克服了相关技术中空镜素材收集困难的问题。

Description

一种空镜素材识别方法、装置、终端及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种空镜素材识别方法、装置、终端及存储介质。

背景技术

空镜素材，是指非人物主体的建筑、风景类型的特效画面，是影视创作中辅助故事情节阐述、抒发感情的重要手段。因此，空镜素材也是用户创作及导演预演必需的参考素材之一。

相关技术中，对于空镜素材的收集一种是通过用户拍摄得到的，对用户拍摄水平要求较高，并且局限于用户真实到过的地方，导致收集得到的空镜素材存在很大的局限性；另一种是在用户观看视频的过程中，当看到视频中的空镜镜头时，可以通过手动截图或截屏的方式来得到空镜素材，操作过程中需要卡准截图或截屏的时间，比较困难，若时间点没有卡准，则容易导致得到的空镜素材不完整或有杂质，并且局限于用户观看过的视频。

发明内容

本发明提供一种空镜素材识别方法、装置、终端及计算机可读存储介质，以便在一定程度上解决现有技术中空镜素材收集困难的问题。

依据本发明的第一方面，提供了一种空镜素材识别方法，所述方法包括：

从目标视频文件中提取待识别的目标帧图像；

将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果；其中，所述空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，所述目标帧图像经所述卷积神经网络层处理后分别输入各个分类器，根据所述至少两个不同功能的分类器的识别结果，得到所述空镜识别结果；

当所述空镜识别结果为空镜图像时，则将所述目标帧图像保存到预设存储路径中。

可选地，所述空镜识别模型包括场景分类器和纯净度分类器；所述场景分类器用于识别图像中包含的场景的类别；所述纯净度分类器用于识别图像是否为空镜图像；所述将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果，包括：

将所述卷积神经网络层对所述目标帧图像处理得到的隐含空间特征，输入到所述场景分类器进行处理，以确定所述目标帧图像对应的场景类别；

当所述场景类别符合预设场景类别时，将所述隐含空间特征输入所述纯净度分类器，并获取所述纯净度分类器对所述隐含空间特征处理得到的空镜识别结果。

可选地，所述空镜识别模型包括地标分类器和纯净度分类器；所述地标分类器用于识别地标类型的图像；所述纯净度分类器用于识别图像是否为空镜图像；所述将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果，包括：

将所述卷积神经网络层对所述目标帧图像处理得到的隐含空间特征，输入到所述地标分类器进行处理，以判断所述目标帧图像是否为地标类型的图像；

当所述目标帧图像为地标类型的图像时，将所述隐含空间特征输入所述纯净度分类器，并获取所述纯净度分类器对所述隐含空间特征处理得到的空镜识别结果。

可选地，所述空镜识别模型包括地标分类器、场景分类器以及纯净度分类器；所述地标分类器用于识别地标类型的图像；所述场景分类器用于识别图像中包含的场景的类别；所述纯净度分类器用于识别图像是否为空镜图像；所述将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果，包括：

当所述目标帧图像为地标类型的图像时，将所述隐含空间特征输入至所述场景分类器，由所述场景分类器对所述隐含空间特征进行处理，以确定所述目标帧图像对应的场景类别；

可选地，在所述当所述空镜识别结果为空镜图像时，则将所述目标帧图像保存到预设存储路径中之后，还包括：

从所述预设存储路径中获取与所述关键帧对应的目标镜头下的所有空镜图像；

当所述目标镜头下的所有空镜图像在所述目标镜头对应的所有帧图像中的比例大于预设值时，将所述目标镜头下的所有帧图像作为空镜图像保存到所述预设存储路径中。

可选地，所述空镜识别结果中还包括场景类别；所述当所述空镜识别结果为空镜图像时，则将所述目标帧图像保存到预设存储路径中，还包括：

根据所述目标帧图像对应的场景类别，将所述目标帧图像保存到所述预设存储路径中、与所述场景类别对应的子路径中。

可选地，所述从目标视频文件中提取待识别的目标帧图像，包括：

按照目标间隔，从目标视频文件中提取目标帧图像；或者，

从目标视频文件所包含的镜头中提取与所述镜头对应的目标帧图像。

依据本发明的第二方面，提供了一种空镜素材识别装置，所述装置包括：

图像提取模块，用于从目标视频文件中提取待识别的目标帧图像；

空镜识别模块，用于将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果；其中，所述空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，所述目标帧图像经所述卷积神经网络层处理后分别输入各个分类器，根据所述至少两个不同功能的分类器的识别结果，得到所述空镜识别结果；

空镜保存模块，用于当所述空镜识别结果为空镜图像时，则将所述目标帧图像保存到预设存储路径中。

可选地，所述空镜识别模型包括场景分类器和纯净度分类器；所述场景分类器用于识别图像中包含的场景的类别；所述纯净度分类器用于识别图像是否为空镜图像；所述空镜识别模块，包括：

场景分类器处理模块，用于将所述卷积神经网络层对所述目标帧图像处理得到的隐含空间特征，输入到所述场景分类器进行处理，以确定所述目标帧图像对应的场景类别；

基于场景分类器处理结果识别模块，用于当所述场景类别符合预设场景类别时，将所述隐含空间特征输入所述纯净度分类器，并获取所述纯净度分类器对所述隐含空间特征处理得到的空镜识别结果。

可选地，所述空镜识别模型包括地标分类器和纯净度分类器；所述地标分类器用于识别地标类型的图像；所述纯净度分类器用于识别图像是否为空镜图像；所述空镜识别模块，包括：

地标分类器处理模块，用于将所述卷积神经网络层对所述目标帧图像处理得到的隐含空间特征，输入到所述地标分类器进行处理，以判断所述目标帧图像是否为地标类型的图像；

基于地标分类器处理结果识别模块，用于当所述目标帧图像为地标类型的图像时，将所述隐含空间特征输入所述纯净度分类器，并获取所述纯净度分类器对所述隐含空间特征处理得到的空镜识别结果。

可选地，所述空镜识别模型包括地标分类器、场景分类器以及纯净度分类器；所述地标分类器用于识别地标类型的图像；所述场景分类器用于识别图像中包含的场景的类别；所述纯净度分类器用于识别图像是否为空镜图像；所述空镜识别模块，包括：

基于地标结果的场景分类器处理模块，用于当所述目标帧图像为地标类型的图像时，将所述隐含空间特征输入至所述场景分类器，由所述场景分类器对所述隐含空间特征进行处理，以确定所述目标帧图像对应的场景类别；

纯净度分类器处理模块，用于当所述场景类别符合预设场景类别时，将所述隐含空间特征输入所述纯净度分类器，并获取所述纯净度分类器对所述隐含空间特征处理得到的空镜识别结果。

可选地，所述空镜保存模块，还包括：

目标镜头的空镜获取模块，用于从所述预设存储路径中获取与所述关键帧对应的目标镜头下的所有空镜图像；

目标镜头的空镜保持模块，用于当所述目标镜头下的所有空镜图像在所述目标镜头对应的所有帧图像中的比例大于预设值时，将所述目标镜头下的所有帧图像作为空镜图像保存到所述预设存储路径中。

可选地，所述空镜识别结果中还包括场景类别；所述空镜保存模块，还用于根据所述目标帧图像对应的场景类别，将所述目标帧图像保存到所述预设存储路径中、与所述场景类别对应的子路径中。

可选地，所述图像提取模块，用于按照目标间隔，从目标视频文件中提取目标帧图像；或者，从目标视频文件所包含的镜头中提取与所述镜头对应的目标帧图像。

依据本发明的第三方面，提供了一种终端，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一所述的空镜素材识别方法。

依据本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述任一所述的空镜素材识别方法。

与背景技术相比，本发明实施例包括以下优点：

本发明实施例，通过从目标视频文件中提取待识别的目标帧图像；将所述目标帧图像输入训练好的空镜识别模型，该空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器；目标帧图像经卷积神经网络层处理后分别输入各个分类器，根据至少两个不同功能的分类器的识别结果，得到空镜识别结果；获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果；当所述空镜识别结果为空镜图像时，则将所述目标帧图像保存到预设存储路径中；可以实现自动提取出目标视频文件中的空镜素材，并将提取出的空镜素材保存到预设存储路径中，从而克服了相关技术中空镜素材收集困难的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种空镜素材识别方法的步骤流程示意图；

图2是本发明实施例中的一种示例性的空镜素材识别方法对应的模型结构示意图；

图3是本发明实施例提供的一种空镜素材识别装置的示意性结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

针对相关技术中的空镜素材收集困难的问题，本发明实施例提供了一种空镜素材识别方法，该方法通过从目标视频文件中提取待识别的目标帧图像；将目标帧图像输入训练好的空镜识别模型，该空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，目标帧图像经卷积神经网络层处理后分别输入各个分类器，根据至少两个不同功能的分类器的识别结果，得到空镜识别结果；并获取空镜识别模型对目标帧图像处理得到的空镜识别结果；当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中；可以实现自动提取出目标视频文件中的空镜素材，并将提取出的空镜素材保存到预设存储路径中，从而克服了相关技术中空镜素材收集困难的问题。

图1是本发明实施例提供的一种示例性的空镜素材识别方法的流程图。该方法可以应用于电子设备中，以实现准确识别出待识别的目标视频文件中的画面为空镜的视频帧和视频片段。其中，电子设备可以是硬件，也可以是软件。当电子设备为硬件时，可以实现成多个服务器或终端设备组成的集群，也可以实现单个服务器或单个终端设备。当电子设备是软件时，可以安装在上述列举的硬件设备中。如图1所示，本实施例提供的空镜素材识别方法，可以包括如下步骤：

步骤101，从目标视频文件中提取待识别的目标帧图像。

其中，目标视频文件可以认为是待提取空镜素材的视频，目标视频文件可以是电视剧、电影、纪录片等类型的视频文件。具体地，目标视频文件可以由用户指定，当然也可以是正在播放的视频文件。待识别的目标帧图像是指待进行识别是否是空镜素材的图像。

从目标视频文件中提取待识别的目标帧图像的过程可以包括：采用等间隔抽取、镜头关键帧抽取等方式，对目标视频文件的关键帧进行提取，得到目标帧图像，不做具体限制。

步骤102，将目标帧图像输入训练好的空镜识别模型，并获取空镜识别模型对目标帧图像处理得到的空镜识别结果；其中，空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器；目标帧图像经卷积神经网络层处理后分别输入各个分类器，根据至少两个不同功能的分类器的识别结果，得到空镜识别结果。

空镜识别模型用于识别图像是否为空镜素材，即识别图像中的画面是否为空镜。示例性地，空镜识别模型可以是卷积神经网络(CNN)模型，可以采用多种典型的图像分类骨干网络，比如alexnet、vgg、resnet、regnet、transformer等，不做具体限制。

通过将待识别的目标帧图像输入到空镜识别模型中，由空镜识别模型对输入的目标帧图像进行处理，以输出对应的空镜识别结果，可以实现自动、高效、准确地识别出空镜图像。

其中，空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，通过卷积神经网络层对目标帧图像进行特征提取后，由多个不同功能的分类器从多方面对图像进行识别，可以提高识别结果的准确性，并且可以降低对分类器泛化性能的要求，进而可以降低空镜识别模型的训练难度。

步骤103，当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中。

在本实施例中，当空镜识别结果为空镜图像时，即待识别的目标帧图像中的画面是空镜，则将该目标帧图像保存到预设存储路径中，从而实现自动收集目标视频文件中的空镜素材，以便用户在需要时调取使用。

本发明实施例通过从目标视频文件中提取待识别的目标帧图像；将目标帧图像输入训练好的空镜识别模型，并获取空镜识别模型对目标帧图像处理得到的空镜识别结果；其中，空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，目标帧图像经所述卷积神经网络层处理后分别输入各个分类器，根据至少两个不同功能的分类器的识别结果，得到空镜识别结果；当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中；可以实现自动提取出目标视频文件中的空镜素材，并将提取出的空镜素材保存到预设存储路径中，同时，通过包含卷积神经网络层和至少两个不同功能的分类器的空镜识别模型，可以有效提高空镜识别的效率和准确率，同时可以降低空镜识别模型的训练难度。

下面，将对本示例性实施例中空镜素材识别方法作进一步地说明。

在步骤101中，从目标视频文件中提取待识别的目标帧图像。

其中，目标视频文件可以认为是待提取空镜素材的视频，目标视频文件可以是电视剧、电影、纪录片等类型的视频。具体地，目标视频文件可以由用户指定，当然也可以是正在播放的视频。待识别的目标帧图像是指待进行识别是否是空镜素材的图像。示例性地，可以采用等间隔抽取、镜头关键帧抽取等方式，对目标视频文件的关键帧进行提取，得到目标帧图像。

示例性地，可以向用户展示待识别的视频输入界面，由用户选择需要收集空镜素材的目标视频文件，并输入到视频输入界面中，目标视频文件可以是一个也可以是多个，当目标视频文件为多个时，可以通过单线程方式依次对每个目标视频文件进行空镜素材识别，也可以通过多线程方式同时对多个目标视频文件进行空镜素材识别，每个目标视频文件进行空镜素材识别的过程可以认为是相同，下面将以一个目标视频文件为例进行示例性描述。

在一示例中，上述从目标视频文件中提取待识别的目标帧图像的过程，可以包括：

按照目标间隔，从目标视频文件中提取目标帧图像。

在本示例中，可以按照目标间隔，从目标视频文件中提取出目标帧图像，每提取出一个视频帧，即将该视频帧作为当前待识别的目标帧图像，并进行后续识别该目标帧图像是否为空镜图像的过程。其中，目标间隔可以是目标时间间隔，例如，每隔n秒从目标视频文件中提取一个视频帧作为当前待识别的目标帧图像，其中，n可以根据实际需要进行设置或修改；另外，目标间隔也可以是目标数量视频帧间隔，即每隔m个视频帧提取一个视频帧作为当前待识别的目标帧图像，其中，m可以根据实际需要进行设置或修改。

在另一示例中，上述从目标视频文件中提取待识别的目标帧图像的过程，可以包括：

从目标视频文件所包含的镜头中提取与镜头对应的目标帧图像。

在本示例中，目标视频文件可以包括多个镜头，其中，同一个镜头内的视频帧中，相邻视频帧的相似度可以大于或者等于第一阈值。具体地，通过镜头检测技术可以确定目标视频文件包含的镜头，并且确定每个镜头对应的视频帧。对于每个镜头，都可以提取一个或多个视频帧作为待识别的目标帧图像，每提取出一个视频帧，即将该视频帧作为当前待识别的目标帧图像，并进行后续识别该目标帧图像是否为空镜图像的过程。

对于每个镜头，从目标视频文件中提取与该镜头对应的目标帧图像的具体过程，可以按照目标间隔，从该镜头对应的视频片段中提取出目标帧图像，而按照目标间隔提取目标帧图像的过程可以参见前文的描述，此处不再赘述。还可以结合相邻视频帧的相似度，从该镜头对应的视频片段中提取出目标帧图像；示例性地，当相邻视频帧的相似度小于预设相似度阈值时，则可以提取该两个相邻视频帧同时作为待识别的目标帧图像。

在步骤102中，将目标帧图像输入训练好的空镜识别模型，并获取空镜识别模型对目标帧图像处理得到的空镜识别结果；空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器。

空镜识别模型用于识别图像是否为空镜素材，即识别图像中的画面是否为空镜。通过将待识别的目标帧图像输入到空镜识别模型中，由空镜识别模型对输入的目标帧图像进行处理，以输出对应的空镜识别结果，可以实现自动、高效、准确地识别出空镜图像。

本实施例中的空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，通过多个不同功能的分类器从多方面对图像进行识别，可以提高识别结果的准确性，并且可以降低对分类器泛化性能的要求，进而可以降低空镜识别模型的训练难度。

在本发明一些可选实施例中，上述空镜识别模型包括场景分类器和纯净度分类器，也就是说，本实施例中的空镜识别模型包括卷积神经网络层和场景分类器以及纯净度分类器，卷积神经网络层对目标帧图像进行处理可以得到隐含空间特征，纯净度分类器用于识别图像是否为空镜图像，具体地，纯净度分类器用于识别具有一定画面完整性的空镜素材，可以理解，空镜素材除了要求不包含人物，一般还是中-远景视角的画面；本实施例中，纯净度分类器是使用第一训练样本对初始纯净度分类器训练得到的，第一训练样本是标注出空镜标签的空镜图像。场景分类器用于识别图像中包含的场景的类别，可以使用第二训练样本对初始场景分类器训练得到，第二训练样本是标注出场景类别的图像。

其中，纯净度分类器可以采用支持向量机(SVM)或全连接层进行实现。在具体实现中，可以先通过一个卷积神经网络层对第一训练样本中的图像进行特征提取，得到对应的隐含空间特征。然后将隐含空间特征作为初始纯净度分类器(即待训练的纯净度分类器)的输入数据，并使用空镜标签作为初始纯净度分类器输出的目标值，以对初始纯净度分类器的参数进行训练，得到训练后的纯净度分类器。

场景分类器可以采用全连接层进行实现。示例性地，场景分类器可以是第二训练样本对初始场景分类器训练得到的，第二训练样本是标注出场景类别的图像，并使用交叉熵或加性角度间隔作为度量函数，采用梯度后向传播对卷积神经网络模型的参数进行学习。具体地，可以先通过一个卷积神经网络层对第二训练样本中的图像进行特征提取，得到对应的隐含空间特征。然后将隐含空间特征作为初始场景分类器(即待训练的场景分类器)的输入数据，将场景类型标签作为初始场景分类器输出的目标值，以对初始场景分类器的参数进行训练，得到训练后的场景分类器。

本实施例中，场景分类器和纯净度分类器的输入均是卷积神经网络层对目标帧图像处理，得到的隐含空间特征；因此，空镜识别模型中的底层模型结构和参数可以在场景分类器和纯净度分类器中共享，以降低空镜识别模型的训练难度，同时，可以提高空镜识别模型的识别效果。

上述将目标帧图像输入训练好的空镜识别模型，并获取空镜识别模型对目标帧图像处理得到的空镜识别结果，包括：

将卷积神经网络层对目标帧图像处理得到的隐含空间特征，输入到场景分类器进行处理，以确定目标帧图像对应的场景类别；

当场景类别符合预设场景类别时，将隐含空间特征输入纯净度分类器，并获取纯净度分类器对隐含空间特征处理得到的空镜识别结果。

本实施例中，先通过卷积神经网络对目标帧图像进行处理，得到隐含空间特征，然后，通过场景分类器对隐含空间特征进行处理，以确定目标帧图像对应的场景类别，当目标帧图像对应的场景类别符合预设场景类别时，再通过纯净度分类器对隐含空间特征进行处理，由纯净度分类器输出空镜识别结果。此时，空镜识别结果中还可以包括目标帧图像的场景类别信息。

示例性地，预设场景类别可以是建筑类别和/或风景类别；其中，建筑类别可以包括城市航拍、建筑外景、桥梁、传统中式建筑、西式教堂、广场雕塑等，风景类别可以包括海洋、沙滩、山川、峡谷、竹林、沙漠等。可以理解，预设场景类别对应的图像一般是空镜图像。例如，当场景类别为人物肖像类别时，显然与预设场景类别不符，可以直接确定该人物肖像类别的图像为非空镜图像。

本实施例结合场景类别对目标帧图像进行空镜识别，可以对待识别的目标帧图像进行多一层的过滤，尽早地将一部分非空镜类型的目标帧图像排除，再结合纯净度分类器具有识别图像画面完整性的特征，对场景分类器识别出的符合预设场景类别的图像进行进一步识别过滤，可以提高空镜识别的效率和准确率。具体地，通过空镜识别模型的卷积神经网络层对目标帧图像进行处理，得到的隐含空间特征输入至场景分类器进行处理，由场景分类器输出的场景类别来确定是否需要将隐含空间特征输入纯净度分类器进行处理，以输出空镜识别结果。

在本发明一些可选实施例中，上述空镜识别模型包括地标分类器和纯净度分类器，也就是说，本实施例中的空镜识别模型包括卷积神经网络层和地标分类器以及纯净度分类器，卷积神经网络层对目标帧图像进行处理可以得到隐含空间特征，纯净度分类器用于识别图像是否为空镜图像，具体可以参见前文描述。

地标分类器用于识别地标类型的图像，地标分类器可以采用全连接层进行实现。示例性地，地标分类器可以是第三训练样本对初始地标分类器训练得到的，第三训练样本是标注出地标类别的图像，并使用交叉熵或加性角度间隔作为度量函数，采用梯度后向传播对卷积神经网络模型的参数进行学习。其中，地标类型的图像可以是指具有一定画面区分度/场景辨识度的图像，包括但不限于包含标志性区域或地点，建筑及自然风光的图像。具体地，可以先通过一个卷积神经网络层对第三训练样本中的图像进行特征提取，得到对应的隐含空间特征。然后将隐含空间特征作为初始地标分类器(即待训练的地标分类器)的输入数据，将地标类型标签作为初始地标分类器输出的目标值，以对初始地标分类器的参数进行训练，得到训练后的地标分类器。

本实施例中，地标分类器和纯净度分类器的输入均是卷积神经网络层对目标帧图像处理，得到的隐含空间特征；因此，空镜识别模型中的底层模型结构和参数可以在地标分类器和纯净度分类器中共享，以降低空镜识别模型的训练难度，同时，可以提高空镜识别模型的识别效果。

将卷积神经网络层对目标帧图像处理得到的隐含空间特征，输入到地标分类器进行处理，以判断目标帧图像是否为地标类型的图像；

当目标帧图像为地标类型的图像时，将隐含空间特征输入纯净度分类器，并获取纯净度分类器对隐含空间特征处理得到的空镜识别结果。

本实施例中，先通过卷积神经网络对目标帧图像进行处理，得到隐含空间特征，然后，通过地标分类器对隐含空间特征进行处理，以确定目标帧图像是否为地标类型的图像，当目标帧图像是地标类型的图像时，再通过纯净度分类器对隐含空间特征进行处理，由纯净度分类器输出空镜识别结果。

本实施例结合地标类型对目标帧图像进行空镜识别，可以对待识别的目标帧图像进行多一层的过滤，尽早地将一部分非空镜类型的目标帧图像排除，再结合纯净度分类器具有识别图像画面完整性的特征，对地标分类器识别出的地标类型的图像进行进一步识别过滤，以提高空镜识别的效率和准确率。具体地，通过空镜识别模型的卷积神经网络层对目标帧图像进行处理，得到的隐含空间特征输入至地标分类器进行处理，由地标分类器输出的地标类型判断结果来确定是否需要将隐含空间特征输入纯净度分类器进行处理，以输出空镜识别结果。

在本发明一些可选实施例中，上述空镜识别模型包括地标分类器、场景分类器以及纯净度分类器，也就是说，本实施例中的空镜识别模型包括卷积神经网络层、地标分类器、纯净度分类器和场景分类器。其中，地标分类器、场景分类器以及纯净度分类器的相关说明可以参见前文的描述。

本实施例中，地标分类器、场景分类器以及纯净度分类器的输入均是卷积神经网络层对目标帧图像处理，得到的隐含空间特征；因此，空镜识别模型中的底层模型结构和参数可以在地标分类器、场景分类器以及纯净度分类器中共享，以降低空镜识别模型的训练难度，同时，可以提高空镜识别模型的识别效果。

当目标帧图像为地标类型的图像时，将隐含空间特征输入至场景分类器，由场景分类器对隐含空间特征进行处理，以确定目标帧图像对应的场景类别；

在本实施例中，先通过卷积神经网络对目标帧图像进行处理，得到隐含空间特征，然后，通过地标分类器对隐含空间特征进行处理，以确定目标帧图像是否为地标类型的图像，当目标帧图像是地标类型的图像时，再通过场景分类器对隐含空间特征进行处理，以确定目标帧图像对应的场景类别，当目标帧图像对应的场景类别符合预设场景类别时，再通过纯净度分类器对隐含空间特征进行处理，由纯净度分类器输出空镜识别结果。此时，空镜识别结果中还可以包括目标帧图像的场景类别信息。

可选地，本实施例在对初始地标分类器进行训练的过程中，还可以联合场景分类器损失函数进行多任务学习；还可以冻结卷积神经网络层的参数，仅对地标分类器参数进行学习，从而降低分类器训练难度，提高训练效率。

本实施例结合地标类型和场景类别对目标帧图像进行空镜识别，可以对待识别的目标帧图像进行多一层的过滤，将非地标类型的目标帧图像直接判断为非空镜图像，同时将与预设场景类别不符的目标帧图像直接判断为非空镜图像，可以尽早地将大部分非空镜类型的目标帧图像排除，以提高空镜识别的效率和准确率。可以理解，本实施例通过模型级联约束纯净度分类器的输入样本分布，可以降低对分类器泛化性能的要求，减轻分类器训练难度；从而可以通过收集少量训练样本，来实现准确的空镜识别效果；并且多个分类器可以共享卷积神经网络层的参数，使得整体的计算复杂度低，识别效率高。

在步骤103中，当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中。

进一步地，当空镜识别结果包括场景类别时，上述当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中，还可以包括：

根据目标帧图像对应的场景类别，将目标帧图像保存到预设存储路径中、与场景类别对应的子路径中。

在本实施例中，当空镜识别结果包括场景类别时，在对空镜识别结果为空镜图像的目标帧图像进行保存的过程中，还可以将属于相同场景类别的空镜图像保存到同一个路径中。示例性地，预设存储路径中可以包括多个与场景类别相关的子路径，在保存空镜图像时，可以先根据空镜图像的场景类别确定用于保存该空镜图像的目标子路径，并将该空镜图像保存到目标子路径中。本实施例将空镜图像按照场景类别进行分类保存，更加方便用户使用。

进一步地，在上述当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中之后，还可以包括：

从预设存储路径中获取与关键帧对应的目标镜头下的所有空镜图像；

当目标镜头下的所有空镜图像在目标镜头对应的所有帧图像中的比例大于预设值时，将目标镜头下的所有帧图像作为空镜图像保存到预设存储路径中。

在本实施例中，在将目标帧图像保存到预设存储路径中之后，还可以从预设存储路径中获取与该目标帧图像对应的目标镜头下的所有空镜图像，然后计算预设存储路径中存储的该目标镜头下的所有空镜图像在目标镜头对应的所有帧图像中的比例，其中，目标镜头下的所有帧图像是指从目标镜头的起始时间至结束时间之间采集到的视频片段中所包含的视频帧。当比例大于预设值(可以根据需要进行设置或修改)时，则认为该目标镜头下的所有帧图像都是空镜图像，并将该目标镜头下的所有帧图像保存到预设存储路径中，即将该目标镜头对应的视频片段保存到预设存储路径中。通过计算同一镜头下已确定为空镜图像的数量与该镜头下所有视频帧的数量的比值，在比值满足预设条件时，将该镜头下的所有视频帧作为空镜素材保存到预设存储路径中，使得空镜素材的获取不仅包括单帧图像，还可以包括连贯的视频片段，从而丰富预设存储路径中保存的空镜素材。

示例性地，当预设存储路径中存储有p张目标镜头下的空镜图像，并且目标镜头下的所有帧图像有q张，当p/q>预设值α时，则将目标镜头的起始时间至结束时间之间采集到的视频片段作为空镜素材片段保存到预设存储路径中。

本发明实施例通过从目标视频文件中提取待识别的目标帧图像；将目标帧图像输入训练好的空镜识别模型，并获取空镜识别模型对目标帧图像处理得到的空镜识别结果；其中，空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器；当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中；可以实现自动提取出目标视频文件中的空镜素材，并将提取出的空镜素材保存到预设存储路径中，同时，通过包含卷积神经网络层和至少两个不同功能的份额利器的空镜识别模型，可以有效提高空镜识别的效率和准确率，同时可以降低空镜识别模型的训练难度。

为了方便本领域技术人员理解本发明，下面将结合图2进行示例性地解释、说明。

图2是本发明实施例中的一种示例性的空镜素材识别方法对应的模型结构示意图的流程图。如图2所示，本实施例中的空镜素材识别方法首先对目标视频文件进行目标帧图像提取，以获取到待识别的目标帧图像，目标帧图像经空镜识别模型处理后，可以得到对应的空镜识别结果。具体地，空镜识别模型可以包括一个卷积神经网络层，用于提取目标帧图像的特征，得到隐含空间特征；对隐含空间特征进行处理，以得到对应的空镜识别结果的方式可以包括三种，其一是直接通过纯净度分类器对隐含空间特征进行处理，以得到对应的空镜识别结果；其二是通过场景分类器对隐含空间特征进行处理，得到对应的场景类别，进而通过对场景类别进行筛选，当场景类别符合条件时，则再采用纯净度分类器对隐含空间特征进行处理，以得到对应的空镜识别结果；其三是先通过地标分类器对隐含空间特征进行处理，当处理结果为非地标图像时，直接确定该目标帧图像为非空镜图像，无需进行后续处理，当处理结果为地标图像时，则再由纯净度分类器对隐含空间特征进行处理，以得到对应的空镜识别结果；其四是先通过地标分类器对隐含空间特征进行处理，当处理结果为非地标图像时，直接确定该目标帧图像为非空镜图像，无需进行后续处理，当处理结果为地标图像时，则再由场景分类器对隐含空间特征进行处理，得到对应的场景类别，进而通过对场景类别进行筛选，当场景类别符合条件时，则再采用纯净度分类器对隐含空间特征进行处理，以得到对应的空镜识别结果。

当空镜识别结果为空镜图像时，保存该空镜图像；同时还可以结合对目标视频文件进行镜头检测，以进行帧级点位后处理，得到空镜素材视频片段，即通过目标帧图像的帧号信息，将目标帧图像与视频镜头点位进行关联，若一个镜头中包含的空镜图像与该镜头中的所有视频帧的比例大于预设值，则将该镜头对应的视频片段作为空镜素材视频片段进行保存。

通过本发明实施例，可以实现自动提取出目标视频文件中的空镜素材(包括空镜图像和空镜视频片段)，并将提取出的空镜素材保存到预设存储路径中，以方便用户使用，解决了空镜素材收集困难的问题。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明一个实施例的一种空镜素材识别装置的示意性结构框图，与上述空镜素材识别方法相对应，该装置具体可以包括如下模块：

空镜识别模块，用于将目标帧图像输入训练好的空镜识别模型，并获取空镜识别模型对目标帧图像处理得到的空镜识别结果；其中，空镜识别模型包括卷积神经网络层和至少两个不同功能的分类器，目标帧图像经卷积神经网络层处理后分别输入各个分类器，根据至少两个不同功能的分类器的识别结果，得到空镜识别结果；

空镜保存模块，用于当空镜识别结果为空镜图像时，则将目标帧图像保存到预设存储路径中。

在本发明一可选实施例中，空镜识别模型包括场景分类器和纯净度分类器；场景分类器用于识别图像中包含的场景的类别；纯净度分类器用于识别图像是否为空镜图像；空镜识别模块，包括：

场景分类器处理模块，用于将卷积神经网络层对目标帧图像处理得到的隐含空间特征，输入到场景分类器进行处理，以确定目标帧图像对应的场景类别；

基于场景分类器处理结果识别模块，用于当场景类别符合预设场景类别时，将隐含空间特征输入纯净度分类器，并获取纯净度分类器对隐含空间特征处理得到的空镜识别结果。

在本发明一可选实施例中，空镜识别模型包括地标分类器和纯净度分类器；地标分类器用于识别地标类型的图像；纯净度分类器用于识别图像是否为空镜图像；空镜识别模块，包括：

地标分类器处理模块，用于将卷积神经网络层对目标帧图像处理得到的隐含空间特征，输入到地标分类器进行处理，以判断目标帧图像是否为地标类型的图像；

基于地标分类器处理结果识别模块，用于当目标帧图像为地标类型的图像时，将隐含空间特征输入纯净度分类器，并获取纯净度分类器对隐含空间特征处理得到的空镜识别结果。

在本发明一可选实施例中，空镜识别模型包括地标分类器、场景分类器以及纯净度分类器；地标分类器用于识别地标类型的图像；场景分类器用于识别图像中包含的场景的类别；纯净度分类器用于识别图像是否为空镜图像；空镜识别模块，包括：

基于地标结果的场景分类器处理模块，用于当目标帧图像为地标类型的图像时，将隐含空间特征输入至场景分类器，由场景分类器对隐含空间特征进行处理，以确定目标帧图像对应的场景类别；

纯净度分类器处理模块，用于当场景类别符合预设场景类别时，将隐含空间特征输入纯净度分类器，并获取纯净度分类器对隐含空间特征处理得到的空镜识别结果。

在本发明一可选实施例中，空镜保存模块，还包括：

目标镜头的空镜获取模块，用于从预设存储路径中获取与关键帧对应的目标镜头下的所有空镜图像；

目标镜头的空镜保持模块，用于当目标镜头下的所有空镜图像在目标镜头对应的所有帧图像中的比例大于预设值时，将目标镜头下的所有帧图像作为空镜图像保存到预设存储路径中。

在本发明一可选实施例中，空镜识别结果中还包括场景类别；空镜保存模块，还用于根据目标帧图像对应的场景类别，将目标帧图像保存到预设存储路径中、与场景类别对应的子路径中。

在本发明一可选实施例中，图像提取模块，用于按照目标间隔，从目标视频文件中提取目标帧图像；或者，从目标视频文件所包含的镜头中提取与镜头对应的目标帧图像。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种终端，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上所述的空镜素材识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上所述的空镜素材识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的空镜素材识别方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的空镜素材识别方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种空镜素材识别方法，其特征在于，所述方法包括：

从目标视频文件中提取待识别的目标帧图像；

2.根据权利要求1所述的方法，其特征在于，所述空镜识别模型包括场景分类器和纯净度分类器；所述场景分类器用于识别图像中包含的场景的类别；所述纯净度分类器用于识别图像是否为空镜图像；所述将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述空镜识别模型包括地标分类器和纯净度分类器；所述地标分类器用于识别地标类型的图像；所述纯净度分类器用于识别图像是否为空镜图像；所述将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述空镜识别模型包括地标分类器、场景分类器以及纯净度分类器；所述地标分类器用于识别地标类型的图像；所述场景分类器用于识别图像中包含的场景的类别；所述纯净度分类器用于识别图像是否为空镜图像；所述将所述目标帧图像输入训练好的空镜识别模型，并获取所述空镜识别模型对所述目标帧图像处理得到的空镜识别结果，包括：

5.根据权利要求1所述的方法，其特征在于，在所述当所述空镜识别结果为空镜图像时，则将所述目标帧图像保存到预设存储路径中之后，还包括：

6.根据权利要求2或4所述的方法，其特征在于，所述空镜识别结果中还包括场景类别；所述当所述空镜识别结果为空镜图像时，则将所述目标帧图像保存到预设存储路径中，还包括：

7.根据权利要求1所述的方法，其特征在于，所述从目标视频文件中提取待识别的目标帧图像，包括：

按照目标间隔，从目标视频文件中提取目标帧图像；或者，

8.一种空镜素材识别装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的空镜素材识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的空镜素材识别方法。