CN110460838B

CN110460838B - 一种镜头切换的检测方法、装置及计算机设备

Info

Publication number: CN110460838B
Application number: CN201910624942.XA
Authority: CN
Inventors: 张国辉; 雷晨雨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2022-09-30
Anticipated expiration: 2039-07-11
Also published as: CN110460838A

Abstract

本申请公开了一种镜头切换的检测方法、装置及计算机设备，涉及图像处理领域，可以解决在对视频中镜头切换点的检测时，容易受到环境因素影响，导致误检率高，准确性低的问题。其中方法包括：获取目标检测视频中的各个单帧图片；提取各个所述单帧图片的视觉特征；依据所述视觉特征从所述目标检测视频中筛选出候选帧及第一镜头切换帧；利用训练好的卷积网络模型确定所述候选帧中包含的第二镜头切换帧；判定所述目标检测视频在所述第一镜头切换帧及所述第二镜头切换帧处存在镜头切换。本申请适用于对视频中镜头切换点的检测。

Description

一种镜头切换的检测方法、装置及计算机设备

技术领域

本申请涉及图像处理领域，尤其涉及到一种镜头切换的检测方法、装置及计算机设备。

背景技术

视频序列通常包含多个独立的场景，一个场景可以定义为一个连续的事件或者一组连续的动作。在两个场景之间发生跃变的视频帧称为场景切换帧。视频切换镜头检测的目的就是准确地判断场景切换帧，从而将视频分割成一系列连续的图像组。因视频切换镜头检测有助于提高视频剪切的效率，故准确检测出视频场景的切换点具有很重要的作用。

现有技术中，一种具体的检测视频场景切换的方法通常是，获得视频序列中两帧视频帧的灰度直方图，判断用于表示这两帧视频帧的灰度直方图之间相似性的数值是否小于预设的阈值，若小于，则判定这两帧视频帧之间发生了视频场景切换。

然而，上述方法对光线变化比较敏感，即使两视频帧之间仅仅发生了光线变化，视频帧的灰度直方图变化也会较大，故视频场景切换检测容易受到环境的影响，使误检率较高，准确性较低。

发明内容

有鉴于此，本申请提供了一种镜头切换的检测方法、装置及计算机设备，主要目的在于解决在利用灰度直方图判断视频场景切换时，容易受到环境因素影响，导致误检率高，准确性低的问题。

根据本申请的一个方面，提供了一种镜头切换的检测方法，该方法包括：

获取目标检测视频中的各个单帧图片；

提取各个所述单帧图片的视觉特征；

依据所述视觉特征从所述目标检测视频中筛选出候选帧及第一镜头切换帧；

利用训练好的卷积网络模型确定所述候选帧中包含的第二镜头切换帧；

判定所述目标检测视频在所述第一镜头切换帧及所述第二镜头切换帧处存在镜头切换。

根据本申请的另一个方面，提供了一种镜头切换的检测装置，该装置包括：

获取模块，用于获取目标检测视频中的各个单帧图片；

提取模块，用于提取各个所述单帧图片的视觉特征；

筛选模块，用于依据所述视觉特征从所述目标检测视频中筛选出候选帧及第一镜头切换帧；

确定模块，用于利用训练好的卷积网络模型确定所述候选帧中包含的第二镜头切换帧；

判定模块，用于判定所述目标检测视频在所述第一镜头切换帧及所述第二镜头切换帧处存在镜头切换。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述镜头切换的检测方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述镜头切换的检测方法。

借由上述技术方案，本申请提供的一种镜头切换的检测方法、装置及计算机设备，与目前利用灰度直方图判断视频场景切换的方式相比，本申请可预先从目标检测视频中提取出各个单帧图片；进一步确定出各个单帧图片的视觉特征；并基于各个单帧图片的视觉特征从目标检测视频中初步筛选出候选帧及第一镜头切换帧；利用训练好的卷积网络模型从候选帧中提取出未检测出的镜头切换帧，即第二镜头切换帧；判定目标检测视频在第一镜头切换帧及第二镜头切换帧处存在镜头切换。本方案整个过程都采用了深度学习，相比传统算法的精度要高，实时性也有保证，且能有效避免环境因素对检测效果的影响，从而降低误检率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种镜头切换的检测方法的流程示意图；

图2示出了本申请实施例提供的另一种镜头切换的检测方法的流程示意图；

图3示出了本申请实施例提供的一种镜头切换的检测装置的结构示意图；

图4示出了本申请实施例提供的另一种镜头切换的检测装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前在利用灰度直方图判断视频场景切换时，容易受到环境因素影响，导致误检率高，准确性低的问题，本申请实施例提供了一种镜头切换的检测方法，如图1所示，该方法包括：

101、获取目标检测视频中的各个单帧图片。

其中，目标检测视频为需要进行镜头切换点检测的长视频，在具体的应用场景中，为了方便对目标检测视频镜头切换点的精确识别，故需要保证目标检测视频的放映时长至少要在三分钟以上。执行检测操作的第一步需要从目标检测视频中提取出各个单帧的图片，以便通过对各个单帧图片的比较分析，确定出目标检测视频中包含的所有镜头切换帧。

102、提取各个单帧图片的视觉特征。

其中，图片视觉特征的提取和表示是将图像的视觉信息转化成计算机能够识别和处理的定量形式的过程，是基于视觉内容的图像分类与检索的关键技术，图像底层视觉特征一定程度上能够反映图像的内容，可以描述图像所表达的意义。因此，研究图像底层视觉特征是实现图像分类与检测的第一步，在本方案中，可通过提取各个单帧图片的视觉特征，来进行对目标检测视频中镜头切换帧的检测。

103、依据视觉特征从目标检测视频中筛选出候选帧及第一镜头切换帧。

对于本实施例，在具体的应用场景中，可通过对比单帧图片与对应下一帧单帧图片的视觉特征，来进一步得到快速切换的第一镜头切换帧，以及可能存在镜头切换的候选帧。

104、利用训练好的卷积网络模型确定候选帧中包含的第二镜头切换帧。

其中，在本实施例中利用的卷积网络模型为3D ConvNet模型，将利用视觉特征筛选出的候选帧输入卷积网络模型中，即可得到该候选帧对应的属性分类，即镜头切换帧或非镜头切换帧。

105、判定目标检测视频在第一镜头切换帧及第二镜头切换帧处存在镜头切换。

对于本实施例，在具体的应用场景中，在识别出目标检测视频包含的所有第一镜头切换帧及第二镜头切换帧后，则可判定目标检测视频在第一镜头切换帧及第二镜头切换帧处发生了镜头场景的切换。

通过本实施例中镜头切换的检测方法，可预先从目标检测视频中提取出各个单帧图片；进一步确定出各个单帧图片的视觉特征；并基于各个单帧图片的视觉特征从目标检测视频中初步筛选出候选帧及第一镜头切换帧；利用训练好的卷积网络模型从候选帧中提取出剩余的镜头切换帧，即第二镜头切换帧；判定目标检测视频在第一镜头切换帧及第二镜头切换帧处存在镜头切换。本方案整个过程都采用了深度学习，相比传统算法的精度要高，实时性也有保证，且能有效避免环境因素对检测效果的影响，从而降低误检率。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种镜头切换的检测方法，如图2所示，该方法包括：

201、获取目标检测视频中的各个单帧图片。

在具体的应用场景中，由于场景切换过程中视频的单帧图片都有一个变换过程，根据变换时长可把这个过程分成2类：快速的镜头切换和慢速的镜头切换。其中，确定镜头切换的快慢可通过每秒钟内镜头播放不同单帧图片的数量来确定，当每秒钟内播放不同单帧图片的数量大于画面转换设定阈值时，说明一秒钟内播放的视频段属于快速的镜头切换，否则说明是慢速的镜头切换。

在具体的应用场景中，针对快速的镜头切换场景，由于不同单帧图片的转换速度较快，故可将目标检测视频中每个连续帧对应的图片都提取出来，作为本实施例中待分析的单帧图片，继续执行实施例步骤202至215中镜头切换的检测操作。

相应的，作为一种优选方式，针对慢速的镜头切换场景，由于不同单帧图片的转换速度较慢，进而会导致出现多个连续单帧图片变动不大的情况，为了减少计算量，可设置一个采样频率(大于20帧)，通过采样频率对图片进行稀疏采样，每个一个采样周期获取一个采样图片作为本实施例中待分析的单帧图片。因1秒钟内一般不会出现两次镜头切换，故在本方案中可将单帧的采样频率设定为32，通过采样频率对图片进行稀疏采样，以此来减少计算量。例如，一个视频帧有320帧，则可根据采样频率提取第0帧，第32帧，第32*2帧，第32*3帧，第32*4帧，…等图片作为本实施例中的单帧图片，进而来计算单帧图片的视觉特征，此种方法可比提取320帧所有帧图片的视觉特征要减少32倍的计算量。

作为一种优选方式，在利用各个单帧图片确定目标检测视频中的镜头切换帧之前，为了排除不相关干扰，提高检测的准确性，故需要预先将各个单帧图片缩放到预设尺寸大小；对缩放后的单帧图片进行灰度化处理。对于本实施例，为适应需要，可将预设尺寸大小设定为256*256，当获取到单帧图片时，则需要将各个单帧图片统一缩放到256*256的像素大小。之后对提取出的彩色单帧图片进行灰度化处理，从而消除单帧图片中无关信息对图像检测的干扰，增强有关信息的可检测性。

202、获取在ImageNet数据集上预训练好的残差网络ResNet50。

其中，ImageNet是一个拥有1400多万幅图片，涵盖2万多个类别的数据库。利用ImageNet数据集对残差网络进行预训练，一方面，在如此大规模的数据集上训练的模型能够捕获更加丰富的特征，另一方面，深度神经网络的层数越深，模型的学习能力就越强，得到的特征也会更加丰富。在本实施例中，选择残差网络ResNet50作为初始的神经网络架构，可以有效解决深度学习中随着网络深度加深，模型能力下降的问题。

203、利用样本图片集对残差网络ResNet50进行微调。

其中，样本图片集为从样本视频中提取出的预定数量个样本单帧图片，为了保证残差网络ResNet50对单帧图片中视觉特征的精准识别，在利用样本训练集微调过程中，需要保证选用的样本视频要包含镜头切换帧，即存在镜头场景的切换；微调本质上也是训练，只是相比于预训练步骤，使用的训练样本数量小一些。由于不同的数据集之间的差距，对于不同的数据集我们也需要采用不同的微调策略。在本实施例中，在利用样本图片集对残差网络ResNet50进行微调前，需要预先获取各个样本图片的真实特征向量，利用真实的特征向量修正由残差网络ResNet50识别出的视觉特征向量，当判定识别的各个特征向量与真实样本图片的特征向量的相似度均符合设定标准时，则可判定对残差网络ResNet50微调成功。

对于本实施例，在具体的应用场景中，经过在ImageNet这样大规模数据集上训练过的残差网络ResNet50模型，已经具备了提取出较丰富视觉特征的能力，同时也可以被很好的应用在检测、识别、分类等任务上，要想将模型进一步迁移到镜头切换的检测任务上，还需要对其做微调，即用样本图片集继续训练模型，目的是使模型能更精准的捕获出该数据集中的视觉特征。经过微调后的网络模型即为我们最终应用到对单帧图片视觉特征提取的网络模型。

204、将各个单帧图片分别输入微调后的残差网络ResNet50中，提取出视觉特征向量。

对于本实施例，可利用微调后的残差网络模型分别对单帧图片进行特征提取，进一步获取到单帧图片对应的视觉特征向量。

205、计算各个单帧图片与对应下一帧单帧图片视觉特征向量间的欧式距离。

其中，欧式距离的计算公式为：

其中，x_1i为单帧图片中单个点的特征向量，x_2i为下一帧单帧图片中与x_1i对应相同位置的特征向量，N为特征向量的维度。在本实施例中，特征向量的维度为2048维。

对于本实施例，在具体的应用场景中，可利用欧式距离来判断当前单帧图片与对应下一帧单帧图片间的图片差异，如计算出的欧式距离较小，则可说明当前单帧图片与对应下一帧单帧图片的差异较小，即可判定在当前单帧图片与对应下一帧单帧图片间不存在镜头切换；如计算出的欧式距离较大，则可说明当前单帧图片与对应下一帧单帧图片的差异较大，即判定在当前单帧图片与对应下一帧单帧图片间可能存在镜头切换。

206、若确定欧式距离小于第一预设阈值，则判定单帧图片对应的视频帧为非镜头切换帧。

其中，第一预设阈值为能判定当前单帧图片与对应下一帧单帧图片间可能存在镜头切换的最小欧式距离，设定阈值的大小可根据实际的应用场景进行数值设定。

例如，设定的第一预设阈值为N1，若连续两个单帧图片为t、t+1，将t、t+1两个单帧图片分别输入微调后的残差网络ResNet50中，提取出视觉特征向量分别记为F(t)和F(t+1)，若计算出t、t+1两个单帧图片间的欧式距离Dist(F(t),F(t+1))<N1，则可判定视频t处不是镜头切换帧，进而可进行滤除。

207、若确定欧式距离大于第二预设阈值，则判定单帧图片对应的视频帧为第一镜头切换帧。

其中，第二预设阈值为判定当前单帧图片与对应下一帧单帧图片间一定存在镜头切换的最小欧式距离，设定阈值的大小可根据实际的应用场景进行数值设定，在具体的应用场景中，设定的第二预设阈值应该大于第一预设阈值。

例如，设定的第二预设阈值为N2，若连续两个单帧图片为t、t+1，将t、t+1两个单帧图片分别输入微调后的残差网络ResNet50中，提取出视觉特征向量分别记为F(t)和F(t+1)，若计算出t、t+1两个单帧图片间的欧式距离Dist(F(t),F(t+1))>N2，则可判定视频t处为镜头切换帧，并将视频t处的视频帧保存为第一镜头切换帧。

208、若确定欧式距离大于第一预设阈值且小于第二预设阈值，则判定单帧图片对应的视频帧为候选帧。

例如，设定的第一预设阈值为N1、第二预设阈值为N2，若连续两个单帧图片为t、t+1，将t、t+1两个单帧图片分别输入微调后的残差网络ResNet50中，提取出视觉特征向量分别记为F(t)和F(t+1)，若通过视觉特征向量计算出t、t+1两个单帧图片间的欧式距离为Dist(F(t),F(t+1))，且N1<＝Dist(F(t),F(t+1))<＝N2，则可说明当前单帧图片与下一帧单帧图片之间的变化差异相对较大，两者是否为同一镜头场景仍需要进行下一步的精确判定，故可将视频t处的视频帧保存为待进行下一步对比检测的候选帧。

209、训练卷积网络模型，使其训练结果满足预设标准。

对于本实施例，在具体的应用场景中，为了使卷积网络模型的训练结果满足预设标准，实施例步骤209具体可以包括：利用ImageNet数据集训练残差网络ResNet18模型；采用kinetics数据集将残差网络ResNet18模型扩展为卷积网络模型；获取标注为镜头切换区域或非镜头切换区域的训练集及验证集；利用训练集训练卷积网络模型；若通过验证集统计卷积网络模型对属性类别划分的正确率大于第三预设阈值，则判定卷积网络模型通过训练；若判定卷积网络模型未通过训练，则利用训练集中标注的属性类别修正训练卷积网络模型，以使卷积网络模型的划分结果满足预设标准。

其中，第三预设阈值为判定卷积网络模型是否通过训练的评定标准，当利用卷积网络模型进行类别划分的正确率大于第三预设阈值时，可判定卷积网络模型通过训练，可投入到对镜头切换帧的检测任务中；若利用卷积网络模型进行类别划分的正确率小于或等于第三预设阈值时，可判定卷积网络模型未通过训练，则需要利用训练集中标注的属性类别重复修正训练卷积网络模型，以使卷积网络模型划分类别的正确率大于第三预设阈值，即符合预设标准。ImageNet数据集为1000类的图片分类数据集。kinetics数据集为400类的额视频动作分类数据集，其为高质量的大型YouTube视频URL数据集，涵盖多种多样的人类行为，其目的是帮助机器学习模型提升对视频的理解，该数据集大约包含300000个视频片段，包含400个人类行为类别，每个类别至少包含400个视频片段，每个片段大约10秒，并标注一个单一类别。

在本实施例中，经kinetics数据集训练后的卷积网络模型可准确识别出镜头片段的所属类别信息，为了使训练出的卷积网络模型能够更好的应用到本方案中对候选帧片段的属性类别划分，故还需要进行更具体化的场景训练，即截取预定长度的体育比赛和综艺节目等视频片段，并按视频片段中有无场景的切换，将视频片段标注为镜头切换区域或非镜头切换区域，并将各个视频片段归为训练集或验证集中，利用训练集对卷积网络模型进行镜头切换区域或非镜头切换区域两个属性类别的训练，利用验证集对卷积网络模型的分类划分的正确性进行验证，确保卷积网络模型的划分结果满足预设标准。

210、确定以候选帧为中心且满足预设长度的候选帧片段。

对于本实施例，在具体的应用场景中，针对实施例步骤201中单帧图片的两种筛选情况，可设定不同长度的候选帧片段。第一种情况：当本实施例中是提取目标检测视频中每个连续帧对应的图片作为单帧图片，则可设定预设长度为1，即只将候选帧作为候选帧片段，进行下一步属性类别的分析。第二种情况：当本实施例中时以采样频率32来对图片进行稀疏采样，则可将预设长度设定为32，此时候选片段指以候选帧为中心，提取目标检测视频中[t-16,t+16)区域的32帧作为候选片段。

211、利用卷积网络模型对候选帧片段进行属性类别划分。

其中，属性类别可包括镜头切换区域和非镜头切换区域。

212、提取属性类别为镜头切换区域的目标候选帧片段。

对于本实施例，在具体的应用场景中，在完成对候选帧片段的属性类别分类后，则从分类结果中提取出所有属性类别为镜头切换区域的目标候选帧片段，以进行对剩余镜头切换帧的提取。若从划分结果中未提取出镜头切换区域，即可判定筛选出的候选帧中不包含任何镜头切换帧，故不需要执行实施例步骤213，直接判定目标检测视频在第一镜头切换帧处存在镜头切换，之后在第一镜头切换帧处剪切目标检测视频。

213、将目标候选帧片段中心的目标候选帧定义为第二镜头切换帧。

对于本实施例，相应的，在筛选出所有的目标候选帧片段后，可将目标候选帧片段中中心的候选帧保存为第二镜头切换帧。

214、判定目标检测视频在第一镜头切换帧及第二镜头切换帧处存在镜头切换。

对于本实施例，在具体的应用场景中，可将利用单帧图片视觉特征间欧式距离初步确定出的第一镜头切换帧，以及利用卷积网络模型从候选帧中提取出的第二镜头切换帧确定为目标检测视频中存在镜头切换的所有镜头切换帧。

215、在第一镜头切换帧及第二镜头切换帧处剪切目标检测视频。

例如，从待剪切视频中提取出的所有单帧图片序列为：[t0，…，tn]，若确定提取出的镜头切换帧图片对应的第一镜头切换帧及第二镜头切换帧为：tx1，tx2，…，txm，且(t0<tx1<tx2<…<txm<tn)。则可将待剪切视频剪切成[t0,tx1]，[tx1+1，tx2]，…[txm+1，tn]个视频片段，其中每个视频片段都是一个单一的镜头片段。

通过上述镜头切换的检测方法，可通过从目标检测视频中提取出各个单帧图片；在对各个单帧图片进行预处理后，利用残差网络ResNet50提取出各个单帧图片的视觉特征，通过计算各个单帧图片与对应下一帧单帧图片视觉特征向量间的欧式距离，初步筛选出一定存在镜头转换的第一镜头切换帧以及可能出现镜头切换的候选帧，再利用训练好的卷积网络模型，深度确定候选帧中包含的第二镜头切换帧，之后将所有第一切换帧以及第二切换帧统一确定为目标检测视频中出现镜头转换的切换帧，并在切换帧处对目标检测视频进行剪切，获取只包含单一镜头场景的各个视频片段。在本实施例中，通过深度卷积网络，可准确高效的确定出目标检测视频中包含的所有镜头切换帧，进而实现对各个单一镜头场景的准确切割，提升了切割效率的同时，也提高了镜头切换检测的精度。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种镜头切换的检测装置，如图3所示，该装置包括：获取模块31、提取模块32、筛选模块33、确定模块34、判定模块35。

获取模块31，用于获取目标检测视频中的各个单帧图片；

提取模块32，用于提取各个单帧图片的视觉特征；

筛选模块33，用于依据视觉特征从目标检测视频中筛选出候选帧及第一镜头切换帧；

确定模块34，用于利用训练好的卷积网络模型确定候选帧中包含的第二镜头切换帧；

判定模块35，用于判定目标检测视频在第一镜头切换帧及第二镜头切换帧处存在镜头切换。

在具体的应用场景中，为了提取出各个单帧图片的视觉特征，提取模块32，具体可用于获取在ImageNet数据集上预训练好的残差网络ResNet50；利用样本图片集对残差网络ResNet50进行微调；将各个单帧图片分别输入微调后的残差网络ResNet50中，提取出视觉特征向量。

相应的，为了依据视觉特征从目标检测视频中初步筛选出候选帧及第一镜头切换帧，筛选模块33，具体可用于计算各个单帧图片与对应下一帧单帧图片视觉特征向量间的欧式距离；若确定欧式距离小于第一预设阈值，则判定单帧图片对应的视频帧为非镜头切换帧；若确定欧式距离大于第二预设阈值，则判定单帧图片对应的视频帧为第一镜头切换帧；若确定欧式距离大于第一预设阈值且小于第二预设阈值，则判定单帧图片对应的视频帧为候选帧。

在具体的应用场景中，为了从候选帧中确定出第二镜头切换帧，确定模块34，具体可用于训练卷积网络模型，使其训练结果满足预设标准；确定以候选帧为中心且满足预设长度的候选帧片段；利用卷积网络模型对候选帧片段进行属性类别划分；提取属性类别为镜头切换区域的目标候选帧片段；将目标候选帧片段中心的目标候选帧定义为第二镜头切换帧。

相应的，为了使卷积网络模型的训练结果满足预设标准，确定模块34，具体可用于利用ImageNet数据集训练残差网络ResNet18模型；采用kinetics数据集将残差网络ResNet18模型扩展为卷积网络模型；获取标注为镜头切换区域或非镜头切换区域的训练集及验证集；利用训练集训练卷积网络模型；若通过验证集统计卷积网络模型对属性类别划分的正确率大于第三预设阈值，则判定卷积网络模型通过训练；若判定卷积网络模型未通过训练，则利用训练集中标注的属性类别修正训练卷积网络模型，以使卷积网络模型的划分结果满足预设标准。

在具体的应用场景中，为了排除干扰，提高单帧图片的检测精度，如图4所示，本装置还包括：缩放模块36、处理模块37。

缩放模块36，用于将各个单帧图片缩放到预设尺寸大小；

处理模块37，用于对缩放后的单帧图片进行灰度化处理。

相应的，在利用判定模块35判定出目标检测视频在第一镜头切换帧及第二镜头切换帧处存在镜头切换之后，为了获取各个单一镜头场景的视频片段，如图4所示，本装置还包括：剪切模块38。

剪切模块38，用于在第一镜头切换帧及第二镜头切换帧处剪切目标检测视频。

需要说明的是，本实施例提供的一种镜头切换的检测装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的镜头切换的检测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的镜头切换的检测方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是镜头切换检测的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请可通过从目标检测视频中提取出各个单帧图片；在对各个单帧图片进行预处理后，利用残差网络ResNet50提取出各个单帧图片的视觉特征，通过计算各个单帧图片与对应下一帧单帧图片视觉特征向量间的欧式距离，初步筛选出一定存在镜头转换的第一镜头切换帧以及可能出现镜头切换的候选帧，再利用训练好的卷积网络模型，深度确定候选帧中包含的第二镜头切换帧，之后将所有第一切换帧以及第二切换帧统一确定为目标检测视频中出现镜头转换的切换帧，并在切换帧处对目标检测视频进行剪切，获取只包含单一镜头场景的各个视频片段。在本实施例中，通过深度卷积网络，可准确高效的确定出目标检测视频中包含的所有镜头切换帧，进而实现对各个单一镜头场景的准确切割，提升了切割效率的同时，也提高了镜头切换检测的精度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种镜头切换的检测方法，其特征在于，包括：

获取目标检测视频中的各个单帧图片；

提取各个所述单帧图片的视觉特征包括：获取在ImageNet数据集上预训练好的残差网络ResNet50，利用样本图片集对所述残差网络ResNet50进行微调，所述样本图片集为包含镜头转换帧的样本图片，将各个所述单帧图片分别输入微调后的所述残差网络ResNet50中，提取出视觉特征向量；

利用训练好的卷积网络模型确定所述候选帧中包含的第二镜头切换帧，具体训练卷积网络模型的过程包括：利用ImageNet数据集训练残差网络ResNet18模型，采用kinetics数据集将所述残差网络ResNet18模型扩展为卷积网络模型，获取标注为镜头切换区域或非镜头切换区域的训练集及验证集，利用所述训练集训练所述卷积网络模型，若通过所述验证集统计所述卷积网络模型对属性类别划分的正确率大于第三预设阈值，则判定所述卷积网络模型通过训练，若判定所述卷积网络模型未通过训练，则利用所述训练集中标注的属性类别修正训练所述卷积网络模型，以使所述卷积网络模型的划分结果满足预设标准；

2.根据权利要求1所述的方法，其特征在于，所述依据所述视觉特征从所述目标检测视频中筛选出候选帧及第一镜头切换帧，具体包括：

计算各个所述单帧图片与对应下一帧单帧图片视觉特征向量间的欧式距离；

若确定所述欧式距离小于第一预设阈值，则判定所述单帧图片对应的视频帧为非镜头切换帧；

若确定所述欧式距离大于第二预设阈值，则判定所述单帧图片对应的视频帧为第一镜头切换帧；

若确定所述欧式距离大于所述第一预设阈值且小于所述第二预设阈值，则判定所述单帧图片对应的视频帧为候选帧。

3.根据权利要求1所述的方法，其特征在于，所述利用训练好的卷积网络模型确定所述候选帧中包含的第二镜头切换帧，具体包括：

训练卷积网络模型，使其训练结果满足预设标准；

确定以所述候选帧为中心且满足预设长度的候选帧片段；

利用所述卷积网络模型对所述候选帧片段进行属性类别划分；

提取所述属性类别为镜头切换区域的目标候选帧片段；

将所述目标候选帧片段中心的目标候选帧定义为第二镜头切换帧。

4.根据权利要求1所述的方法，其特征在于，在所述提取各个所述单帧图片的视觉特征之前，具体还包括：

将各个所述单帧图片缩放到预设尺寸大小；

对缩放后的所述单帧图片进行灰度化处理。

5.根据权利要求1所述的方法，其特征在于，在判定所述目标检测视频在所述第一镜头切换帧及所述第二镜头切换帧处存在镜头切换之后，具体还包括：

在所述第一镜头切换帧及所述第二镜头切换帧处剪切所述目标检测视频。

6.一种镜头切换的检测装置，其特征在于，包括：

获取模块，用于获取目标检测视频中的各个单帧图片；

提取模块，用于提取各个所述单帧图片的视觉特征包括：获取在ImageNet数据集上预训练好的残差网络ResNet50，利用样本图片集对所述残差网络ResNet50进行微调，所述样本图片集为包含镜头转换帧的样本图片，将各个所述单帧图片分别输入微调后的所述残差网络ResNet50中，提取出视觉特征向量；

确定模块，用于利用训练好的卷积网络模型确定所述候选帧中包含的第二镜头切换帧，具体训练卷积网络模型的过程包括：利用ImageNet数据集训练残差网络ResNet18模型，采用kinetics数据集将所述残差网络ResNet18模型扩展为卷积网络模型，获取标注为镜头切换区域或非镜头切换区域的训练集及验证集，利用所述训练集训练所述卷积网络模型，若通过所述验证集统计所述卷积网络模型对属性类别划分的正确率大于第三预设阈值，则判定所述卷积网络模型通过训练，若判定所述卷积网络模型未通过训练，则利用所述训练集中标注的属性类别修正训练所述卷积网络模型，以使所述卷积网络模型的划分结果满足预设标准；

7.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5中任一项所述的镜头切换的检测方法。

8.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5中任一项所述的镜头切换的检测方法。