CN109447022B

CN109447022B - 一种镜头类型识别方法及装置

Info

Publication number: CN109447022B
Application number: CN201811327200.2A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2021-04-09
Anticipated expiration: 2038-11-08
Also published as: CN109447022A

Abstract

本发明实施例提供了一种镜头类型识别方法及装置，其中，所述方法包括：对视频数据进行均匀抽帧，得到K帧图像，所述K大于或等于2；判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化；若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，则确定所述视频数据为固定机位视频；从所述K帧图像中抽任一帧图像，作为待识别图像；确定所述待识别图像的镜头类型；将所述待识别图像的镜头类型，作为所述视频数据中的每一帧图像的镜头类型。

Description

一种镜头类型识别方法及装置

技术领域

本发明涉及视频处理领域，特别是涉及一种镜头类型识别方法及装置。

背景技术

目前影视剧等视频节目在录制过程中会因为不同摄影机机位及不同摄影角度等因素，产生大量的视频源素材。一般在初级剪辑师在剪辑视频源素材前，需要先对视频源素材进行分析，在视频源素材的图像上打上镜头类型的标签，这样初级剪辑师使用已打上镜头类型的标签的图像进行初步剪辑，可以提升初级剪辑师的工作效率，节约时间与人员成本。

上述初步剪辑是对视频源素材进行初步的选择，然后进行剪辑。这个初步剪辑的过程是，首先由初步剪辑师浏览视频源素材；然后再由初步剪辑师初步选择出无用的视频片段，比如和视频节目所要展现的内容无关的视频片段；并将所有视频源素材中无用的视频片段减掉，得到剩下视频片段，作为后期需要精剪的视频片段，最后由初步剪辑师确定出需要精剪的视频片段的镜头类型；由初步剪辑师按照需要精剪的视频片段各自的镜头类型，对需要精剪的视频片段标注与镜头类型对应的标签。

由于影视剧等视频节目在录制过程中，可能在一个场景中会有几十个甚至上百个摄影机机位，每个摄影机机位的拍摄一小时的视频片段，会产生上百小时的视频源素材，这样初步剪辑师要浏览上百小时的视频片段，进而确地出需要精剪的视频片段的镜头类型，工作量大，工作效率低，从而浪费大量的时间成本和人工成本。

发明内容

本发明实施例的目的在于提供一种镜头类型识别方法及装置，用以解决现有技术中需要精剪的视频片段的镜头类型，工作量大，工作效率低，从而浪费大量的时间成本和人工成本的技术问题。具体技术方案如下：

第一方面，本发明实施提供了一种镜头类型识别方法，所述方法包括：

对视频数据进行均匀抽帧，得到K帧图像，所述K大于或等于2；

判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化；

若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，则确定所述视频数据为固定机位视频；

从所述K帧图像中抽任一帧图像，作为待识别图像；

确定所述待识别图像的镜头类型；

将所述待识别图像的镜头类型，作为所述视频数据中的每一帧图像的镜头类型。

进一步的，所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化，包括：

计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数；

若所述第一帧间变化系数小于预设变化阈值，则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式未发生变化；

若所述第一帧间变化系数不小于所述预设变化阈值，则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式发生变化。

进一步的，所述计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数，包括：

获取所述第一本帧图像的第一选区和所述第一对比帧图像的第二选区，所述第一选区是沿所述第一本帧图像的边缘选择的，且所述第一选区的面积小于所述第一本帧图像的面积，所述第一选区与所述第二选区对应；

分别对所述第一选区及所述第二选区进行均匀区块划分，得到所述第一本帧图像的两个以上第一区块以及所述第一对比帧图像的两个以上第二区块，所述第一区块与所述第二区块相对应；

分别对所述第一区块及所述第二区块进行特征提取，得到所述第一区块的特征点集以及所述第二区块的特征点集；

将所述第一区块中特征点集与所述第二区块中特征点集相匹配的特征点，作为关联特征点对集；

计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式；

利用所述几何变换方式中反映变化的元素的值，计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数。

进一步的，所述计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式，包括：

计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的仿射变换矩阵；

所述利用所述几何变换方式中反映变化的元素的值，计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数，包括：

将所述仿射变换矩阵中反映变化的元素的值，使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算所述关联特征点对集中每个所述第一区块相对于，所述第一区块对应的第二区块的变化系数，所述仿射变换矩阵的反映变化的元素与所述预设变化系数呈正相关；

将各第一选区的所有第一区块相对于，所述所有第一区块对应的第二区块的变化系数之和，确定为各第一选区相对于所述第二选区的变化系数；

将所有第一选区相对于所述第二选区的变化系数之和，与所有第一选区相对于所述第二选区中的最大变化系数之差，确定为所述第一本帧图像相对于第一对比帧图像的第一帧间变化系数。

进一步的，所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为：

其中，所述

为第k个第一选区的第i行第j列的第一区块相对于，所述第一区块对应的第二区块的变化系数，所述σ表示映射函数，将|-1|映射到处于(0,1)的取值范围内，将

映射到处于(0,1)的取值范围内，Θ表示第二调整系数，0<Θ<1，τ表示第一调整系数，0<τ<1。

进一步的，在将所述仿射变换矩阵中反映变化的元素的值，使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算所述关联特征点对集中每个所述第一区块相对于，所述第一区块对应的第二区块的变化系数之前，所述方法还包括：

判断所述仿射变换矩阵中各个元素的值是否满足预设合法条件，所述预设合法条件是限定各个元素的值的取值范围；

若所述仿射变换矩阵中各个元素的值满足预设合法条件，则获取所述仿射变换矩阵中反映变化的元素的值，继续执行将所述仿射变换矩阵中反映变化的元素的值，使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算所述关联特征点对集中每个所述第一区块相对于，所述第一区块对应的第二区块的变化系数的步骤。

进一步的，在计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式之前，所述方法还包括：

判断所述关联特征点对集是否大于第一预设数量；

如果所述关联特征点对集大于所述第一预设数量，则执行计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式的步骤。

进一步的，在所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于所述第一对比帧图像的镜头运动方式是否发生变化之后，所述方法还包括：

若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于所述第一对比帧图像镜头运动方式发生变化，则对所述视频数据进行均匀抽帧，得到P帧图像，所述P大于所述K；

判断所述P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化；

将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型，确定为所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型；

将镜头运动方式发生变化的相邻两帧图像中第二本帧图像，作为待识别图像；

确定所述待识别图像的镜头类型；

基于所有待识别图像的镜头类型及所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型，确定所述视频数据中的每一帧图像的镜头类型。

进一步的，所述确定所述待识别图像的镜头类型，包括：

利用特征点识别网络，从所述待识别图像中识别人脸的特征点，所述特征点包含：两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种；

计算两个眼球特征点的中点与两个嘴角特征点的中点之间的特征距离；

将所述特征距离与所述待识别图像的图画高度的第一比值；

从预设比值区间与镜头类型的对应关系中，找到所述第一比值所处的预设比值区间，确定所述第一比值所处的预设比值区间对应的镜头类型；

将所述第一比值所处的预设比值区间对应的镜头类型，确定为所述待识别图像的镜头类型。

进一步的，所述确定所述待识别图像的镜头类型，包括：

若利用特征点识别网络，从所述待识别图像中未获得人脸的特征点，则将所述待识别图像作为镜头人体识别网络的输入，所述特征点包含：两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种；

利用所述镜头人体识别网络，从所述待识别图像中检测人体目标，得到人体目标的检测框；

计算所述检测框的高度与所述待识别图像的图画高度的第二比值；

从预设比值区间与镜头类型的对应关系中，找到所述第二比值所处的预设比值区间，确定所述第二比值所处的预设比值区间对应的镜头类型；

将所述第二比值所处的预设比值区间对应的镜头类型，确定为所述待识别图像的镜头类型。

第二方面，本发明实施提供了一种镜头类型识别装置，所述装置包括：

抽帧模块，用于对视频数据进行均匀抽帧，得到K帧图像，所述K大于或等于2；

第一判断模块，用于判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化；

第一得到模块，用于若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，则确定所述视频数据为固定机位视频；

第二得到模块，用于从所述K帧图像中抽任一帧图像，作为待识别图像；确定所述待识别图像的镜头类型；

第三得到模块，用于将所述待识别图像的镜头类型，作为所述视频数据中的每一帧图像的镜头类型。

进一步的，所述第一判断模块，用于：

其中，所述

进一步的，所述装置还包括：第二判断模块，用于在将所述仿射变换矩阵中反映变化的元素的值，使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算所述关联特征点对集中每个所述第一区块相对于，所述第一区块对应的第二区块的变化系数之前，判断所述仿射变换矩阵中各个元素的值是否满足预设合法条件，所述预设合法条件是限定各个元素的值的取值范围；

进一步的，所述装置还包括：第三判断模块，用于在计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式之前，判断所述关联特征点对集是否大于第一预设数量；

进一步的，所述装置还包括：第三判断模块，用于在所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于所述第一对比帧图像的镜头运动方式是否发生变化之后，若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于所述第一对比帧图像镜头运动方式发生变化，则对所述视频数据进行均匀抽帧，得到P帧图像，所述P大于所述K；

确定所述待识别图像的镜头类型；

进一步的，所述第二得到模块，用于：

将所述特征距离与所述待识别图像的图画高度的第一比值；

进一步的，所述第二得到模块，用于：

第三方面，本发明实施提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面所述的方法步骤。

第四方面，本发明实施提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

第五方面，本发明实施还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

本发明实施例提供的一种镜头类型识别方法及装置，对视频数据进行均匀抽帧，得到K帧图像，判定所抽的所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，确定视频数据为固定机位视频；然后从K帧图像中抽任一帧图像，作为待识别图像；确定待识别图像的镜头类型；将待识别图像的镜头类型，作为视频数据中的每一帧图像的镜头类型。

由此可见，若K帧图像是固定机位视频图像，则说明视频数据中的每一帧图像的镜头类型是同一种镜头类型，那么只需要抽取任一帧图像，只确定一次镜头类型，就可以得到视频数据中的每一帧图像镜头类型，相较于现有技术，不需要人工对视频数据抽到包含有人脸的图像逐帧确定镜头类型，减少镜头类型确定的运算量，提高运算效率。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图作简单地介绍。

图1为本发明实施例提供的镜头类型识别方法的第一流程示意图；

图2为本发明实施例的计算第一本帧图像相对于第一对比帧图像的第一帧间变化系数的流程示意图；

图3为本发明实施例的计算第一本帧图像相对于第一对比帧图像的第一帧间变化系数的具体流程示意图；

图4为本发明实施例的镜头类型识别方法的整体实现流程示意图；

图5为本发明实施例的利用仿射变换矩阵，计算第一本帧图像相对于第一对比帧图像的第一帧间变化系数的具体流程示意图；

图6为本发明实施例的确定待识别图像的镜头类型的一种流程示意图；

图7为本发明实施例的确定待识别图像的镜头类型的另一种流程示意图；

图8为本发明实施例提供的镜头类型识别方法的第二流程示意图；

图9为本发明实施例的镜头类型识别方法的具体流程示意图；

图10为本发明实施例的镜头类型识别装置的结构示意图；

图11为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

针对现有技术的需要精剪的视频片段的镜头类型，工作量大，工作效率低，从而浪费大量的时间成本和人工成本的问题，本发明实施例提供一种镜头类型识别方法及装置，采用如下步骤确定视频数据中的每一帧图像的镜头类型。

对视频数据进行均匀抽帧，得到K帧图像，判定所抽的所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，确定视频数据为固定机位视频；然后从K帧图像中抽任一帧图像，作为待识别图像；确定待识别图像的镜头类型；将待识别图像的镜头类型，作为视频数据中的每一帧图像的镜头类型。

由此可见，若K帧图像是固定机位视频图像，则说明视频数据中的每一帧图像的镜头类型是同一种镜头类型，那么只需要抽取任一帧图像，只确定一次镜头类型，就可以得到视频数据中的每一帧图像镜头类型，相较于现有技术，不需要人工对视频数据抽到包含有人脸的图像逐帧确定镜头类型，减少镜头类型确定的运算量，提高运算效率。

下面首先对本发明实施例提供的镜头类型识别方法进行介绍。

本发明实施例所提供的一种镜头类型识别方法，应用于电子设备。进一步的，应用于电子设备的视频播放器，比如PC(personal computer，个人计算机端)上用于视频播放的APP(Application，应用程序)，以及客户端上用于视频播放的APP。

参见图1，图1为本发明实施例提供的镜头类型识别方法的第一流程示意图。本发明实施例所提供的镜头类型识别方法，可以包括如下步骤：

步骤110，对视频数据进行均匀抽帧，得到K帧图像，该K大于或等于2。

其中，上述视频数据可以包括拍摄的完整视频，或者拍摄的部分视频。为了得到K帧图像，视频数据的均匀抽帧是间隔第一预设数量帧进行抽取图像的，这样后续可以确定所抽的图像的镜头类型，进而利用确定所抽的图像的镜头类型，判决相邻两帧图像之间间隔第一预设数量帧的图像的镜头类型。第一预设数量帧可以根据用户需要进行设置。

为了方便理解，此处只是举例说明，但并不限于此。比如，一小时为3600秒，每秒传输30帧图像，那么视频数据包含108000帧图像。假设第一预设数量帧为2160帧，那么一小时共均匀抽K＝50帧的图像，即K＝108000/2160＝50。

步骤120，判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化。

其中，镜头运动方式存在各种情况，上述镜头运动方式可以包括：镜头的焦距已发生运动的方式、镜头的焦距未发生运动的方式、镜头的位移已发生运动的方式及镜头的位移未发生运动的方式中的一种或两种以上，其中，镜头的焦距已发生运动的方式包括：推镜头以及拉镜头。具体结合以下内容进行详细说明。

本步骤120可以采用至少一种实现方式，判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化：

在一种实现方式中，第1步，比对第一本帧图像和第一对比帧图像，计算第一本帧图像和第一对比帧图像的相似度；

第2步，在相似度大于预设相似度阈值，则判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式发生变化；

第3步，在相似度小于或等于预设相似度阈值，则判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式未发生变化。这样可以利用相似度与镜头运动方式发生变化呈负相关，判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化。

参见图2所示，在另一种实现方式中，步骤121，计算第一本帧图像相对于第一对比帧图像的第一帧间变化系数。

步骤122，若第一帧间变化系数小于预设变化阈值，则判定K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式未发生变化。

步骤123，若第一帧间变化系数不小于预设变化阈值，则判定K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式发生变化。上述预设相似度阈值、预设变化阈值均可以根据用户需要进行设置，在此不再一一举例。这样可以利用第一帧间变化系数与镜头运动方式发生变化呈正相关，判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化。

参见图3所示，为了能够计算得到上述步骤121的第一本帧图像相对于第一对比帧图像的第一帧间变化系数，可以采用如下步骤1211至步骤1216实现：

步骤1211，获取第一本帧图像的第一选区和第一对比帧图像的第二选区，第一选区是沿第一本帧图像的边缘选择的，且第一选区的面积小于第一本帧图像的面积，第一选区与第二选区对应。

第一选区与第二选区对应，第一选区可以是沿第一本帧图像的边缘选择的，那么第二选区也可以是沿第二本帧图像的边缘选择的。由于图像边缘变化较小，从边缘选择选区的话，可以准确地确定出第一本帧图像相对于第一对比帧图像的第一帧间变化系数，而且相较于选择第一本帧图像的全部区域和第一对比帧图像的全部区域，计算量也比较小。示例性的但不限于：参见图4，选择图像四角100*100的像素块作为选区。

步骤1212，分别对第一选区及第二选区进行均匀区块划分，得到第一本帧图像的两个以上第一区块以及第一对比帧图像的两个以上第二区块，第一区块与第二区块相对应。

参见图4所示，示例性的但不限于：第一本帧图像21每个100*100的第一选区22划分的16个25*25的第一区块221；第一对比帧图像23每个100*100的第二选区24划分的16个25*25的第二区块241。

步骤1213，分别对第一区块及第二区块进行特征提取，得到第一区块的特征点集以及第二区块的特征点集。

步骤1214，将第一区块中特征点集与第二区块中特征点集相匹配的特征点，作为关联特征点对集。

步骤1215，计算关联特征点对集中每个第一区块中特征点集相对于，第一区块对应的第二区块中特征点集的几何变换方式。

其中，上述几何变换方式可以包括：旋转方式、仿射变换方式、镜像方式等任一种或两种以上。任何能够确定本发明实施例的关联特征点对集中每个第一区块中特征点集相对于，第一区块对应的第二区块中特征点集的几何变换方式，均属于本发明实施例的保护范围，在此不再一一举例。

参见图5，本发明实施例，以几何变换方式为仿射变换方式进行说明。本步骤1215可以采用如下步骤计算关联特征点对集中每个第一区块中特征点集相对于，第一区块对应的第二区块中特征点集的几何变换方式：步骤1251，计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的仿射变换矩阵。

步骤1216，利用几何变换方式中反映变化的元素的值，计算得到第一本帧图像相对于第一对比帧图像的第一帧间变化系数。

参见图5，本步骤1216可以采用如下步骤1262至步骤1264，计算得到第一本帧图像相对于第一对比帧图像的第一帧间变化系数：

步骤1262，将仿射变换矩阵中反映变化的元素的值，使用仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算关联特征点对集中每个第一区块相对于，第一区块对应的第二区块的变化系数，仿射变换矩阵的反映变化的元素与预设变化系数呈正相关。

其中，仿射变换矩阵可以用

表示，即，AM_ij为仿射变换矩阵，α为仿射变换矩阵AM_ij中第1行第1列元素的取值，∈为仿射变换矩阵AM_ij中第1行第2列的元素的取值，γ为仿射变换矩阵AM_ij中第1行第3列的元素的取值，ε为仿射变换矩阵AM_ij中第2行第1列的元素的取值，β为仿射变换矩阵AM_ij中第2行第2列的元素的取值，δ为仿射变换矩阵AM_ij中第2行第3列的元素的取值。仿射变换矩阵的元素包括上述所有元素。上述所有元素中任一元素，都可以作为反映变化的元素的值，任何能够表示镜头的焦距或者镜头的位移是否运动的元素，并且表示仿射变换矩阵的反映变化的元素与预设变化系数呈正相关，均属于本发明实施例的保护范围。

上述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为：

其中，

为第k个第一选区的第i行第j列的第一区块相对于，所述第一区块对应的第二区块的变化系数，表示映射函数，将|-1|映射到处于(0,1)的取值范围内，将

映射到处于(0,1)的取值范围内，Θ表示第二调整系数，0<Θ<1，τ表示第一调整系数，0<τ<1。本发明实施例中的映射函数可以为双曲正切函数，也可以为反双曲正切函数，任何能够实现本发明实施例的映射函数，均属于本发明实施例的保护范围，在此不再一一举例。

步骤1263，将各第一选区的所有第一区块相对于，所有第一区块对应的第二区块的变化系数之和，确定为各第一选区相对于第二选区的变化系数。

步骤1264，将所有第一选区相对于第二选区的变化系数之和，与所有第一选区相对于第二选区中的最大变化系数之差，确定为第一本帧图像相对于第一对比帧图像的第一帧间变化系数。这样可以准确地确定出第一本帧图像相对于第一对比帧图像的第一帧间变化系数。

所有第一选区相对于第二选区的变化系数之和可以采用公式

∑_j

表示，第一本帧图像相对于第一对比帧图像的第一帧间变化系数可以采用

表示。其中，所述c^k为第k个第一选区的所有第一区块相对于，所有第一区块对应的第二区块的变化系数，i表示行，j表示列，l表示第一区块的总数，k取值范围为[1，l]。

这里将所有第一选区相对于第二选区的变化系数之和，减去所有第一选区相对于第二选区中的最大变化系数，是为了减少所有第一选区相对于第二选区中的最大变化系数对最终帧间变化系数的影响。

上述实现过程中，利用第一选区和第二选区，计算第一本帧图像相对于第一对比帧图像的第一帧间变化系数，如果K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式的变化小于预设变化阈值，则可以不对K帧图像中每帧图像计算镜头类型，只计算一帧图像的镜头类型，将这一帧图像的镜头类型，作为视频数据中的每一帧图像的镜头类型，这样可减小算法复杂度，提升算法效率，减少GPU资源占用。

步骤130，若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，则确定视频数据为固定机位视频。

为了方便说明步骤130，结合步骤110中的均匀抽帧进行如下说明：

第一种情况，抽取的第一帧图像为第50帧图像，抽取的第二帧图像为第100帧图像，这里抽取的第一帧图像和抽取的第二帧图像称为相邻两帧图像。若第100帧图像与第50帧图像的镜头运动方式没有发生变化，那么第100帧图像维持和第50帧图像的镜头类型一致，也就是将第50帧图像的镜头类型确定为第100帧图像的镜头类型。最后视为视频数据中第51帧图像、第52帧图像，......，及第99帧图像的镜头类型，分别与第50帧图像和第100帧图像的镜头类型一致。

第二种情况，抽取的第一帧图像为第50帧图像，抽取的第二帧图像为第100帧图像，这里抽取的第一帧图像和抽取的第二帧图像称为相邻两帧图像，第100帧图像与第50帧图像的镜头运动方式发生变化，那么需要重新在视频数据中均匀抽取图像，确定重新均匀抽取的图像的镜头类型。

基于此，如果抽取的每帧图像的镜头运动方式均没有发生变化，但是依然对抽取的每帧图像镜头类型都各自计算和判断镜头类型，会增加计算量，因此为了解决此问题，需要执行步骤120，来判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化；如果判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，那么就说明所有K帧图像的镜头类型一样，就不用每帧图像都各自计算和判断镜头类型，进而说明视频数据为固定机位视频，只用计算任一帧图像的镜头类型即可。

为了能够清楚地说明上述所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式，将相邻两帧图像中当前需要确定相对于另一帧图像镜头运动方式的一帧图像，称为本帧图像，其中，另一帧图像为相邻两帧图像中除本帧图像以外的图像。另一帧图像可以用作对照出本帧图像的镜头运动方式，称为对比帧图像。也就是说，这些对比帧图像可以说明本帧图像相较于自身之间的镜头运动方式，示例性的，本帧图像相对于对比帧图像的镜头运动方式为镜头的位移已发生运动的方式。其中，对比帧图像可以是已确定过镜头运动方式的图像，也可以是未确定过镜头运动方式的图像，在此不做限定。

上述对比帧图像可以为相邻两张图像中本帧图像之前相邻的一帧图像，或者对比帧图像可以为相邻两张图像中本帧图像之后相邻的一帧图像。在此不做限定，只要是能够实现上述所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式的对比帧图像，均属于本发明实施例的保护范围。

步骤140，从K帧图像中抽任一帧图像，作为待识别图像。

步骤150，确定待识别图像的镜头类型。镜头类型至少包括如下之一，但不限于：远景(Wide Shot，简称WS)，全景(Full Shot，简称FS)，中景(Middle Shot，简称MS)，近景(Close Shot，简称CS)，特写(Close Up，简称CU)，未知(Unknown，简称UK)。

为了能够更加准确地确定待识别图像的镜头类型，本步骤150至少包括但不限于如下实现方式，确定待识别图像的镜头类型：

参见图6，第一种实现方式，步骤1511，利用特征点识别网络，从待识别图像中识别人脸的特征点，特征点包含：两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种。

其中，特征点识别网络包含：参照物粗选网络，参照物精选网络，参照物特征点提取网络”的三级网络结构。参照物可以是指待处理的对象，比如待识别图像。这个三级网络结构中参照物粗选网络是以图像作为由多个卷积层组成的卷积神经网络的输入，输出多个候选参照物的位置信息(两个点坐标，(x1,y1),(x2,y2)，分别表示参照物所在的矩形框的左上点坐标和右下点坐标；其中，图像包含待识别图像。这样过滤掉无法处理图像，，减少后续复杂网络运算，可大幅减少模型推理时间。

参照物精选网络是以上述参照物粗选网络的输出的参照物位置信息框出矩形的检测框的图像作为参照物精选网络的输入，输出布尔值，即当前输入图像是否为参照物，为真继续保留，为假从候选组中剔除，从而对粗选阶段网络输出的候选参照物进行精选。

参照物特征点提取网络是以参照物精选网络的输出作为输入，输出多个参照物的特征点，其中，特征点的定义和个数与预设选取的参照物类型有关，以人脸为例但不限于，特征点有五个，五个特征点包括两个眼球特征点、两个嘴角特征点及一个鼻尖特征点。

每一个人脸都会得到上述两个眼球特征点、两个嘴角特征点及一个鼻尖特征点，每次计算的时候，也是按照每个人脸所得到的特征点进行运算的。

步骤1512，计算两个眼球特征点的中点与两个嘴角特征点的中点之间的特征距离。

步骤1513，将特征距离与待识别图像的图画高度的第一比值。

待识别图像的图画高度可以是没有处理过的图像的图像高度，也可以是调整为W*H的图像的图画高度，其中，W为图像的宽度，H为图像的高度，这样可以按照调整的图像的高度和亮度进行运算，使用同一调整的尺寸，则可以减少计算量。

步骤1514，从预设比值区间与镜头类型的对应关系中，找到第一比值所处的预设比值区间，确定第一比值所处的预设比值区间对应的镜头类型。

预设比值区间是根据用户需要进行设置的。其中预设比值区间举例如下，但并不限于此。示例性的，预设比值区间可以在(0,0.5)的范围内，对应的镜头类型为远景WS，预设比值区间可以在(0.5,0.7)的范围内，对应的镜头类型为全景FS。

步骤1515，将第一比值所处的预设比值区间对应的镜头类型，确定为待识别图像的镜头类型。这样采用上述第一种实现方式，可以方便快速确定出待识别图像的镜头类型。

由于并不是所有的待处理对象都可以被第一特征点识别网络识别出来，因此为了解决此问题，参见图7，提供的第二种实现方式如下：

步骤1521，若利用特征点识别网络，从待识别图像中未获得人脸的特征点，也就是说明，特征点识别网络无法识别或识别数量为0，则将待识别图像作为镜头人体识别网络的输入，特征点包含：两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种。

其中，镜头人体识别网络为使用现有的单镜头多盒检测器(Single ShotMultiBox Detector，简称SSD)，该单镜头多盒检测器是目标检测领域较新且效果较好的检测算法之一，该镜头人体识别网络输入的内容是图片，输出的内容是简体的检测框(x1，y1，x2，y2)。

本步骤1521，可以采用如下至少一种方式实现，在此不做限定：

在一种方式中，在预设时长内没有采集到待识别图像中的人脸中的特征点，则判定为待识别图像中的人脸中未获得特征点。预设时长可以根据用户需要进行设置，这样可以避免等待过长的时间，可以快速的反馈。

在另一种方式中，多次采集待识别图像，均没有采集到待识别图像中的人脸中的特征点，则判定为待识别图像中的人脸中未获得特征点。这样可以提高特征点的获得结果的准确性。

步骤1522，利用镜头人体识别网络，从待识别图像中检测人体目标，得到人体目标的检测框。

其中，上述人体目标的检测框可以但不限于矩形检测框。这个检测框用于将人体目标包围起来，并且这个检测框的高度可以是检测框的左上角点和检测框的右下角点的高度差，也可以是检测框的左上角点和检测框的左下角点的高度差，或者也可以是检测框的右上角点和检测框的右下角点的高度差。只要能够得到检测框的高度的方式均可，在此不一一举例。

其中，所述方法还包括：利用镜头人体识别网络，从待识别图像中未检测到人体目标，则将待识别图像相邻的下一帧图像，作为待识别图像，继续返回执行确定待识别图像的镜头类型的步骤。这样可以得到待识别图像的镜头类型。

步骤1523，计算检测框的高度与所述待识别图像的图画高度的第二比值。

步骤1524，从预设比值区间与镜头类型的对应关系中，找到第二比值所处的预设比值区间，确定第二比值所处的预设比值区间对应的镜头类型。

一般除了远景WS和全景FS以外的其他镜头类型区分度较小，容易误识别，且人脸识别率较高，所以镜头人体识别网络可以不输出其他镜头类型，只输出远景WS和全景FS。

步骤1525，将第二比值所处的预设比值区间对应的镜头类型，确定为待识别图像的镜头类型。这样采用上述第二种实现方式，可以完善镜头类型的确定体系，能够得到更加准确的待识别图像的镜头类型。

步骤160，将待识别图像的镜头类型，作为视频数据中的每一帧图像的镜头类型。

本发明实施例中，若K帧图像是固定机位视频图像，则说明视频数据中的每一帧图像的镜头类型是同一种镜头类型，那么只需要抽取任一帧图像，只确定一次镜头类型，就可以得到视频数据中的每一帧图像镜头类型，相较于现有技术，不需要人工对视频数据抽到包含有人脸的图像逐帧确定镜头类型，减少镜头类型确定的运算量，提高运算效率，节约计算资源，缩短处理时间；也不需要初步剪辑师浏览上百小时的视频片段，来确定镜头运动方式，从而减少了初步剪辑师的工作量，提高了工作效率。并且，自动确定相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式，节约了人工成本和时间成本。

在结合上述图1、图2、图3、图5、图6及图7，由于可能还会存在所有K帧图像中每相邻两帧图像不一定都小于预设变化阈值的情况，出现这样的情况，说明可能存在每相邻两帧图像的镜头类型不同，则需要重新多抽些帧，确定每相邻两帧图像的镜头类型，因此参见图8，本发明实施例还提供一种可能的实现方式，在步骤120之后，方法还包括：

步骤131，若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于第一对比帧图像镜头运动方式发生变化，则对视频数据进行均匀抽帧，得到P帧图像，P大于K。

为了得到P帧图像，视频数据的均匀抽帧是间隔第二预设数量帧进行抽取图像的，这样后续可以确定所抽的图像的镜头类型，进而利用确定所抽的图像的镜头类型，判决相邻两帧图像之间间隔第二预设数量帧的图像的镜头类型。第二预设数量帧可以根据用户需要进行设置。该第二预设数量帧小于第一预设数量帧。

为了方便理解，此处只是举例说明，但并不限于此。比如，一小时为3600秒，每秒传输30帧图像，那么视频数据包含108000帧。假设每秒抽一帧图像，第二预设数量帧为30帧，那么一小时共均匀抽到3600帧图像，即P＝108000/30＝3600。由于抽取的P帧图像中相邻图像之间的第二预设数量帧小于抽取的K帧图像的中相邻图像之间的第一预设数量帧，相当于抽取P帧图像中相邻图像之间的间隔时间小于抽取K帧图像的中相邻图像之间的间隔时间，可以将对视频数据进行均匀抽帧，得到P帧图像的过程，称为小跨度抽帧；可以将对视频数据进行均匀抽帧，得到K帧图像的过程，称为大跨度抽帧。

步骤132，判断P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化。

其中，第二本帧图像是说明在P帧图像中的本帧图像，第一本帧图像是说明在K帧图像中的本帧图像，第一本帧图像和第二本帧图像是为了区分两个图像，并没有顺序上的限制。

步骤133，将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型，确定为所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型。也就是，镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型维持第二对比帧图像的镜头类型，减少运算量。

步骤134，将镜头运动方式发生变化的相邻两帧图像中第二本帧图像，作为待识别图像。

步骤135，确定待识别图像的镜头类型。

本步骤135待识别图像的镜头类型的确定方式，与上述步骤150的待识别图像的镜头类型的确定方式，本步骤135以镜头运动方式发生变化的相邻两帧图像中第二本帧图像作为处理对象，而上述步骤150以从K帧图像中抽任一帧图像作为处理对象，除两者处理对象不同以外，本步骤135待识别图像的镜头类型的确定方式的过程与上述步骤150的待识别图像的镜头类型的确定方式的过程相同，均可参照上述步骤150的待识别图像的镜头类型的确定方式，在此不再赘述。

步骤136，基于所有待识别图像的镜头类型及镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型，确定视频数据中的每一帧图像的镜头类型。

本发明实施例中，在若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于第一对比帧图像镜头运动方式发生变化，则说明视频数据的镜头类型可能存在多镜头类型，那么就需要重新均匀抽帧，重新抽取得到P帧图像的数目大于K帧图像的数目，并且重新完成P帧图像的镜头类型的确定，相较于现有技术，不需要人工对视频数据抽到包含有人脸的图像逐帧确定镜头类型，减少镜头类型确定的运算量，提高运算效率，节约计算资源，缩短处理时间；也不需要初步剪辑师浏览上百小时的视频片段，来确定镜头运动方式，从而减少了初步剪辑师的工作量，提高了工作效率。并且，自动确定相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式，节约了人工成本和时间成本。

在结合上述图1、图2、图3、图5、图6及图7，由于仿射变换矩阵得到的数值和实际镜头运动方式有差异，会影响相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式的准确性，因此为了解决这个问题，本发明提供一种可能的实现方式，在图5的步骤1261之前，所述方法还包括：判断仿射变换矩阵中各个元素的值是否满足预设合法条件，预设合法条件是限定各个元素的值的取值范围；若仿射变换矩阵中各个元素的值满足预设合法条件，则获取仿射变换矩阵中反映变化的元素的值，继续执行步骤1261。若仿射变换矩阵中各个元素的值不满足预设合法条件，说明仿射变换矩阵不合法，则丢弃仿射变换矩阵。这样一次判断所有的仿射变换矩阵，可以提高仿射变换矩阵的判断效率。

上述预设合法条件根据用户需要或者工业需求进行设定。预设合法条件参见如下举例，但不限于如下举例，任何能够更加准确地确定本帧图像相对于对比帧图像的镜头运动方式的预设合法条件，均属于本发明实施例的保护范围。

示例性，预设合法条件可以包括但不限于：∈<1.0×10^-10、ε<1.0×10^-10、

及α×β>0。

在可能的实现方式中，一次判断所有的仿射变换矩阵，可以提高仿射变换矩阵的判断效率，使得相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式更加准确。

结合上述图1、图2、图3、图5、图6及图7，如果关联特征点对集的总数较少时，可能说明对比帧图像和本帧图像可能并不是相互关联的图像，这样影响本帧图像相对于对比帧图像的镜头运动方式的准确性，因此为了解决这个问题，本发明实施例还提供一种实现方式，在上述图4的步骤125之前，所述方法还包括：判断所述关联特征点对集是否大于第一预设数量；如果关联特征点对集大于第一预设数量，则执行步骤125的步骤。由于关联特征点对集是本帧图像的特征点集相对于对比帧图像的特征点集相匹配得到的，后续完成本帧图像相对于对比帧图像的镜头运动方式的确定，因此关联特征点对集较多时，说明本帧图像和对比帧图像之间更加相似，这样本帧图像相对于对比帧图像的镜头运动方式的确定会更加准确。

上述预设数量可以根据用户需要进行设置，比如，预设数量大于或等于10。示例性的，预设数量可以为20，预设数量也可以为30，任何能够提高本帧图像相对于所述对比帧图像的镜头运动方式准确性的取值，均属于本发明实施例的保护范围，在此不一一举例。

本发明实施例的实现过程中，关联特征点对集较多时，说明K帧图像中每相邻两帧图像中本帧图像和对比帧图像更加相似，这样K帧图像中每相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式的确定会更加准确。

结合上述图1、图2、图3、图5、图6及图7，本发明还提供一种实现方式，在步骤150之后，所述方法还包括：对待识别图像的镜头类型进行镜头标签序列数据平滑；转码镜头标签序列数据平滑后的镜头类型。其中，此处的转码所述镜头标签序列数据平滑后的镜头类型的格式为JSON(JavaScript Object Notation)，JSON是一种轻量级的数据交换格式吧，后期方便使用。

结合图1，参见图9，本发明实施例的具体实现流程，进行如下举例说明：

步骤200，获取视频数据，视频数据包括：所有图像，图像的帧总数total_frames，每秒传输帧数fps，跳帧数skip_frame，初始化当前帧位置current_frame＝0。

步骤210，对视频数据进行均匀抽帧，得到K帧图像，该K大于或等于2。

步骤220，判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化。

步骤230，若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，则确定视频数据为固定机位视频。

步骤240，从所述K帧图像中抽任一帧图像，作为待识别图像。

步骤250，确定待识别图像的镜头类型。

步骤260，将待识别图像的镜头类型，作为视频数据中的每一帧图像的镜头类型。

步骤270，若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于第一对比帧图像镜头运动方式发生变化，则对视频数据进行均匀抽帧，得到P帧图像，P大于K。

步骤280，判断所述P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化。

步骤290，保持镜头类型，进一步包括：若P帧图像中存在相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式未发生变化，则将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型，确定为所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型。

步骤300，重新识别人脸，进一步包括：若P帧图像中存在相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式发生变化，则将镜头运动方式发生变化的相邻两帧图像中第二本帧图像，作为待识别图像current_frame；判断利用特征点识别网络，从待识别图像中的人脸的特征点中是否识别特征点，其中，所述待识别图像current_frame调整为W*H的图像。

步骤310，若利用特征点识别网络，从待识别图像中的人脸的特征点中能够识别特征点，则利用特征点，计算待识别图像的镜头类型，进一步包括：利用特征点识别网络，从待识别图像中识别人脸的特征点；计算两个眼球特征点的中点与两个嘴角特征点的中点之间的特征距离；将特征距离与所述待识别图像的图画高度的第一比值；从预设比值区间与镜头类型的对应关系中，找到第一比值所处的预设比值区间，确定第一比值所处的预设比值区间对应的镜头类型；将第一比值所处的预设比值区间对应的镜头类型，确定为待识别图像的镜头类型。

步骤320，若利用特征点识别网络，从待识别图像中未获得人脸的识别特征点，则利用镜头人体识别网络，计算待识别图像的镜头类型，进一步包括：利用镜头人体识别网络，从待识别图像中检测人体目标，得到人体目标的检测框；计算检测框的高度与待识别图像的图画高度的第二比值；从预设比值区间与镜头类型的对应关系中，找到第二比值所处的预设比值区间，确定第二比值所处的预设比值区间对应的镜头类型；将第二比值所处的预设比值区间对应的镜头类型，确定为待识别图像的镜头类型。

步骤330，判断是否处理完抽取的所有帧图像，如果没有处理完抽取的所有帧图像，则返回继续执行步骤270，直至处理完抽取的所有帧图像；进一步包括：如果当前帧位置current_frame小于图像的帧总数total_frames，则current_frame＝current_frame+skip_frame，则返回步骤270。

步骤340，如果处理完抽取的所有帧图像，则对待识别图像的镜头类型进行镜头标签序列数据平滑；转码镜头标签序列数据平滑后的镜头类型。

上述步骤210至步骤260分别与步骤110至步骤160相同，所限定的内容相同，在此不再赘述。步骤270和步骤280，分别与步骤131至步骤132相同，所限定的内容相同，在此不再赘述。步骤290和步骤300，分别与步骤133至步骤134相同，所限定的内容相同，在此不再赘述。步骤310包含步骤1511至步骤1515，步骤310的内容与步骤1511至步骤1515的内容相同，在此不再赘述。步骤320包含步骤1521至步骤1526，步骤320的内容与步骤1521至步骤1526的内容相同，在此不再赘述。

下面继续对本发明实施例提供的镜头类型识别装置进行介绍。

参见10所示，图10为本发明实施例的镜头类型识别装置的结构示意图。本发明实施例提供镜头类型识别装置，包括：

抽帧模块31，用于对视频数据进行均匀抽帧，得到K帧图像，K大于或等于2；

第一判断模块32，用于判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化；

第一得到模块33，用于若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，则确定视频数据为固定机位视频；

第二得到模块34，用于从K帧图像中抽任一帧图像，作为待识别图像；确定待识别图像的镜头类型；

第三得到模块35，用于将待识别图像的镜头类型，作为视频数据中的每一帧图像的镜头类型。

在一种可能的实现方式中，第一判断模块，用于：

计算第一本帧图像相对于第一对比帧图像的第一帧间变化系数；

若第一帧间变化系数小于预设变化阈值，则判定K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式未发生变化；

若第一帧间变化系数不小于预设变化阈值，则判定K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式发生变化。

在一种可能的实现方式中，第一判断模块，用于：

获取第一本帧图像的第一选区和第一对比帧图像的第二选区，第一选区是沿第一本帧图像的边缘选择的，且第一选区的面积小于第一本帧图像的面积，第一选区与第二选区对应；

分别对第一选区及第二选区进行均匀区块划分，得到第一本帧图像的两个以上第一区块以及第一对比帧图像的两个以上第二区块，第一区块与第二区块相对应；

分别对第一区块及第二区块进行特征提取，得到第一区块的特征点集以及第二区块的特征点集；

将第一区块中特征点集与第二区块中特征点集相匹配的特征点，作为关联特征点对集；

计算关联特征点对集中每个第一区块中特征点集相对于，第一区块对应的第二区块中特征点集的几何变换方式；

利用几何变换方式中反映变化的元素的值，计算得到第一本帧图像相对于第一对比帧图像的第一帧间变化系数。

在一种可能的实现方式中，第一判断模块，用于：

计算关联特征点对集中每个第一区块中特征点集相对于，第一区块对应的第二区块中特征点集的仿射变换矩阵；

利用几何变换方式中反映变化的元素的值，计算得到第一本帧图像相对于第一对比帧图像的第一帧间变化系数，包括：

将仿射变换矩阵中反映变化的元素的值，使用仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算关联特征点对集中每个第一区块相对于，第一区块对应的第二区块的变化系数，仿射变换矩阵的反映变化的元素与预设变化系数呈正相关；

将各第一选区的所有第一区块相对于，所有第一区块对应的第二区块的变化系数之和，确定为各第一选区相对于第二选区的变化系数；

将所有第一选区相对于第二选区的变化系数之和，与所有第一选区相对于第二选区中的最大变化系数之差，确定为第一本帧图像相对于第一对比帧图像的第一帧间变化系数。

在一种可能的实现方式中，仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为：

其中，

为第k个第一选区的第i行第j列的第一区块相对于，第一区块对应的第二区块的变化系数，σ表示映射函数，将|-1|映射到处于(0,1)的取值范围内，将

在一种可能的实现方式中，装置还包括：第二判断模块，用于在将仿射变换矩阵中反映变化的元素的值，使用仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算关联特征点对集中每个第一区块相对于，第一区块对应的第二区块的变化系数之前，判断仿射变换矩阵中各个元素的值是否满足预设合法条件，预设合法条件是限定各个元素的值的取值范围；

若仿射变换矩阵中各个元素的值满足预设合法条件，则获取仿射变换矩阵中反映变化的元素的值，继续执行将仿射变换矩阵中反映变化的元素的值，使用仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算关联特征点对集中每个第一区块相对于，第一区块对应的第二区块的变化系数的步骤。

在一种可能的实现方式中，装置还包括：第三判断模块，用于在计算关联特征点对集中每个第一区块中特征点集相对于，第一区块对应的第二区块中特征点集的几何变换方式之前，判断关联特征点对集是否大于第一预设数量；

如果关联特征点对集大于第一预设数量，则执行计算关联特征点对集中每个第一区块中特征点集相对于，第一区块对应的第二区块中特征点集的几何变换方式的步骤。

在一种可能的实现方式中，装置还包括：第三判断模块，用于在判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化之后，若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于第一对比帧图像镜头运动方式发生变化，则对视频数据进行均匀抽帧，得到P帧图像，P大于K；

判断P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化；

将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型，确定为镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型；

确定待识别图像的镜头类型；

基于所有待识别图像的镜头类型及镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型，确定视频数据中的每一帧图像的镜头类型。

在一种可能的实现方式中，第二得到模块，用于：

利用特征点识别网络，从待识别图像中识别人脸的特征点，特征点包含：两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种；

将特征距离与待识别图像的图画高度的第一比值；

从预设比值区间与镜头类型的对应关系中，找到第一比值所处的预设比值区间，确定第一比值所处的预设比值区间对应的镜头类型；

将第一比值所处的预设比值区间对应的镜头类型，确定为待识别图像的镜头类型。

在一种可能的实现方式中，第二得到模块，用于：

若利用特征点识别网络，从待识别图像中未获得人脸的特征点，则将待识别图像作为镜头人体识别网络的输入，特征点包含：两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种；

利用镜头人体识别网络，从待识别图像中检测人体目标，得到人体目标的检测框；

计算检测框的高度与待识别图像的图画高度的第二比值；

从预设比值区间与镜头类型的对应关系中，找到第二比值所处的预设比值区间，确定第二比值所处的预设比值区间对应的镜头类型；

将第二比值所处的预设比值区间对应的镜头类型，确定为待识别图像的镜头类型。

参见图11，图11为本发明实施例的电子设备的结构示意图。本发明实施例还提供了一种电子设备，包括处理器41、通信接口42、存储器43和通信总线44，其中，处理器41，通信接口42，存储器43通过通信总线44完成相互间的通信，

存储器43，用于存放计算机程序；

处理器41，用于执行存储器43上所存放的程序时，实现如下步骤：

对视频数据进行均匀抽帧，得到K帧图像，K大于或等于2；

判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化；

若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化，则确定视频数据为固定机位视频；

从K帧图像中抽任一帧图像，作为待识别图像；

确定待识别图像的镜头类型；

将待识别图像的镜头类型，作为视频数据中的每一帧图像的镜头类型。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的镜头类型识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的镜头类型识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备/存储介质实施例/包含指令的计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种镜头类型识别方法，其特征在于，所述方法包括：

从所述K帧图像中抽任一帧图像，作为待识别图像；

确定所述待识别图像的镜头类型；

将所述待识别图像的镜头类型，作为所述视频数据中的每一帧图像的镜头类型；

确定所述待识别图像的镜头类型；

2.如权利要求1所述的方法，其特征在于，所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化，包括：

3.如权利要求2所述的方法，其特征在于，所述计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数，包括：

4.如权利要求3所述的方法，其特征在于，所述计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式，包括：

5.如权利要求4所述的方法，其特征在于，所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为：

其中，所述

为第k个第一选区的第i行第j列的第一区块相对于，所述第一区块对应的第二区块的变化系数。

6.如权利要求4或5所述的方法，其特征在于，在将所述仿射变换矩阵中反映变化的元素的值，使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算所述关联特征点对集中每个所述第一区块相对于，所述第一区块对应的第二区块的变化系数之前，所述方法还包括：

7.如权利要求3至5任一项所述的方法，其特征在于，在计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式之前，所述方法还包括：

判断所述关联特征点对集是否大于第一预设数量；

8.如权利要求3、4、5或1所述的方法，其特征在于，所述确定所述待识别图像的镜头类型，包括：

将所述特征距离与所述待识别图像的图画高度的第一比值；

9.如权利要求3、4、5或1所述的方法，其特征在于，所述确定所述待识别图像的镜头类型，包括：

10.一种镜头类型识别装置，其特征在于，所述装置包括：

第三得到模块，用于将所述待识别图像的镜头类型，作为所述视频数据中的每一帧图像的镜头类型；

所述装置还包括：第三判断模块，用于在所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于所述第一对比帧图像的镜头运动方式是否发生变化之后，若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于所述第一对比帧图像镜头运动方式发生变化，则对所述视频数据进行均匀抽帧，得到P帧图像，所述P大于所述K；

确定所述待识别图像的镜头类型；

11.如权利要求10所述的装置，其特征在于，所述第一判断模块，用于：

12.如权利要求11所述的装置，其特征在于，所述第一判断模块，用于：

13.如权利要求12所述的装置，其特征在于，所述第一判断模块，用于：

14.如权利要求13所述的装置，其特征在于，所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为：

其中，所述

15.如权利要求13或14所述的装置，其特征在于，所述装置还包括：第二判断模块，用于在将所述仿射变换矩阵中反映变化的元素的值，使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系，计算所述关联特征点对集中每个所述第一区块相对于，所述第一区块对应的第二区块的变化系数之前，判断所述仿射变换矩阵中各个元素的值是否满足预设合法条件，所述预设合法条件是限定各个元素的值的取值范围；

16.如权利要求12至14任一项所述的装置，其特征在于，所述装置还包括：第三判断模块，用于在计算所述关联特征点对集中每个所述第一区块中特征点集相对于，所述第一区块对应的第二区块中特征点集的几何变换方式之前，判断所述关联特征点对集是否大于第一预设数量；

17.如权利要求12、13、14或10所述的装置，其特征在于，所述第二得到模块，用于：

将所述特征距离与所述待识别图像的图画高度的第一比值；

18.如权利要求12、13、14或10所述的装置，其特征在于，所述第二得到模块，用于：

19.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。