CN111476101A

CN111476101A - 视频镜头切换检测方法及装置、计算机可读存储介质

Info

Publication number: CN111476101A
Application number: CN202010164726.4A
Authority: CN
Inventors: 周晓晓
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-31

Abstract

本发明涉及图像处理领域，公开了一种视频镜头切换检测方法及装置、计算机可读存储介质。其中，视频镜头切换检测方法，包括：对目标视频进行抽帧处理，获取多个视频帧，依次获取相邻的两个所述视频帧作为目标视频帧和检测视频帧；构建相似距离计算模型；根据所述相似距离计算模型获取所述目标视频帧和所述检测视频帧之间的相似距离；当所述相似距离大于预设阈值时，将所述目标视频帧作为镜头切换帧。本发明实施方式所提供的视频镜头切换检测方法及装置、计算机可读存储介质，具有提升视频镜头切换检测的准确率的优点。

Description

视频镜头切换检测方法及装置、计算机可读存储介质

技术领域

本发明涉及图像处理领域，特别涉及一种视频镜头切换检测方法及装置、计算机可读存储介质。

背景技术

一个视频一般由多个场景组成，一个场景由多个视频帧组成，视频镜头切换检测是指找出一个视频中发生镜头切换的帧和帧位置，得到的位置能用于视频快速和精确剪辑，得到的帧组成的帧序列可以用于粗略描述整个视频内容。例如，不论是电影电视剧作品，还是体育比赛、纪录片、综艺，有效切分与获取相对独立的视频片段，便于进行精彩片段、动态封面以及花絮等选取，提高运营人员工作效率。

然而，本发明的发明人发现，目前大多数视频镜头切换检测是基于传统色彩空间进行，切换帧的判断不够准确，存在误判漏判等现象。因此，如何减少视频镜头切换检测方法的误判率，提高检测准确率是一个亟待解决的问题。

发明内容

本发明实施方式的目的在于提供一种视频镜头切换检测方法及装置、计算机可读存储介质，可以提升视频镜头切换检测的准确率。

为解决上述技术问题，本发明的实施方式提供了一种视频镜头切换检测方法，包括：对目标视频进行抽帧处理，获取多个视频帧，依次将相邻的两个所述视频帧作为目标视频帧和检测视频帧，计算得到所述目标视频帧和所述检测视频帧之间的相似距离；当所述相似距离大于预设阈值时，将所述目标视频帧作为镜头切换帧。

本发明的实施方式还提供了一种视频镜头切换检测装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前述的视频镜头切换检测方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前述的视频镜头切换检测方法。

本发明实施方式相对于现有技术而言，本发明实施方式所提供的视频镜头切换方法中，通过构建相似距离计算模型，依次将相邻的两个视频帧输入相似距离计算模型中，计算目标视频帧和检测视频帧之间的相似距离，当相似距离大于预设阈值时，判定目标视频帧和检测视频帧之间的相似度较小，将目标视频帧作为镜头切换帧。由于本实施方式所提供的视频镜头切换方法无需对基于色彩空间进行场景的切换，从而消除由于图像色彩以及图像类型带来的误判，提升视频镜头切换检测的准确率。

另外，所述计算得到所述目标视频帧和所述检测视频帧之间的相似距离，具体包括：对所述目标视频帧和所述检测视频帧分别进行特征提取，获取所述目标视频帧的特征作为目标特征，获取所述检测视频帧的特征作为检测特征；计算所述目标特征和所述检测特征的差值作为特征差；根据所述特征差确定所述相似距离。

另外，所述对所述目标视频帧和所述检测视频帧分别进行特征提取，具体包括：利用Ale×Net模型对所述目标视频帧和所述检测视频帧分别进行特征提取，所述Ale×Net模型包括多个卷积层、多个relu层、以及多个池化层；其中，各个所述relu层用于输出所述目标视频帧的特征作为目标特征得到多个所述目标特征、并用于输出所述检测视频帧的特征作为检测特征得到多个所述检测特征；所述计算所述目标特征和所述检测特征的差值作为特征差，具体包括：计算各个所述relu层输出的所述目标特征与同一所述relu层输出的所述检测特征的差值作为特征差，得到多个所述特征差。

另外，所述根据所述特征差确定所述相似距离，具体包括：利用卷积组NetLinlayer对所述特征差进行特征提取、获取与所述特征差一一对应的输出矩阵，所述卷积组NetLinlayer包括Dropout层和卷积层；获取各个所述输出矩阵的行平均值，得到多个行平均值矩阵；获取各个所述行平均值矩阵的列平均值；将所述列平均值的和值作为所述相似距离。

另外，所述根据所述相似距离计算模型获取所述目标视频帧和所述检测视频帧之间的相似距离前，还包括：构建相似距离计算模型；根据多个训练图像集对所述相似距离计算模型进行数据训练；所述训练图像集包括第一图像、第二图像、参考图像及预设标志，所述预设标志用于表征所述第一图像与所述参考图像的相似度和所述第二图像与所述参考图像的相似度的大小关系。通过对相似距离计算模型进行数据训练，可以有效的提升相似距离计算模型的鲁棒性，进而提升相似距离的计算精准度，提升视频镜头切换检测的准确率。

另外，所述对所述相似距离计算模型进行数据训练，具体包括：根据所述相似距离计算模型计算得到各个所述训练图像集中所述第一图像与所述参考图像的相似距离作为第一相似距离；根据所述相似距离计算模型计算得到各个所述训练图像集中所述第二图像与所述参考图像的相似距离作为第二相似距离；根据所述第一相似距离和所述第二相似距离构建训练矩阵；根据所述训练矩阵获取所述第一图像、所述第二图像分别与所述参考图像的相似概率；根据所述相似概率和所述预设标志，建立所述相似距离计算模型的损失函数。

另外，所述根据所述第一相似距离和所述第二相似距离构建训练矩阵，具体包括：对所述第一相似距离和所述第二相似距离分别进行除法和减法运算，形成所述训练矩阵；所述根据所述训练矩阵获取所述第一图像、所述第二图像分别与所述参考图像的相似概率，具体包括：利用预设卷积组、根据所述训练矩阵获取所述第一图像、所述第二图像分别与所述参考图像的相似概率，所述预设卷积组包括相互连接的卷积层、LeakyRelu层及sigmod激活函数层。

另外，所述建立所述相似距离计算模型的损失函数，具体包括：采用交叉熵损失函数作为所述相似距离计算模型的损失函数。

附图说明

图1是本发明第一实施方式所提供的视频镜头切换检测方法的流程图；

图2是本发明第一实施方式所提供的视频镜头切换检测方法中计算相似距离的流程图；

图3是本发明第二实施方式所提供的视频镜头切换检测方法的流程图；

图4是本发明第二实施方式所提供的视频镜头切换检测方法中对相似距离计算模型进行数据训练的流程图；

图5是本发明第三实施方式所提供的视频镜头切换检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种视频镜头切换检测方法。具体流程如图1所示，包括以下步骤：

步骤S101：对目标视频进行抽帧处理。

具体的，在本实施方式中，目标视频为待进行视频镜头切换检测的视频，对目标视频进行抽帧处理，即从目标视频中抽取多个视频帧。在本实施方式中，多个视频帧为目标视频中所包含的所有帧图像。可以理解的是，在本实施方式中，多个视频帧为目标视频中所包含的所有帧图像仅为本实施方式中的一种具体的举例说明，并不构成限定，在本发明的其它实施方式中，也可以是如每间隔预设帧数获取一个视频帧等方法获得多个视频帧，具体可以根据实际需要进行灵活的选用，在此不进行一一列举。

步骤S102：计算得到目标视频帧和检测视频帧之间的相似距离。

具体的，在本实施方式中，目标视频帧和检测视频帧并不专指某两帧固定的视频帧，而是依次将相邻的两个所述视频帧作为目标视频帧和检测视频帧；即目标视频帧和检测视频帧为相邻的两个视频帧。例如，当计算第一帧视频帧和第二帧视频帧之间的相似距离时，第一帧视频帧即为目标视频帧，第二帧视频帧即为检测视频帧；当计算第二帧视频帧和第三帧视频帧之间的相似距离时，第二帧视频帧即为目标视频帧，第三帧视频帧即为检测视频帧；以此类推。

进一步的，在本实施方式中，根据相似距离计算模型获取目标视频帧和检测视频帧之间的相似距离。即预先构建相似距离计算模型，并根据多个训练图像集对相似距离计算模型进行数据训练，直至训练完成，训练完成后的相似距离计算模型即可用于计算目标视频帧和检测视频帧之间的相似距离。其中，训练图像集包括第一图像、第二图像、参考图像及预设标志，预设标志用于表征第一图像与参考图像的相似度和第二图像与参考图像的相似度的大小关系。

在本实施方式中，相似距离计算模型获取目标视频帧和检测视频帧之间的相似距离的具体步骤如图2所示，包括：

步骤S201：对目标视频帧和检测视频帧分别进行特征提取。

具体的，在本实施方式中，获取目标视频帧的特征作为目标特征，获取检测视频帧的特征作为检测特征。

进一步的，在本实施方式中，利用Ale×Net模型对目标视频帧和检测视频帧分别特征提取，Ale×Net模型包括多个卷积层、多个relu层、以及多个池化层。其中，各个relu层用于输出目标视频帧的特征作为目标特征得到多个目标特征、并用于输出检测视频帧的特征作为检测特征得到多个检测特征。如下表所示为本实施方式中所采用的Ale×Net模型的一种具体的结构。可以理解的是，下表所示仅为Ale×Net模型的一种具体的结构举例，并不构成限定。

其中，包含5个卷积层、5个relu层、2个池化层，卷积层的卷积核大小分别为11×11、5×5、3×3、3×3、3×3。对于输入的目标视频帧和检测视频帧，通过每个relu(线性整流)层后可得到不同的图像特征，分别获取每张图像经过每个Relu层之后的图像特征。其中目标视频帧输出图像特征，即目标特征表示为P0_out_1、P0_out_2、P0_out_3、P0_out_4、P0_out_5，分别为15×15、7×7、3×3、3×3、3×3的矩阵。其中检测视频帧输出图像特征，即检测特征表示为ref_out_1、ref_out_2、ref_out_3、ref_out_4、ref_out_5，分别为15×15、7×7、3×3、3×3、3×3的矩阵。

步骤S202：计算目标特征和检测特征的特征差。

具体的，在本实施方式中，计算目标视频帧与检测视频帧经过每个Relu层的特征差，即计算各个relu层输出的目标特征与同一relu层输出的检测特征的差值作为特征差。在本例中，即得到diff_1、diff_2、diff_3、diff_4、diff_5五个特征差，分别为15×15、7×7、3×3、3×3、3×3的矩阵，其中特征差diff_i公式如下：

diff_i|P0_out_i-ref_out_i|(i＝1，2，3，4，5)。

步骤S203：根据特征差确定相似距离。

具体的，在本实施方式中，利用卷积组NetLinlayer对特征差进行特征提取、获取多个输出矩阵。其中，卷积组NetLinlayer包括Dropout层和卷积层。将目标视频帧与检测视频帧之间的特征差，在本实施方式的举例说明中即为diff_1、diff_2、diff_3、diff_4、diff_5，分别输入到对应NetLinlayer中,经过NetLinlayer中的dropout层以及卷积层，将特征差diff_1、diff_2、diff_3、diff_4、diff_5再次进行特征提取，对应得到输出矩阵diff_conv_1、diff_conv_2、diff_conv_3、diff_conv_4、diff_conv_5，矩阵大小分别为15×15、7×7、3×3、3×3、3×3。

获取各个输出矩阵的行平均值，得到多个行平均值矩阵；获取各个行平均值矩阵的列平均值；将列平均值的和值作为相似距离。例如矩阵diff_conv_1，首先将15×15的矩阵进行列平均，得到1×15的矩阵，再将1×15的矩阵进行行平均，得到1×1的矩阵。待矩阵diff_conv_1、diff_conv_2、diff_conv_3、diff_conv_4、diff_conv_5的列平均值均计算完毕后，计算所有列平均值的和值作为目标视频帧和检测视频帧之间的相似距离。

步骤S103：当相似距离大于预设阈值时，将目标视频帧作为镜头切换帧。

具体的，在本实施方式中，每当检测到目标视频帧和检测视频帧之间的相似距离大于预设阈值时，将目标视频帧作为镜头切换帧。需要说明的是，预设阈值为认为设置的固定常数，其可以根据实际需要进行灵活的设置。

与现有技术相比，本发明第一实施方式所提供的视频镜头切换检测方法中，通过构建相似距离计算模型，依次将相邻的两个视频帧输入相似距离计算模型中，计算目标视频帧和检测视频帧之间的相似距离，当相似距离大于预设阈值时，判定目标视频帧和检测视频帧之间的相似度较小，将目标视频帧作为镜头切换帧。由于本实施方式所提供的视频镜头切换方法无需对基于色彩空间进行场景的切换，从而消除由于图像色彩以及图像类型带来的误判，提升视频镜头切换检测的准确率。

本发明第二实施方式涉及一种视频镜头切换检测方法，具体步骤如图3所示，包括：

步骤S301：对目标视频进行抽帧处理。

步骤S302：构建相似距离计算模型。

需要说明的是，在本实施方式中所提供的步骤S301和步骤S302与第一实施方式所提供的步骤S101和步骤S102大致相同，在此不再赘述。

步骤S303：对相似距离计算模型进行数据训练。

具体的，在本实施方式中，根据多个训练图像集对相似距离计算模型进行数据训练；其中，训练图像集包括第一图像、第二图像、参考图像及实际标志。具体如图4所示，包括以下步骤：

步骤S401：根据相似距离计算模型获取各个训练图像集中第一图像与参考图像的相似距离作为第一相似距离。

步骤S402：根据相似距离计算模型获取各个训练图像集中第二图像与参考图像的相似距离作为第二相似距离。

可以理解的是，本实施方式中的步骤S401和步骤S402中求取第一相似距离和第二相似距离的具体步骤与第一实施方式中的步骤S103中的具体步骤大致相同，在此不再赘述。

步骤S403：根据第一相似距离和第二相似距离构建训练矩阵。

具体的，在本实施方式中，对第一相似距离和第二相似距离分别进行除法和减法运算，形成训练矩阵。

进一步的，在本实施方式中，训练矩阵为[第一相似距离、第二相似距离、第一相似距离–第二相似距离、第一相似距离/第二相似距离、第二相似距离/第一相似距离]。可以理解的是，前述仅为本实施方式中训练矩阵的一种具体的举例说明，并不构成限定。

步骤S404：根据训练矩阵获取参考图像与第一图像、第二图像的相似概率。

在本实施方式中，利用预设卷积组Dist2LogitLayer，根据训练矩阵获取第一图像、第二图像分别与参考图像的相似概率，其中，预设卷积组Dist2LogitLayer包括相互连接的卷积层、LeakyRelu层及sigmod激活函数层。具体的，即将训练矩阵输入到卷积组Dist2LogitLayer中，卷积组Dist2LogitLayer即可输出第一图像、第二图像分别与参考图像的相似概率。例如，下表所示为本实施方式中卷积组Dist2LogitLayer的一种具体的举例，可以理解的是，下表所示仅为一种具体的实施实例，并不构成限定。

网络类型	输出大小	(滤波器个数,卷积大小)
			卷积层1	1×1	32，1×1，步长1,填充0
LeakyReLU1	1×1
			卷积层2	1×1	32，1×1，步长1，填充0
LeakyReLU1	1×1
			卷积层3	1×1	1，1×1，步长1，填充0
Sigmod	1×1

具体的，卷积组Dist2LogitLayer的输出值定义为参考图像与第一图像、第二图像的相似概率。其表现形式为二分类的概率值，代表参考图像与第一图像、第二图像的相似概率，相似概率越小则代表参考图像与第一图像更相似，该值越大，则代表参考图像与第二图像更相似。

步骤S405：根据相似概率和实际标志，建立相似距离计算模型的损失函数。

具体的，在本实施方式中，将卷积组Dist2LogitLayer输出的相似概率与实际标志进行交叉熵损失计算得到损失值。交叉熵损失函数公式如下：

loss(x，y)＝-w[ylogx+(1-y)log(1-x)]；

其中，y代表实际标志，x代表卷积组Dist2LogitLayer输出的相似概率，w为初始化权重、为固定常数。

根据损失函数计算得到得到损失值后，通过反向传播算法对模型进行训练，直至损失值小于预设损失值。

步骤S304：根据相似距离计算模型获取目标视频帧和检测视频帧之间的相似距离。

步骤S305：当相似距离大于预设阈值时，将目标视频帧作为镜头切换帧。

需要说明的是，在本实施方式中所提供的步骤S304和步骤S305与第一实施方式所提供的步骤S103和步骤S104大致相同，在此不再赘述。

与现有技术相比，本发明第二实施方式所提供的视频镜头切换检测方法在保留第一实施方式的全部技术效果的同时，通过对相似距离计算模型进行数据训练，有效的增加相似距离计算模型的鲁棒性。进而提升相似距离的计算精准度，提升视频镜头切换检测的准确率。

本发明第三实施方式涉及一种视频镜头切换检测装置，如图5所示，包括：至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行如上述视频镜头切换检测方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本发明第三实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频镜头切换检测方法，其特征在于，包括：

对目标视频进行抽帧处理，获取多个视频帧，依次将相邻的两个所述视频帧作为目标视频帧和检测视频帧，计算得到所述目标视频帧和所述检测视频帧之间的相似距离；

当所述相似距离大于预设阈值时，将所述目标视频帧作为镜头切换帧。

2.根据权利要求1所述的视频镜头切换检测方法，其特征在于，所述计算得到所述目标视频帧和所述检测视频帧之间的相似距离，具体包括：

对所述目标视频帧和所述检测视频帧分别进行特征提取，获取所述目标视频帧的特征作为目标特征，获取所述检测视频帧的特征作为检测特征；

计算所述目标特征和所述检测特征的差值作为特征差；

根据所述特征差确定所述相似距离。

3.根据权利要求2所述的视频镜头切换检测方法，其特征在于，所述对所述目标视频帧和所述检测视频帧分别进行特征提取，具体包括：

利用Ale×Net模型对所述目标视频帧和所述检测视频帧分别进行特征提取，所述Ale×Net模型包括多个卷积层、多个relu层、以及多个池化层；

其中，各个所述relu层用于输出所述目标视频帧的特征作为目标特征得到多个所述目标特征、并用于输出所述检测视频帧的特征作为检测特征得到多个所述检测特征；

所述计算所述目标特征和所述检测特征的差值作为特征差，具体包括：

计算各个所述relu层输出的所述目标特征与同一所述relu层输出的所述检测特征的差值作为特征差，得到多个所述特征差。

4.根据权利要求2所述的视频镜头切换检测方法，其特征在于，所述根据所述特征差确定所述相似距离，具体包括：

利用卷积组NetLinlayer对所述特征差进行特征提取、获取与所述特征差一一对应的输出矩阵，所述卷积组NetLinlayer包括Dropout层和卷积层；

获取各个所述输出矩阵的行平均值，得到多个行平均值矩阵；

获取各个所述行平均值矩阵的列平均值；

将所述列平均值的和值作为所述相似距离。

5.根据权利要求1所述的视频镜头切换检测方法，其特征在于，所述计算得到所述目标视频帧和所述检测视频帧之间的相似距离前，还包括：

构建相似距离计算模型；

根据多个训练图像集对所述相似距离计算模型进行数据训练；

所述训练图像集包括第一图像、第二图像、参考图像及预设标志，所述预设标志用于表征所述第一图像与所述参考图像的相似度和所述第二图像与所述参考图像的相似度的大小关系。

6.根据权利要求5所述的视频镜头切换检测方法，其特征在于，所述对所述相似距离计算模型进行数据训练，具体包括：

根据所述相似距离计算模型计算得到各个所述训练图像集中所述第一图像与所述参考图像的相似距离作为第一相似距离；

根据所述相似距离计算模型计算得到各个所述训练图像集中所述第二图像与所述参考图像的相似距离作为第二相似距离；

根据所述第一相似距离和所述第二相似距离构建训练矩阵；

根据所述训练矩阵获取所述第一图像、所述第二图像分别与所述参考图像的相似概率；

根据所述相似概率和所述预设标志，建立所述相似距离计算模型的损失函数。

7.根据权利要求6所述的视频镜头切换检测方法，其特征在于，所述根据所述第一相似距离和所述第二相似距离构建训练矩阵，具体包括：

对所述第一相似距离和所述第二相似距离分别进行除法和减法运算，形成所述训练矩阵；

所述根据所述训练矩阵获取所述第一图像、所述第二图像分别与所述参考图像的相似概率，具体包括：

利用预设卷积组、根据所述训练矩阵获取所述第一图像、所述第二图像分别与所述参考图像的相似概率，所述预设卷积组包括相互连接的卷积层、LeakyRelu层及sigmod激活函数层。

8.根据权利要求6所述的视频镜头切换检测方法，其特征在于，所述建立所述相似距离计算模型的损失函数，具体包括：

采用交叉熵损失函数作为所述相似距离计算模型的损失函数。

9.一种视频镜头切换检测装置，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的视频镜头切换检测方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的视频镜头切换检测方法。