CN110210379A

CN110210379A - 一种结合关键运动特征和颜色特征的镜头边界检测方法

Info

Publication number: CN110210379A
Application number: CN201910462263.7A
Authority: CN
Inventors: 毋立芳; 卢哲; 简萌; 张帅
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-09-06

Abstract

一种结合关键运动特征和颜色特征的镜头边界检测方法属于图像处理领域，目前网络中存在着大量没有分类信息的视频文件，为了方便用户准确高效地寻找自己感兴趣的视频，自动提取视频的语义信息并将它们分类是现在亟需解决的问题。而镜头边界检测在视频语义分析问题中起着基础而重要的作用，它可以有效找到视频中不同关键信息的分界点。关键运动特征由光流估计方法提取，颜色特征由颜色直方图方法提取，两种方法的结合有助于准确地找到镜头边界帧，从而辅助完成视频语义分析和视频分类的任务。通过实验证明本方法优于目前已有的镜头边界检测方法，具有很高的应用价值。

Description

一种结合关键运动特征和颜色特征的镜头边界检测方法

技术领域

本发明设计图像处理领域，具体涉及与一种结合关键运动特征和颜色特征的镜头边界检测方法。

背景技术

近年来，视频图像信息已经成为人们获取信息的主要方式，但上传到网络上的视频文件各式各样，对于这些种类繁多、数目庞大的视频，如果不能将它们根据自身的语义信息进行分类，那么用户获取自己感兴趣的视频是一件十分困难的事情。在大部分语义分类问题中，镜头边界检测都是一个基础的问题。如果能把一段视频根据镜头变换准确地分成若干的视频段，再对每一个视频段进行语义分析，那么语义分类的效率可以大大提升。这就意味着，镜头边界检测的效果直接影响了视频语义分类的质量。

视频的最小单位是帧，连续多帧组成了一个镜头，连续的多个镜头又组成了一个视频，所以视频的语义分析问题就可以转换为多个镜头语义分析问题。镜头的变换可以分成两大类：突变镜头和渐变镜头，突变镜头是两帧之间的镜头变化，渐变镜头是连续多帧按照一定规律进行的镜头变化。而镜头边界检测就是为了检测出这两类镜头变换。

目前对于突变镜头的研究已经有了很大的进展，其主要原理是利用同一镜头中的连续多帧相似性较大，不同镜头之间的镜头边界帧相似性较小，通过比较两帧之间的相似性，就可以区分出正常的连续镜头和突变镜头。比较两帧之间相似性的方法有：基于像素点变化的图像相似性比较方法，基于颜色直方图的图像相似性比较方法，基于边缘信息的图像相似性比较方法等。使用像素点变化的相似性比较方法是最基础的比较两幅图像相似度的方法之一，它逐点比较两幅图像像素点之间的变化，为之后的各种方法提供了方向，但是这种方法明显很复杂，计算量大。基于颜色直方图的图像相似性比较方法主要关注了图像的颜色信息，将图像的颜色信息做成颜色直方图，并比较直方图的相似性，这种方法是目前使用最广泛的方法，但是这种方法对闪光灯这类的颜色异常和运动等信息的鲁棒性较差。基于边缘信息的图像相似性比较方法提取图像中物体的边缘并比较边缘的相似性，这样方法充分利用了图像的边缘信息，但是这种方法通常不单独使用，因为有时图像的边缘信息不那么明显。

除此之外，上述的这些方法都对渐变镜头的检测束手无策，因为渐变镜头相较于突变镜头复杂很多，不能通过单一的特征就对渐变镜头进行检测。现有的渐变镜头检测方法包括双阈值法、建模法等，双阈值法可以检测出渐变镜头中的帧，但是对于渐变镜头的起始帧和结尾帧的检测效果较差，并不能很好的实现镜头的边界检测。建模法可以完整的检测出渐变镜头的所有帧，并可以对渐变镜头分类，但是这种方法计算量很大，需要很好的数学功底，而且往往并不能检测出所有类别的渐变镜头，检测出来的渐变镜头类别一般也是无用信息，所以很难满足镜头边界检测算法的要求。

发明内容

为了解决以上问题，本发明提供了一种结合关键运动特征和颜色特征的镜头边界检测方法。关键运动特征的提取通过光流估计实现，颜色特征的提取通过颜色直方图实现，并加入了帧间的差分序列来区分突变镜头和渐变镜头。本发明同时关注了图像的运动信息和颜色信息，并且也使用了图像间的空间信息和时间信息，在不明显增加运算时间的基础上，得到了良好的镜头边界检测效果。

本发明的具体步骤如下：

步骤一：对于输入的视频，每次读取连续八帧的图像序列，中间两帧是需要进行判断是否是镜头边界帧的帧，其余帧都是辅助判断的帧。

步骤二：通过关键运动特征判断中间两帧是否为镜头变化帧。对于同一镜头下的连续帧来说，帧间物体的移动是很小的。一般肉眼看到24帧每秒的静止图像时可以把这些图像当做连续的动态视频，也就是说现在的视频至少是24帧每秒。在这样的帧率下，同一镜头下两帧之间物体的运动是很小的，而镜头边界的两帧之间物体的运动显然很大，这样就可以通过判断两帧间物体运动的距离来区分出镜头边界帧和正常帧。

光流估计的假设成立是基于以下两点：1、相邻的两帧图像之间亮度不改变；2、相邻两帧之间有相似的运动。同一镜头下的连续两帧图像明显符合这两点假设，这说明这些图像可以得到光流特征，且物体运动很小。镜头边界的两帧之间理论上是没有光流特征的，但是换句话说，它们之间会得到混乱的物体运动特征，而这种运动往往运动的距离很大，所以使用光流宂提取两帧之间的运动，并以此来找到镜头边界镜头是完全可行的。

通常，物体的运动可以通过光流估计进行检测，基于全局的光流估计方法在进行镜头边界帧检测的时候有两方面问题，一是通过两帧提取出的光流很难量化，不好求运动的距离。二是全局的光流估计计算量大，对于同一镜头下的连续两帧来说它们的运动距离其实很小，而镜头边界的两帧运动距离比同一镜头下的两帧运动距离大得多，完全可以通过提取两帧的关键点，并估计它们之间的光流来提取运动特征。

在提取关键点的问题上，本方法使用的是Shi-Tomasi角点检测方法，该方法具有不受光照、旋转、尺度变化影响的特点，这说明利用角点的光流只受图像的运动信息影响，不受颜色信息、位置信息等其他信息的影响，这可以很好的解决颜色信息的干扰，并且适用于移动、缩放这类渐变的检测。在光流估计的问题上，本方法使用了Lucas–Kanade光流算法，这个算法是一种稀疏光流算法，可以解决角点的光流问题。

此外，我们使用欧几里得距离计算关键点之间的运动距离，两帧关于运动的距离为：

其中C_i和C_i是第i帧和第j帧的所有角点特征。c_ik和c_jk是分别是两帧第k个角点的坐标，n是角点数量。如果运动的距离小于阈值则认为这两帧为连续帧，否则这两帧为变化帧。

通过得到两帧之间关于运动特征的距离之后，就可以得到两帧之间运动过大的一组帧，这就是镜头边界检测粗检测结果。

步骤三：经过关键运动特征的镜头边界检测之后，我们得到了关于运动信息的检测结果，然后本方法再使用镜头边界检测问题中使用比较广泛的颜色特征对这个检测结果进行复检。

提取图像颜色特征的一般方法是使用颜色直方图。直方图中的数值只统计颜色的数量特征，而并不关注颜色的空间位置，这就导致了使用这一方法就丢失了颜色的空间信息。而对于一幅图像来说，如果将它分为若干子区域，则子区域的颜色直方图之和等于这幅图片的颜色直方图。这说明对图像分块处理可以提高图像颜色特征的使用效率。

本方法先将第一帧图片等分为若干个子区域，分别计算子区域的颜色直方图，对第二帧图片进行相同操作，然后比较两幅图片对应位置的颜色直方图距离。其中每一块的颜色直方图使用了RGB颜色直方图并计算直方图的距离。一幅图片各个像素点的颜色是确定的，所以各个像素点的RGB值也是确定的，可以分别统计R、G、B三个通道的颜色分布，并将每个通道16等分，得到16个区间。然后对3个通道对应的区间求距离并求和，就可以得到两幅图关于颜色直方图的距离。其公式为：

其中H_i和H_i是第i帧和第j帧的颜色直方图。h_ik和h_jk是分别是两帧第k段区间的颜色数量。如果两帧之间颜色直方图距离小，则认为两帧为连续帧，否则认为为变化帧。

基于分块的颜色直方图方法可以更好的利用图像的局部信息，这种方法充分利用了图像的颜色信息和空间信息。经过这种方法的复检之后，有镜头变换的帧就可以被确定下来了。

步骤四：镜头边界检测的另一个难点就是突变镜头和渐变镜头的区分，渐变镜头和突变镜头的主要区别就是变化帧的数量和连续性，由此本方法提供了一种基于帧间差分序列的检测方案。步骤一中的8帧序列可以写成一个由8个元素组成的有序集合：

{a₁，a₂，a₃，a₄，a₅，a₆，a₇，a₈}

其中a₄，a₅是需要判断镜头变化的当前帧，a₈是新加入集合的帧。在确定了a₄，a₅是有镜头变换的两帧之后，需要继续判断这8帧之间的变化信息。这8帧的变化信息由运动变化和颜色变化组成，将这些变化信息由差分序列表示，则得到：

{(b₁，c₁)，(b₂，c₂)，(b₃，c₃)，(b₄，c₄)，(b₅，c₅)，(b₆，c₆)，(b₇，c₇)|b∈(0，1)，c∈(0，1)}

其中b_i表示颜色变化信息，c_i表示运动变化信息，如果有变化记为1，无变化记为0。将b_i，c_i分别记录则可以得到这8帧的运动变化时间序列和颜色变化时间序列：

{b₁，b₂，b₃，b₄，b₅，b₆，b₇}

{c₁，c₂，c₃，c₄，c₅，c₆，c₇}

根据上面两个序列判断是突变镜头还是渐变镜头，即序列中是否有连续的1。希望被得到的帧有突变帧，渐变镜头首帧和尾帧。其中很短的渐变镜头只取首帧，其余帧全部舍去。序列{b_i}和序列{c_i}同时希望得到该帧则认为该帧为希望被提取出来的镜头边界帧。

经过差分序列的判断之后，镜头边界帧就全部提取了出来。

本发明有如下优点：

关键运动特征的提取充分利用了视频中物体的运动信息，它对图像关于颜色和空间信息的鲁棒性很好，颜色特征的提取充分利用了视频中图像的颜色信息和空间信息，它对运动信息的鲁棒性很好，两种方法的结合可以提高方法整体的鲁棒性，减少误检率。帧间差分序列的使用又利用了视频的时间信息，通过帧间连续性的不同来区分突变镜头和渐变镜头，并且可以排除闪光灯带来的图像失真的问题。本方法可以解决镜头边界帧检测中的大部分问题，检测效果优于同种算法。

附图说明

图1为镜头边界检测算法流程图。

图2为帧间差分序列区分镜头边界帧示意图。

具体实施方式

本发明提出了一种结合关键运动特征和颜色特征的镜头边界检测方法。该发明的具体实现步骤如下：

步骤一：提取视频序列的具体方法为：首先读取视频的前七帧图像，再与后读入的第八帧图像组成1到8帧的视频序列，其中第四帧和第五帧是当前进行镜头边界检测的两帧，第八帧是新输入的帧。然后读取第九帧图像，与2到8帧组成2到9帧的视频序列，其中第五帧和第六帧是当前进行镜头边界检测的两帧，第九帧是新输入的帧。以此类推，每次对8帧的视频序列进行检测。

步骤二：对于需要进行镜头边界检测的中间两帧，首先对第一帧图像进行角点检测，使用的是Shi-Tomasi角点检测方法，其中设定图像中出现的最大角点个数为100个，角点质量评价在0.3以下的点自动忽略，任意两个角点之间的最小欧式距离是5像素，以角点为中心取5像素×5像素的区域，用来匹配相似点。

角点质量评价方法如下：

其中w(x，y)是窗口函数，I(x，y)是该点的强度，I(x+u，y+v)是该点位移强度，E(u，v)是[u，v]这个方向上的图像灰度变化。角点检测需要使E(u，v)最大。

由I(x+u，y+v)＝I(x，y)+I_xu+I_yv+O(u²+v²)，得到：

记上式的结果为Δ，则，

这里I_x和I_y是x和y方向的导数。由于M为2阶方阵，根据|M-λE|＝0,求得M的两个特征值λ₁，λ₂，其中E为单位矩阵，则打分函数为：

R＝min(λ₁，λ₂)

如果打分R超过阈值，即上文所说的0.3，就认为它是角点。

之后使用Lucas–Kanade光流估计方法匹配第一帧图像的角点在第二帧图像上的相似点。其中Lucas–Kanade光流估计的窗口大小设定为15像素15像素，最大的图像金字塔层数设为2层。由此得到第一帧的角点坐标和第二帧的相似点坐标

最后利用欧氏距离求每个角点和其相似点的距离，然后对所有的距离求和，得到两帧图像关于关键运动特征的距离。使检测结果中查准率和查全率达到平衡状态，即F₁值达到0.8以上，这里其中P为查准率，R为查全率，以此在10像素到20像素的范围内以1像素为步长依次试验，若两帧图像关于关键运动特征的距离大于最佳阈值则认为两帧之间存在镜头变换，反之，则认为两帧之间没有镜头变换。

步骤三：将经过粗检得到的镜头进行复检。首先对两帧图像进行分块操作，将图像以边长为50像素的正方形区域进行分割，若图像边缘处边长不足50像素则舍去，记录分块后的图像数量。对于每块图像的颜色特征，使用RGB颜色直方图进行表征。RGB的颜色空间内，每一个通道拥有256个像素值，将这些像素值以16为单位进行分组，得到16×3＝48段颜色区间，统计每个颜色区间的像素值在图像中的总数量，得到RGB颜色直方图。对三个通道分别归一化，并转化为拥有48个元素的数组，对两帧图像对应位置的颜色直方图得到的数组求距离，即对两个数组对应位置的元素求欧氏距离，并求和，得到两帧图像关于颜色特征的距离。使检测结果中查准率和查全率达到平衡状态，即F₁值达到0.8以上，这里其中P为查准率，R为查全率，以此在0.15到0.2的范围内以0.01为步长依次测试，找到F₁最大的值为最佳阈值，若两帧图像关于颜色特征的距离大于最佳阈值则认为两帧之间存在镜头变换，反之，则认为两帧之间没有镜头变换。经过粗检和复检之后，就得到了有镜头变化的帧。

步骤四：根据权利要求1所述的方法，其特征在于步骤(4)中，经过步骤(2)和步骤(3)的检测，确定有镜头变换后才会进行此步。对于步骤(1)中8帧的视频序列，使用步骤(2)和步骤(3)中的方法得到每两帧之间的变化信息，得到帧间差分序列。若既有颜色变化又有运动变化记为(1,1)，若有颜色变化没有运动变化记为(1,0)，若没有颜色变化，只有运动变化记为(0,1)，若既没有颜色变化也没有运动变化记为(0,0)。根据突变镜头只有两帧之间的变化而渐变镜头有多帧连续变化的特点，利用得到的帧间差分序列对变换镜头的类别进行判断。经过步骤(2)和步骤(3)的判断中间两帧被确定为有镜头变换的两帧，则它们之间的变化关系就被量化为了(1,1)。为了方便观测数据，将这8帧的两种变化类型分别记录，则突变镜头的帧间差分序列表示为：

(x，x，0，1，0，x，x，)

x为0或1的任意一种情况，下同。

其余情况是渐变镜头，其中渐变镜头希望被提取的关键帧为渐变的首帧和尾帧，渐变镜头首帧的帧间差分序列表示为：

(x，x，0，1，1，1，1，)

(x，x，0，1，x，x，x，)

或

(x，x，0，1，x，x，x，)

(x，x，0，1，1，1，1，)

渐变镜头尾帧的帧间差分序列表示为：

(1，1，1，1，0，x，x，)

(x，x，x，1，0，x，x，)

或

(x，x，x，1，0，x，x，)

(1，1，1，1，0，x，x，)

列出的这五种情况是希望被得到的镜头边界帧。其余情况为渐变镜头的中间帧，虽然得到了它们的镜头变换分类类别，但这些帧不是用户感兴趣的帧，故舍去。

表1：在TRECVID2005数据集上的整体性能

表2：在TRECVID2005数据集上的性能比较

Claims

1.一种结合关键运动特征和颜色特征的镜头边界检测方法，其特征在于包括以下步骤：

(1)每次读取连续8帧的视频序列，中间两帧是需要进行镜头边界检测的两帧，最后一帧是新加入序列的帧；

(2)根据关键运动特征进行是否有镜头变换的检测；

(3)根据颜色特征对上一步镜头变换检测结果进行复检；

(4)构建帧间差分序列，判断变换镜头的类别，并提取关键帧。

2.根据权利要求1所述的方法，其特征在于步骤(1)中，提取视频序列的具体方法为：首先读取视频的前七帧图像，再与后读入的第八帧图像组成1到8帧的视频序列，其中第四帧和第五帧是当前进行镜头边界检测的两帧，第八帧是新输入的帧；然后读取第九帧图像，与2到8帧组成2到9帧的视频序列，其中第五帧和第六帧是当前进行镜头边界检测的两帧，第九帧是新输入的帧；以此类推，每次对8帧的视频序列进行检测。

3.根据权利要求1所述的方法，其特征在于步骤(2)中，对于需要进行镜头边界检测的中间两帧，首先对第一帧图像进行角点检测，使用的是Shi-Tomasi角点检测方法，其中设定图像中出现的最大角点个数为100个，角点质量评价在0.3以下的点自动忽略，任意两个角点之间的最小欧式距离是5像素，以角点为中心取5像素×5像素的区域，用来匹配相似点；

角点质量评价方法如下：

其中w(x，y)是窗口函数，I(x，y)是该点的强度，I(x+u，y+v)是该点位移强度，E(u，v)是[u，v]这个方向上的图像灰度变化；角点检测需要使E(u，v)最大；

由I(x+u，y+v)＝I(x，y)+I_xu+I_yv+O(u²+v²)，得到：

记上式的结果为Δ，则，

这里I_x和I_y是x和y方向的导数；由于M为2阶方阵，根据|M-λE|＝0,求得M的两个特征值λ₁，λ₂，其中E为单位矩阵，则打分函数为：

R＝min(λ₁，λ₂)

如果打分R超过阈值，即上文所说的0.3，就认为它是角点；

之后使用Lucas–Kanade光流估计方法匹配第一帧图像的角点在第二帧图像上的相似点；其中Lucas–Kanade光流估计的窗口大小设定为15像素×15像素，最大的图像金字塔层数设为2层；由此得到第一帧的角点坐标和第二帧的相似点坐标；

最后利用欧氏距离求每个角点和其相似点的距离，然后对所有的距离求和，得到两帧图像关于关键运动特征的距离；使检测结果中查准率和查全率达到平衡状态，即F₁值达到0.8以上，这里其中P为查准率，R为查全率，以此在10像素到20像素的范围找到F₁最大的值为最佳阈值，若两帧图像关于关键运动特征的距离大于最佳阈值则认为两帧之间存在镜头变换，反之，则认为两帧之间没有镜头变换。

4.根据权利要求1所述的方法，其特征在于：步骤(3)中，将经过粗检得到的镜头进行复检；首先对两帧图像进行分块操作，将图像以边长为50像素的正方形区域进行分割，若图像边缘处边长不足50像素则舍去，记录分块后的图像数量；对于每块图像的颜色特征，使用RGB颜色直方图进行表征；RGB的颜色空间内，每一个通道拥有256个像素值，将这些像素值以16为单位进行分组，得到16×3＝48段颜色区间，统计每个颜色区间的像素值在图像中的总数量，得到RGB颜色直方图；对三个通道分别归一化，并转化为拥有48个元素的数组，对两帧图像对应位置的颜色直方图得到的数组求距离，即对两个数组对应位置的元素求欧氏距离，并求和，得到两帧图像关于颜色特征的距离；使检测结果中查准率和查全率达到平衡状态，即F₁值达到0.8以上，这里其中P为查准率，R为查全率，以此在0.15到0.2的范围内找到F₁最大的值为最佳阈值，若两帧图像关于颜色特征的距离大于最佳阈值则认为两帧之间存在镜头变换，反之，则认为两帧之间没有镜头变换；经过粗检和复检之后，就得到了有镜头变化的帧。

5.根据权利要求1所述的方法，其特征在于步骤(4)中，经过步骤(2)和步骤(3)的检测，确定有镜头变换后才会进行此步；对于步骤(1)中8帧的视频序列，使用步骤(2)和步骤(3)中的方法得到每两帧之间的变化信息，得到帧间差分序列；若既有颜色变化又有运动变化记为(1,1)，若有颜色变化没有运动变化记为(1,0)，若没有颜色变化，只有运动变化记为(0,1)，若既没有颜色变化也没有运动变化记为(0,0)；根据突变镜头只有两帧之间的变化而渐变镜头有多帧连续变化的特点，利用得到的帧间差分序列对变换镜头的类别进行判断；经过步骤(2)和步骤(3)的判断中间两帧被确定为有镜头变换的两帧，则它们之间的变化关系就被量化为了(1,1)；为了方便观测数据，将这8帧的两种变化类型分别记录，则突变镜头的帧间差分序列表示为：

(x，x，0，1，0，x，x，)

x为0或1的任意一种情况，下同；

(x，x，0，1，1，1，1，)

(x，x，0，1，x，x，x，)

或

(x，x，0，1，x，x，x，)

(x，x，0，1，1，1，1，)

渐变镜头尾帧的帧间差分序列表示为：

(1，1，1，1，0，x，x，)

(x，x，x，1，0，x，x，)

或

(x，x，x，1，0，x，x，)

(1，1，1，1，0，x，x，)

列出的这五种情况是希望被得到的镜头边界帧；其余情况为渐变镜头的中间帧，虽然得到了它们的镜头变换分类类别，但这些帧不是用户感兴趣的帧，故舍去。