CN105912981A

CN105912981A - 视频转场判断方法及装置

Info

Publication number: CN105912981A
Application number: CN201610202103.5A
Authority: CN
Inventors: 杨帆; 白茂生; 魏伟; 蔡砚刚; 刘阳
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Current assignee: LeCloud Computing Co Ltd; LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-31
Also published as: WO2017166585A1

Abstract

本发明涉及一种视频转场判断方法及装置。视频转场判断方法包括：计算视频帧在图像上划分的多个区域分别对应的直方图；对相邻视频帧的各个区域的直方图分别进行求差运算，并从求差结果去除极值后取均值；根据所述均值的取值确定发生视频转场的视频帧号。本发明将视频帧在图像上划分成多个区域，并分别计算各个区域的直方图，并且在求取直方图求差结果的均值时去除极值，这样就可以消除屏幕中物体突然出现或者消失对视频转场判断所带来的干扰，进而减少转场判断的错误可能性。

Description

视频转场判断方法及装置

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频转场判断方法及装置。

背景技术

在视频文件中存在着多个段落和场景，随着时间轴的进行就会出现段落或者场景之间的切换和过渡，而这种切换和过渡就被称为转场。转场时刻的确定对于视频编辑工作、关键帧的判断等方面非常重要，常见的方式是由人工浏览视频来确定转场时刻的，效率非常低下，同时还会占用大量人力，进而造成视频处理工作整体效率的降低。

为了解决这一问题，目前已出现了针对视频进行自动转场分析的实现方案，通过视频序列中的相邻帧的直方图的计算来确定相邻帧之间的差异是否超过门限值，由此来确定转场发生的时刻。但是，这种转场分析方式存在着一些缺点：

1、在实际场景并未改变的情况下，有物体在屏幕中突然出现或者消失时可能会判定成发生转场，从而造成误判。

2、由于涉及到大量视频帧的直方图的计算，因此计算量非常大。

发明内容

本发明的目的是提出一种视频转场判断方法及装置，能够减少转场判断的错误可能性。

为实现上述目的，本发明提供了一种视频转场判断方法，包括：

计算视频帧在图像上划分的多个区域分别对应的直方图；

对相邻视频帧的各个区域的直方图分别进行求差运算，并从求差结果去除极值后取均值；

根据所述均值的取值确定发生视频转场的视频帧号。

进一步的，所述计算视频帧在图像上划分的多个区域分别对应的直方图的操作具体包括：

将所述视频帧在图像上划分为多个区域；

对各个区域内图像的颜色进行量化；

计算量化后的各个区域内图像的直方图。

进一步的，所述将所述视频帧在图像上划分为多个区域的操作具体为：

将所述视频帧在图像上划分为多个等分区域。

进一步的，所述对各个区域内图像的颜色进行量化的操作具体为：

采用标准颜色调色板对各个区域内图像的颜色进行量化。

进一步的，所述对相邻视频帧的各个区域的直方图分别进行求差运算，并从求差结果去除极值后取均值的操作为：

通过下列公式对相邻视频帧的各个区域的直方图分别进行求差运算，

D_{t}^{i} {(Σ_{j = 1}^{N c} {(H_{t}^{i} (j) - H_{t - 1}^{i} (j))}^{2})}^{\frac{1}{2}}

从求差结果中去掉最大值，再计算均值，公式如下：

其中，分别为第i个区域中第j个颜色的第t帧和第t-1帧的直方图，Nc为划分区域内颜色的个数，N为图像中划分的区域个数，为第t帧与第t-1帧在第i个区域的求差结果，D_mean(t)为第t帧与第t-1帧的求差结果的均值，即求差均值。

进一步的，所述根据所述均值的取值确定所述相邻视频帧是否发生视频转场的操作具体包括：

计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值；

计算所有局部最大值的平均值，确定为局部最大均值；

根据各个局部最大值与所述局部最大均值的差值确定发生视频转场的视频帧号。

进一步的，所述计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值的操作具体为：

计算各视频帧的求差均值的二阶导数，公式如下：

D″_mean(t)＝D_mean(t)-2*D_mean(t+1)+D_mean(t+2)；

确定满足以下公式的所有视频帧的求差均值的二阶导数的局部最大值，

D″_mean(t)＞D″_mean(t-1)，且D″_mean(t)＞D″_mean(t+1)；

其中，D_mean(t-1)、D_mean(t)、D_mean(t+1)、D_mean(t+2)分别为第t-1、t、t+1、t+2帧的求差均值。

进一步的，所述根据各个局部最大值与所述局部最大均值的差值确定发生视频转场的视频帧号的操作具体包括：

确定所有局部最大值中的最大值和最小值作为K-means聚类算法的初始质心，并选择K值为2；

通过K-means聚类算法对各个局部最大值与所述局部最大均值的差值进行处理，并将分类到最大值一类的局部最大值对应的视频帧号确定为发生视频转场的视频帧号。

为实现上述目的，本发明提供了一种视频转场判断装置，包括：

直方图计算模块，用于计算视频帧在图像上划分的多个区域分别对应的直方图；

求差运算模块，用于对相邻视频帧的各个区域的直方图分别进行求差运算；

求差均值获取模块，用于从求差结果去除极值后取均值；

转场帧号确定模块，用于根据所述均值的取值确定发生视频转场的视频帧号。

进一步的，所述直方图计算模块具体包括：

区域划分单元，用于将所述视频帧在图像上划分为多个区域；

颜色量化单元，用于对各个区域内图像的颜色进行量化；

直方图计算单元，用于计算量化后的各个区域内图像的直方图。

进一步的，所述视频转场确定模块具体包括：

局部最大值确定单元，用于计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值；

局部最大均值确定单元，用于计算所有局部最大值的平均值，确定为局部最大均值；

转场帧号确定单元，用于根据各个局部最大值与所述局部最大均值的差值确定发生视频转场的视频帧号。

进一步的，所述局部最大值确定单元，计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值的操作具体为：

计算各视频帧的求差均值的二阶导数，公式如下：

D″_mean(t)＝D_mean(t)-2*D_mean(t+1)+D_mean(t+2)；

D″_mean(t)＞D″_mean(t-1)，且D″_mean(t)＞D″_mean(t+1)；

进一步的，所述转场帧号确定单元具体包括：

初始值设定子单元，用于确定所有局部最大值中的最大值和最小值作为K-means聚类算法的初始质心，并选择K值为2；

K-means聚类单元，用于通过K-means聚类算法对各个局部最大值与所述局部最大均值的差值进行处理；

转场帧号确定子单元，用于将分类到最大值一类的局部最大值对应的视频帧号确定为发生视频转场的视频帧号。

进一步的，所述求差运算模块，通过下列公式对相邻视频帧的各个区域的直方图分别进行求差运算，

D_{t}^{i} {(Σ_{j = 1}^{N c} {(H_{t}^{i} (j) - H_{t - 1}^{i} (j))}^{2})}^{\frac{1}{2}}

所述求差均值获取模块，用于从求差结果中去掉最大值，再计算均值，公式如下：

从上面所述可以看出，本发明提供的视频转场判断方法及装置将视频帧在图像上划分成多个区域，并分别计算各个区域的直方图，并且在求取直方图求差结果的均值时去除极值，这样就可以消除屏幕中物体突然出现或者消失对视频转场判断所带来的干扰，进而减少转场判断的错误可能性。

附图说明

图1为本发明视频转场判断方法的一实施例的流程示意图。

图2为本发明视频转场判断方法的另一实施例的流程示意图。

图3为本发明视频转场判断方法的又一实施例的流程示意图。

图4为本发明视频转场判断方法的再一实施例的流程示意图。

图5为本发明视频转场判断装置的一实施例的结构示意图。

图6为本发明视频转场判断装置的另一实施例的结构示意图。

图7为本发明视频转场判断装置的又一实施例的结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

现有的视频自动转场分析采用的是计算相邻帧的直方图来确定相邻帧之间的差异，但这种方式难以区分视频帧的图像上的全局变化和局部变化，因此很容易造成误判。本发明在计算直方图时将图像划分成多个区域，并在计算时去除极值，以便尽量排除图像的局部变化对全局变化的影响。

如图1所示，为本发明视频转场判断方法的一实施例的流程示意图。在本实施例中，视频转场判断方法包括：

步骤100、计算视频帧在图像上划分的多个区域分别对应的直方图；

步骤200、对相邻视频帧的各个区域的直方图分别进行求差运算，并从求差结果去除极值后取均值；

步骤300、根据所述均值的取值确定发生视频转场的视频帧号。

在本实施例中，将视频帧在图像上划分成多个区域，并分别计算各个区域的直方图，并且在求取直方图求差结果的均值时去除极值，当屏幕中物体突然出现或者消失时，这一局部的变化可以在求取直方图求差结果的均值时被去掉，从而消除屏幕中物体突然出现或者消失对视频转场判断所带来的干扰，进而减少转场判断的错误可能性。

如图2所示，为本发明视频转场判断方法的另一实施例的流程示意图。与上一实施例相比，本实施例的步骤100具体包括：

步骤110、将所述视频帧在图像上划分为多个区域；

步骤120、对各个区域内图像的颜色进行量化；

步骤130、计算量化后的各个区域内图像的直方图。

在本实施例中，视频帧的图像可以划分为多个区域，这个区域的划分方式和划分数量可以预先设定，例如按照预设的排数和列数进行划分，或者按照图像中不同区域的重要性来划分区域等。优选将所述视频帧在图像上划分为多个等分区域，例如划分为4个等分区域，即每个等分区域的宽高各为整体图像的一半。这样在划分操作上更加方便。在整个视频序列的处理过程中，可以根据历史数据来自适应的调整区域的划分方式和数量，以便尽量减少转场判断的错误可能性。

直方图的计算是针对于视频帧中的图像的颜色进行计算，但通常来说，每个划分区域都会产生RGB(256*256*256)维度的向量，涉及16777216个颜色，这显然会消耗大量的计算资源，而且并不会对判断结果造成显著的影响。因此本实施例在计算直方图之前，可以先对各个区域内图像的颜色进行量化，量化后的图像颜色能够显著减少，从而使计算效率提高。优选采用标准颜色调色板对各个区域内图像的颜色进行量化，即将每个分量平均量化为6份，这样总共才有216个颜色，从而能够非常显著的提高计算效率。当然，根据直方图计算结果对最终判断结果的影响，还可以选择其它的量化方式。

通过对量化后的颜色进行直方图计算，得到直方图的结果即为t为当前时刻，也表示的是视频帧号。i为视频帧的图像中第i个区域。在步骤200中，先通过下列公式对相邻视频帧的各个区域的直方图分别进行求差运算，

D_{t}^{i} {(Σ_{j = 1}^{N c} {(H_{t}^{i} (j) - H_{t - 1}^{i} (j))}^{2})}^{\frac{1}{2}}

从求差结果中去掉最大值，再计算均值，公式如下：

在本实施例中，采用的是去除最大值的方式，在其他实施例中也可以根据干扰情况选择取出多于一个的极值，例如去除求差结果中最大的第一个和第二个结果。在计算求差均值时，优选采用前面公式所示的平方平均值，在其他实施例中也可以采用几何平均值或者算术平均值。

对于所有的视频帧，每帧均可计算出一个D_mean。简单的说，D_mean的取值越大，说明两帧之间的差异越大。依照这种差异性，可以根据均值的取值确定发生视频转场的视频帧号。

如图3所示，为本发明视频转场判断方法的又一实施例的流程示意图。与之前的实施例相比，本实施例的步骤300具体包括：

步骤310、计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值；

步骤320、计算所有局部最大值的平均值，确定为局部最大均值；

步骤330、根据各个局部最大值与所述局部最大均值的差值确定发生视频转场的视频帧号。

在本实施例中通过计算导数来确定局部最大值，并确定所有局部最大值的平均值，来确定局部最大均值，依据各个局部最大值与所述局部最大均值的差值就能够确定发生视频转场的视频帧号，从而实现自适应的阈值来判断转场。

其中，步骤310优选计算二阶导数，这可避免计算一阶导数过多可能检测出的过多的转场帧，也可以避免三阶导数检测出的结果过少。即计算各视频帧的求差均值的二阶导数，公式如下：

D″_mean(t)＝D_mean(t)-2*D_mean(t+1)+D_mean(t+2)；

D″_mean(t)＞D″_mean(t-1)，且D″_mean(t)＞D″_mean(t+1)；

在确定出所有视频帧的求差均值的导数的局部最大值后，通过计算平均值可以能够随着整体的局部最大值的情况变化，从而实现自适应的确定最合适的阈值。

如图4所示，为本发明视频转场判断方法的再一实施例的流程示意图。与上一实施例相比，在本实施例中，步骤330具体包括：

步骤331、确定所有局部最大值中的最大值和最小值作为K-means聚类算法的初始质心，并选择K值为2；

步骤332、通过K-means聚类算法对各个局部最大值与所述局部最大均值的差值进行处理；

步骤333、将分类到最大值一类的局部最大值对应的视频帧号确定为发生视频转场的视频帧号。

在本实施例中采用了K-means聚类算法，这种算法的优势在于算法简单快速，且能够避免其最大的缺点，即初始K的不确定性。因为K值被预先确定为2，而且初始质心也已确定，因此分类到最大值一类的局部最大值对应的视频帧号即为发生视频转场的视频帧号。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如图5所示，为本发明视频转场判断装置的一实施例的结构示意图。在本实施例中，视频转场判断装置包括：直方图计算模块1、求差运算模块2、求差均值获取模块3和转场帧号确定模块4。其中，直方图计算模块1用于计算视频帧在图像上划分的多个区域分别对应的直方图；求差运算模块2用于对相邻视频帧的各个区域的直方图分别进行求差运算；求差均值获取模块3用于从求差结果去除极值后取均值；转场帧号确定模块4用于根据所述均值的取值确定发生视频转场的视频帧号。

如图6所示，为本发明视频转场判断装置的另一实施例的结构示意图。与上一实施例相比，本实施例的直方图计算模块1具体包括：区域划分单元11、颜色量化单元12和直方图计算单元13。区域划分单元11用于将所述视频帧在图像上划分为多个区域；颜色量化单元12用于对各个区域内图像的颜色进行量化；直方图计算单元13用于计算量化后的各个区域内图像的直方图。

通过对量化后的颜色进行直方图计算，得到直方图的结果即为t为当前时刻，也表示的是视频帧号。i为视频帧的图像中第i个区域。求差运算模块2通过下列公式对相邻视频帧的各个区域的直方图分别进行求差运算，

D_{t}^{i} {(Σ_{j = 1}^{N c} {(H_{t}^{i} (j) - H_{t - 1}^{i} (j))}^{2})}^{\frac{1}{2}}

求差均值获取模块3从求差结果中去掉最大值，再计算均值，公式如下：

如图7所示，为本发明视频转场判断装置的又一实施例的结构示意图。与之前的实施例相比，本实施例的视频转场确定模块4具体包括：局部最大值确定单元41、局部最大均值确定单元42和转场帧号确定单元43。其中，局部最大值确定单元41用于计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值；局部最大均值确定单元42用于计算所有局部最大值的平均值，确定为局部最大均值；转场帧号确定单元43用于根据各个局部最大值与所述局部最大均值的差值确定发生视频转场的视频帧号。

其中，局部最大值确定单元41优选计算二阶导数，这可避免计算一阶导数过多可能检测出的过多的转场帧，也可以避免三阶导数检测出的结果过少。即计算各视频帧的求差均值的二阶导数，公式如下：

D″_mean(t)＝D_mean(t)-2*D_mean(t+1)+D_mean(t+2)；

D″_mean(t)＞D″_mean(t-1)，且D″_mean(t)＞D″_mean(t+1)；

在局部最大值确定单元41确定出所有视频帧的求差均值的导数的局部最大值后，局部最大均值确定单元42通过计算平均值可以能够随着整体的局部最大值的情况变化，从而实现自适应的确定最合适的阈值。

在进一步的实施例中，转场帧号确定单元43可以具体包括：

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频转场判断方法，其特征在于，包括：

计算视频帧在图像上划分的多个区域分别对应的直方图；

根据所述均值的取值确定发生视频转场的视频帧号。

2.根据权利要求1所述的视频转场判断方法，其特征在于，所述计算视频帧在图像上划分的多个区域分别对应的直方图的操作具体包括：

将所述视频帧在图像上划分为多个区域；

对各个区域内图像的颜色进行量化；

计算量化后的各个区域内图像的直方图。

3.根据权利要求2所述的视频转场判断方法，其特征在于，所述将所述视频帧在图像上划分为多个区域的操作具体为：

将所述视频帧在图像上划分为多个等分区域。

4.根据权利要求2所述的视频转场判断方法，其特征在于，所述对各个区域内图像的颜色进行量化的操作具体为：

采用标准颜色调色板对各个区域内图像的颜色进行量化。

5.根据权利要求1所述的视频转场判断方法，其特征在于，所述对相邻视频帧的各个区域的直方图分别进行求差运算，并从求差结果去除极值后取均值的操作为：

D_{t}^{i} = {(Σ_{j = 1}^{N c} {(H_{t}^{i} (j) - H_{t - 1}^{i} (j))}^{2})}^{\frac{1}{2}}

从求差结果中去掉最大值，再计算均值，公式如下：

6.根据权利要求1所述的视频转场判断方法，其特征在于，所述根据所述均值的取值确定所述相邻视频帧是否发生视频转场的操作具体包括：

计算所有局部最大值的平均值，确定为局部最大均值；

7.根据权利要求6所述的视频转场判断方法，其特征在于，所述计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值的操作具体为：

计算各视频帧的求差均值的二阶导数，公式如下：

D″_mean(t)＝D_mean(t)-2*D_mean(t+1)+D_mean(t+2)；

D″_mean(t)>D″_mean(t-1)，且D″_mean(t)>D″_mean(t+1)；

8.根据权利要求6所述的视频转场判断方法，其特征在于，所述根据各个局部最大值与所述局部最大均值的差值确定发生视频转场的视频帧号的操作具体包括：

9.一种视频转场判断装置，其特征在于，包括：

求差均值获取模块，用于从求差结果去除极值后取均值；

10.根据权利要求9所述的视频转场判断装置，其特征在于，所述直方图计算模块具体包括：

颜色量化单元，用于对各个区域内图像的颜色进行量化；

11.根据权利要求9所述的视频转场判断装置，其特征在于，所述视频转场确定模块具体包括：

12.根据权利要求11所述的视频转场判断装置，其特征在于，所述局部最大值确定单元，计算各视频帧的求差均值的导数，并确定所述求差均值的导数的局部最大值的操作具体为：

计算各视频帧的求差均值的二阶导数，公式如下：

D″_mean(t)＝D_mean(t)-2*D_mean(t+1)+D_mean(t+2)；

D″_mean(t)>D″_mean(t-1)，且D″_mean(t)>D″_mean(t+1)；

13.根据权利要求11所述的视频转场判断装置，其特征在于，所述转场帧号确定单元具体包括：

14.根据权利要求9所述的视频转场判断装置，其特征在于，

所述求差运算模块，通过下列公式对相邻视频帧的各个区域的直方图分别进行求差运算，

D_{t}^{i} = {(Σ_{j = 1}^{N c} {(H_{t}^{i} (j) - H_{t - 1}^{i} (j))}^{2})}^{\frac{1}{2}}