CN103065301B

CN103065301B - 一种双向比对视频镜头分割方法

Info

Publication number: CN103065301B
Application number: CN201210567017.6A
Authority: CN
Inventors: 吴春明; 熊伟; 姜明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2015-07-22
Anticipated expiration: 2032-12-25
Also published as: CN103065301A

Abstract

本发明公开了一种双向比对视频镜头分割方法，该方法通过分析视频帧的灰度级分布，计算每一帧与相邻帧的综合匹配度，根据每一帧的相邻匹配度的整体变化规律，对视频进行分类。针对每个类别的视频，训练相应的全局分镜阈值，基于全局阈值，对每一帧的相邻匹配度进行双向比对，找出镜头切分点。

Description

一种双向比对视频镜头分割方法

技术领域

本发明涉及一种将视频按镜头分割的方法，尤其涉及一种采用相邻帧综合匹配度与分类全局阈值的双向比对视频镜头分割方法。

背景技术

近年来，由于多媒体技术的发展，与视频相关的应用不断增加，如网络电视、互动电视、视频会议、远程教学等，这一系列的应用使得视频内容呈现爆炸式增长。由于视频内容往往不具备传统的结构化特征，并且包含大量的数据，传统的数据索引和检索方法不能有效的处理视频内容。因而，国内外展开了大量的关于视频内容索引、组织、浏览、检索和管理技术的研究。在这些技术和研究中，视频镜头分割（或视频镜头边界检测）是首要的工作。视频镜头分割技术主要包含三个部分内容，帧匹配度计算、镜头边界检测阈值设定、镜头边界检测方法。

目前传统的视频分割技术中，帧匹配度计算一般采用单一的帧色彩分布直方图距离计算公式，实际应用中，同类型的视频使用不同的距离计算公式结果有一定差距，各种计算公式有各自适应的类型。因此，在通用系统中，需要使用多种距离计算公式，提高计算结果的适应性。

传统的镜头边界检测方法包括两类，一类是相邻帧距离，如果帧距大于设定的全局或者动态设定的边界阈值，则认定此两帧分别为两个镜头的边界，这类方法对于镜头明显转换的边界检测具有较高的适应性，且执行效率高；另一类是段检测，即统计一段视频帧的相邻帧距离，如果其大于设定的全局或者动态设定的边界阈值，则认定此段帧为镜头之间的分解，这类方法对于镜头间夹杂如人工处理的合成帧等类型视频的检测具有较高的适应性，由于需要统计的数据量大，这类方法的执行效率相较前者较低。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种双向比对视频镜头分割方法。

本发明的目的是通过以下技术方案来实现的：一种双向比对视频镜头分割方法，该方法包括以下步骤：

（1）全局阈值训练：通过对样例视频重复进行的边界检测，用检测结果不断修正全局阈值，具体步骤为：

（1.1）设定分类全局边界检测阈值基准值和修正增量；设定一个基准值，由于视频帧距离标准化为[0,1]区间的实数，通常设定基准值为0.5；设定一个修正增量，根据实际应用的计算精度设定；

（1.2）选取样本视频，用于对全局阈值进行修正，进行1.3到1.5的操作；

（1.3）计算样本视频每一帧的左匹配度和右匹配度，对视频流的第k帧，其综合匹配度计算公式分为左匹配度与右匹配度：

，

；

其中，对于，定义；对于，定义；其中函数定义为相邻帧的灰度级直方图相关量，定义为相邻两帧的灰度级直方图相交量，定义为1与相邻两帧的Bhattacharyya距离的差值；，，为常量，且保证：；

（1.4）使用当前的全局阈值和前文所述的方法检测样本视频的边界帧，即对视频进行镜头分割；镜头边界检测采用线性扫描，双向同步检测，对视频流的第k帧，如果且，则认定第k帧是一段镜头的右边界；如果且，则认定第k帧是一段镜头的左边界；如果且，则认定第k帧是一段剧变镜头的一部分，而非镜头边界；如果且，则认定第k帧是一段平稳变化镜头的一部分，而非镜头边界；依次将匹配的一段视频左边界和视频右边界限定的视频内容提取为一个镜头；

（1.5）将步骤1.4计算的分割结果与人工检测的分割结果进行比对，如果1.4计算的分割结果超过人工检测的分割结果的10%，即计算结果中的镜头包含多个实际镜头，则将基准值减去修正增量，否则加上修正增量；然后重新进行1.3到1.4的步骤；当1.4计算的分割结果不超过人工检测的分割结果的10%时，认定当前值为全局阈值；

（2）视频检测阶段：使用训练的全局阈值，对输入的视频进行镜头分割，具体步骤为：

（2.1）从存储设备上读取输入视频，对其进行基本处理，转换成统一视频格式；（2.2）计算样本视频每一帧的左匹配度和右匹配度，对视频流的第k帧，其综合匹配度计算公式分为左匹配度与右匹配度：

，

；

对于，定义；对于，定义；其中函数定义为相邻帧的灰度级直方图相关量，定义为相邻两帧的灰度级直方图相交量，定义为等价于相邻两帧的Bhattacharyya距离；，，为常量，且保证：；

（2.3）检测样本视频的边界帧：镜头边界检测采用线性扫描，双向同步检测，对视频流的第k帧，如果且，则认定第k帧是一段镜头的右边界；如果且，则认定第k帧是一段镜头的左边界；如果且，则认定第k帧是一段剧变镜头的一部分，而非镜头边界；如果且，则认定第k帧是一段平稳变化镜头的一部分，而非镜头边界；

（2.4）按照步骤2.3的边界帧结果，依次将匹配的一段视频左边界和视频右边界限定的视频内容提取为一个镜头，将视频分割为镜头组成的单元输出，生成新的视频单元或者生成视频镜头分割的文本数据。

本发明的有益效果是：本发明采用加权综合直方图相关量、相交量和Bhattacharyya距离的方法计算帧的匹配度，综合各种计算方法应性，使本方法对各种类型视频均有较高的检测精度。镜头边界检测方法为线性扫描，双向同步检测，由于使用线性扫描，方法具有很高的效率，同时，基于每一帧的双匹配度的双向同步检测也保证了对于镜头变换复杂的一类视频的检测精度。

附图说明

图1是全局阈值训练流程图；

图2是视频镜头分割流程图。

具体实施方式

本发明提供一种双向比对视频镜头分割方法，视频镜头分割主要用于视频摘要、视频索引、视频浏览、视频检索等领域，是这些领域对视频内容进行处理的首要内容。具体的实施过程包括两个大的步骤，第一部分是分类的全局阈值训练，第二部分是视频边界检测。

1.全局阈值训练，全局阈值的训练是通过对样例视频重复进行的边界检测，用检测结果不断修正全局阈值的过程。具体步骤为：

1.1 设定分类全局边界检测阈值基准值和修正增量。设定一个基准值，由于视频帧距离标准化为[0,1]区间的实数，通常设定基准值为0.5；设定一个修正增量，根据实际应用的计算精度设定，如计算精度为小数点后1位，则修正增量设定为0.1。

1.2 选取样本视频，用于对全局阈值进行修正，进行1.3到1.5的操作。

1.3 计算样本视频每一帧的左匹配度和右匹配度。对视频流的第k帧，其综合匹配度计算公式分为左匹配度与右匹配度：

，

；

特别的，对于，定义；对于，定义。其中函数定义为相邻帧的灰度级直方图相关量，定义为相邻两帧的灰度级直方图相交量，定义为1与相邻两帧的Bhattacharyya距离的差值，，，为常量，且保证：

。

，，的具体取值可根据实际要求变动。本发明定为：。

1.4 使用当前的全局阈值和前文所述的方法检测样本视频的边界帧，即对视频进行镜头分割。镜头边界检测采用线性扫描，双向同步检测，对视频流的第k帧，如果且，则认定第k帧是一段镜头的右边界；如果且，则认定第k帧是一段镜头的左边界；如果且，则认定第k帧是一段剧变镜头的一部分，而非镜头边界；如果且，则认定第k帧是一段平稳变化镜头的一部分，而非镜头边界。依次将匹配的一段视频左边界和视频右边界限定的视频内容提取为一个镜头。

1.5将步骤1.4计算的分割结果与人工检测的分割结果进行比对，如果1.4计算的分割结果超过人工检测的分割结果的10%，即计算结果中的镜头包含多个实际镜头，则将基准值减去修正增量，否则加上修正增量；然后重新进行1.3到1.4的步骤；当1.4计算的分割结果不超过人工检测的分割结果的10%时，认定当前值为全局阈值。

2.视频检测阶段，本阶段使用训练的全局阈值，对输入的视频进行镜头分割，具体步骤为：

2.1 从存储设备上读取输入视频，对其进行基本处理，转换成统一视频格式（具体格式可根据实际情况统一设定，如AVI等）。

2.2 计算样本视频每一帧的左匹配度和右匹配度。对视频流的第k帧，其综合匹配度计算公式分为左匹配度与右匹配度：

，

；

特别的，对于，定义；对于，定义。其中函数定义为相邻帧的灰度级直方图相关量，定义为相邻两帧的灰度级直方图相交量，定义为等价于相邻两帧的Bhattacharyya距离。，，为常量，且保证：

，

，，的具体取值可根据实际要求变动。本发明定为：。

2.3检测样本视频的边界帧。镜头边界检测采用线性扫描，双向同步检测，对视频流的第k帧，如果且，则认定第k帧是一段镜头的右边界；如果且，则认定第k帧是一段镜头的左边界；如果且，则认定第k帧是一段剧变镜头的一部分，而非镜头边界；如果且，则认定第k帧是一段平稳变化镜头的一部分，而非镜头边界。

2.4按照2.3的边界帧结果，依次将匹配的一段视频左边界和视频右边界限定的视频内容提取为一个镜头，将视频分割为镜头组成的单元输出，生成新的视频单元或者生成视频镜头分割的文本数据。

Claims

1.一种双向比对视频镜头分割方法，其特征在于，该方法包括以下步骤：

(1)全局阈值训练：通过对样例视频重复进行的边界检测，用检测结果不断修正全局阈值，具体步骤为：

(1.1)设定全局阈值基准值和修正增量；设定一个基准值，由于视频帧距离标准化为[0,1]区间的实数，通常设定基准值为0.5；设定一个修正增量，根据实际应用的计算精度设定；

(1.2)选取样本视频，用于对全局阈值进行修正，进行步骤(1.3)到(1.5)的操作；

(1.3)计算样本视频每一帧的左匹配度和右匹配度，对视频流的第k帧f_k，其综合匹配度计算公式分为左匹配度M(f_k)_L与右匹配度M(f_k)_R：

&ForAll; k > 0, M {(f_{k})}_{L} = a \cdot D_{1} (f_{k}, f_{k - 1}) + b \cdot D_{2} (f_{k}, f_{k - 1}) + c \cdot D_{3} (f_{k}, f_{k - 1}),

&ForAll; k < T, M {(f_{k})}_{R} = a \cdot D_{1} (f_{k}, f_{k + 1}) + b \cdot D_{2} (f_{k}, f_{k + 1}) + c \cdot D_{3} (f_{k}, f_{k + 1});

其中，对于k＝0，定义M(f_k)_L＝0；对于k＝T，定义M(f_k)_R＝0；其中函数D₁定义为相邻帧的灰度级直方图相关量，D₂定义为相邻两帧的灰度级直方图相交量，D₃定义为1与相邻两帧的Bhattacharyya距离的差值；a，b，c为常量，且保证：a+b+c＝1；

(1.4)使用当前的全局阈值和前文所述的方法检测样本视频的边界帧，即对视频进行镜头分割；镜头边界检测采用线性扫描，双向同步检测，对视频流的第k帧f_k，如果M(f_k)_L>T且M(f_k)_R≤T，则认定第k帧是一段镜头的右边界；如果M(f_k)_L≤T且M(f_k)_R>T，则认定第k帧是一段镜头的左边界；如果M(f_k)_L>T且M(f_k)_R>T，则认定第k帧是一段剧变镜头的一部分，而非镜头边界；如果M(f_k)_L<T且M(f_k)_R<T，则认定第k帧是一段平稳变化镜头的一部分，而非镜头边界；依次将匹配的一段视频左边界和视频右边界限定的视频内容提取为一个镜头；

(1.5)将步骤(1.4)计算的分割结果与人工检测的分割结果进行比对，如果步骤(1.4)计算的分割结果超过人工检测的分割结果的10％，即计算结果中的镜头包含多个实际镜头，则将基准值减去修正增量，否则加上修正增量；然后重新进行步骤(1.3)到步骤(1.4)；当步骤(1.4)计算的分割结果不超过人工检测的分割结果的10％时，认定当前值为全局阈值；

(2)视频检测阶段：使用训练的全局阈值，对输入的视频进行镜头分割，具体步骤为：

(2.1)从存储设备上读取输入视频，对其进行基本处理，转换成统一视频格式；

(2.2)计算样本视频每一帧的左匹配度和右匹配度，对视频流的第k帧f_k，其综合匹配度计算公式分为左匹配度M(f_k)_L与右匹配度M(f_k)_R：

&ForAll; k > 0, M {(f_{k})}_{L} = a \cdot D_{1} (f_{k}, f_{k - 1}) + b \cdot D_{2} (f_{k}, f_{k - 1}) + c \cdot D_{3} (f_{k}, f_{k - 1}),

&ForAll; k < T, M {(f_{k})}_{R} = a \cdot D_{1} (f_{k}, f_{k + 1}) + b \cdot D_{2} (f_{k}, f_{k + 1}) + c \cdot D_{3} (f_{k}, f_{k + 1});

对于k＝0，定义M(f_k)_L＝0；对于k＝T，定义M(f_k)_R＝0；其中函数D₁定义为相邻帧的灰度级直方图相关量，D₂定义为相邻两帧的灰度级直方图相交量，D₃定义为1与相邻两帧的Bhattacharyya距离的差值；a，b，c为常量，且保证：a+b+c＝1；

(2.3)检测样本视频的边界帧：镜头边界检测采用线性扫描，双向同步检测，对视频流的第k帧f_k，如果M(f_k)_L>T且M(f_k)_R≤T，则认定第k帧是一段镜头的右边界；如果M(f_k)_L≤T且M(f_k)_R>T，则认定第k帧是一段镜头的左边界；如果M(f_k)_L>T且M(f_k)_R>T，则认定第k帧是一段剧变镜头的一部分，而非镜头边界；如果M(f_k)_L<T且M(f_k)_R<T，则认定第k帧是一段平稳变化镜头的一部分，而非镜头边界；

(2.4)按照步骤(2.3)的边界帧结果，依次将匹配的一段视频左边界和视频右边界限定的视频内容提取为一个镜头，将视频分割为镜头组成的单元输出，生成新的视频单元或者生成视频镜头分割的文本数据。