CN101031035A

CN101031035A - 基于视频序列分析的新闻视频单元自动分割方法

Info

Publication number: CN101031035A
Application number: CN 200610034010
Authority: CN
Inventors: 高健; 陈宝辉; 阮根印
Original assignee: NEUDIA SYSTEMS INST GUANGZHOU CITY
Current assignee: NEUDIA SYSTEMS INST GUANGZHOU CITY
Priority date: 2006-03-03
Filing date: 2006-03-03
Publication date: 2007-09-05

Abstract

基于对新闻视频的结构特征，提出了一种新闻视频单元自动检索实时分析系统，该系统通过对新闻口播帧、各新闻单元字幕帧的自动抓取完成新闻单元的自动检索。利用相关性分析以及时间延续特性，提出了一种口播帧及其模版的自动获取方法，该方法无需事先提供口播帧模版，口播帧模版现场提取，从而保证了该系统分析的实时性与普适性。利用边界点疏密性监测及其字幕帧边缘特性提出了一种新闻字幕监测方法，该方法具备一定的文字排它性，可滤除大部分的非字幕帧文字帧，为新闻单元的自动检索及其新闻单元的自动标引提供了依据。

Description

基于视频序列分析的新闻视频单元自动分割方法

技术领域

本发明是一种利用动态方法提取口播帧模版基础上，获取新闻各时段口播帧，根据新闻视频的结构，自动提取口播帧，实现基于口播帧的新闻视频单元自动检索处理的一种方法与系统。

技术背景

在各式各样的视频素材中，新闻视频往往获得人们的广泛关注。对新闻视频进行标注索引，能够方便人们对大量的新闻素材进行有效的管理和检索。鉴于新闻视频具有结构严谨，层次分明的特点，可以从语音、视觉等各个方面进行对其进行有效划分。口播帧(即新闻主持人画面)画面是新闻单元切换的重要标志，因此口播帧检测是划分新闻结构、进行新闻视频标引的一个关键部分和核心内容。

现有的大部分口播帧检测方法都依赖于模板匹配。文献“Template-based Detectionof Anchorperson Shots in News Programs.”(A.Hanjalic，R.L.Lagendijk，J.Biemond，In：IEEE.InternationalConference on Image Processing，pp.148-152，Chicago(USA)，1998)提出了一种基于模板的口播帧检测方法，此方法假设不同的口播帧模板具有相同的背景，因此仅适用于口播帧背景固定的新闻节目，对背景复杂多变的新闻节目则无能为力。此外其复杂的匹配算法也降低了识别的快速性。文献“Anchorperson Detection Using MultimodalAssociation”(D.J.Lan，Y.F.Ma，H.J，”Zhang.Multi-level，In：Proc.IEEE Int.Conf.on Pattern Recogition，2004)提出了一种基于多模板口播帧分层识别的检索方法，分别从视觉、音频、人物面部肖像三个方面建立模板进行交运算匹配，在一定程度上提高了检测方法的健壮性和通用性，但由于处理信息量的增加，无可避免地影响了运算速度。文献“Initialization-Independent Spectral Clustering with Applications to Automatic”(A.Ekin，S.Pankanti，A.Hampapur，In IEEE ICASSP，2004)使用改进的K调和均值算法(K-Harmonic Means)聚类人脸特征，通过人脸识别来检测口播帧。但该种方法对集群(Cluster)的数量有所限制，无法适用于口播帧模板过多的情况，因此其通用性和实用性受到很大限制。

新闻视频口播帧是新闻单元起点的一个重要特征，但新闻视频单元的检索不能仅仅依靠口播帧，许多新闻节目中新闻单元的起点往往是通过新闻的字幕帧来表现的。因此，新闻字幕帧的抓取是新闻视频单元分割另一个不可缺少的重要环节。综上所述，一个较完整的新闻视频单元自动检索系统应包含口播帧与字幕帧的自动抓取两个方面的内容。

本发明基于口播帧的时间冗余性与口播帧某些图像特征的一些先验知识，提出了一种的口播帧模版动态提取方法，同时，在口播帧模版获取后，采取分阶段口播帧特征匹配方法提取各个时段的口播帧，从而保证了口播帧检测的实时性和普适性；依据文字边界特性及其边界点的疏密程度，以及字幕帧的背景特性和时间冗余性，提出了一种时域快速检测字幕帧方法，该方法具备一定的非字幕文字的排它性，能滤除大部分有文字出现的非字幕帧。本系统通过上述口播帧检测和字幕帧检测，可实现实时的新闻视频单元的自动检索。

发明内容

本发明的目的是为新闻视频基于内容独立的新闻单元实时抽取建立了一种方法。在实施过程中，综合考虑了新闻口播帧与新闻字幕帧在这一方法中的重要作用，为新闻视频单元的自动检索与新闻单元的内容自动标引提供了一种方法与系统。

本发明包括以下几个方面的内容：1.新闻视频中口播帧自动提取；2.新闻视频中新闻标题定位及新闻字幕帧自动提取；3.新闻单元检索；4.新闻字幕帧中标题文字识别。

附图说明

图1是新闻视频单元自动检索流程图

图2是新闻视频单元口播帧检索系统界面

图3是新闻视频单元新闻字幕帧检索系统界面

具体实施方式

1.口播帧模板的动态自动提取

以新闻节目的片头作为新闻节目播出的起始点，以新闻片头之后的某一帧作为预模板，将预模板与后续帧进行匹配运算，若连续匹配出的图像序列的长度(代表时间)大于预先设定的阈值，且在除去主持人本身的背景画面与预先定义的背景模板特征相似，则可认为预模板和其所在的图像序列皆可作为口播帧模板，否则以上述匹配出的图像序列结束帧的后一帧作为新的预模板，重复上述过程，直至找出满足条件的口播帧模版。

若按上述方法提取的模板为双人口播帧模板，则以两位支持人所在区域的灰度均值和直方图作为提取单人模板的数字特征(直方图)。

2.口播帧匹配三阶段方法

切除被检测帧图像下缘可能包含的一部分部分，避免文字出现的影响。将剩下部分若干个(一般情形下为等分型式)图像子块，本发明系统中采取等分九个图像子块的做法。分别统计各子块的灰度均值和灰度直方图，为减少计算开销，灰度直方图经平滑处理后，直方图的灰度等级为64。当新闻口播帧出现画中画时，由于采取图像分块的做法，只会对少数图像子块的灰度均值和灰度直方图有影响；沿图像横向或纵向方向等间距的采集p条线段上的灰度值，p太大会导致计算开销增加，太小则涵盖面太少，本发明的方法中，选择p＝9。

具体做法如下：

(1)计算被检测帧9个图像子块的灰度平均值，均值匹配公式为

ρ_{1}^{i} = 1 - \sqrt{\frac{| {average}_{m}^{i} - {average}_{c}^{i} |}{255}}, (i = 1,2, . . ., 9)

其中average_m ⁱ为模板第i个图像子块的灰度平均值，average_c ⁱ为被检测帧第i个图像子块的平均值，ρ₁ ⁱ(0≤ρ₁ ⁱ≤1)为第i个图像子块均值匹配系数。当9个图像子块均值匹配系数中，有6个系数大于等于阈值T₁时，则当前被检测帧可能是口播帧，转入直方图匹配的第二阶段。

(2)统计被检测帧图像子块的灰度直方图，直方图匹配公式为

ρ_{2}^{i} = \frac{Σ_{n = 0}^{64} (f_{i} (n) - {\overset{&OverBar;}{f}}_{i}) (g_{i} (n) - {\overset{&OverBar;}{g}}_{i})}{\sqrt{Σ_{n = 0}^{64} {(f_{i} (n) - {\overset{&OverBar;}{f}}_{i})}^{2}} \sqrt{Σ_{n = 0}^{64} {(g_{i} (n) - {\overset{&OverBar;}{g}}_{i})}^{2}}}, (i = 1,2, . . ., 9)

其中fⁱ(n)为模板第i个图像子块的灰度直方图，gⁱ(n)为被检测帧第i个图像子块的灰度直方图， f_i和 g_i分别为模板和被检测帧第i个图像子块的灰度直方图均值，ρ₂ ⁱ(-1≤ρ₂ ⁱ≤1)为第i个图像子块直方图匹配相似系数。当9个相似系数中的6个系数大于或等于阈值T₂时，当前被检测帧可能是口播帧，转入线段灰度匹配。

(3)直方图匹配只能比较图像子块的颜色分布，代表两个图像子块的总体的统计特征相似度，但缺少对图像结构特征的描述。线段灰度分布较好地描述了图像的结构特征。线段灰度分布相关性匹配公式为

ρ_{3}^{i} = \frac{Σ_{n = m}^{N - m} (F_{i} (n) - {\overset{&OverBar;}{F}}_{i}) (G_{i} (n + k) - {\overset{&OverBar;}{G}}_{i})}{\sqrt{Σ_{n = m}^{N - m} {(F_{i} (n) - {\overset{&OverBar;}{F}}_{i})}^{2}} \sqrt{Σ_{n = m}^{N - m} {(G_{i} (n + k) - {\overset{&OverBar;}{G}}_{i})}^{2}}}, (k = - m, . . ., 0, . . . m)

其中(i＝1，2，…，p)，k为左右移动距离，N为线段上像素点的总数，F_i(n)和G_i(n)为模板与被检测帧第i条线段上的灰度分布曲线， F_i和 G_i为模板与被检测帧第i条线段上灰度均值，ρ₃ ⁱ(-1≤ρ₃ ⁱ≤1)为第i条线段灰度分布曲线相似系数。考虑到播音员在播音过程中脑部会有左右轻微的摇动，故在匹配时采取了左右平移匹配的方式，因此，每一条线段上的相似系数为2m+1个，选择其中的最大值作为线段匹配的相似系数。当p个相似系数中的三分之二个系数大于或等于阈值T₃时，则可判定当前被检测帧是口播帧。

3.新闻字幕检测

在进行处理之前，首先把彩色图像转变为灰度图像，一般常用的有R、G、B三色不等权的变换G(x，y)＝0.3*r(x，y)+0.59*g(x，y)+0.11*b(x，y)，其中r(x，y)，g(x，y)，b(x，y)分别为(x，y)像素点的红、绿、蓝分量，G(x，y)为经过处理后的该像素点的灰度值。

(1)文字区域纵向定位

只对视频帧图像1/3以下的部分进行分析。对于新闻字幕文字区域而言，无论是哪一种文字，必然有较多笔划，利用字幕的笔划纹理进行纵向检测，在视频帧图像1/3以下部分各行相邻点进行灰度差分统计

E (x, y) = Σ_{r = 1}^{Width - 1} | G (x, y) - G (x - 1, y) |

这里Width与Height分别为图像的横向与纵向尺寸。

沿着图象的横向方向作相邻像素点差分绝对值累加，可突显文字区域纵向位置，当E(x，y)＞C₁时，可认为该条横向线段穿过文字区域。记N_l(E(x，y)＞C₁)，为在纵向方向上连续满足E(x，y)＞C₁的横向线段个数。当N_l(E(x，y)＞C₁)＞C₂，则文字区域的纵向高度为N_l(E(x，y)，其中C₁，C₂为事先选定的阈值。其纵向区域记为y_m≤y≤y_M

(2)文字区域的横向定位

在文字纵向区域上，沿横向方向作

B(x，y)＝1，当|G(x，y)-G(x-1，y)|＞c₃

B(x，y)＝0，当|G(x，y)-G(x-1，y)|≤c₃

穿过文字区域的任一条横线线段上，在文字局部区域1出现的密度很大，而非文字局部区域为连续的0值出现。如果两个1之间0的个数较少，小于实现设定的阈值，则将这少数几个0改为1。并记经过上述改变之后的B(x，y)为B_c(x，y)。令

A (l (x), y) = Σ_{x = 0}^{l (x)} B_{c} (x, y), (y_{m} \leq y \leq y_{M})

，其中，l(x)＝0，1，…，Width-1。令M(A(l(x)，y)为曲线A(l(x)，y)最大的满足严格单调上升区域宽度，则M(A(l(x)，y))即为文字的横向局部区域的横向宽度。其横向区域记为x_m(y)≤x(y)≤x_M(y)，(y_m≤y≤y_M)。

(3)基于时间延续性和新闻字幕背景特征的新闻字幕文字区域确定

新闻字幕的一个重要特征是，连续出现的时间较之其他非字幕的文字帧出现的时间长，利用这一特性，可滤出一部分非新闻字幕的文字帧，从而减少误判的发生。

(4)新闻字幕帧背景特征分析

新闻字幕帧的另一个重要特征是，字幕一般有一个条带背景，上下有两条边缘线出现，背景边缘线段的提取方法如下：

D (y) = | Σ_{x = 0}^{width - 1} G (x, y) - Σ_{x = 0}^{width - 1} G (x, y + 1) |, (y_{m} \leq y \leq y_{M}) .

当D(y_b)大于阈值C₄，则y_b为字幕背景的某条边缘线纵向位置，字幕背景边缘存在。当文字区域附近存在上述方法所述边缘线段时，该文字区域即可判断为字幕帧文字区域，若不存在上述边缘线段，则判断文字区域中的文字为非新闻标题文字。

3.新闻单元自动检索

利用上述自动提取得口播帧与新闻字幕帧所对应的时间戳，在人工事后的干预下，可删除掉那些以口播帧为新闻单元开始点中的新闻字幕帧的时间点，从而完全新闻视频单元的检索。同时，利用OCR文字识别系统，可对各字幕帧中的文字进行识别，完成新闻单元的自动标引。

Claims

1.一种新闻视频单元自动检索方法与实时分析系统，包括：根据新闻视频口播帧时间冗余性及口播帧背景特征动态提取口播帧模板；利用三阶段匹配方法提取新闻视频各阶段口播帧集；基于文字特征及新闻字幕背景边缘特征提取新闻字幕区域；根据口播帧与新闻字幕帧，在事后一定的人工干预下，完成新闻视频单元的检索；通过OCR系统对新闻字幕的文字进行识别，从而实现新闻视频的自动标引。

2.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统，其特征在于该方法是一种实时分析方法。

3.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统，其特征在于该方法是一种动态提取口播帧模板的方法。

4.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统，其特征在于单人口播帧模板可从双人口播帧模板中提取。

5.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统，其特征在于各时段口播帧提取是通过三阶段模板匹配提取的。

6.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统，其特征在于新闻字幕帧是通过检查新闻背景边缘存在与否来确定的。

7.根据权力要求6的一种新闻视频单元自动检索方法与实时分析系统，其特征在于非新闻字幕的其他文字区域是通过新闻背景边缘线段存在与否加以排除的。

8.根据权力要求2，6的一种新闻视频单元自动检索方法与实时分析系统，其特征在于新闻视频单元的检索是联合新闻口播帧与新闻字幕帧检索进行的。