CN101031035A - 基于视频序列分析的新闻视频单元自动分割方法 - Google Patents

基于视频序列分析的新闻视频单元自动分割方法 Download PDF

Info

Publication number
CN101031035A
CN101031035A CN 200610034010 CN200610034010A CN101031035A CN 101031035 A CN101031035 A CN 101031035A CN 200610034010 CN200610034010 CN 200610034010 CN 200610034010 A CN200610034010 A CN 200610034010A CN 101031035 A CN101031035 A CN 101031035A
Authority
CN
China
Prior art keywords
news
frame
mouth
broadcast
video unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610034010
Other languages
English (en)
Inventor
高健
陈宝辉
阮根印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEUDIA SYSTEMS INST GUANGZHOU CITY
Original Assignee
NEUDIA SYSTEMS INST GUANGZHOU CITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEUDIA SYSTEMS INST GUANGZHOU CITY filed Critical NEUDIA SYSTEMS INST GUANGZHOU CITY
Priority to CN 200610034010 priority Critical patent/CN101031035A/zh
Publication of CN101031035A publication Critical patent/CN101031035A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于对新闻视频的结构特征,提出了一种新闻视频单元自动检索实时分析系统,该系统通过对新闻口播帧、各新闻单元字幕帧的自动抓取完成新闻单元的自动检索。利用相关性分析以及时间延续特性,提出了一种口播帧及其模版的自动获取方法,该方法无需事先提供口播帧模版,口播帧模版现场提取,从而保证了该系统分析的实时性与普适性。利用边界点疏密性监测及其字幕帧边缘特性提出了一种新闻字幕监测方法,该方法具备一定的文字排它性,可滤除大部分的非字幕帧文字帧,为新闻单元的自动检索及其新闻单元的自动标引提供了依据。

Description

基于视频序列分析的新闻视频单元自动分割方法
技术领域
本发明是一种利用动态方法提取口播帧模版基础上,获取新闻各时段口播帧,根据新闻视频的结构,自动提取口播帧,实现基于口播帧的新闻视频单元自动检索处理的一种方法与系统。
技术背景
在各式各样的视频素材中,新闻视频往往获得人们的广泛关注。对新闻视频进行标注索引,能够方便人们对大量的新闻素材进行有效的管理和检索。鉴于新闻视频具有结构严谨,层次分明的特点,可以从语音、视觉等各个方面进行对其进行有效划分。口播帧(即新闻主持人画面)画面是新闻单元切换的重要标志,因此口播帧检测是划分新闻结构、进行新闻视频标引的一个关键部分和核心内容。
现有的大部分口播帧检测方法都依赖于模板匹配。文献“Template-based Detectionof Anchorperson Shots in News Programs.”(A.Hanjalic,R.L.Lagendijk,J.Biemond,In:IEEE.InternationalConference on Image Processing,pp.148-152,Chicago(USA),1998)提出了一种基于模板的口播帧检测方法,此方法假设不同的口播帧模板具有相同的背景,因此仅适用于口播帧背景固定的新闻节目,对背景复杂多变的新闻节目则无能为力。此外其复杂的匹配算法也降低了识别的快速性。文献“Anchorperson Detection Using MultimodalAssociation”(D.J.Lan,Y.F.Ma,H.J,”Zhang.Multi-level,In:Proc.IEEE Int.Conf.on Pattern Recogition,2004)提出了一种基于多模板口播帧分层识别的检索方法,分别从视觉、音频、人物面部肖像三个方面建立模板进行交运算匹配,在一定程度上提高了检测方法的健壮性和通用性,但由于处理信息量的增加,无可避免地影响了运算速度。文献“Initialization-Independent Spectral Clustering with Applications to Automatic”(A.Ekin,S.Pankanti,A.Hampapur,In IEEE ICASSP,2004)使用改进的K调和均值算法(K-Harmonic Means)聚类人脸特征,通过人脸识别来检测口播帧。但该种方法对集群(Cluster)的数量有所限制,无法适用于口播帧模板过多的情况,因此其通用性和实用性受到很大限制。
新闻视频口播帧是新闻单元起点的一个重要特征,但新闻视频单元的检索不能仅仅依靠口播帧,许多新闻节目中新闻单元的起点往往是通过新闻的字幕帧来表现的。因此,新闻字幕帧的抓取是新闻视频单元分割另一个不可缺少的重要环节。综上所述,一个较完整的新闻视频单元自动检索系统应包含口播帧与字幕帧的自动抓取两个方面的内容。
本发明基于口播帧的时间冗余性与口播帧某些图像特征的一些先验知识,提出了一种的口播帧模版动态提取方法,同时,在口播帧模版获取后,采取分阶段口播帧特征匹配方法提取各个时段的口播帧,从而保证了口播帧检测的实时性和普适性;依据文字边界特性及其边界点的疏密程度,以及字幕帧的背景特性和时间冗余性,提出了一种时域快速检测字幕帧方法,该方法具备一定的非字幕文字的排它性,能滤除大部分有文字出现的非字幕帧。本系统通过上述口播帧检测和字幕帧检测,可实现实时的新闻视频单元的自动检索。
发明内容
本发明的目的是为新闻视频基于内容独立的新闻单元实时抽取建立了一种方法。在实施过程中,综合考虑了新闻口播帧与新闻字幕帧在这一方法中的重要作用,为新闻视频单元的自动检索与新闻单元的内容自动标引提供了一种方法与系统。
本发明包括以下几个方面的内容:1.新闻视频中口播帧自动提取;2.新闻视频中新闻标题定位及新闻字幕帧自动提取;3.新闻单元检索;4.新闻字幕帧中标题文字识别。
附图说明
图1是新闻视频单元自动检索流程图
图2是新闻视频单元口播帧检索系统界面
图3是新闻视频单元新闻字幕帧检索系统界面
具体实施方式
1.口播帧模板的动态自动提取
以新闻节目的片头作为新闻节目播出的起始点,以新闻片头之后的某一帧作为预模板,将预模板与后续帧进行匹配运算,若连续匹配出的图像序列的长度(代表时间)大于预先设定的阈值,且在除去主持人本身的背景画面与预先定义的背景模板特征相似,则可认为预模板和其所在的图像序列皆可作为口播帧模板,否则以上述匹配出的图像序列结束帧的后一帧作为新的预模板,重复上述过程,直至找出满足条件的口播帧模版。
若按上述方法提取的模板为双人口播帧模板,则以两位支持人所在区域的灰度均值和直方图作为提取单人模板的数字特征(直方图)。
2.口播帧匹配三阶段方法
切除被检测帧图像下缘可能包含的一部分部分,避免文字出现的影响。将剩下部分若干个(一般情形下为等分型式)图像子块,本发明系统中采取等分九个图像子块的做法。分别统计各子块的灰度均值和灰度直方图,为减少计算开销,灰度直方图经平滑处理后,直方图的灰度等级为64。当新闻口播帧出现画中画时,由于采取图像分块的做法,只会对少数图像子块的灰度均值和灰度直方图有影响;沿图像横向或纵向方向等间距的采集p条线段上的灰度值,p太大会导致计算开销增加,太小则涵盖面太少,本发明的方法中,选择p=9。
具体做法如下:
(1)计算被检测帧9个图像子块的灰度平均值,均值匹配公式为
ρ 1 i = 1 - | average m i - average c i | 255 , ( i = 1,2 , . . . , 9 )
其中averagem i为模板第i个图像子块的灰度平均值,averagec i为被检测帧第i个图像子块的平均值,ρ1 i(0≤ρ1 i≤1)为第i个图像子块均值匹配系数。当9个图像子块均值匹配系数中,有6个系数大于等于阈值T1时,则当前被检测帧可能是口播帧,转入直方图匹配的第二阶段。
(2)统计被检测帧图像子块的灰度直方图,直方图匹配公式为
ρ 2 i = Σ n = 0 64 ( f i ( n ) - f ‾ i ) ( g i ( n ) - g ‾ i ) Σ n = 0 64 ( f i ( n ) - f ‾ i ) 2 Σ n = 0 64 ( g i ( n ) - g ‾ i ) 2 , ( i = 1,2 , . . . , 9 )
其中fi(n)为模板第i个图像子块的灰度直方图,gi(n)为被检测帧第i个图像子块的灰度直方图, fi和 gi分别为模板和被检测帧第i个图像子块的灰度直方图均值,ρ2 i(-1≤ρ2 i≤1)为第i个图像子块直方图匹配相似系数。当9个相似系数中的6个系数大于或等于阈值T2时,当前被检测帧可能是口播帧,转入线段灰度匹配。
(3)直方图匹配只能比较图像子块的颜色分布,代表两个图像子块的总体的统计特征相似度,但缺少对图像结构特征的描述。线段灰度分布较好地描述了图像的结构特征。线段灰度分布相关性匹配公式为
ρ 3 i = Σ n = m N - m ( F i ( n ) - F ‾ i ) ( G i ( n + k ) - G ‾ i ) Σ n = m N - m ( F i ( n ) - F ‾ i ) 2 Σ n = m N - m ( G i ( n + k ) - G ‾ i ) 2 , ( k = - m , . . . , 0 , . . . m )
其中(i=1,2,…,p),k为左右移动距离,N为线段上像素点的总数,Fi(n)和Gi(n)为模板与被检测帧第i条线段上的灰度分布曲线, Fi和 Gi为模板与被检测帧第i条线段上灰度均值,ρ3 i(-1≤ρ3 i≤1)为第i条线段灰度分布曲线相似系数。考虑到播音员在播音过程中脑部会有左右轻微的摇动,故在匹配时采取了左右平移匹配的方式,因此,每一条线段上的相似系数为2m+1个,选择其中的最大值作为线段匹配的相似系数。当p个相似系数中的三分之二个系数大于或等于阈值T3时,则可判定当前被检测帧是口播帧。
3.新闻字幕检测
在进行处理之前,首先把彩色图像转变为灰度图像,一般常用的有R、G、B三色不等权的变换G(x,y)=0.3*r(x,y)+0.59*g(x,y)+0.11*b(x,y),其中r(x,y),g(x,y),b(x,y)分别为(x,y)像素点的红、绿、蓝分量,G(x,y)为经过处理后的该像素点的灰度值。
(1)文字区域纵向定位
只对视频帧图像1/3以下的部分进行分析。对于新闻字幕文字区域而言,无论是哪一种文字,必然有较多笔划,利用字幕的笔划纹理进行纵向检测,在视频帧图像1/3以下部分各行相邻点进行灰度差分统计
E ( x , y ) = Σ r = 1 Width - 1 | G ( x , y ) - G ( x - 1 , y ) |
这里Width与Height分别为图像的横向与纵向尺寸。
沿着图象的横向方向作相邻像素点差分绝对值累加,可突显文字区域纵向位置,当E(x,y)>C1时,可认为该条横向线段穿过文字区域。记Nl(E(x,y)>C1),为在纵向方向上连续满足E(x,y)>C1的横向线段个数。当Nl(E(x,y)>C1)>C2,则文字区域的纵向高度为Nl(E(x,y),其中C1,C2为事先选定的阈值。其纵向区域记为ym≤y≤yM
(2)文字区域的横向定位
在文字纵向区域上,沿横向方向作
B(x,y)=1,当|G(x,y)-G(x-1,y)|>c3
B(x,y)=0,当|G(x,y)-G(x-1,y)|≤c3
穿过文字区域的任一条横线线段上,在文字局部区域1出现的密度很大,而非文字局部区域为连续的0值出现。如果两个1之间0的个数较少,小于实现设定的阈值,则将这少数几个0改为1。并记经过上述改变之后的B(x,y)为Bc(x,y)。令 A ( l ( x ) , y ) = Σ x = 0 l ( x ) B c ( x , y ) , ( y m ≤ y ≤ y M ) ,其中,l(x)=0,1,…,Width-1。令M(A(l(x),y)为曲线A(l(x),y)最大的满足严格单调上升区域宽度,则M(A(l(x),y))即为文字的横向局部区域的横向宽度。其横向区域记为xm(y)≤x(y)≤xM(y),(ym≤y≤yM)。
(3)基于时间延续性和新闻字幕背景特征的新闻字幕文字区域确定
新闻字幕的一个重要特征是,连续出现的时间较之其他非字幕的文字帧出现的时间长,利用这一特性,可滤出一部分非新闻字幕的文字帧,从而减少误判的发生。
(4)新闻字幕帧背景特征分析
新闻字幕帧的另一个重要特征是,字幕一般有一个条带背景,上下有两条边缘线出现,背景边缘线段的提取方法如下: D ( y ) = | Σ x = 0 width - 1 G ( x , y ) - Σ x = 0 width - 1 G ( x , y + 1 ) | , ( y m ≤ y ≤ y M ) . 当D(yb)大于阈值C4,则yb为字幕背景的某条边缘线纵向位置,字幕背景边缘存在。当文字区域附近存在上述方法所述边缘线段时,该文字区域即可判断为字幕帧文字区域,若不存在上述边缘线段,则判断文字区域中的文字为非新闻标题文字。
3.新闻单元自动检索
利用上述自动提取得口播帧与新闻字幕帧所对应的时间戳,在人工事后的干预下,可删除掉那些以口播帧为新闻单元开始点中的新闻字幕帧的时间点,从而完全新闻视频单元的检索。同时,利用OCR文字识别系统,可对各字幕帧中的文字进行识别,完成新闻单元的自动标引。

Claims (8)

1.一种新闻视频单元自动检索方法与实时分析系统,包括:根据新闻视频口播帧时间冗余性及口播帧背景特征动态提取口播帧模板;利用三阶段匹配方法提取新闻视频各阶段口播帧集;基于文字特征及新闻字幕背景边缘特征提取新闻字幕区域;根据口播帧与新闻字幕帧,在事后一定的人工干预下,完成新闻视频单元的检索;通过OCR系统对新闻字幕的文字进行识别,从而实现新闻视频的自动标引。
2.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统,其特征在于该方法是一种实时分析方法。
3.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统,其特征在于该方法是一种动态提取口播帧模板的方法。
4.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统,其特征在于单人口播帧模板可从双人口播帧模板中提取。
5.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统,其特征在于各时段口播帧提取是通过三阶段模板匹配提取的。
6.根据权力要求1的一种新闻视频单元自动检索方法与实时分析系统,其特征在于新闻字幕帧是通过检查新闻背景边缘存在与否来确定的。
7.根据权力要求6的一种新闻视频单元自动检索方法与实时分析系统,其特征在于非新闻字幕的其他文字区域是通过新闻背景边缘线段存在与否加以排除的。
8.根据权力要求2,6的一种新闻视频单元自动检索方法与实时分析系统,其特征在于新闻视频单元的检索是联合新闻口播帧与新闻字幕帧检索进行的。
CN 200610034010 2006-03-03 2006-03-03 基于视频序列分析的新闻视频单元自动分割方法 Pending CN101031035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610034010 CN101031035A (zh) 2006-03-03 2006-03-03 基于视频序列分析的新闻视频单元自动分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610034010 CN101031035A (zh) 2006-03-03 2006-03-03 基于视频序列分析的新闻视频单元自动分割方法

Publications (1)

Publication Number Publication Date
CN101031035A true CN101031035A (zh) 2007-09-05

Family

ID=38716081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610034010 Pending CN101031035A (zh) 2006-03-03 2006-03-03 基于视频序列分析的新闻视频单元自动分割方法

Country Status (1)

Country Link
CN (1) CN101031035A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101616264B (zh) * 2008-06-27 2011-03-30 中国科学院自动化研究所 新闻视频编目方法及系统
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN102780856A (zh) * 2012-04-12 2012-11-14 天脉聚源(北京)传媒科技有限公司 一种新闻视频字幕标注方法
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN103079041A (zh) * 2013-01-25 2013-05-01 深圳先进技术研究院 新闻视频自动分条装置及新闻视频自动分条的方法
CN103188422A (zh) * 2011-12-28 2013-07-03 北京同步科技有限公司 新闻演播控制系统及其控制方法
CN103593666A (zh) * 2012-08-13 2014-02-19 阿里巴巴集团控股有限公司 一种图像识别方法、过滤方法及相关装置
CN103905742A (zh) * 2014-04-10 2014-07-02 北京数码视讯科技股份有限公司 视频文件的切分方法及装置
CN104135628A (zh) * 2013-05-03 2014-11-05 安凯(广州)微电子技术有限公司 一种视频编辑方法及终端

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101616264B (zh) * 2008-06-27 2011-03-30 中国科学院自动化研究所 新闻视频编目方法及系统
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN102331990B (zh) * 2010-12-22 2013-06-19 四川大学 一种基于字幕提取的新闻视频检索方法
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN103188422A (zh) * 2011-12-28 2013-07-03 北京同步科技有限公司 新闻演播控制系统及其控制方法
CN103188422B (zh) * 2011-12-28 2016-03-02 北京同步科技有限公司 新闻演播控制系统及其控制方法
CN102780856A (zh) * 2012-04-12 2012-11-14 天脉聚源(北京)传媒科技有限公司 一种新闻视频字幕标注方法
CN103593666A (zh) * 2012-08-13 2014-02-19 阿里巴巴集团控股有限公司 一种图像识别方法、过滤方法及相关装置
CN103593666B (zh) * 2012-08-13 2017-10-13 阿里巴巴集团控股有限公司 一种图像识别方法、过滤方法及相关装置
CN103079041A (zh) * 2013-01-25 2013-05-01 深圳先进技术研究院 新闻视频自动分条装置及新闻视频自动分条的方法
CN103079041B (zh) * 2013-01-25 2016-01-27 深圳先进技术研究院 新闻视频自动分条装置及新闻视频自动分条的方法
CN104135628A (zh) * 2013-05-03 2014-11-05 安凯(广州)微电子技术有限公司 一种视频编辑方法及终端
CN104135628B (zh) * 2013-05-03 2018-01-30 安凯(广州)微电子技术有限公司 一种视频编辑方法及终端
CN103905742A (zh) * 2014-04-10 2014-07-02 北京数码视讯科技股份有限公司 视频文件的切分方法及装置

Similar Documents

Publication Publication Date Title
CN101031035A (zh) 基于视频序列分析的新闻视频单元自动分割方法
CN101102419B (zh) 一种定位视频字幕区域的方法
Chen et al. Automatic detection of object-based forgery in advanced video
CN101719144B (zh) 一种联合字幕和视频图像信息进行场景分割和索引的方法
US6185329B1 (en) Automatic caption text detection and processing for digital images
CN106503691B (zh) 一种人脸图片的身份标注方法和装置
CN106937114B (zh) 用于对视频场景切换进行检测的方法和装置
CN102663382B (zh) 基于子网格特征自适应加权的视频图像文字识别方法
CN112270247A (zh) 基于帧间差分和颜色直方图差值的关键帧提取方法
CN101115151A (zh) 一种视频字幕提取的方法
CN102685398A (zh) 一种新闻视频场景生成方法
CN108093314B (zh) 一种视频新闻拆分方法及装置
Wang et al. A novel video caption detection approach using multi-frame integration
CN111212291A (zh) 基于dfl-cnn网络的视频帧内对象移除篡改检测方法
EP3301596A1 (en) Video search system & method
CN106951831B (zh) 一种基于深度摄像机的行人检测跟踪方法
KR101323369B1 (ko) 영상 프레임 군집화 장치 및 방법
CN105141968B (zh) 一种视频同源copy-move篡改检测方法及系统
CN109493361B (zh) 一种火灾烟雾图像分割方法
KR100812347B1 (ko) 스트록 필터를 이용한 문자 추출 방법 및 그 장치
CN109168082A (zh) 基于固定视频的马赛克检测实现方法
Gllavata et al. Finding text in images via local thresholding
CN101887520B (zh) 一种图像中的文字定位方法和装置
Huang et al. A method of caption location and segmentation in news video
Angadi et al. A shot boundary detection technique based on local color moments in YCbCr color space

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070905