CN101527800A - 一种获取基于h.264/avc压缩视频字幕的方法 - Google Patents

一种获取基于h.264/avc压缩视频字幕的方法 Download PDF

Info

Publication number
CN101527800A
CN101527800A CN200910021769A CN200910021769A CN101527800A CN 101527800 A CN101527800 A CN 101527800A CN 200910021769 A CN200910021769 A CN 200910021769A CN 200910021769 A CN200910021769 A CN 200910021769A CN 101527800 A CN101527800 A CN 101527800A
Authority
CN
China
Prior art keywords
caption
frame
coefficient
avc
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910021769A
Other languages
English (en)
Other versions
CN101527800B (zh
Inventor
钱学明
刘贵忠
李智
王喆
孙力
南楠
王琛
汪欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN 200910021769 priority Critical patent/CN101527800B/zh
Publication of CN101527800A publication Critical patent/CN101527800A/zh
Application granted granted Critical
Publication of CN101527800B publication Critical patent/CN101527800B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种获取基于H.264/AVC压缩视频字幕的方法,包括如下步骤:执行步骤10“H.264/AVC码流解析”,从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数;然后执行步骤20“熵解码与反量化”,将步骤10获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数;接着执行步骤30“基于块的纹理描述”,对步骤20所获得的AC系数分别对4×4和8×8块进行纹理描述;接着,执行步骤40“字幕块粗检测”,在对I帧中所有块进行纹理描述基础上,初步确认每个块是属于字幕块还是背景块;最后,执行步骤50“字幕条定位”,在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位:重复步骤10~50,直到视频流结束位置,则执行步骤60“字幕检测结束”。

Description

一种获取基于H.264/AVC压缩视频字幕的方法
技术领域
本发明涉及应用电子技术领域,尤其涉及一种获取基于H.264/AVC压缩视频字幕的方法。
背景技术
视频字幕和视频节目内容密切相关,能够有效地辅助人们在视频欣赏中很好地把握节目的主题思想,进而理解视频的内容。视频字幕信息的检测和识别可以丰富基于文本的视频内容查询。因此对视频字幕信息进行有效的获取是一个必要的环节。由于视频数量巨大,一般在视频存储、传播过程中都要进行压缩,H.264/AVC是迄今最有效的视频压缩方法。在许多场合有重要的应用。
现有技术中,中国专利ZL02801652.1公开了一种“在视频信号中检测字幕”的技术方案,该方案的优点是计算的复杂度不是很高,但是其在技术实现上是假设字幕位置是固定在图像的中下部分,因此,该技术不能很多好地实现对视频节目中存在满屏幕字幕况以及位置不固定的情况下,字幕信息的高效检测及获取;如果字幕信息不在所制定的检测范围内,则字幕信息不能被很好地获取以及应用。
发明人在实现本发明过程中发现,现有技术中还存在一种技术方案,即字幕的检测是基于像素域的信息来进行检测的,但对于H.264/AVC压缩视频,其首先要进行解码,然后再进行检测,因此计算复杂度很高。
发明内容
本发明的目的是提供一种基于H.264/AVC压缩视频字幕的获取方法,从而在不限制字幕位置区域和对视频流完全解码的情况下,准确获取视频数据中的字幕信息。
为达到以上目的,本发明是采用如下技术方案予以实现的:
一种获取基于H.264/AVC压缩视频字幕的方法,其特征是,包括如下执行步骤:首先执行步骤10“H.264/AVC码流解析”,从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数;然后执行步骤20“熵解码与反量化”,将步骤10获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数;接着执行步骤30“基于块的纹理描述”,对步骤20所获得的AC系数分别对4×4和8×8块进行纹理描述;接下来,执行步骤40“字幕块粗检测”,在对I帧中所有块进行纹理描述基础上,初步确认每个块是属于字幕块还是背景块;最后,执行步骤50“字幕条定位”,在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位:重复步骤10~50,直到视频流结束位置,则执行步骤60“字幕检测结束”。
上述方案中,步骤10所述从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数,对于P帧、B帧码流直接跳过,并且对I帧的色度分量的AC系数也直接跳过不进行解码;包括如下基本判断单元:
执行码流结束判断单元110,判断所解析的码流是否是结束,如果是码流结束标志则直接跳至步骤60结束字幕检测;否则执行单元120进行是否为I帧的头信息判断;
在单元120中所判断的头信息中,如果不是I帧头信息,则直接跳过并继续执行单元110和120,直到获得I帧头信息为止;如果为I帧的头信息,则执行该I帧图像的亮度分量AC系数判断单元130;
在单元130所判断的码流信息中,如果码流不属于亮度分量的AC系数则直接跳过步骤20~50,重复执行单元130,如果是I帧的亮度分量的AC系数则执行步骤20~50。
在步骤30中,所述纹理描述采用对N×N(N=4,8)块的所有AC系数求绝对和的形式来进行计算。
在步骤40中,所述初步确认每个块是属于字幕块还是背景块采用一种与量化参数q自适应的阈值选取方法。
在步骤50中,所述在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位是按如下所述的步骤来实现的:
1)基于形态学的字幕区域确认;
2)基于字幕块投影的字幕条定位方法。
由本发明所提供的技术方案可以看出,本发明通过对H.264/AVC压缩视频流中I帧的亮度分量图像部分解码AC系数进行的字幕检测,从而在不限制字幕位置区域和对视频流完全解码的情况下,准确获取视频数据中的字幕信息。
附图说明
图1为本发明方法的流程框图。
图2为图1中的步骤10的具体流程框图。
具体实施方式
以下结合附图及实施例对本发明做进一步的详细说明。
如附图1所示,一种基于H.264/AVC压缩视频字幕信息的获取方法,包括:
步骤10,H.264/AVC码流解析。
为了加快获取字幕信息的速度,本发明实施例具体可以从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数。对于P帧,B帧码流直接跳过,并且对I帧的色度分量的AC系数也直接跳过不进行解码。其中包括如图2所示的基本判断单元:
执行码流结束判断单元110,判断所解析的码流是否是结束,如果是码流结束标志则直接跳至单元60结束字幕检测;否则执行单元120进行是否为I帧的头信息判断。
在单元120中所判断的头信息中,如果不是I帧头信息,则直接跳过并继续执行单元110和120,直到获得I帧头信息为止;如果为I帧的头信息,则执行该I帧图像的亮度分量AC系数判断单元130;
在单元130所判断的码流信息中,如果码流不属于亮度分量的AC系数则直接跳过步骤20~50,重复执行单元130,如果是I帧的亮度分量的AC系数则执行步骤20~50。
步骤20,AC系数的熵解码和反量化。是将步骤10中获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数;
步骤30,对步骤20中所获得的AC系数分别对4×4和8×8块进行纹理描述,在纹理描述中本发明中采用对N×N(N=4,8)块的所有AC系数求绝对和的形式来进行计算,计算方法如下式子所示:
Tcoef N ( p , o ) = Σ 0 ≤ u , v ≤ N - 1 u + v ≠ 0 | Coef N ( u , v ) |
其中CoefN(u,v)(0≤u,v≤N-1)表示N×N(N=4,8)块的DCT系数,(p,o)表示块的坐标位置。
步骤40,进行字幕块粗检测。在对I帧中所有块进行纹理描述基础上,来初步确认每个块是属于字幕块还是非字幕块(背景块)。在字幕块粗检测中为了使方法适合后续字幕确认和字幕条定位,本发明中将块大小归结到4×4。判断一个进行4×4的DCT的块(i,j)是否属于字幕块的方法是
TMAP ( i , j ) = 1 , Tcoef 4 ( i , j ) ≥ Tcoef th 4 ( q ) 0 , others
判断8×8的块是否属于字幕块的方法是如果该块(s,t)的纹理值大于一个自适应确定的阈值,则其相对应的四个4×4块都设置成字幕块,判断方法如下:
TMAP ( h ( s ) , w ( t ) ) = 1 , Tcoef 8 ( s , t ) ≥ Tcoef th 8 ( q ) 0 , others , s , t = 0,1,2,3
其中Tcoefth 4(q)和Tcoefth 8(q)分别表示对4×4,8×8块是否为字幕的自适应的纹理阈值,其中q表示量化该块所用的量化参数,该阈值的选择是按照如下的准则予以实现
Tcoef th 4 ( q ) = μ N ( α ) + β N ( q ) × T N , ( N = 4,8 )
其中TN表示对N×N大小的DCT变换块所设定的阈值(本发明中T4可选择的范围是[500,4000],建议使用T4=2000,T8可选择的范围是[1000,8000],建议使用T8=4000),μN(α)表示I帧中N×N块DCT中纹理最大的α*100%块的纹理均值;βN(q)是一个与量化参数q相关的比例系数。因此,本发明在进行H.264/AVC压缩视频字幕检测时可以根据量化参数q自适应的确定阈值Tcoefth 4(q)和Tcoefth 8(q)。
在本发明中a的取值范围可以是[0.1,0.5],本发明中建议使用a=0.2;βN(q)是通过大量统计不同类型的视频中的I帧在不同的量化参数q的情况下,I帧中4×4和8×8块DCT纹理属于最大的α*100%的那些块的纹理均值。本发明中将βN(q)|q=25=1,然后在其它q下的值是通过比较得到
β N ( q ) = μ N ( α ) | q ‾ μ N ( α ) | q = 25 ‾ × β N ( q ) | q = 25
为了自适应的获得任意给定q下βN(q)的值,本发明中对5个视频序列中I帧的μN(α)|q的均值在不同的量化参数q=5,10,15,20,25,30,35,40,45,50,55的值;然后对这11个点(μN(α)|q,q)采用曲线拟合的方法得到任意给定q下的μN(α)|q,然后通过上面的式子获得在任意给定q下的比例系数βN(q)。通过自适应的子块块粗检测,可以获得一个I帧中相应的字幕模板TMAP。
步骤50,进行字幕条定位。在字幕块粗检测所得出的模板TMAP获取的基础上执行如下所述的步骤来进行字幕条的定位,
1)基于形态学的字幕区域确认;
这里首先对TMAP进行算子为rxr(r=3)的闭运算,并记录其结果为CMAP。然后对CMAP进行一个1×m(m=5)的开运算得到OMAP。并根据开运算的结果对OMAP中每个连通域中的字幕块进行统计,并对字幕块数小于40的作为噪声予以剔除。
2)基于字幕块投影的字幕条定位方法。在步骤1)的基础上对每个连通的字幕区域确定其在高度方向的起始VT(i)和终止位置VB(i)i=1,...,M;
然后,对OMAP和TMAP在属于VT(i)-k和VB(i)+k区域进行向Y轴方向的投影(k=2),分别得到相应的投影曲线OP(t)和TP(t)。
OP ( t ) = Σ s = 0 Wb OMAP ( s , t ) t ∈ [ V T ( i ) - k , V B ( i ) + k ] 0 others
TP ( t ) = Σ s = 0 Wb TMAP ( s , t ) t ∈ [ V T ( i ) - k , V B ( i ) + k ] 0 others
结合OP(t)和TP(t)可以得到相应的字幕条区域的方法如下:
Figure A20091002176900093
其中Nth为一个设置的阈值,本发明中选用Nth=5;通过上式得出一条字幕的高度方向的起始位置和终止位置,并且可以对字幕条进行分离并得到字幕条分离后的模板FMAP。该模板的获得方法如下:
FMAP(s,t)=CTL(s,t)&CMAP(s,t);s=1,...,Wb;t=Ts,...,Te;
根据FMAP可以确定字幕条在宽度方向上的起始和终止位置的方法是首先对FMAP采用一个1*11的算子进行形态学闭运算,然后对闭运算后的区域采用的方法求该字幕条的在宽度方向上的起始位置SsP和终止位置SeP。
SeP = max t { Se ( t ) } SsP = min t { Se ( t ) } , t = Ts , · · · , Te
通过上述步骤,可以得出I帧中一条字幕在模板图中的上下左右位置为(Ts,Te,SsP,SeP),根据模板图和原始图的关系可以确定其在像素域中的对应位置为(Ts*4-4,Te*4,SsP*4-4,SeP*4)。
重复上述步骤10~50,直到视频流结束位置,则结束字幕检测。
由上述本发明实施例提供的技术方案可以看出,本发明实施例中,通过对H.264/AVC压缩视频流中I帧的亮度分量图像部分解码AC系数进行的字幕检测。从而在不限制字幕位置区域和对视频流完全解码的情况下,准确获取视频数据中的字幕信息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1、一种获取基于H.264/AVC压缩视频字幕的方法,其特征是,包括如下执行步骤:首先执行步骤10“H.264/AVC码流解析”,从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数;然后执行步骤20“熵解码与反量化”,将步骤10获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数;接着执行步骤30“基于块的纹理描述”,对步骤20所获得的AC系数分别对4×4和8×8块进行纹理描述;接下来,执行步骤40“字幕块粗检测”,在对I帧中所有块进行纹理描述基础上,初步确认每个块是属于字幕块还是背景块;最后,执行步骤50“字幕条定位”,在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位:重复步骤10~50,直到视频流结束位置,则执行步骤60“字幕检测结束”。
2、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法,其特征是,步骤10所述从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数,包括如下基本判断单元:
执行码流结束判断单元110,判断所解析的码流是否是结束,如果是码流结束标志则直接跳至步骤60结束字幕检测;否则执行单元120进行是否为I帧的头信息判断;
在单元120中所判断的头信息中,如果不是I帧头信息,则直接跳过并继续执行单元110和120,直到获得I帧头信息为止;如果为I帧的头信息,则执行该I帧图像的亮度分量AC系数判断单元130;
在单元130所判断的码流信息中,如果码流不属于亮度分量的AC系数则直接跳过步骤20~50,重复执行单元130,如果是I帧的亮度分量的AC系数则执行步骤20~50;
对于P帧、B帧码流直接跳过,并且对I帧的色度分量的AC系数也直接跳过不进行解码。
3、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法,其特征是,在步骤30中,所述纹理描述采用对N×N(N=4,8)块的所有AC系数求绝对和的形式来进行计算。
4、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法,其特征是,在步骤40中,所述初步确认每个块是属于字幕块还是背景块采用一种与量化参数q自适应的阈值选取方法。
5、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法,其特征是,在步骤50中,所述在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位是按如下所述的步骤来实现的:
1)基于形态学的字幕区域确认;
2)基于字幕块投影的字幕条定位方法。
CN 200910021769 2009-03-31 2009-03-31 一种获取基于h.264/avc压缩视频字幕的方法 Expired - Fee Related CN101527800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910021769 CN101527800B (zh) 2009-03-31 2009-03-31 一种获取基于h.264/avc压缩视频字幕的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910021769 CN101527800B (zh) 2009-03-31 2009-03-31 一种获取基于h.264/avc压缩视频字幕的方法

Publications (2)

Publication Number Publication Date
CN101527800A true CN101527800A (zh) 2009-09-09
CN101527800B CN101527800B (zh) 2011-01-05

Family

ID=41095468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910021769 Expired - Fee Related CN101527800B (zh) 2009-03-31 2009-03-31 一种获取基于h.264/avc压缩视频字幕的方法

Country Status (1)

Country Link
CN (1) CN101527800B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820545A (zh) * 2010-05-04 2010-09-01 北京数码视讯科技股份有限公司 视频帧插入区宏块的编码方法
CN104602096A (zh) * 2014-12-26 2015-05-06 北京奇艺世纪科技有限公司 一种视频字幕区的检测方法和装置
CN104683801A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 图像压缩方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212231A (ja) * 1995-02-02 1996-08-20 Hitachi Ltd 字幕検出方法および動画像の代表画像抽出装置
CN1462546A (zh) * 2001-05-15 2003-12-17 皇家菲利浦电子有限公司 在视频信号中检测字幕
CN1933568A (zh) * 2006-08-18 2007-03-21 无敌科技(西安)有限公司 字幕文字显示方法及其装置
CN101021903A (zh) * 2006-10-10 2007-08-22 鲍东山 视频字幕内容分析系统
US20080143880A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting caption of video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212231A (ja) * 1995-02-02 1996-08-20 Hitachi Ltd 字幕検出方法および動画像の代表画像抽出装置
CN1462546A (zh) * 2001-05-15 2003-12-17 皇家菲利浦电子有限公司 在视频信号中检测字幕
CN1933568A (zh) * 2006-08-18 2007-03-21 无敌科技(西安)有限公司 字幕文字显示方法及其装置
CN101021903A (zh) * 2006-10-10 2007-08-22 鲍东山 视频字幕内容分析系统
US20080143880A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting caption of video

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钱学明,刘贵忠: "基于GA的压缩与中全局运动估计及在字幕遮挡区域恢复中的应用", 电子学报 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820545A (zh) * 2010-05-04 2010-09-01 北京数码视讯科技股份有限公司 视频帧插入区宏块的编码方法
CN104683801A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 图像压缩方法和装置
US9888245B2 (en) 2013-11-29 2018-02-06 Huawei Technologies Co., Ltd. Image compression method and apparatus for performing amplitude decreasing processing
CN104683801B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 图像压缩方法和装置
CN104602096A (zh) * 2014-12-26 2015-05-06 北京奇艺世纪科技有限公司 一种视频字幕区的检测方法和装置
CN104602096B (zh) * 2014-12-26 2018-03-27 北京奇艺世纪科技有限公司 一种视频字幕区的检测方法和装置

Also Published As

Publication number Publication date
CN101527800B (zh) 2011-01-05

Similar Documents

Publication Publication Date Title
JP3738939B2 (ja) 動画像のカット点検出装置
US9942557B2 (en) Method and system of video encoding optimization
JP5496914B2 (ja) 知覚上の品質を評価する方法
CN109104609B (zh) 一种融合hevc压缩域和像素域的镜头边界检测方法
EP1692876B1 (en) Method and system for video quality measurements
US7949053B2 (en) Method and assembly for video encoding, the video encoding including texture analysis and texture synthesis, and corresponding computer program and corresponding computer-readable storage medium
US9204173B2 (en) Methods and apparatus for enhanced performance in a multi-pass video encoder
US6449392B1 (en) Methods of scene change detection and fade detection for indexing of video sequences
DE69912084T2 (de) Verfahren zur Erkennung von Szenenüberblendungen zur Indexierung von Videosequenzen
US20100303150A1 (en) System and method for cartoon compression
EP1525753A1 (en) A method and apparatus for measuring the quality of video data
CN101527800B (zh) 一种获取基于h.264/avc压缩视频字幕的方法
CN103888764A (zh) 一种自适应补偿视频压缩失真的系统及方法
CN108366295B (zh) 视频分类特征提取方法、转码重压缩检测方法及存储介质
CN102075784B (zh) 一种联合考虑压缩和丢包损伤条件下的视频质量评价方法
CN107707915B (zh) 采样点自适应偏移滤波的控制方法及其影像处理系统
CN100435588C (zh) 压缩视频中分块效应的消除方法
JP5013487B2 (ja) 映像の客観画質評価装置
EP2070048B1 (en) Spatial masking using a spatial activity metric
Kawayoke et al. NR objective continuous video quality assessment model based on frame quality measure
WO2005050564A2 (en) Detection of local visual space-time details in a video signal
CN115442613A (zh) 一种利用gan的基于帧间信息的噪声去除方法
KR100683060B1 (ko) 영상 프레임의 블록화 현상 제거 장치 및 그 방법
US6996285B2 (en) Quality rating function for a discrete decoded picture
US20230269380A1 (en) Encoding method, decoding method, encoder, decoder and storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110105

Termination date: 20130331