CN101615255B - 一种视频文字多帧融合的方法 - Google Patents

一种视频文字多帧融合的方法 Download PDF

Info

Publication number
CN101615255B
CN101615255B CN2009100888750A CN200910088875A CN101615255B CN 101615255 B CN101615255 B CN 101615255B CN 2009100888750 A CN2009100888750 A CN 2009100888750A CN 200910088875 A CN200910088875 A CN 200910088875A CN 101615255 B CN101615255 B CN 101615255B
Authority
CN
China
Prior art keywords
character area
text
formula
buffer
avg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100888750A
Other languages
English (en)
Other versions
CN101615255A (zh
Inventor
易剑
彭宇新
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2009100888750A priority Critical patent/CN101615255B/zh
Publication of CN101615255A publication Critical patent/CN101615255A/zh
Application granted granted Critical
Publication of CN101615255B publication Critical patent/CN101615255B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种视频文字多帧融合的方法,用于对出现在多个连续视频帧的相同文字区域进行融合,包括如下步骤:1)在连续视频帧的文字区域检测结果中识别文字区域组,所述文字区域组指包含相同内容的多个文字区域;2)对步骤1)中得到的文字区域组进行过滤,去除会对融合结果造成负面影响的模糊的文字区域;3)对步骤2)中过滤后的文字区域组进行融合,得到融合结果。使用本发明的方法避免了模糊文字区域对于融合结果的影响;能够高效准确地检测连续视频帧中包含相同内容的多个文字区域;能够在简化背景的同时,得到较高的对比度和清晰的文字融合结果。

Description

一种视频文字多帧融合的方法
技术领域
本发明属于视频内容分析和检索技术领域,具体涉及一种视频文字多帧融合的方法。
背景技术
随着互联网技术与多媒体技术的迅速发展,网络上出现了海量的视频内容;由于业务的需要,电视台等媒体单位积累了大量的视频资料;远程教学,视频点播,数字图书馆等多媒体技术的广泛应用,也产生了大量的视频。面对如此海量视频信息,如何对之进行索引,使用户能够迅速检索到想要的内容,成为了一个急待解决的问题。传统的方法基于人工标注的关键词进行检索,这种方法因为主观性强,手工标注等缺点,不能适用于海量视频内容的分析与检索,因此,基于内容的视频检索技术成为了研究的热点。在现有的相关研究中,大量视频包含了丰富的文字信息,这些文字信息一般同视频的内容密切相关,能够对之进行较为准确的描述,如果能够正确识别这些文字,必将大大有利于视频检索技术的发展。
现有的视频文字识别方法主要是基于单帧的,这些方法把视频看作是相互独立的视频帧序列,在各个视频帧中分别提取和识别文字。然而,视频中的文字一般会持续出现于多个连续的视频帧中,存在着冗余的信息,对这些冗余的文字信息进行融合,可以达到平滑文字背景,提高文字对比度和获取清晰文字笔画的目的,从而大大提高文字提取与识别的准确率。因此,近年来,一些研究者提出了多帧融合的方法,对出现在多个连续视频帧中,包含相同内容的文字区域进行融合。
把出现在连续视频帧中,包含相同文字的多个文字区域称为一个文字区域组,现有的多帧融合方法主要解决两个问题:即文字区域组的识别,和文字区域组的融合。在现有关于文字区域组识别的研究中,有的方法采用了图像匹配的方法在相邻的视频帧中搜索包含相同文字的区域,这种方法较为准确,但复杂度较高;其它一些方法简单地认为在相邻视频帧的同一位置上检测到的文字区域包含了相同的文字,这种方法效率较高,但其准确度较差,当不同的文字在相邻视频帧中出现的时候,容易发生错误。在关于文字组融合的研究中,现有方法有的采用了平均融合,这种方法能够对简化复杂的背景,但不能提高文字与背景的对比度;有的方法采用了最小值融合,这种方法可以提高文字与背景的对比度,但容易受到噪声的影响,产生含有模糊文字的融合结果。这些方法都不能同时取得简单的背景,较高的对比度以及清晰的文字。此外,现有多帧融合方法的另一个不足之处在于,这些方法都没有考虑融合过程中模糊文字对于融合结果的影响,而这些模糊的文字会对多帧融合的结果产生较大影响,使得融合得到的文字模糊不清,从而导致较差的文字提取与识别结果。
2002年在IEEE International Conference on Image Processing上发表的文献“A comprehensive method for multilingual video text detection,localization,andextraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang),提出了一种视频文字多帧融合的方法。
该文献认为,相同文字在连续视频帧中持续出现,并处于同样的位置,因此首先根据文字区域的位置信息来识别具有相同内容的多个文字区域;然后根据文字区域内是否包含一定数量的低灰度值像素,来判断文字区域是否具有较高的对比度,并舍弃那些对比度较低的文字区域;最后对具有较高对比度的文字区域进行融合,得到融合结果。经过该方法的处理,能够得到文字笔画更为清晰的文字区域,从而有效改进了文字提取与识别的结果。然而,这种方法具有如下不足:当含有不同内容的文字区域在连续视频帧中处于相近位置时,容易把它们错误判断为含有相同的文字;同时,该方法也没有考虑模糊的文字区域对于融合结果的影响,对于图像质量比较差的视频,融合结果较差,因此,该方法还需要得到改进。
发明内容
针对现有方法的不足,本发明提出了一种视频文字多帧融合的方法,用于对出现在连续视频帧中,包含相同内容的多个文字区域进行融合。
本发明的技术方案如下:
一种视频文字多帧融合的方法,用于对出现在多个连续视频帧中,包含相同内容的文字区域进行融合,包括如下步骤:
1)在连续视频帧的文字区域检测结果中识别文字区域组,所述文字区域组指包含相同内容的多个文字区域;
2)对步骤1)中得到的文字区域组进行过滤,去除会对融合结果造成负面影响的模糊文字区域;
3)对步骤2)中过滤后的文字区域组进行融合,得到融合结果。
进一步,上述的一种视频文字多帧融合的方法,所述步骤1)中,按照如下方法识别文字区域组:维护一个缓冲区Tbuffer,初始情况下,Tbuffer为空;按照时间顺序对视频帧进行处理,设fcurr为当前正在处理的视频帧,Tcurr为在fcurr中检测到的文字区域集合,tcurr为Tcurr中的任一文字区域,把tcurr同Tbuffer中的所有文字区域进行比较,如果tcurr同Tbuffer中的任一文字区域tbuffer包含相同的内容,则把tcurr加入tbuffer所属的文字区域组,如果tcurr和Tbuffer中的所有文字区域都不含相同的内容,则把tcurr放入Tbuffer中,并把tcurr看作是一个新文字区域组的开始;检查Tbuffer中的任一文字区域tbuffer,若tbuffer既不是在当前帧fcurr中新检测到的文字区域,也不和Tcurr中的任何文字区域包含相同内容,则认为tbuffer是其所属文字区域组的结束,并把tbuffer移出Tbuffer
进一步,上述的一种视频文字多帧融合的方法,所述识别文字区域组时,判断两个文字区域包含相同内容的方法是,两个文字区域同时满足如下三个条件:
条件一:两个文字区域在连续视频帧中处于相近的位置;
条件二:两个文字区域包含相似的边缘分布;
条件三:两个文字区域包含相近的对比度。
若两个文字区域同时满足上述三个条件,则认为它们包含相同的内容。
进一步,上述的一种视频文字多帧融合的方法,所述识别文字区域组时,判断两个文字区域ta和tb满足上述三个条件的具体方法是,ta和tb同时满足以下三个公式:
公式一:Overlap(ta,tb)>r1×Min(area(ta),area(tb))
Overlap(ta,tb)表示文字区域ta与tb在不同视频帧中位置上重叠的部分,r1是取值范围为0到1的一个常数,Min(area(ta),area(tb))是ta和tb中较小文字区域的面积,该公式表示,若ta与tb有足够大的重叠面积,则认为文字区域ta与tb在不同视频帧中处于相近的位置;
公式二:NoneZero(Ea,Eb)>r2×Overlap(ta,tb)
Ea与Eb分别是ta和tb的边缘图,NoneZero(Ea,Eb)是在Ea与Eb中边缘强度值都不为0的像素集合,NoneZero(Ea,Eb)={p|Ea(p)>0 & Eb(p)>0},NoneZero(Ea,Eb)用来衡量Ea与Eb中边缘分布的情况,r2是取值范围0到1之间的一个常数,该公式表示,当NoneZero(Ea,Eb)中包含的像素个数大于r2与Overlap(ta,tb)的乘积时,认为ta与tb具有类似的边缘分布;
公式三:EdgeIDiff(ta,tb)<DMAX×Overlap(ta,tb)
DMAX是一个预先定义的阈值,是取值范围0到255之间的一个常数,EdgeDiff(ta,tb)是边缘图Ea与Eb中位置相同的边缘点强度值之差的累加和,即EdgeIDiff(ta,tb)=Sum(|Ea(p)-Eb(p)|),该公式表示,当EdgeDiff(ta,tb)的值小于DMAX与Overlap(ta,tb)的乘积时,认为ta与tb对比度差异不大,它们具有相似的对比度。
进一步,上述的一种视频文字多帧融合的方法,所述步骤2)中,对文字区域组进行过滤时,首先计算得到文字区域组内任一文字区域ti的文字笔画强度图TIMapi,1≤i≤M,然后把TIMapi分成两个部分:文字部分TIMapi text和背景部分TIMapi back,并在文字部分TIMapi text上计算ti的文字笔画清晰程度TextClarityi,TextClarityi越高,表示文字越清晰,反之文字越模糊,过滤时,去除那些TextClarityi值较小的模糊文字区域;这样,设过滤之前,文字区域组中包含M个文字区域,记为t1,t2,...tM;过滤后,文字区域组就只剩下M′个TextClarityi值较大的文字区域,记为t′1,t′2,...t′M′
进一步,上述的一种视频文字多帧融合的方法,所述对文字区域组进行过滤时,文字笔画强度图由公式四计算得到:
公式四: TIMap i = Max ( TInt i H , TInt i V , TInt i LD , TInt i RD )
在公式四中,TInti H,TInti V,TInti LD和TInti RD分别表示用水平、垂直,左对角线,和右对角线四个方向上的文字笔画强度检测算子在原图ti上进行卷积得到的文字笔画强度图。
进一步,上述的一种视频文字多帧融合的方法,按照公式五、六将文字笔画强度图TIMapi text分成文字部分和背景部分:
公式五: TIMap i text = { p | t Avg ( p ) > H otsu }
公式六: TIMap i back = { p | t Avg ( p ) ≤ H otsu }
其中,tAvg是对文字区域组中的文字区域t1,t2,...tM进行平均得到的图像,Hotsu是在tAvg中用OTSU方法求得的局部阈值,p是TIMapi中的一个像素,tAvg(p)是该像素在tAvg中相应位置的强度值,如果tAvg(p)大于Hotsu,则认为该p属于文字部分TIMapi text,否则属于背景部分TIMapi back,这是因为在视频中,相对于背景,文字一般具有较高的强度值。
进一步,上述的一种视频文字多帧融合的方法,所述表示文字清晰程度的TextClarityi值由公式七计算得到,其中,TIMapi text表示TIMapi中的文字部分,p是TIMapi text中的像素,|TIMapi text|是TIMapi text中像素的数目;
公式七: TextClarity i = Σ p ∈ TIMap i text TIMap i ( p ) / | TIMap i text |
进一步,上述的一种视频文字多帧融合的方法,所述步骤3)中,在文字区域的文字部分和背景部分分别采用不同的方法进行融合,融合方法如公式八所示:在背景部分取像素的平均值;在文字部分取像素的最小值;
公式八: t int ( p ) = min { t ′ i ( p ) } 1 ≤ i ≤ M ′ p ∈ t i ′ back Σ 1 ≤ i ≤ M ′ t ′ i ( p ) / M ′ p ∈ t i ′ text
公式九:t′i text={p|tAvg(p)>Hotsu}
公式十:t′i back={p|tAvg(p)≤Hotsu}
其中,t′1,t′2,...t′M′是文字区域组t1,t2,...tM中过滤后的,含有较为清晰文字笔画的文字区域,tint是多帧融合的结果,t′i text和t′i back分别代表t′1,t′2,...t′M′的文字部分和背景部分,1≤i≤M′,它们由公式九、十计算得到;公式九、十中,tAvg是对文字区域t1,t2,...tM进行平均得到的图像,Hotsu是在tAvg中用OTSU方法求得的局部阈值,p表示文字区域t′1,t′2,...t′M′中同一位置的一个像素,tAvg(p)是这个像素在tAvg中相应位置的强度值,如果tAvg(p)大于Hotsu,则认为该p属于文字部分t′i text,否则属于背景部分t′i back
与现有技术相比,本发明具有如下三个优点:(1)在文字区域组的识别中,综合考虑了文字区域的三个有效特征,包括位置、边缘分布以及对比度等,能够高效准确地检测连续视频帧中包含相同内容的多个文字区域;(2)引入了文字区域组过滤,用文字笔画强度图来衡量图像中文字的清晰程度,只选取那些含有清晰笔画的文字区域进行融合,从而避免了模糊文字区域对于融合结果的影响;(3)在文字区域组融合中,综合了平均融合和最小值融合的优点,在图像的文字和背景部分分别采用了平均融合和最小值融合,能够在简化背景的同时,得到较高的对比度和清晰的文字融合结果。
附图说明
图1a是水平方向上的文字笔画强度检测算子;
图1b是垂直方向上的文字笔画强度检测算子;
图1c是左对角线方向上的文字笔画强度检测算子;
图1d是右对角线方向上的文字笔画强度检测算子;
图2是包含本发明方法的视频文字识别流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
如附图2所示,基于多帧的视频文字识别方法主要包含四个步骤:视频文字检测步骤,多帧融合步骤,视频文字提取步骤和OCR软件识别步骤。本发明主要是关于多帧融合方法的,因此,本实施方式在其他三个步骤上采用了现有的方法,其中,在视频文字检测和视频文字提取步骤采用了2005年在IEEE Transactions on Circuits and Systems for Video Technology上发表的文献“A comprehensive method for multilingual video text detection,localization,andextraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254)中的方法来检测文字区域,和把文字从图像背景中提取出来;在OCR软件识别步骤,采用了现有的商业软件,方正锐思OCR来识别二值文字图像,得到文本结果。本发明对文字区域检测结果进行融合,得到背景更为平滑,对比度更高和笔画更为清晰的文字区域图像,主要包括以下步骤:
(1)在连续视频帧的文字区域检测结果中按照如下方法识别文字区域组。
维护一个缓冲区Tbuffer,初始情况下,Tbuffer为空;按照时间顺序对视频帧进行处理,设fcurr为当前正在处理的视频帧,Tcurr为在fcurr中检测到的文字区域集合,tcurr为Tcurr中的任一文字区域,把tcurr同Tbuffer中的所有文字区域进行比较,如果tcurr同Tbuffer中的任一文字区域tbuffer包含相同的内容,则把tcurr加入tbuffer所属的文字区域组,如果tcurr和Tbuffer中的所有文字区域都不含相同的内容,则把tcurr放入Tbuffer中,并把tcurr看作是一个新文字区域组的开始;检查Tbuffer中的任一文字区域tbuffer,若tbuffer既不是在当前帧fcurr中新检测到的文字区域,也不和Tcurr中的任何文字区域包含相同内容,则认为tbuffer是其所属文字区域组的结束,并把tbuffer移出Tbuffer
在上述过程中,判断两个文字区域是否包含相同内容,就看这两个文字区域是否同时满足如下三个条件:
条件一:两个文字区域在连续视频帧中处于相近的位置;
条件二:两个文字区域包含相似的边缘分布;
条件三:两个文字区域包含相近的对比度。
若两个文字区域同时满足这三个条件,则认为它们包含相同的内容。
判断文字区域ta和tb是否满足上述三个条件的具体方法是,看ta和tb是否同时满足如下三个公式:
公式一:Overlap(ta,tb)>r1×Min(area(ta),area(tb))
Overlap(ta,tb)表示文字区域ta与tb在不同视频帧中位置上重叠的部分,r1是取值范围为0到1的一个常数,Min(area(ta),area(tb))是ta和tb中较小文字区域的面积,该公式表示,若ta与tb有足够大的重叠面积,则认为文字区域ta与tb在不同视频帧中处于相近的位置,在本实施例中,r1的值取为0.9;
公式二:NoneZero(Ea,Eb)>r2×Overlap(ta,tb)
Ea与Eb分别是ta和tb的边缘图,NoneZero(Ea,Eb)是在Ea与Eb中边缘强度值都不为0的像素集合,NoneZero(Ea,Eb)={p|Ea(p)>0 & Eb(p)>0},NoneZero(Ea,Eb)用来衡量Ea与Eb中边缘分布的情况,r2是取值范围0到1之间的一个常数,该公式表示,当NoneZero(Ea,Eb)中包含的像素个数大于r2与Overlap(ta,tb)的乘积时,认为ta与tb具有类似的边缘分布,在本实施例中,r2的值取为0.85;
公式三:EdgeIDiff(ta,tb)<DMAX×Overlap(ta,tb)
DMAX是一个预先定义的阈值,取值范围为1到255,EdgeDiff(ta,tb)是边缘图Ea与Eb中位置相同的边缘点强度值之差的累加和,即EdgeIDiff(ta,tb)=Sum(|Ea(p)-Eb(p)|),该公式表示,当EdgeDiff(ta,tb)的值小于DMAX与Overlap(ta,tb)的乘积时,认为ta与tb对比度差异不大,它们具有相似的对比度,在本实施例中,DMAX的值取为40。
除上述方法之外,还有其他方法可以实现文字区域组的识别,例如,2002年在IEEE International Conference on Image Processing上发表的文献“Acomprehensive method for multilingual video text detection,localization,andextraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang)中认为,出现在连续视频帧中,具有相近位置的文字区域包含了相同的文字,这种方法只考虑了位置信息,当不同文字位于视频中的相同位置时,容易出错,因此该方法不如本实施例的方法更为有效。
(2)对文字区域组进行过滤,去除会对融合结果造成负面影响的模糊文字区域。
对文字区域组进行过滤时,首先计算得到文字区域组内任一文字区域ti的文字笔画强度图TIMapi,1≤i≤M,然后把TIMapi分成两个部分:文字部分TIMapi text和背景部分TIMapi back,并在文字部分TIMapi text上计算ti的文字笔画清晰程度TextClarityi,TextClarityi越高,表示文字越清晰,反之文字越模糊,过滤时,去除那些TextClarityi值较小的模糊文字区域。
在上述过程中,文字笔画强度图TIMapi由公式四计算得到,其中,TInti H,TInti V,TInti LD和TInti RD分别是用图1a、图1b、图1c和图1d中所示的四个方向上的文字笔画强度检测算子在原图上进行卷积得到的水平,垂直以及两个对角线方向的文字笔画强度图。
公式四: TIMap i = Max ( TInt i H , TInt i V , TInt i LD , TInt i RD )
在上述过程中,在得到文字笔画强度图之后,按照公式五、六将文字笔画强度图TIMapi分成文字部分和背景部分。其中,tAvg是对文字区域组中的文字区域t1,t2,...tM进行平均得到的图像,Hotsu是在tAvg中用OTSU方法求得的局部阈值,p是TIMapi中的一个像素,tAvg(p)是该像素在tAvg中相应位置的强度值,如果tAvg(p)大于Hotsu,则认为该p属于文字部分TIMapi text,否则属于背景部分TIMapi back
公式五: TIMap i text = { p | t Avg ( p ) > H otsu }
公式六: TIMap i back = { p | t Avg ( p ) ≤ H otsu }
在上述过程中,表示文字清晰程度的TextClarityi值由公式七计算得到,其中,TIMapi text表示TIMapi中的文字部分,p是TIMapi text中的像素,|TIMapi text|是TIMapi text中像素的数目。
公式七: TextClarity i = Σ p ∈ TIMap i text TIMap i ( p ) / | TIMap i text |
除上述方法之外,还有其他方法可以实现文字区域组的过滤,例如,2002年在IEEE International Conference on Image Processing上发表的文献“Acomprehensive method for multilingual video text detection,localization,andextraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang)过滤掉对比度较低的文字区域,但这种方法没有考虑模糊文字区域的影响,对于图像质量较差的视频,融合效果较差。
(3)对文字区域组进行融合,得到融合结果。
设过滤之前,文字区域组中包含M个文字区域,记为t1,t2,...tM;过滤后,文字区域组就只剩下M′个TextClarityi值较大的文字区域,记为t′1,t′2,...t′M′。在文字区域的文字部分和背景部分分别采用不同的策略对t′1,t′2,...t′M′进行融合,融合方法如公式八所示:在背景部分取像素的平均值;在文字部分取像素的最小值。在公式八中,tint是多帧融合的结果,t′i text和t′i back分别代表t′1,t′2,...t′M′的文字部分和背景部分,1≤i≤M′,它们由公式九、十计算得到;公式九、十中,tAvg是对文字区域t1,t2,...tM进行平均得到的图像,Hotsu是在tAvg中用OTSU方法求得的局部阈值,p表示文字区域t′1,t′2,...t′M′中同一位置的一个像素,tAvg(p)是这个像素在tAvg中相应位置的强度值,如果tAvg(p)大于Hotsu,则认为该p属于文字部分t′i text,否则属于背景部分t′i back
公式八: t int ( p ) = min { t ′ i ( p ) } 1 ≤ i ≤ M ′ p ∈ t i ′ back Σ 1 ≤ i ≤ M ′ t ′ i ( p ) / M ′ p ∈ t i ′ text
公式九:t′i text={p|tAvg(p)>Hotsu}
公式十:t′i back={p|tAvg(p)≤Hotsu}
除上述方法之外,还有其他方法可以实现文字区域组的融合,例如,2002年在IEEE Transactions on Circuits and Systems for Video Technology上发表的文献“Localizing and Segmenting Text in Images and Videos”(作者是R.Lienhart和A.Wernicke,页码是256-268)采用了最小值融合来对整个文字区域进行融合,然而,这种方法容易受到噪声的影响。
下面的实验结果表明,与现有方法相比,本发明可以取得更好地融合视频中冗余的文字信息,得到背景更为简化,文字对比度更高和笔画更为清晰的文字区域,从而得到更好的视频文字提取与识别结果,充分发挥视频文字信息在视频内容分析和检索中的巨大作用。
本实施例中建立的数据库包含10段从多个著名的网站上下载到的视频,如CCTV,Xinhuanet,以及China News等,分辨率为320×240.经统计,这些视频中共包含1809行不同内容的文字,每行文字均出现在多个连续的相邻视频帧中,总字数为11312.这些视频中的背景往往比较复杂,具有较低的对比度.同时,由于这些视频的压缩率较高,图像质量较差,文字也比较模糊,因此对之进行检测和提取更为困难,有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。
如上所述,本实施例在视频文字检测步骤,视频文字提取步骤和OCR软件识别步骤采用了现有的方法,而在多帧融合步骤采用了本发明的方法,多帧融合方法的性能可以用文字识别的结果进行评测。为了同现有的方法进行比较,我们在多帧融合步骤测试了以下三种不同的方法作为实验对比:
I.现有方法:2002年在IEEE International Conference on ImageProcessing上发表的文献“A comprehensive method for multilingual video textdetection,localization,and extraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang),该方法首先根据文字区域的位置信息来识别具有相同内容的多个文字区域;然后根据文字区域内是否包含一定数量的低灰度值像素,来判断文字区域是否具有较高的对比度,并舍弃那些对比度较低的文字区域;最后对具有较高对比度的文字区域进行融合,得到融合结果。
II.本具体实施例:用本具体实施例的文字区域组识别方法代替在上述现有方法中识别包含相同内容文字区域的部分;
III.本具体实施例:包括文字区域组识别,文字区域组过滤和文字区域组融合。
实验采用了三个评价指标,文字识别查全率(Recall),文字识别查准率(Precision)和文字识别重复率(Repeat)。其中,文字识别查全率和文字识别查准率被用来衡量正确识别文字的能力,这两个指标都是越高越好;而文字识别重复率用来同一文字被重复识别的频率,这个指标则是越低越好。在视频文字识别中,文字识别查全率和文字识别查准率更为重要,因为正确识别文字的能力远比是否重复识别了文字更有意义,这三个指标的定义如下:
Recall=WNcorrect/WNall
Precision=WNallcorrect/WNall
Repeat=WNrepeat/WNall
其中,WNcorrect是正确识别的文字数目,去除了重复识别的部分;WNrepeat是正确识别的文字中重复识别的部分;WNallcorrect是正确识别的所有文字的数目,WNallcorrect等于WNcorrect与WNrepeat之和;WNall是识别出的所有文字数目,包括了正确识别和错误识别的文字。
表1 实验结果对比
Figure G2009100888750D00131
从表1中可以看出,本发明的方法II和方法III在文字识别查全率和查准率上都比现有方法I要高,这是因为,本发明综合考虑了文字区域的三个有效特征,包括位置、边缘分布以及对比度等,能够高效准确地检测连续视频帧中包含相同内容的多个文字区域,从而能够正确地对包含相同内容的文字区域进行融合。对比本发明的方法II和III,方法III比方法II取得了更好的文字识别结果,这是因为本发明引入的文字区域组过滤方法能够有效去除那些较为模糊的文字区域,从而避免了模糊文字区域对于融合结果的影响;同时,本发明综合了平均融合和最小值融合的优点,在图像的文字和背景部分分别采用了平均融合和最小值融合,能够在简化背景的同时,得到较高的对比度和清晰的文字融合结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种视频文字多帧融合的方法,用于对出现在多个连续视频帧中的相同文字区域进行融合,包括如下步骤:
1)在连续视频帧的文字区域检测结果中识别文字区域组,并放入缓冲区等待处理,所述文字区域组指包含相同内容的多个文字区域;
2)对步骤1)中得到的文字区域组进行过滤,去除会对融合结果造成负面影响的模糊文字区域;
3)对步骤2)中过滤后的文字区域组进行融合,得到融合结果。
2.如权利要求1中所述的视频文字多帧融合方法,其特征在于,所述步骤1)中,按照如下方法识别文字区域组:维护一个缓冲区Tbuffer,初始情况下,Tbuffer为空;按照时间顺序对视频帧进行处理,设fcurr为当前正在处理的视频帧,Tcurr为在fcurr中检测到的文字区域集合,tcurr为Tcurr中的任一文字区域,把tcurr同Tbuffer中的所有文字区域进行比较,如果tcurr同Tbuffer中的任一文字区域tbufffer包含相同的内容,则把tcurr加入tbuffer所属的文字区域组,如果tcurr和Tbuffer中的所有文字区域都不含相同的内容,则把tcurr放入Tbuffer中,并把tcurr看作是一个新文字区域组的开始;检查Tbuffer中的任一文字区域tbuffer,若tbuffer既不是在当前帧fcurr中新检测到的文字区域,也不和Tcurr中的任何文字区域包含相同内容,则认为tbuffer是其所属文字区域组的结束,并把tbuffer移出Tbuffer
3.如权利要求1或2所述的视频文字多帧融合方法,其特征在于,判断两个文字区域包含相同内容的方法是,两个文字区域同时满足如下三个条件:
条件一:两个文字区域在连续视频帧中处于相近的位置;
条件二:两个文字区域包含相似的边缘分布;
条件三:两个文字区域包含相近的对比度。
4.如权利要求3所述的视频文字多帧融合方法,其特征在于,判断两个文字区域ta和tb同时满足三个条件的具体方法是:
ta和tb同时满足以下三个公式:
公式一:Overlap(ta,tb)>r1×Min(area(ta),area(tb))
Overlap(ta,tb)表示文字区域ta与tb在不同视频帧中位置上重叠的部分,r1是取值范围为0到1的一个常数,Min(area(ta),area(tb))是ta和tb中较小文字区域的面积,该公式表示,若ta与tb有足够大的重叠面积,则认为文字区域ta与tb在不同视频帧中处于相近的位置;
公式二:NoneZero(Ea,Eb)>r2×Overlap(ta,tb)
Ea与Eb分别是ta和tb的边缘图,NoneZero(Ea,Eb)是在Ea与Eb中边缘强度值都不为0的像素集合,NoneZero(Ea,Eb)={p|Ea(p)>0&Eb(p)>0},NoneZero(Ea,Eb)用来衡量Ea与Eb中边缘分布的情况,r2是取值范围0到1之间的一个常数,该公式表示,当NoneZero(Ea,Eb)中包含的像素个数大于r2与Overlap(ta,tb)的乘积时,认为ta与tb具有类似的边缘分布;
公式三:EdgeIDiff(ta,tb)<DMAX×Overlap(ta,tb)
DMAX是一个预先定义的阈值,是取值范围0到255之间的一个常数,EdgeDiff(ta,tb)是边缘图Ea与Eb中位置相同的边缘点强度值之差的累加和,即EdgeIDiff(ta,tb)=Sum(|Ea(p)-Eb(p)|),该公式表示,当EdgeDiff(ta,tb)的值小于DMAX与Overlap(ta,tb)的乘积时,认为ta与tb对比度差异不大,它们具有相似的对比度。
5.如权利要求1中所述的视频文字多帧融合方法,其特征在于,所述步骤2)中对文字区域组进行过滤时,首先计算得到文字区域组内任一文字区域ti的文字笔画强度图TIMapi,1≤i≤M,然后把TIMapi分成两个部分:文字部分
Figure FSB00000678456300021
和背景部分
Figure FSB00000678456300022
并在文字部分
Figure FSB00000678456300023
上计算ti的文字笔画清晰程度TextClarityi,TextClarityi越高,表示文字越清晰,反之文字越模糊,过滤时,去除那些TextClarityi值较小的模糊文字区域;这样,设过滤之前,文字区域组中包含M个文字区域,记为t1,t2,...tM;过滤后,文字区域组就只剩下M′个TextClarityi值较大的文字区域,记为t′1,t′2,...t′M′
6.如权利要求5中所述的视频文字多帧融合方法,其特征在于,所述的文字笔画强度图由公式四计算得到:
公式四: TIMap i = Max ( TInt i H , TInt i V , TInt i LD , TInt i RD )
在公式四中,
Figure FSB00000678456300032
Figure FSB00000678456300033
分别表示用水平、垂直,左对角线,和右对角线四个方向上的文字笔画强度检测算子在原图ti上进行卷积得到的文字笔画强度图。
7.如权利要求5中所述的视频文字多帧融合方法,其特征在于,所述的将文字笔画强度图TIMapi分成文字部分和背景部分按照公式五、六计算得到:
公式五: TIMap i text = { p | t Avg ( p ) > H otsu }
公式六: TIMap i back = { p | t Avg ( p ) ≤ H otsu }
其中,tAvg是对文字区域组中的文字区域t1,t2,...tM进行平均得到的图像,Hotsu是在tAvg中用OTSU方法求得的局部阈值,p是TIMapi中的一个像素,tAvg(p)是该像素在tAvg中相应位置的强度值,如果tAvg(p)大于Hotsu,则认为该p属于文字部分
Figure FSB00000678456300036
否则属于背景部分
Figure FSB00000678456300037
8.如权利要求5中所述的视频文字多帧融合方法,其特征在于,所述表示文字清晰程度的TextClarityi值由公式七计算得到,其中,
Figure FSB00000678456300038
表示TIMapi中的文字部分,p是
Figure FSB00000678456300039
中的像素,
Figure FSB000006784563000310
Figure FSB000006784563000311
中像素的数目;
公式七: TextClar ity i = Σ p ∈ TIMap i text TIMap i ( p ) / | TIMap i text | .
9.如权利要求1中所述的视频文字多帧融合方法,其特征在于,所述步骤3)中的融合方法在文字区域的文字部分和背景部分分别采用不同的方法进行融合,融合方法如公式八所示:在背景部分取像素的平均值;在文字部分取像素的最小值;
公式八: t int ( p ) = min { t ′ i ( p ) } 1 ≤ i ≤ M ′ p ∈ t i ′ back Σ 1 ≤ i ≤ M ′ t ′ i ( p ) / M ′ p ∈ t i ′ text
公式九:t′i text={p|tAvg(p)>Hotsu}
公式十:t′i back={p|tAvg(p)≤Hotsu}
其中,t′1,t′2,...t′M′是文字区域组t1,t2,...tM中过滤后的,含有较为清晰文字笔画的文字区域,tint是多帧融合的结果,t′i text和t′i back分别代表t′1,t′2,...t′M的文字部分和背景部分,1≤i≤M′,它们由公式九、十计算得到;公式九、十中,tAvg是对文字区域t1,t2,...tM进行平均得到的图像,Hotsu是在tAvg中用OTSU方法求得的局部阈值,p表示文字区域t′1,t′2,...t′M′中同一位置的一个像素,tAvg(p)是这个像素在tAvg中相应位置的强度值,如果tAvg(p)大于Hotsu,则认为该p属于文字部分t′i text,否则属于背景部分t′i back。
CN2009100888750A 2009-07-21 2009-07-21 一种视频文字多帧融合的方法 Expired - Fee Related CN101615255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100888750A CN101615255B (zh) 2009-07-21 2009-07-21 一种视频文字多帧融合的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100888750A CN101615255B (zh) 2009-07-21 2009-07-21 一种视频文字多帧融合的方法

Publications (2)

Publication Number Publication Date
CN101615255A CN101615255A (zh) 2009-12-30
CN101615255B true CN101615255B (zh) 2012-03-21

Family

ID=41494885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100888750A Expired - Fee Related CN101615255B (zh) 2009-07-21 2009-07-21 一种视频文字多帧融合的方法

Country Status (1)

Country Link
CN (1) CN101615255B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244073B (zh) * 2014-09-26 2017-05-17 北京大学 一种视频中滚动字幕的自动检测和识别方法
CN105930836B (zh) * 2016-04-19 2020-01-03 北京奇艺世纪科技有限公司 一种视频文字的识别方法和装置
CN111753821A (zh) * 2019-03-27 2020-10-09 杭州海康威视数字技术股份有限公司 一种文本检测方法和装置
CN111432290B (zh) * 2020-04-10 2022-04-19 深圳市乔安科技有限公司 基于音频调节的视频生成方法
CN115334335B (zh) * 2022-07-13 2024-01-09 北京优酷科技有限公司 视频插帧方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102419A (zh) * 2007-07-10 2008-01-09 北京大学 一种定位视频字幕区域的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102419A (zh) * 2007-07-10 2008-01-09 北京大学 一种定位视频字幕区域的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Micheal R. Lyu et al.a comprehensive method for multilingual video text detection, localization, and extraction.《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》.2005,第15卷(第2期),243-255. *
李鸿等.一种视频字幕检测和识别的方法.《全国网络与信息安全技术研讨会论文集(下册)》.2007,433-438. *

Also Published As

Publication number Publication date
CN101615255A (zh) 2009-12-30

Similar Documents

Publication Publication Date Title
Diem et al. cBAD: ICDAR2017 competition on baseline detection
CN101453575B (zh) 一种视频字幕信息提取方法
CN100527156C (zh) 一种图片文字检测的方法
CN101102419B (zh) 一种定位视频字幕区域的方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN111401353B (zh) 一种数学公式的识别方法、装置及设备
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
CN103258201B (zh) 一种融合全局和局部信息的表格线提取方法
CN104244073B (zh) 一种视频中滚动字幕的自动检测和识别方法
CN101615255B (zh) 一种视频文字多帧融合的方法
Shivakumara et al. Efficient video text detection using edge features
CN103679678B (zh) 一种矩形文字特征碎纸片的半自动拼接复原方法
CN101122953A (zh) 一种图片文字分割的方法
CN112329641B (zh) 一种表格识别方法、装置、设备及可读存储介质
CN101833664A (zh) 基于稀疏表达的视频图像文字检测方法
CN101115151A (zh) 一种视频字幕提取的方法
CN110334760B (zh) 一种基于resUnet的光学元器件损伤检测方法及系统
CN108509950B (zh) 基于概率特征加权融合的铁路接触网支柱号牌检测识别法
CN104036280A (zh) 基于感兴趣区域和聚类相结合的视频指纹方法
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
CN111507260A (zh) 一种视频相似度快速检测方法及检测装置
CN113723362A (zh) 一种在图像中检测表格线的方法及装置
CN116052105A (zh) 路面裂缝识别分类及面积计算方法、系统、设备及终端
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
CN101600115A (zh) 一种剔除图像稳像系统周期性特征块的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120321

Termination date: 20140721

EXPY Termination of patent right or utility model