CN100593792C - 一种视频中的文本跟踪和多帧增强方法 - Google Patents

一种视频中的文本跟踪和多帧增强方法 Download PDF

Info

Publication number
CN100593792C
CN100593792C CN200810101653A CN200810101653A CN100593792C CN 100593792 C CN100593792 C CN 100593792C CN 200810101653 A CN200810101653 A CN 200810101653A CN 200810101653 A CN200810101653 A CN 200810101653A CN 100593792 C CN100593792 C CN 100593792C
Authority
CN
China
Prior art keywords
text
partiald
frame
video
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810101653A
Other languages
English (en)
Other versions
CN101276416A (zh
Inventor
朱成军
李超
秦思思
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN200810101653A priority Critical patent/CN100593792C/zh
Publication of CN101276416A publication Critical patent/CN101276416A/zh
Application granted granted Critical
Publication of CN100593792C publication Critical patent/CN100593792C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种视频中的文本跟踪和多帧增强方法。视频中的文本,大都叠加在复杂背景中,将其直接送入OCR(光学字符识别)软件识别,识别率较低,所以还需要进行文本增强操作,以便将文本和背景分离。视频中的文本,大都要持续数十帧甚至上百帧,并且在相邻帧中,文本颜色基本保持不变,而背景是动态变化的,所以多帧之间具有大量的互补信息可用于文本增强。本发明的方法利用文本笔画具有边缘对的特点消除背景边缘像素的影响,然后使用Hausdorff距离度量方法跟踪文本在相邻帧的位置,在得到文本图像在相邻帧的多个副本之后,利用最小像素搜索法消除背景,得到具有干净背景的二值文本图像,可以大大提高OCR软件对视频文本的识别率。

Description

一种视频中的文本跟踪和多帧增强方法
发明领域
本发明涉及基于内容的多媒体检索技术领域,更具体地,本发明涉及视频中的文本识别。本发明利用视频场景中的文本行在多帧之间具有大量的互补信息的特点,提出了一种视频中的文本跟踪和多帧增强方法。本发明的方法可以消除背景,提高视频文本的光学字符软件(OCR,Optical Character Recognition)识别率。
发明背景
视频中的文本提供了和视频内容高度相关的信息,比如场景地点、事件时间,以及体育比赛中的比分、运动员姓名等信息,但是相对于文档图像中的文本,视频中的文本识别面临以下难点:(1)由于电视制式、视频传输和存储的原因,视频图像分辨率较低;(2)视频中的文本往往叠加在视频场景中。由于大多数商用光学字符识别(OCR,Optical Character Recognition)软件只能处理具有干净背景的二值图像,所以在检测到视频中的文本区域以后,还必须将文本和背景分离开来,得到具有干净背景的文本图像,然后才能进行OCR识别。关于图像二值化,已经有了很多的相关工作,但是这些方法并不适用于视频文本的二值化操作。
综合起来,视频文本区域在时域具有以下特点:(1)同一文本会持续几十帧甚至几百帧;(2)当文本有运动时,呈现水平或者垂直的线型运动;(3)文字的生存期,文字像素颜色保持不变,背景像素颜色可能具有很大的变化。
所以,如果能将多帧的文本区域信息综合起来,生成新的文本图像,动态变换的背景像素会被削弱,有利于文本的进一步识别。
视频中文本的运动总体来说可以分为两类:刚性运动和非刚性运动。刚性运动是指文本在运动过程中没有缩放、扭曲等艺术效果,整个运动周期过程中文本的尺寸没有发生变化,固定不变;非刚性运动与刚性运动相反,文本在运动过程中具有缩放、淡入淡出、扭曲等形式。对于具有非刚性运动的视频文本,由于在运动过程中文本尺寸发生了变化,同时可能具有多种艺术表现形式,导致文本在空域中的几何属性发生了改变。所以,在非刚性运动情况下,文本行在多帧的不同表现形式对于消除背景,增强文本并没有太大的意义。同时,视频中的文本,比如新闻和电影视频中的文本,统计可以发现,大部分都是刚性运动,所以本发明的方法只考虑文本具有刚性运动情形时的文本跟踪和增强问题。
近些年,在视频文本自动追踪领域主要有两种常用的技术:基于SSD(Sum of SquaredDifference)的跟踪方法和基于M估计模板匹配的追踪方法。在“Text Enhancement in Digital VideoUsing Multiple Frame Integration.Proceedings of ACM Multimedia[C],Orlando FL,USA,1999:19~22”中,Huiping Li.公开了一种利用基于SSD跟踪文本,利用多帧信息增强文本的方法,而在博士论文“视频文本的提取.杭州:浙江大学,2006”中,章东平公开了一种基于M估计模板匹配的追踪方法。然而,无论是基于SSD或者是M估计模板匹配的方法,当文本位于运动背景或者文本颜色具有变化效果的时候,跟踪效果都不是很理想,这是由两种方法本身的匹配规则说决定的。文本行区域在整个运动周期期间,文本像素颜色本身也可能会发生变化,比如文本像素颜色具有同一个色调,但是饱和度或者亮度会发生渐进改变。此时,基于SSD的方法会在匹配时产生较大的匹配值,最终不能正确跟踪文本在相邻帧的位置。另外,基于M估计模板匹配的方法本身计算复杂度较高,虽说可以追踪具有平移、缩小、放大、旋转、淡入淡出和部分被遮挡的水平或倾斜排列文本,但是追踪文本在相邻帧的位置主要是用于多帧增强文本质量,利用文本区域的时域特征消除背景,而当文本被遮挡或者缩小放大时,追踪到的文本行文本像素本身的空域信息已经变得不完整,对于提高文本的质量,获得高质量的文本二值图像没有太大的意义。所以,本发明提出了一种新的并能适应文本具有变化背景、文本像素颜色不一致时的文本跟踪和多帧增强算法
中国发明专利00807661.8公开了一种“文本增强的方法”,该方法根据空域信息增强文本质量,和本文基于时域增强文本的思路具有较大差异。
发明内容
本发明要解决的问题:克服现有技术的不足,提供一种利用多帧互补信息增强视频文本的方法,该方法即使在文本具有运动背景时也具有更好的跟踪效果,显著提高了OCR软件对视频文本的识别准确率。
本发明的技术解决方案:一种视频中的文本跟踪和多帧增强方法,包括以下步骤:
(1)利用文本检测算法检测视频序列第i帧中出现的文本区域,记为文本图像fi,将参考图像Rf设置为fi,令C代表文本图像fi多个副本的集合,将fi添加到集合C中;
(2)跟踪文本图像fi在相邻帧的位置,跟踪过程如下:
步骤2.1:利用Canny边缘算子提取参考图像Rf的边缘图EM;
步骤2.2:估算参考图像Rf在后续帧的出现区域,记为R′;
步骤2.3:利用Canny边缘算子提取R′的边缘图EM1;
步骤2.4:利用文本笔画形成的边缘具有边缘对的特点,删除边缘图EM和EM1中的背景对象形成的边缘;
步骤2.5:采用Chamfer 5-7-11距离变换将边缘图EM和EM1进行Hausdorff距离变换;
步骤2.6:计算R′和Rf之间的Hausdorff距离值v,如果v小于预先设定的阈值,R′中取得值v所在的区域f′就是参考图像Rf在相邻帧的匹配区域;如果v大于预先设定的阈值,完成文本跟踪过程;
步骤2.7:将参考图像Rf设置f′,将Rf添加到集合C中,转到步骤(2.1),继续跟踪;
(3)利用最小像素搜索法,经由集合C中的多个文本图像,得到一个新的文本图像f,此时变换的背景已经被大大减弱消除;
(4)利用最小均方差的二值化方法,对文本图像f进行二值化操作,最终得到具有干净背景的文本二值化图像。
所述步骤(2.4)的方法如下:
(1)计算文本图像每个像素点的梯度方向θ(x,y),计算公式如下:
g xx = | ∂ R ∂ x | 2 + | ∂ G ∂ x | 2 + | ∂ B ∂ x | 2 g yy = | ∂ R ∂ y | 2 + | ∂ G ∂ y | 2 + | ∂ B ∂ y | 2 g xy = ∂ R ∂ x ∂ R ∂ y + ∂ G ∂ x ∂ G ∂ y + ∂ B ∂ x ∂ B ∂ y θ ( x , y ) = 1 / 2 arctan [ 2 g xy / ( g xx + g yy )
(2)如果在相邻的距离[Dmin,Dmax]范围内出现梯度方向平行的两个像素,则认为这两个像素构成像素对,其中Dmin和Dmax的值由需要跟踪的文本字体的大小决定;
(3)令EM代表边缘集合,边缘对(p1,p2)集合记为Ep,则Ep对E的重构定义为RE(EΘEp),E经由Ep重构后得到结果主要由文本边缘组成。
所述步骤(2.2)的方法如下:
(1)假定视频的分辨率为RH×RV(RV、RH分别为垂直、水平分辨率),帧率s帧/秒,如果文本的出现时间为δt,那么当前文本在相邻帧垂直和水平方向上的偏移值:
δv = R V s × δt δh = R H s × δt
(2)设置δt的最小估计值,根据上述公式,在相邻帧得到文本的最大偏帧垂直偏移值和最大水平方向偏移值,如果当前文本区fi的矩形面积为w×h,根据最大偏移值δv和δh,可以估计出参考图像Rf在相邻下一帧的匹配区域面积大小(wi+2×δh)×(hi+2×δv)。
本发明与现有技术相比的优点在于:
(1)本发明在跟踪文本图像fi的算法中利用了文本笔画边缘对的特点,采用Hausdorff距离值跟踪文本,能有效消除在文本跟踪过程中背景对象引入的误差,跟踪算法具有更好的适应性,能有效提取文本图像在多帧的副本。最终通过多帧增强,在文本或者背景具有运动的情形下,可以显著提高OCR软件识别的准确率。
(2)本发明的方法通过步骤(2)得到同一文本在多个视频帧的图像区域集合;由于叠加在视频中的文本笔画颜色是固定不变的,而背景画面是运动的,根据文本颜色保持不变,而背景变化的特点,再在步骤(3)中采取最小像素搜索法,将多个文本图像的信息综合起来,更有效地消除了背景,得到一个具有简单背景的文本图像,进一步提高了OCR软件对视频文本的识别准确率。
(3)本发明在步骤(4)中利用最小均方差的二值化方法,对多帧综合的结果进行二值化操作,能够得到具有干净背景的文本二值化图像,使得对视频文本的识别准确率更加提高。
附图说明
图1为本发明的方法流程图;
图2为视频中检测到的文本图像;
图3为本发明的基于文本笔画边缘对的二值模板,其中3a、3b、3c分别代表第1帧文本图像的边缘、边缘对、以及边缘经由边缘对重构后的边缘图;3d、3e、3f、3g、3h、3i分别表示第10帧和第20帧的边缘图、边缘对和重构后的边缘图;
图4为本发明的Chamfer 5-7-11距离变换系数图;
图5为本发明的Chamfer5-7-11距离变换示意图,其中5a为二值图像,5b为对应的Hausdorff距离图像;
图6为本发明的简单背景下文本行跟踪算法比较,其中6a是和已有算法的性能对比图,6b-6e为视频序列中的视频帧;
图7为本发明的复杂背景下文本行跟踪算法比较,其中7a是和已有算法的性能对比图,7b-7e为视频序列中的视频帧;
图8为本发明的文本行增强的结果,其中8a、8d代表初始的文本图像,8b、8e代表多帧增强后的文本图像,8c、8f代表二值化后的文本图像。
具体实施方式
在对本发明的技术方案进行详细说明前,先对涉及的关键概念Hausdorff距离度量进行说明。给定两组有限点集合A={a1,.....,ap}和B={b1,......,bq},Hausdorff距离定义为:
H(A,B)=max(h(A,B),h(B,A))
其中:
h ( A , B ) = max a ∈ A min b ∈ B | | a - b | | , h ( B , A ) = max b ∈ B min a ∈ A | | b - a | |
函数h(A,B)称为从A到B的有向Hausdorff距离,其意义是对集合A的任意一点a∈A到集合B中所有点距离中选出最近距离,再考虑集合A的每一点到集合B最近距离集合中选择最大值。h(B,A)的意义同h(A,B)相似,称为反向Hausdorff距离。
如图1所示,本发明的具体实施步骤如下:
1.利用文本检测算法,比如本发明专利申请人在“Chengjun Zhu,Yuanxin Ouyang,Lei Gao,Zhenyong Chen,Zhang Xiong,“An Automatic Video Text Detection,Localization and ExtractionApproach”,the 2th International Conference on Signal-Image Technology & Internet-Based Systems(SITIS 2006),http://www.u-bourgogne.fr/SITIS/06/index.html”中公开的文本检测算法,检测视频中文本出现的初始区域,记为文本图像fi,将参考图像Rf设置为fi,令C代表文本图像fi多个副本的集合,将fi添加到集合C中;;
2.具体的文本跟踪过程如下:
步骤2.1:利用Canny边缘算子提取Rf的边缘图EM,Canny边缘检测算子是图像处理领域常见的边缘提取算子之一,边缘图像的二值图像如图3a、3d和3g所示;
步骤2.2:估算参考图像Rf在后续帧的出现区域,记为R′。
当在下一帧中匹配当前文本时,为了降低算法时间复杂度,提高匹配效率,本发明提出通过估计文本的最大运动速度来缩小匹配范围。由于文本需要辅助观众理解视频内容,所以文本不可能运动速度太快。假定视频的分辨率为RH×RV(RV、RH分别为垂直、水平分辨率),帧率为s帧/秒,如果文本的显示时间为δt,那么当前文本在相邻帧垂直和水平方向上的偏移值可以由下面的公式计算得到:
δv = R V s × δt δh = R H s × δt
由于网络带宽和存储的原因,现在的视频分辨率大多限制在352×240以下,帧率大约在20-30帧/秒之间。根据视频中的文本时间滞留时间统计,本发明设置δt的最小估计值为3秒,所以根据公式,在相邻帧,文本的最大偏移值可以设置为δv≈4像素、δh≈6像素。
如果当前文本区域f的矩形面积为w×h,根据最大偏移值δv和δh,可以估计出在相邻下一帧的匹配区域R′的面积大小(wi+12)×(hi+8)。
步骤2.3:利用Canny边缘算子提取R′的边缘图EM1;
步骤2.4:利用文本笔画形成的边缘具有边缘对的特点,删除边缘图EM和EM1中的背景对象形成的边缘。具体过程如下:
(a)计算文本图像每个像素点的梯度方向θ(x,y),计算公式如下:
g xx = | ∂ R ∂ x | 2 + | ∂ G ∂ x | 2 + | ∂ B ∂ x | 2 g yy = | ∂ R ∂ y | 2 + | ∂ G ∂ y | 2 + | ∂ B ∂ y | 2 g xy = ∂ R ∂ x ∂ R ∂ y + ∂ G ∂ x ∂ G ∂ y + ∂ B ∂ x ∂ B ∂ y θ ( x , y ) = 1 / 2 arctan [ 2 g xy / ( g xx + g yy )
(b)如果在相邻的距离[Dmin,Dmax]范围内出现梯度方向平行的两个像素,则认为这两个像素构成像素对,其中Dmin和Dmax的值由需要跟踪的文本字体的大小决定。
(c)令EM代表边缘集合,边缘对(p1,p2)集合记为Ep,则Ep对E的重构定义为RE(EΘEp),E经由Ep重构后得到结果主要由文本边缘组成,由图3可以看出,E经由结构算子Ep重构后得到结果主要由文本边缘ET组成。如图3c、3f和3i所示,经过边缘对重构后的边缘图像主要包含了文本笔画形成的边缘。
步骤2.5:采用Chamfer 5-7-11距离变换将边缘图EM和EM1进行Hausdorff距离变换,Chamfer5-7-11变换系数的值如图4所示;
在实际计算Hausdorff距离时,是将已知模板二值图像与将匹配的未知二值图像转换为距离函数。距离函数是将二值图像转换为另一种灰度图像,二值图像的“1”,对应于距离图像的“0”。而二值图像的“0”,依据距离变换系数转换为不同的值,在距离图像中离“0”越近,距离值越小,反之会很大。使用Chamfer 5-7-11距离有较高的精度。
对一个给定的二值图像(M×N),DT的初始化是边缘点赋值为零,非边缘像素点赋值为无限或有限的极大值。用两步迭代实现距离变换,前向距离变换从左到右从上到下扫描,而后向距离变换从右向左从下到上扫描,其大致程序描述如下:
Initialization:
ForI=1,to M do
Forj=1 to N do
If(I,j)is edge pixel then
    DT(I,j)=0
Else
    DT(I,j)=∞
Forward transformation:
ForI=2 to M do
For j=2 to N do
  DT(I,j)=minimum[DT(I-1,j-2)+11,
                     DT(I+1,j-2)+11,
                     DT(I-2,j-1)+11,
                     DT(I-1,j-1)+7,
                     DT(I+0,j-1)+5,
                     DT(I+1,j-1)+7,
                     DT(I+2,j-1)+11,
                     DT(I-1,j+0)+5]
Backward Transformation
For I=M-1 to 1 do
For j=N-1 to 1 do
    DT(I,j)=minimum[DT(I-1,j+2)+11,
                       DT(I+1,j+2)+11,
                       DT(I-2,j+1)+11,
                       DT(I-1,j+1)+7,
                       DT(I+0,j+1)+5,
                       DT(I+1,j+1)+7,
                       DT(I+2,j+1)+11,
                       DT(I+1,j+0)+5];
图5a是一个二值图像示例,5b是其对应的Hausdorff距离图像;
步骤2.6:计算R′和Rf之间的Hausdorff距离值v,如果v小于预先设定的阈值,R′中取得值v所在的区域f′就是参考图像Rf在相邻帧的匹配区域;如果v大于预先设定的阈值,完成文本跟踪过程;
步骤2.7:将参考图像Rf设置f′,将Rf添加到集合C中,转到步骤(2.1),继续跟踪;
3.得到文本图像在多个视频帧的副本集合C后,本发明采用了最小像素搜索法来进行文本质量增强。将每个像素灰度值在时间维的值看作一维向量,由于文本的灰度值是稳定的,而背景是变换的,在时间方向上取每个像素值的最小值,可以减少背景的影响。公式表示如下:
γ ^ = min f t ∈ C i γ i ( f i )
其中Ci视频帧集合,帧ft∈Ci包含同一个文本区域ri(ft)。图8a和8d分别是视频中的两个文本行,图8b和8e分别是其多帧综合后的结果,可以看出,相对于原图像8a和8d,背景复杂度大大降低了。
4.对于多帧增强后的结果,利用最小方差的二值化方法来进行二值化。背景像素用黑色”0”表示,文本像素用白色“1”表示。
图8c和8f分别是图8b和8e二值化后的结果,可以看出,已经达到OCR软件识别的要求。
本发明适用于需要对视频内容进行自动理解的场合,比如多媒体检索系统、手机牌照识别场景中的文字以、智能监控场景下识别衣服上的号码等场合。本发明的方法可以采用Delphi、visual c++等编程语言来实现生成文本增强软件,与视频文本检测算法相结合,将文本检测算法的输出作为输入,输入到本发明的方法中,本发明的方法输出高质量的二值化文本图像,可以输入到OCR软件进行OCR识别。常用的OCR软件包括汉王、清华紫光等。
如图3所示,可以看出,经过边缘对分析,背景形成的边缘大部分都被消除。
得到二值边缘模板后,采用Chamfer 5-7-11系数对二值图像进行变换,Chamfer 5-7-11系数如图4所示。二值图像变换后的结果如图5所示。
追踪过程采用本发明提出Hausdorff距离比较的方法,可以得到文本图像在多帧的副本,图6和图7给出了两个本发明跟踪算法的结果,可以看出,相对于以往的基于SSD值得算法,具有更好的适应性。
图8给出了两个通过多帧增强后,具有干净黑背景的文本增强结果。

Claims (3)

1、一种视频中的文本跟踪和多帧增强方法,其特征在于:包括以下步骤:
(1)利用文本检测算法检测视频序列第i帧中出现的文本区域,记为文本图像fi,将参考图像Rf设置为fi,令C代表文本图像fi多个副本的集合,将fi添加到集合C中;
(2)跟踪文本图像fi在相邻帧的位置,跟踪过程如下:
步骤2.1:利用Canny边缘算子提取参考图像Rf的边缘图EM;
步骤2.2:估算参考图像Rf在后续帧的出现区域,记为R′;
步骤2.3:利用Canny边缘算子提取R′的边缘图EM1;
步骤2.4:利用文本笔画形成的边缘具有边缘对的特点,删除边缘图EM和EM1中的背景对象形成的边缘;
步骤2.5:采用Chamfer 5-7-11距离变换将边缘图EM和EM1进行Hausdorff距离变换;
步骤2.6:计算R′和Rf之间的Hausdorff距离值v,如果v小于预先设定的阈值,R′中取得值v所在的区域f就是参考图像Rf在相邻帧的匹配区域;如果v大于预先设定的阈值,完成文本跟踪过程;
步骤2.7:将参考图像Rf设置f′,将Rf添加到集合C中,转到步骤2.1,继续跟踪;
(3)利用最小像素搜索法,经由集合C中的多个文本图像,得到一个新的文本图像f,此时变换的背景已经被大大减弱消除;
(4)利用最小均方差的二值化方法,对文本图像f进行二值化操作,最终得到具有干净背景的文本二值化图像。
2、根据权利要求1所述的一种视频中的文本跟踪和多帧增强方法,其特征在于:所述步骤2.4的方法如下:
(1)计算文本图像每个像素点的梯度方向θ(x,y),计算公式如下:
g xx = | ∂ R ∂ x | 2 + | ∂ G ∂ x | 2 + | ∂ B ∂ x | 2 g yy = | ∂ R ∂ y | 2 + | ∂ G ∂ y | 2 + | ∂ B ∂ y | 2 g xy = ∂ R ∂ x ∂ R ∂ y + ∂ G ∂ x ∂ G ∂ y + ∂ B ∂ x ∂ B ∂ y θ ( x , y ) = 1 / 2 arctan [ 2 g xy / ( g xx + g yy )
(2)如果在相邻的距离[Dmin,Dmax]范围内出现梯度方向平行的两个像素,则认为这两个像素构成像素对,其中Dmin和Dmax的值由需要跟踪的文本字体的大小决定;
(3)令EM代表边缘集合,边缘对(p1,p2)集合记为Ep,则Ep对E的重构定义为RE(EΘEp),E经由Ep重构后得到结果主要由文本边缘组成。
3、根据权利要求1所述的一种视频中的文本跟踪和多帧增强方法,其特征在于:所述步骤2.2的方法如下:
(1)假定视频的分辨率为RH×RV,RV、RH分别为垂直、水平分辨率,帧率s帧/秒,如果文本的出现时间为δt,那么当前文本在相邻帧垂直和水平方向上的偏移值:
δv = R V s × δt δh = R H s × δt
(2)设置δt的最小估计值,根据上述公式,在相邻帧得到文本的最大偏帧垂直偏移值和最大水平方向偏移值,如果当前文本区fi的矩形面积为w×h,根据最大偏移值δv和δh,估计出参考图像Rf在相邻下一帧的匹配区域面积大小(wi+2×δh)×(hi+2×δv)。
CN200810101653A 2008-03-10 2008-03-10 一种视频中的文本跟踪和多帧增强方法 Expired - Fee Related CN100593792C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810101653A CN100593792C (zh) 2008-03-10 2008-03-10 一种视频中的文本跟踪和多帧增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810101653A CN100593792C (zh) 2008-03-10 2008-03-10 一种视频中的文本跟踪和多帧增强方法

Publications (2)

Publication Number Publication Date
CN101276416A CN101276416A (zh) 2008-10-01
CN100593792C true CN100593792C (zh) 2010-03-10

Family

ID=39995845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810101653A Expired - Fee Related CN100593792C (zh) 2008-03-10 2008-03-10 一种视频中的文本跟踪和多帧增强方法

Country Status (1)

Country Link
CN (1) CN100593792C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102265593A (zh) * 2008-12-22 2011-11-30 皇家飞利浦电子股份有限公司 改变图像数据信号的方法、改变图像数据信号的设备、显示设备
CN101969488B (zh) * 2010-09-10 2014-06-11 中兴通讯股份有限公司 终端及在终端上实现指南功能的方法
JP5801237B2 (ja) * 2012-03-29 2015-10-28 パナソニック株式会社 部位推定装置、部位推定方法、および部位推定プログラム
CN104463103B (zh) * 2014-11-10 2018-09-04 小米科技有限责任公司 图像处理方法及装置
CN108052941B (zh) * 2017-12-19 2021-06-01 北京奇艺世纪科技有限公司 一种新闻字幕跟踪方法及装置
CN108108733A (zh) * 2017-12-19 2018-06-01 北京奇艺世纪科技有限公司 一种新闻字幕检测方法及装置
CN109800757B (zh) * 2019-01-04 2022-04-19 西北工业大学 一种基于布局约束的视频文字追踪方法
CN110929093B (zh) * 2019-11-20 2023-08-11 百度在线网络技术(北京)有限公司 用于搜索控制的方法、装置、设备和介质
CN113297875B (zh) * 2020-02-21 2023-09-29 华为技术有限公司 一种视频文字跟踪方法及电子设备

Also Published As

Publication number Publication date
CN101276416A (zh) 2008-10-01

Similar Documents

Publication Publication Date Title
CN100593792C (zh) 一种视频中的文本跟踪和多帧增强方法
CN101533474B (zh) 基于视频图像的字符和图像识别系统和方法
CN100589532C (zh) 字幕区域提取装置和方法
CN101448100B (zh) 一种快速准确的视频字幕提取方法
Lienhart et al. Automatic text recognition in digital videos
US6366699B1 (en) Scheme for extractions and recognitions of telop characters from video data
US6937766B1 (en) Method of indexing and searching images of text in video
CN103336954B (zh) 一种视频中的台标识别方法和装置
US6473522B1 (en) Estimating text color and segmentation of images
CN103020650B (zh) 一种台标识别方法及装置
CN101673338B (zh) 基于多角度投影的模糊车牌识别方法
US7403657B2 (en) Method and apparatus for character string search in image
EP0843275A2 (en) Pattern extraction apparatus and method for extracting patterns
CN101453575A (zh) 一种视频字幕信息提取方法
CN102426647A (zh) 一种台标识别的方法、装置
CN101527786B (zh) 一种增强网络视频中视觉重要区域清晰度的方法
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
Özay et al. Automatic TV logo detection and classification in broadcast videos
Dubey Edge based text detection for multi-purpose application
Zhang et al. A new edge-based text verification approach for video
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN115861760A (zh) 一种基于相机的目标检测与跟踪方法及系统
KR20070120830A (ko) 스트록 필터를 이용한 문자 추출 방법 및 그 장치
Mohana et al. Vehicle detection and counting by using real time traffic flux through differential technique and performance evaluation
Jianyong et al. An edge-based approach for video text extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100310

Termination date: 20150310

EXPY Termination of patent right or utility model