CN102542268A - 用于视频中文本区域检测与定位的方法 - Google Patents

用于视频中文本区域检测与定位的方法 Download PDF

Info

Publication number
CN102542268A
CN102542268A CN2011104518266A CN201110451826A CN102542268A CN 102542268 A CN102542268 A CN 102542268A CN 2011104518266 A CN2011104518266 A CN 2011104518266A CN 201110451826 A CN201110451826 A CN 201110451826A CN 102542268 A CN102542268 A CN 102542268A
Authority
CN
China
Prior art keywords
text
image
zone
frame
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104518266A
Other languages
English (en)
Other versions
CN102542268B (zh
Inventor
刘成林
白博
殷飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Yueshen Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201110451826.6A priority Critical patent/CN102542268B/zh
Publication of CN102542268A publication Critical patent/CN102542268A/zh
Application granted granted Critical
Publication of CN102542268B publication Critical patent/CN102542268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

一种用于视频中文本区域检测与定位的方法,其特征在于,包含如下步骤:输入视频,按等时间间隔对输入视频进行采样;对采样得到的图像进行边缘检测;利用检测后得到的图像生成文本置信度图;根据生成的文本置信度图提取文本候选区域;对文本候选区域近似相同的多帧图像的文本候选区域进行融合;对融合后的文本区域图像进行分行。本发明的文本检测与定位方法能够实时地对视频中出现的多语言文本进行准确定位。可以适用于视频内容编辑、索引与检索等多种用途。

Description

用于视频中文本区域检测与定位的方法
技术领域
本发明属于模式识别与计算机视觉领域,特别是涉及一种用于视频中文本区域检测与定位方法。
背景技术
如今,视频作为一种最为流行的媒体形式,通过电视台、网络广泛地传播。为了使用户更方便、快捷的寻找到感兴趣的视频内容,视频检索与分类逐渐成为模式识别与计算机视觉领域研究的焦点。在这其中,视频中的文本信息,特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为:(1)视频中的文本信息与视频的当前内容紧密相关;(2)视频中的字符有非常明显的视觉特征,便于提取;(3)字符识别(OCR)技术较目前的语音识别技术和图像分类技术更为准确、成熟。
视频中的文本识别过程包括三个主要步骤:(1)文本检测与定位,(2)文本提取,(3)字符识别。其中,步骤(1)文本检测与定位所得结果的优劣,直接影响到后面文本提取与字符识别的精度。针对步骤(1)涌现出了很多方法:如中国知识产权局2005年8月24日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。然而,在现有的方法中,文字多变的字体、颜色、大小,复杂的背景与光照,中英文混合等,仍然是没有解决的难题。传统的方法很多都是针对单一语言、通过假设文本区域特定背景来部分地解决问题。然而在视频内容快速发展的今天,这些方法已经不能满足人们的需要。
针对上述未解决的技术问题,本发明提出了一种鲁棒高效的用于视频中文本区域检测与定位的方法。
发明内容
本发明的目的是为了克服视频中文本区域中字符的字体、颜色、大小的多变性,语言的多样性,以及背景区域的高度复杂性,从而提出一种鲁棒的对视频中的文本进行快速检测和定位的方法。
本发明提出的一种用于视频中文本区域检测与定位方法采用的技术方案为:步骤S1:输入视频,按等时间间隔对输入视频进行采样;步骤S2:对采样得到的图像进行边缘检测;步骤S3:生成文本置信度图;步骤S4:根据得到的文本置信度图提取文本候选区域;步骤S5:对文本候选区域近似相同的多帧图像的文本候选区域进行融合;步骤S6:对融合后的文本区域图像进行分行。
本发明还提出一种用于视频中文本区域检测与定位的系统,该系统包括:视频输入模块,用于获取视频图像;文本置信度生成模块,对采样得到的图像进行边缘检测,利用检测后得到的图像生成文本置信度图;文本候选区域生成模块,根据生成的文本置信度图提取文本候选区域;融合分行模块,对文本候选区域近似相同的多帧图像的文本候选区域进行融合,并对融合后的文本区域图像进行分行。
本发明提出的视频中文本检测和定位方法的有益效果为:能够对视频中出现的不同字体、颜色、大小的文本进行定位;能够同时对视频中出现的中文、英文进行定位;能够克服视频中复杂的背景;本发明通过对文本候选区域近似相同的多帧图像进行融合,得到对比度较高、背景相对单一的文本区域图像;本发明提出的方法对视频中文本的检测和定位速度快,能够做到实时处理。
本发明的文本检测与定位方法能够实时地对视频中出现的多语言文本进行准确定位。可以适用于视频内容编辑、索引与检索等多种用途。
附图说明
图1为本发明的视频中文本检测与定位方法流程图;
图2为本发明中对边缘点进行8方向分类的示意图;
图3为本发明中生成文本置信度图的流程图;
图4为本发明中对得到的文本置信度图进行文本候选区域提取的流程图。
图5为本发明的视频中文本检测与定位方法的实现原理图;
图6为本发明中生成文本候选区域的图像示例;
图7为本发明中多帧融合和文本区域分行的图像示例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明视频中文本检测与定位方法的原理主要是::对输入视频进行采样,对采样所得到的视频图像进行边缘检测,利用检测后得到的图像生成文本置信度图,从生成的文本置信度图中提取到文本候选区域,对文本候选区域近似相同的多帧图像的文本候选区域进行融合,得到最终的文本区域,并根据水平和垂直投影对文本区域进行分行。
图1为本发明的视频中文本检测与定位方法流程图。
参照图1,在步骤S1输入视频,按等时间间隔对输入视频进行采样,其中每隔3帧抽取一帧图像进行处理。
在步骤S2对采样得到的图像进行边缘检测。步骤S2进一步包括步骤S21和S22。
在步骤S21,将输入的图像转化为灰度图,具体过程是:设输入图像中的每一个像素点的R、G、B值分别为r、g、b,则变换后的灰度图中该像素点的灰度值为gray=0.299×r+0.587×g+0.114×b。
在步骤S22,计算灰度图像每个像素点的边缘强度和方向,具体为利用Sobel梯度算子计算每个像素点水平和竖直方向的边缘强度dx、dy,则每个像素点的边缘强度为:
Figure BDA0000126678550000031
将r(x,y)线性变换到0到255之间,当r(x,y)>0时,记该点为边缘点。参照图2,将得到的边缘点按梯度方向分为8类,用θ,λ这两个参数来表示,其中θ表示四个基本方向(θ∈{0,45,90,135}),λ表示每个基本方向中的极性(λ∈{+1,-1})。
在步骤S3生成文本置信度图。参照图3,利用边缘图像,生成文本置信度图的具体过程包括如下步骤:
步骤S31:以每个像素点的位置(x0,y0)为中心,取宽w=15、高h=15的矩形邻域δ,计算该邻域内的平均边缘强度D(x0,y0)作为该中心点的边缘强度,计算公式为: D ( x 0 , y 0 , δ ) = 1 w × h Σ x = - ( w - 1 ) / 2 ( w - 1 ) / 2 Σ y = - ( h - 1 ) / 2 ( h - 1 ) / 2 r ( x 0 + x , y 0 + y ) ;
步骤S32:计算图像中每一点周围边缘的方向多样性,具体为:以每个像素点的位置(x0,y0)为中心,取宽w=15、高h=15的矩形邻域δ,计算该邻域内边缘点方向的多样性,即:四个基本方向边缘点的数目的平衡惩罚因子fEOV。计算公式为: f EOV ( x 0 , y 0 , δ ) = - Σ θ ( 4 Σ λ n ( x 0 , y 0 , θ , λ , δ ) - N ( x 0 , y 0 , δ ) 3 N ( x 0 , y 0 , δ ) ) 2 , 其中n(x0,y0,θ,λ,δ)表示点(x0,y0)的邻域δ内方向为(θ,λ)的边缘点数。N(x0,y0,δ)为点(x0,y0)的邻域δ内的所有边缘点数;
步骤S33:计算图像中每一点周围极性相反的边缘点对含量,具体为:以每个像素点的位置(x0,y0)为中心,取宽w=15、高h=15的矩形邻域δ,计算该邻域内每个基本方向内极性相反的边缘点对含量fOEP,计算公式为即各个基本方向上极性相反的边缘点对惩罚因子foep的和,其中单一方向的边缘点对惩罚因子foep计算公式为:
Figure BDA0000126678550000044
其中为点(x0,y0)的邻域δ内方向为θ的边缘点中,两个极性边缘点数的差,计算公式为:φ(x0,y0,θ,δ)为的邻域δ内方向为θ的边缘点数和,计算公式为:φ(x0,y0,θ,δ)=n(x0,y0,θ,+1,δ)+n(x0,y0,θ,-1,δ),当分母为0时(即该基本方向上没有边缘),惩罚因子为t3=-2;
在步骤S34对综合S31,S32,S33的结果进行综合处理,计算图像中每个像素点的文本置信度TC(x,y,δ),计算公式为:
TC(x,y,δ)=D(x,y,δ)exp[fEOV(x,y,δ)+fOEP(x,y,δ)];
在步骤S35将得到的每一点的文本置信度线性归一化到[0,255],得到最终的文本置信度图。
生成文本置信度图后,在步骤S4,根据得到的文本置信度图提取文本候选区域。参照图4,根据得到的文本置信度图,提取文本候选区域的具体过程包括如下步骤:
步骤S41:对文本置信度图进行二值化,具体为利用大津法(Otsu)对得到的文本置信度图进行二值化,置信度较高的区域为前景,得到二值图像;
步骤S42:对得到的二值图像提取连通部件,计算每个连通部件外接矩形的宽text_box_width,高text_box_height,去掉满足下面条件之一的连通部件(视为噪声):
(1)min(text_box_width,text_box_height)<15,
(2)max(text_box_width,text_box_height)<40;
剩下的连通部件即构成文本候选区域。
提取到候选文本区域后,在步骤S5,对候选文本区域近似相同的多帧图像的文本候选区域进行融合。如果两帧图像的文本候选区域的面积重叠率大于0.9且文本内容相似度大于0.8,即认为文本候选区域近似相同;文本候选区域面积重叠率Roverlap计算公式为:
Figure BDA0000126678550000051
其中S1和S2分别表示两帧图像的文本候选区域面积;文本内容相似度Rcaption计算公式为: R caption = 1 - 1 w × h Σ x = 0 w Σ y = 0 h | Edge 1 ( x , y ) - Edge 2 ( x , y ) | , 其中Edge1(x,y)和Edge2(x,y)表示两帧图像中对应文本候选区域的边缘图(二值图像,边缘点为1,非边缘点为0),w、h为重叠区域外接矩形的宽、高;如果从视频的第i帧开始,一直到第j帧结束的j-i+1帧图像均含有近似相同的文本候选区域,而第i-1帧和j+1帧图像所含的文本候选区域不同或不包含文本区域,则由第i帧到第j帧图像的文本候选区域构成一个文本序列,其中第i帧为该文本序列的起始帧,第j帧为该文本序列的终止帧,j-i+1为该文本序列的持续时间,第i帧中文本候选区域的位置和内容,为该文本序列的位置和内容。
对文本候选区域近似相同的多帧图像文本候选区域进行融合的具体过程进一步包括步骤S51和S52。
在步骤S51,寻找文本序列的起始帧,具体过程为:对于在第i帧视频图像中检测到的文本候选区域S1,如果在第i-1帧中S1对应的位置没有检测到文本候选区域,或者检测到的文本候选区域S2与S1的面积重叠率小于0.9或者内容相似度小于0.8,则第i帧被认定为一个文本序列的起始帧;
在步骤S52,寻找文本序列的终止帧,具体过程为:设第i帧为文本序列T的起始帧,第j帧中属于文本序列T的文本候选区域为S2,如果在第j+1帧中S2对应的位置没有检测到文本候选区域,或者检测到的文本候选区域S3与S2的面积重叠率小于0.9或者内容相似度小于0.8,则第j帧被认定为该文本序列T的终止帧;
在步骤S53,计算文本序列的持续时间,删除噪声。具体过程为:如果文本序列T的持续帧数过少,即无法在连续3个抽样帧中检测到该文本,则该文本序列被判定为噪声(由于每3帧抽样一次,所以当一个文本序列持续帧数t<7时,一定被判定为噪声,t>8时,一定被判定为真实文本序列,7≤t≤8时的判定结果依赖于起始帧是否在帧采样中被采集到),删除该文本序列并返回步骤S51继续寻找其他文本序列;否则进行步骤S54;
在步骤S54,对文本序列进行融合。具体为:设文本序列T的持续时间为t,T中包含的每个采样帧的文本候选区域为regioni,融合后得到的结果为region,由于各regioni不是完全重叠,因此region面积的大小为所有regioni的并集,即region中每一个点(x,y)在整个文本序列中对应文本候选区域的数量t(x,y)满足:1≤t(x,y)≤t,因此region中每一个点(x,y)的灰度值gray(x,y)的计算公式为
Figure BDA0000126678550000061
其中grayi(x,y)为region中点(x,y)对应的第i个文本候选区域中对应像素点的灰度值。
对文本候选区域近似相同的多帧图像文本候选区域进行融合后,在步骤S6,对融合后的文本区域图像进行分行,得到最终的单行文本,分行步骤进一步包括步骤S61到S65。
在步骤S61,对融合后得到的图像用Sobel梯度算子进行边缘提取,得到二值的边缘图像(边缘点为1,非边缘点为0)。
在步骤S62,判断文字排列方向,如排列方向为竖直方向,需要将图像旋转,具体为:设融合后图像的宽为w、高为h,当h>w时,说明该文本区域的文字为竖直排列,需要将该文本区域顺指针旋转90°,变成水平排列的文本区域进行后续处理。
在步骤S63,对得到的边缘图像进行水平投影,即分别统计每一个像素行中的边缘点数ni
在步骤S64,对每一像素行的边缘点数ni进行平滑,得到平滑后每一像素行最终的边缘点数Ni,计算公式为:
Figure BDA0000126678550000071
在步骤S65,根据每一像素行的最终边缘点数Ni对图像进行文本行分割,得到一个或多个文本行图像,具体为:从第一像素行开始,从上到下逐行进行扫描,当满足Ni>t4并且Ni-1<t4时,第i像素行为一个文本行的起始行;当满足Ni>t4并且Ni+1<t4或者第i像素行为图像最后一行时,第i像素行为一个文本行的终止行;其中t4为阈值,计算公式为:
Figure BDA0000126678550000072
h为图像高度。
图5为本发明用于视频中文本区域检测与定位的系统结构图。参照图5,该系统包括:视频输入模块101,用于获取视频图像。视频解码转换模块102,用于对视频文件进行解码,得到每一帧的图像。帧采样模块103,每隔3帧抽取一帧图像用于后续处理。文本置信度生成模块104,对图像进行边缘提取,利用边缘密度、边缘多样性和极性相反的边缘点对含量生成文本置信度图。文本候选区域生成模块105,对文本置信度图进行二值化,通过连通部件提取和噪声去除,得到文本候选区域。融合分行模块106,对检测到的文本候选区域进行融合,得到背景比较简单的文本区域图像,再利用其边缘图像水平、竖直方向的投影,对融合后的文本区域图像进行分行,得到单行文本图像。
其中文本置信度生成模块104、文本候选区域生成模块105以及文本区域融合分行模块106是该系统中的主要模块,其他模块均为辅助的输入/输出或控制模块。
图6为本发明中生成文本候选区域的图像示例。图7为本发明中多帧融合和文本区域分行的图像示例。
本发明的具体实施效果如图6至图7所示。
参照图6,从上到下,从左到右依次为:原始图像、边缘图像、文本置信度图(经Otsu二值化后),文本候选区域。
参照图7,从上到下,前三幅为一个文本序列中的三幅文本候选区域图像,第四幅为他们的融合结果,第五幅为在融合的文本区域图像上的分行结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于视频中文本区域检测与定位的方法,其特征在于,该方法包含步骤:
步骤S1,输入视频,按等时间间隔对输入视频进行采样;
步骤S2,对采样得到的图像进行边缘检测;
步骤S3,利用检测后得到的图像生成文本置信度图;
步骤S4,根据生成的文本置信度图提取文本候选区域;
步骤S5,对文本候选区域近似相同的多帧图像的文本候选区域进行融合;
步骤S6,对融合后的文本区域图像进行分行。
2.根据权利要求1所述的用于视频中文本区域检测与定位的方法,其特征在于,所述步骤S2包括:
步骤S21,将抽取的图像转化为灰度图;
步骤S22,计算灰度图像每个像素点的边缘强度和方向,根据边缘强度确定该像素点是否为边缘点。
3.根据权利要求2所述的用于视频中文本区域检测与定位的方法,其特征在于,
步骤S21进一步包括:将抽取的图像中的每一个像素点的R、G、B值分别设为r、g、b,则变换后的灰度图中的该像素点的灰度值为gray=0.299×r+0.587×g+0.114×b;
步骤S22进一步包括:利用Sobel梯度算子计算每个像素点水平和竖直方向的边缘强度dx、dy,则每个像素点的边缘强度
Figure FDA0000126678540000011
将r(x,y)线性变换到0到255之间,当r>0时,记该点为边缘点。
4.根据权利要求3所述的用于视频中文本区域检测与定位的方法,其特征在于,步骤S22进一步包括:将得到的边缘点按方向分为八类,用参数θ,λ来表示,其中θ表示四个基本方向,θ∈{0,45,90,135},0表示水平、45表示右上到左下、90表示竖直、135表示左上到右下,λ表示每个基本方向的极性,λ∈{+1,-1},+1表示一个基本方向中向上或向左的方向,-1表示一个基本方向中向下或者向右的方向。
5.根据权利要求1所述的用于视频中文本区域检测与定位的方法,其特征在于,所述步骤S3包括:
步骤S31,计算采样得到的图像中的每一像素点的边缘强度;步骤S32,计算该图像中每一像素点周围边缘的方向多样性;
步骤S33,计算图像中每一像素点周围极性相反的边缘点对含量;
步骤S34,基于步骤S31,S23,S33的结果,计算图像中每个像素点的文本置信度;
步骤S35,将得到的每一点的文本置信度线性归一化到[0,255],得到最终的文本置信度图。
6.根据权利要求5所述的用于视频中文本区域检测与定位的方法,其特征在于,
步骤S31包括:以每个像素点的位置(x0,y0)为中心取宽w、高h的矩形邻域δ,计算该邻域内的平均边缘强度D(x0,y0)作为该中心点的边缘强度,计算公式为:
D ( x 0 , y 0 , δ ) = 1 w × h Σ x = - ( w - 1 ) / 2 ( w - 1 ) / 2 Σ y = - ( h - 1 ) / 2 ( h - 1 ) / 2 r ( x 0 + x , y 0 + y ) ;
步骤S32包括:以每个像素点的位置(x0,y0)为中心,取宽w、高h的矩形邻域δ,计算该邻域内边缘点方向的多样性,即,四个基本方向边缘点的数目的平衡惩罚因子fEOV,计算公式为: f EOV ( x 0 , y 0 , δ ) = - Σ θ ( 4 Σ λ n ( x 0 , y 0 , θ , λ , δ ) - N ( x 0 , y 0 , δ ) 3 N ( x 0 , y 0 , δ ) ) 2 , 其中n(x0,y0,θ,λ,δ)表示点(x0,y0)的邻域δ内方向为(θ,λ)的边缘点数,N(x0,y0,δ)为点(x0,y0)的邻域δ内的所有边缘点数;
步骤S33包括:以每个像素点的位置(x0,y0)为中心,取宽w、高h的矩形邻域δ,计算该邻域内每个基本方向内极性相反的边缘点对含量fOEP,计算公式为
Figure FDA0000126678540000031
即各个基本方向上极性相反的边缘点对惩罚因子foep的和,其中单一方向的边缘点对惩罚因子foep计算公式为:
Figure FDA0000126678540000032
其中
Figure FDA0000126678540000033
为点(x0,y0)的邻域δ内方向为θ的边缘点中两个极性边缘点数的差,计算公式为:
Figure FDA0000126678540000034
φ(x0,y0,θ,δ)为的邻域δ内方向为θ的边缘点数和,计算公式为:φ(x0,y0,θ,δ)=n(x0,y0,θ,+1,δ)+n(x0,y0,θ,-1,δ),当分母为0时,即该基本方向上没有边缘,惩罚因子为t3=-2;
步骤S34包括:计算图像中每个像素点的文本置信度TC(x,y,δ),计算公式为:
TC(x,y,δ)=D(x,y,δ)exp[fEOV(x,y,δ)+fOEP(x,y,δ)];
7.根据权利要求1所述的用于视频中文本区域检测与定位的方法,其特征在于,步骤S4包括:
步骤S41,利用大津法(Otsu)对得到的文本置信度图进行二值化;
步骤S42,对得到的二值图像,进行连通部件提取,计算每个连通部件外接矩形的宽text_box_width,高text_box_height,去掉满足下面条件之一的连通部件:
(1)min(text_box_width,text_box_height)<15,
(2)max(text_box_width,text_box_height)<40。
8.根据权利要求1所述的用于视频中文本区域检测与定位的方法,其特征在于,步骤S5包括:
步骤S50,如果两帧图像的文本候选区域的面积重叠率大于0.9且文本内容相似度大于0.8,即认为文本候选区域近似相同,文本候选区域面积重叠率Roverlap计算公式为:
Figure FDA0000126678540000041
其中S1和S2分别表示两帧图像的文本候选区域面积,文本内容相似度Rcaption计算公式为: R caption = 1 - 1 w × h Σ x = 0 w Σ y = 0 h | Edge 1 ( x , y ) - Edge 2 ( x , y ) | , 其中Edge1(x,y)和Edge2(x,y)表示两帧图像中对应文本候选区域的边缘图,该边缘图为二值图像,边缘点为1,非边缘点为0,w、h为重叠区域外接矩形的宽、高,如果从视频的第i帧开始,一直到第j帧结束的j-i+1帧图像均含有近似相同的文本候选区域,而第i-1帧和j+1帧图像所含的文本候选区域不同或不包含文本区域,则由第i帧到第j帧图像的文本候选区域构成一个文本序列,其中第i帧为该文本序列的起始帧,第j帧为该文本序列的终止帧,j-i+1为该文本序列的持续时间,第i帧中文本候选区域的位置和内容,为该文本序列的位置和内容;
步骤S51,寻找文本序列的起始帧,对于在第i帧视频图像中检测到的文本候选区域S1,如果在第i-1帧中S1对应的位置没有检测到文本候选区域,或者检测到的文本候选区域S2与S1的面积重叠率小于0.9或者内容相似度小于0.8,则第i帧被认定为一个文本序列的起始帧;
步骤S52,寻找文本序列的终止帧,设第i帧为文本序列T的起始帧,第j帧中属于文本序列T的文本候选区域为S2,如果在第j+1帧中S2对应的位置没有检测到文本候选区域,或者检测到的文本候选区域S3与S2的面积重叠率小于0.9或者内容相似度小于0.8,则第j帧被认定为该文本序列T的终止帧;
步骤S53:计算文本序列的持续时间,删除噪声。具体过程为:如果文本序列T的持续帧数过少,即无法在连续3个抽样帧中检测到该文本,则该文本序列被判定为噪声(由于每3帧抽样一次,所以当一个文本序列持续帧数t<7时,一定被判定为噪声,t>8时,一定被判定为真实文本序列,7≤t≤8时的判定结果依赖于起始帧是否在帧采样中被采集到),删除该文本序列并返回步骤S51继续寻找其他文本序列,否则进行步骤S54;
步骤S54,对文本序列进行融合,设文本序列T的持续时间为t,T中包含的每个采样帧的文本候选区域为regioni,融合后得到的结果为region,由于各regioni不是完全重叠,因此region面积的大小为所有regioni的并集,即region中每一个点(x,y)在整个文本序列中对应文本候选区域的数量t(x,y)满足:1≤t(x,y)≤t,因此region中每一个点(x,y)的灰度值gray(x,y)的计算公式为
Figure FDA0000126678540000051
其中grayi(x,y)为region中点(x,y)对应的第i个文本候选区域中对应像素点的灰度值。
9.根据权利要求1所述的用于视频中文本区域检测与定位的方法,其特征在于,步骤S6包括:
步骤S61,对融合后得到的图像用Sobel梯度算子进行边缘提取,得到二值的边缘图像,边缘点为1,非边缘点为0;
步骤S62,判断文字排列方向,如排列方向为竖直方向,需要将图像旋转;
步骤S63,对旋转后的图像进行水平投影,即分别统计每一个像素行中的边缘点数ni
步骤S64,对每一像素行的边缘点数ni进行平滑,得到平滑后每一像素行最终的边缘点数Ni,计算公式为:
Figure FDA0000126678540000052
步骤S65:根据每一像素行的最终边缘点数Ni对图像进行文本行分割,得到一个或多个文本行图像,从第一像素行开始,从上到下逐行进行扫描,当满足Ni>t4并且Ni-1<t4时,第i像素行为一个文本行的起始行;当满足Ni>t4并且Ni+1<t4或者第i像素行为图像最后一行时,第i像素行为一个文本行的终止行,其中t4为阈值,计算公式为:
Figure FDA0000126678540000053
h为图像高度。
10.一种视频中文本区域检测与定位的系统,该系统包括:
视频输入模块,用于获取视频图像;
文本置信度生成模块,对采样得到的图像进行边缘检测,利用检测后得到的图像生成文本置信度图;
文本候选区域生成模块,根据生成的文本置信度图提取文本候选区域;
融合分行模块,对文本候选区域近似相同的多帧图像的文本候选区域进行融合,并对融合后的文本区域图像进行分行。
CN201110451826.6A 2011-12-29 2011-12-29 用于视频中文本区域检测与定位的方法 Active CN102542268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110451826.6A CN102542268B (zh) 2011-12-29 2011-12-29 用于视频中文本区域检测与定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110451826.6A CN102542268B (zh) 2011-12-29 2011-12-29 用于视频中文本区域检测与定位的方法

Publications (2)

Publication Number Publication Date
CN102542268A true CN102542268A (zh) 2012-07-04
CN102542268B CN102542268B (zh) 2014-04-23

Family

ID=46349122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110451826.6A Active CN102542268B (zh) 2011-12-29 2011-12-29 用于视频中文本区域检测与定位的方法

Country Status (1)

Country Link
CN (1) CN102542268B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051903A (zh) * 2012-12-24 2013-04-17 四川九洲电器集团有限责任公司 一种空域自适应的h.264视频i帧差错掩盖方法
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN105975955A (zh) * 2016-05-27 2016-09-28 北京好运到信息科技有限公司 一种图像中文本区域的检测方法
WO2017088478A1 (zh) * 2015-11-24 2017-06-01 乐视控股(北京)有限公司 数字分离方法及装置
CN106845352A (zh) * 2016-12-23 2017-06-13 北京旷视科技有限公司 行人检测方法和装置
CN106845475A (zh) * 2016-12-15 2017-06-13 西安电子科技大学 基于连通域的自然场景文字检测方法
CN107145888A (zh) * 2017-05-17 2017-09-08 重庆邮电大学 视频字幕实时翻译方法
CN107886093A (zh) * 2017-11-07 2018-04-06 广东工业大学 一种字符检测方法、系统、设备及计算机存储介质
CN108460344A (zh) * 2018-02-07 2018-08-28 北京工业大数据创新中心有限公司 屏幕中的动态区域智能识别系统及智能识别方法
CN108805033A (zh) * 2018-05-22 2018-11-13 中国科学院自动化研究所 基于局部梯度分布的拍摄图像优选方法及装置
CN109165647A (zh) * 2018-08-22 2019-01-08 北京慕华信息科技有限公司 一种图像中文本信息量的计算方法及装置
CN109993040A (zh) * 2018-01-03 2019-07-09 北京世纪好未来教育科技有限公司 文本识别方法及装置
CN110398902A (zh) * 2019-06-19 2019-11-01 上海机电工程研究所 光电信号仿真误差分析方法
CN110610166A (zh) * 2019-09-18 2019-12-24 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110781195A (zh) * 2019-08-19 2020-02-11 腾讯科技(深圳)有限公司 一种兴趣点信息更新的系统、方法和装置
CN111629215A (zh) * 2020-07-30 2020-09-04 晶晨半导体(上海)股份有限公司 检测视频静态标识的方法及电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908230A (zh) * 2010-07-23 2010-12-08 东南大学 一种基于区域深度边缘检测和双目立体匹配的三维重建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908230A (zh) * 2010-07-23 2010-12-08 东南大学 一种基于区域深度边缘检测和双目立体匹配的三维重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高华: "基于边缘和灰度的视频文字提取方法的研究与应用", 《中国优秀硕士学位论文全文数据库》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
CN103136523B (zh) * 2012-11-29 2016-06-29 浙江大学 一种自然图像中任意方向文本行检测方法
CN103051903A (zh) * 2012-12-24 2013-04-17 四川九洲电器集团有限责任公司 一种空域自适应的h.264视频i帧差错掩盖方法
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN104504717B (zh) * 2014-12-31 2017-10-27 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
WO2017088478A1 (zh) * 2015-11-24 2017-06-01 乐视控股(北京)有限公司 数字分离方法及装置
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN105608456B (zh) * 2015-12-22 2017-07-18 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN105975955A (zh) * 2016-05-27 2016-09-28 北京好运到信息科技有限公司 一种图像中文本区域的检测方法
CN105975955B (zh) * 2016-05-27 2019-07-02 北京医拍智能科技有限公司 一种图像中文本区域的检测方法
CN106845475A (zh) * 2016-12-15 2017-06-13 西安电子科技大学 基于连通域的自然场景文字检测方法
CN106845352A (zh) * 2016-12-23 2017-06-13 北京旷视科技有限公司 行人检测方法和装置
CN106845352B (zh) * 2016-12-23 2020-09-18 北京旷视科技有限公司 行人检测方法和装置
CN107145888A (zh) * 2017-05-17 2017-09-08 重庆邮电大学 视频字幕实时翻译方法
CN107886093A (zh) * 2017-11-07 2018-04-06 广东工业大学 一种字符检测方法、系统、设备及计算机存储介质
CN109993040A (zh) * 2018-01-03 2019-07-09 北京世纪好未来教育科技有限公司 文本识别方法及装置
CN109993040B (zh) * 2018-01-03 2021-07-30 北京世纪好未来教育科技有限公司 文本识别方法及装置
CN108460344A (zh) * 2018-02-07 2018-08-28 北京工业大数据创新中心有限公司 屏幕中的动态区域智能识别系统及智能识别方法
CN108805033B (zh) * 2018-05-22 2020-12-18 中国科学院自动化研究所 基于局部梯度分布的拍摄图像优选方法及装置
CN108805033A (zh) * 2018-05-22 2018-11-13 中国科学院自动化研究所 基于局部梯度分布的拍摄图像优选方法及装置
CN109165647A (zh) * 2018-08-22 2019-01-08 北京慕华信息科技有限公司 一种图像中文本信息量的计算方法及装置
CN110398902A (zh) * 2019-06-19 2019-11-01 上海机电工程研究所 光电信号仿真误差分析方法
CN110398902B (zh) * 2019-06-19 2021-09-24 上海机电工程研究所 光电信号仿真误差分析方法
CN110781195A (zh) * 2019-08-19 2020-02-11 腾讯科技(深圳)有限公司 一种兴趣点信息更新的系统、方法和装置
CN110610166A (zh) * 2019-09-18 2019-12-24 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110610166B (zh) * 2019-09-18 2022-06-07 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN111629215A (zh) * 2020-07-30 2020-09-04 晶晨半导体(上海)股份有限公司 检测视频静态标识的方法及电子设备和存储介质
CN111629215B (zh) * 2020-07-30 2020-11-10 晶晨半导体(上海)股份有限公司 检测视频静态标识的方法及电子设备和存储介质
US11710315B2 (en) 2020-07-30 2023-07-25 Amlogic (Shanghai) Co., Ltd. Method, electronic apparatus and storage medium for detecting a static logo of a video

Also Published As

Publication number Publication date
CN102542268B (zh) 2014-04-23

Similar Documents

Publication Publication Date Title
CN102542268B (zh) 用于视频中文本区域检测与定位的方法
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
CN104778470B (zh) 基于组件树和霍夫森林的文字检测和识别方法
Yang et al. Lecture video indexing and analysis using video ocr technology
CN106156761A (zh) 面向移动终端拍摄的图像表格检测与识别方法
CN103049750B (zh) 字符识别方法
CN100565559C (zh) 基于连通分量和支持向量机的图像文本定位方法和装置
US7403657B2 (en) Method and apparatus for character string search in image
CN111860348A (zh) 基于深度学习的弱监督电力图纸ocr识别方法
CN102880865B (zh) 基于肤色与形态特征的动态手势识别方法
CN105678297A (zh) 一种基于标签转移及lstm模型的人像语义分析的方法及系统
CN104244073B (zh) 一种视频中滚动字幕的自动检测和识别方法
CN111401353A (zh) 一种数学公式的识别方法、装置及设备
CN108093314B (zh) 一种视频新闻拆分方法及装置
CN113537227B (zh) 一种结构化文本识别方法及系统
CN105930836A (zh) 一种视频文字的识别方法和装置
Singh et al. Systematic Linear Word String Recognition and Evaluation Technique
CN101365072A (zh) 字幕区域提取装置和方法
CN107977645B (zh) 一种视频新闻海报图的生成方法及装置
CN102024138B (zh) 字符识别方法和字符识别装置
CN105260428A (zh) 图片处理方法和装置
CN113221711A (zh) 一种信息提取方法及装置
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN107145888A (zh) 视频字幕实时翻译方法
CN107480667A (zh) 基于模板的智能题目图像采集处理的方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190426

Address after: 100080 Floor 11104-2, Building 1, 66 Zhongguancun East Road, Haidian District, Beijing

Patentee after: Beijing Zhongke Yueshen Technology Co., Ltd.

Address before: 100190 Zhongguancun East Road, Haidian District, Haidian District, Beijing

Patentee before: Institute of Automation, Chinese Academy of Sciences