CN102332096A - 一种视频字幕文本提取和识别的方法 - Google Patents
一种视频字幕文本提取和识别的方法 Download PDFInfo
- Publication number
- CN102332096A CN102332096A CN201110315054A CN201110315054A CN102332096A CN 102332096 A CN102332096 A CN 102332096A CN 201110315054 A CN201110315054 A CN 201110315054A CN 201110315054 A CN201110315054 A CN 201110315054A CN 102332096 A CN102332096 A CN 102332096A
- Authority
- CN
- China
- Prior art keywords
- image
- communication means
- bianry image
- candidate
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000000605 extraction Methods 0.000 title abstract description 5
- 238000004891 communication Methods 0.000 claims description 63
- 239000000284 extract Substances 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 21
- 239000012634 fragment Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 4
- 210000003141 lower extremity Anatomy 0.000 claims description 4
- 238000012300 Sequence Analysis Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 2
- 239000003086 colorant Substances 0.000 abstract 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种视频字幕文本提取和识别的方法,其步骤包括:输入视频中字幕区域的图像;将输入图像转化为灰度图;判断字幕区域中字符排列的方向;将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;对字幕区域进行分行得到单行字幕图像;对单行字幕区域图像自动判断前景颜色,得到单行字幕二值图像;对单行字幕二值图像进行过切分得到字符片段序列;对过切分后的单行字幕二值图像进行文本行识别。本方法能有效分割水平和竖直的视频字幕文本行,准确判断字符前景颜色并滤除噪声,并得到准确的字符切分与识别结果,可以适用于视频和图像内容编辑、索引与检索等多种用途。
Description
技术领域
本发明属于模式识别与计算机视觉领域,特别是涉及视频图像中的文本检测与识别的处理方法。
背景技术
视频作为一种最为流行的媒体形式,通过网络和电视广泛传播。为了使用户更方便、快捷地寻找到感兴趣的视频内容,视频检索与分类逐渐成为模式识别与计算机视觉领域研究的热点。在这其中,视频中的文本信息,特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为:(1)视频中的文本信息与视频的当前内容密切相关;(2)视频中的字符有非常明显的视觉特征,便于提取;(3)字符识别(OCR)技术相对目前的语音识别和图像分类技术更为准确和成熟。因此,视频中的文本检测与识别引起了广泛的兴趣。
视频中的文本检测与识别过程主要包括以下三个步骤:(1)文本检测与定位;(2)文本提取;(3)字符识别。其中针对步骤(1)的研究较多,涌现出了许多适用的方法和技术,如中国知识产权局2005年8月24日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。针对步骤(2)(3)的技术相对较少,如2008年1月30日公开的公开号为101115151的专利(“一种视频字幕提取的方法”)根据颜色判断文字极性并通过局部二值化提取文字,然后用OCR软件进行识别。总的来说,现有的视频字幕文字提取和识别的技术还不够完善,主要体现在:对于复杂多变的背景,特别是与前景颜色相似甚至相同的背景无法处理;对于多变的字体,如:宋体、黑体、楷体等的适应性不强;字符识别采用常规的OCR方法,对字符切分和字符图像噪声、低分辨率考虑不足。
针对上述未解决的技术问题,本发明提出了一种有效的用于视频中字幕区域文本提取与识别的方法。
发明内容
本发明的目的是为了克服视频中文本的背景颜色复杂、前景颜色的不确定性、字体多变性和字符切分的不确定性,从而提出了一种对字体、背景颜色具有鲁棒性、并且可以自动判断前景颜色的文本提取和识别方法,对视频字幕文本能够实现快速、准确的提取、切分与识别。
本发明提出的一种视频字幕文本提取和识别的方法采用的技术方案为:
步骤S1:输入视频中字幕区域的图像;
步骤S2:将输入图像转化为灰度图;
步骤S3:判断字幕区域中字符排列的方向;
步骤S4:如果字幕区域中字符排列的方向为竖直排列,则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;
步骤S5:对字幕区域进行分行得到单行字幕图像;
步骤S6:对单行字幕图像自动判断前景颜色,并得到真实的单行字幕二值图像;
步骤S7:对单行字幕二值图像进行过切分得到字符片段序列;
步骤S8:对过切分后的单行字幕二值图像进行文本行识别。
本发明提出的视频字幕文本提取与识别方法的有益效果为:
(1)本发明提出的方法能同时处理水平和竖直的视频字幕文本行;
(2)本发明提出的方法能够对字幕图像区域进行自动分行,对多文本行的字幕图像进行处理与识别;
(3)本发明提出的方法通过对单行字幕图像的连通部件进行分析,自动确定字符前景颜色并滤除噪声连通部件,从而得到清晰的字符前景二值化图像;
(4)本发明提出的方法对文本行图像进行字符过切分得到候选切分方式,并结合候选字符的识别分数和语言上下文模型对候选切分方式进行评价,同时得到字符切分和识别结果,避免了字符宽度变化和间隔不均匀以及字符间笔画粘连造成的切分错误。
综合说来,本发明的视频字幕文字提取和识别方法能有效分割字幕文本行,准确判断字符前景颜色并滤除噪声,并得到准确的字符切分与识别结果,可以适用于视频和图像内容编辑、索引与检索等多种用途。
附图说明
图1是本发明提出的视频字幕文字提取和识别方法流程图。
图2是对字幕图像进行分行的流程图。
图3是对单行字幕图像进行自动判断前景并二值化的流程图。
图4是对二值单行字幕图像进行过切分的流程图。
图5是本发明方法的实现结构图。
图6是对单行字图像进行二值化和去噪后的图像示例。
图7是对二值单行字幕图像进行过切分的图像示例。
图8是对过切分后单行二值图像进行识别中候选切分网格生成的图像示例。
图9是一幅水平字幕区域图像的识别结果示例。
图10是一幅竖直字幕区域图像的识别结果示例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明可在个人电脑、服务器等计算设备上实现。
本发明采用的技术方案为:将视频中的字幕区域进行分行,对每一行自动判断前景颜色并生成二值图像,对二值图像中的字符进行切分与识别,得到最终的文本识别结果。其中对于视频中字幕的定位不是本发明的内容,假设已经用别的方法定位得到了字幕区域。
参照图1,本发明提出的视频字幕文字提取和识别方法具体包括以下几个主要步骤:
步骤S1:输入视频中字幕区域的图像;
步骤S2:将输入的图像转化为灰度图;
将输入图像转化为灰度图的过程是:设输入图像中的每一个像素点的R、G、B值分别为r、g、b,则变换后的灰度图中该像素点的灰度值为gray=0.299×r+0.587×g+0.114×b。
步骤S3:判断字幕区域中字符排列的方向;
对字幕区域中字符排列方向进行判断的过程是:比较输入图像的长和宽,当输入图像的长大于等于宽时,认为字幕是水平排列;当宽大于长时,认为字幕是竖直排列。
步骤S4:如果字幕区域中字符排列的方向为竖直排列,则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;
设原图像的宽、高分别为W1、H1,P1(x,y)为原图像横坐标为x、纵坐标y的点所对应的灰度值;则旋转后的图像的宽、高分别为W2=H1、H2=W1,经过逆时针旋转90°,P2(x,y)=P1(y,x)为旋转后图像横坐标为x、纵坐标y的点所对应的灰度值。
步骤S5:对字幕区域进行分行得到单行字幕图像;
参照图2,对字幕区域进行分行的具体过程包括如下步骤:
步骤S51:利用Sobel算子求取字幕区域中每个像素点的边缘强度,得到字幕区域边缘图像;
步骤S52:利用大津法(Otsu)对字幕区域边缘图像进行二值化得到二值图像,边缘图像中边缘强度超过阈值的像素点记为有效边缘点,置为1,否则置为0;
步骤S53:统计二值图像中每一行(指像素行,以下同)的有效边缘点数;设二值图像的高为H,有效边缘点总数为T,设有效边缘点数阈值为从二值图像的起始行开始,按某一扫描方向逐行进行扫描,优选地,将二值图像平均分为上下等高的两个部分,分别统计上下两部分的有效边缘点个数,如果上半部分的有效边缘点数多,则以最上一行为起始行,扫描方向为从上至下;否则,以最下一行为起始行,扫描方向为从下至上。当某行中的有效边缘点数超过阈值TH时,则以该行为基准,按扫描方向的反方向倒退三行作为一个文本行的开始,然后按扫描方向跳跃20行,继续按扫描方向进行扫描;当某一行中所含的有效边缘点数低于阈值TH时,则以该行为基础,按扫描方向前进三行作为一个文本行的结束;重复以上过程,直至扫描完最后一行停止;最后就会得到所有的文本行区域。取每个文本行区域的原始灰度图像,即单行字幕图像,进行下面的前景颜色判断和二值化。
步骤S6:对单行字幕图像自动判断前景颜色,并得到真实的单行字幕二值图像;
参照图3,对单行的字幕图像自动判断前景颜色,并得到真实的单行字幕二值图像的具体过程包括如下步骤:
步骤S61:对单行字幕图像进行局部二值化,局部二值化窗口为边长等于三分之一图像高度的正方形,在窗口内的阈值用大津法(Otsu)计算,如果窗口中心点的灰度值大于阈值,则二值化输出为1,低于或等于阈值则二值化输出为0;
步骤S62:计算两个全局的阈值:高亮度阈值ThH和低亮度阈值ThL,如果单行字幕图像所有像素点的平均灰度值为m,方差为v,则高亮度阈值为ThH=m+0.3×v,低亮度阈值为ThL=m-0.3×v;
步骤S63:对于单行字幕图像中的每一个像素点,如果其局部二值化的输出为1,并且本身灰度值高于高亮度阈值ThH,则记为前景候选1;如果其局部二值化的输出为0,并且本身灰度值低于低亮度阈值ThL,则记为前景候选2;其他不符合以上条件的像素点均不作为前景候选;
步骤S64:基于前景候选1和前景候选2分别生成二值图像,对每个二值图像分别进行去噪和是否为真实前景进行打分,分值为TM;取得分(TM)低的前景二值图像为最终的单行字幕二值图像。
所述步骤S64中对两种前景候选的二值图像分别进行去噪,并对每个像素是否为真实前景进行打分的具体过程包括如下步骤:
步骤S641:将所有对应当前前景候选(前景候选1或前景候选2),且距离单行字幕图像边缘距离大于2的像素点记为1,其他像素点记为0,生成二值图像;
步骤S642:对所得二值图像的前景像素,即标记为1的像素点提取连通部件,进而利用每个连通部件与背景,即标记为0的像素点,的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息,对步骤S641所得的二值图像进行去噪;
利用每个连通部件与背景的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息,对S641所得的二值图像进行去噪的具体过程包括如下步骤:
步骤S6421:从生成的二值图像中提取连通部件,顺序分析和处理每一个连通部件;
步骤S6422:设第i个连通部件的topi为所含像素点纵坐标的最小值,bottomi为所含像素点纵坐标的最大值,lefti为所含像素点横坐标的最小值,righti为所含像素点横坐标的最大值,设单行字幕图像的行高为h;
步骤S6423:对第i个连通部件的每个边缘点,计算其与相邻背景点的灰度值差δ,如果δ>v(v为整行单行字幕灰度图像所有像素点灰度值的方差),则将该边缘点记为合理边缘点;
步骤S6425:设第i个连通部件的宽、高分别为wi、hi,若满足如下条件之一:(1)max(wi,hi)<0.2×h∩min(wi,hi)<0.1×h,(2)wi>2×h∩hi<0.4×h,则删除该连通部件;
步骤S6427:设第i个连通部件的平均笔画宽度为SWi,其计算方法如下:设连通部件所含像素点的个数为Ni,边缘点个数为Ci,则笔画宽度设所有连通部件笔画宽度的平均值为SW,若第i个连通部件满足SWi>1.5×SW∩wi<h,则删除该连通部件。
步骤S643:对去噪后得到的二值图像进行形态打分,得到分值M;
对去噪后得到的二值图像进行形态打分,得到分值M的具体过程包括如下步骤:
步骤S6431:对M进行初始化,M=0;
步骤S6432:统计步骤S642去噪处理后所有剩余连通部件的平均高度averageh、平均宽度averagew、最大高度maxh、最大宽度maxw、所有剩余连通部件的总跨度length,其中,length=max(righti)-min(lefti),righti为第i个连通部件中所有像素点横坐标的最大值,lefti为第i个连通部件中所有像素点横坐标的最小值,如果满足如下条件之一:(1)剩余连通部件的数目为0,(2)averagew<0.3×h,(3)averageh<0.3×h,(4)maxh<0.5×h,(5)maxw<0.5×h,该二值图像的形态打分分值M为1000;
步骤S6433:若M≠1000,估计二值图像中整行字的上边缘ET,下边缘EB,有效连通部件的数目usefulNum,有效连通部件所含像素点数目的均值averageNum,平均字符宽度averageWid,计算方法如下:ET为所有满足topi<0.3×h的连通部件的topi的平均值,EB为所有满足bottomi>0.7×h的连通部件的bottomi的平均值,usefulNum为二值图像中满足条件hi>0.3×h∩hi<0.9×h的连通部件的数目,averageNum为二值图像中满足条件hi>0.3×h∩hi<0.9×h的连通部件所含像素点数目的均值,averageWid为满足条件hi>0.5×h∩hi<h的连通部件的hi的均值;
步骤S6434:如果该二值图像满足如下条件之一:(1) (2) 则形态打分分值M为100;
步骤S6435:若M≠1000且M≠100,形态打分分值M的计算方法如下:设blackNumi为第i个满足条件wi>0.3×h∩wi<0.9×h∩hi>0.3×h∩hi<0.9×h的连通部件所含像素点个数, 其中blackNumi为第i个连通部件中所含像素点的个数。
步骤S644:对去噪后得到的二值图像进行笔画宽度一致性打分,得到分值T;
对去噪后得到的二值图像进行笔画宽度一致性打分,得到T的计算方法如下:设步骤S642处理后所有剩余连通部件的数目为N,第i个连通部件的笔画宽度为SWi,所有连通部件笔画宽度的平均值为SW,则
步骤S645:最终该二值图像的前景真实度分值为TM=0.6×T+0.4×M;
步骤S7:对单行字幕二值图像进行过切分得到字符片段序列;
参照图4,对单行字幕二值图像进行过切分的方法具体包括如下步骤:
步骤S71:计算单行字幕二值图像的行高,当作平均字符高度和平均字符宽度,记为averageWid,averageWid=EB-ET。
步骤S72:计算单行字幕二值图像在X轴上的投影(每一像素列的前景点个数);投影为0的连续像素列构成一个投影为0的区间,投影不为0的连续像素列构成一个投影不为0的区间;将每一个投影为0的区间所在X轴的位置作为候选切分点(相邻字符可在候选切分点分隔开);
步骤S73:对于每个投影不为0的区间,如果其宽度超过平均字符宽度的0.8倍,则对其进行过切分,在区间中寻找新的候选切分点,在新的候选切分点处再将该区间分成多个投影不为0的区间;
对于投影不为0的区间进行过切分的过程具体包括如下步骤:
步骤S731:计算该区间中每一列(指像素列)的切分置信度,第i列的切分置信度Confi计算方法如下:设第i列所有前景像素点纵坐标的最小值为FVi,最大值为LVi,该列前景像素点数为ni,则
其中,ET为单行字幕图像的上边缘估计,EB为下边缘估计,已在步骤S6432中描述;
步骤S732:从该区间的左端开始,沿文本行方向,每隔0.5×averageWid得到一个假设切分点,记为Cj;在以Cj为中心,0.15×averageWid为半径的区域内寻找最终切分置信度最大的列为切分位置;最终切分置信度计算如下:设第i列的切分置信度Confi,到Cj的水平距离为di,则第i列的最终切分置信度为:
步骤S74:将每个最终分出的投影不为0的区间的二值图像看作一个字符片段,将所有字符片段按从左到右的顺序进行排序。
步骤S8:对过切分后的单行字幕图像进行文本行识别。
对过切分后的单行字幕图像进行文本识别的目的是同时确定字幕中各个字符的最终切分位置和类别,即同时得到字符切分和识别结果,其具体过程包括如下步骤:
步骤S81:从左至右顺序考虑每一个字符片段,将字符片段分别与右边相邻的0个、1个、2个、3个片段合并,合并后构成的图像前景像素左、右、上、下边界分别表示为left,right,top,bottom,若该图像前景像素满足如下条件,则构成一个候选字符:(1)(right-left)<1.5×averageWid,(2)max(right-lef,bottom-top)>0.6×averageWid;将所有候选字符存储在一个候选切分网格中,其中每个节点对应一个候选切分位置,从起始节点(对应文字行的开始位置)到终止节点(对应文字行的结束位置)的每一条路径(称为候选切分路径)表示文本行的一种切分方式,路径上每一条边表示一个候选字符;
步骤S82:用一个字符分类器对每个候选字符进行识别,得到几个(比如10个)分数最大的候选类别以及对应的分数;
字符分类器从候选字符图像中提取特征,表示为特征矢量xi,用一个统计分类器(比如最近原型分类器)对特征矢量进行分类,具体地,计算特征矢量到每一类别集ci(类别集是事先指定的,包括常用汉字和英文字母、数字)原型的最近距离di=d(xi,ci),选择距离最近的10个类别,将其距离通过函数转换为概率置信度,即字符识别分数;其中参数τ为字符分类器训练样本集上每类样本到本类别距离d(x,c)的均值,α经验性地设为2/τ。
步骤S83:对每一条候选切分路径,组合不同候选字符的多个候选类别,得到多条候选切分识别路径,该路径中同时包括候选字符及每个候选字符对应的类别;对每一条候选切分识别路径进行评价,得到该路径的评价分数。
所述步骤S83中对于候选切分识别路径的评价具体为结合候选类别的分数和统计语言模型(通常用Bi-gram)给出路径的评价分数:设候选切分路径X上有n个候选字符,对应的候选类别依次为C=c1c2…cn,候选切分识别路径的分数为
其中,ki为构成候选字符(其对应的特征矢量为xi)的字符片段个数,P(ci |ci-1)为事先得到的统计语言模型Bi-gram,λ为经验设定的权值(0到1之间)。
步骤S84:用动态规划算法搜索所有的候选切分识别路径,分数最高的路径给出的文本行字符切分和识别结果即为最终处理结果。
其中,字符分类器的特征提取和分类器设计在模式识别领域有很多公开的具体方法,因而不是本发明的主要内容,代表性的方法可参考文献:
[1]C.-L.Liu,K.Nakashima,H.Sako,H.Fujisawa,Handwritten digitrecognition:Investigation of normalization and feature extraction techniques,Pattern Recognition,37(2):265-279,2004.
[2]X.-B.Jin,C.-L.Liu,X.Hou,Regularized margin-based conditionallog-likelihood loss for prototype learning,Pattern Recognition,43(7):2428-2438,2010.
参照图5,本发明主要包括以下四个模块:字幕区域分行模块105、字符前景判断和二值化模块106、过切分模块107和文本行识别模块108,其他模块均为辅助的输入/输出或控制模块,其中:
字幕图像输入模块101,用于获取字幕区域图像,字幕区域由其他字幕定位技术对字幕进行检测和定位得到,或者假定视频图像中一个固定区域为字幕区域。
灰度图像转换模块102,利用公式gray=0.299×r+0.587×g+0.114×b,将彩色图像转化成灰度图像。
字符排列方向判断模块103,通过比较输入图像的长、宽,来确定字符的排列方向,当输入图像的长度大于等于宽度时,判定字幕为水平方向;反之,则判定为垂直方向。
字幕旋转模块104,用于将字符垂直排列的图像转化成字符水平排列的图像。
字幕区域分行模块105,用于将字符水平排列的灰度图像进行细分,当该图像含有多行文本时,将其拆分成多个单行文本图像;当该图像只包含一行文本时,对该行文本进行位置修正,得到垂直方向上字符位置居中、外围包含3个像素单纯背景的文本图像。
字符前景判断和二值化模块106,对单行的字幕图像自动判断前景颜色,并得到真实的单行字幕二值图像。
过切分模块107,对二值化后的单行字幕图像进行过切分得到字符片段序列。
文本行识别模块108,对过切分后的单行字幕图像进行文本行识别。
本发明的具体实施效果如图6至图10所示。
参考图6,左边三个水平字幕行图像从上至下依次为:彩色字幕区域图像、局部二值化之后的图像、字符前景二值化图像;右边三个垂直字幕行图像从左至右分别为:彩色字幕区域图像、局部二值化之后的图像、字符前景二值化图像。
参考图7,左边和右边三个字幕分图像从上至下分别为:彩色字幕区域图像、字符前景二值化图像、字符过切分效果图(垂直白线表示候选切分位置)。
图8为候选切分网格,每一条折线表示一种切分路径,加粗的切分路径表示最终的字符切分结果。
图9是一个水平字幕行图像文字提取和识别的完整过程:第一行为输入彩色图像,第二行为两种候选前景色生成的二值图像,第三行为过切分效果图,第四行为最终的文本行识别结果。
图10是一个垂直字幕行图像文字提取和识别的完整过程:第一列为输入彩色图像,第二列为行分割结果,第三列分别为两种候选前景色生成的二值图像,第四列为过切分效果图,第五列为最终的文本行识别结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种视频字幕文本提取和识别的方法,其特征在于,该方法包括:
步骤S1:输入视频中字幕区域的图像;
步骤S2:将输入图像转化为灰度图;
步骤S3:判断字幕区域中字符排列的方向;
步骤S4:如果字幕区域中字符排列的方向为竖直排列,则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;
步骤S5:对字幕区域进行分行得到单行字幕图像;
步骤S6:对单行字幕图像自动判断前景颜色,并得到真实的单行字幕二值图像;
步骤S7:对单行字幕二值图像进行过切分得到字符片段序列;
步骤S8:对过切分后的单行字幕二值图像进行文本行识别。
2.如权利要求1所述的视频字幕文本提取和识别方法,其特征在于,步骤S5中对字幕区域进行分行具体包括如下步骤:
步骤S51:利用Sobel算子求取字幕区域中每个像素点的边缘强度,得到字幕区域边缘图像;
步骤S52:利用大津法Otsu对字幕区域边缘图像进行二值化得到二值图像;
步骤S53:统计二值图像中每一像素行的有效边缘点数;从所述二值图像的起始行开始,按某一扫描方向逐行进行扫描,当某行中有效边缘点数超过阈值时,以该行为基准,按扫描方向的反方向倒退三行作为一个文本行的开始,然后按扫描方向跳跃20行,继续按扫描方向进行扫描;当某一行中所含有效边缘点数低于阈值时,以该行为基础,按扫描方向前进三行作为一个文本行的结束;重复以上过程,直至扫描完最后一行停止;最后得到了所有的文本行区域。
3.如权利要求1所述的视频字幕文本提取和识别方法,其特征在于,步骤S6对单行的字幕区域自动判断字符前景颜色,并得到真实的单行字幕二值图像的具体过程包括如下步骤:
步骤S61:对单行字幕图像进行局部二值化;
步骤S62:计算两个全局阈值:高亮度阈值ThH和低亮度阈值ThL;
步骤S63:对于单行字幕图像中的每一个像素点,如果其局部二值化的输出为1,并且本身灰度值高于高亮度阈值ThH,则记为前景候选1;如果其局部二值化的输出为0,并且本身灰度值低于低亮度阈值ThL,记为前景候选2;其他不符合以上条件的像素点不作为前景候选;
步骤S64:基于前景候选1和前景候选2分别生成二值图像,对每个二值图像分别进行去噪和是否为真实前景进行打分;分低的二值图像为最终的单行字幕二值图像。
4.如权利要求3所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S64中对两种前景候选的二值图像分别进行去噪和是否为真实前景进行打分的具体过程包括如下步骤:
步骤S641:将所有对应前景候选1或前景候选2、且距离单行字幕图像边缘距离大于2的像素点记为1,其他像素点记为0,生成二值图像;
步骤S642:利用每个连通部件与背景的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息,对步骤S641所得的二值图像进行去噪;
步骤S643:对去噪后得到的二值图像进行形态打分,得到分值M;
步骤S644:对去噪后得到的二值图像进行笔画宽度一致性打分,得到分值T;
步骤S645:最终该二值图像的前景真实度分值为TM=0.6×T+0.4×M。
5.如权利要求4所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S642中利用每个连通部件与背景,即标记为0的像素点,的颜色对比度、几何形状、位置关系以及与字符的相似程度,对S641所得的二值图像进行去噪包括如下步骤:
步骤S6421:从步骤S641得到的的二值图像中提取连通部件,顺序分析和处理每一个连通部件;
步骤S6422:设第i个连通部件的topi为所含像素点纵坐标的最小值,bottomi为所含像素点纵坐标的最大值,lefti为所含像素点横坐标的最小值,righti为所含像素点横坐标的最大值,单行字幕图像的行高为h;
步骤S6423:对第i个连通部件的每个边缘点,计算其与相邻背景点的灰度值差δ,如果δ>v,其中,v为整行图像像素点灰度值的方差,则将该边缘点记为合理边缘点;
步骤S6425:设第i个连通部件的宽、高分别为wi、hi,若满足如下条件之一:(1)max(wi,hi)<0.2×h∩min(wi,hi)<0.1×h,(2)wi>2×h∩hi<0.4×h,则删除该连通部件;
步骤S6426:设第i个连通部件的垂直中心位置为若满足CHi<0.2×h∪CHi>0.8×h,则删除该连通部件;
步骤S6427:设第i个连通部件的平均笔画宽度为SWi,所有连通部件笔画宽度的平均值为SW,若第i个连通部件满足SWi>1.5×SW ∩wi<h,则删除该连通部件。
6.如权利要求4所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S643中对去噪后得到的二值图像进行形态打分,得到分值M的具体过程包括如下步骤:
步骤S6431:对M进行初始化,M=0;
步骤S6432:统计步骤S642去噪处理后所有剩余连通部件的平均高度averageh、平均宽度averagew、最大高度maxh、最大宽度maxw、所有剩余连通部件的总跨度length,如果满足如下条件之一:(1)剩余连通部件的数目为0,(2)averagew<0.3×h,(3)averageh<0.3×h,(4)maxh<0.5×h,(5)maxw<0.5×h,其中,h为单行字幕图像的行高,则该二值图像的形态打分M为1000;
步骤S6433:若M≠1000,估计二值图像中整行字的上边缘ET,下边缘EB,有效连通部件的数目usefulNum,有效连通部件所含像素点数目的均值averageNum,平均字符宽度averageWid;
步骤S6434:如果该二值图像满足如下条件之一:(1) (2) 则该二值图像的形态打分M为100;
步骤S6435:若M≠1000且M≠100,该二值图像的形态打分M为:
其中,blackNumi为第i个满足条件wi>0.3×h∩wi<0.9×h∩hi>0.3×h∩hi<0.9×h的连通部件所含像素点个数,wi、hi分别为第i个连通部件的宽和高。
7.如权利要求4所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S644中分值T的计算方法为:
其中,N为步骤S642处理后所有剩余连通部件的数目,SWi为第i个连通部件的笔画宽度,SW为所有连通部件笔画宽度的平均值。
8.如权利要求1所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S7中对单行字幕二值图像进行过切分的具体过程包括如下步骤:
步骤S71:计算单行字幕二值图像的行高averageWid,当作平均字符高度和平均字符宽度。
步骤S72:计算单行字幕二值图像在X轴上的投影,将每一个投影为0的区间所在X位置作为候选切分点;
步骤S73:对于每个投影不为0的区间,如果其宽度超过平均字符宽度的0.8倍,则对其进行过切分,在区间中寻找新的候选切分点,在新的候选切分点处再将该区间分成多个投影不为0的区间;
步骤S74:每个投影不为0的区间的二值图像看作一个字符片段,将所有字符片段按从左到右的顺序排序。
9.如权利要求8所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S73中对于投影不为0的区间进行过切分具体包括如下步骤:
步骤S731:计算该区间中每一像素列的切分置信度:
其中,Confi为第i列像素的切分置信度,FVi为第i列所有前景像素点纵坐标的最小值,LVi为第i列所有前景像素点纵坐标的最大值,ni为第i列前景像素点数,ET为单行字幕图像的上边缘估计,EB为下边缘估计;
步骤S732:从该区间的左端开始,沿文本行方向,每隔0.5×averageWid得到一个假设切分点,记为Cj;在以Cj为中心,0.15×averageWid为半径的区域内寻找最终切分置信度最大的列为切分位置;其中,最终切分置信度计算如下:设第i列的切分置信度为Confi,到Cj的水平距离为di,则第i列的最终切分置信度为:
10.如权利要求1所述的视频字幕文本提取和识别方法,其特征在于,所述步骤S8中对过切分后的单行字幕二值图像进行文本识别的具体过程包括如下步骤:
步骤S81:从左至右顺序考虑每一个字符片段,将字符片段分别与右边相邻的0个、1个、2个、3个片段合并,合并后构成的图像前景像素左、右、上、下边界分别表示为left,right,top,bottom,若该图像前景像素满足如下条件,则构成一个候选字符:(1)(right-left)<1.5×averageWid,(2)max(right-lef,bottom-top)>0.6×averageWid,其中,averageWid为单行字幕二值图像的平均字符宽度;将所有候选字符存储在一个候选切分网格中,其中每个节点对应一个候选切分位置,从起始节点到终止节点的每一条路径,即候选切分路径,表示文本行的一种切分方式,路径上的每一条边表示一个候选字符;
步骤S82:用一个字符分类器对每个候选字符进行识别,得到几个分数最大的候选类别以及对应的分数;
步骤S83:对每一条候选切分路径,组合不同候选字符的多个候选类别,得到多条候选切分识别路径;对每一条候选切分识别路径进行评价,得到该路径的评价分数。
步骤S84:用动态规划算法搜索所有的候选切分识别路径,分数最高的路径给出了最终的文本行字符切分和识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110315054 CN102332096B (zh) | 2011-10-17 | 2011-10-17 | 一种视频字幕文本提取和识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110315054 CN102332096B (zh) | 2011-10-17 | 2011-10-17 | 一种视频字幕文本提取和识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102332096A true CN102332096A (zh) | 2012-01-25 |
CN102332096B CN102332096B (zh) | 2013-01-02 |
Family
ID=45483865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110315054 Active CN102332096B (zh) | 2011-10-17 | 2011-10-17 | 一种视频字幕文本提取和识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102332096B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102802074A (zh) * | 2012-08-14 | 2012-11-28 | 海信集团有限公司 | 从电视信号中提取文字信息并显示的方法及电视机 |
CN103475831A (zh) * | 2012-06-06 | 2013-12-25 | 晨星软件研发(深圳)有限公司 | 应用于显示装置的字幕控制方法与元件 |
CN104504717A (zh) * | 2014-12-31 | 2015-04-08 | 北京奇艺世纪科技有限公司 | 一种图像信息检测方法及装置 |
CN104766076A (zh) * | 2015-02-28 | 2015-07-08 | 北京奇艺世纪科技有限公司 | 一种视频图像文字的检测方法和装置 |
CN104794469A (zh) * | 2015-04-17 | 2015-07-22 | 同济大学 | 基于图像异构计算的实时视频流文字定位方法 |
WO2015196462A1 (en) * | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and device for displaying a video sequence |
CN105868757A (zh) * | 2016-03-25 | 2016-08-17 | 上海珍岛信息技术有限公司 | 一种图像文字中的文字定位方法及装置 |
CN105989341A (zh) * | 2015-02-17 | 2016-10-05 | 富士通株式会社 | 文字识别方法和装置 |
CN106604125A (zh) * | 2016-12-29 | 2017-04-26 | 北京奇艺世纪科技有限公司 | 一种视频字幕的确定方法及装置 |
CN106933006A (zh) * | 2017-05-03 | 2017-07-07 | 苏州和氏设计营造股份有限公司 | 数字展陈字幕扩展装置 |
CN107169496A (zh) * | 2017-04-19 | 2017-09-15 | 北京三快在线科技有限公司 | 一种文字识别方法和装置 |
CN107305630A (zh) * | 2016-04-25 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 文本序列识别方法和装置 |
CN107480671A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种社交网络低质量图像中的字幕识别方法 |
CN107590447A (zh) * | 2017-08-29 | 2018-01-16 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN107609546A (zh) * | 2017-08-29 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
WO2018028583A1 (zh) * | 2016-08-08 | 2018-02-15 | 腾讯科技(深圳)有限公司 | 字幕提取方法及装置、存储介质 |
CN108228553A (zh) * | 2017-12-28 | 2018-06-29 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
CN108416026A (zh) * | 2018-03-09 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 索引生成方法、内容搜索方法、装置及设备 |
CN108460344A (zh) * | 2018-02-07 | 2018-08-28 | 北京工业大数据创新中心有限公司 | 屏幕中的动态区域智能识别系统及智能识别方法 |
CN108573251A (zh) * | 2017-03-15 | 2018-09-25 | 北京京东尚科信息技术有限公司 | 文字区域定位方法和装置 |
CN108664617A (zh) * | 2018-05-14 | 2018-10-16 | 广州供电局有限公司 | 基于图像识别与检索的快速营销服务方法 |
CN109040825A (zh) * | 2018-10-29 | 2018-12-18 | 北京奇艺世纪科技有限公司 | 一种字幕截取方法及装置 |
CN109389115A (zh) * | 2017-08-11 | 2019-02-26 | 腾讯科技(上海)有限公司 | 文本识别方法、装置、存储介质和计算机设备 |
CN110599525A (zh) * | 2019-09-30 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 图像补偿方法和装置、存储介质及电子装置 |
CN111091124A (zh) * | 2019-12-04 | 2020-05-01 | 吉林大学 | 一种书脊文字识别方法 |
CN111368625A (zh) * | 2019-11-08 | 2020-07-03 | 深圳北航新兴产业技术研究院 | 一种基于级联优化的行人目标检测方法 |
CN111539427A (zh) * | 2020-04-29 | 2020-08-14 | 武汉译满天下科技有限公司 | 一种视频字幕的提取方法及系统 |
CN111754414A (zh) * | 2019-03-29 | 2020-10-09 | 搜狗(杭州)智能科技有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
CN112396056A (zh) * | 2020-12-09 | 2021-02-23 | 杭州米数科技有限公司 | 对文本图片ocr结果进行高准确率分行的方法 |
CN112446351A (zh) * | 2020-12-09 | 2021-03-05 | 杭州米数科技有限公司 | 医疗票据智能识别系统解决方法 |
CN112488107A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种视频字幕的处理方法及处理装置 |
CN116703899B (zh) * | 2023-08-03 | 2023-10-24 | 青岛义龙包装机械有限公司 | 基于图像数据的袋式包装机产品质量检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7446817B2 (en) * | 2004-02-18 | 2008-11-04 | Samsung Electronics Co., Ltd. | Method and apparatus for detecting text associated with video |
CN101448100A (zh) * | 2008-12-26 | 2009-06-03 | 西安交通大学 | 一种快速准确的视频字幕提取方法 |
-
2011
- 2011-10-17 CN CN 201110315054 patent/CN102332096B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7446817B2 (en) * | 2004-02-18 | 2008-11-04 | Samsung Electronics Co., Ltd. | Method and apparatus for detecting text associated with video |
CN101448100A (zh) * | 2008-12-26 | 2009-06-03 | 西安交通大学 | 一种快速准确的视频字幕提取方法 |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103475831A (zh) * | 2012-06-06 | 2013-12-25 | 晨星软件研发(深圳)有限公司 | 应用于显示装置的字幕控制方法与元件 |
CN102802074A (zh) * | 2012-08-14 | 2012-11-28 | 海信集团有限公司 | 从电视信号中提取文字信息并显示的方法及电视机 |
CN102802074B (zh) * | 2012-08-14 | 2015-04-08 | 海信集团有限公司 | 从电视信号中提取文字信息并显示的方法及电视机 |
WO2015196462A1 (en) * | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and device for displaying a video sequence |
CN104504717A (zh) * | 2014-12-31 | 2015-04-08 | 北京奇艺世纪科技有限公司 | 一种图像信息检测方法及装置 |
CN104504717B (zh) * | 2014-12-31 | 2017-10-27 | 北京奇艺世纪科技有限公司 | 一种图像信息检测方法及装置 |
CN105989341A (zh) * | 2015-02-17 | 2016-10-05 | 富士通株式会社 | 文字识别方法和装置 |
CN104766076A (zh) * | 2015-02-28 | 2015-07-08 | 北京奇艺世纪科技有限公司 | 一种视频图像文字的检测方法和装置 |
CN104766076B (zh) * | 2015-02-28 | 2019-01-01 | 北京奇艺世纪科技有限公司 | 一种视频图像文字的检测方法和装置 |
CN104794469A (zh) * | 2015-04-17 | 2015-07-22 | 同济大学 | 基于图像异构计算的实时视频流文字定位方法 |
CN105868757A (zh) * | 2016-03-25 | 2016-08-17 | 上海珍岛信息技术有限公司 | 一种图像文字中的文字定位方法及装置 |
CN107305630A (zh) * | 2016-04-25 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 文本序列识别方法和装置 |
CN107480671A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种社交网络低质量图像中的字幕识别方法 |
US11367282B2 (en) | 2016-08-08 | 2022-06-21 | Tencent Technology (Shenzhen) Company Limited | Subtitle extraction method and device, storage medium |
WO2018028583A1 (zh) * | 2016-08-08 | 2018-02-15 | 腾讯科技(深圳)有限公司 | 字幕提取方法及装置、存储介质 |
CN106604125B (zh) * | 2016-12-29 | 2019-06-14 | 北京奇艺世纪科技有限公司 | 一种视频字幕的确定方法及装置 |
CN106604125A (zh) * | 2016-12-29 | 2017-04-26 | 北京奇艺世纪科技有限公司 | 一种视频字幕的确定方法及装置 |
CN108573251B (zh) * | 2017-03-15 | 2021-09-07 | 北京京东尚科信息技术有限公司 | 文字区域定位方法和装置 |
US11017260B2 (en) | 2017-03-15 | 2021-05-25 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Text region positioning method and device, and computer readable storage medium |
CN108573251A (zh) * | 2017-03-15 | 2018-09-25 | 北京京东尚科信息技术有限公司 | 文字区域定位方法和装置 |
CN107169496A (zh) * | 2017-04-19 | 2017-09-15 | 北京三快在线科技有限公司 | 一种文字识别方法和装置 |
CN106933006A (zh) * | 2017-05-03 | 2017-07-07 | 苏州和氏设计营造股份有限公司 | 数字展陈字幕扩展装置 |
CN106933006B (zh) * | 2017-05-03 | 2019-08-23 | 苏州和氏设计营造股份有限公司 | 数字展陈字幕扩展装置 |
CN109389115A (zh) * | 2017-08-11 | 2019-02-26 | 腾讯科技(上海)有限公司 | 文本识别方法、装置、存储介质和计算机设备 |
CN109389115B (zh) * | 2017-08-11 | 2023-05-23 | 腾讯科技(上海)有限公司 | 文本识别方法、装置、存储介质和计算机设备 |
CN107609546A (zh) * | 2017-08-29 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN107590447A (zh) * | 2017-08-29 | 2018-01-16 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN107590447B (zh) * | 2017-08-29 | 2021-01-08 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN107609546B (zh) * | 2017-08-29 | 2020-12-18 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN108228553A (zh) * | 2017-12-28 | 2018-06-29 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
CN108460344A (zh) * | 2018-02-07 | 2018-08-28 | 北京工业大数据创新中心有限公司 | 屏幕中的动态区域智能识别系统及智能识别方法 |
CN108416026A (zh) * | 2018-03-09 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 索引生成方法、内容搜索方法、装置及设备 |
CN108416026B (zh) * | 2018-03-09 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 索引生成方法、内容搜索方法、装置及设备 |
CN108664617A (zh) * | 2018-05-14 | 2018-10-16 | 广州供电局有限公司 | 基于图像识别与检索的快速营销服务方法 |
CN109040825A (zh) * | 2018-10-29 | 2018-12-18 | 北京奇艺世纪科技有限公司 | 一种字幕截取方法及装置 |
CN111754414A (zh) * | 2019-03-29 | 2020-10-09 | 搜狗(杭州)智能科技有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
CN111754414B (zh) * | 2019-03-29 | 2023-10-27 | 北京搜狗科技发展有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
CN110599525A (zh) * | 2019-09-30 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 图像补偿方法和装置、存储介质及电子装置 |
CN111368625A (zh) * | 2019-11-08 | 2020-07-03 | 深圳北航新兴产业技术研究院 | 一种基于级联优化的行人目标检测方法 |
CN111368625B (zh) * | 2019-11-08 | 2024-02-27 | 深圳北航新兴产业技术研究院 | 一种基于级联优化的行人目标检测方法 |
CN111091124B (zh) * | 2019-12-04 | 2022-06-03 | 吉林大学 | 一种书脊文字识别方法 |
CN111091124A (zh) * | 2019-12-04 | 2020-05-01 | 吉林大学 | 一种书脊文字识别方法 |
CN111539427A (zh) * | 2020-04-29 | 2020-08-14 | 武汉译满天下科技有限公司 | 一种视频字幕的提取方法及系统 |
CN111539427B (zh) * | 2020-04-29 | 2023-07-21 | 深圳市优优品牌传播有限公司 | 一种视频字幕的提取方法及系统 |
CN112488107A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种视频字幕的处理方法及处理装置 |
CN112396056B (zh) * | 2020-12-09 | 2022-04-19 | 杭州米数科技有限公司 | 对文本图片ocr结果进行高准确率分行的方法 |
CN112446351A (zh) * | 2020-12-09 | 2021-03-05 | 杭州米数科技有限公司 | 医疗票据智能识别系统解决方法 |
CN112446351B (zh) * | 2020-12-09 | 2022-08-09 | 杭州米数科技有限公司 | 医疗票据智能识别方法 |
CN112396056A (zh) * | 2020-12-09 | 2021-02-23 | 杭州米数科技有限公司 | 对文本图片ocr结果进行高准确率分行的方法 |
CN116703899B (zh) * | 2023-08-03 | 2023-10-24 | 青岛义龙包装机械有限公司 | 基于图像数据的袋式包装机产品质量检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102332096B (zh) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102332096B (zh) | 一种视频字幕文本提取和识别的方法 | |
USRE47889E1 (en) | System and method for segmenting text lines in documents | |
CN100527156C (zh) | 一种图片文字检测的方法 | |
CN102542268B (zh) | 用于视频中文本区域检测与定位的方法 | |
Zhou et al. | Bangla/English script identification based on analysis of connected component profiles | |
CN101122953B (zh) | 一种图片文字分割的方法 | |
Guo et al. | Separating handwritten material from machine printed text using hidden markov models | |
Kumar et al. | Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition | |
CN104966051B (zh) | 一种文档图像的版式识别方法 | |
CN100565559C (zh) | 基于连通分量和支持向量机的图像文本定位方法和装置 | |
CN104778470B (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
CN101777124A (zh) | 一种提取视频文本信息的方法及装置 | |
CN105426856A (zh) | 一种图像表格文字识别方法 | |
CN105447522A (zh) | 一种复杂图像文字识别系统 | |
MX2011002293A (es) | Localizacion de texto para ocr de imagenes y video. | |
CN105512611A (zh) | 一种表格图像检测识别方法 | |
CN110516673B (zh) | 基于连通分量和回归式字切分的彝文古籍字符检测方法 | |
CN105469053A (zh) | 一种基于贝叶斯优化的图像表格文字切分方法 | |
CN108052955B (zh) | 一种高精度盲文识别方法及系统 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN114581932A (zh) | 一种图片表格线提取模型构建方法及图片表格提取方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
Lue et al. | A novel character segmentation method for text images captured by cameras | |
Darma et al. | Segmentation of balinese script on lontar manuscripts using projection profile | |
Seuret et al. | Pixel level handwritten and printed content discrimination in scanned documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190426 Address after: 100080 Floor 11104-2, Building 1, 66 Zhongguancun East Road, Haidian District, Beijing Patentee after: Beijing Zhongke Yueshen Technology Co., Ltd. Address before: 100190 Zhongguancun East Road, Haidian District, Haidian District, Beijing Patentee before: Institute of Automation, Chinese Academy of Sciences |
|
TR01 | Transfer of patent right |