CN101599124B - 一种从视频图像中分割字符的方法和装置 - Google Patents

一种从视频图像中分割字符的方法和装置 Download PDF

Info

Publication number
CN101599124B
CN101599124B CN2008101143191A CN200810114319A CN101599124B CN 101599124 B CN101599124 B CN 101599124B CN 2008101143191 A CN2008101143191 A CN 2008101143191A CN 200810114319 A CN200810114319 A CN 200810114319A CN 101599124 B CN101599124 B CN 101599124B
Authority
CN
China
Prior art keywords
stroke
image
negative sense
character
original character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101143191A
Other languages
English (en)
Other versions
CN101599124A (zh
Inventor
黄磊
刘昌平
程豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN2008101143191A priority Critical patent/CN101599124B/zh
Publication of CN101599124A publication Critical patent/CN101599124A/zh
Application granted granted Critical
Publication of CN101599124B publication Critical patent/CN101599124B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种从视频图像中分割字符的方法,包括:在视频图像中定位原始字符图像;从所述原始字符图像中抽取字符笔画信息,并依据所述字符笔画信息获得所述原始字符图像的二值笔画图;针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层图像;使用改进的带笔画掩码的连通体分析法去除多余的背景和噪声得到目标字符图像。本发明无需机器学习,计算量小,性能好,可以快速、准确地从复杂背景的视频图像中准确地分割出字符。

Description

一种从视频图像中分割字符的方法和装置
技术领域
本发明涉及视频字符识别领域,特别涉及一种从视频图像中分割字符的方法以及一种从视频图像中分割字符的装置。
背景技术
视频图像中的字符作为一种高级语义特征,对视频内容的理解、索引等具有重要作用。然而,由于视频图像的分辨率不高、视频图像中字符对应的背景复杂、干扰较大;并且,传统的OCR系统只能接受二值化的文本图像,因此,从视频图像的复杂背景中准确地分割出字符,是视频字符识别领域研究的重要课题之一。
现有技术中,在视频中分割出字符的方法主要包括以下三类:
第一类,基于阈值的方法:
具体可以参考由V.Wu,R.Manmatha,E.M.Riseman.1999年在IEEE Trans.on Pattern Analysis and Machine Intelligence第21卷第11期上发表的文献:一种从图像中检测和辨识文本的自动系统(An AutomaticSystem to Detect and Recognize Text in Images)中第1224-1229页的内容。这类方法利用局部阈值来去除背景和噪声,同时得到二值化的图像。由于这种基于颜色阈值的方法最早来源于灰度成双峰分布的文档图像分析,所以无法处理背景复杂的视频文字图像。
第二类,基于颜色模型的方法:
具体可以参考由D.Chen,J.-M.Odobesz,H.Bourlard 2002年在Proceedings of International Conference on Pattern Recognition上发表的文献:基于马尔科夫随机场模型从复杂背景中分割和辨识文本(Textsegmentation and recognition in complex background based on markovrandom field)中第227-230页的内容。这类方法首先学习了文字前景像素的高斯混合模型GMMs,接着使用马尔科夫随机场模型分割前景和背景。这种方法考虑了颜色信息和字符的空域信息,是一种较好的分割方法,但需要使用监督学习建立前景像素的颜色模型,这将给使用者带来额外的负担和不便。而且,这类方法中颜色模型的建立依赖于样本点的选取,然而在视频图像的复杂背景中,分析出字符的颜色分布情况是比较困难的。
第三类,基于连通体分析的方法:
具体可以参见由Yaowen Zhan,Weiqiang Wang,Wen Gao 2006年在Proceedings of International Conference on Pattern Recognition上发表的文献:一种用于图像的连通体文本分割方法(A Robust Split-and-MergeText Segmentation Approach for Images)中第1002-1005页的内容。这类方法通过选择文本框边界的点作为种子,使用种子生长法去除与边界相连的连通体,这种方法对于质量较好的图像,能够取得较好的效果,但当对比度很低,或者文字与背景同色,文字外边缘的边框不封闭的情况,文字颜色层图像中笔画区域与背景区域会发生粘连,在连通域分析中,种子填充算法会将文字侵蚀。因此,这种连通体分析的方法对于复杂背景,低分辨率,和受噪声干扰的视频图像仍不适用。
因而,本领域技术人员迫切需要发展出一种创新的视频图像文字分割机制,用以从复杂背景的视频图像中准确地分割出字符,从而提高视频图像中字符识别的准确性。
发明内容
本发明所要解决的技术问题是提供一种可以从视频图像中分割字符的方法,使用该方法无需机器学习,计算量小,性能好,可以快速、准确地从复杂背景的视频图像中准确地分割出字符。
本发明还提供了一种从视频图像中分割字符的装置,用以保证上述方法在实际中的实现及应用。
为解决上述技术问题,本发明实施例公开了一种从视频图像中分割字符的方法,包括:
在视频图像中定位原始字符图像;
从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;
针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层图像;
生成所述原始字符图像的笔画掩码图,依据所述笔画掩码图去除所述颜色层图像的多余背景。
优选的,所述的方法,还包括:
对所述颜色层图像进行去噪处理。
优选的,所述生成原始字符图像的二值笔画图的步骤进一步包括:
S31、若所述原始字符图像为正向文本图像,则执行步骤S33-S34;若所述原始字符图像为负向文本图像,则执行步骤S32-S34;
S32、将所述负向文本图像反色处理为正向文本图像;
S33、在所述正向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成正向笔画特征图;
S34、对所述正向笔画特征图进行二值化,获得正向二值笔画图。
优选的,所述生成原始字符图像的笔画掩码图的步骤进一步包括:
S41、若所述原始字符图像为正向文本图像,则执行步骤S42-S45;若所述原始字符图像为负向文本图像,则执行步骤S43-S45;
S42、将所述正向文本图像反色处理为负向文本图像;
S43、在所述负向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成负向笔画特征图;
S44、对所述负向笔画特征图进行二值化,获得负向二值笔画图;
S45、取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
优选的,所述依据笔画掩码图去除颜色层图像的多余背景的步骤进一步包括:
采用种子生长法在所述颜色层图像中、除笔画掩码图掩码以外的区域进行种子填充,获得去除多余背景后的颜色层图像。
优选的,所述视频图像为多帧包含同一文本对象的视频图像,所述原始字符图像为经过多帧视频图像融合获得的多帧增强图像。
本发明实施例还公开了一种从视频图像中分割字符的装置,包括:
字符图像定位模块,用于在视频图像中定位原始字符图像;
笔画提取模块,用于从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;
颜色特征处理模块,用于针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层图像;
连通体分析模块,用于生成所述原始字符图像的笔画掩码图,并依据所述笔画掩码图去除所述颜色层图像的多余背景。
连通体分析模块8、如权利要求7所述的装置,其特征在于,还包括:
去噪模块,用于对所述颜色层图像进行去噪处理。
优选的,若所述原始字符图像为正向文本图像,则所述笔画提取模块触发正向笔画信息计算子模块、正向笔画特征图构造子模块和正向二值化处理子模块;
或者,若所述原始字符图像为负向文本图像,则所述笔画提取模块触发第二反色处理子模块、正向笔画信息计算子模块、正向笔画特征图构造子模块和正向二值化处理子模块;
其中,所述第二反色处理子模块用于将所述负向文本图像反色处理为正向文本图像;所述正向笔画信息计算子模块,用于在所述正向文本图像中计算预设方向上笔画的强度值;所述正向笔画特征图构造子模块,用于提取最大的强度值构成正向笔画特征图;所述正向二值化处理子模块,用于对所述正向笔画特征图进行二值化,获得正向二值笔画图。
优选的,若所述原始字符图像为正向文本图像,则所述连通体分析模块触发第一反色处理子模块、负向笔画信息计算子模块、负向笔画特征图构造子模块、负向二值化处理子模块和合并子模块;
或者,若所述原始字符图像为负向文本图像,则所述连通体分析模块触发负向笔画信息计算子模块、负向笔画特征图构造子模块、负向二值化处理子模块和合并子模块;
其中,所述第一反色处理子模块用于将所述正向文本图像反色处理为负向文本图像;所述负向笔画信息计算子模块,用于在所述负向文本图像中计算预设方向上笔画的强度值;所述负向笔画特征图构造子模块,用于提取最大的强度值构成负向笔画特征图;所述负向二值化处理子模块用于对所述负向笔画特征图进行二值化,获得负向二值笔画图;所述合并子模块用于取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
与现有技术相比,本发明实施例具有以下优点:
首先,本发明通过采用笔画算子提取视频字符图像中的字符笔画,从而可以直接获得大量可靠的笔画像素信息;然后针对笔画像素进行颜色建模,提取字符的颜色层图像,从而应用简单的颜色模型就能达到较好的字符分割效果;再者,本发明还利用字符的几何属性,通过改进的带笔画掩码的连通体分析去除颜色层图像的干扰背景和多余噪声,可以有效保护笔画不受侵蚀。使用本发明不涉及机器学习的过程,计算量小,性能好,本发明综合利用了视频字符的时空、笔画、颜色及几何特征,将多方面特征进行了有效的互补,从而达到了快速、准确地从复杂背景的视频图像中分割出文字的目的。
最后,本发明对于服务提供商来说,技术实现简单,无技术障碍,无特殊保密算法,成本和风险较低。
附图说明
图1是本发明的一种从视频图像中分割字符的方法实施例1的流程图;
图2(图2a-图2c)是包含同一文本对象的多帧视频图像示意图;
图3是根据图2的多帧视频图像进行融合得到的多帧增强图的示意图;
图4是图3的反色图;
图5是图4的笔画特征图;
图6是图5的二值笔画图;
图7是基于图6提取的颜色层图像;
图8是本发明的一种从视频图像中分割字符的方法实施例2的流程图;
图9(图9a-图9b)是采用现有的连通体分析法分割字符的示意图;
图10(图10a-图10g)是采用改进的连通体分析法生成笔画掩码图的过程示意图;
图11是对图10在掩码保护下采用种子填充法去除背景的结果示意图;
图12是对图11进行去噪处理后的结果示意图;
图13是(图13a-图13b)分别为采用本发明改进的连通体分析法获得的修正图和进一步去噪获得的字符分割结果图;
图14是本发明的一种从视频图像中分割字符的装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例针对视频图像进行字符分割的目的之一在于,从已定位的视频字符图像中去除背景获得二值化的字符图像,以便后续进行OCR识别或其它操作。基于上述目的,本发明实施例的核心构思之一在于,使用笔画算子提取视频字符图像中的字符笔画,从而可以直接获得大量可靠的笔画像素信息;然后针对笔画像素进行颜色建模,提取字符的颜色层图像,从而应用简单的颜色模型就能达到较好的字符分割效果;优选的,本发明还可以利用字符的几何属性,通过改进的连通体分析去除颜色层图像的干扰背景和多余噪声,从而有效保护笔画不受侵蚀。可以看出,本发明综合利用了视频字符的时空、笔画、颜色及几何特征,将多方面特征进行了有效的互补,从而达到了快速、准确地从复杂背景的视频图像中分割出文字的目的。
本发明实施例可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
参考图1,示出了本发明的一种从视频图像中分割字符的方法实施例1的流程图,具体可以包括以下步骤:
步骤101、在视频图像中定位原始字符图像;
在本发明实施例中,可以采用任一种在视频图像中定位原始字符图像的方法,例如:
1)基于区域的方法:
这种方法首先利用颜色或灰度等属性从图像中提取出连通域;然后根据几何特征来对它们进行鉴别;最后将通过鉴别的连通域合并成文字定位的结果。
2)基于纹理的方法:
这种方法将文字视为一种特殊的纹理。文字纹理的分析工具包括Gabor滤波器、小波等。基于纹理的方法比基于区域的方法更具鲁棒性,但计算代价也更大。
3)基于笔画和Adaboost的视频文字定位方法:
这种方法在由定位到验证的两级框架下进行。在文本定位模块中,充分利用字符的笔画属性,引入对字符区域有很强的响应的笔画算子;经笔画提取,密度过滤,区域分解得候选文本行。在验证模块中,提取对文字有较强鉴别能力的边缘方向直方图特征,使用Adaboost算法训练的分类器对候选文本行进行筛选。这种方法采用由定位到验证的两级框架,初定位采用笔画的方法速度快,验证模块使用机器学习的方法鲁棒性强。在不同类型的视频帧图像中都能得到较好的定位结果。
当然,上述方法仅仅作为示例,本领域技术人员根据实际需要或经验采用任一种在视频图像中定位字符的方法都是可行的,本发明对此不作限制。
为保证作为字符分割基础的原始字符图像具有较高的可识别性,优选的,所述视频图像可以为多帧包含同一文本对象的视频图像,在这种情况下,所述原始字符图像则可以为经过多帧视频图像融合获得的多帧增强图像。
在实际中,视频不同于图像是因为存在时间冗余性,通常,每个文本都可能在连续多个视频帧中出现。因此,对每个文本的多帧图像信息进行融合,则可以增强文本图像和简化文本图像背景。
优选的,所述多帧增强的原始字符图像可以是多帧定位图像的平均图,例如,针对图2a、2b、2c所示的多帧视频图像,所获得的多帧增强平均图可以如图3所示。需要说明的是,对于所述原始字符图像,可以通过比较文本框的中心四行和边缘上下各两行的平均像素亮度来判断文本的极性。所谓文本的极性,可以分为正向文本和负向文本,其中,正向文本的图像即表示亮底暗字的情形,负向文本的图像即表示暗底亮字的情形。
步骤102、从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;
无论是东方文字还是西方文字,一个字符均由笔画组成。通过笔画的宽度较小且粗细均匀,因此笔画是表征文字的重要特征。而视频图像中字符的笔画一般包括如下特性:
(1)为了方便阅读,字符笔画颜色与背景颜色通常存在较大的色差;
(2)字符笔画可以视为小于某一宽度上限的双边结构;
(3)字符的笔画以0,π/4,π/2,3π/4四个方向为主。
基于字符笔画的上述特性,可以将笔画算子应用于本步骤中,考虑到文本区域的图像存在两种极性,即前述正向文本图像(亮底暗字)和负向文本图像(暗底亮字),在本实施例中,当所述原始字符图像为正向文本图像时,则可以通过以下子步骤生成原始字符图像的二值笔画图:
A11、在所述正向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成正向笔画特征图;
A12、对所述正向笔画特征图进行二值化,获得正向二值笔画图。
作为另一实施例,当所述原始字符图像为负向文本图像时,则可以通过以下子步骤生成原始字符图像的二值笔画图:
A21、将所述负向文本图像反色处理为正向文本图像;
A22、在所述正向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成正向笔画特征图;
A23、对所述正向笔画特征图进行二值化,获得正向二值笔画图。
具体而言,在正向文本图像中,预设方向上笔画的强度值可以通过以下计算公式获得:
DE d + ( p ) = max i = 1 W - 1 { min { f d ( p - i ) , f d ( p + W - i ) } } - f ( p ) ;
DE d ( p ) = DE d + ( p ) , if DE d + ( p ) > 0 ; 0 , otherwise ;
其中,d=0,1,2,3,分别代表笔画的0,π/4,π/2,3π/4四个方向,W为笔画宽度上限;fd(p+i)表示d方向上与点p距离为i的点的像素灰度值。
提取上述四个方向笔画强度的最大值,生成笔画特征图,可以采用以下计算公式表示:
DE W ( p ) = Max d = 0 3 { DE d ( p ) } ;
将原始字符图像转换成笔画特征图,可以检测到图像中笔画宽度小于W限制的连通体。笔画特征图中笔画较稀疏的文本区域则可以获得很好的分割效果。
然后对得到的笔画特征图进行二值化处理,获得二值笔画图,可以采用以下计算公式表示:
Bina _ DE ( p ) = 0 , if DE ( p ) > T ; 255 , otherwise ;
所谓二值化(Binarization)是指,一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群。这是研究灰度变换的最特殊的方法。在本发明中,本领域技术人员采用任一种二值化处理的方法都可行的,例如,采用Otsu方法求得最佳阈值,获得二值笔画图;或者,采用灰度直方图法或改进的灰度直方图等,本发明对此不需要进行限定。
以下通过一个具体的例子对本发明的二值笔画图生成过程进一步说明。
假设定位的原始字符图像如图3所示,可以看出,该原始字符图像为负向文本图像,在这种情况下,生成二值笔画图的过程包括:
A)将该原始字符图像进行反色处理,获得正向文本图像如图4所示;
B)采用笔画算子计算生成笔画特征图:
依据公式进行如下计算:
DE d + ( p ) = max i = 1 W - 1 { min { f d ( p - i ) , f d ( p + W - i ) } } - f ( p ) ;
DE d ( p ) = DE d + ( p ) , if DE d + ( p ) > 0 ; 0 , otherwise ;
例如,将p点取作(10,100),方向取水平方向d=2,W=7,获得的6对像素点fd(p-i),fd(p+W-i)分别为(178,69),(196,134),(101,178),(31,115),(8,59),(4,95)取它们的最小值69,134,101,31,8,4,再取它们的最大值为134,减去p点的像素值178,得 DE d + ( p ) = 134 - 178 = - 44 ; DEd(p)=0;其它像素的计算则可以此类推。
然后,提取0,π/4,π/2,3π/4四个方向笔画特征的最大强度值,生成图4的笔画特征图如图5所示。
C)将所述笔画特征图二值化,生成图5的二值笔画图如图6所示。
在实际中,本领域技术人员根据实际需要或经验采用任一种笔画提取的方法都是可行的,本发明对此无需作出限定。
步骤103、针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层图像。
颜色信息在分辨文字和背景时起着重要的作用。在同一文本行内,字符区域通常具有较为均一的颜色,因此,准确地分析出字符像素的颜色及分布,在字符分割过程中十分关键。
按照前述过程获得的二值笔画图中标注了图像中绝大部分的字符区域,把该字符区域映射回原始字符图像,就能够获得大部分可靠的笔画像素,据此则可以对原始字符图像中笔画点的标注区域建立字符的颜色模型。由于颜色建模基于大量真实可靠的笔画像素,通过简单的颜色模型即可达到理想的效果。然后利用字符像素的颜色模型,提取字符像素所在的颜色层,将属于字符颜色层分布区间的像素置黑,其它置白,即可获得颜色层图像。
具体可以通过以下子步骤完成所述步骤103:
子步骤B1、用Gauss分布拟合字符像素颜色的分布,建立字符区域的颜色模型。
计算二值笔画图中字符区域所对应的原始字符图像像素颜色的均值mean和标准差std。若字符颜色均一,则所得std值较小。
可以理解的是,上述Gauss分布建模的方法仅仅用于举例,本领域技术人员采用任一种颜色建模的方法都是可行的,本发明对此不作限制。
子步骤B2、利用字符像素的颜色模型,提取字符像素所在的颜色层。
提取的方法可以为:将颜色处于D=[mean-k·std,mean+k·std]区间的像素点置为字符,其它置为背景。其中,k为系数,一般取值可以为1~2。可以采用以下计算公式表示:
Layer _ img ( p ) = 0 , if Enhance ( p ) ∈ D ; 255 , otherwise ;
例如,针对图6所示的二值笔画图,提取字符区域所在的颜色层图像可以如图7所示。可以看出,通过提取字符区域的颜色层图像,可以将字符区域全部提取出来。
从图7所示的字符颜色层图像中可以看出,在提取字符颜色层时,可能会把那些与字符颜色相近似的背景区域也提取了出来。也就是说,字符颜色层图像中可能包含全部的文字区域以及无法通过颜色信息区分的背景区域。为了去除这部分背景,可以采用改进的连通体分析法对颜色层图像进一步修正,具体可以参考下一方法实施例2相关部分的描述,在此就不赘述了。
参考图8,示出了本发明的一种从视频图像中分割字符的方法实施例2的流程图,具体可以包括以下步骤:
步骤801、在视频图像中定位原始字符图像;
优选的,所述视频图像可以为多帧包含同一文本对象的视频图像,在这种情况下,所述原始字符图像则可以为经过多帧视频图像融合获得的多帧增强图像。
步骤802、从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;
根据所述原始字符图像的极性,可以判定原始字符图像为正向文本图像或负向文本图像,在这种情况下,本步骤可以包括以下子步骤:
子步骤8021a、若所述原始字符图像为正向文本图像,则执行子步骤8023-8024;
子步骤8021b、若所述原始字符图像为负向文本图像,则执行子步骤8022-8024;
子步骤8022、将所述负向文本图像反色处理为正向文本图像;
子步骤8023、在所述正向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成正向笔画特征图;
子步骤8024、对所述正向笔画特征图进行二值化,获得正向二值笔画图。
步骤803、针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层图像;
步骤804、生成所述原始字符图像的笔画掩码图;
在本实施例中,本步骤可以包括以下子步骤:
子步骤8041a、若所述原始字符图像为正向文本图像,则执行子步骤8042-8045;
子步骤8041b、若所述原始字符图像为负向文本图像,则执行子步骤8043-8045;
子步骤8042、将所述正向文本图像反色处理为负向文本图像;
子步骤8043、在所述负向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成负向笔画特征图;
子步骤8044、对所述负向笔画特征图进行二值化,获得负向二值笔画图;
子步骤8045、取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
步骤805、依据所述笔画掩码图去除所述颜色层图像的多余背景。
优选的,本步骤可以通过以下子步骤实现:
子步骤8051、采用种子生长法对所述颜色层图像中、除笔画掩码图掩码以外的区域进行种子填充,获得去除多余背景后的颜色层图像。
可以看出,本实施例通过改进的连通体分析法对颜色层图像进行进一步地修正处理,从而更为有效地保证本发明字符分割的准确性。其中,对于步骤801-803的详细描述可以参考前述方法实施例1的相关部分,在此就不详述了。
现有技术中,采用连通体分析法去除背景的具体做法为:选择文本框边界的点作为种子,使用种子生长法去除与边界相连的连通体,该方法对于质量较好的图像,能够取得较好的效果。然而,如果出现诸如图像对比度很低、字符与背景同色、字符外边缘的边框不封闭等情形,字符颜色层图像中的字符区域会与背景区域发生粘连。即在连通域分析中,种子填充算法会将文字侵蚀。如图9所示,针对9a所示的字符颜色层图像,采用现有的连通体分析法获得的修正图如9b所示,可以看出,9b中的“螺”字由于与背景粘连而导致字符丢失。
可以看出,现有的连通体分析法的局限性在于,必须确保字符与背景不粘连,但对于复杂背景、低分辨率和受噪声干扰的视频图像则难以保证分割的准确性。针对这种局限性,本发明提供了一种改进的连通体分析方法,这种方法可以在执行种子填充算法时有选择性地进行填充,让种子填充算法遇到笔画点即停止,从而充分隔离了字符与背景,有效保护了笔画像素,这种改进的连通体分析法的主要步骤包括:
C1、生成笔画掩码图;
简而言之,生成笔画掩码图的过程为:对原始字符图像和其反色图,经笔画提取得到二值正负笔画图,取所述正负笔画图的并集得到笔画掩码图。可以采用以下计算公式表示:
Mask_img(p)=Stroke+(p)∪Stroke-(p);
例如,参考图10所示的笔画掩码图的生成示意图,其中,图10a为定位的原始字符图像(负向文本图像),图10b为对图10a经笔画算子得到的笔画特征图,图10c为对图10b进行二值化处理得到的负向二值笔画图;图10d为图10a的反色图(正向文本的原始字符图像),图10e为对图10d经笔画算子得到的笔画特征图,图10f为对图10e进行二值化处理得到的正向二值笔画图;图10g为取图10c和图10f的并集得到的笔画掩码图,在图10g中,所示白色区域及其内部区域即为笔画掩码图的掩码区域,也就是受保护的区域,在后续的种子填充中,这部分掩码区域是不受种子点侵蚀的。
C2、带掩码的种子填充;
选择文本框边界的点作为种子,使用种子生长法去除与边界相连的连通体,使用笔画掩码图Mask_img作为掩码,在执行种子填充算法时增加限制,即当前填充点若遇到掩码区域则停止填充。
在掩码保护下采用种子填充法去除背景的结果如图11所示。
由于经过修正的颜色层图像可能会增加一些小噪声,作为另一实施例,在对颜色层图像修正后,还可以包括步骤806:
对所述颜色层图像进行去噪处理。
所谓去噪是指去除图像噪声,现有技术中提供了多种去噪的方法,如均值滤波法、中值滤波法等。对于本发明实施例的小噪声,可以采用颜色约束、笔画尺度约束、分量空间关系约束等方式来去噪,本发明对所述去噪的方法并不作限制。经过小噪声的去除,得到处理的字符分割结果如图12所示。此外,针对9a所示的字符颜色层图像,采用本发明改进的连通体分析法获得的修正图如图13a所示,对图13a进一步去噪获得的字符分割结果图如图13b所示。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
参考图14,示出了本发明的一种从视频图像中分割字符的装置实施例的结构框图,具体可以包括以下:
字符图像定位模块141,用于在视频图像中定位原始字符图像;
笔画提取模块142,用于从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;;
颜色特征处理模块143,用于针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层为图像。
连通体分析模块144,用于生成所述原始字符图像的笔画掩码图,并依据所述笔画掩码图去除所述颜色层图像的多余背景。。
优选的,在本发明实施例中,还可以包括:
去噪模块145,用于对所述颜色层图像进行去噪处理。
在实际中,所述原始字符图像可能为正向文本图像,也可能为负向文本图像,当所述原始字符图像为正向文本图像时,所述笔画提取模块可以触发以下子模块:
正向笔画信息计算子模块,用于在所述正向文本图像中计算预设方向上笔画的强度值;
正向笔画特征图构造子模块,用于提取最大的强度值构成正向笔画特征图;
正向二值化处理子模块,用于对所述正向笔画特征图进行二值化,获得正向二值笔画图。
在这种情况下,所述连通体分析模块可以触发以下子模块:
第一反色处理子模块,用于将所述正向文本图像反色处理为负向文本图像;
负向笔画信息计算子模块,用于在所述负向文本图像中计算预设方向上笔画的强度值;
负向笔画特征图构造子模块,用于提取最大的强度值构成负向笔画特征图;
负向二值化处理子模块,用于对所述负向笔画特征图进行二值化,获得负向二值笔画图;
合并子模块,用于取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
当所述原始字符图像为负向文本图像时,所述笔画提取模块可以触发以下子模块:
第二反色处理子模块,用于将所述负向文本图像反色处理为正向文本图像;
正向笔画信息计算子模块,用于在所述正向文本图像中计算预设方向上笔画的强度值;
正向笔画特征图构造子模块,用于提取最大的强度值构成正向笔画特征图;
正向二值化处理子模块,用于对所述正向笔画特征图进行二值化,获得正向二值笔画图。
在这种情况下,所述连通体分析模块可以触发以下子模块:
负向笔画信息计算子模块,用于在所述负向文本图像中计算预设方向上笔画的强度值;
负向笔画特征图构造子模块,用于提取最大的强度值构成负向笔画特征图;
负向二值化处理子模块,用于对所述负向笔画特征图进行二值化,获得负向二值笔画图;
合并子模块,用于取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
在上述实施例中优选的是,所述连通体分析模块还可以触发以下子模块:
种子填充子模块,用于采用种子生长法对所述颜色层图像中、除笔画掩码图掩码以外的区域进行种子填充,获得修正后的颜色层图像。
在本实施例中,所述视频图像可以为多帧包含同一字符图像的视频图像,在这种情况下,所述原始字符图像可以为经过各帧视频图像融合获得的增强原始字符图像。
应用上述优选的装置实施例从视频图像中分割字符的过程可以包括以下步骤:
步骤D1、字符图像定位模块在视频图像中定位原始字符图像;
步骤D2、笔画提取模块从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;
若所述原始字符图像为正向文本图像,则执行子步骤D22-D24;若所述原始字符图像为负向文本图像,则执行子步骤D21-D24;
子步骤D21、第二反色处理子模块将所述负向文本图像反色处理为正向文本图像;
子步骤D22、正向笔画信息计算子模块在所述正向文本图像中计算预设方向上笔画的强度值;
子步骤D23、正向笔画特征图构造子模块提取最大的强度值构成正向笔画特征图;
子步骤D24、正向二值化处理子模块对所述正向笔画特征图进行二值化,获得正向二值笔画图。
步骤D3、颜色特征处理模块针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层为图像;
步骤D4、连通体分析模块生成所述原始字符图像的笔画掩码图;
若所述原始字符图像为正向文本图像,则执行子步骤D41-D45;若所述原始字符图像为负向文本图像,则执行子步骤D42-D45;
子步骤D41、第一反色处理子模块将所述正向文本图像反色处理为负向文本图像;
子步骤D42、负向笔画信息计算子模块在所述负向文本图像中计算预设方向上笔画的强度值;
子步骤D43、负向笔画特征图构造子模块提取最大的强度值构成负向笔画特征图;
子步骤D44、负向二值化处理子模块对所述负向笔画特征图进行二值化,获得负向二值笔画图;
子步骤D45、合并子模块取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
步骤D5、连通体分析模块模块依据所述笔画掩码图进一步修正所述颜色层图像;
优选的,可以通过种子填充子模块采用种子生长法对所述颜色层图像中、除笔画掩码图掩码以外的区域进行种子填充,获得修正后的颜色层图像。
步骤D6、去噪模块对所述颜色层图像进行去噪处理。
对于装置实施例而言,由于其基本相应于方法实施例,相关之处可以参见方法实施例的部分说明,在此不赘述。此外,在本发明的实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,由于本发明涉及从复杂背景的视频图像中分割出字符,因而部分说明书附图不可避免地出现由于对比度较小而导致不够清晰的问题,而此部分附图又需要在本说明中列举以详细说明本发明的技术特征及技术效果,恳请审查员对此问题例外考虑。
以上对本发明所提供的一种从视频图像中分割字符的方法及一种从视频图像中分割字符的装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种从视频图像中分割字符的方法,其特征在于,包括:
在视频图像中定位原始字符图像;
从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;
针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层图像;
生成所述原始字符图像的笔画掩码图,依据所述笔画掩码图去除所述颜色层图像的多余背景;
所述生成原始字符图像的二值笔画图的步骤进一步包括:
S31、若所述原始字符图像为正向文本图像,则执行步骤S33-S34;若所述原始字符图像为负向文本图像,则执行步骤S32-S34;
S32、将所述负向文本图像反色处理为正向文本图像;
S33、在所述正向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成正向笔画特征图;
S34、对所述正向笔画特征图进行二值化,获得正向二值笔画图;
所述生成原始字符图像的笔画掩码图的步骤进一步包括:
S41、若所述原始字符图像为正向文本图像,则执行步骤S42-S45;若所述原始字符图像为负向文本图像,则执行步骤S43-S45;
S42、将所述正向文本图像反色处理为负向文本图像;
S43、在所述负向文本图像中计算预设方向上笔画的强度值,并提取最大的强度值构成负向笔画特征图;
S44、对所述负向笔画特征图进行二值化,获得负向二值笔画图;
S45、取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
2.如权利要求1所述的方法,其特征在于,还包括:
对所述颜色层图像进行去噪处理。
3.如权利要求1所述的方法,其特征在于,所述依据笔画掩码图去除颜色层图像的多余背景的步骤进一步包括:
采用种子生长法在所述颜色层图像中、除笔画掩码图掩码以外的区域进行种子填充,获得去除多余背景后的颜色层图像。
4.如权利要求1所述的方法,其特征在于,所述视频图像为多帧包含同一文本对象的视频图像,所述原始字符图像为经过多帧视频图像融合获得的多帧增强图像。
5.一种从视频图像中分割字符的装置,其特征在于,包括:
字符图像定位模块,用于在视频图像中定位原始字符图像;
笔画提取模块,用于从所述原始字符图像中抽取字符笔画信息,并二值化所述字符笔画信息,获得所述原始字符图像的二值笔画图;
颜色特征处理模块,用于针对所述二值笔画图中的字符区域建立颜色模型,并依据所述颜色模型提取所述字符区域的颜色层图像;
连通体分析模块,用于生成所述原始字符图像的笔画掩码图,并依据所述笔画掩码图去除所述颜色层图像的多余背景;
若所述原始字符图像为正向文本图像,则所述笔画提取模块触发正向笔画信息计算子模块、正向笔画特征图构造子模块和正向二值化处理子模块;
或者,若所述原始字符图像为负向文本图像,则所述笔画提取模块触发第二反色处理子模块、正向笔画信息计算子模块、正向笔画特征图构造子模块和正向二值化处理子模块;
其中,所述第二反色处理子模块用于将所述负向文本图像反色处理为正向文本图像;所述正向笔画信息计算子模块,用于在所述正向文本图像中计算预设方向上笔画的强度值;所述正向笔画特征图构造子模块,用于提取最大的强度值构成正向笔画特征图;所述正向二值化处理子模块,用于对所述正向笔画特征图进行二值化,获得正向二值笔画图;
若所述原始字符图像为正向文本图像,则所述连通体分析模块触发第一反色处理子模块、负向笔画信息计算子模块、负向笔画特征图构造子模块、负向二值化处理子模块和合并子模块;
或者,若所述原始字符图像为负向文本图像,则所述连通体分析模块触发负向笔画信息计算子模块、负向笔画特征图构造子模块、负向二值化处理子模块和合并子模块;
其中,所述第一反色处理子模块用于将所述正向文本图像反色处理为负向文本图像;所述负向笔画信息计算子模块,用于在所述负向文本图像中计算预设方向上笔画的强度值;所述负向笔画特征图构造子模块,用于提取最大的强度值构成负向笔画特征图;所述负向二值化处理子模块用于对所述负向笔画特征图进行二值化,获得负向二值笔画图;所述合并子模块用于取所述正向二值笔画图和负向二值笔画图的并集为笔画掩码图。
6.如权利要求5所述的装置,其特征在于,还包括:
去噪模块,用于对所述颜色层图像进行去噪处理。
CN2008101143191A 2008-06-03 2008-06-03 一种从视频图像中分割字符的方法和装置 Expired - Fee Related CN101599124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101143191A CN101599124B (zh) 2008-06-03 2008-06-03 一种从视频图像中分割字符的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101143191A CN101599124B (zh) 2008-06-03 2008-06-03 一种从视频图像中分割字符的方法和装置

Publications (2)

Publication Number Publication Date
CN101599124A CN101599124A (zh) 2009-12-09
CN101599124B true CN101599124B (zh) 2011-06-22

Family

ID=41420565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101143191A Expired - Fee Related CN101599124B (zh) 2008-06-03 2008-06-03 一种从视频图像中分割字符的方法和装置

Country Status (1)

Country Link
CN (1) CN101599124B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799930B (zh) * 2009-02-11 2012-06-13 富士通株式会社 指定颜色层提取设备和方法
CN101719142B (zh) * 2009-12-10 2011-11-30 湖南大学 基于分类字典的稀疏表示图片文字检测方法
CN102193918B (zh) * 2010-03-01 2014-02-12 汉王科技股份有限公司 视频检索方法和装置
CN102043948A (zh) * 2010-12-24 2011-05-04 汉王科技股份有限公司 一种视频文本分割方法
CN102169413A (zh) * 2011-03-30 2011-08-31 黄冬明 基于视频流图像获得字符笔划线条的装置及方法
US9418304B2 (en) 2011-06-29 2016-08-16 Qualcomm Incorporated System and method for recognizing text information in object
CN102270340B (zh) * 2011-09-05 2014-09-17 上海盛轩网络科技有限公司 基于笔画算子的文本图像增强方法及系统
CN103493067B (zh) * 2011-12-26 2018-01-02 华为技术有限公司 识别视频的字符的方法和装置
CN102915438B (zh) * 2012-08-21 2016-11-23 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN103793150B (zh) * 2012-10-31 2017-08-25 腾讯科技(深圳)有限公司 图像选择方法和系统
CN103903275B (zh) * 2014-04-23 2017-02-22 贵州大学 利用小波融合算法改进图像分割效果的方法
CN104766076B (zh) * 2015-02-28 2019-01-01 北京奇艺世纪科技有限公司 一种视频图像文字的检测方法和装置
CN105447489B (zh) * 2015-11-13 2018-11-16 浙江传媒学院 一种图片ocr识别系统的字符与背景粘连噪声消除方法
CN106845473B (zh) * 2015-12-03 2020-06-02 富士通株式会社 用于确定图像是否为带地址信息的图像的方法和装置
CN107341487B (zh) * 2016-04-28 2021-05-04 科大讯飞股份有限公司 一种涂抹字符的检测方法及系统
CN110533049B (zh) * 2018-05-23 2023-05-02 富士通株式会社 提取印章图像的方法和装置
CN109214999B (zh) * 2018-09-21 2021-01-22 阿里巴巴(中国)有限公司 一种视频字幕的消除方法及装置
CN111027556B (zh) * 2019-03-11 2023-12-22 广东小天才科技有限公司 一种基于图像预处理的搜题方法及学习设备
CN109977959B (zh) * 2019-03-29 2021-07-06 国家电网有限公司 一种火车票字符区域分割方法及装置
CN110222753B (zh) * 2019-05-28 2022-07-29 北京金山数字娱乐科技有限公司 字符识别验证方法、系统、计算机设备、存储介质和芯片

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363911A (zh) * 2001-01-11 2002-08-14 富士通株式会社 图象处理设备和由一个多级图象产生二进制图象的方法
CN1588431A (zh) * 2004-07-02 2005-03-02 清华大学 基于游程邻接图的复杂背景彩色图像中字符提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363911A (zh) * 2001-01-11 2002-08-14 富士通株式会社 图象处理设备和由一个多级图象产生二进制图象的方法
CN1588431A (zh) * 2004-07-02 2005-03-02 清华大学 基于游程邻接图的复杂背景彩色图像中字符提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2002-230483A 2002.08.16

Also Published As

Publication number Publication date
CN101599124A (zh) 2009-12-09

Similar Documents

Publication Publication Date Title
CN101599124B (zh) 一种从视频图像中分割字符的方法和装置
US10817717B2 (en) Method and device for parsing table in document image
US8608073B2 (en) System and method for robust real-time 1D barcode detection
CN110390666B (zh) 道路损伤检测方法、装置、计算机设备及存储介质
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
Dang et al. Utilizing text recognition for the defects extraction in sewers CCTV inspection videos
Yang et al. A framework for improved video text detection and recognition
CN103208004A (zh) 票据信息区域自动识别和提取方法及设备
CN110119741A (zh) 一种有背景的卡证图像信息识别方法
Ishikura et al. Saliency detection based on multiscale extrema of local perceptual color differences
US9558403B2 (en) Chemical structure recognition tool
CN104484643A (zh) 一种手写表格的智能识别方法及系统
WO2021047484A1 (zh) 文字识别方法和终端设备
CN108876795A (zh) 一种图像中物体的分割方法及系统
WO2017008031A1 (en) Realtime object measurement
CN116110036B (zh) 基于机器视觉的电力铭牌信息缺陷等级判断方法及装置
CN112818952A (zh) 煤岩分界线的识别方法、装置及电子设备
Wu et al. Contour restoration of text components for recognition in video/scene images
Kumar An efficient text extraction algorithm in complex images
CN114067339A (zh) 图像识别方法及其装置、电子设备、计算机可读存储介质
Holtzman-Gazit et al. Salient edges: A multi scale approach
Giri Text information extraction and analysis from images using digital image processing techniques
Sui et al. ECGAN: An improved conditional generative adversarial network with edge detection to augment limited training data for the classification of remote sensing images with high spatial resolution
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
EP3985527A1 (en) Processing digitized handwriting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110622

Termination date: 20170603