CN102446274A - 带有下划线的文本图像预处理方法和装置 - Google Patents

带有下划线的文本图像预处理方法和装置 Download PDF

Info

Publication number
CN102446274A
CN102446274A CN2010102992037A CN201010299203A CN102446274A CN 102446274 A CN102446274 A CN 102446274A CN 2010102992037 A CN2010102992037 A CN 2010102992037A CN 201010299203 A CN201010299203 A CN 201010299203A CN 102446274 A CN102446274 A CN 102446274A
Authority
CN
China
Prior art keywords
underscore
zone
swimming
distance
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102992037A
Other languages
English (en)
Other versions
CN102446274B (zh
Inventor
万鑫
刘正珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201010299203.7A priority Critical patent/CN102446274B/zh
Publication of CN102446274A publication Critical patent/CN102446274A/zh
Application granted granted Critical
Publication of CN102446274B publication Critical patent/CN102446274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种带有下划线的文本图像预处理方法和装置,涉及光学字符识别领域。包括:获取文本图像中的各文字行位置;根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中如果存在下划线,则定位下划线的初始上边界的位置;以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。本发明根据各文字行位置采用游程查找方法在各文字行中进行查找,解决了带下划线尤其是与字符粘连的下划线的文本难以识别的问题,提高了字符的识别率,使得识别核心的适应性更强。

Description

带有下划线的文本图像预处理方法和装置
技术领域
本发明属于光学字符识别(OCR)领域,涉及一种带有下划线的文本图像预处理方法和装置。
背景技术
在印刷体字符识别中,一般处理流程是:首先将文本图像划分成若干行,使得每一文字行仅包含单行文字;然后进一步进行字符切分、识别。
若是字符下方存在下划线,不仅会影响字符正常的切分,也会造成字符识别引擎无法正确识别相应的字符。因此,通常需要在字符切分、识别前,去除字符下方的下划线。
在现有技术中,通常采用简单的直线检测方法(如Hough变换等),如果检测到字符图像下方有较长直线,则将直线所在的行区域内的图像删除。
该方法对于与字符分离的下划线有效,但是对于字符与下划线粘连情况,可能出现无法正确定位到直线、或是将字符与下划线粘连部分删除掉的情况,影响字符正确识别,降低了字符的识别率和识别核心的适应性。
因此,需要提供一种有效的文本图像识别中的字符下划线处理的方法,有效判断、去除字符下方的下划线,并完整保留字符的笔画,保障字符切分与识别的正常进行。
发明内容
本发明所要解决的技术问题是提供一种带有下划线的文本图像预处理方法和装置,从下划线区域中分离字符的笔画区域,进而将下划线中的前景信息删除。
本发明公开了一种带有下划线的文本图像预处理方法,包括以下步骤:
步骤1:获取文本图像中的各文字行位置;
步骤2:根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中是否存在下划线,如果存在下划线则定位下划线的初始上边界的位置,进入步骤3;否则结束下划线处理流程;
步骤3:以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;
步骤4:将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。
所述步骤2中采用游程查找方法在各文字行中进行查找时,在预设的文字行范围内逐像素行查找游程,若游程的长度大于游程阈值,则判定文本行中存在下划线。
所述预设的文字行范围为文字行的下半部。
所述游程阈值在文本行高度的2倍及以上。
所述步骤3中采用游程查找与连通域分析的方法对下划线区域进行定位时,以下划线的初始上边界为起始像素行精确定位下划线的上边界,对于上边界以上的区域进行连通域分析;对于上边界以下区域,从上至下逐像素行查找与下划线粘连的游程,将与笔画粘连的游程与字符区域进行分离。
所述步骤3包括如下步骤:
步骤3.1:以下划线的初始上边界为起始位置,向上逐像素行搜索与上边界粘连的游程,若有长度大于既定阈值的游程,则将上一行作为下划线的上边界,并继续以上边界为起始位置向上一像素行继续搜索;否则将最后一个长度大于既定阈值的游程所在的像素行作为下划线的上边界;
步骤3.2:在文字行中对下划线上边界上方区域进行连通域分析,根据连通域与下划线的位置关系将连通域分为独立字符区域、粘连字符主体区域和毛刺区域,并将毛刺区域标记为待删除区域;
步骤3.3:以下划线上边界为起始像素行,结合粘连字符主体区域从上至下逐像素行进行游程查找分析,从中分离字符区域,同时定位下划线区域;将下划线区域标记为待删除区域。
所述连通域结构包括连通域的高度等信息。
所述既定阈值为文字行行高的1/4-1/2。
所述独立字符区域为与下划线不粘连的连通域。
所述粘连字符主体区域为与下划线粘连、且高度大于高度阈值的连通域。
所述毛刺区域为与下划线粘连且高度不大于高度阈值的连通域。
所述高度阈值一般不大于文字行行高的1/10。
本发明还公开了一种带有下划线的文本图像预处理装置,包括以下模块,
获取模块:获取文本图像中的各文字行位置;
定位模块:根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中是否存在下划线,如果存在下划线则定位下划线的初始上边界的位置;
第二定位模块:以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;
处理模块:将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。
本发明一种带有下划线的文本图像预处理方法和装置,根据各文字行位置采用游程查找方法在各文字行中进行查找,在分离文本图像中的下划线同时有效保留字符信息,将待删除区域中的前景信息置为背景,解决了带下划线尤其是与字符粘连的下划线的文本难以识别的问题,提高了字符的识别率,使得识别核心的适应性更强。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种带有下划线的文本图像预处理方法的系统流程图;
图2为本发明实施例中带有下划线的单行文本行图像;
图3为本发明实施例中下划线上边界示意图;
图4为本发明实施例中局部放大图上的下划线上边界示意图;
图5为本发明实施例中与下划线粘连字符的示意图;
图6为本发明实施例中步骤3的流程图;
图7为本发明实施例中下划线的上边界以上区域连通域示意图;
图8为本发明实施例中粘连字符主体区域和无效区域的示意图;
图9a、图9b、图9c和图9d为本发明实施例中相邻像素行中的游程相对位置关系示意图;
图10为本发明实施例中字符‘g’的截取后的放大图像;
图11为本发明实施例中字符‘g’的下划线区域处理示意图;
图12为本发明实施例中字符‘g’的下划线区域处理结果示意图;
图13为本发明实施例中去除下划线得到的文字行图像。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图并以英文文字行字符下划线处理为例,对本发明带有下划线的文本图像预处理方法进行详细说明。
如图1所示,同时参考图2,本发明带有下划线的文本图像预处理方法的一个具体实施例,包括以下步骤:
步骤一:接收文字行图像,获取在图像中的位置信息。
如前所述,以图2接收到的黑白文字图像为例,图像中,前景(文字)区域和背景(空白)区域已经被不同颜色的像素区分开。本图像中黑色像素代表前景,白色像素代表背景。在其他实施例中,也可以以白色代表前景、黑色代表背景。前景中包含了图像的有效信息。
步骤二:下划线初判断:根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中如果存在下划线,则定位下划线的初始上边界的位置。本步骤目的在于确定文字行中是否存在下划线,若存在则初步定位下划线,并进入步骤三操作,否则结束下划线处理流程。
在本步骤中,采用游程查找方法在各文字行中进行查找,初步定位下划线的初始上边界的位置。下划线特征是比较长,且一般在文字行的下半部,因此一旦在文字行下半部存在游程长度大于既定的游程阈值T0,则该文字行中可能存在下划线。
在本实施例中,预设的文字行范围为文字行高的2/3处。在文字行高的2/3处向下逐像素行查找前景区域中的游程,若存在游程长度大于既定的游程阈值T0,则判定该文字行中存在下划线,并将查找到的游程所在像素行作为下划线的初始上边界。
在本实施例中,游程阈值T0设置为文本行高度的2倍,即认为字符下划线的长度应该不小于文字行高的2倍。图2中文字行像素高度H=48,则阈值T0=96。从上至下从文字行高的2/3处搜索图像前景游程,第一条满足条件的游程长度为137,则该游程所在像素行为初步定位下划线的初始上边界。
标记下划线的初始上边界中所有的游程,如图3中黑色标记。图4为图2的局部放大图,即将图2图像中的单词‘game’所在区域放大,其中网格的每一块对应一个像素点区域,在该放大图像中黑色游程所在像素行为下划线的初始上边界,黑色游程为下划线初始区域。
步骤三:下划线查找:以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域。本步骤目的在于详细定位下划线所在区域,处理与下划线粘连的字符区域,将字符区域与下划线完整分离。
在英文字符中,通常字符‘g’、‘j’、‘p’、‘q’和‘y’会经常与下划线粘连,此外,符号如‘(’、‘)’、‘[’、‘]’、‘{’、‘}’和‘,’也可能与下划线粘连。这些字符和符号与下划线粘连时,粘连的位置在字符底部或接近字符底部;与下划线存在交叠的笔画比较小。可以认为文字行中上边界以上的部分仅包含字符,上边界以下的部分包含下划线以及少量与下划线粘连的笔画。图5为图2中与下划线粘连字符的示意图,其中:字符区域用灰色表示;下划线区域用浅灰色表示;箭头指向的深灰色区域为字符与下划线粘连的部分,称之为交叠区域。交叠区域既属于下划线区域又属于文字区域。为保证后续字符识别的正确,必须保证字符区域完整,同时非字符区域内的下划线被完全清除。
为保留字符区域的完整同时有效清除下划线区域,本发明采用的方法首先定位出下划线的上边界,上边界以下的区域为下划线区域,包含下划线以及字符的笔画区域;对于下划线的上边界以上的区域进行连通域分析,分别定位独立字符区域、粘连字符主体区域和毛刺区域。对于上边界以下的区域,根据粘连字符主体区域与下划线粘连的特点,从上至下逐像素行查找与下划线粘连的游程,将与笔画粘连的游程与字符区域进行分离。
所述步骤3包括如下步骤,如图6所示:
步骤31定位下划线上边界:以下划线的初始上边界为起始位置,向上逐像素行搜索与上边界粘连的游程的长度是否大于既定阈值T1。既定阈值T1用于判断下划线粘连的游程是否为下划线的一部分,从而避免将与下划线粘连的笔画判断为下划线的一部分;由于字符的笔画在与下划线粘连处的笔画宽度一般比较小。既定阈值T1为文字行行高的1/4-1/2,本实施例中,既定阈值T1取值为行高的1/3。
在实际图像中,下划线通常存在轻微的弯曲、毛刺等等。步骤二中下划线初始上边界上方可能存在少量下划线区域,存在较长的与下划线的初始上边界粘连的游程。
若像素行中有大于既定阈值T1的游程则将该像素行的上一像素行作为下划线的上边界,并继续以上边界为起始位置向上一像素行继续搜索;否则将则将最后一个长度大于既定阈值T1的游程所在的像素行作为下划线的上边界。
本实施例中,既定阈值T1=H/3=16。由于上一像素行中没有长度大于既定阈值T1的游程,因此,下划线上边界不变。
步骤32处理下划线上边界以上的区域:在文字行中对下划线上边界的上方区域进行连通域分析,并根据连通域与下划线的位置关系将连通域分为:独立字符区域、粘连字符主体区域和毛刺区域。将毛刺区域标记为待删除区域。
其中,所述独立字符区域为与下划线不粘连的连通域;粘连字符主体区域为与下划线粘连、且连通域高度大于高度阈值Th0的连通域;毛刺区域为与下划线粘连、且连通域高度不大于高度阈值Th0的连通域。
所述高度阈值Th0用于判断下划线中的毛刺状连通域。下划线中毛刺状连通域的高度非常小。在本实施例中,高度阈值Th0为文字行高的1/15,即在下划线的上边界的上方,将与下划线的上边界所在像素行中的游程粘连且高度小于文字行高度的1/15的连通域记为毛刺区域。
结合图7对连通域分类进行说明。图7为图2的局部放大图,黑色游程为下划线的上边界,高度阈值Th0=H/15=3。下划线的上边界以上区域中包含9个连通域(标记为0-8),连通域通过虚线框进行了标记,其中:BlockTypel为粘连字符主体区域(连通域7,与下划线粘连、连通域高度为11>Th0);BlockType2为毛刺区域(与下划线粘连、连通域的高度为1<Th0);BlockType3为独立字符区域(与下划线不粘连的连通域,连通域0-6均为此类)。
图8所示为经过步骤32处理后,与粘连字符主体区域和毛刺区域的示意图,标记为灰色,黑色为下划线的上边界中所有的游程。在本实施例中,共有8个粘连字符主体区域,两个高度为1的毛刺区域(图8虚线框标记处)。将毛刺区域标记为待删除区域。
步骤33字符区域分离与下划线查找定位:以下划线上边界为起始像素行,结合粘连字符主体区域,从上至下逐像素行进行游程查找分析,从中分离字符区域,同时定位下划线区域;将下划线区域标记为待删除区域。游程查找分析时,查找与下划线粘连的游程,分析其中与字符区域粘连的部分,进行字符区域分离,并标记下划线。
相邻像素行中的游程相对位置关系见图9a至图9d所示:图9a为两游程不粘连的示意图;图9b至图9d为粘连游程的示意图,其中箭头标记的范围是下面的游程相对于上面的游程在竖直方向上交叠的部分。
由于字符与下划线的粘连,在下划线区域内可能包含有字符的部分区域,需要将这一部分字符区域与下划线分离,以保证字符的完整。这一部分字符区域的特点是:与粘连字符主体区域粘连且与下划线交叠部分的宽度较小。
以下划线上边界为初始像素行(记为第i=0像素行),至上而下逐像素行进行游程分析,并根据粘连字符主体区域与游程的粘连情况,分离字符游程和定位下划线游程,以实现字符区域与下划线区域的分离。具体步骤为:
步骤33-1查找当前像素行i中的游程,若当前像素行中没有游程,则进入步骤33-5;
步骤33-2分离当前像素行i中的字符区域:逐一分析当前像素行中的游程与上一像素行中的游程的位置关系。若存在游程与上一像素行中的字符游程粘连,则说明该游程中包含字符区域,将该游程为第记为RLij(像素行i中的第j个游程),上一像素行中与之粘连的字符游程记为RL(i-1)k(像素行i-1中的第k个游程);已经分析得知游程在像素行中的起点
Figure BDA0000027635870000091
与终点
Figure BDA0000027635870000092
则根据游程长度进行字符游程提取与标记:
若游程RLij长度小于等于既定阈值T2,则判定该游程全部为字符游程;
所述既定阈值T2用于判断游程中是否存在非交叠的下划线区域。根据英文字符的书写规范的经验值,与下划线粘连的字符的宽度一般不会大于字符高度的1/2,通常字符高度也达不到文字行高的2/3。因此,在本实施例中,既定阈值T2取值为行高的1/3。
若游程RLij长度
Figure BDA0000027635870000101
大于既定阈值T2,即该游程RLij大于字符的宽度,则说明该游程RLij既包含字符区域同时又包含非交叠的下划线区域,需要进行字符区域与下划线区域的分离。从图5的粘连字符示意图中可知,交叠区域的特点是:字符笔画竖直或接近竖直地穿过下划线区域。因此可以根据已经判断出来的字符区域来预测当前游程中的字符区域。本实施例中,将游程RLij与上一像素行的游程RL(i-1)k在竖直方向上交叠的部分标记为字符游程。
步骤33-3查找当前像素行中的下划线区域:逐一分析当前像素行中非图像游程,这些游程为非交叠区域的下划线游程,标记为下划线游程,并记录为待删除区域;
步骤33-4若当前像素行为文字行的最后一像素行,则结束下划线标记;否则,将下一像素行作为当前行,重复步骤33-1至步骤33-4。
以本实施例字符‘g’的处理为例,对字符区域分离与下划线查找定位进行详述。图10为局部放大示意图,图像中灰色区域为粘连字符主体区域。既定阈值T2=H/3=16。以下划线上边界为初始像素行(记为第i=0像素行),至上而下逐像素行进行游程分析。当i=0时,当前行中有两条游程记为RL00(起点
Figure BDA0000027635870000102
终点游程长度
Figure BDA0000027635870000104
RL01(起点
Figure BDA0000027635870000105
终点
Figure BDA0000027635870000106
游程长度
Figure BDA0000027635870000107
对于游程RL00,在i-1行中,有一个字符游程与之粘连,记为RL-10(起点
Figure BDA0000027635870000108
终点
Figure BDA0000027635870000109
游程长度
Figure BDA00000276358700001010
RL-10为粘连字符主体区域中的游程,即字符游程;由于
Figure BDA00000276358700001011
则游程RL00标记为字符游程;对于游程RL01,在i-1行中,有一个字符游程与之粘连,记为RL-11(起点
Figure BDA00000276358700001012
终点
Figure BDA00000276358700001013
游程长度
Figure BDA00000276358700001014
RL-11为粘连字符主体区域中的游程即字符游程由于LRL1>T2,则进一步分离游程RL01中的字符游程:将游程RL01与上一像素行的游程RL-11在竖直方向上交叠的部分标记为字符游程;将该行中非字符游程标记为下划线游程。标记结果见图11,该行中的图像游程标记为灰色,下划线游程用‘×’标记。
以同样的方式继续处理下一行,直至无游程的像素行终止。处理结果见图12所示,灰色为由图像游程组成的图像区域,下划线区域由下划线游程组成(用‘×’标记)。
步骤四:将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。删除所有待删除区域中的前景像素,得到字符区域部门清除了下划线的文字行图像。最终下划线处理结果如图13所示。
本发明公开了一种带有下划线的文本图像预处理装置,包括以下模块,
获取模块:获取文本图像中的各文字行位置;
定位模块:根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中如果存在下划线,则定位下划线的初始上边界的位置;
第二定位模块:以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;
处理模块:将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。
本发明提供的带有下划线的文本图像预处理方法和装置,将下划线查找处理分为两部分进行,即:下划线定位和字符与下划线区域的分离。该方法能有效分离文字下方的下划线,对存在毛刺、噪声的下划线均有效;同时保留与下划线粘连的字符的完整性,使与下划线粘连的字符识别不受影响。该方法同样适用于东方语言(如中文、日文)、以及西方语言(俄文、西欧文字)等。

Claims (12)

1.一种带有下划线的文本图像预处理方法,其特征在于:包括以下步骤,
步骤1:获取文本图像中的各文字行位置;
步骤2:根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中是否存在下划线,如果存在下划线则定位下划线的初始上边界的位置;
步骤3:以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;
步骤4:将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。
2.根据权利要求1所述的方法,其特征在于:所述步骤2中采用游程查找方法在各文字行中进行查找时,在预设的文字行范围内逐像素行查找游程,若游程的长度大于游程阈值,则判定文本行中存在下划线。
3.根据权利要求2所述的方法,其特征在于:所述预设的文字行范围为文字行的下半部。
4.根据权利要求2所述的方法,其特征在于:所述游程阈值为文本行高度的2倍及以上。
5.根据权利要求1所述的方法,其特征在于:所述步骤3中采用游程查找与连通域分析的方法对下划线区域进行定位时,以下划线的初始上边界为起始像素行精确定位下划线的上边界,对于上边界以上的区域进行连通域分析;对于上边界以下区域,从上至下逐像素行查找与下划线粘连的游程,将与笔画粘连的游程与字符区域进行分离。
6.根据权利要求5所述的方法,其特征在于:所述步骤3包括如下步骤:
步骤3.1:以下划线的初始上边界为起始位置,向上逐像素行搜索与上边界粘连的游程,若有长度大于既定阈值的游程,则将上一行作为下划线的上边界,并继续以上边界为起始位置向上一像素行继续搜索;否则将最后一个长度大于既定阈值的游程所在的像素行作为下划线的上边界;
步骤3.2:在文字行中对下划线上边界上方区域进行连通域分析,根据连通域与下划线的位置关系将连通域分为独立字符区域、粘连字符主体区域和毛刺区域,并将毛刺区域标记为待删除区域;
步骤3.3:以下划线上边界为起始像素行,结合粘连字符主体区域从上至下逐像素行进行游程查找分析,从中分离字符区域,同时定位下划线区域;将下划线区域标记为待删除区域。
7.根据权利要求6所述的方法,其特征在于:所述既定阈值为文字行行高的1/4-1/2。
8.根据权利要求6所述的方法,其特征在于:所述独立字符区域为与下划线不粘连的连通域。
9.根据权利要求6所述的方法,其特征在于:所述粘连字符主体区域为与下划线粘连、且高度大于高度阈值的连通域。
10.根据权利要求6所述的方法,其特征在于:所述毛刺区域为与下划线粘连且高度不大于高度阈值的连通域。
11.根据权利要求9或10所述的方法,其特征在于:所述高度阈值一般不大于文字行行高的1/10。
12.一种带有下划线的文本图像预处理装置,其特征在于:包括,
获取模块:获取文本图像中的各文字行位置;
定位模块:根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中是否存在下划线,如果存在下划线则定位下划线的初始上边界的位置;
第二定位模块:以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;
处理模块:将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。
CN201010299203.7A 2010-09-30 2010-09-30 带有下划线的文本图像预处理方法和装置 Active CN102446274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010299203.7A CN102446274B (zh) 2010-09-30 2010-09-30 带有下划线的文本图像预处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010299203.7A CN102446274B (zh) 2010-09-30 2010-09-30 带有下划线的文本图像预处理方法和装置

Publications (2)

Publication Number Publication Date
CN102446274A true CN102446274A (zh) 2012-05-09
CN102446274B CN102446274B (zh) 2014-04-16

Family

ID=46008763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010299203.7A Active CN102446274B (zh) 2010-09-30 2010-09-30 带有下划线的文本图像预处理方法和装置

Country Status (1)

Country Link
CN (1) CN102446274B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295008A (zh) * 2013-05-22 2013-09-11 华为终端有限公司 一种文字识别方法及用户终端
CN104376318A (zh) * 2013-08-15 2015-02-25 柯尼卡美能达美国研究所有限公司 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线
CN106708910A (zh) * 2015-11-18 2017-05-24 北大方正集团有限公司 划线题目处理方法和装置
CN107346580A (zh) * 2016-05-05 2017-11-14 腾讯科技(深圳)有限公司 票据信息识别方法及装置
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN108810265A (zh) * 2018-05-30 2018-11-13 珠海格力电器股份有限公司 一种终端的文本标记方法及装置
CN109409180A (zh) * 2017-08-16 2019-03-01 富士施乐株式会社 图像分析装置和图像分析方法
CN110413964A (zh) * 2019-07-22 2019-11-05 东莞市中泰模具股份有限公司 一种使模具刻字符转成可编辑文本的方法及计算机可读存储介质
CN110880002A (zh) * 2018-09-06 2020-03-13 深圳怡化电脑股份有限公司 账号污损去除方法、设备及计算机可读存储介质
CN111401352A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 文本图片下划线识别方法、装置、计算机设备及存储介质
CN113435166A (zh) * 2021-06-09 2021-09-24 深圳市世强元件网络有限公司 一种加下划线方法和系统、计算机装置、可读存储介质
CN113449729A (zh) * 2020-03-26 2021-09-28 富士通株式会社 用于消除线的图像处理装置、图像处理方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4292622A (en) * 1980-02-21 1981-09-29 Hendrix Electronics, Inc. System and method for processing horizontal line characteristics in an image
JPH09297814A (ja) * 1996-04-30 1997-11-18 Nippon Telegr & Teleph Corp <Ntt> フィールド抽出方法
CN1588431A (zh) * 2004-07-02 2005-03-02 清华大学 基于游程邻接图的复杂背景彩色图像中字符提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4292622A (en) * 1980-02-21 1981-09-29 Hendrix Electronics, Inc. System and method for processing horizontal line characteristics in an image
JPH09297814A (ja) * 1996-04-30 1997-11-18 Nippon Telegr & Teleph Corp <Ntt> フィールド抽出方法
CN1588431A (zh) * 2004-07-02 2005-03-02 清华大学 基于游程邻接图的复杂背景彩色图像中字符提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHEN-LONG BAI ETC.: "Underline Detection and Removal in a Document Image Using Multiple Strategies", 《PROCEEDINGS OF THE 17TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 *
李艳霞等: "基于距离加权的自适应字线分离算法", 《计算机工程》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295008B (zh) * 2013-05-22 2017-04-05 华为终端有限公司 一种文字识别方法及用户终端
CN107066999A (zh) * 2013-05-22 2017-08-18 华为终端有限公司 一种文字识别方法及用户终端
CN103295008A (zh) * 2013-05-22 2013-09-11 华为终端有限公司 一种文字识别方法及用户终端
CN104376318B (zh) * 2013-08-15 2017-12-29 柯尼卡美能达美国研究所有限公司 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线
CN104376318A (zh) * 2013-08-15 2015-02-25 柯尼卡美能达美国研究所有限公司 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线
CN106708910A (zh) * 2015-11-18 2017-05-24 北大方正集团有限公司 划线题目处理方法和装置
CN107346580B (zh) * 2016-05-05 2019-11-05 腾讯科技(深圳)有限公司 票据信息识别方法及装置
CN107346580A (zh) * 2016-05-05 2017-11-14 腾讯科技(深圳)有限公司 票据信息识别方法及装置
CN109409180A (zh) * 2017-08-16 2019-03-01 富士施乐株式会社 图像分析装置和图像分析方法
CN109409180B (zh) * 2017-08-16 2023-08-18 富士胶片商业创新有限公司 图像分析装置和图像分析方法
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN108810265A (zh) * 2018-05-30 2018-11-13 珠海格力电器股份有限公司 一种终端的文本标记方法及装置
CN110880002A (zh) * 2018-09-06 2020-03-13 深圳怡化电脑股份有限公司 账号污损去除方法、设备及计算机可读存储介质
CN110413964B (zh) * 2019-07-22 2023-04-18 广东中泰工业科技股份有限公司 一种使模具刻字符转成可编辑文本的方法及计算机可读存储介质
CN110413964A (zh) * 2019-07-22 2019-11-05 东莞市中泰模具股份有限公司 一种使模具刻字符转成可编辑文本的方法及计算机可读存储介质
CN111401352A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 文本图片下划线识别方法、装置、计算机设备及存储介质
CN111401352B (zh) * 2020-03-13 2023-10-20 深圳前海环融联易信息科技服务有限公司 文本图片下划线识别方法、装置、计算机设备及存储介质
CN113449729A (zh) * 2020-03-26 2021-09-28 富士通株式会社 用于消除线的图像处理装置、图像处理方法及存储介质
CN113435166A (zh) * 2021-06-09 2021-09-24 深圳市世强元件网络有限公司 一种加下划线方法和系统、计算机装置、可读存储介质
CN113435166B (zh) * 2021-06-09 2024-03-19 深圳市世强元件网络有限公司 一种加下划线方法和系统、计算机装置、可读存储介质

Also Published As

Publication number Publication date
CN102446274B (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN102446274B (zh) 带有下划线的文本图像预处理方法和装置
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
CN102169542B (zh) 文字识别中粘连字符的切分方法和装置
CN105760901B (zh) 一种多语种倾斜文档图像的自动语言判别方法
CN105787524A (zh) 基于OpenCV的车牌识别方法及系统
CN101855640B (zh) 尤其是用于移动无线设备的图像分析方法
Omran et al. Iraqi car license plate recognition using OCR
CN101515325A (zh) 基于字符切分和颜色聚类的数字视频中的字符提取方法
KR20130105952A (ko) 차량 번호판 인식 방법과 그 장치
CN109325401A (zh) 基于边缘定位对题目区域进行标注、识别的方法及系统
CN102663378A (zh) 连笔手写字符的识别方法
KR20150125863A (ko) 연안에서의 객체 인식 장치 및 그 방법
KR101480220B1 (ko) 객체 인식 장치 및 그 방법
US20050123199A1 (en) Method for optical recognition of a multi-language set of letters with diacritics
Lin et al. Automatic vehicle license plate recognition system for smart transportation
CN107730511B (zh) 一种基于基线估计的藏文历史文献文本行切分方法
CN102314608A (zh) 文字图像中行提取的方法和装置
Abu-Ain et al. A novel baseline detection method of handwritten Arabic-script documents based on sub-words
Shahed et al. Automatic Bengali number plate reader
CN114581932A (zh) 一种图片表格线提取模型构建方法及图片表格提取方法
CN109284678A (zh) 路牌语义识别方法及系统
Chang Intelligent text detection and extraction from natural scene images
CN110046618B (zh) 基于机器学习和最大极值稳定区域的车牌识别方法
Song et al. A robust statistic method for classifying color polarity of video text
Saunshi et al. License plate recognition using convolutional neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant