CN102236638B - 西文单词中字符大小写的修正方法和装置 - Google Patents

西文单词中字符大小写的修正方法和装置 Download PDF

Info

Publication number
CN102236638B
CN102236638B CN201010160729.7A CN201010160729A CN102236638B CN 102236638 B CN102236638 B CN 102236638B CN 201010160729 A CN201010160729 A CN 201010160729A CN 102236638 B CN102236638 B CN 102236638B
Authority
CN
China
Prior art keywords
character
baseline
attribute
word
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010160729.7A
Other languages
English (en)
Other versions
CN102236638A (zh
Inventor
万鑫
刘正珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201010160729.7A priority Critical patent/CN102236638B/zh
Publication of CN102236638A publication Critical patent/CN102236638A/zh
Application granted granted Critical
Publication of CN102236638B publication Critical patent/CN102236638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种西文单词中字符大小写的修正方法和装置,属于文字处理领域。方法包括以下步骤:获取目标文本的字符的识别结果和字符在图像中的位置;根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息;根据单词的基线信息确定字符的基线属性,将字符的基线属性进行修正后输出识别结果。本方法有效地处理了不符合一般书写规范、或是无法简单统计得到基线的单词,对于单词行出现扭曲情况下得到字符的基线属性经统计后能够有效处理判断字符的大小写,具有良好的自适应性,使单词的识别率大大提高。

Description

西文单词中字符大小写的修正方法和装置
技术领域
本发明属于文字处理领域,涉及一种字符的修正方法和装置,特别涉及一种西文字符大小写的修正方法和装置。 
背景技术
在西文字符的识别中,例如英文字符、德文字符等,由于字符集中部分字母在基线中位置不相同,而字形极其相似或是完全相同,所以无法通过字符识别的方式完全进行区分。通常的方式为在初步对西文字符进行识别后,再对该字符的基线位置进行判断,从而得到正确的识别结果,修正西文字符大小写。 
通常有两种方式确定单词中的字符大小写: 
方式一:根据语言的书写规则及语法规范处理字符。在文档中基本是句子首字母大写、专有名词首字母大写,因此如果单词中非首字母被识别为大写字母,则在识别结果中将其纠正为小写字母,但此方法会造成大写缩写单词以及大写字母为非首字母的情况下的字符识别错误,导致识别结果与原文实际不符,给用户带来很大的使用不便。 
方式二:根据单词中已确定的字符统计基线,利用基线信息确定字母的大小写。此方法中,若是单词中字符的基线位置均不唯一,则无法统计单词的基线;若单词较长并且存在扭曲、倾斜等情况,则基线不能正确反映局部字符的实际基线位置,造成后处理过程中产生错误。 
因此,需要一种适应性更强的单词后处理方法,能够有效地修正字符的大小写,判断任意字符组合的单词,并且不受单词行扭曲等因素影响,使单词的识别率大大提高。 
发明内容
本发明所要解决的技术问题是提供一种西文字符大小写的修正方法和装置,通过字符在图像中的位置判断字符的基线属性,得到相邻字符的相对位置,并分段记录各字符所对应的基线在图像中的位置来确定字符的基线属性,进而对字符进行修正,最后输出识别结果。 
本发明公开了一种西文单词中字符大小写的修正方法,包括以下步骤: 
步骤1:获取目标文本的字符的识别结果和字符在图像中的位置; 
步骤2:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息; 
步骤3:根据单词的基线信息确定字符的基线属性,将字符的基线属性进行修正后输出识别结果。 
所述步骤2、3中字符的基线属性根据字符集中字符的上下边界进行定义,记录字符与对应基线的位置关系。 
所述步骤2包括以下步骤: 
步骤21:根据字符的识别结果初步判断字符的基线属性; 
步骤22:根据字符在图像中的位置对得到的字符的基线属性进行筛选; 
步骤23:统计单词中筛选得到的各字符的基线属性,根据基线属性唯一的字符所对应的各基线在图像中的位置计算单词的基线信息。 
所述步骤22中对得到的字符的基线属性进行筛选时,如果该字符的基线属性大于一个,根据相邻字符的相对位置去除不可能的基线属性,并将备选的基线属性进行组合,得到相邻字符的相对位置,判断字符的基线属性。 
所述相邻字符的相对位置通过相邻字符上下边界的距离差值与设定的参考距离阈值大小关系确定。 
所述参考距离阈值不大于单词图像高度的1/6。 
所述步骤23中统计单词中各字符的基线属性时,若单词中存在多个具有 基线属性唯一的字符,则取各字符所对应的基线在图像中位置的平均值来计算单词的基线信息。 
所述步骤23中统计单词中各字符的基线属性时,若单词中存在多个具有基线属性唯一的字符,则分段记录各字符所对应的基线在图像中的位置来计算单词的基线信息。 
所述分段记录各字符所对应的基线在图像中的位置时,将各字符下边界对应纵坐标值相差小于参考距离阈值的一个或多个字符作为一字符串,统计该字符串对应的基线信息。 
所述字符串对应的基线信息为各条基线对应的纵坐标和该字符串左右字符的索引。 
所述步骤3中字符的基线属性个数大于一时,选取与该字符距离最近的字符串,字符的上下边界与字符串对应的基线信息误差最小时对应的基线属性则为该字符的基线属性,并根据字符的基线属性进行修正后输出识别结果。 
本发明还公开了一种西文单词中字符大小写的修正装置,包括以下模块: 
信息获取模块:获取目标文本的字符的识别结果和字符在图像中的位置; 
基线统计模块:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息; 
信息修正模块:根据单词的基线信息判断字符的基线属性,将字符的基线属性进行修正后输出识别结果。 
本发明一种西文字符大小写的修正方法和装置,通过字符在图像中的位置判断字符的基线属性,得到相邻字符的相对位置,并分段记录各字符所对应的基线在图像中的位置来计算单词的基线信息,确定单词的基线信息进而对字符进行修正,有效地处理了不符合一般书写规范、或是无法简单统计得到基线的单词,对于单词行出现扭曲情况下,得到字符的基线属性经统计后能够有效处理判断字符的大小写,具有良好的自适应性,使单词的识别率大大提高。 
附图说明
图1为本发明一种西文字符大小写的修正方法流程图; 
图2为本发明一种西文字符大小写的修正方法中步骤2的流程图; 
图3为本发明一种西文字符大小写的修正方法中英文字符基线位置示意图; 
图4为本发明一种西文字符大小写的修正方法中英文字符对相对位置关系的示意图; 
图5为本发明一种西文字符大小写的修正方法中实施例的文本图像; 
图6为本发明一种西文字符大小写的修正方法中字符的基线属性示意图; 
图7为本发明一种西文字符大小写的修正方法中实施例的分段记录基线信息的示意图。 
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。 
本发明在于提供一种适用于字符识别结束后判断并修正西文字符大小写的方法和装置。 
以下结合附图并以英文字符的识别后处理为例,对本发明进行详细说明。如图1所示,本发明一种西文字符大小写的修正方法,包括以下步骤: 
步骤一:输入目标文本,获取目标文本的字符的识别结果和字符在图像中的位置。将待识别的目标文本输入英文识别引擎进行识别,获取目标文本的字符的识别结果和字符在图像中的位置信息。 
字符在图像中的位置信息至少包括:字符在图像中的上边界和下边界坐标。 
步骤二:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息;包括以下步骤,如图2所示: 
步骤21:根据字符在图像中的位置判断字符的基线属性。 
根据字符在图像中的位置对基线进行判断,基线为字符的上下边界紧邻的水平直线。本实施例中,英文字符存在4条基线,分别记为基线0、基线1、基线2和基线3,记为四线格。如图3、表1所示,字符的基线属性根据字符集中字符的上下边界进行定义,记录字符与对应基线的位置关系。 
表1中根据字符的上下边界和字符对应基线的位置,将字符的基线属性分为T0B2、T1B2、T1B3和T0B3四种。其中,T0B2基线属性对应的字符上下边界分别位于基线0与基线2上;T1B2基线属性对应的字符上下边界分别位于基线1与基线2上;T1B3基线属性对应的字符上下边界分别位于基线1与基线3上;T0B3基线属性对应的字符上下边界分别位于基线0与基线3上。其中,基线0、基线1、基线2、基线3与四线格的四条线相对应。字符“t”上边界位于基线0到基线1之间。 
表1英文字符基线属性 
  基线属性   字符集
  T0B2   ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789bdfhikl
  T1B2   acemnorsuvwxz
  T1B3   gpqy
  T0B3   fj
由于英文字符集中存在若干同形或相似的字符,如‘0o’、‘Cc’、‘Pp’等,通过识别引擎是无法正确判断该字符的大小写。即使识别结果为‘o’的字符,其正确结果可能是‘0’或‘o’,对应的基线属性为T0B2或者T1B2,如表2所示。 
表2英文字符初始基线属性 
  基线属性   字符集
  T0B2   ABDEFGHIJKLMNQRST12345678bdfhikl
  T1B2   aemnr
  T1B3  
  T0B3   j
  T0B2或T1B2   CcO0oSsUuVvWwXxZz
  T0B2或T1B3   PpYy9qg
  T0B2或T0B3   ff
以图5中的单词“Pirttilampi”为例,将其中各字符的基线属性进行初始处理后,各字符初始的基线属性见表3。其中该单词首字母P的基线属性可能为T0B2或T1B3,由于单词中存在同形的字符,该单词非首字母p的基线属性也可能为T0B2或T1B3。 
表3英文单词“Pirttilampi”字符初始基线属性 
    P   i   r   t   t   i   l   a   m   p   i
  T0B2   √   √         √   √       √   √
  T1B2       √           √   √    
  T1B3   √                   √  
  T0B3                      
步骤22:根据字符在图像中的位置对得到的字符的基线属性进行筛选。 
对基线属性不唯一字符的基线属性进行筛选,去除单词中各字符不可能的基线属性。根据相邻字符的相对位置关系去除初始判断时不可能的基线属性,并将两个相邻字符备选的基线属性进行组合,得到相邻字符不同的相对位置,进而确定这些基线属性不唯一的字符的基线属性。 
当相邻字符对应的基线属性进行组合时,这些字符满足不同的相对位置关系。本实施例中,对字符串“co”和“wp”的基线属性组合计算出相邻字符上边界的距离差值Dis_Top和下边界的距离差值Dis_Bottom,不同组合下的相邻字符对见图4,结果见表4。其中,Base_0、Base_1、Base_2分别表示基线0、基线1、基线2的纵坐标。 
表4字符对基线属性与相对位置的关系 
    基线属性   相对位置关系   与阈值T的关系
  CO   T0B2&T0B2   Dis_Top=0  Dis_Bottom=0   Dis_Top<T  Dis_Bottom<T
  Co   T0B2&T1B2   Dis_Top=Base_1-Base_0  Dis_Bottom=0   Dis_Top>T  Dis_Bottom<T
  cO   T1B2&T0B2   Dis_Top=Base_1-Base_0  Dis_Bottom=0   Dis_Top>T  Dis_Bottom<T
  co   T1B2&T1B2   Dis_Top=0,  Dis_Bottom=0   Dis_Top<T  Dis_Bottom<T
  WP   T0B2&T0B2   Dis_Top=0,  Dis_Bottom=0   Dis_Top<T  Dis_Bottom<T
  Wp   T0B2&T1B3   Dis_Top=Base_1-Base_0   Dis_Top>T
      Dis_Bottom=Base_3-Base_2   Dis_Bottom>T
  wP   T1B2&T0B2   Dis_Top=Base_1-Base_0,  Dis_Bottom=0   Dis_Top>T  Dis_Bottom  <T
  wp   T1B2&T1B3   Dis_Top=0,  Dis_Bottom=Base_3-Base_2   Dis_Top=0,  Dis_Bottom>T
对字符的基线属性进行筛选,如果该字符的基线属性大于一个,根据相邻字符的相对位置去除不可能的基线属性,并将备选的基线属性进行组合,得到相邻字符的相对位置,判断字符的基线属性。 
相邻字符的相对位置通过相邻字符上下边界的距离差值与设定的参考距离阈值大小关系确定。在进行相对位置关系判断时,预先设置参考距离阈值T。所述参考距离阈值T,为预先设定的某一合适的距离值,用于判断两字符的相应边界是否属于同一基线。理想状态下,若单词中的两个字符上边界均位于同一基线,则两字符上边界的距离差值为0,参考距离阈值T应该设为0,不同基线属性组合下相对位置关系的条件与参考阈值T的大小关系见表5。但由于实际图像中字符相对位置存在偏移,参考距离阈值T一般不大于单词图像高度的1/6。在本实施例中,参考距离阈值T设置为单词图像高度的1/8,单词“Pirttilampi”在图像中的像素高度为30px,则参考距离阈值T设置为3px。 
在本实施例中,单词“Pirttilampi”中的相邻字符“m”和“p”由于通过识别引擎是无法正确判断该字符的大小写,字符“p”的基线属性可能为T0B2或T1B3,则字符“m”和“p”两组可能的基线属性进行组合为:T1B2&T0B2,T1B2&T1B3。通过判断相邻字符上边界的距离差值Dis_Top和下边界的距离差值Dis_Bottom与设定的参考距离阈值T的大小关系,判断相邻字符之间的相对位置。 
如果相邻字符上下边界的距离差值都大于设定的参考距离阈值T,则两相邻字符的上下边界的距离差值较大,如图6所示,则两相邻字符的上下边界可能分别在基线0、3和基线1、2上,或者分别在基线1、3和基线0、2上,则存在4种可能的字符的基线属性:T0B2&T1B3、T1B2&T0B3、T1B3&T0B2和T0B3&T1B2。如此类推,继续判断相邻字符上下边界的距离差值都大于设定的 参考距离阈值T的大小关系,并根据相邻字符上下边界的距离差值与设定的参考距离阈值T的大小关系分析相邻字符的位置关系,得到如表5所示的相邻字符相对位置的判断条件,当相邻字符的基线属性组合满足表中相应的打“√”的条件时,相邻字符对应的相对位置关系成立。 
表5相邻字符的相对位置判断条件 
    Dis_Top>=T   Dis_Top<T   Dis_Bottom>=T   Dis_Bottom<T
  T0B2&T0B2     √     √
  T0B2&T1B2   √       √
  T0B2&T1B3   √     √  
  T0B2&T0B3     √   √  
  T1B2&T0B2   √       √
  T1B2&T1B2     √     √
  T1B2&T1B3     √   √  
  T1B2&T0B3   √     √  
  T1B3&T0B2   √     √  
  T1B3&T1B2     √   √  
  T1B3&T1B3     √     √
  T1B3&T0B3   √       √
  T0B3&T0B2     √   √  
  T0B3&T1B2   √     √  
  T0B3&T1B3   √       √
  T0B3&T0B3     √     √
本实施例中,如图5所示的单词“Pirttilampi”,单词中字符“P”和“p”的基线属性不唯一,则从左向右对各字符的基线属性进行判断:若两相邻字符的相对位置关系唯一对应两相邻字符可能的基线属性中的一种,则继续向右判断相邻字符,直至整个单词中的字符全部判断完毕。本实施例中,从左向右对各字符的基线属性进行判断,除“Pi”、“mp”外,其余字符通过识别引擎即可正确判断大小写。即分别对相邻字符“P”和“i”、“m”和“p”判断相对位置。 
由于字符“i”的基线属性唯一确定为“T0B2”,将相邻字符“P”和“i”的两组可能的基线属性进行组合,得到T0B2&T0B2,T1B3&T0B2。本实施例中,“P”上下边界纵坐标分别为12、31;“i”上下边界纵坐标分别为8、30。经过计算Dis_Top=12-8=4,Dis_Bottom=31-30=1。如表5所示,满足Dis_Top>=T和Dis_Bottom<T对应的相邻字符相对位置关系为:T0B2&T1B2、T1B2&T0B2、 T1B3&T0B3和T0B3&T1B3,而“P”和“i”可能的基线属性进行组合为T0B2&T0B2,T1B3&T0B2,则由于图像存在畸变,相邻字符对应的相对位置均不成立。 
由于字符“m”的基线属性唯一确定为“T1B2”,则相邻字符“m”和“p”的两组可能的基线属性进行组合,得到:T1B2&T0B2,T1B2&T1B3。本实施例中,“m”上下边界纵坐标分别为10、25;“p”上下边界纵坐标分别为10、31。经过计算Dis_Top=10-10=0,Dis_Bottom=31-25=6。如表5所示,满足Dis_Top<T和Dis_Bottom>=T对应的相邻字符相对位置关系为:T0B2&T0B3、T1B2&T1B3、T1B3&T1B2和T0B3&T0B2,而“m”和“p”可能的基线属性进行组合为T1B2&T0B2、T1B2&T1B3,则唯一确定“m”和“p”的相对位置关系为T1B2&T1B3,字符“p”的基线属性可确定为T1B3。根据字符间的相邻关系对字符的基线属性进行判断,增加了单词中具有唯一基线属性的字符,为了统计单词的基线信息提供了更多信息。 
步骤23:统计单词中筛选得到的各字符的基线属性,根据基线属性唯一的字符所对应的各基线在图像中的位置计算单词的基线信息。 
统计单词中各字符的基线属性,利用得到单词的基线信息,即单词基线0、基线1、基线2和基线3在图像中的位置确定单词中基线属性仍然尚未确定的字符。根据单词中基线属性唯一的字符所对应的各基线在图像中的位置计算单词的基线信息。 
在其他实施例中,可通过取各字符所对应的基线在图像中位置的平均值来计算单词的基线信息,从而得到一组四线格,但此方式在图像畸变使四线格弯曲的情况下误差较大,容易使字符大小写判断错误,从而降低识别率。 
本实施例中,采用分段记录各字符所对应的基线在图像中的位置来计算单词的基线信息,使图像在发生畸变时也能确定单词的基线信息。分段记录单词的基线信息,将各字符下边界对应纵坐标值相差小于参考距离阈值的一个或多个字符作为一字符串,统计该字符串对应的基线信息。将对应横坐标相差小于参考距离阈值T的一个或多个字符作为一字符串,对该字符串对应的基线信息 进行统计,统计四线格对应的纵坐标:Base_0、Base_1、Base_2和Base_3以及字符串左右字符的索引Base_L、Base_R(单词中第一个字符的索引号记为1,以此类推),从而得到单词中该字符对应的基线信息。 
如图7所示,对其中的单词“Pirttilampi”采用分段记录各字符所对应的基线在图像中的位置来计算该单词的基线信息。 
从左向右搜索单词中的每一个字符:第一个字符“P”由于字符的基线属性不唯一,不统计其基线信息,向右搜索,字符“i”和“r”字符属性均唯一,其基线属性组合为:T0B2&T1B2;“i”上下边界坐标分别为8、30;“r”上下边界坐标分别为15、30。经过计算Dis_Top=15-8=7,Dis_Bottom=30-30=0。如表5所示,满足Dis_Top>=T和Dis_Bottom<T对应的相邻字符相对位置关系为:T0B2&T1B2、T1B2&T0B2、T1B3&T0B3和T0B3&T1B3,字符“i”和“r”的位置关系为T0B2&T1B2,两字符相邻位置关系成立,且下边界对应纵坐标差值Dis_Bottom=30-30=0,相差小于参考距离阈值,则字符“i”和“r”为一字符串“ir”,得到字符的基线信息为:各基线对应的纵坐标Base_0=8,Base_1=15,Base_2=30,字符串左右字符的索引Base_L=2、Base_R=2。 
继续向右搜索,第四个字符“t”虽然没有确定的基线属性,但其下边界纵坐标与字符串“ir”的下边界对应纵坐标相对于基线1的距离差值小于参考距离阈值T,可以认为“t”与“ir”的下边界都在基线1上,则将“t”归入与字符串“ir”得到字符串“irt”。 
如此类推,经过搜索计算,字符串“irtti”得到的基线信息为:各条基线对应的纵坐标Base_0=8,Base_1=15,Base_2=30,字符串左右字符的索引Base_L=2,Base_R=6。 
根据步骤1得到的字符的识别结果继续对字符串进行搜索,当搜索到字符“1”时,“1”的基线属性唯一为T0B2,上下边界的纵坐标分别为6、27。“1”与已经统计得到的基线Base_0=8与Base_2=30距离差值Dis_Top=8-6=2,Dis_Bottom=30-27=3,由于本实施例中的参考距离阈值T=3,即Dis_Bottom>= T、Dis_Top<T。对应的相邻字符相对位置关系为:T0B2&T1B2、T1B2&T0B2、T1B3&T0B3和T0B3&T1B3,由于字符“1”的基线属性唯一为T0B2,则只有T1B2&T0B2符合条件,但字符串“irtti”的基线属性为T0B2则字符串“irtti”与“1”不相邻。以字符“1”为另一字符串的基线信息的起点,统计另一字符串的基线信息。 
经过计算统计,单词“Pirttilampi”有三段字符串“irtti”、“lamp”、“i”,其基线信息分别为: 
Baseline_A(Base_0=8,Base_1=15,Base_2=30,Base_L=2,Base_R=6); 
Baseline_B(Base_0=6,Base_1=11,Base_2=27,Base_3=32,Base_L=7,Base_R=10); 
Baseline_C(Base_0=2,Base_2=24,Base_L=11,Base_R=11)。 
通常情况下,单词基线之间的距离关系具有一定比例规范。英文的四线格基线0、基线1之间的距离与基线1、基线2之间的距离在通常情况下是相等的。如果已经知道四条基线中的三条的位置,则可计算出剩余的一条的位置。本实施例中,可根据此关系计算出没统计出来的基线位置信息。在字符串Baseline_A中,Base_3=Base_1-Base_0+Base_2=37。 
步骤三:根据单词的基线信息确定字符的基线属性,将字符的基线属性进行修正后输出识别结果。 
根据单词的基线信息判断字符的基线属性。从左向右扫描单词中的字符,若字符的基线属性唯一,根据单词的基线属性修正后输出识别结果;若字符的基线属性不唯一,根据单词的基线信息判断该字符的大小写。选取与该字符距离最近的字符串,字符的上下边界与字符串对应的基线信息误差最小时对应的基线属性则为该字符的基线属性,并根据字符的基线属性进行修正后输出识别结果。计算该字符在何种基线位置时,字符的基线与字符串的基线误差最小就确定该字符为该基线位置,并根据基线位置对字符进行大小写修正后输出识别 结果。 
本实施例中,单词“Pirttilampi”的第十个字符“p”经过步骤2的基线属性判断得知为T1B3类型,即上下边界分别在基线1和基线3上对应的是小写字符“p”。单词中首字符“P”基线属性可能为T0B2或是T1B3,选取与该字符距离最近的字符串“irtti”,其基线信息为Base_0=8,Base_1=15,Base_2=30,Base_3=37。“P”上下边界纵坐标分别为12、31,若为T0B2,则上下边界与基线0、基线2的距离差值分别为Dis_Top=12-8=4、Dis_Bottom=31-30=1;若为T1B3,则上下边界与基线1、基线3的距离差值分别为Dis_Top=15-12=3、Dis_Bottom=37-31=6,则“P”的基线属性为T0B2误差较小,即对应的识别结果为大写字符“P”,整个单词修正完毕后输出识别结果:“Pirttilampi”。 
在其他实施例中,参考距离阈值T分别设置为单词图像高度的0和1/6,分别得到图5中对其他单词修正完毕后输出识别结果:“To”和“Timo”。 
本发明还公开了一种西文单词中字符大小写的修正装置,包括以下模块: 
信息获取模块:获取目标文本的字符的识别结果和字符在图像中的位置; 
基线统计模块:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息; 
信息修正模块:根据单词的基线信息判断字符的基线属性,将字符的基线属性进行修正后输出识别结果。 
本发明提供的单词中字符大小写判断的后处理方法,能有效处理不符合一般书写规范、或是无法简单统计得到单词基线的单词。尤其是对于单词行出现扭曲情况下,本方法仍然能够有效处理判断字符的大小写,具有良好的自适应性。该方法同样适用于其他类似的西方语言,例如俄文、西欧文字等。字母的基线类型也可根据不同语言的字符书写规范进行设置与调整。 

Claims (11)

1.一种西文单词中字符大小写的修正方法,其特征在于,包括以下步骤:
步骤1:获取目标文本的字符的识别结果和字符在图像中的位置;
步骤2:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息;所述步骤2包括:步骤21:根据字符的识别结果初步判断字符的基线属性;步骤22:根据字符在图像中的位置对得到的字符的基线属性进行筛选;步骤23:统计单词中筛选得到的各字符的基线属性,根据基线属性唯一的字符所对应的各基线在图像中的位置计算单词的基线信息;
步骤3:根据单词的基线信息确定字符的基线属性,将字符的基线属性进行修正后输出识别结果。
2.根据权利要求1所述的方法,其特征在于:所述步骤2、3中字符的基线属性根据字符集中字符的上下边界进行定义,记录字符与对应基线的位置关系。
3.根据权利要求1所述的方法,其特征在于:所述步骤22中对得到的字符的基线属性进行筛选时,如果该字符的基线属性个数大于一,根据相邻字符的相对位置去除不可能的基线属性,并将备选的基线属性进行组合,得到相邻字符的相对位置,判断字符的基线属性。
4.根据权利要求3所述的方法,其特征在于:所述相邻字符的相对位置通过相邻字符上下边界的距离差值与设定的参考距离阈值大小关系确定。
5.根据权利要求4所述的方法,其特征在于:所述参考距离阈值不大于单词图像高度的1/6。
6.根据权利要求1所述的方法,其特征在于:所述步骤23中统计单词中各字符的基线属性时,若单词中存在多个具有基线属性唯一的字符,则取各字符所对应的基线在图像中位置的平均值来计算单词的基线信息。
7.根据权利要求1所述的方法,其特征在于:所述步骤23中统计单词中各字符的基线属性时,若单词中存在多个具有基线属性唯一的字符,则分段记录各字符所对应的基线在图像中的位置来计算单词的基线信息。
8.根据权利要求7所述的方法,其特征在于:所述分段记录各字符所对应的基线在图像中的位置时,将各字符下边界对应纵坐标值相差小于参考距离阈值的一个或多个字符作为一字符串,统计该字符串对应的基线信息。
9.根据权利要求8所述的方法,其特征在于:所述字符串对应的基线信息为各条基线对应的纵坐标和该字符串左右字符的索引。
10.根据权利要求1所述的方法,其特征在于:所述步骤3中字符的基线属性个数大于一时,选取与该字符距离最近的字符串,字符的上下边界与字符串对应的基线信息误差最小时对应的基线属性则为该字符的基线属性,并根据字符的基线属性进行修正后输出识别结果。
11.一种西文单词中字符大小写的修正装置,其特征在于,包括以下模块:
信息获取模块:获取目标文本的字符的识别结果和字符在图像中的位置;
基线统计模块:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息;所述基线统计模块还包括判断模块,用于根据字符的识别结果初步判断字符的基线属性;筛选模块,用于根据字符在图像中的位置对得到的字符的基线属性进行筛选;计算模块,用于统计单词中筛选得到的各字符的基线属性,根据基线属性唯一的字符所对应的各基线在图像中的位置计算单词的基线信息;
信息修正模块:根据单词的基线信息判断字符的基线属性,将字符的基线属性进行修正后输出识别结果。
CN201010160729.7A 2010-04-26 2010-04-26 西文单词中字符大小写的修正方法和装置 Active CN102236638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010160729.7A CN102236638B (zh) 2010-04-26 2010-04-26 西文单词中字符大小写的修正方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010160729.7A CN102236638B (zh) 2010-04-26 2010-04-26 西文单词中字符大小写的修正方法和装置

Publications (2)

Publication Number Publication Date
CN102236638A CN102236638A (zh) 2011-11-09
CN102236638B true CN102236638B (zh) 2014-11-19

Family

ID=44887297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010160729.7A Active CN102236638B (zh) 2010-04-26 2010-04-26 西文单词中字符大小写的修正方法和装置

Country Status (1)

Country Link
CN (1) CN102236638B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657203A (zh) * 2017-10-12 2019-04-19 北大方正集团有限公司 字库字面大小调整的方法、系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102105101B1 (ko) * 2012-11-07 2020-04-27 삼성전자주식회사 디스플레이 장치 및 이의 문자 수정 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655835A (zh) * 2009-08-26 2010-02-24 北大方正集团有限公司 电子文档中文字信息处理、输出和字符检索的方法及装置
CN101673406A (zh) * 2008-09-08 2010-03-17 北大方正集团有限公司 字体设置方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8107766B2 (en) * 2008-04-03 2012-01-31 Abbyy Software Ltd. Method and system for straightening out distorted text-lines on images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673406A (zh) * 2008-09-08 2010-03-17 北大方正集团有限公司 字体设置方法和装置
CN101655835A (zh) * 2009-08-26 2010-02-24 北大方正集团有限公司 电子文档中文字信息处理、输出和字符检索的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汤跃娟.英文单词OCR系统的分割算法研究.《万方学位论文数据库》.2005,正文1-48页. *
英文单词OCR系统的分割算法研究;汤跃娟;《万方学位论文数据库》;20050714;正文1-48页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657203A (zh) * 2017-10-12 2019-04-19 北大方正集团有限公司 字库字面大小调整的方法、系统
CN109657203B (zh) * 2017-10-12 2020-12-04 北大方正集团有限公司 字库字面大小调整的方法、系统

Also Published As

Publication number Publication date
CN102236638A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
WO2017020723A1 (zh) 一种字符分割方法、装置及电子设备
CN102822846B (zh) 用于对来自文本行图像的单词进行分割的方法和设备
JP4661921B2 (ja) 文書処理装置およびプログラム
US10740899B2 (en) Image processing apparatus for identifying region within image, information processing method, and storage medium
CN1492377A (zh) 表格处理系统及方法
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
JP2009122722A (ja) 帳票認識プログラム、帳票認識装置および帳票認識方法
CN110321837B (zh) 一种试题得分的识别方法、装置、终端及存储介质
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
CN112016481A (zh) 基于ocr的财务报表信息检测和识别方法
US10217020B1 (en) Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another
CN102236638B (zh) 西文单词中字符大小写的修正方法和装置
US8744171B1 (en) Text script and orientation recognition
CN107798355B (zh) 一种基于文档图像版式自动分析与判断的方法
Sturgeon Large-scale Optical Character Recognition of pre-modern Chinese texts
CN114494679A (zh) 一种双层pdf生成及校对方法和装置
JP2009093305A (ja) 帳票認識装置
US20120281919A1 (en) Method and system for text segmentation
US11087122B1 (en) Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
CN102254157A (zh) 一种寻找左右字符的字符切分位置评价方法
CN111079736A (zh) 一种听写内容识别方法及电子设备
JP2013097784A (ja) 文字認識のための文字セグメントを自動的に識別する方法および装置
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant