CN101097600A - 一种字体识别方法及系统 - Google Patents

一种字体识别方法及系统 Download PDF

Info

Publication number
CN101097600A
CN101097600A CNA200610089489XA CN200610089489A CN101097600A CN 101097600 A CN101097600 A CN 101097600A CN A200610089489X A CNA200610089489X A CN A200610089489XA CN 200610089489 A CN200610089489 A CN 200610089489A CN 101097600 A CN101097600 A CN 101097600A
Authority
CN
China
Prior art keywords
character
chinese
identification
english
height
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200610089489XA
Other languages
English (en)
Other versions
CN100533466C (zh
Inventor
康凯
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Peking University Founder Research and Development Center
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CNB200610089489XA priority Critical patent/CN100533466C/zh
Publication of CN101097600A publication Critical patent/CN101097600A/zh
Application granted granted Critical
Publication of CN100533466C publication Critical patent/CN100533466C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种利用粘连性进行字体识别的方法及系统,在将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据;再根据字符宽度与平均字符宽之比与第一比较阈值,识别中英文;然后对字符进行水平投影,得出每一投影高度下像素值;最后根据每一高度与这一高度下的像素值关系识别中英文。使用本发明能够准确判断字符的属性,提高了识别的效率,有效的区分了中文字符与粘连英文字符,进而提高了光学字符识别的识别率。

Description

一种字体识别方法及系统
技术领域
本发明涉及一种字体识别方法及系统,特别涉及一种通过对中英文字体的粘连特征进行识别的方法及系统。
背景技术
OCR(光学字符识别)技术与要识别的内容密切相关,从印刷体OCR的角度看,对以英文为代表的大多数西方文字,和以中、日、韩文为代表的东方文字是有明显区别的。文献《中英文混合文章识别问题》[软件学报,1000-9825/2005/16(05)0786,作者王恺、王庆人]分析指出:没有一项OCR核心技术能够同时圆满识别西文和东方语言两类文字。因此对中英文混排文稿进行识别时,一般需要先进行中英文判别,再分别交给不同的识别器进行处理。该文献同时较全面地总结了中文和西文在OCR特性方面的差别,例如:1)字符远近粘连的差别;2)字符连通体个数的差别;3)字符数量的差别;4)字体数量的差别;5)拓扑形状的差别。其中1)指出的字符远近粘连的差别,其具体表现为:在东方文字中,相邻字符粘连的可能性较小,而西文相邻字符间发生粘连的情况则普遍存在,很多时候粘连还十分严重。此外需要指出的是,在OCR中,字符粘连不一定指两个字符真正的粘在一起,更多的情况是指两个字符在垂直方向(竖排文字为水平方向)的投影无空白间隔。该文献还指出:在解决多种不同结构语言混排问题时,将具有不同语言属性的区域相分离是切分前的必要步骤。对于中英文混排OCR系统来说,汉英语言区域的分离是最根本的操作。因此,自动判断待识别字符是粘连英文还是汉字对混排文章的OCR至关重要。
对于上述东西方文字区别的论述,具体到中英文的区别上,主要反映在中文字符与小写英文的区别。因为大写的英文字符无论从形状、宽高、笔画密度、笔画弯曲度等等都与中文差距很小,且大写英文字母间的粘连程度要比小写字母轻微得多。一般识别系统都将大写英文字母同时放入中、英文识别引擎的数据字典中。因此对大写英文字母或汉字的判断不是OCR中字符属性判断的主要矛盾,即使把大写字母误判为中文,也可用中文识别引擎来进行识别。
早期,对中文OCR的研究基本集中在对已经切分好的字符进行识别,很少考虑字符切分和字符属性的判别不正确的影响,对识别率进行统计时采用的样张几乎全部为中文字符,且字符间距大,切分容易,甚至字符被放入特定的方格中的样张。其原因一方面是早期OCR的性能瓶颈在于识别技术本身尚有不足,另一方面也因为早期的文献除了在一些专业领域,中英文混排的情况较少。而今天OCR识别本身理论已经发展得很完善,且随着开放的深入和科技的普及,普通文稿中的中英文混排的现象已经非常普遍了,而如前述指出的,对英文与中文的识别无法用同一个识别器解决,而英文粘连现象又普遍存在,因此对字符进行正确的切分与(中英文)属性判别就成了提高识别率的一个非常重要的方面。
目前在中英文混合文章识别方面,已经进行了许多研究工作,这些方法的前期预处理都是先用行投影的方法获得文字行,再用垂直投影的方法获得单个的文字字符。接下来的判断方法大致有几类:
1、利用字符本身的几何属性,如长短、面积、距离、凹凸等;统计属性,如投影;和拓扑属性,如连通域数、孔洞数、横/纵向笔画穿越数、字符边界游程直方图等来进行判断。
这类方法在对单个英文与中文进行判断时比较有效,它的不足是当英文出现粘连时,很多依据这些属性作出的判断都将失效,例如对孔洞数这个特征,英文字符(包括数字)包含的孔洞很规则,分三种情况:不包含空洞,如“c”;包含一个孔洞,而且孔洞在字符的中间位置,如“o”,“d”;包含两个孔洞,而且两个孔洞垂直排列,如“g”。而大多数中文的孔洞数相对较多,因此可以通过计算其孔洞数进行中英文的判别。但当英文单词发生粘连时,如hope这个单词显然其孔洞数将多达三个,很可能会被误判为中文。
2、参考字符本身的属性和上下文的特征行判断,如根据字符的高度、宽度和相邻块间距进行汉英判别;按字符的基线进行判断等。在文献《多知识综合判决的字符切分算法》[作者刘刚、丁晓青、彭良瑞、刘长松,计算机工程与应用2002.17 59]中提到如下方法。
该方法的一般依据为:1)英文字符的高度一般较中文矮,比如a、c、e、m、n、o、r、s、t、u、v、w、x、z,其高度比中文矮很多。剩下的字母包括b、d、f、g、h、i、k、l、p、q、y和大写英文字母,其高度比汉字略矮,但宽高比一般比中文小。因此可根据字符的高度及高宽比等几何参数进行区分。2)英文中部分字母的上沿与汉字的上下沿不在同一个水平线上,且又比较整齐,如a、c、e、g、m、n、o、p、q、r、s、u、v、w、x、y、x的上沿比汉字的上沿低;a、b、c、d、e、h、i、k、l、m、n、o、r、s、t、u、v、w、x、z的下沿较比汉字的下沿高;因此可与同行中汉字的上下沿做对比,在一定的程度上进行判断。这种方法的优点在与计算量少,判断迅速。它的不足在于上述中英文字符间的区别有时较模糊,尤其是在英文单词间发生粘连时更是如此,例如light这个单词,若能对每个字母进行分析,可看出liht这几个字母的下沿与典型的英文字母下沿对齐,g的上沿与典型的英文字母上沿对齐,但由于发生粘连后,light成为一个整体,其上、下沿的特征都变得模糊起来。此外,该方法未考虑到字符笔画密度的因素,而事实上,英文小写字母在水平方向的笔画密度是有较为明显的特征的。
3、依靠识别反馈来进行判断:该方法基本思想是对其它方法不能判断,或摸棱两可的临界的情况作出猜测,再用识别器加以验证。例如猜测为中文,则送入中文识别器中加以识别,若返回的识别可信度较高则为猜测正确,否则认为猜错,将其属性归入另一类。这是目前被广泛运用的一种方法。
一般来说,每种方法都有其临界的情况,特别是用字符的几何形状进行判断时,其临界情况更多一些。相比较而言,如果识别器本身的性能比较好,则用识别反馈来进行判断是较为准确的,但识别反馈法有两个缺陷:首先由于识别相对切分而言是很慢的操作,尤其是当属性假设错误时更是如此,因此它的效率较低,在实用系统中表现为识别速度的整体下降。此外它的不足还在于,它同样受粘连英文的影响而使得识别效率变低,如“gh”这两个字符粘连,它容易被误识别为“由”或“山”等中文,而与一般我们对识别器进行训练不同的是:由于我们无法预知哪些字符会粘连,因此事先无法用“gh”这个样本对数据字典中的“由”“山”数据进行区分性训练;另外,在粘连的情况下需要进行切分-试识别的反复尝试,其效率就更低了。
4、基于统计学习的方法,该方法通过选择大量的样本进行训练,得到从分类到特征的先验概率,从而在实际图像中能计算出各分类的概率。例如文献《基于贝叶斯分类器的混排文字切分与分类》[作者肖波、徐蔚然,计算机工程与应用,2005.10 85]中所提到的如下方法。
这类方法在样本特征取得合理、样本的代表性好、范围足够广泛时,能取得较好的效果。其不足在于:要取得数量足够大、且要有代表性的样本,是有一定困难的,很多时候需要人工干预,自动化程度不高,前期训练的工作量大。因此这类方法在理论上的研究较多,在实际系统中的运用并不多。
以上所述的各种方法一般不会单独运用,在实际系统中运用时经常是以一种方法为主,再用其它的方法加以辅助。但总体上看来,以上的方法存在的不足在于,在对中英文进行判别时,都对粘连英文考虑不够,无法有效解决在英文中普遍出现的粘连情况。
综上,现有的技术对粘连英文不能很好的处理,它们或者是失效、误判,或者是仍然有效的方法本身的鲁棒性又较差。而这些都将较大地影响后续的处理过程,如导致文字识别率和识别速度的下降。
发明内容
本发明所解决的技术问题在于提供了一种字体识别方法及系统,用以解决在粘连英文识别时出现的失效、误判、或者鲁棒性较差,从而导致后续处理过程中文字识别率和识别速度的下降的问题。
本发明所解决问题在于将字符水平投影后,得出中英文在粘连性上所表现出来的特征规律,进而依据该规律提供了进行OCR识别的方法与系统。
本发明的字体识别方法包括如下步骤:
步骤a、将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据;
步骤b、根据字符宽度与平均字符宽之比与第一比较阈值,识别中英文;
步骤c、对未识别出字符进行水平投影,得出每一投影高度下像素值;
步骤d、根据所述每一高度与这一高度下的像素值关系识别中英文。
本发明方法又提供一优选技术方案为:所述步骤d包括如下步骤:
检测每个投影点的梯度值;
根据每点的梯度,按梯度与第一、第二阀值比较的结果,依次标记出投影图中的第一标识点、第二标识点;
根据第一标识点对应的像素值与字符所在行的上沿之差与第三比较阀值识别中英文。
本发明方法又提供一优选技术方案为:进一步包括如下步骤:
根据第一标识点与第二标识点的高度差值与待判定字符宽度之比与第四比较阀值识别中英文。
本发明方法又提供一优选技术方案为:进一步包括如下步骤:
根据第一标识点与第二标识点的高度差值与第五比较阀值识别中英文。
本发明方法又提供一优选技术方案为:进一步包括如下步骤:
根据第二标识点对应的像素值与字符所在行的下沿之差与第六比较阀值识别中英文。
本发明方法又提供一优选技术方案为:进一步包括如下步骤:
找出整个投影曲线上的最小值点,根据该点与第一标识点、第二标识点之间的位置关系识别中英文。
本发明方法又提供一优选技术方案为:进一步包括如下步骤:
根据第一标识点与第二标识点的高度差值与平均汉字的高度值,识别中英文。
本发明方法又提供一优选技术方案为:进一步包括如下步骤:
根据第一标识点与第二标识点的高度差与该待判别字符宽度之比与平均汉字的高度与宽度之比,识别中英文。
本发明方法又提供一优选技术方案为:进一步包括如下步骤:
根据字符的垂直穿越笔画数识别中英文。
本发明的识别系统包括:用于将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据的垂直投影模块、用于根据字符宽度与平均字符宽之比与第一比较阈值识别中英文的第一比较识别模块;
还包括水平投影模块、识别模块,其中:
水平投影模块,用于对所述第一比较识别模块未识别出字符进行水平投影,得出每一投影高度下像素值;
识别模块,用于根据所述每一高度与这一高度下的像素值关系识别中英文。
本发明系统又提供一优选技术方案为:所述识别模块包括梯度计算单元、标识单元、第一比较识别单元,其中:
梯度计算单元,用于检测每点的像素梯度值;
标识单元,根据每点的梯度,按梯度与第一、第二阀值比较的结果,依次标记出投影图中的第一标识点、第二标识点;
第一比较识别单元,用于根据第一标识点对应的像素值与字符所在行的上沿之差与第三比较阀值识别中英文。
本发明系统又提供一优选技术方案为:所述识别模块进一步包括:
第二比较识别单元,用于根据第一标识点与第二标识点的高度差值与待判定字符宽度之比与第四比较阀值识别中英文。
本发明系统又提供一优选技术方案为:所述识别模块进一步包括:
第三比较识别单元,用于根据第一标识点与第二标识点的高度差值与第五比较阀值识别中英文。
本发明系统又提供一优选技术方案为:所述识别模块进一步包括:
第四比较识别单元,用于根据第二标识点对应的像素值与字符所在行的下沿之差与第六比较阀值识别中英文。
本发明系统又提供一优选技术方案为:所述识别模块进一步包括:
第五比较识别单元,用于找出整个投影曲线上的最小值点,根据该点与第一标识点、第二标识点之间的位置关系识别中英文。
本发明系统又提供一优选技术方案为:所述识别模块进一步包括:
第六比较识别单元,用于根据第一标识点与第二标识点的高度差值与平均汉字的高度值,识别中英文。
本发明系统又提供一优选技术方案为:所述识别模块进一步包括:
第七比较识别单元,用于根据第一标识点与第二标识点的高度差与该待判别字符宽度之比与平均汉字的高度与宽度之比,识别中英文。
本发明系统又提供一优选技术方案为:进一步包括:
第二比较识别模块,用于根据字符的垂直穿越笔画数识别中英文。
由于在本发明中依据的是中英文在水平投影后,对粘连性方面所表现出来的特征来进行识别,充分利用水平投影后字符所表现出的字符高度与像素之间的几何特性,从而能够准确判断字符的属性,提高了识别的效率,并且在英文单词粘连越严重,判别的可靠性就越高,有效的区分了中文字符与粘连英文字符,进而提高了OCR的识别率。
附图说明
图1是实施例中所述英文字母hope的水平投影图;
图2是实施例中所述英文字母joke的水平投影图;
图3是实施例中所述英文字母key的水平投影图;
图4是实施例中所述英文字母extp的水平投影图;
图5是实施例中所述英文字母type的水平投影图;
图6是实施例中所述英文字母ord的水平投影图;
图7是实施例中所述英文字母extb的水平投影图;
图8是实施例中所述英文字母rtft的水平投影图;
图9是实施例中所述英文字母xafi的水平投影图;
图10是实施例中所述英文字母ftwa的水平投影图;
图11是实施例中所述英文字母trowd的水平投影图;
图12是实施例中所述英文字母ltrrow的水平投影图;
图13是实施例中所述英文字母rop的水平投影图;
图14是实施例中所述英文字母arp的水平投影图;
图15是实施例中所述英文字母ttype的水平投影图;
图16是实施例中所述中英文混排的示意图;
图17是实施例中所述中文字词“及认”的水平投影图;
图18是实施例中所述中文字词“松树”的水平投影图;
图19是实施例中所述中文字词“大于”的水平投影图;
图20是实施例中所述中文字词“入计”的水平投影图;
图21是实施例中所述中文字词“近打”的水平投影图;
图22是实施例中所述中文字词“补血”的水平投影图;
图23是实施例中所述中文字词“人过”的水平投影图;
图24是实施例中所述中文字词“分析”的水平投影图;
图25为实施例中所述字体识别流程示意图;
图26为实施例中所述根据每一高度与这一高度下的像素值关系识别中英文的流程示意图;
图27为实施例中所述字体识别系统结构示意图;
图28为实施例系统中所述识别模块的结构示意图。
具体实施方式
下面结合说明书附图来说明本发明的具体实施方式。
针对现有技术中对粘连英文判断的不足,本发明实施例是通过对宽度超过一定域值的字符(可能是粘连英文、单个中文字符、或粘连中文)进行水平投影后,再通过分析所得的投影曲线和整行的几何特性判断字符的属性。从而提高识别效率,在字体粘连越多时,识别的可靠性越高,从而提高了OCR的识别率。
在进行字体识别前,首先做一些必要的预处理,如字符已经按垂直投影值为0的严格原则被切开,被判别字符所在行的平均汉字字符宽/高、行高、平均行上/下沿等数据已经求出等,这在一般的OCR切分中都是必要的预处理步骤。在用普通的方法初步判断完特征明显的单个中文、英文字母、标点符号后,剩余的字符基本由宽、高异常的字符组成。有了平均汉字字符宽/高的值,就可假设满足宽度较宽(与平均字宽比超过一定阈值)、高度适中(在平均字高的某个范围内)的字符可能为两种情况:1)粘连的英文;2)粘连的中文。本发明实施例针对这两种情况,通过它们在水平投影曲线上表现出的不同特征,从而利用这些特征规律来进行识别判断,再用字符垂直投影加以辅助验证,从而保证较高的识别准确率。
实施例中分析所用到的水平投影曲线是指:对行字符水平进行投影后,以被投影字符的高为x坐标(横坐标),字符的上沿为x坐标的0点,x坐标值为投影后字符的投影高度值,y坐标(纵坐标)值为该高度下投影得到的像素个数。本发明则是依据每一高度对应的黑像素个数规律总结出小写英文的粘连性,从而进行识别。
下面我们结合具体的中英字词水平投影图来分析中英文在粘连性上所表现出的特征,其中:
图1是实施例中所述英文字母hope的水平投影图;
图2是实施例中所述英文字母joke的水平投影图;
图3是实施例中所述英文字母key的水平投影图;
图4是实施例中所述英文字母extp的水平投影图;
图5是实施例中所述英文字母type的水平投影图;
图6是实施例中所述英文字母ord的水平投影图;
图7是实施例中所述英文字母extb的水平投影图;
图8是实施例中所述英文字母rtft的水平投影图;
图9是实施例中所述英文字母xafi的水平投影图;
图10是实施例中所述英文字母ftwa的水平投影图;
图11是实施例中所述英文字母trowd的水平投影图;
图12是实施例中所述英文字母ltrrow的水平投影图;
图13是实施例中所述英文字母rop的水平投影图;
图14是实施例中所述英文字母arp的水平投影图;
图15是实施例中所述英文字母ttype的水平投影图。
实施例中为便于描述与理解,我们将小写英文字符在垂直方向上分为三个部分:上部、中部、下部,其中中部是字母的基干部分,我们称为基干。比如字符“b”有上部与基干,字符“y”有基干与下部,字符“o”仅有基干。
在水平投影曲线上,我们定义横坐标为水平投影后的字符高度值,而纵坐标为该高度下对应的像素值。对各投影图将使用到的各值含义定义如下:
梯度:某点x的梯度G(x)定义为(y(x)-y(x-n))/n;本实施例中n取2。
梯度突变:|G(x)-G(x-1)|的值超过某一阀值时,我们认为在x点处发生了梯度突变,以图1中对英文字母“hope”的投影为例,在Hh、Hl点上发生了梯度突变;
基干部分则可以表述为:发生梯度突变的字符高最小值与字符高最大值之间的范围,以图1中对英文字母“hope”的投影为例,我们可以看出此时基干部分的最低点是Hmin,最高点是Hl
上沿:发生梯度突变的字符高最小值处,我们也把该点称为第一标识点,以图1中对英文字母“hope”的投影为例,对应的是Hh
下沿:发生梯度突变的字符高最大值处,我们把该点称为第二标识点,以图1中对英文字母“hope”的投影为例,对应的是点Hl
行上沿:指对该行进行水平投影后,投影图上,按坐标x从小到大的方向,第一个y(x)不为0的x位置;
行下沿:指对该行进行水平投影后,投影图上,按坐标x从小到大的方向,最后一个y(x)不为0的x位置;
基干高:Hh-Hl;也就是第一标识点与第二标识点之间的像素值差;
基干宽:等于待判别字符的宽度W;基干部分宽高比可以表示为W/(Hh-Hl)。
通过对以上图1至图15的水平投影曲线,我们可以发现小写的英文字符在曲线上具有如下的特点:
1、它们的基干在水平方向无间断;
也就是在投影图上表现为,如果间断点指y(x)=0的点。基干无间断指在x属于基干的范围内不存在间断点。
2、当粘连发生时,在这些粘连字符的基干与上部的交界处,以及基干与下部的交界处,其水平方向的像素值会出现突变,例如图1中英文字母hope、图2中英文字母joke、图5中英文字母type的水平投影图所示,粘连的hope、joke、type等都具有这个特征。再以图1英文字母hope的水平投影图为例,它的水平投影曲线会在“oe”的上沿处出现突变,在“hoe”的下沿处出现突变。反映在水平投影曲线上,表现为在较小的字符高坐标位置处会出现一个突然的跃升,相对与单词的上沿,我们称之为基干上沿。在较大的字符高坐标处会出现一个突然的下降,称之为基干下沿。这样的例子还很多,如图2中英文字母joke的水平投影图等都具有这个特征。
对于没有下部的字母,可以认为是突变的特殊情况,如图6英文字母ord的水平投影图所示,粘连的ord所有字母都没有下部,反映到水平投影曲线上,则只有在字符高坐标较小的位置处出现突然跃升,没有在字符高坐标较大处的突降,图6至图10所示的分别对英文字母ord、extb、rtft、xafi、ftwa的水平投影图中都有这样的特征。没有上部的字符与此相反,如图13英文字母rop、图14英文字母arp等的水平投影图所示,图13至图15所示分别对英文字母rop、arp、ttype的水平投影图中都有这样的特征。
3、基干上沿在水平投影曲线中表现出的特点是:
a、粘连英文的基干上沿突变明显,也就是说其梯度很大。当被判断的英文字符粘连越严重,即包含的字母越多,这个特征就越明显。
b、在混排文字行中的,基干上沿的位置要明显低于行的上沿。表现在水平投影图上,就是出现突然跃升的x坐标距离行的上沿距离较大,不是指距离该字符自己的上沿,而是指距离该字符所在行的上沿,该距离一般比汉字的上沿与行上沿的距离大得多。图1至图5所示的分别对英文字母hope、joke、key、extp、type的水平投影图都有这个特点。
4、英文中有下部的小写字母共有5个:“g、j、p、q、y”。水平投影曲线中基干下沿在混排文字行中的特点比上述的基干上沿复杂一些,它的特点为:
a、与基干上沿突变类似,粘连英文的基干下沿突变也很明显,即梯度也很大,它同样具有粘连越严重梯度越大的特点。
b、基干下沿的位置比行的平均下沿稍靠上,这个特点不如基干上沿与行的上沿差距那么明显。但它有另一个特点来辅助判别:即对包含有“g、j、p、q、y”这些字母的单词,单词的最下沿比行的平均下沿稍靠下。图16是实施例中所述中英文混排的位置示意图,其中第一排中字体为宋体,第二排为Arial,第三排为Times New Roman,如图所示,我们能看出:“g、j、p、q、y”这几个字母的最下沿比行平均下沿更靠下一些。
c、除了“p、q”外,“g、j、y”这三个字母的下部像素较多,表现在水平投影图上,会在下沿突变后紧跟着一个明显的小峰,如图3、4、5都具有该特征。对上部而言,只有小写字母“f”会产生这样的特点,如图8、9、10所示,会在投影图上沿的前面出现一个明显的小峰。
5、在水平投影图上,中部投影的最低点比上/下部的最高点还要高。其物理意义是:即小写字母组成的英文单词,其基干部分在水平方向的像素总是大于上/下部的像素。一般来说,粘连越严重,这个特点越明显。
6、对基干部分而言,其高度较小,且其宽高比要比一般的粘连汉字大得多。显然粘连越严重,其宽高比会越大。
对“l”这个例外的字母而言,它对“像素集中在基干”和“基干上下沿有突变”这两个特征无贡献,但不会提供相反的特征。在实际的单词中,由于多个“l”同时出现在一个短的单词中的概率很低,它将被其余字母的上述两个特征淹没,如value、like、excellent等。上述的这些特征可以在粘连字符的水平方向像素投影图上反映出来。因此实施例可以通过分析待检测字符在水平方向像素投影曲线,来达到判断其字体属性的目的。
我们以图1对英文字母hope的水平投影图来看,很明显它满足前述小写字母的全部6条特征,包括:
1、基干在水平方向无间断;
2、它有基干上下沿的突变。
3、其基干上沿Hh点的位置明显低于行的上沿,本例中这个差距在20个像素以上。
4、其基干上沿Hl点的位置高于行的下沿,本例中这个差距在15个像素以上。
5、其基干部投影的最低点为Hmin点,它比基干以外的任何一个点像素值都要高。
6、上述基干部分的高度只有20,而本例中汉字平均高度为60左右;其宽高比为55/20=2.75,而汉字的平均宽高比大多很接近1,该宽高比汉字宽高比大很多。
下面我们再通过对部分中文汉字的水平投影图来结合分析以上规律是否正确,以下是用于分析的各投影图以及他们不满足的特征,其中:
1、图17是中文字词“及认”的水平投影图;
它不满足a)基干部分比较矮;b)基干的上下沿有突变的英文特点。
2、图18是中文字词“松树”的水平投影图;
它不满足基干的上下沿有突变的英文特点。
3、图19是中文字词“大于”的水平投影图;
它不满足基干部分比较矮的英文特点。
4、图20是中文字词“入计”的水平投影图;
它不满足基干部分投影的最低点比上/下部的最高点还高的英文特点。
5、图21是中文字词“近打”的水平投影图;
它不满足基干上沿的位置要明显低于行的上沿的英文特点。
6、图22是中文字词“补血”的水平投影图;
它不满足a)基干部分比较矮;b)基干部分宽高比很大的英文特点。
7、图23是中文字词“人过”的水平投影图;
它不满足基干部分投影的最低点比上/下部的最高点还高的英文特点。
8、图24是中文字词“分析”的水平投影图;
它不满足a)基干上沿的位置要明显低于行的上沿;b)基干部分比较矮的英文特点。
此外,在实际识别中,我们还可运用字符的垂直穿越笔画数进行辅助判断,垂直笔画穿越数可以简单地理解为某个字符在垂直方向的笔画数目,当然在不同位置这个数目是不同的,我们称最大的一个为该字符的垂直笔画穿越数。例如“三”的垂直笔画穿越数是3;“国”是6;“我”是4等。对比中文和小写英文字母,容易发现对于英文,除了某些字体的小写字母“g”外,所有的英文字母垂直穿越笔画数都小于等于3。而中文字符的垂直穿越笔画数分布很广泛,从一到十几都有。
综上所述,我们可以看到,通过对水平投影图的分析,我们能充分提取小写英文字母的特点,这些特点综合起来,可以与汉字进行很好的区别。比如通过找到基干上/下沿,较为圆满地解决了单词中字母上/下部的干扰,从而可利用英文基干的特点,如主干的上沿明显比行的上沿低等进行判断。
基于以上中英文所表现出来的规律以及特点,本发明给出了一种字体识别方法具体实施方式,图25为本发明实施例中字体识别流程示意图,如图所示为:
步骤2501、预切分,用常规方法初步过滤出需判别的粘连字符。
本步骤中首先用垂直投影的常规方法,检查待判别字符的宽度是否足够宽,若不够宽则说明为单个字符,改用单个字符的方法进行判断。在初步判断完特征明显的单个中文、英文字母、标点符号后,剩余的字符基本由宽、高异常的字符组成。
本步骤中,应参考文字行或文段落的平均字符宽,设平均字符宽为Wa,则只有当待判别字符的宽大于Wa*k时才继续进行,其中k是一个大于1的系数,在本实施例中取1.5。k为1时是为一个单独字符宽。小于1说明待判别字符不是粘连字符,因为粘连字符的一个基本特征是宽度较宽,粘连越严重宽度越宽。
步骤2502、用字符宽度进一步过滤需判别的字符。
可假设满足宽度较宽(与平均字宽比超过一定阈值),高度适中(在平均字高的某个范围内)的字符可能为粘连英文或粘连汉字。
步骤2503、判断待判别字符中是否有小写“g”
本步骤中,首先求出待判别字符的垂直笔画穿越数。由于在所有的小写英文字母中,只有某些字体字母“g”的最大笔画垂直穿越数等于4,其余所有字体、所有字母均小于4,而汉字的该穿越数从1到10左右都有分布,故穿越数大于4时,可断定为中文。当穿越数等于4时,可用模板法等判断该区域是否为字母“g”,若是,由于实际文稿中英文与中文粘连的情况极少,可认为整个粘连字符为英文的概率较大,在下面的分析中可对判为英文的条件加权。
步骤2504、获取水平投影图,求得字符基干上、下沿等特征值。
步骤2505、统计待判别字符像素的水平投影,根据每一高度与这一高度下的像素值关系,用投影图分析特征值,进行是否中英文的判断。
图26为实施例中根据每一高度与这一高度下的像素值关系识别中英文的流程示意图,如图所示,步骤为:
步骤2601、求出水平投影图中每点的梯度值G(x);根据前述的梯度突变方法查找基干上沿、下沿,进行中英文判别,具体为:
在水平投影图中,从x坐标从小到大的方向查找第一个梯度值超过指定的阈值的点,若该点存在,说明找到了基干上沿,将其记为第一标识点,记其在投影图上的位置是Hh,否则说明字符无上部与中部的突变点,可判定待判别字符非英文。
同理可从后向前查找字符下部与中部交界的突变点Hl,确定基干下沿,将其记为第二标识点,如果字符无下部与中部的突变点,则可以判断是非英文。
以图1对英文字母hope的水平投影图为例,从x坐标从小到大的方向遍历每点的梯度G(x),当找到梯度值超过指定第一阈值的Hh点后,认为找到了该字符的基干上沿(即第一标识点),图中Hh=16处的梯度为(G(16)-G(16-2)))/2=(52-6)/2=23,是一个很大的值,而其它绝大多数点的梯度值都在10以下,例如G(6)=0,G(19)=10等。说明在Hh点处发生了梯度突变。同理,与第二阈值比较可求得基干下沿Hl点(即第二标识点)。
由此可得到一系列的特征值,包括:Hh与该待判定字符所在行的上沿的差Dh;基干高Hh-Hl;基干部分的宽高比W/(Hh-Hl)等。
步骤2602、根据第一标识点对应的像素值与字符所在行的上沿之差与第三比较阀值识别中英文。
这时若Dh过小,则不符合英文的特征,可确定待判定字符不是英文。
步骤2603、根据第一标识点与第二标识点的高度差值与待判定字符宽度之比与第四比较阀值识别中英文。
这时若基干部分的宽高比W/(Hh-Hl)过小,则不符合英文的特征,可确定待判定字符不是英文。
步骤2604、根据第一标识点与第二标识点的高度差值与第五比较阀值识别中英文。
第一标识点与第二标识点的高度差值,即为字符的基干高度。因为小写英文字符的基干高度是一个基本恒定的值,而汉字的基干高度分布很广,比如对汉字“一”,它的基干高度很非常矮。这时若基干高度过小,则不符合英文的特征,可确定待判定字符不是英文。
步骤2605、根据第二标识点对应的像素值与字符所在行的下沿之差与第六比较阀值识别中英文。
记基干下沿突变点Hl与行下沿的差为Dl,若Dl过小,说明下沿太靠下,不符合英文的特征。否则继续检查其下沿,若字符下沿比行的下沿还低,说明是y、j等有向下沿伸的字符,这些字符应满足下沿超出行均字符下沿的条件。
步骤2606、找出整个投影曲线上的最小值点,根据该点与第一标识点、第二标识点之间的位置关系识别中英文。
在整个投影图上找出y值最小的点,若该点位于基干的上下沿之间,说明待判别字符不是英文。其物理意义为:对小写字母组成的字符,其基干部分在水平方向笔画较多,相映的像素值也就较大,以至于水平像素值在该区间内的最小值,都应该比其它区间(字符的上/下部)内的最大值还要大。
步骤2607、根据第一标识点与第二标识点的高度差值与平均汉字的高度值,识别中英文。
根据第一标识点与第二标识点的高度差值求出基干部分的高度,其高度应比平均汉字高小。
步骤2608、根据第一标识点与第二标识点的高度差与该待判别字符宽度之比与平均汉字的高度与宽度之比,识别中英文。
求出基干部分的宽高比,其宽高比应比平均汉字宽高比大。
基于上述的中英文字体在水平投影曲线上所表现出来的规律和特点,本发明还提供了一种字体识别系统的具体实施方式,图27为实施例中字体识别系统结构示意图,如图所示,在实施例系统中包括:
垂直投影模块2701,用于将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据,这些数据包括字符数据与字符行数据包括字符宽度、高度、行高、平均字符行高度等,用于下面的字体识别比较;
第一比较识别模块2702,用于根据字符宽度与平均字符宽之比与第一比较阈值识别中英文,它主要是通过垂直投影得到的数据,先将特征明显的单个中文、英文字母、标点符号区别出来后,则剩余的字符基本由宽、高异常的字符组成;
水平投影模块2703,用于对字符进行水平投影,得出每一投影高度下像素值;
识别模块2704,用于根据每一高度与这一高度下的像素值关系识别中英文。
第二比较识别模块2705,用于根据字符的垂直穿越笔画数识别中英文。
图28为实施例系统中识别模块的结构示意图,如图所示,识别模块中包括:
梯度计算单元2801,用于求出投影图上每点的梯度值。
标识单元2802,用于根据每点的梯度值与第二比较阀值比较结果,标记出待判别字符的基干上沿为第一标识点,基干下沿为第二标识点;
第一比较识别单元2803,用于根据第一标识点对应的像素值与字符所在行的上沿之差与第三比较阀值识别中英文。
第二比较识别单元2804,用于根据第一标识点与第二标识点的高度差值与待判定字符宽度之比与第四比较阀值识别中英文。
第三比较识别单元2805,用于根据第一标识与第二标识点的高度差值与第五比较阀值识别中英文。
第四比较识别单元2806,用于根据第二标识点对应的像素值与字符所在行的下沿之差与第六比较阀值识识别中英文。
第五比较识别单元2807,用于找出整个投影曲线上的最小值点,根据该点与第一标识点、第二标识点之间的位置关系识别中英文。
第六比较识别单元2808,用于第一标识点与第二标识点的高度差值与平均汉字的高度值,识别中英文。
第七比较识别单元2809,用于根据第一标识点与第二标识点的高度差与该待判别字符宽度之比与平均汉字的高度与宽度之比,识别中英文。。
可以看到,本发明通过分析所得的水平投影曲线,通过投影后整行的所表现出的字符高度与像素之间的几何特性,来判断字符的属性,使得识别效率很高,而且具有英文单词的粘连越严重,判别的可靠性越高的特点,从而能有效地区分中文字符与粘连英文字符,提高OCR的识别率。

Claims (19)

1、一种字体识别方法,其特征在于,包括如下步骤:
步骤a、将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据;
步骤b、根据字符宽度与平均字符宽之比与第一比较阈值,识别中英文;
步骤c、对未识别出字符进行水平投影,得出每一投影高度下像素值;
步骤d、根据所述每一高度与这一高度下的像素值关系识别中英文。
2、如权利要求1所述的方法,其特征在于,所述步骤d包括如下步骤:
检测每个投影点的梯度值;
根据每点的梯度,按梯度与第一、第二阀值比较的结果,依次标记出投影图中的第一标识点、第二标识点;
根据第一标识点对应的像素值与字符所在行的上沿之差与第三比较阀值识别中英文。
3、如权利要求2所述的方法,其特征在于,进一步包括如下步骤:
根据第一标识点与第二标识点的高度差值与待判定字符宽度之比与第四比较阀值识别中英文。
4、如权利要求2所述的方法,其特征在于,进一步包括如下步骤:
根据第一标识点与第二标识点的高度差值与第五比较阀值识别中英文。
5、如权利要求2所述的方法,其特征在于,进一步包括如下步骤:
根据第二标识点对应的像素值与字符所在行的下沿之差与第六比较阀值识别中英文。
6、如权利要求2所述的方法,其特征在于,进一步包括如下步骤:
找出整个投影曲线上的最小值点,根据该点与第一标识点、第二标识点之间的位置关系识别中英文。
7、如权利要求2所述的方法,其特征在于,进一步包括如下步骤:
根据第一标识点与第二标识点的高度差值与平均汉字的高度值,识别中英文。
8、如权利要求2所述的方法,其特征在于,进一步包括如下步骤:
根据第一标识点与第二标识点的高度差与该待判别字符宽度之比与平均汉字的高度与宽度之比,识别中英文。
9、如权利要求1所述的方法,其特征在于,进一步包括如下步骤:
根据字符的垂直穿越笔画数识别中英文。
10、如权利要求1所述的方法,其特征在于,所述字符数据与字符行数据包括字符宽度、高度、行高、平均字符行高度。
11、一种字体识别系统,包括用于将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据的垂直投影模块、用于根据字符宽度与平均字符宽之比与第一比较阈值识别中英文的第一比较识别模块;
其特征在于,还包括水平投影模块、识别模块,其中:
水平投影模块,用于对所述第一比较识别模块未识别出字符进行水平投影,得出每一投影高度下像素值;
识别模块,用于根据所述每一高度与这一高度下的像素值关系识别中英文。
12、如权利要求11所述的系统,其特征在于,所述识别模块包括梯度计算单元、标识单元、第一比较识别单元,其中:
梯度计算单元,用于检测每点的像素梯度值;
标识单元,根据每点的梯度,按梯度与第一、第二阀值比较的结果,依次标记出投影图中的第一标识点、第二标识点;
第一比较识别单元,用于根据第一标识点对应的像素值与字符所在行的上沿之差与第三比较阀值识别中英文。
13、如权利要求12所述的系统,其特征在于,所述识别模块进一步包括:
第二比较识别单元,用于根据第一标识点与第二标识点的高度差值与待判定字符宽度之比与第四比较阀值识别中英文。
14、如权利要求12所述的系统,其特征在于,所述识别模块进一步包括:
第三比较识别单元,用于根据第一标识点与第二标识点的高度差值与第五比较阀值识别中英文。
15、如权利要求12所述的系统,其特征在于,所述识别模块进一步包括:
第四比较识别单元,用于根据第二标识点对应的像素值与字符所在行的下沿之差与第六比较阀值识别中英文。
16、如权利要求12所述的系统,其特征在于,所述识别模块进一步包括:
第五比较识别单元,用于找出整个投影曲线上的最小值点,根据该点与第一标识点、第二标识点之间的位置关系识别中英文。
17、如权利要求12所述的系统,其特征在于,所述识别模块进一步包括:
第六比较识别单元,用于根据第一标识点与第二标识点的高度差值与平均汉字的高度值,识别中英文。
18、如权利要求12所述的系统,其特征在于,所述识别模块进一步包括:
第七比较识别单元,用于根据第一标识点与第二标识点的高度差与该待判别字符宽度之比与平均汉字的高度与宽度之比,识别中英文。
19、如权利要求11所述的系统,其特征在于,进一步包括:
第二比较识别模块,用于根据字符的垂直穿越笔画数识别中英文。
CNB200610089489XA 2006-06-29 2006-06-29 一种字体识别方法及系统 Expired - Fee Related CN100533466C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200610089489XA CN100533466C (zh) 2006-06-29 2006-06-29 一种字体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200610089489XA CN100533466C (zh) 2006-06-29 2006-06-29 一种字体识别方法及系统

Publications (2)

Publication Number Publication Date
CN101097600A true CN101097600A (zh) 2008-01-02
CN100533466C CN100533466C (zh) 2009-08-26

Family

ID=39011426

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200610089489XA Expired - Fee Related CN100533466C (zh) 2006-06-29 2006-06-29 一种字体识别方法及系统

Country Status (1)

Country Link
CN (1) CN100533466C (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN102511048A (zh) * 2009-12-31 2012-06-20 塔塔咨询服务有限公司 一种用于预处理包括文本的视频区域的方法及系统
CN102567725A (zh) * 2011-12-23 2012-07-11 国网电力科学研究院 一种金融ocr系统手写体数字串的软切分方法
CN103020621A (zh) * 2012-12-25 2013-04-03 深圳深讯和科技有限公司 中英文混排文字图像的切割方法及装置
CN103279753A (zh) * 2013-06-09 2013-09-04 中国科学院自动化研究所 一种基于树结构指导的英文场景文本块识别方法
WO2014075386A1 (zh) * 2012-11-14 2014-05-22 福州福昕软件开发有限公司北京分公司 一种识别pdf文件中的空格的方法
CN104463157A (zh) * 2014-11-07 2015-03-25 李宇 手写字符的电子识别方法
CN104516859A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种文字修正方法及系统
CN104704510A (zh) * 2012-10-10 2015-06-10 摩托罗拉解决方案公司 识别在文档中使用的语言并且基于识别的语言执行ocr识别的方法和装置
CN105354834A (zh) * 2015-10-15 2016-02-24 广东欧珀移动通信有限公司 一种统计纸质文本字体个数的方法及装置
CN106156794A (zh) * 2016-07-01 2016-11-23 北京旷视科技有限公司 基于文字风格识别的文字识别方法及装置
CN106710063A (zh) * 2016-12-27 2017-05-24 陕西科技大学 一种基于计算机视觉的人民币冠字号码数字识别方法
CN107067005A (zh) * 2017-04-10 2017-08-18 深圳爱拼信息科技有限公司 一种中英混合ocr字符切割的方法及装置
CN107578043A (zh) * 2017-09-08 2018-01-12 桂林加宏汽车修理有限公司 一种英文翻译方法及系统
CN109460701A (zh) * 2018-09-10 2019-03-12 昆明理工大学 一种基于纵横直方图的字体识别方法
CN109727363A (zh) * 2018-11-16 2019-05-07 恒银金融科技股份有限公司 一种在票据中识别大写金额的方法
CN109800756A (zh) * 2018-12-14 2019-05-24 华南理工大学 一种用于中文历史文献密集文本的文字检测识别方法
CN111339803A (zh) * 2018-12-19 2020-06-26 北大方正集团有限公司 字体识别方法、装置、设备及计算机可读存储介质
CN112101351A (zh) * 2020-09-07 2020-12-18 凌云光技术股份有限公司 一种基于投影的文本行旋转校正方法及装置

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102511048A (zh) * 2009-12-31 2012-06-20 塔塔咨询服务有限公司 一种用于预处理包括文本的视频区域的方法及系统
CN102511048B (zh) * 2009-12-31 2015-08-26 塔塔咨询服务有限公司 一种用于预处理包括文本的视频区域的方法及系统
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN102567725A (zh) * 2011-12-23 2012-07-11 国网电力科学研究院 一种金融ocr系统手写体数字串的软切分方法
CN104704510A (zh) * 2012-10-10 2015-06-10 摩托罗拉解决方案公司 识别在文档中使用的语言并且基于识别的语言执行ocr识别的方法和装置
CN104704510B (zh) * 2012-10-10 2018-08-31 摩托罗拉解决方案公司 识别在文档中使用的语言并且基于识别的语言执行ocr识别的方法和装置
WO2014075386A1 (zh) * 2012-11-14 2014-05-22 福州福昕软件开发有限公司北京分公司 一种识别pdf文件中的空格的方法
CN103020621A (zh) * 2012-12-25 2013-04-03 深圳深讯和科技有限公司 中英文混排文字图像的切割方法及装置
CN103279753A (zh) * 2013-06-09 2013-09-04 中国科学院自动化研究所 一种基于树结构指导的英文场景文本块识别方法
CN103279753B (zh) * 2013-06-09 2016-03-09 中国科学院自动化研究所 一种基于树结构指导的英文场景文本块识别方法
CN104516859A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种文字修正方法及系统
CN104516859B (zh) * 2013-09-27 2018-02-13 北大方正集团有限公司 一种文字修正方法及系统
CN104463157A (zh) * 2014-11-07 2015-03-25 李宇 手写字符的电子识别方法
CN104463157B (zh) * 2014-11-07 2019-03-12 李宇 手写字符的电子识别方法
CN105354834A (zh) * 2015-10-15 2016-02-24 广东欧珀移动通信有限公司 一种统计纸质文本字体个数的方法及装置
CN105354834B (zh) * 2015-10-15 2018-04-17 广东欧珀移动通信有限公司 一种统计纸质文本字体个数的方法及装置
CN106156794A (zh) * 2016-07-01 2016-11-23 北京旷视科技有限公司 基于文字风格识别的文字识别方法及装置
CN106156794B (zh) * 2016-07-01 2020-12-25 北京旷视科技有限公司 基于文字风格识别的文字识别方法及装置
CN106710063A (zh) * 2016-12-27 2017-05-24 陕西科技大学 一种基于计算机视觉的人民币冠字号码数字识别方法
CN107067005A (zh) * 2017-04-10 2017-08-18 深圳爱拼信息科技有限公司 一种中英混合ocr字符切割的方法及装置
CN107578043A (zh) * 2017-09-08 2018-01-12 桂林加宏汽车修理有限公司 一种英文翻译方法及系统
CN109460701A (zh) * 2018-09-10 2019-03-12 昆明理工大学 一种基于纵横直方图的字体识别方法
CN109460701B (zh) * 2018-09-10 2020-09-25 昆明理工大学 一种基于纵横直方图的字体识别方法
CN109727363A (zh) * 2018-11-16 2019-05-07 恒银金融科技股份有限公司 一种在票据中识别大写金额的方法
CN109800756A (zh) * 2018-12-14 2019-05-24 华南理工大学 一种用于中文历史文献密集文本的文字检测识别方法
CN109800756B (zh) * 2018-12-14 2021-02-12 华南理工大学 一种用于中文历史文献密集文本的文字检测识别方法
CN111339803A (zh) * 2018-12-19 2020-06-26 北大方正集团有限公司 字体识别方法、装置、设备及计算机可读存储介质
CN111339803B (zh) * 2018-12-19 2023-10-24 新方正控股发展有限责任公司 字体识别方法、装置、设备及计算机可读存储介质
CN112101351A (zh) * 2020-09-07 2020-12-18 凌云光技术股份有限公司 一种基于投影的文本行旋转校正方法及装置
CN112101351B (zh) * 2020-09-07 2024-04-19 凌云光技术股份有限公司 一种基于投影的文本行旋转校正方法及装置

Also Published As

Publication number Publication date
CN100533466C (zh) 2009-08-26

Similar Documents

Publication Publication Date Title
CN100533466C (zh) 一种字体识别方法及系统
Tripathy et al. Handwriting segmentation of unconstrained Oriya text
Jain et al. Writer identification using an alphabet of contour gradient descriptors
CN101299236B (zh) 一种中文手写词组识别方法
Jain et al. Structure in on-line documents
CN102833638B (zh) 基于字幕信息的视频自动切分及标注方法及系统
CN101290659B (zh) 基于组合分类器的手写识别方法
Zeki The segmentation problem in arabic character recognition the state of the art
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
CN105095196A (zh) 文本中新词发现的方法和装置
CN106127265A (zh) 一种基于激活力模型的图片中文本识别纠错方法
Mullick et al. An efficient line segmentation approach for handwritten Bangla document image
CN107730511B (zh) 一种基于基线估计的藏文历史文献文本行切分方法
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
Wshah et al. A novel lexicon reduction method for Arabic handwriting recognition
Shafait et al. Layout analysis of Urdu document images
CN102968610B (zh) 收据图像处理方法和设备
CN109740147A (zh) 一种大数量人才简历去重匹配分析方法
Rusinol et al. CVC-UAB's Participation in the Flowchart Recognition Task of CLEF-IP 2012.
CN106127118A (zh) 一种英语单词识别方法和装置
Elnagar et al. A multi-agent approach to arabic handwritten text segmentation
CN109325159A (zh) 一种微博热点事件挖掘方法
Lin et al. Classifying textual components of bilingual documents with decision-tree support vector machines
Mashiyat et al. Bangla off-line handwritten character recognition using superimposed matrices
Yao et al. On-line handwritten Chinese word recognition based on lexicon

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220908

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090826

CF01 Termination of patent right due to non-payment of annual fee