CN105654082B - 字符识别后处理方法、设备及包括该设备的图像拾取设备 - Google Patents
字符识别后处理方法、设备及包括该设备的图像拾取设备 Download PDFInfo
- Publication number
- CN105654082B CN105654082B CN201410645514.2A CN201410645514A CN105654082B CN 105654082 B CN105654082 B CN 105654082B CN 201410645514 A CN201410645514 A CN 201410645514A CN 105654082 B CN105654082 B CN 105654082B
- Authority
- CN
- China
- Prior art keywords
- baseline
- vertex
- character
- line
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
一种字符识别后处理方法、设备及包括该设备的图像拾取设备。该方法包括:组件识别步骤,从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取步骤,获取组件的与字符方向线的距离最大的顶点与底点;消失点确定步骤,使用顶线和底线的交叉点来确定消失点,其中顶线是基于各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定步骤,基于所确定的消失点来确定至少两条基线;以及字符校正步骤,基于所确定的基线来校正所述识别结果。
Description
技术领域
本申请总地涉及计算机视觉和图像处理领域,特别涉及可以在严重透视畸变情况下提供准确的基线计算结果的字符识别后处理方法、字符识别后处理设备。本申请还涉及包括该字符识别后处理设备的图像拾取设备。
背景技术
随着配有照相机的手持设备的发展,基于照相机的移动OCR(光学字符识别)应用在多种环境中存在迫切的需要,这些环境如文档的室外数字化、外文街头符号识别、以及针对弱视者的字音输入等。
传统的字符识别过程大致可包括文字区域检测步骤、预处理步骤、字符切割步骤、字符识别步骤和后处理步骤。在OCR中基于字符尺寸和位置进行的后处理步骤是非常重要的,其旨在校正不同尺寸的字符(拉丁字符的大小写字符,平假名和片假名的大小字符等),标点与字符混淆等。后处理步骤通常利用基线信息,这是因为准确的基线信息可以准确地描述每个字符的位置和尺寸。
但是在基于照相机的图像捕获中,由视角变化引起的透视畸变是常见现象,透视畸变可以包括由于被拍摄的字符相对于照相机的光轴存在各种角度而引起的相对于原始字符的成像畸变。特别地,在文档图像之外的其它自然场景图像中,透视畸变可能很严重。透视畸变将影响基线计算,由此进一步对识别结果的准确度有不利影响。因此在透视畸变情况下计算多个基线几乎成为OCR的必需过程。
例如,在文档字符识别中应用的传统基线计算方法可以被分为两类:基于文字方向聚类的方法和基于投影柱状图的方法。
基于文字方向聚类的方法假定没有严重的透视畸变并且可通过聚类方法来区分基线1、2、3、4。图1A示例性示出字符行与四个级别的基线之间的对应关系。该方法针对每个字符提取顶点和底点,并然后把顶点集和底点集分别沿着文字方向聚类为两个组。最后,可以通过在每个组内执行线性拟合来容易地获得相应的基线。图1B示出该方法的流程图,包括如下步骤:组件提取步骤S101,从文字行图像中提取字符组件;组件识别步骤S102,使用字符识别引擎来识别字符组件;基线确定步骤S103,根据文字方向来确定各个基线;以及校正步骤S104,根据各个基线来校正识别结果。
尽管该方法可以在透视畸变较小的情况下取得较好效果,但是不适于自然场景图像。这是因为当存在严重的透视畸变的情况下,来自不同基线级别的点距离非常近甚至可能混在一起,所以难以正确地把点聚类为两个组。此外,当场景中的文字比较短时,在特定基线级别可能甚至只有一个点,从而难以确定该基线的方向。
另一方面,基于投影柱状图的方法从字符提取像素,然后将其沿着文字方向投影。根据投影柱状图的峰来确定各基线的位置。该方法适于没有透视畸变的普通文档图像。然而,当在自然场景的情况下发生严重畸变时不能找到两个峰,因此不能正确地计算基线。另一个限制是投影柱状图对总是被指定为文字方向的投影方向敏感。
在视角变化的情况下,一些方法试图首先确定消失点。例如,美国专利公开US7333676公开了一种用于识别场景图的图像序列中的文字的方法和装置,其中,通过以各种角度旋转文字行并然后在垂直边缘过渡上计算一系列水平投影来估计顶线和底线。这些顶线和底线的最好估计应该对应于在水平投影一侧上产生最陡斜率的旋转角度。该方法的主要问题是其顶线可能不太准确,这是因为其并不明显区分基线1和基线2。此外,遍历多个旋转角度来获取投影也是耗时的。
在另一例子中,中国专利公开CN101458770公开了识别文字的方法和装置并且还提供了消失点确定方法。对于垂直消失点而言,首先从所有水平文字行提取左端点和右端点。然后,从左端点对获得所有左线并且从右端点对中获得所有右线。每个左线和右线可以确定一个交叉点,通过加权的交叉点来估计垂直消失点。该方法并不滤除不可靠的点(或线),因此是不精确的。此外,在端点数量较小时,难以通过该方法获得可靠的消失点。
由此可见现有技术的方法存在在严重透视畸变或短文字的情况下难以准确有效地计算基线来进行后处理的问题。
发明内容
本申请的目的之一是要在严重透视畸变或短文字的情况下准确高效地计算基线,而基本上不依赖文字行方向,从而提高了字符识别的准确性。
本申请的一方面涉及一种字符识别后处理方法,包括:组件识别步骤,从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取步骤,获取各组件的与字符方向线的距离最大的顶点与底点;消失点确定步骤,使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定步骤,基于所确定的消失点来确定至少两条基线;以及字符校正步骤,基于所确定的基线来校正所述识别结果。
本申请的另一方面涉及一种字符识别后处理设备,包括:组件识别装置,被配置为从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取装置,被配置为获取组件的与字符方向线的距离最大的顶点与底点;消失点确定装置,被配置为使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定装置,被配置为基于所确定的消失点来确定至少两条基线;以及字符校正装置,被配置为基于所确定的基线来校正所述识别结果。
本申请的又一方面涉及一种图像拾取设备,包括:成像设备,被配置为获取输入图像;字符识别设备,被配置为识别输入图像中的字符;以及如前所述的字符识别后处理设备,被配置为对所识别的字符进行后处理。
因此,根据本申请的各方面,可以在严重透视畸变或短文字的情况下与文字行方向基本无关地准确高效地计算基线,从而提高了字符识别的准确性和效率。
附图说明
下面结合具体的实施例,并参照附图,对本申请的实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1A和图1B分别示出现有技术中的字符行与四条基线之间的对应关系以及基于文字方向聚类的方法的流程图;
图2示出根据本申请的实施例的字符识别后处理方法的流程图;
图3A-3C分别示出字符行区域图像、预处理之后的图像以及提取组件之后的图像的示例;
图4A-4B和图4C-4D分别示出字符方向线获取过程的两个实施例以及图4E示出该过程的结果;
图5示出根据一个实施例的顶线确定过程的流程图;
图6A示出根据一个实施例的主角度范围确定过程的流程图以及图6B-6C是该过程的示意图;
图7A和图7B-7D分别示出根据一个实施例的顶点组确定过程的流程图和示意图;图7E示出另一个实施例的顶点组确定过程的流程图;图7F示出根据这两个实施例确定消失点的结果的示意图;
图8A示出根据一个实施例的基线确定过程的流程图;图8B和图8C-8D分别示出根据一个实施例的第一基线确定过程的流程图和示意图;
图9示出根据一个实施例的字符识别后处理设备的示例性配置的框图;
图10示出根据一个实施例的图像拾取设备的示例性配置的框图;以及
图11示出能够实施本申请的实施例的计算机系统的硬件配置的框图。
具体实施方式
在下文中将结合附图对本申请的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实施例的所有特征。然而,应该了解,在对实施例进行实施的过程中必须做出很多特定于实施方式的设置,以便实现开发人员的具体目标,例如,符合与设备及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还应当注意,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出了与至少根据本申请的方案密切相关的处理步骤和/或设备结构,而省略了与本申请关系不大的其他细节。
在下文中,按照以下顺序进行描述。
1.字符识别后处理方法的总体过程
2.消失点确定过程中的顶线确定过程
2-1主角度范围确定过程
2-2顶点组确定过程
(第一实施例)
(第二实施例)
2-3顶线获取过程
3.基线确定过程
3-1第一基线确定过程
3-2判断过程
4.字符识别后处理设备的结构
5.字符识别后处理方法和设备的效果
6.包含字符识别后处理设备的图像拾取设备
7.用以实施本申请的设备和方法的计算设备
1.字符识别后处理方法的总体过程
首先,图2示出根据本申请的实施例的字符识别后处理方法的流程图。在该方法中,通过确定可靠的顶线和底线来确定消失点。然后,可基于所确定的消失点来准确地确定至少两条基线。
步骤S201是组件识别步骤,其中从字符行区域图像中提取组件并获得组件的识别结果。组件例如可代表英文字母、中文字符或日文字符等。下文主要以英文字母为例进行说明,但如后面所述,这些说明也可以在稍加调整之后适用于中文字符和日文字符等。
字符行区域图像的一个示例在图3A中示出。该图像可以是用照相机直接对文档进行拍摄得到的,也可以是从拍摄的自然场景图像中检测到的。在后一种情况下,使用例如基于MSER(Maximally Stable External Regions,最大稳定极值区域)的方法或滑动窗口法来从场景图像中获得该字符行区域图像。
优选地,从这样的区域图像中提取组件可以先使用如二值化方法来进行预处理,以便获得前景像素。然后,使用如连通量分析(connected component analysis)方法来从前景像素中提取连通量并把连通量或其组合作为组件。提取组件的方法不限于连通量分析方法,也可以使用其它方法如边缘提取等来提取组件。
对该区域图像进行预处理如二值化处理等之后获得的结果和提取组件的结果分别在图3B和图3C中示出。如图3C所示,每个方框中的部分是一个组件。
所提取的组件可以使用常用的字符识别引擎来进行识别。但是所识别出的结果并非总是很准确并且一般需要在字符大小写或字符标点混淆方面需要进行后处理。
步骤S202是顶点和底点获取步骤,其中获取各组件的与字符方向线的距离最大的顶点与底点。
根据一个实施例,如图4A所示,在提取组件之后,首先在步骤S401中确定所有组件的中心点,例如根据方框的坐标来确定中心点。接下来在步骤S402中,可使用所确定的中心点通过线性拟合方法获得字符方向线,例如使得从每个中心点到该字符方向线的距离的平方和最小。图4B示出根据该实施例所获得的字符方向线。此处,字符方向线是表示字符总体方向的线,如图4B中的401所指示。
根据又一个实施例,如图4C所示,首先在步骤S401’中基于识别结果来针对每个组件设置与基线级别有关的属性。具体而言,根据识别结果,可知一些组件具有固定的尺寸,例如字母“A”仅通过基线1-3而字母y仅通过基线2-4,因此可以把基线1-3作为属性分配给字母“A”而把基线2-4作为属性分配给字母“y”。接下来在步骤S402’中选择具有相同属性的至少两个组件,在该实施例中,所选组件为属于基线1-3的“F”、“i”、“l”、“M”和“代”,如图4D所示。最后,在步骤S403中,与前一实施例的步骤S402类似地,使用所选组件的中心点通过线性拟合方法获得字符方向线。图4D示出了根据该实施例所获得的字符方向线,如标记401’所指示。
在获得了字符方向线之后,可以获得组件的与该字符方向线的距离最大的顶点与底点。例如,可以使用轮廓检测方法来生成每个组件的轮廓像素。每个组件的上方轮廓像素中与该字符方向线距离最大的像素点就被确定为组件的顶点,如图4E所示。类似地可确定组件的底点。
下面继续图2的描述。步骤S203是消失点确定步骤,其中使用顶线和底线的交叉点来确定消失点。顶线是基于各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的。如此确定的顶线和底线是非常可靠的,其具体确定方法将在后面描述。
由于该步骤S203中顶线和底线是非常可靠的,其交叉点就可以用于准确地确定消失点。
接下来,步骤S204是基线确定步骤,其中基于所确定的消失点来确定至少两条基线。因为消失点是准确的,所以其可以进一步用于准确地确定基线。确定基线的方式也将在后文详细描述。
优选地,因为所有英文字母都可由四条基线覆盖,所以可以使用消失点及顶点和底点来确定四条基线。
特别地,对于短英文单词,可能在某个基线级别上只有一个顶点或一个底点,这时现有技术中的基于文字方向聚类方法难以得到该级别的准确基线。但是根据本申请的方法可见,使用可靠的消失点和该唯一顶点或底点可以准确确定与该等级的基线。
最后步骤S205是字符校正步骤,其中基于所确定的基线来校正识别结果。也就是说,在确定了准确的基线之后,可以更准确地对字母的大小写(如“c”和“C”)以及字母与标点混淆(如“。”和“O”或“°”)进行区分并校正,从而得到更加准确的识别结果。
因此,根据本申请的实施例的字符识别后处理方法仅在确定顶点和底点时使用了字符方向线,在其它步骤中都不需要进行依赖于字符方向线的投影,因此基本上可以在各种透视畸变情况下都准确地进行后处理。此外,因为如后文所述那样顶线和底线的确定方式抑制了噪声点的影响,因此顶线和底线是可靠的,并可用于准确确定消失点并因而准确确定各基线。而且,甚至在顶点数量极小时,也可以准确地确定相应级别的基线。最后,本申请的方法不需要遍历多个旋转角度来获取投影,从而降低了成本,提高了效率。通过阅读下面的详细描述可以更好地理解这些优点。
2.消失点确定过程中的顶线确定过程
图5示出根据本申请的实施例的消失点确定步骤S203中的顶线确定过程的流程图。在图5中,步骤S501是主角度范围确定步骤,其中计算连接任两个顶点的线段的角度并确定包含最大线段数量的角度范围作为主角度范围。步骤S502是顶点组确定步骤,其中根据主角度范围来确定所述顶点组,这将在后面进一步具体说明。步骤S503是顶线获取步骤,其中基于所述顶点组通过线性拟合方法来获得顶线。
2-1主角度范围确定过程
下面参照图6A-6C来描述主角度范围确定步骤S501。图6A示出主角度范围确定过程的流程图,在步骤S601中,计算连接任两个顶点的线段的角度。图6B示出了图4E中获得的组件的顶点pt1-pt9以及为了清楚仅示出把顶点pt1与其它顶点pt2-pt9相连接的线段。例如,可以以水平线为基准,计算这些线段的角度,当然也可以根据需要以其它适当方向为基准来进行角度计算。然后在步骤S602中,对像平面的角度空间(如-90°至+90°)进行划分,例如以水平方向为基准,以5°为间隔分隔为36个角度范围。最后,在步骤S603中,选择包括最大线段数量的角度范围,作为主角度范围。图6C示出选择的结果,可见在该实施例中包含最多数量的线段的角度范围[0°,5°]被选择为主角度范围。
这里虽然以5°为例进行说明,但是应当理解,在字符识别应用中,可以根据实际需要和效果灵活调整该间隔,例如为3°、6°或9°等。也就是说,如果一开始选择了过小的角度间隔,如1°,并且效果不令人满意,则可以递增为2°,以此类推。
2-2顶点组确定过程
(第一实施例)
接下来分别参照图7A至7D来描述根据一个实施例的顶点组确定过程的流程图。在该实施例中通过加权拟合直线来确定可靠的顶点组。
步骤S701是顶点记录步骤,在该步骤中记录其角度在主角度范围内的线段的顶点及其在这些线段中的出现次数。图7B示意地示出了所记录的在主角度范围[0°,5°]内的顶点pt1-pt9,并且为了简洁仅列出了pt1和pt2的出现次数,即pt1出现4次而pt2出现3次,其它顶点及其出现次数也可类似地列出。因为连接如此选择的顶点的线段都位于主角度范围内,所以在这个意义上这些线段的斜率彼此之间是相一致的。
步骤S702是第一分割线获取步骤,其中使用所记录的顶点并把出现次数作为权重进行线性拟合来获取第一分割线701。可以使用任何常用的直线拟合方法。一般而言,并非顶点的噪声点的出现次数比顶点的出现次数小得多。如图7C所示,主角度范围内存在与噪声点ptN相连的一个线段,此时,ptN的出现次数为1,小于顶点的出现次数。因此,根据该实施例,噪声点的权重最小,通过使用各点并且把其出现次数作为权重来拟合直线,可以最大限度的抑制噪声点的影响。此处,拟合直线时顶点的权重例如可以理解为把该顶点视为数量等于权重的多个相同顶点。
步骤S703是顶点组选择步骤,其中从第一分割线701将所记录的顶点pt1-pt9划分出的第一组和第二组中选择总顶点出现次数较大的组作为可靠的顶点组。如图7D所示,在由三角形顶点pt1、pt4、pt5、pt7和pt9组成的第一组中,每个顶点出现4次,总出现次数为20次,而由圆顶点pt2、pt3、pt6和pt8组成的第二组中,每个顶点出现3次,总出现次数为12次。因此选择总出现次数较大的第一组作为所需的顶点组。根据以上描述可见,通过主角度范围滤除了大部分噪声点并且在该范围内剩余的点主要是基线1和基线2的点。因为分割线701是使用出现次数作为权重而拟合出的,所以该分割线701可以把基线1和基线2的点准确分开。进一步地,这两个顶点组点中总出现次数较大的顶点组中的顶点的连线更接近直线,也就是说这些线段彼此之间具有相一致或更接近的截距。
(第二实施例)
根据主角度范围来确定顶点组的方法不限于以上所述的方法,其它方法也是可用的,只要能够获得其顶点的线段彼此具有相一致的斜率和截距的顶点组即可。接下来参照图7E来描述根据另一个实施例的顶点组确定过程的流程图。在该实施例中通过求解图论中的最大割问题来确定可靠的顶点组。
步骤S701’是构图步骤,以连接任何两个顶点的线段为边并且以这些线段的角度与主角度范围之间的差值为权重来构图。例如,可以使用在步骤S601中计算出的线段的角度,然后计算其与主角度范围接近的一端之间的差值。当然也可以计算其与主角度范围中心点之间的差值。然后根据图论原理,组件的这些顶点、连接顶点的线段、以及与线段相关的权重可以构成一个图。
S702’是求解最大割步骤,其中对所得到的图应用加权最大割求解方法以获得两个顶点组,使得每一组内各顶点对的权重之和最小化,两组之间各顶点对的权重之和最大化。这对应于图论中的“加权最大割”问题,其求解方法可以从已有的文献中找到。例如,可参见Goemans,Michel X.;Williamson,David P.(1995),"Improved approximationalgorithms for maximum cut and satisfiability problems using semidefiniteprogramming",Journal of the ACM 42(6):1115–1145。在此不再重复描述。
S703’是顶点组选择步骤,从步骤S702’得到的两个组中选择角度在主角度范围中的线段中的顶点的总出现次数较大的组作为所述顶点组。与第一实施例类似地,所选的顶点组内的连接顶点对的线段彼此具有相一致的斜率和截距。这里相一致的意思是在所选的主角度范围内,使该顶点组中的线段具有更接近的或尽可能相同的斜率和截距。
2-3顶线获取过程
在确定顶点组之后,接下来描述顶线获取步骤S503,其中基于所述顶点组通过线性拟合方法来获得顶线。
优选地,把顶点的出现次数作为权重来进行线性拟合。这样可以更好地抑制噪声点的影响。
以上描述了确定可靠的顶线的过程,确定可靠的底线的过程是相似的,除了使用底点之外,因此不再重复描述。图7F示意地示出了所确定的顶线和底线以及作为顶线和底线的交叉点的消失点。特别地,如果顶线和底线是基本平行的,则把无限远点确定为消失点。
由以上步骤可见,在确定可靠的顶线和底线过程中都不需要进行依赖于字符方向线的投影,因此可以在各种透视畸变情况下都准确地进行后处理步骤。此外,因为顶线和底线的确定方式最大程度抑制噪声点的影响,因此顶线和底线是可靠的,并可尤其用于准确确定基线1和基线2或基线3和4。
在一些情况下,所确定的顶线和底线就可以分别对应于基线1-2之一和基线3-4之一,但是在另一些情况下,尤其是对于例如字体(如Bookantiqua,Century Gothic)的英文单词,字符的顶点可能不都恰好位于所确定的顶线上,因此在严重透视畸变时仍需准确区分这些顶点究竟属于哪些基线以进行校正。另外,在文字行较短时,基于极少的顶点来拟合的顶线不一定能作为令人满意的基线近似结果,比如使用1个顶点无法确定令人满意的基线。因此需要使用消失点来进一步确定在这些情况下仍令人满意的基线。下面将详细描述基线确定过程。
3.基线确定过程
图8A示出根据本申请的基线确定过程的流程图。在图8A中,步骤S801是第一基线确定步骤,其中基于消失点和各组件的顶点来确定基线1和基线2。步骤S802是第二基线确定步骤,其中与基线1和基线2的确定类似地基于消失点和各组件的底点来确定基线3和基线4。步骤S803是判断步骤,其中判断是否应组合基线1和2或基线3和4。如果判断结果是肯定的,则进入步骤S804;否则基线确定过程结束。步骤S804是基线组合步骤,其中,在判断结果为肯定的情况下对基线进行组合。
3-1第一基线确定过程
下面参照图8B来具体描述第一基线确定过程。步骤S8011是第二分割线获取步骤,其中基于所有顶点和消失点来获取满足以下条件的第二分割线:通过消失点;从每个顶点到该线的距离的平方和最小。这样的第二分割线上面的顶点可视为与基线1有关的顶点并构成第一点组。类似地,第二分割线下面的顶点可视为与基线2有关的顶点并构成第二点组。图8C示出通过消失点的第二分割线以及第一点组和第二点组的示意图。
步骤S8012是基线1确定步骤,其中基于第一点组和消失点来确定基线1使得其满足:通过消失点;从第一点组中的每个顶点到该基线1的距离的平方和最小化。
步骤S8013是基线2确定步骤,其中基于第二点组和消失点来确定基线2使得其满足:通过消失点;从第二点组中的每个顶点到该基线2的距离的平方和最小化。
与基线1和基线2的确定类似地,可以使用底点和消失点来确定基线3和基线4。图8D示出所确定的通过消失点的四条基线1-4。
3-2判断过程
在特别情况下,并非一定存在四条基线,例如对于单词“time”,不存在基线4,或者对于单词“are”,“some”等,不存在基线1和4。因此需要判断是否需要应组合基线1和2或基线3和4。在这些情况下,可以计算相邻基线之间的距离,并且如果基线1和2之间的距离小于基线2和3之间的距离达到阈值,则判断应该组合基线1和2。类似地,如果基线3和4之间的距离小于基线2和3之间的距离达到阈值,则判断应该组合基线3和4。这里阈值可以根据实际需要选取而并非固定值,如基线2和3之间的距离的0.2倍等。
通过使用如此确定的各条基线,在特别字体的情况下,可以根据不确定的顶点更接近哪条基线来判断字符的大小写,例如,如果接近基线1,则判断为大写字母,否则为小写字母。甚至在极短文字行且在某个基线级别上仅有一个顶点的情况下,也可以借助于准确的消失点来与该顶点一起共同确定令人满意的基线,从而用于更准确地对字母的大小写以及字母与标点混淆进行区分并校正,并进而得到准确的字符识别结果,如在前面的步骤S205中所述。
因此,根据本申请的实施例的字符识别后处理方不仅不需要进行依赖于字符方向线的投影,而且在严重透视畸变甚至在顶点数量非常少时,也可以准确地确定相应级别的基线。而且,本申请的方法不需要遍历多个旋转角度来获取投影,从而降低了成本并提高了效率。
尽管在以上以英文单词为例进行描述,应当注意,字符识别的对象不限于英文单词,该对象在其它实施例中也可以是日文字符或中文汉字等。在特别情况下,为了对这些对象应用本申请的方法,需要进行预先处理过程。例如在中文字符的情况下,需要对作为连通量的偏旁进行合并以获得作为组件的单个汉字并进而获得字符行。
4.字符识别后处理设备的结构
接下来参照图9描述根据本申请的一个实施例的字符识别后处理设备900的示例性配置的框图。该字符识别后处理设备900包括:组件识别装置901,被配置为从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取装置902,被配置为获取组件的与字符方向线的距离最大的顶点与底点;消失点确定装置903,被配置为使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定步骤904,被配置为基于所确定的消失点来确定至少两条基线;以及字符校正装置905,被配置为基于所确定的基线来校正所述识别结果。
以上装置901-905可以被配置为分别执行前述的字符识别后处理方法的步骤S201-S205。此外,在图9中的虚线部分所示的装置表示可附加或替代的结构部分。
优选地,消失点确定装置903可以包括:主角度确定装置9031,被配置为计算连接任两个顶点的线段的角度并确定包含线段最大数量的角度范围作为主角度范围;顶点组确定装置9032,被配置为根据主角度范围来确定所述顶点组;以及顶线获取装置9033,被配置为基于所述顶点组通过线性拟合方法来获取顶线。
优选地,顶点组确定装置9032可以包括:顶点记录装置,被配置为选择其角度在主角度范围内的线段的顶点及该顶点在这些线段中的出现次数;第一分割线获取装置,被配置为通过使用所记录的顶点并把出现次数作为权重进行线性拟合来获取第一分割线;以及顶点组选择装置,被配置为从第一分割线将所记录的顶点划分出的第一组和第二组中选择总顶点出现次数较大的组作为所述顶点组。
优选地,顶点组确定装置9032还包括:构图装置,被配置为以连接任何两个顶点的线段为边并且以这些线段与主角度范围之间的差值为权重来构图;求解最大割装置,被配置为对图应用最大割求解方法以获得两个顶点组,使得每一组内各顶点对的权重之和最小化,两组之间各顶点对的权重之和最大化;以及顶点组选择装置,被配置为从这两个顶点组中选择在主角度范围中的顶点对的总顶点出现次数较大的组作为所述顶点组。
优选地,基线确定装置904可以包括:第一基线确定装置9041,被配置为基于消失点和各组件的顶点来确定基线1和基线2;第二基线确定装置9042,被配置为基于消失点和各组件的底点来与基线1和2类似地确定基线3和基线4;判断装置9043,被配置为判断基线1和2或基线3和4是否应组合;以及组合装置9044,被配置为在判断结果为肯定的情况下组合基线。
以上描述的装置是用于实施本申请中描述的字符识别后处理方法的示例性和/或优选的装置。这些装置可以是硬件单元(诸如场可编程门阵列、数字信号处理器、专用集成电路或计算机等)和/或软件装置(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的装置。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的装置(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的装置的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
此外,由各种装置构成的上述设备可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外,计算机当然可以具有其他硬件或者软件部件。
5.字符识别后处理方法和设备的效果
发明人对随机拍摄的含有英文或日文字符的图像进行了试验。与现有技术的方法相比,本申请的字符识别后处理方法提高了字符识别结果的准确度。
6.包含字符识别后处理设备的图像拾取设备
根据本申请的字符识别后处理设备可以有很多应用,例如该设备可被应用于但不限于照相机、智能手机和平板电脑等设备。图10是示出根据一个实施例的图像拾取设备1000的示例性配置的框图。图像拾取设备1000可以包括:成像设备1001,被配置为获取输入图像;字符识别设备1002,被配置为识别输入图像中的字符;以及上述的字符识别后处理设备900,被配置为对所识别的字符进行后处理。根据该实施例的图像拾取设备1000可以应用于例如文字识别、文字提取、或文字追踪、字音转换等方面。
7.用以实施本申请的设备和方法的计算设备
图11是示出能够实施本申请的实施例的计算机系统的硬件配置的框图。
如图11中所示,计算机系统包括经由系统总线1104连接的处理单元1101、只读存储器1102、随机存取存储器1103、输入/输出接口1105、输入单元1106、输出单元1107、存储单元1108、通信单元1109和驱动器1110。程序可以预先记录在作为计算机中内置的记录介质的ROM(只读存储器)1102或者存储单元1108中。或者,程序可以存储(记录)在可移除介质1111中。在本文中,可移除介质1111包括例如软盘、CD-ROM(压缩光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、半导体存储器等。
输入单元1106配置有键盘、鼠标、麦克风等。另外,输出单元1107配置有LCD(液晶显示器)、扬声器等。
另外,除了通过驱动器1110从以上提到的可移除介质1111把程序安装到计算机的配置之外,可以通过通信网络或广播网络把程序下载到计算机以安装在内置存储单元1108中。换言之,可以例如以无线方式通过用于数字卫星广播的卫星从下载点向计算机或者以有线方式通过诸如LAN(局域网)或互联网等的网络向计算机传输程序。
如果经由输入/输出接口1105通过输入单元1106的用户操控等输入命令,则CPU1101根据命令来执行ROM 1102中存储的程序。或者,CPU 1101把存储单元1108中存储的程序加载在RAM 1103上以执行程序。
因此,CPU 1101可执行根据以上提到的流程图的某些处理或者通过以上提到的框图的配置执行的处理。接下来,如果有必要,则CPU 1101允许处理的结果例如通过输入/输出接口1105从输出单元1107输出、从通信单元1109传输、在存储单元1108中记录等。
另外,程序可以由一个计算机(处理器)执行。另外,程序可以由多个计算机以分布式的方式处理。另外,可以把程序传输给远程计算机执行。
图11所示的计算机系统仅仅是说明性的并且决不意图对本申请、其应用或用途进行任何限制。
图11所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
可以通过许多方式来实施本申请的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本申请的方法和设备。上述的方法步骤的次序仅是说明性的,本申请的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本申请还可以被实施为记录在记录介质中的程序,其包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于实现根据本申请的方法的程序的记录介质。
虽然已通过示例详细描述了本申请的一些具体实施方式,但是本领域技术人员应当理解,上述示例仅是说明性的而不限制本申请的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本申请的范围和实质。本申请的范围是通过所附的权利要求限定的。
Claims (11)
1.一种字符识别后处理方法,包括:
组件识别步骤,从字符行区域图像中提取组件并获得组件的识别结果;
顶点和底点获取步骤,获取各组件的与字符方向线的距离最大的顶点与底点;
消失点确定步骤,使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;
基线确定步骤,基于所确定的消失点来确定至少两条基线;以及
字符校正步骤,基于所确定的基线来校正所述识别结果。
2.根据权利要求1所述的方法,其中,顶点和底点获取步骤还包括:
中心点确定步骤,确定所有组件的中心点;以及
字符方向线获取步骤,使用所确定的中心点通过线性拟合方法获取字符方向线。
3.根据权利要求1所述的方法,其中,顶点和底点获取步骤还包括:
属性设置步骤,基于识别结果来针对每个组件设置与基线级别有关的属性;
组件选择步骤,选择具有相同属性的至少两个组件;以及
字符方向线获取步骤,使用所选组件的中心点通过线性拟合方法获取字符方向线。
4.根据权利要求1-3之一所述的方法,其中,消失点确定步骤还包括:
主角度确定步骤,计算连接任两个顶点的线段的角度并选择包含最大线段数量的角度范围作为主角度范围;
顶点组确定步骤,根据主角度范围来确定所述顶点组;以及
顶线获取步骤,基于所述顶点组通过线性拟合方法来获取顶线。
5.根据权利要求4所述的方法,其中,顶点组确定步骤还包括:
顶点记录步骤,选择其角度在主角度范围内的线段的顶点及这些顶点在这些线段中的出现次数;
第一分割线获取步骤,通过使用所记录的顶点并把出现次数作为权重进行线性拟合来获取第一分割线;以及
顶点组选择步骤,从第一分割线将所记录的顶点划分出的第一组和第二组中选择顶点出现次数较多的组作为所述顶点组。
6.根据权利要求5所述的方法,其中,在顶线获取步骤中把出现次数作为权重进行线性拟合来获取顶线。
7.根据权利要求4所述的方法,其中,顶点组确定步骤还包括:
构图步骤,以连接任何两个顶点的线段为边并且以这些线段的角度与主角度范围之间的差为权重来构图;
求解最大割步骤,对图应用最大割求解方法以获得两个顶点组,使得每一组内各顶点对的权重之和最小化,两组之间各顶点对的权重之和最大化;以及
顶点组选择步骤,从这两个顶点组中选择角度在主角度范围中的线段中的顶点的出现次数较多的组作为所述顶点组。
8.根据权利要求1-3之一所述的方法,其中,基线确定步骤还包括:
第一基线确定步骤,基于消失点和各组件的顶点来确定基线1和基线2;
第二基线确定步骤,基于消失点和各组件的底点来确定基线3和基线4;
判断步骤,判断基线1和2或基线3和4是否应组合;以及
组合步骤,在判断结果为肯定的情况下组合基线。
9.根据权利要求8所述的方法,其中,第一基线确定步骤还包括:
第二分割线获取步骤,基于所有顶点和消失点来获取满足以下条件的第二分割线:通过消失点;从每个顶点到该第二分割线的距离的平方和最小;
基线1确定步骤,基于第二分割线之上的第一顶点组和消失点来确定满足以下条件的基线1:通过消失点;从第一顶点组中的每个顶点到该基线1的距离的平方和最小;以及
基线2确定步骤,基于第二分割线之下的第二顶点组和消失点来确定满足以下条件的基线2:通过消失点;从第二顶点组中的每个顶点到基线2的距离的平方和最小。
10.一种字符识别后处理设备,包括:
组件识别装置,被配置为从字符行区域图像中提取组件并获得组件的识别结果;
顶点和底点获取装置,被配置为获取组件的与字符方向线的距离最大的顶点与底点;
消失点确定装置,被配置为使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;
基线确定装置,被配置为基于所确定的消失点来确定至少两条基线;以及
字符校正装置,被配置为基于所确定的基线来校正所述识别结果。
11.一种图像拾取设备,包括:
成像设备,被配置为获取输入图像;
字符识别设备,被配置为识别所述输入图像中的字符;以及
如权利要求10所述的字符识别后处理设备,被配置为对所识别的字符进行后处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410645514.2A CN105654082B (zh) | 2014-11-12 | 2014-11-12 | 字符识别后处理方法、设备及包括该设备的图像拾取设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410645514.2A CN105654082B (zh) | 2014-11-12 | 2014-11-12 | 字符识别后处理方法、设备及包括该设备的图像拾取设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105654082A CN105654082A (zh) | 2016-06-08 |
CN105654082B true CN105654082B (zh) | 2019-04-12 |
Family
ID=56479780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410645514.2A Active CN105654082B (zh) | 2014-11-12 | 2014-11-12 | 字符识别后处理方法、设备及包括该设备的图像拾取设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105654082B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485246B (zh) * | 2016-09-19 | 2019-07-16 | 北京小米移动软件有限公司 | 字符识别方法及装置 |
CN110032996B (zh) * | 2018-01-11 | 2021-06-04 | 台达电子工业股份有限公司 | 分类基础式的字符倾斜校正装置及其方法 |
CN113869303B (zh) * | 2020-06-30 | 2024-09-17 | 北京搜狗科技发展有限公司 | 图像处理方法、装置和介质 |
CN111832497B (zh) * | 2020-07-17 | 2022-06-28 | 西南大学 | 一种基于几何特征的文本检测后处理方法 |
CN113554057B (zh) * | 2021-06-21 | 2022-09-27 | 北京百度网讯科技有限公司 | 图的分割方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063547A (ja) * | 2001-06-18 | 2002-02-28 | Hitachi Software Eng Co Ltd | 手書き文字認識方法 |
CN101192269A (zh) * | 2006-11-29 | 2008-06-04 | 佳能株式会社 | 从图像估计消失点的方法和装置、计算机程序及其存储介质 |
CN101515984A (zh) * | 2008-02-19 | 2009-08-26 | 佳能株式会社 | 电子文档生成设备及电子文档生成方法 |
CN101520852A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 消失点检测装置和检测方法 |
-
2014
- 2014-11-12 CN CN201410645514.2A patent/CN105654082B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063547A (ja) * | 2001-06-18 | 2002-02-28 | Hitachi Software Eng Co Ltd | 手書き文字認識方法 |
CN101192269A (zh) * | 2006-11-29 | 2008-06-04 | 佳能株式会社 | 从图像估计消失点的方法和装置、计算机程序及其存储介质 |
CN101515984A (zh) * | 2008-02-19 | 2009-08-26 | 佳能株式会社 | 电子文档生成设备及电子文档生成方法 |
CN101520852A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 消失点检测装置和检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105654082A (zh) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654082B (zh) | 字符识别后处理方法、设备及包括该设备的图像拾取设备 | |
CN101520852B (zh) | 消失点检测装置和检测方法 | |
US20160210507A1 (en) | Image processing system with layout analysis and method of operation thereof | |
US8805056B2 (en) | Automatic detection and grouping of straight lines in images for personalization | |
CN109255300B (zh) | 票据信息提取方法、装置、计算机设备及存储介质 | |
US9679354B2 (en) | Duplicate check image resolution | |
CN105868759A (zh) | 分割图像字符的方法及装置 | |
EP2660753A2 (en) | Image processing method and apparatus | |
EP2733666A1 (en) | Method for superpixel life cycle management | |
EP2908267A1 (en) | Image processing device and image processing method | |
CN105912977B (zh) | 基于点聚类的车道线检测方法 | |
CN108154132A (zh) | 一种身份证文字提取方法、系统及设备和存储介质 | |
WO2014123619A1 (en) | System and method for identifying similarities in different images | |
CN105354571B (zh) | 基于曲线投影的畸变文本图像基线估计方法 | |
WO2016086877A1 (zh) | 一种文本检测的方法和装置 | |
CN108734161B (zh) | 冠字号区域的识别方法、装置、设备及存储介质 | |
CN103093185A (zh) | 字符识别装置、图像处理装置及其方法 | |
KR20170126300A (ko) | 이미지 상호간의 매칭을 판단하는 방법, 장치 및 컴퓨터 프로그램 | |
CN105678737A (zh) | 一种基于Radon变换的数字图像角点检测方法 | |
JP6547903B2 (ja) | 画像処理装置、画像処理方法及び記憶媒体 | |
JP5027201B2 (ja) | テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム | |
Ali et al. | A novel approach to correction of a skew at document level using an Arabic script | |
Sharma et al. | A new method for word segmentation from arbitrarily-oriented video text lines | |
JP2013080389A (ja) | 消失点推定方法、消失点推定装置及びコンピュータプログラム | |
CN112233186A (zh) | 基于图像感知的设备气密性检测相机自标定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |