CN111046754B

CN111046754B - 一种文字识别方法、装置及计算机可读存储介质

Info

Publication number: CN111046754B
Application number: CN201911177163.6A
Authority: CN
Inventors: 马文伟; 刘设伟; 沈程秀; 闫永泽
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-08-25
Anticipated expiration: 2039-11-26
Also published as: CN111046754A

Abstract

本发明提供了一种文字识别方法、装置及计算机可读存储介质，所述方法包括：对待识别的椭圆形印章图像进行二值化处理，得到二值图像；检测二值图像中位于同一条直线上的第一文字序列；根据二值图像中的文字的连线所组成的第一椭圆与第一文字序列的位置关系，从第一文字序列中确定呈直线型分布的文字序列；分别对呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，呈弯曲型分布的文字序列包括呈直线型分布的文字序列之外的文字。在上述方法中，首先检测出直线型文字序列，剩下的文字组成弯曲型文字序列，由此可轻松确定出弯曲型文字序列；并且，本方案中对文字可以有效地按照语义顺序进行提取，降低了文字识别难度。

Description

一种文字识别方法、装置及计算机可读存储介质

技术领域

本发明属于图像处理领域，特别是涉及一种文字识别方法、装置及计算机可读存储介质。

背景技术

日常生活中增值税发票、医疗收费票据等票据均需盖有印章，才能用于报销流程，它是开票单位授权的证明。印章中一般刻有企业名称、印章类型以及印章编号等信息，一般包含两种类型文字行：弯曲型文字行、直线型文字行。其中弯曲型文字行一般代表企业名称，直线型文字行一般表示印章类型、印章编号等。例如，在某医疗门诊收费票据示意图中，印章图像中弯曲型文字行内容为“**市东方医院”、直线型文字行内容分别为“门急诊收费章”和“(44)”。

虽然OCR(Optical Character Recognition，光学字符识别)技术已经相当成熟并应用在多个领域，例如医院化验单、个人体检单等识别，但医疗收费票据依然是OCR技术难以覆盖的领域。多个省或直辖市的众多医疗收费票据中没有直接机打“医院名称”这一关键信息，而是以印章文字的形式出现，因此印章文字的检测与识别至关重要。

但是，目前票据图像中的椭圆形印章文字检测仍然存在困难，原因主要在于：椭圆形印章图像文字排列复杂，既有直线型文字也有弯曲型文字，使印章文字难以有效按语义顺序提取，造成文字识别难度加大；并且，现有的文字识别技术在椭圆形印章图像识别时容易把弯曲型文字和直线型文字交接的地方检测成一行，造成识别结果准确度较低；此外，对于椭圆形印章来说，其长轴和短轴的长度不相等，这对检测椭圆形印章图像中的弯曲型文字带来一定困难。

发明内容

有鉴于此，本发明提供一种文字识别方法、装置及计算机可读存储介质，在一定程度上解决了目前的椭圆形印章文字识别难度较大、识别结果准确度较低、弯曲型文字检测困难的问题。

依据本发明的第一方面，提供了一种文字识别方法，所述方法包括：

对待识别的椭圆形印章图像进行二值化处理，得到二值图像；

检测所述二值图像中位于同一条直线上的第一文字序列；

根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列；

分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，所述呈弯曲型分布的文字序列包括所述呈直线型分布的文字序列之外的文字。

可选地，所述根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列，包括：

将所述二值图像中的文字进行区域连通，得到多个连通区域；

确定所述多个连通区域的中心点，并根据所述中心点的连线确定第一椭圆；

若所述第一椭圆与所述第一文字序列存在交叉点，则将位于所述交叉点的文字从所述第一文字序列中去除，得到呈直线型分布的文字序列；

若所述第一椭圆与所述第一文字序列不存在交叉点，则将所述第一文字序列确定为呈直线型分布的文字序列。

可选地，在分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别之前，还包括：

根据所述二值图像中的第二椭圆的长轴与水平线的夹角将所述第二椭圆设置到水平状态；所述第二椭圆为所述椭圆形印章所对应的椭圆。

可选地，在分别对所述呈直线型分布的文字序列、所述呈弯曲型分布的文字序列中的文字进行识别之前，还包括：

确定所述呈直线型分布的文字序列的纵坐标，得到第一纵坐标；

确定所述第二椭圆的中心点的纵坐标，得到第二纵坐标；

若所述第一纵坐标大于所述第二纵坐标，则将所述二值图像旋转至所述呈直线型分布的文字序列中的文字处于正立状态。

可选地，在对待识别的椭圆形印章图像进行二值化处理之前，还包括：

基于RGB颜色空间，或，基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行图像增强。

可选地，所述基于RGB颜色空间对待识别的椭圆形印章图像进行图像增强，包括：

对于所述椭圆形印章图像中的每个像素点，确定所述像素点的R分量、G分量、B分量之间的方差，得到方差矩阵；

基于所述方差矩阵对待识别的椭圆形印章图像进行图像增强。

可选地，所述基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行图像增强，包括：

对于所述椭圆形印章图像中的每个像素点，确定所述像素点的R分量与G分量的差值，得到差值矩阵；

在CMYK颜色空间上确定所述椭圆形印章图像的M分量，得到M分量矩阵；

根据所述方差矩阵、所述差值矩阵、所述M分量矩阵确定目标矩阵；

基于所述目标矩阵对待识别的椭圆形印章图像进行图像增强。

可选地，所述分别对所述呈直线型分布的文字序列、所述呈弯曲型分布的文字序列中的文字进行识别，包括：

采用EAST算法确定位于所述呈直线型分布的文字序列中的每个文字的位置，并采用CRNN算法对所述文字进行识别；

采用ASTER算法将所述呈弯曲型分布的文字序列中的文字设置到正立状态，并确定每个文字的位置，再对所述文字进行识别。

第二方面，本发明实施例提供了一种文字识别装置，所述装置包括：

二值化处理模块，用于对待识别的椭圆形印章图像进行二值化处理，得到二值图像；

检测模块，用于检测所述二值图像中位于同一条直线上的第一文字序列；

直线序列确定模块，用于根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列；

文字识别模块，用于分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，所述呈弯曲型分布的文字序列包括所述呈直线型分布的文字序列之外的文字。

可选地，所述直线序列确定模块包括：

区域连通子模块，用于将所述二值图像中的文字进行区域连通，得到多个连通区域；

中心点确定子模块，用于确定所述多个连通区域的中心点，并根据所述中心点的连线确定第一椭圆；

直线序列确定第一子模块，用于若所述第一椭圆与所述第一文字序列存在交叉点，则将位于所述交叉点的文字从所述第一文字序列中去除，得到呈直线型分布的文字序列；

直线序列确定第二子模块，用于若所述第一椭圆与所述第一文字序列不存在交叉点，则将所述第一文字序列确定为呈直线型分布的文字序列。

可选地，所述装置还包括：

水平设置模块，用于根据所述二值图像中的第二椭圆的长轴与水平线的夹角将所述第二椭圆设置到水平状态；所述第二椭圆为所述椭圆形印章所对应的椭圆。

可选地，所述装置还包括：

第一纵坐标确定模块，用于确定所述呈直线型分布的文字序列的纵坐标，得到第一纵坐标；

第二纵坐标确定模块，用于确定所述第二椭圆的中心点的纵坐标，得到第二纵坐标；

旋转模块，用于若所述第一纵坐标大于所述第二纵坐标，则将所述二值图像旋转至所述呈直线型分布的文字序列中的文字处于正立状态。

可选地，所述装置还包括：

图像增强模块，用于基于RGB颜色空间，或，基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行图像增强。

可选地，所述图像增强模块包括：

方差矩阵确定子模块，用于对于所述椭圆形印章图像中的每个像素点，确定所述像素点的R分量、G分量、B分量之间的方差，得到方差矩阵；

第一图像增强子模块，用于基于所述方差矩阵对待识别的椭圆形印章图像进行图像增强。

可选地，所述图像增强模块包括：

差值矩阵确定子模块，用于对于所述椭圆形印章图像中的每个像素点，确定所述像素点的R分量与G分量的差值，得到差值矩阵；

M分量矩阵确定子模块，用于在CMYK颜色空间上确定所述椭圆形印章图像的M分量，得到M分量矩阵；

目标矩阵确定子模块，用于根据所述方差矩阵、所述差值矩阵、所述M分量矩阵确定目标矩阵；

第二图像增强子模块，用于基于所述目标矩阵对待识别的椭圆形印章图像进行图像增强。

可选地，所述文字识别模块包括：

第一识别子模块，用于采用EAST算法确定位于所述呈直线型分布的文字序列中的每个文字的位置，并采用CRNN算法对所述文字进行识别；

第二识别子模块，用于采用ASTER算法将所述呈弯曲型分布的文字序列中的文字设置到正立状态，并确定每个文字的位置，再对所述文字进行识别。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的文字识别方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的文字识别方法的步骤。

针对在先技术，本发明具备如下优点：

本发明提供的一种文字识别方法、装置及计算机可读存储介质，对待识别的椭圆形印章图像进行二值化处理，得到二值图像；检测所述二值图像中位于同一条直线上的第一文字序列；根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列；分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，所述呈弯曲型分布的文字序列包括所述呈直线型分布的文字序列之外的文字。在上述方法中，首先根据椭圆印章上文字的位置特点，检测出直线型文字序列，剩下的文字组成弯曲型文字序列，由此可轻松确定出弯曲型文字序列；并且，本方案中对直线型文字序列和弯曲型文字序列中的文字单独进行识别，使得识别过程中位于直线型文字序列和弯曲型文字序列中的文字可以有效地按照语义顺序进行提取，降低了文字识别难度，提高了识别准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种文字识别方法的步骤流程图；

图2是本发明实施例提供的一种椭圆形印章的二值图像的示意图；

图3是本发明实施例提供的一种第一文字序列的示意图；

图4是本发明实施例提供的另一种文字识别方法的步骤流程图；

图5是本发明实施例提供的长轴与水平线的夹角的示意图；

图6是本发明实施例提供的一种文字识别装置的框图；

图7是本发明实施例提供的另一种文字识别装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种文字识别方法的步骤流程图，应用于终端，如图1所示，该方法可以包括：

步骤101、对待识别的椭圆形印章图像进行二值化处理，得到二值图像。

在本发明实施例中，可以将盖有椭圆形印章的票据进行拍照或扫描，得到票据图像，然后利用基于弧形支撑线分割的椭圆检测算法定位票据图像中的椭圆形印章位置，得到待识别的椭圆形印章图像。

为了从待识别的椭圆形印章图像中识别文字，可以将待识别的椭圆形印章图像进行二值化处理，以提高图像对比度，为后续的印章文字识别作准备。

图像的二值化，就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。椭圆形印章图像中一般包括红色的印章文字及纯色的票据背景色。在二值化处理时，设定一个全局的阈值T，用T将椭圆形印章图像的数据分成两部分：大于T的像素群和小于T的像素群。可以将大于T的像素群的像素值设定为白色，小于T的像素群的像素值设定为黑色。椭圆形印章图像的票据背景色相比于印章文字的像素值要小很多。在二值化处理中，采用设定的阈值T将票据背景色设定为黑色，将印章文字设定为白色，这样，就可以得到一张背景色为黑色，印章文字为白色的二值图像。

图2是本发明实施例提供的一种椭圆形印章的二值图像的示意图。在图2中，印章文字“上海市中医文献馆中医门诊部、费用收讫章”被二值化为白色，票据背景色被二值化为黑色。其中，印章文字“上海市中医文献馆中医门诊部”呈弯曲型分布，印章文字“费用收讫章”分别呈直线型分布。

步骤102、检测所述二值图像中位于同一条直线上的第一文字序列。

在本发明实施例中，要确定出二值图像中的呈直线型分布的文字，可以利用直线型文字位于同一条直线上的特点，检测二值图像中位于同一条直线上的第一文字序列。

图3是本发明实施例提供的一种第一文字序列的示意图。在图3中，每一个小矩形框代表一个印章中的文字，S1、S2、S3、S4、S5、S6、S7所示的文字为检测到的位于同一条直线上的第一文字序列。

步骤103、根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列。

在本发明实施例中，将二值图像中的所有文字进行连线，印章上呈弯曲型分布的文字可以组成一个第一椭圆。在有些情况下，第一文字序列中的文字不完全是印章中的呈直线型分布的文字，也可能混有呈弯曲型分布的文字。例如图3中的S1和S2所示的文字在印章中实际上是呈弯曲型分布的文字。根据正常印章的制作规则，印章上呈直线型分布的文字不可能到达第一椭圆的位置，否则的话，印章必须扩大。因此，若第一椭圆上包括了第一文字序列中的部分文字，则该部分文字应该是属于印章中呈弯曲型分布的文字。因此，可以从第一文字序列中将该部分文字去除，得到印章中呈直线型分布的文字序列。

步骤104、分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，所述呈弯曲型分布的文字序列包括所述呈直线型分布的文字序列之外的文字。

在本发明实施例中，在印章中确定了呈直线型分布的文字序列之后，剩下的文字即为印章中呈弯曲型分布的文字。可以分别对呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别。具体地，可以采用弯曲型文字的识别算法识别呈弯曲型分布的文字序列，采用直线型文字的识别算法识别呈直线型分布的文字序列。因为上述两个文字序列中的文字在语义上是连续的、有逻辑性的，所以，两个文字序列中的文字可以分别有效地按照语义顺序进行提取，降低了文字识别难度。

综上，本发明提供的文字识别方法，对待识别的椭圆形印章图像进行二值化处理，得到二值图像；检测所述二值图像中位于同一条直线上的第一文字序列；根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列；分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，所述呈弯曲型分布的文字序列包括所述呈直线型分布的文字序列之外的文字。在上述方法中，首先根据椭圆印章上文字的位置特点，检测出直线型文字序列，剩下的文字组成弯曲型文字序列，由此可轻松确定出弯曲型文字序列；并且，本方案中对直线型文字序列和弯曲型文字序列中的文字单独进行识别，使得识别过程中位于直线型文字序列和弯曲型文字序列中的文字可以有效地按照语义顺序进行提取，降低了文字识别难度，提高了识别准确度。

图4是本发明实施例提供的另一种文字识别方法的步骤流程图，如图4所示，该方法可以包括：

步骤201、基于RGB颜色空间，或，基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行图像增强。

在本发明实施例中，很多票据图像具有复杂的纹理背景，且印章一般压盖在票据预打印字以及机打文字上方，造成印章文字对比度较低。对于这些具有复杂背景的票据图像，在进行二值化处理时，较难将预打印字、机打字与印章文字进行有效区分，造成预打印字、机打字与印章文字均被二值化为一种颜色，导致后续的文字识别出错。因此，可以预先对椭圆形印章图像进行图像增强，以使印章文字更加明显，有利于后续的二值化和文字识别。

具体地，可以在RGB(Red Gree Blue，红色绿色蓝色)颜色空间上进行图像增强，即可达到使印章文字与票据背景中的预打印字、机打字对比度提高的目的。另外，为了达到更佳的效果，可以在RBG颜色空间上进行图像增强的基础上，在CMYK(Cyan Magenta YellowblacK，青色品红色黄色黑色)颜色空间上进一步进行图像增强，将两者增强的效果进行叠加，得到更好的增强效果。

可选地，步骤201可以包括以下步骤2011-步骤2012，或步骤2013-步骤2016：

步骤2011、对于所述椭圆形印章图像中的每个像素点，确定所述像素点的R分量、G分量、B分量之间的方差，得到方差矩阵。

在本发明实施例中，可以获取椭圆形印章图像中的每个像素点的R分量、G分量、B分量，并根据以下公式1计算三分量之间的方差，最终椭圆形印章图像中的每个像素点对应一个方差，所有像素点的方差组成一个方差矩阵M_std。

具体地，计算方差矩阵M_std的公式1如下：

其中，m,n均为大于1的自然数。上述方差矩阵中的每个矩阵元素σ(i,j)(i∈(0,m-1),j∈(0,n-1))表示图像中坐标为(i,j)的像素点的R分量、G分量、B分量的方差。

其中，每个像素点的R分量、G分量、B分量的方差σ(i,j)为：

其中，公式2中R(i,j)、G(i,j)、B(i,j)分别为坐标为(i,j)的像素点的R分量、G分量、B分量。而u(i,j)的计算方法如公式3：

u(i,j)＝(R(i,j)+G(i,j)+B(i,j))/3 (公式3)

步骤2012、基于所述方差矩阵对待识别的椭圆形印章图像进行图像增强。

在本发明实施例中，方差矩阵对应一个灰度图像，在该灰度图像中，纯色的票据背景色的灰度值很小，机打字、预打印字的灰度值也很小，而红色的印章文字灰度值最大，从而扩大了印章文字与票据背景色、机打字、预打印字之间的差别，抑制了票据背景色、机打字、预打印字的特征，加强了印章文字的效果，满足了后续图像二值化的需要。

为了达到更佳的效果，可以在RBG颜色空间上进行图像增强的基础上，在CMYK颜色空间上进一步进行图像增强，将两者增强的效果进行叠加，得到更好的增强效果。具体包括以下步骤2013-步骤2016。

步骤2013、对于所述椭圆形印章图像中的每个像素点，确定所述像素点的R分量与G分量的差值，得到差值矩阵。

在本发明实施例中，可以获取每个像素点的R分量与G分量的差值，最终图像中的每个像素点对应一个差值，所有像素点的差值组成一个差值矩阵ΔRG。

差值矩阵ΔRG的计算公式如下：

ΔRG＝R(i,j)-G(i,j) (公式4)

步骤2014、在CMYK颜色空间上确定所述椭圆形印章图像的M分量，得到M分量矩阵。

在本发明实施例中，在CMYK颜色空间上，M分量的颜色空间对文字拉开的效果最好，区分度最好，因此，可以通过计算椭圆形印章图像中每个像素点的M分量，来增强图像。

具体地，每个像素点的M分量的计算公式如下：

其中，R'(i,j)＝R(i,j)/255.0，

G'(i,j)＝G(i,j)/255.0，

B'(i,j)＝B(i,j)/255.0，

K＝1-max(R'(i,j),G'(i,j),B'(i,j))。

最终图像中的每个像素点对应一个M分量，所有像素点的M分量组成一个M分量矩阵M。

步骤2015、根据所述方差矩阵、所述差值矩阵、所述M分量矩阵确定目标矩阵。

在本发明实施例中，上面步骤中计算得到图像的方差矩阵M_std、差值矩阵ΔRG、M分量矩阵M，

上述三个矩阵对应三个灰度图像，三个灰度图像均是椭圆形印章图像的增强图像，将三个灰度图像融合后，得到的融合图像的增强效果将会更好。因此，将所述方差矩阵、所述差值矩阵、所述M分量矩阵三者的和作为目标矩阵。

步骤2016、基于所述目标矩阵对待识别的椭圆形印章图像进行图像增强。

在本发明实施例中，将上述三个矩阵的和确定为目标矩阵，将该目标矩阵对应的图像作为椭圆形印章图像的增强图像。即椭圆形印章图像的增强图像IMG_st的计算公式为：

IMG_st＝M_std+ΔRG+M×255 (公式6)

通过步骤2013-步骤2016，基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行了图像增强，相比于在单个空间上增强图像，本方案中将三种增强的效果进行了叠加。进一步扩大了印章文字与票据背景色、机打字、预打印字之间的差别，抑制了票据背景色、机打字、预打印字的特征，加强了印章文字的效果，得到的图像增强效果更好更有利于后续的二值化处理和文字识别。

步骤202、针对待识别的椭圆形印章图像进行二值化处理，得到二值图像。

该步骤可以参照步骤101，此处不再赘述。

步骤203、检测所述二值图像中位于同一条直线上的第一文字序列。

该步骤可以参照步骤102，此处不再赘述。

步骤204、将所述二值图像中的文字进行区域连通，得到多个连通区域。

在本发明实施例中，连通区域(Connected Component)一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域(Region，Blob)。因此，我们可以通过相同像素值和位置相邻这两个条件在图像中寻找连通区域，寻找连通区域有基本的算法，如Two-Pass(两步)法、Seed-Filling(种子填充)法等。

对于找到的每个连通区域，我们赋予其一个唯一的标识(Label)，以区别其他连通区域。对于本发明实施例中的二值图像，一般情况下，每一个印章文字对应一个连通区域，若印章文字连接过于紧密，也有可能存在两个或更多印章文字对应一个连通区域的情况。总之，最终可以找到多个连通区域。

例如，参照图3，每一个矩形虚框表示一个连通区域，每个连通区域对应一个印章中的文字。

步骤205、确定所述多个连通区域的中心点，并根据所述中心点的连线确定第一椭圆。

在本发明实施例中，在有些情况下，第一文字序列中的文字不完全是印章中的呈直线型分布的文字，也可能混有呈弯曲型分布的文字。例如图3中的S1和S2所示的文字在印章中实际上是呈弯曲型分布的文字。为了将弯曲型分布的文字从第一文字序列中去除，可以将二值图像中的所有文字进行连线，根据连线可以确定一个第一椭圆及一条直线。具体地，可以找寻每个连通区域的中心点，并将中心点进行连线。参照图3，由所有文字的中心点连线可围成一个如S8所示的第一椭圆，还可得到一条如S9所示的直线。

步骤206、若所述第一椭圆与所述第一文字序列存在交叉点，则将位于所述交叉点的文字从所述第一文字序列中去除，得到呈直线型分布的文字序列。

在本发明实施例中，根据正常印章的制作规则，印章上呈直线型分布的文字不可能到达第一椭圆的位置，否则的话，印章必须扩大。因此，若第一椭圆上包括了第一文字序列中的部分文字，即第一椭圆与第一文字序列存在交叉点，则该交叉点处的文字应该是属于印章中呈弯曲型分布的文字。因此，可以从第一文字序列中将该部分文字去除，得到印章中呈直线型分布的文字序列。参照图3，第一椭圆S8上包括了第一文字序列中的S1和S2所示的文字，将S1和S2所示的文字从第一文字序列中去除，得到由S3、S4、S5、S6、S7所示的文字组成的呈直线型分布的文字序列。

步骤207、若所述第一椭圆与所述第一文字序列不存在交叉点，则将所述第一文字序列确定为呈直线型分布的文字序列。

在本发明实施例中，若第一椭圆与第一文字序列不存在交叉点，则说明第一文字序列中的文字全部是印章中呈直线型分布的文字，则可直接将第一文字序列确定为呈直线型分布的文字序列。

在步骤204-步骤207中，根据第一椭圆与所述第一文字序列的位置关系，从第一文字序列中确定了呈直线型分布的文字序列，则印章中剩余文字为呈弯曲型分布的文字序列。采用这种方法识别直线型和弯曲型文字序列，简单快速，且识别结果准确。

步骤208、根据所述二值图像中的第二椭圆的长轴与水平线的夹角将所述第二椭圆设置到水平状态；所述第二椭圆为所述椭圆形印章所对应的椭圆。

在本发明实施例中，可以利用Arc支撑线分割的椭圆检测算法检测印章图像中的椭圆，共检测到两个椭圆，分别为印章的外边缘和内边缘。本发明实施例中的第二椭圆可以为外边缘对应的椭圆，也可以为内边缘对应的椭圆。每个椭圆输出参数为(c_x,c_y,a,b,θ)，其中(c_x,c_y)表示椭圆中心坐标，a表示长轴半径，b表示短轴半径，θ为长轴与水平线夹角。在两个椭圆的输出参数中，长轴与水平线夹角θ是相等的。

图5是本发明实施例提供的长轴与水平线的夹角的示意图。在图5中，S10所示为长轴半径，S11所示为水平线，S12所示的夹角为S10和S11组成的夹角θ。

要将第二椭圆设置到水平状态，可以将第二椭圆向水平线方向旋转角度θ，使长轴与水平线重合，此时，第二椭圆处于水平状态。

将第二椭圆设置到水平状态可以使呈直线型分布的文字处于直立状态，也方便将椭圆设置到正立状态，有利于后续的文字识别。

步骤209、确定所述呈直线型分布的文字序列的纵坐标，得到第一纵坐标。

在本发明实施例中，将第二椭圆设置到水平状态后，第二椭圆可能为正立状态，也可能为倒立状态，为了方便后续文字识别，可以将第二椭圆设置到正立状态。具体地，判定第二椭圆是否为正立状态的标准是：第二椭圆中呈直线型分布的文字序列中的文字是否处于正立状态，若是，则说明第二椭圆为正立状态，否则，第二椭圆为倒立状态。

要将第二椭圆设置到水平状态，首先，检测呈直线型分布的文字序列的行数。该行数可能有一行，也可能有两行或两行以上。若行数为一行，则水平状态的第二椭圆中所有的呈直线型分布的文字的纵坐标相同，取该纵坐标为第一纵坐标。若行数为两行或两行以上，则每一行呈直线型分布的文字各具有一个纵坐标，取每一行文字的纵坐标的平均值，得到第一纵坐标。

步骤210、确定所述第二椭圆的中心点的纵坐标，得到第二纵坐标。

在本发明实施例中，(c_x,c_y)表示第二椭圆中心坐标，其中，c_y为第二纵坐标。

步骤211、若所述第一纵坐标大于所述第二纵坐标，则将所述二值图像旋转至所述呈直线型分布的文字序列中的文字处于正立状态。

在本发明实施例中，若第二椭圆处于正立状态，则呈直线型分布的文字序列位于第二椭圆的中心点的下方，即第一纵坐标小于第二纵坐标；若第二椭圆处于倒立状态，则呈直线型分布的文字序列位于第二椭圆的中心点的上方，即第一纵坐标大于第二纵坐标。

若确定第一纵坐标大于所述第二纵坐标，则可以将二值图像整体旋转180°，从而使第二椭圆处于正立状态，此时，呈直线型分布的文字序列中的文字处于正立状态。

在步骤209-步骤211中，根据第一纵坐标与第二纵坐标的大小关系，将椭圆形印章图像设置到了正立状态，从而减小了文字识别的难度，提高了文字识别的准确度。

步骤212、采用EAST算法确定位于所述呈直线型分布的文字序列中的每个文字的位置，并采用CRNN算法对所述文字进行识别。

在本发明实施例中，呈直线型分布的文字序列相对于呈弯曲型分布的文字序列较为容易识别。具体可以首先采用网络模型算法EAST(An Efficient and Accurate SceneText Detector，有效的精确的场景文本识别方法)确定呈直线型分布的文字序列中的每个文字的位置，进而再采用CRNN(An End-to-End Trainable Neural Network for Image-based Sequence Recognitionand Its Application to Scene Text Recognition，基于序列的端到端图像文本识别)对文字进行识别。该方法对于文字识别的精准度较高，识别速度较快。

步骤213、采用ASTER算法将所述呈弯曲型分布的文字序列中的文字设置到正立状态，并确定每个文字的位置，再对所述文字进行识别。

在本发明实施例中，在识别呈弯曲型分布的文字序列时，可以先将每个弯曲型的文字设置到正立状态，再进行识别。具体地，可采用端到端神经网络模型算法ASTER(AnAttentional Scene Text Recognizer with Flexible Rectification，具有柔性矫正功能的注意力机制场景文本识别方法)将呈弯曲型分布的文字序列中的每个文字设置到正立状态，再确定每个文字的位置，进而再对文字进行识别。ASTER网络模型在处理倾斜、弯曲或不规则布局的文本方面具有显著的优势。

综上，本发明实施例提供的文字识别方法，除具有图1中的文字识别方法的有益效果外，还基于RGB颜色空间，或，基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行了图像增强，从而扩大了印章文字与票据背景色、机打字、预打印字之间的差别，抑制了票据背景色、机打字、预打印字的特征，加强了印章文字的效果，满足了后续图像二值化的需要。

并且，还根据第一椭圆与所述第一文字序列的位置关系，从第一文字序列中确定了呈直线型分布的文字序列，则印章中剩余文字为呈弯曲型分布的文字序列。采用这种方法识别直线型和弯曲型文字序列，简单快速，且识别结果准确。

此外，根据所述二值图像中的第二椭圆的长轴与水平线的夹角将所述第二椭圆设置到水平状态，并根据第一纵坐标与第二纵坐标的大小关系，将椭圆形印章图像设置到了正立状态，从而减小了文字识别的难度，提高了文字识别的准确度。

图6是本发明实施例提供的文字识别装置的框图。如图6所示，该装置300可以包括：

二值化处理模块301，用于对待识别的椭圆形印章图像进行二值化处理，得到二值图像；

检测模块302，用于检测所述二值图像中位于同一条直线上的第一文字序列；

直线序列确定模块303，用于根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列；

文字识别模块304，用于分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，所述呈弯曲型分布的文字序列包括所述呈直线型分布的文字序列之外的文字。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

综上，本发明提供的文字识别装置，对待识别的椭圆形印章图像进行二值化处理，得到二值图像；检测所述二值图像中位于同一条直线上的第一文字序列；根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列；分别对所述呈直线型分布的文字序列、呈弯曲型分布的文字序列中的文字进行识别，所述呈弯曲型分布的文字序列包括所述呈直线型分布的文字序列之外的文字。在上述方法中，首先根据椭圆印章上文字的位置特点，检测出直线型文字序列，剩下的文字组成弯曲型文字序列，由此可轻松确定出弯曲型文字序列；并且，本方案中对直线型文字序列和弯曲型文字序列中的文字单独进行识别，使得识别过程中位于直线型文字序列和弯曲型文字序列中的文字可以有效地按照语义顺序进行提取，降低了文字识别难度，提高了识别准确度。

在图6的基础上，图7是本发明实施例提供的另一种文字识别装置的框图。如图7所示，所述直线序列确定模块303包括：

区域连通子模块3031，用于将所述二值图像中的文字进行区域连通，得到多个连通区域；

中心点确定子模块3032，用于确定所述多个连通区域的中心点，并根据所述中心点的连线确定第一椭圆；

直线序列确定第一子模块3033，用于若所述第一椭圆与所述第一文字序列存在交叉点，则将位于所述交叉点的文字从所述第一文字序列中去除，得到呈直线型分布的文字序列；

直线序列确定第二子模块3034，用于若所述第一椭圆与所述第一文字序列不存在交叉点，则将所述第一文字序列确定为呈直线型分布的文字序列。

可选地，所述装置300还包括：

水平设置模块305，用于根据所述二值图像中的第二椭圆的长轴与水平线的夹角将所述第二椭圆设置到水平状态；所述第二椭圆为所述椭圆形印章所对应的椭圆。

可选地，所述装置300还包括：

第一纵坐标确定模块306，用于确定所述呈直线型分布的文字序列的纵坐标，得到第一纵坐标；

第二纵坐标确定模块307，用于确定所述第二椭圆的中心点的纵坐标，得到第二纵坐标；

旋转模块308，用于若所述第一纵坐标大于所述第二纵坐标，则将所述二值图像旋转至所述呈直线型分布的文字序列中的文字处于正立状态。

可选地，所述装置300还包括：

图像增强模块309，用于基于RGB颜色空间，或，基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行图像增强。

可选地，所述图像增强模块309包括：

可选地，所述文字识别模块304包括：

第一识别子模块3041，用于采用EAST算法确定位于所述呈直线型分布的文字序列中的每个文字的位置，并采用CRNN算法对所述文字进行识别；

第二识别子模块3042，用于采用ASTER算法将所述呈弯曲型分布的文字序列中的文字设置到正立状态，并确定每个文字的位置，再对所述文字进行识别。

综上，本发明实施例提供的另一种文字识别装置，除具有图6中的文字识别装置的有益效果外，还基于RGB颜色空间，或，基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行了图像增强，从而扩大了印章文字与票据背景色、机打字、预打印字之间的差别，抑制了票据背景色、机打字、预打印字的特征，加强了印章文字的效果，满足了后续图像二值化的需要。

优选的，本发明实施例还提供一种终端，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述文字识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述文字识别方法方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的文字识别方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的至少一个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的至少一个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文字识别方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文字识别方法，其特征在于，所述方法包括：

检测所述二值图像中位于同一条直线上的第一文字序列；

根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列，包括：

将所述二值图像中的文字进行区域连通，得到多个连通区域；确定所述多个连通区域的中心点，并根据所述中心点的连线确定第一椭圆；若所述第一椭圆与所述第一文字序列存在交叉点，则将位于所述交叉点的文字从所述第一文字序列中去除，得到呈直线型分布的文字序列；若所述第一椭圆与所述第一文字序列不存在交叉点，则将所述第一文字序列确定为呈直线型分布的文字序列；

根据所述二值图像中的第二椭圆的长轴与水平线的夹角将所述第二椭圆设置到水平状态；所述第二椭圆为所述椭圆形印章所对应的椭圆；

2.根据权利要求1所述的方法，其特征在于，在分别对所述呈直线型分布的文字序列、所述呈弯曲型分布的文字序列中的文字进行识别之前，还包括：

确定所述第二椭圆的中心点的纵坐标，得到第二纵坐标；

3.根据权利要求1所述的方法，其特征在于，在对待识别的椭圆形印章图像进行二值化处理之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于RGB颜色空间对待识别的椭圆形印章图像进行图像增强，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于RGB颜色空间和CMYK颜色空间对待识别的椭圆形印章图像进行图像增强，包括：

6.一种文字识别装置，其特征在于，所述装置包括：

直线序列确定模块，用于根据所述二值图像中的文字的连线所组成的第一椭圆与所述第一文字序列的位置关系，从所述第一文字序列中确定呈直线型分布的文字序列，包括：

直线序列确定第二子模块，用于若所述第一椭圆与所述第一文字序列不存在交叉点，则将所述第一文字序列确定为呈直线型分布的文字序列；

水平设置模块，用于根据所述二值图像中的第二椭圆的长轴与水平线的夹角将所述第二椭圆设置到水平状态；所述第二椭圆为所述椭圆形印章所对应的椭圆；

7.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的文字识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的文字识别方法的步骤。