CN111967469A

CN111967469A - 一种畸形文本矫正方法、系统及文字识别方法

Info

Publication number: CN111967469A
Application number: CN202010811570.4A
Authority: CN
Inventors: 安达
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-11-20
Anticipated expiration: 2040-08-13
Also published as: CN111967469B

Abstract

本发明提出一种畸形文本矫正方法、系统及文字识别方法，所述矫正方法包括：文档图像获取步骤，用于获取目标文档图像；模型生成步骤，用于基于所述文档图像的像素分布生成一高斯热力图，所述高斯热力图为所述文档图像的像素概率模型，通过高斯热力图可视化地反映像素出现概率；文字分割步骤，用于通过边缘检测获取所述高斯热力图的文字边界，并根据所述文字边界对所述文档图像的文字进行分割，得到所述文档图像的文字对应的多个文字区域图像；文本矫正步骤，用于利用奇异值分解对每一所述文字区域图像进行矩阵变换得到矫正后的文字区域图像，进而得到矫正后的文档图像，本方案实现对任意形状排布的畸形文字有较好的矫正效果，且计算量小。

Description

一种畸形文本矫正方法、系统及文字识别方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种畸形文本矫正方法、系统及文字识别方法。

背景技术

对于扭曲的文字行，比如环形标志中的文字、弯曲的文档、弯曲的证件等等，例如图1中所示的畸形文字。当前畸形文本矫正主要用了霍夫变换或者深度学习的方法。霍夫变换对特定曲线的文字识别效果比较好，但是对于不规则形状很难识别。深度学习的方法需要大量样本进行训练，当样本数量不足时，同样影响其矫正效果。

发明内容

为解决上述的技术问题，本发明提出一种畸形文本矫正方法、系统及文字识别方法，实现对任意形状排布的畸形文字有较好的矫正效果，且计算复杂度低、计算量小。

一方面，本发明公开了一种畸形文本矫正方法，包括：

文档图像获取步骤，用于获取待操作的目标文档图像；

模型生成步骤，用于基于所述文档图像的像素分布生成一高斯热力图，所述高斯热力图为所述文档图像的像素概率模型，通过高斯热力图可视化地反映像素出现概率；

文字分割步骤，用于通过边缘检测获取所述高斯热力图的文字边界，并根据所述文字边界对所述文档图像的文字进行分割，得到所述文档图像的文字对应的多个文字区域图像；

文本矫正步骤，用于利用奇异值分解对每一所述文字区域图像进行矩阵变换得到矫正后的文字区域图像，进而得到矫正后的文档图像。

进一步，所述文本矫正步骤进一步包括：

通过计算得到每一文字区域图像的协方差矩阵，表示为Q；

对所述协方差矩阵Q进行奇异值分解，得到所述协方差矩阵的奇异向量，所述奇异向量表示为U；

利用所述奇异向量U对文字区域图像进行矩阵变换，得到矫正后的文字区域图像。

进一步，所述文字分割步骤还包括：

文字区域图像标引步骤，用于通过一位置索引记录每一所述文字区域图像的相对位置关系，所述相对位置关系可以是多个所述文字区域图像之间的位置关系，也可以是每一所述文字区域图像与所述文档图像之间的位置关系。

进一步，所述文本矫正步骤还包括：

文档图像还原步骤，用于根据所述位置索引组合拼接多个所述文字区域图像，得到矫正后的文档图像。

进一步，所述协方差矩阵Q表示为：

其中，Cov(X,Y)为X与Y协方差，Var(X)为X的方差，Var(Y)为Y的方差。

进一步，采用二维正态分布表示所述文字区域图像，图像中每个黑色像素点坐标为(x_i,y_i)，X为像素横坐标x_i的集合，Y为像素纵坐标y_i的集合。

进一步，所述矫正后的文字区域图像表示为：

I'＝I*U^-1，

其中，I为所述文字区域图像，I'为矫正后的文字区域图像。

本发明还公开了一种畸形文本矫正系统，包括：

文档图像获取模块，用于获取目标文档图像；

模型生成模块，用于基于所述文档图像的像素分布生成一高斯热力图；

文字分割模块，用于通过边缘检测获取所述高斯热力图的文字边界，并根据所述文字边界对所述文档图像的文字进行分割，得到所述文档图像的文字对应的多个文字区域图像；

文本矫正模块，用于利用奇异值分解对每一所述文字区域图像进行矩阵变换得到矫正后的文字区域图像，进而得到矫正后的文档图像。

进一步，所述文字分割模块还包括：

文字区域图像标引模块，用于通过一位置索引记录每一所述文字区域图像的相对位置关系。

进一步，文字矫正模块还包括：

文档图像还原模块，根据所述位置索引组合拼接多个所述文字区域图像，得到矫正后的文档图像。

另一方面，本发明还公开了一种文字识别方法，包括：

文档图像获取步骤S1，用于获取待识别文档图像；

文本矫正步骤S2，用于利用畸形文本矫正方法对所述文档图像中的畸形文字行进行矫正处理；

文档图像识别步骤S3，用于对矫正处理后的所述文档图像进行识别。

与现有技术相比，本发明的优点和积极效果在于：

本发明提出的矫正方法及系统、识别方法结合高斯热力图及特征变换实现对矫正文字的识别、分割及矫正，而且不需要大量的训练样本，因此本发明不仅适用于对大样本文字识别的预处理，也适用于小样本数量下的文字识别的预处理。

另外，本发明对任意形状排布的文字有较好的矫正效果，计算量小，不仅适用于对单行文本进行矫正，也适用于多行文本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例目标文档图像示意图；

图2为本发明实施例畸形文本矫正方法的流程示意图；

图3为本发明实施例的畸形文本矫正系统的系统结构示意框图；

图4为本发明实施例的文字识别方法的流程示意图；

图5为本发明实施例的畸形文本矫正方法另一优选流程示意图；

图6为本发明实施例的畸形文本矫正系统另一优选结构示意框图；

图7为本发明实施例的优选高斯热力图示意图；

图8为本发明实施例的高斯热力图文字区域示意图；

图9为本发明实施例优选矫正效果示意图

图10为本发明实施例另一优选矫正效果示意图。

其中：

1、畸形文本矫正系统；11、文档图像获取模块；12、模型生成模块；13、文字分割模块；14、文字矫正模块；131、文字区域图像标引模块；141、文档图像还原模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

具体实施例一：

图2为本发明实施例的畸形文本矫正方法的流程示意图，参考图2所示，本发明实施例的畸形文本矫正方法，包括：

文档图像获取步骤S10，用于获取待操作的目标文档图像；

模型生成步骤S20，用于基于文档图像的像素分布生成一高斯热力图，高斯热力图为文档图像的像素概率模型，通过高斯热力图可视化地反映像素出现概率；

文字分割步骤S30，用于通过边缘检测获取高斯热力图的文字边界，并根据文字边界对文档图像的文字进行分割，得到文档图像的文字对应的多个文字区域图像；

文本矫正步骤S40，用于利用奇异值分解对每一文字区域图像进行矩阵变换得到矫正后的文字区域图像，进而得到矫正后的文档图像，主要包括：

S401，通过计算得到每一文字区域图像的协方差矩阵，表示为Q，具体的，协方差矩阵Q表示为：

其中，Cov(X,Y)为X与Y协方差，Var(X)为X的方差，Var(Y)为Y的方差；

S402，对协方差矩阵Q进行奇异值分解，得到协方差矩阵的奇异向量，奇异向量表示为U；

S403，利用奇异向量U对文字区域图像进行矩阵变换，得到矫正后的文字区域图像，进而得到矫正后的文档图像；具体的，计算奇异向量的逆矩阵与文字区域图像的像素矩阵的矩阵乘积，表达式如下式：

I'＝I*U^-1，

其中，I为文字区域图像，I'为矫正后的文字区域图像。

图3为本发明实施例的畸形文本矫正系统的系统结构示意框图，参考图3所示，本实施例公开的畸形文本矫正系统1，包括：

文档图像获取模块11，用于获取待操作的目标文档图像；

模型生成模块12，用于基于文档图像的像素分布生成一高斯热力图；

文字分割模块13，用于通过边缘检测获取高斯热力图的文字边界，并根据文字边界对文档图像的文字进行分割，得到文档图像的文字对应的多个文字区域图像；

文本矫正模块14，用于利用奇异值分解对每一文字区域图像进行矩阵变换得到矫正后的文字区域图像，进而得到矫正后的文档图像。

图4为本发明实施例的文字识别方法的流程示意图，参考图4所示，本发明实施例的文字识别方法，包括：

文档图像获取步骤S1，用于获取待识别文档图像；

文本矫正步骤S2，用于利用如上所述的畸形文本矫正方法对文档图像中的畸形文字行进行矫正处理；

文档图像识别步骤S3，用于识别经矫正处理后的文档图像。

下面举一例说明本发明的文本矫正方法、系统工作原理。

本实施例对图1中的文字进行文本矫正，首先，执行步骤S10获取到如图1所示的文档图像，图像中包括弯曲的“测试文字abc字样”，并执行步骤S20生成高斯热力图，得到的高斯热力图如图7所示，根据图中的概率分布，文字区域和背景区域按照阈值0.1去分，低于0.1的区域认为是背景，高于0.1认为是文字区域，从而得到图8所示的框选出的文字区域；

根据该区域阈值进行步骤S30分割得到多个文字区域，例如图9所示的“试”，设“试”字的文字区域图像表示为：

其中，图像中每个黑色像素点坐标为(x_i,y_i)，X为像素横坐标x_i的集合，Y为像素纵坐标y_i的集合，μ₁、σ₁为X的期望和标准差，μ₂、σ₂为Y的期望和标准差，ρ为X与Y之间的线性相关程度，本实施例的ρ为0。

那么，每一文字区域均满足二维高斯分布，即满足二维正态分布，可通过下式表示：

(X,Y)～N(μ₁,μ₂,σ₁,σ₂,ρ)

其中，μ₁，μ₂，σ₁，σ₂，ρ均为常数且σ₁>0，σ₂>0，|ρ|<1。

通过计算得到步骤S401中的协方差矩阵Q表示为：

其中，Cov(X,Y)为X与Y协方差，Var(X)为X的方差，Var(Y)为Y的方差。Cov(X,Y)为X与Y协方差，如下式所示：

Var(X)＝σ₁ ²；

Var(Y)＝σ₂ ²。

对协方差矩阵进行奇异值分解，得到下式：

其中，U为协方差矩阵的奇异向量。

最后，执行步骤S403的矩阵变换为计算奇异向量的逆矩阵与文字区域图像的像素矩阵的矩阵乘积，表达式如下式：

I'＝I*U^-1，

其中，I为文字区域图像，I'为矫正后的文字区域图像。

参考图9-10所示，通过本实施例实现了对单行文本的较好的矫正效果，而且计算量和样本数量的要求较低，因此本实施例的矫正方法计算复杂度较低，具有较大的适用范围。

具体实施例二：

以下仅描述本实施例与具体实施例的不同之处，相同之处不再赘述。图5为本实施例的畸形文本矫正方法的流程示意图，图6所示为本实施例的畸形文本矫正系统的结构示意框图，参考图5-6所示，本实施例与具体实施例的不同之处在于：

本实施例的畸形文本矫正方法中，文字分割步骤S30还包括：文字区域图像标引步骤S301，用于通过一位置索引记录每一文字区域图像的相对位置关系，相对位置关系可以是多个文字区域图像之间的位置关系，也可以是每一文字区域图像与文档图像之间的位置关系。文本矫正步骤S40还包括：文档图像还原步骤S404，用于根据位置索引组合拼接多个文字区域图像，得到矫正后的文档图像。

相应的，本实施例的畸形文本矫正系统中，文字分割模块13还包括：文字区域图像标引模块131，用于通过一位置索引记录每一文字区域图像的相对位置关系。文字矫正模块14还包括：文档图像还原模块141，根据位置索引组合拼接多个文字区域图像，得到矫正后的文档图像。

采用本实施例的矫正方法及系统通过位置索引记录分割前各个文字区域之间或与原始图像的相对位置关系，用于对完成文字区域的矫正后还原成原文档图像的文字内容，防止产生文字错乱，本实施例不仅适用于单行文本的文字识别矫正，亦可实现对多行文本的文字识别矫正。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种畸形文本矫正方法，其特征在于，包括：

文档图像获取步骤，用于获取目标文档图像；

模型生成步骤，用于基于所述文档图像的像素分布生成一高斯热力图；

2.如权利要求1所述的畸形文本矫正方法，其特征在于，所述文本矫正步骤进一步包括：

通过计算得到每一文字区域图像的协方差矩阵，表示为Q；

3.如权利要求2所述的畸形文本矫正方法，其特征在于，所述文字分割步骤还包括：

文字区域图像标引步骤，用于通过一位置索引记录每一所述文字区域图像的相对位置关系。

4.如权利要求3所述的畸形文本矫正方法，其特征在于，所述文本矫正步骤还包括：

5.如权利要求2所述的畸形文本矫正方法，其特征在于，所述协方差矩阵Q表示为：

其中，Cov(X,Y)为X与Y协方差，Var(X)为X的方差，Var(Y)为Y的方差，X为文字区域图像黑色像素点横坐标x_i的集合，Y为文字区域图像黑色像素点纵坐标y_i的集合，所述文字区域图像表示为二维正态分布。

6.如权利要求2所述的畸形文本矫正方法，其特征在于，所述矫正后的文字区域图像表示为：

I'＝I*U^-1，

其中，I为所述文字区域图像，I'为矫正后的文字区域图像。

7.一种畸形文本矫正系统，其特征在于，包括：

文档图像获取模块，用于获取目标文档图像；

8.如权利要求7所述的畸形文本矫正系统，其特征在于，所述文字分割模块还包括：

9.如权利要求8所述的畸形文本矫正系统，其特征在于，文字矫正模块还包括：

文档图像还原模块，用于根据所述位置索引组合拼接多个所述文字区域图像，得到矫正后的文档图像。

10.一种文字识别方法，其特征在于，包括：

文档图像获取步骤，用于获取待识别文档图像；

文本矫正步骤，用于利用如权利要求1-6所述的畸形文本矫正方法对所述文档图像中的畸形文字行进行矫正处理；

文档图像识别步骤，用于对矫正处理后的所述文档图像进行识别。