CN111223065B

CN111223065B - 图像矫正方法、不规则文本识别方法、装置、存储介质和设备

Info

Publication number: CN111223065B
Application number: CN202010033574.4A
Authority: CN
Inventors: 徐卉; 周祥东; 石宇; 程俊; 罗代建
Original assignee: University of Chinese Academy of Sciences; Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: University of Chinese Academy of Sciences; Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-08-01
Anticipated expiration: 2040-01-13
Also published as: CN111223065A

Abstract

本发明公开了一种图像矫正方法，包括：获取待识别的不规则文本；对待识别不规则文本图像进行预处理，得到N段待矫正的子图像，N大于或等于2，每段子图像包含有不规则文字；分别对所述N段待矫正的子图像进行透视矫正，以得到N段矫正子图像；将所述N段矫正子图像进行拼接得到最终的矫正图像。本方明不同于现有算法，选择较为简单的三维几何变换(透视变换)作为矫正的标准，化繁为简，将文本行切分为多段(本发明以两段为例)，针对每一段进行透视变换，再将几何变换后的图像拼接。

Description

图像矫正方法、不规则文本识别方法、装置、存储介质和设备

技术领域

本发明涉及文本行识别领域，具体涉及一种图像矫正方法、不规则文本识别方法、装置、存储介质和设备。

背景技术

目前不规则文本识别的最通用的算法是华中科技大学白翔教授发表在PAMI上的《Aster:An Attentional Scene Text Recognizer with Flexible Rectification》，针对不规则场景图像文本行进行几何校正后识别文本内容。其中采用的神经网络框架包括两个部分：几何校正子网络和序列文本识别子网络，其中几何校正子网络是学习TPS(样条薄板差值)变换参数，利用预测的参数对不规则文本进行几何校正，后基于Attention(注意力机制)进行基于字符序列的文本内容识别。不足之处，TPS变换是一种较复杂的三维空间变换算法，在遇到形变较大的文本时，校正效果不佳。

其他基于Aster上研发的不规则文本识别方法，多分为两种：一种是检测单个字符并分类识别，再组合为字符序列(即文本行)；另一种类似Aster，先对整个文本行进行几何校正，再基于CTC(Connectionist Temporal Classification)或Attention进行序列文本的识别。不足：第一种方法需要进行单字符的检测定位，而实际场景中字符分割是很难的，因为受光照、角度、天气、拍摄条件等影响，会出现字符粘连的现象，影响字符分割。第二种方法对整个文本行进行整体的几何校正，针对复杂文本尤其是弯曲文本较难实现很好的矫正，会出现裁切掉部分文字信息的情况如图1所示。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种图像矫正方法、不规则文本识别方法、装置、存储介质和设备，用于解决现有技术的缺陷。

为实现上述目的及其他相关目的，本发明提供一种图像矫正方法，所述图像矫正方法包括：

获取待识别的不规则文本；

对待识别的不规则文本图像进行预处理，得到N段待矫正的子图像，N大于或等于2，每段子图像包含有不规则文字；

分别对所述N段待矫正的子图像进行透视矫正，以得到N段矫正子图像；

将所述N段矫正子图像进行拼接得到最终的矫正图像。

可选地，获取矫正子图像进行透视矫正包括：

获取待矫正的子图像的透视变换矩阵，所述透视变换矩阵表示待矫正的子图像与矫正后的子图像间的变换关系；

利用所述透视变换矩阵从待矫正的子图像中提取出矫正后的子图像中每一个像素点所对应的像素值；

将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中，得到矫正子图像。

可选地，所述获取待矫正的子图像的透视变换矩阵，包括：

根据第N-1子图像的透视变换矩阵计算第N-1子图像中的文字区域角点坐标；

根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵。

可选地，计算第一子图像的透视变换矩阵，包括：

计算第一子图像的变换偏移矩阵；

根据所述变换偏移矩阵与单位矩阵得到第一子图像的透视变换矩阵。

为实现上述目的及其他相关目的，本发明提供一种图像矫正装置，所述图像矫正装置包括：

图像获取模块，用于获取待识别的不规则文本；

图像预处理模块，用于对待识别的不规则文本图像进行预处理，得到N段待矫正的子图像，N大于或等于2，每段子图像包含有不规则文字；

图像矫正模块，用于分别对所述N段待矫正的子图像进行透视矫正，以得到N段矫正子图像；

图像拼接模块，用于将所述N段矫正子图像进行拼接得到最终的矫正图像。

可选地，所述图像矫正模块包括：

变换关系获取子模块，用于获取待矫正的子图像的透视变换矩阵，所述透视变换矩阵表示待矫正的子图像与矫正后的子图像间的变换关系；

像素提取子模块，用于利用所述透视变换矩阵从待矫正的子图像中提取出矫正后的子图像中每一个像素点所对应的像素值；

像素填充子模块，用于将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中，得到矫正子图像。

可选地，所述变换关系获取子模块包括：

角点坐标计算单元，用于根据第N-1子图像的透视变换矩阵计算第N-1子图像中的文字区域角点坐标；

透视变换矩计算单元，用于根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵。

可选地，计算第一子图像的透视变换矩阵，包括：

计算第一子图像的变换偏移矩阵；

为实现上述目的及其他相关目的，本发明提供一种不规则文本行识别方法，其特征在于，该识别方法包括：

接收所述的最终的矫正图像；

识别所述最终的矫正图像中的文字。

为实现上述目的及其他相关目的，本发明提供一种不规则文本行识别装置，其特征在于，该识别装置包括：

图像接收模块，用于接收所述的最终的矫正图像；

图像识别模块，用于识别所述最终的矫正图像中的文字。

为实现上述目的及其他相关目的，本发明提供一种存储介质，存储计算机程序，所述计算机程序被处理器运行时执行所述的图像矫正方法。

为实现上述目的及其他相关目的，本发明提供一种设备，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行所述的图像矫正方法。

如上所述，本发明的一种图像矫正方法、不规则文本识别方法、装置、存储介质和设备，具有以下有益效果：

1、本方明不同于现有算法，选择较为简单的三维几何变换(透视变换)作为矫正的标准，化繁为简，将文本行切分为多段(本发明以两段为例)，针对每一段进行透视变换，再将几何变换后的图像拼接，实现最终的文本矫正。

2、本发明同样适用于多种不规则文本，包括透视形变文本、旋转文本、弯曲文本等。

附图说明

图1为文本图像，(a)表示原始图像,(b)表示裁切后的图像；

图2为包括文字发生形变的文本图像，(a)表示常规文本，(b)表示倾斜和透视形变文本，(c)表示弯曲文本；

图3为本发明一实施例一种图像矫正方法的流程图；

图4为车牌图像透视矫正示例图(非分段情况)，(a)为原始图像，(b)为矫正后的图像；

图5为本发明一实施例分段透视矫正的流程图；

图6为本发明一实施例分段透视矫正的网络结构示意图；

图7为本发明一实施例一种图像矫正装置的示意图；

图8为本发明一实施例一种不规则文本识别方法的流程图；

图9为本发明一实施例一种不规则文本识别装置的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

目前网络资源丰富，图像成为人们日常信息的主要来源，而文字内容也大多以图像的形式存在。而文字存储了大量的语义信息，文本内容的识别，非常有助于人们对于图像场景的理解。图像中的文字可能以各种形态出现，包括印刷体、手写体、艺术体等，并且由于拍摄角度、字体排版等原因会出现各种几何形变的情况，如图2所示。

本发明提出一种图像矫正方法，简单高效的对不规则文本进行几何校正，保证文本信息的不丢失。通过分段透视矫正网络自动学习图像每一部分的透视变换参数，进行分段透视变换后再拼接在一起，合成几何矫正后的图像。

如图3所示，一种图像矫正方法，该矫正方法包括：

S11获取待识别的不规则文本图像；

其中，所述待矫正的图像中包含有不规则文字。

S12对待识别的不规则文本图像进行预处理，得到N段待矫正的子图像，N大于或等于2，每段子图像包含有不规则文字；

其中，对图像的预处理包括图像归一化处理和切分处理。

图像归一化处理是指对图像进行了一系列标准的处理变换，使之变换为一固定标准形式的过程，该标准图像称作归一化图像。原始图像在经历一些处理或攻击后可以得到多种副本图像，这些图像在经过相同参数的图像归一化处理后能够得到相同形式的标准图像。切分处理，即根据切分点将图像分成若干段子图像，后面的子图像开始的坐标为前面的子图像结束的坐标。

S13分别对所述N段待矫正的子图像进行透视矫正，以得到N段矫正子图像；

透视矫正，也即透视变换，透视变换为一种简单的三维空间几何变换，透视变换也叫投影变换。透视变换的参数为一个3*3的矩阵，即9个参数。若分为两段，则共有18个参数。

对于单纯的透视形变文本图像如图4(a)情况,无需分段即可通过透视矫正来解决,但无法解决弯曲文本(如图2(c))的形变问题，故本发明提出分段式透视矫正,可同时解决多种不规则文本的几何形变问题，包括4(a)的情况。

S14将所述N段矫正子图像进行拼接得到最终的矫正图像。

通过对每一个子图像进行矫正后，通过图像拼接方法，对N个矫正后的子图像进行拼接，就可以得到一个完成的经过矫正后的图像。

在一实施例中，如图5、6所示，获取矫正子图像，包括：

S131获取待矫正的子图像的透视变换矩阵，所述透视变换矩阵表示待矫正的子图像与矫正后的子图像间的变换关系；

具体地，可以通过卷积神经网络(Convolutional Neural Networks,CNN)预测出第一子图像的变换偏移矩阵；然后根据所述偏移矩阵与单位矩阵就可以得到第一子图像的透视变换矩，其中单位矩阵用来保证当偏移矩阵为0矩阵时的恒等映射(即偏移矩阵为0矩阵时，透视变换矩为单位矩阵，此时矫正图像与第一子图像相同)。透视变换矩阵代表矫正后的图像到待矫正的子图像的变换关系。

而对于第二子图像，则第一子图像的透视变换矩阵计算第一子图像中的文字区域角点坐标；然后根据第一子图像的文字区域角点坐标与第二子图像中的文字区域的坐标计算第二子图像的透视变换矩阵。按照此方法，可以计算出第N子图像所对应的透视变换矩阵。

即：根据第N-1子图像的透视变换矩阵计算第N-1子图像中的文字区域角点坐标；根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵。

S132利用所述透视变换矩阵从待矫正的子图像中提取出矫正后的子图像中每一个像素点所对应的像素值；此步完成了采样过程。

S133用于将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中，得到矫正子图像。

需要说明的是，利用网络生成器和待矫正的子图像获取一个矫正后的子图像，此时的矫正后的子图像是一个待填充像素值(颜色)的网格(即像素点)，每一个像素点位置所对应的颜色需要在矫正前的子图像中提取，提取的位置需要利用透视变换矩阵来计算。比如矫正后的子图像(1,1)这个位置应该填充什么颜色，利用透视变换矩阵计算，应该填充矫正前的子图像(2,3)这个位置的颜色，那就把矫正前的子图像(2,3)处的像素值提取出来填充在矫正后的子图像上。

这样，经过上述方法，就可以获得N个矫正后的子图像，将这N个矫正后的子图像通过图像拼接方法进行图像拼接，就可以获得完成的图像。

如图7所示，一种图像矫正装置，该图像矫正装置包括：

图像获取模块11，用于获取待识别的不规则文本；

其中，所述待矫正的图像中包含有不规则文字。

图像预处理模块12，用于对待识别的不规则文本图像进行预处理，得到N段待矫正的子图像，N大于或等于2，每段子图像包含有不规则文字；

其中，对图像的预处理包括图像归一化处理和切分处理。

图像矫正模块13，用于分别对所述N段待矫正的子图像进行透视矫正，以得到N段矫正子图像；

图像拼接模块14，用于将所述N段矫正子图像进行拼接得到最终的矫正图像。

在一实施例中，所述图像矫正模块包括：

在一实施例中，所述变换关系获取子模块包括：

在一实施例中，计算第一子图像的透视变换矩阵，包括：

计算第一子图像的偏移矩阵；

根据所述偏移矩阵与单位矩阵得到第一子图像的透视变换矩阵。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例的内容请参见方法部分的实施例的描述，这里暂不赘述。

如图8所示，一种不规则文本行识别方法，该识别方法包括：

S71接收所述的最终的矫正图像；其中，最终的矫正图像为如图3所述方法获取的图像。

具体地，通过卷积神经网络(Convolutional Neural Networks,CNN)提取最终的矫正图像的特征图(可以是二维特征图)。

S72识别所述最终的矫正图像中的文字。

通过attention解码器(可以是二维的attention解码器)直接基于二维特征图进行序列解码，完成文本序列的识别。

本发明采用二维attention解码器进行解码，相比一维attention和CTC解码器有更强的空间敏感度，对不规则文本的识别效果更佳。

本发明中提出的文本识别方法共包括两个主要部分：分段透视矫正子网络(通过分段透视矫正)和字符序列识别网络。通过分段透视矫正子网络直接预测输入图像的分段透视矫正参数，并对其进行几何矫正，字符序列识别子网络预测矫正后图像的文字内容，完成整个识别过程。

如图9所示，一种不规则文本行识别装置，该识别装置包括：

图像接收模块71，用于接收所述的最终的矫正图像；最终的矫正图像为如图3所述方法获取的图像。

图像识别模块72，用于识别所述最终的矫正图像中的文字。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器((RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种图像矫正方法，其特征在于，所述图像矫正方法包括：

获取待识别的不规则文本；

将所述N段矫正子图像进行拼接得到最终的矫正图像；

获取矫正子图像，包括：

将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中，得到矫正子图像；

所述获取待矫正的子图像的透视变换矩阵，包括：

根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵；

计算第一子图像的透视变换矩阵，包括：

通过卷积神经网络预测第一子图像的变换偏移矩阵；

2.一种图像矫正装置，其特征在于，所述图像矫正装置包括：

图像获取模块，用于获取待识别的不规则文本；

图像拼接模块，用于将所述N段矫正子图像进行拼接得到最终的矫正图像；

所述图像矫正模块包括：

像素填充子模块，用于将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中，得到矫正子图像；

所述变换关系获取子模块包括：

透视变换矩计算单元，用于根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵；

计算第一子图像的透视变换矩阵，包括：

通过卷积神经网络预测第一子图像的变换偏移矩阵；

3.一种不规则文本识别方法，其特征在于，该识别方法包括：

接收如权利要求1所述的图像矫正方法获得的最终的矫正图像；

识别所述最终的矫正图像中的文字。

4.一种不规则文本识别装置，其特征在于，该识别装置包括：

图像接收模块，用于接收如权利要求1所述的图像矫正方法获得的最终的矫正图像；

图像识别模块，用于识别所述最终的矫正图像中的文字。

5.一种存储介质，存储计算机程序，其特征在于，所述计算机程序被处理器运行时执行如权利要求1所述的方法。

6.一种电子设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如权利要求1所述的方法。