CN110427938A

CN110427938A - 一种基于深度学习的不规则文字识别装置和方法

Info

Publication number: CN110427938A
Application number: CN201910688434.8A
Authority: CN
Inventors: 赵朝阳
Original assignee: Sino-Tech Visual Language (beijing) Technology Co Ltd
Current assignee: Sino-Tech Visual Language (beijing) Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-08

Abstract

一种基于深度学习的不规则文字识别装置，包括：存储器，用于存储指令和文字图像；处理器，配置为执行所述指令，以便：输入含有不规则文字的原始文字图像至神经网络模型；识别文字图像中文字并输出；其中所述神经网络模型包括：矫正子网络，用于对含有不规则文字的原始文字图像进行矫正，并输出矫正后的文字图像；识别子网络，与所述矫正子网络输出端连接，用于接收该矫正子网络所输出的文字图像，并识别该文字图像之中的文字。

Description

一种基于深度学习的不规则文字识别装置和方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于深度学习的不规则文字识别装置和方法。

背景技术

文字识别是计算机视觉中的热门研究课题之一，也是基于视觉的模式识别应用的一个重要研究方向。它需要将定位到的文字区域转化为计算机可辨识和操作的符号，由于自然场景中的文字往往呈现多种不同的形态，因此文字的特征表示需要有极强的表达能力和判别力。而传统的手工设计的基于图像全局或局部的特征在文字识别这个问题上很难做到较好的效果。

深度学习是近年来机器学习领域一个热门研究方向，已经在计算机视觉、自然语言处理等领域获得了巨大的成功。尤其是深度卷积神经网络，凭借局部感受野、共享权值以及空间或时序的下采样这三大结构特点，能够从二维图像中提取出语义信息丰富和判别力强的特征，在大规模图像分类和物体检测任务中均表现出优越的性能。这两年，已经出现一些将深度学习应用于文字识别的技术，现有技术中提出了先进行字符分割，然后利用卷积神经网络对分割得到的单个字符进行分类；现有技术中还提出了采用卷积神经网络提取图像文字特征，然后利用递归神经网络依次实现汉字前、后部分、数字、字母、标点符号或者空白的识别。

现有的基于深度学习的文字识别技术尚有以下不足：首先，他们设计或采用的深度神经网络还比较浅，而通常来说，在训练数据足够多的情况下，更深的神经网络的判别能力和泛化能力更强，能够区分出相似文字之间精细的区别；其次，现有方法采用预先分割然后逐字识别的思路，或者将文本行看作从左到右排列的水平序列进行识别，而自然场景中不规则文字(不规则文字指非正面视角非水平排列的文字，包括侧视角拍摄的透视文本和弯曲的文本行等)的文本行往往形态多变，呈现多种不同的排布形式，而且成像视角也会造成文本行的形状表观变化，因此文字分割难度大，不精确的分割会造成后续识别的错误，而在文本行弯曲、倾斜等情况下，基于水平方向的识别方法也不再有效；最后，在识别过程中，现有的方法无法有效抑制无关信息的干扰，容易造成误识。

发明内容

(一)要解决的技术问题

本发明提出了一种基于深度学习的不规则文字识别装置和方法，以至少部分解决现有方法中存在的判别能力和泛化能力较弱，自然场景中文字分割不精确以及无法有效抑制无关信息干扰的问题。

(二)技术方案

根据本发明的一方面，提供了一种基于深度学习的不规则文字识别装置，包括：存储器，用于存储指令和文字图像；处理器，配置为执行所述指令，以便：输入含有不规则文字的原始文字图像至神经网络模型；识别文字图像中文字并输出；其中所述神经网络模型包括：矫正子网络，用于对含有不规则文字的原始文字图像进行矫正，并输出矫正后的文字图像；识别子网络，与所述矫正子网络输出端连接，用于接收该矫正子网络所输出的文字图像，并识别该文字图像之中的文字。

在进一步的方案中，所述的矫正子网络，包括：定位网络，包括多个卷积层和多个全连接层，用于定位含有不规则文字的原始文字图像的待预测基准点坐标值并输出；网格生成器，与所述定位网络输出端连接，接收所述定位网络输出的待预测基准点坐标值，用于计算输入图像与目标图像坐标位置对应关系；采样器，与网格生成器输出端连接，用于根据所述网格生成器输出的坐标位置对应关系对原始输入图像进行采样并输出至目标图像。

在进一步方案中，所述的识别子网络，包括：编码器，包括多个卷积层和多个双向长短期记忆层，用于提取图像特征，以及对图像中文字的上下文信息进行编码；解码器，包括循环神经网络，用于预测不定长的文字序列和对隐式语言模型建模；所述的解码器为双向解码器，包括：前向解码器，用于利用文本行中的历史信息进行解码；反向解码器，用于利用文本行中的未来信息进行解码。

本发明的另一方面，提供了一种基于深度学习的不规则文字识别方法，包括：

所述处理器收集原始文字图像，并存储至所述存储器中；

所述处理器在该原始文字图像中标注文字位置，组成文字检测数据集；

利用文字检测数据集，训练文字检测模型，输出为文字所在区域的矩形框；

根据矩形框裁切出只包含文字所在区域的图像，并标注文字内容标签，组成文字识别数据集；

将所述只包含文字所在区域的图像输入至矫正子网络；

矫正子网络利用循环矫正结构对不规则文字进行变换，再将变换后的文字图像输出至识别子网络；

识别子网络对文字图像中文字内容识别并输出；

利用文字内容标签的监督，对所述矫正子网络和识别子网络进行联合训练。

在进一步方案中，所述的识别子系统采用了薄板样条插值变换函数来对不规则文字进行矫正，所述的薄板样条插值变换函数的参数为基于两组基准点的映射关系的约束中求解所得，所述的两组基准点，一组为网络预测得到的待变换图像中的基准点，另一组为人为定义的变换后图像中的基准点，同时，所述基准点的坐标包含了变换参数信息。

在进一步方案中，所述的矫正子网络将预测所得的基准点映射回原始文字图像。

在进一步方案中，所述的矫正子网络为循环矫正结构，矫正过程为基于上一次矫正的结果，同时，该矫正子网络在每次迭代过程中都对原始文字图像进行变换，用于恢复上一步矫正过程中损失的文字信息。

在进一步方案中，所述的识别子网络为基于注意力解码的识别模型，并对所述编码器输出的图像特征进行自适应的加权，该识别子网络的前向解码器和反向解码器各输出一识别结果，其中得分高的输出为最终的识别结果。

在进一步方案中，，所述训练文字检测模型为基于EAST(An Efficient andAccurate Scene Text Detector，一种高效精确的场景文字检测器)算法。

(三)有益效果

从上述技术方案可以看出，本发明的基于深度学习的不规则文字识别装置和方法至少具有以下有益效果：

基于基准点的薄板样条插值变换函数可以建模非线性变换，因此可以有效地矫正形态多变的文本行；

矫正子网络可以自适应地对不规则文本进行矫正；

循环矫正的结构不会引入额外的参数，能够在同样的数据规模下，获得更优的矫正结果；

基准点精细化的结构使得原始的文字信息一直得以保留，若上一步的矫正结果不够精确，损失了部分文字信息，在下一步中可以进行有效的恢复；

识别子网络中多层的卷积层足以从大量文字图片中学习到丰富的语义信息和具有判别力的特征表达；

识别子网络利用循环神经网络可以递归地预测不定长的文字序列；

识别子网络在解码过程中可以自适应地关注最相关的字符特征，获得更加具有判别力的表达，同时，识别子网络的双向解码器可以充分利用文字序列中的上下文信息。

附图说明

图1为本发明实施例的基于深度学习的不规则文字识别装置结构图；

图2为本发明实施例的流程示意图；

图3为本发明实施例神经网络模型结构示意图；

图4为本发明实施例矫正子网络结构示意图；

图5为本发明实施例识别子网络结构示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提供了一种基于深度学习的不规则文字识别装置，包括：存储器，用于存储指令和文字图像；处理器，配置为执行所述指令，以便：输入含有不规则文字的原始文字图像至神经网络模型；识别文字图像中文字并输出；其中所述神经网络模型包括：矫正子网络，用于对含有不规则文字的原始文字图像进行矫正，并输出矫正后的文字图像；识别子网络，与所述矫正子网络输出端连接，用于接收该矫正子网络所输出的文字图像，并识别该文字图像之中的文字。

所述的矫正子网络，包括：定位网络，包括多个卷积层和多个全连接层，用于定位含有不规则文字的原始文字图像的待预测基准点坐标值并输出；网格生成器，与所述定位网络输出端连接，接收所述定位网络输出的待预测基准点坐标值，用于计算输入图像与目标图像坐标位置对应关系；采样器，与网格生成器输出端连接，用于根据所述网格生成器输出的坐标位置对应关系对原始输入图像进行采样并输出至目标图像。

所述的识别子网络，包括：编码器，包括多个卷积层和多个双向长短期记忆层，用于提取图像特征，以及对图像中文字的上下文信息进行编码；解码器，包括循环神经网络，用于预测不定长的文字序列和对隐式语言模型建模；所述的解码器为双向解码器，包括：前向解码器，用于利用文本行中的历史信息进行解码；反向解码器，用于利用文本行中的未来信息进行解码。

图1为本发明实施例的基于深度学习的不规则文字识别装置结构图，如图1所示，包括存储器和处理器，其中所述存储器包括ROM，用于存储所述神经网络模型的指令集，在本发明的示例实施例中，所述ROM存储器可以为Nand Flash、Nor Flash或EMMC；RAM存储器，用于缓存所述神经网络模型工作中的各种数据，如文字位置，文字区域所在的矩形框等；可选的，存储器还可以包括外部存储设备，如硬盘或U盘，用于存储原始文字图像和以及包含识别结果的文本文件；所述处理器可为通用处理器或神经网络专用处理器；可选的，还可以包括至少一显示设备，用于显示原始文字图像以及识别结果。

本发明还提供了一种基于深度学习的不规则文字识别方法，图2为本发明实施例的流程示意图，如图2所示，步骤包括：

所述处理器收集原始文字图像，并存储至所述存储器中；

将所述只包含文字所在区域的图像输入至矫正子网络；

识别子网络对文字图像中文字内容识别并输出；

在本发明的示例实施例中，所述的识别子系统采用了薄板样条插值变换函数来对不规则文字进行矫正，所述的薄板样条插值变换函数的参数为基于两组基准点的映射关系的约束中求解所得，所述的两组基准点，一组为网络预测得到的待变换图像中的基准点，另一组为人为定义的变换后图像中的基准点，同时，所述基准点的坐标包含了变换参数信息。

在本发明的示例实施例中，所述的矫正子网络将预测所得的基准点映射回原始文字图像。

在本发明的示例实施例中，所述的矫正子网络为循环矫正结构，矫正过程为基于上一次矫正的结果，同时，该矫正子网络在每次迭代过程中都对原始文字图像进行变换，用于恢复上一步矫正过程中损失的文字信息。

在本发明的示例实施例中，所述的识别子网络为基于注意力解码的识别模型，并对所述编码器输出的图像特征进行自适应的加权，该识别子网络的前向解码器和反向解码器各输出一识别结果，其中得分高的输出为最终的识别结果。

在本发明的示例实施例中，所述训练文字检测模型为基于EAST算法。

图3为本发明实施例神经网络模型结构示意图，如图3所示，所述神经网络模型包括矫正子网络和识别子网络，矫正子网络利用循环矫正结构将输入图像中的不规则文字变换为利于识别的标准形式，识别子网络对矫正后的文本行进行识别。

图4为本发明实施例矫正子网络结构示意图，如图4所示，矫正子网络包括定位网络、网格生成器和采样器。

在本发明的示例实施例中，所述定位网络包括1个输入层，6个卷积层，5个下采样层和2个全连接层，其中5个下采样层分别接在前5个卷积层之后，均为最大值pooling(池化层)，所有的卷积层的卷积核均为3*3，下采样层的卷积核均为2*2，卷积层的通道个数分别为32，64，128，256，256，256，2个全连接层的输出单元数分别为512和40。

每个卷积层之后先接一个batchnorm(Batch Normalization，批规范化)层，这一层具体是由一个batchnorm层和一个scale(尺度放缩步骤)层组成，batchnorm负责对输入做0均值1方差的归一化，scale则负责对输入做缩放和平移，batchnorm的均值和方差来自于输入，而scale的缩放和平移参数需要从数据中学习。batchnorm层过对网络输入做归一化，有效的消除了网络内部的协变量转移，加快了网络的收敛，同时也是一种正则化机制，有效的防止了网络过拟合。batchnorm层之后接一个激活函数层，在本实施例中，采用的是ReLU(Rectified Linear Unit，线性整流函数)。

所述定位网络输出待预测基准点的坐标值后，网格生成器根据基准点坐标的预测值计算出变换函数的参数，并通过矩阵运算，计算出目标图像中的每个位置对应原图中的坐标位置，采样器根据网格生成器得到的坐标信息，在原始图像中进行采样，将原图中的像素复制到目标图像中，即可得到变换后的图像。

每一步的矫正结果都作为下一次矫正子网络的输入，根据上一步的基础，预测基准点坐标的偏移，逐步精细化基准点的坐标值，然后把预测所得的基准点映射回原始图像，然后计算变换参数，并对原始的输入图像进行变换。重复此过程3次，不断对矫正结果进行修正，并将最后一次的矫正结果作为识别子网络的输入。

图5为本发明实施例识别子网络结构示意图，如图5所示，所述识别子网络包括编码器和解码器。

在本发明的示例实施例中，所述编码器由1个输入层，45个卷积层，2个双向长短期记忆层组成，45个卷积层分为6个block模块，第一个block包含一个3*3的卷积层，后五个block分别包含3，4，6，6，3个残差单元，每个残差单元由一个1*1的卷积层和一个3*3的卷积层组成，每个block的卷积层的通道数分别为32，64，128，256，512。每个卷积层之后同样先接一个batchnorm层，再接一个ReLU激活函数层。每个双向长短期记忆层的隐单元数目为256。

所述解码器包括前向解码器和反向解码器，前向解码器按照从左到右的顺序进行识别，相应地，反向解码器按照从右到左的顺序进行识别，每个解码器由一层隐单元数为256的长短期记忆层构成，每个时刻根据上一时刻的隐状态向量对输入的图像特征做加权和，具体方式为：

e_t，j＝v^Ttanh(Ws_t-1+Uh_j+b)

其中，s_t-1为长短期记忆层上一时刻的隐状态向量；h_j为图像整体特征h中第j个特征向量；e_t，j为对齐分数，表示当前时刻待预测字符与第j个特征之间的相关程度；α_t，j为第j个特征的权重，是根据对齐分数归一化后得到的；g_t为加权后的特征；W，U，v，b为可学习的网络参数。

加权后的特征将作为当前时刻的特征输入，随后解码器更新当前时刻隐状态并输出在类别空间上的概率分布，重复此过程直到输出终止符为止。

在本实施例中，直接选择解码器每一时刻概率最大的字符，然后从前向解码器和反向解码器的输出结果中选择得分较高的作为最终的识别结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的不规则文字识别装置，包括：

存储器，用于存储指令和数据，其中所述数据包括原始文字图像、文字区域所在的矩形框、文字内容标签等；

处理器，配置为执行所述指令，以便：

输入含有不规则文字的原始文字图像至神经网络模型；

识别原始文字图像中文字并输出所述文字的文本信息；

其中所述神经网络模型包括：

矫正子网络，用于对含有不规则文字的原始文字图像进行矫正，并输出矫正后的文字图像；

识别子网络，用于接收该矫正子网络所输出的文字图像，并识别该文字图像之中的文字。

2.根据权利要求1所述的装置，其中所述的矫正子网络，包括：

定位网络，包括多个卷积层和多个全连接层，用于定位含有不规则文字的原始文字图像的待预测基准点坐标值并输出；

网格生成器，与所述定位网络输出端连接，接收所述定位网络输出的待预测基准点坐标值，用于计算输入图像与目标图像坐标位置对应关系；

采样器，与网格生成器输出端连接，用于根据所述网格生成器输出的坐标位置对应关系对原始输入图像进行采样并输出至目标图像。

3.根据权利要求1所述的装置，其中所述的识别子网络，包括：

编码器，包括多个卷积层和多个双向长短期记忆层，用于提取图像特征，以及对图像中文字的上下文信息进行编码；

解码器，包括循环神经网络，用于预测不定长的文字序列和对隐式语言模型建模。

4.根据权利要求3所述的装置，其中所述的解码器为双向解码器，包括：

前向解码器，用于利用文本行中的历史信息进行解码；

反向解码器，用于利用文本行中的未来信息进行解码。

5.一种应用权利要求1-4任一所述的装置对不规则文字识别方法，包括：

所述处理器接收原始文字图像，并将该原始文字图像数据存储至所述存储器中；

在该原始文字图像中标注文字位置，组成文字检测数据集；

将所述只包含文字所在区域的图像输入至矫正子网络；

识别子网络对文字图像中文字内容识别并输出原始文字图像的文本信息；

6.根据权利要求5所述的方法，其中所述的识别子系统采用了薄板样条插值变换函数来对不规则文字进行矫正。

7.根据权利要求6所述的方法，其中所述的薄板样条插值变换函数的参数为基于两组基准点的映射关系的约束中求解所得。

8.根据权利要求7所述的方法，其中所述的两组基准点，一组为网络预测得到的待变换图像中的基准点，另一组为人为定义的变换后图像中的基准点。

9.根据权利要求7所述的方法，其中所述基准点的坐标包含了变换参数信息。

10.根据权利要求5所述的方法，其中所述的矫正子网络为循环矫正结构，矫正过程为基于上一次矫正的结果。

11.根据权利要求5所述的方法，所述的矫正子网络将预测所得的基准点映射回原始文字图像。

12.根据权利要求5所述的方法，所述的矫正子网络在每次迭代过程中都对原始文字图像进行变换，用于恢复上一步矫正过程中损失的文字信息。

13.根据权利要求5所述的方法，其中所述的识别子网络为基于注意力解码的识别模型，并对所述编码器输出的图像特征进行自适应的加权。

14.根据权利要求5所述的方法，所述识别子网络的前向解码器和反向解码器各输出一识别结果，其中得分高的输出为最终的识别结果。

15.根据权利要求5所述的方法，所述训练文字检测模型为基于EAST算法。