CN110837830A

CN110837830A - 一种基于时空卷积神经网络的图像字符识别方法

Info

Publication number: CN110837830A
Application number: CN201911019366.2A
Authority: CN
Inventors: 周钊; 郑莹斌; 叶浩
Original assignee: Shanghai Chengguan Information Technology Co Ltd
Current assignee: Shanghai Chengguan Information Technology Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-25
Anticipated expiration: 2039-10-24
Also published as: CN110837830B

Abstract

本发明提供了一种基于时空卷积神经网络的图像字符识别方法，首先对输入的图像进行预处理；然后利用卷积神经网络提取输入图像的特征；接着对提取的特征进行序列建模；最后根据提取的特征序列进行最后结果的预测。本发明提供一种基于时空卷积神经网络的图像字符识别方法，直接提取图像文本中的文本信息，减少手工文字输入的频率，节约手工录入信息的时间，减少了工作量，提高了工作效率。

Description

一种基于时空卷积神经网络的图像字符识别方法

技术领域

本发明涉及图像识别技术领域，具体地讲，本发明涉及一种基于时空卷积神经网络的图像字符识别方法。

背景技术

图像文本识别，是指利用人工智能领域的方法及技术，对文本图像进行处理，识别提取图像文本中的字符。图像文本识别能够自动提取图像上的文本信息，有助于快速理解图像中语义信息并且能够帮助解决许多实际问题。例如：发票的识别及录入，历史档案的电子化归档与检索等。

现阶段，图像文本识别的网络架构为：卷积神经网络提取图像特征，循环神经网络对特征序列进行建模。其中，现阶段的方法采用的卷积神经网络为 VGG、ResNet等，时间序列建模采用循环神经网络：GRU、BiLSTM等。最后根据序列特征进行预测。

目前，图像文本识别准确率极大程度上依赖于特征提取器及时间序列建模。其中，现阶段方法采用的图像特征提取算法还有准确率提升的空间，对于时间序列的建模方法对字符的长度有一定的要求，同时建模效率和模型推断时间也较低。

因此，本领域技术人员亟需提供一种基于时空卷积神经网络的图像字符识别方法，直接提取图像文本中的文本信息，减少手工文字输入的频率，节约手工录入信息的时间，减少了工作量，提高了工作效率。

发明内容

本发明要解决的技术问题是：提供一种基于时空卷积神经网络的图像字符识别方法，其特征在于,包括以下步骤:

步骤S01、对输入的图像进行预处理；

步骤S02、利用时空卷积神经网络提取输入图像的特征；

步骤S03、对提取的特征进行序列建模；

步骤S04、根据提取的特征序列进行最后结果的预测。

优选的，所述步骤01中，对输入的图像进行预处理包括对模糊的图像进行去模糊处理以及对倾斜扭曲的图像进行转正处理。

优选的，所述步骤01中，对输入的图像进行预处理过程中以n张图像为单位进行训练，将图像尺寸归一化。

优选的，将图像尺寸归一化具体包括：将图像以高度为32个像素进行等比缩放，同时以n张图像中宽度最大的图像为基准，将其它宽度不足最大宽度的图像进行像素值为0的填充。

优选的，所述步骤02中，首先通过卷积层、非线性层和下采样层抽象出图像的全局特征，其定义如下：

F:In→Out,In∈R^{H′×W′×C′},Out∈R^H×W×C

其中，In为网络的输入，图像或者特征图，Out是网络的输出特征图，W′、 H′和C′分别为输入特征图的长、宽和通道数；W、H和C分别为输出特征图的长、宽和通道数。

优选的，所述步骤02中，然后采用通道权重学习机制来捕获通道特征之间的依赖关系，权重因子学习过程如下：

a.对通道特征F沿着通道维度进行全局平均池化操作，数学表达式如下所示：

其中，g_c是由c个特征图的数值分布构成的向量，AvgPool代表全局池化操作，out代表权利要求5所述的网络输出的特征图，H、W代表特征图的宽与长；

b.通过g_c建立通道之间的关系，通过学习参数为每个特征通道分配不同的权重，数学表达式如下所示：

s＝σ(W₂δ(W₁g_c))

其中，步骤a得到的结果是g_c，W₁表示全连接层的参数，W₁的维度是

r是一个缩放参数；δ表示ReLU激活函数，W₂代表全连接层的参数，W₂的维度是

σ表示sigmoid激活函数；

c.s刻画C个特征图的权重，通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定，数学表达式如下所示：

其中，

表示最后得到的特征图。

优选的，所述步骤03中，对提取的特征进行序列建模过程中，空洞卷积允许卷积计算时的输入存在间隔采样，使得有效窗口的大小随着层数呈指数型增长，在t时刻空洞卷积的数学定义如下：

其中，F为卷积核，S为特征序列，k为一维卷积的尺寸，d为空洞卷积的扩张参数。

本发明提供了一种基于时空卷积神经网络的图像字符识别方法，其目的在于快速提取图像中的文本信息，本发明中的文本图像模型利用深度学习来设计，训练模型的数据主要为图像，其采用的基于注意力选择的特征提取组件及时间卷积建模可以提高图像字符识别的精度和效率，直接提取图像文本中的文本信息，减少手工文字输入的频率，节约手工录入信息的时间，减少了工作量，提高了工作效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明中基于时空卷积神经网络的图像字符识别方法的流程图；

图2是本发明中特征提取模块的网络架构图；

图3是本发明中时间卷积网络的结构图；

图4是本发明中图像文本识别系统的模型参数的结构图。

具体实施方式

为使本发明的内容更加清楚易懂，以下结合说明书附图，对本发明的内容作进一步说明。明显地，本发明并不局限于该具体实施例，本领域内的技术人员所熟知的一般替换也涵盖在本发明的保护范围内。其次，本发明利用示意图进行了详细的表述，在详述本发明实例时，为了便于说明，示意图不依照一般比例局部放大，不应以此作为对本发明的限定。

请参考图1，本发明提供一种基于时空卷积神经网络的图像字符识别方法，包括以下步骤:

步骤S01、对输入的图像进行预处理；

步骤S02、利用时空卷积神经网络提取输入图像的特征；

步骤S03、对提取的特征进行序列建模；

步骤S04、根据提取的特征序列进行最后结果的预测。

具体的，步骤S01中：

对输入的图像进行预处理包括对模糊的图像进行去模糊处理以及对倾斜扭曲的图像进行转正处理。模型进行训练时，以n张图像为单位进行训练；考虑到每张图像的尺寸是不一致的，为了提升模型训练的效率，首先要将图像尺寸归一化；将图像以高度为32个像素进行等比缩放，同时以n张图像中宽度最大的图像为基准，将其它宽度不足最大宽度的图像进行像素值为0的填充。

具体的，步骤S02中：

在特征提取模块，采用了更有效的卷积神经网络。一般来说，卷积神经网络提取的通道特征并不是同等重要的。因此，在特征通道建模时，希望能够建立通道之间的依赖关系，即加强有用的特征信息并抑制无用的特征信息。

具体来说，该网络通过自学习的方式来获取到每个特征通道的重要程度。首先通过一系列卷积层、非线性层和下采样层抽象出图像的全局特征，其定义如下：

F:In→Out,In∈R^{H′×W′×C′},Out∈R^H×W×C

然后采用通道权重学习机制来捕获通道特征之间的依赖关系。在本方法中，为每个通道特征引入一个权重因子，用来学习特征通道间的相关性；权重因子学习过程如下：

a.对通道特征F沿着通道维度进行全局平均池化操作，如以下数学表达式所示：

b.通过g_c建立通道之间的关系，即通过学习参数来为每个特征通道分配不同的权重，数学定义如下：

s＝σ(W₂δ(W₁g_c))

σ表示sigmoid激活函数；

先用W₁对g_c进行全连接计算，其中W₁的维度是

r是一个缩放参数，目的是为了减少通道数目从而减少参数量。之后经过ReLU激活函数，经过W₁的计算，输出的维度为

同理，与W₂相乘也是一个全连接层的计算过程， W₂的维度是最后输出的维度是[1,1,C]，C表示通道的数目。

c.s在一定程度上可以刻画C个特征图的权重，通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

其中，表示最后得到的特征图。

在网络较深时容易出现梯度消失的情况，导致模型难以优化。为此在本方法中，引入了残差结构。通过将网络的输入重新添加到网络的输出中来解决网络退化问题。综上所述，特征提取模块的网络架构如图2所示。

具体的，步骤S03中：

上一步骤主要考虑了特征通道之间的关系，强调通道特征的重要程度。序列建模则更加注重特征序列之间的依赖关系，其目的在于根据一个已知先后顺序的序列去预测未来时间段的序列。

与现阶段识别模型中的LSTM时序建模不同，本方法采用了时间卷积神经网络来建立特征序列之间的关系。LSTM模型虽然有记忆门，但是无法完全的记住所有的历史信息。时间卷积网络采用一维的因果卷积网络，因果卷积属于单向结构，网络层之间具有因果关系，因此不会出现遗漏历史信息的情况。在时间点t的因果卷积计算公式如下：

其中，F为卷积核，S为特征序列，k为一维卷积的尺寸，d为空洞卷积的扩张参数。同时，考虑到普通的因果卷积对特征序列的建模长度受限于卷积核大小，若想要捕获长期的依赖关系，则需要较多的网络层。在本方法中，使用了空洞卷积来解决网络层数较多的问题。空洞卷积允许卷积计算时的输入存在间隔采样，使得有效窗口的大小随着层数呈指数型增长。空洞卷积网络使用比较少的层，就可以获得很大的感受野。空洞卷积的数学定义如下：

其中，F为卷积核，S为特征序列，k为一维卷积的尺寸，d为空洞卷积的扩张参数。虽然空洞卷积的引入可以大幅度减少网络的层数，但还是需要若干个网络层才可以获取到完整的感受野。通道特征信息在网络层之间传递时，容易发生梯度消息的问题。为此，在序列建模中，同样采用残差连接来传递网络层间的特征信息。综上所述，时间卷积网络的结构如图3所示。

具体的，步骤S04中：

上一步骤中的特征序列代表着图像相应区域的某一字符出现的概率，将相应的概率转化为对应的字符并作为结果输出。

如图4所示，图像文本识别系统分为训练部分和推理部分，训练部分作用是获得识别网络模型参数，具体步骤包括：

1)获取带有标注的图像；

2)设置训练模型所需的参数并将步骤1)中的标注数据输入训练模型中，得到当前模型的参数；

3)测试当前模型的效果，依据当前效果调整步骤3)中的训练参数，重复步骤 2)，直到获得满足需求的效果。

4)保存最佳模型的参数，将其作为图像文本识别系统的模型参数。

本发明可直接提取图像文本中的文本信息，减少手工文字输入的频率，节约手工录入信息的时间，减少了工作量，提高了工作效率。

虽然本发明主要描述了以上实施例，但仅作为实例来加以描述，而本发明并不限于此。本领域普通技术人员能做出多种变型和应用而不脱离实施例的实质特性。例如，对实施例详示的每个部件都可以修改和运行，与所述变型和应用相关的差异可认为包括在所附权利要求所限定的本发明的保护范围内。

本说明书中所涉及的实施例，其含义是结合该实施例描述的特地特征、结构或特性包括在本发明的至少一个实施例中。说明书中出现于各处的这些术语不一定都涉及同一实施例。此外，当结合任一实施例描述特定特征、结构或特性时，都认为其落入本领域普通技术人员结合其他实施例就可以实现的这些特定特征、结构或特性的范围内。

Claims

1.一种基于时空卷积神经网络的图像字符识别方法，其特征在于,包括以下步骤:

步骤S01、对输入的图像进行预处理；

步骤S02、利用时空卷积神经网络提取输入图像的特征；

步骤S03、对提取的特征进行序列建模；

步骤S04、根据提取的特征序列进行最后结果的预测。

2.如权利要求1所述的基于时空卷积神经网络的图像字符识别方法，其特征在于,所述步骤01中，对输入的图像进行预处理包括对模糊的图像进行去模糊处理以及对倾斜扭曲的图像进行转正处理。

3.如权利要求1所述的基于时空卷积神经网络的图像字符识别方法，其特征在于,所述步骤01中，对输入的图像进行预处理过程中以n张图像为单位进行训练，将图像尺寸归一化。

4.如权利要求3所述的基于时空卷积神经网络的图像字符识别方法，其特征在于,将图像尺寸归一化具体包括：将图像以高度为32个像素进行等比缩放，同时以n张图像中宽度最大的图像为基准，将其它宽度不足最大宽度的图像进行像素值为0的填充。

5.如权利要求1所述的基于时空卷积神经网络的图像字符识别方法，其特征在于,所述步骤02中，首先通过卷积层、非线性层和下采样层抽象出图像的全局特征，其定义如下：

F:In→Out,In∈R^{H′×W′×C′},Out∈R^H×W×C

其中，In为网络的输入，图像或者特征图，Out是网络的输出特征图，W′、H′和C′分别为输入特征图的长、宽和通道数；W、H和C分别为输出特征图的长、宽和通道数。

6.如权利要求5所述的基于时空卷积神经网络的图像字符识别方法，其特征在于,所述步骤02中，然后采用通道权重学习机制来捕获通道特征之间的依赖关系，权重因子学习过程如下：

其中，g_c是由c个特征图的数值分布构成的向量，AvgPool代表全局池化操作，out代表权力要求5所述的网络输出的特征图，H、W代表特征图的宽与长；

s＝σ(W₂δ(W₁g_c))

σ表示sigmoid激活函数；

其中，表示最后得到的特征图。

7.如权利要求1所述的基于时空卷积神经网络的图像字符识别方法，其特征在于,所述步骤03中，对提取的特征进行序列建模过程中，空洞卷积允许卷积计算时的输入存在间隔采样，使得有效窗口的大小随着层数呈指数型增长，在t时刻空洞卷积的数学定义如下：