CN108764233B

CN108764233B - 一种基于连续卷积激活的场景字符识别方法

Info

Publication number: CN108764233B
Application number: CN201810434326.3A
Authority: CN
Inventors: 张重; 王红; 刘爽
Original assignee: Tianjin Normal University
Current assignee: Jingcheng Jiayu Technology (Shanghai) Co.,Ltd.
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2021-10-15
Anticipated expiration: 2038-05-08
Also published as: CN108764233A

Abstract

本发明实施例公开了一种基于连续卷积激活的场景字符识别方法，该方法包括：将训练图像输入至卷积神经网络，得到卷积激活图；利用第一预设卷积层中的卷积激活图，得到卷积激活描述子；利用第二预设卷积层中的卷积激活图，得到权重矩阵；基于卷积激活描述子和权重矩阵，得到连续卷积激活描述子；利用Fisher向量对连续卷积激活描述子进行编码，获取训练图像的特征向量；基于特征向量利用支持向量机得到场景字符识别分类模型；获取测试图像的特征向量，输入至场景字符识别分类模型得到场景字符识别结果。本发明将底层的笔画、纹理等特征信息和高层的语义信息结合在特征向量中，达到有效挖掘显著特征信息和笔画结构信息的目的，提高场景字符识别的准确率。

Description

一种基于连续卷积激活的场景字符识别方法

技术领域

本发明属于模式识别、人工智能技术领域，具体涉及一种基于连续卷积激活的场景字符识别方法。

背景技术

字符作为图像通信的媒介在实际应用中无处不在，并为自动地理编码、产品搜索、机器人导航、以及图像和视频检索等各种应用提供了有价值的语义线索。场景字符是在真实场景图像中出现的字符，它们容易受到各种因素的干扰,如非均匀光照、复杂背景、字体失真、模糊、字体变化等。因此，准确地识别场景字符是一项特别具有挑战性的任务。

在过去几十年，场景字符识别已经成为一个研究热点，并且研究者们提出了很多场景字符识别算法。一些早期的方法利用光学字符识别技术来识别场景中的字符。光学字符识别技术依赖于场景字符二值化和成熟的光学字符识别引擎。其中，场景字符二值化是非常难以实现的。近年来，研究者们提出基于目标的场景字符识别方法。如：Wang等人提出利用梯度直方图(Histogram of Oriented Gradients，HOG)特征来描述场景字符。Newell和Griffin等人将梯度直方图特征拓展为两种多尺度的梯度直方图特征，以捕捉更多特征信息。考虑到场景字符是由特定的笔画结构构成，Shi等人利用基于部件的树结构对每类场景字符进行建模，以挖掘场景字符的局部特征信息和整体结构信息。Gao等人提出笔画库的概念，他们训练笔画检测器，并将笔画检测器响应区域内的最大检测响应作为最终的特征。近年来，卷积神经网络成为很多领域的研究热点之一，它已经成功的应用于语音识别、脑电图分析、图像分类、场景字符识别等多个领域。Jaderberg等人将卷积神经网络中的全连接层的输出作为最终的图像表示。Cimpoi等人提出利用卷积神经网络中某一卷积层中的卷积激活描述子来进行特征表示。虽然以上方法取得了较大的成功，但是他们仅仅使用单一卷积层中的卷积激活图进行特征表示而忽略了其他卷积层提供的信息，所以不能够充分保留显著的特征信息和笔画结构信息，从而影响了场景字符识别的准确性。

发明内容

本发明的目的是要解决对场景字符识别结果影响较大的显著特征信息和笔画结构信息被忽略的技术问题，为此，本发明提供一种基于连续卷积激活的场景字符识别方法。

为了实现所述目的，本发明基于连续卷积激活的场景字符识别方法包括以下步骤：

步骤S1，将训练图像输入至预先训练得到的卷积神经网络中，得到卷积激活图；

步骤S2，利用所述卷积神经网络第一预设卷积层中的卷积激活图，得到卷积激活描述子；

步骤S3，利用所述卷积神经网络第二预设卷积层中的卷积激活图，得到权重矩阵；

步骤S4，基于所述卷积激活描述子和权重矩阵，得到连续卷积激活描述子；

步骤S5，利用Fisher向量对所述连续卷积激活描述子进行编码，得到所述训练图像的特征向量；

步骤S6，基于特征向量利用支持向量机得到场景字符识别分类模型；

步骤S7，按照所述步骤S1-S5获取测试图像的特征向量，输入至所述场景字符识别分类模型得到场景字符识别结果。

可选地，所述步骤S1包括：

步骤S11，将所述训练图像的大小归一化为H×W，其中，H和W分别表示训练图像的高度和宽度；

步骤S12，将归一化后的训练图像输入至所述卷积神经网络中，得到卷积激活图。

可选地，所述步骤S2包括：

步骤S21，获取所述第一预设卷积层中的卷积激活图M_t，M_t的大小为H_t×W_t×N_t，其中，下标t表示第一预设卷积层的序号，H_t和W_t分别表示第一预设卷积层卷积激活图的高度和宽度，N_t表示第一预设卷积层卷积激活图的数量；

步骤S22，将每个卷积激活图位置p处的对应元素串联，得到一个N_t维的卷积激活描述子x_t(p)，x_t(p)表示第t个卷积层中卷积激活图位置p的卷积激活描述子。

可选地，所述第二预设卷积层包括几个连续的卷积层。

可选地，所述步骤S3包括：

步骤S31，获取所述第二预设卷积层中第(t+L-1)卷积层的卷积激活图M_(t+L-1)，M_(t+L-1)的大小为H_(t+L-1)×W_(t+L-1)×N_(t+L-1)，其中，下标(t+L-1)表示卷积层的序号，H_(t+L-1)和W_(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度，N_(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量，L表示所需卷积层的总数量；

步骤S32，基于卷积激活图M_(t+L-1)，对权重矩阵进行初始化操作，得到初始化权重矩阵WE_(t+L-1)；

步骤S33，基于卷积激活图M_(t+L-2)和初始化权重矩阵WE_(t+L-1)，得到第(t+L-2)卷积层中的权重矩阵；

步骤S34，基于步骤S33，以递归的方式，得到最终的权重矩阵WE_(t+1)，其中，WE_(t+1)的大小为H_(t+1)×W_(t+1)×N_(t+1)，下标(t+1)表示卷积层的序号，H_(t+1)和W_(t+1)分别表示第(t+1)卷积层权重矩阵的高度和宽度，N_(t+1)表示第(t+1)卷积层权重矩阵的数量。

可选地，所述步骤S32中，一个卷积层中的一个卷积激活图对应一个权重矩阵：

其中，

表示第(t+L-1)卷积层中的第j个卷积激活图，

表示第(t+L-1)卷积层中的第j个权重矩阵。

可选地，所述步骤S33中，根据下式得到第(t+L-2)个卷积层中的权重矩阵：

其中，⊙表示两个矩阵的点乘运算，

表示第(t+L-2)卷积层中的第j个卷积激活图，

表示第(t+L-2)卷积层中的第j个权重矩阵。

可选地，所述步骤S4中，利用下式获取所述连续卷积激活描述子：

其中，

表示第(t+1)个卷积层中第j个权重矩阵位置p处的权重值，f_j的维度为N_t；

所述每幅场景字符图像表示为一个连续卷积激活描述子的集合F：

其中，N_(t+1)表示第(t+1)个卷积层中权重矩阵的数量。

可选地，所述步骤S5中，利用下式对所述连续卷积激活描述子进行编码：

其中，f_j表示连续卷积激活描述子，N_(t+1)表示一幅场景字符图像中连续卷积激活描述子的总数量，w_k，μ_k和σ_k分别表示高斯混合模型中第k个高斯分量的权重，均值向量和协方差矩阵，φ_j(k)表示连续卷积激活描述子f_j分配到第k个高斯分量的权重，g_μk表示第k个高斯成分的均值向量的梯度向量；g_σk表示第k个高斯成分的协方差向量的梯度向量。

可选地，每幅训练场景字符图像的特征向量表示为：

F_final＝(g_μ1,g_σ1,g_μ2,g_σ2,...,g_μk,g_σk,...,g_μK,g_σK)，

其中，K表示高斯混合模型中高斯分量的总数量，F_final表示所述训练场景字符图像最终的特征向量。

本发明的有益效果为：本发明通过提取卷积激活描述子和学习权重矩阵，能够将底层的笔画、纹理等特征信息和高层的语义信息结合在特征向量中，达到有效挖掘显著特征信息和笔画结构信息的目的，从而提高场景字符识别的准确率。

需要说明的是，本发明得到了国家自然科学基金项目No.61501327、No.61711530240、天津市自然科学基金项目No.17JCZDJC30600、No.15JCQNJC01700、天津师范大学基金项目No.135202RC1703、中国科学院模式识别国家重点实验室开放课题No.201700001、No.201800002、国家留学基金委项目No.201708120039、No.201708120040和天津市高等教育创新团队基金项目的资助。

附图说明

图1是根据本发明一实施例的基于连续卷积激活的场景字符识别方法的流程图。

图2是根据本发明一实施例的基于连续卷积激活的场景字符识别方法的卷积神经网络的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例的基于连续卷积激活的场景字符识别方法的流程图，下面以图1为例来说明本发明的一些具体实现流程。本发明基于连续卷积激活的场景字符识别方法包括以下步骤：

其中，所述步骤S1包括以下步骤：

在本发明一实施例中，所述训练图像的大小归一化为64×64。

在本发明一实施例中，所使用的卷积神经网络的网络结构如图2所示。在该实施例中，所述卷积神经网络的输入是64×64的场景字符图像，首先使用64个感受野大小为3×3的滤波器对输入图像进行卷积，得到大小为64×64×64的卷积激活图；然后使用64个感受野大小为3×3的滤波器卷积这些卷积激活图，得到大小仍然为64×64×64的卷积激活图；在第三层中，得到的卷积激活图作为输入并被64个感受野大小为3×3的滤波器卷积，之后，第三层的输出被传送到第一最大化池，得到大小为32×32×128的卷积激活图；在接下来的两层中，使用256个感受野大小为3×3的滤波器对于输入进行卷积，并将得到的大小为32×32×256的卷积激活图传送到第二最大化池；再使用512个感受野大小分别为9×9和8×8的滤波器对于输入进行卷积，得到大小分别为8×8×512和1×1×512的卷积激活图；之后，连接一个全连接层，它是一个256维的向量；最后，使用一个柔性最大值单元将全连接层输出的激活值转化为字符概率。

其中，最大化池在2×2窗口中执行，步长固定为2个像素，并进行了适当的零填充。在训练所述卷积神经网络时，训练图像批量处理的大小设置为64，即每批次输入的训练图像数量为64。利用反向传播算法更新参数，并在运行90周期后停止，前60个周期内，学习率设置为0.001，后30个周期内，学习率设置为0.0001。

进一步地，所述步骤S2包括以下步骤：

步骤S21，获取所述卷积神经网络第一预设卷积层中的卷积激活图M_t，M_t的大小为H_t×W_t×N_t，其中，下标t表示第一预设卷积层的序号，H_t和W_t分别表示第一预设卷积层卷积激活图的高度和宽度，N_t表示第一预设卷积层卷积激活图的数量；

所述第一预设卷积层可以从所述卷积神经网络卷积层中的前几层中进行选择，在本发明一实施例中，利用第2个卷积层中的卷积激活图得到卷积激活描述子，也就是说，所述第一预设卷积层为第2个卷积层，此时，所述卷积激活图的大小为H₂×W₂×N₂，更具体地，可取为64×64×64。

在本发明一实施例中，卷积激活描述子x_t(p)的维度为64，卷积激活描述子的数量为64×64。

其中，所述第二预设卷积层包括几个连续的卷积层。

进一步地，所述步骤S3包括以下步骤：

步骤S31，获取所述卷积神经网络第二预设卷积层中第(t+L-1)卷积层的卷积激活图M_(t+L-1)，M_(t+L-1)的大小为H_(t+L-1)×W_(t+L-1)×N_(t+L-1)，其中，下标(t+L-1)表示卷积层的序号，H_(t+L-1)和W_(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度，N_(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量，L表示所需卷积层的总数量；

步骤S32，基于卷积激活图M_(t+L-1)，对权重矩阵进行初始化操作，得到初始化权重矩阵WE_(t+L-1)，其中，一个卷积层中的一个卷积激活图对应一个权重矩阵：

其中，

表示第(t+L-1)卷积层中的第j个卷积激活图，

表示第(t+L-1)卷积层中的第j个权重矩阵。

所述第二预设卷积层可以从所有卷积层中的后几个卷积层中进行选择，在本发明一实施例中，利用第3,4,5,6个卷积层中的卷积激活图得到最终的权重矩阵，也就是说，所述第二预设卷积层为第3,4,5,6个卷积层，所述初始化的权重矩阵的大小为H₆×W₆×N₆，更具体地，可取为32×32×256。

步骤S33，基于卷积激活图M_(t+L-2)和初始化权重矩阵WE_(t+L-1)，得到第(t+L-2)个卷积层中的权重矩阵：

其中，⊙表示两个矩阵的点乘运算，

表示第(t+L-2)个卷积层中的第j个卷积激活图，

表示第(t+L-1)个卷积层中的第i个权重矩阵，

表示第(t+L-2)个卷积层中的第j个权重矩阵。

在本发明一实施例中，使用双线性插值法对较小的矩阵进行填充，以保证所述公式中两个矩阵的维度一致。

步骤S34，基于所述步骤S33，以递归的方式，得到最终的权重矩阵WE_(t+1)，WE_(t+1)的大小为H_(t+1)×W_(t+1)×N_(t+1)，其中，下标(t+1)表示卷积层的序号，H_(t+1)和W_(t+1)分别表示第(t+1)个卷积层权重矩阵的高度和宽度，N_(t+1)表示第(t+1)个卷积层权重矩阵的数量。

在本发明一实施例中，最终权重矩阵的大小为H₃×W₃×N₃，更具体地，可取为64×64×128。

进一步地，所述连续卷积激活描述子可以表示为：

其中，

表示第(t+1)个卷积层中第j个权重矩阵位置p处的权重值，f_j的维度为N_t。

因此，每幅场景字符图像可以表示为一个连续卷积激活描述子的集合F：

其中，N_(t+1)表示第(t+1)个卷积层中权重矩阵的数量。

在本发明一实施例中，每幅场景字符图像中连续卷积激活描述子的数量为128，维度为64维。

进一步地，利用下式对所述连续卷积激活描述子进行编码：

每幅训练场景字符图像的特征向量可表示为：

F_final＝(g_μ1,g_σ1,g_μ2,g_σ2,...,g_μk,g_σk,...,g_μK,g_σK)，

步骤S6，基于所述特征向量利用支持向量机得到场景字符识别分类模型；

以网上公开的场景字符图像数据库作为测试对象，比如在ICDAR2003数据库上，当第一预设卷积层为第2个卷积层，第二预设连续几个卷积层为第3,4,5,6个卷积层，并且K＝4时，场景字符识别的正确率为85.82％，由此可见本发明方法的有效性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。