CN107636691A

CN107636691A - 用于识别图像中的文本的方法和设备

Info

Publication number: CN107636691A
Application number: CN201580080720.6A
Authority: CN
Inventors: 汤晓鸥; 黄伟林; 乔宇; 吕健勤; 贺盼
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2018-01-26
Also published as: WO2016197381A1

Abstract

公开了用于识别图像中的文本的方法和设备。根据实施方案，所述方法包括：用卷积神经网络(CNN)将图像编码为第一序列，其中第一序列是所述CNN的倒数第二个卷积层的输出；用递归神经网络(RNN)将第一序列解码为第二序列，第二序列具有与第一序列相同的长度、并指示对应于第一序列中的每个分量的所有可能字符的估计概率；以及将第二序列映射为去除了重复的标签和非字符标签的字串。

Description

用于识别图像中的文本的方法和设备

技术领域

本申请涉及文本识别，特定地涉及用于识别图像中的文本的方法和设备。

背景技术

自然图像中的文本识别由于其众多实际的应用而在计算机视觉中受到越来越多的关注。文本识别的问题包括两个子任务，即文本检测和文本行/字识别，其主要难度起因于文本模式的较大多样性(例如，低分辨率、低对比度和模糊)和高度复杂的背景杂波。因此，个别字符分割或分离极具挑战性。

大多数现有研究集中于开发出功能强大的字符分类器，其中一些字符分类器并入有额外的语言模型，因此取得了目前技术发展水平的性能。这些方法主要通过遵循以下基本流程(pipeline)的常规OCR技术来实现，即，首先涉及字符级分割处理、然后是隔离字符分类器的处理以及用于识别的后处理。多种方法采用深度学习网络来进行特征学习(representation learning)，但其识别仍限于字符级分类。所有当前成功的场景文本识别系统大多数是建立在隔离字符分类器上的，而字符级的分割或分离中存在的难度严重损害了它们的性能。重要的是，独立地识别每个字符放弃了字的有意义的上下文信息，从而显著降低了其可靠性和稳健性。

发明内容

根据本申请的一个方面，一种用于识别图像中的文本的方法包括：用卷积神经网络(CNN)将图像编码为第一序列，其中所述第一序列是CNN的倒数第二个卷积层的输出；用递归神经网络(RNN)将第一序列解码为第二序列，所述第二序列具有与第一序列相同的长度、并指示对应于第一序列中的每个分量的所有可能字符的估计概率；以及将第二序列映射为移除了重复的标签和非字符标签的字串。

根据本申请的另一个方面，一种用于识别图像中的文本的设备包括：卷积神经网络(CNN)，其将图像编码为第一序列，其中所述第一序列是CNN的倒数第二个卷积层的输出；以及递归神经网络(RNN)，将第一序列解码为第二序列，所述第二序列具有与第一序列相同的长度并指示对应于第一序列中的每个分量的所有可能字符的估计概率；其中RNN进一步将第二序列映射为移除了重复的标签和非字符标签的字串。

附图说明

图1是根据本申请的实施方案的用于识别图像中的文本的方法的流程图。

图2说明了根据本申请的实施方案的用于识别图像中的文本的设备或系统的整体流程。

图3说明了本申请的实施方案中所使用的五层式Maxout CNN模式的结构。

图4说明了本申请的实施方案中所使用的RNN模式的结构。

图5说明了本申请的实施方案中所使用的RNN模式中的存储单元的结构。

具体实施方式

下文参考附图来详细描述本申请的实施方案。

图1是根据本申请的实施方案的用于识别图像中的文本的方法100的流程图。如图1中所示，在步骤S101处，用卷积神经网络(CNN)将具有字符的图像编码为第一序列，其中所述第一序列为CNN的倒数第二个卷积层的输出。在步骤S102处，用递归神经网络(RNN)将第一序列解码为第二序列，所述第二序列具有与第一序列相同的长度、并指示对应于第一序列中的每个分量的所有可能字符的估计概率。在步骤S103处，将第二序列映射为移除了重复的标签和非字符标签的字串。

根据该实施方案，无需字符分割。相反，获得CNN的倒数第二个卷积层的输出并将其直接用作RNN的输入以用于文本识别，使得在该过程期间考虑到CNN在保持连续文本的、有意义的相互依存性(interdependency)方面的优点。

在实施方案中，CNN可对图像作为一个整体而执行卷积。在这种情况下，从CNN的倒数第二个卷积层获得的卷积结果是待用作RNN的输入的第一序列。

替代性地，CNN可使用滑动窗口从左到右密集地扫描字图像(word image)并将该图像划分成连续的段。应注意，此类段不等于通过字符分割所获得的段，因为这仅仅是扫描和划分，而无需识别个别字符。通过CNN对这些段个别地进行卷积。从CNN的倒数第二个卷积层获得的卷积结果是共同地形成待用作RNN的输入的第一序列的分量。

图2说明了根据本申请的实施方案的用于识别图像中的文本的设备或系统的整体流程。如顶框中所示，具有字符串“apartment”的图像被划分成大小相同的段(例如，32*32)。此类划分是用滑动窗口通过扫描来实施的。划分不涉及字符识别工作。每个段可包括一个或多个完整或不完整字符，且可根本不包括字符，如顶框中的第二行中所示。

图2中的中间框示出了CNN网络，其按顺序向每个段执行卷积。如所已知，CNN可包括若干层。在现有技术中，一些文本识别技术将CNN网络用于隔离字符识别，其中在CNN的最后一个层处输出字符标签。根据本申请，使用来自CNN的倒数第二层的输出。输出具有128个特征图，这些特征图中的每一个均包括单个神经元。例如，具有大小为32*32的段可形成CNN的倒数第二层的128D输出。对于可通过滑动窗口被划分成T段的图像而言，可形成T数目个128D输出，其中T是随图像的高宽比而变化的正整数。输出序列表示输入图像的高层次深层特征。

图2中的底框示出了RNN网络，其表示从CNN的输出序列。如可以看到，RNN具有与CNN相同数目的通道。然而，不同于每个通道个别地起作用的CNN的是，RNN中的连续通道被连接并通过RNN在隐藏层中的内部状态来相互作用。基于此类配置，对于从CNN输出的序列中的每个分量而言，考虑到与序列中的前一个分量(若有的话)与后一个分量(若有的话)两者之间的关系，输出所有可能字符的估计概率。然后，将从CNN输出的序列中的每个分量(因此图像的每个段)的估计概率放在一起考虑，并将其映射为移除了重复的标签和非字符标签的字串“apartment”。

根据实施方案，可对图像重设大小以使其适应CNN或滑动窗口，使得其可以被正确地处理和识别。例如，对于具有大小为32*32的滑动窗口而言，可对图像重设大小以具有32的高度，同时保持其原始高宽比不变。

虽然图2示出了在使用滑动窗口时的情形。但在另一个实施方案中，滑动窗口是不必要的。在此类情况下，对作为一个整体的图像进行卷积，并且来自CNN的倒数第二层的输出具有矩阵128*T，该矩阵等效于通过将T个128D输出连接在一起所获得的序列。

在详细描述CNN和RNN之前，如下将字图像识别的过程用公式表示为序列标示问题。给定输入图像(I)，如下将正确字串(S_w)的概率最大化，

其中θ是递归系统的参数，(I,S_w)∈Ω是来自训练集Ω的样本对，其中是图像I的真值(ground truth)字串(包含K个字符)。通常，应用链式法则以对S_w的联合概率进行建模，

因此，训练集(Ω)中的所有样本对的对数概率的总和经优化以学习模型参数。开发RNN来对顺序概率进行建模，其中可以由RNN在隐藏层h_t中的内部状态来表达按顺序调节的字符的可变数目。当通过计算非线性函数H来呈现下一个连续输入x_t时，更新此内部状态。

h_t+1＝H(h_t,x_t) (3)

其中非线性函数H定义所提议的递归系统的确切形式。X＝{x₁,x₂,...,x_T}是从字图像计算得出的连续CNN特征。

和H的设计在所提议的系统中起着重要的作用。开发CNN模型以形成连续x_t，并将H定义为具有长短期记忆(LSTM)架构。

CNN与RNN两者先前已训练过，如下将详细描述此。

为更好地理解并实施本申请的实施方案，在以下说明性示例中使用五层式maxoutCNN和基于双向长短期记忆(LSTM)的RNN。基于LSTM的RNN可进一步包括链结式时间分类(CTC)层。应注意，也有可能使用其他种类的CNN和/或RNN来实施本申请。

图3说明了本申请的实施方案中所使用的五层式Maxout CNN模式。如所示，基本流程是通过许多被分组的特征图或通道来计算逐点最大值。例如，输入图像/段的大小为32*32，其对应于滑动窗口的大小。Maxout CNN网络具有五个卷积层，每个卷积层后面为两组式或四组式Maxout操作，其分别具有不同数目的特征图(即，48、64、128、128和36)。在卷积期间，不涉及池化操作，且最后两个卷积层的输出图只是一个像素。这允许CNN一次对整个字图像进行卷积，从而导致显著的计算效率。对于每个字图像而言，可对其重设大小以具有32的相同高度，并且可保持其原始高宽比不变。通过将已学习的CNN应用于经重设大小的图像，128DCNN序列可直接来自倒数第二个卷积层的输出。此操作类似于通过使滑动窗口密集地移动穿过图像来独立于该滑动窗口计算深层特征，但具有很大的计算效率。可在包括不区分大小写的字符样本图像(包括26个字符和10个数字)的36个类上训练所使用的MaxoutCNN。

如上文所提到，对于通过滑动窗口被划分成T个段的图像而言，来自CNN的到RNN的输出是矩阵X＝{x₁,x₂,...,x_T}，其中x₁,x₂,...,x_T中的每一个都是128D向量。

图4说明了本申请的实施方案中所使用的RNN模式的结构。RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层，其中LSTM层从所输入的CNN序列形成第二序列，并且CTC层从第二序列形成字串。

如所示，双向LSTM具有分别对输入序列进行前向和后向处理的两个单独的LSTM隐藏层。两个隐藏层连接到相同的输入层和输出层。

标准RNN的主要缺点是梯度消失问题，从而使得难以在长时间内一致地传输梯度信息。这在设计RNN模型时是一个重要的问题，人们已经提出了专用于解决这个问题的长短期记忆(LSTM)。LSTM将隐藏层中的新神经元或单元结构定义为具有三个额外的乘法门：输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。这些新的单元被称为存储单元，它们允许LSTM学习有意义的远距离相互依存性。图5中描述了存储单元的结构。σ是逻辑S型函数，从而实现LSTM的非线性。“单元激活(cell activation)”是先前的单元激活与输入调制的总和，其分别由遗忘门和输入门控制。这两个门权衡先前的存储单元与当前的输入信息之间的影响。输出门控制有多少单元激活(cell activation)被转移为最终隐藏状态。每个LSTM隐藏层包含128个LSTM存储单元，这些LSTM存储单元中的每一个都具有图5中所示的结构。

通过针对每个连续输入x_t(其是从1到T的整数)递归地实施LSTM记忆来处理具有变化的长度的序列标示，使得所有LSTM共享相同的参数。LSTM的输出h_t用来在下一个输出x_t+1处被馈送到LSTM。其也用来计算被变换为所有可能字符的估计概率的当前输出。其最终形成估计序列和具有相同长度的输入序列p＝{p₁,p₂,p₃,...,p_T}。

由于字图像在字符级的未进行分段的缘故，LSTM输出(T)的长度与目标字串|S_w|＝K的长度不一致。这使得难以直接用目标串来训练RNN。为此，应用链结式时间分类(CTC)，以如下将LSTM连续输出(P)近似映射到其目标串：

其中投影B移除重复的标签和非字符标签，例如，B("-gg-o-oo-dd-")＝"good"。CTC寻找贯穿LSTM输出序列具有最大概率的近似优化路径(π)，其使不同长度的LSTM序列与字串对齐。

在难以将输入序列预分段为精确匹配目标序列的段的情况下，CTC被专门设计用于序列标示任务。在我们的RNN模型中，CTC层直接连接到LSTM的输出，并且充当整个RNN的输出层。这不仅允许该模型避免许多复杂的后处理(例如，将LSTM输出序列变换成字串)，而且使得有可能通过(X,S_w)∈Ω最小化总体损失函数来以端对端方式训练该模型。将每个样本对的损失计算为真实字串的负对数似然值的总和，

最后，根据本申请的RNN模型遵循双向LSTM架构，如图4中所示。其具有分别对输入序列进行前向和后向处理的两个单独的LSTM隐藏层。两个隐藏层连接到相同的输出层，从而允许其存取序列中的过去信息与未来信息。

在示例中，在大约1.8×10⁵个字符图像上训练根据本申请的CNN模型，并且通过在字图像上应用具有滑动窗口的训练过的CNN、跟着进行逐列归一化来形成CNN序列。RNN模型包含双向LSTM架构。每个LSTM层具有128个LSTM单元记忆块。我们的RNN模型的输入层具有128个神经元(对应于CNN序列x_t∈R¹²⁸的维度)，这些神经元完全连接到两个隐藏层。两个隐藏层的输出被级联，然后通过使用softmax函数被充分连接到LSTM的输出层，所述输出层具有37个输出类(包括额外的非字符类)。因此，我们的RNN模型总共具有273445个参数，这些参数在训练过程中被初始化具有平均值为0和标准偏差0.01的高斯分布。

用最速下降法(Steepest Descent Method)来训练递归模型。通过使用10^-4的学习率和0.9的冲量(Momentum)来每训练序列地更新这些参数。从训练集中随机选择每个输入序列。执行前向后向算法以联合优化双向LSTM和CTC参数，其中先在整个网络实施前向传播算法，然后实施前向后向算法，从而使真值(ground truth)字串对齐到LSTM输出图π∈B^-1(S_w)(π,p∈R^37×T)。将等式(6)的损失函数近似计算为：

最后，通过将近似误差进行后向传播处理从而更新参数。在大约3000个字图像上训练RNN，这些字图像是从下面所提到的三个测试数据集(benchmark)的训练集获得的。

通过在用于经过裁剪的字图像识别的三个标准测试数据集上，对本申请的文本识别解决方案与现有技术发展水平方法的性能进行比较，实验结果表明，本申请的方法和设备在通过以少量的样本进行训练来识别图像中的字方面具有良好的性能。

虽然已描述了本发明的优选实施方案，但是本领域技术人员在知晓一些基本的发明概念后，就有可能获得许多修改和变化。所附权利要求旨在解释为包括这些优选实施方案和落入本发明的范围内的所有改变和修改。

对于本领域技术人员显而易见的是，可在不背离本发明的精神和范围的情况下对本申请作出各种修改和变化。因此，如果任何修改和变化是在本申请的精神和原理内，则本发明旨在包括这些修改和变化。

Claims

1.一种用于识别图像中的文本的方法，包括：

用卷积神经网络(CNN)将所述图像编码为第一序列，其中所述第一序列是所述CNN的倒数第二个卷积层的输出；

用递归神经网络(RNN)将所述第一序列解码为第二序列，所述第二序列具有与所述第一序列相同的长度，并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率；以及

将所述第二序列映射为去除了重复的标签和非字符标签的字串。

2.根据权利要求1所述的方法，其中用CNN将所述图像编码为第一序列包括：

用所述CNN对所述图像作为一个整体进行卷积，其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果为所述第一序列。

3.根据权利要求1所述的方法，其中用CNN将所述图像编码为第一序列包括：

将滑动窗口应用于所述图像以将所述图像划分成大小相同的段；以及

用所述CNN来个别地和按顺序对所述段进行卷积，其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果是形成所述第一序列的分量。

4.根据权利要求1所述的方法，在所述编码的步骤之前进一步包括：

将所述图像重新设置为具有预定大小。

5.根据权利要求4所述的方法，其中所述CNN已用具有所述预定大小的图像样本训练过，并且在所述CNN的最后一个层输出不同字符的36个类。

6.根据权利要求1所述的方法，其中所述CNN的所述倒数第二个卷积层的输出仅为一个神经元。

7.根据权利要求1所述的方法，其中所述RNN已用一组卷积序列和对应的字串训练过。

8.根据权利要求1所述的方法，其中所述CNN包括maxout CNN。

9.根据权利要求1所述的方法，其中所述RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层，其中所述LSTM层形成所述第二序列，并且所述CTC层形成所述字串。

10.一种用于识别图像中的文本的设备，其包括：

卷积神经网络(CNN)，将所述图像编码为第一序列，其中所述第一序列是所述CNN的倒数第二个卷积层的输出；以及

递归神经网络(RNN)，将所述第一序列解码为第二序列，所述第二序列具有与所述第一序列相同的长度，并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率；

其中所述RNN进一步将所述第二序列映射为去除了重复的标签和非字符标签的字串。

11.根据权利要求10所述的设备，其中所述CNN通过以下步骤将所述图像编码为第一序列：

用所述CNN对所述图像作为一个整体进行卷积，其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果是所述第一序列。

12.根据权利要求10所述的设备，其中所述CNN通过以下步骤将所述图像编码为第一序列：

用所述CNN来个别地和按顺序对所述段进行卷积，其中从所述CNN的所述倒数第二个卷积层获得的所述卷积的结果是形成所述第一序列的分量。

13.根据权利要求10所述的设备，其中所述图像在输入到所述CNN之前被重设为具有预定大小。

14.根据权利要求13所述的设备，其中所述CNN已用具有所述预定大小的图像样本训练过，并且在所述CNN的最后一个层处输出不同字符的36个类。

15.根据权利要求10所述的设备，其中来自所述CNN的所述倒数第二个卷积层的所述输出仅为一个神经元。

16.根据权利要求10所述的设备，其中所述RNN已用一组卷积序列和对应的字串训练过。

17.根据权利要求10所述的设备，其中所述CNN包括maxout CNN。

18.根据权利要求10所述的设备，其中所述RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层，其中所述LSTM层形成所述第二序列，并且所述CTC层形成所述字串。