CN111160348A

CN111160348A - 自然场景的文本识别方法、存储装置和计算机设备

Info

Publication number: CN111160348A
Application number: CN201911143472.1A
Authority: CN
Inventors: 周翊民; 陈鹏; 吴庆甜
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-05-15
Also published as: WO2021098689A1

Abstract

本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。该自然场景的文本识别方法包括：利用深度卷积网络对待识别图像进行特征提取，以获取多个特征向量；利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码，以获得编码特征序列；利用解码用二维递归网络对编码特征序列进行解码，以获得预测标签序列；利用连接时间分类模型对预测标签序列进行校正，以形成输出文本序列。通过上述方式，本申请能够提升文本识别准确率，改善文本识别方法的性能。

Description

自然场景的文本识别方法、存储装置和计算机设备

技术领域

本申请涉及文本识别技术领域，特别是涉及一种自然场景的文本识别方法、存储装置和计算机设备。

背景技术

OCR技术发展多年来，从应用场景来看，已经在图像识别，身份证识别，包括银行保险的票据等方面都有应用，从技术层面来看，早先的传统文字识别手法基本都采用基于模板匹配的方式，对特征描述要求非常苛刻，很难满足复杂场景下的识别任务。而自从第三次人工智能浪潮兴起，在算法以及算力都有大幅度突破的情况下，深度学习抛弃了传统人工设计特征的方式，利用海量标定样本数据以及大规模GPU集群的优势让机器自动学习特征和模型参数，能一定程度上弥补底层特征与高层语义之间的不足。

就在最近这几年，基于深度学习的图像识别达到了前所未有的高度，这也让OCR技术有了广阔的场景。与传统文档图像相比，场景图像中文字多语言混合、背景复杂、模糊、文字变形、文本角度不同等情况，所以与传统的文字识别相比，场景文本识别面临更多的挑战。

尽管使用场景文本识别网络的结构已经存在，但仍存在很多的不足之处。目前很多文本识别方法的识别度不够准确，文本识别网络的性能不佳，且容易出现训练难、速度慢、梯度爆炸或消失等情况。

发明内容

本申请主要提供一种自然场景的文本识别方法、存储装置和计算机设备，以解决场景文本识别方法的性能不佳的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种自然场景的文本识别方法。该自然场景的文本识别方法包括：利用深度卷积网络对待识别图像进行特征提取，以获取多个特征向量；利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码，以获得编码特征序列；利用解码用二维递归网络对编码特征序列进行解码，以获得预测标签序列；利用连接时间分类模型对预测标签序列进行校正，以形成输出文本序列。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机设备。该计算机设备包括处理器和存储器，处理器耦接存储器，存储器用于存储程序，处理器用于执行程序以实现如上述的自然场景的文本识别方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种存储装置。该存储装置存储有程序，程序被执行时能够实现如上述的自然场景的文本识别方法。

本申请的有益效果是：区别于现有技术的情况，本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。通过设置深度卷积网络对待识别图像进行特征提取，以获取多个特征向量，并利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码，以获得编码特征序列，残差模块能够解决在训练过程中的梯度爆炸、消失问题并加快收敛速度，之后利用解码用二维递归网络对编码特征序列进行解码，以获得预测标签序列，利用连接时间分类模型对预测标签序列进行校正，以形成输出文本序列，从而能够提升识别准确率，改善文本识别方法的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请提供的自然场景的文本识别方法一实施例的流程示意图；

图2是本申请提供的计算机设备一实施例的结构示意图；

图3是本申请提供的存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其他实施例相结合。

请参阅图1，图1是本申请提供的自然场景的文本识别方法一实施例的流程示意图，本实施例中，该自然场景的文本识别方法包括：

S11：利用深度卷积网络对待识别图像进行特征提取，以获取多个特征向量。

该待识别图像为自然场景下携带有文本的图像，自然场景下的文本可以是来自于街道上的广告牌、宣传页等。

该待识别图像被取后，被输入到深度卷积网络中，并利用该深度卷积网络对该待识别图像进行特征提取，该深度卷积网络经过丰富的样本数据训练，从而能够准确且快速地从该待识别图像中获取多个特征图，并进一步从多个特征图中获取多个特征向量。

例如，该待识别图像为一份宣传页的图像，深度卷积网络识别出该待识别图像上的文字区域，并对文字区域进行网格划分，从而形成多个特征图，并提取特征图的特征向量。

可选地，该深度卷积网络为Yolo3(You only look once v3)网络。

Yolo3网络是以darknet-53网络为基础，修改了其结构，删除了最后的全连接层，保留前52层卷积层，Yolo3网络是一个全卷积网络，52层卷积层间大量使用残差的跳层连接。Yolo3网络结构中，使用的是步长为2的卷积来进行降采样，同时Yolo3网络中还使用了上采样、route操作，还在一个网络结构中进行3次检测，分别是在32倍降采样、16倍降采样和8倍降采样时进行检测。Yolo3网络能够快速和准确地提取多个特征向量，并形成待识别图像的特征序列。

该深度卷积网络还可以是Yolo1网络或Yolo2网络，本申请对该深度卷积网络具体选用哪一版的Yolo网络不作限制。

S12：利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码，以获得编码特征序列。

编码用二维递归网络用于将待识别图像的多个特征向量转换成图像特征序列。

将上述步骤中提取的多个特征向量输入结合有残差模块的编码用二维递归网络中，利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码，以获得编码特征序列。

其中，该编码用二维递归网络为第一Bi-LSTM网络(Bidirectional Long Short-Term Memory，双向长短记忆网络)。

长短记忆网络(LSTM)是一种改进型的循环神经网络(Recurrent NeuralNetworks，RNN)，其与RNN结构本质相同，只是使用了不同的函数去计算隐藏层的状态。

RNN对处理文本序列问题有独特的优势，但RNN有一个较大的缺陷，RNN上的残差在时间维度上反向传递时，每经过一个时刻，就会导致信号的大幅度衰减，随着时间间隔增加会出现梯度消失现象。

针对此问题，LSTM在网络内部计算中采用加法操作，在反向传播中避免小梯度的乘法运算，进而LSTM可以通过特殊的门结构让信息有选择性地影响RNN每个时刻的状态，降低了梯度消失的概率。

但LSTM在时间序列上仍是个深度网络，训练过程中的过拟合和梯度爆炸问题并没有根本解决，其网络收敛较慢，模型训练比较困难。经过研究发现，可以通过在LSTM加入残差模块(ResNet)，解决在训练过程中的梯度爆炸、消失问题，并加快收敛速度。

LSTM网络具有方向性，它只能利用过去的信息，如果特征序列(x₁，x₂，x₃，…，x_T)，从左到右顺序输入到LSTM，则LSTM只能利用当前序列左边的信息。然而，在基于场景图像的序列中，两个方向的上下文是相互有用且互补的。例如，一个词组“梯度”，词组的字符组合具有一定的顺序，且字符之间的联系比较紧密，若按单一方向的序列信息将导致解读特征序列的信息的效率及准确率不高，因此利用两个LSTM组成深度双向Bi-LSTM，Bi-LSTM克服了单向LSTM的缺点，可以同时根据上下文学习特征序列信息。

具体地，残差模块短接于第一Bi-LSTM网络的输入层的输出端和输出层的输入端之间，并利用残差模块将输入层对特征向量的第一转化结果与输出端和输出层之间的中间层对特征向量的第二转化结果进行合并后输入至输出层。即残差模块将特征向量中易使得第一Bi-LSTM网络梯度爆炸或消失的部分转换成第一转化结果，而中间层对特征向量中不引发第一Bi-LSTM网络梯度爆炸或消失的部分转换成第二转化结果，之后将第一转化结果和第二转化结果合并作为编码特征序列输出。

举例说明，设定F(x)是没有加入残差之前的网络，令y＝F(x)。假定：x＝5，F(5)＝5.1，则F(x)＝5.1。

设定H(x)是加入残差后的网络，y＝H(x)，则H(x)＝F′(x)+x。同样假定：x＝5，则H(5)＝F′(x)+x＝0.1+5，F′(x)＝0.1。

在第一Bi-LSTM网络训练中，在反向传播的梯度计算中，输出对梯度的影响比较大。假定输出从5.1变为5.2，F(x)的变化为:(5.2-5.1)/5.1×100％＝20％；F′(x)的变化为(5.2-5.1)/0.1×100％＝100％。

通过F(x)，F′(x)计算可以看出，加入残差模块后，第一Bi-LSTM网络输出变化对权重的调整作用更大，第一Bi-LSTM网络对输出变化更灵敏，在反向传播的梯度计算中，梯度不易消失，有利于第一Bi-LSTM网络的训练。

S13：利用解码用二维递归网络对编码特征序列进行解码，以获得预测标签序列。

解码用二维递归网络用于将编码特征序列转换成预测标签序列，该预测标签序列用于指示对应字符的含义。

将编码特征序列输入至二维递归网络，并利用解码用二维递归网络对编码特征序列进行解码，以获得预测标签序列。

其中，该解码用二维递归网络为第二Bi-LSTM网络。

Bi-LSTM网络是进行了序列的双向输入，产生两个方向的结果，然后进行线性变换得到最终结果。也就是说，经过一层Bi-LSTM结构，可将一个序列转换成另一个序列，相当于编译或译码的过程，经过多次的译码或编码过程得到最终的译码结果。

即第一Bi-LSTM网络为编码网络，用于将多个特征向量转换成编码特征序列。第二Bi-LSTM网络为解码网络，用于将编码特征序列解码成预测标签序列。

其中，由多个特征向量向预测标签序列的转换还存在准确率的问题，若转换结果有误差，则将导致识别出的语序和语义不准确。因而之后还执行步骤S14以对预测标签序列进行校正。

S14：利用连接时间分类模型对预测标签序列进行校正，以形成输出文本序列。

由于Bi-LSTM网络中的隐藏层序列输入长度与序列输出长度一致，因此译码出来的预测标签序列长度一般大于实际文本长度，存在着无效字符和重复字符。那么，在通过Bi-LSTM网络获得译码的序列后，可以通过与Bi-LSTM网络中最后一层Bi-LSTM网络连接的连接时间分类模型(Connectionist Temporal Classification，CTC)对字符串进行校正。

校正时，连接时间分类模型可计算多个字符标签所表征的字符所形成的至少一个输出文本中每个输出文本的概率，进而确定至少一个输出文本中概率最高的输出文本为待识别文本图像对应的识别文本。

例如，若输入识别装置的待识别文本图像中的文本为“birth”，依次通过深度卷积网络、编码用二维递归网络和解码用二维递归网络的处理后，得到n个字符标签的译码序列。连接时间分类模型使用横线代表译码序列中的无效字符，得到的译码序列为“-bb—i-rtt—h-”，则连接时间分类模型可以确定该译码序列对应的每个输出文本的概率，例如可能对应的输出文本包括bbirtth、birth或birtth，连接时间分类模型计算(例如通过正向传播公式)各个文本的概率，若确定“birth”概率最大，则得到文本识别结果为“birth”。

但连接时间分类模型每次输出都是单个字符的概率，这将导致其只是针对局部信息进行预测，忽略了整体信息，因此无法有效预测长文本序列。

因而，本申请中，连接时间分类模型进一步结合有注意力机制(AttentionMechanism，AM)。相对于CTC的局部预测，注意力机制直接预测文本序列而不需要计算隐变量和做出预测标签序列相互独立的假设，直接计算联合预测序列的概率。

具体地，利用连接时间分类模型计算由预测标签序列中的每个预测标签所表征的字符形成的多个候选文本序列中的每个候选文本序列的第一预测概率，利用注意力模型计算每个候选文本序列的第二预测概率，将每个候选文本序列的第一预测概率和第二预测概率进行合并，以获得综合预测概率，选择综合预测概率最高的候选文本序列作为输出文本序列。

其中，将每个候选文本序列的第一预测概率和第二预测概率进行合并的方式包括：将第一预测概率的对数值与第二预测概率的对数值进行加权求和。或者，将第一预测概率的数值和第二预测概率的数值进行加权求和。

连接时间分类模型结合注意力机制的方法避免了对预测标签进行额外对齐预处理和后续语法处理，在加快训练收敛速度的同时显著提高了文本识别率，对字体模糊、背景复杂的文本图像都具有很好的鲁棒性。

区别于现有技术的情况，本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。通过设置深度卷积网络对待识别图像进行特征提取，以获取多个特征向量，并利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码，以获得编码特征序列，残差模块能够解决在训练过程中的梯度爆炸、消失问题并加快收敛速度，之后利用解码用二维递归网络对编码特征序列进行解码，以获得预测标签序列，利用连接时间分类模型对预测标签序列进行校正，以形成输出文本序列，从而能够提升识别准确率，改善文本识别方法的性能。

基于此，本申请还提供一种计算机设备100，请参阅图2，图2是本申请计算机设备第一实施例的结构示意图，该实施方式中，计算机设备100包括处理器110和存储器120，处理器110耦接存储器120，存储器120用于存储程序，处理器110用于执行程序以实现上述任一实施例自然场景的文本识别方法。

计算机设备100可以是编解码器。处理器110还可以称为CPU(Central ProcessingUnit，中央处理单元)。处理器110可以是一种集成电路芯片，具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器110可以是微处理器或者该处理器也可以是任何常规的处理器等。

基于此，本申请还提供一种存储装置200，请参阅图3，图3是本申请提供的存储装置一实施例的结构示意图，该实施方式中，存储装置200存储有程序210，程序210被执行时能够实现上述任一实施例自然场景的文本识别方法。

其中，该程序210可以以软件产品的形式存储在上述存储装置200中，包括若干指令用以使得一个设备或处理器执行本申请各个实施方式方法的全部或部分步骤。

存储装置200是计算机存储器中用于存储某种不连续物理量的媒体。而前述的具有存储功能的存储装置200包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序210代码的介质。

在本申请所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种自然场景的文本识别方法，其特征在于，包括：

利用深度卷积网络对待识别图像进行特征提取，以获取多个特征向量；

利用结合有残差模块的编码用二维递归网络对所述多个特征向量进行编码，以获得编码特征序列；

利用解码用二维递归网络对所述编码特征序列进行解码，以获得预测标签序列；

利用连接时间分类模型对所述预测标签序列进行校正，以形成输出文本序列。

2.根据权利要求1所述的方法，其特征在于，所述深度卷积网络为Yolo3网络。

3.根据权利要求1所述的方法，其特征在于，所述编码用二维递归网络为第一Bi-LSTM网络。

4.根据权利要求3所述的方法，其特征在于，所述残差模块短接于所述第一Bi-LSTM网络的输入层的输出端和输出层的输入端之间；

所述利用结合有残差模块的编码用二维递归网络对所述多个特征向量进行编码的步骤包括：

利用所述残差模块将所述输入层对所述特征向量的第一转化结果与所述输出端和输出层之间的中间层对所述特征向量的第二转化结果进行合并后输入至所述输出层。

5.根据权利要求1所述的方法，其特征在于，所述解码用二维递归网络为第二Bi-LSTM网络。

6.根据权利要求1所述的方法，其特征在于，所述连接时间分类模型进一步结合有注意力机制。

7.根据权利要求6所述的方法，其特征在于，所述利用连接时间分类模型对所述预测标签序列进行校正的步骤包括：

利用所述连接时间分类模型计算由所述预测标签序列中的每个预测标签所表征的字符形成的多个候选文本序列中的每个候选文本序列的第一预测概率；

利用注意力模型计算每个所述候选文本序列的第二预测概率；

将每个所述候选文本序列的所述第一预测概率和所述第二预测概率进行合并，以获得综合预测概率；

选择所述综合预测概率最高的所述候选文本序列作为所述输出文本序列。

8.根据权利要求7所述的方法，其特征在于，所述将每个所述候选文本序列的所述第一预测概率和所述第二预测概率进行合并的步骤包括：

将所述第一预测概率的对数值与所述第二预测概率的对数值进行加权求和。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述处理器耦接所述存储器，所述存储器用于存储程序，所述处理器用于执行所述程序以实现如权利要求1-8任一项所述的自然场景的文本识别方法。

10.一种存储装置，其特征在于，所述存储装置存储有程序，所述程序被执行时能够实现如权利要求1-8任一项所述的自然场景的文本识别方法。