CN112163596A

CN112163596A - 复杂场景文本识别方法、系统、计算机设备及存储介质

Info

Publication number: CN112163596A
Application number: CN202010919026.1A
Authority: CN
Inventors: 黄双萍; 杨代辉; 黄鸿翔; 郑锐佳; 李智龙; 李南鹏
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-01-01
Anticipated expiration: 2040-09-04
Also published as: CN112163596B

Abstract

本发明公开了一种复杂场景文本识别方法、系统、计算机设备及存储介质，该方法包括：将残差卷积神经网络作为文本图像编码器，对文本图像进行特征提取，得到特征图；构建连接时序分类解码器和二维注意力解码器；并联连接时序分类解码器和二维注意力解码器，使两者共享文本图像编码器的输出；将特征图输入连接时序分类解码器，转换成一维特征序列，并将一维特征序列译码成第一文本序列；将特征图输入二维注意力解码器，转换成二维特征序列，并将二维特征序列译码成第二文本序列；利用输出选择策略对第一文本序列和第二文本序列进行优选，输出文本识别结果。本发明实现了对长短不一，线性文本序列和二维文本序列混合的复杂多样场景文本的精准识别。

Description

复杂场景文本识别方法、系统、计算机设备及存储介质

技术领域

本发明涉及一种复杂场景文本识别方法、系统、计算机设备及存储介质，属于模式识别与人工智能技术领域。

背景技术

文本识别是许多现实世界应用的关键任务，例如自动阅卷系统中的文字识别,无人驾驶车辆的路牌阅读，机器人导航，盲人辅助技术等。尽管在过去几年中已经进行了广泛的研究，但是复杂场景文本识别仍存在许多困难，例如多种语言混合文本和诸如复杂数学公式的具有二维特性的文本序列的识别。文本识别仍然具有挑战性。

受语音识别的启发，大多数文本识别算法将文本图像通过卷积神经网络提取出特征映射，并变换成对应的特征序列，再通过循环神经网络(Recurrent Neural Network，简称RNN)将文本识别转换为序列预测，带来了性能的提升。现有主流的文本识别方法主要基于连接时序分类(Connectionist Temporal Classification，简称CTC)解码器或二维注意力(2D-Attention)编码器。前者具有对长文本识别精度高的优点，但也有计算成本高以及只适合识别一维文本的缺点。相反，后者对短文本的识别能力很强，并且擅长于识别二维文本，但是识别长文本时则会出现注意力漂移和错误积累现象。

在一些场景中可能需要对复杂多样的文本进行识别，比如在自动阅卷系统中对试卷答案进行识别时，既可能出现很长的一维文本，也有可能出现二维文本，比如某些复杂的数学公式。在这种混合场景下，仅使用上述任意一种文本识别方法都不会得到很好的识别效果。因此，如何在统一框架模型下处理上述矛盾是有待解决的问题。。

发明内容

有鉴于此，本发明提供了一种复杂场景文本识别方法、系统、计算机设备及存储介质，其利用残差卷积神经网络作为文本图像编码器，基于连接时序分类解码器和二维注意力解码器构建联合解码模型，将复杂多样的文本图像转换为标签序列，并充分利用连接时序分类解码器和二维注意力解码器的优势，以解决文本识别领域中对于复杂多样场景文本准确识别的困难，提高对复杂文本的识别精度，实现了对长短不一，线性文本序列和二维文本序列混合的复杂多样场景文本的精准识别。

本发明的第一个目的在于提供一种复杂场景文本识别方法。

本发明的第二个目的在于提供一种复杂场景文本识别系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种复杂场景文本识别方法，所述方法包括：

将残差卷积神经网络作为文本图像编码器，对输入的文本图像进行特征提取，得到特征图；

构建连接时序分类解码器和二维注意力解码器；

并联连接时序分类解码器和二维注意力解码器，使两者共享文本图像编码器的输出；

将特征图输入连接时序分类解码器，通过连接时序分类解码器将特征图转换成一维特征序列，并将一维特征序列译码成第一文本序列；

将特征图输入二维注意力解码器，通过二维注意力解码器将特征图转换成二维特征序列，并将二维特征序列译码成第二文本序列；

利用输出选择策略对第一文本序列和第二文本序列进行优选，输出文本识别结果。

进一步的，所述将残差卷积神经网络作为文本图像编码器，利用文本图像编码器对文本图像进行特征提取，得到特征图，具体包括：

构建包含六个卷积模块的卷积神经网络，并加入残差结构，构成残差卷积神经网络；

将残差卷积神经网络作为文本图像编码器，对输入的文本图像卷积操作，以提取文本图像的特征，得到特征图。

进一步的，所述将特征图转换成一维特征序列，如下式：

其中，H和W分别为特征图的高度和宽度。

进一步的，所述将一维特征序列译码成第一文本序列，具体包括：

利用残差长短期记忆模块融合一维特征序列的上下文信息，得到上下文敏感的特征序列；

对上下文敏感的特征序列进行概率激活，得到输出概率图；

使用最优路径译码得到连接时序分类解码器输出的文本序列；其中，所述最优路径译码，如下式：

l_c＝B(π^best)

其中，π和π^best分别为译码路径和最优译码路径，Ω为所有路径组成的集合，B为译码路径到文本序列的映射函数。

进一步的，所述将特征图转换成二维特征序列，如下式：

其中，K×K为池化操作的窗大小，s为长度方向的缩放倍数，

为向下取整。

进一步的，所述将二维特征序列译码成第二文本序列，如下式：

其中，2DAttention(·)为注意力机制操作，

和h^t分别为二维注意力解码器在t时刻输出的字符和解码器隐状态。

进一步的，所述利用输出选择策略对第一文本序列和第二文本序列进行优选，输出文本识别结果，具体包括：

计算第一文本序列和第二文本序列的分数，根据分数大小来比较连接时序分类解码器和二维注意力解码器的识别准确度，并将识别准确度较高的编码器对应的文本序列进行输出；

所述第一文本序列的分数计算如下式：

其中，T_c为译码路径长度，M为连接时序分类解码器的译码字符类别总数，

是t时刻连接时序分类解码器的输出符号为第m类的概率；

所述第二文本序列的分数计算如下式：

其中，T_a为第二文本序列的长度，N为二维注意力解码器的译码字符类别总数，

是t时刻二维注意力解码器的输出符号为第n类的概率。

本发明的第二个目的可以通过采取如下技术方案达到：

一种复杂场景文本识别系统，所述系统包括：

特征提取单元，用于将残差卷积神经网络作为文本图像编码器，对输入的文本图像进行特征提取，得到特征图；

构建单元，用于构建连接时序分类解码器和二维注意力解码器；

并联单元，用于并联连接时序分类解码器和二维注意力解码器，使两者共享文本图像编码器的输出；

第一译码单元，用于将特征图输入连接时序分类解码器，通过连接时序分类解码器将特征图转换成一维特征序列，并将一维特征序列译码成第一文本序列；

第二译码单元，用于将特征图输入二维注意力解码器，通过二维注意力解码器将特征图转换成二维特征序列，并将二维特征序列译码成第二文本序列；

输出单元，用于利用输出选择策略对第一文本序列和第二文本序列进行优选，输出文本识别结果。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的复杂场景文本识别方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的复杂场景文本识别方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明首次提出将连接时序分类解码器和二维注意力解码器联合起来，二者共享文本图像编码器的输出，并利用输出选择策略融合连接时序分类解码器和二维注意力解码器的识别效果，输出文本识别结果，相较于使用分立的解码器，仅需提取一次输入文本图像的特征图，供连接时序分类解码器和二维注意力解码器这两个解码器使用，同时结合连接时序分类解码器和二维注意力解码器的特点，可以充分发挥连接时序分类解码器对长文本识别能力强和二维注意力解码器具有二维文本识别能力、计算成本低的优点，同时规避了连接时序分类解码器计算成本高以及二维注意力解码器识别长文本出现注意力漂移的缺陷，实现对复杂多样场景文本的精准识别，大大增强了网络对复杂多样场景文本的识别能力。

2、本发明所使用的具有残差结构的卷积神经网络具有很强的特征提取能力，与普通的卷积神经网络相比，残差网络的特点是易于优化，其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题，同时加快了训练的速度。

3、本发明所采用的输出选择策略是根据连接时序分类解码器和二维注意力解码器这两个解码器输出的序列概率计算序列分数，自适应地选择分数高的序列作为整体网络的输出结果，使得网络具有对复杂多样的文本进行精确识别的能力。

4、本发明使连接时序分类解码器和二维注意力解码器共享同一个图像编码器的输出，能够大大减少重复计算带来的计算成本，并且节省了网络结构的设计成本和存储成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的复杂场景文本识别方法的流程图。

图2为本发明实施例1的复杂场景文本识别方法的原理图。

图3为本发明实施例1的基于残差卷积网络的文本图像编码器结构图。

图4为本发明实施例1的连接时序分类解码器的结构图。

图5为本发明实施例1的二维注意力解码器的译码流程图。

图6为本发明实施例1的文本识别方法与其他文本识别方法的预测样例对比图。

图7为本发明实施例2的复杂场景文本识别系统的结构框图。

图8为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1和图2所示，本实施例提供了一种复杂场景文本识别方法，该方法采用Python编程和PyTorch深度学习框架实现，包括以下步骤：

S101、将残差卷积神经网络作为文本图像编码器，对输入的文本图像I进行特征提取，得到特征图F。

(1)构建包含六个卷积模块的卷积神经网络(Convolutional Neural Networks，简称CNN)，并加入残差结构，构成残差卷积神经网络。

(2)将残差卷积神经网络作为文本图像编码器，对输入的文本图像I卷积操作，以提取文本图像I的特征，得到特征图F。

其中，残差卷积神经网络已广泛应用于图像的深度特征提取，能够使网络参数更容易优化，并缓解后向计算中梯度消失的问题；本实施例的卷积神经网络包括六个卷积模块，在每一个卷积模块后面加入池化层和ReLU非线性激活单元，在第四和第五个模块进行dropout。另外，将第一个卷积模块的输出的特征图进行通道匹配后与第二个卷积模块的输出作元素级求和，作为下一个卷积模块的输入，并以此类推直到将第四个卷积模块输出的特征图进行通道匹配后与第五个卷积模块的输出作元素级求和后输入到最后一个卷积模块，便构成一个基于残差卷积网络的文本图像编码器，基于残差卷积网络的文本图像编码器的结构如图3所示。

S102、构建连接时序分类解码器(CTC编码器)和二维注意力解码器(2D-Attention编码器)，其中连接时序分类解码器的结构如图4所示。

S103、并联连接时序分类解码器和二维注意力解码器，使两者共享文本图像编码器的输出。

具体地，将连接时序分类解码器和二维注意力解码器的头部连接，使两者共享文本图像编码器的输出，利用连接时序分类解码器和二维注意力解码器可以分别对文本图像编码器的输出进行解码。

S104、将特征图F输入连接时序分类解码器，通过连接时序分类解码器将特征图F转换成一维特征序列x_c，并将一维特征序列x_c译码成第一文本序列l_c。

将特征图F转换成一维特征序列x_c，如下式：

其中，H和W分别为特征图F的高度和宽度，转换后得到高度为1，宽度为80的一维特征序列x_c，用于表示一维长文本的特征。

将一维特征序列x_c译码成第一文本序列l_c，具体包括：

(1)利用残差长短期记忆模块融合一维特征序列x_c的上下文信息，得到上下文敏感的特征序列x_c′。

具体地，利用三个残差长短期记忆(Residual Long Short Term Memory，简称RLSTM)模块级联构成一个循环神经网络(Recurrent Neural Network，简称RNN)融合一维特征序列的上下文信息，得到上下文敏感的特征序列。

(2)对上下文敏感的特征序列x_c′进行概率激活，得到输出概率图y_c。

(3)使用最优路径译码得到连接时序分类解码器输出的文本序列；其中，所述最优路径译码，如下式：

l_c＝B(π^best)

其中，π和π^best分别为译码路径和最优译码路径，Ω为所有路径组成的集合，B为译码路径到文本序列的映射函数。因为连接时序分类解码器的译码路径与特征序列严格对齐，译码过程中不存在特征“漂移”问题，所以能够较好地识别长文本。

另外，在网络训练阶段，本实施例使用的损失函数来自百度公司发布的Wrap-CTC模块。

S105、将特征图F输入二维注意力解码器，通过二维注意力解码器将特征图转换成二维特征序列x_a，并将二维特征序列x_a译码成第二文本序列l_a。

Attention(注意力)算法广泛应用文字识别、自然语言处理等序列预测任务中，本实施例使用的是Attention算法的二维形式，使其能够预测二维文本序列。

将特征图F转换成二维特征序列x_a，如下式：

其中，K×K为池化操作的窗大小，s为长度方向的缩放倍数，

为向下取整。

转换后得到高度为2，宽度为40的二维特征序列x_a，并使用门控循环单元(GateRecurrent Unit，简称GRU)构建循环神经网络，将二维特征序列x_a作为循环神经网络的输入。

二维注意力解码器的译码流程如图5所示，将二维特征序列x_a译码成第二文本序列l_a，如下式：

其中，2DAttention(·)为注意力机制操作，

二维注意力解码器通过调整二维特征序列的注意力权重使注意力集中在当前译码的字符上，t时刻二维特征序列x_a对应的注意力权重

计算如下：

j＝0，1，2，...，H_a×W_a

其中，H_a和W_a分别为二维特征序列x_a的高度和宽度，U_x和U_h都是需要学习的参数；然后利用注意力权重对二维特征向量x_aj进行加权求和便可得到注意力集中的上下文编码g^t，计算如下：

与连接时序分类解码器中的一维特征序列相比，二维特征序列x_a不仅保留有文本水平方向的特征，还包含有垂直方向的特征，当使用二维注意力解码器进行解码时，能够考虑到二维文本的空间信息，使得二维注意力解码器能够识别具有不规则形状、布局和方向的文本，弥补了连接时序分类解码器只能识别一维文本的不足。

S106、利用输出选择策略融合第一文本序列l_c和第二文本序列l_a，输出文本识别结果。

具体地，计算第一文本序列l_c和第二文本序列l_a的分数，根据分数大小来比较连接时序分类解码器和二维注意力解码器的识别准确度，并将识别准确度较高的编码器对应的文本序列(第一文本序列l_c或第二文本序列l_a)进行输出，此时输出的文本序列即为文本识别结果，本实施例的文本识别方法与连接时序分类解码器、二维注意力解码器的预测样例对比如图6所示，可以看到本实施例的文本识别方法预测复杂文本都是正确的，而连接时序分类解码器和二维注意力解码器预测复杂文本都有出错的情况。

第一文本序列l_c的分数通过将每个时刻概率最大的标签类别取出，并拼接得到最优的预测路径，然后将路径中的符号概率求平均值得到，如下式：

是t时刻连接时序分类解码器的输出符号为第m类的概率。

第二文本序列l_a的分数通过将每个时刻输出的概率最大的标签类别拼接成标签序列，并根据标签序列长度将标签中的符号概率求平均值得到，如下式：

是t时刻二维注意力解码器的输出符号为第n类的概率。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图7所示，本实施例提供了一种复杂场景文本识别系统，该系统包括特征提取单元701、构建单元702、并联单元703、第一译码单元704、第二译码单元705和输出单元706，各个单元的具体功能如下：

特征提取单元701，用于将残差卷积神经网络作为文本图像编码器，对输入的文本图像进行特征提取，得到特征图。

构建单元702，用于构建连接时序分类解码器和二维注意力解码器。

并联单元703，用于并联连接时序分类解码器和二维注意力解码器，使两者共享文本图像编码器的输出。

第一译码单元704，用于将特征图输入连接时序分类解码器，通过连接时序分类解码器将特征图转换成一维特征序列，并将一维特征序列译码成第一文本序列。

第二译码单元705，用于将特征图输入二维注意力解码器，通过二维注意力解码器将特征图转换成二维特征序列，并将二维特征序列译码成第二文本序列。

输出单元706，用于利用输出选择策略对第一文本序列和第二文本序列进行优选，输出文本识别结果。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以是计算机，如图8所示，其包括通过系统总线801连接的处理器802、存储器、输入装置803、显示器804和网络接口805，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质806和内存储器807，该非易失性存储介质806存储有操作系统、计算机程序和数据库，该内存储器807为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器802执行存储器存储的计算机程序时，实现上述实施例1的复杂场景文本识别方法，如下：

构建连接时序分类解码器和二维注意力解码器；

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的复杂场景文本识别方法，如下：

构建连接时序分类解码器和二维注意力解码器；

本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

综上所述，本发明首次提出将连接时序分类解码器和二维注意力解码器联合起来，二者共享文本图像编码器的输出，并利用输出选择策略融合连接时序分类解码器和二维注意力解码器的识别效果，输出文本识别结果，相较于使用分立的解码器，仅需提取一次输入文本图像的特征图，供连接时序分类解码器和二维注意力解码器这两个解码器使用，同时结合连接时序分类解码器和二维注意力解码器的特点，可以充分发挥连接时序分类解码器对长文本识别能力强和二维注意力解码器具有二维文本识别能力、计算成本低的优点，同时规避了连接时序分类解码器计算成本高以及二维注意力解码器识别长文本出现注意力漂移的缺陷，实现对复杂多样场景文本的精准识别，大大增强了网络对复杂多样场景文本的识别能力。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。