CN112418209A

CN112418209A - 文字识别方法、装置、计算机设备及存储介质

Info

Publication number: CN112418209A
Application number: CN202011478206.7A
Authority: CN
Inventors: 刘雨桐; 石强; 熊娇; 王国勋; 张兴
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: China Resources Digital Technology Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-02-26
Anticipated expiration: 2040-12-15
Also published as: CN112418209B

Abstract

本发明公开了文字识别方法、装置、计算机设备及存储介质。该方法包括：获取样本图像和文字识别模型，用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的特征图像；通过所述文字识别模型的BiLSTM循环层对所述特征图像中的每个字符进行上下文分析，确定各字符的概率分布矩阵；基于所述概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失，并根据所述误差损失对所述文字识别模型的模型参数进行优化，得到最优的文字识别模型；最后利用最优的文字识别模型对识别图像进行文字识别，得到文字识别结果。该方法提高文字识别模型识别文字的准确性。

Description

文字识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及文字识别技术领域，尤其涉及一种文字识别方法、装置、计算机设备及存储介质。

背景技术

随着社会经济的发展和科学技术的进步,图像识别技术逐渐被应用到更多的行业领域中，OCR(光学字符识别，Optical Character Recognition，是指对文本资料进行扫描后对图像文件进行分析处理，获取文字及版面信息的过程)文字识别技术有着丰富的应用场景，包括已经在日常生活中广泛应用的面向垂类的结构化文本识别，如车牌识别、银行卡信息识别、身份证信息识别、火车票信息识别等等。此外，通用OCR文字识别技术也有广泛的应用，如在视频场景中，经常使用OCR文字识别技术进行字幕自动翻译、内容安全监控等等。但在实际应用中，尤其是在广泛的通用场景下，OCR文字识别技术也面临一些挑战，比如仿射变换、尺度问题、光照不足、拍摄模糊等技术难点；并且OCR文字识别应用常对接海量数据，但要求数据能够得到实时处理；并且OCR应用常部署在移动端或嵌入式硬件，而端侧的存储空间和计算能力有限，因此对OCR模型的大小和预测速度有很高的要求。

发明内容

本发明实施例提供了一种文字识别方法、装置、计算机设备及存储介质，旨在解决复杂背景下的文字识别准确率低及识别效率不高的问题。

第一方面，本发明实施例提供了一种文字识别方法，其包括：

训练阶段：

获取样本图像及文字识别模型，所述样本图像包含至少一个字符，所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络；

利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的第一特征图像；

通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析，确定所述特征图像中各预测字符的第一概率分布矩阵，所述第一概率分布矩阵由T个1×nclass列向量构成，其中，T为最大时间长度，nclass为预测字符，所述概率分布矩阵的列向量表示每个元素代表对应的预测概率；

基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失，并根据所述误差损失对所述文字识别模型的模型参数进行优化，得到最优的文字识别模型；

识别阶段：

输入识别图像至所述文字识别模型，通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取，得到所述识别图像的第二特征图像；

通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析，确定所述识别图像的第二概率分布矩阵；

基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径，并对所述最大概率路径进行冗余去除处理，得到文字识别结果。

第二方面，本发明实施例提供了一种文字识别装置，其包括：

获取模块，用于获取样本图像及文字识别模型，所述样本图像包含至少一个字符，所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络；

第一特征提取模块，用于利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的第一特征图像；

第一概率计算模块，用于通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析，确定所述特征图像中各预测字符的第一概率分布矩阵，所述第一概率分布矩阵由T个1×nclass列向量构成，其中，T为最大时间长度，nclass为预测字符，所述概率分布矩阵的列向量表示每个元素代表对应的预测概率；

损失计算模块，用于基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失，并根据所述误差损失对所述文字识别模型的模型参数进行优化，得到最优的文字识别模型；

第二特征提取模块，用于输入识别图像至所述文字识别模型，通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取，得到所述识别图像的第二特征图像；

第二概率计算模块，用于通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析，确定所述识别图像的第二概率分布矩阵；

冗余去除模块，用于基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径，并对所述最大概率路径进行冗余去除处理，得到文字识别结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的文字识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的文字识别方法。

本发明实施例提供了一种文字识别方法、装置、计算机设备及存储介质。该方法包括获取样本图像和文字识别模型；用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的特征图像；通过所述文字识别模型的BiLSTM循环层对所述特征图像中的每个字符的特征进行上下文分析，确定所述特征图像中各预测字符的概率分布矩阵；基于所述概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失，并根据所述误差损失对所述文字识别模型的模型参数进行优化，得到最优的文字识别模型；输入识别图像至所述文字识别模型，通过所述文字识别模型的倒残差结构模块、子空间注意力机制模块及BiLSTM循环层，确定所述识别图像中各字符的概率分布矩阵；基于所述文字识别模型的CTC转录层从所述识别图像的概率分布矩阵中提取出最大概率路径，并对所述最大概率路径进行冗余去除处理，得到文字识别结果。该方法通过子空间注意力机制模块实现多空间特征提取，进一步提高文字识别模型识别文字的准确性的同时，提高文字识别模型的预测效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文字识别方法的流程示意图；

图2为本发明实施例提供的文字识别方法中步骤S120的流程示意图；

图3为本发明实施例提供的文字识别方法中步骤S122的流程示意图；

图4为本发明实施例提供的文字识别方法中步骤S130的流程示意图；

图5为本发明实施例提供的文字识别装置的示意性框图；

图6为本发明实施例提供的文字识别模型的子空间注意力机制模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、字符和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、字符、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何路径以及所有可能路径，并且包括这些路径。

请参阅图1为本发明实施例提供的文字识别方法的流程示意图，该方法包括步骤S110～S140以及T110～T130。

训练阶段：

S110、获取样本图像及文字识别模型，所述样本图像包含至少一个字符，所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络；

本实施例中，作为用于训练文字识别模型的样本图像，样本图像需为包含至少一个字符的图像。样本图像在输入文字识别模型之前，需进行归一化处理，将每张样本图像调整至同样大小。例如，输入像素大小为w×h×3(此处w×h代表图像尺寸，3代表图像的3个通道，即R、G、B)的文字图像，将图像归一化至同样大小，即归一化至大小w×32×3的图像，并分为训练样本集、验证样本集和测试样本集。文字识别模型是用于对包含字符的图像进行文字识别，采用改进后的混合神经网络，包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层。具体的，混合神经网络的卷积核可以是3×3、5×5等。BiLSTM循环层是基于双向长短期记忆(Bi-directional Long Short-Term Memory，BiLSTM)的循环层，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。CTC转录层(Connectionist temporal classification，CTC)是基于联结时序分类的转录层，用于解决时序类数据的分类问题。

S120、利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的第一特征图像；

本实施例中，采用轻量级网络MobileNetV3用于目标检测与语义分割任务，结合深度可分离卷积及限性瓶颈的倒残差结构，改进MobileNetV3中的SE注意力机制，使得轻量级网络MobileNetV3的注意力机制成为一种层数更深、特征维度更高、参数更少的轻量级子空间注意力机制。轻量级网络MobileNetV3是卷积神经网络模型的一种。利用一定数量的倒残差结构模块获取一定数量的特征图像，可插入一个子空间注意力机制模块，进行特征图像进行特征“重标定”，得到特征图像在各子空间中的不同注意力特征提取，该子空间注意力机制模块主要是将特征图像分组，分别进行基于卷积的空间注意力机制的学习，为每个特征子空间推导不同的注意力特征图像，拼接注意力特征图像，得到第一特征图像，实现多尺度特征表示。该子空间注意力机制模块可根据特征提取情况，在特征提取主干网络的卷积层间进行随机添加，但由于添加子空间注意力机制模块会导致模型的层数增加，为了保证模型的效率，子空间注意力机制模块和特征提取网络都采用深度可分离卷积和点卷积，用来压缩参数数量并轻量化网络。

在一实施例中，如图2所示，步骤S120包括：

S121、利用所述倒残差结构模块对所述样本图像进行特征提取，得到卷积特征图像；

S122、利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取，得到在预置个数的注意力子空间中的注意力特征图像，并将各所述注意力子空间中的注意力特征图像进行拼接，得到所述第一特征图像。

本实施例中，将样本图像输入文字识别模型后，利用倒残差结构模块对样本图像进行卷积特征提取，得到指定大小的卷积特征图像；再利用预置不同的注意力权重机制的子空间注意力机制模块，对卷积特征图像进行注意力特征提取，然后将注意力特征提取得到的注意力特征图像进行拼接、合并，得到样本图像对应的第一特征图像。

在一实施例中，如图3所示，步骤S122包括：

S1221、将所述卷积特征图像按通道切分为g组，得到多个子空间特征图；

S1222、对每一所述子空间特征图进行深度可分离卷积，然后通过最大池化层进行池化，再进行点卷积处理，再使用softmax函数进行计算得到对应的权重矩阵；

S1223、将所述权重矩阵与对应的所述子空间特征图进行点乘，得到多个权重特征图像；

S1224、将各所述权重特征图像与对应的所述子空间特征图进行残差处理，得到对应注意力子空间的注意力特征图像；

S1225、将各所述注意力子空间中的注意力特征图像进行拼接，得到所述第一特征图像。

本实施例中，为了方便各个子空间注意力机制模块对卷积特征图像进行子空间特征提取，将卷积特征图像按通道切分为g组，得到用于进行不同注意力空间特征提取的多个子空间特征图。基于多个子空间特征图，对每个子空间特征图进行深度可分离卷积处理，为了保持特征图大小不变，加入了补零操作，深度可分离卷积之后再通过最大池化层进行最大池化处理，池化后进行点卷积处理。相比常规的特征提取处理，深度可分离卷积处理结合点卷积处理可以更好的提取特征。在利用softmax函数对提取的特征图像进行计算，得到特征图像对应的权重矩阵。权重矩阵中的每个权重表示对应的子空间特征图的权重，所有子空间特征图的权重和为1。接着令权重矩阵中每个权重与对应的子空间特征图进行点乘，计算得到多个子空间特征图对应的权重特征图像。再将各权重特征图像与对应的子空间特征图进行残差处理，得到对应注意力子空间的注意力特征图像，最后将各注意力特征图像拼接起来，得到第一特征图像。

进一步的，如图6为子空间注意力机制模块结构示意图，其中，DW为深度可分离卷积处理，Maxpooling为最大池化处理，PW为点卷积处理。

例如，将w/8×h/8×40的特征图像输入到子空间注意力机制模块。该子空间注意力机制模块首先将输入的特征图像按通道分为g组分别处理，每组有40/g个特征图像，得到多个子空间特征图，每个子空间特征图大小为w/8×h/8×40/g。各个子空间特征图首先进行深度可分离卷积处理，卷积核大小为1×1，接着通过步长为1，尺寸为33的最大池化层，为了保持特征图像大小不变，加入了补零操作。使用1×1的点卷积处理，得到w/8×h/8×1的子空间特征图。深度可分离卷积和点卷积两个部分的结合使用可以更好的提取特征，相比常规的卷积操作，参数数量和运算成本低。使用softmax处理，将w/8×h/8×1子空间特征图扩展为w/8×h/8×40/g的权重矩阵。输入w/8×h/8×40/g的权重矩阵与对应的w/8×h/8×1子空间特征图，通过点乘方式分配权重，再对权重特征图像与对应的子空间特征图进行残差处理，得到对应的注意力子空间w/8×h/8×40/g注意力特征图像。最后将所有w/8×h/8×40/g注意力特征图像进行拼接，得到第一特征图像。

进一步地，在步骤S120之后，还包括：

对所述特征图像依次进行一次卷积、池化、二次卷积和三次卷积。

本实施例中，根据实际情况，得到特征图像后，用户可以根据实际情况需要对特征图像进行进一步卷积处理和池化处理，如一次卷积特征提取、池化处理、二次卷积特征提取和三次卷积特征提取。

本实施例中使用的改进后的混合神经网络的结构如表1所示：

表1

需要注意的是，表1中的倒残差块即为倒残差结构模块，文字识别模型包含多个倒残差结构模块和多个子空间注意力机制模块，conv2d表示二维卷积，pool表示池化，bneck表示瓶颈。其中，倒残差结构模块的数量大于子空间注意力机制模块的数量，并且每一子空间注意力机制模块与一个对应的倒残差结构模块配合使用。例如，用户可以在每一个倒残差结构模块后都使用单独的一个子空间注意力机制模块对特征图像进行指定注意力特征提取；也可以在多个倒残差结构模块对特征图像进行特征提取后，再使用一个子空间注意力机制模块进行指定注意力特征提取。具体的，本发明实施例所使用的文字识别模型中包含倒残差结构模块设有15个，子空间注意力机制模块设有8个。

输入图像w×h×3经第一卷积块进行卷积处理得到w/2×h/2×16，然后经过3个卷积核为3×3的线性瓶颈的倒残差结构模块(即第一倒残差块、第二倒残差块、第三倒残差块)后，得到大小为w/4×h/4×24的卷积特征图像，再输入到1个卷积核为5×5的线性瓶颈的倒残差结构模块(即第四倒残差块)后，得到大小为w/8×h/8×40的卷积特征图像，这样经过共计4个倒残差结构模块的处理后，得到大小为w/8×h/8×40的卷积特征图像。然后将所述大小为w/8×h/8×40的卷积特征图像输入到子空间注意力机制模块进行处理，得到特征图像w/8×h/8×40。

然后将得到的特征图像w/8×h/8×40经两个5×5的线性瓶颈的倒残差结构模块和对应的子空间注意力机制模块，以及经5个3×3的线性瓶颈的倒残差结构模块，得到112个w/16×h/16大小的特征图像，在此处插入一个子空间注意力机制模块进行处理，将输出的特征图像再通过1个3×3的线性瓶颈的倒残差结构模块，及一个子空间注意力机制模块，得到112个w/16×h/16的特征图像。再通过3个5×5的线性瓶颈的倒残差结构模块及子空间注意力机制模块，得到w/16×h/16×160。最后经过一层1×1的卷积(即第二卷积块)、2×2的池化(即第一池化块)和2层1×1卷积(即第三卷积块和第四卷积块)，得到大小为w/32×h/32×1280的特征图像。

S130、通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析，确定所述第一特征图像中各预测字符的第一概率分布矩阵，所述概率分布矩阵由T个1×nclass列向量构成，其中，T为最大时间长度，nclass为预测字符，所述概率分布矩阵的列向量表示每个元素代表对应的预测概率；

本实施例中，为了预测从卷积层获取的特征序列的各预测字符的概率分布，利用BiLSTM循环层的双向长期记忆结构，对特征图像中每个字符进行前向量预测与后向量预测。根据前向向量预测和后向向量预测，对特征图像中每个字符的特征进行上下文分析，再汇总上下文分析结果得到第一特征图像中各预测字符的概率集合，即第一概率分布矩阵。BiLSTM循环层有256个隐藏节点，经过BiLSTM循环层后变为长度为T×nclass的向量，再经过softmax函数处理，列向量每个元素代表对应的字符预测概率，得到从卷积层获取的特征序列的第一概率分布矩阵。

在一实施例中，如图4所示，步骤S130包括：

S131、对所述第一特征图像进行划分，得到所述第一特征图像的特征序列；

S132、将所述特征序列输入至所述BiLSTM循环层中的前向LSTML单元和后向LSTMR单元，分别得到前向向量和后向向量，将所述前向向量和后向向量进行对应拼接得到预测字符向量；

S133、通过softmax函数对所述预测字符向量进行概率计算，得到所述第一概率分布矩阵。

本实施例中，将第一特征图像进行划分，得到最大时间长度T，每个输入列向量D，形成第一特征图像的特征序列。然后将特征序列输入到BiLSTM循环层，输入的特征序列在BiLSTM循环层中向前传递和向后传递分别是两个长短期记忆层(LSTM)，前向LSTML单元和后向LSTMR单元，而且这两个(LSTM)单元都连接着一个输出层，最后将输出的向量拼接在一起，从而得到第一特征图像的预测字符向量。这个结构提供给输出层输入序列中每一个字符完整的过去和未来的上下文信息，为网络提供了额外的前后联系，并且能够更快，更充分的学习问题。

例如，输入特征序列[x1，x2，x3，…，xi]到BiLSTM循环层，每个前向LSTML单元输出特征序列中每一个向量的前向向量，分别为hL1，hL2，hL3，…，hLi。每个后向LSTMR单元输出特征序列中每一个向量的后向向量，分别为hR1，hR2，hR3，…，hRi。分别将hL1和hRi拼接成为向量h1，hL2和hRi-1拼接成为向量h2，以此类推得到特征序列的预测字符向量。

S140、基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失，并根据所述误差损失对所述文字识别模型的模型参数进行优化，得到最优的文字识别模型；

本实施例中，一个文本标签中可以有多个不同的字符对齐组合。例如，“aa-b”和“aabb”以及“-abb”都代表相同的文本(“ab”)，但是与图像的对齐方式不同，其中，“-”代表空格。也就是说，一个文本标签存在一条或多条的字符对齐路径。计算BiLSTM循环层输出的概率分布矩阵中所有对齐路径的概率之和，进而根据概率之和及预置的损失函数，计算误差损失对文字识别模型的模型参数进行优化，从而得到最优的文字识别模型。其中，使用的损失函数具体如下：

其中，

表示时间t输出π_t的概率，π表示输出的字符对齐组合，p(πx)表示基于输入x的输出字符对齐组合的概率，p(zx)表示所有对齐路径的概率之和，z表示字符对齐路径B到所有对齐路径的映射关系，L(S)表示负的最大似然，为了计算方便，对似然取对数。

识别阶段：

T110、输入识别图像至所述文字识别模型，通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取，得到所述识别图像的第二特征图像；

T120、通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析，确定所述识别图像的第二概率分布矩阵；

T130、基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径，并对所述最大概率路径进行冗余去除处理，得到文字识别结果。

本实施例中，转录是将BiLSTM循环层对每个预测字符向量所做的预测转换成序列标签的过程。使用CTC转录层把标签分布通过去重、整合等操作，归纳字符间的连接特性，转换成最终的识别结果。BiLSTM循环层进行时序分类时，会出现很多冗余信息，比如一个字母被连续识别两次或存在空格，因而通过CTC转录层中的去除空格机制来有效去除冗余信息。将识别图像输入文字识别模型中，基于预训练好的文字识别模型的倒残差结构模块及子空间注意力机制模块对识别图像进行特征提取，提取识别图像的第二特征图像，然后通过文字识别模型的BiLSTM循环层对第二特征图像中每个字符的特征进行上下文分析，输出所有预测字符对应的第二概率分布矩阵。BiLSTM循环层中计算得到第二概率分布矩阵后，随机组合概率分布矩阵中所有的预测字符，得到多条字符对齐路径。对于一段长度为T的特征序列，每个预测字符经过BiLSTM循环层都会输出一个softmax向量，表示该预测字符的预测概率，所有预测字符的这些概率传输给CTC转录层后，输出最可能的字符对齐路径，再经过去除空格和去重操作，就可以得到最终的序列标签(即文字识别结果)。需要知道的是，第二概率分布矩阵与第一概率分布矩阵的组成一样，区别在于第一概率分布矩阵为样本图像的预测字符的概率分布矩阵，而第二概率分布矩阵为识别图像的预测字符的概率分布矩阵。

该方法可以捕获特征子空间里的关系，针对每个特征子空间倾斜单独的注意力特征图像实现了多尺度和多频率的特征表示，对于细粒度的图像特征提取而言更为理想。该方法能够解决复杂背景下的文字和背景的分割问题，提高文字识别准确率，同时由于参数量大大减少，可将模型大小初步减少90％以上，通过减小通道数，使得模型大小进一步缩小，而且还可以对轻量型CNN中的即插即用模块进行部署。

本发明实施例还提供一种文字识别装置，该文字识别装置用于执行前述文字识别方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的文字识别装置的示意性框图。该文字识别装置100可以配置于服务器中。

如图5所示，文字识别装置100包括获取模块110、第一特征提取模块120、概率计算模块130、损失计算模块140、第二特征提取模块150、第二概率计算模块160、冗余去除模块170。

获取模块110，用于获取样本图像及文字识别模型，所述样本图像包含至少一个字符，所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络；

第一特征提取模块120，用于利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的第一特征图像；

第一概率计算模块130，用于通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析，确定所述第一特征图像中各预测字符的第一概率分布矩阵，所述概率分布矩阵由T个1×nclass列向量构成，其中，T为最大时间长度，nclass为预测字符，所述概率分布矩阵的列向量表示每个元素代表对应的预测概率；

损失计算模块140，用于基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失，并根据所述误差损失对所述文字识别模型的模型参数进行优化，得到最优的文字识别模型；

第二特征提取模块150，用于输入识别图像至所述文字识别模型，通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取，得到所述识别图像的第二特征图像；

第二概率计算模块160，用于通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析，确定所述识别图像的第二概率分布矩阵；

冗余去除模块170，用于基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径，并对所述最大概率路径进行冗余去除处理，得到文字识别结果。

在一实施例中，第一特征提取模块120包括：

第一提取单元，用于利用所述倒残差结构模块对所述样本图像进行特征提取，得到卷积特征图像；

第二提取单元，用于利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取，得到在预置个数的注意力子空间中的注意力特征图像，并将各所述注意力子空间中的注意力特征图像进行拼接，得到所述第一特征图像。

在一实施例中，第二提取单元包括：

切分子单元，用于将所述卷积特征图像按通道切分为g组，得到多个子空间特征图；

权重计算子单元，用于对每一所述子空间特征图进行深度可分离卷积，然后通过最大池化层进行池化，再进行点卷积处理，再使用softmax函数进行计算得到对应的权重矩阵；

点乘子单元，用于将各所述权重矩阵与对应的所述子空间特征图进行点乘，得到多个权重特征图像；

残差子单元，用于将各所述权重特征图像与对应的所述子空间特征图进行残差处理，得到对应注意力子空间的注意力特征图像；

拼接子单元，用于将各所述注意力子空间中的注意力特征图像进行拼接，得到所述第一特征图像。

在一实施例中，第一概率计算模块130包括：

划分单元，用于对所述第一特征图像进行划分，得到所述第一特征图像的特征序列；

拼接单元，用于将所述特征序列输入至所述BiLSTM循环层中的前向LSTML单元和后向LSTMR单元，分别得到前向向量和后向向量，将所述前向向量和后向向量进行对应拼接得到预测字符向量；

计算单元，用于通过softmax函数对所述预测字符向量进行概率计算，得到所述第一概率分布矩阵。

上述装置实施例的内容与上述方法实施例的内容一一对应，关于装置实施例的具体技术细节可参考方法实施例的描述。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的文字识别方法。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的文字识别方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文字识别方法，其特征在于，包括：

训练阶段：

识别阶段：

2.根据权利要求1所述的文字识别方法，其特征在于，所述利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的第一特征图像包括：

利用所述倒残差结构模块对所述样本图像进行特征提取，得到卷积特征图像；

利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取，得到在预置个数的注意力子空间中的注意力特征图像，并将各所述注意力子空间中的注意力特征图像进行拼接，得到所述第一特征图像。

3.根据权利要求2所述的文字识别方法，其特征在于，所述利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取，得到在预置个数的注意力子空间中的注意力特征图像，并将各所述注意力子空间中的注意力特征图像进行拼接，得到所述第一特征图像，包括：

将所述卷积特征图像按通道切分为g组，得到多个子空间特征图；

对每一所述子空间特征图进行深度可分离卷积，然后通过最大池化层进行池化，再进行点卷积处理，再使用softmax函数进行计算得到对应的权重矩阵；

将各所述权重矩阵与对应的所述子空间特征图进行点乘，得到多个权重特征图像；

将各所述权重特征图像与对应的所述子空间特征图进行残差处理，得到对应注意力子空间的注意力特征图像；

将各所述注意力子空间中的注意力特征图像进行拼接，得到所述第一特征图像。

4.根据权利要求2所述的文字识别方法，其特征在于，所述文字识别模型中包含多个倒残差结构模块和多个子空间注意力机制模块，其中，所述倒残差结构模块的数量大于所述子空间注意力机制模块的数量，并且每一所述子空间注意力机制模块与一个对应的所述倒残差结构模块配合使用。

5.根据权利要求4所述的文字识别方法，其特征在于，所述倒残差结构模块设有15个，所述子空间注意力机制模块设有8个。

6.根据权利要求1所述的文字识别方法，其特征在于，所述利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取，得到所述样本图像的第一特征图像之后，还包括：

7.根据权利要求1所述的文字识别方法，其特征在于，所述通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析，确定所述第一特征图像中对各预测字符的第一概率分布矩阵包括：

对所述第一特征图像进行划分，得到所述第一特征图像的特征序列；

将所述特征序列输入至所述BiLSTM循环层中的前向LSTML单元和后向LSTMR单元，分别得到前向向量和后向向量，将所述前向向量和后向向量进行对应拼接得到预测字符向量；

通过softmax函数对所述预测字符向量进行概率计算，得到所述第一概率分布矩阵。

8.一种文字识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文字识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的文字识别方法。