CN112183545A

CN112183545A - 一种任意形状的自然场景文本识别方法

Info

Publication number: CN112183545A
Application number: CN202011046937.4A
Authority: CN
Inventors: 巴姗姗; 杨淑爱; 黄坤山
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-05
Anticipated expiration: 2040-09-29
Also published as: CN112183545B

Abstract

本发明提供了一种任意形状的自然场景文本识别方法，包括如下步骤：S1、自然场景文本图像采集，制作训练数据集和测试数据集；S2、构建文本识别网络模型，用标注好的训练样本数据优化网络模型参数，获得最优的文本识别网络模型；S3、将待识别的自然场景文本图像输入训练好的网络模型，得到文本识别结果，在文本识别中结合了空间注意力机制，为文本识别提高空间位置信息，提高了注意力机制模块对位置信息的敏感度，对文本的外观具有较强的鲁棒性，能够实现任意形状的文本识别。该方法在解决极端纵横比或不规则形状的文本实例检测与识别问题上取得很好效果，而且其识别精度不会受附近文本或背景噪声影响。

Description

一种任意形状的自然场景文本识别方法

技术领域

本发明涉及文本检测与识别技术领域，特别涉及一种任意形状的自然场景文本识别方法。

背景技术

近年来，视频和图像中的文本检测与识别问题受到了越来越多的关注，因为文本是理解整个图像的重要内容，蕴含着丰富的语义信息，这些信息是图像内容描述和场景理解的关键线索，因此提取图像中的文本信息有着广泛的应用背景和重大的研究意义。当前规则的文本识别已经取得了显著的成功，比如：车牌识别、产品识别、互联网的视频内容安全监控、视频图像检索等，很多研究方法将递归神经网络、注意力机制结合到识别模型中取得了很好的效果。但是大多数的识别模型仍然不稳定，无法处理自然场景图像中的环境噪声干扰、不规则形状或扭曲模式等的文本识别问题。因此设计一种能够识别自然场景图像中任意形状文本实例的方法是有必要的。

发明内容

针对现有技术的不足，本发明提供了一种任意形状的自然场景文本识别方法，以解决背景技术中出现的问题。

为实现上述目的，本发明采用如下技术方案：

一种任意形状的自然场景文本识别方法，包括如下步骤：

S1、自然场景文本图像采集，制作训练数据集和测试数据集；

S2、构建文本识别网络模型，用标注好的训练样本数据优化网络模型参数，获得最优的文本识别网络模型；

S3、将待识别的自然场景文本图像输入训练好的网络模型，得到文本识别结果。

更进一步地，所述步骤S1中，将采集到的场景文本图像按照4：1比例划分训练集和测试集，对划分为训练集中所有图像的多方向文本进行标注，标签为包围文本实例的多边形坐标和文本序列，得到带标注的训练数据集。

更进一步地，所述步骤S2中，构建文本识别网络模型，用标注好的训练样本数据优化网络模型参数，获得最优的文本识别网络模型，具体包括如下步骤：

S21、构建分割候选网络，包括一个U-Net结构网络模块、一个特征融合模块和两个分割预测模块；

S22、使用Masked RoI模块，将仅含有0和1元素的二值多边形masking矩阵与RoI特征按元素相乘得到masked RoI特征，其中二值多边形masking矩阵表示在多边形区域中全为1且在多边形区域外全为0的轴对齐矩形的二进制映射，则masked RoI特征R计算为R＝RO*M，其中：RO为RoI特征，M为二值多边形masking矩阵，*表示逐元素乘法；

S23、构建Fast RCNN网络分支，包括一个分类任务和一个回归任务，将步骤S22得到的masked RoI特征输入该网络，对文本区域提供更精确的定位；

S24、构建Mask掩膜分支，用来检测和识别任意形状的文本，所述Mask掩膜分支包括三个任务：文本实例分割任务、字符分割任务和文本序列识别任务；

S25、所述文本识别网络模型中采用多任务损失函数：L＝L_sp+α₁L_rcnn+α₂L_mask，其中，

L_sp代表分割损失；

L_rcnn代表Fast RCNN网络分支损失，包括分类损失和回归损失；

L_mask代表Mask掩膜分支损失，包括文本实例分割损失、字符分割损失和文本序列识别损失；

α₁，α₂为超参数。

所述S21步骤中，具体包括如下步骤：

S211、具有并使用U-Net结构网络模块，采用U-Net结构，主干网络是ResNet50。编码器利用ResNet50进行下采样获取高级语义信息，得到不同层级的特征图，解码器对应的进行上采样进行分辨率恢复，将上采样得到的特征与对应下采样特征进行拼接，再将拼接后的特征进行卷积操作得到每层级的特征，记为(P2，P3，P4，P5)；

S212、具有并使用特征融合模块，将P2，P3，P4，P5进行融合，融合后的特征图F定义如下：

F＝C(P2，P3，P4，P5)

＝neck(P2)||up_×2neck(P3)||up_×4neck(P4)||up_×8neck(P5)

其中，||表示连接；neck()表示将特征图降维，维度变为256，降维方式采用卷积核为1*1，步长为1的卷积操作；up_×n表示对特征图进行n倍上采样，采样方式使用双线性插值法，特征图F的大小为

其中H和W分别是输入图像的高度和宽度；

S213、具有并使用分割预测模块，两个模块的结构相同但参数不同，结构为CBR(3*3，1)、De_CBR(2*2，2)、De_Conv(2*2，2)、Sigmoid，其中CBR(3*3，1)表示卷积核为3*3，步长为1的卷积层、BN批量归一化层和ReLU线性整流层；De_CBR(2*2，2)表示卷积核为2*2，步长为2的去卷积层、BN批量归一化层和ReLU线性整流层；De_Conv(2*2，2)表示卷积核为2*2，步长为2的去卷积层；将步骤S212中得到的融合特征图F输入两个分割预测模块，每个预测模块输出一个与输入图像大小相同的特征图，一个表示文本区域的预测，一个表示字符中心区域预测；

S214、根据训练图像中的文本实例对应的标签，对每张图像生成两个预测模块所需的文本分割图和文本区域轮廓图，具体方式如下：

S2141、生成文本分割图，每个文本实例对应标注的多边形被转换为一个二进制掩码，得到与待训练图片大小相同的文本分割图，其值范围在[0，1]，采用Vatti clipping算法通过裁剪d个像素来缩减文本区域，偏移像素

其中A、L分别表示代表文本区域的多边形的面积和周长，r表示收缩率，将其值设置为0.4；

S2142、生成文本区域轮廓图，给出一个上述步骤S2142中生成的文本分割图S，首先将其二值化为图B得到多个文本区域，再进行像素扩张得到与待训练图片大小相同的文本区域轮廓图，二值化具体方法为：

i，j是分割图或二值图的索引，B、S的大小与输入图像大小相同，在二值图B中对连通区域进行分组，形成的连通区域被视为缩小的文本区域，通过Vatti clipping裁剪算法对d′个元素进行非裁剪来扩张它们，计算公式为

其中A′，L′分别为预测的缩小文本区域的面积和周长，将r′值设置为3.0。

更进一步地，所述S24步骤中，包括文本实例分割模块和字符分割模块，通过4个卷积核为3*3的卷积层和一个2*2的去卷积层，将给定固定大小的masked RoI特征输入两个模块，预测出38个目标分割图层，包括1个全局文本实例分割图层用于预测文本区域的具体位置，36个字符分割图层和1个字符背景分割图层；

还包括文本序列识别模块，直接解码二维特征图以更好地表示各种形状，整体流程为：首先，通过双线性插值法将给定特征图调整为固定形状；然后，执行卷积层、最大池化层、卷积层；最后，用带有注意力机制的RNNs生成文本序列。

更进一步地，空间注意力机制模块包括位置编码，位置编码特征图形状为(H_p+W_p，H_p，W_p)，计算方法如下：

其中onehot(i，k)表示长度为K的向量V，其中索引为i的元素的值设置为1，其余值设置为0。将位置编码特征图与原始输入特征图进行级联，得到级联特征图，记为F，其形状为(C+H_p+W_p，H_p，W_p)，其中C是原始输入特征图的通道数，设为256；

还包括带注意力机制的RNNs，设迭代次数为T，预测字符类序列y＝(y₁，...，y_T)，在第t步有三个输入，t∈(2，T]且t为整数：其一：前述得到的级联特征图F；其二：上一次的隐藏状态s_t-1；其三：上一次的预测字符类别y_t-1，具体过程如下：

首先通过复制将s_t-1从矢量扩展到形状为(V，H_p，W_p)的特征图S_t-1，其中V是RNN隐藏层的大小，设为256；然后计算权重α_t；接下来，通过将注意力权重应用于原始特征图F来获取步骤t的上下文向量g_t；RNN的输入r_t通过g_t和上一次预测的字符类别y_t-1的字符编码进行级联；将RNN的输入r_t和RNN的上一个隐藏状态s_t-1输入到RNN单元中，最后通过线性变换和softmax函数计算步骤t的条件概率。

更进一步地，在步骤S3中，将待识别的自然场景文本图像输入训练好的网络模型，得到文本识别结果，具体识别过程为：输入测试图像，首先通过分割建议网络得到文本分割图和文本区域轮廓图；然后通过Masked RoI得到masked RoI特征；将特征输入到Fast RCNN网络分支得到进一步细化的文本区域；最后将细化的文本区域输入Mask掩膜分支，生成文本实例分割图、字符分割图和文本序列，通过计算文本实例分割图上的文本区域轮廓可以直接获得预测的多边形，通过解码字符分割图和空间注意力机制模块的输出来获得文本序列。

本发明的一种任意形状的自然场景文本识别方法具备如下有益效果：

1、利用U-Net结构的分割建议网络，无锚的分割建议网络克服了RPN在处理极端纵横比或不规则形状文本时的局限性；

2、提出了Masked RoI模块，有效地抑制了相邻文本实例和背景的噪声，降低了相邻文本区域的检测难度和错误率；

3、加入了空间注意力机制模块，克服了字符分割中的一些局限性；

4、在空间注意力机制解码前加入了位置编码，克服了空间注意力机制对位置信息不敏感的缺点；

5、可以识别任意形状的文本实例，包括水平文本、定向文本和曲线文本；

6、是一个完全端到端的文本识别框架，具有很强的鲁棒性，通用性好、识别准确度高，明显优于其他场景文本识别器。

附图说明

图1为本发明的整体流程图；

图2为本发明的场景文本图像的详细识别过程；图2中：实线表示训练过程，虚线表示测试过程

图3为本发明的分割候选网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明的保护范围。

本发明的一种任意形状的自然场景文本识别方法，整体流程图和场景文本图像详细识别过程分别如图1和图2所示，包括如下步骤：

所述步骤S1中，将采集到的场景文本图像按照4∶1比例划分训练集和测试集，对划分为训练集中所有图像的多方向文本进行标注，标签为包围文本实例的多边形坐标和文本序列，得到带标注的训练数据集。

所述步骤S2中，构建文本识别网络模型，用标注好的训练样本数据优化网络模型参数，获得最优的文本识别网络模型，具体包括如下步骤：

S22、使用Masked RoI模块，为降低相邻文本实例或背景区域的检测难度和错误率，提出Masked RoI，将仅含有0和1元素的二值多边形masking矩阵与RoI特征按元素相乘得到masked RoI特征，用来抑制背景噪声或相邻文本实例，其中二值多边形masking矩阵表示在多边形区域中全为1且在多边形区域外全为0的轴对齐矩形的二进制映射，则maskedRoI特征R计算为R＝RO*M，其中：RO为RoI特征，M为二值多边形masking矩阵，*表示逐元素乘法；

L_sp代表分割损失；

L_rcnn代表Fast RCNN网络分支损失，包括分类损失和回归损失；

α₁，α₂为超参数。

所述S21步骤中，具体包括如下步骤：

F＝C(P2，P3，P4，P5)

＝neck(P2)||up_×2neck(P3)||up_×4neck(P4)||up_×8neck(P5)

其中H和W分别是输入图像的高度和宽度；

S2141、生成文本分割图，每个文本实例对应标注的多边形被转换为一个二进制掩码，得到与待训练图片大小相同的文本分割图，其值范围在[0，1]，为了分开相邻的文本实例，通常会缩减文本区域，采用Vatti clipping算法通过裁剪d个像素来缩减文本区域，偏移像素

所述S24步骤中，包括文本实例分割模块和字符分割模块，通过4个卷积核为3*3的卷积层和一个2*2的去卷积层，将给定固定大小的masked RoI特征输入两个模块，预测出38个目标分割图层，包括1个全局文本实例分割图层用于预测文本区域的具体位置，36个字符分割图层和1个字符背景分割图层；

还包括文本序列识别模块，由于字符分割具有一定的局限性，比如需要字符级的注释来监督训练、无法从分割图中获得字符的顺序等，为了克服这些局限性引入了空间注意力机制模块，直接解码二维特征图以更好地表示各种形状，整体流程为：首先，通过双线性插值法将给定特征图调整为固定形状；然后，执行卷积层、最大池化层、卷积层；最后，用带有注意力机制的RNNs生成文本序列。

空间注意力机制模块包括位置编码，由于在编码部分没有使用循环卷积网络，因此空间注意力机制模块对位置信息不够敏感，所以在解码前(最后一层卷积之后)加入了位置编码，位置编码特征图形状为(H_p+W_p，H_p，W_p)，计算方法如下：

还包括带注意力机制的RNNs，可以在二维空间中学习注意力权重。假设迭代次数为T，预测字符类序列y＝(y₁，...，y_T)，在第t步有三个输入，t∈(2，T]且t为整数：其一：前述得到的级联特征图F；其二：上一次的隐藏状态s_t-1；其三：上一次的预测字符类别y_t-1，具体过程如下：

首先通过复制将s_t-1从矢量扩展到形状为(V，H_p，W_p)的特征图S_t-1，其中V是RNN隐藏层的大小，设为256；

S_t-1＝expand_dim(s_t-1，H_p，W_p)

然后计算权重d_t；

e_t＝W_t×tanh(W_sS_t-1+W_fF+b)

其中e_t，α_t形状为(H_p，W_p)，W_t，W_s，W_f，b是可训练的权重和偏差。

接下来，通过将注意力权重应用于原始特征图F来获取步骤t的上下文向量g_t；

RNN的输入r_t通过g_t和上一次预测的字符类别y_t-1的字符编码进行级联；

f(y_t-1)＝W_y×onehot(y_t-1，N_c)+b_y

r_t＝concat(g_t，f(y_t-1))

其中W_y，b_y是可训练权重和线性变换的偏差，N_c为序列解码器中的类别数量，其值为37，包括36个用于字母数字字符的类和1个用于序列结束符号的类。

将RNN的输入r_t和RNN的上一个隐藏状态s_t-1输入到RNN单元中，最后通过线性变换和softmax函数计算步骤t的条件概率。

(x_t，s_t)＝rnn(s_t-1，r_t)，p(y_t)＝softmax(W_ox_t+b_o)，y_t～p(y_t)

在S25步骤中，多任务损失函数：L＝L_s+α₁L_rcnn+α₂L_mask，各项损失详细如下：

分割损失L_s采用dice损失：

其中S和G是分割图和目标图，|S∩G|是将S与G逐元素相乘的结果元素再相加之和，|s|、|G|分别是S、G的逐元素相加之和；

Fast RCNN网络分支损失L_rcnn包括分类损失和回归损失；

Mask掩膜分支损失L_mask包括文本实例分割损失、字符分割损失和文本序列识别损失：L_mask＝L_ins+β₁L_seg+β₂L_seq

L_ins表示文本实例分割损失，是平均二进制交叉熵损失：

其中N是文本实例图中的像素个数，y_n为像素标签值，值的范围为[0，1]，x_n为像素预测值，S(x)是softmax函数；

L_seg表示字符分割损失，是加权空间soft-max损失：

其中N_c是类别数量，N是每张图的像素数，Y是X对应的真实值，W用来平衡字符类与背景类的损失。设背景像素数为N_neg，背景类索引为0，权重计算如下：

L_seq表示文本序列识别损失：

T是序列标签的长度，p(y_t)是步骤2.4.2的(2)带有注意力机制的RNNs中的步骤t的条件概率。

α₁，α₂，β₁，β₂为超参数，根据经验将α₁，α₂，β₁设为1.0，β₂设为0.2。

在步骤S3中，将待识别的自然场景文本图像输入训练好的网络模型，得到文本识别结果，具体识别过程为：输入测试图像，首先通过分割建议网络得到文本分割图和文本区域轮廓图；然后通过Masked RoI得到masked RoI特征；将特征输入到Fast RCNN网络分支得到进一步细化的文本区域；最后将细化的文本区域输入Mask掩膜分支，生成文本实例分割图、字符分割图和文本序列，通过计算文本实例分割图上的文本区域轮廓可以直接获得预测的多边形，通过解码字符分割图和空间注意力机制模块的输出来获得文本序列。

以上所述为本发明的较佳实施例而已，但本发明不应局限于该实施例和附图所公开的内容，所以凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种任意形状的自然场景文本识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种任意形状的自然场景文本识别方法，其特征在于，所述步骤S1中，将采集到的场景文本图像按照4：1比例划分训练集和测试集，对划分为训练集中所有图像的多方向文本进行标注，标签为包围文本实例的多边形坐标和文本序列，得到带标注的训练数据集。

3.根据权利要求1所述的一种任意形状的自然场景文本识别方法，其特征在于，所述步骤S2中，构建文本识别网络模型，用标注好的训练样本数据优化网络模型参数，获得最优的文本识别网络模型，具体包括如下步骤：

S22、使用Masked RoI模块，将仅含有0和1元素的二值多边形masking矩阵与RoI特征按元素相乘得到masked RoI特征，其中二值多边形masking矩阵表示在多边形区域中全为1且在多边形区域外全为0的轴对齐矩形的二进制映射，则masked RoI特征R计算为R＝R0*M，其中：R0为RoI特征，M为二值多边形masking矩阵，*表示逐元素乘法；

L_sp代表分割损失；

L_rcnn代表Fast RCNN网络分支损失，包括分类损失和回归损失；

α₁,α₂为超参数。

4.根据权利要求3所述的一种任意形状的自然场景文本识别方法，其特征在于，所述S21步骤中，具体包括如下步骤：

S211、具有并使用U-Net结构网络模块，采用U-Net结构，主干网络是ResNet50。编码器利用ResNet50进行下采样获取高级语义信息，得到不同层级的特征图，解码器对应的进行上采样进行分辨率恢复，将上采样得到的特征与对应下采样特征进行拼接，再将拼接后的特征进行卷积操作得到每层级的特征，记为(P2,P3,P4,P5)；

S212、具有并使用特征融合模块，将P2,P3,P4,P5进行融合，融合后的特征图F定义如下：

F＝C(P2,P3,P4,P5)

＝neck(P2)||up_×2neck(P3)||up_×4neck(P4)||up_×8neck(P5)

其中H和W分别是输入图像的高度和宽度；

S213、具有并使用分割预测模块，两个模块的结构相同但参数不同，结构为CBR(3*3,1)、De_CBR(2*2,2)、De_Conv(2*2,2)、Sigmoid，其中CBR(3*3,1)表示卷积核为3*3，步长为1的卷积层、BN批量归一化层和ReLU线性整流层；De_CBR(2*2,2)表示卷积核为2*2，步长为2的去卷积层、BN批量归一化层和ReLU线性整流层；De_Conv(2*2,2)表示卷积核为2*2，步长为2的去卷积层；将步骤S212中得到的融合特征图F输入两个分割预测模块，每个预测模块输出一个与输入图像大小相同的特征图，一个表示文本区域的预测，一个表示字符中心区域预测；

S2141、生成文本分割图，每个文本实例对应标注的多边形被转换为一个二进制掩码，得到与待训练图片大小相同的文本分割图，其值范围在[0,1]，采用Vatticlipping算法通过裁剪d个像素来缩减文本区域，偏移像素

i，j是分割图或二值图的索引，B、S的大小与输入图像大小相同，在二值图B中对连通区域进行分组，形成的连通区域被视为缩小的文本区域，通过Vatticlipping裁剪算法对d′个元素进行非裁剪来扩张它们，计算公式为

其中A′,L′分别为预测的缩小文本区域的面积和周长，将r′值设置为3.0。

5.根据权利要求3所述的一种任意形状的自然场景文本识别方法，其特征在于，所述S24步骤中，包括文本实例分割模块和字符分割模块，通过4个卷积核为3*3的卷积层和一个2*2的去卷积层，将给定固定大小的masked RoI特征输入两个模块，预测出38个目标分割图层，包括1个全局文本实例分割图层用于预测文本区域的具体位置，36个字符分割图层和1个字符背景分割图层；

6.根据权利要求5所述的一种任意形状的自然场景文本识别方法，其特征在于，空间注意力机制模块包括位置编码，位置编码特征图形状为(H_p+W_p,H_p,W_p)，计算方法如下：

其中onehot(i,k)表示长度为K的向量V，其中索引为i的元素的值设置为1，其余值设置为0。将位置编码特征图与原始输入特征图进行级联，得到级联特征图，记为F，其形状为(C+H_p+W_p,H_p,W_p)，其中C是原始输入特征图的通道数，设为256；

还包括带注意力机制的RNNs，设迭代次数为T，预测字符类序列y＝(y₁,…,y_T)，在第t步有三个输入，t∈(2,T]且t为整数：其一：前述得到的级联特征图F；其二：上一次的隐藏状态s_t-1；其三：上一次的预测字符类别y_t-1，具体过程如下：

首先通过复制将s_t-1从矢量扩展到形状为(V,H_p,W_p)的特征图S_t-1，其中V是RNN隐藏层的大小，设为256；然后计算权重α_t；接下来，通过将注意力权重应用于原始特征图F来获取步骤t的上下文向量g_t；RNN的输入r_t通过g_t和上一次预测的字符类别y_t-1的字符编码进行级联；将RNN的输入r_t和RNN的上一个隐藏状态s_t-1输入到RNN单元中，最后通过线性变换和softmax函数计算步骤t的条件概率。

7.根据权利要求1所述的一种任意形状的自然场景文本识别方法，其特征在于，在步骤S3中，将待识别的自然场景文本图像输入训练好的网络模型，得到文本识别结果，具体识别过程为：输入测试图像，首先通过分割建议网络得到文本分割图和文本区域轮廓图；然后通过Masked RoI得到masked RoI特征；将特征输入到Fast RCNN网络分支得到进一步细化的文本区域；最后将细化的文本区域输入Mask掩膜分支，生成文本实例分割图、字符分割图和文本序列，通过计算文本实例分割图上的文本区域轮廓可以直接获得预测的多边形，通过解码字符分割图和空间注意力机制模块的输出来获得文本序列。