CN113903023A

CN113903023A - 基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法

Info

Publication number: CN113903023A
Application number: CN202111142163.XA
Authority: CN
Inventors: 朱均可; 孙乐; 叶堂华; 刘凯
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-07

Abstract

本发明公开了一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，该方法将CV领域常用的实例分割算法Mask‑RCNN进行改进并用于自然场景中的文字定位，将其输出结果(蒙版Mask、边框Box)通过进一步的RoI Masking操作增强图像文字部分信息，然后与用于场景文字的语义增强的编码器‑解码器框架SEED组合完成精确度较高的自然场景文字检测与识别。本发明所述方法能够显著降低对训练过程中所需数据集的要求，对文字定位精确至字符轮廓，得到的文字识别精确度高。

Description

基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法

技术领域

本发明属于图像数据处理领域，具体涉及一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法。

背景技术

深度学习通过建立神经网络，使用大量数据作为训练集深入学习相关特征，从而进行高效准确的数据处理工作。目前，大部分基于深度学习的自然场景文字检测识别的方法虽然在定位准确度，识别精确度方面远远超过基于特征提取的等等传统方法，但是在定位准确度和识别精确度方面还是有较大的提升空间。自然场景中的文字易受遮挡、光照、光斑等外在因素影响，同时因为其模糊、形状不规则等自身属性，导致其相比于传统的简单场景的文字识别和定位，有很大的难度。

传统的基于深度学习的文字检测识别模型，往往在文字定位时使用单一的矩形框进行文字定位，其定位不够精确、准确度较低；在识别部分大都使用CRNN等经典识别框架，对弯曲、模糊，遮挡文字识别效果较差。此外，当前相关模型框架，检测器与识别器大都作为整体统一训练，这样训练虽然效率可能会提高，但是在识别过程中，模型的参数很可能更趋近于完成检测和识别中某一任务，导致另一任务定位或识别效果下降。并且在实验中我们发现这样训练的效果，在定位和识别准确度上低于单独训练的训练效果。

场景文字的检测识别技术在当下以及未来皆有着广泛的应用场景。当前大都应用在：证件识别、银行卡识别、车牌识别、名片识别、票据类识别等等方面，大部分技术都受限于特定的使用场景，远无法满足无人驾驶、智能机器人等高科技新兴行业对于路牌等街景文字识别的需求，离预期效果还有一定的距离。如何有效提升自然场景中的文字检测识别精度，降低对数据集的要求，已是相关智能行业发展的重要需求。

发明内容

发明目的：针对以上问题，本发明提出一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，具体包括如下步骤：

步骤1，采集待识别文字图片，通过Labelme对图片内文字的位置进行多边形框标注，并对文字内容进行标注；

步骤2，利用影像变换方法对上述标注后的待识别文字图片进行预处理，将预处理后的图片按照一定比例划分为训练集、验证集与检测集；

步骤3，构建目标检测器与识别器，并利用训练集与验证集分别训练目标检测器与识别器，得到训练好的目标检测器与识别器；所述目标检测器，用于定位图片文字区域；所述识别器，用于识别图片中文字内容；

步骤4，利用改进的RoI Masking方法连接训练好的目标检测器与识别器，并利用距离补偿值对目标检测器的输出进行调整，得到文字检测识别模型；

步骤5，将步骤2所述检测集输入至步骤4所述文字检测识别模型，输出文字识别结果。

进一步地，步骤2所述利用影像变换方法对上述标注后的待识别文字图片进行预处理，方法如下：

步骤2.1，利用Python图片处理包中的Image读取图片的尺寸，获取每张图片的长与宽；并选择其中最大的长度值记作MAX_length，最大的宽度值记作MAX_width；

步骤2.2，对每一张图片比较其长与宽大小；若图片长度值大于宽度值，则将该图片等比例放大至其长度值为MAX_length的大小；若图片长度值不大于宽度值，则将该图片等比例放大至其宽度值为MAX_length的大小；

步骤2.3，将全局损失函数作为约束条件，利用模拟退火算法将步骤2.2得到的图片进行两两配对；其中，全局损失函数如下：

式中，LOSS为全局损失函数值，SUM()为求和函数，Length₁为配对的图片1的长度值，Length₂为配对的图片2的长度值，Width₁为配对的图片1的宽度值，Width₂为配对的图片2的宽度值，MAX()为求最大值函数；

步骤2.4，将拼接后的图片统一化调整尺寸大小，并将调整后的图片集转化为COCO数据集。

进一步地，步骤3所述目标检测器，具体为MaskRCNN网络模型，包括数据输入模块、主体网络、RPN网络和ROI模块；

其中，所述数据输入模块为特征金字塔FPN，用于对输入图片进行不同尺度的图片特征提取；所述主体网络为ResNet101；所述RPN网络，用于对图片特征图进行处理并生成候选区域；所述ROI模块，用于判断候选区域是否有文字内容，若有文字内容则生成文字边框，同时预测分割得到蒙板Mask。

进一步地，步骤3所述识别器，具体为SEED框架，包括编码器、解码器与语义模型；所述编码器采用CNN+LSTM的结构；所述解码器采用注意力机制+RNN的结构；所述语义模型是由两层全连接层与预训练语言模型构成的；所述预训练语言模型采用Facebook开源的Fasttext模型。

进一步地，所述步骤3中，利用训练集与验证集分别训练目标检测器与识别器，方法如下：

输入：待识别文字图片；

目标检测器输出：蒙版Mask和边框Box；

识别器输出：文字内容；

设置最大训练epoch次数为30，初始化学习率为0.003，在10次epoch后调整为0.001，批处理大小设为4；利用ADAM优化器进行梯度更新；

训练过程中，每训练完成一个周期时，则利用验证集计算当前训练周期的损失函数值，并在当前训练周期下选择损失函数值最小的模型作为优化模型更新模型参数；直至达到最大训练epoch次数时，训练结束。

进一步地，步骤4所述改进的RoI Masking方法，用于增强目标检测器定位出的文字区域特征，方法如下：

当图片输入至训练好的目标检测器中，得到蒙版Mask和边框Box，将蒙版Mask覆盖的区域以0.13的权重叠加到边框Box所覆盖的图片的特征图像上，由此增强图片中文字区域的特征，表示如下：

IMAGE＝image×(1+MATRIX_Mask)*MATRIX_2o4

式中，IMAGE为信息增强后的特征图片，image为输入的图片，MATRIX_Mask为蒙版Mask的矩阵信息，MATRIX_Box为边框Box的矩阵信息。

进一步地，步骤4所述利用距离补偿值对目标检测器的输出进行调整，表示如下：

式中，Mask(X,Y为蒙版Mask上点(X,Y的坐标，Box(X,Y为边框Box上点(X,Y的坐标，Distance()为距离公式，frame(X,Y)为利用距离补偿值对点Mask(X,Y)修正后得到的坐标，当对边框Box在对应横轴方向上进行修正时，length(X,Y)＝length(X)，表示边框Box在横轴上的距离总长度；当对边框Box在对应纵轴方向上进行修正时， length(X,Y)＝length(Y)，表示边框Box在纵轴上的距离总长度。

最终，修正后的frame(X,Y)作为图片内文字最终的位置输出、识别内容Text作为图片内最终的内容输出，标注回原图，完成自然场景中文字的检测与识别任务。

有益效果：与现有技术相比，本发明技术方案具有以下有益技术效果：

(1)本发明能够显著降低对训练过程中所需数据集的要求：

本发明中目标检测器(定位文字位置)与识别器(确定文字内容)两部分能够单独训练。将CV领域的Mask-RCNN模型改进后运用于OCR作为目标检测器的基础模型，结合ImageChange方法，显著减少了数据集的需求数目。据实验，仅300张图片作为数据集训练该模型，其在自然场景中的文字检测准确率已达到百分之85％以上，成本较传统模型显著降低。该模型中所包含的蒙版Mask部分以极小的计算开销大大提升了其训练、运行的速度。RolAlign部分较好的保留下了原图的特征，使得原图的信息并不会在处理过程中丢失，也在某种程度上较低了对数据集的要求。识别器以改进后的SEED框架为基础，据实验，该框架对于低质量的文字图像具有更强的稳定性，即对数据集质量要求低。此外，由于识别器为单独训练，其仅需要以文字为主体的目标语言数据集，标注内容仅需文字内容，易于制作、裁剪。

(2)本发明文字定位精确至字符轮廓：

本发明通过改进后的Mask-RCNN作为目标检测器主体，将其输出端蒙版Mask与边框Box相结合，使用不规则的边框取代传统模型固有的矩形框标注文字位置，能够准确标注被遮挡文字、不规则文字的外部轮廓。

(3)本发明文字识别精确度高：

本发明将目标检测器的输出结果通过进一步的改进RoI Masking操作，增强了图片文字区域的信息，通过用于场景文字的语义增强的编码器-解码器框架SEED中的编码器、语义模块、语言模块、解码器进行文字识别工作，能有效注意到文字的全局信息，并减少编码器所关注的视觉特征与解码器所关于的语言信息间的矛盾。相较于传统模型，适用范围广阔，抗干扰性强，准确度显著提高。

附图说明

图1是一种实施例下改进后的Mask-RCNN模型基本结构图；

图2是一种实施例下改进后的SEED框架基本结构图；

图3是一种实施例下本发明提出的文字检测识别模型基本结构图；

图4是一种实施例下本发明所述一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，具体包括如下步骤：

步骤1，制作、生成数据集，并进行预处理，具体包括：

步骤1.1，通过互联网搜集了3000张模糊，光线不足，遮挡，噪声等等自然场景下的图片，并且通过Labelme标注图片内文字的位置(多边形框)以及内容信息(中文文字/英语字母)，再将这3000张图片与ICDAR等现有场景文字数据集组合，作为检测和识别的训练集，共计8000张图片。将这8000张图片通过脚本进行整理成json文件，并将其与Totaltext当中抽取的2000张图片组合制作成为COCO数据集(共10000张)的格式，作为检测和识别的输入。

步骤1.2，设计ImageChange方法，变换组合图像：将10000张图片根据大小两两配对，调整大小后拼接，所获图像大小统一为1536×768，共计5000张；通过该方法丰富了单张图片内部的信息，减少了梯度更新的次数，提升了训练效率。

该ImageChange方法具体过程为：

步骤1.2.1，使用PIL包中的Image读取图片的Size，获取每张图片的长与宽。其中最大的长度记作MAX_length，最大的宽度记作MAX_width。

步骤1.2.2，将图片统一放大；若长边长度大于等于宽边，则等比例放大至长边为MAX_length的大小；若宽边长度大于长边，则等比例放大至宽边为MAX_width的大小；其中，图片中文位置信息(多边形标记框)随图片大小一起改变。

步骤1.2.3，记图片1长度为Length₁，宽度为Width₁；图片2长度为Length2，宽度为Width₂；图片1与图片2拼接后的长度为Length₁+Length₂；图片1与图片2拼接后的宽度为MAX(Width₁,Width₂)；为了能够使尽可能多的图像保留真实信息并缩放至目标大小，认为拼接后的图像整体长宽比越接近2:1，损失越小。其中，全局损失函数如下：

式中，LOSS为全局损失函数值，SUM()为求和函数，MAX()为求最大值函数；

步骤1.2.4，使用模拟退火算法求解全局损失值最小，得到两两匹配的图片，最后分别缩放两张图片，使组合图片大小为1536×768，图片内部文字位置信息(多边形标记框)随图片改变而变化。图片在缩放中长宽存在适当的调整，形状存在一定的形变，增加了数据集的识别难度，有利于模型的优化。将所得的5000张拼接图片作为最终数据集。

步骤2，分别训练目标检测器与识别器。

目标检测器，参考图1，具体为MaskRCNN网络模型，包括数据输入模块、主体网络、RPN网络和ROI模块；

识别器，参考图2，具体为SEED模型，包括编码器、解码器与语义模型；所述编码器采用传统的CNN+LSTM的结构；所述解码器采用注意力机制+RNN的结构；所述语义模型是由两层全连接层与预训练语言模型构成的；所述预训练语言模型采用Facebook开源的Fasttext模型。

步骤2.1，使用迁移学习的方式进一步提高目标检测器与识别器的训练效率。

将步骤1.2.4中的最终数据集转化为COCO数据集，随机打乱后按7：2：1的比例分训练集、检测集、验证集，分别对目标检测器(定位文字位置)、识别器(确定文字内容)进行训练。为了尽量减少损失的波动，以4张图片为一组统一更新梯度，Batch_size值定为4。每训练2轮之后，通过验证集对模型训练结果进行检验，共设置了30个epoch。若验证集测试结果较之前结果相比损失降低，则将当前模型作为最优模型保存模型参数，在此基础上进一步调参；若验证集测试结果较之前相比损失升高，则回到上一次训练结果重新调参。直到达到预设训练次数或预期准确度后停止。

训练目标检测器、识别器均使用ADAM优化器处理损失函数，初始化学习率设置为0.001。训练目标检测器(定位文字位置)时分别对输出的整体矩形框、蒙版Mask(包围文字的多规则边框)与真实值的损失进行计算，更新网络参数，周期性保存验证集损失最小的网络模型直至训练结束，该模型为目标检测器的最终模型，用于后续应用。

识别器SEED框架部分，根据所需识别语言此处为中文，下载语义模型FastText的预训练语言模型，初始化模型的参数。再根据数据集的输入以模型初步训练在验证集上的表现的效果调整相关超参数，直到模型收敛，达到不同超参数下最高的准确率。

目标检测器大概在训练5个epoch之后就能够达到很好的效果，因为汉字的种类繁多，结构变化灵活，所以识别器在训练20个epoch之后才能达到比较好的效果。Adam优化器对内存需求少，能自动调整学习率，很适合应用于当前大规模的数据及参数的场景。

步骤3，以改进的RoI Masking方法连接训练好的目标检测器与识别器，参考图3，得到文字检测识别模型，包括：

步骤3.1，为了方便更好地提取图像特征来判别文字与非文字，并且加速训练过程，修改MaskRcnn中的Class分支：将原模型中判断图像种类的多分类问题(为猫、狗还是人)修改为2分类问题(文字、非文字)，使用Softmax函数代替Sigmoid函数便于区域内容的判断。

在RPN阶段将文字区域分数大于0.85的图像区域判断为文字区域，并且根据结果输出相应的蒙版Mask与边框Box。

最后根据输出的边框Box和真实框的IOU，通过nms非极大值抑制排除不合理的边框Box和蒙版Mask。用ROIMasking对保留下来的边框Box提取特征区域，Mask区域内部值权重设置为1，即为蒙版内部权重为1、Mask外部的区域权重为0，这样提取出来的矩阵称为MATRIX_Box；下一步，为了增强文字区域信息，我们将文字区域的权重设置为0.13，即一个文字蒙版内区域权重为0.13、外部区域权重为0，这一个矩阵称为MATRIX_Mask；原特征图像为image；增强后的特征图像为IMAGE，具体的计算过程如下列公式所示，这样操作的目的是为了去除无关区域的干扰，增强截取区域中文字信息，降低背景区域噪声：

IMAGE＝image×(1+MATRIX_Mask)*MATRIX_Box

将增强信息后的特征图IMAGE接入SEED识别框架，进行具体的内容识别。

步骤4，图像再标注，包括：

步骤4.1，根据目标检测器、识别器输出的结果：蒙版Mask、边框Box、内容Text。为了使所标出的不规则文字框更为美观、使文字尽量处于所标注的不规则边框中间，设定距离补偿值。距离补偿值的大小取决于蒙版Mask、边框Box的距离，通过该变量对蒙版Mask的不规则边框进行微调，提升精确度。据实验，蒙版Mask上一点离其最近的边框Box所对应的点越靠近，所需要增加的距离补偿值越大；距离越远，所需增加的值越小。蒙版Mask上任一点到边框Box的距离表示为Distance；边框Box在横轴上的距离总长度为length(X),纵轴上的距离总长度为length(Y)。总公式如下：

目标检测器输出的蒙版加上距离补偿值得到修正后的边框frame(X,Y)，X、Y为修正后边框上的点坐标。距离补偿值的求解方法定为：边框Box在对应方向上的距离长度与权重值的乘积，其中权重值与蒙版与边框的距离成反比，上限为0.1。

参考图4，修正后的边框frame(X,Y)作为图片内文字最终的位置输出、识别内容Text作为图片内最终的内容输出，完成自然场景中文字的检测与识别任务。

Claims

1.一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，其特征在于，步骤2所述利用影像变换方法对上述标注后到的待识别文字图片进行预处理，方法如下：

3.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，其特征在于，步骤3所述目标检测器，具体为MaskRCNN网络模型，包括数据输入模块、主体网络、RPN网络和ROI模块；

4.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，其特征在于，步骤3所述识别器，具体为SEED框架，包括编码器、解码器与语义模型；所述编码器采用CNN+LSTM的结构；所述解码器采用注意力机制+RNN的结构；所述语义模型是由两层全连接层与预训练语言模型构成的；所述预训练语言模型采用Facebook开源的Fasttext模型。

5.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，其特征在于，所述步骤3中，利用训练集与验证集分别训练目标检测器与识别器，方法如下：

输入：待识别文字图片；

目标检测器输出：蒙版Mask和边框Box；

识别器输出：文字内容；

6.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，其特征在于，步骤4所述改进的RoI Masking方法，用于增强目标检测器定位出的文字区域特征，方法如下：

IMAGE＝image×(1+MATRIX_Mask)*MATRIX_Box

7.根据权利要求6所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法，其特征在于，步骤4所述利用距离补偿值对目标检测器的输出进行调整，表示如下：

式中，Mask(X，Y)为蒙版Mask上点(X，Y)的坐标，Box(X,Y)为边框Box上点(X,Y)的坐标，Distance()为距离公式，frame(X,Y)为利用距离补偿值对点Mask(X,Y)修正后得到的坐标，当对边框Box在对应横轴方向上进行修正时，length(X,Y)＝length(X)，表示边框Box在横轴上的距离总长度；当对边框Box在对应纵轴方向上进行修正时， length(X,Y)＝length(Y)，表示边框Box在纵轴上的距离总长度。