CN109977942B

CN109977942B - 一种基于场景分类和超分辨率的场景文字识别方法

Info

Publication number: CN109977942B
Application number: CN201910107750.1A
Authority: CN
Inventors: 郑雅羽; 梁圣浩; 寇喜超; 林斯霞
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-02-02
Filing date: 2019-02-02
Publication date: 2021-07-23
Anticipated expiration: 2039-02-02
Also published as: CN109977942A

Abstract

本发明涉及一种基于场景分类和超分辨率的场景文字识别方法，通过构建c‑ssd和sr‑rcnn网络，对其对应的卷积层参数分别初始化，扩张数据集并对c‑ssd网络和sr‑crnn网络进行训练，得到相应的c‑ssd模型和sr‑crnn模型，用评估数据集对训练得到的模型进行评估，若达标则将带手势的图片输入训练好的c‑ssd模型中进行处理，返回手势的坐标位置与场景信息，结合文字特征设计检错器返回最终的场景信息，选择对应的文字识别模型进行文字识别，得到最后的识别结果。本发明以一个独立的网络实现分类和检测，实现了端到端的算法，无需采用多个网络分别完成不同的作业，可以提高对低分辨率文字的识别精度。

Description

一种基于场景分类和超分辨率的场景文字识别方法

技术领域

本发明属于一般的图像数据处理或产生的技术领域，特别涉及一种帮助弱视群体指示位置并了解前方位置场景中文字的基于场景分类和超分辨率的场景文字识别方法。

背景技术

场景文本是自然场景中最常见的视觉对象之一，经常出现在道路标志、车牌、产品包等上，阅读场景文本有助于许多有用的应用，例如基于图像的地理位置。

近来，社交网络中照片的使用不断增长，照片帖子通常比纯文字帖子产生更多的参与度，有趣的是，通过Web传播的大部分图像嵌入了文本。首先，嵌入在线照片的文本可以伴随有关作者、位置和时间等照片的重要信息，其次，如果图像是从新闻剪辑、电影或电视剧集中捕获的视频帧，则可以将文本用作标题，最后，文本通常可以使照片变得有趣、讽刺、鼓舞人心或热闹，放大照片的信息，进而引起其他用户更高的参与度，正如以上原因，这种嵌入在线照片的文本变得非常普遍。

对于场景文字的识别，在非密集文字的情况下往往需要两个步骤，一是检测，二是识别，而如果是密集文字，则可以直接对其进行识别。在实际应用中往往是密集文字和非密集文字两种场景同时存在，所以需要对其进行区分后再加以处理。

现有技术中，分类和检测的算法是分开的，这表示对于场景文字的识别需要两个算法，无法达到端到端实现；同时，现有的场景文字识别算法将检测和识别切割开来，在检测结束后将检测到的文字区域从原图中扣出送入识别算法进行识别，这导致了当原图分辨率较高时可以获得较好的识别效果，但如果原图存在一个较小的文字区域，那么在识别中往往会发生错误，导致识别失败或出错。

发明内容

本发明解决了现有技术中，分类和检测的算法分开，对于场景文字的识别需要两个算法，无法达到端到端实现，同时现有的识别算法依赖于原图的分辨率，当原图中文字区域的分辨率较低时，在识别中往往会发生错误，导致识别失败或出错的问题，提供了一种优化的基于场景分类和超分辨率的场景文字识别方法。

本发明所采用的技术方案是，一种基于场景分类和超分辨率的场景文字识别方法，所述方法包括以下步骤：

步骤1：结合分类网络和ssd的共同点，得到c-ssd；融合超分辨率和卷积循环神经网络，基于crnn网络增加上采样层，得到sr-crnn网络；

步骤2：以已知的ssd模型和crnn模型分别初始化c-ssd网络和sr-crnn网络的对应卷积层参数；

步骤3：以数据增强的方法扩张数据集；用扩张后的数据集对c-ssd网络和sr-crnn网络进行训练，得到相应的c-ssd模型和sr-crnn模型；

步骤4：用评估数据集对训练得到的模型进行评估，若效果未达标，则增加数据集，返回步骤3重新训练评估，否则进行下一步；

步骤5：将带手势的图片输入训练好的c-ssd模型中进行处理，返回手势的坐标位置与场景信息；

步骤6：以文字特征设计检错器，对步骤5返回的场景信息进行检查，结合c-ssd网络输出的置信度和检错器的检查结果，返回最终的场景信息；

步骤7：由步骤6的场景信息决定选择将图片直接输入ocr文字识别模型进行文字识别，或是将图片输入TextBoxes++模型进行文字位置检测并进行下一步；

步骤8：将TextBoxes++模型检测得到的文字位置结果同步骤5的手势的坐标位置比较，得到需要的文本区域，将所述文本区域输入sr-crnn模型，得到最后的识别结果。

优选地，所述步骤1包括以下步骤：

步骤1.1：在ssd的骨干网络末尾层设置全连接层得到c-ssd网络，以ssd实现对场景中的物体进行目标检测，以全连接层实现对场景的直接分类；

步骤1.2：将全连接层的输出和ssd的所有分支卷积层输出以concat层联结，整合得到一个输出，将所述输出输入到改进过的检测层中，得到最终的场景信息和手势位置；

步骤1.3：基于crnn网络，在crnn网络前端增加卷积层和上采样层，构建新的网络sr-crnn。

优选地，所述步骤3包括以下步骤：

步骤3.1：网络权重初始化；

步骤3.2：对数据集进行裁剪并翻转后以PCA jittering进行数据增强；

步骤3.3：将经数据增强的数据集输入到深度学习框架构建的网络，输出得到网络的结果；

步骤3.4：将网络的结果和标签作为损失函数模型的两个输入，计算得到损失；

步骤3.5：若损失值大于等于设定的阈值K，则根据损失反向调整网络权重，返回步骤3.3，否则，以当前模型为最终模型。

优选地，所述步骤3.4中，c-ssd网络以CTC Loss函数作为损失函数模型，

其中p(z|x)代表给定输入x、输出序列z的概率，S为训练集。

优选地，所述步骤3.4中，sr-crnn的损失函数模型为

其中x为网络输出，c为置信度，l为预设的框，g为真实的框，r为真实的场景类别，α、β和γ分别为权重比例，α＞0，β+γ＝1。

优选地，所述步骤4中，以网络预测值与实际值的比较对网络进行评估，得到评估值

其中，TP表示预测成功的数量，FP表示预测错误的数量，N表示图片的总数量，T表示所有类别，计算

当IOU>0.5时，预测成功，TP加1，否则预测失败，FP加1，其中，area1和area2分别为网络预测值与实际值。

优选地，所述步骤5包括以下步骤：

步骤5.1：带手势的图片输入c-ssd模型中，经过一次卷积，得到并复制特征图f₁；将其中一份特征图f₁继续进行卷积，另一份作为外接特征层的输入；

步骤5.2：以f₁卷积得到的特征图复制两份，第一份输入全连接层进行场景分类，第二份继续进行卷积得到特征图f₂，第三份f₁保留作为外接特征层的输入；

步骤5.3：特征图f₂复制一份，第一份f₂保留，第二份f₂继续卷积；重复操作，得到特征图f₃、f₄、f₅、f₆；

步骤5.4：将特征图的维度分为分数维度和坐标维度，坐标维度储存的为手势的概率坐标，分数维度为对应该坐标的可信程度；以分数维度对坐标维度进行排序，得到手势的最可信坐标，作为手势的坐标位置。

优选地，所述步骤6中，检错器提取文字特征，通过文字特征计算场景中文字的密集程度

其中，n表示文字特征所占的像素点个数，N表示整张图像的像素点数量；结合c-ssd网络输出的场景类别的分数维度得到置信度，若c-ssd网络的场景类别返回的置信度C<0.8，检错器返回的结果可信，判断若P_text>0.3，当前场景为密集文字场景，反之则为普通文字场景，若c-ssd网络的场景类别返回的置信度C≥0.8，则直接根据c-ssd网络的返回值判定当前场景是密集文字场景或是普通文字场景。

优选地，所述步骤7中，当步骤6返回的图片的当前场景为文字密集场景，则以ocr模型对图片进行直接文字识别，否则，将图片输入到已训练好的TextBoxes++模型中对图片中场景的文字位置进行检测。

优选地，所述步骤8中，以TextBoxes++返回的位置信息与c-ssd返回的手势的坐标位置计算IOU，

根据IOU的值进行排序，IOU最大的区域为所需的文本区域，将所述文本区域从原始图片上裁剪出来输入sr-crnn模型中进行文字识别。

本发明提供了一种优化的基于场景分类和超分辨率的场景文字识别方法，通过构建c-ssd和sr-crnn网络，对其对应的卷积层参数分别初始化，扩张数据集并对c-ssd网络和sr-crnn网络进行训练，得到相应的c-ssd模型和sr-crnn模型，用评估数据集对训练得到的模型进行评估，若达标则将带手势的图片输入训练好的c-ssd模型中进行处理，返回手势的坐标位置与场景信息，结合文字特征设计检错器返回最终的场景信息，选择对应的文字识别模型进行文字识别，得到最后的识别结果。

本发明以一个独立的网络实现分类和检测，实现了端到端的算法，无需采用多个网络分别完成不同的作业，可以提高对低分辨率文字的识别精度。

附图说明

图1为本发明的流程图；

图2为本发明中c-ssd网络的工作示意图，箭头标示图片输入网络后进行的操作；

图3为本发明中sr-crnn网络的工作示意图，箭头标示图片输入网络后进行的操作。

具体实施方式

下面结合实施案例对本发明做进一步的详细描述，但本发明的实施范围并不限于此。

本发明涉及一种基于场景分类和超分辨率的场景文字识别方法，场景中存在很多文字区域，主要以手势将场景图片中的文字区域选择出来，以无手势图片检测文字，然后与手势位置比较，选择出文字区域并进行后续的文字识别。

所述方法包括以下步骤。

步骤1：结合分类网络和ssd的共同点，得到c-ssd；融合超分辨率和卷积循环神经网络，基于crnn网络增加上采样层，得到sr-crnn网络。

所述步骤1包括以下步骤。

步骤1.1：在ssd的骨干网络末尾层设置全连接层得到c-ssd网络，以ssd实现对场景中的物体进行目标检测，以全连接层实现对场景的直接分类。

步骤1.2：将全连接层的输出和ssd的所有分支卷积层输出以concat层联结，整合得到一个输出，将所述输出输入到改进过的检测层中，得到最终的场景信息和手势位置。

本发明中，ssd网络里本身存在卷积层和检测层，在ssd网络前增加全连接层，即最终以全连接层和卷积层的输出作为检测层的输入，以检测层的输出结果作为最终的输出；骨干网络是指常用的分类网络的架构，如VGG网络，检测网络基于哪个网络实现，哪个网络就是此检测网络的骨干网络。

本发明中，原始ssd网络只能对场景中物体进行目标检测，无法对整个场景进行划分，故修改原始ssd网络得到c-ssd网络，利用ssd网络基于普通分类网络VGG实现的情况对ssd网络进行改进，具体来说，是在ssd的VGG骨干网络末尾层再额外接一个全连接层来实现对场景的直接分类，使其可以在识别手势位置的同时得到当前场景的分类信息，直接包括检测和分类部分，检测部分基于坐标维度信息和预设的坐标框信息得到手势位置，分类部分区分场景类别。

本发明中，基于crnn增加卷积层和上采样层来达到超分辨率的效果以提升文字识别的最终效果，特别是低分辨率下的文字识别效果，以卷积层计算图像残差，以上采样层得到的特征图融合得到放大的特征图，以所述特征图输入到微调的crnn网络中进行文字识别。具体来说，上采样部分利用残差的思想来提高放大的精度，主要是在网络前端先加一组卷积层来计算图像残差来与直接上采样图像的特征图融合得到放大的特征图，相比原始直接resize输入，经过这样一组卷积层和上采样的特征图可以保留更多的文字信息，对最终结果的精度大有裨益，再将该特征图输入到微调的crnn网络骨架中进行文字识别，最终预期结果要优于直接进行识别。

步骤2：以已知的ssd模型和crnn模型分别初始化c-ssd网络和sr-crnn网络的对应卷积层参数。

本发明中，步骤2主要的目的是加快训练收敛。

本发明中，已知的ssd模型和crnn模型来自于官方提供的训练模型，由于本发明是基于ssd模型和crnn修改的模型，所以大部分网络结构是相似的，其中可以填充的参数类型也是相似的，所以可以直接将参数迁移过来作为初始化参数。

步骤3：以数据增强的方法扩张数据集；用扩张后的数据集对c-ssd网络和sr-crnn网络进行训练，得到相应的c-ssd模型和sr-crnn模型。

所述步骤3包括以下步骤。

步骤3.1：网络权重初始化。

步骤3.2：对数据集进行裁剪并翻转后以PCA jittering进行数据增强。

步骤3.3：将经数据增强的数据集输入到深度学习框架构建的网络，输出得到网络的结果。

步骤3.4：将网络的结果和标签作为损失函数模型的两个输入，计算得到损失。

所述步骤3.4中，c-ssd网络以CTC Loss函数作为损失函数模型，

其中p(z|x)代表给定输入x、输出序列z的概率，S为训练集。

所述步骤3.4中，sr-crnn的损失函数模型为

本发明中，步骤3.1的网络权重初始化有许多的方法，初始权重选择对于整个网络的训练结果也十分重要，步骤2中已经对原始网络层参数进行了初始化，故接下来选择Xavier方法来对本发明增加的网络层权重进行初始化。

本发明中，由于数据集数量要求较多，所以标注成本也较高，为了增加数据集大小、降低过拟合，需要对数据集进行不同方式的增强扩张，一般采用随机裁剪并翻转后以PCA jittering来进行数据扩张；裁剪并翻转就是指在原图像上随机裁剪指定大小的图片及其水平翻转用于训练，如假设原始图像为256×256，裁剪得到224×224的图片进行输入，这就可以使数据集扩张2048倍；PCA jittering是利用主成分来给RGB像素值加偏差的处理方式，PCA jittering操作就是在训练数据上执行PCA找到主成分，然后为每个训练图像添加多个找到的主成分，具体来说，对于每个RGB图像像素

添加变量[p₁,p₂,p₃][α₁λ₁,α₂λ₂,α₃λ₃]^T，其中，p_i和λ_i分别是RGB像素值的3×3协方差矩阵的第i个特征向量和特征值，并且α_i是随机变量，每个α_i对于特定训练图像的所有像素仅被绘制一次，直到该图像被再次用于训练。此为数据增强的常规方法，本领域技术人员可以依据需求自行处理。

本发明中，将经数据增强的数据集输入到深度学习框架构建的网络，网络会不断前向计算至最后一层，最后输出得到网络的结果。

本发明中，步骤3.4的标签即是真值，以网络输出为预测值，标签为真实值，训练让预测值无限逼近真值。

本发明中，优化算法采用Adam优化算法，此为深度学习领域的常规方法。

本发明中，步骤3.5的调整是所有深度学习的核心，根据损失的值反向求偏导，然后网络权重根据偏导的值来调整，根据偏导的值和在训练开始前设置的学习率，可以得到一次迭代权重值需要调整多少。此为本领域技术人员容易理解的内容，本领域技术人员可以依据需求自行设置。

步骤4：用评估数据集对训练得到的模型进行评估，若效果未达标，则增加数据集，返回步骤3重新训练评估，否则进行下一步。

所述步骤4中，以网络预测值与实际值的比较对网络进行评估，得到评估值

本发明，步骤4使用的评估数据集来自网上开源的数据集，是带标签的数据集，将网络预测值同真值比较来对网络进行评估，用mAP来对其进行评估。

步骤5：将带手势的图片输入训练好的c-ssd模型中进行处理，返回手势的坐标位置与场景信息。

所述步骤5包括以下步骤。

步骤5.1：带手势的图片输入c-ssd模型中，经过一次卷积，得到并复制特征图f₁；将其中一份特征图f₁继续进行卷积，另一份作为外接特征层的输入。

步骤5.2：以f₁卷积得到的特征图复制两份，第一份输入全连接层进行场景分类，第二份继续进行卷积得到特征图f₂，第三份f₁保留作为外接特征层的输入。

步骤5.3：特征图f₂复制一份，第一份f₂保留，第二份f₂继续卷积；重复操作，得到特征图f₃、f₄、f₅、f₆。

本发明中，如图2所示，箭头标示图片输入网络后进行的操作，输入一个768×768的图像Image，经过一组卷积运算提取高级特征至conv4_3层得到第一组特征图，复制一份该特征图记为f₁并保留，然后对该特征图继续进行卷积至conv6层，此时复制两份当前特征图，一份输入fc7全连接层进行场景分类(得到2个类classes)，另一份输入conv7进行卷积得到特征图f₂，复制一份f₂保留，然后继续进行卷积(每个conv表示一个卷积层)，如图不断进行卷积操作可继续得到特征图f₃、f₄、f₅、f₆。由于训练中特征图每个维度代表的意义不同，大致可以分为分数维度和坐标维度，坐标维度储存的即为手势可能存在的坐标，而分数维度则对应该坐标的可信程度，所以根据分数维度可以对坐标维度进行排序，然后得到手势的最可信坐标。

本发明中，步骤5.4中，手势的坐标位置是指f₁卷积得到的特征图输入全连接层后的大场景信息。

步骤6：以文字特征设计检错器，对步骤5返回的场景信息进行检查，结合c-ssd网络输出的置信度和检错器的检查结果，返回最终的场景信息。

所述步骤6中，检错器提取文字特征，通过文字特征计算场景中文字的密集程度

本发明中，分数维度作为原始输出，置信度是分数维度在网络中的softmax层经过处理后得到的。

本发明中，检错器采用的文字特征如MSER、SWT，为最大稳定极值区域和笔画宽度变换的特征，结合网络输出的置信度和检错器结果，以提高场景分类的精度，返回最终的场景信息。

本发明中，检错器设计结合ocr文字识别提取特征的方法，通过转灰度图、二值化图像、矫正图像、特征提取等步骤得到文字特征，通过特征可以了解场景中文字的密集程度

结合c-ssd网络输出的场景类别可以得到最终返回的场景信息。

步骤7：由步骤6的场景信息决定选择将图片直接输入ocr文字识别模型进行文字识别，或是将图片输入TextBoxes++模型进行文字位置检测并进行下一步。

所述步骤7中，当步骤6返回的图片的当前场景为文字密集场景，则以ocr模型对图片进行直接文字识别，否则，将图片输入到已训练好的TextBoxes++模型中对图片中场景的文字位置进行检测。

本发明中，针对不同分辨率大小的输入，选择不同的策略进行预测。

本发明中，由于TextBoxes++对较大图像中的相对小文字区域识别效果很差，所以如果输入图像分辨率较大，可以将其五分为中间区域和四个角落区域，随后分别送入TextBoxes++模型中进行预测，对其结果进行组合，得到可靠的文字检测位置。

所述步骤8中，以TextBoxes++返回的位置信息与c-ssd返回的手势的坐标位置计算IOU，

本发明中，显而易见地，此处的area1和area2分别为TextBoxes++返回的位置信息和c-ssd返回的手势的坐标位置。

本发明中，如图3所示，箭头标图片输入网络后的前向操作，图片在输入(Input)时就被分为两份，一份先通过一组普通卷积(卷积组1)来计算残差，然后使用转置卷积1对残差特征图进行上采样，另一份则直接通过转置卷积2对其进行上采样，然后将两个特征图通过相加融合(Concat)，这样就得到一个相较原图拥有更高分辨率的特征图，接着继续进行卷积操作(卷积组2)，提取它的卷积特征(特征序列)，并变换其维度大小，具体维度变换多少可以根据表1得到；在卷积组结束后，后续为一个深层双向LSTM，用来在卷积基础上继续提取文字序列特征，其时间长度具体视卷积层输出的特征图的宽度大小而定；最后对LSTM的输出做softmax运算，即可转化为字符。

本发明中，网络不规定输入大小，所以输入大小可以任意，如表1所示，为sr-cnn网络结构详细数据。

表1 sr-cnn网络结构详细数据

表中假设输入大小为w×h×1，表中的c表示输出维度大小，k表示核的大小(卷积时指卷积核，池化时指池化核)，s表示核对特征图计算时的步长，默认高和宽方向步长一致，但如果具体指出则按照具体指出的步长计算，p表示有无加padding(填充)，BN指代Batch Normalization(批归一化)。

本发明通过构建c-ssd和sr-crnn网络，对其对应的卷积层参数分别初始化，扩张数据集并对c-ssd网络和sr-crnn网络进行训练，得到相应的c-ssd模型和sr-crnn模型，用评估数据集对训练得到的模型进行评估，若达标则将带手势的图片输入训练好的c-ssd模型中进行处理，返回手势的坐标位置与场景信息，结合文字特征设计检错器返回最终的场景信息，选择对应的文字识别模型进行文字识别，得到最后的识别结果。