CN111178133A

CN111178133A - 一种基于剪枝深度模型用于自然场景图像文本识别方法

Info

Publication number: CN111178133A
Application number: CN201911221023.4A
Authority: CN
Inventors: 刘杰; 张雪
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-05-19

Abstract

本发明公开了一种基于剪枝深度模型用于自然场景图像文本识别方法；主要涉及修剪深度网络(Yolo v3‑Darknet53)和修剪后的深度网络对自然场景图像中文本进行检测和识别；该方法包括对深度网络剪枝策略、过滤检测模型输出的特征图、使用VGG16网络对文本信息提取、微调包围框、对文本信息进行识别；本发明使用文本检测和识别通用的ICDAR2015作为训练集和测试集，可以有效地展现自然场景图像的多种复杂性；计算机视觉领域的CNN规模日渐庞大，本发明旨在缩减网络规模、节省训练时间、缓解硬件设备压力、减小对检测和识别准确率的影响。

Description

一种基于剪枝深度模型用于自然场景图像文本识别方法

技术领域

本发明涉及到深度学习和目标识别领域，具体是一种基于剪枝深度模型用于自然场景图像文本识别方法。

背景技术

在人们日常的生产生活中每天会发送和收获大量的图像，而大多数图像中会包含大量的文本信息；例如在社交网络中人们常用的Instagram和Facebook每天会产生多达上亿张图像，而在国内微信、微博和邮箱等应用每天以图像的形式为大量用户传输信息；然而，环境的复杂性，灵活的图像采集方式和文本内容的变化带来了各种挑战；对图像进行处理时最好的就是卷积神经网络，但最近的CNN每一个层的卷积核输出通道层数加上填充数量越来越深大多数都是上百层，对网络消耗庞大，对设备要求较高；当网络模型过大的时，对用户会造成很大的困扰；这样深度网络，对于普通人而言，他们的设备大多内存不足，CPU和GPU的计算能力较差，在深度网络上的运算时间消耗较多；所以现有的技术需要一种能提高自然场景图像文本识别的速度和准确度的一种基于剪枝深度模型用于自然场景图像文本识别方法。

发明内容

本发明的目的在于提供种基于剪枝深度模型用于自然场景图像文本识别方法，以解决上述背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：包括以下步骤：

步骤S1：压缩Darknet53模型；

步骤S2：文本区域过滤和提取；

步骤S3：文本信息提取；

步骤S4：文本识别。

作为本发明进一步的方案：所述步骤S1包括：

①合并卷积层和BN层；

②引入比例因子γ，通道层次稀疏正则化；

③比例因子排序、剪枝。

作为本发明进一步的方案：所述步骤S2包括：

①对所有框的得分进行排序，选中最高分及其对应的框；

②遍历其余的框，如果和当前最高分框的重叠面积(IOU)大于一定阈值，就将会此框删除；

③从未处理的框中继续选一个得分高的，重复上述过程。

作为本发明进一步的方案：所述步骤S3包括：

①VGG16的前5个Conv stage得到feature map；

②用3*3的滑动窗口在前一步得到的feature map上提取特征，利用这些特征来对多个anchor进行预测,界定出目标待选区域：

③通过分类或回归得到的输出。

作为本发明进一步的方案：所述步骤S4包括；

①对bbox进行处理，首先要计算bbox的角度；

②选择bbox框出的部分，并裁剪出来；

③将bbox旋转到正确的方向，送入识别网络。

作为本发明进一步的方案：所述步骤S1，压缩Darknet53模型,具体步骤包括：

合并卷积层和BN层：在神经网络训练网络模型时，BN层[31]能够加速网络收敛，并且能够控制过拟合现象的发生，一般放在卷积层之后，激活层之前；BN层将数据归一化后，能够有效解决梯度消失与梯度爆炸问题；虽然BN层在训练时起到了积极作用，然而，在网络Inference时多了一些层的运算，影响了模型的性能，且占用了更多的内存或者显存空间；因此，有必要将BN层的参数合并到卷积层，减少计算来提升模型Inference的速度。

在Yolo v3中，BN计算过程如下：

其中x_out为BN计算结果，γ为缩放因子，μ为均值，β为偏置，x_conv为卷积计算结果：

将卷积和BN合并，结果为：

即为：

合并后权值参数为：

偏置为：

即合并后的计算为：

所述步骤S3，文本信息提取,具体步骤包括：

(1)首先，用VGG16的前5个Conv stage得到feature map

(2)用3*3的滑动窗口在前一步得到的feature map上提取特征，利用这些特征来对多个anchor进行预测,界定出目标待选区域。

(3)最后通过分类或回归得到的输出主要分为三部分，从上到下依次为2kvertical coordinates:表示选择框的高度和中心的y轴的坐标；2k scores:表示的是k个anchor的类别信息，说明其是否为字符；k side-refinement表示的是选择框的水平偏移量；其中anchor的水平宽度都是16个像素不变；使用的方法回归出来的y轴坐标结果如下：

v_h＝log(h/h^a)

其中标记*的表示为真值，v＝{v_c,v_h}表示一个预测的框选位置，因为长度固定(16像素)v_c表示的是该预选框在y轴上的中心位置，v_h表示这个预选框的高度。

与现有技术相比，本发明的有益效果是：

能提高自然场景图像文本识别的速度和准确度。

附图说明

图1为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的步骤图；

图2为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的流程图；

图3为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的Darknet53网络意图；

图4为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法在ICDAR2015数据集上的检测结果；

图5为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法在ICDAR2015数据集上的识别结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～5，本发明实施例中，一种基于峰值帧和深度森林的微表情识别方法，包括以下步骤：

步骤S1：压缩Darknet53模型；

步骤S2：文本区域过滤和提取；

步骤S3：文本信息提取；

步骤S4：文本识别。

所述步骤S1包括：

①合并卷积层和BN层；

②引入比例因子γ，通道层次稀疏正则化；

③比例因子排序、剪枝。

所述步骤S2包括：

①对所有框的得分进行排序，选中最高分及其对应的框；

③从未处理的框中继续选一个得分高的，重复上述过程。

所述步骤S3包括：

①VGG16的前5个Conv stage得到feature map；

③通过分类或回归得到的输出。

所述步骤S4包括：

①对bbox进行处理，首先要计算bbox的角度；

②选择bbox框出的部分，并裁剪出来；

③将bbox旋转到正确的方向，送入识别网络。

所述步骤S1，压缩Darknet53模型,具体步骤包括：

在Yolo v3中，BN计算过程如下：

将卷积和BN合并，结果为：

即为：

合并后权值参数为：

偏置为：

即合并后的计算为：

所述步骤S3，文本信息提取,具体步骤包括：

①首先，用VGG16的前5个Conv stage得到feature map

②用3*3的滑动窗口在前一步得到的feature map上提取特征，利用这些特征来对多个anchor进行预测,界定出目标待选区域。

③最后通过分类或回归得到的输出主要分为三部分，从上到下依次为2kvertical coordinates:表示选择框的高度和中心的y轴的坐标；2k scores:表示的是k个anchor的类别信息，说明其是否为字符；k side-refinement表示的是选择框的水平偏移量。其中anchor的水平宽度都是16个像素不变。使用的方法回归出来的y轴坐标结果如下：

v_h＝log(h/h^a)

在本发明的实施中，通过在ICDAR2015数据集上测试本发明的识别结果，并分别通过图4和图5展示。

由此图4和图5的数据可以证明，本发明可以在压缩网络模型后节省很大一部分训练时间，并且可以有效的检测文本位置；有效的过滤、提取和分割文本区域，为识别模型送入一个高效的特征文本序列。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内；不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：包括以下步骤：

步骤S1：压缩Darknet53模型；

步骤S2：文本区域过滤和提取；

步骤S3：文本信息提取；

步骤S4：文本识别。

2.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：所述步骤S1包括：

①合并卷积层和BN层；

②引入比例因子γ，通道层次稀疏正则化；

③比例因子排序、剪枝。

3.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：所述步骤S2包括：

①对所有框的得分进行排序，选中最高分及其对应的框；

③从未处理的框中继续选一个得分高的，重复上述过程。

4.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：所述步骤S3包括：

①VGG16的前5个Conv stage得到feature map；

③通过分类或回归得到的输出。

5.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：所述步骤S4包括：

①对bbox进行处理，首先要计算bbox的角度；

②选择bbox框出的部分，并裁剪出来；

③将bbox旋转到正确的方向，送入识别网络。

6.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：所述步骤S1:压缩Darknet53模型,具体步骤包括：在剪枝之前需要先对Yolo v3-Darknet 53网络结构进行修改——合并卷积层与BN层；为每个通道引入一个比例因子γ，它乘以该通道的输出；然后联合训练网络权重和这些比例因子，并对后者施加稀疏正则化；最后，修剪这些小因子通道，并调整修剪后的网络。

7.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于:所述步骤S2，文本区域过滤和提取,具体步骤包括：首先过滤掉scores小于TEXT_PROPOSALS_MIN_SCORE的box,然后将scores展开排序，返回相应的index，将scores和boxes在水平方向上平铺，利用非极大抑制，将大于阈值的都淘汰掉，即过滤重复的box；非极大值抑制过程：(1)对所有框的得分进行排序，选中最高分及其对应的框；(2)遍历其余的框，如果和当前最高分框的重叠面积(IOU)大于一定阈值，就将会此框删除；(3)从未处理的框中继续选一个得分高的，重复上述过程。

8.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于:所述步骤S3，文本信息提取,具体步骤包括：首先，用VGG16的前5个Conv stage得到feature map，用3*3的滑动窗口在前一步得到的feature map上提取特征，利用这些特征来对多个anchor进行预测,界定出目标待选区域；最后通过分类或回归得到的输出。

9.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于:所述步骤S4，文本识别,具体步骤包括：bbox进行处理，首先要计算bbox的角度，然后选择bbox框出的部分，并裁剪出来，最后把bbox旋转到正确的方向，送入识别网络；对每一个提取好的Feature map序列化，将每一个channel作为D＝512的时间序列输入到LSTM中。