CN108564077A

CN108564077A - 一种基于深度学习对视频或图片中数字的检测和识别方法

Info

Publication number: CN108564077A
Application number: CN201810303834.8A
Authority: CN
Inventors: 朱齐丹; 吕晓龙; 游锦成; 吴禹辰
Original assignee: Harbin Ship Intelligent Control Technology Co Ltd
Current assignee: Harbin Ship Intelligent Control Technology Co Ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2018-09-21

Abstract

本发明提出了一种基于深度学习对视频或图片中数字的检测和识别方法，对采集样本进行处理并制作训练数据，选择合适的方式对图片中的数字进行标定。模拟可能出现的数字特征增加训练集，对数字进行各种特征的变换操作，把制作的数字样本置入采集的图片中并进行自动标记。制作训练数据完成后，采用faster‑rcnn算法，联合训练一个rpn网络和识别网络，再由训练完成后的模型对实时采集的视频或图片进行识别。本发明在各种场景、光照等条件下取得丰富的训练样本，并对图像中的数字及数字的标记进行合理设计，又人工设计了极丰富的不同特征的训练样本供网络进行学习，极大减少了误识别或不识别的情况，并有很快的检测速度。

Description

一种基于深度学习对视频或图片中数字的检测和识别方法

技术领域

本发明属于模式识别及深度学习技术领域，特别是涉及一种基于深度学习对视频或图片中数字的检测和识别方法。

背景技术

随着内河事业的不断发展，船舶的数量越来越多，船体也向大型化的方向不断迈进，船舶的吃水深度也越来越深，随之航运事故时有发生，这不仅给航运安全带来威胁，破坏航运通道，而且也会影响航运的运行效率。船舶搁浅是各种事故中发生最频繁的，引起的原因也各种各样，但最为普遍的一个原因便是船舶运行超过了规定的吃水线。在各类船舶交通事故中，由于超吃水线带来的事故占很大的比重。

目前对吃水线的检测分为人工检测和技术自动检测两种，传统方法以人工检测为主，具体地，待检测时，要求船舶停靠岸边，检测人员对船体上刻有的吃水线标记进行观察记录。这种方式需要船暂时停靠岸边，影响了航运的效率，且有大风浪时检测人员很难观测到准确的吃水刻度。由于船体常年受到海水、河水的腐蚀，字体的颜色和形状也发生了很大的变化，这对检测人员的观测带来了很多的困难和不便，效率不高，且由于是人为检测，船东为了最求更大的利益，往往采取谎报吃水来逃避相关部门的惩罚等欺瞒的行为，会增加船舶发生事故的危险。近年来，随着科技的发展，出现了各种通过技术手段自动对船舶进行吃水检测的方法，如声呐测量法、电子水尺法、激光水位检测法等。

而由于船体中数字常常出现被腐蚀的现象，造成船体上的数字与标准印刷字体有较大区别，加上摄像头拍摄时会出现一些比较斜的数字字体，用传统方法对数字的识别很难达到实用的准确度，而深度学习由于强大的特征提取能力与非线性分类的能力，能够应对各种复杂条件下数字的检测与识别。

发明内容

本发明为了解决现有的技术问题，提出一种基于深度学习对视频或图片中数字的检测和识别方法。本发明利用faster-rcnn算法对视频或图片中的数字进行识别以及对数据集的制作。

本发明的目的通过以下技术方案实现：一种基于深度学习对视频或图片中数字的检测和识别方法，包括以下步骤：

步骤1，用摄像头拍摄采样包含若干个数字的视频，并对视频进行反交错处理后按同等间隔抽取图片；所述图片制作训练样本；

步骤2，手工对训练样本中数字的位置与类别信息进行标定；

步骤3，人工设计不同特征的数字字体增加训练样本，置入设计好的数字字体到采集的图片中并进行位置与类别信息的自动标定；

步骤4，采用faster-rcnn算法对制作好的数据样本集训练rpn网络与识别网络，所述rpn网络与识别网络交替训练两次，共享提取图片深度特征的前13层卷积层，得到训练模型；

步骤5，训练完成后，调用训练好的模型对视频或图片中的数字进行检测和识别，输出图片中各个数字的位置及类别信息，完成检测。

进一步地，所述步骤1中用摄像头拍摄的视频是从多个角度或多个距离位置拍摄的包含若干个数字的视频。

进一步地，所述步骤2具体为：仅对图片中完整的数字进行位置与类别信息的标定，所述位置信息的标定为记录数字左上方与右下方的坐标，所述类别信息的标定为记录下当前数字所属的类别信息，所述类别信息为“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”共十个类别。

进一步地，所述步骤3中，在设计增加训练样本时，对数字字体进行各种色彩、大小、粗细程度、旋转角度或噪点程度特征变换，模拟现实中可能出现的各种数字字体的外观特征。

进一步地，所述步骤4中，联合训练rpn网络与识别网络步骤如下：

S1：用训练好的模型初始化rpn网络，用制作好的训练样本对rpn网络进行训练；其中前13层卷积层提取输入图片的特征图，第14层卷积层是当前13层参数固定时，用来调整参数的卷积层，第15层有两个并联的卷积层，都应用于关联输入的所有的特征图；

S2:对特征图的每一点都配备1:1,1:2，2:1三种尺寸以及三种大小不同比例共九个基准框，第15层的其中一卷积层用于判定各个基准框内有数字的可能性；

S3：第15层的另一卷积层用于计算对预测框位置进行微调的四个参数，即两个平移参数和两个缩放参数；

S4:根据输入图片被标定的数字的位置，计算rpn网络预测的位置与实际位置的误差，使用梯度下降法，根据所求误差计算调整网络中各个权重和偏差的值，使误差减小到极小值；

S5：训练rpn网络完成后，由训练好的rpn网络对输入图片中数字的位置进行检测，得到若干预判定为数字的不同置信度的预测框，取置信度最高的前300个预测框，再通过Rol Pooling层把所述300个预测框映射到经rpn网络第14层卷积层提取的特征图上，得到图片中数字的粗略特征图，并把所述粗略特征图归一化为相同维度的特征向量；

S6：用相同的训练模型初始化识别网络中的卷积层，提取rpn网络送来的粗略特征图的深度特征信息，得到特征向量；经过三层全连接层与两层relu层对特征向量的非线性分类，得出预测目标特征向量为数字各个类别的置信度，并对预测框位置做进一步精细调整；

S7：根据训练样本自带的数字的位置信息，计算识别误差，根据梯度下降法优化识别网络各层参数，使误差达到极小值；

S8:当识别网络训练完成后，把其中训练好的卷积层参数用作初始化rpn网络相对应的前13层卷积层部分；

S9：固定rpn网络中的前13层卷积层的参数不变，通过样本数据训练rpn的其余层的参数；

S10：固定识别网络中的卷积层的参数不变，通过训练完成的rpn网络和RolPooling层提取数字的粗略特征图，对识别网络其余层进行训练。

本发明的有益效果在于：本发明应用深度学习对视频或图片中数字的检测和识别方法。由于现实环境中各种数字的大小、颜色、字体等都不相同，用传统的方法很难对所有不同特征的数字的检测和识别都非常准确。本发明通过faster-rcnn算法，拍取大量实际环境中不同字体、拍摄角度、不同大小等各种不同特征的数字的训练数据并进行标定，且通过模拟生成可能出现的大量不同特征的数字字体并进行自动标定，取得了丰富的训练样本。训练完成后，通过卷积层提取图片的深度特征后通过全连接层与relu层进行非线性分割，从而达到对图片中各个数字位置进行检测和对其类别进行识别的目的，具有较强的鲁棒性。而由于rpn给出的建议区域只有300个，供识别网络进行识别，且rpn网络与识别网络共享卷积层，所以识别速度与rcnn和fast-rcnn相比有明显的提升，从而能达到实时检测的效果。

附图说明

图1为本发明基于深度学习对视频或图片中数字的检测和识别方法流程图；

图2为人工设计的包含不同特征的数字字体的训练数据图；

图3为faster-rcnn算法结构图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-图3，本发明提出一种基于深度学习对视频或图片中数字的检测和识别方法，所述方法包含图像数据采集，训练数据标定，生成训练数据并进行自动标定，深度学习的模型训练及实时检测五个步骤完成识别目的，具体包括以下步骤：

步骤2，手工对训练样本中数字的位置与类别信息进行标定；

步骤3，人工设计不同特征的数字字体增加训练样本，置入设计好的数字字体到采集的图片中并进行位置与类别信息的自动标定；如图2所示；

所述faster-rcnn算法是继rcnn，fast-rcnn后推出的改进后的目标检测算法，它使rpn网络与识别网络共用卷积层，且把预判定的预测框个数缩小至300个左右，大大提高了识别效率，使实时检测与识别成为可能。如图3所示，其中relu为激活函数；feature map为特征图；reshape层是为了调整深度学习框架caffe的特征向量的储存形式，便于数据处理；softmax层是为了对特征向量进行分类；proposal层负责通过前面给出的信息计算出目标的位置：roipooling层通过目标位置提取目标的特征图；bbox_pred层是为了获得调整目标位置的偏移量，以便更精确度得到目标位置；cls_prob层输出所定位的目标为各个类别的概率。

所述步骤1中用摄像头拍摄的视频是从多个角度或多个距离位置拍摄的包含若干个数字的视频。所述采集训练样本并制作训练样本，是从各个角度、不同距离拍摄数字的视频，对采集到的数字进行反交错处理，按一定间隔抽取视频中的图片形成训练样本。

所述步骤2具体为：仅对图片中完整的数字进行位置与类别信息的标定，所述位置信息的标定为记录数字左上方与右下方的坐标，所述类别信息的标定为记录下当前数字所属的类别信息，所述类别信息为“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”共十个类别。

所述步骤3中，在设计增加训练样本时，对数字字体进行各种色彩、大小、粗细程度、旋转角度或噪点程度特征变换，模拟现实中可能出现的各种数字字体的外观特征。

在具体操作中，拍摄不同光照、数字大小、颜色、字体粗细程度等特征的视频，对视频进行反交错处理，不仅采集了100000张在不同环境状况、不同拍摄角度下包含数字的图片制作训练样本，且模拟各种可能出现的数字的特征，增加训练样本，具体为：1.对字体进行3D旋转以模拟各个摄像机拍摄角度而带来的字体特征的变化。2.使数字遍历各种颜色。3.对数字尺寸进行大小不同程度的缩放。4.给部分数字加噪点与纹理特征。

制作了3500万张色彩、大小、粗细程度、旋转角度、噪点程度等特征都互不相同的数字训练样本，把制作的数字字体置入采集的图片上并进行自动标记。设计神经网络结构，放入rpn网络与识别网络进行迭代训练，得到训练模型。通过程序调用得到的模型对拍摄的图片或视频中数字进行检测和识别，给出图像中各个数字的位置与类别信息，完成检测和识别目的。

本网络采用vgg16网络进行训练和识别。

所述步骤4中，联合训练rpn网络与识别网络步骤如下：

S1：用训练好的模型初始化rpn网络，用制作好的训练样本对rpn网络进行训练；其中前13层卷积层提取输入图片的特征图，第14层卷积层是当前13层参数固定时，用来调整参数的卷积层，第15层有两个并联的卷积层，都应用于关联输入的所有的特征图；所述faster-rcnn算法结构如图3所示；

所述梯度下降法是一个最优化算法，广泛应用于机器学习中，通过递归地逼近最小偏差模型。它的计算过程是沿着梯度下降的方向求解极小值，许多现今有效的算法都是在它基础上进行的改进。

以上对本发明所提供的一种基于深度学习对视频或图片中数字的检测和识别方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习对视频或图片中数字的检测和识别方法，其特征在于,包括以下步骤：

步骤2，手工对训练样本中数字的位置与类别信息进行标定；

2.根据权利要求1所述的方法，其特征在于，所述步骤1中用摄像头拍摄的视频是从多个角度或多个距离位置拍摄的包含若干个数字的视频。

3.根据权利要求1所述的方法，其特征在于，所述步骤2具体为：仅对图片中完整的数字进行位置与类别信息的标定，所述位置信息的标定为记录数字左上方与右下方的坐标，所述类别信息的标定为记录下当前数字所属的类别信息，所述类别信息为“0”,“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”共十个类别。

4.根据权利要求1所述的方法，其特征在于，所述步骤3中，在设计增加训练样本时，对数字字体进行各种色彩、大小、粗细程度、旋转角度或噪点程度特征变换，模拟现实中可能出现的各种数字字体的外观特征。

5.根据权利要求1所述的方法，其特征在于，所述步骤4中，联合训练rpn网络与识别网络步骤如下：

S5：训练rpn网络完成后，由训练好的rpn网络对输入图片中数字的位置进行检测，得到若干预判定为数字的不同置信度的预测框，取置信度最高的前300个预测框，再通过RolPooling层把所述300个预测框映射到经rpn网络第14层卷积层提取的特征图上，得到图片中数字的粗略特征图，并把所述粗略特征图归一化为相同维度的特征向量；

S10：固定识别网络中的卷积层的参数不变，通过训练完成的rpn网络和Rol Pooling层提取数字的粗略特征图，对识别网络其余层进行训练。