CN111488948A

CN111488948A - 一种抖动环境下稀疏样本的标记方法

Info

Publication number: CN111488948A
Application number: CN202010358369.5A
Authority: CN
Inventors: 张学睿; 张帆; 姚远; 郑志浩
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing University; Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-04
Anticipated expiration: 2040-04-29
Also published as: CN111488948B

Abstract

本发明涉及一种抖动环境下稀疏样本的标记方法，属于图像识别技术领域。该方法包括：S1：采用去抖动算法给输入的视频文件去抖动；S2：利用改进的Mask fast RCNN模型识别稀疏样本；S3：构建智能标记系统，对识别出的稀疏样本进行人工标记；S4：更新训练集：将标记好的数据返回至训练数据集中，用于下一轮改进的Mask fast RCNN模型的训练。本发明针对人烟稀少环境的监控视频中有效样本稀疏的问题，并考虑抖动环境带来的视频不稳定难点，能够对特定目标进行标记，提高视频的有效性。

Description

一种抖动环境下稀疏样本的标记方法

技术领域

本发明属于图像识别技术领域，涉及一种抖动环境下稀疏样本的标记方法。

背景技术

对于某些特定场景，目标进出摄像头的频率低，并且容易引发抖动环境，从而导致采集的识别样本少，识别样本少会引发识别算法的效率低。目前，常见的对视频中样本的识别方法，很少考虑识别样本少对识别精度的影响。因此，开发一种稀疏样本的标记方法，有助于提高这种特定场景下的目标识别。

发明内容

有鉴于此，本发明的目的在于针对人烟稀少环境的监控视频中有效样本稀疏的问题，并考虑抖动环境带来的视频不稳定难点，提供一种抖动环境下稀疏样本的标记方法，能够对特定目标进行标记，提高视频的有效性。

为达到上述目的，本发明提供如下技术方案：

一种抖动环境下稀疏样本的标记方法，具体包括以下步骤：

S1：采用去抖动算法给输入的视频文件去抖动；

S2：利用改进的Mask fast RCNN模型识别稀疏样本；

S3：构建智能标记系统，对识别出的稀疏样本进行人工标记；

S4：更新训练集：将标记好的数据返回至训练数据集中，用于下一轮改进的Maskfast RCNN模型的训练。

进一步，所述步骤S1中，去抖动算法具体包括以下步骤：

S11：输入视频文件，计算每帧图像的sift特征点和描述符；

S12：对相邻帧间的特征点进行最优匹配，具体包括：

S121：通过最近邻算法计算与前一帧图像每个特征点(即原特征点)对应的2个最匹配特征点(即匹配特征点)；

S122：计算2个最匹配特征点的欧式距离，若该距离小于某个阈值，则原特征点匹配成功，前述2个特征点均可作为匹配特征点；反之，原特征点不存在对应的匹配特征点，匹配失败。

S123：所有匹配成功的特征点对构成相邻帧间的最优匹配；

S13：通过最优匹配特征点计算相邻帧间的仿射变换矩阵T[2][3]，从而得到摄像机的运动轨迹估计；

S14：对仿射变换矩阵进行参数计算，计算如下参数：T[0][2]、T[1][2]、actan2(T[1][0],T[0][0])、sqrt(T[1][0]^2+T[0][0]^2)；

S15：对上述参数进行平滑处理，并保证平滑后的参数与原值的绝对值小于某个阈值；

S16：根据平滑后的参数重新计算仿射变换矩阵；

S17：根据新的仿射变换矩阵逐帧对原视频图像进行平移、旋转、放缩、剪切和反射等变换；

S18：对变换后视频图像进行统一的裁剪并组合成新视频，即为去抖动视频。

进一步，所述步骤S2中，改进的Mask fast RCNN模型包含有：特征提取的主干网络、FPN特征金字塔网络和RPN区域生成网络。

进一步，所述特征提取的主干网络包含五个大层，其中，第一层、第二层通过设置一定的卷积核、步长、边框填充和个数来缩小特征图的尺寸；第二层还包括BN层、ReLU层池化层，BN层用于归一化参数，同时第二层在主干路旁增设有下采样支路，将原来的输入的特征图通道数翻倍。

更进一步，所述FPN特征金字塔网络具体包括：将主干网络第五层输出的特征图经过一个上采样，通道数不变，然后与第四层的特征图相加，用得到的特征图重复这样的操作，重新得到三个不同的特征图，分别是第四层的P4，第三层的P3，第二层的P2，而第五层的P5没有发生变化，然后P2到P5都经过一次卷积，消除上采样过程带的混叠效应，然后P5得到的特征图作为输入经过下采样过程得到输出。

更进一步，所述RPN区域生成网络包括：RPN是一个卷积层加ReLU、分类层和回归层的一个网络，经过主干网络提取特征之后根据得到的特征图尺寸将特征图分成h*w个区域，每个区域由这个区域的像素点决定，每个像素点对原图生成k个可能包括目标的候选区域，其中k为锚点框的不同的宽高比；然后对每个候选区域的锚点都进行判别并给与正负标签，给anchors与真值框IoU重叠达到k的给与正标签，k为设置的阈值；另外若IoU重叠没有k，给这3个anchors中重叠最高的给与正标签，其他IoU重叠小于1-k的anchors则为给与负标签；在经过卷积层的卷积之后每个anchors都会有一个前景和背景的得分，其得分值代表作为前景和背景的概率，另外还有一个能够回归到真值框的偏移量的变换坐标[x,y,log(h),log(w)]。

更进一步，所述RPN区域生成网络具体包括：

1)在特征图进入RPN网络后，先对每层得到的特征图进行遍历，然后对每张图进行3*3通道数为512的卷积，将通道数增倍，然后分别进行分类和回归的操作；

在分类操作中，先进行1*1的卷积核进行卷积，得到2*3维的输出，然后使用reshape函数将输出变成，这就是分类器得分数据rpn_class_logits，用于后面计算分类损失，分类器数据在经过softmax处理之后得到分类器概率数据rpn_probs代表正负样本置信度也即为概率，输出的结构是[N,w*h*3,2]，其中N是设置的batch_size，w*h*3是每张特征图生成多少anchor，2是对应正负样本两个维度，在回归操作时，则先用1*1的卷积得到4*3维的输出，然后使用reshape函数将输出变成[N,w*h*3,4]，这就是anchor的坐标偏移量rpn_bbox，其中4表示预测框的4个坐标，所以每张图输出三种数据：rpn_class_logits、rpn_probs、rpn_bbox；

2)将步骤1)中输出的三种数据输入ProposalLayer层，处理RPN网络的结果来生成合适的兴趣目标框rois；

首先从上一层输入得到的rpn_probs中正样本的概率的数据，其次输入rpn_bbox的坐标偏移量，并获得特征图生成的所有anchors框，根据概率得分获得排名前top_k个anchors，top_k是设置的参数，然后获取这top_k个anchors的索引，根据索引获得anchors的概率分数，坐标偏移量以及anchors框本身，然后使用偏移量对选出的anchors进行坐标修正，并将得到的修正框和原来的分数数据结合起来；然后将整张图像的四个角坐标和得到的修正框的四个角的坐标进行归一化处理，统一规定到0-1之间，一旦修正框四个角中有坐标小于0或者大于1，则分别设置为0或1，即是将检测框强制限定在整张图像之中，将超出部分进行裁剪；最后使用NMS非极大值抑制算法，将top_k个框再次进行筛选，得到最后的rois兴趣区域，即是包括所有rois兴趣区域的分数和坐标，如果生成的rois数量低于设置的参数，直接补零。

3)将ProposalLayer层的输出输入DetectionTargetLayer层；

输入数据包括rois的预选框proposals、真值类别gt_class_ids、真值框gt_boxes和真值遮罩gt_masks；输入之后，因为输入为了固定形状而填补过0，所以先将填补的0全部去掉，删除后得到小于等于原来数量的预选框，真值框以及对应于非零真值框里的真值遮罩，然后处理特别拥挤的实例，分别记录拥挤实例的数量和正常实例的数量，使用gt_class_ids进行判断，如果大于0，则图片为正常实例，且记录了每个实例的类别，如果小于0，则是拥挤实例，然后只使用正常实例的类别、框和遮罩；将得到的所有预选框和拥挤实例的框进行IOU计算，计算过程就是用两个框的四个坐标进行相交，得到相交部分的四个坐标求出相交面积S1，然后用两个框的面积相加得到的结果减去相交的面积得到并集面积S2，最后用相交面积S1除以并集面积S2得到IOU，若在所有得到的拥挤实例中最大的IOU都小于0.001，那么这个预选框就能够使用；

4)选取正负样本，产生训练的样本，计算预选框与正常实例的真值框IOU重叠情况，并且分别记录正负样本的索引值；设置每张图上需要训练的预选框数量k，然后选取k*0.33个正样本索引，其次随机选取三分之二的负样本，根据正样本的索引寻找与真值框IOU最大的样本，并记录与之对应的真值框的位置和类别，计算正样本与真值框的偏差值；然后为训练的预选框根据对应的真值框分配真值遮罩；

5)按照重叠情况给每个真值框和真值遮罩分配正样本，然后输入目标的真实种类、正样本对应真值框的偏移量和目标对应真值框的遮罩，进入下一层进行分类和回归操作，并通过一个并行分支进行遮罩的生成；分类和回归操作时，先进入ROIAlign层，得到每个roi对应的层数后就从对应的特征图中取出对应的区域，然后对rois进行池化操作，将所有rois的尺寸利用双线性插值的计算方式变成统一大小；得到的输出又依次进入卷积层、BN层、ReLU激活层、卷积层、BN层、ReLU激活层的两个全连接层，在这个过程当中特征图尺寸并没有发生变化，都是池化后得到的尺寸，得到最后的分类器分数，然后使用softmax函数得到分类的概率，同时通过偏移量计算得到最后的检测框的坐标。

更进一步，所述RPN区域生成网络具体还包括：遮罩生成的网络，输入rois，先进入ROIAlign层，进行对应层级的计算，然后进入5层全连接层，每层分别是卷积、BN层、ReLU层，最后通过上采样将图形尺寸恢复，并且因为得益于全连接层的强大像素级的语义分割，每个像素点都带有类别信息，所以最后生成的遮罩带有类别，最终输出为预测出来的带有类别的遮罩位置信息。

更进一步，步骤2)中，使用偏移量对选出的anchors进行坐标修正的公式为：

G'_x＝A_w·d_x+A_x

G'_y＝A_h·d_y+A_y

G'_w＝A_w·exp(d_w)

G'_h＝A_h·exp(d_h)

其中，A_x、A_y、A_w、A_h为开始预设的anchors的中心点坐标和宽高，d_x、d_y、d_w、d_h为前面计算得到的偏移量，G'_x、G'_y、G'_w、G'_h为更新后的anchors的中心点坐标和宽高。

更进一步，计算正样本与真值框偏差值的公式为：

d_y＝(gt_center_y-center_y)/height

d_x＝(gt_center_x-center_x)/width

d_h＝ln(gt_height/height)

d_w＝ln(gt_width/width)

其中，center_x、center_y、gt_center_x、gt_center_y为真值和正样本的中心点坐标，height、width为真值和正样本的高宽，d_x、d_y、d_h、d_w为偏移量。

本发明的有益效果在于：本发明采用去抖动算法降低抖动环境对目标识别的影响，改进Mask fast RCNN模型对稀疏样本进行识别，识别结果存储于服务器。加入人工干预对识别结果进行标记，标记结果反馈回Mask fast RCNN模型的训练数据库，进一步训练Mask fast RCNN模型提高识别精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述标记方法的流程框架图；

图2为智能标记系统图片识别结果。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，图1为一种抖动环境下稀疏样本的标记方法，包括：(1)去抖动算法；(2)改进Mask fast RCNN模型识别稀疏样本；(3)人工标记；(4)更新训练集。

具体每步的详细过程如下：

(1)去抖动算法

1)输入视频文件，计算每帧图像的sift特征点和描述符。

2)对相邻帧间的特征点进行最优匹配，具体包括如下步骤：

a.通过最近邻算法计算与前一帧图像每个特征点(即原特征点)对应的2个最匹配特征点(即匹配特征点)；

b.计算2个最匹配特征点的欧式距离，若该距离小于某个阈值，则原特征点匹配成功，前述2个特征点均可作为匹配特征点；反之，原特征点不存在对应的匹配特征点，匹配失败；

c.所有匹配成功的特征点对构成相邻帧间的最优匹配；

3)通过最优匹配特征点计算相邻帧间的仿射变换矩阵T[2][3]，从而得到摄像机的运动轨迹估计。

4)对仿射变换矩阵进行参数计算，计算如下参数：T[0][2]、T[1][2]、actan2(T[1][0],T[0][0])、sqrt(T[1][0]^2+T[0][0]^2)。

5)对上述参数进行平滑处理，并保证平滑后的参数与原值的绝对值小于某个阈值。

6)根据平滑后的参数重新计算仿射变换矩阵。

7)根据新的仿射变换矩阵逐帧对原视频图像进行平移、旋转、放缩、剪切、反射等变换。

8)对变换后视频图像进行统一的裁剪并组合成新视频，即为去抖动视频。

(2)改进Mask fast RCNN模型识别稀疏样本

图片以灰度图输入，那么图像的输入为(H,W,1),W为宽，H为高，1为通道数，然后进入图像预处理，需要将图像的高和宽变得一致(这里以1024*1024作为输入)，而且长度由最长边决定，将图形当作一个正方形输入，不够最长边的部分直接补零，然后进入主干网络ResNet-FPN提取图像特征。

这个网络包含两个部分，一部分提取特征是从低维向高维推进，另一部分则是从高维上采样到低维，在Mask RCNN中特征提取的主干网络一般是Resnet101和Resnet50，这两者区别不大，都可以分为5个大层，首先第一层卷积层是一个7*7的卷积核，步长为2，边框填充为3，个数为64，那么处理后的尺寸为

这会让特征图尺寸减半，结果得到512*512*64的特征图，然后进入第二层，先是经过一个3*3的卷积核，步长为2，边框填充为1的池化过程，特征图尺寸计算过程同上

得到256*256*64的特征图，特征图尺寸再次减半，进入第二层，然后是1*1的64个卷积核进行卷积，不改变尺寸，然后将特征图数值经过BN层的归一化处理，在处理这层网络输入数据时可将数据看作一个四维矩阵(m,f,h,w),其中m为设置的每次处理多少批数据，f为特征图的个数或者说通道数，h和w分别为高和宽，那么一次处理的参数就有m*h*w个，其归一化过程：

输入：B＝{x_1...m}，x_1,...,m是输入的参数值，也就是特征图上的数值。

计算均值和方差：

输出：

ε是一个很小的正数，以防止分母为0。

这会让网络加快收敛并防止梯度消失，然后紧跟一个ReLU激活函数用于前向传导，ReLU的方程为f(x)＝max(0,x)，增加网络的非线性，提高收敛速度，后面几层分别是3*3的64个卷积核卷积,边缘填充为1，不改变特征图大小，得到结果仍然为256*256*64的特征图，BN层归一化参数，ReLU激活函数,1*1的256个卷积核卷积，得到256*256*256的特征图，BN层归一化，同时第二层在这条主干路旁增设了下采样支路，第二层输入的特征图的通道数为64，而经过主路的通道数经过处理后通道数为256，为了能够相加，需要增设这条支路将原来的输入的特征图通道数翻倍到256，才能够相加，所以设置了一个1*1的256个卷积核进行卷积得到256*256*256的特征图进行相加，然后是一个ReLU函数，整个过程也可以称为一个区块，后面再次经过两次除了池化和支路的区块，也就完成了第二层的处理，所以第二层有3个区块。然后进入第三层的区块，构成为1*1的128个卷积核,特征图256*256*128，BN层，ReLU层，3*3步长为2边缘填充为1的128个卷积核，特征图尺寸

此时特征图尺寸减半为，特征图128*128*128，BN层，ReLU层，1*1的512个卷积核，特征图128*128*512，BN层，和上一层一样，另外又有一个从输入开始的支路为1*1的512个卷积核构成，最后是一个ReLU层，同样后面还有3个同样的区块，但是3*3的卷积核步长为1，不改变特征图尺寸，也没有支路。第三大层共有4个区块，以此类推，第四大层输入为128*128*512的特征图，输出为64*64*1024的特征图，ResNet50和ResNet101的区别就在于第四大层这里前者共有6个区块，后者共有23个区块，第五大层输入为64*64*1024，输出为32*32*2048。

以上是特征提取的主干网络，后面就进入了FPN特征金字塔网络，首先将上面从第二层到第五层每一层的输出都通过一个1*1的256个卷积核进行卷积得到尺寸为(256,128,64,32)的四种不同尺寸的通道数都为256的特征图，然后以第五层的32*32*256的特征图为例，经过一个上采样，将尺寸变成64，特征图为64*64*256，通道数不变，然后与第四层的64*64*256的特征图相加，用得到的特征图重复这样的操作，重新得到三个不同的特征图，分别是第四层的P4，第三层的P3，第二层的P2，而第五层的P5没有发生变化，然后P2到P5都经过一次3*3步长为1的卷积过程，消除上采样过程带的混叠效应，然后P5得到的结果32*32*256的特征图作为输入经过下采样过程得到输出尺寸为16*16*256的P6。

这些结果作为输入进入RPN区域生成网络，RPN是一个卷积层加ReLU和分类层和回归层的一个网络，经过主干网络提取特征之后根据得到的特征图尺寸将特征图分成h*w个区域，每个区域由这个区域的像素点决定，每个像素点对原图生成k个可能包括目标的候选区域，这里k为锚点框的不同的宽高比，这里RPN网络中有三种[0.5,1,2]，所以k的值为3，然后对每个候选区域的锚点都进行判别并给与正负标签，给anchors与真值框IoU重叠达到k的给与正标签，k为设置的阈值，一般为0.7，另外若IoU重叠没有k，给这3个anchors中重叠最高的给与正标签，其他IoU重叠小于1-k的anchors则为给与负标签。在经过卷积层的卷积之后每个anchors都会有一个前景和背景的得分，因为每个中心点会有3种不同的anchors，而结果又分成了前景和背景，所以最后的输出维度是2*3的6维，其中的值代表作为前景和背景的概率，另外还有一个能够回归到真值框的偏移量的变换坐标[x,y,log(h),log(w)]。

具体操作则是在进入RPN网络后，先对每层得到的特征图进行遍历，然后对每张图进行3*3通道数为512的卷积，将通道数增倍，然后分别进行分类和回归的操作。在分类操作中，先进行1*1的卷积核进行卷积，得到2*3维的输出，然后使用reshape函数将输出变成，这就是分类器得分数据rpn_class_logits,用于后面计算分类损失，分类器数据在经过softmax处理之后得到分类器概率数据rpn_probs代表正负样本置信度也即为概率，输出的结构也是[N,w*h*3,2]，其中那个N是设置的batch_size，w*h*3是每张特征图生成多少anchor，2就是对应正负样本两个维度，在回归操作时，则先用1*1的卷积得到4*3维的输出，然后使用reshape函数将输出变成[N,w*h*3,4]，这就是anchor的坐标偏移量rpn_bbox，其中4表示预测框的4个坐标，所以每张图输出三种数据，rpn_class_logits,rpn_probs,rpn_bbox。

然后它们作为输入进入ProposalLayer层，这一层是为了处理RPN网络的结果来生成合适的兴趣目标框rois。先是从上一层输入得到的rpn_probs中正样本的概率的数据，然后输入rpn_bbox的坐标偏移量，并获得特征图生成的所有anchors框，根据概率得分获得排名前top_k个anchors，top_k是设置的参数，然后获取这top_k个anchors的索引，根据索引获得anchors的概率分数，坐标偏移量以及anchors框本身，然后使用偏移量对选出的anchors进行坐标修正，公式如下：

G'_x＝A_w·d_x+A_x

G'_y＝A_h·d_y+A_y

G'_w＝A_w·exp(d_w)

G'_h＝A_h·exp(d_h)

其中，A_x、A_y、A_w、A_h为开始预设的anchors的中心点坐标和宽高，d_x、d_y、d_w、d_h为前面计算得到的偏移量，G'_x、G'_y、G'_w、G'_h为更新后的anchors的中心点坐标和宽高。并将得到的修正框和原来的分数数据结合起来。然后将整张图像的四个角坐标和得到的修正框的四个角的坐标进行归一化处理，统一规定到0-1之间，一旦修正框四个角中有坐标小于0或者大于1，则分别设置为0或1，也就是将检测框强制限定在整张图像之中，将超出部分进行裁剪。最终使用NMS非极大值抑制算法，将top_k个框再次进行筛选，得到最后的rois兴趣区域，也就是包括所有rois兴趣区域的分数和坐标，在这一步如果生成的rois数量低于设置的参数，会直接补零。

进入下一层DetectionTargetLayer层，这一层里需要输入rois的预选框proposals，真值类别gt_class_ids，真值框gt_boxes和真值遮罩gt_masks,输入之后，因为输入为了固定形状而填补过0，所以先将填补的0全部去掉，删除后得到小于等于原来数量的预选框，真值框以及对应于非零真值框里的真值遮罩，然后处理特别拥挤的实例，分别记录拥挤实例的数量和正常实例的数量，使用gt_class_ids进行判断，如果大于0，则这张图片为正常实例，且记录了每个实例的类别，如果小于0，则是拥挤实例，然后只使用正常实例的类别、框和遮罩。将得到的所有预选框和拥挤实例的框进行IOU计算，计算过程就是用两个框的四个坐标进行相交，得到相交部分的四个坐标求出相交面积S1，然后用两个框的面积相加得到的结果减去相交的面积得到并集面积S2，最后用相交面积S1除以并集面积S2得到IOU，若在所有得到的拥挤实例中最大的IOU都小于0.001，那么这个预选框就可以使用。进入下一步。

进入下一步正负样本的选取，产生训练的样本，计算预选框与正常实例的真值框IOU重叠情况，这里需要设置阈值，假设为0.7，则大于0.7的框为正，小于0.7为负，并且分别记录正负样本的索引值。设置每张图上需要训练的预选框数量k，然后选取k*0.33个正样本索引，也就是随机选三分之一的正样本，然后随机选取三分之二的负样本，根据正样本的索引寻找与真值框IOU最大的样本，并记录与之对应的真值框的位置和类别，计算正样本与真值框的偏差值

d_y＝(gt_center_y-center_y)/height

d_x＝(gt_center_x-center_x)/width

d_h＝ln(gt_height/height)

d_w＝ln(gt_width/width)

其中，center_x、center_y、gt_center_x、gt_center_y为真值和正样本的中心点坐标，height、width为真值和正样本的高宽，d_x、d_y、d_h、d_w为偏移量。然后为训练的预选框根据对应的真值框分配真值遮罩，其中真值遮罩是带有标记的，是物体种类的序列ID。

对正负样本进行取样，保持正负样本比为2:1，按照重叠情况给每个真值框和真值遮罩分配正样本，并进行为计算loss做相应的准备，这一层的输出为含有正负样本的rois，而且rois的坐标是归一化的。然后输入目标的真实种类、正样本对应真值框的偏移量、目标对应真值框的遮罩，进入下一层进行分类和回归操作，并通过一个并行分支进行遮罩的生成，这个并行的分支也是maskrcnn与faster-rcnn的改变之处。

分类和回归操作时，先进入ROIAlign层,计算每个roi是来自哪一层的特征，计算公式为：

其中k₀中为设置的常数，一般为4，c为第四层对应的宽或高，所以在这里就可以设置为64，w、h为输入的roi的宽和高，所以这里的计算式子为：

得到对应的层数后就从对应的特征图中取出对应的区域，然后对rois进行池化操作，将所有rois的尺寸利用双线性插值的计算方式变成统一大小。

得到的输出又依次进入卷积层，BN层，ReLU激活层，卷积层，BN层，ReLU激活层的两个全连接层，在这个过程当中特征图尺寸并没有发生变化，都是池化后得到的尺寸，得到最后的分类器分数，然后使用softmax函数得到分类的概率，同时通过偏移量计算得到最后的检测框的坐标。

另一边遮罩生成的网络，输入同样是rois，同样是先进入ROIAlign层，进行对应层级的计算，然后进入5层全连接层，每层也分别是卷积、BN层、ReLU层，最后通过上采样将图形尺寸恢复，并且因为得益于全连接层的强大像素级的语义分割，每个像素点都带有类别信息，所以最后生成的遮罩也是带有类别，最终输出为预测出来的带有类别的遮罩位置信息。至此，得到从图像输入到最终得到检测框和类别概率以及遮罩信息的完整输出。

Resnet101/Resnet50：残差网络，后面的数字为残差网络设计的层数，它是为了解决网络训练过程中梯度消失问题和网络不断加深导致网络误差反而增大而设计出的网络，一般设计有50层，101层和144层。

下采样:downsampled可以通俗的理解成缩小图像，作用一是将图像尺寸变得符合预期，二是生成图像的缩略图

上采样:upsampling可以认为是将图像放大，其实就是对图像数据进行插值扩展，从而使得图像有更大的尺寸。

ResNet-FPN:残差网络和feature pyramid network的结合，通过残差网络进行不同尺寸下的特征提取，通过FPN来同时处理低层特征和高层特征，融合后得到更好的预测效果。

RPN区域生成网络:RegionProposal Network通过对不同锚点的不同尺寸框下穷举来预测生成需要框。

真值类别gt_class_ids:标注时标注的物体类别；

真值框gt_boxes:标注时的标注框；

真值遮罩gt_masks:根据标注生成的遮罩；

ROIAlign:使用双线性内插的方法使得原来池化过程中的量化操作变成连续操作，从而消除量化过程中的偏差，并且使得像素级的遮罩生成更加精准；

IoU:Interection-over-union交并比，就是用两个图像的交集面积除以两个图像的并集面积；

NMS非极大值抑制算法:NonMaximumSuppression因为锚点生成了非常多的框，NMS算法在这里的作用就是让那些重合度高于设定阈值的框直接全部丢掉，选择局部重合度最小的框，来进行下一步的处理；

Rois:Region of interests特征图上的框，也就是我们网络预测出来的检测框；

全连接层:Fully Convolutional Networks对图像进行像素级别的分类，非常的精确，从提取的特征中恢复出每个像素的分类，从而解决了语义分割问题，在maskrcnn中是遮罩生成的很重要的部分；

双线性插值:一种取消量化的计算方法，简单来说如果要将一个32*32的图池化为7*7，那么可以将原来的图看成一个32*32的带有数值的点阵，然后将图进行7*7的平均划分，得到7*7的点阵，那么这7*7个中每个点肯定不会和32*32中的所有点重合，那么7*7中每个点就会落在32*32点阵中的某个1*1的框内，从而根据周围的四个点的进行计算，继而得到一个更加精确的值。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种抖动环境下稀疏样本的标记方法，其特征在于，该方法具体包括以下步骤：

S1：采用去抖动算法给输入的视频文件去抖动；

S2：利用改进的Mask fast RCNN模型识别稀疏样本；

S4：更新训练集：将标记好的数据返回至训练数据集中，用于下一轮改进的Mask fastRCNN模型的训练。

2.根据权利要求1所述的一种抖动环境下稀疏样本的标记方法，其特征在于，所述步骤S1中，去抖动算法具体包括以下步骤：

S11：输入视频文件，计算每帧图像的sift特征点和描述符；

S12：对相邻帧间的特征点进行最优匹配，具体包括：

S121：通过最近邻算法计算与前一帧图像每个特征点对应的2个最匹配特征点；

S122：计算2个最匹配特征点的欧式距离，若该距离小于某个阈值，则原特征点匹配成功，前述2个特征点均可作为匹配特征点；反之，原特征点不存在对应的匹配特征点，匹配失败；

S123：所有匹配成功的特征点对构成相邻帧间的最优匹配；

S13：通过最优匹配特征点计算相邻帧间的仿射变换矩阵，从而得到摄像机的运动轨迹估计；

S14：对仿射变换矩阵进行参数计算；

S15：对参数进行平滑处理，并保证平滑后的参数与原值的绝对值小于某个阈值；

S16：根据平滑后的参数重新计算仿射变换矩阵；

S17：根据新的仿射变换矩阵逐帧对原视频图像进行平移、旋转、放缩、剪切和反射；

3.根据权利要求1所述的一种抖动环境下稀疏样本的标记方法，其特征在于，所述步骤S2中，改进的Mask fast RCNN模型包含有：特征提取的主干网络、FPN特征金字塔网络和RPN区域生成网络。

4.根据权利要求3所述的一种抖动环境下稀疏样本的标记方法，其特征在于，所述特征提取的主干网络包含五个大层，其中，第一层、第二层通过设置一定的卷积核、步长、边框填充和个数来缩小特征图的尺寸；第二层还包括BN层、ReLU层池化层，BN层用于归一化参数，同时第二层在主干路旁增设有下采样支路，将原来的输入的特征图通道数翻倍。

5.根据权利要求3所述的一种抖动环境下稀疏样本的标记方法，其特征在于，所述FPN特征金字塔网络具体包括：将主干网络第五层输出的特征图经过一个上采样，通道数不变，然后与第四层的特征图相加，用得到的特征图重复这样的操作，重新得到三个不同的特征图，分别是第四层的P4，第三层的P3，第二层的P2，而第五层的P5没有发生变化，然后P2到P5都经过一次卷积，消除上采样过程带的混叠效应，然后P5得到的特征图作为输入经过下采样过程得到输出。

6.根据权利要求3所述的一种抖动环境下稀疏样本的标记方法，其特征在于，所述RPN区域生成网络包括：RPN是一个卷积层加ReLU、分类层和回归层的一个网络，经过主干网络提取特征之后根据得到的特征图尺寸将特征图分成h*w个区域，每个区域由这个区域的像素点决定，每个像素点对原图生成k个可能包括目标的候选区域，其中k为锚点框的不同的宽高比；然后对每个候选区域的锚点都进行判别并给与正负标签，给anchors与真值框IoU重叠达到k的给与正标签，k为设置的阈值；另外若IoU重叠没有k，给这3个anchors中重叠最高的给与正标签，其他IoU重叠小于1-k的anchors则为给与负标签；在经过卷积层的卷积之后每个anchors都会有一个前景和背景的得分，其得分值代表作为前景和背景的概率，另外还有一个能够回归到真值框的偏移量的变换坐标[x,y,log(h),log(w)]。

7.根据权利要求6所述的一种抖动环境下稀疏样本的标记方法，其特征在于，所述RPN区域生成网络具体包括：

首先从上一层输入得到的rpn_probs中正样本的概率的数据，其次输入rpn_bbox的坐标偏移量，并获得特征图生成的所有anchors框，根据概率得分获得排名前top_k个anchors，top_k是设置的参数，然后获取这top_k个anchors的索引，根据索引获得anchors的概率分数，坐标偏移量以及anchors框本身，然后使用偏移量对选出的anchors进行坐标修正，并将得到的修正框和原来的分数数据结合起来；然后将整张图像的四个角坐标和得到的修正框的四个角的坐标进行归一化处理，统一规定到0-1之间，一旦修正框四个角中有坐标小于0或者大于1，则分别设置为0或1，即是将检测框强制限定在整张图像之中，将超出部分进行裁剪；最后使用NMS非极大值抑制算法，将top_k个框再次进行筛选，得到最后的rois兴趣区域，即是包括所有rois兴趣区域的分数和坐标，如果生成的rois数量低于设置的参数，直接补零；

3)将ProposalLayer层的输出输入DetectionTargetLayer层；

输入数据包括rois的预选框proposals、真值类别gt_class_ids、真值框gt_boxes和真值遮罩gt_masks；输入之后，先将填补的0全部去掉，删除后得到小于等于原来数量的预选框，真值框以及对应于非零真值框里的真值遮罩，然后处理特别拥挤的实例，分别记录拥挤实例的数量和正常实例的数量，使用gt_class_ids进行判断，如果大于0，则图片为正常实例，且记录了每个实例的类别，如果小于0，则是拥挤实例，然后只使用正常实例的类别、框和遮罩；将得到的所有预选框和拥挤实例的框进行IOU计算，计算过程就是用两个框的四个坐标进行相交，得到相交部分的四个坐标求出相交面积S1，然后用两个框的面积相加得到的结果减去相交的面积得到并集面积S2，最后用相交面积S1除以并集面积S2得到IOU，若在所有得到的拥挤实例中最大的IOU都小于0.001，那么这个预选框就能够使用；

5)按照重叠情况给每个真值框和真值遮罩分配正样本，然后输入目标的真实种类、正样本对应真值框的偏移量和目标对应真值框的遮罩，进入下一层进行分类和回归操作，并通过一个并行分支进行遮罩的生成；分类和回归操作时，先进入ROIAlign层，得到每个roi对应的层数后就从对应的特征图中取出对应的区域，然后对rois进行池化操作，将所有rois的尺寸利用双线性插值的计算方式变成统一大小；得到的输出又依次进入卷积层、BN层、ReLU激活层、卷积层、BN层、ReLU激活层的两个全连接层，然后使用softmax函数得到分类的概率，同时通过偏移量计算得到最后的检测框的坐标。

8.根据权利要求7所述的一种抖动环境下稀疏样本的标记方法，其特征在于，所述RPN区域生成网络具体还包括：遮罩生成的网络，输入rois，先进入ROIAlign层，进行对应层级的计算，然后进入5层全连接层，每层分别是卷积、BN层、ReLU层，最后通过上采样将图形尺寸恢复最后生成的遮罩带有类别，最终输出为预测出来的带有类别的遮罩位置信息。

9.根据权利要求7所述的一种抖动环境下稀疏样本的标记方法，其特征在于，步骤2)中，使用偏移量对选出的anchors进行坐标修正的公式为：

G'_x＝A_w·d_x+A_x

G'_y＝A_h·d_y+A_y

G'_w＝A_w·exp(d_w)

G'_h＝A_h·exp(d_h)

其中，A_x、A_y、A_w、A_h为开始预设的anchors的中心点坐标和宽高，d_x、d_y、d_w、d_h为偏移量，G'_x、G'_y、G'_w、G'_h为更新后的anchors的中心点坐标和宽高。

10.根据权利要求7所述的一种抖动环境下稀疏样本的标记方法，其特征在于，步骤4)中，计算正样本与真值框偏差值的公式为：

d_y＝(gt_center_y-center_y)/height

d_x＝(gt_center_x-center_x)/width

d_h＝ln(gt_height/height)

d_w＝ln(gt_width/width)