CN110852314B

CN110852314B - 一种基于相机投影模型的物品检测网络方法

Info

Publication number: CN110852314B
Application number: CN202010045445.7A
Authority: CN
Inventors: 肖刚; 王逸飞
Original assignee: Jiangxi Gosun Guard Security Service Technology Co ltd
Current assignee: Jiangxi Gosun Guard Security Service Technology Co ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-05-22
Anticipated expiration: 2040-01-16
Also published as: CN110852314A

Abstract

本发明公开一种基于相机投影模型的物品检测网络方法，包括：输入图像，设计并计算输入图像的锚框：主干网络：将图像输入到主干网络，经过多个特征层后输出；设计Razor模块；先对Ground truth进行编码，再进行预测；负样本筛选；训练遴选样本，设计损失函数，进行训练，得到训练模型；模型的运用；当训练完毕，用得到的函数参数，进行模型推导，对得到的每一个锚框的估计，得到该锚框下存在目标的概率

，并反推求出在实际图像中的真实位置。本发明提出的物品检测网络方法，在大幅减少运算量的同时，使网络仍然保留了准确检测的性能。在自动驾驶和监控这两个非常依赖相机投影模型的行业中，都已证明了其高效的特点，取得了非常好的效果。

Description

一种基于相机投影模型的物品检测网络方法

技术领域

本发明涉及网络物品检测领域，更具体地，涉及一种基于相机投影模型的物品检测网络方法及系统。

背景技术

卷积神经网络（CNN），作为图像识别与检测非常流行的载体，已经获得了非常大的成功，基于这个技术，已经衍生出了非常多的应用网络，VGG，ResNet，DenseNet，Yolo 等OneStage 网络。但这些用于识别的端到端(End to End) 网络有非常多的实际问题：第一，这些网络需要极大的运算量，导致无法实际的落地。不能落地包括两个层面，一个是巨大的运算量导致更高的GPU的使用，从而提高了部署成本，第二个层面，是巨大的运算量使得计算难以达到实时，为了达成实时运算，往往需要部署更多的计算设备，在提高成本的同时，造成资源的浪费。第二，直接使用这些经典网络的简化网络模型，并不能够很好的达到网络的性能。第三，一些性能还不错的网络，并没有针对相机的投影模型进行网络设计，而是更偏向于基于图像本身的网络设计，这样的设计更通用，但并不高效。

发明内容

为了克服现有技术的不足，本发明提出一种基于相机投影模型的物品检测网络方法，使用该物品检测网络，能够在减少运算量的同时，保留网络的准确检测性，提高网络在实际应用中的并发数和帧数，进而减少了在硬件设备上的开销。

为了实现上述目的，本发明的技术方案为：

一种基于相机投影模型的物品检测网络方法，包括以下步骤：

S1、输入图像，设计并计算输入图像的锚框；

S2、主干网络：将图像输入到主干网络，经过多个特征层后输出；

S3、Razor模块：为了配合步骤S1所设计的锚框，网络设计上，设计Razor模块；设到输入层的网络尺寸表示为

，其中n表示输入图像的数量，h表示主干网络特征层的高度，

表示主干网络特征层的宽度，

表示主干网络特征层的通道数；网络通过两次transpose和一次reshape变换输出为

；则锚框和输出的网络结构达成一致，再次经过预设个数卷积操作，便能对Ground truth的结果进行预测；

S4、预测：先对Ground truth进行编码，再进行预测；

S5、样本选择，指负样本筛选；依赖于两个部分：一个是Ground Truth被指派到锚框，另一个是指派到目标的锚框，达到足够的宽度维度上的交并比IOU（intersection overunion）；两者有一个不满足，便被认为是负样本；

S6、训练遴选样本：为了提高训练质量，设计了样本遴选机制；在训练时，算法推导出的预测中，选择与Ground Truth 判断差距最大的样本为训练目标；

S7、设计损失函数，进行训练，得到训练模型；

S8、模型的运用；当训练完毕，用得到的函数参数，进行模型推导，对得到的每一个锚框进行估计，得到该锚框下存在目标的概率

，当概率

达到设定阈值，则将推理出来的offset结果，通过反函数，求出在实际图像中的真实位置。

优选的，所述步骤S1计算锚框的方式为：锚框用

表示，

表示锚框中心点在图像中横纵坐标的位置，

表示在这个位置所延伸的宽度和高度；

反函数公式

是指每一个输出层的特征图的宽度分量的分辨率；

是指输出层的每一个像素的编号，

；

是指从输入图像到该输出层的分辨率，输出层每一个像素所代表的原图的像素的尺寸；

，表示框总是从整个从图像顶部到底部的范围。

优选的，所述通过两次transpose和一次reshape变换具体方式为：首先通过第一次transpose，将矩阵转换为

，然后将矩阵进行reshape，转化为

，最后经过transpose，将矩阵转化为

。

优选的，所述步骤S4先对Ground truth进行编码再进行预测的具体过程为：

对Ground Truth进行编码的方式如下：如同步骤S1的锚框设计，将每一个Groundtruth指派到相对应的输出层作为学习目标，对它的位置

，先转化为

，然后指派输出层的每一个锚框的偏移量，及宽高的比例

，这使得每一个合适的Ground Truth，对应到一个与之对应的锚框，进行相对坐标的估计，使得网络在训练时可以实现收敛。

优选的，预测的过程为：给定一组图片和相对应的Ground Truth编码，对输入的图片进行数字化处理，进行卷积(Convolution)、池化(Pooling), 连接(Concatenation)操作后，得到相应的数值输出；

这些输出，通过机器学习流行的反向传播算法，优化整个计算过程和计算权重，得到最终的权重结果；

得到最终的权重结果后，会对得到的数值进行解码，利用编码函数的反函数得到预测的、用于实际使用的数值；

其中预测的结果分为2个部分：第一、一个锚框包含样本的概率；第二、基于这个锚框得到的预测框位置；实际使用过程中，如果概率低于某一个特定的置信值，将不采信该锚框下的预测是准确的，即放弃该锚框的输出。反之，将会获得该锚框的输出，并将方框的位置记录下来。

优选的，由于存在多个尺度的输出问题，采用贪婪非极大值抑制 (Greedy Non-Maximum Suppression)的方法对锚框进行筛选，对于信任度最高的锚框优先选择，对那些与该锚框输出相同，且有预设的交并比IOU的锚框的输出，进行过滤；最终得到预测的结果。

优选的，所述步骤S7设计损失函数的具体过程为：在损失函数的设计上，采取了较为通用的方法；对类别的估计上，采用了通用的softmax cross entropy loss，Softmax的定义为：

损失函数则定义为

在对回归框的估计上，采取了通用的Smooth L1 Loss，定义为

总体的损失函数定义为

上述各参数的含义为：

表示某一个特定的锚框，其框内目标为第i类的概率值的推理结果，

表示自然常数，

表示损失函数，

表示输出置信度所设计的损失函数，

表示输出相对于编码后的Ground Truth 的位置框信息所设计的损失函数（因所有的Ground Truth 的数据都进行了编码，转换成相对于锚框的偏移数据，因此起名offset），

表示侧重参数，会在训练过程中控制网络学习的侧重点,必须大于0，

，其中

会使网络侧重位置的回归学习。

则使网络侧重置信度的学习。

=1 时，网络则没有侧重，兼顾学习；

对目标类别推理的推理数值表示对一次类别置信度，每一个类别所量化的结果；

表示对每一个锚框，所包含的Ground Truth信息的类别编码，比如：如果有2个类，猫和非猫，分别用0，1来进行编码，如果一个锚框存在一个猫，那么该编码就会是

，

表示网络中预测位置的数据的输出。

在绝大多数的训练场景

。

优选的，所述步骤S1进行锚框设计前还包括：对需要检测的图像进行数学统计，确认需要检测的目标在图像上的最小尺寸，最大尺寸和需要检测的目标在图像上的分布情况，并由此设计相关网络输入尺寸；

根据设计好的输入尺寸，计算最小检测尺寸和输入尺寸之间的比例关系，决定网络的输出层；一般地，网络需要至少3层不同尺寸的卷积层作为铺垫，从第4层开始作为首个输出层；首个输出层在原图上的检测尺寸的输出大小为

,

为层数，

为原图和输入图像的比例。

优选的，设计的相关网络输入尺寸由当时的运算资源而定，其设计标准为：需要检测目标越大的，网络输入尺寸设计得越小，需要检测目标越小的，网络的输入尺寸越大。

具体理由如下：对于检测目标而言，如果目标越大，则在图片上的面积也就越大，因此，需要在卷积网络的最后几层进行输出。（此时特征图像Feature Map将会在空间尺度上，即，长，宽，被压缩的比较小）。这样，一个锚框所代表的原图上的图像尺寸就更大。在主干网络不变的情况下。预测大的目标则需要的计算相对较少（为当前特征图的长

宽

通道数

运算核维度

运算核通道数）。

由此可知，决定一个检测网络运算量的最直接与图像本身相关的参数为图像及其特征图的长和宽。

那么，越到后层，特征图越小，则相应的检测计算也就越小，而越后层，检测的目标也就越大。反之，越前层，特征图越大，相应的检测计算也就越大。检测目标也就越小。

根据算法的这个特性，本发明可以制定好所需的检测范围，检测目标的大小。然后定制化算法，提高算法的执行效率。

与现有技术相比，本发明的有益效果是：本发明针对以上技术背景所提到的问题，结合相机模型对网络进行特别的设计，并加以创新。所设计的网络，在大幅减少运算量的同时，使网络仍然保留了准确检测的性能，从而提高了网络在实际应用中的并发数和帧数，从而减少了在硬件设备上的开销，网络在设计上可以通过参数的调整，来自适应检测范围，从而达到更轻量化的部署，甚至可以直接部署在摄像头芯片中。在自动驾驶和监控这两个非常依赖相机投影模型的行业中，都已证明了其高效的特点，取得了非常好的效果。

值得注意的是，该发明是针对相机投影模型的特点和实际引用场景来进行设计的，也就是说，其不同于通用的图像检测任务，该发明针对的是相机前方是否存在检测标的问题，而非单纯的标记出所有存在的目标的任务。这与通常算法的检测任务在根本上是不同，是一个通用功能的特化。举例来说，通常在自动驾驶环境中，我们对挡在车辆行进道路上的车辆行人后方的情况并不感兴趣。我们需要知道，相机正前方是否存在相关目标。同理，对于一些监控信息来说，我们对场景中是否存在可疑的行人感兴趣，对场景中真实的目标数量并不感兴趣。

附图说明

图1为本发明模型结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述。

一种基于相机投影模型的物品检测网络设计方法，包括以下步骤：

步骤1：对需要检测的数据进行数学统计，确认需要检测的目标在图像上的最小尺寸，最大尺寸和要检测的目标在图像上的分布情况，并由此设计相关的网络输入尺寸。（输入尺寸由当时的运算资源而定，一般地，检测目标越大的，网络输入尺寸可以设计得越小，检测目标越小的，网络的输入尺寸越大）

步骤2：根据设计好的输入尺寸，计算最小检测尺寸和输入尺寸之间的比例关系，决定网络的输出层。一般地，网络需要至少3层不同尺寸的卷积层作为铺垫，从第4层开始作为首个输出层。一般地，首个输出层在原图上的检测尺寸其输出大小为

,

为层数，

为原图和输入图像的比例。

步骤3：计算锚框。锚框在设计中，用

表示，

表示锚框中心点在图像中横纵坐标的位置，

表示在这个位置所延伸的宽度和高度。特别的，可以公式化为

;

是指每一个输出层的特征图的宽度分量的分辨率。

是指输出层的每一个像素的编号，

。

是指从输入图像到该输出层的分辨率，输出层每一个像素所代表的原图的像素的尺寸。

，表示框总是从整个从图像顶部到底部的范围。

步骤4：主干网络。主干网络设计不是本发明的核心，可以采用任何合适的主干网络，在本发明实验的网络上，采取的是类似VGG的结构，但网络输入尺寸、卷积核大小都有不同。同样的，可以采用其他公开或自定义的网络结构。

步骤5：Razor模块。为了配合步骤3所设计的锚框，网络设计上，我们设计Razor模块。假设我们到输入层的网络尺寸表示为

, 网络通过两次transpose和一次reshape变换为

, 具体方式为：首先通过第一次transpose，将矩阵转换为

, 然后将矩阵进行reshape, 转化为

, 最后经过transpose，将矩阵转化为

, 经过这些操作。锚框和输出的网络结构达成一致，再次经过几个自定义的常规卷积操作，便可以对Ground truth的结果进行预测。

步骤6：对Ground truth进行编码。如果直接对Ground Truth 进行预测，会导致设计的网络在训练时无法收敛。因此，为了达到目的，我们必须对Ground Truth进行编码。编码方式如下：如同步骤3的锚框设计，将每一个Ground truth指派到相对应的输出层作为学习目标，对它的位置

，先转化为

以指派的输出层的每一个锚框的偏移量，及宽高的比例

，这使得每一个合适的Ground Truth, 对应到一个与之对应的锚框，进行相对坐标的估计，使得网络在训练时可以实现收敛。

步骤7：负样本筛选。负样本的筛选，依赖于两个部分。一个是Ground Truth 是否被指派到锚框，另一个是有指派到目标的锚框，是否有达到足够的宽度维度上的IOU（intersection over union）。两者有一个不满足需求，便被认为是负样本。

步骤8：训练遴选样本。为了提高训练质量，我们设计了样本遴选机制。在训练时，算法推导出的预测中，选择与Ground Truth 判断差距最大的有限选择为训练目标。（比如，Ground Truth 在一个锚框被编码进了一个目标，且符合步骤7的筛选条件，但在实际算法推导时，退改目标可能产生0.1 或0.9的概率分布，认为它存在该目标。那么，我们会更倾向于选择0.1的目标作为训练，因为它产生了更大的错误，更需要进行优化。）

步骤9：在损失函数的设计上，采用了通用的softmax cross entropy loss，Softmax的定义为：

损失函数则定义为

在对回归框的估计上，采取了通用的Smooth L1 Loss，定义为

总体的损失函数定义为

上述各参数的含义为：

表示自然常数，

表示损失函数，

表示输出置信度设计的损失函数，

，其中

会使网络侧重位置的回归学习。

则使网络侧重置信度的学习。

=1 时，网络则没有侧重，兼顾学习；

对目标类别推理的推理数值表示

，。

，

表示网络中预测位置的数据的输出。

在绝大多数的训练场景

。

步骤10：目标图像检测。当训练完毕，可以用得到的函数参数，进行模型推导，对得到的每一个锚框的估计，可以得到该锚框下存在目标的概率

, 当概率

达到一定阈值，我们可以将推理出来的offset结果，通过步骤6的反函数，求出在实际图像中的真实位置。

如图1，模型结构示意图。

连接预测与样本选择损失函数的虚线箭头表示了，这个流程只在训练环节存在，在检测环节，该模块不工作。主干网络有多个特征层，用于提取输入图像的特征，不是所有的特征层都会被用作最后的预测。

该发明针对的是以上的情况，不同于通用的目标检测。

本实施方式在两个场景中对算法进行了测试。

该算法，在1080Ti的显卡上，运行速度可以达到13ms，远低于现在任何实际开放的公开网络模型。参见效果数据如下表：测试环境为NVIDIA TITANX 显示卡，模型在没有细节优化的情况下，有着更快的推理速度。比主流的目标检测算法，提高了大约180%的效率。

该算法，在CITYSCAPE数据集上，https://www.cityscapes-dataset.com/,测试场景Stuart, 达到了95% recall的成绩。该场景下包括了所有行人和车辆的检测任务。在本公司的同源的监控数据下，达到了98%的准确估计。

在本例中，对所有打算应用此算法的相机进行数学统计，发现设计的最小检测的目标在前端拍摄相机下的最小宽度为80像素，最大检测宽度1500像素左右，相对于相机分辨率

。根据设计，输入网络设计为

，还对输入相机进行了一定的裁剪，以保证图像在缩放时不会引起失真扭曲。得到

的分辨的裁剪图像。如果将图像缩放至

的尺寸，原最小尺寸转换后大约21像素，原最大尺寸转换后约 400像素（每一次卷积、池化的操作，相当于对原像素信息进行融合，后一层的像素代表前一层2x2的像素区域。而本实例在给出预测前，采用3x3 的卷积操作。因此，其检测时的尺寸范围为

，

为层数。因此，在第四层的检测目标为

=24。由于本实例将应用IOU的比对策略，并以50%作为筛选标准，所以目标检下界

，上界为

因此可以推得该网络在第四层检测时满足于设定的最小检测尺寸，在第八层满足于设定的最大检测尺寸）。根据卷积神经网络的卷积、池化的特点和目标匹配方案50%的IOU的尺度，可以得到，在卷积神经网络的第四层，就可以进行目标的检测，同时在每一次池化操作前，都可以进行相对应的目标检测操作。直到第八层。因此，本实例设计了一个有8个经过池化卷积神经主干网络，其中第4-8层会用作输出。

本实例按照每一个特征图在输出特征层的分辨率设计锚框。每一个在特征图宽度的维度上设计一个锚框。这个锚框为整个图像的高度，宽度为每一个像素位置。从而我们也可以得到锚框的大概个数 64+32+16+8+4 + 2 = 126个。

在对一个GroundTruth目标进行编码的时候，首先将目标的长、宽作相对于全图的长、宽的归一化。然后将目标从左上(xmin, ymin), (xmax, ymax) 两个点表示一个方框的方式，转化为(center_x, center_y, width, height)的表示方式。然后针对这种表示方式，对符合配对规则的目标，作如下的编码：

在完成对每一个锚框的对Ground Truth 的编码后，用卷积神经网络，并使用反向传播算法（Back Propagation）对网络进行训练。训练的损失函数如上面所介绍的一样，通过Razor 模块对特征进行整理，接入一定的卷积操作得到最后的输出数值。这些数值的结果传入损失函数，得到的误差将会利用反向传播算法实现对网络的训练。

训练完毕后，如果输入一张

的图像，则首先会对图像进行裁剪成为

的图像，然后在对图像进行缩放，达到图像的输入尺寸，然后放入网络。网络最终会输出基于这张图片和训练权重的结果。首先对所有符合置信度的目标，利用编码的反函数，计算出这些预测目标框的尺寸。然后对这些结果进行筛选（比如采用NMS(非极大值抑制)算法），挑选出最合适的目标作为预测结果。

本发明的实施方式针对以上技术背景所提到的问题，结合相机模型对网络进行特别的设计，并加以创新。所设计的网络，在大幅减少运算量的同时，使网络仍然保留了准确检测的性能，从而提高了网络在实际应用中的并发数和帧数，从而减少了在硬件设备上的开销，网络在设计上可以通过参数的调整，来自适应检测范围，从而达到更轻量化的部署，甚至可以直接部署在摄像头芯片中。在自动驾驶和监控这两个非常依赖相机投影模型的行业中，都已证明了其高效的特点，取得了非常好的效果。

值得注意的是，该发明是针对相机投影模型的特点和实际引用场景来进行设计的，也就是说，其不同于通用的图像检测任务，该发明针对的是相机前方是否存在检测标的问题，而非单纯的标记出所有存在的目标的任务。这与通常算法的检测任务在根本上是不同，是一个通用功能的特化。举例来说，通常，在自动驾驶环境中，我们对挡在车辆行进道路上的车辆行人后方的情况并不感兴趣。我们需要知道，相机正前方是否存在相关目标。同理，对于一些监控信息来说，我们对场景中是否存在可疑的行人感兴趣，对场景中真实的目标数量并不感兴趣。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。