CN114140413A

CN114140413A - 一种优化小目标和改善漏检问题的食材图像检测方法

Info

Publication number: CN114140413A
Application number: CN202111407514.5A
Authority: CN
Inventors: 王正萃; 徐尚龙; 闫圣; 龙鹰; 许磊; 高翔; 孙佳宁; 沈蕴; 方树; 李钢; 刘星
Original assignee: Guangxi Chengdian Intelligent Manufacturing Technology Co ltd; University of Electronic Science and Technology of China
Current assignee: Guangxi Chengdian Intelligent Manufacturing Technology Co ltd; University of Electronic Science and Technology of China
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-04

Abstract

本发明公开一种优化小目标和改善漏检问题的食材图像检测方法，应用于图像处理领域，针对现有技术在小目标检测上存在的检测难、漏检问题；本发明提出一种特征融合网络，利用逆卷积操作将高层特征图与低层特征图相融合，增加了网络中低层特征图的特征提取能力，大大丰富前几层的语义信息，最终生成具有高分辨率高语义信息的单个高级特征图，能够有效地检测出图像中的小目标；本发明还对目标框筛选阶段进行改进，采用改进的非极大值抑制算法进行筛选，避免漏检。

Description

一种优化小目标和改善漏检问题的食材图像检测方法

技术领域

本发明属于图像处理领域，特别涉及一种食材图像检测技术。

背景技术

随着物联网、大数据、人工智能的发展以及经济的快速增长和人类生活水平的提高，在智能家居领域，基于冰箱食材识别与分类的应用研究受到了越来越多的重视。所谓智能家用冰箱中的果蔬识别是指利用内置摄像头对物品架上的果蔬进行拍摄，然后将图像数据传输至后端服务器并进行智能识别。利用这些数据进行后台分析，商家可通过APP适时向用户做出应季果蔬或个性化食谱推荐，还可提醒用户冰箱食材的保鲜情况。食材自动识别技术潜力巨大、应用前景广泛，因此对于该领域的相关研究具有重要的意义。

传统目标检测技术有两个需要解决的问题：其一是传统的目标检测算法在生成候选框的过程中时间复杂度过高，产生了很多冗余的候选框；其二是传统目标检测算法使用手工设计的特征提取器进行特征提取，手工特征的设计难度较高且特征提取能力比较弱，算法鲁棒性较差，难以适应复杂的真实场景。

针对传统的目标检测算法特征提取能力不足的问题，基于深度学习的目标检测算法使用深度神经网络对输入进行特征提取。对于候选框的生成问题，目前基于深度学习的目标检测算法主要有两种解决方案：1)先进行Region Proposal(区域提取)，然后进行分类和回归的Two-stage(两阶段)深度学习目标检测算法，常见的如R-CNN,Fast R-CNN,FasterR-CNN等；2)是基于全卷积网络的One_Stage(单阶段)深度学习目标检测算法，这类算法的主要特点是不用生成候预选框，直接通过卷积网络学习到的特征进行分类和边框回归，常见的结构包括SSD和YOLO系列。

目前目标检测算法对大目标的检测效果显著优于小目标，然而实际场景检测目标尺寸差异很大，近年基于深度神经网络的目标检测算法的研究取得了较大的进展，但由于深度神经网络主要依赖深层特征进行目标检测，对浅层特征利用不足，因此对小目标的检测还有很大的困难；同时由于在目标框筛选阶段，非极大值抑制算法剔除部分冗余框的同时也将部分正样本的包围框删减而造成多目标检测漏检。

发明内容

为解决上述技术问题，本发明提出一种优化小目标和改善漏检问题的食材图像检测方法，以Faster R-CNN为基础，提出一种特征融合网络，该网络利用逆卷积操作进行多层特征融合，构造了具有高分辨率高语义信息的单个高级特征图，这使得本发明所提出的算法能够有效地检测出图像中的小目标。

本发明采用的技术方案为：一种优化小目标和改善漏检问题的食材图像检测方法，

S1、将采集的食材图片输入特征提取网络，得到特征图；

S2、采用区域建议网络在特征图上生成锚点框；

S3、通过分类与回归对锚点框进行第一次筛选，得到可能包含目标的建议框；

S4、将建议框映射回原来的特征图上，采用改进的非极大值抑制算法对建议框进行第二次筛选，得到目标类别的检测结果。

步骤S1所述特征提取网络采用反卷积操作将低分辨率的特征图上采样到更高分辨率的特征图上进行融合。

步骤S2具体为：以特征图上的每个特征点位中心，同时设置k个锚点框。

所述改进的非极大值抑制算法包括以下分步骤：

A1、将所有目标框按得分排序，认为得分最高的目标框包含目标，记该目标框为M；

A2、计算剩余目标框与M的交并比，当目标框与M的交并比小于N_i，执行步骤A3；若当前目标框与M的交并比大于或等于N_t时，执行步骤A4；

A3、认为当前目标框与M代表着两个不同的目标，保持原来得分；

A4、认为当前目标框和M可能是包含两个不同的目标，也可能是和M代表同一个目标，因此采用权值惩罚策略，将该目标框得分降低且保留该目标框，参加下一轮筛选；

A5、移动M至结果目标框集合内，剩余目标框组成新的集合，重复步骤A1-A4，直到目标框集合为空，结束筛选，输出结果。

目标框得分具体为当前目标框中目标所述类别的置信度得分。

步骤A4所述将该目标框得分降低的计算式为：s_i′＝s_i×(1-IoU(M,b_i))²，其中，s_i′表示降低后的得分，s_i表示该目标框原来得分，IoU(M,b_i)表示M与当前目标框b_i两者的交并比，N_t为阈值。

本发明的有益效果：与原始的Faster R-CNN算法只是在特征提取网络的最后一个特征图上进行预测，没有使用前后特征图的语义关联性相比，本方法的方法利用逆卷积操作将高层特征图与低层特征图相融合，增加了网络中低层特征图的特征提取能力，大大丰富前几层的语义信息，最终生成具有高分辨率高语义信息的单个高级特征图，并在其上进行预测。这一特性使本发明的方法与Faster R-CNN相比能更有效地检测出图像中的小目标；

与原始NMS算法容易在剔除部分冗余框的同时也将部分正样本的包围框删减从而造成漏检相比，本发明的改进的NMS算法考虑到多个距离较近的检测目标，即交并比过高但标定的并不是同一个目标的情况，在原来的基础上引入新的加权函数(1-IoU(M,b_i))²，它比原始的线性加权函数更加平滑，也比高斯加权函数惩罚系数更高，对于负样本的剔除更加精准。

附图说明

图1为Faster R-CNN算法结构图。

图2为VGG16各层感受野。

图3为区域建议网络的运行机制。

图4为改进的基于特征融合与NMS算法的总体网络结构图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明是基于区域特征提取算法Faster R-CNN进行改进的，原始的网络包括卷积层和全连接层，本发明将基础网络中的全连接层全替换为卷积层；主要将目标检测的过程分为两个阶段，在第一个阶段中，在主干特征提取网络VGG16对输入图片提取的特征图上使用区域建议网络(RPN)来生成大量的锚点框，然后通过分类与回归来确定锚点框是包含目标还是包含背景，通过对这些锚点框进行筛选，最后得到一些可能包含目标的建议框。第二个阶段就是将第一个阶段所得到的建议框映射回原来的特征图上，经过RoI池化操作之后输入到检测器的分类网络中，通过采用改进的非极大值抑制算法对建议框进行第二轮的精细筛选，同时通过边框回归来对候选框的位置进行修正，最后会得到预测框的类别得分以及位置信息。

Faster R-CNN算法结构如图1所示，包括：

VGG16深度卷积神经网络层，其用于对传入的图像进行多次卷积操作，并生成特征提取图像，VGG16共包含13个卷积层、5个池化层，其中卷积操作不会改变改变前一层所传特征图的尺寸大小，而每一个池化层的步长为2，特征图经过池化后尺寸会缩减到一半。经过一系列的卷积层与池化层的处理之后，输入图片的深度特征图逐渐被提取出来，最终会生成一张完整的特征图。

在生成特征图的卷积网络中，生成底层特征图的神经元所叠加的前置计算较少，在原图上的感受野小，更注重保留图像的边缘、纹理等细节信息，而生成高层特征的神经元所叠加的前置计算较多，在原图上的感受野大，更注重保留图像的语义信息。高层特征经过多次下采样，一般会忽略较多的细节信息。表1是根是VGG各层输出特征图的感受野情况。

表1VGG各层(Layer)输出特征图的感受野

Faster R-CNN利用的是Pool5输出的特征图进行后续的分类和回归任务，也就是说利用的是感受野大小为212大小的特征图，而冰箱中部分小食材只具有几十，甚至只有几个像素，网络从这些仅有的少量像素中能提取出的语义信息是非常有限的。极端情况下，一个小型食材目标在高层特征图上可能只对应一个点，所以小目标的检测需要更多的考虑具有较小感受野的神经元提取出的特征图。

针对以上特征图对于高分辨率的低层特征没有再利用，而这些层对于小目标的检测是非常重要，本发明提出了特征融合网络来提高网络对冰箱食材中小目标的提取能力，如图 2所示，具体包括：

首先，将2×2的反卷积层应用于特征融合层7，然后将主干网络卷积层6经过3×3的卷积操作，以保证两个融合之前的特征层具有相同的尺寸，接着将两个特征层对应位置通过像素级叠加进行合并，得到特征融合层6，此时的特征融合层6既包含了融合层7的特征，又包含了卷积层6的特征，依照图2的操作依次融合Conv7，Conv6，Conv5，Conv4 的语义信息。

与Faster R-CNN所使用的VGG-16网络结构不同的地方在于，本发明将Conv5卷积层之后的全连接层FC6(14层)和FC7(15层)分别转换为3*3*1024的卷积Conv6和1*1*1024的卷积Conv7，并添加到了主网络中。构造完特征提取网络之后，便开始进行特征融合操作。

如图4所示，特征提取网络包括7个卷积层，特征融合网络包括4个融合层，第一个融合层的输入为特征提取网络中的第七个卷积层的输出，第二个融合层的输入为第一个融合层的输出与特征提取网络中第六个卷积层的输出；第三个融合层的输入为第二个融合层的输出与特征提取网络中第五个卷积层的输出；第四个融合层的输入为第三个融合层的输出与特征提取网络中第四个卷积层的输出；经过四次特征融合操作之后形成了一个多层特征融合网络，最终得到所需要的具有高分辨率高语义信息的单个高级特征图，并在其上进行预测。其中特征融合层7是主干网Conv7层的输出。

以下为改进的好处：

与原始的单层目标检测方法相比，本发明的方法利用逆卷积操作将高层特征图与低层特征图相融合，增加了网络中低层特征图的特征提取能力，大大丰富前几层的语义信息，最终生成具有高分辨率高语义信息的单个高级特征图，并在其上进行预测。这一特性使本文所提的算法与Faster R-CNN相比能更有效地检测出图像中的小目标。

接着，在获取特征图的基础上，特征图便要通过一些能够提升网络检测性能的组件，首先便是区域建议网络(RPN)，如图3所示：

该网络在待检测的卷积层上使用滑动窗口，将每个滑动窗口的特征输入到分类器中进行分类与回归。在每一个滑动窗口的位置上都同时预测K个具有固定长宽比的候选框，因此分类层会对每个侯选框计算两个得分，判断其内部是否包含目标，而对于回归层，则会输出该候选框的四个位置坐标。

区域建议网络在生成候选区时，提前在特征图上设置了一些列不同类型的固定长宽比的锚点框，这些锚点框以特征图上每个特征点为中心，每个中心点同时设置k个锚点框，如果特征图的尺寸大小为W×H，那区域建议网络会在这张特征图上一共生成W×H×k个锚点框。在Faster R-CNN中，每个中心点设置了三种固定尺度和三种长宽比的锚点，共有9种不同类型的锚点框。

区域建议网络设置的锚点框的数量很多，几乎包含了目标在图像上所有可能存在位置，但是有的锚点框内部并不包含目标，所以要对这些锚点框进行分类，判断其内部是否包含目标。区域建议网络通过一个分类层和一个回归层来对每个锚点框进行打分，并回归其位置。分类层会对每个锚点框输出2个得分，一个得分是当前锚点框包含目标而不是背景的得分，另一个得分是当前锚点是背景而不含目标的得分，对于k个锚点框，总共会输出2k个分类得分。回归层会对每个锚点框输出4个偏移量，总共会输出4k个偏移量，然后根据这些偏移量就能够得到网络实际预测的建议框的坐标信息。

接着，还需要网络对输出的建议框做进一步的处理，判断其包含目标的类别。Faster R-CNN将所得到的这些候选框映射回原来的特征图上，得到包含感兴趣区域的特征图，因为这些感兴趣区域的尺寸大小不一，不能够直接输入到网络中进行分类与回归，因此，Faster R-CNN使用了RoI池化层来将这些感兴趣区域转化为固定尺寸的特征图，然后将这些固定尺寸的特征图输入到后续网络中进行分类与回归，输出目标的位置信息以及类别得分。

最后，要经过目标检测的最后一个组件非极大值抑制，对于一个目标，其周围可能产生多个置信度较高的检测框，这些检测框的位置比较接近且置信度都大于提前设定的阈值，那么我们便需要剔除多余的检测框，只保留最佳的检测框，基于此Faster R-CNN提出了NMS算法来去除这些冗余的检测框。但当目标重叠或目标被相邻目标遮挡时会造成两个预测框的重叠面积过大，非极大抑制将会保留其中一个置信度较大的预测框，从而造成漏检。

本发明针对这一问题提出一种基于Soft NMS算法改进的NMS算法来优化负样本的剔除，这也是本发明的核心内容，其表达式为：

在式中，s_i表示当前所属类别的置信度得分，M表示最高的置信度分数所对应的目标框，b_i表示当前目标框，IoU(M,b_i)表示M和b_i两者的交并比，N_t为阈值，并将原本的线性加权函数f(x)＝1-x更换为加权函数f(x)＝(1-x)²，x为函数自变量。

NMS算法是一种贪婪算法，会删掉所有大于阈值的框，得分最高的框集合即为最后的结果集合。将置信度最高的检测框表示为M，此时计算目标周围的其他框与M的交并比，提前设置一个交并比的阈值，如果交并比小于设定的阈值，那么当前的预测框的置信度不变，如果交并比大于或等于设定的阈值，那么就给当前的预测框赋予一个权重，当交并比越高，衰减越快，Soft NMS使用线性加权函数f(x)＝1-x进行衰减，与传统的NMS相比，它将一个与M高度重叠的检测框b_i的检测分数进行衰减得以进行下一轮比较，但却不能全部抑制，所以对本发明的小目标检测并没有太大的效果。

针对Soft NMS算法只是挑选一些目标候选框抑制或者丢弃，出发点只是考虑到同一个待检测目标周围又很多框的情况，并未考虑到多个距离较近的检测目标，即交并比过高但标定的并不是同一个目标的情况，本发明提出以上算法来优化目标提取，与线性加权相比，新提出的加权函数更具有相对连续性，惩罚力度也较为平滑，有效的降低了食材的误检；同时与soft NMS的另一种高斯加权相比，新提出的算法维持自身的惩罚强度的能力较强，而惩罚系数越高，对应边框的得分越小，有效降低了食材目标漏检的发生；当相邻检测框与M的重叠度超过交并比阈值N_t后，检测框的检测分数单调递减，与M相邻很近的检测框衰减程度很大，而M的检测框得分基本不变，所以改进后的算法增加了对目标检测框的提取准确度。

如下步骤为改进算法的工作流程：

(1)首先将所有目标框按得分排序，认为当前得分最高的目标框M包含目标；

(2)计算剩余目标框与M的交并比，当目标框与M的交并比小于N_t，认为当前目标框与M代表着两个不同的目标，保持原来得分；

(3)当目标框与M的交并大于N_t时，则认为当前目标框和M可能是包含两个不同的目标，也可能是和M代表同一个目标，因此采用权值惩罚策略(1-IoU(M,b_i))²，它将得分降低且保留目标框，参加下一轮筛选；

(4)移动当前M至结果目标框集合内，剩余目标框组成新的集合，重复步骤(1)-(3)，直到目标框集合为空，结束筛选，输出结果。

经过特征融合之后的网络训练过程中的损失是由分类损失和回归损失按一定比重组成的：

其中，i表示第i个建议框，p_i表示第i个建议框的预测类别，

表示目标的真实类别， t_i表示第i个建议框的位置信息，

表示目标的真实位置信息，分类层和回归层的输出是由 N_cls和N_reg归一化的，其中N_cls是由网络训练中的最小batch决定的，N_reg是由锚窗数量决定的。

分类损失函数为：

回归损失函数为：

其中R是smoothL1损失，其损失函数定义为：

图4为改进的基于特征融合NMS算法的总体网络结构图，首先经过多层特征融合之后的网络框架后进行训练，然后经过区域建议网络以及RoI池化操作后输入到分类网络中，同时通过边框回归来对候选框的位置进行修正从而得到预测框的类别得分以及位置信息，最后通过改进的非极大抑制性算法进行检测框的筛选得到最优解；

与原始的Faster R-CNN算法只是在特征提取网络的最后一个特征图上进行预测相比，本发明的算法利用逆卷积操作将高层特征图与低层特征图相融合，增加了网络中低层特征图的特征提取能力，大大丰富前几层的语义信息，最终生成具有高分辨率高语义信息的单个高级特征图，并在其上进行预测。这一特性使本发明所提的算法与现有的FasterR-CNN 相比能更有效地检测出图像中的小目标；

同时，原始的NMS算法单目标检测效果较好而多目标检测结果较差，容易在剔除部分冗余框的同时也将部分正样本的包围框删减从而造成漏检。与原始NMS算法相比，本发明的NMS算法考虑到多个距离较近的检测目标，即交并比过高但标定的并不是同一个目标的情况，在原来的基础上引入新的加权函数(1-IoU(M,b_i))²，它比线性加权函数更加平滑，也比高斯加权函数惩罚系数更高，对于负样本的剔除更加精准。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种优化小目标和改善漏检问题的食材图像检测方法，其特征在于，包括：

S1、将采集的食材图片输入特征提取网络，得到特征图；

S2、采用区域建议网络在特征图上生成锚点框；

2.根据权利要求1所述的一种优化小目标和改善漏检问题的食材图像检测方法，其特征在于，步骤S1所述特征提取网络采用反卷积操作将低分辨率的特征图上采样到更高分辨率的特征图上进行融合。

3.根据权利要求2所述的一种优化小目标和改善漏检问题的食材图像检测方法，其特征在于，步骤S2具体为：以特征图上的每个特征点位中心，同时设置k个锚点框。

4.根据权利要求3所述的一种优化小目标和改善漏检问题的食材图像检测方法，其特征在于，步骤S4所述改进的非极大值抑制算法包括以下分步骤：

5.根据权利要求4所述的一种优化小目标和改善漏检问题的食材图像检测方法，其特征在于，步骤A1所述目标框得分具体为当前目标框中目标所属类别的置信度得分。

6.根据权利要求5所述的一种优化小目标和改善漏检问题的食材图像检测方法，其特征在于，步骤A4所述将该目标框得分降低的计算式为：s_i′＝s_i×(1-IoU(M,b_i))²，其中，s_i′表示降低后的得分，s_i表示该目标框原来得分，IoU(M,b_i)表示M与当前目标框b_i两者的交并比，N_t为阈值。