CN113762166A

CN113762166A - 一种基于可穿戴式装备的小目标检测改善方法及系统

Info

Publication number: CN113762166A
Application number: CN202111055754.3A
Authority: CN
Inventors: 马尚; 李云龙; 程德强; 寇旗旗; 吕晨; 张皓翔
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-07

Abstract

一种基于可穿戴式装备的小目标检测改善方法及系统，提出的可穿戴式的小目标检测装备，简便易携，可以迅速准确的检测出对象目标；改进了SSD网络结构，将空洞卷积空间金字塔模块和特征金字塔融合模块加入到SSD结构中，考虑到上下文的语义信息、位置信息，更加准确的检测目标；将视觉推理模型引入到基于SSD的小目标检测中，可以改善SSD类算法识别准确较低的问题。

Description

一种基于可穿戴式装备的小目标检测改善方法及系统

技术领域

本发明属于穿戴设备领域以及图像处理领域，具体涉及一种基于可穿戴式装备的小目标检测改善方法及系统。

背景技术

随着可穿戴电子设备的快速发展，智能眼镜、智能手环及智能头盔等智能化产品的研发设计成为了热点话题。这些产品在公共安全、金融、日常生活等领域都有着巨大的应用价值。智能头盔作为一类典型的可穿戴设备，它是随着科学技术发展的产物。早在上世纪末，可穿戴智能设备的概念就已经被许多研究者提出来了，并且设计出外观结构和相关的功能，但是由于当时的技术落后。所以其外观和功能都无法满足人们的实际需要，导致可穿戴智能设备产品得不到市场的认可，销量特别的低。近年来，可穿戴电子设备随着科学技术的发展迎来了一个全新的发展时代。在国外，谷歌公司2012年4月发布的谷歌眼镜最具有代表性，其谷歌眼镜的发布掀起了穿戴计算的新浪潮。谷歌推出Google glass将其应用市场定义的更加广泛，涉及到户外运动、3D游戏、医疗教学等领域。而小目标检测是计算机视觉中不可缺少且具有挑战性的问题，因此研究可穿戴装备对于小目标进行检测具有重要意义。

小目标(小于图像区域的1％)是一种涉及图像理解和计算机视觉的基础计算机技术，主要处理数字图像和视频中某一类小目标的检测实例。近年来，深度学习技术的巨大成功为小目标检测注入了新鲜血液，使其成为研究热点。早期关于小目标检测的研究大多是利用航空图像中的手工工程特征和浅分类器来检测车辆。在深度学习盛行之前，基于颜色和形状的特征也被用于解决交通标志检测问题。随着卷积神经网络(CNNs)在深度学习领域的快速发展，一些基于深度学习的小目标检测方法如雨后春笋般涌现。在第一个引出小目标检测(SOD)数据集的评估指标后，研究人员又在这种思想上提出了一种有效的基于向上采样的技术，在小目标检测上表现得更好。研究人员而后在遥感图像上使用R-CNN去卷积的方法进行小目标检测。此外，多尺度技术、数据增强技术、训练策略、上下文信息和生成对抗网络也被用于检测小目标。

目前现有技术中存在的缺陷在于：1.目标检测很大程度上受环境因素的影响，特别是周围的目标，可穿戴设备在复杂环境下的检测准确率低。2.仅仅依靠对象自身的特征来判断其类别是不准确的，特别是当对象的特征不明显，或者对象太小的时候。3.基于R-CNN系的算法准确度高，但是速度慢；SSD类算法速度快，但是准确率却要低一些。

发明内容

本发明针对上述现有技术存在的缺陷，提出一种基于可穿戴式装备的小目标检测改善方法及系统，基于SSD算法，采用可穿戴式的智能头盔设备，可充分感知复杂环境下的目标图像，对目标进行检测分类；改进SSD网络结构，生成新的空洞卷积空间金字塔模块和特征金字塔融合模块，丰富特征层的位置信息、语义信息；引入视觉推理模块，将视觉推理加入到训练的目标函数中，记录了物体与物体之间的关系。

一种基于可穿戴式装备的小目标检测改善方法及系统，所述系统基于可穿戴智能头盔，主要由嵌入式计算单元和通信终端两部分组成，嵌入式计算单元由可见光感知模块、图像预处理模块，目标检测与识别模块以及AR眼镜显示模块组成；

目标检测与识别模块基于SSD框架，使用改进的SSD网络模型并添加视觉推理模块；

所述系统的实现方法的流程为，输入一幅图片到预训练好的分类网络中来获得不同大小的特征映射，该分类网络采用改进的VGG16网络；

抽取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Pool11层的特征图，分别在这些特征图上面的每一个点构造6个不同尺度大小的默认框，然后分别进行检测和分类，生成多个初步符合条件的默认框；

将不同特征图获得的默认框结合起来，经过非极大值抑制方法NMS来抑制掉重叠或者不正确的默认框，再通过视频推理模块处理，生成最终的默认框集合，即检测结果。

进一步地，可见光图像感知模块为小型摄像头，负责视频图像的收集。

进一步地，图像预处理模块使用图像处理核心板，对视频图像进行预处理包括灰度化，降噪。

进一步地，改进的VGG16网络中，包括空洞卷积空间金字塔模块、特征金字塔融合模块1和特征金字塔融合模块2；

空洞卷积空间金字塔模块将Conv4_3特征层经过不同扩张率的空洞卷积进行融合，构造出与人眼视点图类似的感受野；空洞卷积的扩张率分别选用1，3，5，对三个分支的特征层串联融合；首先在每个分支中采用1×1卷积层组成的瓶颈结构，以减少加上n×n卷积层后特征图的通道数；其次采用两个堆叠的3×3卷积层，并使用一个1×3和一个3×1的卷积层，最终生成新的特征层Conv4_3′。

进一步地，特征金字塔融合模块1对深层特征中的全局语义信息和位置信息进行特征融合，对三个特征层建立自上而下的横向链接，通过反卷积对深层特征信息进行融合构造；同时通过1×1卷积整合不同维度信息，减少反卷积之后的通道数；生成新的特征层的表达式为：

X_module1＝F(F(X_Pool11)+X_{Conv10_2})+X_{Conv9_2}

式中，X_Pool11、X_{Conv10_2}分别为Pool11、Conv10_2的特征层；X_{Conv9_2}为Conv9_2的特征层；F为通过反卷积、1×1卷积层、归一化层和激活层的总函数，其中反卷积层和1×1卷积层共享参数。

进一步地，特征金字塔融合模块2用于丰富Conv8_2特征层的位置信息、语义信息，将特征金字塔融合模块1中新生成的层与Conv8_2特征层进行融合；同时引入LSTM的门控思想，对输出的特征图进行筛选。

进一步地，特征金字塔融合模块2将特征金字塔融合模块1的特征层经过反卷积、卷积、批标准化、激活层后与Conv8_2层的特征层通过Sigmoid函数进行特征融合，将融合后的特征层与Conv8_2比较，选择数组较大的组合作为新的特征层Conv8_2′。

进一步地，视觉推理模块中，设有一些对象O＝{O₁,O₂,......O_K}在给定的图像I中，K为给定对象的最大数量，设定目标是检测图像中的所有对象，则得到模型目标函数如下：

其中M是最大化对数概率L的模型，O_1：k代表[O₁,O₂,......O_K]；为了利用对象之间的关系，对上式进行等价变换：

在上式的启发下，将视觉推理添加到目标函数中，近似变为:

S为视觉推理模型，记录了物体之间的关系；分别对M和S进行训练，M为SSD框架网络进行训练的检测模型；

设计可视化推理模型，假设有n个对象类别，在这种情况下，建立一个对称的关系矩阵：

E＝(e₁,e₂,...,e_n)∈R^n×n

元素e_ij表示类别i和类别j之间的关系，由下式得到:

其中，N为训练样本个数，d_ij为两个对象的中心距离，T为控制感兴趣区域的设置阈值；建立关系矩阵后，使用它来辅助模型检测对象。

进一步地，利用关系矩阵来辅助检测模型的步骤为，首先，通过改进的SSD网络结构检测一幅图像中所有具有置信度值的目标，置信度高于0.6的被检测对象被视为可靠的检测结果；然后利用这些可靠的检测结果来重新评估置信度值从0.4到0.6的不太可靠的检测结果；对于不太可靠的检测结果，置信度值将更新如下：

其中s_i(x)属于类别i的被检测对象x的置信度值；

和

表示e的k_i(x)和e的-k_i(x)次方；D是对象x周围的一组可靠对象，k是检测模型和视觉推理模型之间的权衡参数，λ是检测模型和视觉推理模型之间的权衡参数；函数C返回e_ij＝0的次数；物体的最终置信度值不仅取决于其自身的特征，还取决于周围的物体；k_i表示该对象属于i类的可能性；如果大于0，则该对象的置信度值将增加，否则将减少。

进一步地，AR眼镜显示模块采用光波导技术，将处理好的视频图像传输到AR眼镜显示模块进行显示。

本发明达到的有益效果为：

(1)本发明提出的可穿戴式的小目标检测装备，简便易携，可以迅速准确的检测出对象目标。

(2)改进了SSD网络结构，将空洞卷积空间金字塔模块和特征金字塔融合模块加入到SSD结构中，考虑到上下文的语义信息、位置信息，更加准确的检测目标。

(3)将视觉推理模型引入到基于SSD的小目标检测中，可以改善SSD类算法识别准确较低的问题。

附图说明

图1为本发明实施例中所述的可穿戴头盔整体结构示意图。

图2为本发明实施例中所述的改进的SSD网络流程图。

图3为本发明实施例中所述的改进的SSD网络结构示意图。

图4为本发明实施例中所述的空洞卷积空间金字塔结构示意图。

图5为本发明实施例中所述的特征金字塔融合模块1结构示意图。

图6为本发明实施例中所述的特征金字塔融合模块2结构示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明设计的可穿戴头盔整体结构如图1所示。可穿戴智能头盔主要由嵌入式计算单元和通信终端两部分组成，嵌入式计算单元又由可见光感知模块、图像预处理模块，目标检测与识别模块以及AR眼镜显示模块组成。

可见光图像感知模块为小型摄像头，负责视频图像的收集。

图像预处理模块使用图像处理核心板，主要负责对视频图像进行灰度化，降噪等处理，再利用改进的SSD网络进行目标检测识别。

目标检测与识别模块中：

现有的检测器仅通过对象的特征来确定对象的类别。然而，仅仅依靠对象自身的特征来判断其类别是不准确的，在确定不明确的对象的类别时，应该考虑对象之间的关系。当判断一个看不清楚的物体的类别时，很自然地通过观察现场和周围的物体来帮助做出判断。例如，当探测到道路上的物体时，很容易识别道路本身、车辆和树木，然而，由于缺乏可用的特征，很容易在另一辆车中发现或识别错人。因此可以利用检测到的目标具有较高的置信度来帮助确定模糊的小目标。

本发明基于SSD框架，改进了SSD网络模型并添加了新的模块：视觉推理。流程图如图2所示，给出了SSD网络预测过程的基本步骤：

1.输入一幅图片(300x300)，将其输入到预训练好的分类网络(改进的传统的VGG16网络)中来获得不同大小的特征映射；

2.抽取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Pool11层的特征图，然后分别在这些特征图层上面的每一个点构造6个不同尺度大小的默认框。然后分别进行检测和分类，生成多个初步符合条件的默认框；

3.将不同特征图获得的默认框结合起来，经过NMS(非极大值抑制)方法来抑制掉一部分重叠或者不正确的默认框，生成最终的默认框集合(即检测结果)。

其中NMS的步骤如下：

1.对候选框按置信度排序，选取置信度最高的候选框；

2.对剩下的候选框和已经选取的候选框计算IOU，淘汰IOU大于设定阈值(一般为0-0.5)的候选框；

3.重复上述两个步骤，直到所有的候选框都被处理完，这时候每一轮选取的候选框就是最后结果。

改进的SSD网络：卷积神经网络中浅层特征层包含大量细节信息，但SSD算法基础网络的浅层特征层对应的感受野大小仅为92×92，并不能覆盖全图的感受野，包含的语义信息和特征信息不丰富，造成大量小目标漏检、错检。改进的SSD网络结构如图3所示：

基础网络输出的浅层特征图通过构建的空洞卷积空间金字塔模块扩大感受野，Conv9_2、Conv10_2、Pool11三个特征层所对应的感受野覆盖全图，分别为356×356、485×485、612×612，而Conv7、Conv8_2两个特征层的感受野大小为260×260、292×292，因此融合Conv9_2、Conv10_2、Pool11三个特征层中丰富的位置信息、语义信息增加细粒度信息生成新的特征层Conv7′、Conv8_2′。附加网络中的五特征层通过建立的特征金字塔融合模块提升细粒度信息，利用上下文信息对目标进行分类回归。

空洞卷积空间金字塔模块：将基础网络输出的Conv4_3特征层经过不同扩张率的空洞卷积进行融合，构造出与人眼视点图类似的感受野，既增加了特征层对应的感受野大小，又突出强调特征层中的重要特征信息。本发明设计的空洞卷积金字塔模块结构图如图4所示。空洞卷积的扩张率分别选用1，3，5，对三个分支的特征层串联融合。首先在每个分支中采用1×1卷积层组成的瓶颈结构，以减少加上n×n卷积层后特征图的通道数。其次，为加深结构的非线性，减少参数和计算量，采用两个堆叠的3×3卷积层代替5×5的卷积层，并使用一个1×3和一个3×1的卷积层来代替原始的3×3的卷积层，最终生成新的特征层Conv4_3′。

特征金字塔融合模块1主要是对深层特征中的全局语义信息和位置信息进行特征融合，借鉴特征金字塔的融合思想，对三个特征层建立自上而下的横向链接，通过反卷积对深层特征信息进行融合构造。同时，通过1×1卷积整合不同维度信息，减少反卷积之后的通道数，增加网络结构的非线性和特征层的表征能力。如图5所示，生成新的特征层的表达式为：

X_module1＝F(F(X_Pool11)+X_{Conv10_2})+X_{Conv9_2}

式中，X_Pool11、X_{Conv10_2}分别为Pool11、Conv10_2的特征层；X_{Conv9_2}为Conv9_2的特征层；F为通过反卷积、1×1卷积层、归一化层和激活层的总函数，其中反卷积层和1×1卷积层共享参数，减少计算量。

特征金字塔融合模块2中为丰富Conv8_2特征层的位置信息、语义信息等，将模块一中新生成的层与Conv8_2特征层进行融合。同时，由于Conv7和Conv8_2两个特征层尺寸相对较大，反卷积易受噪声干扰，因此引入LSTM的门控思想，对输出的特征图进行筛选。模块二如图6所示。将模块1的特征层经过反卷积、卷积、批标准化、激活层后与Conv8_2层的特征层通过Sigmoid函数进行特征融合，将融合后的特征层与Conv8_2比较，为选择更有代表性的特征层，选择数组较大的组合作为新的特征层Conv8_2′。

视觉推理模块：假设有一些对象O＝{O₁,O₂,......O_K}在给定的图像I中，K为给定对象的最大数量，目标是检测图像中的所有对象，那么训练a的模型目标函数如下：

其中M是最大化对数概率L的模型，O_1：K代表[O₁,O₂,......O_K]。为了利用对象之间的关系，对上式进行等价变换：

在上式的启发下，将视觉推理添加到目标函数中，近似变为:

S是视觉推理模型，它记录了物体之间的关系。本发明分别对M和S进行训练，M为SSD框架网络进行训练的检测模型。

基于以上考虑，设计了可视化推理模型。假设有n个对象类别，在这种情况下，可以建立一个对称的关系矩阵：

E＝(e₁,e₂,...,e_n)∈R^n×n

元素e_ij表示类别i和类别j之间的关系，由下式得到:

其中，N为训练样本个数，d_ij为两个对象的中心距离，T为控制感兴趣区域的设置阈值。建立关系矩阵后，可以使用它来帮助模型检测对象。

接下来利用这些关系来辅助检测模型。首先，通过改进的SSD算法检测一幅图像中所有具有置信度值的目标。置信度高于0.6的被检测对象被视为可靠的检测结果。下一步利用这些可靠的检测结果来重新评估置信度值从0.4到0.6的不太可靠的检测结果。对于不太可靠的检测结果，置信度值将更新如下：

其中s_i(x)属于类别i的被检测对象x的置信度值，

和

表示e的k_i(x)和e的-k_i(x)次方；D是对象x周围的一组可靠对象。k是检测模型和视觉推理模型之间的权衡参数。λ是检测模型和视觉推理模型之间的权衡参数。函数C返回e_ij＝0的次数。物体的最终置信度值不仅取决于其自身的特征，还取决于周围的物体。k_i表示该对象属于i类的可能性。如果大于0，则该对象的置信度值将增加，否则将减少。这样就可以处理一个小的、有小特征的物体。本发明提出的视觉推理方法通过充分利用物体周围的信息来帮助对那些不太可靠的检测结果做出第二次判断。这样就有可能检测出特征不太明显的物体。

AR眼镜显示模块采用光波导技术，将处理好的视频图像传输到AR眼镜显示模块。AR眼镜显示模块采用虚实融合功能。虚实融合技术通常是将虚拟物体“嵌入”到图像中而不是利用穿透式显示方式和人眼观测到的真实世界融合在一起。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：

所述系统基于可穿戴智能头盔，主要由嵌入式计算单元和通信终端两部分组成，嵌入式计算单元由可见光感知模块、图像预处理模块，目标检测与识别模块以及AR眼镜显示模块组成；

2.根据权利要求1所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：可见光图像感知模块为小型摄像头，负责视频图像的收集。

3.根据权利要求1所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：图像预处理模块使用图像处理核心板，对视频图像进行预处理包括灰度化，降噪。

4.根据权利要求1所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：改进的VGG16网络中，包括空洞卷积空间金字塔模块、特征金字塔融合模块1和特征金字塔融合模块2；

5.根据权利要求4所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：特征金字塔融合模块1对深层特征中的全局语义信息和位置信息进行特征融合，对三个特征层建立自上而下的横向链接，通过反卷积对深层特征信息进行融合构造；同时通过1×1卷积整合不同维度信息，减少反卷积之后的通道数；生成新的特征层的表达式为：

X_module1＝F(F(X_Pool11)+X_{Conv10_2})+X_{Conv9_2}

6.根据权利要求4所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：特征金字塔融合模块2用于丰富Conv8_2特征层的位置信息、语义信息，将特征金字塔融合模块1中新生成的层与Conv8_2特征层进行融合；同时引入LSTM的门控思想，对输出的特征图进行筛选。

7.根据权利要求6所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：特征金字塔融合模块2将特征金字塔融合模块1的特征层经过反卷积、卷积、批标准化、激活层后与Conv8_2层的特征层通过Sigmoid函数进行特征融合，将融合后的特征层与Conv8_2比较，选择数组较大的组合作为新的特征层Conv8_2′。

8.根据权利要求1所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：视觉推理模块中，设有一些对象O＝{O₁,O₂,......O_K}在给定的图像I中，K为给定对象的最大数量，设定目标是检测图像中的所有对象，则得到模型目标函数如下：

在上式的启发下，将视觉推理添加到目标函数中，近似变为:

E＝(e₁,e₂,...,e_n)∈R^n×n

元素e_ij表示类别i和类别j之间的关系，由下式得到:

9.根据权利要求8所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：利用关系矩阵来辅助检测模型的步骤为，首先，通过改进的SSD网络结构检测一幅图像中所有具有置信度值的目标，置信度高于0.6的被检测对象被视为可靠的检测结果；然后利用这些可靠的检测结果来重新评估置信度值从0.4到0.6的不太可靠的检测结果；对于不太可靠的检测结果，置信度值将更新如下：

其中s_i(x)属于类别i的被检测对象x的置信度值；

和

10.根据权利要求1所述的一种基于可穿戴式装备的小目标检测改善方法及系统，其特征在于：AR眼镜显示模块采用光波导技术，将处理好的视频图像传输到AR眼镜显示模块进行显示。