CN116206123A

CN116206123A - 基于多表征特征提取法进行目标检测的方法

Info

Publication number: CN116206123A
Application number: CN202211273861.8A
Authority: CN
Inventors: 朱佳梅; 任洪娥; 薛龄季轩; 孙毅; 张健沛
Original assignee: HARBIN INSTITUTE OF PETROLEUM
Current assignee: HARBIN INSTITUTE OF PETROLEUM
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-06-02

Abstract

基于多表征特征提取法进行目标检测的方法，属于目标检测算法领域。现有的目标检测方法不能完全发挥混合特征的多表征优势，候选区域生成算法耗费大量计算资源，严重影响目标检测的实时性。基于多表征特征提取法进行目标检测的方法，基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征，生成包含完备表征信息的特征图；区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域；待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量，并用来计算目标类型概率和目标边界框回归参数；目标检测。实现在不同场景下目标检测任务，并达到精准的效果。

Description

基于多表征特征提取法进行目标检测的方法

技术领域

本发明涉及一种目标检测方法，特别涉及一种基于多表征特征提取法进行目标检测的方法。

背景技术

图像的空间域信息常被用于进行各项计算机视觉任务，如图像分类、图像分割和目标检测等。在目标检测算法中，单纯通过空间域信息用于提取图像特征，会因空间信息受光线、遮挡等问题使目标检测产生精度损失。目标检测算法涉及的深度学习模型在训练过程中通常批量输入多个样本，并通过GPU实现并行运算提高训练速度。数据集中经常出现尺度大小不相等的样本，这导致无法使用批量训练。

现有图像的频域信息特征提取的技术中，由于传统深度神经网络的运算算子都是实值的，因此目前性能良好的深度神经网络算法架构不能直接应用于图像频域空间信息。

所以考虑将空间域信息和频域信息融合作为提取的特征。但直接通过空间域和频域信息生成的融合特征表示空间维度低，以至于并不能完全发挥混合特征的多表征优势。

另外，在目标检测过程涉及的候选区域生成算法，现有采用滑动窗口和选择搜索等方法生成目标边界框。但是，这类方法耗费大量的计算资源，严重影响目标检测的实时性。

本申请针对空间域信息和频域信息特征融合方法、候选区域生成算法进行改进，并对目标检测的方法从整体上重新进行设计，以提高目标检测精度。

发明内容

本发明的目的是为了解决现有的目标检测方法不能完全发挥混合特征的多表征优势的问题，以及候选区域生成算法过程中，一个窗口只能预测一个目标，并且耗费大量的计算资源，严重影响目标检测的实时性的问题，而提出基于多表征特征提取法进行目标检测的方法。

上述目的通过以下的技术方案实现：

基于多表征特征提取法进行目标检测的方法，所述方法通过以下步骤实现：

步骤一、视频或图像被输入到基于多表征特征提取的骨干网络，基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征，生成包含完备表征信息的特征图；包括：

步骤一一、数据预处理的步骤：

将数据集中的样本通过数据预转换为标准的输入格式；

步骤一二、空间域信息特征提取的步骤：

设经过标准化处理后的图像映射为空间域信息I_s(x，y)，并直接输入到空间域子网，得到空间域特征图F_s；

步骤一三、频域信息特征提取的步骤：

采用快速傅里叶变换将标准化后的图像从空间域转换为频域信息I_f(u，v)；其中，经过傅里叶变换的频域信息与空间域信息之间的映射关系为：

其中，M和N代表输入图像的长度和宽度；

之后，图像的频域信息I_f(u，v)输入至频域子网，提取不同频段的特征，得到频域特征图F_f；

至此，经过数据预处理之后的图像信息分别输入空间信息特征提取分支和频域信息特征提取分支并完成特征提取；

步骤一四、采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图；

步骤二、区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域；

步骤三、待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量，并用来计算目标类型概率和目标边界框回归参数，完成图像/视频的目标检测。

进一步地，步骤一一所述的数据预处理的步骤中，将数据集中的样本通过数据预转换为标准的输入格式的过程包括数据样本采样、数据标准化和样本尺度调整部分，具体为：

(i)所述的数据样本采样部分是将数据集中的样本被统一为图像的形式：

若样本为图像类型，则直接使用图像格式作为模型的输入，若样本为视频类型，则用间隔采样方法获得图像帧样本，将采样到的图像帧作为模型的输入；

(ii)所述的数据标准化部分：

数据集中的样本统一为图像的形式之后，采用下式对图像进行标准化操作，使数据分布均匀化；

其中，I_norm表示标准化之后的图像的矩阵，I表示原图像的矩阵，mean表示图像的均值，std表示图像的方差；设置mean＝(0.485，0.456，0.406)，std＝(0.229，0.224，0.225)；

(iii)样本尺度调整部分：

在给定的N个样本中找到尺度最大的一个样本，记录其宽和高；

创建值全为0并且形状和最大的样本形状相同的张量，将该张量复制N份并在维度0上进行连接操作；

遍历所有样本复制到新生成的张量，并对齐左上角保证坐标不变。

进一步地，步骤一二所述的空间域信息特征提取的步骤中，将经过标准化处理后的图像映射为空间域信息I_s(x，y)，并直接输入到空间域子网，得到空间域特征图F_s的过程作为在空间域信息特征提取分支，其具体为：

空间域子网采用类自动编码器的主体结构，并设计编码器部分由2层卷积核为3×3，步长为1卷积神经网络和单层卷积核为3×3，步长为2的卷积神经网络组成；图像的空间域信息被馈送到编码器，生成包含空间语义信息的特征图；

在解码器部分，包含空间语义信息的特征图依次通过单层卷积核为4×4、步长为2的反卷积层和2层卷积核为3×3、步长为1卷积层，输出包含原图像空间抽象信息并且恢复到原始图像尺度的特征图；

在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块，用于捕捉不同感受野下图像的特征信息；空洞卷积块设计感受野的采样方式，其中，一维空洞卷积定义为：

式中，s表示卷积核的大小，r表示扩张率，i表示采样位置，w[i]和o[i]分别表示第i个位置的卷积核和计算后得到的特征值；

编码器和解码器之间的6层空洞卷积块的扩张率拟设定为(2，2，2，4，4，4)，每层空洞卷积块包含两层具有相同扩张率的空洞卷积；在不同扩张率的空洞卷积块之后加入残差连接，用于聚合不同感受野下的多尺度信息；空间域子网图像的数据流动形式化为：

F_s＝Decoder(ResDilated(Encoder(I_s(x，y)))) (4)

式中，Encoder和Dncoder分别表示上述的编码器和解码器，ResDilated表示6层具有残差连接的空洞卷积块，I_s(x，y)和F_s表示输入的空间域图像和输出的空间特征。

进一步地，步骤一三所述的频域信息特征提取的步骤具体为：

第一、设计频域子网的结构：

频域子网采用类U-Net的结构，使用复数卷积层代替传统卷积层，并使用CReLU作为激活函数；其中，

所述的复数卷积用于解决传统卷积算子不能进行复值运算的问题，具体地：复数卷积通过两个不同的实值卷积组合实现对复数等同传统卷积的操作，其中实值卷积的滤波器的参数是共享的；设给定一个复数h＝x+y和复数卷积滤波器W＝A+Bi，式中，x和y分别表示实数分量和虚数分量，A和B为两个不同的传统卷积算子；复数h和复数滤波器W的卷积运算表示为：

W*h＝(A*x-B*y)+i(B*x-A*y) (5)

式中，*表示常规的实数卷积运算；

所述的CReLU是为复值设计的激活函数，对神经元的实部和虚部分别应用单独的ReLU激活函数，其定义如下：

CReLU(z)＝ReLU(R(z))+iReLU(I(z)) (6)

式中，z是复数，R(z)和I(z)分别表示复数的实部和虚；

第二、获得特征图；

首先，设计特征提取方法：

图像的频域信息I_f(u，v)通过单层卷积核为3×3、步长为1的复数卷积将特征图的通道数映射到32维；然后输出的特征图依次经过两层卷积核为3×3、步长为1的复数卷积提取深度特征；最后，使用2×2最大池化将特征图尺度缩小为原尺度的二分之一，并输入到下一阶段进行深度特征提取；

之后，循环执行三次如下操作：

在接下来的每一阶段中，上一阶段输出的特征图被输入单层卷积核为3×3、步长为1的卷积操作，扩展其通道数到之前的二倍，然后使用两层卷积核为3×3、步长为1的复数卷积来编码深度特征，最后通过2×2最大池化将特征图尺度缩小为原图像的二分之一，并输出到下一阶段，每个阶段的数据流动如下：

stage_i+1＝Maxpool(σ(stage_i)) (7)

式中，stage_i和stage_i+1分别为第i阶段的输入和输出特征，Maxpool表示2×2最大池化，σ代表了上述的三层卷积操作；

循环执行三次操作后，频域子网得到三个不同阶段输出的特征图stage₁，stage₂和stage₃；之后，stage₃通过2×2最大池化和两层卷积核为3×3、步长为1的复数卷积得到通道数为256的特征图，该特征图通过缩放因子为2的上采样操作生成通道数为128的特征图U₃；

第三、进行拼接操作，生成新的特征图：

首先，基于stage₃和U₃具有相同的通道数和尺度大小的基础，频域子网中将特征图stage₃和U₃在通道维度进行拼接操作，生成通道数为256、尺度到为原始图像四分之一大小的特征图；然后，生成的特征图通过两层卷积核为3×3、步长为1的复数卷积降低通道数到原通道的四分之一，并通过缩放因子为2的上采样操作扩大尺度信息，生成新的特征图U₃；

之后，重复上述操作直至特征图尺度恢复到输入频域子网的尺度大小；其中，每一阶段的数据流动如下：

U_i-1＝Up(σ(cat(stage_i，U_i))) (8)

式中，U_i-1和U_i分别表示第i阶段的输出和输入，cat为拼接操作，U_p代表缩放因子为2的上采样过程；经过三阶段的上述操作得到通道数为32的特征图，将其输入到卷积核为1的复数卷积深度混合各频段分量特征并生成通道数为3的频域特征图；

第四、通过逆傅里叶变换将特征图映射到空间域。

进一步地，步骤一四所述的采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图，具体为：

空间域分支输出的特征图F_s和频域分支输出的F_f在通道维度进行拼接，之后，输入到两层卷积核为3×3、步长为1的传统卷积层生成不同像素的权重矩阵；之后，将计算生成的权重矩阵平均切分为两个通道数为3的权重矩阵，分别与对应特征图F_s和F_f的相乘，生成融合空间域和频域信息的多表征特征图，其数据流动如下：

weight＝Sigmoid(σ(cat(F_f，F_s))) (9)

F_hid＝cat(weight[0]×F_f，weight[1]×F_s) (10)

式中，σ(·)代表卷积神经网络，Sigmoid为激活函数，cat表示在通道维度的拼接操作；采用改造之后的EfficientNetB0生成多表征特征图F，并用于后续的感兴趣区域生成算法和目标预测算法；其中，

所述的改造之后的EfficientNetB0为：

将EfficientNetB0第一阶段的卷积模块的输入通道修改为6，同时在特征预测阶段保留前六个阶段作为特征提取器。

进一步地，步骤二所述的区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域的过程为：

首先，设计所述的候选区域包括区域建议网络部分和先验框生成部分；且仅令区域建议网络部分包含被训练的神经网络参数；

之后，使用滑动窗口在图像的每个像素点上生成K个不同尺度和不同长宽比的先验框，通过与目标真实标签比较，将先验框划分为正样本或负样本；

之后，训练区域建议网络的回归器，并利用训练后的区域建议网络预测每个先验框的目标概率和边界框偏移参数。

进一步地，步骤三所述的待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量具体为：

根据候选区域的目标概率分数，采用弹性极大值抑制(Soft-NMS)算法对候选区域采样；之后，采用RoIpooling对具有不同尺度大小的候选区域进行特征提取，候选区域映射为7×7大小的特征图。

本发明的有益效果为：

1、本发明算法重新设计特征提取的骨干网络，发掘图像/视频在不同表示空间下的特征，生成更加健壮的特征图并用于目标检测任务。具体地：

对于目标检测数据预处理的步骤：

首先，对图像进行标准化操作，使数据分布均匀化，减少模型学习数据分布的可能性，提升模型的泛化能力。

又有，针对深度学习模型训练过程中不能批量输入不同尺度的样本的问题，本申请通过设计具体的样本尺度调整方法，在给定的N个样本中找到尺度最大的一个样本，记录其宽和高；创建值全为0并且形状和最大的样本形状相同的张量，将该张量复制N份并在维度0上进行连接操作，如果计算资源有限，设定生成张量的形状为最大样本的整数倍；遍历所有样本复制到新生成的张量，并对齐左上角保证坐标不变，对于采用了等比例缩放的操作的，每一个样本也进行相同比例缩放后复制到新的张量；本申请方法能够将样本尺度进行调整的同时，还能保留图像的形状信息，保证图像语义信息不被破坏。

对于空间域信息特征提取的步骤：

在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块，用于捕捉不同感受野下图像的特征信息，采用空洞卷积块重新设计感受野的采样方式，以提高网络的学习能力。在空间域子网中，每层卷积后添加批归一化层和ReLU激活函数，增强该网络空间域信息特征建模能力。

对于频域信息特征提取的步骤，本发明保留图像频域的完整性，采用复数卷积作为基础算子设计频域子网，以实现图像不同频率下的傅里叶系数的建模。

对于自适应融合方式融合提取的空间域特征和频域特征，本申请设计基于门控融合机制的网络来学习不同分支特征的重要性权重。充分利用来自不同流的特征信息，采用自适应融合模块动态融合来自双分支的特征。将两个分支分别在图像空间域和频域表示中提取具有标志信息的特征图，生成具有完备表征的多表征特征图。但空间域和频域信息生成的融合特征表示空间维度低，以至于并不能完全发挥混合特征的多表征优势。因此，本发明采用高效的特征提取网络EfficientNetB0来映射融合特征到更高维的特征空间，以使EfficientNetB0能够利用融合特征图生成最终的特征图F，并且将特征图F顺利应用于后续的感兴趣区域生成和目标预测。

2、本发明采用建议区域候选网络生成图像中候选区域，即可能会出现目标的区域。然后，通过采样算法选取最可能出现目标的区域，减少后续操作需要处理的候选框数量来提高算法的执行效率。

3、通过定量和定性的评估，证明本发明算法可以实现在不同场景下目标检测任务，并达到精准的效果。

附图说明

图1是本发明涉及的基于混合表征的图像/视频目标检测算法架构图示；

图2是本发明涉及的多表征图像特征提取过程；

图3是本发明涉及的频域子网结构图示；

图4是本发明涉及的复数滤波器运算过程；

图5是本发明涉及的自适应特征融合网络结构；

图6是本发明涉及的候选区域生成算法总体结构图示；

图7a和图7b都是展示在办公室场景下办公人员玩手机的识别结果；

图8a-8d是利用本发明方法在工业安防领域下的应用效果，其中图8a为人员闯入检测，

图8b、图8c、图8d为安全帽服检测；

图9a-9d是利用本发明方法进行微小火苗检测的效果图示。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明优选的实施例：

请参阅图1-图6，本发明提供一种技术方案：基于多表征特征提取法进行目标检测的方法，如图1所示的基于检测算法架构和基本流程，所述方法通过以下步骤实现：

步骤一、视频或图像被输入到基于多表征特征提取的骨干网络，基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征，生成包含完备表征信息的特征图；以帮助目标检测算法获取更优异的性能；

所述的基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征具体为：

图像的空间域信息常被用于进行各项计算机视觉任务，如图像分类、图像分割和目标检测等。事实上，图像的频域信息为更好的提取其特征带来一个新的视角，相比空间域信息，频域信息通常能够忽视由于光线、遮挡等问题带来的精度损失。引入频域信息能够有效提升算法在各类复杂场景下的目标检测精度。本发明设计一种基于图像空间域和频域信息的多表征特征提取算法用于提取完备的图像特征，以使目标检测方法获取更优异的性能。

步骤一一、数据预处理的步骤：

将数据集中的样本通过数据预转换为标准的输入格式；

步骤一二、空间域信息特征提取的步骤：

步骤一三、频域信息特征提取的步骤：

其中，M和N代表输入图像的长度和宽度；

步骤一四、采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图；图像的多表征特征提取过程如图2所示。

步骤三、待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量，并用来计算目标类型概率和目标边界框回归参数；

步骤四、目标检测；

经过上述过程，算法中的所有参数得到了更新并生成最优的值。目标预测主要包括：首先，经过预处理之后的图像被输入到骨干网络提取多表征特征图；接下来，多表征特征图通过候选区域生成算法生成候选区域；最后，候选区域经过采样算法丢弃冗余部分，然后通过结合原多表征特征图生成最终的目标类别和目标的边界框参数，完成图像/视频的目标检测。

本发明重新设计特征提取的骨干网络，发掘图像/视频在不同表示空间下的特征，生成了更加健壮的特征图并用于后续的目标检测任务。由于基于混合表征的骨干网络的加入，该算法在复杂场景下同样能够保持良好的性能。

步骤一一所述的数据预处理的步骤中，将数据集中的样本通过数据预转换为标准的输入格式的过程包括数据样本采样、数据标准化和样本尺度调整部分，具体为：

目标检测任务数据集通常分为图像和视频两种类型的样本。算法中深度学习模型的输入规定必须为单一的形式，因此在数据预处理部分将数据集样本转换为统一的表示形式。

若样本为图像类型，则直接使用图像格式作为模型的输入，若样本为视频类型，则用间隔采样方法获得图像帧样本，将采样到的图像帧作为模型的输入；例如，对输入的一段视频，每间隔16帧采样一次。并可根据不同应用场景下的实时性需求，调整采样的间隔帧数，通过较小的间隔数提高输出视频的流畅度。

(ii)所述的数据标准化部分：

经过上述操作数据集中的样本被统一为图像的形式，之后，采用下式对图像进行标准化操作，使数据分布均匀化，减少模型学习数据分布的可能性，提升模型的泛化能力；

其中，I_norm表示标准化之后的图像的矩阵，I表示原图像的矩阵，mean表示图像的均值，std表示图像的方差；本申请采用ImageNet数据集上的通用均值和方差，即设置mean＝(0.485，0.456，0.406)，std＝(0.229，0.224，0.225)；

(iii)样本尺度调整部分：

深度学习模型在训练过程中通常批量输入多个样本，并通过GPU实现并行运算提高训练速度。数据集中经常出现尺度大小不相等的样本，这导致无法使用批量训练，所以采用以下策略解决这个问题：

创建值全为0并且形状和最大的样本形状相同的张量，将该张量复制N份并在维度0上进行连接操作，如果计算资源有限，设定生成张量的形状为最大样本的整数倍；

遍历所有样本复制到新生成的张量，并对齐左上角保证坐标不变，如果上一步操作中采用了等比例缩放，则这里的每一个样本也进行相同比例缩放后复制到新的张量；相比Resize操作，上述方法能够保留图像的形状信息，保证图像语义信息不被破坏。

步骤一二所述的空间域信息特征提取的步骤中，将经过标准化处理后的图像映射为空间域信息I_s(x，y)，并直接输入到空间域子网，得到空间域特征图F_s的过程作为在空间域信息特征提取分支，其具体为：

遵循现代网络标准设计方法，空间域子网采用类自动编码器的主体结构，并设计编码器部分由2层卷积核为3×3，步长为1卷积神经网络和单层卷积核为3×3，步长为2的卷积神经网络组成；图像的空间域信息被馈送到编码器，生成包含空间语义信息的特征图；此时所输出的特征图的尺度缩小到原尺度的二分之一；

此外，为了提高网络的学习能力，拟定在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块，用于捕捉不同感受野下图像的特征信息；与传统卷积层不同的是，空洞卷积块重新设计感受野的采样方式，其中，一维空洞卷积定义为：

编码器和解码器之间的6层空洞卷积块的扩张率拟设定为(2，2，2，4，4，4)，每层空洞卷积块包含两层具有相同扩张率的空洞卷积；除此之外，在不同扩张率的空洞卷积块之后加入残差连接，用于聚合不同感受野下的多尺度信息；总的来说，空间域子网采用简单高效的设计方案，它的图像的数据流动形式化为：

F_s＝Decoder(ResDilated(Encoder(I_s(x，y)))) (4)

式中，Encoder和Dncoder分别表示上述的编码器和解码器，ResDilated表示6层具有残差连接的空洞卷积块，I_s(x，y)和F_s表示输入的空间域图像和输出的空间特征。在空间域子网中，每层卷积后添加批归一化层和ReLU激活函数，增强该网络空间域信息特征建模能力。

步骤一三所述的频域信息特征提取的步骤具体为：

频域子网接受图像的频域信息作为输入，其频域信息I_f＝x+iy为空间域信息进行快速傅里叶变换得到。频域信息为复值形式，其中包含振幅分量x和相位分量y。由于传统深度神经网络的运算算子都是实值的，因此目前性能良好的深度神经网络算法架构不能直接应用于图像频域空间信息。本发明保留图像频域的完整性，采用复数卷积作为基础算子设计频域子网，以实现图像不同频率下的傅里叶系数的建模。由于U-Net结构在图像特征提取任务中具有良好的性能，因此，

第一、设计频域子网的结构，频域子网结构如图3所示：

所述的复数卷积用于有效解决传统卷积算子不能进行复值运算的问题，具体地：复数卷积通过两个不同的实值卷积组合实现对复数等同传统卷积的操作，其中实值卷积的滤波器的参数是共享的；设给定一个复数h＝x+y和复数卷积滤波器W＝A+Bi，式中，x和y分别表示实数分量和虚数分量，A和B为两个不同的传统卷积算子；复数h和复数滤波器W的卷积运算表示为：

W*h＝(A*x-B*y)+i(B*x-A*y) (5)

式中，*表示常规的实数卷积运算；运算过程的直观表述如图4所示。

CReLU(z)＝ReLU(R(z))+iReLU(I(z)) (6)

式中，z是复数，R(z)和I(z)分别表示复数的实部和虚；

第二、获得特征图；

首先，设计特征提取方法：

图像的频域信息I_f(u，v)通过单层卷积核为3×3、步长为1的复数卷积将特征图的通道数映射到32维；然后输出的特征图依次经过两层卷积核为3×3、步长为1的复数卷积提取深度特征，该阶段并不改变特征图通道维度；最后，使用2×2最大池化将特征图尺度缩小为原尺度的二分之一，并输入到下一阶段进行深度特征提取；

之后，循环执行三次如下操作：

stage_i+1＝Maxpool(σ(stage_i)) (7)

第三、进行拼接操作，生成新的特征图：

U_i-1＝Up(σ(cat(stage_i，U_i))) (8)

第四、通过逆傅里叶变换将特征图映射到空间域，以方便使用像素的位置信息来深度融合不同表征空间的信息。

步骤一四所述的采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图，具体为：

上述两个分支分别在图像空间域和频域表示中提取具有标志信息的特征图。为了充分利用来自不同流的特征信息，本发明采用自适应融合模块动态融合来自双分支的特征。本发明设计基于门控融合机制的网络来学习不同分支特征的重要性权重。空间域分支输出的特征图F_s和频域分支输出的F_f在通道维度进行拼接，之后，输入到两层卷积核为3×3、步长为1的传统卷积层生成不同像素的权重矩阵，该权重矩阵和经过处理后的特征矩阵具有相同的大小；之后，将计算生成的权重矩阵平均切分为两个通道数为3的权重矩阵，分别与对应特征图F_s和F_f的相乘，生成融合空间域和频域信息的多表征特征图，其数据流动如下：

weight＝Sigmoid(σ(cat(F_f，F_s))) (9)

F_hid＝cat(weight[0]×F_f，weight[1]×F_s) (10)

式中，σ(·)代表卷积神经网络，Sigmoid为激活函数，cat表示在通道维度的拼接操作；为了突出显示多表征特征图的特点，本发明采用改造之后的EfficientNetB0生成多表征特征图F，并用于后续的感兴趣区域生成算法和目标预测算法；自适应特征融合的结构如图5所示；其中，

所述的改造之后的EfficientNetB0的结构及改进点为：

空间域和频域信息生成的融合特征表示空间维度低，以至于并不能完全发挥混合特征的多表征优势。因此，本发明采用高效的特征提取网络EfficientNetB0来映射融合特征到更高维的特征空间。为了使EfficientNetB0能够利用融合特征图生成最终的特征图F，并且将特征图F顺利应用于后续的感兴趣区域生成和目标预测。本发明将EfficientNetB0第一阶段的卷积模块的输入通道修改为6，同时在特征预测阶段保留前六个阶段作为特征提取器；利用改进后的EfficientNetB0，在多表征图像特征提取阶段，输入大小为(H，W，3)的图像经过双分支特征提取网络和改进后的EfficientNetB0特征提取器得到大小为(H/16，W/16，112)的特征图F；该特征图F聚合了空间域和频域表示空间的特征信息，可以有效提高整体算法的鲁棒性。特别地，由于多表征图像特征算法结构的设计，该算法允许任意尺寸的图像作为输入。

由于以往滑动窗口和选择搜索等方法经常被用来生成目标边界框。但是，这类方法耗费大量的计算资源，严重影响目标检测的实时性。所以，步骤二所述的区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域的过程为，

之后，训练区域建议网络的回归器，并利用训练后的区域建议网络预测每个先验框的目标概率和边界框偏移参数；两者结合实现先验框的回归能力。候选区域生成算法的总体结构如图6所示。

步骤三所述的待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量具体为：

另外，本申请采用如下训练方法以使算法中各组件的作用达到最大化，所述的训练方法具体为：首先，在ImageNet数据集上重新训练特征提取骨干网络。在该阶段网络模型选用完整版的EfficientNetB0；

然后，使用预训练骨干网络参数和初始化的区域建议网络的参数来训练区域建议网络，该阶段骨干网络和区域建议网络的参数都会被更新；

接下来，固定区域建议网络的参数，训练整个目标检测网络，该阶段骨干网络和目标回归预测中的网络参数会被更新；

再进一步，固定骨干网络参数，对区域生成网络进行训练，该阶段仅区域生成网络参数改变；

最后，固定骨干网络参数，对整个算法进行训练。该阶段区域生成网络和目标回归预测中的网络参数会被更新，并完成整个训练过程。

实验验证：

选取丰富的数据集，评价指标和实现工具来验证基于多表征信息目标检测算法在农业，自动驾驶，智能安防和水下成像等各类实际应用中的效果。

实验数据

对于数据驱动的算法来讲，数据是重中之重的一部分。基于数据驱动的算法训练过程需要大量的数据来充分优化网络的参数和权重值，例如用于图像分类的ImageNet和用于动作识别的Sport1M。训练数据不足会导致过度拟合，在测试数据集上分类性能较差。目前，各应用领域内大量已公开的目标检测数据集可供我们选择，用于探究基于数据驱动的目标检测算法应用。

在数据集方面，总体的方案包括使用公开数据集和采集数据集两类。可供选择的公开数据集包括：1)面向农业应用：拟采用Winegrape，小麦检测数据集；上述数据集中包含了不同品种的葡萄和小麦等常见农作物图像。2)面向烟雾检测：拟采用KMUFire&Smoke，vmote和Videosmokedetection数据集；上述数据集含有不同场景下的包含烟雾的图像/视频内容。3)面向自动驾驶任务：拟采用LISA，Exclusively-Dark-Image，LARA和CAMEL数据集；上述数据集包含了交通标志数据集、低光情况下物体检测数据集、交通信号灯数据集和基于红外图像的行人检测数据集。数据集均为图像或者视频片段。4)面向其他任务：拟采用crowd-sourced和Trash-ICRA19等各类数据集；上述数据集包含但不限于智能安防、水下垃圾识别、文本布局检测和车辆检测等。表1对目前开放的目标检测数据集进行了更加全面的总结。对于特定场景下的任务，现有的数据集可能不能完美适用于特地任务。在这种情况下，我们可以通过采集和人工标注生成新的数据集，并且用于训练特定任务的目标检测模型。上述数据集中基本为图像和视频片段两种类型，对于视频片段来说，从每个视频中每间隔16帧采样一次提取目标帧。通过上述的采样方式，所有的数据集都可以被表示为图像帧的形式。在数据集格式，上述数据集主要采用了两种标准格式，包括COCO格式和VOC格式。这类格式更方便地读取数据并用于训练。在采集数据集过程中，我们可以使用开源工具LabelImg、LabelMe等实现对数据进行标注。合理的组织数据集的目录和格式有助高效的开展后续工作。

表1：现有工作提出的公开及采集视频数

实验评估

采用拟定方案中设计的算法在数据集上进行了定量和定性评估。以下展示了在上述数据集上详细的评估结果。

1.定量评估我们拟定的算法与目前流行的算法Faster-RCNN、SSD和YOLOv4进行了性能评估，并且采用mAP、Precision和Recall三个指标进行数据量化，指标数值越高代表算法具有更好的检测性能。其中，mAP表示所有类别识别的平均准确类，Precision代表预测出来准确结果占所有预测结果的准确性，Recall表示正样本被正确检测出来的百分比。表2展示了上述三种算法和我们拟定算法在LARA数据集上的定量评估结果，此外vmote和Crowd-sourced数据集的定量评估结果分别如表3和表4所示。

表2：LARA数据集量化结果

方法	mAP％	Precision％	Recall％
				Faster-RCNN	77.01	96.25	95.93
SSD	76.58	93.05	96.13
				YOLOv4	79.03	97.96	96.81
Ours	80.16	98.21	96.97

表3：vmote数据集量化结果

方法	mAP％	Precision％	Recall％
				Faster-RCNN	65.62	83.96	85.18
SSD	67.58	83.15	86.79
				YOLOv4	73.14	87.64	86.81
Ours	75.12	88.05	89.92

表4：Crowd-sourced数据集量化结果

方法	mAP％	Precision％	Recall％
				Faster-RCNN	73.74	91.64	87.01
SSD	72.62	91.02	88.14
				YOLOv4	76.89	92.32	89.76
Ours	80.12	94.17	90.21

2.定性评估

为了直观的评估我们的算法的能力，我们使用现实中不同网上或者现实场景下采集的数据进行训练，并且可视化了预测结果。图7a和图7b展示了在办公室场景下办公人员玩手机的识别结果。图8展示工业安防领域下的应用效果，其中，图8a为人员闯入检测，图8b、图8c、图8d为安全帽服检测。图9a、图9b、图9c、图9d展示了微小火苗检测结果。

综上所述，通过定量和定性的评估，证明了本方案拟定的算法可以实现在不同场景下目标检测任务，并达到精准的效果。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.基于多表征特征提取法进行目标检测的方法，其特征在于：所述方法通过以下步骤实现：

步骤一一、数据预处理的步骤：

将数据集中的样本通过数据预转换为标准的输入格式；

步骤一二、空间域信息特征提取的步骤：

步骤一三、频域信息特征提取的步骤：

其中，M和N代表输入图像的长度和宽度；

2.根据权利要求1所述的一种基于多表征特征提取法进行目标检测的方法，其特征在于：步骤一一所述的数据预处理的步骤中，将数据集中的样本通过数据预转换为标准的输入格式的过程包括数据样本采样、数据标准化和样本尺度调整部分，具体为：

(ii)所述的数据标准化部分：

(iii)样本尺度调整部分：

3.根据权利要求2所述的一种基于多表征特征提取法进行目标检测的方法，其特征在于：步骤一二所述的空间域信息特征提取的步骤中，将经过标准化处理后的图像映射为空间域信息I_s(x，y)，并直接输入到空间域子网，得到空间域特征图F_s的过程作为在空间域信息特征提取分支，其具体为：

F_s＝Decoder(ResDilated(Encoder(I_s(x，y))) (4)

4.根据权利要求3所述的一种基于多表征特征提取法进行目标检测的方法，其特征在于：步骤一三所述的频域信息特征提取的步骤具体为：

第一、设计频域子网的结构：

W*h＝(A*x-B*y)+i(B*x-A*y) (5)

式中，*表示常规的实数卷积运算；

CReLU(z)＝ReLU(R(z))+iReLU(I(z)) (6)

式中，z是复数，R(z)和I(z)分别表示复数的实部和虚；

第二、获得特征图；

首先，设计特征提取方法：

之后，循环执行三次如下操作：

Stage_i+1＝Maxpool(σ(stage_i)) (7)

第三、进行拼接操作，生成新的特征图：

U_i-1＝Up(σ(cat(stage_i，U_i))) (8)

第四、通过逆傅里叶变换将特征图映射到空间域。

5.根据权利要求4所述的一种基于多表征特征提取法进行目标检测的方法，其特征在于：步骤一四所述的采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图，具体为：

weight＝Sigmoid(σ(cat(F_f，F_s))) (9)

F_hid＝cat(weight[0]×F_f，weight[1]×F_s) (10)

所述的改造之后的EfficientNetB0为：

6.根据权利要求5所述的一种基于多表征特征提取法进行目标检测的方法，其特征在于：步骤二所述的区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域的过程为：

7.根据权利要求6所述的基于多表征特征提取法进行目标检测的方法，其特征在于：步骤三所述的待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量具体为：