CN115565043A

CN115565043A - 结合多表征特征以及目标预测法进行目标检测的方法

Info

Publication number: CN115565043A
Application number: CN202211273911.2A
Authority: CN
Inventors: 朱佳梅; 张健沛; 邓春伟; 张春志; 薛龄季轩; 陈刚
Original assignee: HARBIN INSTITUTE OF PETROLEUM
Current assignee: HARBIN INSTITUTE OF PETROLEUM
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-03

Abstract

结合多表征特征以及目标预测法进行目标检测的方法，属于目标检测算法领域。现有的目标检测方法不能完全发挥混合特征的多表征优势，候选区域生成算法耗费大量计算资源，严重影响目标检测的实时性。结合多表征特征以及目标预测法进行目标检测的方法，基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征，生成包含完备表征信息的特征图；区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域；待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量，并用来计算目标类型概率和目标边界框回归参数；目标检测。实现在不同场景下目标检测任务，并达到精准的效果。

Description

结合多表征特征以及目标预测法进行目标检测的方法

技术领域

本发明涉及一种目标检测方法，特别涉及结合多表征特征以及目标预测法进行目标检测的方法。

背景技术

图像的空间域信息常被用于进行各项计算机视觉任务，如图像分类、图像分割和目标检测等。在目标检测算法中，单纯通过空间域信息用于提取图像特征，会因空间信息受光线、遮挡等问题使目标检测产生精度损失。目标检测算法涉及的深度学习模型在训练过程中通常批量输入多个样本，并通过GPU实现并行运算提高训练速度。数据集中经常出现尺度大小不相等的样本，这导致无法使用批量训练。

现有图像的频域信息特征提取的技术中，由于传统深度神经网络的运算算子都是实值的，因此目前性能良好的深度神经网络算法架构不能直接应用于图像频域空间信息。

所以考虑将空间域信息和频域信息融合作为提取的特征。但直接通过空间域和频域信息生成的融合特征表示空间维度低，以至于并不能完全发挥混合特征的多表征优势。

另外，在目标检测过程涉及的候选区域生成算法，现有采用滑动窗口和选择搜索等方法生成目标边界框。但是，这类方法一个窗口只能预测一个目标，并且耗费大量的计算资源，严重影响目标检测的实时性。

虽然区域建议网络能够预测每个先验框中是否包含目标的概率，但是由于先验框具有固定的尺度和长宽比，并且其本身并不具备边界参数回归的能力。

最后，在计算目标类型概率和目标边界框回归参数的目标预测阶段，对于候选区域生成算法所生成的候选区域，依旧存在重叠的部分，需要减少冗余。

本申请针对空间域信息和频域信息特征融合方法、候选区域生成算法、计算目标类型概率和目标边界框回归参数的过程进行改进，并对目标检测的方法从整体上重新进行设计，以提高目标检测精度。

发明内容

本发明的目的是为了解决现有的目标检测方法不能完全发挥混合特征的多表征优势的问题，以及候选区域生成算法过程中，一个窗口只能预测一个目标，并且耗费大量的计算资源，严重影响目标检测的实时性的问题，而提出结合多表征特征以及目标预测法进行目标检测的方法。

上述目的通过以下的技术方案实现：

结合多表征特征以及目标预测法进行目标检测的方法，所述方法通过以下步骤实现：

步骤一、视频或图像被输入到基于多表征特征提取的骨干网络，基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征，生成包含完备表征信息的特征图；所述的基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征包括：

步骤一一、数据预处理的步骤：

将数据集中的样本通过数据预转换为标准的输入格式；

步骤一二、空间域信息特征提取的步骤：

设经过标准化处理后的图像映射为空间域信息I_s(x，y)，并直接输入到空间域子网，得到空间域特征图F_s；

步骤一三、频域信息特征提取的步骤：

采用快速傅里叶变换将标准化后的图像从空间域转换为频域信息I_f(u，v)；其中，经过傅里叶变换的频域信息与空间域信息之间的映射关系为：

其中，M和N代表输入图像的长度和宽度；

之后，图像的频域信息I_f(u，v)输入至频域子网，提取不同频段的特征，得到频域特征图F_f；

至此，经过数据预处理之后的图像信息分别输入空间信息特征提取分支和频域信息特征提取分支并完成特征提取；

步骤一四、采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图；

步骤二、区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域；包括：首先，设计所述的候选区域包括区域建议网络部分和先验框生成部分；且仅令区域建议网络部分包含被训练的神经网络参数；之后，使用滑动窗口在图像的每个像素点上生成K个不同尺度和不同长宽比的先验框，通过与目标真实标签比较，将先验框划分为正样本或负样本；之后，训练区域建议网络的回归器，并利用训练后的区域建议网络预测每个先验框的目标概率和边界框偏移参数；

(1)所述的先验框生成部分具体为：

进行多表征图像提取，生成特征图；

之后，使用滑动窗口在特征图进行滑动，每滑动一个位置生成K个不同尺度和不同长宽比的先验框；每个先验框边界参数都被表示为四个参数化向量(P_x,P_y,P_w,P_h)的形式，其中，P_x和P_y为先验框中心(x,y)坐标，P_w和P_h分别表示先验框的宽和高；

(2)所述的区域建议网络部分具体为：

区域建议网络包括出现目标概率预测和先验框边界的偏移量预测，具体来说，具有多表征信息的特征图通过卷积核为3×3、步长为1、填充为1的卷积层建模特征信息；之后，上述操作生成的特征图送入两个分支，其中一条分支是：通过卷积核为1×1的卷积层生成通道为K的特征向量，K的数值对应上述操作中每个像素包含的先验框个数，该特征向量表示每个先验框中出现目标的概率，在另外一条分支，特征图通过另外一个卷积核为1×1的卷积层生成通道为4*K的特征向量，该特征向量用于计算先验框边界回归的偏移量，以生成候选区域；

(3)所述的训练区域建议网络的回归器具体为：

将所有的先验框划分为正样本和负样本两类，即：先验框/真实值的交并比最高或者重叠比例高于0.7的先验框被划分为正样本，先验框/真实值的交并比小于0.3的先验证框的归为负样本；并抛弃按照上述要求划分成正样本和负样本以外的其他样本；

之后，采用多任务损失来优化区域建议网络，具体的损失函数定义为：

式中，i是生成的先验框的索引，p_i是i位置先验框出现目标的概率，如果先验框为正样本，则目标值标签p_i*为1，如果先验框为负样例，则为0；t_i表示预测边界框的回归参数，t_i*为和正样本相关联先验框的目标框的回归参数；分类损失函数L_cls为交叉熵损失函数，回归损失L_reg为SmoothL1损失函数，λ为两个损失分量平衡系数；另外，p_i*L_reg表示当先验框是负样本时回归损失函数失去存在；

其中，区域建议网络为全卷积网络，使用上述多任务损失函数利用反向传播和随机梯度下降算法进行端到端的训练，训练过程中，采用正样本和负样本均衡的采样策略，每个小批量都来自一个包含许多正负样例的图像，在一幅图像中随机抽样先验框样本，其中正负样本的比例设置为1：1，如果出现正样本少于一半的情况，选择使用负样本来填充该小批量；

(4)所述的利用训练后的区域建议网络预测每个先验框的边界框偏移参数，具体为：

区域建议网络预测每个建议框的回归参数(d_x,d_y,d_w,d_h)，结合先验框生成最终预测的边界框参数：

其中，

和

表示最终生成的预测框的中心坐标，

和

分别表示最终生成的预测框的宽和高。生成的预测框参数和目标真实框通过SmoothL1回归损失最小化两者之间的距离，并不断学习生成更加准确的边界框；

步骤三、待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量，并用来计算目标类型概率和目标边界框回归参数，完成图像/视频的目标检测；

所述的待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量，是根据候选区域的目标概率分数，采用弹性极大值抑制(Soft-NMS)算法对候选区域采样；之后，采用RoIpooling对具有不同尺度大小的候选区域进行特征提取，候选区域映射为7×7大小的特征图；具体为：

第一、根据候选区域的目标概率分数，采用弹性极大值抑制算法对候选区域采样；具体为：

通过线性函数设置加权阈值，阈值设置函数如下：

式中，S_i表示各个建议框得分，V_t表示手动设置的交并比阈值，C表示分数高的检测框；b_i表示目标检测框列表中的元素，iou中文含义为重叠度；

第二、采用RoIpooling对具有不同尺度大小的候选区域进行特征提取，候选区域映射为7×7大小的特征图，具体为：

将候选区域对应的特征图的区域平均分为7×7份网络，并对每一份网格进行最大池化处理，以将任何形状的候选区域映射到7×7大小的特征空间；

第三、目标回归预测，具体为：

输出的特征图展平为长度为49的一维向量，通过两层全连接层将该向量映射到长度为1024的向量空间；该向量输入到两个全连接层后，分别输出该向量对应的候选区域的目标类型和边界回归偏移量进一步的修正边界框参数；其中，

RoIpooling中文含义为感兴趣区域池化。

进一步地，步骤一一所述的数据预处理的步骤中，将数据集中的样本通过数据预转换为标准的输入格式的过程包括数据样本采样、数据标准化和样本尺度调整部分，具体为：

(i)所述的数据样本采样部分是将数据集中的样本被统一为图像的形式：

若样本为图像类型，则直接使用图像格式作为模型的输入，若样本为视频类型，则用间隔采样方法获得图像帧样本，将采样到的图像帧作为模型的输入；

(ii)所述的数据标准化部分：

采用下式对图像进行标准化操作，使数据分布均匀化；

其中，I_norm表示标准化之后的图像的矩阵，I表示原图像的矩阵，mean表示图像的均值，std表示图像的方差；设置mean＝(0.485，0.456，0.406)，std＝(0.229，0.224，0.225)；

(iii)样本尺度调整部分：

在给定的N个样本中找到尺度最大的一个样本，记录其宽和高；

创建值全为0并且形状和最大的样本形状相同的张量，将该张量复制N份并在维度0上进行连接操作；

遍历所有样本复制到新生成的张量，并对齐左上角保证坐标不变。

进一步地，步骤一二所述的空间域信息特征提取的步骤中，将经过标准化处理后的图像映射为空间域信息I_s(x，y)，并直接输入到空间域子网，得到空间域特征图F_s的过程作为在空间域信息特征提取分支，其具体为：

空间域子网采用类自动编码器的主体结构，并设计编码器部分由2层卷积核为3×3，步长为1卷积神经网络和单层卷积核为3×3，步长为2的卷积神经网络组成；图像的空间域信息被馈送到编码器，生成包含空间语义信息的特征图；

在解码器部分，包含空间语义信息的特征图依次通过单层卷积核为4×4、步长为2的反卷积层和2层卷积核为3×3、步长为1卷积层，输出包含原图像空间抽象信息并且恢复到原始图像尺度的特征图；

在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块，用于捕捉不同感受野下图像的特征信息；空洞卷积块设计感受野的采样方式，其中，一维空洞卷积定义为：

式中，s表示卷积核的大小，r表示扩张率，i表示采样位置，w[i]和o[i]分别表示第i个位置的卷积核和计算后得到的特征值；

编码器和解码器之间的6层空洞卷积块的扩张率拟设定为(2，2，2，4，4，4)，每层空洞卷积块包含两层具有相同扩张率的空洞卷积；在不同扩张率的空洞卷积块之后加入残差连接，用于聚合不同感受野下的多尺度信息；空间域子网图像的数据流动形式化为：

F_s＝Decoder(ResDilated(Encoder(I_s(x，y))) (4)

式中，Encoder和Dncoder分别表示上述的编码器和解码器，ResDilated表示6层具有残差连接的空洞卷积块，I_s(x，y)和F_s表示输入的空间域图像和输出的空间特征。

进一步地，步骤一三所述的频域信息特征提取的步骤具体为：

第一、设计频域子网的结构，：

频域子网采用类U-Net的结构，使用复数卷积层代替传统卷积层，并使用CReLU作为激活函数；其中，

所述的复数卷积用于解决传统卷积算子不能进行复值运算的问题，具体地：复数卷积通过两个不同的实值卷积组合实现对复数等同传统卷积的操作，其中实值卷积的滤波器的参数是共享的；设给定一个复数h＝x+y和复数卷积滤波器W＝A+Bi，式中，x和y分别表示实数分量和虚数分量，A和B为两个不同的传统卷积算子；复数h和复数滤波器W的卷积运算表示为：

W*h＝(A*x-B*y)+i(B*x-A*y) (5)

式中，*表示常规的实数卷积运算；

所述的CReLU是为复值设计的激活函数，对神经元的实部和虚部分别应用单独的ReLU激活函数，其定义如下：

CReLU(z)＝ReLU(R(z))+iReLU(I(z)) (6)

式中，z是复数，R(z)和I(z)分别表示复数的实部和虚；

第二、获得特征图；

首先，设计特征提取方法：

图像的频域信息I_f(u，v)通过单层卷积核为3×3、步长为1的复数卷积将特征图的通道数映射到32维；然后输出的特征图依次经过两层卷积核为3×3、步长为1的复数卷积提取深度特征；最后，使用2×2最大池化将特征图尺度缩小为原尺度的二分之一，并输入到下一阶段进行深度特征提取；

之后，循环执行三次如下操作：

在接下来的每一阶段中，上一阶段输出的特征图被输入单层卷积核为3×3、步长为1的卷积操作，扩展其通道数到之前的二倍，然后使用两层卷积核为3×3、步长为1的复数卷积来编码深度特征，最后通过2×2最大池化将特征图尺度缩小为原图像的二分之一，并输出到下一阶段，每个阶段的数据流动如下：

stage_i+1＝Maxpool(σ(stage_i)) (7)

式中，stage_i和stage_i+1分别为第i阶段的输入和输出特征，Maxpool表示2×2最大池化，σ代表了上述的三层卷积操作；

循环执行三次操作后，频域子网得到三个不同阶段输出的特征图stage₁，stage₂和stage₃；之后，stage₃通过2×2最大池化和两层卷积核为3×3、步长为1的复数卷积得到通道数为256的特征图，该特征图通过缩放因子为2的上采样操作生成通道数为128的特征图U₃；

第三、进行拼接操作，生成新的特征图：

首先，基于stage₃和U₃具有相同的通道数和尺度大小的基础，频域子网中将特征图stage₃和U₃在通道维度进行拼接操作，生成通道数为256、尺度到为原始图像四分之一大小的特征图；然后，生成的特征图通过两层卷积核为3×3、步长为1的复数卷积降低通道数到原通道的四分之一，并通过缩放因子为2的上采样操作扩大尺度信息，生成新的特征图U₃；

之后，重复上述操作直至特征图尺度恢复到输入频域子网的尺度大小；其中，每一阶段的数据流动如下：

U_i-1＝Up(σ(cat(stage_i,U_i))) (8)

式中，U_i-1和U_i分别表示第i阶段的输出和输入，cat为拼接操作，U_p代表缩放因子为2的上采样过程；经过三阶段的上述操作得到通道数为32的特征图，将其输入到卷积核为1的复数卷积深度混合各频段分量特征并生成通道数为3的频域特征图；

第四、通过逆傅里叶变换将特征图映射到空间域。

进一步地，步骤一四所述的采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图，具体为：

空间域分支输出的特征图F_s和频域分支输出的F_f在通道维度进行拼接，之后，输入到两层卷积核为3×3、步长为1的传统卷积层生成不同像素的权重矩阵；之后，将计算生成的权重矩阵平均切分为两个通道数为3的权重矩阵，分别与对应特征图F_s和F_f的相乘，生成融合空间域和频域信息的多表征特征图，其数据流动如下：

weight＝Sigmoid(σ(cat(F_f，F_s))) (9)

F_hid＝cat(weight[0]×F_f,weight[1]×F_s) (10)

式中，σ(·)代表卷积神经网络，Sigmoid为激活函数，cat表示在通道维度的拼接操作；采用改造之后的EfficientNetB0生成多表征特征图F，并用于后续的感兴趣区域生成算法和目标预测算法；其中，

所述的改造之后的EfficientNetB0为：

将EfficientNetB0第一阶段的卷积模块的输入通道修改为6，同时在特征预测阶段保留前六个阶段作为特征提取器。

本发明的有益效果为：

1、本发明算法重新设计特征提取的骨干网络，发掘图像/视频在不同表示空间下的特征，生成更加健壮的特征图并用于目标检测任务。具体地：

对于目标检测数据预处理的步骤：

首先，对图像进行标准化操作，使数据分布均匀化，减少模型学习数据分布的可能性，提升模型的泛化能力。

又有，针对深度学习模型训练过程中不能批量输入不同尺度的样本的问题，本申请通过设计具体的样本尺度调整方法，在给定的N个样本中找到尺度最大的一个样本，记录其宽和高；创建值全为0并且形状和最大的样本形状相同的张量，将该张量复制N份并在维度0上进行连接操作，如果计算资源有限，设定生成张量的形状为最大样本的整数倍；遍历所有样本复制到新生成的张量，并对齐左上角保证坐标不变，对于采用了等比例缩放的操作的，每一个样本也进行相同比例缩放后复制到新的张量；本申请方法能够将样本尺度进行调整的同时，还能保留图像的形状信息，保证图像语义信息不被破坏。

对于空间域信息特征提取的步骤：

在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块，用于捕捉不同感受野下图像的特征信息，采用空洞卷积块重新设计感受野的采样方式，以提高网络的学习能力。在空间域子网中，每层卷积后添加批归一化层和ReLU激活函数，增强该网络空间域信息特征建模能力。

对于频域信息特征提取的步骤，本发明保留图像频域的完整性，采用复数卷积作为基础算子设计频域子网，以实现图像不同频率下的傅里叶系数的建模。

对于自适应融合方式融合提取的空间域特征和频域特征，本申请设计基于门控融合机制的网络来学习不同分支特征的重要性权重。充分利用来自不同流的特征信息，采用自适应融合模块动态融合来自双分支的特征。将两个分支分别在图像空间域和频域表示中提取具有标志信息的特征图，生成具有完备表征的多表征特征图。但空间域和频域信息生成的融合特征表示空间维度低，以至于并不能完全发挥混合特征的多表征优势。因此，本发明采用高效的特征提取网络EfficientNetB0来映射融合特征到更高维的特征空间，以使EfficientNetB0能够利用融合特征图生成最终的特征图F，并且将特征图F顺利应用于后续的感兴趣区域生成和目标预测。

2、本发明采用建议区域候选网络生成图像中候选区域，即可能会出现目标的区域。然后，通过采样算法选取最可能出现目标的区域，减少后续操作需要处理的候选框数量来提高算法的执行效率。

在预测候选区域时，本申请通过在一个窗口生成多个不同长宽比的先验框的策略，解决一个窗口只能预测一个目标的问题。在同一窗口生成多个不同尺度的先验框能够有效的解决多尺度问题。

针对区域建议网络先验框具有固定的尺度和长宽比，并且其本身并不具备边界参数回归的能力的问题，本发明设计一种边界框回归的学习策略，通过区域建议网络生成每个先验框的偏移参数，使用先验框和其对应的偏移参数来实现先验框的微调。由于区域建议网络是全卷积神经网络，所以产生偏移参数的函数是可学习的。

3、本发明在目标预测阶段，根据候选区域的目标概率分数，通过线性函数设置加权阈值，采用弹性极大值抑制(Soft-NMS)算法对候选区域采样，减少高度重叠的候选区域的数量降低冗余，同时不会损害最后的检测精度。

4、通过定量和定性的评估，证明本发明算法可以实现在不同场景下目标检测任务，并达到精准的效果。

附图说明

图1是本发明涉及的基于混合表征的图像/视频目标检测算法架构图示；

图2是本发明涉及的多表征图像特征提取过程；

图3是本发明涉及的频域子网结构图示；

图4是本发明涉及的复数滤波器运算过程；

图5是本发明涉及的自适应特征融合网络结构；

图6是本发明涉及的候选区域生成算法总体结构图示；

图7是本发明涉及的目标预测算法总体结构图示；

图8a和图8b都是展示在办公室场景下办公人员玩手机的识别结果；

图9a-9d是利用本发明方法在工业安防领域下的应用效果，其中图9a为人员闯入检测，

图9b、图9b、图9d为安全帽服检测；

图10a-10d是利用本发明方法进行微小火苗检测的效果图示。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明优选的实施例：

请参阅图1-图8，本发明提供一种技术方案：一种结合多表征特征以及目标预测法进行目标检测的方法，如图1所示的基于检测算法架构和基本流程，所述方法通过以下步骤实现：

步骤一、视频或图像被输入到基于多表征特征提取的骨干网络，基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征，生成包含完备表征信息的特征图；以帮助目标检测算法获取更优异的性能；

所述的基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征具体为：

图像的空间域信息常被用于进行各项计算机视觉任务，如图像分类、图像分割和目标检测等。事实上，图像的频域信息为更好的提取其特征带来一个新的视角，相比空间域信息，频域信息通常能够忽视由于光线、遮挡等问题带来的精度损失。引入频域信息能够有效提升算法在各类复杂场景下的目标检测精度。本发明设计一种基于图像空间域和频域信息的多表征特征提取算法用于提取完备的图像特征，以使目标检测方法获取更优异的性能。

步骤一一、数据预处理的步骤：

将数据集中的样本通过数据预转换为标准的输入格式；

步骤一二、空间域信息特征提取的步骤：

步骤一三、频域信息特征提取的步骤：

其中，M和N代表输入图像的长度和宽度；

步骤一四、采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图；图像的多表征特征提取过程如图2所示。

步骤二、区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域；

由于以往滑动窗口和选择搜索等方法经常被用来生成目标边界框。但是，这类方法耗费大量的计算资源，严重影响目标检测的实时性。所以，步骤二所述的区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域包括：首先，设计所述的候选区域包括区域建议网络部分和先验框生成部分；且仅令区域建议网络部分包含被训练的神经网络参数；之后，使用滑动窗口在图像的每个像素点上生成K个不同尺度和不同长宽比的先验框，通过与目标真实标签比较，将先验框划分为正样本或负样本；之后，训练区域建议网络的回归器，并利用训练后的区域建议网络预测每个先验框的目标概率和边界框偏移参数；两者结合实现先验框的回归能力。候选区域生成算法的总体结构如图6所示。

之前的工作中，滑动窗口和选择搜索等方法经常被用来生成目标边界框。但是，这类方法耗费大量的计算资源，严重影响目标检测的实时性。在本算法中，拟采用建议区域候选网络生成图像中候选区域，即可能会出现目标的区域。然后，通过采样算法选取最可能出现目标的区域，减少后续操作需要处理的候选框数量来提高算法的执行效率。

(1)所述的先验框生成部分具体为：

采用生成先验框来帮助提取图像中可能出现的区域主要有两个原因：

1)以往的算法一个窗口只能预测一个目标，本申请的在一个窗口生成多个不同长宽比的先验框的策略有效的解决了这个问题。

2)在同一窗口生成多个不同尺度的先验框能够有效的解决多尺度问题。

进行多表征图像提取，生成特征图；

例如，设输入图像长宽通道的大小是800×600×3，经过多表征图像提取后生成大小为50×38×112的特征图；

例如，使用3×3的滑动窗口在特征图进行滑动，每滑到一个位置生成K个不同尺度和不同长宽比的先验框。本申请采用128、256、512三种尺度和1:1、1:2、2:1三种长宽比，因此特征图中每个像素点能够生成3×3＝9个不同尺度和不同长宽比的先验框；

(2)所述的区域建议网络部分具体为：

区域建议网络包括出现目标概率预测和先验框边界的偏移量预测，具体来说，具有多表征信息的特征图通过卷积核为3×3、步长为1、填充为1的卷积层建模特征信息，提高特征的鲁棒性；之后，上述操作生成的特征图送入两个分支，其中一条分支是：通过卷积核为1×1的卷积层生成通道为K的特征向量，K的数值对应上述操作中每个像素包含的先验框个数，该特征向量表示每个先验框中出现目标的概率，在另外一条分支，特征图通过另外一个卷积核为1×1的卷积层生成通道为4*K的特征向量，该特征向量用于计算先验框边界回归的偏移量，以生成更精确的候选区域；

(3)所述的训练区域建议网络的回归器具体为：

区域建议网络能够生成每个像素点的先验框内是否存在目标，并且给定先验框边界回归偏移量，更好的拟合每个目标的边界参数。为了更好指导区域建议网络生成目标存在概率和边界框的回归偏移量。

将所有的先验框划分为正样本和负样本两类，即：先验框/真实值的交并比最高或者重叠比例高于0.7的先验框被划分为正样本，先验框/真实值的交并比小于0.3的先验证框的归为负样本；并抛弃按照上述要求划分成正样本和负样本以外的对实验没有明显的意义的其他样本；

确定正负样本定义之后，采用多任务损失来优化区域建议网络，具体的损失函数定义为：

式中，i是生成的先验框的索引，p_i是i位置先验框出现目标的概率，如果先验框为正样本，则目标值标签p_i*为1，如果先验框为负样例，则为0；t_i表示预测边界框的回归参数，t_i*为和正样本相关联先验框的目标框的回归参数；分类损失函数L_cls为交叉熵损失函数，回归损失L_reg为SmoothL1损失函数，λ为两个损失分量平衡系数；另外，p_i*L_reg表示当先验框是负样本时回归损失函数失去存在的意思；

例如，在一幅图像中随机抽样256个先验框样本，如果出现正样本少于一半128个的情况，则选择使用负样本来填充该小批量；

区域建议网络能够预测每个先验框中是否包含目标的概率，但是由于先验框具有固定的尺度和长宽比，并且其本身并不具备边界参数回归的能力。本发明设计一种边界框回归的学习策略，通过区域建议网络生成每个先验框的偏移参数，使用先验框和其对应的偏移参数来实现先验框的微调。由于区域建议网络是全卷积神经网络，所以产生偏移参数的函数是可学习的。具体来说，区域建议网络预测每个建议框的回归参数(d_x,d_y,d_w,d_h)，结合先验框生成最终预测的边界框参数：

其中，

和

表示最终生成的预测框的中心坐标，

和

步骤三、待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量，并用来计算目标类型概率和目标边界框回归参数；

第一、对于候选区域生成算法所生成的候选区域，依旧存在重叠的部分。为了减少冗余，根据候选区域的目标概率分数，采用弹性极大值抑制(Soft-NMS)算法对候选区域采样；具体为：

通过线性函数设置加权阈值，阈值设置函数如下：

式中，S_i表示各个建议框得分，V_t表示手动设置的交并比阈值，C表示分数高的检测框；b_i表示目标检测框列表中的元素，iou中文含义为重叠度；通过上述算法，能够有效的减少高度重叠的候选区域的数量，同时不会损害最后的检测精度。其具体流程如算法1所示；

第二、采用RoIpooling对具有不同尺度大小的候选区域进行特征提取，候选区域映射为7×7大小的特征图，该方法有效避免裁剪或者调整大小对图像原始形状信息造成的破坏；具体为：

由于候选区域是对应原始图像的尺度，而在该部分处理的数据为多表征特征图，所以应将候选区域对应的特征图的区域平均分为7×7份网络，并对每一份网格进行最大池化处理，经过上述处理，以将任何形状的候选区域映射到7×7大小的特征空间；

第三、目标回归预测，具体为：

RoIpooling中文含义为感兴趣区域池化；

采用与区域建议网络的训练方式相同的参数训练方式同对该部分涉及的网络进行参数训练。

该算法的总体结构如图7所示。

步骤四、目标检测；

经过上述过程，算法中的所有参数得到了更新并生成最优的值。目标预测主要包括：首先，经过预处理之后的图像被输入到骨干网络提取多表征特征图；接下来，多表征特征图通过候选区域生成算法生成候选区域；最后，候选区域经过采样算法丢弃冗余部分，然后通过结合原多表征特征图生成最终的目标类别和目标的边界框参数，完成图像/视频的目标检测。

本发明重新设计特征提取的骨干网络，发掘图像/视频在不同表示空间下的特征，生成了更加健壮的特征图并用于后续的目标检测任务。由于基于混合表征的骨干网络的加入，该算法在复杂场景下同样能够保持良好的性能。

步骤一一所述的数据预处理的步骤中，将数据集中的样本通过数据预转换为标准的输入格式的过程包括数据样本采样、数据标准化和样本尺度调整部分，具体为：

目标检测任务数据集通常分为图像和视频两种类型的样本。算法中深度学习模型的输入规定必须为单一的形式，因此在数据预处理部分将数据集样本转换为统一的表示形式。

若样本为图像类型，则直接使用图像格式作为模型的输入，若样本为视频类型，则用间隔采样方法获得图像帧样本，将采样到的图像帧作为模型的输入；例如，对输入的一段视频，每间隔16帧采样一次。并可根据不同应用场景下的实时性需求，调整采样的间隔帧数，通过较小的间隔数提高输出视频的流畅度。

(ii)所述的数据标准化部分：

经过上述操作数据集中的样本被统一为图像的形式，之后，采用下式对图像进行标准化操作，使数据分布均匀化，减少模型学习数据分布的可能性，提升模型的泛化能力；

其中，I_norm表示标准化之后的图像的矩阵，I表示原图像的矩阵，mean表示图像的均值，std表示图像的方差；本申请采用ImageNet数据集上的通用均值和方差，即设置mean＝(0.485，0.456，0.406)，std＝(0.229，0.224，0.225)；

(iii)样本尺度调整部分：

深度学习模型在训练过程中通常批量输入多个样本，并通过GPU实现并行运算提高训练速度。数据集中经常出现尺度大小不相等的样本，这导致无法使用批量训练，所以采用以下策略解决这个问题：

创建值全为0并且形状和最大的样本形状相同的张量，将该张量复制N份并在维度0上进行连接操作，如果计算资源有限，设定生成张量的形状为最大样本的整数倍；

遍历所有样本复制到新生成的张量，并对齐左上角保证坐标不变，如果上一步操作中采用了等比例缩放，则这里的每一个样本也进行相同比例缩放后复制到新的张量；相比Resize操作，上述方法能够保留图像的形状信息，保证图像语义信息不被破坏。

步骤一二所述的空间域信息特征提取的步骤中，将经过标准化处理后的图像映射为空间域信息I_s(x，y)，并直接输入到空间域子网，得到空间域特征图F_s的过程作为在空间域信息特征提取分支，其具体为：

遵循现代网络标准设计方法，空间域子网采用类自动编码器的主体结构，并设计编码器部分由2层卷积核为3×3，步长为1卷积神经网络和单层卷积核为3×3，步长为2的卷积神经网络组成；图像的空间域信息被馈送到编码器，生成包含空间语义信息的特征图；此时所输出的特征图的尺度缩小到原尺度的二分之一；

此外，为了提高网络的学习能力，拟定在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块，用于捕捉不同感受野下图像的特征信息；与传统卷积层不同的是，空洞卷积块重新设计感受野的采样方式，其中，一维空洞卷积定义为：

编码器和解码器之间的6层空洞卷积块的扩张率拟设定为(2，2，2，4，4，4)，每层空洞卷积块包含两层具有相同扩张率的空洞卷积；除此之外，在不同扩张率的空洞卷积块之后加入残差连接，用于聚合不同感受野下的多尺度信息；总的来说，空间域子网采用简单高效的设计方案，它的图像的数据流动形式化为：

F_s＝Decoder(ResDilated(Encoder(I_s(x,y)))) (4)

式中，Encoder和Dncoder分别表示上述的编码器和解码器，ResDilated表示6层具有残差连接的空洞卷积块，I_s(x，y)和F_s表示输入的空间域图像和输出的空间特征。在空间域子网中，每层卷积后添加批归一化层和ReLU激活函数，增强该网络空间域信息特征建模能力。

步骤一三所述的频域信息特征提取的步骤具体为：

频域子网接受图像的频域信息作为输入，其频域信息I_f＝x+iy为空间域信息进行快速傅里叶变换得到。频域信息为复值形式，其中包含振幅分量x和相位分量y。由于传统深度神经网络的运算算子都是实值的，因此目前性能良好的深度神经网络算法架构不能直接应用于图像频域空间信息。本发明保留图像频域的完整性，采用复数卷积作为基础算子设计频域子网，以实现图像不同频率下的傅里叶系数的建模。由于U-Net结构在图像特征提取任务中具有良好的性能，因此，

第一、设计频域子网的结构，频域子网结构如图3所示：

所述的复数卷积用于有效解决传统卷积算子不能进行复值运算的问题，具体地：复数卷积通过两个不同的实值卷积组合实现对复数等同传统卷积的操作，其中实值卷积的滤波器的参数是共享的；设给定一个复数h＝x+y和复数卷积滤波器W＝A+Bi，式中，x和y分别表示实数分量和虚数分量，A和B为两个不同的传统卷积算子；复数h和复数滤波器W的卷积运算表示为：

W*h＝(A*x-B*y)+i(B*x-A*y) (5)

式中，*表示常规的实数卷积运算；运算过程的直观表述如图4所示。

CReLU(z)＝ReLU(R(z))+iReLU(I(z)) (6)

式中，z是复数，R(z)和I(z)分别表示复数的实部和虚；

第二、获得特征图；

首先，设计特征提取方法：

图像的频域信息I_f(u，v)通过单层卷积核为3×3、步长为1的复数卷积将特征图的通道数映射到32维；然后输出的特征图依次经过两层卷积核为3×3、步长为1的复数卷积提取深度特征，该阶段并不改变特征图通道维度；最后，使用2×2最大池化将特征图尺度缩小为原尺度的二分之一，并输入到下一阶段进行深度特征提取；

之后，循环执行三次如下操作：

stage_i+1＝Maxpool(σ(stage_i)) (7)

第三、进行拼接操作，生成新的特征图：

r_i-1＝Up(σ(cat(stage_i，U_i))) (8)

第四、通过逆傅里叶变换将特征图映射到空间域，以方便使用像素的位置信息来深度融合不同表征空间的信息。

步骤一四所述的采用自适应融合方式融合提取的空间域特征和频域特征，生成具有完备表征的多表征特征图，具体为：

上述两个分支分别在图像空间域和频域表示中提取具有标志信息的特征图。为了充分利用来自不同流的特征信息，本发明采用自适应融合模块动态融合来自双分支的特征。本发明设计基于门控融合机制的网络来学习不同分支特征的重要性权重。空间域分支输出的特征图F_s和频域分支输出的F_f在通道维度进行拼接，之后，输入到两层卷积核为3×3、步长为1的传统卷积层生成不同像素的权重矩阵，该权重矩阵和经过处理后的特征矩阵具有相同的大小；之后，将计算生成的权重矩阵平均切分为两个通道数为3的权重矩阵，分别与对应特征图F_s和F_f的相乘，生成融合空间域和频域信息的多表征特征图，其数据流动如下：

weight＝Sigmoid(σ(cat(F_f，F_s))) (9)

F_hid＝cat(weight[0]×F_f，weight[1]×F_s) (10)

式中，σ(·)代表卷积神经网络，Sigmoid为激活函数，cat表示在通道维度的拼接操作；为了突出显示多表征特征图的特点，本发明采用改造之后的EfficientNetB0生成多表征特征图F，并用于后续的感兴趣区域生成算法和目标预测算法；自适应特征融合的结构如图5所示；其中，

所述的改造之后的EfficientNetB0的结构及改进点为：

空间域和频域信息生成的融合特征表示空间维度低，以至于并不能完全发挥混合特征的多表征优势。因此，本发明采用高效的特征提取网络EfficientNetB0来映射融合特征到更高维的特征空间。为了使EfficientNetB0能够利用融合特征图生成最终的特征图F，并且将特征图F顺利应用于后续的感兴趣区域生成和目标预测。本发明将EfficientNetB0第一阶段的卷积模块的输入通道修改为6，同时在特征预测阶段保留前六个阶段作为特征提取器；利用改进后的EfficientNetB0，在多表征图像特征提取阶段，输入大小为(H，W，3)的图像经过双分支特征提取网络和改进后的EfficientNetB0特征提取器得到大小为(H/16，W/16，112)的特征图F；该特征图F聚合了空间域和频域表示空间的特征信息，可以有效提高整体算法的鲁棒性。特别地，由于多表征图像特征算法结构的设计，该算法允许任意尺寸的图像作为输入。

另外，本申请采用如下训练方法以使算法中各组件的作用达到最大化，所述的训练方法具体为：首先，在ImageNet数据集上重新训练特征提取骨干网络。请注意，在该阶段网络模型选用完整版的EfficientNetB0；

然后，使用预训练骨干网络参数和初始化的区域建议网络的参数来训练区域建议网络，该阶段骨干网络和区域建议网络的参数都会被更新；

接下来，固定区域建议网络的参数，训练整个目标检测网络，该阶段骨干网络和目标回归预测中的网络参数会被更新；

再进一步，固定骨干网络参数，对区域生成网络进行训练，该阶段仅区域生成网络参数改变；

最后，固定骨干网络参数，对整个算法进行训练。该阶段区域生成网络和目标回归预测中的网络参数会被更新，并完成整个训练过程。

经过上述过程，算法中所有参数得到了更新并生成最优的值。模型预测包括：经过预处理之后的图像被输入到骨干网络提取多表征特征图。之后，多表征特征图通过候选区域生成算法生成候选区域。之后，候选区域经过采样算法丢弃冗余部分，然后通过结合原多表征特征图生成最终的目标类别和目标的边界框参数，完成图像/视频的目标检测。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。