CN109919223B

CN109919223B - 基于深度神经网络的目标检测方法及装置

Info

Publication number: CN109919223B
Application number: CN201910167068.1A
Authority: CN
Inventors: 龙浩
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2020-10-16
Anticipated expiration: 2039-03-05
Also published as: CN109919223A

Abstract

本发明公开了一种基于深度神经网络的目标检测方法及装置，包括：基于特征学习网络提取待测视频中视频帧的不同尺度的深层特征；对视频帧进行超像素分割获取超像素结构图；对深层特征和超像素结构图进行特征融合获取第一融合特征；基于结构学习网络并且根据第一融合特征获取空间编码特征；基于特征融合网络对深层特征和空间编码特征进行特征融合获取第二融合特征；利用条件随机场分类器对第二融合特征进行目标分类，并且对目标分类结果进行边框回归得到目标检测结果。基于上述方法和装置可以检测视频中背景复杂、密度高、目标小的目标，提高目标检测的精度。

Description

基于深度神经网络的目标检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度神经网络的目标检测方法及装置。

背景技术

近几年，目标检测技术引起人们的极大关注，并在众多领域取得广泛的应用。但是基于航拍影像的目标检测任务仍然面临很多挑战：首先，大多数航空影像都是垂直或倾斜地在高空拍摄获取，所以图像背景从地面拍摄的自然景观图像更混乱。例如，在航拍影像中检测车辆时，一些类似的物体，如屋顶设备和变电站箱可能导致误报检测。其次，在广阔的视野拍摄影像时，航拍影像中的物体非常小、且密度高于自然场景影像。最后，缺乏大规模和良好的注释数据集，这限制了训练网络的检测性能。

目前，对航拍影像的目标检测方法大多基于滑动窗口搜索和浅层学习的特征，但是由于该方法不能从航拍影像中获取检测对象全面的信息，所以其应用十分有限，并导致其在不同任务的监测结果的不一致性。例如，基于R-CNN的目标检测方法，虽然卷积神经网络具有可以学习强大的层次结构功能，但是它们用于在航拍影像中对象检测任务时，由于该网络执行多个最大化和下采样操作，会导致信号下采样问题和相对较弱的空间描述。另一方面，由于航拍设备的高度多变和多角度旋转，航拍影像中的物体通常具有小尺寸和多尺度和形状的变形，这本质上限制了卷积神经网络的空间描述能力。

相应的，本领域需要一种新的目标检测方法及装置来解决上述问题。

发明内容

本发明的目的是提供一种基于深度神经网络的目标检测方法，能够检测视频中背景复杂、密度高、目标小的目标，提高目标检测的精度。

为达成上述目的，本发明的第一方面提供了一种基于深度神经网络的目标检测方法，所述方法包括：

基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征；

对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图；

对所述深层特征和超像素结构图进行特征融合获取第一融合特征；

基于预设的结构学习网络并且根据所述第一融合特征获取所述视频帧对应的空间编码特征；

基于预设的特征融合网络对所述深层特征和空间编码特征进行特征融合获取第二融合特征；

利用预设的条件随机场分类器对所述第二融合特征进行目标分类，并且对目标分类结果进行边框回归得到目标检测结果；

其中，所述特征学习网络为基于深度卷积限制玻尔茨曼机构建的神经网络，所述结构学习网络为基于条件随机场构建的神经网络，所述特征融合网络为基于深度稀疏自动编码器构建的神经网络。

进一步地，所述结构学习网络包括条件随机场网络层和空间编码网络层，“基于预设的结构学习网络并且根据所述第一融合特征获取所述视频帧对应的空间编码特征”的步骤包括：

利用所述条件随机场网络层并且根据所述第一融合特征，获取所述超像素结构图中每个超像素块的分类概率值；

利用所述空间编码网络层并且根据所述分类概率值以及所述超像素块与相邻超像素块之间的距离关系，获取所述超像素块对应的空间编码特征。

进一步地，在“利用所述条件随机场网络层并且根据所述第一融合特征，获取所述超像素结构图中每个超像素块的分类概率值”的步骤之前，所述方法还包括：

按照下式所示的能量函数并且利用图切算法对所述结构学习网络进行网络训练：

其中，V表示超像素结构图中超像素块集合，E表示相邻超像素块的连接关系集合，e_ij表示第i个超像素块与第j个超像素块之间的连接关系，c_i表示所述第i个超像素块对应的初始分类概率值，l_i表示所述第i个超像素块对应的分类类别，l_j表示所述第j个超像素块对应的分类类别，“ψ(c_i，l_i)”表示预设的所述c_i和l_i对应的单元项函数，“Φ(l_i，l_j)”表示预设的所述l_i和l_j对应的双元项函数，w表示预设的控制所述单元项函数与双元项函数之间比重的系数；

所述单元项函数ψ(c_i,l_i)如下式所示：

ψ(c_i,l_i)＝exp(-α_uc_i)

其中，α_u表示第u个超像素块；

所述双元项函数Φ(l_i,l_j)如下式所示：

其中，β_p表示第p个超像素块的颜色信息对应的权重，S_i表示第i个超像素块中所有像素点的像素平均值，S_j表示第j个超像素块中所有像素点的像素平均值，

表示S_pi-S_pj的2范数的平方，σ_Φ表示超像素块之间基于像素平均值的标准差。

进一步地，“利用所述空间编码网络层并且根据所述分类概率值以及所述超像素块与相邻超像素块之间的距离关系，获取所述超像素块对应的空间编码特征”的步骤包括：

按照下式所示的方法获取所述超像素块对应的空间编码特征：

其中，Θ(u)表示第u个超像素块对应的空间编码特征，λ表示预设的归一化因子，θ_i表示第i个超像素块对应的分类概率值，θ_j表示第j个超像素块对应的分类概率值，T表示矩阵的转置，k_d表示预设的距离衰减系数，d(v_i,v_j)表示第i个超像素块与第j个超像素块之间的距离，v_i表示第i个超像素块对应的顶点，v_j表示第j个超像素块对应的顶点，σ_d表示所述第u个超像素块与相邻超像素块之间最大距离，所述第i个超像素块和第j个超像素块均为所述第u个超像素块的相邻超像素块，V_u表示第u个超像素块与其相邻超像素块组成的超像素块集合。

进一步地，“基于预设的特征融合网络对所述深层特征和空间编码特征进行特征融合获取第二融合特征”的步骤包括：

将所述深层特征和空间编码特征合并为一特征向量x；

所述特征融合网络根据所述特征向量x并且按照下式所示方法，获取第二融合特征：

其中，

表示第二融合特征，h^l表示基于特征融合网络的编码层对所述特征向量x编码获取的编码特征，b_h表示预设的所述编码层对应的偏置项且

N_h表示所述编码层中隐节点的数量，sigmoid()表示sigmoid激活函数，W表示预设的权重矩阵且

N表示所述特征融合网络隐节点的数量，b_o表示所述特征融合网络的解码层对应的偏置项且

T表示矩阵的转置。

进一步地，在“将所述深层特征和空间编码特征合并为一特征向量x”的步骤之前，所述方法还包括：

基于预设的特征向量样本并且按下式所示的目标函数对所述特征融合网络进行网络训练：

其中，O表示所述特征融合网络对应的目标函数，N_s表示特征向量样本的数量，θ表示预设的稀疏惩罚稀疏，

表示预设的权重惩罚稀疏，x_a表示第a个特征向量样本，

表示所述x_a对应的第二融合特征，

表示所述特征融合网络中第d个隐节点基于所述特征向量样本的平均激活值，ρ表示预设的所述

对应的期望，

表示所述

与ρ之间的KL散度。

进一步地，所述卷积限制玻尔茨曼机包括6个网络层；其中，第1、3、5个网络层为卷积层，每个所述卷积层包括30个5×5的像素滤波器，第2个网络层为包括4×4最大池化窗口的最大池化层，第4个网络层和第6个网络层均为包括2×2最大池化窗口的最大池化层。

进一步地，“对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图”的步骤包括：

基于简单线性迭代聚类算法对所述视频帧进行超像素分割；

计算超像素分割后得到的每个超像素块的像素平均值；

根据每个超像素块与其它个超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。

本发明的第二方面还提供了一种存储装置，其中存储多条程序，所述程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

本发明的第三方面还提供了一种处理装置，包括处理器，适于执行各条程序；以及存储设备，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

本发明的优点是：

本发明提供的基于深度神经网络的目标检测方法，可以检测视频中背景复杂、密度高、目标小的目标，提高目标检测的精度。

附图说明

图1是本发明实施例中的一种基于深度神经网络的目标检测方法的主要步骤示意图。

图2是本发明实施例中的一种结构学习网络的网络训练流程示意图。

图3是本发明实施例中的一种基于深度神经网络的目标检测方法的流程示意图。

图4是本发明实施例中的一种在UAVDT数据集上的目标检测结果示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性示出了一种基于深度神经网络的目标检测方法的主要步骤，如图1所示，本发明的基于深度神经网络的目标检测方法可以包括如下步骤：

步骤S1：基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征。

具体地，待测视频为欲进行目标检测任务的视频序列，其包含多个视频帧。特征学习网络为基于深度卷积限制玻尔茨曼机构建的神经网络。由于检测目标在各视频帧中的位置、旋转、尺度等具有多变性，而利用卷积操作提取的特征表达对倾斜、平移、缩放等是具有不变性，因此，深层特征可以在视频中分层表达小目标和背景信息，提高目标检测精度，并且利用不同尺度的深层特征实现目标检测比基于人工提取浅层特征的方法更准确方便。

特征学习网络包括卷积限制玻尔茨曼机。本实施例中，卷积限制玻尔茨曼机包括6个网络层；其中，第1、3、5个网络层为卷积层(即卷积检测层)，每个卷积层包括30个5×5的像素滤波器，第2个网络层为包括4×4最大池化窗口的最大池化层，第4个网络层和第6个网络层均为包括2×2最大池化窗口的最大池化层。采用无监督的学习算法训练该卷积限制玻尔茨曼机，并利用随机梯度下降算法优化该卷积限制玻尔茨曼机的参数，其中学习率设置为0.01。

利用无监督学习的卷积限制玻尔茨曼机提取视频帧的不同尺度的深度特征，可以有效解决目前缺乏大规模和良好注释数据集的目标检测问题，尤其适用于航拍视频的目标检测。

步骤S2：对视频帧进行超像素分割获取视频帧对应的超像素结构图。

具体地，该超像素结构图是一种描述多元随机变量之间条件独立关系的概率模型，其由一组节点和节点之间的边组成，每个节点表示一个随机变量(或一组随机变量)，边表示这些随机变量之间的概率依赖关系。超像素分割可以有效将视频帧中颜色、语义、类别等相似的目标划分超像素。本实施例中，基于简单线性迭代聚类算法对视频帧进行超像素分割；计算超像素分割后得到的每个超像素块的像素平均值；根据每个超像素块的像素平均值和其它超像素块的像素平均值之间的概率依赖关系获取超像素结构图。该简单线性迭代聚类算法还可以消除视频帧中少量零散的异常像素点，以进一步提高目标检测的精度。另外，视频帧中的超像素的数量远小于像素的数量，因此可以显著提高网络的运算速度。超像素结构图中可以明确保留超像素块之间的边界，可以更加精确的区分相邻物体，进一步地提高对小目标的监测精度。

步骤S3：对深层特征和超像素结构图进行特征融合获取第一融合特征。具体地，以超像素结构图作为视频帧的一特征表示，将深层特征和超像素结构图进行特征融合，获取第一融合特征。该第一融合特征为一深度多尺度特征。

步骤S4：基于预设的结构学习网络并且根据第一融合特征获取视频帧对应的空间编码特征。

具体地，结构学习网络为基于条件随机场构建的神经网络，条件随机场具有很强的显示空间关系学习能力，在深度神经网络中引入条件随机场可以大大增加深度神经网络的结构推理能力，将条件随机场作为一个网络层嵌入到结构学习网络中，可以深度学习视频帧中目标的空间位置关系，解决卷积神经网络的空间描述能力不足的问题。

本实施例中，结构学习网络包括条件随机场网络层和空间编码网络层，具体地，利用条件随机场网络层并且根据第一融合特征，获取超像素结构图中每个超像素块的分类概率值，该分类概率值是0至1之间的值，若视频帧中某些像素之间具有较大的空间位置关联性，则概率值较高，反之，概率值低，如此可以很好的将视频帧中的目标和背景区分出来。利用空间编码网络层并且根据分类概率值以及超像素块与相邻超像素块之间的距离关系，获取超像素块对应的空间编码特征。该空间编码特征即包含超像素特征又包含空间关系特征。超像素块与相邻超像素块之间的距离关系可以是基于欧式距离或曼哈顿距离或且比雪夫距离进行度量得到。更为具体地，针对第u个超像素图像块以及第u个超像素块与相邻超像素块之间的连接关系图G_u＝(V_u,E_u)，按照公式(1)所示的方法获取第u个超像素块对应的空间编码特征：

其中，Θ(u)表示第u个超像素块对应的空间编码特征，λ表示预设的归一化因子，θ_i表示第i个超像素块对应的分类概率值，θ_i∈Rⁿ，R表示实数集，n表示分类类别的数量，θ_j表示第j个超像素块对应的分类概率值，所述T表示矩阵的转置，k_d表示预设的距离衰减系数，d(v_i,v_j)表示第i个超像素块与第j个超像素块之间的距离，v_i表示第i个超像素块对应的顶点，v_j表示第j个超像素块对应的顶点，σ_d表示第u个超像素块与相邻超像素块之间最大距离，第i个超像素块和第j个超像素块均为第u个超像素块的相邻超像素块，V_u表示第u个超像素块与其相邻超像素块组成的超像素块集合。

参阅附图2，图2示例性示出了对结构学习网络进行网络训练的主要流程，如图2所示对结构学习网络进行网络训练的步骤可以包括：将预设的第一融合特征及其对应真值标签输入结构学习网络，计算结构学习网络的能量函数，并且利用图切算法(graph-cutalgorithm)对结构学习网络进行网络训练。

具体地，定义视频帧的超像素结构图为G＝(V,E)，将每个超像素块作为一个顶点v，v∈V，相邻区域超像素块之间的连接关系作为边e，e∈E∈R^V×V，R^V×V表示维度为V×V的实数集，则能量函数如公式(2)所示：

其中，V表示超像素结构图中超像素块集合，E表示相邻超像素块的连接关系集合，l表示预设的分类类别，e_ij表示第i个超像素块与第j个超像素块之间的连接关系，c_i表示第i个超像素块对应的初始分类概率值，c_i可以通过Softmax分类器计算得到，l_i表示第i个超像素块对应的分类类别，l_j表示第j个超像素块对应的分类类别，“ψ(c_i,l_i)”表示预设的c_i和l_i对应的单元项函数，“Φ(l_i,l_j)”表示预设的l_i和l_j对应的双元项函数，w表示预设的控制单元项函数与双元项函数之间比重的系数；

单元项函数ψ(c_i,l_i)如公式(3)所示：

ψ(c_i,l_i)＝exp(-α_uc_i) (3)

其中，α_u表示第u个超像素块；

双元项函数Φ(l_i,l_j)如公式(4)所示：

步骤S5：基于预设的特征融合网络对深层特征和空间编码特征进行特征融合获取第二融合特征。

特征融合网络为基于深度稀疏自动编码器构建的神经网络，特征融合网络可以包括深度稀疏自动编码器(Deep sparse auto-encoder,DSA)，即可以基于深度稀疏自动编码器根据深层特征和空间编码特征进行特征融合，获取第二融合特征。

具体地，将深层特征和空间编码特征合并为一特征向量x，例如，深层特征和空间编码特征可以是利用向量或矩阵的形式进行表示，则可以将这两种特征采用首尾连接的方式构成新的向量，为特征向量x。

特征融合网络根据特征向量x并且按照公式(5)所示方法，获取第二融合特征：

其中，

表示第二融合特征，h^l表示基于特征融合网络的编码层对特征向量x编码获取的编码特征，b_h表示预设的编码层对应的偏置项且

N_h表示编码层中隐节点的数量，sigmoid()表示sigmoid激活函数，W表示预设的权重矩阵且

N表示特征融合网络隐节点的数量，b_o表示特征融合网络的解码层对应的偏置项且

T表示矩阵的转置。

本实施例中，特征融合网络采用论文Y.Bengio,"Learning Deep Architecturesfor AI,"Found.Trends Mach.Learn.,vol.2,no.1,pp.1-127,2009.中提出的深度稀疏自动编码器神经网络框架，并进行网络训练得到特征融合网络。特征融合网络的网络训练步骤可以包括：

基于预设的特征向量样本并且按公式(6)所示的目标函数对所述特征融合网络进行网络训练：

其中，O表示特征融合网络对应的目标函数，N_s表示特征向量样本的数量，θ表示预设的稀疏惩罚稀疏，

表示预设的权重惩罚稀疏，x_a表示第a个特征向量样本，

表示x_a对应的第二融合特征，

表示特征融合网络中第d个隐节点基于特征向量样本的平均激活值，ρ表示预设的

对应的期望，

表示

与ρ之间的KL散度(Kullback-Leibler散度)。

本实施中，特征融合网络包括三层深度稀疏自动编码器，并且采用无监督的网络训练方式，该三层深度稀疏自动编码器网络节点数分别设置为1100,800,500。每层的稀疏惩罚系数θ分别设为2,0.1,0.05。权重惩罚系数

设为0.001，ρ为0.05。学习率为0.1。

步骤S6：利用预设的条件随机场分类器对第二融合特征进行目标分类，并且对目标分类结果进行边框回归得到目标检测结果。具体地，条件随机场分类器基于条件随机场构建的神经网络，其作为一分类器并且根据第二融合特征进行目标分类，最后将检测出的目标用不同颜色的方框框出，得到目标在视频帧中的位置信息和大小信息，以实现目标检测。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

参阅附图3，图3示例性示出了基于深度神经网络的目标检测方法的主要流程，如图3所示，基于深度神经网络的目标检测方法可以包括将待测视频中的视频帧输入特征学习网络提取待测视频中视频帧的不同尺度的深层特征；对视频帧进行超像素分割获取超像素结构图；对深层特征和超像素结构图进行特征融合获取第一融合特征；基于结构学习网络并且根据第一融合特征获取空间编码特征；基于特征融合网络对深层特征和空间编码特征进行特征融合获取第二融合特征；利用条件随机场分类器对第二融合特征进行目标分类，并且对目标分类结果进行边框回归得到目标检测结果。

其中，特征学习网络、结构学习网络、特征融合网络，这三个网络可以分别进行多次训练。特征学习网络和特征融合网络均采用无监督的训练方式及贪婪的学习各层网络参数，即当底层网络训练好后，底层网络参数固定，并且将底层网络的输出作为上一层网络的输入来对上一层网络进行训练。通过对已训练的网络的不断叠加，构成特征学习网络和特征融合网络。本实施例中，训练数据集采用30个视频样本，测试采用20个视频样本。采用3000epochs预训练，5000epochs微调。在结构学习网络中，图切算法(graph-cutalgorithm)用来获取该网络的最佳权重值，设置结构学习网络的非负L2正则化参数为0.2，距离衰减系数设为0.1。特征融合网络权重指标设为0.001，激活参数设为0.05,1000作为batch大小，2000作为epoch大小。

为了评估本发明方法的有效性，使用UAVDT(The Unmanned Aerial VehicleBenchmark:Object Detection and Tracking用于无人识别和跟踪任务的复杂场景数据集)数据集对本发明方法进行测试。该UAVDT数据集是2018年建立的新数据集，有更复杂的情景和对目标检测具有更高的挑战。该UAVDT数据集收集的数据反映了6个不同的城市中采集的视频，并定义6个属性(即天气状况，车辆遮挡和视线，飞行高度，车辆类别和相机视图)。考虑到部分区域目标的分辨率过低，该UAVDT数据集还定义某些包含过小车辆的区域为无效区域，如图4所示。该UAVDT数据集中包含了大量密集的小目标对象，且设置的如夜晚，大雾等多种具有挑战性的且更符合实际应用特点的无限制的真是场景视频。用该UAVDT数据集评估本发明方法的性能更具有实际意义。该数据集中标注了2,700辆汽车。本发明方法选择包括以上所有属性和场景的50个视频序列生成40,735视频帧用于目标检测实验。

采用国际上认可的4个指标：Precision，Recall，F1-score和mean IoU。与目前最新的目标检测方法Mask R-CNN，(即文献K.He，G.Gkioxari，P.Dollár,and R.Girshick，"Mask R-CNN"in 2017 IEEE International Conference on Computer Vision(ICCV)，2017，pp.2980-2988中提出的方法))，YOLOv3(即文献J.a.F.Redmon，Ali，"YOLOv3:AnIncremental Improvement"arXiv preprint arXiv:1312.6229，2018中提出的方法)，SingleNet(即文献J.Li,J.Qian,and J.Yang,"Object detection via feature fusionbased single network,"in 2017 IEEE International Conference on ImageProcessing(ICIP),2017,pp.3390-3394中提出的方法)进行对比。结果如表1所示。

表1性能对比结果

继续参阅附图4，图4示例性示出了本发明方法在UAVDT数据集上的目标检测结果，如图4所示，第一行左数第一幅图为白天基于飞行高度拍摄的侧视图，第一行左数第二幅图为白天基于中等飞行高度拍摄的侧视图，第一行左数第三幅为夜间基于第飞行高度拍摄的前视图，第二行左数第一幅图为雾天气情况下基于中等飞行高度拍摄的前视图，第二行左数第二幅图为白天基于高飞行高度拍摄的俯视图，第二行左数第三幅图为白天基于中等飞行高度拍摄的俯视图，其中可以对图中的公共汽车和小汽车的类别进行分类。从图中可以看出本发明方法可以实现高密度，小目标的精确目标检测和分类，且对于某些被遮挡和不在视线之内的目标也可以精准定位。在一些光线较暗的场景中，同样表现出良好的性能。

进一步地，基于上述方法实施例，本发明还提供了一种存储装置，该存储多条程序，这些程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

进一步地，基于上述方法实施例，本发明还提供了一种处理装置，包括该处理装置包括处理器和存储设备。其中，处理器可以适于执行各条程序，存储设备可以适于存储多条程序，这些程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明实施例的装置的具体工作过程以及相关说明，可以参考前述实施例方法中的对应的过程，且与上述方法具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤及装置，能够结合本文中所公开的实施例描述的各示例的方法步骤及装置，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

以上所述是本发明的较佳实施例及其所运用的技术原理，对于本领域的技术人员来说，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案基础上的等效变换、简单替换等显而易见的改变，均属于本发明保护范围之内。

Claims

1.一种基于深度神经网络的目标检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述结构学习网络包括条件随机场网络层和空间编码网络层，“基于预设的结构学习网络并且根据所述第一融合特征获取所述视频帧对应的空间编码特征”的步骤包括：

3.如权利要求2所述的基于深度神经网络的目标检测方法，其特征在于，在“利用所述条件随机场网络层并且根据所述第一融合特征，获取所述超像素结构图中每个超像素块的分类概率值”的步骤之前，所述方法还包括：

所述单元项函数ψ(c_i,l_i)如下式所示：

ψ(c_i,l_i)＝exp(-α_uc_i)

其中，α_u表示第u个超像素块；

所述双元项函数Φ(l_i,l_j)如下式所示：

表示

的2范数的平方，σ_Φ表示超像素块之间基于像素平均值的标准差。

4.如权利要求2所述的基于深度神经网络的目标检测方法，其特征在于，“利用所述空间编码网络层并且根据所述分类概率值以及所述超像素块与相邻超像素块之间的距离关系，获取所述超像素块对应的空间编码特征”的步骤包括：

5.如权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，“基于预设的特征融合网络对所述深层特征和空间编码特征进行特征融合获取第二融合特征”的步骤包括：

将所述深层特征和空间编码特征合并为一特征向量x；

其中，

T表示矩阵的转置。

6.如权利要求5所述的基于深度神经网络的目标检测方法，其特征在于，在“将所述深层特征和空间编码特征合并为一特征向量x”的步骤之前，所述方法还包括：

表示预设的权重惩罚稀疏，x_a表示第a个特征向量样本，

表示所述x_a对应的第二融合特征，

对应的期望，

表示所述

与ρ之间的KL散度。

7.如权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述卷积限制玻尔茨曼机包括6个网络层；其中，第1、3、5个网络层为卷积层，每个所述卷积层包括30个5×5的像素滤波器，第2个网络层为包括4×4最大池化窗口的最大池化层，第4个网络层和第6个网络层均为包括2×2最大池化窗口的最大池化层。

8.如权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，“对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图”的步骤包括：

基于简单线性迭代聚类算法对所述视频帧进行超像素分割；

计算超像素分割后得到的每个超像素块的像素平均值；

根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。

9.一种存储装置，其中存储多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1至8中任一项所述的基于深度神经网络的目标检测方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现权利要求1至8中任一项所述的基于深度神经网络的目标检测方法。