CN104537647B

CN104537647B - 一种目标检测方法及装置

Info

Publication number: CN104537647B
Application number: CN201410771011.XA
Authority: CN
Inventors: 贾惠柱; 陈瑞; 解晓东; 文湘鄂
Original assignee: Peking University; China Security and Fire Technology Co Ltd
Current assignee: Peking University; China Security and Fire Technology Co Ltd
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2017-10-20
Anticipated expiration: 2034-12-12
Also published as: CN104537647A

Abstract

本发明实施例提供了一种目标检测方法及装置，用以解决现有的行人检测方法存在的多目标检测精度较低的问题。该方法包括：确定待检测图像的至少一类特征向量；将确定的特征向量输入训练好的深度学习模型得到该深度学习模型的隐层节点的状态值；将所述深度学习模型的最后一层隐层节点的状态值输入分类器；根据所述分类器的输出结果确定待检测图像包含目标的个数。

Description

一种目标检测方法及装置

技术领域

本发明涉及图像及视频处理技术领域，尤其涉及一种目标检测方法及装置。

背景技术

目前主流的行人检测方法较多采用帧间差、背景差、光流场计算、背景建模和神经网络学习等来区分背景和行人，以实现检测和跟踪行人的目的。然而由于行人等运动目标很容易受到光照变化、姿势、阴影和遮挡等的影响，因此大大降低这些方法的正确识别率。此外，在复杂背景条件下现有的方法对多个行人目标的检测精度也较低，无法完全满足当前安防监控和智能交通等领域的新要求。

发明内容

本发明实施例提供一种目标检测方法及装置，用以解决现有的行人检测方法存的多目标检测精度较低的问题。

基于上述问题，本发明实施例提供的一种深度学习方法，包括：

一种目标检测方法，包括：

确定待检测图像的至少一类特征向量；

将确定的特征向量输入训练好的深度学习模型得到该深度学习模型的隐层节点的状态值；

将上述深度学习模型的最后一层隐层节点的状态值输入分类器；

根据上述分类器的输出结果确定待检测图像包含目标的个数。

较佳的，所述特征向量包括以下三类：

第一类：图像的每个子块的几何形状特征向量；

第二类：图像的每个子块的方向梯度直方图特征向量；

第三类：图像的各子块两两之间的颜色自相似特征向量。

较佳的，所述训练好的深度学习模型是通过对正负样本图像的至少一类特征向量进行学习得到的。

较佳的，所述训练好的深度学习模型是通过对正负样本图像的至少一类特征向量进行学习得到的具体包括：

确定正负样本图像的至少一类特征向量；

初始化深度学习模型；

利用确定的正负样本图像的至少一类特征向量预训练所述上述深度学习模型，得到所述深度学习模型的预训练参数；

在所述深度学习模型的预训练参数的基础上调整所述深度学习模型的参数。

较佳的，利用方向滤波器组对图像的各子块进行滤波，得到图像的各子块的在相应方向上的几何形状特征向量；所述方向滤波器组为高波滤波器组。

较佳的，通过以下步骤确定图像的各子块两两之间的颜色自相似特征向量：

将图像划分为N×M子块；

分别计算每一子块的颜色直方图向量；

利用L₂范数确定N×M子块中两两子块间的颜色直方图向量的相似值；

将确定的各相似值作为图像的子块间的颜色自相似特征向量。

较佳的，所述深度学习模型为受限波尔兹曼机神经网络模型，所述分类器为软最大化分类器。

一种目标检测装置，包括：

特征向量确定单元，用于确定待检测图像的至少一类特征向量；

状态值确定单元，用于将确定的特征向量输入训练好的深度学习模型得到该深度学习模型的隐层节点的状态值；

分类单元，用于将上述深度学习模型的最后一层隐层节点的状态值输入分类器；

目标确定单元，用于根据上述分类器的输出结果确定待检测图像包含目标的个数。

较佳的，所述特征向量包括以下三类：

第一类：图像的每个子块的几何形状特征向量；

第二类：图像的每个子块的方向梯度直方图特征向量；

第三类：图像的各子块两两之间的颜色自相似特征向量。

较佳的，所述目标检测装置还包括：学习单元，用于通过对正负样本图像的至少一类特征向量进行学习得到的所述训练好的深度学习模型。

较佳的，所述学习单元，具体用于确定正负样本图像的至少一类特征向量；初始化深度学习模型；利用确定的正负样本图像的至少一类特征向量预训练所述上述深度学习模型，得到所述深度学习模型的预训练参数；在所述深度学习模型的预训练参数的基础上调整所述深度学习模型的参数。

较佳的，所述特征向量确定单元，具体用于利用方向滤波器组对图像的各子块进行滤波，得到图像的各子块的在相应方向上的几何形状特征向量，所述方向滤波器组为高波滤波器组。

较佳的，所述特征向量确定单元，具体用于将图像划分为N×M子块；分别计算每一子块的颜色直方图向量；利用L₂范数确定N×M子块中两两子块间的颜色直方图向量的相似值；将确定的各相似值作为图像的子块间的颜色自相似特征向量。

在本发明实施例的方案中，将深度学习模型和分类器联合起来用在目标检测中，将待检测图像的特征向量作为将深度学习模型的输入数据，进而得到深度学习模型的隐层节点的状态值，最后将最后一层隐层节点的状态值作为分类器的输入，得到分类结果，能较准确地确定待检测图像中包含目标的个数。

附图说明

图1为本发明实施例提供的一种深度学习方法的流程图；

图2为本发明实施例提供的在隐层数为3时的SRBM神经网络的结构示意图；

图3为本发明实施例提供的一种目标检测方法的流程图；

图4为本发明实施例提供的一种目标装置的结构示意图；

图5为本发明实施例提供的另一种目标装置的结构示意图。

具体实施方式

本发明实施例中将深度学习模型和分类器联合起来用在目标检测中，将待检测图像的特征向量作为将深度学习模型的输入数据，进而得到深度学习模型的隐层节点的状态值，最后将最后一层隐层节点的状态值作为分类器的输入，得到分类结果，能较准确地确定待检测图像中包含的目标以及包含目标的个数。进一步地，本发明实施例中使用方向梯度直方图特征向量、几何形状特征向量和颜色自相似特征向量中的部分或全部作为训练好的输入深度学习模型的特征向量，这些特征向量提取出了目标中的低级特征和中级特征，经过深度学习模型训练学习后得到表征目标在复杂背景、强噪声干扰和遮挡条件下的高级特征，最终分类后确定待检测图像包含目标的个数，因此，很好的解决了光照剧烈变化和遮挡等复杂条件和背景下的目标检测问题。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面结合附图，用具体实施例对本发明提供的方法及装置进行详细描述。

本发明实施例提供的一种深度学习方法，如图1所示，具体包括以下步骤：

S101：确定正负样本图像的至少一类特征向量；

其中，正样本图像选取包含完整目标，以及行人部分被遮挡的图像，负样本选取不包含目标的背景区域图像；

在目标为行人时，正样本图像选取包含完整行人，以及头，肩，上半身或下半身等被遮挡的图像，负样本选取不包含行人的背景区域图像。

其中，正样本图像(负样本图像)的特征向量包括以下三类：

第一类：正样本图像(负样本图像)的每个子块的几何形状特征向量；

第二类：正样本图像(负样本图像)的每个子块的方向梯度直方图(Histogram ofOriented Gradient，HOG)特征向量；

第三类：正样本图像(负样本图像)的各子块两两之间的颜色自相似(Color Self-Similarity,CSS)特征向量。

其中，将正样本图像(负样本图像)按照设定的尺寸大小进行分割，即可得到子块，例如：假设一正样本图像的大小为128(pixels)×128(pixels)，设定尺寸为32(pixels)×32(pixels)，则可将该128(pixels)×128(pixels)进行分割得到16个32(pixels)×32(pixels)的子块；

需要说明的是，上述三类特征向量的确定中，每一类特征向量的使用的子块的尺寸大小和数目可以相同也可以不相同，需要使用的尺寸大小和数目具体根据滤波器的尺寸和特征向量的计算要求确定；

具体的，针对几何形状特征向量可以利用以下方式确定：

利用方向滤波器组对待检测图像的各子块进行滤波，得到待检测图像的各子块的几何形状特征向量。

上述方向滤波器组可以为小波滤波器或者高波(Gabor)滤波器，考虑到Gabor滤波器具有优良局部尺度和方向选择性的滤波器来提取纹理信息，在本发明实施例中采用Gabor滤波器组作为方向滤波器组。

针对样本图像的各子块两两之间的CSS特征向量，可以通过以下第一步至第四步确定：

第一步：将正样本图像(负样本图像)划分为N×M子块；

第二步：分别计算每一子块的颜色直方图向量；

第三步：利用L₂范数确定N×M子块中两两子块间的颜色直方图向量的相似值；

第四步：将确定的各相似值作为正样本图像(负样本图像)的子块间的颜色自相似特征向量。

针对HOG特征向量：由于HOG特征在目标检测中提取外形信息和运动信息的有效性，本发明实施例选用HOG特征向量来获得低级的目标轮廓信息。

S102：初始化深度学习模型；

在建立分组深度学习模型时，可以基于(Restricted Boltzmann machine,RBM)限制玻尔兹曼机和基于自编码器等不同类型的学习单元进行架构设计。当前，以RBM为基本模块的深度学习模型被认为是最有效的深度学习算法之一，基于这种良好的性质，本发明实施例使用RBM为基本单元构建深度学习模型：分组限制玻尔兹曼机(Subgroup RestrictedBoltzmann machine，SRBM)。

具体的，初始化SRMB学习模型包括：

设定该学习模型的神经网络有L层，每一层的节点数分别为N1、N2…NL个，预训练的次数为N_y，调整参数的次数为N_t，由网络层数和每层的节点数得到神经网络的结构，选取[0,1]之间的随机数作为神经网络节点之间的连接权值。

S103：利用确定的正负样本图像的至少一类特征向量预训练上述深度学习模型，得到上述深度学习模型的预训练参数；

具体的，在所选的深度学习单元为RBM时，对于可见层，节点对应于使用前述步骤S101提取到的3类特征向量中的部分或全部的特征向量，然后训练可见层节点和第一隐层节点之间的权值参数，共训练N_y次；然后再以第一隐层作为第二层SRBM的可见层，也训练N_y次这两层之间节点的权值；按照此方法直到训练完所有的隐层，可得到了各层SRBM的权值参数。

S104：在上述深度学习模型的预训练参数的基础上调整上述深度学习模型的参数。

具体的，在所选的深度学习单元为RBM时，以重建误差最小为准则，使用已有的对比散度法(Contrastive Divergence,CD)进行迭代计算，在上述深度学习模型的预训练参数的基础上反向传播调整整个L层级联SRBM的权值参数，该步骤执行N_t次，得到各层SRBM的最终权值参数。

下面以目标为行人且使用的特征向量为1)、2)和3)为例对上述学习方法进行进一步地说明。

针对将行人作为目标，用于实施的硬件环境是：计算机CPU为Intel Core I5，内存为4GB。软件环境为：Matlab R2010b和Windows7。利用网上公布的Caltech(加州理工学院)数据库和ETHZ(苏黎世联邦理工学院)数据库进行实验。其中对Caltech数据集测试时，选择50,000个负样本和3,000个正样本进行训练。对ETHZ数据集测试时，使用50,000个负样本和2,000个正样本进行训练，正样本选取包含完整行人，以及头，肩，上半身或下半身等被遮挡的图像，负样本选取不包含行人的背景图像。

假设样本图像的格式为RGB格式时，上述S101确定各个特征向量具体包括以下步骤A至步骤D：

步骤A：对选取的正负样本图像进行预处理：将输入的每帧RGB格式的图像分别转换到YUV格式和HSV格式的颜色空间，并根据样本图像中行人区域的大小，设定检测窗口的大小，(本发明实施例中设定的检测窗口的大小为高120pixels和宽32pixels)。

步骤B：生成方向梯度直方图(Histogram of oriented gradient,HOG)特征：由于HOG特征在行人检测中提取外形信息和运动信息的有效性，本发明利用HOG特征来提取低级的行人轮廓信息，步骤A产生的YUV图像数据利用HOG特征向量提取器，提取输入图像的各个子块的HOG特征。

具体的，把YUV格式的输入检测窗口划分成4(pixels)×4(pixels)的子块，使用高斯滤波器去除区域中的噪点后，计算每个像素点的梯度幅值和方向(见公式(1)，统计梯度方向值出现的频率得到直方图，作为每个子块的特征向量。

其中，I_x和I_y表示水平和垂直方向上的梯度值，M(x,y)代表梯度的幅值，θ(x,y)代表梯度的方向。

步骤C：提取样本图像的各子块的几何形状特征：步骤A产生的YUV图像数据通过8个通道提取行人内部丰富的纹理细节，可以使用基于小波分析的多种类型滤波器提取纹理特征。本发明实施例利用具有优良局部尺度和方向选择性的Gabor滤波器来提取纹理信息，使用4个不同方向(0度、45度、90度和135度)和2个不同尺度上(16×16和32×32)的8组Gabor滤波器通过卷积运算提取子块的纹理等几何形状特征。

具体的，把YUV格式的输入检测窗口f(x,y)分别划分为16×16和32×32的子块与上述8组Gabor滤波器G(x,y)分别做卷积运算，得到特征向量T(x,y)，公式(2)所示：

T(x,y)＝f(x,y)*G(x,y)＝f(x,y)*{exp-(x²+y²)/σ'²·(cosθ'x+j·sinθ'x)} (2)

其中，θ'：这个参数指定了Gabor函数并行条纹的方向，在本发明实施例中它的取值为0度、45度、90度和135度；σ'：这个参数表征子块的方差；

步骤D：提取颜色自相似特征：利用步骤A产生的HSV图像数据提取行人目标区域中各个子块的颜色形似特性，充分利用行人区域的颜色分布信息。考虑到计算的实时性和特征提取的有效性，本发明提取颜色特征时，首选把输入的区域图像划分成8×8的块，分别计算子块图像的颜色直方图，最后使用L₂范数计算出两个子块的相似值。

具体的，将HSV格式的输入检测窗口划分成8×8的块，对其中的任意两个块，分别计算颜色直方图向量q_i和s_i，得到这两个块的相似性特征向量D(q，s)，具体如公式(3)所示：

需要说明的是，上述步骤B、步骤C、步骤D之间是没有关联关系的，可以并行执行，也可以顺序执行，顺序执行时，其执行顺序也不局限于上述步骤。

针对上述S102至S104：考虑到降低计算复杂度，在本发明实施例中，根据经验选取SRBM的隐层数为3，这个模型中包括一个输入可见层和最后一个结果输出层，共具有5层级联结构。3个隐层中节点数目的确定，在根据已有经验的基础上，在训练过程中根据输出结果进行调整。

此外，本发明实施例中将七类模板作为已知的信息(也即先验知识)引入隐层节点的SRBM结构，七类模板主要针对行人可能被遮挡的形状进行分类，包括左半身、右半身、上半身、下半身、左上半身、右下半身和全身；

在隐层数为3时的SRBM神经网络的结构如图2所示。可见层中的各节点是使用步骤B、步骤C和步骤D产生的特征向量。

为了说明上述S102至S104的具体实施过程，先对RBM模型进行说明：

针对RBM模型，可用向量v和h分别表示可见层中节点的状态和隐层中节点的状态。

其中，v_i表示可见层中第i个节点的状态，h_j示隐层中第j个节点的状态。对一组给定的状态(v_i，h_i)，RBM系统的能量函数E(v,h|θ)如下公式(4)：

上式中，W_ij表示可见层中的节点i和隐层中的节点j之间的连接权值，a_i表示可见层中节点的偏置，b_j表示隐层中节点的偏置，n表示可见层中节点的个数，m表示隐层中节点的个数，在v_i取值{0,1}，h_i取值{0,1}(状态为0时是表示该节点处于未激活状态，状态为1时表示该节点处于激活状态)，λ_s表示归属于七种类型模板的概率，计算(v，h)的联合概率分布P(v,h|θ)如公式(5)：

其中，k(v,h)是先验概率，给定可见节点的状态时，各隐层节点的激活状态之间是相互独立的，第j个节点的激活概率P(h_j＝1|v,θ)，如公式(6)：

对RBM模型进行训练，就是求出θ的参数值，θ表示未知权重和偏置等未知参数的集合，σ表示激活函数，拟合给定的训练样本数据。通过最大化RBM在训练集上的似然函数学习得到最优的参数集合θ^*，如公式(7)：

公式(7)中P(v^(t)|θ)学习得到最优的参数的分布概率。

在开始训练时初始化公式(4)中的权重W_ij和输入向量(v，h)，偏置a和b随机取较小的数值，计算公式(6)中隐节点节点的激活概率值P，按已有的对比散度法(ContrastiveDivergence,CD)进行迭代计算，得到稳定收敛的RBM模型。具体的迭代计算过程见如下描述：

1、初始化：可见层中节点的初始值v_i＝x₀；W，a，b随机取较小(例如：小于设定的数值)的数值；

2、按公式(6)逐个计算隐层中各节点的激活概率值，根据这个概率值的大小确定隐层中各节点的状态值(0或者1)；

3、每次迭代后更新参数值W_ij，a_i，b_j。

经过上述过程，本发明实施例中提出的学习模型包含固定节点数的3个隐层来提取表达行人的高级特征，第一个隐层包含60个节点，第二个隐层包含38个节点，第三个隐层包含15个节点。

基于上述学习方法的基础上，本发明实施例提供一种目标检测方法，参见图3，包括以下步骤：

S301：确定待检测图像的至少一类特征向量；

通常，图像特征有颜色特征、纹理特征、形状特征、空间关系特征。这些特征用向量表示即为图像的特征向量。

在本发明实施例中，待检测图像的特征向量优先从以下三类中选取：

第一类：待检测图像的每子块的几何形状特征向量；

第二类：待检测图像的每个子块的方向梯度直方图特征向量；

第三类：待检测图像的各子块两两之间的颜色自相似特征向量。

上述特征向量，已在学习方法部分进行了详细地描述，这里不再赘述。

S302：将确定的特征向量输入训练好的深度学习模型得到该深度学习模型的隐层节点的状态值；

较优的，上述训练好的深度学习模型是先前通过对正负样本图像的至少一类特征向量进行学习得到的；当然，本发明实施例中并不限定通过其它方式进行学习得到训练好的深度学习模型。

至于先前通过对正负样本图像的至少一类特征向量进行如何学习得到训练好的深度学习模型，已在前述学习方法中进行了详细地描述，这里不再赘述。

S303：将上述深度学习模型的最后一层隐层节点的状态值输入分类器；

上述分类器可以为支持向量机和逻辑回归等分类器。在检测目标为行人时，由于行人的检测属于二分类问题，因此，可使用结构简单的软最大化(Softmax)分类器进行高效的分类。

下面对在深度学习模型为SRBM模型时，如何获得Softmax分类器的参数进行说明：

将上述学习方法中获得的隐层中各节点的状态值组成向量输入到Softmax分类器，使用已有的梯度下降法，最小化如式(8)所示的代价函数，得到分类器的具体参数值β。

其中，函数τ当图像中包含行人时取值为1，不包含行人时取值为0，m为输入节点的数目，k取值为2。

具体的，将隐层输出的值v_i组成的向量最后输入到Softmax模型中，分类得到是否是包含行人的区域。

使用Softmax分类器时，将输入的状态值x分类为y(目标或非目标)的概率如公式(9)所示：

S304：根据上述分类器的输出结果确定待检测图像包含目标的个数。

具体的，在分类器最终输出的值为1时表示输入的待检测图像中包含行人，输出的值为0时表示输入的待检测图像中不包含行人。

基于同一发明构思，本发明实施例还提供了一种目标检测装置，由于该深度学习装置以及目标检测装置所解决问题的原理与前述目标检测方法相似，因此该目标检测装置的实施可以参见前述方法的实施，重复之处不再赘述。

如图4所示，本发明实施例提供的一种目标检测装置，包括：特征向量确定单元41、状态值确定单元42、分类单元43和目标确定单元44，其中：

特征向量确定单元41，用于确定待检测图像的至少一类特征向量；

状态值确定单元42，用于将确定的特征向量输入训练好的深度学习模型得到该深度学习模型的隐层节点的状态值；

分类单元43，用于将上述深度学习模型的最后一层隐层节点的状态值输入分类器；

目标确定单元44，用于根据上述分类器的输出结果确定待检测图像包含目标的个数。

较优的，上述特征向量包括以下三类：

第一类：图像的每个子块的几何形状特征向量；

第二类：图像的每个子块的方向梯度直方图特征向量；

第三类：图像的各子块两两之间的颜色自相似特征向量。

较优的，上述目标检测装置还包括：学习单元45，用于通过对正负样本图像的至少一类特征向量进行学习得到的上述训练好的深度学习模型。

较优的，上述学习单元45，具体用于确定正负样本图像的至少一类特征向量；初始化深度学习模型；利用确定的正负样本图像的至少一类特征向量预训练上述深度学习模型，得到上述深度学习模型的预训练参数；在上述深度学习模型的预训练参数的基础上调整上述深度学习模型的参数。

较优的，上述特征向量确定单元41，具体用于利用方向滤波器组对图像的各子块进行滤波，得到图像的各子块的在相应方向上的几何形状特征向量。

较优的，上述特征向量确定单元41，具体用于将图像划分为N×M子块；分别计算每一子块的颜色直方图向量；利用L₂范数确定N×M子块中两两子块间的颜色直方图向量的相似值；将确定的各相似值作为图像的子块间的颜色自相似特征向量。

当然，本发明实施例中对目标检测装置的表示并不局限于图4，在采用SRBM的隐层数为3时，也可以利用图5所示的结构示意图来表示，图5中，图5中包括特征提取层、第一隐层、第二隐层、第三隐层和分类器，省略了可见层，这是因为特征向量提取层输出的特征向量是要直接输入给可见层的，可见层再将提取的特征向量输入给第一隐层，可见层的作用仅是传输特征向量。

在本发明实施例中，由于从数据库中选取包含遮挡、形变和各种背景的行人图像的正样本提取3类基本特征向量中的部分或全部作为训练样本，利用级联的深度模型对这些特征进行学习，得到更具区分能力的高级特征，最后使用这些特征训练特征分类器。使用级联RBM可以有效的检测出复杂条件下包含行人的区域，并且正确检测率较高。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中终端中的模块可以按照实施例描述进行分布于实施例的终端中，也可以进行相应变化位于不同于本实施例的一个或多个终端中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种目标检测方法，其特征在于，包括：

确定待检测图像的三类特征向量；

将所述深度学习模型的最后一层隐层节点的状态值输入分类器；

根据所述分类器的输出结果确定待检测图像中包含目标的个数；

其中，所述特征向量包括以下三类：

第一类：图像的每个子块的几何形状特征向量；

第二类：图像的每个子块的方向梯度直方图特征向量；

第三类：图像的各子块两两之间的颜色自相似特征向量。

2.如权利要求1所述的方法，其特征在于，所述训练好的深度学习模型是通过对正负样本图像的至少一类特征向量进行学习得到的。

3.如权利要求2所述的方法，其特征在于，所述训练好的深度学习模型是通过对正负样本图像的至少一类特征向量进行学习得到的具体包括：

确定正负样本图像的至少一类特征向量；

初始化深度学习模型；

4.如权利要求1所述的方法，其特征在于，利用方向滤波器组对图像的各子块进行滤波，得到图像的各子块的在相应方向上的几何形状特征向量；所述方向滤波器组为高波滤波器组。

5.如权利要求1所述的方法，其特征在于，通过以下步骤确定图像的各子块两两之间的颜色自相似特征向量：

将图像划分为N×M子块；

分别计算每一子块的颜色直方图向量；

6.如权利要求1所述的方法，其特征在于，所述深度学习模型为受限波尔兹曼机神经网络模型，所述分类器为软最大化分类器。

7.一种目标检测装置，其特征在于，包括：

特征向量确定单元，用于确定待检测图像的三类特征向量；

分类单元，用于将所述深度学习模型的最后一层隐层节点的状态值输入分类器；

目标确定单元，用于根据所述分类器的输出结果确定待检测图像包含目标的个数；

其中，所述特征向量包括以下三类：

第一类：图像的每个子块的几何形状特征向量；

第二类：图像的每个子块的方向梯度直方图特征向量；

第三类：图像的各子块两两之间的颜色自相似特征向量。

8.如权利要求7所述的目标检测装置，其特征在于，所述目标检测装置还包括：学习单元，用于通过对正负样本图像的至少一类特征向量进行学习得到的所述训练好的深度学习模型。

9.如权利要求8所述的目标检测装置，其特征在于，所述学习单元，具体用于确定正负样本图像的至少一类特征向量；初始化深度学习模型；利用确定的正负样本图像的至少一类特征向量预训练所述上述深度学习模型，得到所述深度学习模型的预训练参数；在所述深度学习模型的预训练参数的基础上调整所述深度学习模型的参数。

10.如权利要求7所述的目标检测装置，其特征在于，所述特征向量确定单元，具体用于利用方向滤波器组对图像的各子块进行滤波，得到图像的各子块的在相应方向上的几何形状特征向量，所述方向滤波器组为高波滤波器组。

11.如权利要求7所述的目标检测装置，其特征在于，所述特征向量确定单元，具体用于将图像划分为N×M子块；分别计算每一子块的颜色直方图向量；利用L₂范数确定N×M子块中两两子块间的颜色直方图向量的相似值；将确定的各相似值作为图像的子块间的颜色自相似特征向量。