CN104680190A

CN104680190A - 目标检测方法及装置

Info

Publication number: CN104680190A
Application number: CN201310631848.XA
Authority: CN
Inventors: 曾星宇; 欧阳万里; 鞠汶奇; 刘健庄; 王晓刚
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2015-06-03
Anticipated expiration: 2033-11-29
Also published as: WO2015078130A1; CN104680190B

Abstract

本发明涉及一种目标检测方法及装置，其中，方法包括：将图像划分为N个窗口；分别提取所述N个窗口对应的视觉特征矩阵；采用第一滤波器对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵；采用至少一个第二滤波器对所述选定窗口对应的视觉特征矩阵进行滤波处理，得到至少一个第二矩阵；根据所述第一矩阵及其对应的第一权值矩阵、以及每个所述第二矩阵及其对应的第二权值矩阵，计算出至少一个判别矩阵；根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标。该方法能够有效地传递图像中窗口区域及其周边领域的信息，提高对图像中检测目标的检测准确度，并且简单易于实现。

Description

目标检测方法及装置

技术领域

本发明涉及图像检测领域，尤其涉及一种目标检测方法及装置。

背景技术

从照片、视频等图像中检测室外环境中的行人的技术具有广泛的应用前景，可以应用在安全监控领域长时间监视一个场合中的人，还可以应用于机器人技术、汽车自动驾驶（或辅助驾驶）技术、无人机技术等中。

现有的室外行人检测技术主要分为两类：生成模型方法和判别模型方法。

其中，生成模型方法的基本思想是：首先建立识别对象的概率密度模型，然后在模型的基础上进行后验概率的计算，得出样本出现的概率值以判断对象是否出现。这种方法从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度，并且建立在贝叶斯理论的基础之上，理论基础很强，模型适用面广。这种方法主要通过设定一系列参数表示行人各种状态下的特征，然后由训练样本得到形状空间等多个空间的描述，再通过KDE（GaussianKernel Density Estimation，高斯核密度估计法）等方法得到生成模型。在处理测试样本的时候，用得到的生成模型和样本的拟合得出测试样本里面某个区域有人的概率，同时还能得出如果有人，这个人保持了何种姿态等。但是这类方法用很多参数去描述人体模型，比较复杂，实现困难。同时，这种方法训练过程难度大，要求样本尽可能多，所以通常在室外环境下检测效果不是很好。

基于判别模型的目标检测方法是指，在图像检测过程中不需要详细地去描述检测目标，而只需要判别出图像中是否存在检测目标。该方法通常是将从图像中提取的视觉特征输入至串联的多个或单个滤波器、判别器中，依次经过多次滤波、判别处理后，判别出图像中是否存在检测目标，不能有效地传递和利用图像中检测窗口区域及其周边领域的信息做出判别，所以检测精确度较低。并且这类方法对数据依赖性高,训练出来的模型过拟合的风险大，不易训练。

发明内容

技术问题

本发明提供一种目标检测方法及装置，用以解决如何提高对图像中的检测目标的检测精确。

解决方案

为了解决上述技术问题，根据本发明的一实施例，第一方面，提供了一种目标检测方法，具体包括：

将图像划分为N个窗口，N为大于或等于1的正整数；

分别提取所述N个窗口对应的视觉特征矩阵，所述视觉特征矩阵是由多个视觉特征组成的矩阵；

采用第一滤波器对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵；

采用至少一个第二滤波器对所述选定窗口对应的视觉特征矩阵进行滤波处理，得到至少一个第二矩阵，每采用一个所述第二滤波器对所述选定窗口对应的一个视觉特征矩阵进行滤波处理，得到一个所述第二矩阵；

根据所述第一矩阵及其对应的第一权值矩阵、以及每个所述第二矩阵及其对应的第二权值矩阵，计算出至少一个判别矩阵；

根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标。

结合第一方面，在第一种可能的实现方式中，根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标，包括：

根据所述至少一个判别矩阵，得到输出判别值；

根据所述输出判别值，确定所述图像中在所述选定窗口内是否存在检测目标。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述采用第一滤波器对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵，包括：

采用公式得到第一矩阵，其中，h₀为所述第一矩阵，F₀表示所述第一滤波器，f表示所述视觉特征矩阵，表示滤波运算符；

所述采用至少一个第二滤波器对同一个所述选定窗口对应的视觉特征矩阵进行滤波处理，得到至少一个第二矩阵，包括：

采用公式确定至少一个所述第二矩阵；其中，s_i+1为第i+1个所述第二矩阵；F_i+1表示第i+1个所述第二滤波器，i为大于或等于0的整数；

所述根据所述第一矩阵及其对应的第一权值矩阵、以及每个所述第二矩阵及其对应的第二权值矩阵，计算出至少一个判别矩阵，包括：

采用公式确定所述判别矩阵；其中，h_i+1表示第i+1个所述判别矩阵；W_h,i+1为第i+1个所述第一权值矩阵；W_s,i+1为第i+1个所述第二权值矩阵。

结合第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述分别提取所述N个窗口对应的视觉特征矩阵，所述视觉特征矩阵是由多个视觉特征组成的矩阵，包括：

将所述图像按照多个尺寸进行缩放，得到多个缩放图像；

采用预设大小的窗口，从每个所述缩放图像的选定位置按照设定顺序进行滑动，每次滑动设定数量个像素，将每个所述缩放图像分别划分成N个窗口；以及

每次在每个所述缩放图像上滑动一次窗口后，将每个所述缩放图像上的对应窗口中的视觉特征合并到一起，形成一个视觉特征矩阵；或者将每个所述缩放图像上的对应窗口中不同种类的视觉特征形成多个视觉特征矩阵。

结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式中，在第四种可能的实现方式中，分别提取所述N个窗口对应的视觉特征矩阵之前，包括：

从预先选择的训练图像的窗口区域，提取多个视觉特征矩阵作为训练样本；

使用所述训练样本，使用支持向量机SVM训练方法，得到所述第一滤波器；

通过已经训练得到的所述第一滤波器和预设初始值的第一权值矩阵，利用所述训练样本进行非监督预训练和后向传递BP训练，得到所有的所述第一权值矩阵的参数。

结合第一方面的第四种可能的实现方式中，在第五种可能的实现方式中，得到所有的所述第一权值矩阵的参数之后，还包括：

根据已训练得到的所述第一滤波器和所述第一权值矩阵筛选所述训练样本，保留未正确计算出判别结果的样本；

每次添加一个预设初始值的第二滤波器及其对应的第二权值矩阵，并使用已经训练得到的所述第一滤波器和所述第一权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器的个数确定。

结合第一方面的第四种可能的实现方式中，在第六种可能的实现方式中，得到所有的所述第一权值矩阵的参数之后，还包括：

根据已训练得到的所述第一滤波器、所述第一权值矩阵和每次添加的预设初始值的第二滤波器及其对应的第二权值矩阵，筛选所述训练样本，保留未正确计算出判别结果的样本；

根据已训练得到的所述第一滤波器、所述第一权值矩阵和每次添加的预设初始值的第二滤波器及其对应的第二权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器的个数确定。

为了解决上述技术问题，根据本发明的另一实施例，第二方面，提供了一种目标检测装置，包括：

划分单元，用于将图像划分为N个窗口，N为大于或等于1的正整数；

提取单元，与所述划分单元连接，用于分别提取所述N个窗口对应的视觉特征矩阵，所述视觉特征矩阵是由多个视觉特征组成的矩阵；

第一滤波器，与所述提取单元连接，用于对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵；

至少一个第二滤波器，与所述提取单元连接，用于对所述选定窗口对应的视觉特征矩阵进行滤波处理，得到至少一个第二矩阵，每采用一个所述第二滤波器对所述选定窗口对应的一个视觉特征矩阵进行滤波处理，得到一个所述第二矩阵；

计算单元，与所述第一滤波器、所述第二滤波器分别连接，用于根据所述第一矩阵及其对应的第一权值矩阵、以及每个所述第二矩阵及其对应的第二权值矩阵，计算出至少一个判别矩阵；以及

判别单元，与所述计算单元连接，用于根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标。

结合第二方面，在第一种可能的实现方式中，所述判别单元具体用于根据所述至少一个判别矩阵，得到输出判别值；根据所述输出判别值，确定所述图像中在所述选定窗口内是否存在检测目标。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第一滤波器，具体用于采用公式得到第一矩阵，其中，h₀为所述第一矩阵，F₀表示所述第一滤波器，f表示所述视觉特征矩阵，表示滤波运算符；

所述第二滤波器，具体用于采用公式确定至少一个所述第二矩阵；其中，s_i+1为第i+1个所述第二矩阵；F_i+1表示第i+1个所述第二滤波器，i为大于或等于0的整数；

所述计算单元包括至少一个中间计算子单元，每个中间计算子单元分别与一个所述第二滤波器连接，第i+2个中间计算子单元与第i+1个中间计算子单元连接；第1个中间计算子单元与所述第一滤波器和一个第二滤波器连接；

第i+1的中间计算子单元，用于采用公式确定所述判别矩阵；其中，h_i+1表示第i+1个所述判别矩阵；W_h,i+1为第i+1个所述第一权值矩阵；W_s,i+1为第i+1个所述第二权值矩阵。

结合第二方面、第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述提取单元包括：

缩放子单元，用于将所述图像按照多个尺寸进行缩放，得到多个缩放图像；

窗口滑动子单元，用于采用预设大小的窗口，从每个所述缩放图像的选定位置按照设定顺序进行滑动，每次滑动设定数量个像素，将每个所述缩放图像分别划分成N个窗口；以及

矩阵生成子单元，用于每次在每个所述缩放图像上滑动一次窗口后，将每个所述缩放图像上的对应窗口中的视觉特征合并到一起，形成一个视觉特征矩阵；或者将每个所述缩放图像上的对应窗口中不同种类的视觉特征形成多个视觉特征矩阵。

结合第二方面、第二方面的第一种可能的实现方式、第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式中，在第四种可能的实现方式中，该目标检测装置还包括：

训练单元，与所述提取单元连接，用于控制所述提取单元从预先选择的训练图像的窗口区域，提取多个视觉特征矩阵作为训练样本；

所述训练单元与所述第一滤波器连接，还用于利用所述训练样本，使用支持向量机SVM训练方法，得到所述第一滤波器；

所述训练单元与所述计算单元连接，还用于控制所述计算单元通过已经训练得到的所述第一滤波器和预设初始值的第一权值矩阵，利用所述训练样本进行非监督预训练和后向传递BP训练，得到所有的所述第一权值矩阵的参数。

结合第二方面的第四种可能的实现方式中，在第五种可能的实现方式中，所述训练单元包括：

第一筛选子单元，与所述第一滤波器和所述计算单元分别连接，用于控制所述计算单元根据已训练得到的所述第一滤波器和所述第一权值矩阵筛选所述训练样本，保留未正确计算出判别结果的样本；

第一添加子单元，与所述第一滤波器、所述第二滤波器、所述计算单元、所述第一筛选子单元分别连接，用于控制所述计算单元每次添加一个预设初始值的第二滤波器及其对应的第二权值矩阵，并使用已经训练得到的所述第一滤波器和所述第一权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器的个数确定。

结合第二方面的第四种可能的实现方式中，在第六种可能的实现方式中，所述训练单元包括：

第二筛选子单元，与所述第一滤波器和所述计算单元分别连接，用于控制所述计算单元根据已训练得到的所述第一滤波器、所述第一权值矩阵和每次添加的预设初始值的第二滤波器及其对应的第二权值矩阵，筛选所述训练样本，保留未正确计算出判别结果的样本；

第二添加子单元，与所述第一滤波器、所述第二滤波器、所述计算单元、所述第二筛选子单元分别连接，用于控制所述计算单元根据已训练得到的所述第一滤波器、所述第一权值矩阵和每次添加的预设初始值的第二滤波器及其对应的第二权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器的个数确定。

有益效果

本发明实施例，从图像中提取窗口对应的视觉特征矩阵后，通过并联的第一滤波器、至少一个第二滤波器对视觉特征矩阵进行滤波后，可以依次计算出至少一个判别矩阵，从而确定该窗口内是否存在检测目标，该方法能够有效地传递图像中窗口区域及其周边领域的信息，提高对图像中检测目标的检测准确度，并且简单易于实现。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面，并且用于解释本发明的原理。

图1为本发明实施例一提供的目标检测方法的流程图；

图2为本发明实施例一提供的目标检测方法中计算判别矩阵的示意图；

图3为本发明实施例二提供的目标检测方法的流程图；

图4为本发明实施例二提供的目标检测方法中缩放图像的示意图；

图5和图6为本发明实施例三提供的目标检测方法中训练过程的流程图；

图7a～图7c为本发明实施例三提供的目标检测方法中训练过程的网络结构示意图；

图8为本发明实施例四提供的目标检测装置的结构示意图；

图9为本发明实施例五提供的目标检测装置的结构示意图；

图10和图11为本发明实施例六提供的目标检测装置的结构示意图；

图12为本发明实施例七提供的目标检测装置的结构示意图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

图1为本发明实施例一提供的目标检测方法的流程图。如图1所示，该目标检测方法包括：

S100、将图像划分为N个窗口，N为大于或等于1的正整数；

S110、分别提取所述N个窗口对应的视觉特征矩阵，所述视觉特征矩阵是由多个视觉特征组成的矩阵。

具体地，可以将一张输入的图像缩放到S个不同的尺寸上（S为预设的整数），从每个尺寸的图像提取视觉特征得到视觉特征图，在使用预设大小的窗口，从一个视觉特征图设定位置如左上角开始，每次滑动设定数量如N1个像素，按从左到右，从上到下的顺序每张缩放图都得到N个窗口，假设N个窗口分别为w₁,w₂,…,w_N。其中，一个窗口可以对应一个视觉特征矩阵，也可以对应多个视觉特征矩阵。把所有缩放图上的同一名称的窗口中的所有视觉特征连接到一起构成一个视觉特征矩阵。

S120、采用第一滤波器对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵。

具体地，可以采用公式（1），得到第一矩阵：

h_{0} = \frac{1}{1 + e^{- F_{0} &CircleTimes; f}} - - - (1)

在公式（1）中，h₀为所述第一矩阵，F₀表示所述第一滤波器，f表示所述视觉特征矩阵，表示滤波运算符。其中，h₀有时也用s₀来表示。

S130、采用至少一个第二滤波器对所述选定窗口对应的视觉特征矩阵进行滤波处理，得到至少一个第二矩阵，每采用一个所述第二滤波器对所述选定窗口对应的一个视觉特征矩阵进行滤波处理，得到一个所述第二矩阵。

具体地，可以采用公式（2），确定至少一个所述第二矩阵；

s_{i + 1} = \frac{1}{1 + e^{- F_{i + 1} &CircleTimes; f}} - - - (2)

在公式（2）中，s_i+1为第i+1个所述第二矩阵；F_i+1表示第i+1个所述第二滤波器。每个第二滤波器都可以计算出一个第二矩阵，每个第二矩阵存在一个对应的第二权值矩阵；i为大于或等于0的整数。

本发明实施例中，第一滤波器和第二滤波器可以为多维矩阵，第一滤波器和第二滤波器的矩阵中的各个元素的值，可以通过训练确定。

S140、根据所述第一矩阵及其对应的第一权值矩阵、以及每个所述第二矩阵及其对应的第二权值矩阵，计算出至少一个判别矩阵。

具体地，可以采用公式（3），确定所述判别矩阵；

h_{i + 1} = \frac{1}{1 + e^{- (W_{h, i + 1} h_{i} + W_{s, i + 1} s_{i + 1})}} - - - (3)

在公式（3）中，h_i+1表示第i+1个所述判别矩阵；W_h,i+1为第i+1个所述第一权值矩阵；W_s,i+1为第i+1个所述第二权值矩阵；i为大于或等于0的整数。其中，所有的第一权值矩阵和第二权值矩阵可以通过预先训练得到，第一权值矩阵与第二权值矩阵的数量一般相同，并且由第二滤波器数量决定。

其中，可以先根据公式（1）计算出的第一矩阵h₀、利用h₀对应的一个第一权值矩阵W_h,1和公式（2）计算出的第1个第二矩阵s₁及其对应第二权值矩阵W_s,1，计算出第1个判别矩阵h₁，并将该第1个判别矩阵作为下一个第一矩阵，代入公式（3）重复本步骤，直到计算出最后一个判别矩阵h_N。其中h_N也是最后一个判别矩阵y，N是第二滤波器个数。图2为本发明实施例一提供的目标检测方法中计算判别矩阵的示意图，如图2所示，左边的级联深度网络结构从下到上一共有4层，其中第一滤波器为输入层，隐藏层一共2层，最上层为输出层，本发明实施例中使用h_i表示第i个隐藏层输入的第一矩阵，h_i+1表示第i个隐藏层输出的判别矩阵，每个隐藏层计算出的判别矩阵都作为其上一层的隐藏层输入的第一矩阵。图2中最下面一层是输入层，输入层的第一矩阵可以使用符号h₀表示。参见公式（3），第i+1个隐藏层的输入除了上一层得第一矩阵h_i之外还有第二矩阵s_i+1，他们的权值矩阵分别是第一权值矩阵W_h,i+1和第二权值矩阵W_s,i+1。此外，还可以使用符号W_s,0表示图2中的W_h,1，使用F_i表示和输入视觉特征矩阵f作滤波运算之后得到的第二矩阵s_i的第二滤波器。假设网络结构从下到上一共有L个隐藏层，则经过所有的隐藏层之后，由输出层计算出的判别矩阵y为最后一个判别矩阵。

S150、根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标。

具体地，可以根据所述至少一个判别矩阵，得到输出判别值；根据所述输出判别值，确定所述图像中在所述选定窗口内是否存在检测目标。例如，可以将最后一个判别矩阵中的某个具体元素作为输出判别值，也可以对最后一个判别矩阵进行运算得到判别值。

举例而言，如图2所示，以采用第一滤波器F₀和三个第二滤波器F₁、F₂、F₃级联形成2个隐藏层，对某一窗口对应的视觉特征矩阵进行滤波处理为例：

首先，参见公式（1），采用第一滤波器F₀对视觉特征矩阵进行滤波处理，得到第一矩阵h₀，其中，第一矩阵h₀对应的第一权值矩阵为W_h,1。

并且，参见公式（2），采用第二滤波器F₁对所述多个视觉特征矩阵进行滤波处理，得到第二矩阵s₁，其中，第二矩阵s₁对应的第二权值矩阵为W_s,1。

然后，将上述的h₀、W_h,1、s₁、W_s,1代入公式（3），可以得到第1个判别矩阵

h_{1} = \frac{1}{1 + e^{- (W_{h, 1} h_{0} + W_{s, 1} s_{1})}},

可以将判别矩阵h₁作为第1个隐藏层输入的第一矩阵。

并且，参见公式（2），采用第二滤波器F₂对所述多个视觉特征矩阵进行滤波处理，得到第二矩阵s₂，其中，第二矩阵s₂对应的第二权值矩阵为W_s,2。

同理，将上述的h₁、W_h,2、s₂、W_s,2代入公式（3），得到第2个判别矩阵

h_{2} = \frac{1}{1 + e^{- (W_{h, 2} h_{1} + W_{s, 2} s_{2})}},

可以将判别矩阵h₂作为第2个隐藏层输入的第一矩阵。

并且，参见公式（2），采用第二滤波器F₃对所述多个视觉特征矩阵进行滤波处理，得到第二矩阵s₃，其中，第二矩阵s₃对应的第二权值矩阵为W_s,3。

同理，将上述的h₂、W_h,3、s₃、W_s,3代入公式（3），得到第3个判别矩阵

h_{3} = \frac{1}{1 + e^{- (W_{h, 3} h_{2} + W_{s, 3} s_{3})}},

其中判别矩阵h₃即为最后输出的判别矩阵y。

如果由第一滤波器和第二滤波器级联形成的隐藏层为L个，则参见公式（3），可以得到最后一个判别矩阵为

y = \frac{1}{1 + e^{- (W_{h, L + 1} h_{L} + W_{s, L + 1} s_{L + 1})}} .

最后，在最后一个判别矩阵y的第一行最左边的值大于等于预设门限值的情况下(这个矩阵也可以是一个矢量，即只有一行)，确定所述图像中存在检测目标。若所述判别矩阵是根据与选定窗口w_j中提取的视觉特征矩阵计算得出，则确定所述检测目标存在于所述选定窗口w_j中。在判别矩阵的第一行最左边的值小于预设门限值的情况下，确定所述图像中不存在检测目标。

本实施例，从图像中提取窗口对应的视觉特征矩阵后，通过并联的第一滤波器、至少一个第二滤波器对视觉特征矩阵进行滤波后，可以依次计算出至少一个判别矩阵，从而确定该窗口内是否存在检测目标，该方法能够有效地传递图像中窗口区域及其周边领域的信息，提高对图像中检测目标的检测准确度，并且简单易于实现。

图3为本发明实施例二提供的目标检测方法的流程图。图3中标号与图1相同的步骤具有相同的功能，为简明起见，省略对这些步骤的详细说明。如图3所示，在上一实施例的基础上，该图像中目标训练方法的步骤S110具体可以包括：

步骤S210、将一张所述图像按照多个尺寸进行缩放，得到多个缩放图像；

步骤S220、采用预设大小的窗口，从每个所述缩放图像的选定位置按照设定顺序进行滑动，每次滑动设定数量个像素，将每个所述缩放图像分别划分成N个窗口w₁,w₂,…,w_N；以及

步骤S230、每次在每个所述缩放图像上滑动一次窗口后，将每个所述缩放图像上的对应窗口（如相同名字的窗口）中的视觉特征合并到一起，形成一个视觉特征矩阵；或者将每个所述缩放图像上的对应窗口中不同种类的视觉特征形成多个视觉特征矩阵。

具体而言，首先，可以将所述图像按照不同的尺寸进行缩放，例如，输入一张图像p₁，在取得图像之后首先对图像缩放,得到不同缩放尺度下的图像。如图4所示，为本发明实施例二提供的目标检测方法中缩放图像的示意图，可以将p₁缩放到11个不同尺度上，得到图像p₁,p₂,…,p₁₁，假定p_i+1尺寸是p_i的0.94倍，其中i＝1,2,…,10。

其次，针对每一个缩放图像，可以采用预设大小的窗口，如采用120×40像素大小的窗口，从所述缩放图像的左上角开始，按照从左到右，从上到下的顺序进行滑动，每次滑动8个像素，从而将所述每个缩放图像划分成N个窗口w₁,w₂,…,w_N，其中N为正整数。其中，窗口的大小确定方法可以为：通过训练出了一个线性SVM（Support Vector Machine，支持向量机），再由该SVM自动决定。具体而言，首先将所有的训练数据中行人框的大小整理成直方图，再假设行人框的大小是符合高斯分布的，选择对应的均值表示的行人框的大小作为窗口的大小。本发明实施例中如果选择的窗口大小为15×5个块，每个块8×8像素，则窗口大小对应到像素域是120×40像素大小。也可以使用经验值确定窗口大小。

最后，在缩放图像p₁,…,p_i均存在窗口w_j的情况下，将所述缩放图像p₁,…,p_i分别在窗口w_j中的视觉特征进行合并，得到与所述选定窗口w_j对应的一个视觉特征矩阵，由此，得到与每个窗口相对应的多个视觉特征矩阵，其中i为小于或等于11的正整数，j为小于或等于N的正整数。

此外，上述窗口还可以进一步细分为多个块，例如，将每一窗口细分为15×5个块，将从每一块中HOG（Histogram of Oriented Gradient，方向梯度直方图)）特征和CSS（Color Self-Similarity，颜色自相似）特征合并，就可以得到每个块36维视觉特征。其中，每个块中的HOG特征提取9个无符号梯度方向，18个有符号梯度方向和4个综合梯度能量值。使用表示第(i,j)块的第k个特征的类内方差，其中i＝1,…,15，j＝1,…,5；使用表示第(i,j)块的第k个特征的类间方差，其中i＝1,…,15，j＝1,…,5；使用判别函数作为第(i,j)块的第k个特征的判别能量。然后去掉6个最小的判别能量值的特征，最后得到25维的HOG特征。每个块中的CSS特征使用计算图中颜色值的直方图的方式统计得到。由于每个窗口有15×5个块，所以最后每个窗口会提取到2775维的CSS特征。但是由于2775维的CSS特征会导致计算量过大的问题，所以本专利把CSS特征降低到825维。在本专利中使用表示第(i,j)块B_i,j的CSS特征，其中d_i＝-2,-1,1,2，d_j＝-7,-6,…-1,1,…,6,7。由于CSS特征具有对称特性，即CS(B_i,j,B_i′,j′)＝CS(B_i′,j′,B_i,j)，所以每个块CSS特征可以降低到11维。

需要注意的是：由于缩放图像的尺寸大小不同，在采用预设大小的窗口分别划分上述缩放图像时，得到的窗口数量有所不同。

如图2所示，为了有效利用人体目标周围的上下文信息，本发明实施例中使用了滤波器对每个窗口的视觉特征进行处理，由于每个尺度的视觉特征图对应的一个窗口中包含有维度为15×5×36维的视觉特征，所以首先可以把该视觉特征周边扩展一行和一列得到维度为17×7×31的视觉特征矩阵，再使用15×5×36×11尺寸的滤波器和这11个视觉特征图中得到的11个矩阵进行滤波运算（filtering operation），得到尺寸为3×3×11的第一矩阵。在图2中最右边的11个尺度下的视觉特征经过3个15×5×36×11尺寸的第二滤波器F₁,F₂,F₃，通过滤波运算之后得到3×3×11的第二矩阵，分别是s₁、s₂、s₃。另外，h₀的尺寸可以和s₁相同，h₀可以由另外一个和F₁同样尺寸的第一滤波器F₀滤波得到，F₀可以是经过特别预训练得到。

本实施例，从图像中提取窗口对应的视觉特征矩阵后，通过并联的第一滤波器、至少一个第二滤波器对视觉特征矩阵进行滤波后，可以依次计算出至少一个判别矩阵，从而确定该窗口内是否存在检测目标，该方法能够有效地传递图像中窗口区域及其周边领域的信息，提高图像中目标的检测准确度，并且简单易于实现。

其中，将图像按多个尺寸缩放成多个缩放图像，再采用预设大小的窗口将每个缩放图像分别划分成N个窗口，并将每个窗口的视觉特征形成一个或多个视觉特征矩阵，能够有效地保留图像中检测窗口区域及其周边的领域信息，为后续的目标检测提供精确的数据基础。

图5和图6为本发明实施例三提供的目标检测方法中训练过程的流程图。图5和图6中标号与图1、图3相同的步骤具有相同的功能，为简明起见，省略对这些步骤的详细说明。如图5或图6所示，在上述实施例的基础上，该图像中目标训练方法，在步骤S110之前的训练过程，具体可以包括：

步骤S310、从预先选择的训练图像的窗口区域，提取多个视觉特征矩阵作为训练样本；其中，如果训练图像中包括检测目标如行人，则该训练图像为正样本，如果训练图像中不包括检测目标，则该训练图像为负样本。

具体地，首先准备好训练图像，再把每个训练图像缩放为11个不同尺度的图像，然后在每个所述缩放图像的选定位置按照设定顺序进行滑动，每次滑动设定数量个像素，将每个所述缩放图像分别划分成N个窗口w₁,w₂,…,w_N；，从每个缩放图片中的同名窗口所在位置提取视觉特征矩阵，并对有行人（检测目标）的窗口赋予对应的最后输出矩阵y＝[1,0,0,…,0]，对于没有行人的窗口赋予对应的最后输出矩阵y＝[0,0,0,…,0]，其中y的维数和前面提到的检测行人的最后一个判别矩阵y的维数完全相同。视觉特征矩阵可以只有一个，由多个视觉特征合并而成；视觉特征矩阵也可以有多个，每个视觉特征矩阵可以包括一种类型的视觉特征，或者有的视觉特征矩阵中可以包括多种类型的视觉特征。例如：HOG和CSS特征连接之后得到的矩阵并且，可以为每一个视觉特征矩阵设置一个对应的滤波器。实验中用了HOG和CSS两种视觉特征连接在一起的一个视觉特征矩阵，如图2中的f。

步骤S320、利用所述训练样本，使用通用的SVM训练方法，得到所述第一滤波器；

一种可选的训练SVM的方法如下：

假定如入向量为x₁，x₂，……，x_n，他们对应的类标分别为y₁，y₂，……，y_n，则SVM判别式为y_i＝ω′x_i+θ；可以通过在条件λ≥0下，求来得到λ，其中为λ₁，λ₂，……，λ_n组成的向量。然后通过和[λ_i(y_i(ω′x_i+θ))-1]＝0来求得所有参数。

步骤S330、通过已经训练得到的所述第一滤波器和预设初始值的第一权值矩阵，利用所述训练样本进行非监督预训练和BP（Back Propagation，后向传递）训练，得到所有的所述第一权值矩阵的参数。具体地，采用从训练图像中提取的视觉特征矩阵作为训练样本，使用SVM训练方法训练得到第一滤波器后，可以使用非监督预训练和BP训练调整第一权值矩阵。

一种可选的非监督预训练步骤如下：

（1）使用固定值（比如0）初始化所有第一权值矩阵。

（2）选取n₁个训练样本构成的n个视觉特征矩阵。实验中可以选取n₁＝10000。

（3）随机选取n＝n₁/10个视觉特征矩阵，把n个视觉特征矩阵排列为一个新的训练视觉特征矩阵X₁。例如，如果每个视觉特征矩阵为m维的向量，则训练视觉特征矩阵X₁是一个n×m的训练视觉特征矩阵。令其中X′₁是X₁的转置。得到H₁后再重新对H₁采样得到样本H₂。

其中，采样方法为：构造矩阵H₃，以使矩阵H₃的行列数与矩阵H₁的行列数相同，其中矩阵H₃中各元素均在区间[0,1]内均匀采样一次。

将矩阵H₁与矩阵H₃进行比较，生成矩阵H₂：若矩阵H₁对应位置上的元素比矩阵H₃对应位置上的元素大，则将矩阵H₂对应位置上的元素置为1，否则将矩阵H₂对应位置上的元素置为0。

根据公式计算出矩阵X₂，其中所述W′_h,i+1表示第一权值矩阵W′_h,i+1的转置矩阵。

根据公式计算出矩阵ΔW，其中posW＝h′_i*H₁，h_i′表示第一矩阵h_i的转置矩阵，negW＝X′₂*H₂，X′₂表示矩阵X₂的转置矩阵，←表示赋值符号，即左边的变量的新值根据右边变量的值计算而得。

根据公式W_h,i+1＝W_h,i+1+ΔW来更新第一权值矩阵。

第一次计算的时候可以令ΔW为0矩阵，μ、ε、c可以分别为0.5，0.1和0.0002。

（4）重复第（2）、（3）步直到ΔW的绝对值小于某个预设值或者完成设定次数的更新之后结束。

一种可选的BP训练方法步骤如下：

假定一共有L层第r层有k_r个，一共n个训练样本，是第r-1层的第i个训练样本的第k个神经元的输出，是第r层第j个神经元到第r-1层第k个神经元的连接值，即W_h,r的第j行第k列上的元素。

（1）首先F_i+1和W_s,i+1保持不变，利用预训练得到的W′_h,i+1形成网络结构。

（2）前向计算：利用n个训练样本的输入特征向量s₀(1),s₀(2)……,s₀(n)得到和每一层的输出公式

h_{i + 1} (t) = \frac{1}{1 + e^{- (W_{h, i + 1} h_{i} (t) + W_{s, i + 1} s_{i + 1} (t))}},

得到每一层的输出和最后的y值。

（3）利用公式

Δ w_{jk}^{r} = - u Σ_{i = 1}^{n} δ_{j}^{r} (i) S^{r - 1} (i)

来计算ΔW矩阵的第j行和第k列元素。其中

S^{r - 1} (i) = [\begin{matrix} 1 \\ s_{2}^{r - 1} (i) \\ \cdot \\ \cdot \\ \cdot \\ s_{k_{r - 1}}^{r - 1} (i) \end{matrix}],

u是给定的学习率。

当r＝L时其中h′_L(i)是h_L(i)的一阶导数，e_j(i)＝（h_L(i)-y(i)）,y(i)为第i个训练数据给出的真实输出值。

否则其中h′_r-1(i)是h_r-1(i)的一阶导数，

e_{j}^{r - 1} (i) = Σ_{k = 1}^{k_{r}} δ_{j}^{r} (i) w_{kj}^{r} .

（4）利用W_new＝W_old+ΔW来更新传递矩阵W_h,i+1。其中，W_old为更新前的传递矩阵，W_new为更新后的传递矩阵。

在一种可能的实现方式中，如图5所示，在步骤S330之后，该方法还可以包括：

S410、根据已训练得到的所述第一滤波器和所述第一权值矩阵筛选所述训练样本，保留未正确计算出判别结果的样本；

S420、每次添加一个预设初始值的第二滤波器及其对应的第二权值矩阵，并使用已经训练得到的所述第一滤波器和所述第一权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器的个数确定。

在一种可能的实现方式中，如图6所示，在步骤S330之后，该方法还可以包括：

S510、根据已训练得到的所述第一滤波器、所述第一权值矩阵和每次添加的预设初始值的第二滤波器及其对应的第二权值矩阵，筛选所述训练样本，保留未正确计算出判别结果的样本；

S520、根据已训练得到的所述第一滤波器、所述第一权值矩阵和每次添加的预设初始值的第二滤波器及其对应的第二权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器的个数确定。

具体地，经过步骤S310～S330，可以得到如图7a所示的网络结构中的参数。然后，以采用三个第二滤波器对训练样本进行滤波处理为例，在添加第二滤波器F₁的情况下，如图7b所示，可以参见步骤S410、步骤S420，或参见步骤S510、步骤520，采用已训练好的第一滤波器F₀和第一权值矩阵W_h,1至W_h,3，或者同时采用添加的预设初始值的第二滤波器F₁及其对应的第二权值矩阵W_s,1筛选训练样本，保留未正确计算出判别结果的样本，例如，如果该训练样本为正样本，但判别结果为负样本，则该训练样本需要保留；或者如果该训练样本为负样本，但判别结果为正样本，则该训练样本也需要保留。因此，保留的训练样本实际上是分类错误的样本。然后使用BP训练方法，并使用分类错误的样本，训练由第一滤波器F₀和第一权值矩阵W_h,1至W_h,3，以及同时采用添加的预设初始值的第二滤波器F₁及其对应的第二权值矩阵W_s,1建立的新模型。最后根据BP训练的结果更新第一权值矩阵W_h,1至W_h,3、第二权值矩阵W_s,1和第二滤波器F₁。

在添加第二滤波器F₁和F₂的情况下，如图7c所示，采用图7b中已经更新的训练好的F₀、第一权值矩阵W_h,1至W_h,3、第二滤波器F₁、第二权值矩阵W_s,1，或者添加了预设初始值的第二滤波器F₂及其对应的第二权值矩阵W_s,2，筛选训练样本。然后使用BP训练方法，并使用保留的错误分类的样本，训练由第一滤波器F₀、第一权值矩阵W_h,1至W_h,3、第二滤波器F₁、第二权值矩阵W_s,1，以及添加了预设初始值的第二滤波器F₂及其对应的第二权值矩阵W_s,2建立的新模型。最后根据BP训练的结果再次更新第一权值矩阵W_h,1至W_h,3、第二权值矩阵W_s,1和W_s,2、第二滤波器F₁和F₂。

在添加第二滤波器F₁、F₂和F₃的情况下，如图2所示，采用图7c中已经更新的训练好的F₀，第一权值矩阵W_h,1至W_h,3、第二滤波器F₁、第二权值矩阵W_s,1、第二滤波器F₂、第二权值矩阵W_s,2，以及添加的预设初始值的第二滤波器F₃及其对应的第二权值矩阵W_s,3，筛选训练样本。使用BP训练方法，使用保留的错误分类的样本，训练由第一滤波器F₀，第一权值矩阵W_h,1至W_h,3、第二滤波器F₁、第二权值矩阵W_s,1、第二滤波器F₂、第二权值矩阵W_s,2，以及添加的预设初始值的第二滤波器F₃及其对应的第二权值矩阵W_s,3建立的新模型。最后根据BP训练的结果再次更新第一权值矩阵W_h,1至W_h,3、第二权值矩阵W_s,1至W_s,3、第二滤波器F₁、F₂和F₃。

本实施例中，从图像中提取窗口对应的视觉特征矩阵后，通过并联的第一滤波器、至少一个第二滤波器对视觉特征矩阵进行滤波后，可以依次计算出至少一个判别矩阵，从而确定该窗口内是否存在检测目标，该方法能够有效地传递图像中窗口区域及其周边领域的信息，提高对图像中检测目标的检测准确度，并且简单易于实现。

并且，通过对多个训练样本进行非监督训练，可以确定第一权值矩阵的中间值，采用非监督训练方法主要是把第一权值矩阵的值放入到一个比较好的位置上，以防止后面BP训练值陷入局部最优，从而提高图像中目标的检测准确度。然后，对第一权值矩阵的中间值进行BP训练，可以得到精确地第一权值矩阵的参数。

进一步地，通过依次添加第二滤波器，筛选训练样本，并使用BP训练方法和保留的训练样本，对添加了第二滤波器的新模型进行训练，能够得到更加精确的第一权值矩阵和第二权值矩阵，从而提高对图像中检测目标的检测准确度。此外，传统的基于判别模型的目标检测方法通常对多个滤波器单独进行优化，过拟合的风险较大，本发明依次添加第二滤波器，可以对第二滤波器进行联合优化，能够解决滤波器过拟合的问题，降低检测结果对训练样本数量和质量的依赖，从而可以进一步提高对图像中检测目标的检测准确度。

图8为本发明实施例四提供的目标检测装置的结构示意图。如图8所示，该目标检测装置可以包括：

划分单元80，用于将图像划分为N个窗口，N为大于或等于1的正整数；

提取单元81，与所述划分单元80连接，用于分别提取所述N个窗口对应的视觉特征矩阵，所述视觉特征矩阵是由多个视觉特征组成的矩阵；

第一滤波器83，与所述提取单元81连接，用于对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵；

至少一个第二滤波器85，与所述提取单元81连接，用于对所述选定窗口对应的视觉特征矩阵进行滤波处理，得到至少一个第二矩阵，每采用一个所述第二滤波器对所述选定窗口对应的一个视觉特征矩阵进行滤波处理，得到一个所述第二矩阵；

计算单元87，与所述第一滤波器83、所述第二滤波器85分别连接，用于根据所述第一矩阵及其对应的第一权值矩阵、以及每个所述第二矩阵及其对应的第二权值矩阵，计算出至少一个判别矩阵；以及

判别单元89，与所述计算单元87连接，用于根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标。

具体地，本实施例的目标检测装置可以执行本发明上述实施例中的目标检测方法，具体可以参见上述实施例一的目标检测方法中的相关描述和示例。此外，参见图2及其相关描述，右边的视觉特征矩阵f是由提取单元81从图像中提取出的。对于左边的级联深度网络结构中，输入层可以由第一滤波器83实现，隐藏层和输出层可以由计算单元87实现，而判别单元89则可以根据计算单元最后输出的判别矩阵确定输出判别值，从而确定图像中该选定窗口内是否有检测目标。

本实施例中，通过第一滤波器、至少一个第二滤波器和计算单元可以形成并联的目标检测装置，第一滤波器、第二滤波器对视觉特征矩阵进行滤波后，计算单元可以依次计算出至少一个判别矩阵，从而由判别单元确定该窗口内是否存在检测目标，该方法能够有效地传递图像中窗口区域及其周边领域的信息，提高对图像中检测目标的检测准确度，并且简单易于实现。

图9为本发明实施例五提供的目标检测装置的结构示意图。图9中标号与图8相同的组件具有相同的功能，为简明起见，省略对这些组件的详细说明。

如图9所示，该目标检测装置的第一滤波器83，具体用于采用公式得到第一矩阵，其中，h₀为所述第一矩阵，F₀表示所述第一滤波器83，f表示所述视觉特征矩阵，表示滤波运算符；

所述第二滤波器85，具体用于采用公式确定至少一个所述第二矩阵；其中，s_i+1为第i+1个所述第二矩阵；F_i+1表示第i+1个所述第二滤波器85，i为大于或等于0的整数；

所述计算单元87包括至少一个中间计算子单元871，每个中间计算子单元871分别与一个所述第二滤波器85连接，第i+2个中间计算子单元与第i+1个中间计算子单元连接；第1个中间计算子单元与所述第一滤波器83和一个第二滤波器85连接；

其中，第i+1的中间计算子单元，用于采用公式确定所述判别矩阵；其中，h_i+1表示第i+1个所述判别矩阵；W_h,i+1为第i+1个所述第一权值矩阵；W_s,i+1为第i+1个所述第二权值矩阵。

具体可以参见上述方法实施例中公式（1）到公式（3）的相关描述。此外，参见图2和图9，图2左边的级联深度网络结构中的第i+1个隐藏层相当于图9中的第i+1个中间计算子单元，图2的输出层相当于图9中最上层的中间计算子单元。在图9中，最下层的第二滤波器与第一滤波器并联到第1个中间计算子单元，其他的第二滤波器与中间计算子单元并联到上层的中间计算子单元。其中，每个中间计算子单元中都可以预先保存已训练好的这一隐藏层的第一权值矩阵和第二权值矩阵。判别单元也可以预先保存已训练输出层的第一权值矩阵和第二权值矩阵。

在一种可能的实现方式中，所述提取单元81可以包括：

缩放子单元815，用于将所述图像按照多个尺寸进行缩放，得到多个缩放图像；

窗口滑动子单元813，用于采用预设大小的窗口，从每个所述缩放图像的选定位置按照设定顺序进行滑动，每次滑动设定数量个像素，将每个所述缩放图像分别划分成N个窗口；以及

矩阵生成子单元811，用于每次在每个所述缩放图像上滑动一次窗口后，将每个所述缩放图像上的对应窗口中的视觉特征合并到一起，形成一个视觉特征矩阵；或者将每个所述缩放图像上的对应窗口中不同种类的视觉特征形成多个视觉特征矩阵。

具体可以参见上述实施例二的目标检测方法中视觉特征矩阵提取过程的相关描述和示例。

本实施例中，通过第一滤波器和各个中间计算子单元可以形成级联的结构，通过至少一个第二滤波器在级联的同时形成并联的结构，第一滤波器、第二滤波器对视觉特征矩阵进行滤波后，各个中间计算子单元可以分别计算出至少一个判别矩阵，从而由判别单元确定该窗口内是否存在检测目标，该方法能够有效地传递图像中窗口区域及其周边领域的信息，提高对图像中检测目标的检测准确度，并且简单易于实现。

其中，缩放子单元815将图像按多个尺寸缩放成多个缩放图像，窗口滑动子单元813再采用预设大小的窗口将每个缩放图像分别划分成N个窗口，矩阵生成子单元811将每个窗口的视觉特征形成一个或多个视觉特征矩阵，能够有效地保留图像中检测窗口区域及其周边的领域信息，为后续的目标检测提供精确的数据基础。

图10和图11为本发明实施例六提供的目标检测装置的结构示意图。图10和图11中标号与图8、图9相同的组件具有相同的功能，为简明起见，省略对这些组件的详细说明。

如图10或图11所示，该目标检测装置还可以包括：

训练单元91，与所述提取单元81连接，用于控制所述提取单元81从预先选择的训练图像的划分好的窗口区域，提取多个视觉特征矩阵作为训练样本；

所述训练单元91与所述第一滤波器83连接，还用于利用所述训练样本，使用支持向量机SVM训练方法，得到所述第一滤波器83；

所述训练单元91与所述计算单元87连接，还用于控制所述计算单元87通过已经训练得到的所述第一滤波器83和预设初始值的第一权值矩阵，利用所述训练样本进行非监督预训练和后向传递BP训练，得到所有的所述第一权值矩阵的参数。

如图10所示，在一种可能的实现方式中，所述训练单元91可以包括：

第一筛选子单元911，与所述第一滤波器83和所述计算单元87分别连接，用于控制所述计算单元87根据已训练得到的所述第一滤波器83和所述第一权值矩阵筛选所述训练样本，保留未正确计算出判别结果的样本；

第一添加子单元913，与所述第一滤波器83、所述第二滤波器85、所述计算单元87、所述第一筛选子单元911分别连接，用于控制所述计算单元87每次添加一个预设初始值的第二滤波器85及其对应的第二权值矩阵，并使用已经训练得到的所述第一滤波器83和所述第一权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器85和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器85的个数确定。

如图11所示，在一种可能的实现方式中，所述训练单元91还可以包括：

第二筛选子单元915，与所述第一滤波器83和所述计算单元87分别连接，用于控制所述计算单元87根据已训练得到的所述第一滤波器83、所述第一权值矩阵和每次添加的预设初始值的第二滤波器85及其对应的第二权值矩阵，筛选所述训练样本，保留未正确计算出判别结果的样本；

第二添加子单元917，与所述第一滤波器83、所述第二滤波器85、所述计算单元87、所述第二筛选子单元915分别连接，用于控制所述计算单元87根据已训练得到的所述第一滤波器83、所述第一权值矩阵和每次添加的预设初始值的第二滤波器85及其对应的第二权值矩阵，利用保留的所述训练样本进行BP训练，确定添加的所述第二滤波器85和第二权值矩阵的参数，并更新所述第一权值矩阵的参数；其中，筛选和添加次数由预设的第二滤波器85的个数确定。

具体可以参见上述实施例三的目标检测方法中训练过程的相关描述和示例。

其中，缩放子单元将图像按多个尺寸缩放成多个缩放图像，窗口滑动子单元再采用预设大小的窗口将每个缩放图像分别划分成N个窗口，矩阵生成子单元将每个窗口的视觉特征形成一个或多个视觉特征矩阵，能够有效地保留图像中检测窗口区域及其周边的领域信息，为后续的目标检测提供精确的数据基础。

并且，训练单元通过对多个训练样本进行非监督训练，可以确定第一权值矩阵的中间值，采用非监督训练方法主要是把第一权值矩阵的值放入到一个比较好的位置上，以防止后面BP训练值陷入局部最优，从而提高图像中目标的检测准确度。然后，对第一权值矩阵的中间值进行BP训练，可以得到精确地第一权值矩阵的参数。

进一步地，通过第一添加子单元913或第二添加子单元917依次添加第二滤波器85，通过第一筛选子单元911或第二筛选子单元915筛选训练样本，并使用BP训练方法和保留的训练样本，对添加了第二滤波器85的新模型进行训练，能够得到更加精确的第一权值矩阵和第二权值矩阵，从而提高对图像中检测目标的检测准确度。此外，传统的基于判别模型的目标检测方法通常对多个滤波器单独进行优化，过拟合的风险较大，本发明依次添加第二滤波器，可以对第二滤波器进行联合优化，能够解决滤波器过拟合的问题，降低检测结果对训练样本数量和质量的依赖，从而可以进一步提高对图像中检测目标的检测准确度。

图12为本发明实施例七提供的目标检测装置的结构示意图。所述目标检测装置1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。

所述目标检测装置1100包括处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网络设备通信，其中网络设备包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU，或者是专用集成电路ASIC（Application Specific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于存放程序和数据。存储器1130可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。

在一种可能的实施方式中，上述程序可为包括计算机操作指令的程序代码。该程序具体可用于执行目标检测方法，具体可以包括：

将图像划分为N个窗口，N为大于或等于1的正整数；

在一种可能的实现方式中，根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标，包括：

根据所述至少一个判别矩阵，得到输出判别值；

在一种可能的实现方式中，所述采用第一滤波器对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵，包括：

在一种可能的实现方式中，所述分别提取所述N个窗口对应的视觉特征矩阵，所述视觉特征矩阵是由多个视觉特征组成的矩阵，包括：

将所述图像按照多个尺寸进行缩放，得到多个缩放图像；

在一种可能的实现方式中，分别提取所述N个窗口对应的视觉特征矩阵之前，包括：

在一种可能的实现方式中，得到所有的所述第一权值矩阵的参数之后，还包括：

本领域普通技术人员可以意识到，本文所描述的实施例中的各示例性单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现，取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时，则在一定程度上可认为本发明的技术方案的全部或部分（例如对现有技术做出贡献的部分）是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中，包括若干指令用以使得计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，包括：

将图像划分为N个窗口，N为大于或等于1的正整数；

2.根据权利要求1所述的方法，其特征在于，根据所述至少一个判别矩阵，确定所述图像中在所述选定窗口内是否存在检测目标，包括：

根据所述至少一个判别矩阵，得到输出判别值；

3.根据权利要求1或2所述的方法，其特征在于，所述采用第一滤波器对选定窗口对应的视觉特征矩阵进行滤波处理，得到滤波后的第一矩阵，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述分别提取所述N个窗口对应的视觉特征矩阵，所述视觉特征矩阵是由多个视觉特征组成的矩阵，包括：

将所述图像按照多个尺寸进行缩放，得到多个缩放图像；

5.根据权利要求1-4中任一项所述的方法，其特征在于，分别提取所述N个窗口对应的视觉特征矩阵之前，包括：

6.根据权利要求5所述的方法，其特征在于，得到所有的所述第一权值矩阵的参数之后，还包括：

7.根据权利要求5所述的方法，其特征在于，得到所有的所述第一权值矩阵的参数之后，还包括：

8.一种目标检测装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述判别单元具体用于根据所述至少一个判别矩阵，得到输出判别值；根据所述输出判别值，确定所述图像中在所述选定窗口内是否存在检测目标。

10.根据权利要求8或9所述的装置，其特征在于，

所述第一滤波器，具体用于采用公式得到第一矩阵，其中，h₀为所述第一矩阵，F₀表示所述第一滤波器，f表示所述视觉特征矩阵，表示滤波运算符；

11.根据权利要求8-10中任一项所述的装置，其特征在于，所述提取单元包括：

12.根据权利要求8-11中任一项所述的装置，其特征在于，还包括：

13.根据权利要求12所述的装置，其特征在于，所述训练单元包括：

14.根据权利要求12所述的装置，其特征在于，所述训练单元包括：