CN104217216B

CN104217216B - 生成检测模型的方法和设备、用于检测目标的方法和设备

Info

Publication number: CN104217216B
Application number: CN201410441658.6A
Authority: CN
Inventors: 曾星宇; 欧阳万里; 王萌; 王晓刚; 张维
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2017-10-17
Anticipated expiration: 2034-09-01
Also published as: WO2016033990A1; CN104217216A

Abstract

本发明实施例公开一种生成检测模型的方法和设备、用于检测目标的方法和设备，该生成检测模型的方法包括训练通用训练数据，得到第一检测模型；获取未标定的多个图像，多个图像是通过拍摄同一目标场景获得的；根据第一检测模型对未标定的多个图像进行检测得到目标场景训练数据；训练目标场景训练数据和通用训练数据，得到第二检测模型，其中，第二检测模型包括多层网络、聚类层和分类层。本发明实施例能够提高目标检测的性能。

Description

生成检测模型的方法和设备、用于检测目标的方法和设备

技术领域

本发明涉及物体检测领域，特别涉及一种生成检测模型的方法和设备、用于检测目标的方法和设备。

背景技术

视频监控是安全防范系统的重要组成部分，随着智能监控网的大规模建立，人类将获得海量监控图像视频。如何使得电脑自动识别出监控图像中是否存在目标(例如：行人)及标定其位置是一个极其重要的问题，其在智能监控网和智能安全驾驶辅助系统上有极其重要的位置。

随着现有技术的不断发展，目标检测技术也取得了极大的进展。然而现有的目标检测方法都假设其训练数据和测试数据拥有一致的数据分布，故检测模型的性能极大程度上依赖其训练的数据。但是当训练数据和测试数据分别从不同场景下采集获得时，该训练出来的检测模型进行测试数据监测时性能将极大地下降。

发明内容

本发明实施例提供一种用于检测目标的方法和设备，能够提高检测性能。

第一方面，提供了一种生成检测模型的方法，该方法包括：训练通用训练数据，得到第一检测模型；获取未标定的多个图像，所述多个图像是通过拍摄同一目标场景获得的；根据所述第一检测模型对所述未标定的多个图像进行检测得到目标场景训练数据；训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，其中，所述第二检测模型包括多层网络、聚类层和分类层。

结合第一方面，在第一种可能的实现方式中，所述多层网络包括多层深度卷积网络和多层深度信念网络，所述根据目标场景训练数据和通用训练数据进行训练得到所述第一检测模型，包括：确定初始多层卷积网络和初始多层深度信念网络；采用反向传播算法，根据所述目标场景训练数据和所述通用训练数据对所述初始多层深度卷积网络进行训练，得到第一特征数据和所述多层深度卷积网络；根据所述第一特征数据和所述目标场景训练数据更新所述初始多层深度信念网络的权重参数，得到第二特征数据、所述多层深度信念网络与所述分类层间的权重参数和所述多层深度信念网络；对所述第二特征数据进行聚类分析，获得所述聚类层、所述聚类层与所述多层深度信念网络间的权重参数和所述聚类层与所述分类层间的权重参数。

结合第一种可能的实现方式，在第二种可能的实现方式中，所述训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，还包括：根据所述第二特征数据生成重建网络和所述重建网络的权重参数；采用反向传播算法更新所述重建网络的权重参数；根据更新后的所述重建网络的权重参数确定所述重建网络的输出值；根据所述重建网络的输出值与所述第一特征数据的期望值的偏差更新所述聚类层与所述多层深度信念网络间的权重参数、所述多层深度信念网络与所述分类层间的权重参数和所述聚类层与所述分类层间的权重参数。

结合第二种可能的实现方式，在第三种可能的实现方式中，所述训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，包括：采用反向传播算法，根据目标函数通过目标场景训练数据和通用训练数据训练所述第二检测模型，所述目标函数的变量为所述第二检测模型的输出值与输出期望值的偏差、所述聚类层的输出值与输出期望值的偏差和所述重建网络的输出值与所述第一特征数据的期望值的偏差。

结合第三种可能的实现方式，在第四种可能的实现方式中，所述目标函数为：

其中L表示训练数据经过所述第二检测模型的输出值与输出期望值的偏差、所述聚类层的输出值与输出期望值的偏差和所述重建网络的输出值与所述第一特征数据的期望值的偏差总和，所述训练数据包括所述目标场景训练数据和所述通用训练数据，n为所述训练数据的编号，f_n为第n个训练数据的特征数据，表示n个训练数据的重建结果，y_n表示第n个训练数据是否包含所述目标，表示由第二检测模型所得到的是否包含目标物体的输出值，v_n表示所述第n个训练数据是否为目标场景训练数据，λ₁、λ₂为调节参数，其中，

表示所述第n个训练数据的特征数据的重建偏差；为交互熵，表示目所述第n个训练数据输出值与期望值的偏差；表示所述第n个训练数据聚类偏差，其中c_n表示所述第n个目标场景训练数据所属类别，表示针对所述第n个目标场景训练数据在聚类层的输出响应。

结合第二至第四种可能的实现方式中的任一种可能的实现方式，在第五种可能的实现方式中，所述采用反向传播算法更新所述重建网络的权重参数，包括：根据以下公式更新所述重建网络的权重参数：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，i等于1或2，表示所述重建网络的第一层的输出，表示所述重建结果，为更新参数，和表示所述重建网络的权重参数。

结合第一至第五种可能的实现方式中的任一种可能的实现方式，在第六种可能的实现方式中，根据所述第一特征数据和所述目标场景训练数据更新所述初始多层深度信念网络的权重参数，包括：根据以下公式更新所述多层深度信念网络的权重参数：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，f表示第一特征数据，h_i表示多层网络中的第i层深度信念网络的输出响应，W_i、b_i为更新参数，W_i表示多层深度信念网络间的权重。

第二方面，提供了一种用于检测目标的方法，其特征在于，包括：将目标场景图像输入第二检测模型的多层网络进行特征提取，得到所述目标场景图像的第一特征数据，其中所述第二检测模型为第一方面或第一方面的第一至第六种可能的实现方式中的任一种可能的实现方式训练得到的所述第二检测模型；将所述第一特征数据输入所述第二检测模型的聚类层进行特征匹配，得到待检测图像的第二特征数据；根据所述第一特征数据和所述第二特征数据确定所述目标场景图像是否包含所述目标。

结合第二方面，在第一种可能的实现方式中，所述根据所述第一特征数据和所述第二特征数据确定所述目标场景图像是否包含所述目标，包括：将所述第一特征数据和所述第二特征数据进行加权融合确定所述目标场景图像是否包含所述目标。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述将所述第一特征数据和所述第二特征数据进行加权融合确定所述目标场景图像是否包含所述目标，包括：根据以下公式进行所述第一特征数据和所述第二特征数据进行加权融合，并确定所述目标场景图像是否包含所述目标：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，表示所述第四特征数据在所述聚类层的响应结果，y表示待检测图像是否包含所述目标，W_i、b_i为更新参数，其中为多层深度信念网络与分类层间的权重参数的转置，为多层深度信念网络间的权重参数的转置。

第三方面，提供了一种生成检测模型的设备，其特征在于，包括：第一训练单元，用于训练通用训练数据，得到第一检测模型；获取单元，用于获取未标定的多个图像，所述多个图像是通过拍摄同一目标场景获得的；检测单元，用于根据所述第一检测模型对所述未标定的多个图像进行检测得到目标场景训练数据；第二训练单元，用于训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，其中，所述第二检测模型包括多层网络、聚类层和分类层。

结合第三方面，在第一种可能的实现方式中，所述多层网络包括多层深度卷积网络和多层深度信念网络，所述第二训练单元确定初始多层卷积网络和初始多层深度信念网络；采用反向传播算法，根据所述目标场景训练数据和所述通用训练数据对所述初始多层深度卷积网络进行训练，得到第一特征数据和所述多层深度卷积网络；根据所述第一特征数据和所述目标场景训练数据更新所述初始多层深度信念网络的权重参数，得到第二特征数据、所述多层深度信念网络与所述分类层间的权重参数和所述多层深度信念网络；对所述第二特征数据进行聚类分析，获得所述聚类层、所述聚类层与所述多层深度信念网络间的权重参数和所述聚类层与所述分类层间的权重参数。

结合第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第二训练单元根据所述第二特征数据生成重建网络和所述重建网络的权重参数；采用反向传播算法更新所述重建网络的权重参数；根据更新后的所述重建网络的权重参数确定所述重建网络的输出值；根据所述重建网络的输出值与所述第一特征数据的期望值的偏差更新所述聚类层与所述多层深度信念网络间的权重参数、所述多层深度信念网络与所述分类层间的权重参数和所述聚类层与所述分类层间的权重参数。

结合第三方面的第二种可能的实现方式，在第三种可能的实现方式中，所述第二训练单元采用反向传播算法，根据目标函数通过目标场景训练数据和通用训练数据训练所述第二检测模型，所述目标函数的变量为所述第二检测模型的输出值与输出期望值的偏差、所述聚类层的输出值与输出期望值的偏差和所述重建网络的输出值与所述第一特征数据的期望值的偏差。

结合第三方面的第三种可能的实现方式，在第四种可能的实现方式中，所述目标函数为：

结合第三方面的第二至第四种可能的实现方式中的任一种可能的实现方式，在第五种可能的实现方式中，所述第二训练单元根据以下公式更新所述重建网络的权重参数：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，i等于1或2，表示所述重建网络的第一层的输出，表示所述重建结果，和为更新参数，和表示所述重建网络的权重参数。

结合第三方面的第一至第五种可能的实现方式中的任一种可能的实现方式，在第六种可能的实现方式中，所述第二训练单元根据以下公式更新所述多层深度信念网络的权重参数：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，f表示第三特征数据，h_i表示多层网络中的第i层深度信念网络的输出响应，W_i、b_i为更新参数，W_i表示多层深度信念网络间的权重。

第四方面，提供了一种用于检测目标的设备，其特征在于，包括：第一特征提取单元，用于将目标场景图像输入第二检测模型的多层网络进行特征提取，得到所述目标场景图像的第一特征数据，其中所述第二检测模型为第一方面、第一方面的第一至第六种可能的实现方式、第二方面、第二方面的第一种可能的实现方式、第三方面和第三方面的第一至第六种可能的实现方式中的任一种可能的实现方式中训练得到的第二检测模型，第二特征提取单元，用于将所述第一特征数据输入所述第二检测模型的聚类层进行特征匹配，得到待检测图像的第二特征数据；确定单元，用于根据所述第一特征数据和所述第二特征数据确定所述目标场景图像是否包含所述目标。

结合第四方面，在第一种可能的实现方式中，所述确定单元将所述第一特征数据和所述第二特征数据进行加权融合确定所述目标场景图像是否包含所述目标。

结合第四方面的第一种可能的实现方式，在第二种可能的实现方式中，所述确定单元根据以下公式进行所述第一特征数据和所述第二特征数据进行加权融合，并确定所述目标场景图像是否包含所述目标：

基于上述技术方案，本发明实施例根据第一检测模型对未标定的多个目标场景图像进行检测得到目标场景训练数据；并根据目标场景训练数据和通用训练数据进行训练得到第二检测模型，该第二检测模型能够针对不同的目标场景的图像进行检测，提高检测性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明一个实施例的生成检测模型的方法的示意流程图。

图2是根据本发明另一实施例的生成检测模型的方法的示意流程图。

图3是根据本发明另一实施例的生成检测模型的方法的示意流程图。

图4是根据本发明一个实施例的用于检测目标的方法的示意流程图，

图5是本发明一个实施例的训练第二检测模型的方法的示意图。

图6是本发明另一实施例的训练第二检测模型的方法的示意图。

图7是本发明实施例的仿真结果示意图。

图8是图7实施例中聚类层中的分类结果对检测目标的影响的示意图。

图9是根据本发明一个实施例的生成检测模型的设备的示意框图。

图10是根据本发明一个实施例的用于检测目标的设备的示意框图。

图11是根据本发明另一实施例的生成检测模型的的设备的示意框图。

图12是根据本发明另一实施例的用于检测目标的设备的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1是根据本发明一个实施例的生成检测模型的方法的示意流程图。如图1所示，该方法包括：

110，训练通用训练数据，得到第一检测模型。

120，获取未标定的多个图像，多个图像是通过拍摄同一目标场景获得的。

130，根据第一检测模型对未标定的多个图像进行检测得到目标场景训练数据。

140，训练目标场景训练数据和通用训练数据，得到第二检测模型，其中，第二检测模型包括多层网络、聚类层和分类层。

因此，本发明实施例根据第一检测模型对未标定的多个目标场景图像进行检测得到目标场景训练数据；并根据目标场景训练数据和通用训练数据进行训练得到第二检测模型，该第二检测模型能够针对不同的目标场景的图像进行检测，提高检测性能。

应理解，本发明实施例中的检测器模型也可以称为检测器、分类器或分类器模型，应理解，第一检测模型为已有的检测模型，例如，该第一检测模型可以为通过通用训练数据训练所得，通用训练数据可以为通用场景中的图像，换句话说，通用训练数据可以为一般场景中的图像，例如通用训练数据可以为通过互联网获得的图像。

还应理解，目标场景图像可以为从目标场景数据中选取的图像，换句话说，目标场景图像可以为从特定场景数据中选取的图像，例如，目标场景图像可以为视频监控图像。

应注意，目标场景中的图像可以为低分辨率的图像，通用场景中的图像(通用训练数据)可以为高分辨率的图像。

应理解，目标场景训练数据可以为目标场景数据中被第一检测模型检测为包括目标的数据。

换句话说，目标场景训练数据可以为根据现有方法从未标定的目标场景数据中选择被第一检测模型检测为包括目标的数据。

例如，先从通用训练数据上训练第一监测模型，使用该第一检测模型检测未标定的特定场景图片，从中挑出高响应的样本，再结合对特定场景中目标特征，如行人路径，大小等条件获得目标场景训练数据。

可选地，多层网络包括多层深度卷积网络和多层深度信念网络，如图2所示，在140中，包括：

210，确定初始多层卷积网络和初始多层深度信念网络。

具体地，初始多层卷积网络和初始多层深度信念网络为第二检测模型的初始架构，该初始多层卷积网络和初始多层深度信念网络可以是预先设定的，也可以是根据经验认为设定的初始值，也可以是随机设置的网络。本发明实施例并不对此作限定，可以根据目标场景训练数据和通用训练数据对该初始架构进行训练更新，进而最终获得需要的第二检测模型。

220，采用反向传播算法，根据目标场景训练数据和通用训练数据对初始多层深度卷积网络进行训练，得到第一特征数据和多层深度卷积网络。

具体地，训练后的初始多层深度卷积网络形成该多层深度卷积网络。换句话说，根据得到的目标场景训练数据和通用训练数据，采用反向传播算法进行深度卷积网络的学习，从而学习得到第一特征数据，并且经过学习后的初始多层深度卷积网络形成该多层深度卷积网络。

230，根据第一特征数据和目标场景训练数据更新初始多层深度信念网络的权重参数，得到第二特征数据、多层深度信念网络与分类层间的权重参数和多层深度信念网络。

具体地，更新后的初始多层深度信念网络形成该多层深度信念网络。换句话说，根据第一特征数据使用非监督学习和/或监督学习的方法多层深度信念网络；换句话说，学习多层深度信念网络内的权重参数，并输出第二特征数据，例如，利用深度信念网络先非监督学习目标场景训练数据，后采用监督学习的方法学习该深度信念网络，并输出第二特征数据、多层深度信念网络与分类层间的权重参数和多层深度信念网络。

240，对第二特征数据进行聚类分析，获得聚类层、聚类层与多层深度信念网络间的权重参数和聚类层与分类层间的权重参数。

换句话说，对第二特征数据进行聚类分析，并设置目标场景聚类层，使该聚类层中每个节点表示一类，换句话说，每个节点代表一类目标或场景，并利用监督学习完善深度信念网络、该聚类层间的权重参数和聚类层与分类层间的权重参数。

应理解，该权重参数可以用于将第二特征数据对应到聚类层中的类别中。换句话说，第二特征数据对应聚类层中的多个类别中的一个类别。例如，聚类层包括五类，不同目标训练数据的第二特征数据可以对应聚类层中的五类类别中的一个类别。或者，第二特征数据可以对应聚类层中的五类类别中的各个类别的概率或权重。

应理解，本发明实施例中的对参数的更新可以理解为对参数的学习或训练，也就是说，本发明实施例中更新参数包括学习参数。还应理解，更新(训练)后的初始多层卷积网络和初始多层深度信念网络构成了第二检测模型的多层网络多层深度卷积网络和多层深度信念网络。

具体地，本发明实施例使用相似性传播聚类算法对所有可依赖的特定场景样本进行聚类，并将聚类结果作为聚类层的标定。该聚类层每个节点表示一个类别，并使该聚类层拥有和相似性传播聚类算法结果相同数目的分类。，采用反向传播算法对多层隐藏网络和聚类层的连接进行更新。其采用的目标函数为其中c_n表示由相似性聚类算法的到的特定视觉模式分类结果，表示由聚类层预测得到特定视觉模式的分类结果。

可选地，作为另一实施例，在130中，还包括

根据第二特征数据生成重建网络和重建网络的权重参数；

采用反向传播算法更新重建网络的权重参数；

根据更新后的重建网络的权重参数确定重建网络的输出值；

根据重建网络的输出值与第一特征数据的期望值的偏差更新聚类层与多层深度信念网络间的权重参数、多层深度信念网络与分类层间的权重参数和聚类层与分类层间的权重参数。

具体地，如图3所示，在140中，包括：

310，确定初始多层卷积网络和初始多层深度信念网络。

320，采用反向传播算法，根据目标场景训练数据和通用训练数据对初始多层深度卷积网络进行训练，得到第一特征数据。

330，根据第一特征数据和目标场景训练数据更新初始多层深度信念网络的权重参数，得到第二特征数据。

340，对第二特征数据进行聚类分析，获得聚类层和聚类层与多层深度信念网络间的权重参数。

350，根据第二特征数据生成重建网络和重建网络的权重参数；采用反向传播算法更新重建网络的权重参数；根据更新后的重建网络的权重参数确定重建网络的输出值；根据重建网络的输出值与第一特征数据的期望值的偏差更新聚类层与多层深度信念网络间的权重参数、多层深度信念网络与分类层间的权重参数和聚类层与分类层间的权重参数。

具体地，310-340分别与图2中的210-240对应，为避免重复，不再赘述。在350中，可以采用逆运算生成重建网络，采用反向传播算法进行重建网络的学习，例如，学习重建网络的权重参数。应理解，根据目标场景训练数据的重建结果能够获得第三特征训练数据，其中第三特征训练数据可以为根据重建网络重建该目标场景训练数据的第二特征训练数的结果，根据该第三特征训练数据与第二特征训练数据的偏差可以进行参数更新。具体地，可以更新聚类层与多层深度信念网络间的权重参数、多层深度信念网络与分类层间的权重参数和聚类层与分类层间的权重参数，经过参数更新后，能够进一步的提高检测模型的性能。

可选地，作为另一实施例，在140中，

采用反向传播算法，根据目标函数通过目标场景训练数据和通用训练数据训练第二检测模型，目标函数的变量为第二检测模型的输出值与输出期望值的偏差、聚类层的输出值与输出期望值的偏差和重建网络的输出值与第一特征数据的期望值的偏差。

其中，目标函数为：

其中L表示训练数据经过第二检测模型的输出值与输出期望值的偏差、聚类层的输出值与输出期望值的偏差和重建网络的输出值与第一特征数据的期望值的偏差总和，训练数据包括目标场景训练数据和通用训练数据，n为训练数据的编号，f_n为第n个训练数据的特征数据，表示n个训练数据的重建结果，y_n表示第n个训练数据是否包含目标，表示由第二检测模型所得到的是否包含目标物体的输出值，v_n表示第n个训练数据是否为目标场景训练数据，λ₁、λ₂为调节参数，其中，

表示第n个训练数据的特征数据的重建偏差；为交互熵，表示目第n个训练数据输出值与期望值的偏差；表示第n个训练数据聚类偏差，其中c_n表示第n个目标场景训练数据所属类别，表示针对第n个目标场景训练数据在聚类层的输出响应。

换句话说，为了使目标函数的值减少，采用反向学习(训练)的方法更新各个网络权重参数，使得更新后的目标函数的取值减少，能偶提高检测模型的性能。

可选地，作为另一实施例，在220中，可以根据以下公式更新多层深度信念网络内的权重参数：

可选地，作为另一实施例，在340中，可以根据以下公式学习更新网络内的权重参数：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，i等于1或2，表示重建网络的第一层的输出，表示重建结果，和为更新参数，和表示重建网络间的权重参数。

经过多次训练学习(更新权重参数)后得到第二检测模型，该第二检测模具有较高的检测目标的准确性，因此，经过上述的训练(学习或更新)过程，最终能够获得第二检测模型，该第二检测模型能够够针对不同的目标场景的图像进行检测，提高检测性能。

上文中结合图1至图3详细描述了根据本发明实施例的生成检测模型的方法，下面将结合图4详细描述根据本发明实施例的用于检测目标的方法。

图4是根据本发明一个实施例的用于检测目标的方法的示意流程图，应理解，本发明实施例中的目标可以为行人，也可以为动物或某一物体，本发明实施例并不对此做限定。如图4所示，该方法包括：

410，将目标场景图像输入第二检测模型的多层网络进行特征提取，得到目标场景图像的第一特征数据。

其中，该第二检测模型为图1至图3方法中训练得到的第二检测模型。

应理解，本发明实施例中的检测模型模型也可以称为检测器、分类器或分类器模型，本发明实施例中的第一检测模型可以是预先已有的检测模型，也可以为通过训练后得到的检测模型，该第一检测模型可以包括多层网络和聚类层。

该第一特征数据可以为多层网络中的任一层的输出数据，例如，多层网络可以包括3层卷积网络，3层卷积层中含有3层子卷积层和3层均值采样层，该第一特征数据可以是第二层均值采样层的输出，也可以是第三层均值采样层的输出。

420，将第一特征数据输入第二检测模型的聚类层进行特征匹配，得到待检测图像的第二特征数据。

具体地，该第二特征数据为聚类层的输出数据。

430，根据第一特征数据和第二特征数据确定目标场景图像是否包含目标。

具体地，可以根据第一特征数据和第二特征数据确定目标场景图像包含目标的概率，换句话说可以根据第一检测模型的输出y的值确定目标场景图像是否包含目标，例如，当y＝1时，确定目标场景图像包含目标。当y＝0时，确定目标场景图像不包含目标。在例如，当y大于阈值t时确定目标场景图像包含目标。当y小于t时，确定目标场景图像不包含目标，其中t大于等于0且小于等于1。

因此，本发明实施例将目标场景图像输入基于深度学习的第一检测模型的多层网络进行特征提取，该第一检测模型是通过目标场景训练数据和通用训练数据训练所得，该第一检测模型能够针对不同场景的图像进行检测，提高检测性能。

可选地，作为另一实施例，在430中，可以将第一特征数据和第二特征数据进行加权融合确定目标场景图像是否包含目标。

进一步地，作为另一实施例，在430中，可以根据以下公式进行第一特征数据和第二特征数据进行加权融合，并确定目标场景图像是否包含目标：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，表示第四特征数据在聚类层的响应结果，y表示待检测图像是否包含目标，W_i、b_i为更新参数，其中为多层深度信念网络与分类层间的权重参数的转置，为多层深度信念网络间的权重参数的转置。

例如，对于实际运用中检测的图片，本发明实施例在不同位置采集不同大小的输入框作为本专利的目标场景图像，从而判定实际检测的图片各个位置是否存在目标。

应注意，该多层深度网络可以为多层，例如，该多层网络可以包含2层深度卷积网络和2层深度信念网络，或者该多层网络可以包含3层深度卷积网络和3层深度信念网络，或者该多层网络还可以包含4层深度卷积网络和4层深度信念网络，本发明实施例并不对此做限定。下面仅以3层深度卷积网络的例子进行详细说明。

该检测模型包含的3层深度卷积网络中含有3层子卷积层和3层均值采样层，任何一目标场景图像先通过第一层子卷积层，再通过一非线性函数变化，然后通过一层均值采样层从而得到下一卷积层的输入。最终输入到分类器的视觉特征(第一特征数据)可以包含至少一层的输出，例如，例如可以包含第二层均值采样层的输出或第三层均值采样层的输出。

本发明实施例将由深度卷积网络得到的多级视觉特征输入到3层深度信念网络，最终根据最后一层深度信念网络输出(第一特征数据)和聚类层的输出(第二特征数据)作出判决，输出目标场景图像是否包含目标。

上文中结合图1至图3详细描述了根据本发明实施例的生成检测模型的方法，结合图4详细描述根据本发明实施例的用于检测目标的方法。下面结合图5至图8具体的例子进行详细描述。

例如，图5是本发明一个实施例的训练第二检测模型的方法的示意图，

如图5所示，初始检测模型包括三层深度信念网络，其中每一层深度信念网络输出的特征数据分别为f、h1和h2，其中，h2为第一特征数据，w1和w2为该三层深度信念网络中需要更新的权重参数，三层重建网络，每一层重建网络输出的特征数据分别为h2、和聚类层输出的特征数据为即第二特征数据，w2和w1为重建网络间的权重参数，w4为聚类层和多层信念网络间需要更新的权重参数，表示检测器的输出结果，w3为第一特征数据与分类层间的需要更新的权重参数，和w5为聚类层与分类间的需要更新的权重参数。

下面结合图5给出本发明实施例中一个具体生成检测模型的例子，具体地，如图6所示，包括：

601，从未标定的目标场景图像中获取目标场景训练数据。

例如，可以根据第一检测模型对未标定的多个目标场景图像进行检测以获取目标场景训练数据。

应理解，第一检测模型为已有的检测模型，例如，该第一检测模型可以为通过通用训练数据训练所得，通用训练数据可以为通用场景中的图像，换句话说，通用训练数据可以为一般场景中的图像，例如通用训练数据可以为通过互联网获得的图像。

应理解，目标场景训练数据可以为目标场景数据中被第二检测模型检测为包括目标的数据。

602，结合通用训练数据和目标场景训练数据，训练多层深度卷积网络。

例如，可以采用反向传播算法，根据目标场景训练数据和通用训练数据进行多层深度卷积网络的学习，并输出目标场景训练数据的第一特征数据。

换句话说，根据得到的目标场景训练数据和通用训练数据，采用反向传播算法进行深度卷积网络的学习，从而学习得到第一特征数据。

603，分层非监督训练学习w1、w2。

例如，根据第一特征数据和目标场景训练数据学习多层深度信念网络内的权重参数w1、w2。

604，使用反向传播算法学习w1、w2和w3，此过程中保持w4和w5为0。

例如，根据第一特征数据使用非监督学习和/或监督学习的方法多层深度信念网络；换句话说，学习多层深度信念网络内的权重参数，例如，利用深度信念网络先非监督学习目标场景训练数据，后采用监督学习的方法学习该深度信念网络，具体地，学习参数w1、w2和w3。

605，利用相似传播聚类方法对目标场景训练数据进行聚类，获得聚类层，该聚类层的节点数目和相似传播聚类方法得出的聚类结果分类数目相等。

606，固定w1和w2，采用反向传播算法学习w4。

例如，可以对第二特征数据进行聚类分析，学习聚类层与多层深度信念网络间的权重参数，获得聚类层。

换句话说，对第二特征数据进行聚类分析，并设置目标场景聚类层，使该聚类层中每个节点表示一类，换句话说，每个节点代表一类目标或场景，并利用监督学习完善深度信念网络和该聚类层间的权重参数w4。

607，固定w1、w2和w4，采用反向传播算法学习w3和w5。

例如，根据第二特征数据生成重建网络，采用反向传播算法学习重建网络间的权重参数，根据目标场景训练数据的重建结果学习多层深度信念网络与分类层间的权重参数w3和聚类层与分类层间的权重参数w5。

可以采用逆运算生成重建网络，采用反向传播算法进行重建网络的学习，例如，学习重建网络内的权重参数。应理解，根据目标场景训练数据的重建结果能够获得第五特征训练数据，其中第三特征训练数据可以为根据重建网络重建该目标场景训练数据的第一特征训练数的结果，根据该第三特征训练数据与第一特征训练数据的偏差可以进行参数优化学习。具体地，可以学习多层深度信念网络与分类层间的权重参数w3和聚类层与分类层间的权重参数w5。

608，使用训练第一检测模型的目标函数进行反向传播更新w1、w2、w3、w4和W5。

其中，目标函数为：

其中L表示训练数据经过第二检测模型的输出值与输出期望值的偏差、聚类层的输出值与输出期望值的偏差和重建网络的输出值与第一特征数据的期望值的偏差总和，训练数据包括目标场景训练数据和通用训练数据，n为训练数据的编号，f_n为第n个训练数据的特征数据，表示n个训练数据的重建结果，y_n表示第n个训练数据是否包含目标，v_n表示第n个训练数据是否为目标场景训练数据，λ₁、λ₂为调节参数，其中，

表示第n个训练数据的特征数据的重建偏差；为交互熵，表示目第n个训练数据输出值与期望值的偏差；表示第n个训练数据聚类偏差，其中c_n表示第n个目标场景训练数据所属类别，表示针对第n个目标场景训练数据的聚类层的聚类。

图7是本发明实施例的仿真结果示意图。

本发明实施例采用一公开行人检测数据库，INRIA Pedestiran Dataset(http:// pascal.inrialpes.fr/data/human/)作为通用训练数据，采用另一公开行人检测数据库，MIT Traffic Pedestrian Dataset(http://www.ee.cuhk.edu.hk/～xgwang/ MITtraffic.html)作为目标场景数据库。目标场景数据库中随机抽取420帧作为目标场景训练数据来源，100帧作为目标场景测试数据。本实例中共有4260可依赖目标场景数据正样本，3788目标场景负样本。图6中示出了本发明实施例方法和其他现有方法在本实例上的性能比较，其中横轴表示检测结果中平均每张图上检测错误的个数，纵轴表示检测结果中丢失了多少行人没有被检测到。由图6可以看出本发明实施例的检测准确性高于现有方法。

如图8所示，该聚类层中包括多个类别，其中类别a为清晰的行人，类别b为较清晰的行人，类别c为斑马线，类别d为模糊的行人，由图7可以看出，针对类别a、b、d和c，聚类层的权重参数w5的数值依次减小。

上文中结合图1至图3详细描述了根据本发明实施例的生成检测模型的方法，结合图4详细描述根据本发明实施例的用于检测目标的方法。结合图5至图8具体的例子进行了详细描述。

下面将结合图9至图11,详细描述根据本发明实施例的生成检测模型的设备。

图9是根据本发明一个实施例的训练检测模型的设备的示意框图。如图9所示的设备900包括：第一训练单元910，获取单元920、检测单元930和第二训练单元940。

具体地，第一训练单元910用于训练通用训练数据，得到第一检测模型；获取单元920用于获取未标定的多个图像，多个图像是通过拍摄同一目标场景获得的；检测单元930用于根据第一检测模型对未标定的多个图像进行检测得到目标场景训练数据；第二训练单元940用于训练目标场景训练数据和通用训练数据，得到第二检测模型，其中，第二检测模型包括多层网络、聚类层和分类层。

因此，本发明实施例根据第一检测模型对未标定的多个目标场景图像进行检测得到目标场景训练数据；并根据目标场景训练数据和通用训练数据进行训练得到第二检测模型，该第二检测模型能够针对不同场景的图像进行检测，提高检测性能。

可选地，作为另一实施例，多层网络包括多层深度卷积网络和多层深度信念网络，

第二训练单元940确定初始多层卷积网络和初始多层深度信念网络；采用反向传播算法，根据目标场景训练数据和通用训练数据对初始多层深度卷积网络进行训练，得到第一特征数据和多层深度卷积网络；根据第一特征数据和目标场景训练数据更新初始多层深度信念网络的权重参数，得到第二特征数据、多层深度信念网络与分类层间的权重参数和多层深度信念网络；对第二特征数据进行聚类分析，获得聚类层、聚类层与多层深度信念网络间的权重参数和聚类层与分类层间的权重参数。

可选地，作为另一实施例，第二训练单元940根据第二特征数据生成重建网络和重建网络的权重参数；采用反向传播算法更新重建网络的权重参数；根据更新后的重建网络的权重参数确定重建网络的输出值；根据重建网络的输出值与第一特征数据的期望值的偏差更新聚类层与多层深度信念网络间的权重参数、多层深度信念网络与分类层间的权重参数和聚类层与分类层间的权重参数。

可选地，作为另一实施例，第二训练单元940采用反向传播算法，根据目标函数通过目标场景训练数据和通用训练数据训练第二检测模型，目标函数的变量为第二检测模型的输出值与输出期望值的偏差、聚类层的输出值与输出期望值的偏差和重建网络的输出值与第一特征数据的期望值的偏差。

进一步地，作为另一实施例，目标函数为：

可选地，作为另一实施例，第二训练单元940根据以下公式更新重建网络内的权重参数：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，表示重建网络的第一层的输出，表示重建结果，和为更新参数，和表示重建网络间的权重参数。

可选地，作为另一实施例，第二训练单元940根据以下公式更新多层深度信念网络内的权重参数：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，f表示第三特征数据，h_i表示多层网络中的第i层深度信念网络的输出响应，W_i、b_i为学习参数，W_i表示多层深度信念网络间的权重。

应理解，图9的设备能够实现图1至图8中涉及的生成检测模型各个过程，为避免重复，此处不再详述。

图10是根据本发明一个实施例的用于检测目标的设备的示意框图。如图10所示的设备1000包括：第一特征提取单元1010、第二特征提取单元1020和确定单元1030。

具体地，第一特征提取单元1010用于将目标场景图像输入第二检测模型的多层网络进行特征提取，得到目标场景图像的第一特征数据，其中，该第二检测模型为图1至图9中训练得到的第二检测模型。第二特征提取单元1020用于将第一特征数据输入第二检测模型的聚类层进行特征匹配，得到待检测图像的第二特征数据。确定单元1030用于根据第一特征数据和第二特征数据确定目标场景图像是否包含目标。

因此，本发明实施例将目标场景图像输入基于深度学习的第二检测模型的多层网络进行特征提取，该第二检测模型是通过目标场景训练数据和通用训练数据训练所得，该第二检测模型能够针对不同场景的图像进行检测，提高检测性能。

可选地，作为另一实施例，确定单元1030将第一特征数据和第二特征数据进行加权融合确定目标场景图像是否包含目标。

可选地，作为另一实施例，确定单元1030根据以下公式进行第一特征数据和第二特征数据进行加权融合，并确定目标场景图像是否包含目标：

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，表示第四特征数据在聚类层的响应结果，y表示待检测图像是否包含目标，W_i、b_i为学习参数，其中为多层深度信念网络与分类层间的权重参数的转置，为多层深度信念网络间的权重参数的转置。

应理解，图10的设备能够实现图1至图8中涉及的检测目标的各个过程，为避免重复，此处不再详述。

图11是根据本发明一个实施例的训练检测模型的设备的示意框图。如图11所示的设备1100包括处理器1110、存储器1120和总线系统1130。处理器1110、存储器1120通过总线系统1130相连。

具体地，处理器1010用于通过总线系统1030调用存储在存储器1020中的代码，训练通用训练数据，得到第一检测模型；获取未标定的多个图像，多个图像是通过拍摄同一目标场景获得的；根据第一检测模型对未标定的多个图像进行检测得到目标场景训练数据；训练目标场景训练数据和通用训练数据，得到第二检测模型，其中，第二检测模型包括多层网络、聚类层和分类层。

上述本发明实施例揭示的方法可以应用于处理器1110中，或者由处理器1110实现。处理器1110可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1110中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1110可以是通用处理器、数字信号处理器(英文Digital Signal Processor，简称DSP)、专用集成电路(英文Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(英文Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(英文Random Access Memory，简称RAM)、闪存、只读存储器(英文Read-OnlyMemory，简称ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1120，处理器1110读取存储器1120中的信息，结合其硬件完成上述方法的步骤，该总线系统1130除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统1130。

可选地，作为另一实施例，多层网络包括多层深度卷积网络和多层深度信念网络，处理器1110确定初始多层卷积网络和初始多层深度信念网络；采用反向传播算法，根据目标场景训练数据和通用训练数据对初始多层深度卷积网络进行训练，得到第一特征数据和多层深度卷积网络；根据第一特征数据和目标场景训练数据更新初始多层深度信念网络的权重参数，得到第二特征数据、多层深度信念网络与分类层间的权重参数和多层深度信念网络；对第二特征数据进行聚类分析，获得聚类层、聚类层与多层深度信念网络间的权重参数和聚类层与分类层间的权重参数。

可选地，作为另一实施例，处理器1110根据第二特征数据生成重建网络和重建网络的权重参数；采用反向传播算法更新重建网络的权重参数；根据更新后的重建网络的权重参数确定重建网络的输出值；根据重建网络的输出值与第一特征数据的期望值的偏差更新聚类层与多层深度信念网络间的权重参数、多层深度信念网络与分类层间的权重参数和聚类层与分类层间的权重参数。

可选地，作为另一实施例，处理器1110采用反向传播算法，根据目标函数通过目标场景训练数据和通用训练数据训练第二检测模型，目标函数的变量为第二检测模型的输出值与输出期望值的偏差、聚类层的输出值与输出期望值的偏差和重建网络的输出值与第一特征数据的期望值的偏差。

进一步地，作为另一实施例，目标函数为：

可选地，作为另一实施例，处理器1110根据以下公式更新重建网络内的权重参数：

可选地，作为另一实施例，处理器1110根据以下公式更新多层深度信念网络内的权重参数：

应理解，图11的设备能够实现图1至图8中涉及生成检测模型的各个过程，为避免重复，此处不再详述。

图12是根据本发明另一实施例的用于检测目标的设备的示意框图。图12的设备1200包括处理器1210、存储器1220和总线系统1230。处理器1210、存储器1220通过总线系统1230相连。

具体地，处理器1210用于通过总线系统1230调用存储在存储器1220中的代码，将目标场景图像输入基于深度学习的第二检测模型的多层网络进行特征提取，得到目标场景图像的第一特征数据，其中，该第二检测模型为图1至图9中训练得到的第二检测模型；将第一特征数据输入第二检测模型的聚类层进行特征匹配，得到待检测图像的第二特征数据；根据第一特征数据和第二特征数据确定目标场景图像是否包含目标。

上述本发明实施例揭示的方法可以应用于处理器1210中，或者由处理器1210实现。处理器1210可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1210中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1210可以是通用处理器、数字信号处理器(英文Digital Signal Processor，简称DSP)、专用集成电路(英文Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(英文Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(英文Random Access Memory，简称RAM)、闪存、只读存储器(英文Read-OnlyMemory，简称ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1220，处理器1210读取存储器1220中的信息，结合其硬件完成上述方法的步骤，该总线系统1230除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统1230。

可选地，作为另一实施例，处理器1210将第一特征数据和第二特征数据进行加权融合确定目标场景图像是否包含目标。

可选地，作为另一实施例，处理器1210根据以下公式进行第一特征数据和第二特征数据进行加权融合，并确定目标场景图像是否包含目标：

图12的设备能够实现图1至图8中涉及检测目标的各个过程，为避免重复，此处不再详述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

总之，以上所述仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成检测模型的方法，其特征在于，包括：

训练通用训练数据，得到第一检测模型；

获取未标定的多个图像，所述多个图像是通过拍摄同一目标场景获得的；

根据所述第一检测模型对所述未标定的多个图像进行检测得到目标场景训练数据；

训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，其中，所述第二检测模型包括多层网络、聚类层和分类层；

其中，所述多层网络包括多层深度卷积网络和多层深度信念网络，所述训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，包括：

确定初始多层卷积网络和初始多层深度信念网络；

采用反向传播算法，根据所述目标场景训练数据和所述通用训练数据对所述初始多层深度卷积网络进行训练，得到第一特征数据和所述多层深度卷积网络；

根据所述第一特征数据和所述目标场景训练数据更新所述初始多层深度信念网络的权重参数，得到第二特征数据、所述多层深度信念网络与所述分类层间的权重参数和所述多层深度信念网络；

对所述第二特征数据进行聚类分析，获得所述聚类层、所述聚类层与所述多层深度信念网络间的权重参数和所述聚类层与所述分类层间的权重参数。

2.根据权利要求1所述的方法，其特征在于，所述训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，还包括：

根据所述第二特征数据生成重建网络和所述重建网络的权重参数；

采用反向传播算法更新所述重建网络的权重参数；

根据更新后的所述重建网络的权重参数确定所述重建网络的输出值；

根据所述重建网络的输出值与所述第一特征数据的期望值的偏差更新所述聚类层与所述多层深度信念网络间的权重参数、所述多层深度信念网络与所述分类层间的权重参数和所述聚类层与所述分类层间的权重参数。

3.根据权利要求2所述的方法，其特征在于，

所述训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，包括：

采用反向传播算法，根据目标函数通过目标场景训练数据和通用训练数据训练所述第二检测模型，所述目标函数的变量为所述第二检测模型的输出值与输出期望值的偏差、所述聚类层的输出值与输出期望值的偏差和所述重建网络的输出值与所述第一特征数据的期望值的偏差。

4.根据权利要求3所述的方法，其特征在于，

所述目标函数为：

<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>n</mi> </munder> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <msup> <mi>L</mi> <mi>r</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mover> <mi>f</mi> <mo>~</mo> </mover> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> <msup> <mi>L</mi> <mi>E</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <msub> <mi>v</mi> <mi>n</mi> </msub> <msup> <mi>L</mi> <mi>r</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mover> <mi>f</mi> <mo>~</mo> </mover> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>v</mi> <mi>n</mi> </msub> <msubsup> <mi>L</mi> <mi>n</mi> <mi>p</mi> </msubsup> </mrow>

<mrow> <msup> <mi>L</mi> <mi>E</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>n</mi> </msub> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow>

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述采用反向传播算法更新所述重建网络的权重参数，包括：根据以下公式更新所述重建网络的权重参数：

<mrow> <msub> <mover> <mi>h</mi> <mo>&OverBar;</mo> </mover> <mn>1</mn> </msub> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mn>2</mn> <mi>T</mi> </msubsup> <msub> <mi>h</mi> <mn>2</mn> </msub> <mo>+</mo> <msub> <mover> <mi>b</mi> <mo>~</mo> </mover> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <mover> <mi>f</mi> <mo>~</mo> </mover> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mn>1</mn> <mi>T</mi> </msubsup> <msub> <mi>h</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mover> <mi>b</mi> <mo>~</mo> </mover> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow>

6.根据权利要求1至4中的任一项所述的方法，其特征在于，所述根据所述第一特征数据和所述目标场景训练数据更新所述多层深度信念网络的权重参数，包括：根据以下公式更新所述多层深度信念网络的权重参数：

h_i＝σ(W_i ^Tf+b_i)

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，f表示第一特征数据，h_i表示多层网络中的第i层深度信念网络的输出响应，W_i、b_i为更新参数，W_i表示多层深度信念网络的权重。

7.一种用于检测目标的方法，其特征在于，包括：

将目标场景图像输入第二检测模型的多层网络进行特征提取，得到所述目标场景图像的第一特征数据，其中所述第二检测模型为权利要求1至6中任一项中训练得到的所述第二检测模型；

将所述第一特征数据输入所述第二检测模型的聚类层进行特征匹配，得到所述目标场景图像的第二特征数据；

根据所述第一特征数据和所述第二特征数据确定所述目标场景图像是否包含所述目标。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一特征数据和所述第二特征数据确定所述目标场景图像是否包含所述目标，包括：

将所述第一特征数据和所述第二特征数据进行加权融合确定所述目标场景图像是否包含所述目标。

9.根据权利要求8所述的方法，其特征在于

所述将所述第一特征数据和所述第二特征数据进行加权融合确定所述目标场景图像是否包含所述目标，包括：根据以下公式进行所述第一特征数据和所述第二特征数据进行加权融合，并确定所述目标场景图像是否包含所述目标：

<mrow> <mi>y</mi> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mn>3</mn> <mi>T</mi> </msubsup> <msub> <mi>h</mi> <mn>2</mn> </msub> <mo>+</mo> <msubsup> <mi>W</mi> <mn>5</mn> <mi>T</mi> </msubsup> <mover> <mi>c</mi> <mo>~</mo> </mover> <mo>+</mo> <msub> <mi>b</mi> <mn>5</mn> </msub> <mo>)</mo> </mrow> </mrow>

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，h_i表示多层网络中的第i层深度信念网络的输出响应，表示所述第一特征数据在所述聚类层的响应结果，y表示待检测图像是否包含所述目标，W_i、b_i为更新参数，其中为多层深度信念网络与分类层间的权重参数的转置，为多层深度信念网络间的权重参数的转置。

10.一种训练检测模型的设备，其特征在于，包括：

第一训练单元，用于训练通用训练数据，得到第一检测模型；

获取单元，用于获取未标定的多个图像，所述多个图像是通过拍摄同一目标场景获得的；

检测单元，用于根据所述第一检测模型对所述未标定的多个图像进行检测得到目标场景训练数据；

第二训练单元，用于训练所述目标场景训练数据和所述通用训练数据，得到第二检测模型，其中，所述第二检测模型包括多层网络、聚类层和分类层；

其中，所述多层网络包括多层深度卷积网络和多层深度信念网络，

所述第二训练单元具体用于确定初始多层卷积网络和初始多层深度信念网络；采用反向传播算法，根据所述目标场景训练数据和所述通用训练数据对所述初始多层深度卷积网络进行训练，得到第一特征数据和所述多层深度卷积网络；根据所述第一特征数据和所述目标场景训练数据更新所述初始多层深度信念网络的权重参数，得到第二特征数据、所述多层深度信念网络与所述分类层间的权重参数和所述多层深度信念网络；对所述第二特征数据进行聚类分析，获得所述聚类层、所述聚类层与所述多层深度信念网络间的权重参数和所述聚类层与所述分类层间的权重参数。

11.根据权利要求10所述的设备，其特征在于，

所述第二训练单元根据所述第二特征数据生成重建网络和所述重建网络的权重参数；采用反向传播算法更新所述重建网络的权重参数；根据更新后的所述重建网络的权重参数确定所述重建网络的输出值；根据所述重建网络的输出值与所述第一特征数据的期望值的偏差更新所述聚类层与所述多层深度信念网络间的权重参数、所述多层深度信念网络与所述分类层间的权重参数和所述聚类层与所述分类层间的权重参数。

12.根据权利要求11所述的设备，其特征在于，

所述第二训练单元采用反向传播算法，根据目标函数通过目标场景训练数据和通用训练数据训练所述第二检测模型，所述目标函数的变量为所述第二检测模型的输出值与输出期望值的偏差、所述聚类层的输出值与输出期望值的偏差和所述重建网络的输出值与所述第一特征数据的期望值的偏差。

13.根据权利要求12所述的设备，其特征在于，

所述目标函数为：

14.根据权利要求11至13中任一项所述的设备，其特征在于，

所述第二训练单元根据以下公式更新所述重建网络的权重参数：

15.根据权利要求10至13中的任一项所述的设备，其特征在于，

所述第二训练单元根据以下公式更新所述多层深度信念网络的权重参数：

h_i＝σ(W_i ^Tf+b_i)

其中，σ(a)＝1/(1+exp(-a))为激励响应函数，f表示所述第一特征数据，h_i表示多层网络中的第i层深度信念网络的输出响应，W_i、b_i为更新参数，W_i表示多层深度信念网络的权重。

16.一种用于检测目标的设备，其特征在于，包括：

第一特征提取单元，用于将目标场景图像输入第二检测模型的多层网络进行特征提取，得到所述目标场景图像的第一特征数据，其中所述第二检测模型为权利要求1至15中任一项中训练得到的所述第二检测模型；

第二特征提取单元，用于将所述第一特征数据输入所述第二检测模型的聚类层进行特征匹配，得到待检测图像的第二特征数据；

确定单元，用于根据所述第一特征数据和所述第二特征数据确定所述目标场景图像是否包含所述目标。

17.根据权利要求16所述的设备，其特征在于，

所述确定单元将所述第一特征数据和所述第二特征数据进行加权融合确定所述目标场景图像是否包含所述目标。

18.根据权利要求17所述的设备，其特征在于

所述确定单元根据以下公式进行所述第一特征数据和所述第二特征数据进行加权融合，并确定所述目标场景图像是否包含所述目标：