CN104217433A

CN104217433A - 一种分析图像的方法及装置

Info

Publication number: CN104217433A
Application number: CN201410439141.3A
Authority: CN
Inventors: 杨林杰; 黎伟; 许春景; 刘健庄; 汤晓鸥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2014-12-17
Anticipated expiration: 2034-08-29
Also published as: CN104217433B

Abstract

本发明实施例公开了一种分析图像的方法及装置，涉及计算机视觉技术领域，能够从预设的训练样本中自动学习较优的特征和比对方式，并通过掩模模板自适应的抑制对物体检测和视角估计作用较小或基本无用的信息，提高了物体检测和视角估计准确性，从而提高了分析图像过程的准确性。本发明的方法包括：根据预设的训练样本得到待定参数的值；根据第一级神经网络和待定参数生成掩模模板，根据掩模模板对待处理图像进行图像掩模处理，得到掩模处理后的图像；根据第二级神经网络和待定参数分析掩模处理后的图像，得到掩模处理后的图像的分析结果。本发明适用于对图像中物体进行分析处理。

Description

一种分析图像的方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种分析图像的方法及装置。

背景技术

目前计算机视觉技术得到了广泛应用，并且发展出了很多分析、处理图像的方法。当需要对图像中的一个物体执行跟踪、识别和行为分析等处理过程时，通常需要对于所拍摄的图像中的物体进行检测和物体的视角估计。

在现有技术中，主要通过可形变部件模型对目标物体进行检测和视角估计。例如：将人体作为目标物体，并针对目标物体的全部或部分特征设定可形变部件模型，可形变部件模型包括了人体在运动过程中的特征。

在图像中识别出模型的特征，并将图像中具有模型的特征的这部分区域的物体作为目标物体或目标物体的一部分。由于在实际场景中的目标物体可能是非刚体，由于拍摄角度的变化、目标物体形状的改变、或者光线强度的改变等原因，使图像中的目标物体的特征往往会有较大的变化，这就导致预先设定好的模型无法准确对应上目标物体的特征，从而导致通过可形变部件模型对目标物体进行识别检测或视角估计时的准确度降低。

因此，可形变部件模型中可用于目标物体识别的特征是有限的，在对非刚体的分析过程中可形变部件模型的灵活性较差，难以准确的检测和视角估计，从而降低了分析图像过程的准确性。

发明内容

本发明的实施例提供一种分析图像的方法及装置，能够提高检测和视角估计准确度，从而提高分析图像过程的准确性。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种分析图像的方法，所述方法应用于一种图像分析系统，所述图像分析系统至少用于通过第一级神经网络得到图像的掩模模板，还用于通过第二级神经网络根据所述第一级神经网络得到的掩模模板处理图像；所述方法包括：

根据预设的训练样本得到待定参数的值，所述训练样本包括样本图像和样本图像参数，其中，样本图像参数用于表示在样本图像是否包含目标物体，还用于表示包含所述目标物体时所述目标物体在所述样本图像中的视角；

根据所述第一级神经网络和所述待定参数生成掩模模板，根据所述掩模模板对待处理图像进行图像掩模处理，得到掩模处理后的图像；

根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，得到所述掩模处理后的图像的分析结果，所述分析结果包括：目标物体检测结果和视角估计结果中的至少一项。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据预设的训练样本得到待定参数的值包括：

将所述待定参数设定为第1赋值；

在一个周期内，根据所述第1赋值和第1样本获取所述第1样本对应的掩模模板，所述训练样本包括了第1至N样本；并依据所述第1样本对应的掩模模板对所述第1样本进行图像掩模处理；并通过所述第二级神经网络，根据所述第1赋值对经过所述图像掩模处理的所述第1样本进行分析，并得到第1样本的分析结果；重复上述周期，并获取第1至N样本在第1赋值下的分析结果；

依次将所述待定参数设定为第2至X赋值，并依次获取第1至N样本在第2赋值下的分析结果，直至在第X赋值下的分析结果；

根据第1至X赋值下的分析结果，确定目标赋值，并将所述目标赋值作为所述待定参数的值。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，得到所述掩模处理后的图像的分析结果，包括：

通过所述第二级神经网络，根据所述目标赋值对所述掩模处理后的图像进行分析，并得到所述掩模处理后的图像的分析结果。

结合第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据第1至X赋值下的分析结果，确定目标赋值，并将所述目标赋值作为所述待定参数的值包括：

根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取所述第1至N样本在各个赋值下的代价值E；

其中，有N个训练样本{I₁,I₂,…,I_N}，所述N个训练样本对应的类标为和其中，表示第i号样本图像包含所述目标物体，表示第i号样本图像不包含所述目标物体，表示在第i号样本图像中所述目标物体的视角，T表示视角被离散化为{1,2,…,T}，的T个分量中最多只有一个分量等于1，其他分量均为0，λ表示预设系数；m_k表示所述掩模模板的第k个点的值，r_k为m_k到所述掩模模板中心点的距离；M＝f_M(I)，f_M表示所述第一级神经网络的映射函数，M表示所述掩模模板，I表示所述训练样本中的样本图像，I_M＝min{I,M}即求I和M的各个对应元素的最小值，I_M表示经过所述图像掩模处理后的样本图像，q^V表示视角估计结果，q^D表示目标物体检测结果，且q^V＝f_V(I_M)，q^D＝f_D(I_M)；f_V和f_D分别表示所述第二级神经网络的映射函数；

将代价值最小的赋值作为所述目标赋值。

结合第一方面、以及第一方面的第一至第三种可能的实现方式，在第一方面的第四种可能的实现方式中，在根据预设的训练样本得到待定参数的值之前，还包括：

获取样本集合中的一部分样本图像参数，并将所述一部分样本图像和所述一部分样本图像参数作为所述预设的训练样本；

并将所述样本集合中的另一部分样本图像作为所述待处理图像。

第二方面，本发明的实施例提供一种分析图像的装置，所述装置应用于一种图像分析系统，所述图像分析系统至少用于通过第一级神经网络得到图像的掩模模板，还用于通过第二级神经网络根据所述第一级神经网络得到的掩模模板处理图像；所述装置包括：

第一获取模块，用于根据预设的训练样本得到待定参数的值，所述训练样本包括样本图像和样本图像参数，其中，样本图像参数用于表示在样本图像是否包含目标物体，还用于表示包含所述目标物体时所述目标物体在所述样本图像中的视角；

第一处理模块，用于根据所述第一级神经网络和所述待定参数生成掩模模板，根据所述掩模模板对待处理图像进行图像掩模处理，得到掩模处理后的图像；

分析模块，用于根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，得到所述掩模处理后的图像的分析结果，所述分析结果包括：目标物体检测结果和视角估计结果中的至少一项。

结合第二方面，在第二方面的第一种可能的实现方式中，所述第一获取模块包括：

赋值单元，用于将所述待定参数设定为第1赋值；

第一处理单元，用于在一个周期内，根据所述第1赋值和第1样本获取所述第1样本对应的掩模模板，所述训练样本包括了第1至N样本；并依据所述第1样本对应的掩模模板对所述第1样本进行图像掩模处理；并通过所述第二级神经网络，根据所述第1赋值对经过所述图像掩模处理的所述第1样本进行分析，并得到第1样本的分析结果；

第二处理单元，用于重复上述周期，并获取第1至N样本在第1赋值下的分析结果；

第三处理单元，用于依次将所述待定参数设定为第2至X赋值，并依次获取第1至N样本在第2赋值下的分析结果，直至在第X赋值下的分析结果；

获取单元，用于根据第1至X赋值下的分析结果，确定目标赋值，并将所述目标赋值作为所述待定参数的值。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述分析模块，包括：

分析单元，用于通过所述第二级神经网络，根据所述目标赋值对所述掩模处理后的图像进行分析，并得到所述掩模处理后的图像的分析结果。

结合第二方面的第一种可能的实现方式，在第二方面的第三种可能的实现方式中，所述获取单元包括：

获取子单元，用于根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取所述第1至N样本在各个赋值下的代价值E；

处理子单元，用于将代价值最小的赋值作为所述目标赋值。

结合第二方面、以及第二方面的第一至第三种可能的实现方式，在第二方面的第四种可能的实现方式中，在第一获取模块之前，还包括：

第二获取模块，用于获取样本集合中的一部分样本图像参数，并将所述一部分样本图像和所述一部分样本图像参数作为所述预设的训练样本；

第二处理模块，用于并将所述样本集合中的另一部分样本图像作为所述待处理图像。

本发明实施例提供的一种分析图像的方法及装置，通过根据预设的训练样本得到的待定参数的值，之后根据得到的待定参数的值，针对待处理图像得到的掩模模板，对待处理图像进行图像掩模处理，之后对得到掩模处理后的图像进行分析，得到分析结果。相比较于现有技术，根据预设的训练样本得到待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种具体应用场景示意图；

图2为本发明实施例提供的一种分析图像的方法流程图；

图2a、图2b、图2c为本发明实施例提供的另一种分析图像的方法流程图；

图2d为本发明实施例提供的另一种分析图像的方法流程图；

图3为本发明实施例提供的一种分析图像的装置结构图；

图3a、图3b、图3c为本发明实施例提供的另一种分析图像的装置结构图；

图3d为本发明实施例提供的另一种分析图像的装置结构图；

图4为本发明实施例提供的一种分析图像的设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例可以用于一种图像分析系统，该图像分析系统至少用于通过第一级神经网络得到图像的掩模模板，还用于通过第二级神经网络根据所述第一级神经网络得到的掩模模板处理图像。具体的，所述图像分析系统可以包括：掩模产生模块、掩模运算模块和目标预测模块。

其中，掩模产生模块，用于通过第一级神经网络生成掩模模板；掩模运算模块，用于生成掩模后图像；目标预测模块，用于通过第二级神经网络对生成掩模处理后的图像进行分析，从而生成目标预测的结果。

例如：如图1所示，第一级神经网络可以包括卷积神经网络(ConvolutionalNeural Network，CNN)CNN_M，第二级神经网络可以包括卷积神经网络CNN_V和卷积神经网络CNN_D，其中，CNN可以理解为一种基于深度学习(DeepLearning)的方法，由输入图像依次经过卷积层、最大值汇聚层、局部连接层、最大值汇聚层和全连接层对图像数据进行处理，从而得到输出。掩模产生模块，用于将待处理图像通过卷积神经网络(Convolutional Neural Network，CNN)CNN_M生成掩模模板；掩模运算模块，用于将生成的掩模模板与待处理图像经过掩模运算后，得到掩模处理后的图像；目标预测模块，用于将得到的掩模处理后的图像通过卷积神经网络CNN_V和卷积神经网络CNN_D的分析，得到视角估计结果和目标物体检测结果。

其中，卷积层和全连接层中所涉及到的处理图像数据过程中的待定参数的值，需要通过大量预设的训练样本学习得到。

本发明实施例提供一种分析图像的方法，如图2所示，包括：

101、根据预设的训练样本得到待定参数的值。

其中，所述训练样本包括样本图像和样本图像参数，其中，样本图像参数用于表示在样本图像是否包含目标物体，还用于表示包含所述目标物体时所述目标物体在所述样本图像中的视角。

例如：如图1所示，第一级神经网络为掩模产生模块中的卷积神经网络CNN_M，第二级神经网络为目标预测模块中的卷积神经网络CNN_V和卷积神经网络CNN_D。训练样本作为待处理图像，通过卷积神经网络CNN_M得到待定参数的值。

其中，掩模模板，由待处理图像根据待定参数的值，通过卷积神经网络CNN_M生成。训练样本包括样本图像和样本图像参数，当样本图像存在被检测物体，则样本图像参数用于表示在样本图像是否包含目标物体，还用于表示包含所述目标物体时所述目标物体在所述样本图像中的视角；当样本图像不存在被检测物体，则样本图像参数用于表示在样本图像是否包含目标物体。

102、根据所述第一级神经网络和所述待定参数生成掩模模板，根据所述掩模模板对待处理图像进行图像掩模处理，得到掩模处理后的图像。

例如：如图1所示，在掩模运算模块中，待处理图像与生成的掩模模板经过掩模运算，从而完成掩模模板对待处理图像进行图像掩模处理，得到掩模处理后的图像。

103、根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，得到所述掩模处理后的图像的分析结果。

其中，所述分析结果包括：目标物体检测结果和视角估计结果中的至少一项。

如图1所示，第二级神经网络为目标预测模块中的卷积神经网络CNN_V和卷积神经网络CNN_D，分析结果包括：目标预测模块中的目标物体检测结果和视角估计结果中的至少一项。

例如：如图1所示，通过掩模运算模块得到掩模处理后的图像，之后通过卷积神经网络CNN_V对得到的掩模处理后的图像进行分析，得到目标物体的检测结果。

再例如：如图1所示，通过掩模运算模块得到掩模处理后的图像，之后通过卷积神经网络CNN_V对掩模处理后的图像进行分析，得到目标物体的检测结果；通过卷积神经网络CNN_D对掩模处理后的图像进行分析，得到视角估计的结果。

本发明实施例提供的一种分析图像的方法，通过根据预设的训练样本得到的待定参数的值，之后根据得到的待定参数的值，针对待处理图像得到的掩模模板，对待处理图像进行图像掩模处理，之后对得到掩模处理后的图像进行分析，得到分析结果。相比较于现有技术，根据预设的训练样本得到待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。

在本实施例中，所述预设的训练样本得到待定参数的值，可以通过分析根据得到的多个待定参数所对应的分析结果而确定。因此，在如图2所示方式的基础上，101可以具体实现为如图2a所示的201-205：

201、将所述待定参数设定为第1赋值。

例如：为待定参数的值人为赋值，并将人为赋值的待定参数的值设定为第1赋值。

202、在一个周期内，根据所述第1赋值和第1样本获取所述第1样本对应的掩模模板；

其中，所述训练样本包括了第1至N样本。

例如：在一个周期内，根据第1赋值和第1样本图像A，通过掩模产生模块获取第1样本图像A所对应的掩模模板A。

并依据所述第1样本对应的掩模模板对所述第1样本进行图像掩模处理；

例如：依据通过掩模产生模块获取的第1样本图像A所对应的掩模模板A，通过掩模运算模块对第1样本图像A进行图像掩模处理。

并通过所述第二级神经网络，根据所述第1赋值对经过所述图像掩模处理的所述第1样本进行分析，并得到第1样本的分析结果。

例如：如图1所示，通过目标预测模块中的卷积神经网络CNN_V和卷积神经网络CNN_D，根据第1赋值，对通过掩模运算模块的经过图像掩模处理后的第1样本图像A进行分析，并得到第1样本图像A的目标物体检测的结果和视角估计的结果。

203、重复上述周期，并获取第1至N样本在第1赋值下的分析结果。

例如：重复执行201-202，并获取第1至N样本在第1赋值下的分析结果。比如：N为3，则有第1样本图像A、第2样本图像B和第3样本图像C。将3个样本对应的图像分别作为第1样本执行201-202，从而得到第1样本图像A所对应的分析结果A₁、第2样本图像B所对应的分析结果B₁和第3样本图像C所对应的分析结果C₁。

其中，分析结果可以包括：目标物体检测的结果和视角估计的结果中的至少一种。

204、依次将所述待定参数设定为第2至X赋值，并依次获取第1至N样本在第2赋值下的分析结果，直至在第X赋值下的分析结果。

例如：X为4，N为3，则为待定参数的值多次进行人为赋值，并将人为赋值的待定参数的值设定为第2赋值、第3赋值、第4赋值；

依次获取第1样本图像A、第2样本图像B和第3样本图像C在第2赋值下的分析结果A₂、分析结果B₂、分析结果C₂；

再依次获取第1样本图像A、第2样本图像B和第3样本图像C在第3赋值下的分析结果A₃、分析结果B₃、分析结果C₃；

之后依次获取第1样本图像A、第2样本图像B和第3样本图像C在第4赋值下的分析结果A₄、分析结果B₄、分析结果C₄。

205、根据第1至X赋值下的分析结果，确定目标赋值，并将所述目标赋值作为所述待定参数的值。

例如：根据204获取的第1至4赋值下，第1样本图像A、第2样本图像B和第3样本图像C所对应的分析结果A₁、分析结果B₁、分析结果C₁、分析结果A₂、分析结果B₂、分析结果C₂、分析结果A₃、分析结果B₃、分析结果C₃、分析结果A₄、分析结果B₄和分析结果C₄，确定目标赋值，并将目标赋值作为待定参数的值。

本发明实施例提供的一种分析图像的方法，通过根据预设的训练样本得到的多个待定参数的值，之后根据得到的待定参数的值，针对待处理图像得到掩模模板，并对待处理图像进行图像掩模处理，之后对得到多个掩模处理后的图像进行分析，得到多个分析结果，根据多个样本图像对应的分析结果，确定目标赋值，并将目标赋值作为待定参数的值。相比较于现有技术，根据预设的训练样本得到的待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。

通过对多个样本图像进行多次的重复实验，得到多个实验结果，再根据对实验结果进行对比、分析，从而得到最优的待定参数的值，提高掩模模板对不同样本的匹配性。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。

在本实施例中，根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，具体可以根据所述目标赋值对所述掩模处理后的图像进行分析。因此，在如图2a所示方式的基础上，103可以具体实现为如图2b所示的301：

301、通过所述第二级神经网络，根据所述目标赋值对所述掩模处理后的图像进行分析，并得到所述掩模处理后的图像的分析结果。

例如：如图1所示，第二级神经网络为目标预测模块中的卷积神经网络CNN_V和卷积神经网络CNN_D，通过卷积神经网络CNN_V，根据目标赋值，对掩模处理后的图像进行分析，得到目标物体的检测结果；通过卷积神经网络CNN_D，根据目标赋值，对掩模处理后的图像进行分析，得到视角估计的结果。

本发明实施例提供的一种分析图像的方法，通过对根据预设的训练样本得到的待定参数的值确定目标赋值，之后根据得到的目标赋值，针对待处理图像得到掩模模板，并对待处理图像进行图像掩模处理，之后依据得到的目标赋值对得到掩模处理后的图像进行分析，得到分析结果。相比较于现有技术，根据预设的训练样本得到的待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。

依据得到的待定参数的值对得到掩模处理后的图像进行分析，从而得到更准确的分析结果，提高掩模模板对不同样本的匹配性。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。

在本实施例中，所述样本可以通过根据公式获取所述第1至N样本在各个赋值下的代价值，之后将代价值最小的赋值作为所述目标赋值。因此，在如图2a所示方式的基础上，205可以具体实现为如图2c所示的302-303：

302、根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取所述第1至N样本在各个赋值下的代价值E。

其中，有N个训练样本{I₁,I₂,…,I_N}，所述N个训练样本对应的类标为和其中，表示第i号样本图像包含所述目标物体，表示第i号样本图像不包含所述目标物体，表示在第i号样本图像中所述目标物体的视角，T表示视角被离散化为{1,2,…,T}，的T个分量中最多只有一个分量等于1，其他分量均为0，λ表示预设系数；m_k表示所述掩模模板的第k个点的值，r_k为m_k到所述掩模模板中心点的距离；M＝f_M(I)，f_M表示所述第一级神经网络的映射函数，M表示所述掩模模板，I表示所述训练样本中的样本图像，I_M＝min{I,M}即求I和M的各个对应元素的最小值，I_M表示经过所述图像掩模处理后的样本图像，q^V表示视角估计结果，q^D表示目标物体检测结果，且q^V＝f_V(I_M)，q^D＝f_D(I_M)；f_V和f_D分别表示所述第二级神经网络的映射函数。

例如：用f_M、f_V、f_D分别表示如图1所示的3个卷积神经网络的映射函数，其中，f_M表示卷积神经网络CNN_D的映射函数，f_V表示卷积神经网络CNN_V的映射函数，f_D表示卷积神经网络CNN的映射函数_D，则有：M＝f_M(I)，q^V＝f_V(I_M)，q^D＝f_D(I_M)。其中，M表示生成的掩模模板，I表示输入图像，q^V表示视角估计结果，q^D表示目标物体检测结果，I_M表示掩模处理后的图像，掩模运算由I_M＝min{I,M}得到，即求I和M对应元素的最小值。

f_M、f_V、f_D所表示的映射函数包括：卷积、最大值汇聚、局部连接、最大值汇聚和全连接，具体步骤可以实现为3021-3025：

3021、卷积，由公式k＝1,2,…,K₁得到。

其中，表示输入，f_M对应的输入为I，实验中，输入为图像的HOG(Histograms of Oriented Gradients，方向梯度直方图)特征，为一个H_in×W_in×K_in的矩阵，比如：23×23×36；f_V和f_D对应的输入为I_M；W_k表示一个H_w×W_w×K_in维的滤波器，比如：3×3×36；K₁为滤波器的个数，比如：K₁＝32；*表示对输入的图像，或者图像的底层特征的卷积操作；ij表示输入的第i行第j列；b_k为偏移量；σ表示一个函数，这里取σ(x)＝tanh(x)；H_in，W_in，K_in，H_w，W_w和K₁均为经验值。

3022、最大值汇聚。

将执行3021的每一个滤波器卷积的结果等分成H₁×W₁个块，比如：11×11，仅保留每一个块中的最大值的那个元素，这一过程通常被称为最大值的汇聚(Max Pooling)，这样我们就得到一个H₁×W₁的矩阵，H₁和W₁为经验值，因为有K₁个滤波器，所以最终会得到一个H₁×W₁×K₁的矩阵，记为

3023、局部连接，由公式k＝1,2,…,K₂得到。

其中，为执行3022得到的矩阵，U_k表示一个H_u×W_u×K₁维的滤波器，比如：7×7×32；K₂为滤波器的个数，比如：K₂＝32；*表示对输入的图像，或者图像的底层特征的卷积操作；ij表示输入的第i行第j列；c_k为偏移量；σ表示一个函数，这里取σ(x)＝tanh(x)；H_u，W_u和K₂均为经验值。

3024、最大值汇聚。

将执行3023的每一个滤波器卷积的结果等分成H₂×W₂个块，比如：5×5，仅保留每一个块中的最大值的那个元素，这样我们就得到一个H₂×W₂的矩阵，H₂和W₂为经验值，因为有K₂个滤波器，所以最终会得到一个H₂×W₂×K₂的矩阵，记为

3025、全连接。

将执行3024得到的矩阵乘以一个全连接矩阵Z，得到输出O：对于f_M，O＝M，输出为一个和输入大小相同的H_in×W_in×K_in维矩阵，此时对应的全连接矩阵Z为一个(H₂×W₂×K₂)×(H_in×W_in×K_in)维的矩阵；对于f_D，O＝q^D，输出为一个1维的数值，此时对应的全连接矩阵Z为一个(H₂×W₂×K₂)×1维的矩阵；对于f_V，O＝q^V，输出为一个T维的向量，此时对应的全连接矩阵Z为一个(H₂×W₂×K₂)×T维的矩阵。

其中，f_M、f_V、f_D的参数，即上面所描述的W_k、b_k、U_k、c_k和Z，通过训练得到。假设有N个训练样本{I₁,I₂,…,I_N}，对应的类标为和其中，表示该样本包含目标物体，表示该样本不包含目标物体，表示目标物体的视角，由一个T维的向量构成T表示视角被离散化为{1,2,…,T}，的T个分量中最多只有一个分量为1，其他分量均为0，比如：表示该目标物体的视角为2，如果该样本不包含目标物体，则的T个分量均为0。

通过上述训练得到样本库，之后构建代价函数

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

其中，表示第i号样本图像是否包含所述目标物体，表示目标物体检测结果，表示在第i号样本图像中所述目标物体的视角，表示视角估计结果，λ是一个系数，E_s是一个掩模模板稀疏性要求项，由公式得出，其中，m_k为掩模模板M的第k个点的值，r_k为m_k到掩模模板中心点的距离。

其中，每一个赋值对应一个代价值。

303、将代价值最小的赋值作为所述目标赋值。

例如：通过神经网络最常用的反向传播算法，最小化代价函数，来确定f_M、f_V、f_D的参数值，将得到的第1赋值下的代价值1、第2赋值下的代价值2和第3赋值下的代价值3进行比较，其中，代价值最小的赋值作为目标赋值。

本发明实施例提供的一种分析图像的方法，通过根据预设的训练样本中多个样本图像得到的待定参数的值，根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取预设的训练样本中的各个样本图像对应不同待定参数的值计算出的代价值，再通过比较，得到最小代价值，将代价值最小时所取的待定参数的值作为目标赋值，从而得到确定的待定参数的值，并对待处理图像进行图像掩模处理，之后对得到掩模处理后的图像进行分析，得到分析结果。相比较于现有技术，根据预设的训练样本得到的待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。

通过公式计算，获取各个样本图像的代价值，通过比较，将得到的最小代价值对应的样本图像的待定参数的值作为目标赋值，从而更准确的确定掩模模板，进一步提高掩模模板对不同样本的匹配性。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。在本实施例中，如图2、图2a、图2b和图2c所示实现方式中的任意一项所述的分析图像的方法，在根据预设的训练样本得到待定参数的值之前，如图2d所示，还包括：

104、获取样本集合中的一部分样本图像参数，并将所述一部分样本图像和所述一部分样本图像参数作为所述预设的训练样本。

105、并将所述样本集合中的另一部分样本图像作为所述待处理图像。

例如：以汽车为例，样本数据库中包含3000张图片，其中，1000张图片作为训练样本，另外2000张图片作为待处理图像进行图像分析。

由于训练样本与待处理图像属于同一样本数据库中，因此，根据获取的目标赋值对应的待定参数的值，更能适应样本集合中的待处理图像，使生成的掩模模板具有较好的适应性，从而提高后续分析图像的准确率。

再例如：以汽车为例，样本数据库中包含3000张图片，其中，1000张图片作为训练样本，另外2000张图片作为待处理图像进行图像分析。

其中，1000张图片作为训练样本已得到分析结果，则直接获取分析结果。

由于训练样本与待处理图像属于同一样本数据库中，且已得到训练样本的分析结果，因此，不仅根据获取的目标赋值对应的待定参数的值，更能适应样本集合中的待处理图像，使生成的掩模模板具有较好的适应性，还能节省人工成本训练样本，从而提高后续分析图像的准确率。

进一步的，训练样本还可以从别处获取。

例如：以汽车为例，训练样本是从网上下载的93个具有三维信息的汽车模型，对每一个三维模型每间隔2度投影到二维平面，这样就得到93*180个训练样本；待处理图像的样本数据库为The Ecole Polytechnique Federale de Lausanne(EPFL)car dataset，该样本数据库包括至少20辆不同汽车的2000张图片，平均每辆汽车至少包括100张不同视角的图片。在只考虑水平视角变化的情况下，将360度视角，以汽车的正前方为0度，按照逆时针方向等分成36个视角，比如：(-18°,18°]为视角1，(18°,54°]为视角2，(-54°,-18°]为视角36等。

根据3021-3025中所述的映射函数f_M、f_V、f_D，其中，如图1所示，f_M表示卷积神经网络CNN_D的映射函数，f_V表示卷积神经网络CNN_V的映射函数，f_D表示卷积神经网络CNN的映射函数_D。

将从网上下载的训练样本，通过如图1所示的掩模产生模块，得到93*180个待定参数的值；根据得到的全部待定参数的值确定目标赋值，并作为待定参数的值；将样本数据库中所包括的至少20辆不同汽车的2000张图片，根据待定参数的值，通过如图1所示的掩模产生模块，根据映射函数f_M，以及待定参数的值，得到2000个掩模模板；再将得到的2000个掩模模板分别与输入的对应的待处理图像，进行掩模运算，得到2000个掩模处理后的图像；之后将得到的2000个掩模处理后的图像经过目标预测模块，根据映射函数f_V、f_D，以及待定参数的值，得到对应图像的2000组分析数据，即视角估计结果和目标物体检测结果；通过将分析结果和实际人工判断结果进行比对，得出表一结果。

实验中，分别采用可形变部件模型的方法、卷积神经网络的方法和本实施例所提供的方法对待测图像进行分析。其中，待处理图像为图像的HOG特征，采用本实施例所提供的方法对掩模处理后的图像进行分析时，通过根据确定的待定参数的值，再根据映射函数f_M、f_V、f_D，得到掩模处理后的图像特征的分析数据，即视角估计结果和目标物体检测结果。

方法	目标物体检测正确率(％)	视角估计正确率(％)
			可形变部件模型的方法	99.5	53.5
卷积神经网络的方法	95.3	46.1
			本实施例所提供的方法	99.9	58.1

表一

实验结果表明，采用本实施例所提供的方法对生成的掩模处理后的图像进行分析，目标物体检测正确率为99.9％，相比较于采用可形变部件模型的方法和采用卷积神经网络的方法对待处理图像进行分析，可以更为准确的检测出目标物体；同时，采用本实施例所提供的方法对生成的掩模处理后的图像进行分析，目标视角估计正确率为58.1％，相比较于采用可形变部件模型的方法和采用卷积神经网络的方法对待处理图像进行分析，可以大大提升视角估计的正确率。

由于采用的训练样本与待处理图像无关，相比较于样本集合包括待处理图像和训练样本，且需要训练样本的情况下，可以避免人工参与训练样本，节约了训练样本所需的时间，同时降低了人工成本。

本发明实施例提供的一种分析图像的方法，通过根据预设的训练样本得到的待定参数的值，之后根据得到的待定参数的值，针对待处理图像得到掩模模板，对待处理图像进行图像掩模处理，之后对得到掩模处理后的图像进行分析，得到分析结果，其中，待处理图像与训练样本属于同一个样本集合中。相比较于现有技术，根据预设的训练样本得到的待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。

可以对样本集合中除样本图像以外的图像作为待处理图像，进行图像掩模处理、分析，从而提高掩模模板对不同样本的匹配性。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。

本发明实施例还提供一种分析图像的装置40，如图3所示，所述装置应用于一种图像分析系统，所述图像分析系统至少用于通过第一级神经网络得到图像的掩模模板，还用于通过第二级神经网络根据所述第一级神经网络得到的掩模模板处理图像；所述装置包括：

第一获取模块41，用于根据预设的训练样本得到待定参数的值，所述训练样本包括样本图像和样本图像参数，其中，样本图像参数用于表示在样本图像是否包含目标物体，还用于表示包含所述目标物体时所述目标物体在所述样本图像中的视角；

第一处理模块42，用于根据所述第一级神经网络和所述待定参数生成掩模模板，根据所述掩模模板对待处理图像进行图像掩模处理，得到掩模处理后的图像；

分析模块43，用于根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，得到所述掩模处理后的图像的分析结果，所述分析结果包括：目标物体检测结果和视角估计结果中的至少一项。

进一步的，如图3a所示，所述第一获取模块41包括：

赋值单元411，用于将所述待定参数设定为第1赋值。

第一处理单元412，用于在一个周期内，根据所述第1赋值和第1样本获取所述第1样本对应的掩模模板，所述训练样本包括了第1至N样本；并依据所述第1样本对应的掩模模板对所述第1样本进行图像掩模处理；并通过所述第二级神经网络，根据所述第1赋值对经过所述图像掩模处理的所述第1样本进行分析，并得到第1样本的分析结果。

第二处理单元413，用于重复上述周期，并获取第1至N样本在第1赋值下的分析结果。

第三处理单元414，用于依次将所述待定参数设定为第2至X赋值，并依次获取第1至N样本在第2赋值下的分析结果，直至在第X赋值下的分析结果。

获取单元415，用于根据第1至X赋值下的分析结果，确定目标赋值，并将所述目标赋值作为所述待定参数的值。

具体的，如图3b所示，所述分析模块43，包括：

分析单元431，用于通过所述第二级神经网络，根据所述目标赋值对所述掩模处理后的图像进行分析，并得到所述掩模处理后的图像的分析结果。

进一步的，如图3c所示，所述获取单元415，包括：

获取子单元4151，用于根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取所述第1至N样本在各个赋值下的代价值E。

处理子单元4152，用于将代价值最小的赋值作为所述目标赋值。

进一步的，根据如图3、图3a、图3b和图3c中的任意一项所述的分析图像的装置40，在第一获取模块之前，如图3d所示，还包括：

第二获取模块44，用于获取样本集合中的一部分样本图像参数，并将所述一部分样本图像和所述一部分样本图像参数作为所述预设的训练样本；

第二处理模块45，用于并将所述样本集合中的另一部分样本图像作为所述待处理图像。

本发明实施例提供的一种分析图像的装置，通过根据预设的训练样本得到的待定参数的值，之后根据得到的待定参数的值，针对待处理图像得到的掩模模板，对待处理图像进行图像掩模处理，之后对得到掩模处理后的图像进行分析，得到分析结果。相比较于现有技术，根据预设的训练样本得到待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。

本发明实施例提供了一种分析图像的设备50，所述设备应用于一种图像分析系统，所述图像分析系统至少用于通过第一级神经网络得到图像的掩模模板，还用于通过第二级神经网络根据所述第一级神经网络得到的掩模模板处理图像；所述设备至少包括：处理器501、存储器503和通信总线504；在本实施例中，设备50也可以包括网络接口502。所述通信总线504用于实现所述处理器501、所述网络接口502和所述存储器503之间的连接通信；所述存储器503，用于存储所述分析图像的设备50在运行过程中所涉及的数据；可选的，还包含用户接口505，包括显示器，键盘或者点击设备(例如，鼠标，轨迹球(trackball),触感板或者触感显示屏)。存储器503可能包含高速RAM存储器，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器503可选的可以包含至少一个位于远离前述处理器501的存储装置；

在一些实施方式中，存储器503存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

其中操作系统5031，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；应用程序5032，包含各种在系统上运行的应用程序。

具体的，所述处理器501，用于根据预设的训练样本得到待定参数的值，所述训练样本包括样本图像和样本图像参数，其中，样本图像参数用于表示在样本图像是否包含目标物体，还用于表示包含所述目标物体时所述目标物体在所述样本图像中的视角。

所述处理器501，还用于根据所述第一级神经网络和所述待定参数生成掩模模板，根据所述掩模模板对待处理图像进行图像掩模处理，得到掩模处理后的图像。

所述处理器501，还用于根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，得到所述掩模处理后的图像的分析结果，所述分析结果包括：目标物体检测结果和视角估计结果中的至少一项。

其中，所述处理器501具体用于：将所述待定参数设定为第1赋值；

在一个周期内，根据所述第1赋值和第1样本获取所述第1样本对应的掩模模板，所述训练样本包括了第1至N样本；并依据所述第1样本对应的掩模模板对所述第1样本进行图像掩模处理；并通过所述第二级神经网络，根据所述第1赋值对经过所述图像掩模处理的所述第1样本进行分析，并得到第1样本的分析结果；

重复上述周期，并获取第1至N样本在第1赋值下的分析结果；

其中，所述处理器501具体用于：通过所述第二级神经网络，根据所述目标赋值对经过所述图像掩模处理的所述待处理图像进行分析，并得到所述待处理图像的分析结果。

其中，所述处理器501具体用于：根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取所述第1至N样本在各个赋值下的代价值E；

将代价值最小的赋值作为所述目标赋值。

其中，所述处理器501还用于：还包括：获取样本集合中的一部分样本图像参数，并将所述一部分样本图像和所述一部分样本图像参数作为所述预设的训练样本；

本发明实施例提供的一种分析图像的设备，通过根据预设的训练样本得到的待定参数的值，之后根据得到的待定参数的值，针对待处理图像得到的掩模模板，对待处理图像进行图像掩模处理，之后对得到掩模处理后的图像进行分析，得到分析结果。相比较于现有技术，根据预设的训练样本得到待定参数的值，使预设的训练样本自动学习较优的特征和比对方式。因此，本方法能够从预设的训练样本中自动学习较优的特征和比对方式，使根据待定参数的值生成的掩模模板适应目标物体的特征，在对非刚体的分析过程中具有灵活性，提高了检测和视角估计准确性，从而提高了分析图像过程的准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种分析图像的方法，其特征在于，所述方法应用于一种图像分析系统，所述图像分析系统至少用于通过第一级神经网络得到图像的掩模模板，还用于通过第二级神经网络根据所述第一级神经网络得到的掩模模板处理图像；所述方法包括：

2.根据权利要求1所述的分析图像的方法，其特征在于，所述根据预设的训练样本得到待定参数的值包括：将所述待定参数设定为第1赋值；

3.根据权利要求2所述的分析图像的方法，其特征在于，所述根据所述第二级神经网络和所述待定参数分析所述掩模处理后的图像，得到所述掩模处理后的图像的分析结果，包括：

4.根据权利要求2所述的分析图像的方法，其特征在于，所述根据第1至X赋值下的分析结果，确定目标赋值，并将所述目标赋值作为所述待定参数的值包括：

根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取所述第1至N样本在各个赋值下的代价值E；

将代价值最小的赋值作为所述目标赋值。

5.根据权利要求1-4中的任意一项所述的分析图像的方法，其特征在于，在根据预设的训练样本得到待定参数的值之前，还包括：

6.一种分析图像的装置，其特征在于，所述装置应用于一种图像分析系统，所述图像分析系统至少用于通过第一级神经网络得到图像的掩模模板，还用于通过第二级神经网络根据所述第一级神经网络得到的掩模模板处理图像；所述装置包括：

7.根据权利要求6所述的分析图像的装置，其特征在于，所述第一获取模块包括：

赋值单元，用于将所述待定参数设定为第1赋值；

8.根据权利要求7所述的分析图像的装置，其特征在于，所述分析模块，包括：

9.根据权利要求7所述的分析图像的装置，其特征在于，所述获取单元包括：

获取子单元，用于根据

E = Σ_{i = 1}^{N} ({- p}_{i}^{D} \log q_{i}^{D} - p_{i}^{D} Σ_{j = 1}^{T} p_{i, j}^{V} \log q_{i, j}^{V} + {λE}_{s}),

获取所述第1至N样本在各个赋值下的代价值E；

处理子单元，用于将代价值最小的赋值作为所述目标赋值。

10.根据权利要求6-9中的任意一项所述的分析图像的装置，其特征在于，在第一获取模块之前，还包括：