CN104657776B

CN104657776B - 神经网络系统、基于神经网络系统的图像解析方法和装置

Info

Publication number: CN104657776B
Application number: CN201310598419.7A
Authority: CN
Inventors: 罗平; 王晓刚; 梁炎; 刘健庄; 汤晓鸥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-11-22
Filing date: 2013-11-22
Publication date: 2018-06-05
Anticipated expiration: 2033-11-22
Also published as: CN104657776A; WO2015074428A1

Abstract

本发明实施例提供一种神经网络系统、基于神经网络系统的图像解析方法和装置，包括：所述神经网络系统获取目标事物的第一视觉特征向量x，所述神经网络系统的遮挡估计子网络根据目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量x^o，所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量x^o确定补全所述遮挡部分后所述目标事物的第三视觉特征向量x^c，所述分解子网络根据所述第三视觉特征向量x^o确定所述目标事物的各部位的类标图像，组合所述各部位的类标图像得到所述目标事物的解析结果。上述方法能够解决目标事物被遮挡时的图像解析问题，即使目标事物被遮挡了，也能够准确的得到目标事物的解析结果。

Description

神经网络系统、基于神经网络系统的图像解析方法和装置

技术领域

本发明涉及数据通讯技术，尤其涉及一种神经网络系统、基于神经网络系统的图像解析方法和装置。

背景技术

行人目标解析，就是将一幅行人图像分解成具有特定语义的区域，例如头发、躯干、手臂、腿等。行人目标进行解析后，可以方便用于行人姿势估计、行为分析等多种行人目标分析与理解任务，在图像与视频搜索、视频监控等方法都有重要的应用价值。行人目标解析问题具有很大的挑战性，不仅由于行人在表观、姿势、形状等方面具有很大的变化，而且在视频监控等真实环境下拍摄到的行人图像经常存在大的遮挡和杂乱的背景。

目前已有的行人目标解析方法一般可以分为两类：模板匹配法和贝叶斯推断法。模板匹配法是通过预先建立一个人体各部位的模板库，每个部位收集若干样本，当输入一幅输入的行人图像进行解析时，首先，利用现有的图像分割算法进行分割，得到一组超像素，作为备选的人体各部位区域，然后，将备选区域与模板库中的若干样本进行匹配，将最有可能是某部位的备选区域排在前面，最后，在一些约束条件下对最有可能的备选区域进行组合，约束条件包括上半身部位必须出现在下半身上面等，利用层次化的表观模型对以上组合进行排序，选出最佳组合，作为行人目标解析结果。模板匹配法缺点是过度依赖模板，分解的区域边界不准确，而且没有考虑目标被遮挡情况。贝叶斯推断法是利用标注好的训练图像，首先，学习形状模型，形状模型是一个MSBM，可以确定图像上每个像素的类标的概率，然后，学习表观模型，表观模型是每个人体部位在混合高斯模型下的参数统计，可以确定某个人体部位在某表观下出现的概率，最后将形状模型与表观模型组合得到联合模型，确定出图像、形状、表观、类标四者之间的联合概率。当给定测试图像，利用联合模型，通过图像、形状和表观来推断类标，贝叶斯推断法的缺点是对杂乱的背景、复杂的姿势和许多种类的衣服类型敏感，推断过程速度慢，没有考虑遮挡情况。

通过上述可知，现有的行人目标解析方法都没有考虑行人目标被遮挡的情况，如果行人目标被遮挡，利用现有的方法进行解析，会导致解析结果不准确。

发明内容

本发明提供一种神经网络系统、基于神经网络系统的图像解析方法和装置，能够解决目标事物被遮挡时的解析问题，使得解析结果更加准确。

本发明第一方面提供一种基于神经网络系统的图像解析方法，包括：

所述神经网络系统获取目标事物的第一视觉特征向量x，所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络；

所述遮挡估计子网络根据目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量x^o，所述遮挡标记向量x^o的各分量的取值为大于0小于1；

所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量x^o确定所述目标事物的第三视觉特征向量x^c，所述第三视觉特征向量x^c为补全所述遮挡部分后所述目标事物的视觉特征向量；

所述分解子网络根据所述第三视觉特征向量x^c确定所述目标事物的各部位的类标图像，组合所述各部位的类标图像得到所述目标事物的解析结果。

在本发明第一方面的第一种可能的实现方式中，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

所述遮挡估计子网络根据所述第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量x^o，包括：

所述遮挡估计子网络将所述第一视觉特征向量x作为所述遮挡估计子网络的输入层的输入参数，根据以下公式(1)和(2)计算所述遮挡标记向量x^o：

其中，公式(1)为所述遮挡估计子网络的输入层与隐含层之间的映射函数，公式(2)为所述遮挡估计子网络的的隐含层与输出层之间的映射函数，为所述遮挡估计子网络的输入层与隐含层之间的权重矩阵，为所述遮挡估计子网络的输入层与隐含层之间的偏置，ρ(x)＝max(0,x)为非线性激活函数，是所述遮挡估计子网络的隐含层与输出层之间的权重矩阵，是所述遮挡估计子网络的隐含层与输出层之间的偏置，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1。

在本发明第一方面的第二种可能的实现方式中，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量x^o确定所述目标事物的第三视觉特征向量x^c，包括：

所述遮挡补全子网络将所述遮挡标记向量x^o与所述第一视觉特征向量x逐分量相乘，得到遮挡特征向量x*x^o，其中，所述遮挡标记向量x^o与所述第一视觉特征向量x的维度相同；

所述遮挡补全子网络将所述遮挡特征向量x*x^o作为所述遮挡补全子网络的输入层的参数，根据以下公式(3)、(4)、(5)、(6)计算所述第三视觉特征向量x^c：

其中，公式(3)为所述遮挡补全子网络的输入层与第一隐含层之间映射函数，公式(4)为所述遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数，公式(5)为所述遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数，公式(6)为所述遮挡补全子网络的第三隐含层与输出层之间的映射函数，为所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵，为所述遮挡补全子网络的输入层与第一隐含层之间的偏置，为所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵，为所述遮挡补全子网络的第一隐含层与第二隐含层之间的偏置，为所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵，为所述遮挡补全子网络的第二隐含层与第三隐含层之间的偏置，为所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵，为所述遮挡补全子网络的第三隐含层与输出层之间的偏置，是的转置矩阵，是的转置矩阵，ρ(x)＝max(0,x)为非线性激活函数。

在本发明第一方面的第三种可能的实现方式中，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

所述分解子网络根据所述第三视觉特征向量x^c确定所述目标事物的各部位的类标图像，组合所述各部位的类标图像得到所述目标事物的解析结果，包括：

所述分解子网络将所述第三视觉特征向量x^c作为所述分解子网络的输入层的输入参数，根据以下公式(7)和(8)确定所述目标事物的各部位的类标图像：

其中，公式(7)为所述分解子网络的输入层和隐含层之间的映射函数，公式(8)为所述分解子网络的隐含层和输出层之间的映射函数，为所述分解子网络的输入层和隐含层之间的权重矩阵，为所述分解子网络的输入层和隐含层之间的偏置，y_i表示所述目标事物的第i部分的类标图像，表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵，表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置，ρ(x)＝max(0,x)为非线性激活函数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

将所述各类标图像组合起来，得到所述目标事物的解析结果。

在本发明第一方面的第四种可能的实现方式中，所述遮挡估计子网络根据目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量x^o，包括：

所述遮挡估计子网络对所述第一视觉特征x向量降采样，得到第二视觉特征向量x^d，并根据所述第一视觉特征向量确定所述所述目标事物被遮挡部分的遮挡标记向量x^o，其中，所述第二视觉特征向量x^d的维度小于所述第一视觉特征x，所述遮挡标记向量x^o与述第二视觉特征向量x^d的维度相同。

所述遮挡补全子网络根据所述第二视觉特征向量x^d与所述遮挡标记向量x^o确定所述目标事物的第三视觉特征向量x^c。

本发明第二方面提供一种基于神经网络系统的图像解析方法，包括：

获取所述神经网络系统的各子网络对应的训练样本，所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络，所述各子网络对应的训练样本分别包括I副图像，I取大于1的正整数；

根据所述各子网络对应的训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到所述各子网络的参数，所述各子网络的参数包括所述各子网络中相互连接的两层之间的权重矩阵和偏置。

在本发明第二方面的第一种可能的实现方式中，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

所述根据各子网络对应的训练样本对所述遮挡估计子网络进行预训练，包括：

提取所述遮挡估计子网络对应的训练样本中各图像的视觉特征向量，得到所述训练样本中各图像的特征向量集合X＝{x_i}，其中，列向量x_i表示第i副图像的视觉特征向量，1≤i≤I；

分别确定所述各图像的遮挡部分，获取所述遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中，列向量表示第i副图像的视觉特征向量x_i对应的遮挡标记向量；

根据所述各图像遮挡标记向量集合和各图像的特征向量集合X＝{x_i}确定所述遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置

在本发明第二方面的第二种可能的实现方式中，所述根据所述各图像遮挡标记向量集和各图像的特征向量集X＝{x_i}确定所述遮挡估计子网络的输入层与隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和平偏置包括：

令其中，x_i表示第i副图像的视觉特征向量，[x]'表示转置运算；

令其中，

求解得到所述和其中，是遮挡估计子网络的输入层的输出，||.||_F是Frobenius范数。

在本发明第二方面的第三种可能的实现方式中，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

所述根据所述各子网络对应的训练样本对所述遮挡补全子网络进行预训练，包括：

提取所述遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中，所述遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物；

提取所述遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合

根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中，是的转置矩阵，是的转置矩阵。

在本发明第二方面的第四种可能的实现方式中，所述根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置包括：

令为所述遮挡补全子网络的输入层的输出，是特征向量集合中的一个向量，最小化以下第一受限玻尔兹曼机RBM能量：

其中，σ_m是将所述遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量σ的第m个分量，是特征向量的第m个分量，为的第n个分量，表示连接和的权重，为的第n个分量，表示的第m个分量；

采用对比度扩散法对所述第一RBM能量最小化，得到所述权重矩阵偏置和

将所述遮挡补全子网络的输入层的输出作为所述第一隐含层的输入，令所述第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量：

其中，σ_p是的第p个分量，为的第p个分量，为的第q个分量，表示连接和的权重，为的第q个分量，表示的第p个分量；

采用对比度扩散法对所述第二RBM能量最小化，得到所述权重矩阵偏置和

求所述权重矩阵和的转置矩阵，得到和

在本发明第二方面的第五种可能的实现方式中，所述根据所述有遮挡的情况下视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置之后，包括：

根据以下公式重新构建所述训练样本中各图像无遮挡的情况下视觉特征向量集合V^c：

采用梯度下降法最小化所述V^c和之间的误差，得到调整后的和

在本发明第二方面的第六种可能的实现方式中，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依此连接；

所述根据各子网络对应的所述训练样本对所述分解子网络进行预训练，包括：

提取所述分解子网络对应的训练样本中各图像的视觉特征向量集合其中，所述分解子网络对应的的训练样本是无遮挡时的目标事物；

提取所述分解子网络对应的训练样本中各图像的各部位类标图像集合

令为特征向量集合中的一个视觉特征向量在所述分解子网络的输入层的输出i表示类标图像的个数，i的取值为1≤i≤M的正整数，，将按照以下映射函数映射为不同的类标图像：

其中，y_i表示所述目标事物的第i个部位的类标图像，表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置，表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵；

令Y^c为中所有视觉特征向量在所述分解子网络上映射成的类标图像的集合，最小化所述Y^c和之间的误差，得到

结合本发明第二方面以及第二方面的第一种至第六种可能的实现方式，在本发明第二方面的第七种可能的实现方式中，所述根据所述训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到所述各子网络的参数之后，还包括：

构建损失函数E，最小化所述损失函数E：

其中，X＝{x_i}是遮挡估计子网络训练样本中各图像的视觉特征向量集，x_i表示第i副图像的视觉特征向量，是人工确定的所述训练样本中各图像的类标图像集合，是人工确定的第i幅图像的类标图像，Y＝{y_i}是所述神经网络系统的输出所述训练样本中各图像的类标图像集，y_i是所述神经网络系统输出的第幅i图像的类标图像，W和b是所述神经网络系统的权重矩阵和偏置的集合；

采用随机梯度下降法求解所述损失函数E的最优解，确定所述神经网络系统的调整后的权重矩阵和偏置。

在本发明第二方面的第八种可能的实现方式中，所述采用随机梯度下降法求解所述损失函数E的最优解，确定所述神经网络系统的调整后的权重矩阵，包括：

将预训练得到所述各子网络的权重矩阵，按照以下公式进行迭代：其中，l表示所述神经网络系统的层数，l∈{1,…L}，j表示迭代次数，Δ表示梯度下降时的变化率，ε是学习率，是导数，是第l层的后向投影误差e^l与上一层是输出h^l-1之间的乘积。

在本发明第二方面的第九种可能的实现方式中，所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算，表示一幅图像的实际的类标图像，y表示所述神经网络系统输出的所述图像的类标图像。

在本发明第二方面的第十种可能的实现方式中，如果第l层有S型函数运算，则第l层的后向投影误差e^l＝diag(W^l+1'e^l+1)diag(h^l)(1-h^l)，其中，diag(·)表示取对角矩阵运算，W^l+1是上一层的权重矩阵，e^l+1是上一层的后向投影误差。

在本发明第二方面的第十一种可能的实现方式中，如果第l层有ρ(x)＝max(0,x)运算，则第l层的后向投影误差其中，[·]_i表示一个向量的第i个分量。

本发明第三方面提供一种神经网络系统，包括：

遮挡估计子网络，用于根据获取到的目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量x^o，所述遮挡标记向量x^o的各分量的取值为大于0小于1，所述第一视觉特征向量为有遮挡时所述目标事物的视觉特征向量；

遮挡补全子网络，用于根据所述第一视觉特征向量x与所述遮挡标记向量x^o确定所述目标事物的第三视觉特征向量x^c，所述第三视觉特征向量x^c为无遮挡时所述目标事物的视觉特征向量；

分解子网络，用于根据所述第三视觉特征向量x^c确定所述目标事物的各部位的类标图像，组合所述各部位的类标图像得到所述目标事物的解析结果。

在本发明第三方面的第一种可能的实现方式中，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

所述遮挡估计子网络的输入层和隐含层之间的映射函数为公式(1)：其中为所述遮挡估计子网络的输入层和隐含层之间的权重矩阵，为所述遮挡估计子网络的输入层与隐含层之间的偏置，ρ(x)＝max(0,x)为非线性激活函数；

所述遮挡估计子网络的隐含层和输出层之间的映射函数为公式(2)：是所述遮挡估计子网络的隐含层与输出层之间的权重矩阵，是所述遮挡估计子网络的隐含层与输出层之间的偏置，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

所述遮挡估计子网络具体用于：

将所述第一视觉特征向量x作为所述遮挡估计子网络的输入层的输入参数，根据公式(1)和(2)计算所述遮挡标记向量x^o。

在本发明第三方面的第二种可能的实现方式中，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

所述遮挡补全子网络的输入层与第一隐含层之间映射函数为公式(3)：其中，为所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵，为所述遮挡补全子网络的输入层与第一隐含层之间的偏置；

所述遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数为公式(4)：其中，为所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵，为所述遮挡补全子网络的第一隐含层与第二隐含层之间的偏置；

所述遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数为公式(5)：为所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵，为所述遮挡补全子网络的第二隐含层与第三隐含层之间的偏置；

所述遮挡补全子网络的第三隐含层与输出层之间的映射函数为公式(6)：为所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵，为所述遮挡补全子网络的第三隐含层与输出层之间的偏置，是的转置矩阵，是的转置矩阵，ρ(x)＝max(0,x)为非线性激活函数；

所述遮挡估计子网络具体用于：

将所述相乘结果为x*x^o作为所述遮挡补全子网络的输入层的参数，根据公式(3)、(4)、(5)、(6)计算所述第三视觉特征向量x^c。

在本发明第三方面的第三种可能的实现方式中，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层以此连接；

所述分解子网络的输入层和所述隐含层之间的映射函数为公式(7)：为所述分解子网络的输入层和隐含层之间的权重矩阵，为所述分解子网络的隐含层和输出层之间的偏置；

所述分解子网络的隐含层和输出层之间的映射函数为公式(8)：其中，为所述分解子网络的隐含层和输出层之间的偏置，y_i表示所述目标事物的第i部分的类标图像，表示所述分解子网络的隐含层和输出层之间的第i部分的类标图像的权重矩阵，表示所述分解子网络的隐含层和输出层之间的第i部分的类标图像的偏置，ρ(x)＝max(0,x)为非线性激活函数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

所述分解子网络具体用于：将所述第三视觉特征向量x^c作为所述分解子网络的输入层的输入参数，根据公式(7)和(8)确定所述目标事物的各部位的类标图像，将所述各类标图像组合起来，得带所述目标事物的解析结果。

在本发明第三方面的第四种可能的实现方式中，所述遮挡估计子网络具体用于：

对所述第一视觉特征x向量降采样，得到第二视觉特征向量x^d，并根据所述第一视觉特征向量确定所述所述目标事物被遮挡部分的遮挡标记向量x^o，所述第二视觉特征向量x^d的维度小于所述第一视觉特征x，所述遮挡标记向量x^o与述第二视觉特征向量x^d的维度相同；

所述遮挡补全子网络具体用于：

根据所述第二视觉特征向量x^d与所述遮挡标记向量x^o确定所述目标事物的第三视觉特征向量x^c。

本发明第四方面提供一种基于神经网络系统的图像解析装置，包括：

获取模块，用于获取所述神经网络系统的各子网络对应的训练样本，所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络，所述各子网络对应的训练样本分别包括I副图像，I取大于1的正整数；

训练模块，用于根据所述各子网络对应的训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到所述各子网络的参数，所述各子网络的参数包括所述各子网络中相互连接的两层之间的权重矩阵和偏置。

在本发明第四方面的第一种可能的实现方式中，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

所述训练模块具体用于：提取所述遮挡估计子网络对应的训练样本中各图像的视觉特征向量，得到所述训练样本中各图像的特征向量集合X＝{x_i}，其中，列向量x_i表示第i副图像的视觉特征向量，1≤i≤I；

在本发明第四方面的第二种可能的实现方式中，所述训练模块具体用于：

令其中，

在本发明第四方面的第三种可能的实现方式中，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

所述训练模块具体用于：提取所述遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中，所述遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物；

在本发明第四方面的第四种可能的实现方式中，所述训练模块具体用于：

其中，σ_m是将所述遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量的第m个分量，是特征向量的第m个分量，为的第n个分量，表示连接和的权重，为的第n个分量，表示的第m个分量；

求所述权重矩阵和的转置矩阵，得到和

在本发明第四方面的第五种可能的实现方式中，所述训练模块还用于：

在本发明第四方面的第六种可能的实现方式中，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依此连接；

所述训练模块具体用于：提取所述分解子网络对应的训练样本中各图像的视觉特征向量集合其中，所述分解子网络对应的的训练样本是无遮挡时的目标事物；

结合本发明第四方面以及第四方面的第一种至第六种可能的实现方式，在本发明第四方面的第七种可能的实现方式中，还包括：

参数调整模块，用于构建损失函数E，最小化所述损失函数E：

在本发明第四方面的第八种可能的实现方式中，所述参数调整模块具体用于：

在本发明第四方面的第九种可能的实现方式中，所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算，表示一幅图像的实际的类标图像，y表示所述神经网络系统输出的所述图像的类标图像。

在本发明第四方面的第十种可能的实现方式中，如果第l层有S型函数运算，则第l层的后向投影误差e^l＝diag(W^l+1'e^l+1)diag(h^l)(1-h^l)，其中，diag(·)表示取对角矩阵运算，W^l+1是上一层的权重矩阵，e^l+1是上一层的后向投影误差。

在本发明第四方面的第十一种可能的实现方式中，如果第l层有ρ(x)＝max(0,x)运算，则第l层的后向投影误差其中，[·]_i表示一个向量的第i个分量。

本发明实施例提供的神经网络系统、基于神经网络系统的图像解析方法和装置，通过神经网络系统获取目标事物的第一视觉特征向量x，然后，根据目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量x^o，根据第一视觉特征向量x与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c，第三视觉特征向量x^c为补全遮挡部分后目标事物的视觉特征向量，最后，根据第三视觉特征向量x^c确定目标事物的各部位的类标图像，组合各部位的类标图像得到目标事物的解析结果，可以解决目标事物有遮挡时的图像解析问题，能够准确的估计出有遮挡部分的目标事物。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于神经网络系统的图像解析方法一个实施例的流程图；

图2为无遮挡目标行人的解析结果示意图；

图3为有遮挡目标行人的解析结果示意图；

图4为处理有遮挡的目标行人解析过程示意图；

图5为本发明神经网络系统的训练方法一个实施例的流程图；

图6为预训练遮挡补全子网络时目标行人遮挡设置示意图；

图7为本发明神经网络系统一个实施例例的结构示意图；

图8为本发明基于神经网络系统的图像解析装置一实施例的结构示意图；

图9为本发明基于神经网络系统的图像解析装置又一实施例的结构示意图；

图10为本发明神经网络系统又一实施例的结构示意图；

图11为本发明基于神经网络系统的图像解析装置还一实施例结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明基于神经网络系统的图像解析方法一个实施例的流程图，如图1所示，本实施例的方法可以包括：

步骤101、神经网络系统获取目标事物的第一视觉特征向量x。

本实施例中，神经网络系统主要包括遮挡估计子网络、遮挡补全子网络、分解子网络，遮挡估计子网络主要用于估计目标事物有哪些部分被遮挡，遮挡补全子网络主要用于合成被遮挡部分的视觉特征向量，分解子网络主要用于将补全的视觉特征向量映射为该目标事物各部分的类标图像。需要说明的是，本发明各实施例中，在对一幅目标图像进行解析时，是对目标图像中的一个目标事物进行解析，举例来说，一幅图像中包括行人和一些背景，目标事物就是指这幅图像中的行人，目标事物还可以是一幅图像中的猫、狗、飞机、轿车等等。

神经网络系统可通过方向梯度值方图HOG、SIFT、Gabor、LBP提取目标图像中的目标事物的第一视觉特征向量，当然还可以通过其他现有的方法提取目标事物的第一视觉特征向量，本发明并不对此进行限制。

步骤102、遮挡估计子网络根据目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量x^o，遮挡标记向量x^o的各分量的取值为大于0小于1。

遮挡估计子网络主要用于估计目标事物有哪些部分被遮挡，遮挡估计子网络作为一个神经网络系统，可以包括一个输入层、多个隐含层和一个输出层，隐含层的个数并不做限制。在一种可行的实现方式中，遮挡估计子网络为三层网络，包括：一个输入层、一个隐含层和一个输出层，输入层、隐含层和输出层依次连接，即输入层与隐含层连接，隐含层与输出层连接。每层包括多个单元，相邻层的单元之间是互相连接的，并赋予这些连接以权重，权重是通过对神经网络系统进行预训练得到的。

遮挡估计子网络根据第一视觉特征向量x确定目标事物被遮挡部分的遮挡标记向量x^o，具体为：首先，遮挡估计子网络将第一视觉特征向量x作为遮挡估计子网络的输入层的输入参数，然后，根据以下公式(1)和(2)计算遮挡标记向量x^o：

其中，公式(1)为遮挡估计子网络的输入层与隐含层之间的映射函数，公式(2)为遮挡估计子网络的的隐含层与输出层之间的映射函数，为遮挡估计子网络的输入层与隐含层之间的权重矩阵，为遮挡估计子网络的输入层与隐含层之间的偏置，ρ(x)＝max(0,x)为非线性激活函数，是遮挡估计子网络的隐含层与输出层之间的权重矩阵，是遮挡估计子网络的隐含层与输出层之间的偏置，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1。

遮挡标记向量x^o是针对第一视觉特征向量x来说的，简单说就是第一视觉特征向量x中的哪些分量被遮挡了，遮挡标记向量x^o的每个分量取值在0和1之间，越接近0说明此分量越可能被遮挡，越接近1说明此分量越可能无遮挡。

需要说明的是，本实施例中，输入图像的目标事物可以是有遮挡，也可以是无遮挡的，当目标事物无遮挡时，估计出的遮挡标记向量x^o的分量更接近于1。

步骤103、遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c，第三视觉特征向量x^c为补全遮挡部分后目标事物的视觉特征向量。

遮挡补全子网络主要用于合成被遮挡部分的视觉特征向量，遮挡补全子网络作为一个神经网络系统，可以包括一个输入层、多个隐含层和一个输出层，隐含层的个数并不做限制。在一种可行的实现方式中，遮挡估计子网络为五层网络，包括：一个输入层、三个隐含层和一个输出层，三个隐含层分别为第一隐含层、第二隐含层、第三隐含层，输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接。每层包括多个单元，相邻层的单元之间是互相连接的，并赋予这些连接以权重，权重是通过对神经网络系统进行预训练得到的。

遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c，具体为：首先，遮挡补全子网络将遮挡标记向量x^o与第一视觉特征向量x逐分量相乘，得到遮挡特征向量x*x^o，其中，遮挡标记向量x^o与第一视觉特征向量x的维度相同；然后，遮挡补全子网络将遮挡特征向量x*x^o作为遮挡补全子网络的输入层的参数，根据以下公式(3)、(4)、(5)、(6)计算第三视觉特征向量x^c：

其中，公式(3)为遮挡补全子网络的输入层与第一隐含层之间映射函数，公式(4)为遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数，公式(5)为遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数，公式(6)为遮挡补全子网络的第三隐含层与输出层之间的映射函数，为遮挡补全子网络的输入层与第一隐含层之间的权重矩阵，为遮挡补全子网络的输入层与第一隐含层之间的偏置，为遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵，为遮挡补全子网络的第一隐含层与第二隐含层之间的偏置，为遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵，为遮挡补全子网络的第二隐含层与第三隐含层之间的偏置，为遮挡补全子网络的第三隐含层与输出层之间的权重矩阵，为遮挡补全子网络的第三隐含层与输出层之间的偏置，是的转置矩阵，是的转置矩阵，ρ(x)＝max(0,x)为非线性激活函数。

本步骤中，通过将第一视觉特征向量与遮挡标记向量x^o逐分量相乘后，得到遮挡特征向量x*x^o，然后经过遮挡补全子网络，合成被遮挡部分的视觉特征，得到补全遮挡部分后第三视觉特征向量。

步骤104、分解子网络根据第三视觉特征向量x^c确定目标事物的各部位的类标图像，组合各部位的类标图像得到目标事物的解析结果。

分解子网络主要用于将补全的视觉特征向量映射为该目标事物各部分的类标图像，分解子网络作为一个神经网络系统，可以包括一个输入层、多个隐含层和一个输出层，隐含层的个数并不做限制。在一种可行的实现方式中，分解子网络为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层依次连接。每层包括多个单元，相邻层的单元之间是互相连接的，并赋予这些连接以权重，权重是通过对神经网络系统进行预训练得到的。

分解子网络根据第三视觉特征向量x^c确定目标事物的各部位的类标图像，组合各部位的类标图像得到目标事物的解析结果，具体为：首先，分解子网络将第三视觉特征向量x^c作为分解子网络的输入层的输入参数，根据以下公式(7)和(8)确定目标事物的各部位的类标图像：

其中，公式(7)为分解子网络的输入层和隐含层之间的映射函数，公式(8)为分解子网络的隐含层和输出层之间的映射函数，为分解子网络的输入层和隐含层之间的权重矩阵，为分解子网络的输入层和隐含层之间的偏置。将目标事物分解为M个不同的部位，每个部分对应一个类标图像，y_i表示目标事物的第i部分的类标图像，表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的权重矩阵，表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的偏置，ρ(x)＝max(0,x)为非线性激活函数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1。

本步骤中，将步骤103中得到补全遮挡部分后第三视觉特征向量进行分解，得到目标事物各部分的类标图像，然后将各类标图像组合起来，接得到了目标事物的解析结果。

需要说明的是，本实施例提供的方法，不仅适用于没有遮挡的目标事物的解析，也适用于没有遮挡的目标事物的解析，能够获得准确的标解目标事物的解析结果，并且对遮挡、杂乱背景、复杂的姿势变化和衣服类型等具有鲁棒性。图2为无遮挡目标行人的解析结果示意图，图3为有遮挡目标行人的解析结果示意图，图2中第一行的图像表示现实环境中实际拍摄到的图像，第二行表示本实施例解析出的目标行人的结果，第三行表示手工标定的真实类标图像；图3中第一行的图像表示现实环境中实际拍摄到的图像，这些图像中的目标行人都被部分遮挡了，第二行表示本实施例解析出的目标行人的结果，第三行表示手工标定的真实类标图像。

本实施例提供的方法，通过神经网络系统获取目标事物的第一视觉特征向量x，然后，根据目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量x^o，根据第一视觉特征向量x与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c，第三视觉特征向量x^c为补全遮挡部分后目标事物的视觉特征向量，最后，根据第三视觉特征向量x^c确定目标事物的各部位的类标图像，组合各部位的类标图像得到目标事物的解析结果，可以解决目标事物有遮挡时的图像解析问题，能够准确的估计出有遮挡部分的目标事物。

需要说明的是，在本实施的一种实现方式中，神经网络系统在获取到第一视觉特征向量x后，还可以对第一视觉特征向量x降采样。降采样的主要目的是减少数据量，从而达到提高神经网络系统处理速度的目的。具体地，遮挡估计子网络对第一视觉特征x向量降采样，得到第二视觉特征向量x^d，并根据第一视觉特征向量确定目标事物被遮挡部分的遮挡标记向量x^o，其中，第二视觉特征向量x^d的维度小于第一视觉特征x，遮挡标记向量x^o与述第二视觉特征向量x^d的维度相同。

相应地，遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c，具体为：遮挡补全子网络根据第二视觉特征向量x^d与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c。具体实现方式可参照实施例一的中描述，这里不再赘述。如图4所示，图4为处理有遮挡的目标行人解析过程示意图，首先对输入的图像提取目标行人第一视觉特征向量x，然后对第一视觉特征向量x进行降采样得到第二视觉特征向量x^d，同时根据第一视觉特征向量x确定目标行人的被遮挡部分的遮挡标记向量x^o，遮挡补全子网络将遮挡标记向量x^o与第一视觉特征向量x逐分量相乘，得到遮挡特征向量x*x^o，遮挡补全子网络将遮挡特征向量x*x^o作为遮挡补全子网络的输入层的参数，得到特征向量x^c，分解子网络根据第三视觉特征向量x^c确定目标事物的各部位的类标图像y_i，如图中所示，y₁为根据第三视觉特征向量x^c确定目标行人的头发类标图像，y₂表示该目标行人的上身类标图像，y₃表示该目标行人的下身类标图像，当确定出目标行人的所有类标图像后，将各部位的类标图像按照一定的方式组合得到该目标行人的解析结果。

在执行实施例一所示的基于神经网络系统的图像解析方法之前，还需要对该神经网络系统进行预训练，得到神经网络系统的一些参数，图5为本发明神经网络系统的训练方法一个实施例的流程图，如图5所示，本实施例的方法可以包括：

步骤201、获取神经网络系统的各子网络对应的训练样本。

在对神经网络系统进行预训练之前，首先要获取神经网络系统神经网络系统的各子网络对应的训练样本，本实施例中，神经网络系统主要包括三个子网络，分别为遮挡估计子网络、遮挡补全子网络、分解子网络，每个字网络对应一个训练样本，在训练时分别根据各子网络对应的训练样本对各子网络进行训练，各子网络的训练样本不同，各子网络对应的训练样本分别包括I副图像，I取大于1的正整数。

步骤202、根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到各子网络的参数，各子网络的参数包括各子网络中相互连接的两层之间的权重矩阵和偏置。

在获取各子网络的对应的训练样本后，根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到各子网络的参数。以下将具体介绍各个子网络的训练过程：

首先，对遮挡估计子网络进行预训练，以遮挡估计子网络为三层网络为例进行说明，遮挡估计子网络包括：输入层、隐含层和输出层，输入层、隐含层和输出层依次连接。应该明确的是遮挡估计子网络的层数还可以更多，本发明并不对此限制，不论遮挡估计子网络有几层，都可以按照本实施例提供的方法进行训练，本实施例中只是以遮挡估计子网络为三层为例进行说明，根据各子网络对应的训练样本对遮挡估计子网络进行预训练，具体包括：

第一步：提取遮挡估计子网络对应的训练样本中各图像的视觉特征向量，得到训练样本中各图像的特征向量集合X＝{x_i}，其中，列向量x_i表示第i副图像的视觉特征向量，1≤i≤I。

遮挡估计子网络对应的训练样本中包括I副图像，这I副图像主要包括两种类型的图像，第一种类型为目标事物被遮挡的图像，第二种类型为目标事物没有被遮挡的图像。分别提取训练样本中各图像的视觉特征向量，得到训练样本中各图像的特征向量集合X＝{x_i}，特征向量集合X＝{x_i}中的每一列表示一幅图像的视觉特征向量。

第二步、分别确定各图像的遮挡部分，获取遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中，列向量表示第i副图像的视觉特征向量x_i对应的遮挡标记向量。

在进行预训练时，可通过人工的方式确定各图像的遮挡部分，获取遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中，列向量表示第i副图像的视觉特征向量x_i对应的遮挡标记向量，如果哪一幅图像没有被遮挡，则该图像的遮挡标记向量各分量为1。

第三步、根据各图像遮挡标记向量集合和各图像的特征向量集合X＝{x_i}确定遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置

首先，令其中，x_i表示第i副图像的视觉特征向量，[x]'表示转置运算；

令其中，

求解得到和其中，是遮挡估计子网络的输入层的输出，||.||_F是Frobenius范数。

其中，求解的最优化问题可采用以下两种方式：方式一：可基于最小平方字典学习(least squares dictionary learning)方式求解，可迭代求解以下两个公式：

和

即首先用线性变换将线性逼近一旦求解出来，再用另一个线性变换将逼近上述两个问题可基于以下两个闭型公式求解：

方式二：如果训练样本数目过多，以上矩阵求逆运算时复杂度太高，可以采用在线字典学习算法求解。

然后，介绍对遮挡补全子网络的预训练，以遮挡补全子网络为五层网络为例，遮挡补全子网络包括：输入层、三个隐含层和输出层，三个隐含层分别为第一隐含层、第二隐含层、第三隐含层，输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接。应该明确的是遮挡补全子网络的层数还可以更多，本发明并不对此限制，不论遮挡补全子网络有几层，都可以按照本实施例提供的方法进行训练，本实施例中只是以遮挡补全子网络为五层为例进行说明，根据各子网络对应的训练样本对遮挡补全子网络进行预训练，可以包括以下步骤：

第一步、提取遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合

其中，遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物，可采用真实环境中拍摄到的无遮挡的图像。

第二步、提取遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合

遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物，在提取遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合可通过人工方式对真实环境中拍摄到的无遮挡的图像人为模拟出遮挡部分，图6为预训练遮挡补全子网络时目标行人遮挡设置示意图，如图6所示，目标事物为目标行人，分别人为设置各图像的正当部分，图中黑色部分表示图像设置的遮挡部分，图中共人为遮挡了目标行人的40各部分，模拟出对目标行人的40种遮挡模式。

第三步、根据遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中，是的转置矩阵，是的转置矩阵。

具体地，令为遮挡补全子网络的输入层的输出，是特征向量集合中的一个向量，最小化以下第一受限玻尔兹曼机RBM能量：

其中，σ_m是将遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量的第m个分量，是特征向量的第m个分量，为的第n个分量，表示连接和的权重，为的第n个分量，表示的第m个分量；

采用对比度扩散法对第一RBM能量最小化，得到权重矩阵偏置和

将遮挡补全子网络的输入层的输出作为第一隐含层的输入，令第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量：

采用对比度扩散法对第二RBM能量最小化，得到权重矩阵偏置和

求权重矩阵和的转置矩阵，得到和

一种方式中，为了得到更准确的参数，在得到权重矩阵和偏置和之后，还包括：

根据以下公式重新构建训练样本中各图像无遮挡的情况下视觉特征向量集合V^c：

采用梯度下降法最小化V^c和之间的误差，得到调整后的和将调整后的和作为遮挡补全子网络的最终参数。

最后，介绍分解子网络的预训练过程，以分解子网络为三层网络为例进行说明，分解子网络包括：输入层、隐含层和输出层，输入层、隐含层和输出层依此连接。应该明确的是分解子网络的层数还可以更多，本发明并不对此限制，不论分解子网络有几层，都可以按照本实施例提供的方法进行训练，本实施例中只是以分解子网络为三层为例进行说明，根据各子网络对应的训练样本对分解子网络进行预训练，包括以下步骤：

第一步、提取分解子网络对应的训练样本中各图像的视觉特征向量集合其中，分解子网络对应的的训练样本是无遮挡时的目标事物。

第二步、提取分解子网络对应的训练样本中各图像的各部位类标图像集合

令为特征向量集合中的一个视觉特征向量在分解子网络的输入层的输出分解子网络的隐含层对应M个权重矩阵i表示类标图像的个数，i的取值为1≤i≤M的正整数，将按照以下映射函数映射为不同的类标图像：

其中，y_i表示目标事物的第i个部位的类标图像，表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的偏置，表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的权重矩阵，可通过人工方式标定每副图像的各部位的类标图像y_i；

令Y^c为中所有视觉特征向量在分解子网络上映射成的类标图像的集合，最小化Y^c和之间的误差，得到

需要说明的是，对遮挡估计子网络、遮挡补全子网络、分解子网络的预训练是独立进行的，训练时也没有先后的顺序。

为例提高整个神经网络系统的性能，在得到各个子网络的参数后，将各子网络的参数作为一个整体进一步作调整。参数调整包括以下几个步骤：

第一步、构建损失函数E，并最小化以下损失函数E：

其中，X＝{x_i}是遮挡估计子网络训练样本中各图像的视觉特征向量集，x_i表示第i副图像的视觉特征向量，是人工确定的训练样本中各图像的类标图像集合，是人工确定的第i幅图像的类标图像，Y＝{y_i}是神经网络系统的输出训练样本中各图像的类标图像集，y_i是神经网络系统输出的第i幅图像的类标图像，W和b是神经网络系统的权重矩阵和偏置的集合；

第二步、采用随机梯度下降法求解损失函数E的最优解，确定神经网络系统的调整后的权重矩阵和偏置。

采用随机梯度下降法求解损失函数E的最优解，确定神经网络系统的调整后的权重矩阵，具体为：

将预训练得到各子网络的权重矩阵，按照以下公式进行迭代：其中，l表示神经网络系统的层数，l∈{1,…L}，j表示迭代次数，Δ表示梯度下降时的变化率，ε是学习率，是导数，是第l层的后向投影误差e^l与上一层是输出h^l-1之间的乘积。

后向投影误差e^l有三种不同的计算方式，神经网络系统的最后一层的后向投影误差为其中diag(·)表示取对角矩阵运算，表示一幅图像的实际的类标图像，y表示神经网络系统输出的图像的类标图像。如果第l层有S型函数运算，则第l层的后向投影误差e^l＝diag(W^l+1'e^l+1)diag(h^l)(1-h^l)，其中，diag(·)表示取对角矩阵运算，W^l+1是上一层的权重矩阵，e^l+1是上一层的后向投影误差。如果第l层有ρ(x)＝max(0,x)运算，则第l层的后向投影误差其中，[·]_i表示一个向量的第i个分量。

图7为本发明神经网络系统一个实施例例的结构示意图，如图7所示，本实施例的神经网络系统可以包括：遮挡估计子网络31、遮挡补全子网络32、分解子网络33。

其中，遮挡估计子网络31，用于根据获取到的目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量x^o，遮挡标记向量x^o的各分量的取值为大于0小于1，第一视觉特征向量为有遮挡时目标事物的视觉特征向量；

遮挡补全子网络32，用于根据第一视觉特征向量x与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c，第三视觉特征向量x^c为无遮挡时目标事物的视觉特征向量；

分解子网络33，用于根据第三视觉特征向量x^c确定目标事物的各部位的类标图像，组合各部位的类标图像得到目标事物的解析结果。

可选地，遮挡估计子31网络为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层依次连接；

遮挡估计子网络31的输入层和隐含层之间的映射函数为公式(1)：其中为遮挡估计子网络31的输入层和隐含层之间的权重矩阵，为遮挡估计子网络31的输入层与隐含层之间的偏置，ρ(x)＝max(0,x)为非线性激活函数；

遮挡估计子网络31的隐含层和输出层之间的映射函数为公式(2)：是遮挡估计子网络31的隐含层与输出层之间的权重矩阵，是遮挡估计子网络31的隐含层与输出层之间的偏置，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

遮挡估计子网络31具体用于：

将第一视觉特征向量x作为遮挡补全子网络31的输入层的输入参数，根据公式(1)和(2)计算遮挡标记向量x^o。

可选地，遮挡补全子网络31为五层网络，包括：输入层、3个隐含层和输出层，3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

遮挡补全子网络32的输入层与第一隐含层之间映射函数为公式(3)：其中，为遮挡补全子网络32的输入层与第一隐含层之间的权重矩阵，为遮挡补全子网络32的输入层与第一隐含层之间的偏置；

遮挡补全子网络32的第一隐含层与第二隐含层之间的映射函数为公式(4)：其中，为遮挡补全子网络32的第一隐含层与第二隐含层之间的权重矩阵，为遮挡补全子网络32的第一隐含层与第二隐含层之间的偏置；

遮挡补全子网络32的第二隐含层与第三隐含层之间的映射函数为公式(5)：为遮挡补全子网络32的第二隐含层与第三隐含层之间的权重矩阵，为遮挡补全子网络32的第二隐含层与第三隐含层之间的偏置；

遮挡补全子网络32的第三隐含层与输出层之间的映射函数为公式(6)：为遮挡补全子网络32的第三隐含层与输出层之间的权重矩阵，为遮挡补全子网络32的第三隐含层与输出层之间的偏置，是的转置矩阵，是的转置矩阵，ρ(x)＝max(0,x)为非线性激活函数；

遮挡补全子网络32具体用于：

将相乘结果为x*x^o作为遮挡补全子网络32的输入层的参数，根据公式(3)、(4)、(5)、(6)计算第三视觉特征向量x^c。

可选地，分解子网络33为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层以此连接；

分解子网络33的输入层和隐含层之间的映射函数为公式(7)：为分解子网络33的输入层和隐含层之间的权重矩阵，为分解子网络33的隐含层和输出层之间的偏置；

分解子网络33的隐含层和输出层之间的映射函数为公式(8)：其中，为分解子网络33的隐含层和输出层之间的偏置，y_i表示目标事物的第i部分的类标图像，表示分解子网络的隐含层和输出层之间的第i部分的类标图像的权重矩阵，表示分解子网络的隐含层和输出层之间的第第i部分的类标图像的偏置，ρ(x)＝max(0,x)为非线性激活函数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

分解子网络33具体用于：将第三视觉特征向量x^c作为分解子网络的输入层的输入参数，根据公式(7)和(8)确定目标事物的各部位的类标图像，将各类标图像组合起来，得带目标事物的解析结果。

在一种实现方式中，遮挡估计子网络31具体用于：对第一视觉特征x向量降采样，得到第二视觉特征向量x^d，并根据第一视觉特征向量确定目标事物被遮挡部分的遮挡标记向量x^o，第二视觉特征向量x^d的维度小于第一视觉特征x，遮挡标记向量x^o与述第二视觉特征向量x^d的维度相同；遮挡补全子网络32具体用于：根据第二视觉特征向量x^d与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c。

本实施例提供的神经网络系统，可用于执行图1所示方法实施例提供的技术方案，具体实现方式和技术效果类似，这里不再赘述。

图8为本发明基于神经网络系统的图像解析装置一实施例的结构示意图，如图8所示，本实施例提供的基于神经网络系统的图像解析装置，包括：获取模块41、训练模块42。

其中，获取模块41，用于获取神经网络系统的各子网络对应的训练样本，神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络，各子网络对应的训练样本分别包括I副图像，I取大于1的正整数；

训练模块42，用于根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到各子网络的参数，各子网络的参数包括各子网络中相互连接的两层之间的权重矩阵和偏置。

本实施例中，遮挡估计子网络可以为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层依次连接，训练模块42具体用于：

提取遮挡估计子网络对应的训练样本中各图像的视觉特征向量，得到训练样本中各图像的特征向量集合X＝{x_i}，其中，列向量x_i表示第i副图像的视觉特征向量，1≤i≤I；

分别确定各图像的遮挡部分，获取遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中，列向量表示第i副图像的视觉特征向量x_i对应的遮挡标记向量；

根据各图像遮挡标记向量集合和各图像的特征向量集合X＝{x_i}确定遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置

训练模块42具体通过以下方式确定和首先，令其中，x_i表示第i副图像的视觉特征向量，[x]’表示转置运算；令其中，求解得到和其中，是遮挡估计子网络的输入层的输出，||·||_F是Frobenius范数。

本实施例中，遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；训练模块42具体用于：

提取遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中，遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物；

提取遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合

根据遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中，是的转置矩阵，是的转置矩阵。

训练模块42具体通过以下方式得到权重矩阵偏置和

令为遮挡补全子网络的输入层的输出，是特征向量集合中的一个向量，最小化以下第一受限玻尔兹曼机RBM能量：

求权重矩阵和的转置矩阵，得到和

本实施例中，训练模块还用于：根据以下公式重新构建训练样本中各图像无遮挡的情况下视觉特征向量集合V^c：采用梯度下降法最小化V^c和之间的误差，得到调整后的和

本实施例中，分解子网络可以为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层依此连接。训练模块42具体用于：

提取分解子网络对应的训练样本中各图像的视觉特征向量集合其中，分解子网络对应的的训练样本是无遮挡时的目标事物；

提取分解子网络对应的训练样本中各图像的各部位类标图像集合

令为特征向量集合中的一个视觉特征向量在分解子网络的输入层的输出i表示类标图像的个数，i的取值为1≤i≤M的正整数，，将按照以下映射函数映射为不同的类标图像：

其中，y_i表示目标事物的第i个部位的类标图像，表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的偏置，表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的权重矩阵；

本实施例提供的基于神经网络系统的图像解析装置，可用于执行图5所示方法实施例提供的技术方案，具体实现方式和技术效果类似，这里不再赘述。

图9为本发明基于神经网络系统的图像解析装置又一实施例的结构示意图，如图9所示，本实施例的装置在图8所示装置结构的基础上，进一步地，还可以包括：参数调整模块43。

其中，参数调整模块43，用于构建损失函数E，最小化损失函数E：

其中，X＝{x_i}是遮挡估计子网络训练样本中各图像的视觉特征向量集，x_i表示第i副图像的视觉特征向量，是人工确定的训练样本中各图像的类标图像集合，是人工确定的第i幅图像的类标图像，Y＝{y_i}是神经网络系统的输出训练样本中各图像的类标图像集，y_i是神经网络系统输出的第幅i图像的类标图像，W和b是神经网络系统的权重矩阵和偏置的集合；

采用随机梯度下降法求解损失函数E的最优解，确定神经网络系统的调整后的权重矩阵和偏置。

本实施例中，参数调整模块43具体用于：将预训练得到各子网络的权重矩阵，按照以下公式进行迭代：其中，l表示神经网络系统的层数，l∈{1,…L}，j表示迭代次数，Δ表示梯度下降时的变化率，ε是学习率，是导数，是第l层的后向投影误差e^l与上一层是输出h^l-1之间的乘积。

神经网络系统的后向投影误差有以下三种形式：神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算，表示一幅图像的实际的类标图像，y表示神经网络系统输出的图像的类标图像。如果第l层有S型函数运算，则第l层的后向投影误差e^l＝diag(W^l+1'e^l+1)diag(h^l)(1-h^l)，其中，diag(·)表示取对角矩阵运算，W^l+1是上一层的权重矩阵，e^l+1是上一层的后向投影误差。如果第l层有ρ(x)＝max(0,x)运算，则第l层的后向投影误差其中，[·]_i表示一个向量的第i个分量。

图10为本发明神经网络系统又一实施例的结构示意图，如图10所示，本实施例的神经网络系统500包括：处理器51和存储器52，处理器和存储器通过总线连接，存储器52存储执行指令，当神经网络系统500运行时，处理器51与存储器52之间通信，处理器51执行指令使得神经网络系统500执行本发明提供的基于神经网络系统的图像解析方法。本实施例中，神经网络系统的遮挡估计子网络、遮挡补全子网络和分解子网络都可以通过处理器51来实现，由处理器51执行各个子网络的功能。具体地：

处理器51控制遮挡估计子网络根据获取到的目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量x^o，遮挡标记向量x^o的各分量的取值为大于0小于1，第一视觉特征向量为有遮挡时目标事物的视觉特征向量；

处理器51控制遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c，第三视觉特征向量x^c为无遮挡时目标事物的视觉特征向量；

处理器51控制分解子网络根据第三视觉特征向量x^c确定目标事物的各部位的类标图像，组合各部位的类标图像得到目标事物的解析结果。

本实施例中，遮挡估计子网络可以为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层依次连接；遮挡估计子网络的输入层和隐含层之间的映射函数为公式(1)：其中为遮挡估计子网络的输入层和隐含层之间的权重矩阵，为遮挡估计子网络的输入层与隐含层之间的偏置，ρ(x)＝max(0,x)为非线性激活函数；

遮挡估计子网络的隐含层和输出层之间的映射函数为公式(2)：是遮挡估计子网络的隐含层与输出层之间的权重矩阵，是遮挡估计子网络的隐含层与输出层之间的偏置，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

处理器51具体控制遮挡估计子网络将第一视觉特征向量x作为遮挡估计子网络的输入层的输入参数，根据公式(1)和(2)计算遮挡标记向量x^o。

本实施例中，遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

遮挡补全子网络的输入层与第一隐含层之间映射函数为公式(3)：其中，为遮挡补全子网络的输入层与第一隐含层之间的权重矩阵，为遮挡补全子网络的输入层与第一隐含层之间的偏置；

遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数为公式(4)：其中，为遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵，为遮挡补全子网络的第一隐含层与第二隐含层之间的偏置；

遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数为公式(5)：为遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵，为遮挡补全子网络的第二隐含层与第三隐含层之间的偏置；

遮挡补全子网络的第三隐含层与输出层之间的映射函数为公式(6)：为遮挡补全子网络的第三隐含层与输出层之间的权重矩阵，为遮挡补全子网络的第三隐含层与输出层之间的偏置，是的转置矩阵，是的转置矩阵，ρ(x)＝max(0,x)为非线性激活函数；

处理器51具体控制遮挡估计子网络将相乘结果为x*x^o作为遮挡补全子网络的输入层的参数，根据公式(3)、(4)、(5)、(6)计算第三视觉特征向量x^c。

本实施例中，分解子网络为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层以此连接；分解子网络的输入层和隐含层之间的映射函数为公式(7)：为分解子网络的输入层和隐含层之间的权重矩阵，为分解子网络的隐含层和输出层之间的偏置；

分解子网络的隐含层和输出层之间的映射函数为公式(8)：其中，为分解子网络的隐含层和输出层之间的偏置，y_i表示目标事物的第i部分的类标图像，表示分解子网络的隐含层和输出层之间的第i部分的类标图像的权重矩阵，表示分解子网络的隐含层和输出层之间的第i部分的类标图像的偏置，ρ(x)＝max(0,x)为非线性激活函数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

处理器51具体用于控制分解子网络将第三视觉特征向量x^c作为分解子网络的输入层的输入参数，根据公式(7)和(8)确定目标事物的各部位的类标图像，将各类标图像组合起来，得带目标事物的解析结果。

本实施例中，处理器51具体用于控制遮挡估计子网络：对第一视觉特征x向量降采样，得到第二视觉特征向量x^d，并根据第一视觉特征向量确定目标事物被遮挡部分的遮挡标记向量x^o，第二视觉特征向量x^d的维度小于第一视觉特征x，遮挡标记向量x^o与述第二视觉特征向量x^d的维度相同；并控制遮挡补全子网络根据第二视觉特征向量x^d与遮挡标记向量x^o确定目标事物的第三视觉特征向量x^c。

本实施例的神经网络系统，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本发明基于神经网络系统的图像解析装置还一实施例结构示意图，本实施例的基于神经网络系统的图像解析装置600包括：处理器61和存储器62，处理器61和存储器62通过总线连接，存储器62存储执行指令，当基于神经网络系统的图像解析装置600运行时，处理器61与存储器62之间通信，处理器61执行指令使得基于神经网络系统的图像解析装置600执行本发明提供的基于神经网络系统的图像解析方法。处理器61具体用于执行以下操作：

获取神经网络系统的各子网络对应的训练样本，神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络，各子网络对应的训练样本分别包括I副图像，I取大于1的正整数；

根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到各子网络的参数，各子网络的参数包括各子网络中相互连接的两层之间的权重矩阵和偏置。

本实施例中，遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层依次连接。处理器61根据各子网络对应的训练样本对遮挡估计子网络进行预训练，具体为：

处理器61根据各图像遮挡标记向量集和各图像的特征向量集X＝{x_i}确定遮挡估计子网络的输入层与隐含层之间的权重矩阵和偏置以及确定遮挡估计子网络的隐含层与输出层之间的权重矩阵和平偏置具体为：

令其中，

本实施例中，遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；处理器61根据各子网络对应的训练样本对遮挡补全子网络进行预训练，具体为：

处理器61根据遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置具体为：

其中，σ_m是将遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量σ的第m个分量，是特征向量的第m个分量，为的第n个分量，表示连接和的权重，为的第n个分量，表示的第m个分量；

最后，求权重矩阵和的转置矩阵，得到和

处理器61在确定权重矩阵偏置之后，还用于：根据以下公式重新构建训练样本中各图像无遮挡的情况下视觉特征向量集合V^c：

采用梯度下降法最小化V^c和之间的误差，得到调整后的和

本实施例中，分解子网络为三层网络，包括：输入层、隐含层和输出层，输入层、隐含层和输出层依此连接；

处理器61根据各子网络对应的训练样本对分解子网络进行预训练，具体为：

本实施例中，处理器61根据训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到各子网络的参数之后，还用于：

构建损失函数E，最小化损失函数E：

其中，处理器61采用随机梯度下降法求解损失函数E的最优解，确定神经网络系统的调整后的权重矩阵，具体为：将预训练得到各子网络的权重矩阵，按照以下公式进行迭代：其中，l表示神经网络系统的层数，l∈{1,…L}，j表示迭代次数，Δ表示梯度下降时的变化率，ε是学习率，是导数，是第l层的后向投影误差e^l与上一层是输出h^l-1之间的乘积。

本实施例中神经网络系统的后向投影误差有三种形式，神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算，表示一幅图像的实际的类标图像，_y表示神经网络系统输出的图像的类标图像。如果第l层有S型函数运算，则第l层的后向投影误差e^l＝diag(W^l+1'e^l+1)diag(h^l)(1-h^l)，其中，diag(·)表示取对角矩阵运算，W^l+1是上一层的权重矩阵，e^l+1是上一层的后向投影误差。如果第l层有ρ(x)＝max(0,x)运算，则第l层的后向投影误差其中，[·]_i表示一个向量的第i个分量。

本实施例的装置，可以用于执行图5所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于神经网络系统的图像解析方法，其特征在于，包括：

所述遮挡估计子网络根据目标事物的第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量x^o，所述遮挡标记向量x^o的各分量的取值为大于0小于1；

2.根据权利要求1所述的方法，其特征在于，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

3.根据权利要求2所述的方法，其特征在于，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

<mrow> <msub> <mi>z</mi> <mn>3</mn> </msub> <mo>=</mo> <mi>&rho;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <msup> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>&prime;</mo> </msup> </mrow> </msup> <msub> <mi>z</mi> <mn>2</mn> </msub> <mo>+</mo> <msup> <mi>u</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <mi>x</mi> <mi>c</mi> </msup> <mo>=</mo> <mi>&rho;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <msup> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>&prime;</mo> </msup> </mrow> </msup> <msub> <mi>z</mi> <mn>3</mn> </msub> <mo>+</mo> <msup> <mi>u</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

4.根据权利要求3所述的方法，其特征在于，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

<mrow> <msup> <mi>z</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mi>&rho;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <msub> <mi>t</mi> <mn>1</mn> </msub> </msup> <msup> <mi>x</mi> <mi>c</mi> </msup> <mo>+</mo> <msup> <mi>b</mi> <msub> <mi>t</mi> <mn>1</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>&tau;</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>i</mi> <msub> <mi>t</mi> <mn>2</mn> </msub> </msubsup> <msup> <mi>z</mi> <mo>&prime;</mo> </msup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>i</mi> <msub> <mi>t</mi> <mn>2</mn> </msub> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

将所述各部位的类标图像组合起来，得到所述目标事物的解析结果。

5.根据权利要求1所述的方法，其特征在于，所述遮挡估计子网络根据目标事物的第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量x^o，包括：

所述遮挡估计子网络对所述第一视觉特征向量x降采样，得到第二视觉特征向量x^d，并根据所述第一视觉特征向量确定所述目标事物被遮挡部分的遮挡标记向量x^o，其中，所述第二视觉特征向量x^d的维度小于所述第一视觉特征向量x，所述遮挡标记向量x^o与所述第二视觉特征向量x^d的维度相同；

6.一种基于神经网络系统的图像解析方法，其特征在于，包括：

获取所述神经网络系统的各子网络对应的训练样本，所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络，所述各子网络对应的训练样本分别包括I副图像，I取大于1的正整数；所述遮挡估计子网络用于估计目标事物中被遮挡的部分，所述遮挡补全子网络用于合成所述目标事物中被遮挡部分的视觉特征向量，所述分解子网络用于将补全的视觉特征向量映射为所述目标事物各部位的类标图像；

7.根据权利要求6所述的方法，其特征在于，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

8.根据权利要求7所述的方法，其特征在于，所述根据所述各图像遮挡标记向量集合和各图像的特征向量集合X＝{x_i}确定所述遮挡估计子网络的输入层与隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置包括：

令其中，

求解得到所述和其中，是遮挡估计子网络的输入层的输出，||·||_F是Frobenius范数，ρ(x)＝max(0,x)为非线性激活函数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1。

9.根据权利要求6所述的方法，其特征在于，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

10.根据权利要求9所述的方法，其特征在于，所述根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置包括：

令为所述遮挡补全子网络的输入层的输出，是特征向量集合中的一个向量，ρ(x)＝max(0,x)为非线性激活函数，最小化以下第一受限玻尔兹曼机RBM能量：

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <msup> <mover> <mi>v</mi> <mo>~</mo> </mover> <mi>c</mi> </msup> <mo>,</mo> <msup> <mi>h</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>m</mi> </munder> <mfrac> <msup> <mrow> <mo>(</mo> <msubsup> <mover> <mi>v</mi> <mo>~</mo> </mover> <mi>m</mi> <mi>c</mi> </msubsup> <mo>-</mo> <msubsup> <mi>u</mi> <mi>m</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mi>m</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mi>n</mi> </munder> <msubsup> <mi>b</mi> <mi>n</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msubsup> <msubsup> <mi>h</mi> <mi>n</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msubsup> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </munder> <mfrac> <msubsup> <mover> <mi>v</mi> <mo>~</mo> </mover> <mi>m</mi> <mi>c</mi> </msubsup> <msub> <mi>&sigma;</mi> <mi>m</mi> </msub> </mfrac> <msubsup> <mi>h</mi> <mi>n</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msubsup> <msubsup> <mi>W</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> <msub> <mi>c</mi> <mn>1</mn> </msub> </msubsup> <mo>,</mo> </mrow>

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <msup> <mi>h</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msup> <mo>,</mo> <msup> <mi>h</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>p</mi> </munder> <mfrac> <msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>p</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msubsup> <mo>-</mo> <msubsup> <mi>u</mi> <mi>p</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mi>p</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mi>p</mi> </munder> <msubsup> <mi>b</mi> <mi>q</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msubsup> <msubsup> <mi>h</mi> <mi>q</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msubsup> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> </munder> <mfrac> <msubsup> <mi>h</mi> <mi>p</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msubsup> <msub> <mi>&sigma;</mi> <mi>p</mi> </msub> </mfrac> <msubsup> <mi>h</mi> <mi>q</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msubsup> <msubsup> <mi>W</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> <msub> <mi>c</mi> <mn>2</mn> </msub> </msubsup> <mo>,</mo> </mrow>

求所述权重矩阵和的转置矩阵，得到和

11.根据权利要求10所述的方法，其特征在于，所述根据所述有遮挡的情况下视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置之后，包括：

<mrow> <msup> <mi>V</mi> <mi>c</mi> </msup> <mo>=</mo> <mi>&rho;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <msup> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>&prime;</mo> </msup> </mrow> </msup> <mi>&rho;</mi> <mo>(</mo> <mrow> <msup> <mi>W</mi> <mrow> <msup> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>&prime;</mo> </msup> </mrow> </msup> <mi>&rho;</mi> <mrow> <mo>(</mo> <mrow> <msup> <mi>W</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msup> <mi>&rho;</mi> <mrow> <mo>(</mo> <mrow> <msup> <mi>W</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msup> <msup> <mover> <mi>V</mi> <mo>~</mo> </mover> <mi>c</mi> </msup> <mo>+</mo> <msup> <mi>b</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msup> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>b</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msup> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>u</mi> <msub> <mi>c</mi> <mn>2</mn> </msub> </msup> </mrow> <mo>)</mo> <msup> <mi>u</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

12.根据权利要求6所述的方法，其特征在于，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依此连接；

提取所述分解子网络对应的训练样本中各图像的视觉特征向量集合其中，所述分解子网络对应的训练样本是无遮挡时的目标事物；

令为特征向量集合中的一个视觉特征向量在所述分解子网络的输入层的输出i表示类标图像的个数，i的取值为1≤i≤M的正整数，ρ(x)＝max(0,x)为非线性激活函数，将按照以下映射函数映射为不同的类标图像：

其中，y_i表示所述目标事物的第_i个部位的类标图像，表示所述第_i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置，表示所述第_i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵，M为所述权重矩阵的个数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

13.根据权利要求6-12任一项所述的方法，其特征在于，所述根据所述训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练，得到所述各子网络的参数之后，还包括：

构建损失函数E，最小化所述损失函数E：

其中，X＝{x_i}是遮挡估计子网络训练样本中各图像的视觉特征向量集，x_i表示第_i副图像的视觉特征向量，是人工确定的所述训练样本中各图像的类标图像集合，是人工确定的第_i幅图像的类标图像，Y＝{y_i}是所述神经网络系统的输出所述训练样本中各图像的类标图像集，y_i是所述神经网络系统输出的第幅i图像的类标图像，W和b是所述神经网络系统的权重矩阵和偏置的集合，||·||_F是Frobenius范数；

14.根据权利要求13所述的方法，其特征在于，所述采用随机梯度下降法求解所述损失函数E的最优解，确定所述神经网络系统的调整后的权重矩阵，包括：

将预训练得到所述各子网络的权重矩阵，按照以下公式进行迭代：其中，l表示所述神经网络系统的层数，l∈{1,…L}，j表示迭代次数，Δ表示梯度下降时的变化率，ε是学习率，是导数，是第l层的后向投影误差e^l与上一层是输出h^l-1之间的乘积，L表示所述神经网络系统的总层数，表示第l层的权重矩阵在第j次迭代时的值。

15.根据权利要求14所述的方法，其特征在于，所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算，表示一幅图像的实际的类标图像，y表示所述神经网络系统输出的所述图像的类标图像。

16.根据权利要求14所述的方法，其特征在于，如果第l层有S型函数运算，则第l层的后向投影误差e^l＝diag(W^l+1'e^l+1)diag(h^l)(1-h^l)，其中，diag(·)表示取对角矩阵运算，W^l+1是上一层的权重矩阵，e^l+1是上一层的后向投影误差。

17.根据权利要求14所述的方法，其特征在于，如果第l层有ρ(x)＝max(0,x)运算，则第l层的后向投影误差其中，[·]_i表示一个向量的第i个分量。

18.一种神经网络系统，其特征在于，包括：

遮挡估计子网络，用于根据获取到的目标事物的第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量x^o，所述遮挡标记向量x^o的各分量的取值为大于0小于1，所述第一视觉特征向量为有遮挡时所述目标事物的视觉特征向量；

19.根据权利要求18所述的神经网络系统，其特征在于，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

所述遮挡估计子网络具体用于：

20.根据权利要求18所述的神经网络系统，其特征在于，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

所述遮挡估计子网络具体用于：

21.根据权利要求18所述的神经网络系统，其特征在于，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层以此连接；

所述分解子网络的隐含层和输出层之间的映射函数为公式(8)：其中，为所述分解子网络的隐含层和输出层之间的偏置，y_i表示所述目标事物的第_i部分的类标图像，表示所述分解子网络的隐含层和输出层之间的第_i部分的类标图像的权重矩阵，表示所述分解子网络的隐含层和输出层之间的第i部分的类标图像的偏置，ρ(x)＝max(0,x)为非线性激活函数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

所述分解子网络具体用于：将所述第三视觉特征向量x^c作为所述分解子网络的输入层的输入参数，根据公式(7)和(8)确定所述目标事物的各部位的类标图像，将所述各部位的类标图像组合起来，得到所述目标事物的解析结果。

22.根据权利要求18所述的神经网络系统，其特征在于，所述遮挡估计子网络具体用于：

对所述第一视觉特征向量x降采样，得到第二视觉特征向量x^d，并根据所述第一视觉特征向量确定所述目标事物被遮挡部分的遮挡标记向量x^o，所述第二视觉特征向量x^d的维度小于所述第一视觉特征向量x，所述遮挡标记向量x^o与所述第二视觉特征向量x^d的维度相同；

所述遮挡补全子网络具体用于：

23.一种基于神经网络系统的图像解析装置，其特征在于，包括：

获取模块，用于获取所述神经网络系统的各子网络对应的训练样本，所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络，所述各子网络对应的训练样本分别包括I副图像，I取大于1的正整数；所述遮挡估计子网络用于估计目标事物中被遮挡的部分，所述遮挡补全子网络用于合成所述目标事物中被遮挡部分的视觉特征向量，所述分解子网络用于将补全的视觉特征向量映射为所述目标事物各部位的类标图像；

24.根据权利要求23所述的装置，其特征在于，所述遮挡估计子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依次连接；

所述训练模块具体用于：提取所述遮挡估计子网络对应的训练样本中各图像的视觉特征向量，得到所述训练样本中各图像的特征向量集合X＝{x_i}，其中，列向量x_i表示第_i副图像的视觉特征向量，1≤i≤I；

25.根据权利要求24所述的装置，其特征在于，所述训练模块具体用于：

令其中，

26.根据权利要求23所述的装置，其特征在于，所述遮挡补全子网络为五层网络，包括：输入层、3个隐含层和输出层，所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层，所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接；

27.根据权利要求26所述的装置，其特征在于，所述训练模块具体用于：

求所述权重矩阵和的转置矩阵，得到和

28.根据权利要求27所述的装置，其特征在于，所述训练模块还用于：

29.根据权利要求23所述的装置，其特征在于，所述分解子网络为三层网络，包括：输入层、隐含层和输出层，所述输入层、隐含层和输出层依此连接；

其中，y_i表示所述目标事物的第i个部位的类标图像，表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置，表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵，M为所述权重矩阵的个数，τ(x)＝1/(1+exp(-x))是S型函数，返回值大于0小于1；

30.根据权利要求23-29任一项所述的装置，其特征在于，还包括：

其中，X＝{x_i}是遮挡估计子网络训练样本中各图像的视觉特征向量集，x_i表示第i副图像的视觉特征向量，是人工确定的所述训练样本中各图像的类标图像集合，是人工确定的第i幅图像的类标图像，Y＝{y_i}是所述神经网络系统的输出所述训练样本中各图像的类标图像集，y_i是所述神经网络系统输出的第幅i图像的类标图像，W和b是所述神经网络系统的权重矩阵和偏置的集合，||·||_F是Frobenius范数；

31.根据权利要求30所述的装置，其特征在于，所述参数调整模块具体用于：

32.根据权利要求31所述的装置，其特征在于，所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算，表示一幅图像的实际的类标图像，y表示所述神经网络系统输出的所述图像的类标图像。

33.根据权利要求31所述的装置，其特征在于，如果第l层有S型函数运算，则第l层的后向投影误差e^l＝diag(W^l+1'e^l+1)diag(h^l)(1-h^l)，其中，diag(·)表示取对角矩阵运算，W^l+1是上一层的权重矩阵，e^l+1是上一层的后向投影误差。

34.根据权利要求31所述的装置，其特征在于，如果第l层有ρ(x)＝max(0,x)运算，则第l层的后向投影误差其中，[·]_i表示一个向量的第i个分量。