CN104657776B - 神经网络系统、基于神经网络系统的图像解析方法和装置 - Google Patents
神经网络系统、基于神经网络系统的图像解析方法和装置 Download PDFInfo
- Publication number
- CN104657776B CN104657776B CN201310598419.7A CN201310598419A CN104657776B CN 104657776 B CN104657776 B CN 104657776B CN 201310598419 A CN201310598419 A CN 201310598419A CN 104657776 B CN104657776 B CN 104657776B
- Authority
- CN
- China
- Prior art keywords
- network
- sub
- occlusion
- msub
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 210000005036 nerve Anatomy 0.000 title abstract 6
- 239000013598 vector Substances 0.000 claims abstract description 489
- 230000000007 visual effect Effects 0.000 claims abstract description 296
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 136
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000010191 image analysis Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 242
- 238000012549 training Methods 0.000 claims description 223
- 230000006870 function Effects 0.000 claims description 142
- 238000013528 artificial neural network Methods 0.000 claims description 139
- 238000013507 mapping Methods 0.000 claims description 74
- 239000003550 marker Substances 0.000 claims description 53
- 230000004913 activation Effects 0.000 claims description 27
- 238000009792 diffusion process Methods 0.000 claims description 14
- 238000003703 image analysis method Methods 0.000 claims description 13
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 7
- 230000017105 transposition Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000000903 blocking effect Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 20
- 230000000295 complement effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000036544 posture Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明实施例提供一种神经网络系统、基于神经网络系统的图像解析方法和装置,包括:所述神经网络系统获取目标事物的第一视觉特征向量x,所述神经网络系统的遮挡估计子网络根据目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量xo,所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量xo确定补全所述遮挡部分后所述目标事物的第三视觉特征向量xc,所述分解子网络根据所述第三视觉特征向量xo确定所述目标事物的各部位的类标图像,组合所述各部位的类标图像得到所述目标事物的解析结果。上述方法能够解决目标事物被遮挡时的图像解析问题,即使目标事物被遮挡了,也能够准确的得到目标事物的解析结果。
Description
技术领域
本发明涉及数据通讯技术,尤其涉及一种神经网络系统、基于神经网络系统的图像解析方法和装置。
背景技术
行人目标解析,就是将一幅行人图像分解成具有特定语义的区域,例如头发、躯干、手臂、腿等。行人目标进行解析后,可以方便用于行人姿势估计、行为分析等多种行人目标分析与理解任务,在图像与视频搜索、视频监控等方法都有重要的应用价值。行人目标解析问题具有很大的挑战性,不仅由于行人在表观、姿势、形状等方面具有很大的变化,而且在视频监控等真实环境下拍摄到的行人图像经常存在大的遮挡和杂乱的背景。
目前已有的行人目标解析方法一般可以分为两类:模板匹配法和贝叶斯推断法。模板匹配法是通过预先建立一个人体各部位的模板库,每个部位收集若干样本,当输入一幅输入的行人图像进行解析时,首先,利用现有的图像分割算法进行分割,得到一组超像素,作为备选的人体各部位区域,然后,将备选区域与模板库中的若干样本进行匹配,将最有可能是某部位的备选区域排在前面,最后,在一些约束条件下对最有可能的备选区域进行组合,约束条件包括上半身部位必须出现在下半身上面等,利用层次化的表观模型对以上组合进行排序,选出最佳组合,作为行人目标解析结果。模板匹配法缺点是过度依赖模板,分解的区域边界不准确,而且没有考虑目标被遮挡情况。贝叶斯推断法是利用标注好的训练图像,首先,学习形状模型,形状模型是一个MSBM,可以确定图像上每个像素的类标的概率,然后,学习表观模型,表观模型是每个人体部位在混合高斯模型下的参数统计,可以确定某个人体部位在某表观下出现的概率,最后将形状模型与表观模型组合得到联合模型,确定出图像、形状、表观、类标四者之间的联合概率。当给定测试图像,利用联合模型,通过图像、形状和表观来推断类标,贝叶斯推断法的缺点是对杂乱的背景、复杂的姿势和许多种类的衣服类型敏感,推断过程速度慢,没有考虑遮挡情况。
通过上述可知,现有的行人目标解析方法都没有考虑行人目标被遮挡的情况,如果行人目标被遮挡,利用现有的方法进行解析,会导致解析结果不准确。
发明内容
本发明提供一种神经网络系统、基于神经网络系统的图像解析方法和装置,能够解决目标事物被遮挡时的解析问题,使得解析结果更加准确。
本发明第一方面提供一种基于神经网络系统的图像解析方法,包括:
所述神经网络系统获取目标事物的第一视觉特征向量x,所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络;
所述遮挡估计子网络根据目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量xo,所述遮挡标记向量xo的各分量的取值为大于0小于1;
所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,所述第三视觉特征向量xc为补全所述遮挡部分后所述目标事物的视觉特征向量;
所述分解子网络根据所述第三视觉特征向量xc确定所述目标事物的各部位的类标图像,组合所述各部位的类标图像得到所述目标事物的解析结果。
在本发明第一方面的第一种可能的实现方式中,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述遮挡估计子网络根据所述第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量xo,包括:
所述遮挡估计子网络将所述第一视觉特征向量x作为所述遮挡估计子网络的输入层的输入参数,根据以下公式(1)和(2)计算所述遮挡标记向量xo:
其中,公式(1)为所述遮挡估计子网络的输入层与隐含层之间的映射函数,公式(2)为所述遮挡估计子网络的的隐含层与输出层之间的映射函数,为所述遮挡估计子网络的输入层与隐含层之间的权重矩阵,为所述遮挡估计子网络的输入层与隐含层之间的偏置,ρ(x)=max(0,x)为非线性激活函数,是所述遮挡估计子网络的隐含层与输出层之间的权重矩阵,是所述遮挡估计子网络的隐含层与输出层之间的偏置,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1。
在本发明第一方面的第二种可能的实现方式中,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,包括:
所述遮挡补全子网络将所述遮挡标记向量xo与所述第一视觉特征向量x逐分量相乘,得到遮挡特征向量x*xo,其中,所述遮挡标记向量xo与所述第一视觉特征向量x的维度相同;
所述遮挡补全子网络将所述遮挡特征向量x*xo作为所述遮挡补全子网络的输入层的参数,根据以下公式(3)、(4)、(5)、(6)计算所述第三视觉特征向量xc:
其中,公式(3)为所述遮挡补全子网络的输入层与第一隐含层之间映射函数,公式(4)为所述遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数,公式(5)为所述遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数,公式(6)为所述遮挡补全子网络的第三隐含层与输出层之间的映射函数,为所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵,为所述遮挡补全子网络的输入层与第一隐含层之间的偏置,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的偏置,为所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵,为所述遮挡补全子网络的第二隐含层与第三隐含层之间的偏置,为所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵,为所述遮挡补全子网络的第三隐含层与输出层之间的偏置,是的转置矩阵,是的转置矩阵,ρ(x)=max(0,x)为非线性激活函数。
在本发明第一方面的第三种可能的实现方式中,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述分解子网络根据所述第三视觉特征向量xc确定所述目标事物的各部位的类标图像,组合所述各部位的类标图像得到所述目标事物的解析结果,包括:
所述分解子网络将所述第三视觉特征向量xc作为所述分解子网络的输入层的输入参数,根据以下公式(7)和(8)确定所述目标事物的各部位的类标图像:
其中,公式(7)为所述分解子网络的输入层和隐含层之间的映射函数,公式(8)为所述分解子网络的隐含层和输出层之间的映射函数,为所述分解子网络的输入层和隐含层之间的权重矩阵,为所述分解子网络的输入层和隐含层之间的偏置,yi表示所述目标事物的第i部分的类标图像,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
将所述各类标图像组合起来,得到所述目标事物的解析结果。
在本发明第一方面的第四种可能的实现方式中,所述遮挡估计子网络根据目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量xo,包括:
所述遮挡估计子网络对所述第一视觉特征x向量降采样,得到第二视觉特征向量xd,并根据所述第一视觉特征向量确定所述所述目标事物被遮挡部分的遮挡标记向量xo,其中,所述第二视觉特征向量xd的维度小于所述第一视觉特征x,所述遮挡标记向量xo与述第二视觉特征向量xd的维度相同。
所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,包括:
所述遮挡补全子网络根据所述第二视觉特征向量xd与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc。
本发明第二方面提供一种基于神经网络系统的图像解析方法,包括:
获取所述神经网络系统的各子网络对应的训练样本,所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络,所述各子网络对应的训练样本分别包括I副图像,I取大于1的正整数;
根据所述各子网络对应的训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到所述各子网络的参数,所述各子网络的参数包括所述各子网络中相互连接的两层之间的权重矩阵和偏置。
在本发明第二方面的第一种可能的实现方式中,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述根据各子网络对应的训练样本对所述遮挡估计子网络进行预训练,包括:
提取所述遮挡估计子网络对应的训练样本中各图像的视觉特征向量,得到所述训练样本中各图像的特征向量集合X={xi},其中,列向量xi表示第i副图像的视觉特征向量,1≤i≤I;
分别确定所述各图像的遮挡部分,获取所述遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量;
根据所述各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定所述遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置
在本发明第二方面的第二种可能的实现方式中,所述根据所述各图像遮挡标记向量集和各图像的特征向量集X={xi}确定所述遮挡估计子网络的输入层与隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和平偏置包括:
令其中,xi表示第i副图像的视觉特征向量,[x]'表示转置运算;
令其中,
求解得到所述和其中,是遮挡估计子网络的输入层的输出,||.||F是Frobenius范数。
在本发明第二方面的第三种可能的实现方式中,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述根据所述各子网络对应的训练样本对所述遮挡补全子网络进行预训练,包括:
提取所述遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中,所述遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物;
提取所述遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合
根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中,是的转置矩阵,是的转置矩阵。
在本发明第二方面的第四种可能的实现方式中,所述根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置包括:
令为所述遮挡补全子网络的输入层的输出,是特征向量集合中的一个向量,最小化以下第一受限玻尔兹曼机RBM能量:
其中,σm是将所述遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量σ的第m个分量,是特征向量的第m个分量,为的第n个分量,表示连接和的权重,为的第n个分量,表示的第m个分量;
采用对比度扩散法对所述第一RBM能量最小化,得到所述权重矩阵偏置和
将所述遮挡补全子网络的输入层的输出作为所述第一隐含层的输入,令所述第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量:
其中,σp是的第p个分量,为的第p个分量,为的第q个分量,表示连接和的权重,为的第q个分量,表示的第p个分量;
采用对比度扩散法对所述第二RBM能量最小化,得到所述权重矩阵偏置和
求所述权重矩阵和的转置矩阵,得到和
在本发明第二方面的第五种可能的实现方式中,所述根据所述有遮挡的情况下视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置之后,包括:
根据以下公式重新构建所述训练样本中各图像无遮挡的情况下视觉特征向量集合Vc:
采用梯度下降法最小化所述Vc和之间的误差,得到调整后的 和
在本发明第二方面的第六种可能的实现方式中,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依此连接;
所述根据各子网络对应的所述训练样本对所述分解子网络进行预训练,包括:
提取所述分解子网络对应的训练样本中各图像的视觉特征向量集合其中,所述分解子网络对应的的训练样本是无遮挡时的目标事物;
提取所述分解子网络对应的训练样本中各图像的各部位类标图像集合
令为特征向量集合中的一个视觉特征向量在所述分解子网络的输入层的输出i表示类标图像的个数,i的取值为1≤i≤M的正整数,,将按照以下映射函数映射为不同的类标图像:
其中,yi表示所述目标事物的第i个部位的类标图像,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵;
令Yc为中所有视觉特征向量在所述分解子网络上映射成的类标图像的集合,最小化所述Yc和之间的误差,得到
结合本发明第二方面以及第二方面的第一种至第六种可能的实现方式,在本发明第二方面的第七种可能的实现方式中,所述根据所述训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到所述各子网络的参数之后,还包括:
构建损失函数E,最小化所述损失函数E:
其中,X={xi}是遮挡估计子网络训练样本中各图像的视觉特征向量集,xi表示第i副图像的视觉特征向量,是人工确定的所述训练样本中各图像的类标图像集合,是人工确定的第i幅图像的类标图像,Y={yi}是所述神经网络系统的输出所述训练样本中各图像的类标图像集,yi是所述神经网络系统输出的第幅i图像的类标图像,W和b是所述神经网络系统的权重矩阵和偏置的集合;
采用随机梯度下降法求解所述损失函数E的最优解,确定所述神经网络系统的调整后的权重矩阵和偏置。
在本发明第二方面的第八种可能的实现方式中,所述采用随机梯度下降法求解所述损失函数E的最优解,确定所述神经网络系统的调整后的权重矩阵,包括:
将预训练得到所述各子网络的权重矩阵,按照以下公式进行迭代:其中,l表示所述神经网络系统的层数,l∈{1,…L},j表示迭代次数,Δ表示梯度下降时的变化率,ε是学习率,是导数,是第l层的后向投影误差el与上一层是输出hl-1之间的乘积。
在本发明第二方面的第九种可能的实现方式中,所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算,表示一幅图像的实际的类标图像,y表示所述神经网络系统输出的所述图像的类标图像。
在本发明第二方面的第十种可能的实现方式中,如果第l层有S型函数运算,则第l层的后向投影误差el=diag(Wl+1'el+1)diag(hl)(1-hl),其中,diag(·)表示取对角矩阵运算,Wl+1是上一层的权重矩阵,el+1是上一层的后向投影误差。
在本发明第二方面的第十一种可能的实现方式中,如果第l层有ρ(x)=max(0,x)运算,则第l层的后向投影误差其中,[·]i表示一个向量的第i个分量。
本发明第三方面提供一种神经网络系统,包括:
遮挡估计子网络,用于根据获取到的目标事物的第一视觉特征x向量确定所述目标事物被遮挡部分的遮挡标记向量xo,所述遮挡标记向量xo的各分量的取值为大于0小于1,所述第一视觉特征向量为有遮挡时所述目标事物的视觉特征向量;
遮挡补全子网络,用于根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,所述第三视觉特征向量xc为无遮挡时所述目标事物的视觉特征向量;
分解子网络,用于根据所述第三视觉特征向量xc确定所述目标事物的各部位的类标图像,组合所述各部位的类标图像得到所述目标事物的解析结果。
在本发明第三方面的第一种可能的实现方式中,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述遮挡估计子网络的输入层和隐含层之间的映射函数为公式(1):其中为所述遮挡估计子网络的输入层和隐含层之间的权重矩阵,为所述遮挡估计子网络的输入层与隐含层之间的偏置,ρ(x)=max(0,x)为非线性激活函数;
所述遮挡估计子网络的隐含层和输出层之间的映射函数为公式(2): 是所述遮挡估计子网络的隐含层与输出层之间的权重矩阵,是所述遮挡估计子网络的隐含层与输出层之间的偏置,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
所述遮挡估计子网络具体用于:
将所述第一视觉特征向量x作为所述遮挡估计子网络的输入层的输入参数,根据公式(1)和(2)计算所述遮挡标记向量xo。
在本发明第三方面的第二种可能的实现方式中,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述遮挡补全子网络的输入层与第一隐含层之间映射函数为公式(3):其中,为所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵,为所述遮挡补全子网络的输入层与第一隐含层之间的偏置;
所述遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数为公式(4):其中,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的偏置;
所述遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数为公式(5): 为所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵,为所述遮挡补全子网络的第二隐含层与第三隐含层之间的偏置;
所述遮挡补全子网络的第三隐含层与输出层之间的映射函数为公式(6): 为所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵,为所述遮挡补全子网络的第三隐含层与输出层之间的偏置,是的转置矩阵,是的转置矩阵,ρ(x)=max(0,x)为非线性激活函数;
所述遮挡估计子网络具体用于:
将所述相乘结果为x*xo作为所述遮挡补全子网络的输入层的参数,根据公式(3)、(4)、(5)、(6)计算所述第三视觉特征向量xc。
在本发明第三方面的第三种可能的实现方式中,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层以此连接;
所述分解子网络的输入层和所述隐含层之间的映射函数为公式(7): 为所述分解子网络的输入层和隐含层之间的权重矩阵,为所述分解子网络的隐含层和输出层之间的偏置;
所述分解子网络的隐含层和输出层之间的映射函数为公式(8):其中,为所述分解子网络的隐含层和输出层之间的偏置,yi表示所述目标事物的第i部分的类标图像,表示所述分解子网络的隐含层和输出层之间的第i部分的类标图像的权重矩阵,表示所述分解子网络的隐含层和输出层之间的第i部分的类标图像的偏置,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
所述分解子网络具体用于:将所述第三视觉特征向量xc作为所述分解子网络的输入层的输入参数,根据公式(7)和(8)确定所述目标事物的各部位的类标图像,将所述各类标图像组合起来,得带所述目标事物的解析结果。
在本发明第三方面的第四种可能的实现方式中,所述遮挡估计子网络具体用于:
对所述第一视觉特征x向量降采样,得到第二视觉特征向量xd,并根据所述第一视觉特征向量确定所述所述目标事物被遮挡部分的遮挡标记向量xo,所述第二视觉特征向量xd的维度小于所述第一视觉特征x,所述遮挡标记向量xo与述第二视觉特征向量xd的维度相同;
所述遮挡补全子网络具体用于:
根据所述第二视觉特征向量xd与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc。
本发明第四方面提供一种基于神经网络系统的图像解析装置,包括:
获取模块,用于获取所述神经网络系统的各子网络对应的训练样本,所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络,所述各子网络对应的训练样本分别包括I副图像,I取大于1的正整数;
训练模块,用于根据所述各子网络对应的训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到所述各子网络的参数,所述各子网络的参数包括所述各子网络中相互连接的两层之间的权重矩阵和偏置。
在本发明第四方面的第一种可能的实现方式中,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述训练模块具体用于:提取所述遮挡估计子网络对应的训练样本中各图像的视觉特征向量,得到所述训练样本中各图像的特征向量集合X={xi},其中,列向量xi表示第i副图像的视觉特征向量,1≤i≤I;
分别确定所述各图像的遮挡部分,获取所述遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量;
根据所述各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定所述遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置
在本发明第四方面的第二种可能的实现方式中,所述训练模块具体用于:
令其中,xi表示第i副图像的视觉特征向量,[x]'表示转置运算;
令其中,
求解得到所述和其中,是遮挡估计子网络的输入层的输出,||.||F是Frobenius范数。
在本发明第四方面的第三种可能的实现方式中,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述训练模块具体用于:提取所述遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中,所述遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物;
提取所述遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合
根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中,是的转置矩阵,是的转置矩阵。
在本发明第四方面的第四种可能的实现方式中,所述训练模块具体用于:
令为所述遮挡补全子网络的输入层的输出,是特征向量集合中的一个向量,最小化以下第一受限玻尔兹曼机RBM能量:
其中,σm是将所述遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量的第m个分量,是特征向量的第m个分量,为的第n个分量,表示连接和的权重,为的第n个分量,表示的第m个分量;
采用对比度扩散法对所述第一RBM能量最小化,得到所述权重矩阵偏置和
将所述遮挡补全子网络的输入层的输出作为所述第一隐含层的输入,令所述第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量:
其中,σp是的第p个分量,为的第p个分量,为的第q个分量,表示连接和的权重,为的第q个分量,表示的第p个分量;
采用对比度扩散法对所述第二RBM能量最小化,得到所述权重矩阵偏置和
求所述权重矩阵和的转置矩阵,得到和
在本发明第四方面的第五种可能的实现方式中,所述训练模块还用于:
根据以下公式重新构建所述训练样本中各图像无遮挡的情况下视觉特征向量集合Vc:
采用梯度下降法最小化所述Vc和之间的误差,得到调整后的 和
在本发明第四方面的第六种可能的实现方式中,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依此连接;
所述训练模块具体用于:提取所述分解子网络对应的训练样本中各图像的视觉特征向量集合其中,所述分解子网络对应的的训练样本是无遮挡时的目标事物;
提取所述分解子网络对应的训练样本中各图像的各部位类标图像集合
令为特征向量集合中的一个视觉特征向量在所述分解子网络的输入层的输出i表示类标图像的个数,i的取值为1≤i≤M的正整数,,将按照以下映射函数映射为不同的类标图像:
其中,yi表示所述目标事物的第i个部位的类标图像,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵;
令Yc为中所有视觉特征向量在所述分解子网络上映射成的类标图像的集合,最小化所述Yc和之间的误差,得到
结合本发明第四方面以及第四方面的第一种至第六种可能的实现方式,在本发明第四方面的第七种可能的实现方式中,还包括:
参数调整模块,用于构建损失函数E,最小化所述损失函数E:
其中,X={xi}是遮挡估计子网络训练样本中各图像的视觉特征向量集,xi表示第i副图像的视觉特征向量,是人工确定的所述训练样本中各图像的类标图像集合,是人工确定的第i幅图像的类标图像,Y={yi}是所述神经网络系统的输出所述训练样本中各图像的类标图像集,yi是所述神经网络系统输出的第幅i图像的类标图像,W和b是所述神经网络系统的权重矩阵和偏置的集合;
采用随机梯度下降法求解所述损失函数E的最优解,确定所述神经网络系统的调整后的权重矩阵和偏置。
在本发明第四方面的第八种可能的实现方式中,所述参数调整模块具体用于:
将预训练得到所述各子网络的权重矩阵,按照以下公式进行迭代:其中,l表示所述神经网络系统的层数,l∈{1,…L},j表示迭代次数,Δ表示梯度下降时的变化率,ε是学习率,是导数,是第l层的后向投影误差el与上一层是输出hl-1之间的乘积。
在本发明第四方面的第九种可能的实现方式中,所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算,表示一幅图像的实际的类标图像,y表示所述神经网络系统输出的所述图像的类标图像。
在本发明第四方面的第十种可能的实现方式中,如果第l层有S型函数运算,则第l层的后向投影误差el=diag(Wl+1'el+1)diag(hl)(1-hl),其中,diag(·)表示取对角矩阵运算,Wl+1是上一层的权重矩阵,el+1是上一层的后向投影误差。
在本发明第四方面的第十一种可能的实现方式中,如果第l层有ρ(x)=max(0,x)运算,则第l层的后向投影误差其中,[·]i表示一个向量的第i个分量。
本发明实施例提供的神经网络系统、基于神经网络系统的图像解析方法和装置,通过神经网络系统获取目标事物的第一视觉特征向量x,然后,根据目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量xo,根据第一视觉特征向量x与遮挡标记向量xo确定目标事物的第三视觉特征向量xc,第三视觉特征向量xc为补全遮挡部分后目标事物的视觉特征向量,最后,根据第三视觉特征向量xc确定目标事物的各部位的类标图像,组合各部位的类标图像得到目标事物的解析结果,可以解决目标事物有遮挡时的图像解析问题,能够准确的估计出有遮挡部分的目标事物。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于神经网络系统的图像解析方法一个实施例的流程图;
图2为无遮挡目标行人的解析结果示意图;
图3为有遮挡目标行人的解析结果示意图;
图4为处理有遮挡的目标行人解析过程示意图;
图5为本发明神经网络系统的训练方法一个实施例的流程图;
图6为预训练遮挡补全子网络时目标行人遮挡设置示意图;
图7为本发明神经网络系统一个实施例例的结构示意图;
图8为本发明基于神经网络系统的图像解析装置一实施例的结构示意图;
图9为本发明基于神经网络系统的图像解析装置又一实施例的结构示意图;
图10为本发明神经网络系统又一实施例的结构示意图;
图11为本发明基于神经网络系统的图像解析装置还一实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明基于神经网络系统的图像解析方法一个实施例的流程图,如图1所示,本实施例的方法可以包括:
步骤101、神经网络系统获取目标事物的第一视觉特征向量x。
本实施例中,神经网络系统主要包括遮挡估计子网络、遮挡补全子网络、分解子网络,遮挡估计子网络主要用于估计目标事物有哪些部分被遮挡,遮挡补全子网络主要用于合成被遮挡部分的视觉特征向量,分解子网络主要用于将补全的视觉特征向量映射为该目标事物各部分的类标图像。需要说明的是,本发明各实施例中,在对一幅目标图像进行解析时,是对目标图像中的一个目标事物进行解析,举例来说,一幅图像中包括行人和一些背景,目标事物就是指这幅图像中的行人,目标事物还可以是一幅图像中的猫、狗、飞机、轿车等等。
神经网络系统可通过方向梯度值方图HOG、SIFT、Gabor、LBP提取目标图像中的目标事物的第一视觉特征向量,当然还可以通过其他现有的方法提取目标事物的第一视觉特征向量,本发明并不对此进行限制。
步骤102、遮挡估计子网络根据目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量xo,遮挡标记向量xo的各分量的取值为大于0小于1。
遮挡估计子网络主要用于估计目标事物有哪些部分被遮挡,遮挡估计子网络作为一个神经网络系统,可以包括一个输入层、多个隐含层和一个输出层,隐含层的个数并不做限制。在一种可行的实现方式中,遮挡估计子网络为三层网络,包括:一个输入层、一个隐含层和一个输出层,输入层、隐含层和输出层依次连接,即输入层与隐含层连接,隐含层与输出层连接。每层包括多个单元,相邻层的单元之间是互相连接的,并赋予这些连接以权重,权重是通过对神经网络系统进行预训练得到的。
遮挡估计子网络根据第一视觉特征向量x确定目标事物被遮挡部分的遮挡标记向量xo,具体为:首先,遮挡估计子网络将第一视觉特征向量x作为遮挡估计子网络的输入层的输入参数,然后,根据以下公式(1)和(2)计算遮挡标记向量xo:
其中,公式(1)为遮挡估计子网络的输入层与隐含层之间的映射函数,公式(2)为遮挡估计子网络的的隐含层与输出层之间的映射函数,为遮挡估计子网络的输入层与隐含层之间的权重矩阵,为遮挡估计子网络的输入层与隐含层之间的偏置,ρ(x)=max(0,x)为非线性激活函数,是遮挡估计子网络的隐含层与输出层之间的权重矩阵,是遮挡估计子网络的隐含层与输出层之间的偏置,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1。
遮挡标记向量xo是针对第一视觉特征向量x来说的,简单说就是第一视觉特征向量x中的哪些分量被遮挡了,遮挡标记向量xo的每个分量取值在0和1之间,越接近0说明此分量越可能被遮挡,越接近1说明此分量越可能无遮挡。
需要说明的是,本实施例中,输入图像的目标事物可以是有遮挡,也可以是无遮挡的,当目标事物无遮挡时,估计出的遮挡标记向量xo的分量更接近于1。
步骤103、遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量xo确定目标事物的第三视觉特征向量xc,第三视觉特征向量xc为补全遮挡部分后目标事物的视觉特征向量。
遮挡补全子网络主要用于合成被遮挡部分的视觉特征向量,遮挡补全子网络作为一个神经网络系统,可以包括一个输入层、多个隐含层和一个输出层,隐含层的个数并不做限制。在一种可行的实现方式中,遮挡估计子网络为五层网络,包括:一个输入层、三个隐含层和一个输出层,三个隐含层分别为第一隐含层、第二隐含层、第三隐含层,输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接。每层包括多个单元,相邻层的单元之间是互相连接的,并赋予这些连接以权重,权重是通过对神经网络系统进行预训练得到的。
遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量xo确定目标事物的第三视觉特征向量xc,具体为:首先,遮挡补全子网络将遮挡标记向量xo与第一视觉特征向量x逐分量相乘,得到遮挡特征向量x*xo,其中,遮挡标记向量xo与第一视觉特征向量x的维度相同;然后,遮挡补全子网络将遮挡特征向量x*xo作为遮挡补全子网络的输入层的参数,根据以下公式(3)、(4)、(5)、(6)计算第三视觉特征向量xc:
其中,公式(3)为遮挡补全子网络的输入层与第一隐含层之间映射函数,公式(4)为遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数,公式(5)为遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数,公式(6)为遮挡补全子网络的第三隐含层与输出层之间的映射函数,为遮挡补全子网络的输入层与第一隐含层之间的权重矩阵,为遮挡补全子网络的输入层与第一隐含层之间的偏置,为遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵,为遮挡补全子网络的第一隐含层与第二隐含层之间的偏置,为遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵,为遮挡补全子网络的第二隐含层与第三隐含层之间的偏置,为遮挡补全子网络的第三隐含层与输出层之间的权重矩阵,为遮挡补全子网络的第三隐含层与输出层之间的偏置,是的转置矩阵,是的转置矩阵,ρ(x)=max(0,x)为非线性激活函数。
本步骤中,通过将第一视觉特征向量与遮挡标记向量xo逐分量相乘后,得到遮挡特征向量x*xo,然后经过遮挡补全子网络,合成被遮挡部分的视觉特征,得到补全遮挡部分后第三视觉特征向量。
步骤104、分解子网络根据第三视觉特征向量xc确定目标事物的各部位的类标图像,组合各部位的类标图像得到目标事物的解析结果。
分解子网络主要用于将补全的视觉特征向量映射为该目标事物各部分的类标图像,分解子网络作为一个神经网络系统,可以包括一个输入层、多个隐含层和一个输出层,隐含层的个数并不做限制。在一种可行的实现方式中,分解子网络为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层依次连接。每层包括多个单元,相邻层的单元之间是互相连接的,并赋予这些连接以权重,权重是通过对神经网络系统进行预训练得到的。
分解子网络根据第三视觉特征向量xc确定目标事物的各部位的类标图像,组合各部位的类标图像得到目标事物的解析结果,具体为:首先,分解子网络将第三视觉特征向量xc作为分解子网络的输入层的输入参数,根据以下公式(7)和(8)确定目标事物的各部位的类标图像:
其中,公式(7)为分解子网络的输入层和隐含层之间的映射函数,公式(8)为分解子网络的隐含层和输出层之间的映射函数,为分解子网络的输入层和隐含层之间的权重矩阵,为分解子网络的输入层和隐含层之间的偏置。将目标事物分解为M个不同的部位,每个部分对应一个类标图像,yi表示目标事物的第i部分的类标图像,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的权重矩阵,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的偏置,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1。
本步骤中,将步骤103中得到补全遮挡部分后第三视觉特征向量进行分解,得到目标事物各部分的类标图像,然后将各类标图像组合起来,接得到了目标事物的解析结果。
需要说明的是,本实施例提供的方法,不仅适用于没有遮挡的目标事物的解析,也适用于没有遮挡的目标事物的解析,能够获得准确的标解目标事物的解析结果,并且对遮挡、杂乱背景、复杂的姿势变化和衣服类型等具有鲁棒性。图2为无遮挡目标行人的解析结果示意图,图3为有遮挡目标行人的解析结果示意图,图2中第一行的图像表示现实环境中实际拍摄到的图像,第二行表示本实施例解析出的目标行人的结果,第三行表示手工标定的真实类标图像;图3中第一行的图像表示现实环境中实际拍摄到的图像,这些图像中的目标行人都被部分遮挡了,第二行表示本实施例解析出的目标行人的结果,第三行表示手工标定的真实类标图像。
本实施例提供的方法,通过神经网络系统获取目标事物的第一视觉特征向量x,然后,根据目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量xo,根据第一视觉特征向量x与遮挡标记向量xo确定目标事物的第三视觉特征向量xc,第三视觉特征向量xc为补全遮挡部分后目标事物的视觉特征向量,最后,根据第三视觉特征向量xc确定目标事物的各部位的类标图像,组合各部位的类标图像得到目标事物的解析结果,可以解决目标事物有遮挡时的图像解析问题,能够准确的估计出有遮挡部分的目标事物。
需要说明的是,在本实施的一种实现方式中,神经网络系统在获取到第一视觉特征向量x后,还可以对第一视觉特征向量x降采样。降采样的主要目的是减少数据量,从而达到提高神经网络系统处理速度的目的。具体地,遮挡估计子网络对第一视觉特征x向量降采样,得到第二视觉特征向量xd,并根据第一视觉特征向量确定目标事物被遮挡部分的遮挡标记向量xo,其中,第二视觉特征向量xd的维度小于第一视觉特征x,遮挡标记向量xo与述第二视觉特征向量xd的维度相同。
相应地,遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量xo确定目标事物的第三视觉特征向量xc,具体为:遮挡补全子网络根据第二视觉特征向量xd与遮挡标记向量xo确定目标事物的第三视觉特征向量xc。具体实现方式可参照实施例一的中描述,这里不再赘述。如图4所示,图4为处理有遮挡的目标行人解析过程示意图,首先对输入的图像提取目标行人第一视觉特征向量x,然后对第一视觉特征向量x进行降采样得到第二视觉特征向量xd,同时根据第一视觉特征向量x确定目标行人的被遮挡部分的遮挡标记向量xo,遮挡补全子网络将遮挡标记向量xo与第一视觉特征向量x逐分量相乘,得到遮挡特征向量x*xo,遮挡补全子网络将遮挡特征向量x*xo作为遮挡补全子网络的输入层的参数,得到特征向量xc,分解子网络根据第三视觉特征向量xc确定目标事物的各部位的类标图像yi,如图中所示,y1为根据第三视觉特征向量xc确定目标行人的头发类标图像,y2表示该目标行人的上身类标图像,y3表示该目标行人的下身类标图像,当确定出目标行人的所有类标图像后,将各部位的类标图像按照一定的方式组合得到该目标行人的解析结果。
在执行实施例一所示的基于神经网络系统的图像解析方法之前,还需要对该神经网络系统进行预训练,得到神经网络系统的一些参数,图5为本发明神经网络系统的训练方法一个实施例的流程图,如图5所示,本实施例的方法可以包括:
步骤201、获取神经网络系统的各子网络对应的训练样本。
在对神经网络系统进行预训练之前,首先要获取神经网络系统神经网络系统的各子网络对应的训练样本,本实施例中,神经网络系统主要包括三个子网络,分别为遮挡估计子网络、遮挡补全子网络、分解子网络,每个字网络对应一个训练样本,在训练时分别根据各子网络对应的训练样本对各子网络进行训练,各子网络的训练样本不同,各子网络对应的训练样本分别包括I副图像,I取大于1的正整数。
步骤202、根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到各子网络的参数,各子网络的参数包括各子网络中相互连接的两层之间的权重矩阵和偏置。
在获取各子网络的对应的训练样本后,根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到各子网络的参数。以下将具体介绍各个子网络的训练过程:
首先,对遮挡估计子网络进行预训练,以遮挡估计子网络为三层网络为例进行说明,遮挡估计子网络包括:输入层、隐含层和输出层,输入层、隐含层和输出层依次连接。应该明确的是遮挡估计子网络的层数还可以更多,本发明并不对此限制,不论遮挡估计子网络有几层,都可以按照本实施例提供的方法进行训练,本实施例中只是以遮挡估计子网络为三层为例进行说明,根据各子网络对应的训练样本对遮挡估计子网络进行预训练,具体包括:
第一步:提取遮挡估计子网络对应的训练样本中各图像的视觉特征向量,得到训练样本中各图像的特征向量集合X={xi},其中,列向量xi表示第i副图像的视觉特征向量,1≤i≤I。
遮挡估计子网络对应的训练样本中包括I副图像,这I副图像主要包括两种类型的图像,第一种类型为目标事物被遮挡的图像,第二种类型为目标事物没有被遮挡的图像。分别提取训练样本中各图像的视觉特征向量,得到训练样本中各图像的特征向量集合X={xi},特征向量集合X={xi}中的每一列表示一幅图像的视觉特征向量。
第二步、分别确定各图像的遮挡部分,获取遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量。
在进行预训练时,可通过人工的方式确定各图像的遮挡部分,获取遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量,如果哪一幅图像没有被遮挡,则该图像的遮挡标记向量各分量为1。
第三步、根据各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置
首先,令其中,xi表示第i副图像的视觉特征向量,[x]'表示转置运算;
令其中,
求解得到和其中,是遮挡估计子网络的输入层的输出,||.||F是Frobenius范数。
其中,求解的最优化问题可采用以下两种方式:方式一:可基于最小平方字典学习(least squares dictionary learning)方式求解,可迭代求解以下两个公式:
和
即首先用线性变换将线性逼近一旦求解出来,再用另一个线性变换将逼近上述两个问题可基于以下两个闭型公式求解:
方式二:如果训练样本数目过多,以上矩阵求逆运算时复杂度太高,可以采用在线字典学习算法求解。
然后,介绍对遮挡补全子网络的预训练,以遮挡补全子网络为五层网络为例,遮挡补全子网络包括:输入层、三个隐含层和输出层,三个隐含层分别为第一隐含层、第二隐含层、第三隐含层,输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接。应该明确的是遮挡补全子网络的层数还可以更多,本发明并不对此限制,不论遮挡补全子网络有几层,都可以按照本实施例提供的方法进行训练,本实施例中只是以遮挡补全子网络为五层为例进行说明,根据各子网络对应的训练样本对遮挡补全子网络进行预训练,可以包括以下步骤:
第一步、提取遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合
其中,遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物,可采用真实环境中拍摄到的无遮挡的图像。
第二步、提取遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合
遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物,在提取遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合可通过人工方式对真实环境中拍摄到的无遮挡的图像人为模拟出遮挡部分,图6为预训练遮挡补全子网络时目标行人遮挡设置示意图,如图6所示,目标事物为目标行人,分别人为设置各图像的正当部分,图中黑色部分表示图像设置的遮挡部分,图中共人为遮挡了目标行人的40各部分,模拟出对目标行人的40种遮挡模式。
第三步、根据遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中,是的转置矩阵,是的转置矩阵。
具体地,令为遮挡补全子网络的输入层的输出,是特征向量集合中的一个向量,最小化以下第一受限玻尔兹曼机RBM能量:
其中,σm是将遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量的第m个分量,是特征向量的第m个分量,为的第n个分量,表示连接和的权重,为的第n个分量,表示的第m个分量;
采用对比度扩散法对第一RBM能量最小化,得到权重矩阵偏置和
将遮挡补全子网络的输入层的输出作为第一隐含层的输入,令第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量:
其中,σp是的第p个分量,为的第p个分量,为的第q个分量,表示连接和的权重,为的第q个分量,表示的第p个分量;
采用对比度扩散法对第二RBM能量最小化,得到权重矩阵偏置和
求权重矩阵和的转置矩阵,得到和
一种方式中,为了得到更准确的参数,在得到权重矩阵和偏置和之后,还包括:
根据以下公式重新构建训练样本中各图像无遮挡的情况下视觉特征向量集合Vc:
采用梯度下降法最小化Vc和之间的误差,得到调整后的 和将调整后的和作为遮挡补全子网络的最终参数。
最后,介绍分解子网络的预训练过程,以分解子网络为三层网络为例进行说明,分解子网络包括:输入层、隐含层和输出层,输入层、隐含层和输出层依此连接。应该明确的是分解子网络的层数还可以更多,本发明并不对此限制,不论分解子网络有几层,都可以按照本实施例提供的方法进行训练,本实施例中只是以分解子网络为三层为例进行说明,根据各子网络对应的训练样本对分解子网络进行预训练,包括以下步骤:
第一步、提取分解子网络对应的训练样本中各图像的视觉特征向量集合其中,分解子网络对应的的训练样本是无遮挡时的目标事物。
第二步、提取分解子网络对应的训练样本中各图像的各部位类标图像集合
令为特征向量集合中的一个视觉特征向量在分解子网络的输入层的输出分解子网络的隐含层对应M个权重矩阵i表示类标图像的个数,i的取值为1≤i≤M的正整数,将按照以下映射函数映射为不同的类标图像:
其中,yi表示目标事物的第i个部位的类标图像,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的偏置,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的权重矩阵,可通过人工方式标定每副图像的各部位的类标图像yi;
令Yc为中所有视觉特征向量在分解子网络上映射成的类标图像的集合,最小化Yc和之间的误差,得到
需要说明的是,对遮挡估计子网络、遮挡补全子网络、分解子网络的预训练是独立进行的,训练时也没有先后的顺序。
为例提高整个神经网络系统的性能,在得到各个子网络的参数后,将各子网络的参数作为一个整体进一步作调整。参数调整包括以下几个步骤:
第一步、构建损失函数E,并最小化以下损失函数E:
其中,X={xi}是遮挡估计子网络训练样本中各图像的视觉特征向量集,xi表示第i副图像的视觉特征向量,是人工确定的训练样本中各图像的类标图像集合,是人工确定的第i幅图像的类标图像,Y={yi}是神经网络系统的输出训练样本中各图像的类标图像集,yi是神经网络系统输出的第i幅图像的类标图像,W和b是神经网络系统的权重矩阵和偏置的集合;
第二步、采用随机梯度下降法求解损失函数E的最优解,确定神经网络系统的调整后的权重矩阵和偏置。
采用随机梯度下降法求解损失函数E的最优解,确定神经网络系统的调整后的权重矩阵,具体为:
将预训练得到各子网络的权重矩阵,按照以下公式进行迭代:其中,l表示神经网络系统的层数,l∈{1,…L},j表示迭代次数,Δ表示梯度下降时的变化率,ε是学习率,是导数,是第l层的后向投影误差el与上一层是输出hl-1之间的乘积。
后向投影误差el有三种不同的计算方式,神经网络系统的最后一层的后向投影误差为其中diag(·)表示取对角矩阵运算,表示一幅图像的实际的类标图像,y表示神经网络系统输出的图像的类标图像。如果第l层有S型函数运算,则第l层的后向投影误差el=diag(Wl+1'el+1)diag(hl)(1-hl),其中,diag(·)表示取对角矩阵运算,Wl+1是上一层的权重矩阵,el+1是上一层的后向投影误差。如果第l层有ρ(x)=max(0,x)运算,则第l层的后向投影误差其中,[·]i表示一个向量的第i个分量。
图7为本发明神经网络系统一个实施例例的结构示意图,如图7所示,本实施例的神经网络系统可以包括:遮挡估计子网络31、遮挡补全子网络32、分解子网络33。
其中,遮挡估计子网络31,用于根据获取到的目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量xo,遮挡标记向量xo的各分量的取值为大于0小于1,第一视觉特征向量为有遮挡时目标事物的视觉特征向量;
遮挡补全子网络32,用于根据第一视觉特征向量x与遮挡标记向量xo确定目标事物的第三视觉特征向量xc,第三视觉特征向量xc为无遮挡时目标事物的视觉特征向量;
分解子网络33,用于根据第三视觉特征向量xc确定目标事物的各部位的类标图像,组合各部位的类标图像得到目标事物的解析结果。
可选地,遮挡估计子31网络为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层依次连接;
遮挡估计子网络31的输入层和隐含层之间的映射函数为公式(1):其中为遮挡估计子网络31的输入层和隐含层之间的权重矩阵,为遮挡估计子网络31的输入层与隐含层之间的偏置,ρ(x)=max(0,x)为非线性激活函数;
遮挡估计子网络31的隐含层和输出层之间的映射函数为公式(2): 是遮挡估计子网络31的隐含层与输出层之间的权重矩阵,是遮挡估计子网络31的隐含层与输出层之间的偏置,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
遮挡估计子网络31具体用于:
将第一视觉特征向量x作为遮挡补全子网络31的输入层的输入参数,根据公式(1)和(2)计算遮挡标记向量xo。
可选地,遮挡补全子网络31为五层网络,包括:输入层、3个隐含层和输出层,3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
遮挡补全子网络32的输入层与第一隐含层之间映射函数为公式(3):其中,为遮挡补全子网络32的输入层与第一隐含层之间的权重矩阵,为遮挡补全子网络32的输入层与第一隐含层之间的偏置;
遮挡补全子网络32的第一隐含层与第二隐含层之间的映射函数为公式(4):其中,为遮挡补全子网络32的第一隐含层与第二隐含层之间的权重矩阵,为遮挡补全子网络32的第一隐含层与第二隐含层之间的偏置;
遮挡补全子网络32的第二隐含层与第三隐含层之间的映射函数为公式(5): 为遮挡补全子网络32的第二隐含层与第三隐含层之间的权重矩阵,为遮挡补全子网络32的第二隐含层与第三隐含层之间的偏置;
遮挡补全子网络32的第三隐含层与输出层之间的映射函数为公式(6): 为遮挡补全子网络32的第三隐含层与输出层之间的权重矩阵,为遮挡补全子网络32的第三隐含层与输出层之间的偏置,是的转置矩阵,是的转置矩阵,ρ(x)=max(0,x)为非线性激活函数;
遮挡补全子网络32具体用于:
将相乘结果为x*xo作为遮挡补全子网络32的输入层的参数,根据公式(3)、(4)、(5)、(6)计算第三视觉特征向量xc。
可选地,分解子网络33为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层以此连接;
分解子网络33的输入层和隐含层之间的映射函数为公式(7): 为分解子网络33的输入层和隐含层之间的权重矩阵,为分解子网络33的隐含层和输出层之间的偏置;
分解子网络33的隐含层和输出层之间的映射函数为公式(8):其中,为分解子网络33的隐含层和输出层之间的偏置,yi表示目标事物的第i部分的类标图像,表示分解子网络的隐含层和输出层之间的第i部分的类标图像的权重矩阵,表示分解子网络的隐含层和输出层之间的第第i部分的类标图像的偏置,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
分解子网络33具体用于:将第三视觉特征向量xc作为分解子网络的输入层的输入参数,根据公式(7)和(8)确定目标事物的各部位的类标图像,将各类标图像组合起来,得带目标事物的解析结果。
在一种实现方式中,遮挡估计子网络31具体用于:对第一视觉特征x向量降采样,得到第二视觉特征向量xd,并根据第一视觉特征向量确定目标事物被遮挡部分的遮挡标记向量xo,第二视觉特征向量xd的维度小于第一视觉特征x,遮挡标记向量xo与述第二视觉特征向量xd的维度相同;遮挡补全子网络32具体用于:根据第二视觉特征向量xd与遮挡标记向量xo确定目标事物的第三视觉特征向量xc。
本实施例提供的神经网络系统,可用于执行图1所示方法实施例提供的技术方案,具体实现方式和技术效果类似,这里不再赘述。
图8为本发明基于神经网络系统的图像解析装置一实施例的结构示意图,如图8所示,本实施例提供的基于神经网络系统的图像解析装置,包括:获取模块41、训练模块42。
其中,获取模块41,用于获取神经网络系统的各子网络对应的训练样本,神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络,各子网络对应的训练样本分别包括I副图像,I取大于1的正整数;
训练模块42,用于根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到各子网络的参数,各子网络的参数包括各子网络中相互连接的两层之间的权重矩阵和偏置。
本实施例中,遮挡估计子网络可以为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层依次连接,训练模块42具体用于:
提取遮挡估计子网络对应的训练样本中各图像的视觉特征向量,得到训练样本中各图像的特征向量集合X={xi},其中,列向量xi表示第i副图像的视觉特征向量,1≤i≤I;
分别确定各图像的遮挡部分,获取遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量;
根据各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置
训练模块42具体通过以下方式确定和首先,令其中,xi表示第i副图像的视觉特征向量,[x]’表示转置运算;令其中, 求解得到和其中,是遮挡估计子网络的输入层的输出,||·||F是Frobenius范数。
本实施例中,遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;训练模块42具体用于:
提取遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中,遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物;
提取遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合
根据遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中,是的转置矩阵,是的转置矩阵。
训练模块42具体通过以下方式得到权重矩阵偏置和
令为遮挡补全子网络的输入层的输出,是特征向量集合中的一个向量,最小化以下第一受限玻尔兹曼机RBM能量:
其中,σm是将遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量的第m个分量,是特征向量的第m个分量,为的第n个分量,表示连接和的权重,为的第n个分量,表示的第m个分量;
采用对比度扩散法对第一RBM能量最小化,得到权重矩阵偏置和
将遮挡补全子网络的输入层的输出作为第一隐含层的输入,令第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量:
其中,σp是的第p个分量,为的第p个分量,为的第q个分量,表示连接和的权重,为的第q个分量,表示的第p个分量;
采用对比度扩散法对第二RBM能量最小化,得到权重矩阵偏置和
求权重矩阵和的转置矩阵,得到和
本实施例中,训练模块还用于:根据以下公式重新构建训练样本中各图像无遮挡的情况下视觉特征向量集合Vc:采用梯度下降法最小化Vc和之间的误差,得到调整后的和
本实施例中,分解子网络可以为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层依此连接。训练模块42具体用于:
提取分解子网络对应的训练样本中各图像的视觉特征向量集合其中,分解子网络对应的的训练样本是无遮挡时的目标事物;
提取分解子网络对应的训练样本中各图像的各部位类标图像集合
令为特征向量集合中的一个视觉特征向量在分解子网络的输入层的输出i表示类标图像的个数,i的取值为1≤i≤M的正整数,,将按照以下映射函数映射为不同的类标图像:
其中,yi表示目标事物的第i个部位的类标图像,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的偏置,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的权重矩阵;
令Yc为中所有视觉特征向量在分解子网络上映射成的类标图像的集合,最小化Yc和之间的误差,得到
本实施例提供的基于神经网络系统的图像解析装置,可用于执行图5所示方法实施例提供的技术方案,具体实现方式和技术效果类似,这里不再赘述。
图9为本发明基于神经网络系统的图像解析装置又一实施例的结构示意图,如图9所示,本实施例的装置在图8所示装置结构的基础上,进一步地,还可以包括:参数调整模块43。
其中,参数调整模块43,用于构建损失函数E,最小化损失函数E:
其中,X={xi}是遮挡估计子网络训练样本中各图像的视觉特征向量集,xi表示第i副图像的视觉特征向量,是人工确定的训练样本中各图像的类标图像集合,是人工确定的第i幅图像的类标图像,Y={yi}是神经网络系统的输出训练样本中各图像的类标图像集,yi是神经网络系统输出的第幅i图像的类标图像,W和b是神经网络系统的权重矩阵和偏置的集合;
采用随机梯度下降法求解损失函数E的最优解,确定神经网络系统的调整后的权重矩阵和偏置。
本实施例中,参数调整模块43具体用于:将预训练得到各子网络的权重矩阵,按照以下公式进行迭代:其中,l表示神经网络系统的层数,l∈{1,…L},j表示迭代次数,Δ表示梯度下降时的变化率,ε是学习率,是导数,是第l层的后向投影误差el与上一层是输出hl-1之间的乘积。
神经网络系统的后向投影误差有以下三种形式:神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算,表示一幅图像的实际的类标图像,y表示神经网络系统输出的图像的类标图像。如果第l层有S型函数运算,则第l层的后向投影误差el=diag(Wl+1'el+1)diag(hl)(1-hl),其中,diag(·)表示取对角矩阵运算,Wl+1是上一层的权重矩阵,el+1是上一层的后向投影误差。如果第l层有ρ(x)=max(0,x)运算,则第l层的后向投影误差其中,[·]i表示一个向量的第i个分量。
本实施例提供的基于神经网络系统的图像解析装置,可用于执行图5所示方法实施例提供的技术方案,具体实现方式和技术效果类似,这里不再赘述。
图10为本发明神经网络系统又一实施例的结构示意图,如图10所示,本实施例的神经网络系统500包括:处理器51和存储器52,处理器和存储器通过总线连接,存储器52存储执行指令,当神经网络系统500运行时,处理器51与存储器52之间通信,处理器51执行指令使得神经网络系统500执行本发明提供的基于神经网络系统的图像解析方法。本实施例中,神经网络系统的遮挡估计子网络、遮挡补全子网络和分解子网络都可以通过处理器51来实现,由处理器51执行各个子网络的功能。具体地:
处理器51控制遮挡估计子网络根据获取到的目标事物的第一视觉特征x向量确定目标事物被遮挡部分的遮挡标记向量xo,遮挡标记向量xo的各分量的取值为大于0小于1,第一视觉特征向量为有遮挡时目标事物的视觉特征向量;
处理器51控制遮挡补全子网络根据第一视觉特征向量x与遮挡标记向量xo确定目标事物的第三视觉特征向量xc,第三视觉特征向量xc为无遮挡时目标事物的视觉特征向量;
处理器51控制分解子网络根据第三视觉特征向量xc确定目标事物的各部位的类标图像,组合各部位的类标图像得到目标事物的解析结果。
本实施例中,遮挡估计子网络可以为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层依次连接;遮挡估计子网络的输入层和隐含层之间的映射函数为公式(1):其中为遮挡估计子网络的输入层和隐含层之间的权重矩阵,为遮挡估计子网络的输入层与隐含层之间的偏置,ρ(x)=max(0,x)为非线性激活函数;
遮挡估计子网络的隐含层和输出层之间的映射函数为公式(2): 是遮挡估计子网络的隐含层与输出层之间的权重矩阵,是遮挡估计子网络的隐含层与输出层之间的偏置,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
处理器51具体控制遮挡估计子网络将第一视觉特征向量x作为遮挡估计子网络的输入层的输入参数,根据公式(1)和(2)计算遮挡标记向量xo。
本实施例中,遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
遮挡补全子网络的输入层与第一隐含层之间映射函数为公式(3):其中,为遮挡补全子网络的输入层与第一隐含层之间的权重矩阵,为遮挡补全子网络的输入层与第一隐含层之间的偏置;
遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数为公式(4):其中,为遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵,为遮挡补全子网络的第一隐含层与第二隐含层之间的偏置;
遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数为公式(5): 为遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵,为遮挡补全子网络的第二隐含层与第三隐含层之间的偏置;
遮挡补全子网络的第三隐含层与输出层之间的映射函数为公式(6): 为遮挡补全子网络的第三隐含层与输出层之间的权重矩阵,为遮挡补全子网络的第三隐含层与输出层之间的偏置,是的转置矩阵,是的转置矩阵,ρ(x)=max(0,x)为非线性激活函数;
处理器51具体控制遮挡估计子网络将相乘结果为x*xo作为遮挡补全子网络的输入层的参数,根据公式(3)、(4)、(5)、(6)计算第三视觉特征向量xc。
本实施例中,分解子网络为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层以此连接;分解子网络的输入层和隐含层之间的映射函数为公式(7): 为分解子网络的输入层和隐含层之间的权重矩阵,为分解子网络的隐含层和输出层之间的偏置;
分解子网络的隐含层和输出层之间的映射函数为公式(8):其中,为分解子网络的隐含层和输出层之间的偏置,yi表示目标事物的第i部分的类标图像,表示分解子网络的隐含层和输出层之间的第i部分的类标图像的权重矩阵,表示分解子网络的隐含层和输出层之间的第i部分的类标图像的偏置,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
处理器51具体用于控制分解子网络将第三视觉特征向量xc作为分解子网络的输入层的输入参数,根据公式(7)和(8)确定目标事物的各部位的类标图像,将各类标图像组合起来,得带目标事物的解析结果。
本实施例中,处理器51具体用于控制遮挡估计子网络:对第一视觉特征x向量降采样,得到第二视觉特征向量xd,并根据第一视觉特征向量确定目标事物被遮挡部分的遮挡标记向量xo,第二视觉特征向量xd的维度小于第一视觉特征x,遮挡标记向量xo与述第二视觉特征向量xd的维度相同;并控制遮挡补全子网络根据第二视觉特征向量xd与遮挡标记向量xo确定目标事物的第三视觉特征向量xc。
本实施例的神经网络系统,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图11为本发明基于神经网络系统的图像解析装置还一实施例结构示意图,本实施例的基于神经网络系统的图像解析装置600包括:处理器61和存储器62,处理器61和存储器62通过总线连接,存储器62存储执行指令,当基于神经网络系统的图像解析装置600运行时,处理器61与存储器62之间通信,处理器61执行指令使得基于神经网络系统的图像解析装置600执行本发明提供的基于神经网络系统的图像解析方法。处理器61具体用于执行以下操作:
获取神经网络系统的各子网络对应的训练样本,神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络,各子网络对应的训练样本分别包括I副图像,I取大于1的正整数;
根据各子网络对应的训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到各子网络的参数,各子网络的参数包括各子网络中相互连接的两层之间的权重矩阵和偏置。
本实施例中,遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层依次连接。处理器61根据各子网络对应的训练样本对遮挡估计子网络进行预训练,具体为:
提取遮挡估计子网络对应的训练样本中各图像的视觉特征向量,得到训练样本中各图像的特征向量集合X={xi},其中,列向量xi表示第i副图像的视觉特征向量,1≤i≤I;
分别确定各图像的遮挡部分,获取遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量;
根据各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置
处理器61根据各图像遮挡标记向量集和各图像的特征向量集X={xi}确定遮挡估计子网络的输入层与隐含层之间的权重矩阵和偏置以及确定遮挡估计子网络的隐含层与输出层之间的权重矩阵和平偏置具体为:
令其中,xi表示第i副图像的视觉特征向量,[x]'表示转置运算;
令其中,
求解得到和其中,是遮挡估计子网络的输入层的输出,||.||F是Frobenius范数。
本实施例中,遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;处理器61根据各子网络对应的训练样本对遮挡补全子网络进行预训练,具体为:
提取遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中,遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物;
提取遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合
根据遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中,是的转置矩阵,是的转置矩阵。
处理器61根据遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置具体为:
令为遮挡补全子网络的输入层的输出,是特征向量集合中的一个向量,最小化以下第一受限玻尔兹曼机RBM能量:
其中,σm是将遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量σ的第m个分量,是特征向量的第m个分量,为的第n个分量,表示连接和的权重,为的第n个分量,表示的第m个分量;
采用对比度扩散法对第一RBM能量最小化,得到权重矩阵偏置和
将遮挡补全子网络的输入层的输出作为第一隐含层的输入,令第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量:
其中,σp是的第p个分量,为的第p个分量,为的第q个分量,表示连接和的权重,为的第q个分量,表示的第p个分量;
采用对比度扩散法对第二RBM能量最小化,得到权重矩阵偏置和
最后,求权重矩阵和的转置矩阵,得到和
处理器61在确定权重矩阵偏置之后,还用于:根据以下公式重新构建训练样本中各图像无遮挡的情况下视觉特征向量集合Vc:
采用梯度下降法最小化Vc和之间的误差,得到调整后的 和
本实施例中,分解子网络为三层网络,包括:输入层、隐含层和输出层,输入层、隐含层和输出层依此连接;
处理器61根据各子网络对应的训练样本对分解子网络进行预训练,具体为:
提取分解子网络对应的训练样本中各图像的视觉特征向量集合其中,分解子网络对应的的训练样本是无遮挡时的目标事物;
提取分解子网络对应的训练样本中各图像的各部位类标图像集合
令为特征向量集合中的一个视觉特征向量在分解子网络的输入层的输出i表示类标图像的个数,i的取值为1≤i≤M的正整数,,将按照以下映射函数映射为不同的类标图像:
其中,yi表示目标事物的第i个部位的类标图像,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的偏置,表示第i部分的类标图像对应的分解子网络的隐含层和输出层之间的权重矩阵;
令Yc为中所有视觉特征向量在分解子网络上映射成的类标图像的集合,最小化Yc和之间的误差,得到
本实施例中,处理器61根据训练样本分别对遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到各子网络的参数之后,还用于:
构建损失函数E,最小化损失函数E:
其中,X={xi}是遮挡估计子网络训练样本中各图像的视觉特征向量集,xi表示第i副图像的视觉特征向量,是人工确定的训练样本中各图像的类标图像集合,是人工确定的第i幅图像的类标图像,Y={yi}是神经网络系统的输出训练样本中各图像的类标图像集,yi是神经网络系统输出的第幅i图像的类标图像,W和b是神经网络系统的权重矩阵和偏置的集合;
采用随机梯度下降法求解损失函数E的最优解,确定神经网络系统的调整后的权重矩阵和偏置。
其中,处理器61采用随机梯度下降法求解损失函数E的最优解,确定神经网络系统的调整后的权重矩阵,具体为:将预训练得到各子网络的权重矩阵,按照以下公式进行迭代:其中,l表示神经网络系统的层数,l∈{1,…L},j表示迭代次数,Δ表示梯度下降时的变化率,ε是学习率,是导数,是第l层的后向投影误差el与上一层是输出hl-1之间的乘积。
本实施例中神经网络系统的后向投影误差有三种形式,神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算,表示一幅图像的实际的类标图像,y表示神经网络系统输出的图像的类标图像。如果第l层有S型函数运算,则第l层的后向投影误差el=diag(Wl+1'el+1)diag(hl)(1-hl),其中,diag(·)表示取对角矩阵运算,Wl+1是上一层的权重矩阵,el+1是上一层的后向投影误差。如果第l层有ρ(x)=max(0,x)运算,则第l层的后向投影误差其中,[·]i表示一个向量的第i个分量。
本实施例的装置,可以用于执行图5所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (34)
1.一种基于神经网络系统的图像解析方法,其特征在于,包括:
所述神经网络系统获取目标事物的第一视觉特征向量x,所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络;
所述遮挡估计子网络根据目标事物的第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量xo,所述遮挡标记向量xo的各分量的取值为大于0小于1;
所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,所述第三视觉特征向量xc为补全所述遮挡部分后所述目标事物的视觉特征向量;
所述分解子网络根据所述第三视觉特征向量xc确定所述目标事物的各部位的类标图像,组合所述各部位的类标图像得到所述目标事物的解析结果。
2.根据权利要求1所述的方法,其特征在于,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述遮挡估计子网络根据所述第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量xo,包括:
所述遮挡估计子网络将所述第一视觉特征向量x作为所述遮挡估计子网络的输入层的输入参数,根据以下公式(1)和(2)计算所述遮挡标记向量xo:
<mrow>
<msup>
<mi>h</mi>
<msub>
<mi>o</mi>
<mn>1</mn>
</msub>
</msup>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<msub>
<mi>o</mi>
<mn>1</mn>
</msub>
</msup>
<mi>x</mi>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>o</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msup>
<mi>x</mi>
<mi>o</mi>
</msup>
<mo>=</mo>
<mi>&tau;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<msub>
<mi>o</mi>
<mn>2</mn>
</msub>
</msup>
<msup>
<mi>h</mi>
<msub>
<mi>o</mi>
<mn>1</mn>
</msub>
</msup>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>o</mi>
<mn>2</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,公式(1)为所述遮挡估计子网络的输入层与隐含层之间的映射函数,公式(2)为所述遮挡估计子网络的的隐含层与输出层之间的映射函数,为所述遮挡估计子网络的输入层与隐含层之间的权重矩阵,为所述遮挡估计子网络的输入层与隐含层之间的偏置,ρ(x)=max(0,x)为非线性激活函数,是所述遮挡估计子网络的隐含层与输出层之间的权重矩阵,是所述遮挡估计子网络的隐含层与输出层之间的偏置,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1。
3.根据权利要求2所述的方法,其特征在于,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,包括:
所述遮挡补全子网络将所述遮挡标记向量xo与所述第一视觉特征向量x逐分量相乘,得到遮挡特征向量x*xo,其中,所述遮挡标记向量xo与所述第一视觉特征向量x的维度相同;
所述遮挡补全子网络将所述遮挡特征向量x*xo作为所述遮挡补全子网络的输入层的参数,根据以下公式(3)、(4)、(5)、(6)计算所述第三视觉特征向量xc:
<mrow>
<msub>
<mi>z</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>(</mo>
<mrow>
<mi>x</mi>
<mo>*</mo>
<msup>
<mi>x</mi>
<mi>o</mi>
</msup>
</mrow>
<mo>)</mo>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>z</mi>
<mn>2</mn>
</msub>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
<msub>
<mi>z</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>z</mi>
<mn>3</mn>
</msub>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<msup>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>&prime;</mo>
</msup>
</mrow>
</msup>
<msub>
<mi>z</mi>
<mn>2</mn>
</msub>
<mo>+</mo>
<msup>
<mi>u</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msup>
<mi>x</mi>
<mi>c</mi>
</msup>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<msup>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>&prime;</mo>
</msup>
</mrow>
</msup>
<msub>
<mi>z</mi>
<mn>3</mn>
</msub>
<mo>+</mo>
<msup>
<mi>u</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,公式(3)为所述遮挡补全子网络的输入层与第一隐含层之间映射函数,公式(4)为所述遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数,公式(5)为所述遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数,公式(6)为所述遮挡补全子网络的第三隐含层与输出层之间的映射函数,为所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵,为所述遮挡补全子网络的输入层与第一隐含层之间的偏置,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的偏置,为所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵,为所述遮挡补全子网络的第二隐含层与第三隐含层之间的偏置,为所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵,为所述遮挡补全子网络的第三隐含层与输出层之间的偏置,是的转置矩阵,是的转置矩阵,ρ(x)=max(0,x)为非线性激活函数。
4.根据权利要求3所述的方法,其特征在于,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述分解子网络根据所述第三视觉特征向量xc确定所述目标事物的各部位的类标图像,组合所述各部位的类标图像得到所述目标事物的解析结果,包括:
所述分解子网络将所述第三视觉特征向量xc作为所述分解子网络的输入层的输入参数,根据以下公式(7)和(8)确定所述目标事物的各部位的类标图像:
<mrow>
<msup>
<mi>z</mi>
<mo>&prime;</mo>
</msup>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<msub>
<mi>t</mi>
<mn>1</mn>
</msub>
</msup>
<msup>
<mi>x</mi>
<mi>c</mi>
</msup>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>t</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mi>&tau;</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>W</mi>
<mi>i</mi>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
<msup>
<mi>z</mi>
<mo>&prime;</mo>
</msup>
<mo>+</mo>
<msubsup>
<mi>b</mi>
<mi>i</mi>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,公式(7)为所述分解子网络的输入层和隐含层之间的映射函数,公式(8)为所述分解子网络的隐含层和输出层之间的映射函数,为所述分解子网络的输入层和隐含层之间的权重矩阵,为所述分解子网络的输入层和隐含层之间的偏置,yi表示所述目标事物的第i部分的类标图像,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
将所述各部位的类标图像组合起来,得到所述目标事物的解析结果。
5.根据权利要求1所述的方法,其特征在于,所述遮挡估计子网络根据目标事物的第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量xo,包括:
所述遮挡估计子网络对所述第一视觉特征向量x降采样,得到第二视觉特征向量xd,并根据所述第一视觉特征向量确定所述目标事物被遮挡部分的遮挡标记向量xo,其中,所述第二视觉特征向量xd的维度小于所述第一视觉特征向量x,所述遮挡标记向量xo与所述第二视觉特征向量xd的维度相同;
所述遮挡补全子网络根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,包括:
所述遮挡补全子网络根据所述第二视觉特征向量xd与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc。
6.一种基于神经网络系统的图像解析方法,其特征在于,包括:
获取所述神经网络系统的各子网络对应的训练样本,所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络,所述各子网络对应的训练样本分别包括I副图像,I取大于1的正整数;所述遮挡估计子网络用于估计目标事物中被遮挡的部分,所述遮挡补全子网络用于合成所述目标事物中被遮挡部分的视觉特征向量,所述分解子网络用于将补全的视觉特征向量映射为所述目标事物各部位的类标图像;
根据所述各子网络对应的训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到所述各子网络的参数,所述各子网络的参数包括所述各子网络中相互连接的两层之间的权重矩阵和偏置。
7.根据权利要求6所述的方法,其特征在于,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述根据各子网络对应的训练样本对所述遮挡估计子网络进行预训练,包括:
提取所述遮挡估计子网络对应的训练样本中各图像的视觉特征向量,得到所述训练样本中各图像的特征向量集合X={xi},其中,列向量xi表示第i副图像的视觉特征向量,1≤i≤I;
分别确定所述各图像的遮挡部分,获取所述遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量;
根据所述各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定所述遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置
8.根据权利要求7所述的方法,其特征在于,所述根据所述各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定所述遮挡估计子网络的输入层与隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置包括:
令其中,xi表示第i副图像的视觉特征向量,[x]'表示转置运算;
令其中,
求解得到所述和其中,是遮挡估计子网络的输入层的输出,||·||F是Frobenius范数,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1。
9.根据权利要求6所述的方法,其特征在于,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述根据所述各子网络对应的训练样本对所述遮挡补全子网络进行预训练,包括:
提取所述遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中,所述遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物;
提取所述遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合
根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中,是的转置矩阵,是的转置矩阵。
10.根据权利要求9所述的方法,其特征在于,所述根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置包括:
令为所述遮挡补全子网络的输入层的输出,是特征向量集合中的一个向量,ρ(x)=max(0,x)为非线性激活函数,最小化以下第一受限玻尔兹曼机RBM能量:
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msup>
<mover>
<mi>v</mi>
<mo>~</mo>
</mover>
<mi>c</mi>
</msup>
<mo>,</mo>
<msup>
<mi>h</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>m</mi>
</munder>
<mfrac>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mover>
<mi>v</mi>
<mo>~</mo>
</mover>
<mi>m</mi>
<mi>c</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>u</mi>
<mi>m</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mrow>
<mn>2</mn>
<msubsup>
<mi>&sigma;</mi>
<mi>m</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mi>n</mi>
</munder>
<msubsup>
<mi>b</mi>
<mi>n</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<msubsup>
<mi>h</mi>
<mi>n</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</munder>
<mfrac>
<msubsup>
<mover>
<mi>v</mi>
<mo>~</mo>
</mover>
<mi>m</mi>
<mi>c</mi>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mi>m</mi>
</msub>
</mfrac>
<msubsup>
<mi>h</mi>
<mi>n</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<msubsup>
<mi>W</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>,</mo>
</mrow>
其中,σm是将所述遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量σ的第m个分量,是特征向量的第m个分量,为的第n个分量,表示连接和的权重,为的第n个分量,表示的第m个分量;
采用对比度扩散法对所述第一RBM能量最小化,得到所述权重矩阵偏置和
将所述遮挡补全子网络的输入层的输出作为所述第一隐含层的输入,令所述第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量:
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>h</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>,</mo>
<msup>
<mi>h</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>p</mi>
</munder>
<mfrac>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>h</mi>
<mi>p</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>u</mi>
<mi>p</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mrow>
<mn>2</mn>
<msubsup>
<mi>&sigma;</mi>
<mi>p</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mi>p</mi>
</munder>
<msubsup>
<mi>b</mi>
<mi>q</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<msubsup>
<mi>h</mi>
<mi>q</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
</mrow>
</munder>
<mfrac>
<msubsup>
<mi>h</mi>
<mi>p</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mi>p</mi>
</msub>
</mfrac>
<msubsup>
<mi>h</mi>
<mi>q</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<msubsup>
<mi>W</mi>
<mrow>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
</mrow>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<mo>,</mo>
</mrow>
其中,σp是的第p个分量,为的第p个分量,为的第q个分量,表示连接和的权重,为的第q个分量,表示的第p个分量;
采用对比度扩散法对所述第二RBM能量最小化,得到所述权重矩阵偏置和
求所述权重矩阵和的转置矩阵,得到和
11.根据权利要求10所述的方法,其特征在于,所述根据所述有遮挡的情况下视觉特征向量集合和无遮挡的情况下视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置之后,包括:
根据以下公式重新构建所述训练样本中各图像无遮挡的情况下视觉特征向量集合Vc:
<mrow>
<msup>
<mi>V</mi>
<mi>c</mi>
</msup>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<msup>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>&prime;</mo>
</msup>
</mrow>
</msup>
<mi>&rho;</mi>
<mo>(</mo>
<mrow>
<msup>
<mi>W</mi>
<mrow>
<msup>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>&prime;</mo>
</msup>
</mrow>
</msup>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>W</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>W</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<msup>
<mover>
<mi>V</mi>
<mo>~</mo>
</mover>
<mi>c</mi>
</msup>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mi>u</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
</mrow>
<mo>)</mo>
<msup>
<mi>u</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
采用梯度下降法最小化所述Vc和之间的误差,得到调整后的 和
12.根据权利要求6所述的方法,其特征在于,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依此连接;
所述根据各子网络对应的所述训练样本对所述分解子网络进行预训练,包括:
提取所述分解子网络对应的训练样本中各图像的视觉特征向量集合其中,所述分解子网络对应的训练样本是无遮挡时的目标事物;
提取所述分解子网络对应的训练样本中各图像的各部位类标图像集合
令为特征向量集合中的一个视觉特征向量在所述分解子网络的输入层的输出i表示类标图像的个数,i的取值为1≤i≤M的正整数,ρ(x)=max(0,x)为非线性激活函数,将按照以下映射函数映射为不同的类标图像:
<mrow>
<mi>y</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mn>2</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mi>M</mi>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>=</mo>
<mi>&tau;</mi>
<mrow>
<mo>(</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msubsup>
<mi>W</mi>
<mn>1</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>W</mi>
<mn>2</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>W</mi>
<mi>M</mi>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
</mtable>
</mfenced>
<msup>
<mi>h</mi>
<msub>
<mi>t</mi>
<mn>1</mn>
</msub>
</msup>
<mo>+</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msubsup>
<mi>b</mi>
<mn>1</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>b</mi>
<mn>2</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>b</mi>
<mi>M</mi>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,yi表示所述目标事物的第i个部位的类标图像,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵,M为所述权重矩阵的个数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
令Yc为中所有视觉特征向量在所述分解子网络上映射成的类标图像的集合,最小化所述Yc和之间的误差,得到
13.根据权利要求6-12任一项所述的方法,其特征在于,所述根据所述训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到所述各子网络的参数之后,还包括:
构建损失函数E,最小化所述损失函数E:
其中,X={xi}是遮挡估计子网络训练样本中各图像的视觉特征向量集,xi表示第i副图像的视觉特征向量,是人工确定的所述训练样本中各图像的类标图像集合,是人工确定的第i幅图像的类标图像,Y={yi}是所述神经网络系统的输出所述训练样本中各图像的类标图像集,yi是所述神经网络系统输出的第幅i图像的类标图像,W和b是所述神经网络系统的权重矩阵和偏置的集合,||·||F是Frobenius范数;
采用随机梯度下降法求解所述损失函数E的最优解,确定所述神经网络系统的调整后的权重矩阵和偏置。
14.根据权利要求13所述的方法,其特征在于,所述采用随机梯度下降法求解所述损失函数E的最优解,确定所述神经网络系统的调整后的权重矩阵,包括:
将预训练得到所述各子网络的权重矩阵,按照以下公式进行迭代:其中,l表示所述神经网络系统的层数,l∈{1,…L},j表示迭代次数,Δ表示梯度下降时的变化率,ε是学习率,是导数,是第l层的后向投影误差el与上一层是输出hl-1之间的乘积,L表示所述神经网络系统的总层数,表示第l层的权重矩阵在第j次迭代时的值。
15.根据权利要求14所述的方法,其特征在于,所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算,表示一幅图像的实际的类标图像,y表示所述神经网络系统输出的所述图像的类标图像。
16.根据权利要求14所述的方法,其特征在于,如果第l层有S型函数运算,则第l层的后向投影误差el=diag(Wl+1'el+1)diag(hl)(1-hl),其中,diag(·)表示取对角矩阵运算,Wl+1是上一层的权重矩阵,el+1是上一层的后向投影误差。
17.根据权利要求14所述的方法,其特征在于,如果第l层有ρ(x)=max(0,x)运算,则第l层的后向投影误差其中,[·]i表示一个向量的第i个分量。
18.一种神经网络系统,其特征在于,包括:
遮挡估计子网络,用于根据获取到的目标事物的第一视觉特征向量x确定所述目标事物被遮挡部分的遮挡标记向量xo,所述遮挡标记向量xo的各分量的取值为大于0小于1,所述第一视觉特征向量为有遮挡时所述目标事物的视觉特征向量;
遮挡补全子网络,用于根据所述第一视觉特征向量x与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc,所述第三视觉特征向量xc为无遮挡时所述目标事物的视觉特征向量;
分解子网络,用于根据所述第三视觉特征向量xc确定所述目标事物的各部位的类标图像,组合所述各部位的类标图像得到所述目标事物的解析结果。
19.根据权利要求18所述的神经网络系统,其特征在于,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述遮挡估计子网络的输入层和隐含层之间的映射函数为公式(1):其中为所述遮挡估计子网络的输入层和隐含层之间的权重矩阵,为所述遮挡估计子网络的输入层与隐含层之间的偏置,ρ(x)=max(0,x)为非线性激活函数;
所述遮挡估计子网络的隐含层和输出层之间的映射函数为公式(2):是所述遮挡估计子网络的隐含层与输出层之间的权重矩阵,是所述遮挡估计子网络的隐含层与输出层之间的偏置,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
所述遮挡估计子网络具体用于:
将所述第一视觉特征向量x作为所述遮挡估计子网络的输入层的输入参数,根据公式(1)和(2)计算所述遮挡标记向量xo。
20.根据权利要求18所述的神经网络系统,其特征在于,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述遮挡补全子网络的输入层与第一隐含层之间映射函数为公式(3):其中,为所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵,为所述遮挡补全子网络的输入层与第一隐含层之间的偏置;
所述遮挡补全子网络的第一隐含层与第二隐含层之间的映射函数为公式(4):其中,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵,为所述遮挡补全子网络的第一隐含层与第二隐含层之间的偏置;
所述遮挡补全子网络的第二隐含层与第三隐含层之间的映射函数为公式(5):为所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵,为所述遮挡补全子网络的第二隐含层与第三隐含层之间的偏置;
所述遮挡补全子网络的第三隐含层与输出层之间的映射函数为公式(6):为所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵,为所述遮挡补全子网络的第三隐含层与输出层之间的偏置,是的转置矩阵,是的转置矩阵,ρ(x)=max(0,x)为非线性激活函数;
所述遮挡估计子网络具体用于:
将所述相乘结果为x*xo作为所述遮挡补全子网络的输入层的参数,根据公式(3)、(4)、(5)、(6)计算所述第三视觉特征向量xc。
21.根据权利要求18所述的神经网络系统,其特征在于,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层以此连接;
所述分解子网络的输入层和所述隐含层之间的映射函数为公式(7):为所述分解子网络的输入层和隐含层之间的权重矩阵,为所述分解子网络的隐含层和输出层之间的偏置;
所述分解子网络的隐含层和输出层之间的映射函数为公式(8):其中,为所述分解子网络的隐含层和输出层之间的偏置,yi表示所述目标事物的第i部分的类标图像,表示所述分解子网络的隐含层和输出层之间的第i部分的类标图像的权重矩阵,表示所述分解子网络的隐含层和输出层之间的第i部分的类标图像的偏置,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
所述分解子网络具体用于:将所述第三视觉特征向量xc作为所述分解子网络的输入层的输入参数,根据公式(7)和(8)确定所述目标事物的各部位的类标图像,将所述各部位的类标图像组合起来,得到所述目标事物的解析结果。
22.根据权利要求18所述的神经网络系统,其特征在于,所述遮挡估计子网络具体用于:
对所述第一视觉特征向量x降采样,得到第二视觉特征向量xd,并根据所述第一视觉特征向量确定所述目标事物被遮挡部分的遮挡标记向量xo,所述第二视觉特征向量xd的维度小于所述第一视觉特征向量x,所述遮挡标记向量xo与所述第二视觉特征向量xd的维度相同;
所述遮挡补全子网络具体用于:
根据所述第二视觉特征向量xd与所述遮挡标记向量xo确定所述目标事物的第三视觉特征向量xc。
23.一种基于神经网络系统的图像解析装置,其特征在于,包括:
获取模块,用于获取所述神经网络系统的各子网络对应的训练样本,所述神经网络系统包括遮挡估计子网络、遮挡补全子网络、分解子网络,所述各子网络对应的训练样本分别包括I副图像,I取大于1的正整数;所述遮挡估计子网络用于估计目标事物中被遮挡的部分,所述遮挡补全子网络用于合成所述目标事物中被遮挡部分的视觉特征向量,所述分解子网络用于将补全的视觉特征向量映射为所述目标事物各部位的类标图像;
训练模块,用于根据所述各子网络对应的训练样本分别对所述遮挡估计子网络、遮挡补全子网络、分解子网络进行预训练,得到所述各子网络的参数,所述各子网络的参数包括所述各子网络中相互连接的两层之间的权重矩阵和偏置。
24.根据权利要求23所述的装置,其特征在于,所述遮挡估计子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依次连接;
所述训练模块具体用于:提取所述遮挡估计子网络对应的训练样本中各图像的视觉特征向量,得到所述训练样本中各图像的特征向量集合X={xi},其中,列向量xi表示第i副图像的视觉特征向量,1≤i≤I;
分别确定所述各图像的遮挡部分,获取所述遮挡估计子网络对应的训练样本中各图像遮挡部分的遮挡标记向量集合其中,列向量表示第i副图像的视觉特征向量xi对应的遮挡标记向量;
根据所述各图像遮挡标记向量集合和各图像的特征向量集合X={xi}确定所述遮挡估计子网络的输入层和隐含层之间的权重矩阵和偏置以及确定所述遮挡估计子网络的隐含层与输出层之间的权重矩阵和偏置
25.根据权利要求24所述的装置,其特征在于,所述训练模块具体用于:
令其中,xi表示第i副图像的视觉特征向量,[x]'表示转置运算;
令其中,
求解得到所述和其中,是遮挡估计子网络的输入层的输出,||·||F是Frobenius范数,ρ(x)=max(0,x)为非线性激活函数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1。
26.根据权利要求23所述的装置,其特征在于,所述遮挡补全子网络为五层网络,包括:输入层、3个隐含层和输出层,所述3个隐含层分别为第一隐含层、第二隐含层、第三隐含层,所述输入层、第一隐含层、第二隐含层、第三隐含层和输出层依次连接;
所述训练模块具体用于:提取所述遮挡补全子网络对应的训练样本中各图像无遮挡时的视觉特征向量集合其中,所述遮挡补全子网络对应的训练样本中各图像是无遮挡的目标事物;
提取所述遮挡补全子网络对应的训练样本中各图像设置有遮挡时的视觉特征向量集合
根据所述遮挡补全子网络对应的训练样本中各图像有遮挡时的视觉特征向量集合和无遮挡时的视觉特征向量集合确定所述遮挡补全子网络的输入层与第一隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第一隐含层与第二隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第二隐含层与第三隐含层之间的权重矩阵和偏置确定所述遮挡补全子网络的第三隐含层与输出层之间的权重矩阵和偏置其中,是的转置矩阵,是的转置矩阵。
27.根据权利要求26所述的装置,其特征在于,所述训练模块具体用于:
令为所述遮挡补全子网络的输入层的输出,是特征向量集合中的一个向量,ρ(x)=max(0,x)为非线性激活函数,最小化以下第一受限玻尔兹曼机RBM能量:
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msup>
<mover>
<mi>v</mi>
<mo>~</mo>
</mover>
<mi>c</mi>
</msup>
<mo>,</mo>
<msup>
<mi>h</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>m</mi>
</munder>
<mfrac>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mover>
<mi>v</mi>
<mo>~</mo>
</mover>
<mi>m</mi>
<mi>c</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>u</mi>
<mi>m</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mrow>
<mn>2</mn>
<msubsup>
<mi>&sigma;</mi>
<mi>m</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mi>n</mi>
</munder>
<msubsup>
<mi>b</mi>
<mi>n</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<msubsup>
<mi>h</mi>
<mi>n</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</munder>
<mfrac>
<msubsup>
<mover>
<mi>v</mi>
<mo>~</mo>
</mover>
<mi>m</mi>
<mi>c</mi>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mi>m</mi>
</msub>
</mfrac>
<msubsup>
<mi>h</mi>
<mi>n</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<msubsup>
<mi>W</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>,</mo>
</mrow>
其中,σm是将所述遮挡补全子网络对应的训练样本中各图像的遮挡部分作为噪声时的标准差向量的第m个分量,是特征向量的第m个分量,为的第n个分量,表示连接和的权重,为的第n个分量,表示的第m个分量;
采用对比度扩散法对所述第一RBM能量最小化,得到所述权重矩阵偏置和
将所述遮挡补全子网络的输入层的输出作为所述第一隐含层的输入,令所述第一隐含层的输出为最小化以下第二受限波尔兹曼机RBM能量:
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>h</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>,</mo>
<msup>
<mi>h</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>p</mi>
</munder>
<mfrac>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>h</mi>
<mi>p</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>u</mi>
<mi>p</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mrow>
<mn>2</mn>
<msubsup>
<mi>&sigma;</mi>
<mi>p</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mi>p</mi>
</munder>
<msubsup>
<mi>b</mi>
<mi>q</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<msubsup>
<mi>h</mi>
<mi>q</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
</mrow>
</munder>
<mfrac>
<msubsup>
<mi>h</mi>
<mi>p</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msubsup>
<msub>
<mi>&sigma;</mi>
<mi>p</mi>
</msub>
</mfrac>
<msubsup>
<mi>h</mi>
<mi>q</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<msubsup>
<mi>W</mi>
<mrow>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
</mrow>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msubsup>
<mo>,</mo>
</mrow>
其中,σp是的第p个分量,为的第p个分量,为的第q个分量,表示连接和的权重,为的第q个分量,表示的第p个分量;
采用对比度扩散法对所述第二RBM能量最小化,得到所述权重矩阵偏置和
求所述权重矩阵和的转置矩阵,得到和
28.根据权利要求27所述的装置,其特征在于,所述训练模块还用于:
根据以下公式重新构建所述训练样本中各图像无遮挡的情况下视觉特征向量集合Vc:
<mrow>
<msup>
<mi>V</mi>
<mi>c</mi>
</msup>
<mo>=</mo>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<msup>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>&prime;</mo>
</msup>
</mrow>
</msup>
<mi>&rho;</mi>
<mo>(</mo>
<mrow>
<msup>
<mi>W</mi>
<mrow>
<msup>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>&prime;</mo>
</msup>
</mrow>
</msup>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>W</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>W</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<msup>
<mover>
<mi>V</mi>
<mo>~</mo>
</mover>
<mi>c</mi>
</msup>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mi>b</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mi>u</mi>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
</msup>
</mrow>
<mo>)</mo>
<msup>
<mi>u</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
采用梯度下降法最小化所述Vc和之间的误差,得到调整后的 和
29.根据权利要求23所述的装置,其特征在于,所述分解子网络为三层网络,包括:输入层、隐含层和输出层,所述输入层、隐含层和输出层依此连接;
所述训练模块具体用于:提取所述分解子网络对应的训练样本中各图像的视觉特征向量集合其中,所述分解子网络对应的的训练样本是无遮挡时的目标事物;
提取所述分解子网络对应的训练样本中各图像的各部位类标图像集合
令为特征向量集合中的一个视觉特征向量在所述分解子网络的输入层的输出i表示类标图像的个数,i的取值为1≤i≤M的正整数,ρ(x)=max(0,x)为非线性激活函数,将按照以下映射函数映射为不同的类标图像:
<mrow>
<mi>y</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mn>2</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mi>M</mi>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>=</mo>
<mi>&tau;</mi>
<mrow>
<mo>(</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msubsup>
<mi>W</mi>
<mn>1</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>W</mi>
<mn>2</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>W</mi>
<mi>M</mi>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
</mtable>
</mfenced>
<msup>
<mi>h</mi>
<msub>
<mi>t</mi>
<mn>1</mn>
</msub>
</msup>
<mo>+</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msubsup>
<mi>b</mi>
<mn>1</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>b</mi>
<mn>2</mn>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msubsup>
<mi>b</mi>
<mi>M</mi>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
</msubsup>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,yi表示所述目标事物的第i个部位的类标图像,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的偏置,表示所述第i部分的类标图像对应的所述分解子网络的隐含层和输出层之间的权重矩阵,M为所述权重矩阵的个数,τ(x)=1/(1+exp(-x))是S型函数,返回值大于0小于1;
令Yc为中所有视觉特征向量在所述分解子网络上映射成的类标图像的集合,最小化所述Yc和之间的误差,得到
30.根据权利要求23-29任一项所述的装置,其特征在于,还包括:
参数调整模块,用于构建损失函数E,最小化所述损失函数E:
其中,X={xi}是遮挡估计子网络训练样本中各图像的视觉特征向量集,xi表示第i副图像的视觉特征向量,是人工确定的所述训练样本中各图像的类标图像集合,是人工确定的第i幅图像的类标图像,Y={yi}是所述神经网络系统的输出所述训练样本中各图像的类标图像集,yi是所述神经网络系统输出的第幅i图像的类标图像,W和b是所述神经网络系统的权重矩阵和偏置的集合,||·||F是Frobenius范数;
采用随机梯度下降法求解所述损失函数E的最优解,确定所述神经网络系统的调整后的权重矩阵和偏置。
31.根据权利要求30所述的装置,其特征在于,所述参数调整模块具体用于:
将预训练得到所述各子网络的权重矩阵,按照以下公式进行迭代:其中,l表示所述神经网络系统的层数,l∈{1,…L},j表示迭代次数,Δ表示梯度下降时的变化率,ε是学习率,是导数,是第l层的后向投影误差el与上一层是输出hl-1之间的乘积,L表示所述神经网络系统的总层数,表示第l层的权重矩阵在第j次迭代时的值。
32.根据权利要求31所述的装置,其特征在于,所述神经网络系统的最后一层的后向投影误差其中diag(·)表示取对角矩阵运算,表示一幅图像的实际的类标图像,y表示所述神经网络系统输出的所述图像的类标图像。
33.根据权利要求31所述的装置,其特征在于,如果第l层有S型函数运算,则第l层的后向投影误差el=diag(Wl+1'el+1)diag(hl)(1-hl),其中,diag(·)表示取对角矩阵运算,Wl+1是上一层的权重矩阵,el+1是上一层的后向投影误差。
34.根据权利要求31所述的装置,其特征在于,如果第l层有ρ(x)=max(0,x)运算,则第l层的后向投影误差其中,[·]i表示一个向量的第i个分量。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310598419.7A CN104657776B (zh) | 2013-11-22 | 2013-11-22 | 神经网络系统、基于神经网络系统的图像解析方法和装置 |
PCT/CN2014/081975 WO2015074428A1 (zh) | 2013-11-22 | 2014-07-10 | 神经网络系统、基于神经网络系统的图像解析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310598419.7A CN104657776B (zh) | 2013-11-22 | 2013-11-22 | 神经网络系统、基于神经网络系统的图像解析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104657776A CN104657776A (zh) | 2015-05-27 |
CN104657776B true CN104657776B (zh) | 2018-06-05 |
Family
ID=53178892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310598419.7A Active CN104657776B (zh) | 2013-11-22 | 2013-11-22 | 神经网络系统、基于神经网络系统的图像解析方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104657776B (zh) |
WO (1) | WO2015074428A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6651629B2 (ja) * | 2015-12-10 | 2020-02-19 | ディープマインド テクノロジーズ リミテッド | 外部メモリを用いたニューラルネットワークの拡張 |
WO2017129325A1 (en) * | 2016-01-29 | 2017-08-03 | Fotonation Limited | A convolutional neural network |
US10497089B2 (en) | 2016-01-29 | 2019-12-03 | Fotonation Limited | Convolutional neural network |
CN106294584B (zh) * | 2016-07-28 | 2019-11-05 | 北京百度网讯科技有限公司 | 排序模型的训练方法及装置 |
CN106910176B (zh) * | 2017-03-02 | 2019-09-13 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的人脸图像去遮挡方法 |
CN107330908B (zh) * | 2017-06-28 | 2018-07-24 | 陕西师范大学 | 一种基于卷积受限玻尔兹曼机的形状建模方法及相关装置 |
CN109960974A (zh) * | 2017-12-22 | 2019-07-02 | 北京市商汤科技开发有限公司 | 人脸关键点检测方法、装置、电子设备及存储介质 |
CN108154239A (zh) * | 2017-12-27 | 2018-06-12 | 郑州云海信息技术有限公司 | 一种机器学习方法及其装置 |
CN110321999B (zh) * | 2018-03-30 | 2021-10-01 | 赛灵思电子科技(北京)有限公司 | 神经网络计算图优化方法 |
CN111179159B (zh) * | 2019-12-31 | 2024-02-20 | 北京金山云网络技术有限公司 | 消除视频中目标影像的方法、装置、电子设备及存储介质 |
CN111783598B (zh) * | 2020-06-24 | 2023-08-08 | 北京百度网讯科技有限公司 | 一种人脸识别模型训练方法、装置、设备及介质 |
CN112380425B (zh) * | 2020-10-23 | 2023-11-14 | 华南理工大学 | 社区推荐方法、系统、计算机设备及存储介质 |
CN112819742B (zh) * | 2021-02-05 | 2022-05-13 | 武汉大学 | 一种基于卷积神经网络的事件场合成孔径成像方法 |
CN115688544B (zh) * | 2022-06-20 | 2023-05-12 | 河海大学 | 一种基于mlp神经网络的微波衰减降雪场层析重构方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141633A (zh) * | 2007-08-28 | 2008-03-12 | 湖南大学 | 一种复杂场景中的运动目标检测与跟踪方法 |
CN101807245A (zh) * | 2010-03-02 | 2010-08-18 | 天津大学 | 基于人工神经网络的多源步态特征提取与身份识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1738426A (zh) * | 2005-09-09 | 2006-02-22 | 南京大学 | 一种视频运动目标分割与跟踪方法 |
CN100492399C (zh) * | 2007-03-15 | 2009-05-27 | 上海交通大学 | 利用降维方法进行人脸姿态估计的方法 |
US8342414B2 (en) * | 2010-04-30 | 2013-01-01 | Chapman Bryan P | Multiface document |
-
2013
- 2013-11-22 CN CN201310598419.7A patent/CN104657776B/zh active Active
-
2014
- 2014-07-10 WO PCT/CN2014/081975 patent/WO2015074428A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141633A (zh) * | 2007-08-28 | 2008-03-12 | 湖南大学 | 一种复杂场景中的运动目标检测与跟踪方法 |
CN101807245A (zh) * | 2010-03-02 | 2010-08-18 | 天津大学 | 基于人工神经网络的多源步态特征提取与身份识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104657776A (zh) | 2015-05-27 |
WO2015074428A1 (zh) | 2015-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104657776B (zh) | 神经网络系统、基于神经网络系统的图像解析方法和装置 | |
Zanjani et al. | Stain normalization of histopathology images using generative adversarial networks | |
Bojarski et al. | Visualbackprop: Efficient visualization of cnns for autonomous driving | |
Klein et al. | A dynamic convolutional layer for short range weather prediction | |
Bojarski et al. | Visualbackprop: visualizing cnns for autonomous driving | |
Shiba et al. | Secrets of event-based optical flow | |
CN105678284B (zh) | 一种固定位人体行为分析方法 | |
US11182644B2 (en) | Method and apparatus for pose planar constraining on the basis of planar feature extraction | |
CN103942577B (zh) | 视频监控中基于自建立样本库及混合特征的身份识别方法 | |
CN108537102B (zh) | 基于稀疏特征与条件随机场的高分辨sar图像分类方法 | |
CN104268594B (zh) | 一种视频异常事件检测方法及装置 | |
CN106845374A (zh) | 基于深度学习的行人检测方法及检测装置 | |
CN105160400A (zh) | 基于l21范数的提升卷积神经网络泛化能力的方法 | |
CN115880558B (zh) | 农事行为检测方法、装置、电子设备及存储介质 | |
CN106952288A (zh) | 基于卷积特征和全局搜索检测的长时遮挡鲁棒跟踪方法 | |
CN111028923B (zh) | 数字病理图像染色归一化方法、电子装置及存储介质 | |
CN107491793B (zh) | 一种基于稀疏散射全卷积的极化sar图像分类方法 | |
CN105894018B (zh) | 基于深度多示例学习的极化sar图像分类方法 | |
CN110879982A (zh) | 一种人群计数系统及方法 | |
CN108230354A (zh) | 目标跟踪、网络训练方法、装置、电子设备和存储介质 | |
CN115526891B (zh) | 一种缺陷数据集的生成模型的训练方法及相关装置 | |
CN113065431B (zh) | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 | |
CN109345559B (zh) | 基于样本扩充和深度分类网络的运动目标跟踪方法 | |
CN108154176B (zh) | 一种针对单一深度图像的3d人体姿态估计算法 | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |