CN110852270B

CN110852270B - 基于深度学习的混合语法人体解析方法及装置

Info

Publication number: CN110852270B
Application number: CN201911098736.6A
Authority: CN
Inventors: 赵朝阳
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2024-03-15
Anticipated expiration: 2039-11-11
Also published as: CN110852270A

Abstract

本发明公开了一种基于深度学习的混合语法人体解析方法及装置，其中，该方法包括：存储模块提供人体解析数据集；将人体解析数据集输入至一特征提取网络解析得到关于其的各个部件的特征图；该特征图依次输入至一混合语法子网络和一感受野自适应子网络进行解析，得到该人体解析数据集的预测图；其中，特征提取网络、混合语法子网络和感受野自适应子网络均结合对应的监督信息联合优化网络实现解析工作。本发明提供的该基于深度学习的混合语法人体解析方法及装置，可以从背景中提取相对完整的前景，有效提升网络解析的精度。

Description

基于深度学习的混合语法人体解析方法及装置

技术领域

本发明属于计算机视觉领域，具体涉及一种基于深度学习的混合语法人体解析方法及装置。

背景技术

人体解析又称人体分割是计算机视觉中的热门研究课题之一，也是基于视觉的模式识别应用的一个重要研究方向。它需要将图像中人的各个部件(头，胳膊，腿等)分割出来，从而为一些应用提供更加详细的内容，比如：行人重识别，行为分析以及衣物推荐。由于自然场景中人体部件大小的多样化，图片模糊以及光照灰暗等问题，解析方法需要具有良好的提取人体前景以及分割出各种大小部件的能力。而传统的手工设计，基于全局或者局部的特征在人体解析这个问题上很难做到较好的效果。

深度学习是近年来机器学习领域一个热门研究方向，已经在计算机视觉，自然语言处理等领域取得了巨大的成功。尤其是深度卷积神经网络，凭借稀疏连接、权重共享和空间或时间上的下采样这三大结构特点，能够从二维图像或三维视频中提取出语义信息丰富和判别力强的特征，在大规模图像/视频分类和细粒度任务中均表现出优越的性能。这两年，已经出现了一些将深度学习应用于人体解析的技术，如CN 108564012A提出了使用人体自身关节点和像素级别标签进行联合监督，其中人体关节点监督是一种自监督的方法，它的敏感学习方法使得生产的解析结果在语义上和人体结构上具有一致性，符合人体的结构特征；CN 109215036 A先进行人体检测，然后利用网络对检测的结果进一步进行解析。

现有基于深度学习的人体解析技术尚有以下不足：首先，这些方法没有考虑人的视觉机制，仅从数据驱动的角度。在观察一个人时，人们习惯上优先关注比较重要的部位，比如头，躯干然后其他。其中有一个信息传递的过程，大部分网络忽略了这个过程。其次，有些方法利用检测的技术，促进网络的前景提取。但是检测技术本身就有一定的局限性，会出现一些错误的检测情况。后续的分割网络使用检测的结果会有产生累积误差，造成解析结果的错误。最后，在人体解析任务中，由于图像中存在不同体格的人或者人体的远近不同，会在图像中呈现出不同大小的部件。部件的正确解析一定程度上会依赖于感受野的大小，如何针对于不同大小的部件产生合适的感受野，这个问题很少被考虑到。

发明内容

有鉴于此，本发明提供了一种基于深度学习的混合语法人体解析方法及装置，以至少部分解决上述问题。

其一方面，本发明提供的基于深度学习的混合语法人体解析方法包括：

存储模块提供人体解析数据集，一些实施例中，该人体解析数据集包括人体图片和该人体图片的像素标签；

将该人体解析数据集输入至一特征提取网络解析得到关于该人体解析数据集的各个部件的特征图；

该特征图依次输入至一混合语法子网络和一感受野自适应子网络进行解析，得到关于该人体解析数据集的预测图，一些实施例中，该混合语法子网络和感受野自适应子网络为端到端连接，且混合语法子网络的输出端和感受野自适应子网络的输入端连接；

其中，特征提取网络、混合语法子网络和感受野自适应子网络均结合对应的监督信息联合优化网络实现解析工作。

进一步的，其中：

一些实施例中，混合语法子网络包括多个串联或并联连接的进化卷积循环神经子网络，且各个进化卷积循环神经子网络对应一个语法规则，一些实施例中，该语法规则为：

S→A₁|A₂...|A_n，

其中，“|”表示或操作，S表示根节点，A_i表示各个子节点，a_i为正数；

混合语法子网络的解析还包括：

将经混合语法子网络训练得到的各个部件的特征图与特征提取网络的输出进行合并：

将合并后的特征输入到后续的集合层卷积层，得到混合语法子网络的输出。

一些实施例中，感受野自适应子网络包括：

一个选择通道，产生不同的设置值；以及

多个特征通道，每个特征通道对应一个该设置值；

其中，通过将该设置值和各个特征通道进行融合得到对特征通道的选择，进一步的，该选择包括：

其中，表示通道级别乘，c_b表示第b个的特征通道，C_b表示选择之后的第b个的特征通道，w代表权重；

该感受野自适应子网络的解析还包括：

将选择之后的特征通道与上述混合语法子网络的输出进行合并：

F^r＝concat(C_b，F^b)，

其中，F^b表示混合语法子网络的输出，F^r表示合并特征；

将该合并特征输入一后续卷积层，得到关于该人体解析数据集的预测图。

其另一方面，本发明提供的基于深度学习的混合语法人体解析装置，包括：

存储模块，存储人体解析数据集；

处理模块，该处理模块通过上述的基于深度学习的混合语法人体解析方法解析该人体解析数据集得到相应的预测图。

本发明设计的该基于深度学习的混合语法人体解析方法及装置，具有以下优势：

(1)混合语法子网络可以探索人体各个部件之间的关系，利用这种关系使用显著性部件促进微小部件的解析；

(2)混合语法子网络结合了串联和并联结构的优点，可以促进上下文以及信息的传递进而提高部件从背景中提取的精度；

(3)我们把人们的视觉心理学知识添加到网络结构设计过程中，使得网络结构更加合理；

(4)针对于不同大小的人体部件，我们的感受野自适应网络可以产生合适的感受野，因此可以提高各个部件的解析精度；

(5)对于混合语法子网络中的各个子网络，我们采用不同的标签组合来监督，可以促进各个子网络的学习过程；

(6)整个网络可以采用端到端的训练方式，获得更加具有判别力的表达；

(7)训练过程中没有引入额外的监督信息，具有很好的实验效果。

附图说明

图1为本发明实施例的总体流程示意图；

图2为本发明实施例设计的实现人体解析的深度神经网络总体结构示意图，包括混合语法子网络示意图和感受野自适应子网络示意图；

图3为本发明实施例设计的混合语法子网络的进化卷积循环神经子网络示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的目的是为了解决人体解析的两个问题：(1)如何从背景中提取相对完整的前景；(2)如何针对于不同大小的部件，产生合适的感受野。让神经网络进一步拥有人的先验知识。

针对于此，本发明提供了一种基于深度学习的混合语法人体解析方法及装置。该方法设计了一种深度的卷积神经网络结构，由混合语法子网络和感受野自适应子网络构成。混合语法子网络可以探索人体自身内在的层次结构以及不同部件的相互关系，通过这种方法，显著的部件即容易从背景中区分出来的部件可以促进细小部件的提取，我们应用了一种进化卷积循环神经子网络为混合语法子网络传递语法规则信息。感受野自适应子网络可以选择性的融合一些特征通道，从而针对于不同大小的部件可以自适应产生不同大小的感受野，进而有效的改善网络解析性能。本方法训练得到的深层卷积神经网络，能够有效的提取图像中的前景信息以及产生大小合适的感受野，从而有效提升网络解析的精度。

其一方面，该基于深度学习的混合语法人体解析方法，包括：

S1，存储模块提供人体解析数据集；

一些实施例中，收集人体图片，标注该人体图片的像素标签，组成人体解析数据集，存放至存储模块中待用。

S2，输入该人体图片至一特征提取网络中，利用该特征提取网络输出该人体图片各个部件的特征图。

S3，将这些特征图有序的输入到混合语法子网络中；

一些实施例中，该混合语法子网络中包含五个进化卷积循环神经子网络，且每个进化卷积循环神经子网络对应一个语法规则，利用这些语法规则中人体部件之间的相互关系，使用显著部件来促进细小部件的解析。特别地，各该进化卷积循环神经子网络之间具有混连的关系，即串联关系以及并联的关系，这些可以促进图像前景以及人体部件的解析。

S4，将混合语法子网络的输出输入至感受野自适应子网络进一步解析；

一些实施例中，感受野自适应子网络可以更加鲁棒和有效的解析出各个部件，通过选择不同的通道融合来自适应的产生合适的感受野。

其中，特征提取网络、混合语法子网络以及感受野自适应子网络是端到端进行联合训练的，并使用对应的监督信息联合优化网络，使得基于深度学习自适应的混合语法人体解析方法可以有效提取前景信息并且相对完整的解析出不同大小的人体部件，最终得到关于该人体解析数据集的预测图。

一些实施例中，在步骤S2中，特征提取为公知技术，在此不再赘述。

一些实施例中，在步骤S3中，混合语法子网络由进化卷积循环神经子网络组成，其中进化卷积循环神经子网络采用混合连接的方式。具体步骤如下：

S31：根据人的先验知识以及相关文献中关于语法的定义与应用。我们设定了5个语法规则，是由人体部件来表示的，从比较容易从背景中区分并且重要的部件开始，在本发明中我们从头部开始，以相对困难从背景中区分的部件结束，比如小胳膊等。语法规则可以把人的思想加进算法中，可以避免一些模棱两可事情发生，提高网络的效率。由于不同的数据集有不同的标签形式，对应的语法规则会有细微的调整；

S32：每个语法规则使用一个进化卷积循环神经子网络来表示，相对于普通的卷积循环神经网络而言，这种进化卷积循环神经子网络更加适合语法规则的传递，对其网络结构也进行了相应的改进。它可以保留空间上的语义信息同时也可以表达语法信息；

S33：进化卷积循环神经子网络采用混合连接的方式，即语法规则之间既有串联也有并联关系。在串联关系中，下一个进化卷积循环神经子网络继承上一个进化卷积循环神经子网络的结果，这样可以不断的精细化矫正结果，逐渐提高前景的提取。同时，每个进化卷积循环神经子网络不断的吸取新的输入，并且采用每个语法规则对应的监督信息，来减少误差的积累。在并联关系中，第一个进化卷积循环神经子网络作为重要的语法规则，其输出会同时传递到第二个和第四个进化卷积循环神经子网络；

S34：在每一次迭代过程中，进化卷积循环神经子网络的输入都会根据上一个的输出进化。

一些实施例中，在步骤S4中，感受野自适应子网络的解析包括：

S41：感受野自适应子网络的输入是混合语法子网络的输出，感受野自适应子网络可以生成0-1之间的系数，用于特征通道上；

S42：这些特征通道有两种不同的感受野，通过S41产生的系数和该特征通过进行融合，来自适应的选择融合的特征通道。对不同的人体部件可以产生合适的感受野，因此有利于解析出不同大小的部件。

一些实施例中：上述的整个网络仅使用人体解析的标签作为监督，在训练的过程中不使用任何额外的监督信息；同时，由于不同的进化卷积循环神经子网络对应不同的人体部件，因此对于不同的进化卷积循环神经子网络采用不同的标签组成。

其另一方面，该基于深度学习的混合语法人体解析装置，包括：

存储模块，存储人体解析数据集；

有鉴于以上实现方法及装置，本发明结合一具体实施例并使用上述装置对该基于深度学习的混合语法人体解析方法做进一步介绍，请参照图1，具体包括以下步骤：

步骤1：从存储模块中下载人体解析数据集，该人体解析数据集包括人体图片和该人体图片的像素标签，将该图像数据输入到处理模块(网络)中，网络包括特征提取网络、混合语法子网络和感受野自适应子网络，以及对应的监督信息联合优化网络。

步骤2：特征提取网络提取图片相应的信息，在监督信息的作用下，可以输出各个部件的特征图，如图2左侧。

步骤3：特征图输入到混合语法子网络如图2中间，子网络中的进化卷积循环神经子网络依次接受对应特征图(如图3)，其可以模拟语法的传递过程。通过步骤3，混合语法子网络可以获得人体内部的层次关系以及不同部件之间的关系，同时促进前景从困难背景中提取以及细小部件的挖掘。本实施例中，该步骤具体包括：

混合语法子网络把自然语言中广泛应用的语法迁移到图像任务中，语法的通用规则如下：

S→A₁|A₂...|A_n，

其中，“|”表示或操作，a_i为正数，根节点S可以一次性到达任何其他的点，任何其他的点A₁可以以a_i或者和A_j相乘的方式传递或者终结；

我们把这种语法迁移到人体解析任务上，以头部为根结点逐渐扩散到其他的部件。我们使用六个部件来组成语法规则，由于不同的数据集标注不一样，语法规则会有稍微的变动。这5条语法规则如下：

1，头→躯干

2，头→躯干→上臂

3，头→躯干→上臂→下臂

4，头→躯干→大腿

5，头→躯干→大腿→小腿

正如图2中间的混合语法子网络所示，这是一个混合连接的网络包括串联和并联。在每一次迭代过程中，后续网络的一个输入由前面一个的输出来更新的。串联是因为语法本身有一个交集关系，使用这个关系可以节省计算量和修正细化前面的结果。并联是因为腿部和躯干以及头部之间的关系很紧密，而与胳膊的关系小，所以采用并联方式；

语法信息在进化卷积循环神经子网络中传输通过图3所示的网络结构，图3的结构相对于传统的卷积循环神经网络添加了语法规则的对应卷积以及应用了监督信息，使其更加适合语法规则的训练。每一个进化卷积循环神经子网络输入对应部件的信息也会输出对应部件的信息，从而经混合语法子网络的作用得到训练后的各个部件的特征图，将其与特征提取网络的输出对应合并，并将这些合并的特征输入到后续的集合层和卷积层，使每个部件都有相同的卷积数目，由此得到的混合语法子网络的输出，同时为步骤4增加了特征图感受野的多样性。

步骤4：混合语法子网络产生的特征图会输入到感受野自适应子网络中，感受野自适应子网络会选择性的融合各个尺度的特征图，以产生合适的感受野。本实施例中，该步骤进一步包括：

如图2右侧所示，感受野自适应子网络有三个分支(包括一个选择通道和两个特征通道)，从上往下看，第一条分支(选择通道)产生0-1之间的数字作用于后续的两个不同感受野的分支(特征通道)进行特征通道选择。它的选择过程如下：

其中，表示通道级别乘，c_b表示第b个分支的特征通道，b涉及0和1，Cb表示选择之后的第b个分支的特征通道，w代表权重；

把选择之后的特征通道以及混合语法子网络的输出进行合并，其公式如下：

F^r＝concat(C_b，F^b)

这些合并的特征输入一个后续的卷积层，即步骤5。

步骤5：通过以上的步骤，通过该网络可以输出图片对应的预测图。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的混合语法人体解析方法，其特征在于，包括：

存储模块提供人体解析数据集；

将所述人体解析数据集输入至一特征提取网络，在监督信息的作用下，解析得到关于所述人体解析数据集的各个部件的特征图；

所述特征图依次输入至一混合语法子网络和一感受野自适应子网络进行解析，得到关于所述人体解析数据集的预测图，其中，所述混合语法子网络包括多个串联或并联连接的进化卷积循环神经子网络，各个所述进化卷积循环神经子网络对应一个语法规则，每个所述进化卷积循环神经子网络接收对应部件的信息作为输入并输出对应部件的信息，经由所述混合语法子网络的作用得到训练后的各个部件的特征图，将所述训练后的各个部件的特征图与所述特征提取网络输出的各个部件的特征图对应合并，并将这些合并的特征输入到集合层和卷积层，得到所述混合语法子网络的输出；所述混合语法子网络产生的特征图输入到所述感受野自适应子网络中，所述感受野自适应子网络选择性的融合各个尺度的特征图，对不同的部件产生合适的感受野；

其中，所述特征提取网络、所述混合语法子网络和所述感受野自适应子网络均结合对应的监督信息联合优化网络实现解析工作，所述特征提取网络、所述混合语法子网络和所述感受野自适应子网络仅使用人体解析的标签作为监督，根据不同的进化卷积循环神经子网络对应的不同的人体部件，对于不同的进化卷积循环神经子网络采用不同的标签。

2.根据权利要求1所述的基于深度学习的混合语法人体解析方法，其特征在于，所述人体解析数据集包括人体图片和所述人体图片的像素标签。

3.根据权利要求1所述的基于深度学习的混合语法人体解析方法，其特征在于，所述混合语法子网络和所述感受野自适应子网络为端到端连接，且所述混合语法子网络的输出端和所述感受野自适应子网络的输入端连接。

4.根据权利要求1所述的基于深度学习的混合语法人体解析方法，其特征在于，所述语法规则为：

S→A₁|A₂...|A_n，

其中，“|”表示或操作，S表示根节点，A_i表示各个子节点，a_i为正数。

5.根据权利要求1所述的基于深度学习的混合语法人体解析方法，其特征在于，所述感受野自适应子网络包括：

一个选择通道，产生不同的设置值；以及

多个特征通道，每个所述特征通道对应一个所述设置值；

其中，通过将所述设置值和各个所述特征通道进行融合得到对特征通道的选择。

6.根据权利要求5所述的基于深度学习的混合语法人体解析方法，其特征在于，所述对特征通道的选择包括：

其中，表示通道级别乘，c_b表示第b个的特征通道，C_b表示选择之后的第b个的特征通道，w代表权重。

7.根据权利要求6所述的基于深度学习的混合语法人体解析方法，其特征在于，所述感受野自适应子网络的解析还包括：

将选择之后的所述特征通道与所述混合语法子网络的输出进行合并：

F^r＝concat(C_b，F^b)，

其中，F^b表示所述混合语法子网络的输出，F^r表示合并特征；

将所述合并特征输入一后续卷积层，得到关于所述人体解析数据集的预测图。

8.一种基于深度学习的混合语法人体解析装置，其特征在于，包括：

存储模块，存储人体解析数据集；

处理模块，所述处理模块通过权利要求1至7中任一所述的基于深度学习的混合语法人体解析方法解析所述人体解析数据集得到相应的预测图。