CN113496228B

CN113496228B - 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法

Info

Publication number: CN113496228B
Application number: CN202110875745.2A
Authority: CN
Inventors: 郝立颖; 杨正凯
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2024-03-26
Anticipated expiration: 2041-07-30
Also published as: CN113496228A

Abstract

本发明提供一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法，包括获取人体部分语义分割数据集；引入Res2Net网络、TransUNet网络和Coordinate Attention机制，搭建神经网络模型；设计损失函数，并利用Adam算法对所述神经网络模型进行优化；采用数据集训练优化后的所述神经网络模型；输入待分割的人体图像到训练后的神经网络模型中，得到人体图像分割结果。本发明的技术方案解决了因实际拍摄的人体图像中，图像环境复杂，人体数量较多，现有技术在对人体语义分割时往往表现不佳，不能准确地将图像中人体的各个部分分割出来的问题。

Description

一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法

技术领域

本发明涉及图像分割技术领域，具体而言，尤其涉及一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法。

背景技术

复杂实际场景下的人体语义分割就是要从实际的野外场景下，对图像内的人体进行部分分割。通过建立深度神经网络模型并利用完整的数据集进行训练，使其能够适应各种复杂的实际环境。Ke Gong等人提出了PGN网络来分割复杂场景图像中的人体。使用ResNet-101提取特征图。然后，附加两个分支以捕获部分背景和人类边界背景，同时生成部分得分图和边缘得分图。最后，执行一个细化分支，通过整合部分分割和人类边界背景来细化预测的分割图和边缘图。U-Net系列算法通过对图像下采样，在上采样的方式对图像进行分割。模型的参数小，分割效果好。

但是，在实际拍摄的人体图像中，图像环境复杂，人体数量较多，现有技术在对人体语义分割时往往表现不佳，不能准确地将图像中人体的各个部分分割出来。

发明内容

根据上述提出的技术问题，提供一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法。

本发明采用的技术手段如下：

一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法，包括如下步骤：

S1、获取人体部分语义分割数据集；

S2、引入Res2Net网络、TransUNet网络和Coordinate Attention机制，搭建神经网络模型；

S3、设计损失函数，并利用Adam算法对所述神经网络模型进行优化；

S4、采用数据集训练优化后的所述神经网络模型；

S5、输入待分割的人体图像到训练后的神经网络模型中，得到人体图像分割结果。

进一步地，所述获取人体部分语义分割数据集，包括：

获取CIHP人体语义分割数据集，并将数据集划分为训练数据集和验证数据集；

将训练数据集中的全部语义图片用于神经网络模型的训练；

随机抽取验证数据集中的N张图像，用于评估神经网络模型的性能，其中，N小于等于10。

进一步地，所述引入Res2Net网络、TransUNet网络和Coordinate Attention机制，搭建神经网络模型，包括：

搭建的神经网络模型包括编码器单元和解码器单元；

编码器单元包括Res2Net网络和TransUNet网络，Res2Net网络和TransUNet网络提取输入图像中的全局特征和局部特征，得到特征图；

解码器单元包括上采样模块和Coordinate Attention机制，解码器单元获取并合并特征图，上采样模块对特征图进行处理，Coordinate Attention机制对处理后的特征图中的特征进行聚集，以分割图像并恢复至原来的图像大小。

进一步地，所述Coordinate Attention机制使用两个空间范围的池化核来分别沿横坐标和纵坐标对每个通道进行编码；所述Coordinate Attention机制分别沿两个空间方向聚集特征，产生一对方向感知的特征图，这两个转换还允许注意力块沿一个空间方向捕捉长距离的依赖性，并沿另一个空间方向保留精确的位置信息。

进一步地，所述设计损失函数，并利用Adam算法对所述神经网络模型进行优化，包括：

定义全局的损失函数；

使用Adam算法对神经网络模型进行梯度下降；

采用动态递减学习率策略，对神经网络模型进行优化。

所述采用数据集训练优化后的所述神经网络模型，包括：

设定神经网络模型的训练总数，输入图像的大小，初始学习率以及批次大小；

对优化后的神经网络模型进行训练，训练公式如下：

上式中，max_iter＝212100，power＝0.9，0<iter<212100。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时，执行上述基于Res2Net、TransUNet和协同注意力的人体语义分割方法。

一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器通过所述计算机程序运行执行上述基于Res2Net、TransUNet和协同注意力的人体语义分割方法。

较现有技术相比，本发明具有以下优点：

1、本发明提供的基于Res2Net、TransUNet和协同注意力的人体语义分割方法，首次使用Res2Net网络和TransUNet网络作为编码器，用于提取图像内的局部特征和全局特征。

2、本发明提供的基于Res2Net、TransUNet和协同注意力的人体语义分割方法，通过加入协同注意力模块，能够大大提高模型在解码器部分的分割精度，解决了现有技术中直接使用上采样进行解码导致分割精度不高的问题。

基于上述理由本发明可在图像分割等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明实施例提供的本发明方法整体网络(RTCA-Net)结构示意图。

图3为本发明实施例提供的Coordinate Attention机制结构示意图。

图4为本发明实施例提供的Res2Net网络结构示意图。

图5为本发明实施例提供的语义分割模块性能对比图。

图6为本发明实施例提供的分别是原标签、RTCA-Net和TransUNet的人体分割结果。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法，包括：获取人体部分语义分割数据集；引入Res2Net网络、TransUNet网络和Coordinate Attention机制，搭建神经网络模型；设计损失函数，并利用Adam算法对所述神经网络模型进行优化；采用数据集训练优化后的所述神经网络模型；输入待分割的人体图像到训练后的神经网络模型中，得到人体图像分割结果，训练到整个模型收敛，即可用于人体分割。

具体实施时，作为本发明优选的实施方式，所述获取人体部分语义分割数据集，包括：

获取CIHP人体语义分割数据集，共38280张图像，并将数据集划分为训练数据集和验证数据集；其中训练数据集包括28280张图像，验证数据集包括5000张图像；

将训练数据集中的全部语义图片用于神经网络模型的训练；

随机抽取验证数据集中的N张图像，用于评估神经网络模型的性能，其中，N小于等于10。本实施例中，随机挑选了10张图像进行测试模型的性能指标。

具体实施时，作为本发明优选的实施方式，所述引入Res2Net网络、TransUNet网络和Coordinate Attention机制，搭建神经网络模型，包括：

搭建的神经网络模型包括编码器单元和解码器单元；

本实施例中，提供的具体的人体语义分割方法，包括如下几个部分：

下采样部分：共有三次下采样，其采样尺寸分别为256*256，128*128，64*64。

上采样部分：共有四次上采样，其采样尺寸分别为64*64，128*128，256*256，512*512。

跳过层：跳过层的尺寸为对应下采样层尺寸的一半，即256*256，128*128，64*64。

本发明方法，所用的网络如图2所示。首先，图像数据经过Res2Net50网络，分别提取得到大小为256，128，64的特征图。然后，把Res2Net50网络中大小为32的特征图扁平化处理，再送入TransUNet网络中。再将处理后的数据重新塑造尺寸，对其进行上采样处理。将上采样处理后的特征图与和大小为64的特征图合并，经过3*3卷积特征提取，再经过Coordinate Attention机制对特征图进行聚焦。以此类推，最后得到图像大小的特征图，然后对特征图进行双线性上采样至全分辨率，以预测最终的分割结果。

具体实施时，作为本发明优选的实施方式，如图3所示，所述CoordinateAttention机制使用两个空间范围的池化核来分别沿横坐标和纵坐标对每个通道进行编码；所述Coordinate Attention机制分别沿两个空间方向聚集特征，产生一对方向感知的特征图，这两个转换还允许注意力块沿一个空间方向捕捉长距离的依赖性，并沿另一个空间方向保留精确的位置信息。这有助于网络更准确地定位感兴趣的物体。

本实施例中，如图4所示，为Res2Net网络结构示意图，先使用1*1的卷积对输入的特征图进行卷积后，它将特征图均匀地分割成s个特征图子集。除X1外，每个Xi都有一个相应的3*3卷积，用Ki表示。用yi表示Ki的输出。将特征子集Xi与Ki-1的输出相加，然后送入Ki中。3*3卷积算子有可能接收来自所有特征分割的特征信息。每次特征分割通过3*3卷积算子时，可能输出具有比特征分割更大的感知域。由于组合爆炸的影响，Res2Net网络的输出中包含不同数量和不同组合的感受野大小/尺度。在Res2Net网络中，分割是以多尺度方式处理的，这有利于提取全局和局部信息。为了更好地融合不同尺度的信息，把所有的分割都串联起来，并通过1个卷积来处理它们。分割和串联策略可以强制卷积，更有效地处理特征。

具体实施时，作为本发明优选的实施方式，所述设计损失函数，并利用Adam算法对所述神经网络模型进行优化，包括：

定义全局的损失函数；

使用Adam算法对神经网络模型进行梯度下降；

采用动态递减学习率策略，对神经网络模型进行优化。

具体实施时，作为本发明优选的实施方式，所述采用数据集训练优化后的所述神经网络模型，包括：

设定神经网络模型的训练总数，输入图像的大小，初始学习率以及批次大小；本实施例中，网络模型使用的训练总数为30，输入的图像大小为512*512，初始学习率(i_lr)为0.001，批次大小为4。

对优化后的神经网络模型进行训练，训练公式如下：

上式中，max_iter＝212100，power＝0.9，0<iter<212100。

如图5所示，为本实施例提供的使用Res2Net和Coordinate Attention前后性能变化对比图，从图中可以明显看出引入使用Res2Net和Coordinate Attention后的神经网络模型具有更好的检测性能。各个指标都要比之前的网络模型的得分高。

如图6所示，为本实施例提供的分别是原标签、RTCA-Net和TransUNet的人体分割结果图，由图中可以看出RTCA-Net的分割结果更接近原始分割图，由此可以看出本发明在复杂环境场景下拥有非常优秀的人体分割能力。

本申请实施例还公开了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时，执行上述基于Res2Net、TransUNet和协同注意力的人体语义分割方法。

本申请实施例还公开了一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器通过所述计算机程序运行执行上述基于Res2Net、TransUNet和协同注意力的人体语义分割方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法，其特征在于，包括如下步骤：

S1、获取人体部分语义分割数据集；

S2、引入Res2Net网络、TransUNet网络和Coordinate Attention机制，搭建神经网络模型，包括：

搭建的神经网络模型包括编码器单元和解码器单元；

解码器单元包括上采样模块和Coordinate Attention机制，解码器单元获取并合并特征图，上采样模块对特征图进行处理，Coordinate Attention机制对处理后的特征图中的特征进行聚集，以分割图像并恢复至原来的图像大小；

所述Coordinate Attention机制使用两个空间范围的池化核来分别沿横坐标和纵坐标对每个通道进行编码；所述Coordinate Attention机制分别沿两个空间方向聚集特征，产生一对方向感知的特征图，这两个转换还允许注意力块沿一个空间方向捕捉长距离的依赖性，并沿另一个空间方向保留精确的位置信息；S3、设计损失函数，并利用Adam算法对所述神经网络模型进行优化；

S4、采用数据集训练优化后的所述神经网络模型；

2.根据权利要求1所述的基于Res2Net、TransUNet和协同注意力的人体语义分割方法，其特征在于，所述获取人体部分语义分割数据集，包括：

将训练数据集中的全部语义图片用于神经网络模型的训练；

3.根据权利要求1所述的基于Res2Net、TransUNet和协同注意力的人体语义分割方法，其特征在于，所述设计损失函数，并利用Adam算法对所述神经网络模型进行优化，包括：

定义全局的损失函数；

使用Adam算法对神经网络模型进行梯度下降；

采用动态递减学习率策略，对神经网络模型进行优化。

4.根据权利要求1所述的基于Res2Net、TransUNet和协同注意力的人体语义分割方法，其特征在于，所述采用数据集训练优化后的所述神经网络模型，包括：

对优化后的神经网络模型进行训练，训练公式如下：

上式中，i_lr为初始学习率，max_iter＝212100，power＝0.9，0<iter<212100。

5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时，执行所述权利要求1至4中任一项权利要求所述的方法。

6.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序运行执行所述权利要求1至4中任一项权利要求所述的方法。