CN116524180A

CN116524180A - 基于轻量级主干结构的戏曲舞台场景分割方法

Info

Publication number: CN116524180A
Application number: CN202310348036.8A
Authority: CN
Inventors: 陈莉; 林薇; 李豪斌
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-08-01

Abstract

本发明公开了一种基于轻量级主干结构的戏曲舞台场景分割方法，该方法在DeepLabV3+分割网络的基础上进行构建，设计轻量级主干结构和轻量化网络，具体步骤包括：将MobileNetV3‑small网络第1层的普通卷积改为动态卷积；在MobileNetV3‑small网络的第12层增加逐层动态卷积；在MobileNetV3‑small网络的第13层增加逐点动态卷积；MobileNetV3‑small网络中间的10个反向残差模块保持不动，使用改进后的轻量级主干结构来替换DeepLabV3+分割网络的原主干结构Xception；将分割头中的大卷积核分解成两个非对称卷积核。在戏曲舞台场景数据集上进行实验，以验证模型的泛化性能。相比于原DeepLabV3+网络，轻量化改进后的网络处理速度更快，计算量显著减小，且精度损失较小。

Description

基于轻量级主干结构的戏曲舞台场景分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于轻量级主干结构的戏曲舞台场景分割方法。

背景技术

图像语义分割旨在对图像进行逐像素级别的定位和分类，是实现场景理解的关键技术之一。随着卷积神经网络(Convolutional Neural Network，CNN)的不断发展，基于“编码器-解码器”框架的语义分割算法发展迅速，已广泛应用于医学影像分析、自动驾驶、视频监控、增强现实、智慧城市等多个领域，具有非常广阔的应用前景。

随着CNN在特征提取方面逐渐表现出优异的性能，基于深度CNN的传统语义分割算法在很多场景中取得了不错的分割效果。Long等人提出的首个用于语义分割的全卷积网络FCN是基于AlexNet和VGG-16网络改进的，将全连接层替换为卷积层，实现了端到端的语义分割。Badrinarayananv等人提出了在解码部分引入索引的SegNet，该网络以剔除全连接层之后的VGG-16作为主干结构，去掉全连接层后的VGG-16虽然也能提取较丰富的深度语义信息，但是网络参数量对其性能的影响却是不可忽略的。之后分别于2015年和2016年提出的高性能分类网络GoogleNet、ResNet等模型也被用作全卷积语义分割网络的主干来获取特征图。该类深度卷积神经网络虽然在模型精度上表现了优异的性能，但是庞大的网络体积一直制约着语义分割算法的进一步应用。直到2017年，研究者们开始纷纷提出了各种轻量化网络，并被不断应用于目标检测、语义分割、姿态估计等视觉领域进行特征提取，在精度损失较小的情况下大幅降低了网络的复杂度。2018年Chen等人基于空洞空间金字塔池化结构提出了专门用于解决多尺度语义分割问题的DeepLabV3+分割网络，该网络使用轻量化主干Xception从而提取到较丰富的语义特征。但是Xception网络的参数量仍然偏大，从而导致了DeepLabV3+虽然引入轻量化结构但依然无法满足边缘任务的实时性要求，且未考虑其他维度特征对分割精度的影响，从而限制了分割算法的性能提升。

综上所述，现有技术存在的问题是：DeepLabV3+网络的骨干结构Xception的参数量庞大，从而限制了场景语义分割网络在实时任务中的应用；目前大多数轻量级骨干网络主要关注通道上的特征，由于特征维度过于单一导致算法鲁棒性较差。

发明内容

为了解决现有技术中存在的网络推理速度过慢和特征维度过于单一的技术问题，本发明的目的在于，提供一种基于轻量级主干结构的戏曲舞台场景分割方法，从而提高算法的分割速率和鲁棒性。

为了实现上述任务，本发明所采用如下的技术解决方案：

一种基于轻量级主干结构的戏曲舞台场景分割方法，其特征在于，该方法在DeepLabV3+分割网络的基础上进行构建，设计轻量级主干结构和轻量化网络，具体步骤包括：

步骤一：将MobileNetV3-small网络第1层的普通卷积改为动态卷积，卷积核大小为3×3；

步骤二：在MobileNetV3-small网络的第12层增加卷积核大小为3×3的逐层动态卷积；

步骤三：在MobileNetV3-small网络的第13层增加卷积核大小为3×3的逐点动态卷积；

步骤四：MobileNetV3-small网络中间的10个反向残差模块保持不动，使用改进后的轻量级主干结构来替换DeepLabV3+分割网络的原主干结构Xception；

步骤五：将分割头中的3×3大卷积核分解成两个k×1和1×k的非对称卷积核。

步骤六：在戏曲舞台场景数据集上进行实验，以验证模型的泛化性能。

本发明的基于基于轻量级主干结构的戏曲舞台场景分割方法，带来的有益效果在于：

使用动态卷积改进MobileNetV3轻量级CNN设计新型主干结构并用于特征提取，在保证主干结构轻量化的同时关注通道、空间、输入、输出四个维度上的信息，使轻量级主干结构可以提取多样化的目标特征。相比于原MobileNetV3，能保证主干结构轻量化的同时，提升网络的分割精度。

使用改进的轻量级主干结构替换DeepLabV3+的Xception骨干结构，以精简主干结构；用计算量较小的非对称卷积代替大卷积核以进一步压缩网络体积。相比于原DeepLabV3+网络，轻量化改进后的网络处理速度更快，计算量显著减小，且精度损失较小。

附图说明

图1是深度可分离卷积内部示意图；

图2是MobileNetV3基本单元；

图3是MobileNetV3-small网络结构；

图4是动态卷积基本单元；

图5是马的简单与复杂场景图；

图6是ODConv-M3s网络结构；

图7是非对称卷积示意图；

图8是DL3p-L网络结构；

图9是部分戏曲舞台场景图片；

图10是部分戏曲舞台场景分割可视化结果；

下面结合附图和实施例对本发明作进一步地详细说明。

具体实施方式

申请人依托国家重点研发计划课题“多形态公共文化服务设施和集成化智能装备研制”，研究并破解互动情境下虚拟现实、增强现实、智能人机交互、渲染引擎技术在学习、工作和公共文化服务中的应用。围绕基于轻量级主干结构的网络构建展开研究，为语义分割技术应用于戏曲舞台场景分割提供更加有效和可靠的解决方案。

轻量化语义分割网络(DeepLabV3plus Lightweight，DL3p-L)是在DeepLabV3+的基础上对主干结构进行轻量化改进得到的。申请人的设计思路是，使用动态卷积优化MobileNetV3轻量级CNN，以提高MobileNetV3对其他维度信息的关注；将改进后的MobileNetV3用于特征提取，以精简主干结构并提高特征提取效率；使用非对称卷积代替分割头中的大卷积核，进一步降低网络的计算成本。

本实施例给出一种基于轻量级主干结构的戏曲舞台场景分割方法，该方法在DeepLabV3+分割网络的基础上进行构建，设计轻量级主干结构和轻量化网络，具体步骤包括：

具体实施步骤为：

步骤1：构建轻量级主干结构

MobileNetV3是一种轻量化的图像分类网络，其参数量少、运行速度快，适合实时性和准确度要求高的场景语义分割算法使用。基于此，本对MobileNetV3轻量级CNN进行优化设计，以提升语义分割网络的特征提取性能和推理效率。

步骤1.1：引入MobileNetV3轻量级结构

MobileNet系列是谷歌提出的一种轻量级卷积神经网络，该网络设计了新的深度可分离卷积。相比常规的卷积操作，深度可分离卷积参数量和运算成本更低，是轻量级主干网络能高效运行的核心因素。深度可分离卷积分为两个过程：逐通道卷积(DepthwiseConvolution，DConv)和逐点卷积(Pointwise Convolution，PConv)，卷积内部结构如图1所示。

设卷积核的高为h_c，宽为w_c，输入通道数为C_in，输出通道数为C_out，则一次普通卷积操作和一次深度可分离卷积操作的参数量分别为下式(1)和式(2)所示：

Param(Conv)＝h_c×w_c×C_in×C_out (1)

Param(DSConv)＝h_c×w_c×C_in+C_in×C_out (2)

对比公式(1)和公式(2)可以看出，对于多通道的大卷积核，深度可分离卷积操作能够显著降低卷积运算时的参数量。

MobileNetV2继承MobileNetV1的深度可分离卷积，降低了计算复杂度，减少了参数量。此外，引入了反向残差和线性瓶颈，有效解决了梯度消失的问题，同时提高了网络的准确性。MobileNetV3运用了MobileNetV1的深度可分离卷积和MobileNetV2的线性瓶颈的逆残差结构，保证计算量减少的同时能尽量避免一些有用信息的损失，新增了轻量级的SE注意力模块，使用Hswish激活函数代替swish函数，提高了模型的精度和效率。相较于MobileNetV2，MobileNetV3的分类能力有所提升。因此，本实施例选择MobileNetV3作为语义分割网络的轻量级主干结构。基本单元如图2所示。

MobileNetV3共有两种结构，分别为Large和Small，本实施例选择small级别的MobileNetV3网络，MobileNetV3-small网络结构如图3所示。

步骤1.2：引入动态卷积模块

常规卷积只有一个静态卷积核且与输入样本无关。对于动态卷积来说，它对多个卷积核进行线性加权，且具有输入依赖性。可以描述为如下式(3)：

y＝(α_w1W₁+…+α_wnW_n)×x (3)

2017年，Sara等人提出的动态胶囊网络(Dynamic routing between capsules，DynamicConv)根据输入动态地集成多个并行的卷积核为一个动态核，该动态核具有数据依赖性，即不同数据具有不同的卷积。Brandon等人于2019年基于条件计算提出一种条件参数卷积(Conditionally parameterized Convolutions，CondConv)，可以为每个输入学习一个特定的卷积核参数，保持高效推理。华为团队于2020年提出了动态卷积神经网络(Dynamic Convolution Neural Network，DyConv)，其核心思想与CondConv类似，但DyConv与CondConv的实现是不相同的，主要体现在计算的结构、训练策略以及实施动态卷积的层，这些实现上的差异导致了不同的模型精度、模型大小以及推理效率。2022年，Li等人提出的多维注意力动态卷积(Omni-dimensional Dynamic Convolution，ODConv)可以视作CondConv的延续，将CondConv中一个维度上的动态特性进行了扩展，同时考虑了空域、输入通道、输出通道等维度上的动态性，故也称之为全维度动态卷积。作为一种“即插即用”的操作，它可以轻易的嵌入到现有CNN网络中。ODConv作者在ImageNet分类与COCO检测任务上验证了ODConv的优异性：既可提升大模型的性能，又可提升轻量模型的性能，且受益于其改进的特征提取能力，ODConv搭配一个卷积核时仍可取得与现有多核动态卷积相当甚至更优的性能。因此，本实施例拟将ODConv引入MobileNetV3-small中以提升主干网络的特征提取能力和整体性能。ODConv的动态结构如图4所示。

延续动态卷积的定义，ODConv可以描述成如下式(4)表示的形式：

y＝(α_w1⊙α_f1⊙α_c1⊙α_s1⊙W₁+…+α_wn⊙α_fn⊙α_cn⊙α_sn⊙W_n)×x# (4)

其中，α_wi表示卷积核W_i的注意力标量，α_si∈R^k×k，表示新引入的三个注意力，分别沿空域维度、输入通道维度以及输出通道维度。

步骤1.3：构建ODConv-M3s主干结构

在MobileNetV3-small中，倒残差模块主要使用3×3和5×5的静态卷积核进行深度卷积操作，该模型对于不同的输入场景图片卷积核都是相同的。但是实际的输入图片场景必然有复杂与简单之分，如图5所示，对于图5中的(a)图，大部分人几乎都能够一眼识别出这是一匹马，而当人们看到图5中(b)图时，首先会经过人脑一定的推理，耗费一定时间后才能判断出这也是一匹马。由此可见，对于不同复杂程度的场景图片而言，神经网络也需要具备输入特异性从而进行更加高效的识别、检测与分割等任务。因此静态卷积方式对于复杂场景而言可能是不够高级的，而对于简单场景而言，可能又是冗余的。综上所述，根据不同的输入场景图片配置不同特征提取能力的卷积核是有必要的。

MobileNetV3的每个倒残差模块虽然在每个逐层卷积后使用了SE注意力模块，但该注意力模块仅仅考虑了通道层面的注意力，对于主干网络特征提取能力的提升是有限的。因此，发明人在实验中，尝试将动态卷积引入MobileNetV3-small，主要将倒残差模块之前的第一个3×3普通卷积替换为卷积核为3的动态卷积，中间的10个反向残差模块保持不动，在第12层和第13层新增两个动态卷积层。为方便后序描述，改进后的主干网络称为ODConv-M3s，其网络结构如图6所示。一次InverResidual-bneck操作代表一次倒残差结构、Batch Normalization的组合，Exp_size代表一个bneck内部所进行升维的通道数，NL代表该层所使用的激活函数。第1层是改进后的3×3动态卷积，新增的12层是卷积核大小为3的逐层动态卷积，13层为卷积核大小为1的逐点动态卷积。通过在MobileNetV3-small的头部和尾部添加ODConv动态卷积，进一步考虑除了输入通道以外的包括空间维度、输入通道维度、输出通道维度以及卷积核数量的全维度注意力计算，使主干网络针对不同输入图像提高其特征提取能力，具备较强的输入特异性。

虽然并行结构的全维度注意力机制增加了一定的参数量，但是，由于选择体积较小的MobileNetV3-small且该动态卷积会根据输入对四个不同的维度进行注意力加权求和，因此能在一定程度上保证较低网络参数的同时提高主干结构的特征表达能力，从而达到提高分割网络整体性能的效果。

步骤2：构建DL3p-L语义分割网络

使用ODConv-M3s轻量化主干结构替换DeepLabV3+的Xception原主干结构，大幅压缩网络体积，并使用非对称卷积代替分割头中的大卷积核，进一步减少网络参数量，以此构建DL3p-L轻量化语义分割网络。

步骤2.1：引入非对称卷积

在网络执行卷积操作时，浮点运算是造成运算时间消耗的主要因素，减少浮点运算的次数能够有效地提升网络的实时性。2016年Szegedy等人提出非对称卷积，其核心思想是将普通正方形卷积核分解为两次长方形的非对称卷积，如对于一个n×n的单通道特征图，一次k×k卷积带来的浮点计算次数为：

FLOPs(Conv)＝[k×(n-k+1)]² (5)

非对称卷积的核心思想是将一次k×k卷积分解成一次k×1的卷积和一次1×k的卷积，以对5×5的特征图进行3×3的非对称卷积为例，其过程如图7所示。

由图7可知，对于n×n的特征图，进行一次与k×k卷积等效的非对称卷积的浮点运算次数为：

FLOPs(AsyConv)＝2×k×[n-k+1] (6)

其中，AsyConv代表非对称卷积操作。对比公式(5)和公式(6)可知，非对称卷积将乘方量级的运算分解为了两次乘积操作的和，显著降低了浮点运算量，且该分解带来的运算量优势在卷积核尺寸越大时，体现的越为明显。因此，本实施例拟使用非对称卷积替换网络中的大卷积核以进一步压缩模型参数量。

步骤2.2：构建DL3p-L网络结构

基于ODConv-M3s主干结构并结合非对称卷积，本实施例中，提出轻量化语义分割网络DL3p-L。该网络以DeepLabV3+为基础框架，使用基于ODConv改进的MobileNetV3网络作为特征提取主干结构，并将分割头中的3×3大卷积核分解成k×1和1×k的非对称卷积核，在保证一定精度的前提下实现场景语义分割网络的轻量化。所构建的DL3p-L网络结构如图8所示，图中，ODConv表示动态卷积，AsyConv表示非对称卷积，4倍上采样使用的是双线性插值法。

为了验证本实施例所构建的基于轻量级主干结构的戏曲舞台场景分割网络的有效性，在PASCAL VOC2012数据集上进行实验。实验的硬件环境为Intel(R)Core(TM)i9-10900K CPU@3.70GHz，显卡使用NVIDIA GeForce RTX 3080Ti，软件环境为CUDA11.1，CUDNN8.0.4，通过Python3.6和torch1.6.0进行数据处理。网络模型训练时的参数参考的DeepLabV3+参数设置，同时，对比实验的所有参数均保持一致，具体的参数如表所示。

表1：训练参数设置

为了选择性能较好的特征提取网络作为DL3p-L的主干结构，以DeepLabV3+为基础框架，在PASCAL VOC2012分割数据集上分别以主流轻量化结构Xception、MobileNetV2、MobileNetV3-small以及MobileNetV3-large为主干结构进行消融实验。

经过实验研究发现，基于Xception的原版DeepLabV3+在训练迭代次数达到12000次之后精度不再提升，而基于MobileNet系列的语义分割网络在训练迭代次数达到200次之后精度上升趋势便逐渐平缓，因此，分别以原版DeepLabV3+和基于MobileNet系列的网络设置12000和200的迭代次数。消融实验中输入图片的尺寸均为512*512，表2为不同轻量级主干网络消融实验结果。

表2：不同轻量级主干网络消融实验结果

由于MobileNet系列主干结构大多采用特征提取性能好且轻量的深度可分离卷积和SE注意力模块，因此，与基于Xception的DeepLabV3+原网络相比，基于MobileNet系列的新网络参数量压缩幅度基本在89％-94％之间，其中基于MobileNetV3的网络计算量均减少了90％以上，但是精度损失均只有5％左右。该消融实验从分割速率、计算量、模型参数量以及分割精度多个角度进行分析，验证了基于轻量级主干结构的分割算法在平衡分割精度与推理速度方面的有效性，为轻量化分割网络在实时任务中的应用提供了保证。

从表2可以发现，在网络体积方面，以MobileNetV3-small和MobileNetV3-large为主干结构的网络3和网络4更适合移动端部署。考虑分割精度，则MobileNetV2又更胜一筹，可以使用这个比值量化各网络的高效性，在综合考虑轻量化及精度提升的前提下，选择MobileNetV3-small作为基准分割网络的特征提取结构较为合适，并将基准网络命名为DL3p-M3s。

为了说明DL3p-M3s以及基于动态卷积改进主干结构后的轻量化分割网络DL3p-L的有效性，选择PASCAL VOC2012分割数据集进行实验，并和主流的实时分割网络ENet、ICNet、BiseNet进行了实验对比。表3是各网络的复杂度及精度数据。

表3：PASCAL VOC2012数据集对比实验结果

从表3可以看到，由于轻量级主干结构的应用，与SegNet相比本章基准网络DL3p-M3s的参数量压缩了近83.6％，精度提升了近12.1％；和经典的实时分割网络ENet对比，DL3p-M3s网络的推理速度虽然下降了59.1％，但是精度提升了近15.5％，说明了MobileNetV3中所用SE注意力模块的有效性；与ICNet、BiSeNet等性能较好的快速语义分割网络相比，DL3p-M3s拥有更高的分割精度和更快的预测速度，同样证明了轻量级主干结构MobileNetV3的有效性。另外，得益于动态卷积对多维度特征信息的关注，基于新型轻量化主干结构M3s-ODConv的语义分割网络DL3p-L虽然在权重上比DL3p-M3s膨胀了0.09M(几乎可以忽略不计)，但是精度提升了0.19％，且分割速度提升了1.1％。因此，本实施例构建的基于轻量级主干结构的戏曲舞台场景分割网络实现了精度和速度之间的有效平衡。

由于目前缺乏戏曲舞台场景相关的数据集，发明人利用互联网收集并筛选了1000张戏曲舞台场景图片，并对这1000张图片进行分组，以6：2：2分为训练集、验证集和测试集。其中600张作为语义分割的训练集，200张作为验证集，剩下的200张作为测试集。数据集制作中仅对训练集和验证集进行标注，测试集只用于测试效果的展示。使用Labelme软件进行标注工作，将所有的标注信息统一制作为PASCAL VOC2012数据集的数据格式。图9展示了部分戏曲舞台场景。第一行为仅包含单个戏曲演员的简单场景，第二行为包含了较多戏曲演员的复杂场景。

为了验证本实施例构建的轻量级主干结构的基于轻量级主干结构的戏曲舞台场景分割网络在戏曲舞台场景分割任务中的有效性，将所构建的基于轻量级主干结构的戏曲舞台场景分割网络对戏曲舞台图片进行有效性验证，实验结果如表4所示。

表4：戏曲舞台数据集对比实验结果

从实验结果可以看出，在戏曲舞台场景分割任务上，采用本实施例构建的基于轻量级主干结构的戏曲舞台场景分割网络仍能达到较高的分割精度和较快的分割速率，表明了基于轻量级主干结构的场景语义分割网络的有效性和较好的泛化能力。相比主流的实时语义分割网络ENet和BiSeNet，本方法在推理速度和分割精度方面能够达到较好的平衡，说明了MobileNetV3轻量级主干结构和动态卷积的有效性，且为本方法在戏曲舞台分割任务中的实际应用提供了可行性方案。

除了定量分析，为了更直观地感受本实施例构建的基于轻量级主干结构的戏曲舞台场景分割网络，在戏曲舞台场景分割任务上的效果，对网络分割效果进行了可视化，部分可视化结果如图10所示，第一列为原图，第二列为DL3p-M3s的分割结果，第三列为DL3p-L的分割结果。从图10可以看出，DL3p-L对于戏曲演员的衣服、手臂以及道具等目标的分割效果均优于DL3p-M3s，说明了动态卷积在提高特征提取效率方面有一定作用。从整体分割效果来看，所构建的基于轻量级主干结构的戏曲舞台场景分割网络能够分割出戏曲演员、服装、道具等基本舞台要素的大致轮廓，表明了该基于轻量级主干结构的戏曲舞台场景分割网络在戏曲舞台场景分割任务上的有效性。

Claims

1.一种基于轻量级主干结构的戏曲舞台场景分割方法，其特征在于，该方法在DeepLabV3+分割网络的基础上进行构建，设计轻量级主干结构和轻量化网络，具体步骤包括：