CN111768375B

CN111768375B - 一种基于cwam的非对称gm多模态融合显著性检测方法及系统

Info

Publication number: CN111768375B
Application number: CN202010588920.5A
Authority: CN
Inventors: 靳婷; 张欣悦
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-07-26
Anticipated expiration: 2040-06-24
Also published as: CN111768375A

Abstract

本发明公开了一种基于CWAM的非对称GM多模态融合显著性检测方法及系统，包括，采集图像数据进行预处理，形成样本数据集；基于深度学习策略构建卷积神经网络模型，输入样本数据集进行训练，获得显著性检测图；将训练完成的显著性检测图构成集合并计算与其对应的真实人眼注释图像集合之间的损失函数值，得到最优权值矢量和最优偏置项；将待检测的图像输入训练完成的卷积神经网络模型中，利用最优权值矢量和最优偏置项进行预测判断，得到图像的显著性检测图像。本发明能够有效利用深度图和RGB图的多尺度多层级的丰富图像信息，有效解决高层特征传到低层时的溶解问题；加入通道注意力模块后，增强了显著区域的表达。

Description

一种基于CWAM的非对称GM多模态融合显著性检测方法及系统

技术领域

本发明涉及深度学习的视觉显著性检测技术领域，尤其涉及一种基于CWAM的非对称GM多模态融合显著性检测方法及系统。

背景技术

在图像中寻找感兴趣的对象时，人可以自动捕获对象及其上下文之间的语义信息，对显著对象给予高度的关注，并选择性地抑制不重要的因素。这种精确的视觉注意机制已经在各种生物逻辑模型中得到了解释。显著性检测的目的是自动检测图像中最具信息和吸引力的部分。在许多图像应用，例如图像质量评估、语义分割、图像识别等，确定显著目标不仅可以降低计算成本，还可以提高显著性模型的性能。早期的显著性检测方法采用手工特征，即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。

随着显著性研究的深入，发现这些手工特征已经不足以很好的捕获图像中的特征，因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此，采用深度学习的方法能更好的提取图像特征，以达到更好的显著性检测效果。现有的显著性检测方法大多数已经采用深度学习的方法，利用卷积层与池化层相结合的方法提取图像特征，但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性，尤其是进行池化操作会丢失图像的特征信息，从而会导致得到的显著性预测图效果较差，预测的准确度低。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种基于CWAM的非对称GM多模态融合显著性检测方法及系统，能够解决显著性检测准确度较低、成本较高的问题。

为解决上述技术问题，本发明提供如下技术方案：包括，采集图像数据进行预处理，形成样本数据集；基于深度学习策略构建卷积神经网络模型，输入所述样本数据集进行训练，获得显著性检测图；将训练完成的所述显著性检测图构成集合并计算与其对应的真实人眼注释图像集合之间的损失函数值，得到最优权值矢量和最优偏置项；将待检测的图像输入训练完成的所述卷积神经网络模型中，利用所述最优权值矢量和所述最优偏置项进行预测判断，得到所述图像的显著性检测图像。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的一种优选方案，其中：构建所述卷积神经网络模型之前还包括，分别选取带有目标物体的原始立体图形的RGB图、深度图及所述真实人眼注释图作为所述图像数据；利用HHA策略处理所述深度图，且与所述原始立体图像对应具有三通道的集合；根据所述图像数据建立训练集、验证集和测试集，构成所述样本数据集。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的一种优选方案，其中：所述卷积神经网络模型包括，输入层、隐层和输出层。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的一种优选方案，其中：所述训练包括，将所述训练集输入所述卷积神经网络模型内进行训练，得到与所述原始立体图像对应的所述显著性检测图；标记训练完成全部得到的所述显著性检测图以构成所述集合，利用所述卷积神经网络模型计算所述损伤函数值；重复训练计算进行m次迭代，得到卷积神经网络分类训练模型和n*m个损失函数值；选取所述损失函数值中最小的值对应的所述卷积神经网络模型的权值矢量和偏置项进行保留；所述卷积神经网络模型训练结束。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的一种优选方案，其中：将保留的所述权值矢量和所述偏置项作为训练好的所述卷积神经网络模型进行预测判断的所述最优权值矢量和所述最优偏置项。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的一种优选方案，其中：包括，将目标物体待检测的所述RGB图和所述深度图的组合

的R通道分量、G通道分量和B通道分量输入训练后的所述卷积神经网络模型中；利用所述最优权值矢量和所述最优偏置项进行预测，得到所述组合

对应的所述显著性检测图像

其中，

中坐标位置为(x′,y′)的像素点的像素值。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测系统的一种优选方案，其中：包括，采集模块，用于获取所述原始立体图形的所述RGB图、所述深度图及所述真实人眼注释图，构建所述样本数据集；数据处理中心模块，用于接收、计算、存储、输出待处理的所述权值矢量和所述偏置项，其包括运算单元、数据库和输入输出管理单元，所述运算单元与所述采集模块相连接，用于接收所述采集模块获取的所述图像数据，对其进行预处理及权值运算，所述数据库连接于各个模块，用于存储接收的所有数据信息，为所述数据处理中心模块提供调配供应服务，所述输入输出管理单元用于接收各个模块的信息并输出所述运算单元的运算结果。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测系统的一种优选方案，其中：包括，神经网络块有十个，其用于处理所述RGB图和所述深度图，所述RGB图经由第一个至第五个所述神经网络块的处理，得到五个RGB特征图集合，所述深度图经由第六个至第十个所述神经网络块的处理，得到五个深度图特征图集合；全局引导模块连接于所述神经网络块，其用于卷积、激活、归一、池化所述特征图，输出处理后的最终所述特征图。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测系统的一种优选方案，其中：还包括，通道注意力模块与所述全局引导模块相连接，其用于调整矩阵形状、计算处理所述特征图集合，输出最终的调整图；综合融合模块连接于所述神经网络块和所述通道注意力模块，其用于合并所述RGB特征图和所述深度图特征图，通过通道数叠、卷积处理，输出显著性预测图。

作为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测系统的一种优选方案，其中：所述全局引导模块还包括，第一卷积层、第一激活层、第一归一层、第一扩张卷积层、第二激活层、第二归一层、第二扩张卷积层、第三激活层、第三归一层、第三扩张卷积层、第四激活层、第四归一层、第一最大池化层和CWAM。

本发明的有益效果：本发明采用非对称的编码结构充分提取RGB和深度图特征，能够有效利用深度图和RGB图的多尺度多层级的丰富图像信息；采用了全局引导模块，能够有效解决高层特征传到低层时的溶解问题；加入通道注意力模块后，该模块保留了深度特征和RGB特征的通道细节，增强了显著区域的表达。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的流程示意图；

图2(a)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第一幅原始立体图像对应的真实人眼注释示意图；

图2(b)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第一幅原始立体图像对应的真实人眼注释图进行检测后得到的显著性检测示意图；

图3(a)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第二幅原始立体图像对应的真实人眼注释示意图；

图3(b)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第二幅原始立体图像对应的真实人眼注释图进行检测后得到的显著性检测图；

图4(a)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第三幅原始立体图像对应的真实人眼注释示意图；

图4(b)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第三幅原始立体图像对应的真实人眼注释图进行检测后得到的显著性检测图；

图5(a)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第四幅原始立体图像对应的真实人眼注释示意图；

图5(b)为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的同一场景第四幅原始立体图像对应的真实人眼注释图进行检测后得到的显著性检测图；

图6为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测方法的总体实现框架示意图；

图7为本发明所述的一种基于CWAM的非对称GM多模态融合显著性检测系统的模块结构分布示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

图像的显著性检测是将原始图像简化为图像中的显著性区域标注出来,为图像的分割、识别、缩放等后续的编辑处理提供了准确的定位,在视频目标追踪、人脸识别、军事目标抓捕等领域有广泛的应用前景，近年来大数据和深度学习的技术兴起,卷积神经网络(CNN)在图像的显著性目标检测表现出非常优越的性能,通过卷积神经网络的分类与回归,实现对图像显著性目标的边界信息更好的定位捕抓。

参照图1～图5，为本发明的第一个实施例，该实施例提供了一种基于CWAM的非对称GM多模态融合显著性检测方法，包括：

S1：采集图像数据进行预处理，形成样本数据集。其中需要说明的是：

分别选取带有目标物体的原始立体图形的RGB图、深度图及真实人眼注释图作为图像数据；

利用HHA策略处理深度图，且与原始立体图像对应具有三通道的集合；

根据图像数据建立训练集、验证集和测试集，构成样本数据集。

训练集中，第i幅(1≤i≤n)原始立体图像的RGB图记为

原始立体图像所对应的深度图记为

原始立体图像和深度图所对应的真实人眼注视图记为{GTⁱ(x,y)}；

其中，(x,y)：像素点的坐标位置，W：原始立体图像的宽度，H：原始立体图像的高度，则1≤x≤W，1≤y≤H。

S2：基于深度学习策略构建卷积神经网络模型，输入样本数据集进行训练，获得显著性检测图。本步骤需要说明的是，训练包括：

将训练集输入卷积神经网络模型内进行训练，得到与原始立体图像对应的显著性检测图；

标记训练完成全部得到的显著性检测图以构成集合，利用卷积神经网络模型计算损伤函数值；

重复训练计算进行m次迭代，得到卷积神经网络分类训练模型和n*m个损失函数值；

选取损失函数值中最小的值对应的卷积神经网络模型的权值矢量和偏置项进行保留；

将保留的权值矢量和偏置项作为训练好的卷积神经网络模型进行预测判断的最优权值矢量和最优偏置项；

卷积神经网络模型训练结束。

S3：将训练完成的显著性检测图构成集合并计算与其对应的真实人眼注释图像集合之间的损失函数值，得到最优权值矢量和最优偏置项。其中还需要说明的是：

输入训练集中的原始立体图像的RGB图和深度图至卷积神经网络中进行训练，得到原始立体图像对应的显著性检测图，将训练完成得到的显著性检测图构成的集合记为{Pⁱ(x,y)}；

计算训练得到的显著性检测图构成的集合

与对应的真实人眼注视图像{GTⁱ(x,y)}构成的集合之间的损失函数值记为LOSS({Pⁱ(x,y)},{GTⁱ(x,y)})。

S4：将待检测的图像输入训练完成的卷积神经网络模型中，利用最优权值矢量和最优偏置项进行预测判断，得到图像的显著性检测图像。本步骤还需要说明的是：

将目标物体待检测的RGB图和深度图的组合

的R通道分量、G通道分量和B通道分量输入训练后的卷积神经网络模型中；

利用最优权值矢量和最优偏置项进行预测，得到组合

对应的显著性检测图像

其中，

中坐标位置为(x′,y′)的像素点的像素值。

优选的是，为了进一步验证本发明方法的可行性和有效性，本实施例选择以本发明方法对两个数据集NUS和NCTU中的每幅立体图像进行检测，得到每幅立体图像对应的显著性检测图像，且本实验中的数据集选用视觉显著性检测数据集NUS中的420幅图像和NCTU中的332幅图像作为训练集，60幅NUS图像和48幅NCTU图像作为验证集，剩下95幅NUS图像和120幅NCTU图像作为测试集。

较佳的是，本实施例使用基于python的深度学习库PyTorch1.1.0搭建基于注意力机制的非对称多模态融合显著性检测方法的卷积神经网络架构，采用数据集NUS和NCTU来分析利用本发明方法检测得到的显著性图像(分别取600和475幅立体图像)的检测效果；在本实验中，利用评估显著性检测方法的4个常用客观参量作为评价指标：线性相关系数(Linear Correlation Coefficient,缩写为CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,缩写为KLDiv)、AUC参数(the Aera Under the receiver operatingcharacteristics Curve,缩写为AUC)、标准化扫描路径显著性(Normalized ScanpathSaliency,缩写为NSS)来评价显著性检测图像的检测性能，测试结果如下：

表1：评测结果数据表。

参照表1，能够直观的看出本发明方法得到的显著性检测图像的检测结果是较好的，其表明客观评价结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

具体的，图2(a)给出了NCTU数据集中同一场景的第1幅原始立体图像对应的人眼注视图像，图2(b)给出了利用本发明方法对图2(a)所示的原始立体图像进行检测所得到的显著性检测图像，图3(a)给出了NCTU数据集中同一场景的第2幅原始立体图像对应的人眼注视图像，图3(b)给出了利用本发明方法对图3(a)所示的原始立体图像进行检测所得到的显著性检测图像，图4(a)给出了NUS数据集中同一场景的第3幅原始立体图像对应的人眼注视图像，图4(b)给出了利用本发明方法对图4(a)所示的原始立体图像进行检测所得到的显著性检测图像，图5(a)给出了NUS数据集中同一场景的第4幅原始立体图像对应的人眼注视图像，图5(b)给出了利用本发明方法对图5(a)所示的原始立体图像进行检测得到的显著性检测图像；分别对比图2(a)和图2(b)、图3(a)和图3(b)、图4(a)和图4(b)、图5(a)和图5(b)，能够看出利用本发明方法得到的显著性检测图像的预测度精度提高，明显取得了突出显著的技术效果。

实施例2

参照图7，为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种基于CWAM的非对称GM多模态融合显著性检测系统，包括：

采集模块100，用于获取原始立体图形的RGB图、深度图及真实人眼注释图，构建样本数据集。

数据处理中心模块200，用于接收、计算、存储、输出待处理的权值矢量和偏置项，其包括运算单元201、数据库202和输入输出管理单元203，运算单元201与采集模块100相连接，用于接收采集模块100获取的图像数据，对其进行预处理及权值运算，数据库202连接于各个模块，用于存储接收的所有数据信息，为数据处理中心模块200提供调配供应服务，输入输出管理单元203用于接收各个模块的信息并输出运算单元201的运算结果。

神经网络块300有十个，其用于处理RGB图和深度图，RGB图经由第一个至第五个神经网络块300的处理，得到五个RGB特征图集合，深度图经由第六个至第十个神经网络块300的处理，得到五个深度图特征图集合。

全局引导模块400连接于神经网络块300，其用于卷积、激活、归一、池化特征图，输出处理后的最终特征图；其中还包括第一卷积层、第一激活层、第一归一层、第一扩张卷积层、第二激活层、第二归一层、第二扩张卷积层、第三激活层、第三归一层、第三扩张卷积层、第四激活层、第四归一层、第一最大池化层和CWAM。

通道注意力模块500与全局引导模块400相连接，其用于调整矩阵形状、计算处理特征图集合，输出最终的调整图。

综合融合模块600连接于神经网络块300和通道注意力模块500，其用于合并RGB特征图和深度图特征图，通过通道数叠、卷积处理，输出显著性预测图。

需要说明的是，数据处理中心模块200主要分为三个层次，包括控制层、运算层及存储层，控制层是数据处理中心模块200的指挥控制中心，由指令寄存器IR、指令译码器ID和操作控制器OC组成，控制层能够根据用户预先编好的程序，依次从存储器中取出各条指令，放在指令寄存器IR中，通过指令译码器分析确定，通知操作控制器OC进行操作，按照确定的时序向相应的部件发出微操作控制信号；运算层是数据处理中心模块200的核心，能够执行算术运算(如加减乘除及其附加运算)和逻辑运算(如移位、逻辑测试或两个值比较)，其连接于控制层，通过接受控制层的控制信号进行运算操作；存储层是数据处理中心模块200的数据库，能够存放数据(待处理及已经处理过的数据)。

实施例3

为了更好地理解本发明方法的应用，本实施例选择对检测方法及系统进行结合运作说明，参照图6，如下：

(1)卷积神经网络包括，输入层、隐层和输出层。

输入层的输入端输入原始立体图像的RGB图和对应的深度图，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出量是隐层的输入量；其中，深度图经过HHA编码方式处理后与RGB图一样具有三通道，即经过输入层后也是被处理成三个分量，且输入的原始立体图像的宽度为W、高度为H；

隐层的组成部分：十个神经网络块、全局引导模块(Global Guidane Module,GM)、通道注意力模块(Channel-wise Attention Module、CWAM)和8个综合融合模块(Integrated Fusion Module,IFM)；

具体包括：第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块、通道注意力模块、全局引导模块、通道注意力模块、第1个综合融合模块、第2个综合融合模块、第3个综合融合模块、第4个综合融合模块、第5个综合融合模块、第6个综合融合模块、第7个综合融合模块和第8个综合融合模块。

(2)对于RGB图的处理。

第1个神经网络块的输入是原始三通道图像，输出是经过处理后的64幅特征图，每幅图的宽度为

高度为

第1个神经网络块由第一卷积层，第一激活层，第二卷积层，第二激活层和第一最大池化层组成，第一卷积层和第二卷积层的卷积核设置为64×3×3，即个数(filters)为64，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第一激活层和第二激活层的激活方式为“ReLU函数”，第一最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第2个神经网络块由第三卷积层，第三激活层，第四卷积层，第四激活层，第二最大池化层组成，输入第1个神经网络块输出的64幅特征图，输出128幅特征图，每幅图的宽度为

高度为

第三卷积层和第四卷积层卷积核个数(filters)为128，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第三激活层和第四激活层的激活方式为“ReLU函数”，第二最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第3个神经网络块的输入是第2个神经网络块输出的128幅特征图，输出为256幅特征图，每幅图的宽度为

高度为

第五卷积层和第六卷积层卷积核个数(filters)为256，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第五激活层和第六激活层的激活方式为“ReLU函数”，第三最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第4个神经网络块的输入是第3个神经网络块输出的256幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

第七卷积层和第八卷积层卷积核个数(filters)为512，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第七激活层和第八激活层的激活方式为“ReLU函数”，第四最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第5个神经网络块的输入是第4个神经网络块输出的512幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

第九卷积层和第十卷积层卷积核个数(filters)为512，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第九激活层和第十激活层的激活方式为“ReLU函数”，第五最大池化层的池化尺寸(pool_size)为2，步长(stride)为2，将深度图处理得到的5个特征图集合分别记为R₁，R₂，R₃，R₄，R₅。

(3)对于深度图的处理。

第6个神经网络块的输入是HHA处理过的三通道图像，输出是经过处理后的64幅特征图，每幅图的宽度为

高度为

第6个神经网络块由第十一卷积层，第一归一层，第十一激活层，第六最大池化层组成，第十一卷积层的卷积核个数(filters)为64，尺寸(kernel_size)为7×7，补零参数(padding)的值为3，步长(stride)为2，第一归一层使用的归一算法是“Batch Normalization”，第十一激活层的激活方式为“ReLU函数”，第六最大池化层卷积核尺寸(kernel_size)为3×3，步长(stride)为2，补零参数(padding)的值为1；

第7个神经网络块的输入是第6个神经网络块输出的64幅特征图，输出是256幅特征图，每幅图的宽度为

高度为

第7个神经网络块由3个卷积块组成，每一个卷积块包括4层卷积层，第一个卷积层输入为第1个神经网络块输出的64幅特征图，输出为处理后的64幅特征图，卷积核个数(filters)为64，尺寸(kernel_size)为1×1，步长(stride)为1，第二个卷积层输入为第一个卷积层输出的64幅特征图，输出为处理后的64幅特征图，卷积核个数(filters)为64，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第三个卷积层输入为第二个卷积层输出的64幅特征图，输出为处理后的256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为1×1，步长(stride)为1，第四个卷积层输入为前一个卷积块(或第一最大池化层)输出的64幅特征图，输出为256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为1×1，步长(stride)为1；

第8个神经网络块由4个卷积块组成，输入为第7个神经网络块输出的256幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

每一个卷积块包含4层卷积层，第一个卷积层输入为第2个神经网络块输出的256幅特征图，输出为处理后的128幅特征图，卷积核个数(filters)为128，尺寸(kernel_size)为1×1，步长(stride)为1，第二个卷积层输入为第一个卷积层输出的128幅特征图，输出为处理后的128幅特征图，卷积核个数(filters)为128，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第三个卷积层输入为第二个卷积层输出的128幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为1×1，步长(stride)为1，第四个卷积层输入为前一个卷积块(或第2个神经网络块)输出的512幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为1×1，步长(stride)为2；

第9个神经网络块由6个卷积块组成，输入为第8个神经网络块输出的512幅特征图，输出为1024幅特征图，每幅图的宽度为

高度为

每一个卷积块包含4层卷积层，第一个卷积层输入为第3个神经网络块输出的512幅特征图，输出为处理后的256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为1×1，步长(stride)为1；第二个卷积层输入为第一个卷积层输出的256幅特征图，输出为处理后的256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1；第三个卷积层输入为第二个卷积层输出的256幅特征图，输出为处理后的1024幅特征图，卷积核个数(filters)为1024，尺寸(kernel_size)为1×1，步长(stride)为1；第四个卷积层输入为前一个卷积块(或第3个神经网络块)输出的512幅特征图，输出为处理后的1024幅特征图，卷积核个数(filters)为1024，尺寸(kernel_size)为1×1，步长(stride)为2；

第10个神经网络块由3个卷积块组成，输入为第9个神经网络块输出的1024幅特征图，输出为2048幅特征图，每幅图的宽度为

高度为

每一个卷积块包含4层卷积层，第一个卷积层输入为第4个神经网络块输出的1024幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为1×1，步长(stride)为1，第二个卷积层输入为第一个卷积层输出的512幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第三个卷积层输入为第二个卷积层输出的512幅特征图，输出为处理后的2048幅特征图，卷积核个数(filters)为2048，尺寸(kernel_size)为1×1，步长(stride)为1，第四个卷积层输入为前一个卷积块(或第4个神经网络块)输出的1024幅特征图，输出为处理后的2048幅特征图，卷积核个数(filters)为2048，尺寸(kernel_size)为1×1，步长(stride)为2，将RGB图处理得到的5个特征图集合分别记为D₁，D₂，D₃，D₄，D₅。

(4)全局引导模块GM。

输入为128幅特征图，输出为640幅特征图，GM的具体组成为：第十二卷积层、第十二激活层、第二归一层、第一扩张卷积层、第十三激活层、第三归一层、第二扩张卷积层、第十四激活层、第四归一层、第三扩张卷积层、第十五激活层、第五归一层、第一最大池化层、CWAM模块，其中，第十二卷积层卷积核个数(filters)为128，卷积核尺寸(kernel_size)为1×1，步长(stride)为1，第十二激活层的激活方式为“ReLU函数”，第二归一层使用的归一算法是“Batch Normalization”；

第一扩张卷积层卷积核个数(filters)为128，卷积核尺寸(kernel_size)为3×3，步长(stride)为1，扩张率(dilation)为2，补零参数(padding)的值为2，第十三激活层的激活方式为“ReLU函数”，第三归一层使用的归一算法是“Batch Normalization”，第二扩张卷积层卷积核个数(filters)为128，卷积核尺寸(kernel_size)为3×3，步长(stride)为1，扩张率(dilation)为6，补零参数(padding)的值为6，第十四激活层的激活方式为“ReLU函数”，第四归一层使用的归一算法是“Batch Normalization”，第三扩张卷积层卷积核个数(filters)为128，卷积核尺寸(kernel_size)为3×3，步长(stride)为1，扩张率(dilation)为12，补零参数(padding)的值为12，第十五激活层的激活方式为“ReLU函数”，第五归一层使用的归一算法是“Batch Normalization”，第一最大池化层，卷积核尺寸(kernel_size)为3×3，步长(stride)为1，补零参数(padding)的值为1。

(5)对于多模态的融合。

第五深度特征图集合D₅和第五RGB特征图集合R₅进行通道数叠操作后输出640幅特征图，作为第一全局引导特征图集a；

通道数叠操作具体是：在特征图尺寸相同的条件下，采用通道数相加的方式将输出的RGB或深度图的特征图进行合并，D₅和R₅分别经过各自的CWAM处理后和a进行通道数叠操作，作为第二全局引导特征图集b，D₄和R₄分别经过第5个IFM和第1个IFM模块处理后，和b进行通道数叠操作，作为第三全局引导特征图集c，D₃和R₃分别经过第6个IFM和第2个IFM模块处理后，和c进行通道数叠操作，作为第四全局引导特征图集d，D₂和R₂分别经过第7个IFM和第3个IFM模块处理后，和c进行通道数叠操作，作为第四全局引导特征图集d，D₁和R₁分别经过第8个IFM和第4个IFM模块处理后，和d进行通道数叠操作，作为第五全局引导特征图集e。

(6)IFM模块。

第1个IFM模块依次由第十六卷积层、第六归一层、第十六激活层、第一上采样层为一组顺联，以及第十七卷积层、第七归一层、第十七激活层、第二上采样层为一组顺联组成；

第十六卷积层的输入为R₅经过CWAM处理后的512幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为512，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十七卷积层的输入为GM模块输出的640幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

第一、第二上采样层指定倍数(scale_factor)设置为2，第六、七归一层使用的归一算法是“Batch Normalization”，第十六、十七激活层的激活方式为“ReLU函数”，之后将第一上采样层和第二上采样层的输出进行通道数叠，得到1536幅特征图，即为第1个IFM输出的特征图集IFM₁；

第2个IFM模块依次由第十八卷积层、第八归一层、第十八激活层、第三上采样层为一组顺联，以及第十九卷积层、第九归一层、第十九激活层、第四上采样层为一组顺联组成；

第十八卷积层的输入为IFM₁经过CWAM处理后的1536幅特征图，输出为256幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为256，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十九卷积层的输入为GM模块输出的640幅特征图，输出为256幅特征图，每幅图的宽度为

高度为

第三上采样层指定倍数(scale_factor)设置为2，第四上采样层指定倍数(scale_factor)设置为4，第八、九归一层使用的归一算法是“Batch Normalization”，第十八、十九激活层的激活方式为“ReLU函数”，之后将第三上采样层和第四上采样层的输出进行通道数叠，所得768幅特征图，即为第2个IFM输出的特征图集IFM₂；

第3个IFM模块依次由第二十卷积层、第十归一层、第二十激活层、第五上采样层为一组顺联，以及第二十一卷积层、第十一归一层、第二十一激活层、第六上采样层为一组顺联组成；

第二十卷积层的输入为IFM₂经过CWAM处理后的768幅特征图，输出为128幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为128，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第二十一卷积层的输入为GM模块输出的640幅特征图，输出为128幅特征图，每幅图的宽度为

高度为

第五上采样层指定倍数(scale_factor)设置为2，第六上采样层指定倍数(scale_factor)设置为8，第十、十一归一层使用的归一算法是“Batch Normalization”，第二十、二十一激活层的激活方式为“ReLU函数”，之后将第五上采样层和第六上采样层的输出进行通道数叠，所得384幅特征图，即为第3个IFM输出的特征图集IFM₃；

第4个IFM模块依次由第二十二卷积层、第十二归一层、第二十二激活层、第七上采样层为一组顺联，以及第二十三卷积层、第十三归一层、第二十三激活层、第八上采样层为一组顺联组成；

第二十二卷积层的输入为IFM₃经过CWAM处理后的384幅特征图，输出为64幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为64，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第二十三卷积层的输入为GM模块输出的640幅特征图，输出为64幅特征图，每幅图的宽度为

高度为

第七上采样层指定倍数(scale_factor)设置为2，第八上采样层指定倍数(scale_factor)设置为16，第十二、第十三归一层使用的归一算法是“Batch Normalization”，第二十二、第二十三激活层的激活方式为“ReLU函数”，之后将第七上采样层和第八上采样层的输出进行通道数叠，所得192幅特征图，即为第4个IFM输出的特征图集IFM₄；

第5个IFM模块依次由第二十四卷积层、第十四归一层、第二十四激活层、第九上采样层为一组顺联，以及第二十五卷积层、第十五归一层、第二十五激活层、第十上采样层为一组顺联组成；

第二十四卷积层的输入为D₅经过CWAM处理后的2048幅特征图，输出为1024幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为1024，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第二十五卷积层的输入为GM模块输出的640幅特征图，输出为1024幅特征图，每幅图的宽度为

高度为

第九上采样层指定倍数(scale_factor)设置为2，第十上采样层指定倍数(scale_factor)设置为2，第十四、第十五归一层使用的归一算法是“Batch Normalization”，第二十四、第二十五激活层的激活方式为“ReLU函数”，之后将第九上采样层和第十上采样层的输出进行通道数叠，所得3072幅特征图，即为第5个IFM输出的特征图集IFM₅；

第6个IFM模块依次由第二十六卷积层、第十六归一层、第二十六激活层、第十一上采样层为一组顺联，以及第二十七卷积层、第十七归一层、第二十七激活层、第十二上采样层为一组顺联组成；

第二十六卷积层的输入为IFM₅经过CWAM处理后的3072幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为512，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第二十七卷积层的输入为GM模块输出的640幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

第十一上采样层指定倍数(scale_factor)设置为2，第十二上采样层指定倍数(scale_factor)设置为4，第十六、第十七归一层使用的归一算法是“Batch Normalization”，第二十六、第二十七激活层的激活方式为“ReLU函数”，之后将第十一上采样层和第十二上采样层的输出进行通道数叠，所得1536幅特征图，即为第6个IFM输出的特征图集IFM₆；

第7个IFM模块依次由第二十八卷积层、第十八归一层、第二十八激活层、第十三上采样层为一组顺联，以及第二十九卷积层、第十九归一层、第二十九激活层、第十四上采样层为一组顺联组成；

第二十八卷积层的输入为IFM₆经过CWAM处理后的1536幅特征图，输出为256幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为256，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第二十九卷积层的输入为GM模块输出的640幅特征图，输出为256幅特征图，每幅图的宽度为

高度为

第十三上采样层指定倍数(scale_factor)设置为2，第十四上采样层指定倍数(scale_factor)设置为8，第十八、第十九归一层使用的归一算法是“Batch Normalization”，第二十八、第二十九激活层的激活方式为“ReLU函数”，之后将第十三上采样层和第十四上采样层的输出进行通道数叠，所得768幅特征图，即为第7个IFM输出的特征图集IFM₇；

第8个IFM模块依次由第三十卷积层、第二十归一层、第三十激活层、第十五上采样层为一组顺联，以及第三十一卷积层、第二十一归一层、第三十一激活层、第十六上采样层为一组顺联组成；

第三十卷积层的输入为IFM₇经过CWAM处理后的768幅特征图，输出为64幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为64，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第三十一卷积层的输入为GM模块输出的640幅特征图，输出为64幅特征图，每幅图的宽度为

高度为

第十五上采样层指定倍数(scale_factor)设置为2，第十六上采样层指定倍数(scale_factor)设置为16，第二十、第二十一归一层使用的归一算法是“Batch Normalization”，第三十、第三十一激活层的激活方式为“ReLU函数”，之后将第十五上采样层和第十六上采样层的输出进行通道数叠，所得192幅特征图，即为第8个IFM输出的特征图集IFM₈；

将IFM₄和IFM₈进行通道数叠后，输出384幅特征图集e，经过第三十二卷积层、第二十三归一层、第三十二激活层、第十七上采样层、CWAM模块，得到最终的1幅特征图，即为最终特征图；其中，第三十二卷积层的输入为384幅特征图，输出为1幅特征图，每幅图的宽度为

高度为

卷积核个数(filters)为1，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1；第二十三归一层使用的归一算法是“BatchNormalization”，第三十二激活层的激活方式为“ReLU函数”；第十七上采样层使用双线性插值法，指定倍数(scale_factor)设置为2。

(7)通道注意力模块CWAM。

输入为特征图集合X_i，X_i∈(D₁，D₂，D₃，D₄，R₁，R₂，R₃，R₄)，首先经过调整矩阵形状操作(reshape)后，获得第一调整图RE(X_i)；

对第一调整图RE(X_i)进行矩阵转置操作(transpose)，获得第二调整图RE^T(X_i)；

再将第二调整图RE^T(X_i)和第一调整图RE(X_i)进行矩阵相乘，得到第三调整图M(X_i)，采用Max函数在-1和第三调整图M(X_i)选出最大的值，再减去第三调整图M(X_i)，得到第四调整图S₁(X_i)；

同样操作得到第五调整图S₂(X_i)；

将第四调整图S₁(X_i)和第五调整图S₂(X_i)的值用Mean函数进行平均处理，再经过Softmax函数处理，得到注意力特征图ATT(X_i)；

将第一调整图RE(X_i)和注意力特征图ATT(X_i)进行矩阵相乘，再调整矩阵形状，加上特征图X_i乘上范围参数θ后的结果，最终输出第六调整图O(X_i)，作为通道注意力模块CWAM的输出。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于CWAM的非对称GM多模态融合显著性检测方法，其特征在于：包括，

采集图像数据进行预处理，形成样本数据集；

基于深度学习策略构建卷积神经网络模型，输入所述样本数据集进行训练，获得显著性检测图；

将训练完成的所述显著性检测图构成集合并计算与其对应的真实人眼注释图像集合之间的损失函数值，得到最优权值矢量和最优偏置项；

将待检测的图像输入训练完成的所述卷积神经网络模型中，利用所述最优权值矢量和所述最优偏置项进行预测判断，得到所述图像的显著性检测图像；

还包括，RGB图由第1个神经网络块到第5个神经网络块处理，得到编码后的RGB分支特征图，深度图由第6到第10个神经网络块处理，得到编码后的深度分支特征图；RGB分支特征图和深度分支特征图共同输入GM模块，生成全局引导流，全局引导流首先经过CWAM模块增强权重，生成注意力机制加强后的特征图，接着分别进入第1个IFM与第4个神经网络块处理后的特征图结合、进入第5个IFM与第9个神经网络块处理后的特征图结合，此后再分别经过CWAM模块增强显著区域表达后，进入第2个IFM和第6个IFM分别与第3个神经网络块和第8个神经网络块进行结合，然后各自经过CWAM模块继续加强显著区域表达，进入第3个IFM和第7个IFM分别与第2个神经网络块和第7个神经网络块结合，再各自进入CWAM模块，最后进入第4个IFM和第8个IFM分别与第1个神经网络块和第6个神经网络块进行通道数叠，并送入CWAM，得到所述图像的显著性检测图像。

2.根据权利要求1所述的基于CWAM的非对称GM多模态融合显著性检测方法，其特征在于：构建所述卷积神经网络模型之前还包括，

分别选取带有目标物体的原始立体图像的RGB图、深度图及所述真实人眼注释图作为所述图像数据；

利用HHA策略处理所述深度图，且与所述原始立体图像对应具有三通道的集合；

根据所述图像数据建立训练集、验证集和测试集，构成所述样本数据集。

3.根据权利要求2所述的基于CWAM的非对称GM多模态融合显著性检测方法，其特征在于：所述卷积神经网络模型包括，输入层、隐层和输出层。

4.根据权利要求3所述的基于CWAM的非对称GM多模态融合显著性检测方法，其特征在于：所述训练包括，

将所述训练集输入所述卷积神经网络模型内进行训练，得到与所述原始立体图像对应的所述显著性检测图；

标记训练完成全部得到的所述显著性检测图以构成所述集合，利用所述卷积神经网络模型计算损失函数值；

选取所述损失函数值中最小的值对应的所述卷积神经网络模型的权值矢量和偏置项进行保留；

所述卷积神经网络模型训练结束。

5.根据权利要求4所述的基于CWAM的非对称GM多模态融合显著性检测方法，其特征在于：将保留的所述权值矢量和所述偏置项作为训练好的所述卷积神经网络模型进行预测判断的所述最优权值矢量和所述最优偏置项。

6.根据权利要求5所述的基于CWAM的非对称GM多模态融合显著性检测方法，其特征在于：包括，

将目标物体待检测的所述RGB图和所述深度图的组合

的R通道分量、G通道分量和B通道分量输入训练后的所述卷积神经网络模型中；

利用所述最优权值矢量和所述最优偏置项进行预测，得到所述组合

对应的所述显著性检测图像

其中，

中坐标位置为(x′,y′)的像素点的像素值。

7.一种基于CWAM的非对称GM多模态融合显著性检测系统，其特征在于：包括，

采集模块(100)，用于获取原始立体图形的RGB图、深度图及真实人眼注释图，构建样本数据集；

数据处理中心模块(200)，用于接收、计算、存储、输出待处理的权值矢量和偏置项，其包括运算单元(201)、数据库(202)和输入输出管理单元(203)，所述运算单元(201)与所述采集模块(100)相连接，用于接收所述采集模块(100)获取的所述样本数据集，对其进行预处理及权值运算，所述数据库(202)连接于各个模块，用于存储接收的所有数据信息，为所述数据处理中心模块(200) 提供调配供应服务，所述输入输出管理单元(203)用于接收各个模块的信息并输出所述运算单元(201)的运算结果。

8.根据权利要求7所述的基于CWAM的非对称GM多模态融合显著性检测系统，其特征在于：包括，

神经网络块(300)有十个，其用于处理所述RGB图和所述深度图，所述RGB图经由第一个至第五个所述神经网络块(300)的处理，得到五个RGB特征图集合，所述深度图经由第六个至第十个所述神经网络块(300)的处理，得到五个深度图特征图集合；

全局引导模块(400)连接于所述神经网络块(300)，其用于卷积、激活、归一、池化所述特征图，输出处理后的最终所述特征图。

9.根据权利要求8所述的基于CWAM的非对称GM多模态融合显著性检测系统，其特征在于：还包括，

通道注意力模块(500)与所述全局引导模块(400)相连接，其用于调整矩阵形状、计算处理所述特征图集合，输出最终的调整图；

综合融合模块(600)连接于所述神经网络块(300)和所述通道注意力模块(500)，其用于合并所述RGB特征图和所述深度图特征图，通过通道数叠、卷积处理，输出显著性预测图。

10.根据权利要求9所述的基于CWAM的非对称GM多模态融合显著性检测系统，其特征在于：所述全局引导模块(400)还包括，

第一卷积层、第一激活层、第一归一层、第一扩张卷积层、第二激活层、第二归一层、第二扩张卷积层、第三激活层、第三归一层、第三扩张卷积层、第四激活层、第四归一层、第一最大池化层和CWAM。