CN112686856A

CN112686856A - 一种基于深度学习的实时肠镜息肉检测装置

Info

Publication number: CN112686856A
Application number: CN202011593702.7A
Authority: CN
Inventors: 史勇强; 顾梦奇
Original assignee: Hangzhou Youshitai Information Technology Co ltd
Current assignee: Hangzhou Youshitai Information Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-20

Abstract

本发明公开了一种基于深度卷积神经网络的实时肠镜息肉检测装置，实时肠镜息肉检测的过程包括：获取待检测的当前帧肠镜图像，并将待检测肠镜图像输入至肠镜息肉检测模型中；利用特征提取单元提取待检测肠镜图像的图像特征图后，利用注意力预测单元根据图像特征图和上一帧肠镜图像对应的空间注意力特征图预测输出当前帧肠镜图像对应的空间注意力特征图，利用检测单元根据图像特征图和上一帧肠镜图像对应的空间注意力特征图预测输出检测结果。该实时肠镜息肉检测装置能够提升临床肠镜检查的准确率和效率。

Description

一种基于深度学习的实时肠镜息肉检测装置

技术领域

本发明属于医学与计算机科学的交叉领域，具体涉及一种基于深度学习的肠镜息肉检测装置。

背景技术

结直肠息肉是隆起于结直肠表面异常肿物，其存在一定的恶变风险，可导致直结肠癌。目前对此应用较为广泛也十分有效的诊断方式是应用内窥镜对肠道进行检查。现代内窥镜一般在末端安装有摄像头，其可以将采集的图像传输给计算机进行显示，医生通过对内窥镜图像的检视来发现息肉等病灶，来确定患者的病情。在目前的内窥镜检查过程中，主要依靠医生肉眼对内窥镜图像进行观察，从而检出息肉。其检出率受到医生经验、状态影响，存在漏检的可能。针对此问题，可以在内窥镜连接的计算机上运行计算机辅助诊断系统，实时地对内窥镜图像进行检测，并将检测结果实时反馈给医生，以降低息肉漏检率并提升内窥镜检查的效率。

上述计算机辅助诊断系统的构建，其核心在于运行的息肉检测方法。该方法应同时具备良好的检出率和实时性，以适应临床诊断的需求。在检出率方面，息肉检测任务属于计算机视觉领域的目标检测任务。目前该领域在精度上更具优势的普遍为基于深度卷积神经网络的方法。而基于深度学习的方法又可以分为基于单帧图像的方法和基于视频(多帧图像)的方法。前者在前向推理速度上更具优势，因而更利于实施部署，但单帧图像可能存在信息不足或噪声干扰的情况，因而更容易出现误检测和漏检测的情况。而后者因为对多帧图像的信息进行了整合因而普遍具有更高的精度和更低的误检率，但因为需要对多帧图像进行处理容易导致更大的时延，在实时性方面难以满足要求。

上述计算机辅助诊断系统的构建存在的另一个问题是，基于深度学习的算法需要大量的标注数据来进行训练，在数据量不够的情况下，模型的泛化性能将大幅下降。但医疗相关数据由于其本身的专业性和保密性，需要医院的相关从业人员进行标注，获取成本相当高昂，且难以大批量获取。针对该问题，传统的解决方法是数据增强，通过对图像的翻转、裁剪、旋转来“生成”更多的数据，提高模型的泛化性能。但该方法的提升是有局限的，过多的数据增强将影响数据集的分布，从而导致模型难以收敛等问题。对此，近年来有不少研究提出了基于半监督或无监督学习的方法，以及基于生成网络生成数据集的方法。这些方法利用无标注的数据集，通过知识蒸馏、对抗生成等手段，生成有“假”标注的数据，从而达到扩充数据集的目的。无标注数据集相比于有标注数据集，去除了人工标注的高昂成本，在隐去患者隐私的前提下，其获取成本大大降低，获取数量也可以相应大幅提高。

发明内容

针对上述算法的优劣势和存在的问题，本发明提供了一种基于深度卷积神经网络的实时肠镜息肉检测装置，以提升临床肠镜检查的准确率和效率。

本发明提供的技术方案为：

一种基于深度卷积神经网络的实时肠镜息肉检测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器存储有包含有特征提取单元、注意力预测单元以及检测单元的肠镜息肉检测模型和上一帧肠镜图像对应的空间注意力特征图，所述计算机处理器执行所述计算机程序时实现以下步骤：

获取待检测的当前帧肠镜图像，并将待检测肠镜图像输入至肠镜息肉检测模型中；

利用特征提取单元提取待检测肠镜图像的图像特征图后，利用注意力预测单元根据图像特征图和上一帧肠镜图像对应的空间注意力特征图预测输出当前帧肠镜图像对应的空间注意力特征图，利用检测单元根据图像特征图和上一帧肠镜图像对应的空间注意力特征图预测输出检测结果。

优选地，所述肠镜息肉检测模型的构建过程为：

构建标注息肉的标注数据集、未标注息肉的未标注数据集以及序列帧数据集；

基于YOLOv4构建教师模型并训练，教师模型包括由多个卷积层组和多个下采样层依次交替连接的主干网络和检测网络，采用Noisy Student方法并利用标注数据集和未标注数据集预训练教师模型和息肉标注，训练结束后，获得预训练好的教师模型和对未标注数据集进行标注得到的新标注数据集；

基于训练好的教师模型构建学生模型的训练框架并训练，学生模型同样采用包含主干网络和检测网络的YOLOv4构建，不同是主干网络的复杂度低于教师模型的复杂度，并为主干网络中每个下采样层的输出端连接一个由卷积层构成的适配层以保证适配层的输出与教师模型的主干网络对应下采样层的输出维度一致，同时采用均方误差损失监督学生模型每个适配层输出的特征图与教师模型对应下采样层输出特征图的差别，并采用交叉熵损失和完整交并比损失分别监督学生模型的分类和检测框回归结果，基于此训练框架采用知识蒸馏方法对学生模型进行训练，得到训练好的学生模型；

基于训练好的学生模型构建肠镜息肉检测模型的训练框架并训练，在学生模型的主干网络的输出端增加拼接操作、融合层以及注意力预测网络，上一帧肠镜图像对应的空间注意力特征图和当前帧肠镜图像经过主干网络输出的特征图经拼接操作拼接后输入卷积层，融合层将拼接结果融合操作后输入注意力预测网络，经预测输出当前帧肠镜图像对应的空间注意力特征图并缓存，采用该训练框架对注意力预测网络进行训练，同时对训练好的学生模型进行全局微调训练，训练结束后，提取参数确定的主干网络作为特征提取单元，提取参数确定的注意力预测网络作为注意力预测单元，提取检测网络作为检测单元，组成肠镜息肉检测模型。

优选地，数据集的构建过程为：采集肠镜视频数据，截取其中包含息肉的多个视频片段并拆分成单帧图像，对单帧图像进行裁剪获得只包含肠镜的肠镜图像，形成总数据集，随机抽取总数据集中的部分肠镜图像进行人工息肉标注，得到标注息肉的标注数据集，剩下未标注的肠镜图像组成未标注息肉的未标注数据集，将标注数据集中按照固定帧数截取连续的肠镜图像组成序列帧，进而组成序列帧数据集。

优选地，教师模型的训练过程为：

(a)将未标注数据集划分成多份，其中分数与知识蒸馏迭代轮数相同，将标注数据集作为训练集；

(b)利用训练集对当前轮次对应的教师模型实例进行预训练，得到训练好的教师模型实例，利用训练好的教师模型实例对当前轮次对应的未标注数据进行的推理以实现息肉标注，得到新标注肠镜图像并添加到训练集中；

(c)轮次加1并迭代循环执行步骤(b)，直到迭代训练结束，提取最后轮次训练好的教师模型实例作为最终预训练好的教师模型。

优选地，利用训练集对当前轮次对应的教师模型实例进行预训练时，在训练样本图像中增加噪声来增强其学习效果。

优选地，学生模型的训练过程为：

固定教师模型的参数不变，将新标注数据集和原标注数据集组成训练集，利用训练集同时作为教师模型和学生模型的输入数据，采用均方误差损失、交叉熵损失和完整交并比损失共同组成损失函数，对学生模型的训练框架进行训练，训练结束后，得到训练好的学生模型。

优选地，肠镜息肉检测模型的训练过程为：

首先，固定学生模型参数不变，并随机初始化卷积层和注意力预测网络参数，将序列帧数据集作为学生模型的输入，利用序列帧数据集对卷积层和注意力预测网络进行训练；

然后，固定学生模型的主干网络参数不变，肠镜息肉检测模型的训练框架其他参数开放，利用序列帧数据集对开放的网络参数调优，同时采用当前帧的真实标签对上一帧肠镜图像对应的空间注意力特征图进行监督，训练结束后提取参数确定的主干网络作为特征提取单元，提取参数确定的注意力预测网络作为注意力预测单元，提取检测网络作为检测单元，组成肠镜息肉检测模型。

优选地，所述预测注意力网络包括至少2组由卷积层、批归一化层以及线性整流函数组成的结构单元，将预测注意力网络的输入特征图与结构单元输出特征图拼接的拼接操作，对拼接操作结果进行卷积操作和激活的卷积层和sigmoid激活函数层，经过sigmoid激活函数层处理输出空间注意力特征图。

与现有技术相比，本发明具有的有益效果至少包括：

本实施例中提供的基于深度卷积神经网络的实时肠镜息肉检测装置中，在构建肠镜息肉检测模型时，针对肠镜息肉数据集标注成本高，标注量少的问题，通过运用NoisyStudent方法，利用获取成本相对更低的无标注数据集进行训练，提升模型精度。针对实时运行在计算量等方面的限制，通过对主干网络进行知识蒸馏，使得在大幅降低了计算量的同时尽可能地保留了与大网络相近的精度。通过基于前帧信息的注意力预测单元，以很小的计算量增加引入前帧的信息，利用视频帧之间的关联性，提升精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的利用肠镜息肉检测模型进行实时肠镜息肉检测的流程图；

图2是实施例提供的肠镜息肉检测模型的整体训练及部署示意图；

图3是实施例提供的用Noisy Student方法训练教师模型的流程示意图；

图4是实施例提供的基于训练好的教师模型构建学生模型的训练框架的结构示意图；

图5是实施例提供的注意力预测网络的结构示意图；

图6是实施例提供基于训练好的学生模型构建肠镜息肉检测模型的训练框架的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

实施例提供了一种基于深度卷积神经网络的实时肠镜息肉检测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器存储有包含有特征提取单元、注意力预测单元以及检测单元的肠镜息肉检测模型和上一帧肠镜图像对应的空间注意力特征图，利用肠镜息肉检测模型和上一帧肠镜图像对应的空间注意力特征图实现肠镜息肉的实时检测。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现肠镜图像息肉实时检测的方法步骤。施例中，计算机处理器执行计算机程序时实现如图1所示的肠镜图像息肉实时检测的方法步骤，具体包括以下步骤：

步骤1，获取待检测的当前帧肠镜图像，并将待检测肠镜图像输入至肠镜息肉检测模型中。

步骤2，利用特征提取单元提取待检测肠镜图像的图像特征图后，利用注意力预测单元根据图像特征图和上一帧肠镜图像对应的空间注意力特征图预测输出当前帧肠镜图像对应的空间注意力特征图，利用检测单元根据图像特征图和上一帧肠镜图像对应的空间注意力特征图预测输出检测结果。

本实施例中，如图2所示，肠镜息肉检测模型的构建包括：

(a)构建标注息肉的标注数据集、未标注息肉的未标注数据集以及序列帧数据集。

采集肠镜的视频数据，截取其中包含息肉的视频片段并拆分为单帧图像集。对单帧图像集进行裁剪，去掉患者信息等无效部分，只留下肠镜图像部分，形成总数据集。随机取总数据集中的一部分图像(该比例依人工标注成本等因素确定)，对图像中的息肉以边界框(Bounding Box)的形式进行标注，形成标注数据集，剩余的为未标注数据集。再将标注数据集按一定比例分为训练集、验证集和测试集。将上述生成的所有数据集随机打乱。另外将未打乱的标注数据集按固定帧数N切分为数个连续帧段，保持每段内部的帧顺序与视频中帧的顺序一致，形成序列帧数据集。将序列帧数据集切分为训练集、验证集和测试集。

具体实验例中，将截取包含息肉的部分的视频片段统一切分为约1秒时长(24帧)的片段，作为总数据集。挑选其中100段左右进行标注，另外在其余视频片段中随机挑选约2000帧进行标注。将所有标注的视频段拆分为帧，与随机挑选的帧混合打乱生成标注数据集并按3：1：1的数量比例划分为训练集、验证集和测试集。另外将标注的视频片段打乱生成序列帧数据集，并按照3：1：1的比例划分为训练集、验证集和测试集。对所有数据集中的图像帧进行裁剪，保留肠镜图像部分。

(b)基于YOLOv4构建教师模型并训练。

实施例中，利用深度学习框架PyTorch，搭建本教师模型，具体地，使用YOLOv4作为教师模型。使用YOLOv4公开的代码建立教师模型的计算图结构，并使用其预训练参数初始化各层。YOLOv4的大致结构可参考图4和图6，包括主干网络和检测网络，其中，主干网络由多个卷积层组和多个下采样层依次交替连接，检测网络包括spp模块，PANET模块、YOLO检测头。训练时，采用Noisy Student方法并利用标注数据集和未标注数据集预训练教师模型和息肉标注，训练结束后，获得预训练好的教师模型和对未标注数据集进行标注得到的新标注数据集。

实施例中，采用Noisy Student方法训练教师模型，可以使用大量无标签数据提升模型的精度。如图3所示，具体训练过程包括：首先定义知识蒸馏迭代轮数M，将无标注数据集中的图像分为M份，然后，使用标注数据集训练一个教师模型实例A，使用训练好的教师模型实例A对一份无标注数据集进行推理，得到推理结果作为标注。随后混合标注数据集和教师模型实例A标注数据集作为新训练集来训练一个新教师模型实例B，再用新教师模型实例B对新一份无标签数据集进行标注，再用新混合数据集训练新教师实例模型C，如此反复迭代，直至用完所有M份无标签数据集。将最后训练完成的模型作为最终的教师模型。在训练过程中对教师模型实例的输入加噪声以增强其学习效果，而在模型推理时不加噪声以获得最准确的标注。训练直至模型在验证集上的精度不再增加，取最终模型保存参数。实施例中，教师模型实例与教师模型的结构相同。

具体实验时，在标注训练集上训练YOLOv4，采用SGD优化器，初始学习率设置为0.01，最大迭代轮数500000，学习率在400000轮和450000轮时乘以0.1。权重衰减0.0005，动量设置为0.9。在训练中每2500轮在验证集上对模型性能进行一次测试，根据测试结果可以微调迭代轮数和学习率，以节约训练时间并加速收敛。最后取验证集上效果最好的模型保存，并在测试集上进行测试。

(c)基于训练好的教师模型构建学生模型的训练框架并训练。

实施例中，依旧使用PyTorch框架搭建学生模型，且学生模型同样采用包含主干网络和检测网络的YOLOv4构建，相比于教师模型，学生模型仅将主干网络部分替换为了更轻量级的网络结构，具体可以将原YOLOv4的主干网络CSPDarknet-53替换为MobileNet-V3。此外，在学生模型的主干网络中，每一个下采样层后新增一个分支的适配层，该层由一个1×1卷积构成。增加的适配层(Adaptive Layer)使得其输出与教师模型的对应下采样层的维度一致。

完成主干网络修改后，使用教师模型的预训练参数初始化学生模型中未被修改的层，使用Kaiming-Normal随机初始化新增的层。

初始化完成后进行知识蒸馏，其训练结构如图4所示。对于学生模型的每个适配层SAL_i，目标是使其输出尽可能地靠近教师网络中对应的下采样层TDL_i的输出。为达到这一目的，在本实施例中，计算均方误差损失Lⁱ _MSE对其进行监督。此外，对于最终的检测结果——检测框位置回归和分类，与原版YOLOv4一样，分别使用完整交并比损失L_CIoU和交叉熵损失L_CE对其监督。最终的损失为以上损失的加权和。

式中α为控制主干网络部分损失和检测结果损失比例的超参数，在训练过程中可动态改变。

训练使用SGD优化器，基本设置与步骤(b)中相同。新增的损失权重参数α初始值设置为4，随后每125000轮迭代乘以0.5，直到变为0.25。

训练使用标注数据集的训练集，训练过程中每2500轮在验证集上进行验证，并取最佳结果在测试集上进行测试并保存。

(d)基于训练好的学生模型构建肠镜息肉检测模型的训练框架并训练。

实施例中，对学生模型结构进行修改，新增基于前帧信息的空间注意力模块。如图6所示，即在学生模型的主干网络的输出端增加拼接操作、将空间注意力特征图融合进特征图的卷积层以及注意力预测网络，组成空间注意模块。空间注意模块用于通过当前帧生成后一帧的注意力图，以尽可能小的计算量代价，利用肠镜视频帧间关联性提升精度。设计如下：在学生模型主干网络后增加一个输入层，接收模型上一次推理时输出的空间注意力特征图，并将其在通道维度与主干网络输出的特征图拼接。随后接一个3×3卷积层，将通道数还原为主干网络输出通道数，将原检测网络结构接在该3×3卷积层后面。最后在该卷积层后新增一个注意力预测网络，输出下一帧的空间注意力特征图。

实施例中，如图5所示，注意力预测网络由一个基本的ResBlock和一个卷积层以及一个Sigmoid激活层组成，预测注意力网络的输入特征图与ResBlock输出特征图经过拼接后得到的拼接操作结果经过卷积操作后再经过igmoid激活函数层处理输出空间注意力特征图。其中，ResBlock结构包括2个3×3卷积层(Conv)，批归一化层(BatchNorm)和线性整流激活函数(ReLU)。得到的空间注意力特征图的长宽为输入图像的1/32，通道数为1，值介于0-1之间。卷积层滑动步长均为1，输出长宽与输入一致，在输入特征图边缘填充0以保证这一点，即对于3×3卷积边缘填充宽度为1的一圈0，对于1×1卷积不填充。

训练时步骤如下：搭建该网络结构，使用步骤4中训练的学生模型参数初始化该网络，新层采用Xavier正态分布随机初始化。首先锁定原学生模型参数，使用序列帧数据集对新增的层进行若干轮训练。随后继续锁定主干网络的参数，开放其余部分的参数，使用更小的学习率对该部分网络进行精调。训练过程中使用序列帧数据集，使用后一帧的息肉框标注位置对当前帧生成的空间注意力图进行监督。

具体实验例中，使用Kaiming-Normal随机初始化卷积层以及注意力预测网络。使用原学生模型初始化其余层。训练过程分为2步，第一步首先锁定原学生模型的所有参数，单独训练新增的空间注意力模块。使用SGD优化器，初始学习率设置为0.01，最大迭代轮数100000，权重衰减0.0005，动量0.9。学习率在80000轮和90000轮时乘以0.1。第二步继续锁定主干网络的参数，但开放其余所有参数，联合训练进行微调。使用SGD优化器，初始学习率设置为0.001，最大迭代轮数、权重衰减和动量与第一步相同。学习率在80000轮迭代时乘以0.1。

训练在序列帧数据集上进行。对于每一帧，模型输出的空间注意力图可以被视为语义分割任务中的掩膜(Mask)，其对应的真实标注为下一帧图像中将标注的边界框内部标记为1，将背景标记为0，再下采样32倍得到的掩膜。使用交叉熵损失监督空间注意力图与真实标注掩膜间的差别。

训练中每2500轮在序列帧验证集上对模型进行验证，取最佳模型最为最终模型保存，并在序列帧测试集上测试，最终，提取参数确定的主干网络作为特征提取单元，提取参数确定的注意力预测网络作为注意力预测单元，提取检测网络作为检测单元，组成肠镜息肉检测模型。

该肠镜息肉检测模型可以实现对肠镜息肉的实时检测，具体过程为：对于视频的每一帧输入，将其搭配视频前一帧在前向推理时生成的空间注意力图，一起输入肠镜息肉检测模型，获得当前帧的检测结果，和模型预测的下一帧的空间注意力图。如此循环逐一检测视频的每一帧。对于视频的起始帧，使用全为1(即注意整张图)的空间注意力图作为初始化。

综上所述，本发明提出的基于深度学习的肠镜图像息肉检测模型，可以充分利用无标签数据和前后帧关联性以提升精度，同时也利用知识蒸馏和精简的前后帧注意力结构使得模型可以保持高计算效率，以获得高实时性，因而可以被实时应用于内窥镜检查中。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器存储有包含有特征提取单元、注意力预测单元以及检测单元的肠镜息肉检测模型和上一帧肠镜图像对应的空间注意力特征图，所述计算机处理器执行所述计算机程序时实现以下步骤：

2.如权利要求1所述的基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，所述肠镜息肉检测模型的构建过程为：

基于训练好的学生模型构建肠镜息肉检测模型的训练框架并训练，在学生模型的主干网络的输出端增加拼接操作、融合层以及注意力预测网络，上一帧肠镜图像对应的空间注意力特征图和当前帧肠镜图像经过主干网络输出的特征图经拼接操作拼接后输入融合层，融合层将拼接结果融合操作后输入注意力预测网络，经预测输出当前帧肠镜图像对应的空间注意力特征图并缓存，采用该训练框架对注意力预测网络进行训练，同时对训练好的学生模型进行全局微调训练，训练结束后，提取参数确定的主干网络作为特征提取单元，提取参数确定的注意力预测网络作为注意力预测单元，提取检测网络作为检测单元，组成肠镜息肉检测模型。

3.如权利要求2所述的基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，数据集的构建过程为：采集肠镜视频数据，截取其中包含息肉的多个视频片段并拆分成单帧图像，对单帧图像进行裁剪获得只包含肠镜的肠镜图像，形成总数据集，随机抽取总数据集中的部分肠镜图像进行人工息肉标注，得到标注息肉的标注数据集，剩下未标注的肠镜图像组成未标注息肉的未标注数据集，将标注数据集中按照固定帧数截取连续的肠镜图像组成序列帧，进而组成序列帧数据集。

4.如权利要求2所述的基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，教师模型的训练过程为：

5.如权利要求4所述的基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，利用训练集对当前轮次对应的教师模型实例进行预训练时，在训练样本图像中增加噪声来增强其学习效果。

6.如权利要求2所述的基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，学生模型的训练过程为：

7.如权利要求2所述的基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，肠镜息肉检测模型的训练过程为：

8.如权利要求2所述的基于深度卷积神经网络的实时肠镜息肉检测装置，其特征在于，所述预测注意力网络包括ResBlock，将预测注意力网络的输入特征图与ResBlock输出特征图拼接的拼接操作，对拼接操作结果进行卷积操作和激活的卷积层和sigmoid激活函数层，经过igmoid激活函数层处理输出空间注意力特征图。