CN114708258B

CN114708258B - 一种基于动态加权注意力机制的眼底图像检测方法及系统

Info

Publication number: CN114708258B
Application number: CN202210548394.9A
Authority: CN
Inventors: 张冬冬
Original assignee: Beijing Zhizhen Internet Technology Co ltd
Current assignee: Beijing Zhizhen Health Technology Co ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-02
Anticipated expiration: 2042-05-20
Also published as: US20230377147A1; CN114708258A

Abstract

本发明涉及一种基于动态加权注意力机制的眼底图像检测方法及系统，涉及图像处理技术领域。利用眼底图像分割模型检测早产儿眼底图像的病变信息。首先对眼底图像进行连续下采样，将得到的下采样特征与相邻层得到的下采样特征进行动态加权注意力融合，再将加权融合后的特征与对应的上采样层的输出特征融合，最后将第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率。本发明对浅层网络模型进行层级特征融合以及动态加权注意力机制，在保证识别准确性的同时，可达到降低算法设计的复杂度、降低算法的运行时间以及减少GPU资源的过多占用的目的。

Description

一种基于动态加权注意力机制的眼底图像检测方法及系统

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于动态加权注意力机制的眼底图像检测方法及系统。

背景技术

图像检测分割检测技术是计算机视觉研究中的一个经典难题，已成为图像理解领域关注的一个热点。传统的分割检测手段包括基于灰度、颜色、空间纹理、几何形状等把图像分割为若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或者相似性。近年来，随着深度学习技术的不断发展，图像分割技术也有了突飞猛进的进展，该技术已被广泛应用于无人驾驶、现实增强、安防监控等领域。

然而现有采用深度学习的分割检测方法为了提取到更丰富的特征，往往会将网络模型设置的很深，这不但导致了算法复杂度增加、算法运行时间过长，同时还占用了过多的GPU资源。

因此，本领域亟需一种能够在保证识别准确性的前提下，降低算法复杂度的技术方案。

发明内容

本发明的目的是提供一种基于动态加权注意力机制的眼底图像检测方法及系统，通过对浅层网络模型进行层级特征融合以及动态加权注意力机制，在保证识别准确性的同时，可达到降低算法设计的复杂度、降低算法的运行时间以及减少GPU资源的过多占用的目的。

为实现上述目的，本发明提供了如下方案：

本发明提供了一种基于动态加权注意力机制的眼底图像检测方法，所述方法包括：

获取待使用的眼底图像；

利用眼底图像分割模型检测所述眼底图像的病变信息；所述眼底图像分割模型包括n层连续的下采样层和n层连续的上采样层，第n层下采样层与第一层上采样层连接：

采用所述眼底图像分割模型对所述眼底图像进行连续n层下采样，得到n层下采样输出特征；

将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，

；其中，第1层加权特征为第1层下采样输出特征；

将第i层加权特征与第n-i层的上采样层的输出特征进行融合，并对融合特征进行反卷积后输入第n-i+1层上采样层；其中，第1层上采样层的输入为第n层加权特征与第n层下采样输出特征融合反卷积操作后的特征；

对第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率。

在一些实施例中，所述对第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率，具体包括：

对第n层上采样层的输出进行1x1xc卷积操作，得到每个像素的病变概率；其中，c表示分类的类别数目。

在一些实施例中，在所述对第n层上采样层的输出进行分类卷积操作之后，还包括：

利用softmax归一化函数对卷积结果进行归一化。

在一些实施例中，所述将第i层输出特征和相邻层输出特征利用动态加权注意力机制融合，得到第i层加权特征，

，具体包括：

获取第i层、第i-1层和第i+1层下采样输出特征；

对所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征进行层级特征融合：

分别计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征在通道方向的均值与标准方差；

根据均值和标准方差通过一维高斯分布分别计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征的动态权重；

根据所述动态权重计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征中每一个像素点在通道方向的权重；

根据所述每一个像素点在通道方向的权重计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征的注意力权重；

根据所述注意力权重对所述第i层下采样输出特征、第i-1层下采样输出特征和第i+1层下采样输出特征进行加权注意力特征融合，得到第i层加权特征。

在一些实施例中，在所述获取第i层、第i-1层和第i+1层下采样输出特征之后，还包括：

对所述第i层下采样输出特征进行

的卷积操作；其中，c表示输出的通道数；

对所述第i-1下采样层输出特征进行下采样和

的卷积操作；

对所述第i+1下采样层输出特征进行上采样和

的卷积操作。

在一些实施例中，所述眼底图像分割模型的训练过程，具体包括：

获取金标数据；所述金标数据为通过专业眼科医师标注过目标区域的眼底图像；

利用所述金标数据训练基于动态加权注意力机制的网络模型，得到眼底图像分割模型。

在一些实施例中，在所述获取待使用的眼底图像之后，还包括：

对所述眼底图像进行无效区域裁剪和影像增强。

在一些实施例中，所述影像增强的公式为：

；

其中，

表示增强后的图像，

表示无效区域裁剪后的图像，

表示标准差为

的高斯滤波。

本发明还提供了一种基于动态加权注意力的眼底图像检测系统，所述系统包括：

数据获取单元，用于获取待使用的眼底图像；

病变检测单元，用于利用眼底图像分割模型检测所述眼底图像的病变信息；所述眼底图像分割模型包括n层连续的下采样层和n层连续的上采样层，第n层下采样层与第一层上采样层连接：

病变检测单元，具体包括：

下采样模块，用于采用所述眼底图像分割模型对所述眼底图像进行连续n层下采样，得到n层下采样输出特征；

注意力机制加权模块，用于将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，

；其中，第1层加权特征为第1层下采样输出特征；

融合模块，用于将第i层加权特征与第n-i层的上采样层的输出特征进行融合，并对融合特征进行反卷积后输入第n-i+1层上采样层；其中，第1层上采样层的输入为第n层加权特征与第n层下采样输出特征融合反卷积操作后的特征；

检测模块，用于对第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率。

在一些实施例中，所述将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，

，具体包括：

获取第i层、第i-1层和第i+1层下采样输出特征；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明利用眼底图像分割模型检测眼底图像的病变信息，眼底图像分割模型包括n层连续的下采样层和n层连续的上采样层，第n层下采样层与第一层上采样层连接。首先对眼底图像进行连续下采样，将得到的下采样特征与相邻层得到的下采样特征进行动态加权注意力融合，从而对浅层网络模型进行层级特征融合以及动态加权注意力机制，再将加权融合后的特征与对应的上采样层的输出特征融合，最后将第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率，由于其对浅层网络模型进行层级特征融合以及动态加权注意力机制，在保证识别准确性的同时，可达到降低算法设计的复杂度、降低算法的运行时间以及减少GPU资源的过多占用的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的早产儿视网膜病变检测方法的整体工作流程图。

图2为本发明实施例一提供的基于动态加权注意力的眼底图像检测方法。

图3为本发明实施例一提供的包括4层连续的下采样层和4层连续的上采样层的眼底图像分割模型示意图。

图4为本发明实施例二提供的基于动态加权注意力的眼底图像检测系统的框图。

图5为本发明实施例三提供的原始输入图像示意图。

图6为本发明实施例三提供的裁剪后的图像示意图。

图7为本发明实施例三提供的图像增强处理后的图像示意图。

图8为本发明实施例三提供的网络模型的整体示意图。

图9为本发明实施例三提供的encoder模块的内部结构示意图。

图10为本发明实施例三提供的decoder模块的内部结构示意图。

图11为本发明实施例三提供的动态加权注意力机制模块的内部结构示意图。

图12为本发明实施例三提供的可视化早产儿视网膜病变特征示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在过去的20年中，学术界涌现了大量的基于彩色眼底影像进行早产儿视网膜病变检测的方法。传统方法使用手工制作的特征，如血管的扩张、血管的弯曲、静脉特征等来分析视网膜眼底图像，进而进行早产儿视网膜病变的检测。这些方法需要设定具体的特定规则，复杂度高，方法的鲁棒性也较弱，不利于早产儿视网膜病变的检测。近年来，以深度学习为代表的人工智能技术得到了显著的发展，其在医学影像诊断领域的应用也得到了越来越多的关注。有别与传统的图像特征识别，深度学习的方法不需要人为的去设计一些手工特征，其网络在学习的过程中能够自动的提取特征，提取的特征相较于手工设计的特征，表现为提取的特征数量更多、表现更抽象，能够表达一些手工特征无法表现的内容。对于彩色眼底影像，其本身包含丰富的身体结构或组织的众多信息，算法通过识别和理解眼底影像中的这些细节，能够辅助医生进行相关疾病的诊断。因此，基于深度学习的方法设计早产儿视网膜病变检测系统去辅助医生做疾病诊断相较于传统图像处理方法有着巨大的优势。

然而目前提出的早产儿视网膜病变检测方法存在以下几个缺陷：

1.检测方法鲁棒性不强。新生儿眼底在拍摄过程中，由于配合度受限，拍摄的眼底影像往往存在过暗、漏光、视盘位置不正等情况，采用传统的识别算法很容易受到此类因素的干扰，对早产儿视网膜病变的检测带来巨大挑战。

2.部分采用深度学习的方法只是通过卷积神经网络来对是否存在早产儿视网膜病变进行分类，缺乏直观的病灶展示。但医生往往在诊疗过程中，需要给出明确的证据来支撑阅片的眼底是否属于早产儿视网膜病变，因此将可疑病灶标注出来在辅助临床诊断过程中不可或缺。

3.为了提取到更丰富的特征，往往会将网络模型设置的很深，这不但导致了算法复杂度增加、算法运行时间过长，同时还占用了过多的GPU资源。通过对浅层网络模型进行层级特征融合以及动态加权注意力机制，在保证识别准确性的同时，可达到降低算法设计的复杂度、降低算法的运行时间以及减少GPU资源的过多占用的目的。

本发明针对上述现有状况，提出了一种基于动态加权注意力机制的眼底图像检测方法及系统，通过影像采集装置，采集新生儿眼底影像，眼底影像首先经过预处理模块，对其进行诸如无效区域裁剪、影像增强等操作，接着将处理后的影像输入到集成有动态加权注意力机制的网络模型中对可见的病灶进行分割，进而输入到后处理模块对识别的病灶做进一步的去噪处理，最终通过输出模块输出完整的病灶分割影像。整体工作流程图如图1所示。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一：

如图2所示，本实施例提供了一种基于动态加权注意力机制的眼底图像检测方法，所述方法包括：

S1、获取待使用的眼底图像。

新生儿在拍摄过程中，由于配合度受限，大部分情况下拍摄到的眼底影像不利于病灶的识别，因此需要对新生儿眼底图像进行无效区域裁剪和影像增强。

其中，影像增强的公式为：

；

其中，

表示增强后的图像，

表示无效区域裁剪后的图像，

表示标准差为

的高斯滤波。

S2、利用眼底图像分割模型检测所述眼底图像的病变信息；所述眼底图像分割模型包括n层连续的下采样层和n层连续的上采样层，第n层下采样层与第一层上采样层连接。具体的检测步骤如下：

S21、采用所述眼底图像分割模型对所述眼底图像进行连续n层下采样，得到n层下采样输出特征。

本实施例提供的眼底图像分割模型进行连续4层下采样，每层下采样操作为三次3x3的卷积操作以及一个最大池化操作，最大池化操作的步长设置为2。经过4层下采样后，得到被下采样16倍后的特征图FE。

S22、将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，

；其中，第1层加权特征为第1层下采样输出特征，不经过动态加权注意力融合。

本实施例中仍然以共4层为例，即n=4。第1层加权特征为第1层下采样输出特征，不经过动态加权注意力融合；将第2层、第1层和第2层下采样输出特征利用动态加权注意力机制融合，得到第2层加权特征；将第3层、第2层和第4层下采样输出特征利用动态加权注意力机制融合，得到第3层加权特征；将第4层和第3层下采样输出特征利用动态加权注意力机制融合，得到第4层加权特征。本实施例中包括4层连续的下采样层和4层连续的上采样层的眼底图像分割模型示意图如图3所示。

其中，所述将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，

，的具体步骤包括：

首先，获取第i层、第i-1层和第i+1层下采样输出特征。然后，对所述第i层下采样输出特征进行

的卷积操作；其中，c表示输出的通道数；对所述第i-1层下采样输出特征进行2倍下采样和

的卷积操作；对所述第i+1层下采样输出特征进行2倍上采样和

的卷积操作。

然后，对所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征进行层级特征融合，层级特征融合的具体步骤包括：

A1、分别计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征在通道方向的均值与标准方差。

A2、根据均值和标准方差通过一维高斯分布分别计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征的动态权重。

A3、根据所述动态权重计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征中每一个像素点在通道方向的权重。

A4、根据所述每一个像素点在通道方向的权重计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征的注意力权重。

A5、根据所述注意力权重对所述第i层下采样输出特征、第i-1层下采样输出特征和第i+1层下采样输出特征进行加权注意力特征融合，得到第i层加权特征。

特征融合的公式为：

；其中，

表示对第i层下采样输出特征、第i-1层下采样输出特征和第i+1层下采样输出特征进行特征加权后的输出，W ^i-1，W ⁱ，W ⁱ⁺¹分别为第i-1层输出特征、第i层输出特征和第i+1层输出特征的注意力权重，

，

和

分别表示第i-1层下采样输出特征、第i层下采样输出特征和第i+1层下采样输出特征。

S23、将第i层加权特征与第n-i层的上采样层的输出特征进行融合，并对融合特征进行反卷积后输入第n-i+1层上采样层；其中，第1层上采样层的输入为第n层加权特征与第n层下采样输出特征融合反卷积操作后的特征。

具体的融合过程为，利用公式

进行融合，其中repeat(x,2)表示对x操作执行2次，concate(x,y,axis=2)表示对x和y在通道方向进行堆叠，conv(x,3,3)表示对x执行3x3的卷积操作，

和d_in ^n-i分别表示第i层加权特征和第n-i层的上采样层的输出特征，

表示融合后的特征。

本实施例中仍然以共4层为例，即n=4。第1层上采样层的输入为第4层加权特征与4层下采样输出特征融合反卷积操作后的特征；将第3层加权特征与第1层的上采样层的输出特征进行融合，并对融合特征进行反卷积后输入第2层上采样层；将第2层加权特征与第2层的上采样层的输出特征进行融合，并对融合特征进行反卷积后输入第3层上采样层；将第1层加权特征与第3层的上采样层的输出特征进行融合，并对融合特征进行反卷积后输入第4层上采样层。

S24、对第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率。本实施例中对第4层上采样层的输出进行分类卷积操作，得到每个像素的病变概率。

具体为对最后一层上采样特征图进行1x1xc卷积操作，其中，c表示分类的类别数目，然后利用softmax归一化函数对卷积结果归一化至0-1区间，得到每个像素点对应类别的概率，本申请中取0.5作为判断依据，得到每个像素点的病变概率。

其中，眼底图像分割模型的训练过程，具体包括：

UNet网络架构是一种典型的encoder-decoder网络架构模型，已经被广泛应用于生物医学领域的分割任务。但UNet网络模型存在如下缺点：（1）原始UNet网络模型在encoder和decoder相应层之间只是简单的通道堆叠，并未考虑到层级特征关系；（2）UNet网络模型的一些改进版本虽然考虑到了层级特征关系，利用不同层提取的特征做融合处理，但是在做层级特征融合时，将每层特征的重要程度同等对待，这其实忽略了不同层其实表达的信息的重要程度不尽相同的事实。在本实施例中，基于以上两个缺点，我们对UNet网络模型进行了两点改进。

（1）加入不同层级的特征融合以提高整个网络模型的分割能力。

（2）不同层级的特征在融合过程中在通道维度加入动态权重更新模块以最大程度的利用不同特征层提取的显著性特征。

实施例二：

如图4所示，本实施例提供了一种基于动态加权注意力机制的眼底图像检测系统，该系统包括：

数据获取单元M1，用于获取待使用的眼底图像；

病变检测单元M2，用于利用眼底图像分割模型检测所述眼底图像的病变信息；所述眼底图像分割模型包括n层连续的下采样层和n层连续的上采样层，第n层下采样层与第一层上采样层连接：

病变检测单元M2，具体包括：

下采样模块M21，用于采用所述眼底图像分割模型对所述眼底图像进行连续n层下采样，得到n层下采样输出特征；

注意力机制加权模块M22，用于将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，

；

融合模块M23，用于将第i层加权特征与第n-i层的上采样层的输出特征进行融合，并对融合特征进行反卷积后输入第n-i+1层上采样层；其中，第1层上采样层的输入为第n层加权特征与第n层下采样输出特征融合反卷积操作后的特征；

检测模块M24，用于对第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率。

，具体包括：

获取第i层、第i-1层和第i+1层下采样输出特征；

实施例三：

本实施例提供了一种基于动态加权注意力机制的眼底图像检测系统，包括：影像采集装置，预处理模块，分割网络模块，模型训练模块，前向推理模块，后处理模块以及输出模块组成。

影像采集装置作为数据的采集端，可以通过直接与新生儿眼底照相机等采集设备相连接采集影像数据，也可以采集事先存储在其它设备上已有的眼底数据，对于数据的来源途径，比如来自设备、来自网络、来自本地存储的数据不做限制。

预处理模块主要功能为对输入的图像进行标准化处理，标准化处理包括两部分，一部分为剔除新生儿眼底影像的无效区域，降低其对网络模型的影响。新生儿在拍摄过程中，由于配合度受限，大部分情况下拍摄到的眼底影像较暗，不利于病灶的识别，因此标准化处理的第二部分为对眼底影像的增强操作。

预处理模块具体操作步骤如下：

1.对于固定型号的眼底照相机采集的眼底影像其无效区域相对固定，不会随着拍摄角度、拍摄人员的不同而改变，因此可以事先确定裁剪无效区域的范围，记有效区域的左上角坐标为[L_X，L_Y]，右下角坐标为[R_X，R_Y]。对于输入图像记为ori_image，通过公式（1）可实现无效区域的裁剪，裁剪后的图像记为crop_image。原始输入图像如图5所示，裁剪后的图像如图6所示。

...............（1）

公式（1）中，L_Y:R_Y表示从图像的第L_Y行到R_Y行，L_X:R_X表示从图像的L_X列到R_X列，0:3表示彩色图像的B、G、R三个通道。

2. 对裁剪后的影像进行增强处理以增加病灶与背景的对比度，增强处理有利于算法模型对病灶的识别，其增强公式如公式（2）所示。增强后的图像如图7所示。

(2)

公式（2）中，

表示标准差为

的高斯滤波，在本实施例中

。

分割网络模块接收输入的影像，然后对影像每个像素点判别属于背景还是病灶。具体操作步骤如下：

（1）将增强后的影像

输入到设计的网络模型中，

首先经过网络的encoder模块完成影像的下采样功能。其encoder模块的特征如下。

网络encoder模块如图8左半边所示，分别包括E1、E2、E3、E4四个小模块，每个模块内部结构如图9所示，分别包括三个3x3的卷积层以及一个最大池化层，最大池化层的步长设置2。经过E1-E4模块后，获取

被下采样16倍后的特征图FE。

（2）将特征图FE通过网络decoder模块并同时结合动态加权注意力机制模块以及encoder模块，实现特征图的上采样操作以及特征的融合，输出记为FO，其decoder模块以及动态加权注意力机制模型的特征如下。

（2.1）网络decoder模块如图8右半边所示，分别包括D1、D2、D3、D4四个小模块，每个模块内部结构如图10所示，其接收两路数据输入，一路输入来自前一层网络的输出G1，另一路来自于encoder模块同层以及相邻层通过动态加权注意力机制模块融合后的特征输出G2，两路特征在通道维度融合后经过三个3x3的反卷积层以及一个上采样层，上采样的步长设置2，可得到decoder层当前的输出。经过D1-D4模块后，获取decoder模块上采样16倍后的特征图FO。

（2.2）上述动态加权注意力机制模块如图8中间部分所示，其内部结构如图11所示。在这里定义encoder结构第n层的输出为e_out ⁿ，decoder结构中来自n-1层的输入为d_ in ⁿ，第n层输出为d_out ⁿ。对于第n个模块，x_n首先分别接收来自于encoder结构当前层的输入，前一层的输入以及后一层的输入，即e_out ⁿ，e_out ^n-1，e_out ⁿ⁺¹。在e_out ^n-1，e_out ⁿ，e_ out ⁿ⁺¹进行动态加权注意力机制特征融合之前，需要对e_out ⁿ进行1x1xc的卷积操作，对e_ out ^n-1进行2倍下采样以及1x1xc的卷积操作，对e_out ⁿ⁺¹进行2倍的上采样以及1x1xc的卷积操作，目标是保证经过1x1xc卷积后，e_out ^n-1，e_out ⁿ，e_out ⁿ⁺¹的输出通道个数与decoder结构中相应层的输出通道保持一致。具体对e_out ^n-1，e_out ⁿ，e_out ⁿ⁺¹的更新操作公式如（3）-（5）。

e_out ^n' = conv(3,3,c)( e_out ⁿ ) （3）e_out ^n-1' = down_sample(conv(3,3,c), stride=2)( e_out ^n-1 ) （4）

e_out ^n+1' = up_sample(conv(3,3,c),stride=2)( e_out ⁿ⁺¹ ) （5）

公式中conv(3, 3, c）表示卷积操作，3表示卷积核的大小，c表示输出的通道数，与decoder结构中相应层的输出通道保持一致，down_sample表示下采样，up_sample表示上采样，stride表示步长。

接着将e_out ^n-1'，e_out ^n'，e_out ^n+1'输入到动态加权注意力机制模块中进行层级特征融合。在动态加权注意力机制模块内部，首先通过公式（6）-（7）计算e_out ^n-1'，e_out ^n'，e_out ^n+1'特征图在通道方向的均值与标准方差。

=2) （6）

=2)) （7）

公式（6）中，

表示当前处理的输入特征图，即e_out ^n-1'，e_out ^n'，e_out ^n+1'，C表示当前处理特征图的通道数量，HxW表示当前处理特征图的高与宽，sum表示求和操作。axis=2表示在通道方向上执行相应的操作。

表示对输入特征图在通道方向求取平均值后的输出。公式（7）中，

表示在通道方向求取标准方差后的输出。std表示求方差操作，sqrt表示开平方操作。

将e_out ^n-1'，e_out ^n'，e_out ^n+1'依次通过公式（6）-（7）可得到相应特征图在通道方向上的均值与方差，分别记为

，

，

，

，

，

。接着利用

，

，

，

，

，

通过一维高斯分布计算e_out ^n-1，e_out ⁿ，e_ out ⁿ⁺¹的动态权重。一维高斯分布如公式（8）所示。

(8)

表示标准差，

代表均值，

以及

可通过公式（9）-(10)进行计算。

+

+

)/3 (9)

，

，

/3 (10)

得到

以及

后，通过公式（11）-（13）可计算e_out ^n-1'，e_out ^n'，e_out ^n+1'每一个像素点在通道方向的权重。

(11)

(12)

(13)

公式（11）-（13）中，

表示特征图e_out ^n-1'在位置

处通道方向的权重，

表示特征图e_out ^n'在位置

处通道方向的权重，

表示特征图e_out ^n+1'在位置

处通道方向的权重。

对HxW平面所有像素点通过公式（11）-（13）进行计算可得到整个平面的注意力权重W ^n-1，W ⁿ，W ⁿ⁺¹。

根据得到的W ^n-1 ，W ⁿ，W ⁿ⁺¹对特征图e_out ^n-1'，e_out ^n'，e_out ^n+1'通过公式（14）进行加权注意力特征融合。

(14)

公式（14）中，

表示对

，

，

进行特征加权后的输出。

此时求得的记为上述其中一路输入G2。d_in ^n-1即为上述其中一路输入G1。

（2.3）将

与d_in ⁿ通过公式（15）可得到decoder结构中第n层的输出。

(15)

公式（15）中，repeat(x,2)表示对x操作执行2次。concate(x,y,axis=2)表示对x和y在通道方向进行堆叠。conv(x,3,3)表示对x执行3x3的卷积操作。

（2.4）通过公式（15）依次每层的输出

，可得到最后一层的输出

。

（3）对于最后一层的输出d_out4先进行1x1xc的卷积操作，此处c表示分类的类别数目，本实施例将c设置为2，然后再加入softmax归一化函数，归一化至0-1区间，取0.5作为判别依据，即可输出每个像素点对应类别的概率。

模型训练模块，模型训练阶段包括三个部分，第一部分为训练数据的准备，眼底影像数据通过专业眼科医师的标注形成金标数据。第二部分为模型参数的设置，第三部分为训练过程中数据的动态扩增。模型参数使用Xaiver参数初始化方法。损失函数使用Softmax交叉熵损失函数，优化方式采用Adam优化方法，学习速率开始设置为0.001，每过50个epoch，学习速率降低为原来的1/10。模型在训练过程中会每次选取batch个数据进行训练，本方案batch设置为8，在将数据输入到网络之前，本方案对读取到内存中的数据做了随机扩增，具体方法为算法会对每一张图片动态生成一个标号，每个标号对应一种图像扩增方法，在同一个batch内的数据会对应到多种扩增方法，并且下次再处理同一张影像时，由于前后产生的标号不一样，对应的扩增方法也不一样，这极大的丰富了训练数据的多样性，避免了模型在训练过程中过拟合或欠拟合现象的发生。此处扩增方法包括但不限于图像平移、图像亮度调整、图像对比度调整、图像中值滤波、图像均值滤波等。

前向推理模块，给定一张彩色新生儿眼底影像，首先对图像进行标准化处理，执行裁剪和增强操作，接着将处理后的图像对输入到整个的网络模型中，网络获取对应层的特征图并计算Wn-1，Wn，Wn+1对相应特征图进行加权融合，实现自注意力机制，即可获得该新生儿眼底影像的病灶提取信息。

后处理模块，由于新生儿在进行眼底影像采集时配合程度受限，拍摄的眼底影像往往存在漏光、过暗等情况。因此需要对网络模型提取得到的病灶信息进行后处理操作，本方案的后处理操作具体过程为删除面积小于一定阈值的病灶，因为面积过小的病灶大都是噪声引起的像素误标。

输出模块，本实施例最后的输出包括两部分。一部分为所检测的影像是否存在早产儿视网膜病变。另外一部分为对可见的异常早产儿视网膜病变特征进行可视化，如图12所示。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于动态加权注意力机制的眼底图像检测方法，其特征在于，所述方法包括：

获取待使用的眼底图像；

将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，i∈[1,n]；其中，第1层加权特征为第1层下采样输出特征；

对第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率；

所述将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，i∈[1,n]，具体包括：

获取第i层下采样输出特征、第i-1层下采样输出特征和第i+1层下采样输出特征；

根据所述均值和所述标准方差通过一维高斯分布分别计算所述第i层下采样输出特征、所述第i-1层下采样输出特征和所述第i+1层下采样输出特征的动态权重；

2.根据权利要求1所述的基于动态加权注意力机制的眼底图像检测方法，其特征在于，所述对第n层上采样层的输出进行分类卷积操作，得到每个像素的病变概率，具体包括：

3.根据权利要求1所述的基于动态加权注意力机制的眼底图像检测方法，其特征在于，在所述对第n层上采样层的输出进行分类卷积操作之后，还包括：

利用softmax归一化函数对卷积结果进行归一化。

4.根据权利要求1所述的基于动态加权注意力机制的眼底图像检测方法，其特征在于，在所述获取第i层下采样输出特征、第i-1层下采样输出特征和第i+1层下采样输出特征之后，还包括：

对所述第i层下采样输出特征进行1×1×c的卷积操作；其中，c表示输出的通道数；

对所述第i-1层下采样输出特征进行下采样和1×1×c的卷积操作；

对所述第i+1层下采样输出特征进行上采样和1×1×c的卷积操作。

5.根据权利要求1所述的基于动态加权注意力机制的眼底图像检测方法，其特征在于，所述眼底图像分割模型的训练过程，具体包括：

6.根据权利要求1所述的基于动态加权注意力机制的眼底图像检测方法，其特征在于，在所述获取待使用的眼底图像之后，还包括：

对所述眼底图像进行无效区域裁剪和影像增强。

7.根据权利要求6所述的基于动态加权注意力机制的眼底图像检测方法，其特征在于，所述影像增强的公式为：

e_image(x,y)＝4*crop_image(x,y)-4*Gaussion(x,y,ρ)+128；

其中，e_image(x,y)表示增强后的图像，crop_image(x,y)表示无效区域裁剪后的图像，Gaussion(x,y,ρ)表示标准差为ρ的高斯滤波。

8.一种基于动态加权注意力机制的眼底图像检测系统，其特征在于，所述系统包括：

数据获取单元，用于获取待使用的眼底图像；

病变检测单元，具体包括：

注意力机制加权模块，用于将第i层下采样输出特征和相邻层下采样输出特征利用动态加权注意力机制融合，得到第i层加权特征，i∈[1,n]；其中，第1层加权特征为第1层下采样输出特征；

根据所述注意力权重对所述第i层下采样输出特征、第i-1层下采样输出特征和第i+1层下采样输出特征进行加权注意力特征融合，得到第i层加权特征；