CN116091449A

CN116091449A - 一种基于无监督异构蒸馏框架的视网膜oct图像病变分类方法

Info

Publication number: CN116091449A
Application number: CN202310020402.7A
Authority: CN
Inventors: 李慧琦; 陆帅; 赵赫
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-09

Abstract

本发明涉及一种基于无监督异构蒸馏框架的视网膜OCT图像病变分类方法，属于图像分类技术领域。该方法包含一个教师网络和一个学生网络,教师网络以在自然图像上预先训练的参数作为教师网络的初始参数,训练所述方法时只需要少量正常的视网膜OCT图像，并且在训练时教师网络不更新参数,学生网络以教师网络的特征为输入，并且学习教师网络产生的浅层特征,在测试阶段，通过对比教师网络和学生网络产生特征的差异来判断待测图像是否是病变图像,这样能有缓解训练深度学习网络需要大量医学图像标注的问题。

Description

一种基于无监督异构蒸馏框架的视网膜OCT图像病变分类方法

技术领域

本发明涉及一种基于无监督异构蒸馏框架的视网膜OCT图像病变分类方法，属于图像分类技术领域。

背景技术

据世界卫生组织统计，在2010年全球大约有3亿人受到眼疾困扰，其中包括3900万人失明。大约80％的视力损伤可以通过预防可以得到避免。在所有可能导致视力受损的因素中，眼底病变是一个重要因素。常见的眼底病有糖尿病黄斑水肿、视网膜阻塞和青光眼等。

眼底疾病的预防和早期针对可以避免失明和视力的损伤。光学相干断层扫描技术(Optical Coherence Tomography,OCT)作为一种新型的医学成像技术被用于眼科疾病的诊断和治疗。OCT成像技术具有无创、无侵入的优点，因此适用于眼底织成像。它可通过采集到的二维扫描切片对视网膜进行三维建模，极大便利了医生的诊断。通过OCT技术获取黄斑中心和视盘中心附近的扫描图像，就可初步地对视网膜形态进行评估。由于OCT技术可以获得更深层和更细致的视网膜结构信息，使得对眼部疾病的定性以及判断更加精确。

视网膜OCT图像分类方法可以分为基于手工特征的传统方法和基于卷积神经网络(CNN)的深度学习方法。传统方法主要包括边缘检测方法、阈值方法、色差方法和超像素方法。这些方法主要基于手工特征进行图像分类，容易受到图像质量和噪声损伤的影响。与传统方法相比，卷积神经网络可以自动从图像中提取特征。许多基于CNN的变体已经被提出来分类视网膜OCT图像。虽然基于CNN的方法比手工制作的基于特征的方法具有更好的性能，但是基于CNN的OCT图像分类方法需要大量的医学标注用于模型的训练才能提高模型的性能。

不同于自然图像的标注，医学图像的病变标注必须要有经验丰富的医生进行标注。经典的深度学习方法用于视网膜OCT图像分类需要大量带有标注的视网膜OCT图像。然而标注大量的视网膜OCT图像将会给医生带来巨大的负担，一些具有较高准确度的无监督方法成为当前医学图像分析的焦点。

发明内容

针对现有技术中的缺陷，本发明提供一种视网膜OCT图像病变分类方法，用于解决现有技术需要大量医学标注才能实现模型较高性能的问题。

本发明的技术解决方案是：

一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，该方法中使用一个教师网络和一个学生网络，教师网络以在自然图像上预先训练的参数作为教师网络的初始参数，训练所述方法时只需要少量正常的视网膜OCT图像，并且在训练时教师网络不更新参数，学生网络以教师网络的特征为输入，并且学习教师网络产生的浅层特征，在测试阶段，通过对比教师网络和学生网络产生特征的差异来判断待测图像是否是病变图像，这样能有缓解训练深度学习网络需要大量医学图像标注的问题；

该方法具体包含以下步骤：

S1，对输入的视网膜OCT图像进行预处理，教师网络提取预处理后的OCT图像的特征，得到四组不同尺度的特征，四组不同尺度的特征分别为教师网络的第一阶段特征

教师网络的第二阶段特征

教师网络的第三阶段特征

和教师网络的第四阶段特征

S2，学生网络以步骤S1得到的教师网络的第四阶段特征

作为输入，生成三组不同尺度的特征，三组不同尺度的特征分别为学生网络的第三阶段特征

学生网络的第二阶段特征

和学生网络的第一阶段特征

学生网络是一个卷积神经网络和transformer模块混合而成的混合网络；

S3，对学生网络进行参数优化，学生网络的优化目标是使得学生网络的第一阶段特征

与教师网络的第一阶段特征

更接近、学生网络的第二阶段特征

与教师网络的第二阶段特征

更接近、学生网络的第三阶段特征

与教师网络的第三阶段特征

更接近，最终得到优化后的学生网络；

S4,使用教师网络提取待测视网膜OCT图像的特征，得到四组不同尺度的特征，四组不同尺度的特征分别为教师网络的第一阶段特征

教师网络的第二阶段特征

教师网络的第三阶段特征

和教师网络的第四阶段特征

S5，以步骤S4得到的教师网络的第四阶段特征

作为步骤S3优化后的学生网络的输入，生成三组不同尺度的特征，三组不同尺度的特征分别为学生网络的第三阶段特征

学生网络的第二阶段特征

和学生网络的第一阶段特征

S6，计算步骤S4得到的教师网络的第一阶段特征

与步骤S5得到的学生网络的第一阶段特征

的相似度，进而用于计算第一阶段病变得分Score₁；同理，计算教师网络的第二阶段特征

与步骤S5得到的学生网络的第二阶段特征

的相似度，进而计算第二阶段病变得分Score₂；计算教师网络的第三阶段特征

与步骤S5得到的学生网络的第三阶段特征

的相似度，进而计算第三阶段病变得分Score₃，并将第一阶段病变得分Score₁、第二阶段病变得分Score₂和第三阶段病变得分Score₃相加，得到待测图像的病变得分Score。

所述的步骤S1中，对输入的视网膜OCT图像进行预处理具体为：将输入的OCT图像压缩至分辨率为(H,W)的大小，其中H的取值范围为112～448像素，W与H相同；

所述的步骤S1中，教师网络是一个在ImageNet大规模数据集上预先训练过的卷积神经网络(也称作CNN)，优选地，教师网络可选择ResNet、DenseNet和VGGNet等分类卷积神经网络；

所述教师网络使用在ImageNet数据集上预先训练好的权重作为初始化，并且训练阶段教师网络的参数权重不更新；

所述教师网络继承了经典分类卷积神经网络四个阶段中特征提取块的结构，但是教师网络将经典卷积分类网络中最后的全连接层删除，教师网络的四个阶段特征提取块分别产生步骤S1中所述的教师网络产生的四组不同尺度的特征，分别记为教师网络的第一阶段特征

教师网络第二阶段特征

教师网络第三阶段特征

和教师网络第四阶段特征

四个阶段特征提取块分别为第一个阶段特征器、第二个阶段特征器、第三个阶段特征器、第四个阶段特征器；

所述S1中教师网络产生所述四组不同尺度的特征，其中所述教师网络第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征的提取方法为：

将预处理后分辨率为(H,W)的OCT图像输入到教师网络第一个阶段特征器后得到教师网络的第一阶段特征

其中特征

的维度为(H/4,W/4,64)；教师网络的第二阶段特征提取器将第一阶段特征

提取压缩成教师网络的第二阶段特征

其中

维度为(H/8,W/8,128)；进一步，教师网络的第三阶段特征提取器将第二阶段特征

提取压缩为教师网络的第三阶段特征

其中

维度为(H/16,W/16,256)；最后，教师网络的第四阶段特征提取器将第三阶段特征

提取压缩为教师网络的第四阶段特征

其中

特征维度为(H/32,W/32,512)；

在所述步骤S2中，学生网络生成的三组不同尺度的特征依次为学生网络的第三阶段特征

学生网络的第二阶段特征

和学生网络的第一阶段特征

其中生成三组不同尺度的特征的方法为：

所述学生网络以教师网络第四阶段特征

为输入，然后学生网络对输入的第四阶段的特征进行处理，学生网络共包括三个阶段来生成多尺度的特征，学生网络将第四阶段特征

依次解码至与所述教师网络三个阶段特征相一致的尺度，其中教师网络的三个阶段特征分别为教师的第一阶段特征

第二阶段特征

和第三阶段特征

所述学生网络将教师网络的第四阶段特征

处理为学生网络的第三阶段特征

其中

维度为

H₃、W₃和C₃分别代表特征的高度、宽度和通道数目；进一步，学生网络将第三阶段特征

生成第二阶段特征

其中

维度为

最后，学生网络将第二阶段特征

生成第一阶段特征

其中

维度为

在所述的步骤S2中，学生网络是一个卷积神经网络和transformer模块混合而成的混合网络，学生网络的三个阶段都是由模块单元组成，模块单元包括CNN子块(也称作卷积子块)和transformer子块，所述模块单元为：

所述的模块单元中包含两个并行的子块，它们分别是CNN子块和transformer子块；

首先模块单元通过1×1卷积对输入的特征进行维度调整，调整后的新特征被分成两个特征组，分别记为混合模块的第一组特征和混合模块的第二组特征，卷积模块的第一组特征通过CNN子块后产生特征F^Conv，混合模块的第二组特征通过transformer子块后产生特征F^Tran，最终特征F^Conv和特征F^Tran并列堆叠到一起生成特征F^Tran-Conv，特征F^Tran-conv的通道数通过使用1×1的卷积来调整；

所述的模块单元中CNN子块具体结构为：卷积子块包含两个连续的卷积核大小为3×3的卷积，其中卷积的步长为1×1和填充padding为1；

如图3所示，所述模块单元中transformer子块为多尺度稀疏transformer模块，具体结构为：

多尺度稀疏transformer模块包括特征聚合模块、多头注意力机制(MCA)和多层感知机(MLP)三部分，假定输入到多尺度稀疏transformer模块的特征为输入特征F，特征F维度为

其中(H_i,W_i)表示在学生网络中第i个阶段的特征F的分辨率，C_i表示在学生网络中第i个阶段通道的维度，其中4C₁＝2C₂＝C₃，H₁＝2H₂＝4H₃和W₁＝2W₂＝4W₃；优选地，H₁和W₁的取值范围56～224像素,C₃的范围256～1024；

其中，所述特征聚合模块生成两种类型的特征，生成第一种特征是局部特征F_local和生成的第二种特征是区域特征F_region，其中F_local的维度为

和F_region的维度为R^Ci ^×(Hj·j)；

具体地，所述局部特征F_local(第一种特征)如下方式获得：

j＝1,…,N_l,N_l＝H_i·W_i,

其中，特征

是多尺度稀疏transformer模块的输入特征F形变后的特征，

的维度是

fⁱ表示

中特征的分量，fⁱ维度为

N_l＝H_i·W_i代表分量的个数，

代表位置嵌入特征；

具体得，所述区域特征F_region(第二种特征)如下方式获得：

首先，所述输入特征

使用大小为(p,p)的块分成互不相交的特征块序列F_p，特征序列F_p的维度为

其中

表示序列块的数量和

表示第i个块；优选地，p的取值范围1～8像素；

然后，互不相交的特征块列F_p被矩阵E映射变换成序列块

其中矩阵E的维度为

进一步，一个可学习的位置嵌入E_pos与特征序列块

相加生成区域特征的分量

的维度为

和E_pos的维度为

区域特征的分量

如下计算：

j＝1,…,N_p,

所述多尺度稀疏transformer模块中的多头注意力机制为：

首先，所述局部特征F_local被矩阵

线性映射到Queriy值(Queriy值记为Q_j)，其中矩阵

维度为

Q_j的维度为

代表单头注意力机制的维度和N_i代表第i个阶段单头注意机制的数目；

同时F_region被矩阵

线性映射到Key键值(Key键值记作

)，其中

的维度为

的维度为

F_region也被矩阵

线性映射到Value值(Value值记作

)，其中

的维度为

维度为

Query值(Q_j),key值

和value值

可以被如下定义：

所述多头注意力机制中的计算单头注意力机制计算Query值(Q_j),key值

和value值

的关系，如下所示：

进一步，

个单头注意力被合并在一起来获得多头注意力机制(MCA)，多头注意力被如下表示：

进一步，两个尺度的多头注意力机制被合并在一起。具体的说，具有分块大小为p₁的多头注意力机制

和具有分块大小为p₂的多头注意力机制

被合并在一起来得到特征Z，公式如下所示：

最后，所述特征Z通过正则化层(LN)和多层感知机(MLP)来增强特征获得最终的特征

特征

可以由如下公式表示：

其中p₁和p₂表示分块的大小，MLP表示多层感知机和LN表示层正则化；

所述步骤S3中对学生网络进行参数优化，学生网络的优化目标是使得学生网络的三组特征和教师网络的三组特征更接近的方法具体为：

代表第k阶段(h,w)位置的教师网络的特征，

代表第k阶段(h,w)位置的学生网络的特征；L^k(h,w)表示第k阶段(h,w)位置教师网络特征和学生网络特征的损失，L^k(h,w)损失主要由余弦函数cos和平方损失mse加权组成，具体的数学公式如下：

其中α代表权重，优选地，取值范围在(0,1)之间；

最终，学生网络完整的损失

是由三个阶段损失进行相加，如下公式表示：

其中(H_k,W_k)代表第k个阶段特征的分辨率大小，K代表学生所有的阶段数目。

所述S6中计算教师网络和学生网络的特征相似度最终获得待测图像的病变得分，其中病变得分具体如下实现：

代表第k阶段(h,w)位置的教师网络的特征，

代表第k阶段(h,w)位置的学生网络的特征；

代表特征

和特征

的相似度，

代表病变得分；

计算教师网络的第一阶段特征

与步骤S5得到的学生网络的第一阶段特征

的相似度，进而计算第一阶段病变得分Score₁，如下表示，

计算教师网络的第二阶段特征

与步骤S5得到的学生网络的第二阶段特征

的相似度，进而计算第二阶段病变得分Score₂，如下所示，

计算教师网络的第三阶段特征

与步骤S5得到的学生网络的第三阶段特征

的相似度，

最终学生三个阶段的特征和教师网络三个阶段的病变得分进行求和为最终图像的病变得分Score，具体公式如下表示，

有益效果

本发明方法，与相关技术相比较，具有以下优点：

1.所述方法是一个基于无监督异构知识蒸馏的框架用于视网膜OCT图像病变分类。所述方法只需要对少量的正常样本的特征分布进行学习就能实现较高性能的病变分类性能。在所述框架中教师网络是一个通用的基于卷积神经网络的分类网络，而学生网络是一个基于CNN和transformer混合的网络。学生网络和教师网络是异构结构，在训练过程中，只使用正常样本来让学生网络学习教师网络的特征。当在测试中通过计算学生网络和教师网络的特征差异来实现病变检测。

2.为了充分发挥所述无监督异构知识蒸馏框架中异构的优点，一个多尺度稀疏transformer被设计来提升所述分类方法的病变分类性能。所述多尺度稀疏transformer在能够建模长距离特征依赖的基础上，还能够缓解transformer方法消耗较高计算量和较高内存占用的问题。

3.所述分类方法中将教师网络的特征输出作为学生网络的特征输入等价于将自编码器特征压缩和特征重构的思想引入到蒸馏方法中，这种特征压缩和特征恢复的结构能够实现缓解无监督蒸馏方法在视网膜OCT图像病变中过检测的问题。

附图说明

图1为本发明方法及实施例中的流程示意图；

图2为本发明实施例提供的一种基于无监督异构蒸馏网络的视网膜OCT图像病变分类方法的结构示意图；

图3为本发明实施例中基于多尺度稀疏transformer模块结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例设计了一种基于无监督异构蒸馏框架的视网膜OCT图像病变分类方法，该方法设计了结构相异的教师网络和学生网络作为蒸馏框架的两个子网络。为了让学生网络与教师网络具有更大的差异，一个多尺度稀疏的transformer模块被提出来建模长距离特征关系和降低transformer固有的高计算代价的问题。进一步，教师模型的输出被作为学生网络的输入，这实现了将特征压缩与特征恢复引入到了蒸馏框架中，这能够有效实现对正常OCT图像特征的保留和对异常OCT图像特征的去处的目的，从而实现最终OCT图像的病变分类。

图1为本发明方法及实施例中的流程示意图，如图1所示，它包含以下6个步骤：

教师网络的第二阶段特征

教师网络的第三阶段特征

和教师网络的第四阶段特征

S2，学生网络以步骤S1得到的教师网络的第四阶段特征

学生网络的第二阶段特征

和学生网络的第一阶段特征

与教师网络的第一阶段特征

更接近、学生网络的第二阶段特征

与教师网络的第二阶段特征

更接近、学生网络的第三阶段特征

与教师网络的第三阶段特征

更接近，最终得到优化后的学生网络；

教师网络的第二阶段特征

教师网络的第三阶段特征

和教师网络的第四阶段特征

S5，以步骤S4得到的教师网络的第四阶段特征

学生网络的第二阶段特征

和学生网络的第一阶段特征

S6，计算步骤S4得到的教师网络的第一阶段特征

与步骤S5得到的学生网络的第一阶段特征

与步骤S5得到的学生网络的第二阶段特征

与步骤S5得到的学生网络的第三阶段特征

步骤1：对输入的视网膜OCT图像进行预处理，然后教师网络对预处理后的OCT图像提取特征并且依次产生四组不同尺度的特征；

步骤1.1：对输入的视网膜OCT图像进行预处理，将输入的视网膜OCT图像压缩至分辨率为(256,256)的大小；

步骤1.2：教师网络对预处理后的OCT图像提取特征并且依次产生四组不同尺度的特征；其中的教师网络是一个在ImageNet大规模数据集上进行预先训练的卷积神经网络；教师网络使用ResNet系列网络，并且ResNet网络在ImageNet大规模数据集上进行预先训练的参数被用做网络的权重初始化，在方法的训练阶段教师网络的参数停止更新；所述教师网络将ResNet分类网络中最后的全连接层删除，仅仅继承了ResNet分类网络四个阶段特征特征提取块的结构；四个阶段特征提取块分别为第一个阶段特征器、第二个阶段特征器、第三个阶段特征器、第四个阶段特征器；

进一步，如图2中(a)所示四个特征提取块分别产生步骤1.2中所述的教师网络产生的四组不同尺度的特征，分别记为教师网络的第一阶段特征

教师网络第二阶段特征

教师网络的第三阶段特征

和教师网络第四阶段特征

其中所述教师网络第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征的提取方法为：

将预处理后分辨率为(256,256)的OCT图像输入到教师网络第一个阶段特征器后特征的维度转变成(64,64,64)得到教师网络的第一阶段特征

教师网络的第二阶段特征提取器将第一阶段特征提取压缩成教师网络的第二阶段特征

其维度为(32,32,128)；进一步,教师网络的第三阶段特征提取器将第二阶段特征提取压缩为教师网络的第三阶段特征

其维度为(16,16,256)；最后，教师网络的第四阶段特征提取器将第三阶段特征提取压缩为教师网络的第四阶段特征

其中特征维度为(8,8,512)。

步骤2：如图2中(a)所示，学生网络生成的三组不同尺度的特征依次为学生网络的第三阶段特征

学生网络的第二阶段特征

和学生网络的第一阶段特征

具体的实现方式为：

所述学生网络以教师网络第四阶段特征为输入，然后学生网络对输入的特征进行处理，学生网络共包括三个阶段来生成多尺度的特征。学生模型将特征依次解码至与所述教师网络三个阶段相一致的尺度；所述教师网络的第四阶段特征经过学生模型的第一个阶段变成了特征

其中维度为

同理，学生网络的第二阶段生成特征

其中

维度为

学生网络的第三阶段生成特征

其中

维度为

在所述步骤中学生网络是一个卷积神经网络和transformer模块混合而成的混合网络，学生网络的三个阶段都是由模块单元组成，模块单元包括CNN子块(也称作卷积子块)和transformer子块，所述模块单元为：

所述模块单元中transformer子块为多尺度稀疏transformer模块，具体结构为：

多尺度稀疏transformer模块包括特征聚合模块、多头注意力机制计算(MCA)和多层感知机(MLP)三部分，假定输入到多尺度稀疏transformer模块的特征为输入特征F，特征F维度为

其中(H_i,W_i)表示在学生网络中第i个阶段的特征F的分辨率，C_i表示在学生网络中第i个阶段通道的维度，其中4C₁＝2C₂＝C₃，H₁＝2H₂＝4H₃和W₁＝2W₂＝4W₃；H₁＝64，W₁＝64和C₃＝512；

和F_region的维度为

具体地，所述局部特征F_local(第一种特征)如下方式获得：

j＝1,…,N_l,N_l＝H_i·W_i,

其中，特征

是多尺度稀疏transformer模块的输入特征F形变后的特征，

的维度是

fⁱ表示

中特征的分量，fⁱ维度为

N_l＝H_i·W_i代表分量的个数，

代表位置嵌入特征；

具体得，所述区域特征F_region(第二种特征)如下方式获得：

首先，所述输入特征

其中

表示序列块的数量和

表示第i个块；

然后，互不相交的特征块列F_p被矩阵E映射变换成序列块

其中矩阵E的维度为

进一步，一个可学习的位置嵌入E_pos与特征序列块

相加生成区域特征的分量

的维度为

和E_pos的维度为

区域特征的分量

如下计算：

j＝1,…,N_p,

所述多尺度稀疏transformer模块中的多头注意力机制为：

首先，所述局部特征F_local被矩阵

线性映射到Queriy值(Queriy值记为Q_j)，其中矩阵

维度为

Q_j的维度为

其中，不同阶段学生网络的总通道数目为：C₁＝64，C₂＝128,C₃＝256.

其中，多头注意力机制的数目N_i在不同的i阶段为：N₁＝2,N₂＝4,N₃＝8.

同时F_region被矩阵

线性映射到Key键值(Key键值记作

)，其中

的维度为

的维度为

F_region也被矩阵

线性映射到Value值(Value值记作

)，其中

的维度为

维度为

Query值(Q_j),key值

和value值

可以被如下定义：

和value值

的关系，如下所示：

进一步，

个单头注意力被合并在一起来获得多头注意力(MCA)，多头注意力被如下表示：

和具有分块大小为p₂的多头注意力机制

被合并在一起来得到特征Z，公式如下所示；

特征

可以由如下公式表示：

其中，p₁和p₂表示分块的大小，MLP表示多层感知机和LN表示层正则化；在学生网络的第一阶段p₁＝4，p₂＝8；在学生网络的第二阶段p₁＝2，p₂＝4；在学生网络的第三阶段p₁＝1，p₂＝2；

步骤3：对学生网络进行参数优化，学生网络的优化目标是使得学生网络的三组特征和教师网络的三组特征更接近的方法具体为：

代表第k阶段(h,w)位置的教师网络的特征，

最终，学生网络完整的损失是由三个阶段损失进行相加，如下公式表示：

其中(H_k,W_k)代表第k个阶段特征的分辨率大小，K＝3代表学生所有的阶段数目；H₁＝2H₂＝4H₃，W₁＝2W₂＝4W₃，H₁＝64，W₁＝64；

步骤4：使用教师网络提取待测视网膜OCT图像的特征，得到四组不同尺度的特征，四组不同尺度的特征分别为教师网络的第一阶段特征

教师网络的第二阶段特征

教师网络的第三阶段特征

和教师网络的第四阶段特征

步骤5：以步骤4得到的教师网络的第四阶段特征

作为步骤3优化后的学生网络的输入，生成三组不同尺度的特征，三组不同尺度的特征分别为学生网络的第三阶段特征

学生网络的第二阶段特征

和学生网络的第一阶段特征

步骤6：计算教师网络和学生网络的特征相似度最终获得待测图像的病变得分，其中病变得分具体如下实现：

代表第k阶段(h,w)位置的教师网络的特征，

代表第k阶段(h,w)位置的学生网络的特征；

代表特征

和特征

的相似度，

代表病变得分；

计算教师网络的第一阶段特征

与步骤5得到的学生网络的第一阶段特征

的相似度，进而计算第一阶段病变得分Score₁，如下表示，

计算教师网络的第二阶段特征

与步骤5得到的学生网络的第二阶段特征

的相似度，进而计算第二阶段病变得分Score₂，如下所示，

计算教师网络的第三阶段特征

与步骤5得到的学生网络的第三阶段特征

的相似度，

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于该方法的步骤包括：

S1，对输入的视网膜OCT图像进行预处理，教师网络提取预处理后的视网膜OCT图像的特征，得到四组不同尺度的特征，四组不同尺度的特征分别为教师网络的第一阶段特征、教师网络的第二阶段特征、教师网络的第三阶段特征和教师网络的第四阶段特征；

S2，学生网络以步骤S1得到的教师网络的第四阶段特征作为输入，生成三组不同尺度的特征，三组不同尺度的特征分别为学生网络的第三阶段特征、学生网络的第二阶段特征和学生网络的第一阶段特征；

S3，对学生网络进行参数优化，学生网络的优化目标是使得学生网络的第一阶段特征更接近教师网络的第一阶段特征、学生网络的第二阶段特征更接近教师网络的第二阶段特征、学生网络的第三阶段特征更接近教师网络的第三阶段特征，最终得到优化后的学生网络；

S4,使用教师网络提取待测视网膜OCT图像的特征，得到四组不同尺度的特征，四组不同尺度的特征分别为教师网络的第一阶段特征、教师网络的第二阶段特征、教师网络的第三阶段特征和教师网络的第四阶段特征；

S5，以步骤S4得到的教师网络的第四阶段特征作为步骤S3优化后的学生网络的输入，生成三组不同尺度的特征，三组不同尺度的特征分别为学生网络的第三阶段特征、学生网络的第二阶段特征和学生网络的第一阶段特征；

S6，计算步骤S4得到的教师网络的第一阶段特征与步骤S5得到的学生网络的第一阶段特征的相似度，进而用于计算第一阶段病变得分Score₁，计算教师网络的第二阶段特征与步骤S5得到的学生网络的第二阶段特征的相似度，进而计算第二阶段病变得分Score₂，计算教师网络的第三阶段特征与步骤S5得到的学生网络的第三阶段特征的相似度，进而计算第三阶段病变得分Score₃，将第一阶病变得分Score₁、第二阶段病变得分Score₂和第三阶段病变得分Score₃相加，得到待测图像最终的病变得分Score。

2.根据权利要求1所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述的步骤S1中，对输入的视网膜OCT图像进行预处理具体为：将输入的视网膜OCT图像压缩至分辨率为(H,W)的大小；H的取值范围为224～448像素，W与H相同。

3.根据权利要求1或2所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述的步骤S1中，教师网络为ResNet分类卷积神经网络、DenseNet分类卷积神经网络或VGGNet等分类卷积神经网络，

教师网络使用在ImageNet数据集上预先训练好的权重作为初始化，并且训练阶段教师网络的参数权重不更新。

4.根据权利要求1或2所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述的步骤S1中，教师网络提取特征的方法为：将预处理后分辨率为(H,W)的视网膜OCT图像输入到教师网络的第一个阶段特征提取器后，特征的维度转变成(H/4,W/4,64)得到教师网络的第一阶段特征；

教师网络的第二阶段特征提取器将第一阶段特征提取压缩成教师网络的第二阶段特征，维度为(H/8,W/8,128)；

教师网络的第三阶段特征提取器将第二阶段特征提取压缩为教师网络的第三阶段特征，维度为(H/16,W/16,256)；

教师网络的第四阶段特征提取器将第三阶段特征提取压缩为教师网络的第四阶段特征，维度为(H/32,W/32,512)。

5.根据权利要求1所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述步骤S2中，学生网络由卷积神经网络和Transformer模块混合而成，卷积神经网络包含两个连续的卷积核大小为3×3的卷积，其中卷积的步长为1×1，填充padding为1；Transformer模块为多尺度稀疏transformer模块。

6.根据权利要求5所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述的多尺度稀疏transformer模块包括特征聚合模块、多头注意力机制和多层感知机；

特征聚合模块包括局部特征F_local∈R^C×(H·W)和区域特征F_region∈R^C×(H·W)；

局部特征F_local∈R^C×(HW)为：

其中特征

是多尺度稀疏transformer模块的输入特征F形变后的特征，

的维度是

fⁱ表示

中特征的分量，fⁱ维度为

N_l＝H_i·W_i代表分量的个数，

代表位置嵌入特征；

区域特征F_region∈R^C×(H·W)的计算方法如下：

首先，特征

被使用大小为(p,p)的块分成互不相交的特征块列

其中(H_i,W_i)表示第i个阶段特征F的分辨率，C_i表示第i个阶段通道的维度，

表示块的数量和

表示第i个块；

然后，互不相交的特征块列F_p被矩阵E映射变换成序列块

其中矩阵E的维度为

可学习的位置嵌入

与特征序列块

相加生成区域特征的分量

区域特征的分量

如下计算：

7.根据权利要求6所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述多尺度稀疏transformer模块中的多头注意力机制中的输入(Queriy值、Key值和Value值)如下计算：

首先，所述局部特征F_local被矩阵

线性映射到Queriy值(Queriy值记为Q_j)，其中矩阵

维度为

Q_j的维度为

同时F_region被矩阵

线性映射到Key值(Key值记作

)，其中

的维度为

的维度为

F_region也被矩阵

线性映射到Value值(Value值记作

)，其中

的维度为

维度为

Query值(Q_j),key值

和value值

可以被如下定义：

8.根据权利要求6所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述多头注意力机制被用于计算单头注意力机制的局部信息和区域信息，单头注意力如下所示：

两个尺度的多头注意力机制被合并在一起，具体的说，具有分块大小为p₁的多头注意力机制

和具有分块大小为p₂的多头注意力机制

被合并在一起来得到特征Z，公式如下所示：

最后，所述特征Z通过正则化层LN和多层感知机来增强特征获得最终的特征

特征

由如下公式表示：

其中p₁和p₂表示分块的大小，MLP表示多层感知机和LN表示层正则化。

9.根据权利要求6所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

所述步骤S3中，对学生网络进行参数优化，学生网络的优化目标是使得学生网络的三组特征和教师网络的三组特征相似具体为：

代表第k阶段(h,w)位置的教师网络的特征，

其中α代表权重，优选地，取值范围在(0,1)之间；

最终，学生网络完整的损失

是由三个阶段损失进行相加，如下公式表示：

10.根据权利要求6所述的一种基于无监督特征蒸馏框架的视网膜OCT图像病变分类方法，其特征在于：

代表第k阶段(h,w)位置的教师网络的特征，

代表第k阶段(h,w)位置的学生网络的特征；

代表特征

和特征

的相似度，

代表病变得分；

计算教师网络的第一阶段特征

与步骤S5得到的学生网络的第一阶段特征

的相似度，进而计算第一阶段病变得分Score₁，如下表示，

计算教师网络的第二阶段特征

与步骤S5得到的学生网络的第二阶段特征

的相似度，进而计算第二阶段病变得分Score₂，如下所示，

计算教师网络的第三阶段特征

与步骤S5得到的学生网络的第三阶段特征

的相似度，