CN113763336A

CN113763336A - 图像多任务识别方法及电子设备

Info

Publication number: CN113763336A
Application number: CN202110973379.4A
Authority: CN
Inventors: 杨志文; 吴星; 马子伟; 王欣; 贺婉佶; 姚轩; 赵昕; 和超; 张大磊
Original assignee: Shanghai Eaglevision Medical Technology Co Ltd; Beijing Airdoc Technology Co Ltd
Current assignee: Shanghai Eaglevision Medical Technology Co Ltd; Beijing Airdoc Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-12-07
Anticipated expiration: 2041-08-24

Abstract

本发明提供一种图像多任务识别方法及电子设备，其中，图像多任务识别方法包括：将图像输入训练好的多任务机器学习模型；由多任务机器学习模型从图像中提取第一特征数据，并且根据第一特征数据确定第一识别结果，第一识别结果指示图像中的每个像素的类别；由多任务机器学习模型从图像和第一识别结果在通道维度上的堆叠图像中提取第二特征数据，并且根据第二特征数据确定第二识别结果，第二识别结果指示图像的类别；以及，由多任务机器学习模型输出第一和第二识别结果。多任务机器学习模型既具备高层次的综合语义分析能力，也具备像素级的识别能力，可以准确、可信地执行图像多任务识别。

Description

图像多任务识别方法及电子设备

技术领域

本发明涉及图像识别技术领域，具体而言，涉及一种图像多任务识别方法及电子设备。

背景技术

随着物质生活水平的提高，越来越多的人借助定期体检来了解自身的健康状况，定期体检能够帮助人们及时发现疾病从而及时诊治疾病，但定期体检伴随有流程复杂、具有侵入性等缺点。研究人员发现，高血压、动脉硬化、糖尿病等疾病在视网膜上会呈现相应的病理特征改变，而眼底图像的采集具有无创和便捷等优点，因此采集并识别眼底图像对人们的全身健康(包括眼健康)的高频率监测提供了可能性。

目前，基于深度学习的眼底图像智能识别技术已广泛应用于健康监测。例如，通过训练分类模型从眼底图像中提取近视眼底的豹纹、病理性近视的弥漫性萎缩等占据整个眼底绝大部分区域的特征，并根据提取出的特征识别疾病类别；或者，通过训练分割模型从眼底图像中识别出类似高血压眼底的动静脉交叉压迫症等尺寸为几十个像素的中小病灶，甚至糖网眼底前期的微血管瘤、零星出血点等尺寸为几个像素的微小病灶。然而，当前的分类模型仅关注全局性的高层次语义信息，缺乏细粒度的监督信号，难以识别出中小、微小病灶；当前的分割模型关注局部重点区域，甚至具备像素级的识别能力，但缺乏全局性的综合语义分析能力。

由于发病机理的不同，属于同一形态类别的病灶可能是由不同的疾病引起的，而同一类别的疾病也可能同时伴随多个类别的病灶，因此疾病类别和病灶类别之间存在多对多的关系。另外，不同类别病灶的组合在医学上也可能会对应不同类别的疾病。可见，仅识别出疾病类别可能无法准确地定位到病灶，而仅根据识别出的病灶也可能无法准确地判断疾病类别，因此需要一种模型同时具备全局疾病类别的综合语义分析能力和局部中小、微小病灶的识别能力，用于从眼底图像中识别出疾病类别以及相应的病灶。

发明内容

本发明实施例的目的在于提供一种图像多任务识别方法及电子设备，以解决上述现有技术中存在的问题。

本发明的一个方面提供一种图像多任务识别方法，该方法包括：将图像输入训练好的多任务机器学习模型；由多任务机器学习模型从所述图像中提取第一特征数据，并且根据第一特征数据确定第一识别结果；由多任务机器学习模型从所述图像和第一识别结果在通道维度上的堆叠图像中提取第二特征数据，并且根据第二特征数据确定第二识别结果；以及，由多任务机器学习模型输出第一识别结果和第二识别结果。其中，第一识别结果指示所述图像中的每个像素的类别，第二识别结果指示所述图像的类别。

所述图像可以是眼底图像；所述图像中的每个像素的类别为多种眼底生理结构类别、多种病灶类别或多种症状类别中的一种；所述图像的类别为多种疾病类别中的至少一种。

上述方法中，多任务机器学习模型包括共享特征提取器和第一识别器。上述方法中，从图像中提取第一特征数据并且根据第一特征数据确定第一识别结果包括：由共享特征提取器从图像中提取共享特征数据；以及，由第一识别器从共享特征数据中提取第一特征数据，并且根据第一特征数据确定第一识别结果。

上述方法包括将图像通过共享特征提取器中的第一组N层特征提取网络，以提取共享特征数据。其中，N为大于1的整数，第一组第1层特征提取网络的输入为所述图像，第一组第2至N层特征提取网络的输入为前一层特征提取网络的输出，并且第一组第N层特征提取网络的输出为共享特征数据。上述方法还包括将共享特征数据通过第一识别器中的第二组N层特征提取网络，以提取第一特征数据。其中，第二组第1层特征提取网络的输入为共享特征数据，第二组第i(其中2≤i≤N)层特征提取网络的输入是通过在通道维度上堆叠前一层特征提取网络的输出和第一组第N-i+1层特征提取网络的输出得到的，并且第二组第N层特征提取网络的输出为第一特征数据。

上述方法中，多任务机器学习模型还包括第二识别器。上述方法中，从所述图像和第一识别结果在通道维度上的堆叠图像中提取第二特征数据并且根据第二特征数据确定第二识别结果包括：将堆叠图像通过第二识别器中的第三组N层特征提取网络，以提取第二特征数据；以及，由第二识别器根据第二特征数据确定第二识别结果。其中，第三组第1层特征提取网络的输入为所述堆叠图像，第三组第i(其中2≤i≤N)层特征提取网络的输入是通过在通道维度上堆叠前一层特征提取网络的输出、第一组第i-1层特征提取网络的输出和第二组第N-i+1层特征提取网络的输出得到的，并且第三组第N层特征提取网络的输出为第二特征数据。

上述方法中，第一组N层特征提取网络和第三组N层特征提取网络中的每层特征提取网络包括一个或多个卷积块，或者包括一个或多个基于自注意力的Transformer块；第二组N层特征提取网络中的每层特征提取网络包括反卷积层。在第二组N层特征提取网络中的每层特征提取网络为反卷积层时，上述方法还包括：在堆叠前一层特征提取网络的输出和第一组第N-i+1层特征提取网络的输出得到第二组第i层特征提取网络的输入之后，减少该第二组第i层特征提取网络的输入的通道数。

上述方法还可以包括训练多任务机器学习模型。其中，根据第一识别器的输出和训练数据计算第一损失并且根据第二识别器的输出和训练数据计算第二损失，根据第一损失和第二损失计算总损失。其中，基于第二损失对第二识别器执行梯度计算与参数更新，以及基于总损失对共享特征提取器和第一识别器执行梯度计算与参数更新。

本发明的另一个方面提供一种电子设备，该电子设备包括处理器和存储器，其中存储器存储有能够被处理器执行的计算机程序。当计算机程序被处理器执行时，可以实现上述的图像多任务识别方法。

本发明实施例的技术方案可以提供以下有益效果：

本发明通过训练好的多任务机器学习模型对图像进行多任务识别，该多任务机器学习模型既具备高层次的综合语义分析能力，也具备像素级的识别能力，能够从(诸如眼底图像的)图像中识别出(诸如疾病类别的)分类结果，同时也能够识别出关于人体某部位(诸如眼底)的生理结构区域、中小微小病灶区域或症状类别的分割结果。与现有的实现单一任务的分类模型或分割模型相比，更符合现实生活中人类医生对患者图像的认知。

多任务机器学习模型中的第一识别器(后文也称为分割子模型)与第二识别器(后文也称分类子模型)共用共享特征提取器所提取的特征数据。第二识别器还融合了来自第一识别器的识别结果以及共享特征提取器和第一识别器提取的特征数据，将所得到的高度融合的特征数据用于识别图像的类别，其对于整个图像的理解更为充分，使得识别结果更为准确和可信。在训练模型时，将根据第一识别器的输出得到的损失用于共享特征提取器和第一识别器的梯度计算及参数更新，并且将根据第二识别器的输出得到的损失用于共享特征提取器、第一识别器和第二识别器的梯度计算及参数更新。与单一任务的分割模型或分类模型相比，本发明的共享特征提取器的表征能力更强，并且第一识别器具备对图像的整体性语义理解，使得本发明的多任务机器学习模型的性能优于单一任务的分割模型或分类模型。

除了识别眼底图像之外，本发明提供的图像多任务识别方法也适用于识别人体其他部位的图像。

应当理解，以上的一般描述和后文的细节描述仅用于示例和解释的目的，并不用于限制本发明。

附图说明

将通过参考附图对示例性实施例进行详细描述，附图意在描绘示例性实施例而不应被解释为对权利要求的预期范围加以限制。除非明确指出，否则附图不被认为依比例绘制。

图1示意性示出了根据本发明一个实施例的图像多任务识别方法的流程图；

图2示意性示出了根据本发明一个实施例的多任务机器学习模型的结构示意图；

图3示意性示出了根据本发明一个实施例的共享特征提取器从图像中提取共享特征图的示意图；

图4示意性示出了根据本发明一个实施例的分割子模型从共享特征图中提取分割特征图以确定分割结果的示意图；

图5示意性示出了根据本发明一个实施例的分类子模型从图像和分割结果的堆叠图像中提取分类特征图的示意图；

图6示意性示出了根据本发明一个实施例的多任务机器学习模型的内部流程图；

图7示意性示出了根据本发明另一个实施例的共享特征提取器从图像中提取共享特征图的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加明显，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本发明的一个方面提供一种图像多任务识别方法，该方法引入包括全局分类任务和局部分割任务的多任务学习，既具备全局性语义分析能力也具备像素级的识别能力，适用于从诸如眼底图像的人体部位图像中识别出疾病类别，同时识别出生理结构区域、病灶区域或症状类别。

图1示意性示出了根据本发明一个实施例的图像多任务识别方法的流程图，该方法划分为模型训练阶段和图像识别阶段，下文将以眼底图像为例对该方法的各个步骤展开描述。

模型训练阶段

步骤S1.获取训练数据，包括如下子步骤：

S11.通过随机采样获取来自真实世界的149871张眼底图像，其涵盖各个年龄段的对象以及各种疾病类别(即，全病种类别)。其中，眼底图像的格式可以是jpg、png、jpeg、tif等。

S12.将所有149871张眼底图像进行标注，标注内容包括：

1)全病种分类标注(后文简称为分类标注)，用于对眼底图像的疾病类别进行整体判断。分类标注包括：①大类标注，例如正常眼底、近视眼底、高血压眼底、糖网眼底等；②大类标注下的细分级标注，例如近视眼底可以进一步划分为豹纹、弧形斑、弥漫性萎缩等，糖网眼底可进一步划分为糖网轻度、中度、重度、增殖期等。对于一张眼底图像而言，除了正常眼底之外，其他的大类标注可能同时存在，每个大类标注下的多个细分级标注不可能同时存在，例如，糖网轻度和糖网重度不可能同时存在。本实施例共采用80种分类标注，其表示全病种类别的总数为80种，每一张眼底图像的分类标注均由三位医生进行交叉标注，只有结果一致时才会采用。

2)眼底全景分割标注(后文简称为分割标注)，其描述像素级的眼底生理结构、眼底病灶、眼底症状等。眼底生理结构的分割标注包括：视杯、视盘、动脉血管、静脉血管、黄斑区中心凹、眼底其他正常区域等；眼底病灶的分割标注包括：出血点、渗出等；眼底症状的分割标注包括：豹纹、弧形斑、弥漫性萎缩症状等。除此之外，还将眼底区域中出现了明显异常但不属于常见症状或病灶的(例如，由于外伤或眼部手术在眼底图像上产生的症状)标注为不明异常。本实施例共采用50种分割标注，表示眼底生理结构、眼底病灶、眼底症状的所有类别的总数为50种，每一张眼底图像的分割标注由一位医生进行标注。

若眼底图像的分类标注为正常眼底，则其分割标注可能仅包括眼底生理结构的分割标注，而无其他病灶、症状的分割标注；若分类标注为某种疾病类别的标注，则分割标注可能包括对应的病灶、症状的分割标注。分类标注和分割标注可能具有一对一的关系，例如，分类标注为豹纹(即，大类标注“近视眼底”下的细分级标注“豹纹”)而分割标注也为豹纹(即，豹纹症状的分割标注)；分类标注和分割标注可能具有一对多的关系，例如，分类标注为糖网中度而分割标注为出血点、渗出中的至少一个；分类标注和分割标注还可能具有多对一的关系，例如，分类标注为糖网中度、糖网重度、高血压中重度、静脉阻塞、动脉阻塞等，而分割标注为出血点。

S13.将149871张眼底图像按8:1:1的比例进行随机划分，以构建具有119897张眼底图像的训练集、具有14987张眼底图像的验证集和具有14987张眼底图像的测试集。

步骤S2.构建多任务机器学习模型。

参见图2，多任务机器学习模型包括共享特征提取器、分割子模型(或称第一识别器)和分类子模型(或称第二识别器)。其中，多任务指的是分割任务和分类任务，前者用于眼底图像中每个像素的类别的识别(像素的类别可以是眼底生理结构、眼底病灶、眼底症状的所有类别中的一种)，后者用于眼底图像的类别的识别(图像的类别可以是全病种类别中的一种或多种疾病类别)。

构建多任务机器学习模型包括如下子步骤：

S21.构建共享特征提取器，该共享特征提取器用于从眼底图像中提取共享特征图。

共享特征提取器由N(N为大于1的整数，例如N＝7)层特征提取网络构成，每层特征提取网络可以包括一个或多个(例如，两个)卷积神经网络的卷积块(CNN)，每个卷积块可以包括批归一化层(BN)、卷积层、池化层和激活层中的一层或多层。共享特征提取器的每层特征提取网络可以对输入图像执行下采样操作并输出执行下采样操作后得到的特征图(即，该层特征提取网络的输出图像)，共享特征提取器的每层特征提取网络的输出图像与输入图像相比，长*宽分辨率减少并且通道数增加。

共享特征提取器的第1层特征提取网络的输入为眼底图像，第1层特征提取网络通过其池化层减少眼底图像的长*宽分辨率(例如，减少为眼底图像的一半)，并且通过其卷积层增加眼底图像的通道数(例如，增加为眼底图像的10倍)，输出经池化层和卷积层得到的输出图像。共享特征提取器的第2层特征提取网络的输入为第1层特征提取网络的输出图像，第2层特征提取网络通过其池化层减少输入图像的长*宽分辨率(例如，减少为输入图像的一半)，并且通过其卷积层增加输入图像的通道数(例如，增加为输入图像两倍)；共享特征提取器的后续特征提取网络与第2层特征提取网络类似，共享特征提取器的最后一层特征提取网络(即，第N层特征提取网络)的输出即共享特征图。

图3示意性示出了具有7层特征提取网络的共享特征提取器从尺寸为800*800*3(即长*宽*通道数为800*800*3)的眼底图像中提取共享特征图的示意图。如图3所示，眼底图像在通过共享特征提取器的第1层特征提取网络后，输出图像(即，特征图1)的尺寸为400*400*30；后续每层特征提取网络将输入图像的长*宽分辨率减少为输入图像的一半并且将通道数增加为输入图像的两倍，最终由第7层特征提取网络输出尺寸为7*7*1920的共享特征图。需要注意的是，若共享特征提取器的某层特征提取网络的输入图像的长或宽的分辨率为奇数时，则需要在该输入图像的最右侧或者最下侧进行数值为0的填充操作，以保证池化层能够正常操作，即能够将输入图像的长*宽分辨率减少为输入图像的一半(参见图3所示的第6层和第7层的输入数据)。

S22.构建分割子模型(或称第一识别器)。分割子模型用于从共享特征提取器所提取的共享特征图中提取分割特征图，并且根据分割特征图确定眼底图像中的每个像素的类别，得到分割结果。每个像素的类别为眼底生理结构、眼底病灶、眼底症状的所有类别中的一种，根据类别相同的临近像素可以划分眼底生理结构、病灶的轮廓和区域。

分割子模型包括N层特征提取网络和分割识别网络，其中，分割识别网络进一步包括激活层和执行取最大值操作的层。分割子模型中的特征提取网络的层数与共享特征提取器中的特征提取网络的层数相同(均为N层)。

分割子模型的每层特征提取网络可以包括反卷积层，其对输入图像执行上采样操作并输出上采样操作后得到的特征图(即，该层特征提取网络的输出图像)。在分割子模型中，除了最后一层特征提取网络之外，每层特征提取网络的输出图像与输入图像相比，长*宽分辨率增加并且通道数减少。

分割子模型的第1层特征提取网络的输入为来自共享特征提取器的共享特征图，第1层特征提取网络通过反卷积(或称转置卷积)层增加共享特征图的长*宽分辨率(例如，增加为共享特征图的两倍)并且减少共享特征图的通道数(例如，减少为共享特征图的一半)，输出通过反卷积层得到的输出图像。除了前一层的输出图像之外，分割子模型的第2至N层特征提取网络的输入还要融合共享特征提取器中的第1至N-1层特征提取网络的输出。具体而言，分割子模型的第i(2≤i≤N)层特征提取网络的输入是前一层特征提取网络的输出图像和共享特征提取器的第N-i+1层特征提取网络的输出图像在通道维度上的堆叠图像。由于在通道维度上的堆叠会导致图像的通道数增加，因此在将堆叠图像输入第i层特征提取网络之前，还对堆叠图像进行卷积操作以得到通道数减半的特征图，作为第i层特征提取网络的输入图像。分割子模型的第2至N层特征提取网络通过其反卷积层增加输入图像的长*宽分辨率(例如，增加为输入图像的两倍)并且改变输入图像的通道数，其中，第2至N-1层特征提取网络通过其反卷积层减少输入图像的通道数(例如，减少为输入图像的一半)，第N层特征提取网络通过其反卷积层将输入图像映射为预定尺寸的分割特征图。分割特征图与眼底图像的长*宽分辨率相同，分割特征图的通道数为眼底生理结构、眼底病灶、眼底症状的所有类别的总数(即，分割标注的种类总数，为50种)。分割子模型的最后一层特征提取网络(即，第N层特征提取网络)的输出即分割特征图。

分割子模型中的激活层为softmax激活层，激活层的输入为分割子模型的最后一层特征提取网络输出的分割特征图，激活层用于在通道维度上将分割特征图中每个像素位置的分割特征值映射为和为1的分割概率，得到分割概率图并且输出该分割概率图。分割概率图的每个通道对应眼底生理结构、眼底病灶、眼底症状的所有类别中的一个类别，分割概率图中的某个像素在某个通道中的分割概率表示眼底图像中该像素属于该通道的对应类别的概率。

分割子模型中的执行取最大值操作的层的输入为激活层输出的分割概率图，该层在通道维度对分割概率图中每个像素位置的分割概率执行取最大值操作，得到并输出通道数为1的分割结果。该分割结果的每个像素的值(例如，可以为1，2…50)指示该像素的类别，即眼底生理结构、眼底病灶、眼底症状的所有类别中的一种。根据像素的类别，可以确定哪些临近像素的类别相同；对于指示眼底生理结构、眼底病灶的类别，可以根据该类别来确定眼底图像中眼底生理结构、眼底病灶(包括中小、微小病灶)的轮廓和区域。

图4示出了从图3所示的尺寸为7*7*1920的共享特征图中提取分割特征图并根据该分割特征图确定分割结果的示意图。如图4所示，长*宽*通道数为7*7*1920的共享特征图在通过分割子模型的第1层特征提取网络的反卷积层之后，长*宽分辨率增加为共享特征图的两倍并且通道数减少为共享特征图的一半，输出的特征图1’的尺寸为14*14*960；将特征图1’与图3中共享特征提取器的第6层特征提取网络的输出图像(即特征图6)在通道维度上进行堆叠，得到尺寸为14*14*1920的特征图；对该14*14*1920的特征图进行1*1的卷积使得通道数减少，得到尺寸为14*14*960的特征图作为分割子模型的第2层特征提取网络的输入。分割子模型的后续第2-6层特征提取网络执行与第1层类似的操作，即，将输入图像的长*宽分辨率增加为输入图像的一倍并且将通道数减少为输入图像的一半。分割子模型的第7层特征提取网络将尺寸为400*400*30的输入图像映射到尺寸为800*800*50的分割特征图。随后，分割子模型中的softmax激活层将分割特征图映射为800*800*50分割概率图，并对分割概率图中每个像素位置执行取最大值操作，得到800*800的分割结果。需要注意的是，若共享特征提取器中的某层特征提取网络的输出图像执行过数值为0的填充操作，并且该输出图像与分割子模型的相应一层特征提取网络进行了堆叠(以及执行了通道数减少操作)以作为后一层特征提取网络的输入，则在输入后一层特征提取网络之前，还要删除输入图像中与填充操作的位置相对应的数据。例如，在将14*14*960的特征图1’输入分割子模型的第2层特征提取网络之前，删除最右侧和最下侧的数据，将所得到的尺寸为13*13*960的图像输入第2层特征提取网络执行上采样操作。又例如，在将26*26*480的特征图2’输入分割子模型的第3层特征提取网络之前，删除最右侧和最下侧的数据，将所得到的尺寸为25*25*480的图像输入第3层特征提取网络执行上采样操作。

S23.构建分类子模型(或称第二识别器)。该分类子模型用于从眼底图像与分割结果在通道维度上的堆叠图像中提取分类特征图，并且根据分类特征图确定眼底图像的类别，得到分类结果，即全病种类别中的一种或多种疾病类别。

分类子模型包括N层特征提取网络和分类识别网络，其中，分类识别网络包括平均池化层、全连接层和激活层。分类子模型中的特征提取网络与共享特征提取器中的特征提取网络类似，包括卷积神经网络的一个或多个卷积块，分类子模型中的特征提取网络的层数与共享特征提取器中的特征提取网络的层数相同。分类子模型的每层特征提取网络对输入图像执行下采样操作并输出执行下采样操作后得到的特征图(即，该层特征提取网络的输出图像)，每层特征提取网络的输出图像与输入图像相比，长*宽分辨率和通道数发生变化。

分类子模型的第1层特征提取网络的输入为原始的眼底图像与分割子模型输出的分割结果在通道维度上的堆叠图像，第1层特征提取网络通过其卷积块中的池化层减少输入的堆叠图像的长*宽分辨率，并且通过其卷积块中的卷积层增加堆叠图像的通道数，输出经池化层和卷积层得到的输出图像。除了前一层的输出图像之外，分类子模型的第2至N层特征提取网络的输入还要融合共享特征提取器的第1至N-1层特征提取网络的输出以及分割子模型的第1至N-1层特征提取网络的输出。具体而言，分类子模型的第i(2≤i≤N)层特征提取网络的输入是通过在通道维度上堆叠前一层特征提取网络的输出图像、共享特征提取器的第i-1层特征提取网络的输出图像和分割子模型的第N-i+1层特征提取网络的输出图像得到的。分类子模型的第2至N层特征提取网络中的每层特征提取网络通过其池化层减少输入图像的长*宽分辨率(例如，减少为输入图像的一半)，并且通过其卷积层增加输入图像的通道数(例如，增加为输入图像两倍)。分类子模型的最后一层特征提取网络(即，第N层特征提取网络)的输出即分类特征图。

分类子模型的平均池化层的输入为最后一层特征提取网络输出的分类特征图，平均池化层对分类特征图执行平均池化操作，得到一维的特征向量并输出该特征向量。

分类子模型的全连接层的输入为平均池化层输出的一维特征向量，全连接层将该特征向量映射为与全病种类别中的每种疾病类别(例如，总共80种)对应的特征值，并且输出该特征值。

分类子模型的激活层为sigmoid激活层，sigmoid激活层的输入为与每种疾病类别对应的特征值，激活层用于将与每种疾病类别对应的特征值映射为与每种疾病类别对应的分类概率，并且输出与每种疾病类别对应的分类概率作为分类结果。其中，不同疾病类别对应的分类概率之间无关联，并且取值范围在0到1之间。在获得与每种疾病类别对应的分类概率的基础上，可以将大于预定阈值的分类概率所对应的疾病类别作为眼底图像的类别，即，眼底图像的类别可以包括全病种类别中的一种或多种疾病类别。

图5示出了分类子模型从眼底图像和图4的分割结果的堆叠图像(尺寸为800*800*4)中提取分类特征图的示意图。如图5所示，尺寸为800*800*4的堆叠图像在通过分类子模型的第1层特征提取网络之后，输出的特征图1”的尺寸为400*400*30。将特征图1”与图3中的共享特征提取器的第1层特征提取网络的输出图像(即特征图1)以及图4中的分割子模型的第6层特征提取网络的输出图像(即特征图6’)在通道维度上进行堆叠，得到尺寸为400*400*90的特征图作为分类子模型的第2层特征提取网络的输入，由分类子模型的第2层特征提取网络输出200*200*60的特征图2”。后续的每层特征提取网络执行与第2层类似的操作，最终输出尺寸为7*7*1920的分类特征图。随后，分类子模型中的平均池化层对分类特征图执行平均池化操作，得到一维尺寸为1920的特征向量；分类子模型中的全连接层将该特征向量映射为80个类别(即，全病种类别的总数)的特征值，再经过激活层得到80个类别的分类概率。

图6结合图3-5将共享特征提取器、分割子模型和分类子模型连接起来，更直观地示出了多任务机器学习模型从接收原始的眼底图像到输出分割结果和分类结果的整体流程。图6中，实线箭头指示流程，虚线箭头指示多任务机器学习模型中的堆叠操作。

S24.构建损失函数。

针对分割任务和分类任务分别构造分割损失函数和分类损失函数。其中，分割损失函数可以采用像素级的Cross Entropy Loss(交叉熵损失函数)、基于交并比计算的DiceLoss或Iou Loss等损失函数的形式，分类损失函数可以采用标签级的Cross EntropyLoss、解决类别不均衡的Focal Loss等损失函数的形式。

如上文所述，共享特征提取器中提取的特征应用于分割子模型和分类子模型，并且分割子模型中提取的特征及分割结果也应用于分类子模型。由此，在本实施例中将分割损失用于共享特征提取器和分割子模型的梯度计算及参数更新，将分类损失用于共享特征提取器、分割子模型和分类子模型的梯度计算及参数更新。可以通过下式计算总损失，将总损失用于共享特征提取器和分割子模型的梯度计算及参数更新：

L_S＝α*L_seg+β*L_clf (1)

其中，L_S表示总损失，L_seg表示分割损失，L_clf表示分类损失，α和β为预定的权重系数。优选地，可以将α设置为0.1，并且将β设置为1，以保证两种损失的贡献相当。

步骤S3.使用训练数据训练多任务机器学习模型。

在构建多任务机器学习模型后，使用训练集(包括119897张眼底图像)来训练模型参数。训练过程包括前向传播和反向传播，在前向传播后，利用分割损失函数根据分割子模型的输出(分割结果)和训练数据的分割标注来计算分割损失，利用分类损失函数根据分类子模型的输出(分类结果)和训练数据的分类标注来计算分类损失，并且根据公式(1)计算总损失；在反向传播中，将总损失用于共享特征提取器和分割子模型的梯度计算以及参数更新，并且将分类损失用于分类子模型的梯度计算以及参数更新。

在每个Epoch(即，训练集训练一次的过程)完成后，用验证集(包括14987张眼底图像)测试当前多任务机器学习模型的准确率，根据验证集的测试结果的准确率来调整超参数(诸如迭代数、学习率等)，使得多任务机器学习模型在验证集上达到最优。测试集(包括14987张眼底图像)用来评估最终模型的准确率。

图像识别阶段

步骤S4.获取待识别的图像。其中，待识别的图像可以是jpg、png、jpeg、tif等格式的眼底图像。

步骤S5.将待识别的图像输入训练好的多任务机器学习模型，多任务学习模型包括共享特征提取器、分割子模型和分类子模型。

步骤S6.由多任务机器学习模型从待识别的图像中识别出分割结果和分类结果。具体地，步骤S6包括如下子步骤：

S61.由多任务机器学习模型的共享特征提取器从待识别的图像中提取共享特征图。

共享特征提取器将待识别的眼底图像通过该共享特征提取器的N层特征提取网络，以提取出共享特征图。其中，共享特征提取器的第1层特征提取网络的输入为待识别的眼底图像，共享特征提取器的第2至N层特征提取网络的输入为前一层特征提取网络的输出图像，并且第N层特征提取网络的输出为共享特征图。

S62.由多任务机器学习模型的分割子模型从共享特征图中提取分割特征图，并且根据分割特征图确定分割结果。

分割子模型将共享特征图通过该分割子模型的N层特征提取网络(不同于共享特征提取器中的特征提取网络)，以提取出分割特征图。分割子模型的第1层特征提取网络的输入为共享特征图，分割子模型的第i(2≤i≤N)层特征提取网络的输入是前一层特征提取网络的输出图像和共享特征提取器的第N-i+1层特征提取网络的输出图像在通道维度上的堆叠图像(在堆叠前一层特征提取网络的输出图像和共享特征提取器的第N-i+1层特征提取网络的输出图像之后，还要减少该堆叠图像的通道数)。分割子模型的第N层特征提取网络的输出为分割特征图。

分割子模型将分割特征图通过softmax激活层并执行取最大值操作，得到分割结果。该分割结果的每个像素的值(例如，值为1，2…50)指示该像素的类别，即眼底生理结构、眼底病灶、眼底症状的所有类别中的一种。根据每个像素的类别，可以确定哪些临近像素的类别相同；对于指示眼底生理结构、眼底病灶的类别，可以根据该类别来确定待识别的眼底图像中眼底生理结构、眼底病灶(包括中小、微小病灶)的轮廓和区域。

S63.由多任务机器学习模型在通道维度上堆叠待识别的图像和分割结果；由多任务机器学习模型的分类子模型从待识别的图像和分割结果在通道维度上的堆叠图像中提取分类特征图，并且根据分类特征图确定分类结果。

分类子模型将待识别的眼底图像与分割结果在通道维度上的堆叠图像通过N层特征提取网络，以提取分类特征图。其中，分类子模型的第1层特征提取网络的输入为该堆叠图像；第i(2≤i≤N)层特征提取网络的输入是前一层特征提取网络的输出图像、共享特征提取器的第i-1层特征提取网络的输出图像和分割子模型的第N-i+1层特征提取网络的输出图像在通道维度上的堆叠图像；分类子模型的第N层特征提取网络的输出为分类特征图。

分类子模型将分类特征图通过其平均池化层、全连接层和sigmoid激活层，得到分类结果，即与每种疾病类别(例如，总共80种)对应的分类概率。从而可以得到待识别的眼底图像的类别，即全病种类别中的一种或多种疾病类别。

步骤S7.由多任务机器学习模型输出分割结果和分类结果。

多任务机器学习模型中的分割子模型与分类子模型共用共享特征提取器所提取的特征数据。分类子模型还融合了来自分割子模型的识别结果以及共享特征提取器和分割子模型提取的特征数据，将所得到的高度融合的特征数据用于识别图像的类别，其对于整个图像的理解更为充分，使得识别结果更为准确和可信。在训练模型时，将根据分割子模型的输出得到的分割损失用于共享特征提取器和分割子模型的梯度计算及参数更新，并且将根据分类子模型的输出得到的分类损失用于共享特征提取器、分割子模型和分类子模型的梯度计算及参数更新。与单一任务的分割模型或分类模型相比，本发明的共享特征提取器的表征能力更强，并且分割子模型具备对图像的整体性语义理解，使得本发明的多任务机器学习模型的性能优于单一任务的分割模型或分类模型。

在上述实施例中，共享特征提取器和分类子模型的每层特征提取网络由一个或多个卷积块构成。在其他实施例中，共享特征提取器和分类子模型的每层特征提取网络也可以由一个或多个(例如，两个)基于自注意力的Transformer块构成，每个Transformer块可以包括多头注意力的transformer和层归一化(Layer Normalization)。共享特征提取器和分类子模型的N层特征提取网络也可以由卷积块和Transformer块混合构成。图7示出了共享特征提取器的第1层特征提取网络由卷积块构成而后面五层特征提取网络均由Transformer块构成的六层特征提取网络。

在上述实施例中，共享特征提取器、分割子模型或分类子模型分别描述为包括不只1层的特征提取网络(即，N层特征提取网络，其中N为大于1的整数)。本领域技术人员应理解，在其他实施例中，上述共享特征提取器、分割子模型或分类子模型也可以仅包括1层特征提取网络。在另外的实施例中，多任务机器学习模型也可以省略共享特征提取器，而仅包括分割子模型和分类子模型。

为验证本发明实施例的有效性，进行了如下三种消融实验：基于本发明提供的图像多任务识别方法的分类分割多任务联合训练、纯分割任务训练和纯分类任务训练。

三种消融实验采用同一批数据，包括原始图像、分割标注和分类标注。其中，分类分割多任务联合训练使用原始图像、分割标注和分类标注；纯分割任务训练利用本发明的多任务机器学习模型中去除分类子模型的剩余部分，仅使用原始图像和分割标注，并且仅计算分割损失，基于分割损失来执行共享特征提取器及分割子模型的梯度计算及参数更新；纯分类任务训练利用本发明的多任务机器学习模型，仅使用原始图像和分类标注，并且仅计算分类损失，基于分类损失来执行共享特征提取器和分类子模型的梯度计算及参数更新。三种消融实验的所有其他训练参数保持一致，包括训练集、验证集和测试集的划分。

表1示出了三种消融实验的训练过程摘要，其中三种消融实验共进行了200个Epoch，模型分别在不同的Epoch(分别为193、169和187)收敛到最佳。表1中的评估指标均是实验过程中每一个Epoch结束后在独立的测试集上进行的，包括总损失(总loss)、分割损失(分割loss)和分类损失(分类loss)。其中，对于分类分割多任务联合训练而言，分割loss是子分割模型的损失，分类loss是子分类模型的损失，总loss为根据公式(1)计算的分割损失与分类损失的加权和；对于纯分割任务训练而言，分割loss为其整体损失；对于纯分类任务训练而言，分类loss为其整体损失。如表1所示，分类分割多任务联合训练达到最佳收敛的分类损失0.0246小于纯分类任务训练达到最佳收敛的分类损失0.0295，并且分类分割多任务联合训练达到最佳收敛的分割损失0.1521也小于纯分割任务训练达到最佳收敛的分割损失0.3289。

另外，三种消融实验还采用了如下的评估指标：

·对于分类标注，用所有类别的AUC(敏感性-特异性/ROC曲线下的面积)的平均值(mean-auc)和所有类别的平均精确度AP(准确率-召回率/PR曲线下的面积)的平均值(mean-ap)进行评估，这两个数值越大，则性能越好。

·对于分割标注，采用所有类别的Iou(模型识别病灶区域与真实标注病灶区域的交集和并集之比)平均值(mean-iou)进行评估，该数值越大，则性能越好。

如表1所示，分类分割多任务联合训练的最优分类指标mean-auc和mean-ap分别为0.9806和0.5113，优于纯分类任务训练的0.9732和0.5067；并且分类分割多任务联合训练的最优分割指标mean-iou为0.3785，优于纯分割任务训练的0.3289。因此，本发明提供的多任务机器学习模型在图像识别上的性能优于单一任务的识别模型。

表1

本发明的另一个方面提供一种适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。计算机系统可以包括：总线，耦合到总线的设备之间可以快速地传输信息；处理器，其与总线耦合并且用于执行由计算机程序所指定的一组动作或操作，处理器可以单独地或者与其他设备组合实现为机械、电、磁、光、量子或者化学部件等。

计算机系统还可以包括耦合到总线的存储器，存储器(例如，RAM或者其他动态存储设备)存储可由计算机系统改变的数据，包括实现上述实施例所述的图像多任务识别方法的指令或计算机程序。当处理器执行该指令或计算机程序时，使得计算机系统能够实现上述实施例中描述的图像多任务识别方法，例如，可以实现如图1所示的各个步骤。存储器还可以存储处理器执行指令或计算机程序期间产生的临时数据，以及系统操作所需的各种程序和数据。计算机系统还包括耦合到总线的只读存储器以及非易失性储存设备，例如磁盘或光盘等，用于存储当计算机系统被关闭或掉电时也能持续的数据。

计算机系统还可以包括诸如键盘、传感器等的输入设备，以及诸如阴极射线管(CRT)、液晶显示器(LCD)、打印机等的输出设备。计算机系统还可以包括耦合到总线的通信接口，通信接口可以提供对外部设备的单向或双向的通信耦合。例如，通信接口可以是并行端口、串行端口、电话调制解调器或者局域网(LAN)卡。计算机系统还可以包括耦合到总线的驱动设备以及可拆卸设备，诸如磁盘、光盘、磁光盘、半导体存储器等等，其根据需要安装在驱动设备上，以便于从其上读出的计算机程序根据需要被安装入储存设备。

应当理解的是，虽然本发明已经通过优选实施例进行了描述，但本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种图像多任务识别方法，其特征在于，所述方法包括：

将图像输入训练好的多任务机器学习模型；

由所述多任务机器学习模型从所述图像中提取第一特征数据，并且根据所述第一特征数据确定第一识别结果；其中，所述第一识别结果指示所述图像中的每个像素的类别；

由所述多任务机器学习模型从所述图像和所述第一识别结果在通道维度上的堆叠图像中提取第二特征数据，并且根据所述第二特征数据确定第二识别结果；其中，所述第二识别结果指示所述图像的类别；以及

由所述多任务机器学习模型输出所述第一识别结果和所述第二识别结果。

2.根据权利要求1所述的方法，其特征在于，所述多任务机器学习模型包括共享特征提取器和第一识别器；以及，从所述图像中提取第一特征数据并且根据所述第一特征数据确定第一识别结果包括：

由所述共享特征提取器从所述图像中提取共享特征数据；以及

由所述第一识别器从所述共享特征数据中提取所述第一特征数据，并且根据所述第一特征数据确定所述第一识别结果。

3.根据权利要求2所述的方法，其特征在于，

将所述图像通过所述共享特征提取器中的第一组N层特征提取网络，以提取所述共享特征数据；其中，N为大于1的整数，第一组第1层特征提取网络的输入为所述图像，第一组第2至N层特征提取网络的输入为前一层特征提取网络的输出，并且第一组第N层特征提取网络的输出为所述共享特征数据；以及

将所述共享特征数据通过所述第一识别器中的第二组N层特征提取网络，以提取所述第一特征数据；其中，第二组第1层特征提取网络的输入为所述共享特征数据，第二组第i层特征提取网络的输入是通过在通道维度上堆叠前一层特征提取网络的输出和第一组第N-i+1层特征提取网络的输出得到的，2≤i≤N，并且第二组第N层特征提取网络的输出为所述第一特征数据。

4.根据权利要求3所述的方法，其特征在于，所述多任务机器学习模型还包括第二识别器；以及，从所述图像和所述第一识别结果在通道维度上的堆叠图像中提取第二特征数据并且根据所述第二特征数据确定第二识别结果包括：

将所述堆叠图像通过所述第二识别器中的第三组N层特征提取网络，以提取所述第二特征数据；其中，第三组第1层特征提取网络的输入为所述堆叠图像，第三组第i层特征提取网络的输入是通过在通道维度上堆叠前一层特征提取网络的输出、第一组第i-1层特征提取网络的输出和第二组第N-i+1层特征提取网络的输出得到的，2≤i≤N，并且第三组第N层特征提取网络的输出为所述第二特征数据；以及

由所述第二识别器根据所述第二特征数据确定所述第二识别结果。

5.根据权利要求4所述的方法，其特征在于，所述第一组N层特征提取网络和所述第三组N层特征提取网络中的每层特征提取网络包括一个或多个卷积块，或者包括一个或多个基于自注意力的Transformer块；以及，所述第二组N层特征提取网络中的每层特征提取网络包括反卷积层。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在堆叠前一层特征提取网络的输出和第一组第N-i+1层特征提取网络的输出得到第二组第i层特征提取网络的输入之后，减少所述第二组第i层特征提取网络的输入的通道数。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

训练所述多任务机器学习模型；

其中，根据所述第一识别器的输出和训练数据计算第一损失并且根据所述第二识别器的输出和所述训练数据计算第二损失，根据所述第一损失和所述第二损失计算总损失，基于所述第二损失对所述第二识别器执行梯度计算与参数更新，以及基于所述总损失对所述共享特征提取器和所述第一识别器执行梯度计算与参数更新。

8.根据权利要求7所述的方法，其特征在于，根据下式计算所述总损失：

L_S＝α*L_seg+β*L_clf

其中，L_S表示总损失，L_seg表示第一损失，L_clf表示第二损失，并且α和β为预定权重。

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述图像为眼底图像；所述图像中的每个像素的类别为多种眼底生理结构类别、多种病灶类别或多种症状类别中的一种；所述图像的类别为多种疾病类别中的至少一种。

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述计算机程序在被所述处理器执行时实现如权利要求1-9中任一项所述的方法。