CN114882301B

CN114882301B - 基于感兴趣区域的自监督学习医学图像识别方法及装置

Info

Publication number: CN114882301B
Application number: CN202210815270.2A
Authority: CN
Inventors: 余晓瑞; 王书崎; 杜奇艳; 胡俊杰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-09-13
Anticipated expiration: 2042-07-11
Also published as: CN114882301A

Abstract

本发明公开了一种基于感兴趣区域的自监督学习医学图像识别方法及装置，涉及医学图像中病灶的识别，其目的在于解决现有技术中存在的现有网络模型可解释性较差存在漏诊、以及基于一个网络模型无法同时实现分类与定位的问题。根据推理结果定位感兴趣区域，并生成小外接矩形，再生成大小随机的掩码，并作用至输入图像中，后再重复输入深度神经网络模型，通过重复定位、重复掩码以及重复深度神经网络模型识别，可减轻模型训练对有标签数据集的依赖，识别定位出医学图像中两个、三个甚至是更多的感兴趣区域，有效避免漏诊的情形出现，通过引导模型识别病灶的位置以及类别，减轻模型在真实应用场景中可能出现的漏诊情况。

Description

基于感兴趣区域的自监督学习医学图像识别方法及装置

技术领域

本发明人工智能医学技术领域，涉及基于感兴趣区域的自监督学习医学图像识别方法及装置，更具体的是涉及一种基于感兴趣区域的自监督学习的黄斑水肿病变、视网膜病变等医学图像中病灶的分类与定位。

背景技术

基于深度神经网络的人工智能方法已在医学图像识别领域发挥着重要作用，其通过端对端的学习输入（医学图像）与输出（诊断结果）之间的关系，在众多疾病识别任务中取得了良好的分类效果，如黄斑水肿病变、视网膜病变等。

图1展示了一种典型的基于深度神经网络的黄斑水肿病变分类模型，其用于识别医学图像中是否存在黄斑水肿病变，从而完成对医学图像的分类。任务的输入数据为光学相干断层扫描(Optical Coherence Tomography, OCT)图像，任务输出共包括四个类别：1.正常、2. 脉络膜新生血管（Choroidal Neovascularization, CNV）、3. 糖尿病性黄斑水肿（Diabetic Macular Edema, DME）、4. 玻璃体疣（Drusen），其中DME的模型预测概率最高（0.6）。图中的疾病分类模型通常由深度神经网络实现，其中灰色的方块代表模型从输入的OCT图像中提取得到的抽象特征，全局池化沿着特征通道的维度求平均，实现了将特征由三维矩阵变为一维向量，并根据该一维向量得到模型的预测结果。

申请号为2021112638282的发明专利申请就公开了一种胃镜图像智能目标检测系统及方法，其图像获取模块用于获取待检测胃镜图像；目标检测模块用于将待检测胃镜图像输出到目标检测模型中以获取病灶区域以及所述病灶区域对应的病灶类别；所述目标检测模型的训练过程为：确定多张第一胃镜图像；确定每张第一胃镜图像对应的标签；所述标签包括病灶类别和病灶区域；将第一胃镜图像以及所述第一胃镜图像对应的标签输入到卷积神经网络中以训练所述卷积神经网络，进而得到目标检测模型。本发明通过将目标检测方法与胃镜图像结合得到目标检测模型，以实现对胃镜图像中病灶区域以及病灶区域对应的病灶类型的智能检测，降低人为主观造成的诊断误差。

申请号为2017108886512的发明专利公开了一种用于标注医学图像的方法和装置，其通过获取至少一个待标注医学图像；为待标注医学图像标注分类信息，其中，分类信息包括医学图像对应的诊断结果的类别和诊断结果的等级；利用预先训练的病灶区域检测模型处理待标注医学图像，在待标注医学图像中框选出病灶区域、且标注出病灶区域的病灶类型，以使待标注医学图像标注出病灶区域和病灶区域的病灶类型；从已框选出病灶区域的待标注医学图像中分割出被框选出的病灶区域，形成待标注医学图像分割图像，以使待标注医学图像标注出分割图像。该实施方式实现了降低了标注医学图像的人力和时间成本。

申请号为2020108177607的发明专利还公开了一种基于深度学习的眼科超声自动筛查方法及系统，其包括：模型训练阶段：收集历史眼科超声图片和视频，对其进行训练得到分割模型和分类模型；检测阶段：S1、获取待检测的眼科超声图像；S2、利用训练好分割模型对待检测眼科超声图像进行人工智能网络分割，并利用分类模型对分割后的眼科超声图像进行识别，识别得到病灶类别，同时提示病灶位置；S3、根据所识别病灶评估相应风险评级；S4、根据风险等级，进行下一步诊疗提示。本发明可以减少医生工作量，提高疾病的及时诊断率，同时因为可以显示出具体的病灶位置，可用于对新手医生进行辅助培训。

以上这种端对端（输入图像至输出类别）的学习方式在医学图像识别任务中虽然得到了广泛应用，然而模型训练过程中存在两大痛点：1、模型训练依赖大量有标签数据集，然而在医学图像分析任务中获取患者的医学图像通常比较困难，此外人工标注依赖医生的领域经验知识，标注过程耗时耗力；2、模型可解释性较差，模型只要识别到感兴趣区域后，很难再进一步识别其他区域是否还有其他感兴趣区域或者其他不太容易识别到的感兴趣区域，从而难以有效应对模型在真实应用场景中出现的漏诊情况，具体如图2所示。在图2中，可根据模型的预测结果反向定位至模型对于输入的感兴趣区域（Region of interest,ROI），并以热图的形式展现出来，其中类别激活图（Class Activation Mapping, CAM）是一种有代表性的感兴趣区域识别算法，图2(a)展示了输入给模型的原始图像，该图包含复杂的病灶特征，分布在图像中央；图2(b)展示了模型所识别出的感兴趣区域，其中白色区域里面的深色代表模型认为病灶疑似程度最高的区域，外层的白色代表疑似次之的区域；图2(c)在白色区域左侧的深色方框展示了模型所遗漏掉的病灶区域，从图2(c)中可以看出，模型仅识别出了病灶特征最明显的区域，而忽略了同样具备诊断价值的次临床特征，从而造成漏诊。此外，上述这些应用中，一方面是部分方法中的网络模型仅能实现图像的分类，无法对图像的分类区域进行定位，无法输出位置信息；另一方面部分方法虽然能够同时实现分类、定位，但是其是分别通过两个网络模型实现的，一个网络模型用于分类，另一个网络模型用于定位，无法基于同一个网络模型通过不同的训练方法使其同时具备分类与定位的功能。

发明内容

本发明的目的在于：为了解决现有技术中存在的现有网络模型可解释性较差存在漏诊、以及基于一个网络模型无法同时实现分类与定位的问题，本申请提出了一种基于感兴趣区域的自监督学习医学图像识别方法及装置。

本发明为了实现上述目的具体采用以下技术方案：

一种基于感兴趣区域的自监督学习医学图像识别方法，包括深度神经网络模型，深度神经网络模型的训练方法为：

步骤S1，将获取的医学图像作为样本输入深度神经网络模型，并基于前向推理得到病灶的类别信息；

步骤S2，根据步骤S1得到的类别信息，找出感兴趣区域并生成相应的最小外接矩形，在最小外接矩形的引导下生成随机掩码，并将掩码作用于对应的医学图像，得到赋有掩码的医学图像；

步骤S3，将步骤S2得到的赋有掩码的医学图像作为样本输入深度神经网络模型，得到预测的类别信息、位置信息，并结合步骤S2生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签，预测出病灶的位置误差、类别误差；

步骤S4，根据步骤S3得到的位置误差、类别误差，更新深度神经网络模型的参数；重复训练深度神经网络模型，直至深度神经网络模型收敛。

作为优选地，步骤S1中，深度神经网络模型的卷积层在进行前向推理时，前向计算采用的公式具体为：

其中，

代表第

层与第

层之间的卷积核，

、

代表卷积核中第

行第

列位置的元素；卷积核是一个可学习参数矩阵，矩阵的宽和高分别为

和

，

代表第

层的输出，

代表非线性激活函数，n、m代表卷积输出的第n行m列位置的激活值。

作为优选地，步骤S1中，深度神经网络模型的最后一层为全连接层，全连接层在进行前向推理时，前向计算采用的公式具体为：

其中，

代表第

层的

神经元与第

层的

神经元之间的连接权，

代表第

层的

神经元的输出，

代表第

层所包含的神经元的数目，

代表非线性激活函数。

作为优选地，步骤S2中，在找出感兴趣区域时，其计算步骤为：

步骤S2中，在找出感兴趣区域时，其计算步骤为：

步骤S2-1，获得深度神经网络模型对于输出的预测类别

，预测类别c代表输出层中的第c个神经元，其激活值在输出层中最大：

其中，

为步骤S1最后的输出；

步骤S2-2，将第

个神经元连接的连接权矩阵

与最后一个卷积层的特征

加权求和，并对求和后的特征进行上采样：

其中，

即代表对于输入的医学图像的感兴趣区域，它的维度与输入图像的维度一致，

表示最后一个卷积层的通道数目，

表示K的游标，用于遍历从1到K，

表示最后一层的第

个神经元，

表示第

个神经元与最后一个卷积层的连接权矩阵，

表示最后一个卷积层的输出，

表示上采样函数。

作为优选地，步骤S2中，生成赋有掩码的医学图像的方法为：

根据识别出的感兴趣区域生成热图，根据热图识别出最小外接矩形，在最小外接矩形内生成大小不固定的随机掩码，并将输入图像对应位置的元素设置为0，生成并作用感兴趣区域引导的赋有掩码的医学图像。

作为优选地，在步骤S3得到预测的类别信息后，重复步骤S2、S3两次或三次，获取医学图像中更多的感兴趣区域。

一种基于感兴趣区域的自监督学习医学图像识别装置，包括模型训练模块，模型训练模块包括：

前向推理预测模块，用于将获取的医学图像作为样本输入深度神经网络模型，并基于前向推理得到病灶的类别信息；

掩码生成模块，用于根据前向推理预测模块得到的类别信息，找出感兴趣区域并生成相应的最小外接矩形，在最小外接矩形的引导下生成随机掩码，并将掩码作用于对应的医学图像，得到赋有掩码的医学图像；

误差生成模块，用于将掩码生成模块得到的赋有掩码的医学图像作为样本输入深度神经网络模型，得到预测的类别信息、位置信息，并结合掩码生成模块生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签，预测出病灶的位置误差、类别误差；

参数更新模块，用于根据误差生成模块得到的位置误差、类别误差更新深度神经网络模型的参数；重复训练深度神经网络模型，直至深度神经网络模型收敛。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

一种计算机可读存储介质，其特征在于：存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述方法的步骤。

本发明的有益效果如下：

1.本发明中，针对一张待分析的医学图像，根据推理结果定位感兴趣区域，并生成该区域的最小外接矩形，再根据以该最小外接矩形为参考，生成大小随机的掩码，并作用至输入图像中，以达到增强数据多样性的目的，减轻模型训练对有标签数据集的依赖。

2.本发明中，根据推理结果定位感兴趣区域进行掩码后再重复输入深度神经网络模型，通过重复定位、重复掩码以及重复深度神经网络模型识别，可以识别定位出医学图像中两个、三个甚至是更多的感兴趣区域，有效避免漏诊的情形出现。

3.本发明中，通过将生成的最小外接矩形作为伪标签，结合医学图像本身具备的真实标签，二者共同作为标签训练深度神经网络，最小外接矩形提供了位置信息，用于训练模型准确定位至病灶区域；真实标签提供了病灶的类别信息，通过引导模型识别病灶的位置以及类别，能够获取医学图像中病灶的具体位置以及类别，减轻模型在真实应用场景中可能出现的漏诊情况。

附图说明

图1是现有技术中黄斑水肿病变分类模型的结构示意图；

图2是现有技术中入原始图像与模型对于输入的感兴趣区域热图；

其中，图2(a)展示了输入给模型的原始图像，该图包含复杂的病灶特征，分布在图像中央；图2(b)展示了模型所识别出的感兴趣区域，其中白色区域里面的深色代表模型认为病灶疑似程度最高的区域，外层的白色代表疑似次之的区域；图2(c)在白色区域左侧的深色方框展示了模型所遗漏掉的病灶区域；

图3是本发明的流程示意图。

具体实施方式

实施例1

本实施例提供一种基于感兴趣区域的自监督学习医学图像识别方法，用于对医学图像中病灶的识别，尤其是医学图像中黄斑水肿病变、视网膜病变等病灶的分类与位置。其具体包括以下步骤：

步骤一，获取样本数据

获取用于模型训练的样本数据，该样本数据取自于医院的OCT医学图像，且每组OCT医学图像均由医学专家进行了黄斑水肿病变的病灶的标注，形成对应的真实分类标签。

步骤二，搭建模型

搭建深度神经网络模型，深度神经网络模型可采用现有的网络模型即可，且该深度神经网络模型可对医学图像进行分类、识别，得到病灶的类别信息与位置信息。根据实际需要，可自行选择Faster RCNN网络模型。

步骤三，训练模型

对步骤二搭建的深度神经网络模型进行训练。深度神经网络模型的具体训练方法，是本申请的核心创新之一，其具体训练方法如图3所示：

该深度神经网络模型的训练，具体包括以下四个阶段，分别是：

步骤S1，将步骤一获取的医学图像作为样本输入深度神经网络模型，并基于前向推理得到病灶的类别信息。具体为：

针对医学图像分类任务，本申请的第一阶段即是将医学图像输入至深度神经网络模型，获得模型对于医学图像的分类结果，即模型的推理，以供第二阶段生成并作用感兴趣区域。本实施例中，以卷积神经网络为例，深度神经网络模型由卷积层、池化层以及全连接层构成，其中卷积层与全连接层包含可学习参数，池化层不包含可学习参数。前向计算采用的公式具体为：

其中，

代表第

层与第

层之间的卷积核，

、

代表卷积核中第

行第

和

，

代表第

层的输出，

代表非线性激活函数，n、m代表卷积输出的第n行m列位置的激活值。以上公式的含义是卷积核

与第

层的输出

对应位置元素相乘并求和，经过激活函数作用后，得到第

层的输出

。

步骤S1中，深度神经网络模型的最后一层为全连接层，全连接层在进行前向推理时，前向计算采用的公式具体为：

其中，

代表第

层的

神经元与第

层的

神经元之间的连接权，

代表第

层的

神经元的输出，

代表第

层所包含的神经元的数目，

代表非线性激活函数。可以看出，卷积操作产生的二维输出（如

），全连接得到的是一维的输出，它的输出即代表模型对于输入的最终预测结果。

步骤S2，根据步骤S1得到的类别信息，找出感兴趣区域并生成相应的最小外接矩形，在最小外接矩形的引导下生成随机掩码，并将掩码作用于对应的医学图像，得到赋有掩码的医学图像。具体为：

在得到步骤S1的预测结果后，第二阶段即是模型对于输入的感兴趣区域以及相应的最小外接矩形。深度神经网络模型最后的全连接层中的连接权矩阵

对最后一个卷积层的输出

加权求和，并上采样至输入图像的大小，即可得到模型对于输入的感兴趣区域。

首先，步骤S2中，在找出感兴趣区域时，其计算步骤为：

步骤S2-1，获得深度神经网络模型对于输出的预测类别c，预测类别c代表输出层中的第c个神经元，其激活值在输出层中最大：

其中，

为步骤S1最后的输出；

步骤S2-2，将第

个神经元连接的连接权矩阵

与最后一个卷积层的特征

加权求和，并对求和后的特征进行上采样：

其中，

表示最后一个卷积层的通道数目，

表示K的游标，用于遍历从1到K，

表示最后一层的第

个神经元，

表示第

个神经元与最后一个卷积层的连接权矩阵，

表示最后一个卷积层的输出，

表示上采样函数。图3中的第二阶段右下方的热图即代表识别出的感兴趣区域。

此处需要说明的是，根据习惯，网络中间层通常用小写的

代指（即layer），网络最后一层通常用大写的L代指；所以，步骤S1、S2中分别在不同网络层中使用

、L来表示。

步骤S3，将步骤S2得到的赋有掩码的医学图像作为样本输入深度神经网络模型，得到预测的类别信息、位置信息，并结合步骤S2生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签，预测出病灶的位置误差、类别误差。具体为：

该阶段采用自监督学习同时预测病灶的类别与位置。自监督学习的目的旨在生成伪标签并预训练模型，通过预训练的方式，提升模型在下游任务中的性能表现。本步骤以上一步赋有了随机掩码的医学图像作为输入，并利用上一步生成的最小外接矩形作为病灶位置的伪标签，结合医学图像本身已具备的病灶类别真实标签，二者同时训练模型。通过引入病灶位置预测，为模型提供更强的监督学习信号，以减轻模型在真实场景中的漏诊情况。

步骤S4，根据步骤S3得到的位置误差、类别误差，更新深度神经网络模型的参数；重复训练深度神经网络模型，直至深度神经网络模型收敛。具体为：

深度神经网络模型将同时输出病灶的位置以及类别，与病灶位置的伪标签以及病灶类别的真实标签进行比较，产生类别误差与位置误差，根据该类别误差与位置误差即可利用梯度下降算法更新模型参数；重复训练深度神经网络模型，直至深度神经网络模型收敛，完成模型训练。

此外，在步骤S3得到预测的类别信息后，重复步骤S2、S3两次或三次，获取医学图像中更多的感兴趣区域。

步骤四，实时检测、识别

将实时获取的OCT医学图像输入训练成熟的深度神经网络中，输出医学图像的结果，其中包括病灶的位置信息以及分类信息。即：给定一张待识别的医学图像，深度神经网络不仅将输出病灶的类别，而且可定位至病灶的位置，具备非常强的实用性。

实施例2

本实施例提供一种基于感兴趣区域的自监督学习医学图像识别装置，用于对医学图像中病灶的识别，尤其是医学图像中黄斑水肿病变、视网膜病变等病灶的分类与位置。其具体包括：

样本数据获取模块，用于获取用于模型训练的样本数据，该样本数据取自于医院的OCT医学图像，且每组OCT医学图像均由医学专家进行了黄斑水肿病变的病灶的标注，形成对应的真实分类标签。

模型搭建模块，用于搭建深度神经网络模型，深度神经网络模型可采用现有的网络模型即可，且该深度神经网络模型可对医学图像进行分类、识别，得到病灶的类别信息与位置信息。根据实际需要，可自行选择Faster RCNN网络模型。

模型训练模块，用于对模型搭建模块搭建的深度神经网络模型进行训练。深度神经网络模型的具体训练方法，是本申请的核心创新之一，其具体训练方法如图3所示：

该模型训练模块包括：

前向推理预测模块，用于将获取的医学图像作为样本输入深度神经网络模型，并基于前向推理得到病灶的类别信息。具体为：

针对医学图像分类任务，本申请的第一阶段即是将医学图像输入至深度神经网络模型，获得模型对于医学图像的分类结果，即模型的推理，以供第二阶段生成并作用感兴趣区域。本实施例中，以卷积神经网络为例，深度神经网络模型由卷积层、池化层以及全连接层构成，其中卷积层与全连接层包含可学习参数，池化层不包含可学习参数。卷积层的前向计算采用的公式具体为：

其中，

代表第

层与第

层之间的卷积核，

、

代表卷积核中第

行第

和

，

代表第

层的输出，

与第

层的输出

对应位置元素相乘并求和，经过激活函数作用后，得到第

层的输出

。

该深度神经网络模型的最后一层为全连接层，全连接层在进行前向推理时，前向计算采用的公式具体为：

其中，

代表第

层的

神经元与第

层的

神经元之间的连接权，

代表第

层的

神经元的输出，

代表第

层所包含的神经元的数目，

掩码生成模块，用于根据前向推理预测模块得到的类别信息，找出感兴趣区域并生成相应的最小外接矩形，在最小外接矩形的引导下生成随机掩码，并将掩码作用于对应的医学图像，得到赋有掩码的医学图像。具体为：

对最后一个卷积层的输出

首先，步骤S2中，在找出感兴趣区域时，其计算步骤为：

其中，

为步骤S1最后的输出；

步骤S2-2，将第

个神经元连接的连接权矩阵

与最后一个卷积层的特征

加权求和，并对求和后的特征进行上采样：

其中，

表示最后一个卷积层的通道数目，

表示K的游标，用于遍历从1到K，

表示最后一层的第

个神经元，

表示第

个神经元与最后一个卷积层的连接权矩阵，

表示最后一个卷积层的输出，

误差生成模块，用于将掩码生成模块得到的赋有掩码的医学图像作为样本输入深度神经网络模型，得到预测的类别信息、位置信息，并结合掩码生成模块生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签，预测出病灶的位置误差、类别误差。具体为：

参数更新模块，用于根据误差生成模块得到的位置误差、类别误差更新深度神经网络模型的参数；重复训练深度神经网络模型，直至深度神经网络模型收敛。具体为：

实时检测模块，用于将实时获取的OCT医学图像输入训练成熟的深度神经网络中，输出医学图像的结果，其中包括病灶的位置信息以及分类信息。即：给定一张待识别的医学图像，深度神经网络不仅将输出病灶的类别，而且可定位至病灶的位置，具备非常强的实用性。

实施例3

本实施例还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于感兴趣区域的自监督学习医学图像识别方法的步骤。

其中，所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件，例如运行所述基于感兴趣区域的自监督学习医学图像识别方法的的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述基于感兴趣区域的自监督学习医学图像识别方法的程序代码。

实施例4

本实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于感兴趣区域的自监督学习医学图像识别方法的步骤。

其中，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行基于感兴趣区域的自监督学习医学图像识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。