CN114882301B - 基于感兴趣区域的自监督学习医学图像识别方法及装置 - Google Patents
基于感兴趣区域的自监督学习医学图像识别方法及装置 Download PDFInfo
- Publication number
- CN114882301B CN114882301B CN202210815270.2A CN202210815270A CN114882301B CN 114882301 B CN114882301 B CN 114882301B CN 202210815270 A CN202210815270 A CN 202210815270A CN 114882301 B CN114882301 B CN 114882301B
- Authority
- CN
- China
- Prior art keywords
- medical image
- neural network
- network model
- deep neural
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 38
- 210000002569 neuron Anatomy 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000003745 diagnosis Methods 0.000 abstract description 16
- 230000003902 lesion Effects 0.000 description 19
- 208000001344 Macular Edema Diseases 0.000 description 9
- 206010025415 Macular oedema Diseases 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 201000010230 macular retinal edema Diseases 0.000 description 9
- 238000012014 optical coherence tomography Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 208000017442 Retinal disease Diseases 0.000 description 4
- 206010038923 Retinopathy Diseases 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010012688 Diabetic retinal oedema Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 201000011190 diabetic macular edema Diseases 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 208000005590 Choroidal Neovascularization Diseases 0.000 description 2
- 206010060823 Choroidal neovascularisation Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于感兴趣区域的自监督学习医学图像识别方法及装置,涉及医学图像中病灶的识别,其目的在于解决现有技术中存在的现有网络模型可解释性较差存在漏诊、以及基于一个网络模型无法同时实现分类与定位的问题。根据推理结果定位感兴趣区域,并生成小外接矩形,再生成大小随机的掩码,并作用至输入图像中,后再重复输入深度神经网络模型,通过重复定位、重复掩码以及重复深度神经网络模型识别,可减轻模型训练对有标签数据集的依赖,识别定位出医学图像中两个、三个甚至是更多的感兴趣区域,有效避免漏诊的情形出现,通过引导模型识别病灶的位置以及类别,减轻模型在真实应用场景中可能出现的漏诊情况。
Description
技术领域
本发明人工智能医学技术领域,涉及基于感兴趣区域的自监督学习医学图像识别方法及装置,更具体的是涉及一种基于感兴趣区域的自监督学习的黄斑水肿病变、视网膜病变等医学图像中病灶的分类与定位。
背景技术
基于深度神经网络的人工智能方法已在医学图像识别领域发挥着重要作用,其通过端对端的学习输入(医学图像)与输出(诊断结果)之间的关系,在众多疾病识别任务中取得了良好的分类效果,如黄斑水肿病变、视网膜病变等。
图1展示了一种典型的基于深度神经网络的黄斑水肿病变分类模型,其用于识别医学图像中是否存在黄斑水肿病变,从而完成对医学图像的分类。任务的输入数据为光学相干断层扫描(Optical Coherence Tomography, OCT)图像,任务输出共包括四个类别:1.正常、2. 脉络膜新生血管(Choroidal Neovascularization, CNV)、3. 糖尿病性黄斑水肿(Diabetic Macular Edema, DME)、4. 玻璃体疣(Drusen),其中DME的模型预测概率最高(0.6)。图中的疾病分类模型通常由深度神经网络实现,其中灰色的方块代表模型从输入的OCT图像中提取得到的抽象特征,全局池化沿着特征通道的维度求平均,实现了将特征由三维矩阵变为一维向量,并根据该一维向量得到模型的预测结果。
申请号为2021112638282的发明专利申请就公开了一种胃镜图像智能目标检测系统及方法,其图像获取模块用于获取待检测胃镜图像;目标检测模块用于将待检测胃镜图像输出到目标检测模型中以获取病灶区域以及所述病灶区域对应的病灶类别;所述目标检测模型的训练过程为:确定多张第一胃镜图像;确定每张第一胃镜图像对应的标签;所述标签包括病灶类别和病灶区域;将第一胃镜图像以及所述第一胃镜图像对应的标签输入到卷积神经网络中以训练所述卷积神经网络,进而得到目标检测模型。本发明通过将目标检测方法与胃镜图像结合得到目标检测模型,以实现对胃镜图像中病灶区域以及病灶区域对应的病灶类型的智能检测,降低人为主观造成的诊断误差。
申请号为2017108886512的发明专利公开了一种用于标注医学图像的方法和装置,其通过获取至少一个待标注医学图像;为待标注医学图像标注分类信息,其中,分类信息包括医学图像对应的诊断结果的类别和诊断结果的等级;利用预先训练的病灶区域检测模型处理待标注医学图像,在待标注医学图像中框选出病灶区域、且标注出病灶区域的病灶类型,以使待标注医学图像标注出病灶区域和病灶区域的病灶类型;从已框选出病灶区域的待标注医学图像中分割出被框选出的病灶区域,形成待标注医学图像分割图像,以使待标注医学图像标注出分割图像。该实施方式实现了降低了标注医学图像的人力和时间成本。
申请号为2020108177607的发明专利还公开了一种基于深度学习的眼科超声自动筛查方法及系统,其包括:模型训练阶段:收集历史眼科超声图片和视频,对其进行训练得到分割模型和分类模型;检测阶段:S1、获取待检测的眼科超声图像;S2、利用训练好分割模型对待检测眼科超声图像进行人工智能网络分割,并利用分类模型对分割后的眼科超声图像进行识别,识别得到病灶类别,同时提示病灶位置;S3、根据所识别病灶评估相应风险评级;S4、根据风险等级,进行下一步诊疗提示。本发明可以减少医生工作量,提高疾病的及时诊断率,同时因为可以显示出具体的病灶位置,可用于对新手医生进行辅助培训。
以上这种端对端(输入图像至输出类别)的学习方式在医学图像识别任务中虽然得到了广泛应用,然而模型训练过程中存在两大痛点:1、模型训练依赖大量有标签数据集,然而在医学图像分析任务中获取患者的医学图像通常比较困难,此外人工标注依赖医生的领域经验知识,标注过程耗时耗力;2、模型可解释性较差,模型只要识别到感兴趣区域后,很难再进一步识别其他区域是否还有其他感兴趣区域或者其他不太容易识别到的感兴趣区域,从而难以有效应对模型在真实应用场景中出现的漏诊情况,具体如图2所示。在图2中,可根据模型的预测结果反向定位至模型对于输入的感兴趣区域(Region of interest,ROI),并以热图的形式展现出来,其中类别激活图(Class Activation Mapping, CAM)是一种有代表性的感兴趣区域识别算法,图2(a)展示了输入给模型的原始图像,该图包含复杂的病灶特征,分布在图像中央;图2(b)展示了模型所识别出的感兴趣区域,其中白色区域里面的深色代表模型认为病灶疑似程度最高的区域,外层的白色代表疑似次之的区域;图2(c)在白色区域左侧的深色方框展示了模型所遗漏掉的病灶区域,从图2(c)中可以看出,模型仅识别出了病灶特征最明显的区域,而忽略了同样具备诊断价值的次临床特征,从而造成漏诊。此外,上述这些应用中,一方面是部分方法中的网络模型仅能实现图像的分类,无法对图像的分类区域进行定位,无法输出位置信息;另一方面部分方法虽然能够同时实现分类、定位,但是其是分别通过两个网络模型实现的,一个网络模型用于分类,另一个网络模型用于定位,无法基于同一个网络模型通过不同的训练方法使其同时具备分类与定位的功能。
发明内容
本发明的目的在于:为了解决现有技术中存在的现有网络模型可解释性较差存在漏诊、以及基于一个网络模型无法同时实现分类与定位的问题,本申请提出了一种基于感兴趣区域的自监督学习医学图像识别方法及装置。
本发明为了实现上述目的具体采用以下技术方案:
一种基于感兴趣区域的自监督学习医学图像识别方法,包括深度神经网络模型,深度神经网络模型的训练方法为:
步骤S1,将获取的医学图像作为样本输入深度神经网络模型,并基于前向推理得到病灶的类别信息;
步骤S2,根据步骤S1得到的类别信息,找出感兴趣区域并生成相应的最小外接矩形,在最小外接矩形的引导下生成随机掩码,并将掩码作用于对应的医学图像,得到赋有掩码的医学图像;
步骤S3,将步骤S2得到的赋有掩码的医学图像作为样本输入深度神经网络模型,得到预测的类别信息、位置信息,并结合步骤S2生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签,预测出病灶的位置误差、类别误差;
步骤S4,根据步骤S3得到的位置误差、类别误差,更新深度神经网络模型的参数;重复训练深度神经网络模型,直至深度神经网络模型收敛。
作为优选地,步骤S1中,深度神经网络模型的卷积层在进行前向推理时,前向计算采用的公式具体为:
作为优选地,步骤S1中,深度神经网络模型的最后一层为全连接层,全连接层在进行前向推理时,前向计算采用的公式具体为:
作为优选地,步骤S2中,在找出感兴趣区域时,其计算步骤为:
步骤S2中,在找出感兴趣区域时,其计算步骤为:
其中,即代表对于输入的医学图像的感兴趣区域,它的维度与输入图像的维度一致,表示最后一个卷积层的通道数目,表示K的游标,用于遍历从1到K,表示最后一层的第个神经元,表示第个神经元与最后一个卷积层的连接权矩阵,表示最后一个卷积层的输出,表示上采样函数。
作为优选地,步骤S2中,生成赋有掩码的医学图像的方法为:
根据识别出的感兴趣区域生成热图,根据热图识别出最小外接矩形,在最小外接矩形内生成大小不固定的随机掩码,并将输入图像对应位置的元素设置为0,生成并作用感兴趣区域引导的赋有掩码的医学图像。
作为优选地,在步骤S3得到预测的类别信息后,重复步骤S2、S3两次或三次,获取医学图像中更多的感兴趣区域。
一种基于感兴趣区域的自监督学习医学图像识别装置,包括模型训练模块,模型训练模块包括:
前向推理预测模块,用于将获取的医学图像作为样本输入深度神经网络模型,并基于前向推理得到病灶的类别信息;
掩码生成模块,用于根据前向推理预测模块得到的类别信息,找出感兴趣区域并生成相应的最小外接矩形,在最小外接矩形的引导下生成随机掩码,并将掩码作用于对应的医学图像,得到赋有掩码的医学图像;
误差生成模块,用于将掩码生成模块得到的赋有掩码的医学图像作为样本输入深度神经网络模型,得到预测的类别信息、位置信息,并结合掩码生成模块生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签,预测出病灶的位置误差、类别误差;
参数更新模块,用于根据误差生成模块得到的位置误差、类别误差更新深度神经网络模型的参数;重复训练深度神经网络模型,直至深度神经网络模型收敛。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。
本发明的有益效果如下:
1.本发明中,针对一张待分析的医学图像,根据推理结果定位感兴趣区域,并生成该区域的最小外接矩形,再根据以该最小外接矩形为参考,生成大小随机的掩码,并作用至输入图像中,以达到增强数据多样性的目的,减轻模型训练对有标签数据集的依赖。
2.本发明中,根据推理结果定位感兴趣区域进行掩码后再重复输入深度神经网络模型,通过重复定位、重复掩码以及重复深度神经网络模型识别,可以识别定位出医学图像中两个、三个甚至是更多的感兴趣区域,有效避免漏诊的情形出现。
3.本发明中,通过将生成的最小外接矩形作为伪标签,结合医学图像本身具备的真实标签,二者共同作为标签训练深度神经网络,最小外接矩形提供了位置信息,用于训练模型准确定位至病灶区域;真实标签提供了病灶的类别信息,通过引导模型识别病灶的位置以及类别,能够获取医学图像中病灶的具体位置以及类别,减轻模型在真实应用场景中可能出现的漏诊情况。
附图说明
图1是现有技术中黄斑水肿病变分类模型的结构示意图;
图2是现有技术中入原始图像与模型对于输入的感兴趣区域热图;
其中,图2(a)展示了输入给模型的原始图像,该图包含复杂的病灶特征,分布在图像中央;图2(b)展示了模型所识别出的感兴趣区域,其中白色区域里面的深色代表模型认为病灶疑似程度最高的区域,外层的白色代表疑似次之的区域;图2(c)在白色区域左侧的深色方框展示了模型所遗漏掉的病灶区域;
图3是本发明的流程示意图。
具体实施方式
实施例1
本实施例提供一种基于感兴趣区域的自监督学习医学图像识别方法,用于对医学图像中病灶的识别,尤其是医学图像中黄斑水肿病变、视网膜病变等病灶的分类与位置。其具体包括以下步骤:
步骤一,获取样本数据
获取用于模型训练的样本数据,该样本数据取自于医院的OCT医学图像,且每组OCT医学图像均由医学专家进行了黄斑水肿病变的病灶的标注,形成对应的真实分类标签。
步骤二,搭建模型
搭建深度神经网络模型,深度神经网络模型可采用现有的网络模型即可,且该深度神经网络模型可对医学图像进行分类、识别,得到病灶的类别信息与位置信息。根据实际需要,可自行选择Faster RCNN网络模型。
步骤三,训练模型
对步骤二搭建的深度神经网络模型进行训练。深度神经网络模型的具体训练方法,是本申请的核心创新之一,其具体训练方法如图3所示:
该深度神经网络模型的训练,具体包括以下四个阶段,分别是:
步骤S1,将步骤一获取的医学图像作为样本输入深度神经网络模型,并基于前向推理得到病灶的类别信息。具体为:
针对医学图像分类任务,本申请的第一阶段即是将医学图像输入至深度神经网络模型,获得模型对于医学图像的分类结果,即模型的推理,以供第二阶段生成并作用感兴趣区域。本实施例中,以卷积神经网络为例,深度神经网络模型由卷积层、池化层以及全连接层构成,其中卷积层与全连接层包含可学习参数,池化层不包含可学习参数。前向计算采用的公式具体为:
其中,代表第层与第层之间的卷积核,、代表卷积核中第行第列位置的元素;卷积核是一个可学习参数矩阵,矩阵的宽和高分别为和,代表第层的输出,代表非线性激活函数,n、m代表卷积输出的第n行m列位置的激活值。以上公式的含义是卷积核与第层的输出对应位置元素相乘并求和,经过激活函数作用后,得到第层的输出。
步骤S1中,深度神经网络模型的最后一层为全连接层,全连接层在进行前向推理时,前向计算采用的公式具体为:
其中,代表第层的神经元与第层的神经元之间的连接权,代表第层的神经元的输出,代表第层所包含的神经元的数目,代表非线性激活函数。可以看出,卷积操作产生的二维输出(如),全连接得到的是一维的输出,它的输出即代表模型对于输入的最终预测结果。
步骤S2,根据步骤S1得到的类别信息,找出感兴趣区域并生成相应的最小外接矩形,在最小外接矩形的引导下生成随机掩码,并将掩码作用于对应的医学图像,得到赋有掩码的医学图像。具体为:
在得到步骤S1的预测结果后,第二阶段即是模型对于输入的感兴趣区域以及相应的最小外接矩形。深度神经网络模型最后的全连接层中的连接权矩阵对最后一个卷积层的输出加权求和,并上采样至输入图像的大小,即可得到模型对于输入的感兴趣区域。
首先,步骤S2中,在找出感兴趣区域时,其计算步骤为:
步骤S2-1,获得深度神经网络模型对于输出的预测类别c,预测类别c代表输出层中的第c个神经元,其激活值在输出层中最大:
其中,即代表对于输入的医学图像的感兴趣区域,它的维度与输入图像的维度一致,表示最后一个卷积层的通道数目,表示K的游标,用于遍历从1到K,表示最后一层的第个神经元,表示第个神经元与最后一个卷积层的连接权矩阵,表示最后一个卷积层的输出,表示上采样函数。图3中的第二阶段右下方的热图即代表识别出的感兴趣区域。
根据识别出的感兴趣区域生成热图,根据热图识别出最小外接矩形,在最小外接矩形内生成大小不固定的随机掩码,并将输入图像对应位置的元素设置为0,生成并作用感兴趣区域引导的赋有掩码的医学图像。
步骤S3,将步骤S2得到的赋有掩码的医学图像作为样本输入深度神经网络模型,得到预测的类别信息、位置信息,并结合步骤S2生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签,预测出病灶的位置误差、类别误差。具体为:
该阶段采用自监督学习同时预测病灶的类别与位置。自监督学习的目的旨在生成伪标签并预训练模型,通过预训练的方式,提升模型在下游任务中的性能表现。本步骤以上一步赋有了随机掩码的医学图像作为输入,并利用上一步生成的最小外接矩形作为病灶位置的伪标签,结合医学图像本身已具备的病灶类别真实标签,二者同时训练模型。通过引入病灶位置预测,为模型提供更强的监督学习信号,以减轻模型在真实场景中的漏诊情况。
步骤S4,根据步骤S3得到的位置误差、类别误差,更新深度神经网络模型的参数;重复训练深度神经网络模型,直至深度神经网络模型收敛。具体为:
深度神经网络模型将同时输出病灶的位置以及类别,与病灶位置的伪标签以及病灶类别的真实标签进行比较,产生类别误差与位置误差,根据该类别误差与位置误差即可利用梯度下降算法更新模型参数;重复训练深度神经网络模型,直至深度神经网络模型收敛,完成模型训练。
此外,在步骤S3得到预测的类别信息后,重复步骤S2、S3两次或三次,获取医学图像中更多的感兴趣区域。
步骤四,实时检测、识别
将实时获取的OCT医学图像输入训练成熟的深度神经网络中,输出医学图像的结果,其中包括病灶的位置信息以及分类信息。即:给定一张待识别的医学图像,深度神经网络不仅将输出病灶的类别,而且可定位至病灶的位置,具备非常强的实用性。
实施例2
本实施例提供一种基于感兴趣区域的自监督学习医学图像识别装置,用于对医学图像中病灶的识别,尤其是医学图像中黄斑水肿病变、视网膜病变等病灶的分类与位置。其具体包括:
样本数据获取模块,用于获取用于模型训练的样本数据,该样本数据取自于医院的OCT医学图像,且每组OCT医学图像均由医学专家进行了黄斑水肿病变的病灶的标注,形成对应的真实分类标签。
模型搭建模块,用于搭建深度神经网络模型,深度神经网络模型可采用现有的网络模型即可,且该深度神经网络模型可对医学图像进行分类、识别,得到病灶的类别信息与位置信息。根据实际需要,可自行选择Faster RCNN网络模型。
模型训练模块,用于对模型搭建模块搭建的深度神经网络模型进行训练。深度神经网络模型的具体训练方法,是本申请的核心创新之一,其具体训练方法如图3所示:
该模型训练模块包括:
前向推理预测模块,用于将获取的医学图像作为样本输入深度神经网络模型,并基于前向推理得到病灶的类别信息。具体为:
针对医学图像分类任务,本申请的第一阶段即是将医学图像输入至深度神经网络模型,获得模型对于医学图像的分类结果,即模型的推理,以供第二阶段生成并作用感兴趣区域。本实施例中,以卷积神经网络为例,深度神经网络模型由卷积层、池化层以及全连接层构成,其中卷积层与全连接层包含可学习参数,池化层不包含可学习参数。卷积层的前向计算采用的公式具体为:
其中,代表第层与第层之间的卷积核,、代表卷积核中第行第列位置的元素;卷积核是一个可学习参数矩阵,矩阵的宽和高分别为和,代表第层的输出,代表非线性激活函数,n、m代表卷积输出的第n行m列位置的激活值。以上公式的含义是卷积核与第层的输出对应位置元素相乘并求和,经过激活函数作用后,得到第层的输出。
该深度神经网络模型的最后一层为全连接层,全连接层在进行前向推理时,前向计算采用的公式具体为:
其中,代表第层的神经元与第层的神经元之间的连接权,代表第层的神经元的输出,代表第层所包含的神经元的数目,代表非线性激活函数。可以看出,卷积操作产生的二维输出(如),全连接得到的是一维的输出,它的输出即代表模型对于输入的最终预测结果。
掩码生成模块,用于根据前向推理预测模块得到的类别信息,找出感兴趣区域并生成相应的最小外接矩形,在最小外接矩形的引导下生成随机掩码,并将掩码作用于对应的医学图像,得到赋有掩码的医学图像。具体为:
在得到步骤S1的预测结果后,第二阶段即是模型对于输入的感兴趣区域以及相应的最小外接矩形。深度神经网络模型最后的全连接层中的连接权矩阵对最后一个卷积层的输出加权求和,并上采样至输入图像的大小,即可得到模型对于输入的感兴趣区域。
首先,步骤S2中,在找出感兴趣区域时,其计算步骤为:
步骤S2-1,获得深度神经网络模型对于输出的预测类别c,预测类别c代表输出层中的第c个神经元,其激活值在输出层中最大:
其中,即代表对于输入的医学图像的感兴趣区域,它的维度与输入图像的维度一致,表示最后一个卷积层的通道数目,表示K的游标,用于遍历从1到K,表示最后一层的第个神经元,表示第个神经元与最后一个卷积层的连接权矩阵,表示最后一个卷积层的输出,表示上采样函数。图3中的第二阶段右下方的热图即代表识别出的感兴趣区域。
根据识别出的感兴趣区域生成热图,根据热图识别出最小外接矩形,在最小外接矩形内生成大小不固定的随机掩码,并将输入图像对应位置的元素设置为0,生成并作用感兴趣区域引导的赋有掩码的医学图像。
误差生成模块,用于将掩码生成模块得到的赋有掩码的医学图像作为样本输入深度神经网络模型,得到预测的类别信息、位置信息,并结合掩码生成模块生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签,预测出病灶的位置误差、类别误差。具体为:
该阶段采用自监督学习同时预测病灶的类别与位置。自监督学习的目的旨在生成伪标签并预训练模型,通过预训练的方式,提升模型在下游任务中的性能表现。本步骤以上一步赋有了随机掩码的医学图像作为输入,并利用上一步生成的最小外接矩形作为病灶位置的伪标签,结合医学图像本身已具备的病灶类别真实标签,二者同时训练模型。通过引入病灶位置预测,为模型提供更强的监督学习信号,以减轻模型在真实场景中的漏诊情况。
参数更新模块,用于根据误差生成模块得到的位置误差、类别误差更新深度神经网络模型的参数;重复训练深度神经网络模型,直至深度神经网络模型收敛。具体为:
深度神经网络模型将同时输出病灶的位置以及类别,与病灶位置的伪标签以及病灶类别的真实标签进行比较,产生类别误差与位置误差,根据该类别误差与位置误差即可利用梯度下降算法更新模型参数;重复训练深度神经网络模型,直至深度神经网络模型收敛,完成模型训练。
此外,在步骤S3得到预测的类别信息后,重复步骤S2、S3两次或三次,获取医学图像中更多的感兴趣区域。
实时检测模块,用于将实时获取的OCT医学图像输入训练成熟的深度神经网络中,输出医学图像的结果,其中包括病灶的位置信息以及分类信息。即:给定一张待识别的医学图像,深度神经网络不仅将输出病灶的类别,而且可定位至病灶的位置,具备非常强的实用性。
实施例3
本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于感兴趣区域的自监督学习医学图像识别方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如运行所述基于感兴趣区域的自监督学习医学图像识别方法的的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述基于感兴趣区域的自监督学习医学图像识别方法的程序代码。
实施例4
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于感兴趣区域的自监督学习医学图像识别方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行基于感兴趣区域的自监督学习医学图像识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
Claims (7)
1.一种基于感兴趣区域的自监督学习医学图像识别方法,包括深度神经网络模型,其特征在于,深度神经网络模型的训练方法为:
步骤S1,将获取的医学图像作为样本输入深度神经网络模型,并基于前向推理得到病灶的类别信息;
步骤S2,根据步骤S1得到的类别信息,找出感兴趣区域并生成相应的最小外接矩形,在最小外接矩形的引导下生成随机掩码,并将掩码作用于对应的医学图像,得到赋有掩码的医学图像;
步骤S3,将步骤S2得到的赋有掩码的医学图像作为样本输入深度神经网络模型,得到预测的类别信息、位置信息,并结合步骤S2生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签,预测出病灶的位置误差、类别误差;
步骤S4,根据步骤S3得到位置误差、类别误差更新深度神经网络模型的参数,重复训练深度神经网络模型,直至深度神经网络模型收敛。
4.如权利要求1所述的一种基于感兴趣区域的自监督学习医学图像识别方法,其特征在于:步骤S2中,在找出感兴趣区域时,其计算步骤为:
步骤S2-1,获得深度神经网络模型对于输出的预测类别c,预测类别c代表输出层中的第c个神经元,其激活值在输出层中最大:
5.如权利要求1所述的一种基于感兴趣区域的自监督学习医学图像识别方法,其特征在于:步骤S2中,生成赋有掩码的医学图像的方法为:
根据识别出的感兴趣区域生成热图,根据热图识别出最小外接矩形,在最小外接矩形内生成大小不固定的随机掩码,并将输入图像对应位置的元素设置为0,生成并作用感兴趣区域引导的赋有掩码的医学图像。
6.如权利要求1所述的一种基于感兴趣区域的自监督学习医学图像识别方法,其特征在于:在步骤S3得到预测的类别信息后,重复步骤S2、S3两次或三次,获取医学图像中更多的感兴趣区域。
7.一种基于感兴趣区域的自监督学习医学图像识别装置,包括模型训练模块,其特征在于;模型训练模块包括:
前向推理预测模块,用于将获取的医学图像作为样本输入深度神经网络模型,并基于前向推理得到病灶的类别信息;
掩码生成模块,用于根据前向推理预测模块得到的类别信息,找出感兴趣区域并生成相应的最小外接矩形,在最小外接矩形的引导下生成随机掩码,并将掩码作用于对应的医学图像,得到赋有掩码的医学图像;
误差生成模块,用于将掩码生成模块得到的赋有掩码的医学图像作为样本输入深度神经网络模型,得到预测的类别信息、位置信息,并结合掩码生成模块生成的最小外接矩形作为伪标签、以及医学图像的真实分类标签,预测出病灶的位置误差、类别误差;
参数更新模块,用于根据误差生成模块得到的位置误差、类别误差更新深度神经网络模型的参数;重复训练深度神经网络模型,直至深度神经网络模型收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210815270.2A CN114882301B (zh) | 2022-07-11 | 2022-07-11 | 基于感兴趣区域的自监督学习医学图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210815270.2A CN114882301B (zh) | 2022-07-11 | 2022-07-11 | 基于感兴趣区域的自监督学习医学图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882301A CN114882301A (zh) | 2022-08-09 |
CN114882301B true CN114882301B (zh) | 2022-09-13 |
Family
ID=82682994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210815270.2A Active CN114882301B (zh) | 2022-07-11 | 2022-07-11 | 基于感兴趣区域的自监督学习医学图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882301B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798725B (zh) * | 2022-10-27 | 2024-03-26 | 佛山读图科技有限公司 | 用于核医学的带病灶人体仿真影像数据制作方法 |
CN118097189B (zh) * | 2024-04-07 | 2024-07-23 | 腾讯科技(深圳)有限公司 | 图像匹配方法、模型训练方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242032A (zh) * | 2018-09-21 | 2019-01-18 | 桂林电子科技大学 | 一种基于深度学习的目标检测方法 |
CN110276362A (zh) * | 2018-03-13 | 2019-09-24 | 富士通株式会社 | 训练图像模型的方法和装置以及分类预测方法和装置 |
CN111062381A (zh) * | 2019-10-17 | 2020-04-24 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的车牌位置检测方法 |
CN111161275A (zh) * | 2018-11-08 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 医学图像中目标对象的分割方法、装置和电子设备 |
CN111783986A (zh) * | 2020-07-02 | 2020-10-16 | 清华大学 | 网络训练方法及装置、姿态预测方法及装置 |
CN112102266A (zh) * | 2020-08-31 | 2020-12-18 | 清华大学 | 基于注意力机制的脑梗死医学影像分类模型的训练方法 |
CN112270660A (zh) * | 2020-09-30 | 2021-01-26 | 四川大学 | 基于深度神经网络的鼻咽癌放疗靶区自动分割方法 |
CN113159223A (zh) * | 2021-05-17 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的颈动脉超声图像识别方法 |
CN114022872A (zh) * | 2021-09-24 | 2022-02-08 | 中国海洋大学 | 基于动态神经网络的多种类农作物叶病识别方法 |
CN114240770A (zh) * | 2021-11-22 | 2022-03-25 | 苏州涟漪信息科技有限公司 | 一种图像处理方法、装置、服务器及存储介质 |
CN114266739A (zh) * | 2021-12-14 | 2022-04-01 | 南京邮电大学 | 基于对比学习的半监督卷积神经网络的医学图像分割方法 |
CN114332547A (zh) * | 2022-03-17 | 2022-04-12 | 浙江太美医疗科技股份有限公司 | 医学目标分类方法和装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3074064A1 (en) * | 2019-03-01 | 2020-09-01 | The Regents Of The University Of California | Systems, methods, and media for automatically segmenting and diagnosing prostate lesions using multi-parametric magnetic resonance imaging data |
-
2022
- 2022-07-11 CN CN202210815270.2A patent/CN114882301B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276362A (zh) * | 2018-03-13 | 2019-09-24 | 富士通株式会社 | 训练图像模型的方法和装置以及分类预测方法和装置 |
CN109242032A (zh) * | 2018-09-21 | 2019-01-18 | 桂林电子科技大学 | 一种基于深度学习的目标检测方法 |
CN111161275A (zh) * | 2018-11-08 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 医学图像中目标对象的分割方法、装置和电子设备 |
CN111062381A (zh) * | 2019-10-17 | 2020-04-24 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的车牌位置检测方法 |
CN111783986A (zh) * | 2020-07-02 | 2020-10-16 | 清华大学 | 网络训练方法及装置、姿态预测方法及装置 |
CN112102266A (zh) * | 2020-08-31 | 2020-12-18 | 清华大学 | 基于注意力机制的脑梗死医学影像分类模型的训练方法 |
CN112270660A (zh) * | 2020-09-30 | 2021-01-26 | 四川大学 | 基于深度神经网络的鼻咽癌放疗靶区自动分割方法 |
CN113159223A (zh) * | 2021-05-17 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的颈动脉超声图像识别方法 |
CN114022872A (zh) * | 2021-09-24 | 2022-02-08 | 中国海洋大学 | 基于动态神经网络的多种类农作物叶病识别方法 |
CN114240770A (zh) * | 2021-11-22 | 2022-03-25 | 苏州涟漪信息科技有限公司 | 一种图像处理方法、装置、服务器及存储介质 |
CN114266739A (zh) * | 2021-12-14 | 2022-04-01 | 南京邮电大学 | 基于对比学习的半监督卷积神经网络的医学图像分割方法 |
CN114332547A (zh) * | 2022-03-17 | 2022-04-12 | 浙江太美医疗科技股份有限公司 | 医学目标分类方法和装置、电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
MaskCOV: A random mask covariance network for ultra-fine-grained visual categorization;XiaohanYu等;《Pattern Recognition》;20210617;第119卷;1-12 * |
Superpixel Masking and Inpainting for Self-Supervised Anomaly Detection;Zhenyu Li等;《The 31st British Machine Vision Virtual - BMVC2020》;20200910;1-12 * |
基于Mask R-CNN改进的图像实例分割算法研究;张云帅;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20220415(第(2022)04期);I138-967 * |
基于多任务有限监督学习的视网膜OCT图像病症诊断方法研究;钟盼;《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》;20220315(第(2022)03期);E076-18 * |
Also Published As
Publication number | Publication date |
---|---|
CN114882301A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shiri et al. | A comprehensive overview and comparative analysis on deep learning models: CNN, RNN, LSTM, GRU | |
Yuan et al. | Advanced agricultural disease image recognition technologies: A review | |
Pal et al. | AgriDet: Plant Leaf Disease severity classification using agriculture detection framework | |
Cui et al. | Efficient human motion prediction using temporal convolutional generative adversarial network | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN114882301B (zh) | 基于感兴趣区域的自监督学习医学图像识别方法及装置 | |
CN110717903A (zh) | 一种利用计算机视觉技术进行农作物病害检测的方法 | |
Xia et al. | A multi-scale segmentation-to-classification network for tiny microaneurysm detection in fundus images | |
Rusia et al. | An efficient CNN approach for facial expression recognition with some measures of overfitting | |
Rezk et al. | An efficient plant disease recognition system using hybrid convolutional neural networks (cnns) and conditional random fields (crfs) for smart iot applications in agriculture | |
Li et al. | Natural tongue physique identification using hybrid deep learning methods | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
Parez et al. | Towards Sustainable Agricultural Systems: A Lightweight Deep Learning Model for Plant Disease Detection. | |
Devisurya et al. | Early detection of major diseases in turmeric plant using improved deep learning algorithm | |
Orchi et al. | Real-time detection of crop leaf diseases using enhanced YOLOv8 algorithm | |
CN116612386A (zh) | 基于分级检测双任务模型的辣椒病虫害识别方法及系统 | |
Brar et al. | A smart approach to coconut leaf spot disease classification using computer vision and deep learning technique | |
Defriani et al. | Recognition of regional traditional house in Indonesia using Convolutional Neural Network (CNN) method | |
Nobel et al. | Palm Leaf Health Management: A Hybrid Approach for Automated Disease Detection and Therapy Enhancement. | |
Pratap et al. | High-precision multiclass classification of chili leaf disease through customized EffecientNetB4 from chili leaf images | |
Escudero et al. | Black sigatoka classification using convolutional neural networks | |
CN110363240B (zh) | 一种医学影像分类方法与系统 | |
Goundar | Improved deep learning model based on integrated convolutional neural networks and transfer learning for shoeprint image classification | |
Yu | Research progress of crop disease image recognition based on wireless network communication and deep learning | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |