CN114399634B - 基于弱监督学习的三维图像分类方法、系统、设备及介质 - Google Patents

基于弱监督学习的三维图像分类方法、系统、设备及介质 Download PDF

Info

Publication number
CN114399634B
CN114399634B CN202210267031.8A CN202210267031A CN114399634B CN 114399634 B CN114399634 B CN 114399634B CN 202210267031 A CN202210267031 A CN 202210267031A CN 114399634 B CN114399634 B CN 114399634B
Authority
CN
China
Prior art keywords
dimensional
stacked
dimensional image
attention
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210267031.8A
Other languages
English (en)
Other versions
CN114399634A (zh
Inventor
贾士绅
薛梦凡
朱闻韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210267031.8A priority Critical patent/CN114399634B/zh
Publication of CN114399634A publication Critical patent/CN114399634A/zh
Application granted granted Critical
Publication of CN114399634B publication Critical patent/CN114399634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于弱监督学习的三维图像分类方法、系统、设备及介质,本发明采用多示例学习,使用具体切片标签的数据集进行网络训练,采用迁移学习来进行三维图像的特征提取,随后构建一种基于双阶段注意力的多示例学习分类网络,实现了三维图像的快速准确分类。本发明采用一种弱监督策略,无需大量标注的数据集,减少了数据收集与前期处理的工作量,同时提出的基于双阶段注意力的分类网络,相比于其它深度学习分类方法,大幅的提升了分类速度与分类准确率,且具有更高的适应性和鲁棒性,具有更高的实用性。

Description

基于弱监督学习的三维图像分类方法、系统、设备及介质
技术领域
本发明涉及医疗图像处理技术领域以及人工智能、模式识别领域,更具体的,涉及一种基于弱监督学习的三维图像分类方法、系统、设备及介质。
背景技术
目前,慢性疾病已经成为一类常见疾病,慢性疾病是我国居民死亡的主要原因,据统计,近年来,我国死亡人口中,约有86%死于各种慢性疾病。慢性疾病的发病率和死亡率持续地增高,给人们的健康和生命带来极大的威胁。慢性疾病的主要特点是,持续时间较长、病情难以逆转、致病原因较为复杂。医学研究表明,对于各类慢性疾病,早期的准确检测与及时治疗,对于降低疾病的未来恶化及住院风险是相当关键的,也有助于对慢性疾病进行更为精准的治疗,早期的准确发现能够有效地延缓疾病进展,同时改善患者的整体预后。目前医生主要通过两种途径来诊断此类疾病,一种是传统的器官组织功能的检查,该方法让患者接受医院相关疾病的常规检查,然后根据相应的检查报告做出诊断,但是常规的检查让很多早期慢性疾病患者没有得到及时的诊断,影响了疾病的治疗;另一种诊断慢性疾病的方法则是专业医生通过人工观察患者的医学影像来判断是否患有某病,一般而言,很多医学影像都是三维的图像,对这样的三维医学图像进行人工诊断不仅要求医生具有丰富的医学知识和长期的临床经验,同时也需要长时间的专注,这样费时费力的人工诊断很容易出现误诊,而且由于医疗条件的限制以及医生的人手不够等问题的存在,并非所有患者都能得到专业医生的及时诊断。
近年来,随着计算机技术的不断发展,人工智能技术在医疗领域的发展潜力已经不容忽视,机器学习、深度学习等算法模型已经开始应用于医学图像处理,可直接提取图像深层特征信息,并自动学习训练模型,从识别病灶区域到提取隐藏的病灶特征应用都十分广泛,其具有的自组织、自适应、自学习的能力和非线性、非定常性和非局域性的特点可以用来解决非线性的分类和预测问题。利用深度学习来对医学图像进行分类,具有效率高、稳定性高、泛化性强等优点。因而通过利用深度学习技术建立自动化智能诊断系统,可以将视觉影像信息转化抽象为深层次的特征信息,一方面提高诊断的准确率,另一方面辅助医生阅片,大大提高了诊断的效率,减轻了医生的负担。
目前基于深度学习的医学三维图像分类方法中,三维图像需经放射科医生对病灶区域标注,随后提取病灶区域送入网络进行训练并完成分类任务。这种有监督分类方法的优势是准确率高,然而需要庞大的获得医生标注过的图像数据集。由于对三维图像的病灶标注需要耗费大量的时间和医疗资源,且大多数的慢性疾病都是一种高度复杂的异质性疾病,发病部位可能涉及各个不同组织,致其病灶部位分布不均,相对于其它诸如肺癌等的病灶区域,更难以发现,因而更难以获得精准的注释,所以这些监督式深度学习方法存在很大的局限性,通常得不到足够多的样本进行训练,因此泛化有限。目前也有学者使用未经病灶标注的数据集进行分类研究,但由于无法有效地提取病变区域的特征,导致了分类模型的准确率低下。因此,为减轻医生的工作量以及提高疾病的诊断率,亟需一种无需病灶区域标注的数据集却具有较高分类精度的医学三维图像分类方法。
发明内容
本发明的目的在于提供一种基于弱监督学习的三维图像分类方法、系统、设备及介质。以解决现有的基于深度学习的三维医学影像自动化判读通常需要大量人工精细标注来训练的问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于弱监督学习的三维图像分类方法,包括:
获取三维图像;
根据至少两种条件提取三维图像的感兴趣区域,获得至少两种显现不同感兴趣区域的三维图像;
将所述至少两种显现不同感兴趣区域的三维图像在任意一个维度上的二维切片一一进行堆叠,获得堆叠二维切片;
使用预训练好的二维图像分类网络提取每一张堆叠二维切片的深度特征h k ,k=1,…,K,K表示三维图像的二维切片数量;
将K张堆叠二维切片的深度特征h k 输入至训练好的基于双阶段注意力的多示例学习网络,获得所述三维图像的分类结果;
所述基于双阶段注意力的多示例学习网络包括:
第一阶段注意力模块,用于根据输入的每一张堆叠二维切片的深度特征h k 计算每一张堆叠二维切片的注意力分数,并依据注意力分数选定分数最高的堆叠二维切片的深度特征为关键示例h m
第二阶段注意力模块,用于将输入的每一张堆叠二维切片的深度特征h k 转换成查询向量q k 和信息向量v k ,计算每一张堆叠二维切片的查询向量q k 到关键实例查询向量的距离作为每一张堆叠二维切片的最终注意力分数;将每一张堆叠二维切片的最终注意力分数作为权重对对应的信息向量v k 进行加权聚合获得表征高层的包级别特征;
分类层,用于根据包级别特征输出所述三维图像的分类结果。
进一步地,所述三维图像为医学三维图像。
进一步地,还包括利用收集的三维图像数据集对基于双阶段注意力的多示例学习网络进行训练,获得训练好的基于双阶段注意力的多示例学习网络的步骤;所述三维图像数据集的每组样本包括K张堆叠二维切片的深度特征h k 、及K张堆叠二维切片对应的三维图像分类标签,其中,所有样本的堆叠二维切片大小一致。
进一步地,所述利用收集的三维图像数据集对基于双阶段注意力的多示例学习网络进行训练,获得训练好的基于双阶段注意力的多示例学习网络的步骤具体为:
将每组样本的K张堆叠二维切片的深度特征h k 输入至基于双阶段注意力的多示例学习网络中,以最小化损失函数为目标,使用随机梯度下降算法对整个网络进行优化,获得训练好的基于双阶段注意力的多示例学习网络;所述损失函数包括基于双阶段注意力的多示例学习网络输出的预测分类结果与样本对应的真实分类标签的二值交叉熵损失函数。
进一步地,所述损失函数还包括示例级聚类损失函数,表示如下:
其中,其中τ、α为平滑参数,Y为可能的类别标签,表示阈值函数,s j 表示第j类别 的预测分数,s y 表示真实类别的预测分数。
进一步地,所述预训练好的二维图像分类网络为AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet等深度神经网络中的一种。
进一步地,所述第一阶段注意力模块为门控注意力模块、最大池化注意力模块、通道注意力模块、空间注意力模块等中的一种。
一种基于弱监督学习的三维图像分类系统,包括:
图像预处理单元,用于根据至少两种条件提取三维图像的感兴趣区域,获得至少两种显现不同感兴趣区域的三维图像;将所述至少两种显现不同感兴趣区域的三维图像在任意一个维度上的二维切片一一进行堆叠,获得堆叠二维切片;
图像特征提取单元,用于使用预训练好的二维图像分类网络提取每一张堆叠二维切片的深度特征h k ,k=1,…,K,K表示三维图像的二维切片数量;
图像分类单元,用于将K张堆叠二维切片的深度特征h k 输入至训练好的基于双阶段注意力的多示例学习网络,获得所述三维图像的分类结果;
所述基于双阶段注意力的多示例学习网络包括:
第一阶段注意力模块,用于根据输入的每一张堆叠二维切片的深度特征h k 计算每一张堆叠二维切片的注意力分数,并依据注意力分数选定分数最高的堆叠二维切片的深度特征为关键示例h m
第二阶段注意力模块,用于将输入的每一张堆叠二维切片的深度特征h k 转换成查询向量q k 和信息向量v k ,计算每一张堆叠二维切片的查询向量q k 到关键实例查询向量的距离作为每一张堆叠二维切片的最终注意力分数;将每一张堆叠二维切片的最终注意力分数作为权重对对应的信息向量v k 进行加权聚合获得表征高层的包级别特征;
分类层,用于根据包级别特征输出所述三维图像的分类结果。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于弱监督学习的三维图像分类方法。
一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如上述的基于弱监督学习的三维图像分类方法。
与现有技术相比,本发明的有益成果是:
(1)本发明使用迁移学习进行三维图像特征的提取,避免了深度学习由于数据集限制而导致的训练模型受限,特征提取不理想的问题,同时提出一种三维图像的“伪彩色”处理方法,在适应于迁移学习输入的同时,还大幅提高了后续的三维图像的分类准确率。
(2)本发明将特征提取操作与分类模型分类操作分开,提高了网络的灵活性与普适性,同时避免了端到端训练的大量计算机资源浪费,大幅减少训练时间。
(3)本发明使用多示例学习进行三维图像的分类,分类器无需三维图像的每张切片的标签信息,减轻了数据收集与标注时的工作量,同时该方法由于实现的快速性与便捷性,具有一定的实用价值。
(4)本发明提出双阶段的注意力网络,第一阶段注意力用来发现关键示例,有利于多示例学习实现更加精准的判别;第二阶段注意力使用任意示例到关键示例的度量距离来进行注意力打分,使得最终的注意力分数具有更强的鲁棒性与准确性。在基于双阶段注意力的机制下,分类器的有效性和准确性得到了大幅度的提升,进而有更高的应用价值。
(5) 本发明提出了一种新颖的弱监督学习技术无需精细标注(如感染序列片段,感染在切片中的位置等等),多实例套袋并进行卷积特征融合增强患者特定病例特征表达,提出了一种双阶段注意力机制进行自适应实例特征加权融合同时利用门控注意力避免多实例学习中梯度消失的问题。试图通过使用弱监督学习方法,通过对患者专属三维图像切片打包来进行训练,相比于目前普遍流行的基于单个图像的判别方法,该发明是前沿的。并且在该发明中,引入了门控注意力机制,来对抗梯度消失的问题并进行了大量的验证,在主流的深度神经网络骨干上测试并证明其有效性。训练好的模型可以灵活进行大规模部署,能够将大量候选切片作为输入,进行自动化分析诊断慢性疾病患者,辅助临床医生进一步检查。
附图说明
图1为本发明基于弱监督学习的三维图像分类方法的流程图;
图2为本发明基于双阶段注意力的多示例学习网络训练的流程图;
图3为本发明CT图像“伪彩色”处理方法流程图;
图4为本发明基于弱监督学习的三维图像分类系统结构图;
图5为本发明提供的一种电子设备的结构示意图。
具体实施方式
本发明的核心思想在于提供一种基于多示例学习和注意力机制的弱监督三维图 像分类方法,在多示例学习中,训练数据由一系列包(Bag)组成X={X 1, X 2,…, X N},其中每 个包被看作一个训练样本。而每个包都是一个示例(Instance)集合X i ={x i1, x i2,…, x imi }, 该集合示例中个数不固定,X i x分别代表包和该包内的示例,而mi指包内的示例数目,示 例,表示为一个d维的向量。在多示例学习任务中,只有包级别的标签是已知的,而示 例级标签未知,如果每个数据包中至少包含一个标签为正(positive)的示例,则整个数据 包的标签为正;否则,如果数据包中所有示例均为负(negative)示例,则数据包的标签为 负。本发明借鉴于多示例学习,将三维图像看成是由一系列二维图像切片沿某个坐标轴堆 叠而来,则三维图像可以视为一个训练样本,每张二维图像切片视为一个示例,利用三维图 像的全局标签即可利用多示例学习对三维图像分类网络进行训练,无需大量人工精细标注 以获取每张二维图像的分类标签,具有简单高效、分类精确的效果。
图1为本发明一示例性基于弱监督学习的三维图像分类方法的流程图,参见图1,具体包括:
步骤101:获取待分类的三维图像;
步骤102:对待分类的三维图像进行预处理:
根据至少两种条件提取三维图像的感兴趣区域,获得至少两种显现不同感兴趣区域的三维图像;将所述至少两种显现不同感兴趣区域的三维图像在任意一个维度上的二维切片根据其对应的位置分别一一进行堆叠,获得堆叠二维切片;
通过预处理,堆叠二维切片包含了多种感兴趣区域,而感兴趣区域通常包含更多的分类相关的特征,有利于后续的分类。
步骤103:使用预训练好的二维图像分类网络提取每一张堆叠二维切片的深度特征h k ,k=1,…,K,K表示三维图像的二维切片数量;
步骤104:将K张堆叠二维切片的深度特征h k 输入至训练好的基于双阶段注意力的多示例学习网络,获得所述三维图像的分类结果;
所述基于双阶段注意力的多示例学习网络包括:
第一阶段注意力模块,用于根据输入的每一张堆叠二维切片的深度特征h k 计算每一张堆叠二维切片的注意力分数,并依据注意力分数选定分数最高的堆叠二维切片的深度特征为关键示例h m
第二阶段注意力模块,用于将输入的每一张堆叠二维切片的深度特征h k 转换成查询向量q k 和信息向量v k ,计算每一张堆叠二维切片的查询向量q k 到关键实例查询向量的距离作为每一张堆叠二维切片的最终注意力分数;将每一张堆叠二维切片的最终注意力分数作为权重对对应的信息向量v k 进行加权聚合获得表征高层的包级别特征;
分类层,用于根据包级别特征输出所述三维图像的分类结果。
所述基于双阶段注意力的多示例学习网络是利用收集的三维图像数据集进行多示例学习训练,其中,所述三维图像数据集的每组包包括K张堆叠二维切片的深度特征h k 、及K张堆叠二维切片对应的三维图像分类标签,训练的步骤具体为:
将每组包的K张堆叠二维切片的深度特征h k 输入至基于双阶段注意力的多示例学习网络中,以最小化损失函数为目标,使用随机梯度下降算法对整个网络进行优化,获得训练好的基于双阶段注意力的多示例学习网络;所述损失函数包括基于双阶段注意力的多示例学习网络输出的预测分类结果与样本对应的真实分类标签的二值交叉熵损失函数。
本发明可适用于各类三维图像的分类,尤其适用于实现各种基于医学三维图像(CT图像、MRI图像、PET图像、三维超声图像等)分类的疾病诊断,特别是慢性疾病的诊断场景,因为对于放射科医生来说,给整个三维医学影像提供全局标签即确定某个患者的整个三维医学影像是否属于某种慢性疾病是容易做到的,很好地解决由于慢性疾病的复杂性以及受限于医生的工作量,很难标注出具体病灶出现在哪一张二维图像上或是出现在二维图像的哪个位置,即难以获得二维图像的分类标签的问题。
以下以慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)诊断为目的的三维胸部CT图像分类为例,结合附图和具体实施例对本发明提出的基于弱监督学习的三维图像分类方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
本发明实施例基于弱监督学习的三维胸部CT图像分类方法,包括:
训练阶段,其流程如图2所示:
(1)构建三维图像数据集:
(1.1)从医院收集三维胸部CT图像和对应的肺功能检查报告,通过数据筛查,挑选出具有完整研究信息的患者数据,通过数据脱敏技术,去除患者的个人敏感信息,有利于保护患者的隐私以及提高数据的保密性。最终收集到COPD和非COPD患者共计700例胸部CT图像及其对应的肺功能检测报告用于算法研究,其中COPD患者318例。读取所有受试者的肺功能测试报告信息,根据测试报告中使用支气管扩张剂后,患者第一秒钟用力呼气量与用力肺活量的比值来判断该患者是否属于COPD,并根据此来为每个受试者的三维胸部CT图像进行标注,患有COPD,则标注为1;未患有COPD,则标注为0。
(1.2)对每幅三维胸部CT图像进行预处理:
根据至少两种条件提取每幅三维胸部CT图像的感兴趣区域,获得至少两种显现不同感兴趣区域的每幅三维胸部CT图像;感兴趣区域是包含更多的利于分类相关特征的区域,对于CT图像,可以利用CT图像处理技术中的窗技术,观察不同密度的正常组织或病变,将三维图像的感兴趣区域显现出来;具体地,可以设置不同的窗宽和/或窗位条件,得到不同的组织显示(感兴趣区域)的三维胸部CT图像。本实施例中选取三种窗宽窗位条件:a:窗宽500Hu、窗位-950Hu;b:窗宽1000Hu、窗位-500Hu;c:窗宽2000Hu、窗位-600Hu。
CT图像为天然的三维扫描图像,可以看成是由若干二维图像的堆叠而成,将此处的二维图像定义为切片,在CT图像中,单张CT切片类似于自然图像中的灰度图像,属于单通道图像,为适应于后续的研究,将上述得到三幅三维图像在冠状面维度上按切片顺序分别一一堆叠,原始的单通道切片变为处理后的三通道“伪彩色”切片即堆叠二维切片。具体流程如图3所示。
由于患者的个体性差异,检验科医生对不同的患者可能设置不同的扫描次数,致使原始的CT图像中的切片的数量不尽一致,为研究的便利性,作为一优选方案,本实施例还根据图像处理中的图像采样技术,将每一幅三维图像的切片数量下采样一致,同时将每一张切片的大小也统一采样一致。在本实施例中,图像采样处理后每一幅CT图像的切片数量为448,每一张切片大小统一为448*448,即经过数据预处理后每个患者的CT图像大小为448*448*448。
(1.3)使用预训练好的二维图像分类网络提取每一张堆叠二维切片的深度特征h k ,k=1,…,K,K表示三维胸部CT图像的二维切片数量;
本实施例中,采用ResNet-50深度神经网络(结构如表1所示)作为二维图像分类网络,使用公开的自然图像数据集ImageNet进行网络预训练,并保存训练好的网络模型参数。ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集,其数据规模已经超过千万张,大规模的数据集对模型的训练起十分关键作用,使其具有更精准的特征提取效果。
以一幅三维胸部CT图像为一组,在先前选定的冠状面维度上,将每一组三维胸部 CT图像的K张堆叠二维切片依次送入预训练好的ResNet-50网络,去掉全连接层2以及 softmax层,输出经全连接层1得到的特征,则每一张堆叠二维切片将得到一维的特征向量, 最终单幅三维胸部CT图像得到的特征可以表示为;提取的特征提供 了每幅三维胸部CT图像的高级深度特征,每幅三维胸部CT图像的高级深度特征c及其对应 的三维图像分类标签构成每组样本,所有样本构成三维图像数据集。
表1 ResNet-50网络结构
其中M表示分类的数量,由于ImageNet数据集中类别数目为1000,则该处M为1000。
(2)训练:
将每组样本的高级深度特征送入基于双阶段注意力的多示例学习网络,以最小化损失函数为目标,使用随机梯度下降算法对整个网络进行优化,获得训练好的基于双阶段注意力的多示例学习网络;具体如下:
(2.1) 将每组样本的高级深度特征送入到第一阶段注意力模块,每张堆叠二维切 片生成注意力分数a k 。本实施例中采用门控注意力模块,该模块用到两个激活函数分别是: 双曲正切函数tanh和sigmoid激活函数sigm。使用双曲正切函数是为了促进正负梯度的流 通,但是tanh(x),对于,函数大致呈线性。这可能会抑制模型学习到的实例之间的 关系的表达。为了应对这个非线性的局限,引入sigmoid函数进行平行激活,然后使用门控 机制将分组卷积激活的特征进行点对点的对应相乘,通过门控机制的并行分流避免回传过 程中梯度消失的问题,因此注意力权重的数学表达式可写作:
所述的VU表示为分组卷积的权重矩阵;w表示注意力映射的权重;VUw均为可学习的参数。
根据注意力机制的特性,一般认为,特征得分越高,则越可能对最终的预测起主导型作用。根据第一阶段注意力模块得到的注意力分数,将堆叠二维切片的深度特征h k 按由大到小进行排序,选定得分最高的堆叠二维切片的深度特征,定义为关键示例h m
(2.2) 将将每组样本的高级深度特征继续送入到第二阶段距离注意力模块,以生成第二阶段注意力分数;在第二阶段注意力模块中,首先将每张堆叠二维切片的深度特征h k 转换成两个向量,查询向量q k 和信息向量v k ,查询向量用来决定第二阶段注意力得分,信息向量用来表征更高层的切片特征并用于包级别的特征生成,查询向量q k 和信息向量v k 的数学表达式为:
q k =W q h k , v k =W v h k , k=1,…,K
其中W q W v 均为权重矩阵;
一般而言,在无监督学习中,特征之间相互距离越近,则说明特征之间的表达的信息相似性越高。关键示例h m 表示具有最大主导可能性的特征,则离h m 越近,认为具有主导特征信息的可能性越高。据此,根据查询向量q k 计算任意示例(任意堆叠二维切片的深度特征h k )到关键示例的度量距离U(h k , h m ),定义此距离为最终注意力得分,计算度量距离的公式如下:
其中,〈q k , q m 〉表示q k , q m 点乘。
将最终注意力得分作为对应的权重,计算所有信息向量v k 的加权和,聚合信息向量v k ,用来表征高层的包级别特征b
(2.3)将包级别的特征向量b送入分类层得到预测结果,表示如下:
Prob= softmax(Wb T)
其中M表示分类类别数,Prob代表分类的概率分布,本实施例中,M=2。
(2.4)将分类层输出的预测分类结果代入二值交叉熵损失函数得到多示例学习损失:
L=-ylog(Prob)-(1-y)log(1- Prob)
其中,yϵ{0,1}表示患者的真实标注,此实施实例中,0表示非慢阻肺患者,1表示慢阻肺患者。
进一步地,使用一种伪标签式示例级聚类来对特定类特征进行约束辅助三维图像切片级特征的聚合,使得最终的三维图像的特征表达更加丰富、细腻且准确。根据三维图像的真实标签以及注意力得分为特定三维切片生成伪标签,并选择平滑top1 SVM损失函数为实例级聚类损失L ins 。具体到本实施实例,根据第二阶段注意力分数将切片特征从大到小进行排序,得分越高,则表示属于正类的可能性越大,选取最可能和最不可能含有病灶信息的切片来进行聚类约束,即分别赋予得分最高的前16张切片和得分最低的16张切片伪标签“1”和“0”,“1”代表正类,即带有病灶切片;“0”代表负类,即不带病灶切片。随后计算实例级聚类损失L ins
其中τ、α为平滑参数,Y为可能的类别标签,l表示阈值函数,s j 表示第j类别的预测分数,s y 表示真实类别的预测分数。本实施例中,τ、α均设为1,Yϵ{0,1}。
则总损失L total 定义为多示例学习损失和实例级聚类损失的加权和:
L total = c 1 L+c 2 L ins
其中c 1c 2为标量,表示为对应损失的缩放系数。本实施例中,c 1=0.8,c 2 = 0.2。
使用随机梯度下降算法对整个模型进行优化,目标是找到最小损失L total ,最终得到最佳分类模型。具体在本实施例中,使用Adam随机优化算法进行梯度的反向传播及优化,初始学习率设为0.0001,使用早停法及时更新并保存参数,运用5折交叉验证的方法来确定最佳模型,同时提高了模型的泛化性,最后获得了训练好的基于双阶段注意力的多示例学习网络。
应用分类阶段:
利用训练好的基于双阶段注意力的多示例学习网络,即可用于采集的三维胸部CT图像分类,进而实现慢性阻塞性肺疾病诊断,具体地,获取患者的三维胸部CT图像,使用训练时对每幅三维胸部CT图像进行预处理的方法进行预处理获得K张堆叠二维切片;使用预训练好的ResNet-50提取每一张堆叠二维切片的深度特征h k ,最后输入至训练好的基于双阶段注意力的多示例学习网络获得分类结果。
与前述基于弱监督学习的三维图像分类方法的实施例相对应,本实施例还提供了基于弱监督学习的三维图像分类系统,图4是本发明实施例提供的一种基于弱监督学习的三维图像分类系统的结构示意图,参见图4所示,图像预处理单元,用于根据至少两种条件提取三维图像的感兴趣区域,获得至少两种显现不同感兴趣区域的三维图像;将所述至少两种显现不同感兴趣区域的三维图像在任意一个维度上的二维切片一一进行堆叠,获得堆叠二维切片;
图像特征提取单元,用于使用预训练好的二维图像分类网络提取每一张堆叠二维切片的深度特征h k ,k=1,…,K,K表示三维图像的二维切片数量;
图像分类单元,用于将K张堆叠二维切片的深度特征h k 输入至训练好的基于双阶段注意力的多示例学习网络,获得所述三维图像的分类结果;
所述基于双阶段注意力的多示例学习网络包括:
第一阶段注意力模块,用于根据输入的每一张堆叠二维切片的深度特征h k 计算每一张堆叠二维切片的注意力分数,并依据注意力分数选定分数最高的堆叠二维切片的深度特征为关键示例h m
第二阶段注意力模块,用于将输入的每一张堆叠二维切片的深度特征h k 转换成查询向量q k 和信息向量v k ,计算每一张堆叠二维切片的查询向量q k 到关键实例查询向量的距离作为每一张堆叠二维切片的最终注意力分数;将每一张堆叠二维切片的最终注意力分数作为权重对对应的信息向量v k 进行加权聚合获得表征高层的包级别特征;
分类层,用于根据包级别特征输出所述三维图像的分类结果。
本实施例提供的基于弱监督学习的三维图像分类系统,可以高效精确地实现三维图像分类。
与前述基于弱监督学习的三维图像分类方法的实施例相对应,本实施例还提供了一种电子设备,图5是本发明实施例提供的一种电子设备的结构示意图,参见图5所示,本发明实施例提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于弱监督学习的三维图像分类方法。
本发明的电子设备为任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。
作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言,如图5 所示,为本发明电子设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述电子设备中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于电子设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的电子设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于弱监督学习的三维图像分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡( Smart Media Card,SMC) 、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于弱监督学习的三维图像分类方法,其特征在于,包括:
获取三维图像;
根据至少两种条件提取三维图像的感兴趣区域,获得至少两种显现不同感兴趣区域的三维图像;
将所述至少两种显现不同感兴趣区域的三维图像在任意一个维度上的二维切片一一进行堆叠,获得堆叠二维切片;
使用预训练好的二维图像分类网络提取每一张堆叠二维切片的深度特征h k ,k=1,…,K,K表示三维图像的二维切片数量;
将K张堆叠二维切片的深度特征h k 输入至训练好的基于双阶段注意力的多示例学习网络,获得所述三维图像的分类结果;
所述基于双阶段注意力的多示例学习网络包括:
第一阶段注意力模块,用于根据输入的每一张堆叠二维切片的深度特征h k 计算每一张堆叠二维切片的注意力分数,并依据注意力分数选定分数最高的堆叠二维切片的深度特征为关键示例h m
第二阶段注意力模块,用于将输入的每一张堆叠二维切片的深度特征h k 转换成查询向量q k 和信息向量v k ,计算每一张堆叠二维切片的查询向量q k 到关键实例查询向量的距离作为每一张堆叠二维切片的最终注意力分数;将每一张堆叠二维切片的最终注意力分数作为权重对对应的信息向量v k 进行加权聚合获得表征高层的包级别特征;
分类层,用于根据包级别特征输出所述三维图像的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述三维图像为医学三维图像。
3.根据权利要求1所述的方法,其特征在于,还包括利用收集的三维图像数据集对基于双阶段注意力的多示例学习网络进行训练,获得训练好的基于双阶段注意力的多示例学习网络的步骤;所述三维图像数据集的每组样本包括K张堆叠二维切片的深度特征h k 、及K张堆叠二维切片对应的三维图像分类标签,其中,所有样本的堆叠二维切片大小一致。
4.根据权利要求3所述的方法,其特征在于,所述利用收集的三维图像数据集对基于双阶段注意力的多示例学习网络进行训练,获得训练好的基于双阶段注意力的多示例学习网络的步骤具体为:
将每组样本的K张堆叠二维切片的深度特征h k 输入至基于双阶段注意力的多示例学习网络中,以最小化损失函数为目标,使用随机梯度下降算法对整个网络进行优化,获得训练好的基于双阶段注意力的多示例学习网络;所述损失函数包括基于双阶段注意力的多示例学习网络输出的预测分类结果与样本对应的真实分类标签的二值交叉熵损失函数。
5.根据权利要求4所述的方法,其特征在于,所述损失函数还包括示例级聚类损失函数,表示如下:
其中,其中τ、α为平滑参数,Y为可能的类别标签,表示阈值函数,s j 表示第j类别的预测分数,s y 表示真实类别的预测分数。
6.根据权利要求1所述的方法,其特征在于,所述预训练好的二维图像分类网络为AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet中的一种。
7.根据权利要求1所述的方法,其特征在于,所述第一阶段注意力模块为门控注意力模块、最大池化注意力模块、通道注意力模块或空间注意力模块。
8.一种基于弱监督学习的三维图像分类系统,其特征在于,包括:
图像预处理单元,用于根据至少两种条件提取三维图像的感兴趣区域,获得至少两种显现不同感兴趣区域的三维图像;将所述至少两种显现不同感兴趣区域的三维图像在任意一个维度上的二维切片一一进行堆叠,获得堆叠二维切片;
图像特征提取单元,用于使用预训练好的二维图像分类网络提取每一张堆叠二维切片的深度特征h k ,k=1,…,K,K表示三维图像的二维切片数量;
图像分类单元,用于将K张堆叠二维切片的深度特征h k 输入至训练好的基于双阶段注意力的多示例学习网络,获得所述三维图像的分类结果;
所述基于双阶段注意力的多示例学习网络包括:
第一阶段注意力模块,用于根据输入的每一张堆叠二维切片的深度特征h k 计算每一张堆叠二维切片的注意力分数,并依据注意力分数选定分数最高的堆叠二维切片的深度特征为关键示例h m
第二阶段注意力模块,用于将输入的每一张堆叠二维切片的深度特征h k 转换成查询向量q k 和信息向量v k ,计算每一张堆叠二维切片的查询向量q k 到关键实例查询向量的距离作为每一张堆叠二维切片的最终注意力分数;将每一张堆叠二维切片的最终注意力分数作为权重对对应的信息向量v k 进行加权聚合获得表征高层的包级别特征;
分类层,用于根据包级别特征输出所述三维图像的分类结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于弱监督学习的三维图像分类方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7任一项所述的基于弱监督学习的三维图像分类方法。
CN202210267031.8A 2022-03-18 2022-03-18 基于弱监督学习的三维图像分类方法、系统、设备及介质 Active CN114399634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210267031.8A CN114399634B (zh) 2022-03-18 2022-03-18 基于弱监督学习的三维图像分类方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210267031.8A CN114399634B (zh) 2022-03-18 2022-03-18 基于弱监督学习的三维图像分类方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN114399634A CN114399634A (zh) 2022-04-26
CN114399634B true CN114399634B (zh) 2024-05-17

Family

ID=81234579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210267031.8A Active CN114399634B (zh) 2022-03-18 2022-03-18 基于弱监督学习的三维图像分类方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN114399634B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758032B (zh) * 2022-06-15 2022-09-16 之江实验室 基于时空注意力模型的多相期ct图像分类系统及构建方法
CN116936091A (zh) * 2023-06-09 2023-10-24 上海全景医学影像诊断中心有限公司 一种肝细胞癌微血管侵犯预测方法及模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
CN112150442A (zh) * 2020-09-25 2020-12-29 帝工(杭州)科技产业有限公司 基于深度卷积神经网络及多实例学习的新冠诊断系统
CN112529042A (zh) * 2020-11-18 2021-03-19 南京航空航天大学 一种基于双重注意力多示例深度学习的医学图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11810312B2 (en) * 2020-04-21 2023-11-07 Daegu Gyeongbuk Institute Of Science And Technology Multiple instance learning method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
CN112150442A (zh) * 2020-09-25 2020-12-29 帝工(杭州)科技产业有限公司 基于深度卷积神经网络及多实例学习的新冠诊断系统
CN112529042A (zh) * 2020-11-18 2021-03-19 南京航空航天大学 一种基于双重注意力多示例深度学习的医学图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Attention的弱监督多标号图像分类;张文;谭晓阳;;数据采集与处理;20180915(05);全文 *
基于自适应像素级注意力模型的场景深度估计;陈裕如;赵海涛;;应用光学;20200515(03);全文 *

Also Published As

Publication number Publication date
CN114399634A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
Pereira et al. COVID-19 identification in chest X-ray images on flat and hierarchical classification scenarios
Talukder et al. Machine learning-based lung and colon cancer detection using deep feature extraction and ensemble learning
Yan et al. 3D context enhanced region-based convolutional neural network for end-to-end lesion detection
Qayyum et al. Medical image retrieval using deep convolutional neural network
Sahu et al. Hybrid Deep learning based Semi-supervised Model for Medical Imaging
CN114730463A (zh) 用于组织图像分类的多实例学习器
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
He et al. Automated model design and benchmarking of deep learning models for covid-19 detection with chest ct scans
TWI723868B (zh) 一種抽樣後標記應用在類神經網絡訓練模型之方法
CN112085742B (zh) 一种基于上下文注意力的nafld超声视频诊断方法
Ha et al. Fine-grained interactive attention learning for semi-supervised white blood cell classification
Ali et al. COVID-19 pneumonia level detection using deep learning algorithm and transfer learning
Guan et al. Precision medical image hash retrieval by interpretability and feature fusion
CN115169386A (zh) 一种基于元注意力机制的弱监督增类活动识别方法
US20220083878A1 (en) Label inference system
Pavithra et al. An Overview of Convolutional Neural Network Architecture and Its Variants in Medical Diagnostics of Cancer and Covid-19
CN116228759B (zh) 肾细胞癌类型的计算机辅助诊断系统及设备
Kumar et al. Detection, localization and classification of fetal brain abnormalities using YOLO v4 architecture
Lyakhova et al. Systematic review of approaches to detection and classification of skin cancer using artificial intelligence: Development and prospects
CN117457134A (zh) 基于智能ai的医疗数据管理方法及其系统
Dittimi et al. Mobile phone based ensemble classification of deep learned feature for medical image analysis
CN116759076A (zh) 一种基于医疗影像的无监督疾病诊断方法及系统
KR20240052193A (ko) 다중 배율 비전 변환기 기반의 디지털 병리 영상 분석 방법 및 장치
Akram et al. Recognizing Breast Cancer Using Edge-Weighted Texture Features of Histopathology Images.
Darapaneni et al. Multi-lesion detection using deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant