CN117522877A - 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 - Google Patents
一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 Download PDFInfo
- Publication number
- CN117522877A CN117522877A CN202410020853.5A CN202410020853A CN117522877A CN 117522877 A CN117522877 A CN 117522877A CN 202410020853 A CN202410020853 A CN 202410020853A CN 117522877 A CN117522877 A CN 117522877A
- Authority
- CN
- China
- Prior art keywords
- network
- metadata
- image
- feature extraction
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 56
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003745 diagnosis Methods 0.000 title claims abstract description 32
- 230000000007 visual effect Effects 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000011976 chest X-ray Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 27
- 210000000038 chest Anatomy 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 claims description 3
- 239000013610 patient sample Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 210000000115 thoracic cavity Anatomy 0.000 claims 3
- 230000006872 improvement Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 201000003144 pneumothorax Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010019909 Hernia Diseases 0.000 description 2
- 206010030113 Oedema Diseases 0.000 description 2
- 206010035664 Pneumonia Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004195 computer-aided diagnosis Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000002685 pulmonary effect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 206010014561 Emphysema Diseases 0.000 description 1
- 206010054949 Metaplasia Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015689 metaplastic ossification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 210000004224 pleura Anatomy 0.000 description 1
- 208000005069 pulmonary fibrosis Diseases 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明适用于医学图像处理技术领域,提供了一种基于视觉自注意力的胸部多疾病诊断模型的构建方法,提出了联合网络模型,该联合网络模型包括图像特征提取子网络和元数据特征提取子网络。图像特征提取子网络基于视觉自注意力模型构建,可以有效的学习图像特征,筛选有识别性的区域,增加模型对重点病灶的关注;元数据特征提取子网络基于多层感知器构建,可以充分学习和利用患者年龄、性别和拍照视图等元数据特征,再与图像特征融合,进而提高模型表现。联合网络模型将X光图像与元数据这两种模态的数据的特征融合,具备图像‑语义信息协同学习能力,最终实现精准的诊断分类,为基于胸部X光片的胸部疾病的自动诊断提供了可靠的工具。
Description
技术领域
本发明属于医学图像处理技术领域,尤其涉及一种基于视觉自注意力的胸部多疾病诊断模型的构建方法。
背景技术
计算机辅助诊断是一种利用计算机技术和人工智能方法对医学图像及数据进行分析和处理,从而为患者提供病情的诊断和治疗建议的辅助技术。传统计算机辅助诊断方法主要依赖于机器学习算法,通常需要手动设计特征,用于诊断任务。早期对于胸部X光片疾病识别任务的研究多采用人工设计和提取特征的方式。在传统机器学习算法中,特征提取过程需要消耗大量的人力和时间,同时特征选择也存在主观性和局限性,进一步限制了算法性能的提升。
深度学习作为机器学习的重要分支,能够从海量的数据中学习特征。近年来,深度学习在图片分类、目标检测和实例分割等不同任务中,均取得了显著的进展。这得益于多层感知器、卷积神经网络(CNN)、Transformer及其变体的广泛应用。多模态学习使得模型可以有效融合多模态数据,具备图像-语义信息协同学习能力与扩展能力,弥补单一特征的性能缺陷,进一步提高了模型诊断的准确性。因此,提出一种基于Transformer变体的视觉自注意力模型对胸部X光片进行训练,并融合图像特征和元数据特征,从而实现准确的胸部疾病的分类和诊断。
发明内容
本发明实施例的目的在于提供一种基于视觉自注意力的胸部多疾病诊断模型的构建方法,旨在解决上述背景技术中提出的问题。
本发明实施例是这样实现的,一种基于视觉自注意力的胸部多疾病诊断模型的构建方法,包括以下步骤:
步骤1、数据集划分:
对于ChestX-ray14数据集,在原有官方数据集分割方式的基础上,对数据集进行重新划分,将具有多张X光片图像的患者的X光片图像按拍摄时间排序,取出最早拍摄的X光片图像中的疾病信息作为患者过往病史信息,同时保证同一患者样本在训练、验证和测试三集中互不交叉;
步骤2、元数据处理:
元数据包含患者年龄、性别、X光片图像拍摄方位以及过往病史,使用one-hot编码和离散数字编码将所有收集的元数据编码为相同长度特征向量;
步骤3、模型构建:
构建基于视觉自注意力和多层感知器的联合网络模型,所述联合网络模型包括图像特征提取子网络和元数据特征提取子网络;
图像特征提取子网络基于视觉自注意力模型构建,元数据特征提取子网络基于多层感知器构建,分别用于对图像和元数据进行特征提取,将其输出特征融合,生成模型最终的分类特征向量,送入分类器,得到疾病诊断和分类结果;
步骤4、网络的训练:
使用步骤1和步骤2中得到的数据集,对联合网络模型进行训练,生成联合网络模型;
步骤5、使用步骤1和步骤2中得到的测试集对步骤4中生成的联合网络模型进行测试。
进一步的技术方案,在所述步骤2中,患者元数据的编码方式如下:
根据性别不同,将男性和女性分别编码0和1,根据X光片图像拍摄方位分别编码0和1,将患者年龄通过归一化操作从[1,97]转换到[0,1]的范围内;患者过往病史信息采用一个15维向量编码,前14个维度分别对应数据集中的14种疾病,若患者曾患有某种疾病则编码为1,否则编码为0;若患者不曾患有过14种疾病中的任何一种,则第15维标记为1,表示健康,否则标记为0,基于以上编码规则,为每张胸部X光片图像构建维度为18的元数据向量。
进一步的技术方案,在所述步骤3中,图像特征提取子网络的输入是胸部X光图像,用于学习图像特征,并获得编码的图像特征序列;元数据特征提取子网络的输入是步骤2中得到的元数据向量,学习每个编码特征的权重,提取元数据特征;将图像特征提取子网络与元数据特征提取子网络各自的输出特征融合,生成模型最终的分类特征向量,送入分类器,进行最终的诊断分类;
在图像特征提取子网络中,X光片图像首先按滑动窗口的分割方式被划分为大小相同的图像块,然后通过线性变换映射到向量空间中,用于供编码器进行训练;此外为了捕获图像块之间的相对位置关系,向每个图像块的向量中额外添加一个位置向量编码,构成最终的输入序列,随后的编码器由11个堆叠的Transformer编码模块构成,每个Transformer编码模块包括一个多头自注意力层、归一化处理层和全连接层,元数据特征提取子网络包括两个全连接层,每个全连接层之后均连接有激活函数和归一化层,图像特征提取子网络与元数据特征提取子网络提取的特征在最后一个维度上进行拼接,完成图像特征与元数据特征的融合。
进一步的技术方案,所述步骤4包括以下具体步骤:
设置初始学习率为0.001,batchsize(批量大小)为16,损失函数为交叉熵损失函数,优化器为Adam优化器,设置训练epoch(指从开始到结束的过程,即整个数据集被完整地遍历一遍)为100,设置学习率衰减策略,学习率的值根据训练次数的增加呈阶梯式下降,每训练一轮,便进行一次验证,当验证集测试效果达到收敛时,停止训练。
进一步的技术方案,所述步骤5的具体步骤为:
使用步骤1和步骤2中得到的测试集,对训练好的联合网络模型进行测试,获得其对于14种胸部常见疾病的分类结果,并计算每种疾病的AUC比值。
本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法,该方法提出了一种联合网络模型,该联合网络模型由两个分支组成,分别是图像特征提取子网络和元数据特征提取子网络。图像特征提取子网络基于视觉自注意力模型构建,可以有效的学习图像特征,筛选有识别性的区域,增加模型对重点病灶的关注;元数据特征提取子网络基于多层感知器构建,可以充分学习和利用患者年龄、性别和拍照视图等元数据特征,再与图像特征进行融合,进而提高模型表现。联合网络模型将X光图像与元数据这两种模态的数据的特征融合,具备图像-语义信息协同学习能力,最终实现精准的诊断和分类,为基于胸部X光片的胸部疾病的自动诊断提供了可靠的工具。
附图说明
图1为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法的流程图;
图2为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法中的联合网络模型的结构图;
图3为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法对各疾病的预测AUC和模型的平均AUC;
图4为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法与现有方法的预测AUC对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1和图2所示,为本发明一个实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法,包括以下步骤:
步骤1、数据集划分:
对于ChestX-ray14数据集,在原有官方数据集分割方式的基础上,对数据集进行重新划分。将具有多张X光片图像的患者的X光片图像按拍摄时间排序,取出最早拍摄的X光片图像中的疾病信息作为患者过往病史信息。同时保证同一患者样本在训练、验证和测试三集中互不交叉。重新划分后,共选用6546张X光片图像转化为患者过往病史信息,图像数据缩小5%左右,每种疾病在总疾病数量中的占比基本保持不变。
步骤2、元数据处理:
元数据包含患者年龄、性别、X光片图像拍摄方位以及过往病史。使用one-hot编码和离散数字编码将所有元数据编码为相同长度特征向量。患者元数据的编码方式如下:
根据性别不同,将男性和女性分别编码0和1,根据X光片图像拍摄方位分别编码0和1。将患者年龄通过归一化操作从[1,97]转换到[0,1]的范围内。患者过往病史信息采用一个15维向量编码,前14个维度分别对应数据集中的14种疾病,若患者曾患有某种疾病则编码为1,否则编码为0。若患者不曾患有过14种疾病中的任何一种,则第15维标记为1表示健康,否则标记为0。基于以上编码规则,为每张胸部X光片图像构建了维度为18的元数据向量。
步骤3、模型构建:
构建基于视觉自注意力和多层感知器的联合网络模型,所述联合网络模型包括图像特征提取子网络和元数据特征提取子网络;
联合网络模型是一个双分支网络,图像特征提取子网络的输入是胸部X光图像,负责学习图像特征,并获得编码的图像特征序列,以便输入分类器中进行预测;元数据特征提取子网络的输入是步骤2中得到的元数据向量,学习每个编码特征的权重,提取元数据特征。将图像特征提取子网络与元数据特征提取子网络各自的输出特征融合,生成模型最终的分类特征向量,送入分类器,进行最终的诊断和分类。
在图像特征提取子网络中,X光片图像首先按滑动窗口的分割方式被划分为大小相同的图像块,然后通过线性变换映射到向量空间中,以便输入到编码器中,进行训练。此外为了捕获图像块之间的相对位置关系,向每个图像块的向量中额外添加一个位置向量编码,构成最终的输入序列。随后的编码器由11个堆叠的Transformer编码模块构成,每个Transformer编码模块由一个多头自注意力层、归一化处理层和全连接层组成。元数据特征提取子网络包括两个全连接层,每个全连接层之后均连接有激活函数和归一化层。图像特征提取子网络与元数据特征提取子网络提取的特征在最后一个维度上进行拼接,完成图像特征与元数据特征的融合。所述分类器主要由全连接层构成。
步骤4、网络的训练:
使用步骤1和步骤2中得到的数据集,对联合网络模型进行训练。图像数据被划分成大小相同的图像块后,通过线性变换映射到向量空间中,然后添加一个位置向量编码,构成最终的输入序列。输入序列经过图像特征提取子网络的11个Transformer编码模块进行特征提取,得到最终的输出13×768的特征向量。元数据向量输入到元数据特征提取子网络,经过全连接层、激活函数和标准层提取元数据的特征,得到768维的元数据特征向量。图像特征向量与元数据特征向量在最后一个维度进行拼接,得到融合特征向量,最后输入全连接层构成的分类器中得到分类结果。
设置初始学习率为0.001,batchsize(批量大小)为16,损失函数为交叉熵损失函数,优化器为Adam优化器。设置训练epoch(指从开始到结束的过程,即整个数据集被完整地遍历一遍)为100,设置学习率衰减策略,学习率的值根据训练次数的增加呈阶梯式下降,每训练一轮,便进行一次验证,当验证集测试效果达到收敛时,停止训练。
步骤5、测试数据对训练的联合网络模型进行验证,确定测试效果:
加载训练阶段保存的模型和权重,将测试数据输入至联合网络模型中,获得测试结果,测试结果包括预测类别和对应的预测AUC(Area Under Curve,ROC曲线下的面积,即模型分类器的性能),根据模型给出的预测值和真实的标签计算出模型的平均AUC。
具体的,使用步骤1和步骤2中得到的测试集,对训练好的联合网络模型进行测试,获得其对于14种胸部常见疾病的分类结果,并计算每种疾病的AUC比值。
在本发明实施例中,基于上述的方法,通过融合多模态数据的特征,可以以较高的准确性实现对浸润、积液、肺不张、肺结节、肿块、气胸、肺实变、胸膜增厚、心脏肿大、肺气肿、水肿、纤维变形、肺炎和疝气这14种胸部疾病的诊断和分类,有利于减少医生的重复工作,辅助医生进行胸部疾病的诊断。
具体的,将本方法应用Pycharm平台进行仿真模拟,如图3所示,本方法的平均AUC值达到0.831,与现有技术的对比如图4所示,高于Wang(Wang X, Peng Y, Lu L, et al.Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[C]//Proceedings of the IEEE conference on computer vision and patternrecognition. 2017: 2097-2106.)的0.738、Yao(Yao L, Poblenz E, al. Learning todiagnose from scratch by exploiting dependency among labels. arXiv preprintarXiv:1710.10501, 2017.)的0.803、Guendel(Guendel S, Grbic S, Georgescu B, etal. Learning to recognize abnormalities in Chest X-rays with location-awaredense networks[C]//Progress in Pattern Recognition, Image Analysis, ComputerVision, and Applications: 23rd Iberoamerican Congress, CIARP 2018, Madrid,Spain, November 19-22, 2018, Proceedings 23. Springer InternationalPublishing, 2019: 757-765.)的0.807以及Valsson(Valsson S, Arandjelović O.Nuances of interpreting X-ray analysis by deep learning and lessons forreporting experimental findings[J]. Sci, 2022, 4(1): 3.)的0.816。具体而言,首先AUC值提升最显著的是水肿和肺炎两种疾病,分别提升了6.7个百分点和5.7个百分点。在病灶区域较小难以识别的疾病上,本方法具有明显的提升,如积液和肺实变两种疾病,分别提升了5.7个百分点和5.1个百分点,验证了本方法对于小区域病灶疾病的识别能力。同时,在疾病样本数量较大的疾病上,本方法提升也较为明显,如肺不张和气胸两种疾病分别提升了4.9个百分点和4.2个百分点。由于基于视觉自注意力机制的网络结构需要大量的数据训练,故在部分样本量较少的疾病类别上网络的诊断性能略有降低,但也保持了较为相近的诊断性能,如纤维变形和疝气两种疾病的AUC值分别为0.801和0.918,略低于前人的最高值0.816和0.937。综上表明了本方法在胸部X射线常见疾病诊断中的有效性和优异性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于视觉自注意力的胸部多疾病诊断模型的构建方法,其特征在于,包括以下步骤:
步骤1、数据集划分:
对于ChestX-ray14数据集,在原有官方数据集分割方式的基础上,对数据集进行重新划分,将具有多张X光片图像的患者的X光片图像按拍摄时间排序,取出最早拍摄的X光片图像中的疾病信息作为患者过往病史信息,同时保证同一患者样本在训练、验证和测试三集中互不交叉;
步骤2、元数据处理:
元数据包含患者年龄、性别、X光片图像拍摄方位以及过往病史,使用one-hot编码和离散数字编码将所有收集的元数据编码为相同长度特征向量;
步骤3、模型构建:
构建基于视觉自注意力和多层感知器的联合网络模型,所述联合网络模型包括图像特征提取子网络和元数据特征提取子网络;
图像特征提取子网络基于视觉自注意力模型构建,元数据特征提取子网络基于多层感知器构建,分别用于对图像和元数据进行特征提取,将其输出特征融合,生成模型最终的分类特征向量,送入分类器,得到疾病诊断和分类结果;
步骤4、网络的训练:
使用步骤1和步骤2中得到的数据集,对联合网络模型进行训练,生成联合网络模型;
步骤5、使用步骤1和步骤2中得到的测试集对步骤4中生成的联合网络模型进行测试。
2.根据权利要求1所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法,其特征在于,在所述步骤2中,患者元数据的编码方式如下:
根据性别不同,将男性和女性分别编码0和1,根据X光片图像拍摄方位分别编码0和1,将患者年龄通过归一化操作从[1,97]转换到[0,1]的范围内;患者过往病史信息采用一个15维向量编码,前14个维度分别对应数据集中的14种疾病,若患者曾患有某种疾病则编码为1,否则编码为0;若患者不曾患有过14种疾病中的任何一种,则第15维标记为1,表示健康,否则标记为0,基于以上编码规则,为每张胸部X光片图像构建维度为18的元数据向量。
3.根据权利要求2所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法,其特征在于,在所述步骤3中,图像特征提取子网络的输入是胸部X光图像,用于学习图像特征,并获得编码的图像特征序列;元数据特征提取子网络的输入是步骤2中得到的元数据向量,学习每个编码特征的权重,提取元数据特征;图像特征提取子网络与元数据特征提取子网络各自的输出特征融合,生成模型最终的分类特征向量,送入分类器进行最终的诊断和分类。
4.根据权利要求3所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法,其特征在于,在图像特征提取子网络中,X光片图像首先按滑动窗口的分割方式被划分为大小相同的图像块,然后通过线性变换映射到向量空间中,用于供编码器进行训练。
5.根据权利要求4所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法,其特征在于,为了捕获图像块之间的相对位置关系,向每个图像块的向量中额外添加一个位置向量编码,构成最终的输入序列,随后的编码器由11个堆叠的Transformer编码模块构成,每个Transformer编码模块包括一个多头自注意力层、归一化处理层和全连接层,元数据特征提取子网络包括两个全连接层,每个全连接层之后均连接有激活函数和归一化层,图像特征提取子网络与元数据特征提取子网络提取的特征在最后一个维度上进行拼接,完成图像特征与元数据特征的融合。
6.根据权利要求3-5任一项所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法,其特征在于,所述步骤4包括以下具体步骤:
设置初始学习率为0.001,batchsize为16,损失函数为交叉熵损失函数,优化器为Adam优化器,设置训练epoch为100,设置学习率衰减策略,学习率的值根据训练次数的增加呈阶梯式下降,每训练一轮,便进行一次验证,当验证集测试效果达到收敛时,停止训练。
7.根据权利要求1所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法,其特征在于,所述步骤5的具体步骤为:
使用步骤1和步骤2中得到的测试集,对训练好的联合网络模型进行测试,获得其对于14种胸部常见疾病的分类结果,并计算每种疾病的AUC比值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410020853.5A CN117522877B (zh) | 2024-01-08 | 2024-01-08 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410020853.5A CN117522877B (zh) | 2024-01-08 | 2024-01-08 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117522877A true CN117522877A (zh) | 2024-02-06 |
CN117522877B CN117522877B (zh) | 2024-04-05 |
Family
ID=89744306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410020853.5A Active CN117522877B (zh) | 2024-01-08 | 2024-01-08 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117522877B (zh) |
Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313699A (zh) * | 2021-06-09 | 2021-08-27 | 光华临港工程应用技术研发(上海)有限公司 | 基于弱监督学习的x光胸部疾病分类及定位方法、电子设备 |
CN113838019A (zh) * | 2021-09-17 | 2021-12-24 | 上海仰和华健人工智能科技有限公司 | 一种基于钼靶影像的乳腺疾病辅助筛查方法 |
CN114170232A (zh) * | 2021-12-02 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 基于Transformer的X线胸片自动诊断与新冠感染区分割方法 |
CN114266735A (zh) * | 2021-12-07 | 2022-04-01 | 河海大学 | 一种胸部x光图像病变异常检测方法 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114724231A (zh) * | 2022-04-13 | 2022-07-08 | 东北大学 | 一种基于迁移学习的青光眼多模态智能识别系统 |
CN114782753A (zh) * | 2022-05-18 | 2022-07-22 | 合肥工业大学 | 基于弱监督学习和转换器的肺癌组织病理全切片分类方法 |
CN115132313A (zh) * | 2021-12-07 | 2022-09-30 | 北京工商大学 | 基于注意力机制的医学影像报告自动生成方法 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN115223678A (zh) * | 2022-07-27 | 2022-10-21 | 重庆师范大学 | 基于多任务多模态深度学习的x光胸片诊断报告生成方法 |
CN115272230A (zh) * | 2022-07-27 | 2022-11-01 | 西安电子科技大学 | 一种基于多模态监督对比学习的头颈癌局部复发信息获取方法 |
CN115472255A (zh) * | 2022-08-31 | 2022-12-13 | 昆明理工大学 | 一种基于病史与标签辅助的胸部放射影像报告生成方法 |
CN115471448A (zh) * | 2022-07-18 | 2022-12-13 | 中日友好医院(中日友好临床医学研究所) | 基于人工智能的胸腺瘤组织病理的分型方法及装置 |
CN115620912A (zh) * | 2022-10-18 | 2023-01-17 | 北京大学深圳医院 | 一种基于深度学习的软组织肿瘤良恶性预测模型构建方法 |
CN115631183A (zh) * | 2022-11-07 | 2023-01-20 | 华东理工大学 | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 |
CN115690072A (zh) * | 2022-11-11 | 2023-02-03 | 楚雄师范学院 | 基于多模态深度学习的胸片特征提取和疾病分类方法 |
CN115809988A (zh) * | 2022-11-16 | 2023-03-17 | 中国科学院深圳先进技术研究院 | 脑肿瘤患者生存分析方法及系统 |
CN116228731A (zh) * | 2023-03-16 | 2023-06-06 | 西北大学 | 一种多对比学习冠状动脉高危斑块检测方法、系统及终端 |
CN116230154A (zh) * | 2023-03-03 | 2023-06-06 | 华东师范大学 | 基于记忆强化Transformer的胸腔X光诊断报告生成方法 |
CN116258928A (zh) * | 2023-03-20 | 2023-06-13 | 西安理工大学 | 基于未标记医学图像自监督信息的预训练方法 |
CN116664904A (zh) * | 2022-12-26 | 2023-08-29 | 大连民族大学 | 一种基于自监督学习的新冠感染医学图像分类方法 |
CN116739985A (zh) * | 2023-05-10 | 2023-09-12 | 浙江医院 | 一种基于Transformer和卷积神经网络的肺部CT图像分割方法 |
CN116797572A (zh) * | 2023-06-26 | 2023-09-22 | 浙江大学 | 基于多模态数据的类风湿关节炎活动度分级装置 |
CN116958094A (zh) * | 2023-07-26 | 2023-10-27 | 杭州电子科技大学 | 一种动态增强磁共振影像特征生成病理图像特征的方法 |
CN116994695A (zh) * | 2022-08-23 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 报告生成模型的训练方法、装置、设备及存储介质 |
CN117197151A (zh) * | 2022-05-25 | 2023-12-08 | 新疆大学 | 一种基于联合编码器网络GPA-TUNet的医学图像分割方法 |
CN117237351A (zh) * | 2023-11-14 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 一种超声图像分析方法以及相关装置 |
CN117315347A (zh) * | 2023-09-26 | 2023-12-29 | 贵州大学 | 一种基于跨模态特征融合的图像分类系统 |
CN117352121A (zh) * | 2023-11-02 | 2024-01-05 | 北京邮电大学 | 一种医学影像报告的生成方法及装置 |
-
2024
- 2024-01-08 CN CN202410020853.5A patent/CN117522877B/zh active Active
Patent Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313699A (zh) * | 2021-06-09 | 2021-08-27 | 光华临港工程应用技术研发(上海)有限公司 | 基于弱监督学习的x光胸部疾病分类及定位方法、电子设备 |
CN113838019A (zh) * | 2021-09-17 | 2021-12-24 | 上海仰和华健人工智能科技有限公司 | 一种基于钼靶影像的乳腺疾病辅助筛查方法 |
CN114170232A (zh) * | 2021-12-02 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 基于Transformer的X线胸片自动诊断与新冠感染区分割方法 |
CN114266735A (zh) * | 2021-12-07 | 2022-04-01 | 河海大学 | 一种胸部x光图像病变异常检测方法 |
CN115132313A (zh) * | 2021-12-07 | 2022-09-30 | 北京工商大学 | 基于注意力机制的医学影像报告自动生成方法 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114724231A (zh) * | 2022-04-13 | 2022-07-08 | 东北大学 | 一种基于迁移学习的青光眼多模态智能识别系统 |
CN114782753A (zh) * | 2022-05-18 | 2022-07-22 | 合肥工业大学 | 基于弱监督学习和转换器的肺癌组织病理全切片分类方法 |
CN117197151A (zh) * | 2022-05-25 | 2023-12-08 | 新疆大学 | 一种基于联合编码器网络GPA-TUNet的医学图像分割方法 |
CN115471448A (zh) * | 2022-07-18 | 2022-12-13 | 中日友好医院(中日友好临床医学研究所) | 基于人工智能的胸腺瘤组织病理的分型方法及装置 |
CN115272230A (zh) * | 2022-07-27 | 2022-11-01 | 西安电子科技大学 | 一种基于多模态监督对比学习的头颈癌局部复发信息获取方法 |
CN115223678A (zh) * | 2022-07-27 | 2022-10-21 | 重庆师范大学 | 基于多任务多模态深度学习的x光胸片诊断报告生成方法 |
CN116994695A (zh) * | 2022-08-23 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 报告生成模型的训练方法、装置、设备及存储介质 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN115472255A (zh) * | 2022-08-31 | 2022-12-13 | 昆明理工大学 | 一种基于病史与标签辅助的胸部放射影像报告生成方法 |
CN115620912A (zh) * | 2022-10-18 | 2023-01-17 | 北京大学深圳医院 | 一种基于深度学习的软组织肿瘤良恶性预测模型构建方法 |
CN115631183A (zh) * | 2022-11-07 | 2023-01-20 | 华东理工大学 | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 |
CN115690072A (zh) * | 2022-11-11 | 2023-02-03 | 楚雄师范学院 | 基于多模态深度学习的胸片特征提取和疾病分类方法 |
CN115809988A (zh) * | 2022-11-16 | 2023-03-17 | 中国科学院深圳先进技术研究院 | 脑肿瘤患者生存分析方法及系统 |
CN116664904A (zh) * | 2022-12-26 | 2023-08-29 | 大连民族大学 | 一种基于自监督学习的新冠感染医学图像分类方法 |
CN116230154A (zh) * | 2023-03-03 | 2023-06-06 | 华东师范大学 | 基于记忆强化Transformer的胸腔X光诊断报告生成方法 |
CN116228731A (zh) * | 2023-03-16 | 2023-06-06 | 西北大学 | 一种多对比学习冠状动脉高危斑块检测方法、系统及终端 |
CN116258928A (zh) * | 2023-03-20 | 2023-06-13 | 西安理工大学 | 基于未标记医学图像自监督信息的预训练方法 |
CN116739985A (zh) * | 2023-05-10 | 2023-09-12 | 浙江医院 | 一种基于Transformer和卷积神经网络的肺部CT图像分割方法 |
CN116797572A (zh) * | 2023-06-26 | 2023-09-22 | 浙江大学 | 基于多模态数据的类风湿关节炎活动度分级装置 |
CN116958094A (zh) * | 2023-07-26 | 2023-10-27 | 杭州电子科技大学 | 一种动态增强磁共振影像特征生成病理图像特征的方法 |
CN117315347A (zh) * | 2023-09-26 | 2023-12-29 | 贵州大学 | 一种基于跨模态特征融合的图像分类系统 |
CN117352121A (zh) * | 2023-11-02 | 2024-01-05 | 北京邮电大学 | 一种医学影像报告的生成方法及装置 |
CN117237351A (zh) * | 2023-11-14 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 一种超声图像分析方法以及相关装置 |
Non-Patent Citations (2)
Title |
---|
ASHISH VASWANI等: "Attention Is All You Need", 《ARXIV:1706.03762V3》, 20 June 2017 (2017-06-20), pages 1 - 16 * |
孟行: "基于深度学习的结直肠组织学图像分级", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》, 15 May 2023 (2023-05-15), pages 072 - 48 * |
Also Published As
Publication number | Publication date |
---|---|
CN117522877B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109544518B (zh) | 一种应用于骨骼成熟度评估的方法及其系统 | |
CN111738363B (zh) | 基于改进的3d cnn网络的阿尔茨海默病分类方法 | |
CN112580515B (zh) | 一种基于高斯热图回归的轻量级人脸关键点检测方法 | |
WO2022083335A1 (zh) | 一种基于自我注意力机制的行为识别方法 | |
CN112132878B (zh) | 基于卷积神经网络的端到端大脑核磁共振图像配准方法 | |
CN111260639A (zh) | 多视角信息协作的乳腺良恶性肿瘤分类方法 | |
CN111932541B (zh) | 一种用于预测新冠肺炎预后的ct影像图像处理方法 | |
CN112308137B (zh) | 一种利用注意力机制聚合邻域点和全局特征的图像匹配方法 | |
CN112101262A (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN117522877B (zh) | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN116823852A (zh) | 基于卷积神经网络的条状皮肤瘢痕图像分割方法和系统 | |
CN116596836A (zh) | 基于多视图邻域证据熵的肺炎ct影像属性约简方法 | |
CN115311491A (zh) | 一种基于课程学习及空间注意力的骨折假阳性筛除方法 | |
CN112396089B (zh) | 基于lfgc网络和压缩激励模块的图像匹配方法 | |
Arora et al. | Modified UNet++ model: a deep model for automatic segmentation of lungs from chest X-ray images | |
CN117351489B (zh) | 面向全身pet/ct扫描的头颈肿瘤靶区的勾画系统 | |
CN114266735B (zh) | 一种胸部x光图像病变异常检测方法 | |
CN113963795A (zh) | 一种基于图约束深度模型的x光片疾病辅助诊断系统 | |
Pramudya et al. | Improved Deep Learning Convolutional Neural Network Method to Identify Emphysema in Chest X-Ray Image | |
CN117974593A (zh) | 一种基于掩膜信息和注意力机制的弱监督病变检测系统 | |
CN116912212A (zh) | 基于yolo-csc模型的肺结节ct图像分析方法 | |
CN114266735A (zh) | 一种胸部x光图像病变异常检测方法 | |
CN118172593A (zh) | 基于人工智能辅助的超声图像分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |