CN117522877A

CN117522877A - 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法

Info

Publication number: CN117522877A
Application number: CN202410020853.5A
Authority: CN
Inventors: 杨卉; 马颎
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-02-06
Anticipated expiration: 2044-01-08
Also published as: CN117522877B

Abstract

本发明适用于医学图像处理技术领域，提供了一种基于视觉自注意力的胸部多疾病诊断模型的构建方法，提出了联合网络模型，该联合网络模型包括图像特征提取子网络和元数据特征提取子网络。图像特征提取子网络基于视觉自注意力模型构建，可以有效的学习图像特征，筛选有识别性的区域，增加模型对重点病灶的关注；元数据特征提取子网络基于多层感知器构建，可以充分学习和利用患者年龄、性别和拍照视图等元数据特征，再与图像特征融合，进而提高模型表现。联合网络模型将X光图像与元数据这两种模态的数据的特征融合，具备图像‑语义信息协同学习能力，最终实现精准的诊断分类，为基于胸部X光片的胸部疾病的自动诊断提供了可靠的工具。

Description

一种基于视觉自注意力的胸部多疾病诊断模型的构建方法

技术领域

本发明属于医学图像处理技术领域，尤其涉及一种基于视觉自注意力的胸部多疾病诊断模型的构建方法。

背景技术

计算机辅助诊断是一种利用计算机技术和人工智能方法对医学图像及数据进行分析和处理，从而为患者提供病情的诊断和治疗建议的辅助技术。传统计算机辅助诊断方法主要依赖于机器学习算法，通常需要手动设计特征，用于诊断任务。早期对于胸部X光片疾病识别任务的研究多采用人工设计和提取特征的方式。在传统机器学习算法中，特征提取过程需要消耗大量的人力和时间，同时特征选择也存在主观性和局限性，进一步限制了算法性能的提升。

深度学习作为机器学习的重要分支，能够从海量的数据中学习特征。近年来，深度学习在图片分类、目标检测和实例分割等不同任务中，均取得了显著的进展。这得益于多层感知器、卷积神经网络（CNN）、Transformer及其变体的广泛应用。多模态学习使得模型可以有效融合多模态数据，具备图像-语义信息协同学习能力与扩展能力，弥补单一特征的性能缺陷，进一步提高了模型诊断的准确性。因此，提出一种基于Transformer变体的视觉自注意力模型对胸部X光片进行训练，并融合图像特征和元数据特征，从而实现准确的胸部疾病的分类和诊断。

发明内容

本发明实施例的目的在于提供一种基于视觉自注意力的胸部多疾病诊断模型的构建方法，旨在解决上述背景技术中提出的问题。

本发明实施例是这样实现的，一种基于视觉自注意力的胸部多疾病诊断模型的构建方法，包括以下步骤：

步骤1、数据集划分：

对于ChestX-ray14数据集，在原有官方数据集分割方式的基础上，对数据集进行重新划分，将具有多张X光片图像的患者的X光片图像按拍摄时间排序，取出最早拍摄的X光片图像中的疾病信息作为患者过往病史信息，同时保证同一患者样本在训练、验证和测试三集中互不交叉；

步骤2、元数据处理：

元数据包含患者年龄、性别、X光片图像拍摄方位以及过往病史，使用one-hot编码和离散数字编码将所有收集的元数据编码为相同长度特征向量；

步骤3、模型构建：

构建基于视觉自注意力和多层感知器的联合网络模型，所述联合网络模型包括图像特征提取子网络和元数据特征提取子网络；

图像特征提取子网络基于视觉自注意力模型构建，元数据特征提取子网络基于多层感知器构建，分别用于对图像和元数据进行特征提取，将其输出特征融合，生成模型最终的分类特征向量，送入分类器，得到疾病诊断和分类结果；

步骤4、网络的训练：

使用步骤1和步骤2中得到的数据集，对联合网络模型进行训练，生成联合网络模型；

步骤5、使用步骤1和步骤2中得到的测试集对步骤4中生成的联合网络模型进行测试。

进一步的技术方案，在所述步骤2中，患者元数据的编码方式如下：

根据性别不同，将男性和女性分别编码0和1，根据X光片图像拍摄方位分别编码0和1，将患者年龄通过归一化操作从[1,97]转换到[0,1]的范围内；患者过往病史信息采用一个15维向量编码，前14个维度分别对应数据集中的14种疾病，若患者曾患有某种疾病则编码为1，否则编码为0；若患者不曾患有过14种疾病中的任何一种，则第15维标记为1，表示健康，否则标记为0，基于以上编码规则，为每张胸部X光片图像构建维度为18的元数据向量。

进一步的技术方案，在所述步骤3中，图像特征提取子网络的输入是胸部X光图像，用于学习图像特征，并获得编码的图像特征序列；元数据特征提取子网络的输入是步骤2中得到的元数据向量，学习每个编码特征的权重，提取元数据特征；将图像特征提取子网络与元数据特征提取子网络各自的输出特征融合，生成模型最终的分类特征向量，送入分类器，进行最终的诊断分类；

在图像特征提取子网络中，X光片图像首先按滑动窗口的分割方式被划分为大小相同的图像块，然后通过线性变换映射到向量空间中，用于供编码器进行训练；此外为了捕获图像块之间的相对位置关系，向每个图像块的向量中额外添加一个位置向量编码，构成最终的输入序列，随后的编码器由11个堆叠的Transformer编码模块构成，每个Transformer编码模块包括一个多头自注意力层、归一化处理层和全连接层，元数据特征提取子网络包括两个全连接层，每个全连接层之后均连接有激活函数和归一化层，图像特征提取子网络与元数据特征提取子网络提取的特征在最后一个维度上进行拼接，完成图像特征与元数据特征的融合。

进一步的技术方案，所述步骤4包括以下具体步骤：

设置初始学习率为0.001，batchsize（批量大小）为16，损失函数为交叉熵损失函数，优化器为Adam优化器，设置训练epoch（指从开始到结束的过程，即整个数据集被完整地遍历一遍）为100，设置学习率衰减策略，学习率的值根据训练次数的增加呈阶梯式下降，每训练一轮，便进行一次验证，当验证集测试效果达到收敛时，停止训练。

进一步的技术方案，所述步骤5的具体步骤为：

使用步骤1和步骤2中得到的测试集，对训练好的联合网络模型进行测试，获得其对于14种胸部常见疾病的分类结果，并计算每种疾病的AUC比值。

本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法，该方法提出了一种联合网络模型，该联合网络模型由两个分支组成，分别是图像特征提取子网络和元数据特征提取子网络。图像特征提取子网络基于视觉自注意力模型构建，可以有效的学习图像特征，筛选有识别性的区域，增加模型对重点病灶的关注；元数据特征提取子网络基于多层感知器构建，可以充分学习和利用患者年龄、性别和拍照视图等元数据特征，再与图像特征进行融合，进而提高模型表现。联合网络模型将X光图像与元数据这两种模态的数据的特征融合，具备图像-语义信息协同学习能力，最终实现精准的诊断和分类，为基于胸部X光片的胸部疾病的自动诊断提供了可靠的工具。

附图说明

图1为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法的流程图；

图2为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法中的联合网络模型的结构图；

图3为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法对各疾病的预测AUC和模型的平均AUC；

图4为本发明实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法与现有方法的预测AUC对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1和图2所示，为本发明一个实施例提供的一种基于视觉自注意力的胸部多疾病诊断模型的构建方法，包括以下步骤：

步骤1、数据集划分：

对于ChestX-ray14数据集，在原有官方数据集分割方式的基础上，对数据集进行重新划分。将具有多张X光片图像的患者的X光片图像按拍摄时间排序，取出最早拍摄的X光片图像中的疾病信息作为患者过往病史信息。同时保证同一患者样本在训练、验证和测试三集中互不交叉。重新划分后，共选用6546张X光片图像转化为患者过往病史信息，图像数据缩小5%左右，每种疾病在总疾病数量中的占比基本保持不变。

步骤2、元数据处理：

元数据包含患者年龄、性别、X光片图像拍摄方位以及过往病史。使用one-hot编码和离散数字编码将所有元数据编码为相同长度特征向量。患者元数据的编码方式如下：

根据性别不同，将男性和女性分别编码0和1，根据X光片图像拍摄方位分别编码0和1。将患者年龄通过归一化操作从[1,97]转换到[0,1]的范围内。患者过往病史信息采用一个15维向量编码，前14个维度分别对应数据集中的14种疾病，若患者曾患有某种疾病则编码为1，否则编码为0。若患者不曾患有过14种疾病中的任何一种，则第15维标记为1表示健康，否则标记为0。基于以上编码规则，为每张胸部X光片图像构建了维度为18的元数据向量。

步骤3、模型构建：

联合网络模型是一个双分支网络，图像特征提取子网络的输入是胸部X光图像，负责学习图像特征，并获得编码的图像特征序列，以便输入分类器中进行预测；元数据特征提取子网络的输入是步骤2中得到的元数据向量，学习每个编码特征的权重，提取元数据特征。将图像特征提取子网络与元数据特征提取子网络各自的输出特征融合，生成模型最终的分类特征向量，送入分类器，进行最终的诊断和分类。

在图像特征提取子网络中，X光片图像首先按滑动窗口的分割方式被划分为大小相同的图像块，然后通过线性变换映射到向量空间中，以便输入到编码器中，进行训练。此外为了捕获图像块之间的相对位置关系，向每个图像块的向量中额外添加一个位置向量编码，构成最终的输入序列。随后的编码器由11个堆叠的Transformer编码模块构成，每个Transformer编码模块由一个多头自注意力层、归一化处理层和全连接层组成。元数据特征提取子网络包括两个全连接层，每个全连接层之后均连接有激活函数和归一化层。图像特征提取子网络与元数据特征提取子网络提取的特征在最后一个维度上进行拼接，完成图像特征与元数据特征的融合。所述分类器主要由全连接层构成。

步骤4、网络的训练：

使用步骤1和步骤2中得到的数据集，对联合网络模型进行训练。图像数据被划分成大小相同的图像块后，通过线性变换映射到向量空间中，然后添加一个位置向量编码，构成最终的输入序列。输入序列经过图像特征提取子网络的11个Transformer编码模块进行特征提取，得到最终的输出13×768的特征向量。元数据向量输入到元数据特征提取子网络，经过全连接层、激活函数和标准层提取元数据的特征，得到768维的元数据特征向量。图像特征向量与元数据特征向量在最后一个维度进行拼接，得到融合特征向量，最后输入全连接层构成的分类器中得到分类结果。

设置初始学习率为0.001，batchsize（批量大小）为16，损失函数为交叉熵损失函数，优化器为Adam优化器。设置训练epoch（指从开始到结束的过程，即整个数据集被完整地遍历一遍）为100，设置学习率衰减策略，学习率的值根据训练次数的增加呈阶梯式下降，每训练一轮，便进行一次验证，当验证集测试效果达到收敛时，停止训练。

步骤5、测试数据对训练的联合网络模型进行验证，确定测试效果：

加载训练阶段保存的模型和权重，将测试数据输入至联合网络模型中，获得测试结果，测试结果包括预测类别和对应的预测AUC（Area Under Curve，ROC曲线下的面积，即模型分类器的性能），根据模型给出的预测值和真实的标签计算出模型的平均AUC。

具体的，使用步骤1和步骤2中得到的测试集，对训练好的联合网络模型进行测试，获得其对于14种胸部常见疾病的分类结果，并计算每种疾病的AUC比值。

在本发明实施例中，基于上述的方法，通过融合多模态数据的特征，可以以较高的准确性实现对浸润、积液、肺不张、肺结节、肿块、气胸、肺实变、胸膜增厚、心脏肿大、肺气肿、水肿、纤维变形、肺炎和疝气这14种胸部疾病的诊断和分类，有利于减少医生的重复工作，辅助医生进行胸部疾病的诊断。

具体的，将本方法应用Pycharm平台进行仿真模拟，如图3所示，本方法的平均AUC值达到0.831，与现有技术的对比如图4所示，高于Wang（Wang X, Peng Y, Lu L, et al.Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[C]//Proceedings of the IEEE conference on computer vision and patternrecognition. 2017: 2097-2106.）的0.738、Yao（Yao L, Poblenz E, al. Learning todiagnose from scratch by exploiting dependency among labels. arXiv preprintarXiv:1710.10501, 2017.）的0.803、Guendel（Guendel S, Grbic S, Georgescu B, etal. Learning to recognize abnormalities in Chest X-rays with location-awaredense networks[C]//Progress in Pattern Recognition, Image Analysis, ComputerVision, and Applications: 23rd Iberoamerican Congress, CIARP 2018, Madrid,Spain, November 19-22, 2018, Proceedings 23. Springer InternationalPublishing, 2019: 757-765.）的0.807以及Valsson（Valsson S, Arandjelović O.Nuances of interpreting X-ray analysis by deep learning and lessons forreporting experimental findings[J]. Sci, 2022, 4(1): 3.）的0.816。具体而言，首先AUC值提升最显著的是水肿和肺炎两种疾病，分别提升了6.7个百分点和5.7个百分点。在病灶区域较小难以识别的疾病上，本方法具有明显的提升，如积液和肺实变两种疾病，分别提升了5.7个百分点和5.1个百分点，验证了本方法对于小区域病灶疾病的识别能力。同时，在疾病样本数量较大的疾病上，本方法提升也较为明显，如肺不张和气胸两种疾病分别提升了4.9个百分点和4.2个百分点。由于基于视觉自注意力机制的网络结构需要大量的数据训练，故在部分样本量较少的疾病类别上网络的诊断性能略有降低，但也保持了较为相近的诊断性能，如纤维变形和疝气两种疾病的AUC值分别为0.801和0.918，略低于前人的最高值0.816和0.937。综上表明了本方法在胸部X射线常见疾病诊断中的有效性和优异性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉自注意力的胸部多疾病诊断模型的构建方法，其特征在于，包括以下步骤：

步骤1、数据集划分：

步骤2、元数据处理：

步骤3、模型构建：

步骤4、网络的训练：

2.根据权利要求1所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法，其特征在于，在所述步骤2中，患者元数据的编码方式如下：

3.根据权利要求2所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法，其特征在于，在所述步骤3中，图像特征提取子网络的输入是胸部X光图像，用于学习图像特征，并获得编码的图像特征序列；元数据特征提取子网络的输入是步骤2中得到的元数据向量，学习每个编码特征的权重，提取元数据特征；图像特征提取子网络与元数据特征提取子网络各自的输出特征融合，生成模型最终的分类特征向量，送入分类器进行最终的诊断和分类。

4.根据权利要求3所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法，其特征在于，在图像特征提取子网络中，X光片图像首先按滑动窗口的分割方式被划分为大小相同的图像块，然后通过线性变换映射到向量空间中，用于供编码器进行训练。

5.根据权利要求4所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法，其特征在于，为了捕获图像块之间的相对位置关系，向每个图像块的向量中额外添加一个位置向量编码，构成最终的输入序列，随后的编码器由11个堆叠的Transformer编码模块构成，每个Transformer编码模块包括一个多头自注意力层、归一化处理层和全连接层，元数据特征提取子网络包括两个全连接层，每个全连接层之后均连接有激活函数和归一化层，图像特征提取子网络与元数据特征提取子网络提取的特征在最后一个维度上进行拼接，完成图像特征与元数据特征的融合。

6.根据权利要求3-5任一项所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法，其特征在于，所述步骤4包括以下具体步骤：

设置初始学习率为0.001，batchsize为16，损失函数为交叉熵损失函数，优化器为Adam优化器，设置训练epoch为100，设置学习率衰减策略，学习率的值根据训练次数的增加呈阶梯式下降，每训练一轮，便进行一次验证，当验证集测试效果达到收敛时，停止训练。

7.根据权利要求1所述的基于视觉自注意力的胸部多疾病诊断模型的构建方法，其特征在于，所述步骤5的具体步骤为：