CN116863257A

CN116863257A - 基于深度学习的ct图像上纵膈病灶的检测方法及系统

Info

Publication number: CN116863257A
Application number: CN202310966999.4A
Authority: CN
Inventors: 吴思竹; 钱庆; 刘盛宇; 钟明
Original assignee: Institute of Medical Information CAMS
Current assignee: Institute of Medical Information CAMS
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-10-10

Abstract

本发明公开了一种基于深度学习的CT图像上纵膈病灶的检测方法及系统，涉及医疗影像智能识别领域。方法包括以下步骤：S1、数据获取及预处理步骤；S2、模型构建步骤；S3、模型训练步骤；S4、模型验证步骤；通过应用DeepLesion数据集进行模型预训练及应用MICCAI2022MELA Challenge数据集进行模型训练和验证。本发明为CT图像上的纵膈病灶检测提供了一种有效的算法，有望大幅减少放射科医生的工作量，提高放射科医生的表现，并缩短报告时间。

Description

基于深度学习的CT图像上纵膈病灶的检测方法及系统

技术领域

本发明属于医疗影像智能识别技术领域，具体涉及一种基于深度学习的CT图像上纵膈病灶的检测方法及系统。

背景技术

纵膈位于两侧胸膜腔与肺之间的胸腔内，前方为胸骨，后方为脊柱，由胸廓入口向下延伸至横膈膜，包含许多重要的解剖结构。纵膈病灶是指发生在纵膈区域的各种良恶性肿瘤或炎性病变，它们在CT图像上的检测对于临床诊断和治疗具有重要意义。纵膈病变的诊断对所有肺科医生、放射科医生和病理科医生来说都是一项具有挑战性的任务，因为众多非肿瘤性和肿瘤性、良性和恶性、原发性和转移性疾病都可能在这个部位出现肿块病变。巨大的工作负担阻碍了及时诊断，干扰了临床工作流程，增加了误诊率。近年来，人工智能(Artificial Intelligence,AI)技术已被广泛应用于胸片解读。许多人工智能算法在特定任务的分析中表现出良好的性能，包括检测肺部结节/肿块、气胸和肺结核。这些算法可以提高放射科医生的诊断效率，减少放射科医生的工作负担，促进及时诊断。但是到目前为止，基于人工智能的纵膈病灶检测算法仍然缺乏。纵膈病灶在CT图像上的检测是一项具有挑战性的任务，主要有以下几个困难：(1)纵膈区域的解剖结构复杂，包括了多个器官和组织，如气管、食管、心脏、大血管、胸腺等，这些结构在CT图像上的形态和密度与病灶相似或重叠，导致难以区分。(2)纵膈病灶的形态和大小多样，有些病灶呈圆形或椭圆形，有些呈分叶状或不规则形，有些病灶较大，占据了整个纵膈空间，有些病灶较小，仅占据了一小部分空间。(3)纵膈病灶的类型多种多样，包括了肿瘤性和非肿瘤性的病变，如淋巴瘤、胸腺瘤、神经源性肿瘤、甲状旁腺肿瘤、结核性纵隔淋巴结肿大、纵隔气肿等，这些类型的病变在CT图像上的表现有时相似，有时不同。

因此，提出一种基于深度学习的CT图像上纵膈病灶的检测方法及系统，来解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明为了解决这些困难，提出了一种基于自注意力机制的深度学习算法，用于检测CT图像上的纵膈病灶可以让模型学习到不同位置之间的依赖关系，从而提取出更丰富和更具辨别力的特征，同时考虑了全局和局部的上下文信息，通过将不同层次和不同分辨率的特征进行融合，可以提高模型对于不同大小和形态的病灶的适应性。

为了实现上述目的，本发明采用如下技术方案：

S1、数据获取及预处理步骤：获取多个CT图像，将多个CT图像划分为预训练数据集、训练集和验证集，并对预训练数据集、训练集和验证集进行预处理得到预处理后的预训练数据集、预处理后的训练集和预处理后的验证集；

S2、模型构建步骤：构建基于自注意力机制的深度学习网络模型；

S3、模型训练步骤：将S1中预处理后的预训练数据集输入至S2中构建的基于自注意力机制的深度学习网络模型中进行预训练，得到预训练后的基于自注意力机制的深度学习网络模型，进而将预处理后的训练集输入至预训练后的于自注意力机制的深度学习网络模型中进行训练，得到训练好的基于自注意力机制的深度学习网络模型；

S4、模型验证步骤：将S1中预处理后的验证集输入至S3中训练好的基于自注意力机制的深度学习网络模型，根据模型评价指标对训练好的基于自注意力机制的深度学习网络模型进行验证，得到最优基于自注意力机制的深度学习网络模型。

上述的方法，可选的，S1中来自NIH DeepLesion数据集的CT图像作为预训练数据集；来自MICCAI 2022 MELA Challenge数据集的CT图像作为训练集和验证集，其中按照8:2的比例划分训练集和测试集。

上述的方法，可选的，S1中预处理的方式包括：在原始图像和相应的标签boundingbox中分别采用三线法和最近采样法将其统一为2毫米；进行缩放和归一化；进行数据增强，包括但不限于水平和垂直翻转方式。

上述的方法，可选的，S2基于自注意力机制的深度学习网络模型由依次连接的特征融合模块、注意力模块、检测头模块。

上述的方法，可选的，特征融合模块：对前3层特征图进行下采样，其中第一层为输入数据，设置步长为2对每层特征图进行卷积操作，后两层特征图为上一层特征图的上采样与其浅层对应特征图1x1卷积后的和。

上述的方法，可选的，注意力模块：捕捉全局的像素，在主干网络的聚合特征中获得指示信息，通过特征图对具有相同权重的像素点进行聚集，对具有不同归属的像素点进行抑制；将输入特征图Z生成三个向量Q、K和V，其中，Q、K、V分别代表高度、宽度和通道特征；

A＝softma(Q′×K′) (1)

Y＝Z+Conv1×1(V′×A) (3)

式中，p_mn为每个像素在空间相似矩阵中的值，h_m为高度特征向量，w_n为宽度特征向量，Y为最后的输出特征图，A为注意力分数矩阵。

上述的方法，可选的，检测头模块：将多个boxes通过PGN(Proposals GenerationNetwork)网络得出每个boxes的得分，按照得分从高到低进行排序，经过ROI feature网络进行特征处理，后经过分类头和回过头计算出分类得分和回归得分。

上述的方法，可选的，S3中训练终止判断条件：

式中t为训练迭代轮次，DSC_t为第t轮迭代模型在验证集的DSC值。

上述的方法，可选的，S4中模型评价指标包括：平均精度、置信度分数、灵敏度和假阳性。

一种基于深度学习的CT图像上纵膈病灶的检测系统，应用上述任一项的基于深度学习的CT图像上纵膈病灶的检测方法，包括依次连接的数据获取及预处理单元、模型构建单元、模型训练单元、模型验证单元；

数据获取及预处理单元，获取多个CT图像，将多个CT图像划分为预训练数据集、训练集和验证集，并对预训练数据集、训练集和验证集进行预处理得到预处理后的预训练数据集、预处理后的训练集和预处理后的验证集；

模型构建单元，用于构建基于自注意力机制的深度学习网络模型；

模型训练单元，将数据获取及预处理单元中预处理后的预训练数据集输入至模型构建单元中构建的基于自注意力机制的深度学习网络模型中进行预训练，得到预训练后的基于自注意力机制的深度学习网络模型，进而将预处理后的训练集输入至预训练后的于自注意力机制的深度学习网络模型中进行训练，得到训练好的基于自注意力机制的深度学习网络模型；

模型验证单元，将数据获取及预处理单元中预处理后的验证集输入至模型训练单元中训练好的基于自注意力机制的深度学习网络模型，根据模型评价指标对训练好的基于自注意力机制的深度学习网络模型进行验证，得到最优基于自注意力机制的深度学习网络模型。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种基于深度学习的CT图像上纵膈病灶的检测方法及系统，具有以下有益效果：

该算法在平均精度、置信度分数、灵敏度和假阳性方面都表现出了较高的水平，能够准确地检测出不同大小和形态的纵膈病灶，并且能够区分出不同类型的病灶，提高模型对于不同大小和形态的病灶的适应性；有望大幅减少放射科医生的工作量，提高放射科医生的表现，并缩短报告时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其它的附图。

图1为本发明公开的基于深度学习的CT图像上纵膈病灶的检测方法流程图；

图2为本发明公开的后两层特征图卷积后求和的计算方法图；

图3(A)为本发明公开的DeepLesion数据集上预训练阶段损失值与平均精确率变化曲线图；

图3(B)为MICCAI 2022MELA challenge数据集训练阶段损失值与平均精确率变化曲线图；

图4为本发明公开的CT影像的检测结果与真实标签图，其中，4A为真阳性预测图像，4B为假阳性预测图像；

图5为本发明公开的基于深度学习的CT图像上纵膈病灶的检测方法的网络模型图；

图6为本发明公开的基于深度学习的CT图像上纵膈病灶的检测系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明使用了PyTorch框架来实现所提出的算法，并在两台配备了GeForce RTX2080Ti GPU显卡的服务器上进行训练和测试。本发明首先在DeepLesion数据集上开发了预训练模型，然后在训练集上通过迁移学习的方式对模型进行微调。在训练过程中，模型的学习率初始设置为0.001，每20个周期衰减0.1，小批量大小为16，损失函数为DSC。在训练过程中使用了早停法和模型保存法来防止过拟合和选择最佳模型。

参照图1所示，本发明公开了一种基于深度学习的CT图像上纵膈病灶的检测方法，包括以下步骤：

进一步的，S1中来自NIH DeepLesion数据集的CT图像作为预训练数据集；来自MICCAI 2022MELA Challenge数据集的CT图像作为训练集和验证集，其中按照8:2的比例划分训练集和测试集。

具体的，本研究收集了两个单独的大规模开放数据集，分别是NIH DeepLesion数据集作为预训练模型的数据，和MICCAI 2022MELA Challenge数据集作为训练和验证阶段的数据。NIH DeepLesion数据集包含了来自4,427名患者的10,594张异常CT图像，这些图像是在近二十年内在美国国立卫生研究院临床中心的影像存档和通信系统(PictureArchiving and Communication Systems，PACS)系统中拍摄的。其中只有921张包含纵隔病灶的异常CT图像被纳入预训练集。对于训练和验证，本研究从MICCAI Challenge数据集中收集了880张异常CT图像，这些图像是在2009年至2020年间在一家三甲级综合医院(上海市肺科医院)拍摄的。

进一步的，可选的，S1中预处理的方式包括：在原始图像和相应的标签boundingbox中分别采用三线法和最近采样法将其统一为2毫米；进行缩放和归一化；进行数据增强，包括但不限于水平和垂直翻转方式。

具体的，考虑到内存限制和上下文信息之间的权衡，神经网络接收的三维图像只包括关键切片和Z轴上向前和向后方向的一个扩展切片，以构建固定尺寸为3×512×512图像。此外，每张三维图像都通过min-max方法进行归一化以加快收敛速度。

进一步的，S2中基于自注意力机制的深度学习网络模型由依次连接的特征融合模块、注意力模块、检测头模块。

进一步的，特征融合模块：如图2所示，前3层特征图，第一层为输入数据，进行下采样，设置步长为2对每层特征图进行卷积操作，后两层特征图为上一层特征图的上采样与其浅层对应特征图1x1卷积后的和。

具体的，通过上采样可以保证下一层进行特征图相加时的矩阵尺寸一致。上采样的方式采用最近邻值插值法，具体可以理解为特征图中的每个点都在长宽反向都x2，即一个像素点变成值相同的4个像素点。这种方式可以在上采样的过程中最大程度地保留特征图的语义信息。侧边连接用于将浅层特征引入深层特征，使深层特征图同样包含浅层的语音信息并提高收敛速度和网络性能。

进一步的，注意力模块：捕捉全局的像素，在主干网络的聚合特征中获得指示信息，通过特征图对具有相同权重的像素点进行聚集，对具有不同归属的像素点进行抑制；将输入特征图Z生成三个向量Q、K和V，其中，Q、K、V分别代表高度、宽度和通道特征；

A＝softma(Q′×K) (1)

Y＝Z+Conv1×1(′V×A) (3)

进一步的，检测头模块：将多个boxes通过PGN(Proposals Generation Network)网络得出每个boxes的得分，按照得分从高到低进行排序，经过ROI feature网络进行特征处理，后经过分类头和回过头计算出分类得分和回归得分。

具体的，分类和回归头分别预测检测到的病变的得分(即置信度得分)和位置，由网络中最后一层(即全连接层)计算，并进一步使用Softmax函数对置信度得分进行归一化处理，如下所示

式中，z_f是全连接层的输出值，C是类别数。

具体的，以特征图上这个点为中心，设定15个锚，锚的大小和比例被设定为(16，24，32，48，96)和(1：2，1：1，2：1)。对应特征图上的每个点，为在这个点上生成的15个boxes(所有anchorboxes的中心点坐标是一样的)。一个m*n的特征图就有m*n*k个boxes。取前c个boxes作为候选boxes，也称作ROI(Region ofinterest)传入ROI pooling中，ROIPooling的处理过程是将一个个大小不同的box矩形框，都映射成大小为固定大小的矩形框。

上述的方法，可选的，S3中训练终止判断条件：

本发明采用水平和垂直翻转的方式进行数据增强，实现具有更好性能的网络，首先在DeepLesion数据集上开发了预训练模型，然后在训练集上使用迁移学习对其进行微调。训练时，模型的学习率最初设定为0.001，每20轮迭代的衰减率为0.1，批次大小(batchsize)为16，迭代次数500次。模型训练过程的评价指标是Dice值(DSC)，其计算方法如下：

DSC(A,B)＝2|A∩B|/(|A|+|B|) (6)

式中A为原始分割图像，B为模型预测的分割图像。|A∩B|的计算方式为两个图像的点乘，|A|和|B|的计算即为元素相加求和。

因此，病灶检测的损失函数定义如下：

Loss＝1-DSC(A,B) (7)

具体的，本发明使用了MICCAI 2022MELA Challenge数据集的验证集来评估模型的性能，精确度作为目标检测的标准指标也被应用在本文中：

Precision＝TP/(TP+FP) (8)

式中TP为真阳性，FP为假阳性，TP和FP分别代表正确预测的阳性和不正确预测的阳性。为了定量地对每张图像的多个病灶进行评估，定义了由不同阈值计算的几个假阳性(FP)的平均灵敏度(average sensitivity，AS)。在本研究中，我们只评估了六个FP值的AS：0.25、0.5、1、2、3、4，考虑到有一个病变的图像占数据的大部分的情况。灵敏度的定义如下：

Sensitivity＝TP/(TP+FN) (9)

式中FN为假阴性，表示不正确预测的阴性。

在DeepLesion数据集的预训练阶段，当迭代到大约250个epochs时，模型处于理想的训练状态，在纵膈病灶检测中取得了82.2％的平均精确度(AP)分数，之后逐渐进入过拟合阶段。在MICCAI 2022MELA挑战数据集的训练阶段，该模型收敛速度快，效果好，只用了约100个epochs，训练和验证损失较少，而且所提出的模型在纵膈病灶检测中取得了89.3％的AP分数。图3(A)所示为DeepLesion数据集上预训练阶段损失值与平均精确率变化曲线图，蓝色曲线为训练集损失值变化曲线，红色曲线为测试集损失值变化曲线，绿色曲线为测试集平均精确率变化曲线。图3(B)所示为MICCAI 2022MELA challenge数据集训练阶段损失值与平均精确率变化曲线图，蓝色曲线为训练集损失值变化曲线，红色曲线为测试集损失值变化曲线，绿色曲线为测试集平均精确率变化曲线。

如图4所示，如图4A所示为真阳性预测图像(第一行是DeepLesion数据集的结果，第二行是MICCAI 2022MELA数据集的结果)。绿框和红框分别对应真实标签和真阳性预测结果，红色的数字是病灶检测的置信分数。如图4B所示为假阳性预测图像(第一行是DeepLesion数据集的结果，第二行是MICCAI 2022MELA数据集的结果)。绿色和红色方框分别对应真实标签和真阳性预测结果，黄色方框对应假阳性结果。此外，交并比(intersection-over-union，IoU)的阈值被设定为0.5，这意味着预测区域和相应的GTs之间的重叠面积>0.5被视为TPs，使TPs的面积尽可能大。相比之下，有些病变很难被正确发现，要么是受与GTs相似的形状、位置和纹理的正常区域影响，要么是其面积极小，如图4B所示。

与图1所述的方法相对应，本发明实施例还提供了一种基于深度学习的CT图像上纵膈病灶的检测系统，用于对图1中方法的具体实现，本发明实施例提供的一种基于深度学习的CT图像上纵膈病灶的检测系统可以应用计算机终端或各种移动设备中，其结构示意图如图5所示，具体包括：依次连接的数据获取及预处理单元、模型构建单元、模型训练单元、模型验证单元；

本发明提出的基于自注意力机制的CT影像纵膈病灶检测方法在纵膈病变检测中取得了良好的性能(89.3％的精确度，>0.8的置信度)。具有两个关键优势：一是该模型先用DeepLesion数据集进行了预训练，然后用MICCAI 2022MELA挑战数据集通过迁移学习的方式进行了模型微调，这种方式可以有效的提升模型的性能；另一个优势是模型采用了通道感知注意力模块，有利于高精度地定位纵膈病灶。

本方法在检测大尺寸病灶方面取得了较高的置信度，大多数检测到的候选病灶具有相对强烈的对比度和清晰的边界。然而，本方法仍然出现了假阳性，这通常是由不规则和不明确的边界或相对较小的病灶引起的。在这种情况下，一个合适的阈值设置对于平衡敏感性和假阳性是很重要的。总之，本文提出基于自注意力机制的CT影像纵膈病灶检测方法在检测CT图像上的纵膈病变方面表现出优异的性能，有望在现实世界中大幅减少放射科医生的工作量。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

S1中来自NIH DeepLesion数据集的CT图像作为预训练数据集；来自MICCAI 2022MELAChallenge数据集的CT图像作为训练集和验证集，其中按照8:2的比例划分训练集和测试集。

3.根据权利要求1所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

S1中预处理的方式包括：在原始图像和相应的标签bounding box中分别采用三线法和最近采样法将其统一为2毫米；进行缩放和归一化；进行数据增强，包括但不限于水平和垂直翻转方式。

4.根据权利要求1所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

S2中基于自注意力机制的深度学习网络模型由依次连接的特征融合模块、注意力模块、检测头模块。

5.根据权利要求4所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

特征融合模块：对前3层特征图进行下采样，其中第一层为输入数据，设置步长为2对每层特征图进行卷积操作，后两层特征图为上一层特征图的上采样与其浅层对应特征图1x1卷积后的和。

6.根据权利要求4所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

注意力模块：捕捉全局的像素，在主干网络的聚合特征中获得指示信息，通过特征图对具有相同权重的像素点进行聚集，对具有不同归属的像素点进行抑制；将输入特征图Z生成三个向量Q、K和V，其中，Q、K、V分别代表高度、宽度和通道特征；

A＝softma(Q′×K′) (1)

Y＝Z+Conv1×1(V′×A) (3)

7.根据权利要求4所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

检测头模块：将多个boxes通过PGN网络得出每个boxes的得分，按照得分从高到低进行排序，经过ROI feature网络进行特征处理，后经过分类头和回过头计算出分类得分和回归得分。

8.根据权利要求1所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

S3中训练终止判断条件：

9.根据权利要求1所述的基于深度学习的CT图像上纵膈病灶的检测方法，其特征在于，

S4中模型评价指标包括但不限于平均精度、置信度分数、灵敏度和假阳性。

10.基于深度学习的CT图像上纵膈病灶的检测系统，其特征在于，执行权利要求1-9任一项所述的基于深度学习的CT图像上纵膈病灶的检测方法，包括依次连接的数据获取及预处理单元、模型构建单元、模型训练单元、模型验证单元；