CN114494215A

CN114494215A - 基于Transformer的甲状腺结节检测方法

Info

Publication number: CN114494215A
Application number: CN202210110296.7A
Authority: CN
Inventors: 张雷; 赵婉君; 石一磊; 牟立超; 朱晓香; 赵星; 朱精强
Original assignee: Maide Intelligent Technology Wuxi Co ltd
Current assignee: Maide Intelligent Technology Wuxi Co ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-13

Abstract

本发明公开了一种基于Transformer的甲状腺结节检测方法，涉及图像处理技术领域，该方法在获取甲状腺区域的待测超声图像并对获取到的待测超声图像进行图像预处理后，将其输入预先基于Transformer网络训练得到的结节检测模型中，根据结节检测模型的输出确定待测超声图像的结节的位置以及类型，完成对待测超声图像中的结节的检测，结节的类型用于指示结节为良性结节或恶性结节；该方法可以自动完成结节的定位和分类，自动化程度高、客观性好，且无需构建稠密的Anchor Box，无需使用NMS复杂的后处理操作，易于实现，对计算资源要求较低。

Description

基于Transformer的甲状腺结节检测方法

技术领域

本发明涉及图像处理技术领域，尤其是一种基于Transformer的甲状腺结节检测方法。

背景技术

甲状腺肿瘤是头颈部的常见和多发肿瘤。近些年来，甲状腺癌的发病率逐年增高，受到了临床人员和研究人员的广泛关注。某些甲状腺结节的恶性程度较高，因此对甲状腺结节的早期诊断和治疗能够有效地预防甲状腺癌。临床中一般使用超声对甲状腺进行检查，超声检查是现代临床广泛应用的一种影像学检查方式，能够获取患者甲状腺结节的边界、形态及回声等信息，为甲状腺结节患者的进一步治疗提供支持。但目前国内医疗资源紧张，有经验的超声医生数量较少，医生诊疗任务繁重，容易出现漏诊、误诊。因此，如何辅助医生对甲状腺结节进行实时诊断，从大量的甲状腺结节中鉴别出恶性结节，提高医生对甲状腺结节良恶性诊断的准确率，对于临床来说，具有非常重要的意义且富有挑战性。

目前已有很多运用深度学习方法在医疗图像上进行辅助诊断的技术，针对甲状腺超声图像中甲状腺结节的辅助诊断，基于深度学习的算法大致分成两类：一是基于RegionProposal(候选框)的Two Stage目标检测算法，如RCNN，Faster RCNN等。二是基于回归问题的One Stage目标检测算法，如YOLO，SSD等。Two Stage算法需要通过RPN网络预先产生候选框，然后通过卷积神经网络对目标进行分类，最后进行边界框位置的修正。One Stage算法不需要Region Proposal阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果。两者性能上存在差异，Two Stage算法精度高，但速度较慢。而One Stage算法在速度上有优势，精度略低。随着研究的发展，两类算法在不断改进精度和速度。

现有技术方案中，两种方法都具有以下缺点：(1)需要在实验前设置不同长宽比、不同尺寸的Anchor Box。但由于实际情况中输入甲状腺超声图像的尺寸不固定、图像内结节区域大小不一，Anchor Box的尺寸、长宽比、个数等超参数会给实验结果带来很大的影响，在实际辅助诊断的过程中面临着巨大的考验。(2)为了给实验结果带来较高的召回率，在一张图像中往往会设置大量且密集的Anchor Box，但每一张甲状腺超声图像中结节数量是极少的，大量的Anchor Box在训练阶段的类别划分时会带来极大的正负样本类别不均衡问题，并且在训练与测试阶段计算IoU时会加剧计算量且消耗内存资源。

发明内容

本发明人针对上述问题及技术需求，提出了一种基于Transformer的甲状腺结节检测方法，本发明的技术方案如下：

一种基于Transformer的甲状腺结节检测方法，该方法包括：

获取甲状腺区域的待测超声图像并对获取到的待测超声图像进行图像预处理；

将完成图像预处理的待测超声图像输入结节检测模型，结节检测模型是预先基于Transformer网络训练得到的；

根据结节检测模型的输出确定待测超声图像的结节的位置以及类型，完成对待测超声图像中的结节的检测，结节的类型用于指示结节为良性结节或恶性结节。

其进一步的技术方案为，对获取到的待测超声图像进行图像预处理，包括：

通过阈值法对待测超声图像进行图像裁剪，保留待测超声图像中的超声窗口区域的图像、裁剪掉除超声窗口区域之外的背景区域的图像；

对超声窗口区域的图像进行直方图均衡化，得到完成图像预处理的待测超声图像。

其进一步的技术方案为，该方法还包括：

构建样本数据集，样本数据集包括若干个甲状腺区域的完成图像预处理的样本超声图像，每个样本超声图像中包括结节标注框，结节标注框用于标注样本超声图像中的结节的位置以及类型，样本数据集的样本超声图像中包括多种不同位置和/或类型的结节；

利用样本数据集基于Transformer网络进行网络训练得到结节检测模型。

其进一步的技术方案为，利用样本数据集基于Transformer网络进行网络训练得到结节检测模型，包括：

利用ImageNet数据集基于Transformer网络进行预训练；

将预训练好的网络参数迁移到Transformer网络中并利用样本数据集进行网络训练得到结节检测模型。

将样本数据集划分为训练集、验证集和测试集，利用训练集中的样本超声图像基于Transformer网络进行网络训练，利用验证集中的样本超声图像对训练的超参数进行优化得到结节检测模型，并利用测试集中的样本超声图像对训练得到的结节检测模型进行测试；

其中，训练集中的样本超声图像包括的良性结节和恶性结节的数量差在第一误差范围内，且属于同一个患者的多个样本超声图像不同时包含在训练集和验证集中。

其进一步的技术方案为，样本数据集的样本超声图像中包括至少两种不同尺寸范围的结节，训练集中的样本超声图像包括的各种尺寸范围的结节的数量差在第二误差范围内，

其进一步的技术方案为，结节检测模型从输入到输出依次包括特征提取模块、编码模块、解码模块和FFN预测模块；

特征提取模块对输入的完成图像预处理的待测超声图像进行特征提取输出特征图；编码模块用于特征图进行编码处理得到编码结果；解码模块用于对编码结果进行解码处理得到解码结果；FFN预测模块包括分类分支和回归分支，分类分支用于对解码结果进行分类确定结节的类型，回归分支用于对解码结果进行检测框的回归确定结节的位置。

其进一步的技术方案为，编码模块包括从输入到输出依次相连的输入单元和6个编码单元，输入单元将特征图转化为序列化数据，并对特征图的位置信息进行位置编码，输入单元输出的序列化数据和位置编码相加作为输入数据依次经过6个编码单元得到编码结果；

解码结果包括从输入到输出依次相连的6个解码单元，第一个解码单元的输入获取N个实例嵌入序列，每个实例嵌入序列对应待测超声图像中的一个物体实例；编码模块输出的编码结果分别输入到6个解码单元的多头交叉注意力机制层，每个解码单元从编码结果中对预定的物体实例的特征做聚合，最后一个解码单元输出N个特征向量作为解码结果。

其进一步的技术方案为，特征提取模块基于ResNet50构建，通过5个阶段经过16倍下采样进行特征提取。

其进一步的技术方案为，FFN预测模块的分类分支包括一个Linear层、隐藏层的维度为512；回归分支包括三个Linear层、隐藏层的维度均为512。

本发明的有益技术效果是：

本申请公开了一种基于Transformer的甲状腺结节检测方法，该方法基于Transformer进行甲状腺中结节的定位和分类，自动化程度高、客观性好，且无需构建稠密的Anchor Box，无需使用NMS复杂的后处理操作，易于实现，对计算资源要求较低。

附图说明

图1是一个实施例中的甲状腺结节检测方法的方法流程图。

图2是一个实例中对原始的待测超声图像进行图像预处理的示意图。

图3是一个实施例中训练得到结节检测模型的方法流程图。

图4是训练得到的结节检测模型的模型结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本申请公开了一种基于Transformer的甲状腺结节检测方法，请参考图1所示的流程图，该方法包括如下步骤：

步骤102，获取甲状腺区域的待测超声图像并对获取到的待测超声图像进行图像预处理。

由于采集到的原始的待测超声图像包含软件界面等一些无关信息，直接使用可能会对模型训练造成不良影响，而且考虑到等回声结节纹理特征与周围组织特征及其相似且边界不明显的情况，因此该步骤在获取到原始的待测超声图像后还进行图像预处理，包括：

(1)通过阈值法对待测超声图像进行图像裁剪，保留待测超声图像中的超声窗口区域的图像、裁剪掉除超声窗口区域之外的背景区域的图像，其中超声窗口区域的图像为甲状腺区域的图像，而超声窗口区域之外的背景区域的图像即为常见的软件界面等。具体的，按行或列的方式扫描图像，计算每行或每列的像素均值，通过设置一定的阈值将超声窗口区域之外的背景区域过滤掉，仅保留超声窗口区域。根据经验一般将阈值设为30效果最好。

(2)对超声窗口区域的图像进行直方图均衡化，提升图像对比度，增强边界信息，以提高后续将检测精度，由此得到完成图像预处理的待测超声图像。对待测超声图像进行图像预处理的示意图请参考图2。

步骤104，将完成图像预处理的待测超声图像输入结节检测模型，结节检测模型是预先基于Transformer网络训练得到的。

步骤106，根据结节检测模型的输出确定待测超声图像的结节的位置以及类型，完成对待测超声图像中的结节的检测，结节的类型用于指示结节为良性结节或恶性结节。具体的，会在待测超声图像中显示检测框，检测框内的区域即对应检测得到的结节从而指示结节的位置，同时会显示检测框的结节为良性结节或恶性结节。

在上述步骤104中，在使用结节检测模型之前，还包括训练得到结节检测模型的步骤，请参考图3所示的流程图，包括如下步骤：

步骤302，构建样本数据集。

其中，样本数据集包括若干个甲状腺区域的完成图像预处理的样本超声图像，每个样本超声图像中包括结节标注框，结节标注框用于标注样本超声图像中的结节的位置以及类型。

首先获取多名患者的多张甲状腺区域的原始的超声图像并进行图像预处理，这一步与上述步骤102类似，本申请不再赘述。然后使用labelme标注工具框选原始的超声图像中的结节位置并标注良恶性得到结节标注框，且每个结节标注框由多名医生进行标准确认，从而保证结节标注框标注的内容的准确性。比如先由一名经验丰富的医生根据诊断报告标注结节标注框，再让另一名医生进行审查修改。

构建得到的样本数据集的样本超声图像中包括多种不同位置和/或类型的结节，一般一个样本超声图像中仅有一个结节，每个患者可以有多个样本超声图像。比如实际获取时，对每位患者采集10张左右的样本超声图像，共对300位患者采集共3000张样本超声图像，其中良性结节共有1800个左右，恶性结节共有1200个左右。

另外，样本数据集的样本超声图像中包括至少两种不同尺寸范围的结节。比如将所有结节划分为两种尺寸范围，将尺寸大于5mm的定义为大结节，将尺寸小于5mm的定义为小结节，在上述举例中，大结节共有1100个左右，小结节共有1900左右。

如图3所示，在构建得到样本数据集后，将样本数据集随机划分为训练集、验证集和测试集，比如按照6:2:2的比例随机划分。划分时，保证属于同一个患者的多个样本超声图像不不同时包含在训练集和验证集中，也即不同时出现在训练集和验证集中。

同时，后期主要利用训练集进行网络训练，因此在划分时，训练集中的样本超声图像包括的良性结节和恶性结节的数量差在第一误差范围内，也即训练集中的良性结节和恶性结节的占比接近。训练集中的样本超声图像包括的各种尺寸范围的结节的数量差在第二误差范围内，也即训练集中的各种尺寸范围的结节的占比接近，比如上述举例中，大结节和小结节的占比接近。

步骤304，利用样本数据集基于Transformer网络进行网络训练得到结节检测模型。在进行网络训练时，利用ImageNet数据集基于Transformer网络进行预训练，然后将预训练好的网络参数迁移到Transformer网络中并利用样本数据集进行网络训练得到结节检测模型，这样使得网络收敛得更快并且具有更强的泛化能力。在模型训练时，使用24G、RTX3090显卡进行训练。

具体在利用样本数据集进行网络训练时，利用训练集中的样本超声图像基于Transformer网络进行网络训练。利用验证集中的样本超声图像对训练的超参数进行优化和微调，直至收敛得到结节检测模型。超参数设置为：使用AdamW优化器，学习率设置为0.001，分类采用CrossEntropy Loss，回归分支采用Smooth L1Loss，不断迭代训练，迭代500个epoch后，模型达到收敛。利用测试集中的样本超声图像对训练得到的结节检测模型进行测试，保证训练得到的结节检测模型的准确性和精度，具体的，将结节检测模型的检测结果中的检测框与结节标注框计算IoU，并将检测结果中的类型与结节标注框指示的类型比较，当IoU＞0.5且检测结果中的类型与结节标注框指示的类型相同时，认为定位与识别准确。若测试确定准确性和精度达标则可以使用该结节检测模型执行步骤104对待测超声图像中的结节进行定位与识别，否则需要重新训练。

请参考图4，训练得到的结节检测模型从输入到输出依次包括特征提取模块、编码模块、解码模块和FFN预测模块。在模型训练阶段，输入特征提取模块的图像为样本超声图像，在模型使用阶段，输入特征提取模块的图像为待测超声图像，各个模块在模型训练阶段和模型使用阶段对图像的处理是类似的，如下以模型使用阶段对完成图像预处理的待测超声图像的处理为例进行说明：

特征提取模块用于对输入的完成图像预处理的待测超声图像进行特征提取输出特征图。具体的，特征提取模块基于ResNet50构建，通过5个阶段经过四次下采样，共进行16倍下采样进行特征提取。在输入的完成图像预处理的待测超声图像为512x512x3的图像时，得到32x32x2048的特征图。

编码模块用于特征图进行编码处理得到编码结果。编码模块包括从输入到输出依次相连的输入单元和6个编码单元，每个编码单元为标准的Tranformer结构，每个编码单元依次包括Multi-Head Self-Attention Layer(多头自注意力机制层)、Normal Layer(标准化层)、和FFN(前向网络)。输入单元将特征图转化为序列化数据，也即对特征提取模块提取到的特征进行空间维度的拉伸，转换为2048x1024的序列化数据。并对特征图的位置信息进行位置编码，然后输入单元输出的序列化数据和位置编码相加作为输入数据依次经过6个编码单元得到编码结果。

解码模块用于对编码结果进行解码处理得到解码结果。解码结果包括从输入到输出依次相连的6个解码单元，每个解码单元为标准的Tranformer结构，每个解码单元依次包括Multi-Head Self-Attention Layer(多头自注意力机制层)、Normal Layer(标准化层)、Multi-Head Cross-Attention Layer(多头交叉注意力机制层)、FFN(前向网络)和NormalLayer。第一个解码单元的输入获取N个实例嵌入序列(Object Query)，每个实例嵌入序列对应待测超声图像中的一个物体实例。编码模块输出的编码结果分别输入到6个解码单元的多头交叉注意力机制层，通过多头交叉注意力机制层从编码模块输出的编码结果中对预定的物体实例的特征做聚合，又通过多头自注意力机制层建模该物体实例域其他物体实例之间的关系，最后一个解码单元输出N个特征向量(输出Embedding)作为解码结果。在模型训练阶段，采用N个稀疏的可学习的Object Query，随着网络的训练而更新，因此隐式建模了整个训练集上的统计信息。

FFN预测模块包括分类分支和回归分支，分类分支用于对解码结果进行分类确定结节的类型，回归分支用于对解码结果进行检测框的回归确定结节的位置。FFN预测模块的分类分支包括一个Linear层、隐藏层的维度为512，输出的维度为类别数加1(存在背景类)，在该实施例中类别数为3。回归分支包括三个Linear层、隐藏层的维度均为512，输出层的维度为4，表示预测框的是个顶点的坐标信息。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于Transformer的甲状腺结节检测方法，其特征在于，所述方法包括：

将完成图像预处理的所述待测超声图像输入结节检测模型，所述结节检测模型是预先基于Transformer网络训练得到的；

根据所述结节检测模型的输出确定所述待测超声图像的结节的位置以及类型，完成对所述待测超声图像中的结节的检测，结节的类型用于指示结节为良性结节或恶性结节。

2.根据权利要求1所述的方法，其特征在于，所述对获取到的待测超声图像进行图像预处理，包括：

通过阈值法对所述待测超声图像进行图像裁剪，保留所述待测超声图像中的超声窗口区域的图像、裁剪掉除超声窗口区域之外的背景区域的图像；

对超声窗口区域的图像进行直方图均衡化，得到完成图像预处理的所述待测超声图像。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

构建样本数据集，所述样本数据集包括若干个甲状腺区域的完成图像预处理的样本超声图像，每个样本超声图像中包括结节标注框，结节标注框用于标注样本超声图像中的结节的位置以及类型，所述样本数据集的样本超声图像中包括多种不同位置和/或类型的结节；

利用所述样本数据集基于Transformer网络进行网络训练得到所述结节检测模型。

4.根据权利要求3所述的方法，其特征在于，所述利用所述样本数据集基于Transformer网络进行网络训练得到所述结节检测模型，包括：

利用ImageNet数据集基于Transformer网络进行预训练；

将预训练好的网络参数迁移到Transformer网络中并利用所述样本数据集进行网络训练得到所述结节检测模型。

5.根据权利要求3所述的方法，其特征在于，所述利用所述样本数据集基于Transformer网络进行网络训练得到所述结节检测模型，包括：

将所述样本数据集划分为训练集、验证集和测试集，利用所述训练集中的样本超声图像基于Transformer网络进行网络训练，利用所述验证集中的样本超声图像对训练的超参数进行优化得到所述结节检测模型，并利用测试集中的样本超声图像对训练得到的结节检测模型进行测试；

6.根据权利要求5所述的方法，其特征在于，所述样本数据集的样本超声图像中包括至少两种不同尺寸范围的结节，训练集中的样本超声图像包括的各种尺寸范围的结节的数量差在第二误差范围内。

7.根据权利要求1或2所述的方法，其特征在于，所述结节检测模型从输入到输出依次包括特征提取模块、编码模块、解码模块和FFN预测模块；

所述特征提取模块对输入的完成图像预处理的所述待测超声图像进行特征提取输出特征图；所述编码模块用于所述特征图进行编码处理得到编码结果；所述解码模块用于对所述编码结果进行解码处理得到解码结果；所述FFN预测模块包括分类分支和回归分支，所述分类分支用于对所述解码结果进行分类确定结节的类型，所述回归分支用于对所述解码结果进行检测框的回归确定结节的位置。

8.根据权利要求7所述的方法，其特征在于，

所述编码模块包括从输入到输出依次相连的输入单元和6个编码单元，所述输入单元将所述特征图转化为序列化数据，并对所述特征图的位置信息进行位置编码，所述输入单元输出的序列化数据和位置编码相加作为输入数据依次经过6个编码单元得到所述编码结果；

所述解码结果包括从输入到输出依次相连的6个解码单元，第一个解码单元的输入获取N个实例嵌入序列，每个实例嵌入序列对应待测超声图像中的一个物体实例；所述编码模块输出的所述编码结果分别输入到6个解码单元的多头交叉注意力机制层，每个解码单元从所述编码结果中对预定的物体实例的特征做聚合，最后一个解码单元输出N个特征向量作为所述解码结果。

9.根据权利要求7所述的方法，其特征在于，所述特征提取模块基于ResNet50构建，通过5个阶段经过16倍下采样进行特征提取。

10.根据权利要求7所述的方法，其特征在于，所述FFN预测模块的分类分支包括一个Linear层、隐藏层的维度为512；回归分支包括三个Linear层、隐藏层的维度均为512。