CN112949712A

CN112949712A - 一种基于多模态的甲状腺结节自动识别模型构建方法

Info

Publication number: CN112949712A
Application number: CN202110223659.3A
Authority: CN
Inventors: 杜强; 王晓勇; 王伟; 刘贻豪; 佟文娟; 郭雨晨; 聂方兴; 唐超
Original assignee: Beijing Xbentury Network Technology Co ltd
Current assignee: Beijing Xbentury Network Technology Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-11

Abstract

本发明公开了一种基于多模态的甲状腺结节自动识别模型构建方法、装置、电子设备及存储介质，通过本发明提出一种数据对齐方式，对齐三种甲状腺超声图像灰阶、彩超、弹性不同模态下图像区域；本发明提出使用ResNet提取三种模态特征，针对弹性图像多张不兼容预训练模型，提取替换输入层以适配；本发明提出使用修改后的bottleneck(瓶颈)结构融合三种模态信息，降低参数量；本发明提出使用投票的方式集成三种不同数据增强及训练方式的模型，提升模型效果；本发明通过将待识别图像输入到所构建的模型中，得到甲状腺结节识别结果，提升甲状腺良恶性自动识别效果，进行甲状腺癌的自动筛查工作，提升检出率，降低误检率。

Description

一种基于多模态的甲状腺结节自动识别模型构建方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于多模态的甲状腺结节自动识别模型构建方法、装置、电子设备及存储介质。

背景技术

甲状腺结节是成人人群中最常见的结节性病变之一，据美国国家癌症研究所估计，全球将发生64300例新的甲状腺癌病例，与甲状腺癌相关的死亡人数将约为51980，在过去30年中，甲状腺癌的发病率增加了2.4倍，这种速度是所有类型的癌症中发生的最大增速之一。尽管甲状腺癌的发病率很高，但是在超过50％的成年人中，大多数甲状腺结节是良性的，只有7％的人是恶性的，但甲状腺结节中有15％-30％被诊断为不确定或可疑。甲状腺结节的非手术诊断是穿刺活检，这是确定甲状腺结节的正确治疗方法的关键诊断测试。但是，许多医生对甲状腺结节的各种回声模式感到困惑。细针穿刺术中约有10％-20％的甲状腺活检无法诊断。在这种结节通常采用手术穿刺活检检测，即使其中有70％以上的结节在组织学检查中是良性的，切除活检也是最好的分化方法。细针穿刺活检和切除活检对于大规模筛查来说都是劳动密集型的，不必要的活检将使患者更加焦虑并增加医疗保健成本。作为提供甲状腺结节特征图像的实时非侵入性诊断技术，超声技术已成为诊断和随访甲状腺结节的一种广泛使用的成像方法。超声图像容易受到回声扰动和斑点噪声的影响，不同类型的甲状腺结节在超声检查中往往具有各种内部回声。此外，许多良性和恶性结节的内部特征相似，因此只有经验丰富的医生才能对这些甲状腺结节的分化做出准确的视觉解释，易导致主观解释和观察者之间的差异。为了放射科医生依赖性并提高诊断准确性，最近已经开发了基于计算机辅助诊断的方法来检测和分类甲状腺结节。传统的计算机辅助诊断设计通常包括三个主要步骤：预处理，特征提取和选择以及分类。这三个步骤需要分别解决，然后集成在一起，以进行整体计算机辅助的诊断性能调整。通常，预处理包括降噪、对比度增强、边缘增强、分割等，这些预处理步骤不仅繁琐，而且对后续处理有很大影响。诊断图像的特征可以分为形态特征和纹理特征。分类器可以是支持向量机，k近邻，AdaBoost，高斯混合模型，概率神经网络，决策树等，特征的有效提取是好的分类器基础，需要分类器在特征选择和特征集成的后续步骤中提供帮助，但特征提取依赖专家知识工作量大，严重阻碍自动检测效果。随着深度学习的复兴，在计算机视觉中则以卷积神经网络为代表，统治了计算机视觉分类、检测、分割各个任务中，因此用卷积神经网络自动提取特征便自然而然用于甲状腺超声影像，效果有了大幅提升。

但从目前的研究现状来看，目前深度学习多模态技术在不断发展，每一种模态可看作一种数据形式，如图像、声音、文字等等，目前在甲状腺超声影像的应用大多局限于灰阶这单一模态，而彩超、弹性等模态的应用较少，这些模态数据在超声影像数据缺少的时候更显得重要。

发明内容

本发明的目的在于提供基于多模态的甲状腺自动识别模型构建方法、装置、电子设备及存储介质，从灰阶、彩超及弹性图像中学习更多语义信息，采用多模态融合手段融合这些语义信息，提升甲状腺良恶性自动识别效果，进行甲状腺癌的自动筛查工作，提升检出率，降低误检率，避免接下来使用活检穿刺等代价昂贵的工作，辅助医生完成对甲状腺癌的筛查。

第一方面，本发明实施例提供了一种基于多模态的甲状腺结节自动识别模型构建方法，所述模型构建方法包括以下步骤：

对多组图像数据进行预处理得到目标数据，其中，所述多组图像数据中的每例数据均包括多张灰阶图像、彩超图像及弹性图像三种模态图像；

通过使用所述目标数据输入预先训练的三个多模态模型得到多模态特征图，并对所述多模态特征图进行卷积融合；其中，预先训练的三个多模态模型均为卷积神经网络ResNet，通过第一卷积神经网络ResNet提取灰阶图像和彩超图像特征，通过第二卷积神经网络ResNet提取弹性图像特征；

通过投票方式将所述三个多模态模型进行集成得到目标模型。

可选地，所述对多组图像数据进行预处理得到目标数据包括：

数据集整理对齐，对于灰阶图像及彩超图像，取其横切、纵切面数据按先后顺序保存；对于弹性图像，选取其中特征最为明显的多张图像，按先后顺序保存，然后按灰阶-彩超-弹性的先后顺序组成一组图片作为待输入模型数据；

数据增强，通过对所述待输入模型数据进行翻转、旋转、剪切、颜色抖动等手段获取不同方向、不同角度、不同光照、色差条件下目标数据。

可选地，数据集整理对齐还包括，将噪声信息裁剪以防模型学偏；在三种模态图像加入噪声加强模型训练强度，以提升模型鲁棒性。

进一步地，所述模型构建方法还包括，针对弹性图像多张不兼容预训练模型，提取替换输入层以适配。

可选地，对所述多模态特征图进行卷积融合包括：

设置通道数为特征图的八分之一，通过降低三个模态特征图维度后，在将其拼接在一起；

而后经过3x3卷积完成融合，3x3卷积的输入和输出通道数目一致，最后1x1卷积进行升维，将通道数变为原始维度，提取尽量多的信息而不引入过多参数。

第二方面，本发明实施例提供了一种基于上述甲状腺结节自动识别模型的甲状腺结节自动识别方法，所述识别方法包括：

获取待识别图像；

将所述待识别图像输入到所述目标模型中，得到甲状腺结节识别结果。

第三方面，本发明实施例提供了一种基于多模态的甲状腺结节自动识别模型构建装置，所述模型构建装置包括：

目标数据获取模块，用于对多组图像数据进行预处理得到目标数据，其中，所述多组图像数据中的每例数据均包括多张灰阶图像、彩超图像及弹性图像三种模态图像；

多模态模型构建模块，用于通过使用所述目标数据输入预先训练的三个多模态模型得到多模态特征图，并对所述多模态特征图进行卷积融合；其中，预先训练的三个多模态模型均为卷积神经网络ResNet，通过第一卷积神经网络ResNet提取灰阶图像和彩超图像特征，通过第二卷积神经网络ResNet提取弹性图像特征；

集成模块，用于通过投票方式将所述三个多模态模型进行集成得到目标模型。

第四方面，本发明实施例提供了一种基于上述甲状腺自动识别模型的甲状腺结节自动识别装置，其特征在于，所述识别装置包括：

获取模块，用于获取待识别图像；

识别模块，用于将所述待识别图像输入到所述目标模型中，得到甲状腺结节识别结果。

第五方面，本发明提供了一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现上述的方法。

第六方面，本发明提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述方法的步骤。

有益效果

本发明提出了一种基于多模态的甲状腺结节自动识别模型构建方法，通过本发明提出一种数据对齐方式，对齐三种甲状腺超声图像灰阶、彩超、弹性不同模态下图像区域；本发明提出使用ResNet提取三种模态特征，针对弹性图像多张不兼容预训练模型，提取替换输入层以适配；本发明提出使用修改后的bottleneck(瓶颈)结构融合三种模态信息，降低参数量；本发明提出使用投票的方式集成三种不同数据增强及训练方式的模型，提升模型效果；本发明通过将待识别图像输入到所构建的模型中，得到甲状腺结节识别结果，提升甲状腺良恶性自动识别效果，进行甲状腺癌的自动筛查工作，提升检出率，降低误检率。

附图说明

图1为本发明实施例的基于多模态的甲状腺结节自动识别模型构建方法的流程图；

图2为对多组图像数据进行预处理得到目标数据方法的流程图；

图3为本发明较优实施例的基于多模态的甲状腺结节自动识别模型构建方法的流程图；

图4为本发明实施例的基于多模态的甲状腺结节自动识别模型的甲状腺结节识别方法流程图；

图5为本发明实施例的基于多模态的甲状腺结节自动识别模型构建装置的结构框图；

图6为本发明实施例的基于多模态的甲状腺结节自动识别模型的识别装置的结构框图；

图7为本发明实施例的一种电子设备的结构框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的在于提供一种基于多模态的甲状腺自动识别模型构建方法、装置、电子设备及存储介质，从灰阶、彩超及弹性图像中学习更多语义信息，采用多模态融合手段融合这些语义信息，提升甲状腺良恶性自动识别效果，进行甲状腺癌的自动筛查工作，提升检出率，降低误检率，避免接下来使用活检穿刺等代价昂贵的工作，辅助医生完成对甲状腺癌的筛查，下面结合附图说明和具体实施例对本发明作进一步描述：

图1示出了本发明实施例的一种基于多模态的甲状腺自动识别模型构建方法的流程图，如图1所示，所述模型构建方法包括以下步骤：

S20、对多组图像数据进行预处理得到目标数据，其中，所述多组图像数据中的每例数据均包括多张灰阶图像、彩超图像及弹性图像三种模态图像；

S40、通过使用所述目标数据输入预先训练的三个多模态模型得到多模态特征图，并对所述多模态特征图进行卷积融合；其中，预先训练的三个多模态模型均为卷积神经网络ResNet，通过第一卷积神经网络ResNet提取灰阶图像和彩超图像特征，通过第二卷积神经网络ResNet提取弹性图像特征；

S60、通过投票方式将所述三个多模态模型进行集成得到目标模型。

本实施例提出了种基于多模态的甲状腺结节自动识别模型构建方法，本发明提出使用ResNet提取三种模态特征，进一步地通过将待识别图像输入到所构建的目标模型中，得到甲状腺结节识别结果，提升甲状腺良恶性自动识别效果，进行甲状腺癌的自动筛查工作，提升检出率，降低误检率。

如图2所示，所述对多组图像数据进行预处理得到目标数据包括：

S201、数据集整理对齐，对于灰阶图像及彩超图像，取其横切、纵切面数据按先后顺序保存；对于弹性图像，选取其中特征最为明显的多张图像，按先后顺序保存，然后按灰阶-彩超-弹性的先后顺序组成一组图片作为待输入模型数据；

原始甲状腺超声图像每个病例含有多张灰阶、彩超及弹性图像，数量不等，数量及图像不一致会影响模型搭建及模型预测效果，因此进行数据对齐工作是十分必要的，删减多余图像、补充缺省图像。

S202、数据增强，通过对所述待输入模型数据进行翻转、旋转、剪切、颜色抖动等手段获取不同方向、不同角度、不同光照、色差条件下目标数据。

数据增强是提升模型简单有效的方法，在使用传统的数据增强的同时，需要考虑多模态输入时候的数据集整理对齐，数据不对齐，例如图像区域不一致会降低模型表达效果，且同时考虑数据增强的丰富性。

在一些实施例中，数据集整理对齐还包括，将噪声信息裁剪以防模型学偏；在三种模态图像加入噪声加强模型训练强度，以提升模型鲁棒性。

在一些实施例中，所述模型构建方法还包括，针对弹性图像多张不兼容预训练模型，提取替换输入层以适配。

具体地，对所述多模态特征图进行卷积融合包括：

下面以一种较优的实施方式对本发明基于多模态的甲状腺自动识别模型构建方法做出说明：如图3所示，模型构建方法包括：

1、数据整理对齐

每一例病例中存有灰阶图像、彩超图像、弹性图像数量不等的图片，有的数量多、有的数量少，因这些图片并不像CT序列及语音存在时空上的关系，故无法使用序列网络如LSTM等进行建模，以此需要对这些图像进行整理对齐；灰阶及彩超图像较为规范，因此取其横切、纵切面数据按顺序保存先后信息即可，而弹性图像则杂乱不一，需要清洗出其中特征最为明显的多张图像也按先后顺序存好，最后按灰阶-彩超-弹性的先后顺序组成一组图片作为待输入数据；在输入网络之前，将噪声信息裁剪以防模型学偏。

2、数据增强

通常深度学习网络需要大量数据才能避免过度拟合，但许多场景无法获得大量数据，甲状腺超声数据便是如此，数据增强目的是为了缓解该问题，通过对数据进行翻转、旋转、剪切、颜色抖动等手段获取不同方向、不同角度、不同光照、色差条件下新的数据集，以期模型在测试这些类别图像时也能得到较好效果；其次，还可在图像加入噪声加强模型训练强度，提升模型鲁棒性。除常用手段外，为保持输入的对齐，因此本发明在做数据增强时以病例为单位，进行翻转、旋转、随机剪切等操作，基于超声图像是灰度图像的先验信息，在数据增强时对弹性图像进行转灰度操作。

3、模型架构

本研究选用ResNet解决网络越深拟合能力越差问题，当数据量较少时，选用在ImageNet预训练好的ResNet模型是一个好的选择，使用预训练的ResNet模型，能利用在大数据集上已经学习到的底层特征并可以加速新任务模型收敛。但预训练的ResNet的输入层卷积核的数目为3，而每个病例含有的多张弹性图像就算转为灰阶图像，以每个病例含有的9张弹性图像为例，因为RGB三通道图像便有27个通道，故不能放入预训练网络，因此为了将网络输入层适配图像，本发明将ResNet的第一层进行了替换，换成27个卷积核，初始化为高斯随机初始化。

4、多模态融合

在提取完灰阶、彩超、弹性三种模态图像的特征后，如果直接采用拼接、张量外积等方式融合的话，维度会非常之大，导致网络参数量会剧增，为了降低参数量，在三个模态融合之前，经过改造后的bottleneck层(瓶颈层)进行特征融合，原有的bottleneck层(瓶颈层)由1x1、3x3、1x1三个卷积层组成，第一个1x1起着降维的作用，本研究设置通道数为特征图的八分之一，通过降低三个模态特征图维度后，在将其拼接在一起，而后经过3x3卷积完成融合，3x3卷积的输入和输出通道数目一致，最后1x1卷积进行升维，将通道数变为原始维度，提取尽量多的信息而不引入过多参数。融合后的特征输入到全连接层完成最后的分类任务。

5、模型集成

模型集成在传统机器学习中是很好地提升模型效果的手段，其通过组合多种弱分类器为一个模型，能得到比强分类器更佳的效果，在进入深度学习时代以后，尽管深度学习模型普遍是强分类器模型，但是模型集成仍有广泛使用用途，常用的方法为加权重、投票等boosting方法。本发明采用不同的数据增强方式及训练手段训练了三个不同的多模态分类模型，记为model1、model2、model3，现按投票方式进行集成，数学表达如下：

Score＝(a*model1+b*model2+c*model3)/(a+b+c)

其中a、b、c＝{0,1}，通过在测试集上进行验证，选出score最高的值对应a、b、c。

本实施例提出了种基于多模态的甲状腺结节自动识别模型构建方法，通过本实施例提出一种数据对齐方式，对齐三种甲状腺超声图像灰阶、彩超、弹性不同模态下图像区域；本实施例以病例为单位，对整个病例进行相同尺度的数据增强，基于超声图像灰度的先验信息引入弹性图像转为灰度；本实施例提出使用ResNet提取三种模态特征，针对弹性图像多张不兼容预训练模型，提取替换输入层以适配；本实施例提出使用修改后的bottleneck(瓶颈)结构融合三种模态信息，降低参数量；本实施例提出使用投票的方式集成三种不同数据增强及训练方式的模型，提升模型效果；本实施例通过将待识别图像输入到所构建的模型中，得到甲状腺结节识别结果，提升甲状腺良恶性自动识别效果，进行甲状腺癌的自动筛查工作，提升检出率，降低误检率。

基于同一发明构思，如图4所示，本发明实施例提供了一种基于上述甲状腺结节自动识别模型的甲状腺结节自动识别方法，所述识别方法包括：

S100、获取待识别图像；

S200、将所述待识别图像输入到所述目标模型中，得到甲状腺结节识别结果。

基于同一发明构思，本发明实施例还提供了一种基于多模态的甲状腺结节自动识别模型构建装置，可以用于实现上述实施例中所描述的基于多模态的甲状腺结节自动识别模型构建方法，如下面实施例所述。由于该基于多模态的甲状腺结节自动识别模型构建装置解决问题的原理与一种基于多模态的甲状腺结节自动识别模型构建方法相似，因此一种基于多模态的甲状腺结节自动识别模型构建装置的实施可以参见一种基于多模态的甲状腺结节自动识别模型构建方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图5所示，所述模型构建装置包括：

目标数据获取模块20，用于对多组图像数据进行预处理得到目标数据，其中，所述多组图像数据中的每例数据均包括多张灰阶图像、彩超图像及弹性图像三种模态图像；

多模态模型构建模块40，用于通过使用所述目标数据输入预先训练的三个多模态模型得到多模态特征图，并对所述多模态特征图进行卷积融合；其中，预先训练的三个多模态模型均为卷积神经网络ResNet，通过第一卷积神经网络ResNet提取灰阶图像和彩超图像特征，通过第二卷积神经网络ResNet提取弹性图像特征；

集成模块60，用于通过投票方式将所述三个多模态模型进行集成得到目标模型。

如图6所示，本发明实施例提供了一种基于上述甲状腺自动识别模型的甲状腺结节自动识别装置，其特征在于，所述识别装置包括：

获取模块100，用于获取待识别图像；

识别模块200，用于将所述待识别图像输入到所述目标模型中，得到甲状腺结节识别结果。

本申请实施例还提供了一种电子设备，图7示出了可以应用本申请实施例的电子设备的结构示意图，如图7所示，该计算机电子设备包括，中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中一种基于多模态的甲状腺自动识别模型构建装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入电子设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的基于多模态的甲状腺自动识别模型构建方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多模态的甲状腺结节自动识别模型构建方法，其特征在于，所述模型构建方法包括以下步骤：

2.根据权利要求1所述的模型构建方法，其特征在于，所述对多组图像数据进行预处理得到目标数据包括：

3.根据权利要求2所述的模型构建方法，其特征在于，数据集整理对齐还包括，将噪声信息裁剪以防模型学偏；在三种模态图像加入噪声加强模型训练强度，以提升模型鲁棒性。

4.根据权利要求3所述的模型构建方法，其特征在于，所述模型构建方法还包括，针对弹性图像多张不兼容预训练模型，提取替换输入层以适配。

5.根据权利要求2所述的模型构建方法，其特征在于，对所述多模态特征图进行卷积融合包括：

6.一种基于权利要求1-5任一项所述甲状腺结节自动识别模型的甲状腺结节自动识别方法，其特征在于，所述识别方法包括：

获取待识别图像；

7.一种基于多模态的甲状腺结节自动识别模型构建装置，其特征在于，所述模型构建装置包括：

8.一种基于权利要求1-5任一项所述甲状腺自动识别模型的甲状腺结节自动识别装置，其特征在于，所述识别装置包括：

获取模块，用于获取待识别图像；

9.一种电子设备，包括：

处理器，用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。