CN114283127B

CN114283127B - 一种多模态信息指导的医学图像分割系统及图像处理方法

Info

Publication number: CN114283127B
Application number: CN202111524363.1A
Authority: CN
Inventors: 李玉军; 胡喜风; 刘治; 曹艳坤; 陶可猛
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2024-04-23
Anticipated expiration: 2041-12-14
Also published as: CN114283127A

Abstract

本公开提出了一种多模态信息指导的医学图像分割系统及图像处理方法，基于文本信息的指导进而更新视觉图像特征表示，然后通过门控融合模块将多模态特征进行融合，建立了文本和图像这两种模态信息之间的联系，使用文本指导图像分割，两种模态信息相互作用，而不是简单的将文本信息和图像信息融合，较高层的特征为底层特征提供全局和语义指导，底层特征为较高层的特征提供局部和更精细的信息，使用文本指导图像分割，两种模态信息相互作用，提高了图像分割的准确性。

Description

一种多模态信息指导的医学图像分割系统及图像处理方法

技术领域

本公开涉及智能医疗信息技术相关技术领域，具体的说，是涉及一种多模态信息指导的医学图像分割系统及图像分割方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

动脉粥样硬化(Atherosclerosis,AS)是缺血性心脏病和中风的主要原因，导致全球范围内的高死亡率和发病率。颈部动脉斑块是颈部动脉粥样硬化的典型症状，多形成于颈总动脉分叉处。当颈动脉不稳定斑块脱落或破裂后容易引起心血管栓塞和颈动脉的急性闭塞，进而引发心梗甚至脑卒中。颈动脉斑块的准确评估对于相关的诊断和预后非常重要。目前，常规超声是一种非侵入性成像方法，已被广泛用于颈动脉斑块的检测和测量。

通常情况下，颈动脉斑块的分割是由具备专业知识的医学专家手动完成，但手动分割耗时长且分割效果多会依赖操作者的临床经验。通过将自然图像分割等深度学习算法应用到超声图像中能够有效的解决颈动脉斑块分割的问题。现有的医学图像分割方法通常是仅基于视觉区域进行分割算法的研究，而没有考虑到视觉和语言之间的相互指导，基于单模态的颈动脉超声图像的分割常常会出现斑块定位不准确等问题。

发明内容

本公开为了解决上述问题，提出了一种多模态信息指导的医学图像分割系统及图像分割方法，基于文本信息的指导进而更新视觉图像特征表示，然后通过门控融合模块将多模态特征进行融合，建立了文本和图像这两种模态信息之间的联系，使用文本指导图像分割，两种模态信息相互作用，而不是简单的将文本信息和图像信息融合，较高层的特征为底层特征提供全局和语义指导，底层特征为较高层的特征提供局部和更精细的信息，使用文本指导图像分割，两种模态信息相互作用，提高了图像分割的准确性。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了一种多模态信息指导的医学图像分割系统，包括：

图像特征提取模块，被配置为用于对输入图像进行编码，提取图像特征；

文本特征编码模块，被配置为用于采用双向语言模型来对文本信息进行向量化表示；

跨模态信息融合模块，被配置为用于建立图像特征、文本向量编码和空间坐标特征之间的连接，根据连接关系更新图像特征后重新捕捉图像信息，将捕捉的图像信息采用门控融合函数融合，获得图像分割结果。

一个或多个实施例提供了一种多模态信息指导的医学图像分割方法，包括如下步骤：

获取图像以及对图像的描述的文本信息；

对获取的图像进行编码，提取图像特征；

对获取的文本信息进行编码，获得文本向量编码；

建立图像特征、文本向量编码和空间坐标特征之间的连接，根据连接关系更新图像特征后重新捕捉图像信息，将捕捉的图像信息采用门控融合函数融合，获得图像分割结果。

一种终端设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，执行以下步骤：

获取图像以及对图像的描述的文本信息；

对获取的图像进行编码，提取图像特征；

对获取的文本信息进行编码，获得文本向量编码；

与现有技术相比，本公开的有益效果为：

(1)本公开提供了一种端到端的颈动脉斑块分割系统，该系统将颈动脉超声图像和图像的文本描述作为输入，结合深度学习方法，对相应特征进行提取、融合后输出斑块的分割结果。该方法能够节约时间成本，大大提高了图像分割的准确性，为医生提供有效的参考信息，为相关的诊断和预后提供帮助。

(2)本公开建立了文本信息与图像区域的关系，充分理解语言与视觉之间的关系，基于文本信息的指导进而更新视觉特征表示，丰富了目标区域的上下文表示，更一致地突出超声图像中要分割的目标区域。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1的系统的框图；

图2是本公开实施例1的跨模态信息融合模块配置图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

近几年，基于深度学习的图像分割方法发展迅速，但是，医学图像分割与深度学习的结合存在以下问题：

(1)医学影像信息被数字化进一步用于影像数据的挖掘是非常耗时的过程，分割任务中需要有相关经验或知识的医生进行目标区域标注。这往往导致数据规模小，标注质量差等问题，极大地影响深度神经网络的学习和训练。

(2)目前大多医学图像分割模型仅针对影像数据进行方法的改进和探索，对于多个模态共同指导分割的研究较少，只考虑视觉因素不能对目标区域的分割进行综合学习，相关数据也未被充分挖掘利用。

(3)对于视觉特征与语言特征的融合，一些方法直接将提取后的特征进行连接用于生成分割目标，这样简单的将多模态特征进行融合不仅会使特征冗余，还会忽略跨模态数据之间的相互作用，使目标定位不精确。

实施例1

在一个或多个实施方式公开的技术方案中，如图1所示，一种多模态信息指导的医学图像分割系统，包括图像特征提取模块、文本特征编码模块和跨模态信息融合模块；

文本特征编码模块，被配置为用于采用双向语言模型bert来对文本信息进行向量化表示；

本系统将颈动脉超声图像和图像的文本描述作为输入，结合深度学习方法，对相应特征进行提取、融合后输出斑块的分割结果。能够节约时间成本，大大提高了图像分割的准确性，为医生提供有效的参考信息，为相关的诊断和预后提供帮助。

进一步的技术方案，还包括：

数据获取模块：被配置为获得图像以及针对图像描述的文本信息，具体的，文本信息可以直接通过键盘输入，也可以是预存的文件包。

图像具体的可以为超声波图像，还包括超声波检测设备，数据获取模块与超声波检测设备通信连接。

进一步地，还包括数据预处理模块，被配置为通过旋转、镜像等对影像或图像数据进行增强，并对数据做归一化处理。

在一些实施例中，图像特征提取模块采用ResNet101网络对输入图像进行编码，ResNet网络利用深度残差学习构建深层次网络解决网络深度增加时出现的梯度消失和梯度爆炸的问题，更好地提取图像特征。

可选的，文本特征编码模块为双向语言模型bert，模型的核心由BERT Encoder组成，BERT Encoder由多层BERT Layer组成，每一层的BERT Layer其实都是Transformer中的Encoder Block。每一个encoder层包含两层，一个自注意力机制层一个前馈神经网络层。

可选的，跨模态信息融合模块，如图2所示，被配置为执行以下步骤：

步骤3-1、根据文本信息对每个图像区域的重要性，建立了文本信息与图像特征之间的关系，对图像特征提取模块输出的图像特征表示进行更新；

由于文本信息中的每个单词对图像中不同区域的重要性不同，因此按照如下公式计算第n单词对图像中的第i个区域的重要性，文本信息T＝{t1,t2,…tn}。文本信息对每个图像区域的重要性的计算公式，可以如下：

其中，v_i是图像特征，t_N是采用双向语言模型bert连接的LSTM最后一个隐藏层的输出，s_i是空间坐标，w₁是可学习参数。代表了第n个单词对视觉图像中第i个区域的重要性。

以上建立了文本信息与图像特征之间的关系，其中，LSTM，为Long Short-TermMemory简称，即为长短期记忆网络。

设I_j为第j个区域的图像特征，则图像中不同区域之间的关系可由如下公式定义，图像中i、j区域之间的联系如下：

其中，w₂，w₃，w₄均为可学习参数，代表了第j个区域对应的文本特征对第i个区域的重要性。

然后对图像特征(即视觉特征)表示进行更新：

步骤3-2)针对更新后的图像特征，采用多个比例捕捉图像信息；

具体的，可以采用空洞空间卷积池化金字塔(ASPP)，以不同采样率的空洞卷积并行采样，扩大感受野，以多个比例捕捉图像信息。

步骤3-3)融合输出：针对捕捉图像信息，采用门控融合函数进行融合以生成分割目标，按照分割目标进行分割获得图像分割结果。

颈动脉斑块的分割通常会出现斑块边界分割不精确的问题，将池化金字塔的输出不是进行简单的连接，本实施例中，采用门控融合函数对空洞空间卷积池化金字塔的输出进行融合，期望较低层的特征为较高层的特征提供局部和精细的指导。其中较底层的特征是指网络中底层的layer输出的特征，较高层次的特征指网络较高层的layer输出的特征。

采用门控融合函数进行融合的公式，如下：

其中p_i,p_j，p_k为空洞空间卷积池化金字塔的输出,G(i,j)为门控函数，f_output为最后的输出。

本实施例采用空洞空间卷积池化金字塔，以不同采样率的空洞卷积并行采样，扩大感受野并嵌入多尺度上下文信息。用门控融合函数对空洞空间卷积池化金字塔的输出进行融合，使局部分割更加精细。

实施例2

基于实施例1，本实施例提供一种多模态信息指导的医学图像分割方法，包括如下步骤：

步骤1、获取图像以及对图像的描述的文本信息；

步骤2、对获取的图像进行编码，提取图像特征；

步骤3、对获取的文本信息进行编码，获得文本向量编码；

步骤4、建立图像特征、文本向量编码和空间坐标特征之间的连接，根据连接关系更新图像特征后重新捕捉图像信息，将捕捉的图像信息采用门控融合函数融合，获得图像分割结果。

步骤1中，获得图像以及针对图像描述的文本信息，具体的，文本信息可以直接通过键盘输入，也可以是预存的文件包。

进一步的，还包括数据预处理步骤：通过旋转、镜像等对影像或图像数据进行增强，并对数据做归一化处理。

图像特征提取，具体的，采用ResNet101网络对输入图像进行编码，ResNet网络利用深度残差学习构建深层次网络解决网络深度增加时出现的梯度消失和梯度爆炸的问题，更好地提取图像特征。

步骤4中，为跨模态信息融合的步骤，同实施例1中的步骤(3-1)-步骤(3-3)。

实施例3

基于实施例1，本实施例提供一种终端设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，执行以下步骤：

步骤1、获取图像以及对图像的描述的文本信息；

步骤2、对获取的图像进行编码，提取图像特征；

步骤3、对获取的文本信息进行编码，获得文本向量编码；

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种多模态信息指导的医学图像分割系统，其特征是，包括：

跨模态信息融合模块，被配置为用于建立图像特征、文本向量编码和空间坐标特征之间的连接，根据连接关系更新图像特征后重新捕捉图像信息，将捕捉的图像信息采用门控融合函数融合，获得图像分割结果；

根据文本信息对每个图像区域的重要性，建立文本信息与图像特征之间的关系，其中，文本信息对每个图像区域重要性的计算公式为：

其中，是图像特征，/>是采用双向语言模型bert连接的LSTM最后一个隐藏层的输出，是空间坐标，/>是可学习参数；/>代表了第n个单词对视觉图像中第i个区域的重要性；文本信息T = {t1, t2, …tn}。

2.如权利要求1所述的一种多模态信息指导的医学图像分割系统，其特征是：采用残差网络对输入图像进行编码，提取图像特征。

3.如权利要求1所述的一种多模态信息指导的医学图像分割系统，其特征是：采用双向语言模型来对文本信息进行向量化表示。

4.如权利要求1所述的一种多模态信息指导的医学图像分割系统，其特征是：数据获取模块：被配置为获得图像以及针对图像描述的文本信息；

或者，还包括超声波检测设备，数据获取模块与超声波检测设备通信连接。

5.如权利要求1所述的一种多模态信息指导的医学图像分割系统，其特征是：还包括数据预处理模块，被配置为通过旋转、镜像方法图像数据进行增强，并对数据做归一化处理。

6.如权利要求1所述的一种多模态信息指导的医学图像分割系统，其特征是：跨模态信息融合模块，被配置为执行以下步骤：

根据文本信息对每个图像区域的重要性，建立了文本信息与图像特征之间的关系，对图像特征提取模块输出的图像特征表示进行更新；

针对更新后的图像特征，采用多个比例捕捉图像信息；

针对捕捉图像信息，采用门控融合函数进行融合以生成分割目标，按照分割目标进行分割获得图像分割结果。

7.如权利要求1所述的一种多模态信息指导的医学图像分割系统，其特征是：针对更新后的图像特征，采用多个比例捕捉图像信息，具体的：采用空洞空间卷积池化金字塔，以不同采样率的空洞卷积并行采样。

8.一种多模态信息指导的医学图像分割方法，其特征是，包括如下步骤：

获取图像以及对图像的描述的文本信息；

对获取的图像进行编码，提取图像特征；

对获取的文本信息进行编码，获得文本向量编码；

建立图像特征、文本向量编码和空间坐标特征之间的连接，根据连接关系更新图像特征后重新捕捉图像信息，将捕捉的图像信息采用门控融合函数融合，获得图像分割结果；

9.如权利要求8所述的一种多模态信息指导的医学图像分割方法，其特征是：

建立图像特征、文本向量编码和空间坐标特征之间的连接，根据连接关系更新图像特征后重新捕捉图像信息，将捕捉的图像信息采用门控融合函数融合，获得图像分割结果，包括如下步骤：

针对更新后的图像特征，采用多个比例捕捉图像信息；

10.一种终端设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，其特征是，所述计算机指令被处理器运行时，执行以下步骤：

获取图像以及对图像的描述的文本信息；

对获取的图像进行编码，提取图像特征；

对获取的文本信息进行编码，获得文本向量编码；