CN118038052A

CN118038052A - 一种基于多模态扩散模型的抗差异医学图像分割方法

Info

Publication number: CN118038052A
Application number: CN202410256193.0A
Authority: CN
Inventors: 王浩宇
Original assignee: Institute of Advanced Technology University of Science and Technology of China
Current assignee: Institute of Advanced Technology University of Science and Technology of China
Priority date: 2024-03-06
Filing date: 2024-03-06
Publication date: 2024-05-14

Abstract

本发明公开了一种基于多模态扩散模型的抗差异医学图像分割方法。本发明步骤如下:1、实验数据的预处理；2、构建医学图像分割网络MMDSN；3、训练MMDSN网络模型；4、利用完成训练的MMDSN网络模型进行多评估者推理。本发明所设计的一种基于多模态扩散模型的抗差异医学图像分割方法利用深度学习技术和多模态扩散模型，可以解决医学图像分割中的评估者差异性问题，准确分割影像中的病灶，具有很高的实际应用价值。

Description

一种基于多模态扩散模型的抗差异医学图像分割方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于多模态扩散模型的抗差异医学图像分割方法。

背景技术

医学图像分割是诊断疾病和评估肿瘤边界的重要工具。目前，基于深度学习的医学图像分割方法常常融合语言模态来提升分割的准确性。然而，这些方法只依赖于单一评估者对多模态数据的解读，这会带来个体评估者的偏见问题。在临床实际中，通常会采用多个评估者共同进行图像分割，以减少由个人偏好所引入的偏见，从而降低个体差异的影响。虽然多评估者学习策略在减少分割错误方面具有潜力，但由于评估者之间以及评估者自身的不一致性，这种方法在多模态医学图像分割领域中没有得到应用。评估者之间的诊断水平和经验的不同会导致评估者间的差异，而同一评估者在不同时间对同一图像区域进行分割时，也会出现内部差异。

发明内容

为克服现有技术不足，本发明提出一种基于多模态扩散模型的抗差异医学图像分割方法。实现了医学图像中的病灶分割。具体的步骤如下：

步骤1、实验数据的预处理，对采集到的医学影像数据进行预处理；

步骤2、构建医学图像分割网络MMDSN；

步骤3、训练MMDSN网络模型；

步骤4、利用完成训练的MMDSN网络模型进行多评估者推理。

所述步骤1具体包括以下步骤：

步骤1.1对医学图像进行裁剪；

步骤1.2对裁剪后的图像进行数据增强；

步骤1.3划分训练集、验证集和测试集。

所述步骤2包括以下步骤：

步骤2.1构建文本编码器，从输入文本中提取语义信息；

对于输入的文本信息，我们首先进行分词，得到文本向量T。然后文本向量T经过文本编码器进行特征提取得到文本的高维表示文本编码器的具体结构如下：

首先，对于分词后得到的文本向量T会通过嵌入层被转换为固定大小的向量，同时，每个向量会被加上位置编码，从而得到嵌入向量。

进一步的，嵌入向量会经过Transformer层，在这个层中，每个token都会关注输入序列中的其它所有token，并计算一个加权和，权重反映了其它token对当前token的重要性。

进一步的，Transformer层的输出会通过层归一化，得到文本的高维表示，这个表示捕捉了文本中的语义信息。

步骤2.2图像前向加噪；

输入的医学影像掩膜x₀会被高斯随机噪声扰动，并且迭代的添加噪声，使数据样本模糊和不确定，噪声添加过程如下：

其中β_t是用来调整高斯噪声的方差，I是单位矩阵，t是时间步，x_t是原始图像掩膜x₀加噪t个时间步后的图像。也可以使用x₀直接获得第t个时间步的加噪图像，表示如下：

其中α_t＝1-β_t，且是标准高斯随机噪声。

步骤2.3构建图像特征提取头；

对于输入的医学影像X和加噪t个时间步的加噪图像掩膜x_t，首先进行通道维度的拼接，然后将拼接后的图像送入图像特征提取头得到Y₀。图像特征提取头由卷积块组成。

步骤2.4构建U型视觉Transformer分支，该分支由四层Transformer编码器和四层Transformer解码器组成；

具体来说，图像特征Y₀和文本特征送入第一层视觉Transformer编码器，该编码器由视觉Transformer组成。首先，输入图像Y₀被切分为N个大小相同的图像块，然后将每个图像块展平通过一个线性层转换为D维的向量。然后将Y₀与位置编码和文本特征/>相加，然后计算自我注意力后，经过层归一化得到每一层编码器的输出，记为Y_{1_down},Y_{2_down},Y_{3_down},Y_{4_down}。

进一步的，第四层编码器的输出特征Y_{4_down}会依次经过第四层解码器、第三次解码器、第二次解码器和第一层解码器，解码器由双线性插值层和卷积层组成，每一层解码器都会有输出特征，记为

步骤2.5构建U型网络分支；

该分支由四层编码器、解码器和视觉图模块组成，用于预测当前第t个时间步的分割掩膜；具体来说，输入的图像特征Y₀会首先经过四层编码器，每一层编码器由残差块和下采样块组成。残差块结构如下：

首先对于输入的时间嵌入t，即加噪步数，首先经过SiLU激活函数和线性层得到时间向量。输入的图像特征Y₀会依次经过Group normalization层、SiLU激活函数层和卷积层得到输出特征，然后输出特征与时间向量相加后再经过Group normalization层、SiLU激活函数层和卷积层得到输出特征。最终特征再经过下采样得到该层编码器的输出特征，每一层编码器都会有输出特征，记为Z_{1_down},Z_{2_down},Z_{3_down},Z_{4_down}。

U型网络分支第四层编码器输出特征与U型视觉Transformer第四层解码器输出特征/>在送入U型网络分支第四层解码器之前，会送入视觉语言图模块进行特征融合，其中C和N是特征的维度表示，视觉语言图模块的具体结构如下：

首先计算Z_{4_down}与之间的亲和力矩阵，表示如下：

其中是可学习的权重矩阵，/>是亲和力矩阵。

进一步的，对亲和力矩阵进行标准化，然后Z_{4_down}和/>经过图卷积神经网络进行特征提取，具体表示如下：

其中concat是通道维度的拼接操作，GCN是图卷积神经网络。然后Z_{4_new}与Y_{4_new}再进行通道维度的拼接，拼接后的特征会送入U型网络分支第四层解码器得到然后与/>再次送入视觉语言图模块进行特征融合，得到的融合特征会送入U型网络分支的第三层解码器。经过四次解码操作后，得到第t个时间步预测的原始图像掩膜/>解码器由残差块和上采样层组成。

步骤2.6潜在高斯分布建模，我们将第t个时间步预测的图像掩膜与医学影像X进行通道维度的拼接后，送入一个先验分布映射函数f_θ，该函数将特征映射到一个高斯分布上，其均值为/>方差为/>表示如下：

其中z_q是先验高斯分布，f_θ是先验分布映射函数，该函数由卷积层组成，生成先验高斯分布。

进一步的，我们将真实的原始图像掩码x₀与医学影像X进行通道维度的拼接后，送入一个后验分布映射函数f_η，该函数将特征映射到一个高斯分布上，其均值为μ(x₀,X；f_η)∈R^N，方差为σ(x₀,X；f_η)∈R^N×N。表示如下：

其中z_p是后验高斯分布，f_η是后验分布映射函数，该函数由卷积层组成，生成后验高斯分布。

所述步骤3包括以下步骤：

步骤3.1计算MMDSN的损失函数，第一个损失函数是预测的掩码和真实掩码x₀之间的均方误差，表示如下：

其中x₀是真实掩码，是第t个时间步预测的掩码。

第二个损失函数是扩散模型的变分下限损失，表示如下：

其中是总的变分下限损失,/>是第t个时间步的变分下限损失。/>和/>是初始时间步和最后一个时间步的变分下限损失,D_KL是KL散度计算。

第三个损失函数是潜在高斯分布建模的损失函数，表示如下：

其中D_KL是KL散度计算函数，z_p是后验潜在高斯分布，z_q是先验潜在高斯分布，是潜在高斯分布建模的损失函数。

最终的损失函数由三个损失函数相加得到：

其中是最终的损失函数。

步骤3.2在训练过程中使用AdamW优化器；

所述步骤4包括以下步骤：

步骤4.1评估者分布采样；

当多个评估者对同一图像进行分割时，由于经验或技能水平的不同，存在评估者间的差异。我们从随机分布中采样M个分布，模拟M个评估者的差异，表示如下：

其中r代表了评分者的序号，q(g|r)是采样的第r个评分者的分布。

步骤4.2输出每个评估者的预测掩膜；

我们将采样的随机噪声q(g|r)和原始影像X送入MMDSN网络来迭代预测分割的掩膜，评估者在每个时间步都会产生分割掩膜最终每个评估者生成的掩膜通过每个时间步的预测掩膜指数加权得到，表示如下:

其中是第t个时间步预测的原始图像掩码，α是权重，/>是第k个评估者的分割结果。

步骤4.3融合所有评估者的预测掩膜

M个评估者的分割结果会经过一个多评估者一致性模块，得到最终唯一的分割掩码，多评估者一致性模块表示如下：

其中是评估者k在位置(i,j)上的分割结果，S是阈值，/>是汇总M个评估者的最终分割掩膜。

附图说明

图1为MMDSN的网络结构图。

图2为MMDSN的实际应用效果。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

为了解决医学图像分割上的问题，我们提出了一种基于多模态扩散模型的抗差异医学图像分割方法。具体而言，该网络利用深度学习技术和多模态扩散模型，可以准确地分割病灶。首先，我们引入了文本编码器，提取文本中的语义信息。然后，我们引入了视觉语言图模块进行多模态特征提取和融合。然后，我们引入潜在高斯分布建模约束评估者之间的差异。最后，将每个评估者的多个时间步预测结果送入多评估者一致性模块，得到最终的预测掩膜。

实施例1实验数据的预处理。

(1)对医学图像进行裁剪。

(2)对裁剪后的图像进行数据增强。

(3)划分数据集为训练集、验证集和测试集。

实施例2构建MMDSN网络模型。

(1)构建文本编码器，从输入文本中提取语义信息。

(2)图像前向加噪，对于输入的医学影像掩膜x₀进行高斯随机噪声扰动。

(3)构建图像特征提取头。

(4)构建U型视觉Transformer分支，该分支由四层Transformer编码器和四层Transformer解码器组成。

(5)构建U型网络分支，该分支由四层编码器、解码器和视觉语言图模块组成。

(6)进行潜在高斯分布建模。

实施例3训练MMDSN网络模型。

(1)计算MMDSN的损失函数，MMDSN的损失函数由MSE、变分下限和潜在高斯分布建模组成。

(2)采用AdamW优化器优化MMDSN。

实施例4利用完成训练的MMDSN网络模型进行多评估者推理。

(1)评估者分布采样。

(2)输出每个评估者的预测掩膜。

(3)融合所有评估者的预测掩膜。

Claims

1.一种基于多模态扩散模型的抗差异医学图像分割方法，其特征在于包括如下步骤：

步骤2、构建医学图像分割网络MMDSN；

步骤3、训练MMDSN网络模型；

步骤4、利用完成训练的MMDSN网络模型进行多评估者推理。

2.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于所述步骤2包括以下步骤：

步骤2.1构建文本编码器，从输入文本中提取语义信息；

步骤2.2图像前向加噪,输入的医学影像掩膜x₀会被高斯随机噪声扰动，并且迭代的添加噪声，使数据样本模糊和不确定，噪声添加过程如下：

其中β_t是用来调整高斯噪声的方差，I是单位矩阵，t是时间步，x_t是原始图像掩膜x₀加噪t个时间步后的图像；

步骤2.3构建图像特征提取头,对于输入的医学影像X和加噪t个时间步的加噪图像掩膜x_t，首先进行通道维度的拼接，然后将拼接后的图像送入图像特征提取头得到Y₀，图像特征提取头由卷积块组成；

步骤2.5构建U型网络分支，该分支由四层Transformer编码器和四层Transformer解码器组成；

步骤2.6潜在高斯分布建模。

3.根据权利要求2所述的一种基于多模态扩散模型的抗差异医学图像分割方法，其特征在于步骤2.5具体实现如下：

U型网络分支由四层编码器、解码器和视觉图模块组成，用于预测当前第t个时间步的分割掩膜具体来说，输入的图像特征Y₀会首先经过四层编码器，每一层编码器由残差块和下采样块组成；残差块结构如下：

首先对于输入的时间嵌入t，即加噪步数，首先经过SiLU激活函数和线性层得到时间向量；输入的图像特征Y₀会依次经过Group normalization层、SiLU激活函数层和卷积层得到输出特征，然后输出特征与时间向量相加后再经过Group normalization层、SiLU激活函数层和卷积层得到输出特征；最终特征再经过下采样得到该层编码器的输出特征，每一层编码器都会有输出特征，记为Z_{1_}d_own,Z_{2_down},Z_{3_down},Z_{4_down}；

首先计算Z_{4_down}与之间的亲和力矩阵，表示如下：

其中是可学习的权重矩阵，/>是亲和力矩阵；

其中concat是通道维度的拼接操作，GCN是图卷积神经网络；然后Z_{4_new}与Y_{4_new}再进行通道维度的拼接，拼接后的特征会送入U型网络分支第四层解码器得到然后/>与再次送入视觉语言图模块进行特征融合，得到的融合特征会送入U型网络分支的第三层解码器；经过四次解码操作后，得到第t个时间步预测的原始图像掩膜/>解码器由残差块和上采样层组成。

4.根据权利要求2所述的一种基于多模态扩散模型的抗差异医学图像分割方法，其特征在于步骤2.6具体实现如下：

将第t个时间步预测的图像掩膜与医学影像X进行通道维度的拼接后，送入一个先验分布映射函数f_θ，该函数将特征映射到一个高斯分布上，其均值为/>方差为表示如下：

其中z_q是先验高斯分布，f_θ是先验分布映射函数，该函数由卷积层组成，生成先验高斯分布；

进一步的，将真实的原始图像掩码x₀与医学影像X进行通道维度的拼接后，送入一个后验分布映射函数f_η，该函数将特征映射到一个高斯分布上，其均值为μ(x₀,X；f_η)∈R^N，方差为σ(x₀,X；f_η)∈R^N×N；表示如下：

5.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于所述步骤3包括以下步骤：

其中x₀是真实掩码，是第t个时间步预测的掩码，/>是均方误差损失函数；

第二个损失函数是扩散模型的变分下限损失，表示如下：

其中是总的变分下限损失,/>是第t个时间步的变分下限损失；/>和/>是初始时间步和最后一个时间步的变分下限损失,D_KL是KL散度计算；

其中D_KL是KL散度计算函数，z_p是后验潜在高斯分布，z_q是先验潜在高斯分布，是潜在高斯分布建模的损失函数；

最终的损失函数由三个损失函数相加得到：

其中是最终的损失函数；

步骤3.2在训练过程中使用AdamW优化器。

6.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于所述步骤4包括以下步骤：

步骤4.1评估者分布采样；

当多个评估者对同一图像进行分割时，由于经验或技能水平的不同，存在评估者间的差异；从随机分布中采样M个分布，模拟M个评估者的差异，表示如下：

其中r代表评分者的序号，q(g|r)是采样的第r个评分者的分布；

步骤4.2输出每个评估者的预测掩膜；

将采样的随机噪声q(g|r)和原始影像X送入MMDSN网络来迭代预测分割的掩膜，评估者在每个时间步都会产生分割掩膜最终每个评估者生成的掩膜通过每个时间步的预测掩膜指数加权得到，表示如下:

其中是第t个时间步预测的原始图像掩码，α是权重，/>是第k个评估者的分割结果；

步骤4.3融合所有评估者的预测掩膜