CN118038052A - 一种基于多模态扩散模型的抗差异医学图像分割方法 - Google Patents
一种基于多模态扩散模型的抗差异医学图像分割方法 Download PDFInfo
- Publication number
- CN118038052A CN118038052A CN202410256193.0A CN202410256193A CN118038052A CN 118038052 A CN118038052 A CN 118038052A CN 202410256193 A CN202410256193 A CN 202410256193A CN 118038052 A CN118038052 A CN 118038052A
- Authority
- CN
- China
- Prior art keywords
- mask
- image
- follows
- layer
- medical image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000003709 image segmentation Methods 0.000 title claims abstract description 19
- 238000009792 diffusion process Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000009826 distribution Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 38
- 230000011218 segmentation Effects 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000003902 lesion Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多模态扩散模型的抗差异医学图像分割方法。本发明步骤如下:1、实验数据的预处理;2、构建医学图像分割网络MMDSN;3、训练MMDSN网络模型;4、利用完成训练的MMDSN网络模型进行多评估者推理。本发明所设计的一种基于多模态扩散模型的抗差异医学图像分割方法利用深度学习技术和多模态扩散模型,可以解决医学图像分割中的评估者差异性问题,准确分割影像中的病灶,具有很高的实际应用价值。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于多模态扩散模型的抗差异医学图像分割方法。
背景技术
医学图像分割是诊断疾病和评估肿瘤边界的重要工具。目前,基于深度学习的医学图像分割方法常常融合语言模态来提升分割的准确性。然而,这些方法只依赖于单一评估者对多模态数据的解读,这会带来个体评估者的偏见问题。在临床实际中,通常会采用多个评估者共同进行图像分割,以减少由个人偏好所引入的偏见,从而降低个体差异的影响。虽然多评估者学习策略在减少分割错误方面具有潜力,但由于评估者之间以及评估者自身的不一致性,这种方法在多模态医学图像分割领域中没有得到应用。评估者之间的诊断水平和经验的不同会导致评估者间的差异,而同一评估者在不同时间对同一图像区域进行分割时,也会出现内部差异。
发明内容
为克服现有技术不足,本发明提出一种基于多模态扩散模型的抗差异医学图像分割方法。实现了医学图像中的病灶分割。具体的步骤如下:
步骤1、实验数据的预处理,对采集到的医学影像数据进行预处理;
步骤2、构建医学图像分割网络MMDSN;
步骤3、训练MMDSN网络模型;
步骤4、利用完成训练的MMDSN网络模型进行多评估者推理。
所述步骤1具体包括以下步骤:
步骤1.1对医学图像进行裁剪;
步骤1.2对裁剪后的图像进行数据增强;
步骤1.3划分训练集、验证集和测试集。
所述步骤2包括以下步骤:
步骤2.1构建文本编码器,从输入文本中提取语义信息;
对于输入的文本信息,我们首先进行分词,得到文本向量T。然后文本向量T经过文本编码器进行特征提取得到文本的高维表示文本编码器的具体结构如下:
首先,对于分词后得到的文本向量T会通过嵌入层被转换为固定大小的向量,同时,每个向量会被加上位置编码,从而得到嵌入向量。
进一步的,嵌入向量会经过Transformer层,在这个层中,每个token都会关注输入序列中的其它所有token,并计算一个加权和,权重反映了其它token对当前token的重要性。
进一步的,Transformer层的输出会通过层归一化,得到文本的高维表示,这个表示捕捉了文本中的语义信息。
步骤2.2图像前向加噪;
输入的医学影像掩膜x0会被高斯随机噪声扰动,并且迭代的添加噪声,使数据样本模糊和不确定,噪声添加过程如下:
其中βt是用来调整高斯噪声的方差,I是单位矩阵,t是时间步,xt是原始图像掩膜x0加噪t个时间步后的图像。也可以使用x0直接获得第t个时间步的加噪图像,表示如下:
其中αt=1-βt,且是标准高斯随机噪声。
步骤2.3构建图像特征提取头;
对于输入的医学影像X和加噪t个时间步的加噪图像掩膜xt,首先进行通道维度的拼接,然后将拼接后的图像送入图像特征提取头得到Y0。图像特征提取头由卷积块组成。
步骤2.4构建U型视觉Transformer分支,该分支由四层Transformer编码器和四层Transformer解码器组成;
具体来说,图像特征Y0和文本特征送入第一层视觉Transformer编码器,该编码器由视觉Transformer组成。首先,输入图像Y0被切分为N个大小相同的图像块,然后将每个图像块展平通过一个线性层转换为D维的向量。然后将Y0与位置编码和文本特征/>相加,然后计算自我注意力后,经过层归一化得到每一层编码器的输出,记为Y1_down,Y2_down,Y3_down,Y4_down。
进一步的,第四层编码器的输出特征Y4_down会依次经过第四层解码器、第三次解码器、第二次解码器和第一层解码器,解码器由双线性插值层和卷积层组成,每一层解码器都会有输出特征,记为
步骤2.5构建U型网络分支;
该分支由四层编码器、解码器和视觉图模块组成,用于预测当前第t个时间步的分割掩膜;具体来说,输入的图像特征Y0会首先经过四层编码器,每一层编码器由残差块和下采样块组成。残差块结构如下:
首先对于输入的时间嵌入t,即加噪步数,首先经过SiLU激活函数和线性层得到时间向量。输入的图像特征Y0会依次经过Group normalization层、SiLU激活函数层和卷积层得到输出特征,然后输出特征与时间向量相加后再经过Group normalization层、SiLU激活函数层和卷积层得到输出特征。最终特征再经过下采样得到该层编码器的输出特征,每一层编码器都会有输出特征,记为Z1_down,Z2_down,Z3_down,Z4_down。
U型网络分支第四层编码器输出特征与U型视觉Transformer第四层解码器输出特征/>在送入U型网络分支第四层解码器之前,会送入视觉语言图模块进行特征融合,其中C和N是特征的维度表示,视觉语言图模块的具体结构如下:
首先计算Z4_down与之间的亲和力矩阵,表示如下:
其中是可学习的权重矩阵,/>是亲和力矩阵。
进一步的,对亲和力矩阵进行标准化,然后Z4_down和/>经过图卷积神经网络进行特征提取,具体表示如下:
其中concat是通道维度的拼接操作,GCN是图卷积神经网络。然后Z4_new与Y4_new再进行通道维度的拼接,拼接后的特征会送入U型网络分支第四层解码器得到然后与/>再次送入视觉语言图模块进行特征融合,得到的融合特征会送入U型网络分支的第三层解码器。经过四次解码操作后,得到第t个时间步预测的原始图像掩膜/>解码器由残差块和上采样层组成。
步骤2.6潜在高斯分布建模,我们将第t个时间步预测的图像掩膜与医学影像X进行通道维度的拼接后,送入一个先验分布映射函数fθ,该函数将特征映射到一个高斯分布上,其均值为/>方差为/>表示如下:
其中zq是先验高斯分布,fθ是先验分布映射函数,该函数由卷积层组成,生成先验高斯分布。
进一步的,我们将真实的原始图像掩码x0与医学影像X进行通道维度的拼接后,送入一个后验分布映射函数fη,该函数将特征映射到一个高斯分布上,其均值为μ(x0,X;fη)∈RN,方差为σ(x0,X;fη)∈RN×N。表示如下:
其中zp是后验高斯分布,fη是后验分布映射函数,该函数由卷积层组成,生成后验高斯分布。
所述步骤3包括以下步骤:
步骤3.1计算MMDSN的损失函数,第一个损失函数是预测的掩码和真实掩码x0之间的均方误差,表示如下:
其中x0是真实掩码,是第t个时间步预测的掩码。
第二个损失函数是扩散模型的变分下限损失,表示如下:
其中是总的变分下限损失,/>是第t个时间步的变分下限损失。/>和/>是初始时间步和最后一个时间步的变分下限损失,DKL是KL散度计算。
第三个损失函数是潜在高斯分布建模的损失函数,表示如下:
其中DKL是KL散度计算函数,zp是后验潜在高斯分布,zq是先验潜在高斯分布,是潜在高斯分布建模的损失函数。
最终的损失函数由三个损失函数相加得到:
其中是最终的损失函数。
步骤3.2在训练过程中使用AdamW优化器;
所述步骤4包括以下步骤:
步骤4.1评估者分布采样;
当多个评估者对同一图像进行分割时,由于经验或技能水平的不同,存在评估者间的差异。我们从随机分布中采样M个分布,模拟M个评估者的差异,表示如下:
其中r代表了评分者的序号,q(g|r)是采样的第r个评分者的分布。
步骤4.2输出每个评估者的预测掩膜;
我们将采样的随机噪声q(g|r)和原始影像X送入MMDSN网络来迭代预测分割的掩膜,评估者在每个时间步都会产生分割掩膜最终每个评估者生成的掩膜通过每个时间步的预测掩膜指数加权得到,表示如下:
其中是第t个时间步预测的原始图像掩码,α是权重,/>是第k个评估者的分割结果。
步骤4.3融合所有评估者的预测掩膜
M个评估者的分割结果会经过一个多评估者一致性模块,得到最终唯一的分割掩码,多评估者一致性模块表示如下:
其中是评估者k在位置(i,j)上的分割结果,S是阈值,/>是汇总M个评估者的最终分割掩膜。
附图说明
图1为MMDSN的网络结构图。
图2为MMDSN的实际应用效果。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
为了解决医学图像分割上的问题,我们提出了一种基于多模态扩散模型的抗差异医学图像分割方法。具体而言,该网络利用深度学习技术和多模态扩散模型,可以准确地分割病灶。首先,我们引入了文本编码器,提取文本中的语义信息。然后,我们引入了视觉语言图模块进行多模态特征提取和融合。然后,我们引入潜在高斯分布建模约束评估者之间的差异。最后,将每个评估者的多个时间步预测结果送入多评估者一致性模块,得到最终的预测掩膜。
实施例1实验数据的预处理。
(1)对医学图像进行裁剪。
(2)对裁剪后的图像进行数据增强。
(3)划分数据集为训练集、验证集和测试集。
实施例2构建MMDSN网络模型。
(1)构建文本编码器,从输入文本中提取语义信息。
(2)图像前向加噪,对于输入的医学影像掩膜x0进行高斯随机噪声扰动。
(3)构建图像特征提取头。
(4)构建U型视觉Transformer分支,该分支由四层Transformer编码器和四层Transformer解码器组成。
(5)构建U型网络分支,该分支由四层编码器、解码器和视觉语言图模块组成。
(6)进行潜在高斯分布建模。
实施例3训练MMDSN网络模型。
(1)计算MMDSN的损失函数,MMDSN的损失函数由MSE、变分下限和潜在高斯分布建模组成。
(2)采用AdamW优化器优化MMDSN。
实施例4利用完成训练的MMDSN网络模型进行多评估者推理。
(1)评估者分布采样。
(2)输出每个评估者的预测掩膜。
(3)融合所有评估者的预测掩膜。
Claims (6)
1.一种基于多模态扩散模型的抗差异医学图像分割方法,其特征在于包括如下步骤:
步骤1、实验数据的预处理,对采集到的医学影像数据进行预处理;
步骤2、构建医学图像分割网络MMDSN;
步骤3、训练MMDSN网络模型;
步骤4、利用完成训练的MMDSN网络模型进行多评估者推理。
2.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于所述步骤2包括以下步骤:
步骤2.1构建文本编码器,从输入文本中提取语义信息;
步骤2.2图像前向加噪,输入的医学影像掩膜x0会被高斯随机噪声扰动,并且迭代的添加噪声,使数据样本模糊和不确定,噪声添加过程如下:
其中βt是用来调整高斯噪声的方差,I是单位矩阵,t是时间步,xt是原始图像掩膜x0加噪t个时间步后的图像;
步骤2.3构建图像特征提取头,对于输入的医学影像X和加噪t个时间步的加噪图像掩膜xt,首先进行通道维度的拼接,然后将拼接后的图像送入图像特征提取头得到Y0,图像特征提取头由卷积块组成;
步骤2.4构建U型视觉Transformer分支,该分支由四层Transformer编码器和四层Transformer解码器组成;
步骤2.5构建U型网络分支,该分支由四层Transformer编码器和四层Transformer解码器组成;
步骤2.6潜在高斯分布建模。
3.根据权利要求2所述的一种基于多模态扩散模型的抗差异医学图像分割方法,其特征在于步骤2.5具体实现如下:
U型网络分支由四层编码器、解码器和视觉图模块组成,用于预测当前第t个时间步的分割掩膜具体来说,输入的图像特征Y0会首先经过四层编码器,每一层编码器由残差块和下采样块组成;残差块结构如下:
首先对于输入的时间嵌入t,即加噪步数,首先经过SiLU激活函数和线性层得到时间向量;输入的图像特征Y0会依次经过Group normalization层、SiLU激活函数层和卷积层得到输出特征,然后输出特征与时间向量相加后再经过Group normalization层、SiLU激活函数层和卷积层得到输出特征;最终特征再经过下采样得到该层编码器的输出特征,每一层编码器都会有输出特征,记为Z1_down,Z2_down,Z3_down,Z4_down;
U型网络分支第四层编码器输出特征与U型视觉Transformer第四层解码器输出特征/>在送入U型网络分支第四层解码器之前,会送入视觉语言图模块进行特征融合,其中C和N是特征的维度表示,视觉语言图模块的具体结构如下:
首先计算Z4_down与之间的亲和力矩阵,表示如下:
其中是可学习的权重矩阵,/>是亲和力矩阵;
进一步的,对亲和力矩阵进行标准化,然后Z4_down和/>经过图卷积神经网络进行特征提取,具体表示如下:
其中concat是通道维度的拼接操作,GCN是图卷积神经网络;然后Z4_new与Y4_new再进行通道维度的拼接,拼接后的特征会送入U型网络分支第四层解码器得到然后/>与再次送入视觉语言图模块进行特征融合,得到的融合特征会送入U型网络分支的第三层解码器;经过四次解码操作后,得到第t个时间步预测的原始图像掩膜/>解码器由残差块和上采样层组成。
4.根据权利要求2所述的一种基于多模态扩散模型的抗差异医学图像分割方法,其特征在于步骤2.6具体实现如下:
将第t个时间步预测的图像掩膜与医学影像X进行通道维度的拼接后,送入一个先验分布映射函数fθ,该函数将特征映射到一个高斯分布上,其均值为/>方差为表示如下:
其中zq是先验高斯分布,fθ是先验分布映射函数,该函数由卷积层组成,生成先验高斯分布;
进一步的,将真实的原始图像掩码x0与医学影像X进行通道维度的拼接后,送入一个后验分布映射函数fη,该函数将特征映射到一个高斯分布上,其均值为μ(x0,X;fη)∈RN,方差为σ(x0,X;fη)∈RN×N;表示如下:
其中zp是后验高斯分布,fη是后验分布映射函数,该函数由卷积层组成,生成后验高斯分布。
5.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于所述步骤3包括以下步骤:
步骤3.1计算MMDSN的损失函数,第一个损失函数是预测的掩码和真实掩码x0之间的均方误差,表示如下:
其中x0是真实掩码,是第t个时间步预测的掩码,/>是均方误差损失函数;
第二个损失函数是扩散模型的变分下限损失,表示如下:
其中是总的变分下限损失,/>是第t个时间步的变分下限损失;/>和/>是初始时间步和最后一个时间步的变分下限损失,DKL是KL散度计算;
第三个损失函数是潜在高斯分布建模的损失函数,表示如下:
其中DKL是KL散度计算函数,zp是后验潜在高斯分布,zq是先验潜在高斯分布,是潜在高斯分布建模的损失函数;
最终的损失函数由三个损失函数相加得到:
其中是最终的损失函数;
步骤3.2在训练过程中使用AdamW优化器。
6.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于所述步骤4包括以下步骤:
步骤4.1评估者分布采样;
当多个评估者对同一图像进行分割时,由于经验或技能水平的不同,存在评估者间的差异;从随机分布中采样M个分布,模拟M个评估者的差异,表示如下:
其中r代表评分者的序号,q(g|r)是采样的第r个评分者的分布;
步骤4.2输出每个评估者的预测掩膜;
将采样的随机噪声q(g|r)和原始影像X送入MMDSN网络来迭代预测分割的掩膜,评估者在每个时间步都会产生分割掩膜最终每个评估者生成的掩膜通过每个时间步的预测掩膜指数加权得到,表示如下:
其中是第t个时间步预测的原始图像掩码,α是权重,/>是第k个评估者的分割结果;
步骤4.3融合所有评估者的预测掩膜
M个评估者的分割结果会经过一个多评估者一致性模块,得到最终唯一的分割掩码,多评估者一致性模块表示如下:
其中是评估者k在位置(i,j)上的分割结果,S是阈值,/>是汇总M个评估者的最终分割掩膜。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410256193.0A CN118038052A (zh) | 2024-03-06 | 2024-03-06 | 一种基于多模态扩散模型的抗差异医学图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410256193.0A CN118038052A (zh) | 2024-03-06 | 2024-03-06 | 一种基于多模态扩散模型的抗差异医学图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118038052A true CN118038052A (zh) | 2024-05-14 |
Family
ID=90985678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410256193.0A Pending CN118038052A (zh) | 2024-03-06 | 2024-03-06 | 一种基于多模态扩散模型的抗差异医学图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038052A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118228743A (zh) * | 2024-05-24 | 2024-06-21 | 北京语言大学 | 一种基于文图注意力机制的多模态机器翻译方法及装置 |
-
2024
- 2024-03-06 CN CN202410256193.0A patent/CN118038052A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118228743A (zh) * | 2024-05-24 | 2024-06-21 | 北京语言大学 | 一种基于文图注意力机制的多模态机器翻译方法及装置 |
CN118228743B (zh) * | 2024-05-24 | 2024-09-20 | 北京语言大学 | 一种基于文图注意力机制的多模态机器翻译方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN111402257B (zh) | 一种基于多任务协同跨域迁移的医学图像自动分割方法 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN118038052A (zh) | 一种基于多模态扩散模型的抗差异医学图像分割方法 | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN116258652B (zh) | 基于结构注意和文本感知的文本图像修复模型及方法 | |
CN114821050B (zh) | 一种基于transformer的指称图像分割方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN112949628B (zh) | 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法 | |
CN111460883A (zh) | 基于深度强化学习的视频行为自动描述方法 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
EP2115737B1 (en) | Method and system to improve automated emotional recognition | |
CN113657355A (zh) | 一种融合分割信息的全局局部感知行人重识别方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN116228785A (zh) | 一种基于改进的Unet网络的肺炎CT影像分割方法 | |
CN110659572B (zh) | 基于双向特征金字塔的视频动作检测方法 | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
CN114821299A (zh) | 一种遥感图像变化检测方法 | |
CN117672218A (zh) | 基于多头注意力机制和时延神经网络的语音识别方法 | |
CN117521765A (zh) | 一种基于掩模对比表示学习的数据训练方法及系统 | |
CN113313700A (zh) | 一种基于深度学习的x射线图像交互式分割方法 | |
CN115995002B (zh) | 一种网络构建方法及城市场景实时语义分割方法 | |
CN112765978A (zh) | 一种针对多人多轮对话场景的对话图重构方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |