CN111984772A

CN111984772A - 一种基于深度学习的医疗影像问答方法及系统

Info

Publication number: CN111984772A
Application number: CN202010719316.1A
Authority: CN
Inventors: 李冠彬; 陈冠锜
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-24
Anticipated expiration: 2040-07-23
Also published as: CN111984772B

Abstract

本发明公开一种基于深度学习的医疗影像问答方法及系统，所述方法包括：采用多任务预训练方法，利用非医疗影像问答数据训练视觉编码器；导入预先训练好的模型权重，获取医疗影像以及对应的问题；通过视觉编码器提取医疗影像的视觉特征，并根据视觉特征图的尺寸，定义空间特征；通过文本编码器提取文本特征；通过跨模态自注意力模块对视觉、空间和文本特征进行融合，得到多模态特征；将多模态特征输入多层感知机中推断出估计的答案；根据估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算损失，更新模型参数；采用不同的医疗影像和不同的问题多次迭代式地进行上述过程直至符合停止条件。本发明能够提升医疗影像问答的准确率。

Description

一种基于深度学习的医疗影像问答方法及系统

技术领域

本发明涉及计算机视觉和自然语言处理技术领域，尤其涉及一种基于深度学习的医疗影像问答方法及系统。

背景技术

医疗影像问答是指给定一张医疗影像以及与其相关的问题，需要根据医疗影像的内容来回答问题。近几年，这项任务受到越来越多的关注。

当前医疗影像问答系统一般参照视觉问答系统进行设计，许多医疗影像问答系统采用卷积神经网络来提取图像的特征，并利用长短期记忆网络或者基于Transformer的模型来提取问题的特征，然后利用已有的跨模态融合策略来对提取得到的两个模态的特征进行结合。例如：J.J.Lau等人在2018年的研究工作“A dataset of clinically generatedvisual questions and answers about radiology images”(Scientific data,pages 1-10,2018)尝试使用了MCB和SAN两种为自然图像的视觉问答系统设计的跨模态特征融合策略。与基于自然图像的视觉问答系统相比，医疗影像问答系统需要理解医疗术语并关注医疗影像中相应的视觉内容。然而，现有的医疗影像问答系统并没有意识到这些问题的严重性，而是直接借鉴了基于自然图像的视觉问答系统的技术，这导致了系统的预测准确性的瓶颈。

除此之外，医疗影像问答任务还受到数据量少的局限，许多研究工作都需要借助迁移学习来获得有效的图像特征表示。X.Yan等人在2019年的研究工作“Zhejianguniversity at imageclef 2019visual question answering in the medical domain”(Working Notes of CLEF，2019)使用在ImageNet数据集上预训练得到的VGGNet来编码医疗影像。I.Allaouzi等人在2019年的研究工作“An encoder-decoder model for visualquestion answering in the medical domain”(Working Notes of CLEF，2019)利用一个大型的胸部X射线影像数据集CheXpert来预训练DenseNet-121作为视觉特征编码器。此外，B.D.Nguyen等人在2019年的研究工作“Overcoming data limitation in medical visualquestion answering”(International Conference on Medical Image Computing andComputer-AssistedIntervention，pages 522-530，2019)利用大量没有标注的医疗影像通过重建任务来预训练其无监督去噪自动编码器。然而，现有的工作没有考虑到用于跨模态融合的特征的兼容性和适用性。

发明内容

为克服上述现有技术存在的不足，本发明的目的在于提供一种基于深度学习的医疗影像问答方法及系统，通过有效地利用额外的数据来解决医疗影像问答数据量少的问题，并高效地融合视觉和文本两个不同模态的特征，从而提升医疗影像问答的准确率。

第一方面，本发明实施例提供一种基于深度学习的医疗影像问答方法，包括：

S1、采用多任务预训练方法，利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器；

S2、导入预先训练好的模型权重，获取医疗影像以及对应的问题；

S3、通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征；通过文本编码器提取文本特征；

S4、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合，得到多模态特征；

S5、将所述多模态特征输入到所述多层感知机中推断出估计的答案；

S6、根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失；

S7、根据所述交叉熵损失更新所述模型参数；

S8、采用不同的医疗影像和不同的问题多次迭代式地进行S2-S7步骤，直至符合停止条件。

进一步地，在所述通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征之前，还包括，对所述医疗影像和问答数据分别进行预处理，具体为：

将所述医疗影像随机裁剪成预设地固定大小；

将所述问题的单词数目缩减或增加到预设的数目。

进一步地，所述通过文本编码器提取所述问题的文本特征，包括：

通过词嵌入模型对所述问题中的单词映射得到词向量；

根据所述词向量，通过长短期记忆网络建模序列信息，得到所述问题的文本特征。

进一步地，所述跨模态自注意力模块能通过学习和利用长期的上下文相关性来融合所述视觉特征、空间特征和文本特征。

进一步地，所述视觉编码器包括，N个子视觉编码器和M个医疗影像分类器，其中，N大于1，M大于等于1。

进一步地，当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时，所述通过所述视觉编码器提取所述医疗影像的视觉特征，具体为：

采用所述医疗影像分类器的输出对所有所述子视觉编码器提取的特征进行加权组合，得到所述视觉特征。

所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器，所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器；其中，所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同；所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同；所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。

进一步地，所述多任务包括图像理解任务、问题与图像匹配任务；其中，所述图像理解任务为分割任务或者分类任务；

所述子视觉编码器的训练方法为：

从非医疗影像数据集中获取一张图像，以及从医疗影像数据集中随机抽取一个问题；

从所述非医疗影像问答数据集中获取所述图像对应的图像理解任务的标注；

获取所述问题与图像匹配任务的标注；

通过子视觉编码器提取所述图像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征；

通过文本编码器提取所述问题文本特征；

将所述视觉特征输入到特定图像理解任务对应的解码器进行解码，得到对应任务的结果；

通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合，得到多模态特征；

将所述多模态特征输入到分类器中，得到所述问题与所述图像的估计匹配度；

根据所述估计的匹配度与所述问题与图像匹配任务的标注、所述结果和所述图像理解任务的标注计算交叉熵损失，更新模型参数；

采用非医疗影像问答数据集中不同的图像和医疗影像问答数据集中不同的问题多次迭代式地进行上述所有步骤的训练过程，直至符合停止条件。

第二方面，本发明实施例提供一种基于深度学习的医疗影像问答系统，包括：

预训练单元，用于采用多任务预训练方法，利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器；

预处理单元，用于导入预先训练好的模型权重，获取医疗影像以及对应的问题；

特征提取单元，用于通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征；通过文本编码器提取文本特征；

特征融合单元，用于通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合，得到多模态特征；

估计答案生成单元，用于将所述多模态特征输入到所述多层感知机中推断出估计的答案；

总交叉熵损失计算单元，用于根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失；

更新单元，用于根据所述交叉熵损失更新所述模型参数；

迭代训练单元，用于采用不同的医疗影像和不同的问题多次迭代式地执行预处理单元-更新单元，直至符合停止条件。

进一步地，所述预处理单元还用于，在所述通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征之前，对所述医疗影像和问答数据分别进行预处理，具体为：

将所述医疗影像随机裁剪成预设地固定大小；

将所述问题的单词数目缩减或增加到预设的数目

相比于现有技术，本发明实施例的有益效果在于：

本发明实施例通过采用采用多任务预训练方法，利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器；导入预先训练好的模型权重，获取医疗影像以及对应的问题；通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征；通过文本编码器提取文本特征；通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合，得到多模态特征；将所述多模态特征输入到所述多层感知机中推断出估计的答案；根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失；根据所述交叉熵损失更新模型参数；采用不同的医疗影像和不同的问题多次迭代式地进行训练过程直至符合停止地条件。本发明实施例通过有效地利用额外地数据来解决医疗影像问答数据量少的问题，并高效地融合了视觉和文本两个不同模态的特征，从而提升了医疗影像问答的准确率。

附图说明

图1是本发明实施例提供的一种基于深度学习的医疗影像问答方法的流程图；

图2是本发明实施例提供的医疗影像问答模型的结构图；

图3是本发明实施例中进行多任务预训练的模型结构图；

图4是本发明实施例提供的一种基于深度学习的医疗影像问答系统的系统架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于深度学习的医疗影像问答方法，包括步骤S1-S8：

S2、导入预先训练好的模型权重，从医疗影像数据集中获取医疗影像以及对应的问题；

S7、根据所述交叉熵损失更新所述模型参数；

作为本发明实施例的一种举例，步骤S1中，所述视觉编码器包括，N个子视觉编码器和M个医疗影像分类器，其中，N大于1，M大于等于1。

作为本发明实施例的一种举例，当所述视觉编码器包括，N个子视觉编码器和M个医疗影像分类器时，所述子视觉编码器的训练方法包括S101-S108：

S101、从非医疗影像数据集中获取一张图像，以及从医疗影像数据集中随机抽取一个问题；

S102、从所述非医疗影像问答数据集中获取所述图像对应的图像理解任务的标注；其中，所述图像理解认为为分割任务或分类任务；

S103、获取所述问题与图像匹配任务的标注；

在本发明实施例中，可通过判断在所述医疗影像问答数据集中是否存在由所述抽取的问题与给出的影像所对应的器官构成的问题图像对获得所述问题与图匹配任务的标注，无需手工标注。

S104、通过子视觉编码器提取所述图像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征；通过文本编码器提取所述问题文本特征；

S105、将所述视觉特征输入到特定图像理解任务对应的解码器进行解码，得到对应任务的结果；

S106、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合，得到多模态特征；

S107、将所述多模态特征输入到分类器中，得到所述问题与所述图像的估计匹配度；

S108、根据所述估计的匹配度与所述问题与图像匹配任务的标注、所述结果和所述图像理解任务的标注计算交叉熵损失，更新模型参数；

S109、采用非医疗影像问答数据集中不同的图像和医疗影像问答数据集中不同的问题多次迭代式地进行步骤S101-步骤S108的训练过程，直至符合停止条件。

由上可见，通过所述子视觉编码器的训练方法，采用不同的非医疗影像问答数据集能够得到多个不同权重的子视觉编码器。

作为本发明实施例的一种举例，步骤S1中，所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器，所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器；其中，所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同；所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同；所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。

优选的，所述子视觉编码器采用K.He等人的研究工作“Deep residual learningfor image recognition”(In Proceedings of the IEEE conference on computervision and pattern recognition，pages 770-778，2016)中的ResNet-34模型，所述医疗影像分类器由卷积层、两个最大值池化层、两个全连接层、四个批量标准化层、一个随机失活层以及ReLU激活函数构成。由于本发明实施例的第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同，即本发明实施例一共使用了三个非医疗影像问答数据集，故在此步骤能得到三个预训练好的ResNet-34模型。

当所述子视觉编码器采用的是K.He等人的研究工作“Deep residual learningfor image recognition”(In Proceedings of the IEEE conference on computervision andpattern recognition，pages 770-778，2016)中的ResNet-34模型，所述文本编码器包括词嵌入模型和长短期记忆网络时，进行多任务预训练的模型结构图如图3所示。

作为本发明实施例地一种举例，所述三个预训练好的ResNet-34模型分别用于提取头部、胸部和腹部影像的视觉特征，所述医疗分类器用于将所述医疗影像分成三个类别——头部、胸部和腹部。

步骤S2中，导入的模型权重是步骤S1中视觉编码器的权重以及预训练好的词嵌入模型的权重，

作为本发明实施例的一种举例，当所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器时，导入的权重则是第一个子视觉编码器的权重、第二子视觉编码器的权重、第三子视觉编码器的权重、医疗影像分类器器的权重以及训练好的词嵌入模型的权重。优选地，导入三个预训练好的ResNet-34模型的权重，和Y.Zhang等人研究工作“Biowordvec,improving biomedical word embeddings with subword information andmesh”(Scientific data，pages 1-9,2019)的词嵌入模型的权重。

作为本发明实施例的一种举例，在步骤S3之前，即在所述通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征之前，还包括，对所述医疗影像和问答数据分别进行预处理，具体为：

将所述医疗影像随机裁剪成预设地固定大小；优选地，裁剪为224×224；

将所述问题的单词数目缩减或增加到预设的数目；优选地，是所述问题包含的单词数目为12。

将所述图像随机裁剪成预设地固定大小；优选地，裁剪为224×224；

作为本发明实施例的一种举例，当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时，所述通过所述视觉编码器提取所述医疗影像的视觉特征，具体为：

作为本发明实施例的一种举例，步骤S3中，当所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器时，且所述三个子视觉编码器分别用于提取腹部的影像特征、头部的影像特征和胸部的影像特征时，所述医疗影像分类器根据其输出权重按下列公式对所述三个子视觉编码器得到的特征进行加权组合：

v＝w₁v_a+w₂v_h+w₃v_c

其中，v_a、v_h、v_c分别表示用于提取腹部、头部、胸部影像的特征的子视觉编码器的输出；w是医疗影像分类器输出的权重向量，该向量和为1。

在本发明实施例中，优选地，所述子视觉编码器采用的是K.He等人的研究工作“Deep residual learning for image recognition”(In Proceedings of the IEEEconference on computer vision and pattern recognition，pages 770-778，2016)中的ResNet-34模型。

作为本发明实施例的一种举例，步骤S3中，所述空间特征用于编码特图的左上角、中心、右下角、宽度和高度的标准化坐标。

图2是其中一种医疗影像问答模型的结构图，包括视觉编码器、文本编码器、跨模态自注意力模块以及多层感知机；所述视觉编码器由三个ResNet34模型和一个医疗影像分类器构成，所述文本编码器由词嵌入模型和长短期记忆网络组成，所述跨模态自注意力模块接收视觉编码器输出的视觉特征、文本编码器输出的文本特征以及定义的空间特征。

在本发明实施例中，在进入多层感机中之前，视觉特征的维度为7×7×512，空间特征的维度为7×7×8，文本特征的维度为12×1024。对于问题中每个单词，将其特征表示与每个空间位置上的视觉与空间特征拼接起来，然后将得到的所有拼接特征串联起来，得到多模态特征F，其维度为12×7×7×1544。之后，本发明将利用自注意力机制在多模态特征F上捕获非局部的上下文信息，进而更好地融合多模态的信息。

自注意力机制首先对多模态特征F采用三个1×1×1卷积进行线性变换，得到三个特征Q、K、V，它们的维度都是12×7×7×772。之后，将其维度调整成588×772，并利用特征Q和K按以下的公式来计算注意力图A：

A＝soft max(QK^T)

其中，注意力图A的维度为588×588，表示不同位置的特征之间的相关性。然后，利用注意力图A与特征V相乘，得到增强后的多模态特征F'，其维度为588×772。之后，将多模态特征F'的维度进行调整，并使用1×1×1卷积来恢复特征的通道数目，得到维度为12×7×7×1544的多模态特征F′。进一步地，通过多模态特征F'进行如下地残差链接和平均池化操作得到最终地多模态特征

其中，i、j、k为特征图F'前三个维度的下标，用于索引单词数、特征图的高和宽、特征F'的维度为12x1544。之后，将多模态特征

线性转换成维度与文本特征q一致的特征，与文本特征q相加，并沿着单词数那一维度累加，输入到2层的感知机中生成估计的答案，如下面公式所示：

其中，MLP为多层感知机，s表示在候选答案中各答案的预测分数，通过选取分数最高的哪一个候选答案即为模型最终预测的答案。

于步骤S6中，所述根据估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失，具体地：

根据所述估计的答案和实际的答案计算第一交叉熵损，根据所述估计的医疗影像类型和实际的医疗影像类型计算第二交叉熵损失算；

根据所述第一交叉熵损失、第二交叉熵损失以及平衡所述第一交叉熵损失和第二交叉熵损失的超参计算总交叉熵损失。

所述计算所述总交叉熵损失的公式为：

L＝L_vqa+aL_type

其中，a为平衡第一交叉熵损失和第二交叉熵损失的超参计算总交叉熵损失，L_vqa为第一交叉熵损失，L_type为第二交叉熵损失。优选地，a设为0.5。

综上所述，本发明实施例提供一种基于深度学习的医疗影像问答方法，通过采用采用多任务预训练方法，利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器；导入预先训练好的模型权重，获取医疗影像以及对应的问题；通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征；通过文本编码器提取文本特征；通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合，得到多模态特征；将所述多模态特征输入到所述多层感知机中推断出估计的答案；根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失；根据所述交叉熵损失更新模型参数；采用不同的医疗影像和不同的问题多次迭代式地进行训练过程直至符合停止地条件。本发明实施例通过有效地利用额外地数据来解决医疗影像问答数据量少的问题，并高效地融合了视觉和文本两个不同模态的特征，从而提升了医疗影像问答的准确率。

请参阅图4，本发明实施例还提供一种基于深度学习的医疗影像问答系统，包括：

预训练单元401，用于采用多任务预训练方法，利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器；

预处理单元402，用于导入预先训练好的模型权重，从医疗影像数据集中获取医疗影像以及对应的问题；

特征提取单元403，用于通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征；通过文本编码器提取文本特征；

特征融合单元404，用于通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合，得到多模态特征；

估计答案生成单元405，用于将所述多模态特征输入到所述多层感知机中推断出估计的答案；

总交叉熵损失计算单元406，用于根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失；

更新单元407，用于根据所述交叉熵损失更新模型参数；

迭代训练单元408，用于采用不同的医疗影像和不同的问题多次迭代式地执行预处理单元401-更新单元407，直至符合停止条件。

将所述医疗影像随机裁剪成预设地固定大小；

将所述问题的单词数目缩减或增加到预设的数目。

需要说明的是，由于本发明实施例基于深度学习的医疗影像问答系统是于基于深度学习的医疗影像问答方法意义对应的系统项，因此本发明实施例基于深度学习的医疗影像问答系统的内容不再做过多赘述。

相比于现有技术，本发明实施例的有益效果在于：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于深度学习的医疗影像问答方法，其特征在于，包括：

S7、根据所述交叉熵损失更新所述模型参数；

2.根据权利要求1所述的基于深度学习的医疗影像问答方法，其特征在于，在所述通过所述视觉编码器提取所述医疗影像的视觉特征，并根据视觉特征图的尺寸，定义一组空间特征之前，还包括，对所述医疗影像和问答数据分别进行预处理，具体为：

将所述医疗影像随机裁剪成预设地固定大小；

将所述问题的单词数目缩减或增加到预设的数目。

3.根据权利要求1或2所述的基于深度学习的医疗影像问答方法，其特征在于，所述通过文本编码器提取所述问题的文本特征，包括：

通过词嵌入模型对所述问题中的单词映射得到词向量；

4.根据权利要求1或2所述的基于深度学习的医疗影像问答方法，其特征在于，

所述跨模态自注意力模块能通过学习和利用长期的上下文相关性来融合所述视觉特征、空间特征和文本特征。

5.根据权利要求1或2所述的基于深度学习的医疗影像问答方法，其特征在于，所述视觉编码器包括，N个子视觉编码器和M个医疗影像分类器，其中，N大于1，M大于等于1。

6.根据权利要求1或2所述的基于深度学习的医疗影像问答方法，其特征在于，当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时，所述通过所述视觉编码器提取所述医疗影像的视觉特征，具体为：

7.根据权利要求6所述的基于深度学习的医疗影像问答方法，其特征在于，所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器，所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器；其中，所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同；所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同；所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。

8.根据权利要求5所述的基于深度学习的医疗影像问答方法，其特征在于，所述多任务包括图像理解任务、问题与图像匹配任务；其中，所述图像理解任务为分割任务或者分类任务；

所述子视觉编码器的训练方法为：

获取所述问题与图像匹配任务的标注；

通过文本编码器提取所述问题文本特征；

根据所述估计的匹配度与所述问题与图像匹配任务的标注、所述结果和所述图像理解任务的标注计算交叉熵损失，更新所述模型参数；

9.根据权利要求6所述的基于深度学习的医疗影像问答方法，其特征在于，所述多任务包括图像理解任务、问题与图像匹配任务；其中，所述图像理解任务为分割任务或者分类任务；

所述子视觉编码器的训练方法为：

获取所述问题与图像匹配任务的标注；

通过文本编码器提取所述问题文本特征；

10.一种基于深度学习的医疗影像问答系统，其特征在于，包括：

预处理单元，用于导入预先训练好的模型权重，从医疗影像数据集中获取医疗影像以及对应的问题；

更新单元，用于根据所述交叉熵损失更新模型参数；