CN115862837A

CN115862837A - 一种基于类型推理与语义约束的医学视觉问答方法

Info

Publication number: CN115862837A
Application number: CN202111114091.8A
Authority: CN
Inventors: 何小海; 王美玲; 刘露平; 卿粼波; 陈洪刚; 任超; 吴小强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2023-03-28

Abstract

本发明公开一种基于类型推理和语义约束的医学视觉问答方法研究。医学视觉问答模型可大致分为图片特征提取、问题特征提取、多模态特征融合和损失函数设计四个模块，各个模块之间相互关联，紧密结合。在已有的医学视觉问答模型的基础上，本发明提出了基于类型推理和答案语义约束的新型医学视觉问答模型，以问题类型推理为基础，构建联合语义空间为核心，设计一个新的损失函数来约束模型进行训练，最终完成答案的预测。本发明基于先进的人工智能技术，结合医学背景的特点和实际应用的需求，设计了一个先进的医学视觉问答模型。本发明的方法在医学智能问诊，辅助临床决策及影像培训等方面均有广阔的应用前景。

Description

一种基于类型推理与语义约束的医学视觉问答方法

技术领域

本发明设计了一种基于类型推理与语义约束的医学视觉问答方法，涉及图像处理和自然语言处理的交叉领域。

背景技术

随着人工智能(AI)的快速发展，临床决策支持也迎来了新的机遇。目前，图像诊断的主要任务是图像识别、病变检测和良恶性判断。医学视觉问答(Medical VisualQuestion Answering，Med-VQA)因缺乏详细的医学图像注释数据集，所以目前的研究工作相对较少。Med-VQA是一个特殊的领域问题，其目的是通过考虑放射图像和临床问题来检索正确的答案。本发明旨在设计一个高可靠性的医学视觉问答系统，除了支持临床教学，为临床医生提供决策支持外，还可以帮助患者根据医学影像报告更好地了解自身的健康状况。从临床医学与人工智能的结合角度来看，医学视觉问答具有广阔的应用前景。但由于专业知识和数据资源的限制，医学视觉问答的相关技术仍处于初级发展阶段。因此，我们可以借鉴通用视觉问答任务中的先进解决方案。

近年来，通用VQA在跨媒体表达和交互领域受到关注，吸引了计算机视觉和自然语言处理领域的许多专家和学者的关注。通用视觉问答的目标是回答与真实图像相关的问题。例如，给定一张图片，图中有几个人在船上，学生和医生都可以快速回答“船上有多少人？”一般情况下，通用视觉问答任务包含简单的问题，如“树叶是什么颜色？”和一些具有挑战性的问题，如“图像中的紫色物体可以用来做什么？”。由此可见，对于不同类型的问题视觉问答模型需要不同的推理模块来自动推理并准确作答。

与通用领域的视觉问答任务相比，医学视觉问答更具挑战性。我们设计的Med-VQA模型是用来解决健康和安全的问题，因此它要求更高的准确性和安全性。然而由于隐私问题，大量医疗数据通常很难获取。其次，医学视觉问答涉及多模态影像(MRI、X-Ray、CT等)和多样化的临床问题，如图1所示，因此需要具备专业的医学图像读片知识，才能做出准确的推断并给出正确的答案。另外，利用深度学习训练高效的网络模型需要大量准确的标注数据。医学视觉问答的数据也需要对医学专业知识进行准确的注释，因而，获取医疗数据集需要时间、精力和金钱。据现有的调研工作可知，目前只有一个手动标注的公开医学视觉问答数据集VQA-RAD。与通用领域的医学视觉问答数据集相比，医疗视觉问答数据集非常有限。因此，我们不能直接使用一些先进的VQA模型来处理医学视觉问答问题。

为此，大量的学者针对医学领域的视觉问答任务提出了先进的图片特征提取模块，问题特征提取模块和多模态特征融合模块等方法。这些方法主要是针对不同模式特征提取方法的改进，没有关注重要的模态数据——答案中的丰富信息。此外，他们还忽略了一个重要的问题，那就是不同类型的问题关注不同的信息。针对这一问题，本发明提出了一种基于类型推理和语义空间约束的医学视觉问答框架。首先，根据问答对类型，在训练数据集中训练一个问题分类器，并使用它对所有问题进行分类。其次，将医学视觉问答模型的预测结果与参考答案映射到同一个语义空间中。然后，我们计算它们之间的余弦距离来约束模型进行训练。

发明内容

本发明针对医学视觉问答任务，提出了一种基于类型推理和语义约束的医学视觉问答方法。该方法主要分为图片特征提取、问题特征提取、多模态特征融合和损失函数设计四个模块。本发明采用了多任务预训练模型(MTPT)中相应的ResNet-34网络进行图片特征提取。在问题特征提取模块，本发明设计了类型推理框架，通过1024维的LSTM提取特征的同时将临床问题进行封闭式和开放式二分类。然后通过多模态融合特征模块将对应的多模态特征进行融合，并输入分类器中进行分类。在损失函数设计阶段，本发明构建了一个基于候选答案集的联合语义空间，通过语义损失函数和交叉熵损失函数设计模型的损失函数，来引导模型进行训练。

VQA-RAD数据集是目前公开的一个有专业医务人员手工标注的数据集，在医学视觉问答领域中，大多数先进的模型都选用该数据来进行方法性能的验证。该数据包含头部MRI、胸部X-Ray和腹部CT共计351张放射科图像和相关的3,515个临床问题。每张图片相关的问题平均有10个。所有的问题主要分为封闭式问题和开放式两种形式。我们的模型在数据集VQA-RAD上取得了较好的实验结果，并通过对类型推理和语义约束模块进行了消融实验分析，验证了本发明方法的合理性。

本发明通过以下技术方案来实现上述目的：

1、步骤(一)中将输入的放射科图片通过多任务预训练模型MTPT进行图片形态的分类，然后将其输入到对应的ResNet-34网络进行图片特征提取，得到图片特征向量V_i，供后续模块使用；

2、步骤(二)、(三)中将临床问题通过BioWordVec预训练模型做词嵌，得到200维的问题词嵌Q_emb，然后输入到1024维的LSTM，得到问题特征向量V_q，计算公式如下：

Q_emb＝BioWordVec(q) (1)

为了提升模型的推理能力，如图2所示，将得到

输入到1024维的LSTM中获取问题的特征向量/>

引入注意力机制来给问题中的不同单词分配不同的权重，具体计算公式如下：

式中w₁，W₂，W_a是训练权重值，然后通过二元分类网络，得到问题的分类

3、步骤(四)中本发明使用了跨模态自注意力方法来进行多模态特征的融合。为了更好的理解与问题相关的图片区域，引入一个8维的空间特征V_s，通过问题类型的二分类网络将图片特征、问题特征和空间特征先分为封闭式和开放式两类，然后针对不同的类型分别进行图片特征、问题特征和空间特征的多模态特征融合，最后进行答案分类。

4、步骤(五)(六)中首先我们通过二元交叉熵(BinaryCross-entropy，BCE)损失计算预测答案和参考答案之间的损失，计算公式如下所示：

接着将候选答案a_i输入到预训练模型BioWordVec中获取答案的词嵌B(i)，然后将医学视觉问答模型的Top-K个预测值和数据集中的参考答案映射到同一个语义空间，计算公式如下式所示：

F(g^*)＝P_iB(i) (9)

式中P_i为模型的预测概率，然后计算答案之间的余弦相似性，计算公式如下式所示：

然后模型的语义损失函数可以表示如下：

L_s＝1-S(F(P)，F(g^*)) (11)

最终设计损失函数来约束模型进行训练，损失计算方式如下：

Loss＝L_CE/BCE+λL_S (12)

为了保证问题类型推理模块和语义约束模块对模型的有相同的作用，本发明将式中λ的默认值设置为0.5。

附图说明

图1是医学视觉问答实例展示。

图2是医学视觉问答模型结构。

具体实施方式

下面结合附图对本发明作进一步说明：

图1为医学视觉问答模型结构。模型可大致分为图片特征提取、问题特征提取、多模态特征融合和损失函数设计四个模块，各个模块之间相互关联，协同训练，最终实现医学视觉问答的答案预测任务。

图片特征提取模块的目的是将图片通过多任务预训练模型MTPT进行图片形态的分类，然后输入到对应的ResNet-34网络进行特征提取，最终得到图片特征向量V_i，供后续模块使用。

问题特征提取模块的作用是将临床问题映射到一个医学语义空间，得到问题向量，作为类型推理模块的基础数据。如图2所示，首先将问题通过BioWordVec预训练模型做词嵌，得到200维的问题词嵌Q_emb，然后输入到1024维的LSTM，得到问题特征向量V_q。同时为了提升模型的推理能力，将问题特征向量和答案类型标签输入一个二分类网络，训练一个问题类型分类网络，将问题分为开放式问题和封闭式问题。

多模态特征融合模块的主要目的是学习不同模态之间的相互关联信息。为了更好的理解与问题相关的图片区域，引入一个8维的空间特征，通过问题类型的二分类网络将图片特征、问题特征和空间特征先分为封闭式和开放式两类，然后针对不同的类型分别进行图片特征、问题特征和空间特征的多模态特征融合，最后进行答案分类。

损失函数模块主要引导模型学习不同模态之间的关系及问答流程中的隐形规律。如图2所示，首先我们通过二元交叉熵(Binary Cross-entropy，BCE)损失计算预测答案和参考答案之间的损失。然后将候选答案集中的所有答案通过BioWordVec预训练模型将候选答案映射到联合语义空间，计算答案之间的语义相似性来定义语义损失函数。最后用超参数λ将交叉熵损失和语义损失联合表示为模型的损失函数，来约束模型进行训练。

为了体现医学视觉问答的实际应用能力，本发明使用了目前唯一公开的手工标注的数据集VQA-RAD来进行模型的性能验证。同时还跟目前现有的方法进行了对比实验，具体实验结果如下图所示：

表1本发明网络模型在VQA-RAD数据集上和其他现有模型的的实验对比结果

如表1实验结果显示，本发明提出的基于类型推理和语义约束的医学视觉问答方法在公开的VQA-RAD数据集上的整体性能指标和封闭式问题性能指标均优于现有最好的实验结果。

为了进一步验证本发明提出的类型推理模块和语义约束模块的有效性，本发明进行了详细的消融实验，在其他条件不变的情况下分别取消类型推理模块和语义约束模型，为了保证对比实验的公平性，本发明在相同实验环境下训练模型，消融实验的详细结果如表2所示：

表1本发明网络模型不同模块间的消融实验结果

由表中的实验结果可见，本发明的两个模块均有利于模型性能的提升，相比之下，语义约束模块的效果优于类型推理模块。实验结果再次验证了本发明方法的有效性。

Claims

1.一种基于类型推理和语义约束的医学视觉问答方法研究，其特征在于包括以下步骤：

步骤一：将图片通过多任务预训练模型MTPT进行图片形态的分类，然后将图片输入到对应的ResNet-34网络进行图片特征提取，得到图片特征向量V_i；

步骤二：使用BioWordVec预训练模型获取问题词嵌Q_emb，然后将问题词嵌输入1024维的LSTM，得到问题特征向量V_q；

步骤三：将问题特征向量V_q和答案类型标签输入一个二分类网络，训练一个问题类型分类网络，将问题分为开放式问题和封闭式问题；

步骤四：为了更好的理解与问题相关的图片区域，引入一个8维的空间特征V_s，通过问题类型的二分类网络将图片特征、问题特征和空间特征分为二类，然后针对不同的类型分别进行图片特征、问题特征和空间特征的多模态特征融合，最后进行答案分类；

步骤五：构建一个答案语义空间，将候选答案集A中的所有答案通过BioWordVec预训练模型将候选答案映射到同一个语义空间，计算答案之间的语义相似性来设计语义损失函数；

步骤六：将分类损失函数和语义损失函数联合设计为一个组合损失函数，来约束模型完成训练。

2.根据权利要求1所述的基于类型推理和语义约束的医学视觉问答方法，其特征在于步骤二中，提出了基于问题类型的推理方法，将问题通过医学预料预训练的模型BioWordVec进行编码，计算方式如下：

Q_emb＝BioWordVec(q) (1)

得到

后输入到1024维的LSTM中获取问题的特征向量/>

N为问题的长度，本发明将问题的长度统一裁剪为12，长度不够12的问题，用字典的大小来补齐；然后引入注意力机制来给问题中的不同单词分配不同的权重，具体计算方式如下：

α＝softmax((W_aG)^T) (6)

式中W₁，W₂，W_a是训练权重值，然后通过二元分类网络，得到问题的分类。

3.根据权利要求1所述的一种基于类型推理和语义约束的医学视觉问答方法，其特征在于步骤六中，构建了一个联合语义空间，通过计算答案之间的语义相似性，并设计一个语义损失函数来约束模型进行训练，具体过程如下：

首先将候选答案a_i输入到预训练模型BioWordVec中获取答案的词嵌B(i)，然后将医学视觉问答模型的Top-K个预测值和数据集中的参考答案映射到同一个语义空间，计算公式如下式所示：

/>

F(g^*)＝P_iB(i) (8)

然后模型的语义损失函数可以表示如下：

L_s＝1-S(F(P),F(g^*)) (10)

得到语义损失函数，为下一步设计模型的损失函数奠定基础。

4.根据权利要求1所述的一种基于类型推理和语义约束的医学视觉问答方法，其特征在于步骤七中，通过设计损失函数来约束模型进行训练，损失计算方式如下：

Loss＝L_CE/BCE+λL_S (11)