CN116450788A

CN116450788A - 一种医学视觉问答的实现方法、装置及存储介质

Info

Publication number: CN116450788A
Application number: CN202310304810.5A
Authority: CN
Inventors: 韦政松; 顾正晖; 邓晓燕
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-07-18

Abstract

本发明公开了一种医学视觉问答的实现方法、装置及存储介质，其中方法包括：获取输入信息，将输入信息输入训练后的医学视觉问答模型，输出回答信息；其中，医学视觉问答模型通过以下方式获得：获取医学图像‑问答文本对；获取图像编码特征向量Fv；获取文本编码特征向量Fq；将图像编码特征向量Fv和文本编码特征向量Fq进行向量拼接，获得图像‑文本编码特征向量Fc，获得带注意力增强表示的图像‑文本融合特征向量Fcm；获取预测答案以及不确定性估计结果；对模型进行训练，获得带不确定估计的医学视觉问答模型。本发明在医学问答模型中加入贝叶斯不确定性估计方法，以估计模型自身输出结果的不确定性，获得更可靠的答案，可广泛应用于生物医学领域。

Description

一种医学视觉问答的实现方法、装置及存储介质

技术领域

本发明涉及人工智能、生物医学、影像学以及智能系统等技术领域，尤其涉及一种医学视觉问答的实现方法、装置及存储介质。

背景技术

医学视觉问答是计算机视觉和自然语言处理研究领域有着广泛研究的一项多模态挑战型任务。同时也是生物医学及人工智能领域重要的研究方向之一。

随着近几年人工智能技术的飞速发展，许多人工智能模型已经在计算机视觉领域和自然语言处理领域的绝大部分任务上追平甚至赶超了人类水平。视觉问答就是结合了这两大领域产生的一项十分具有挑战性的多模态任务，旨在让人工智能模型可以理解图像里包含的信息并给出正确的回答。相比于自然场景下的视觉问答，医学场景下的视觉问答可以提高医学图像和视频的分析效率，改善医学诊断的准确性，方便医学教培和提高医疗保健问诊的普及率，具有丰富且实际的应用场景。但由于样本匮乏，图像噪声多，标注难度大和成本高，可靠性低，误诊概率大等原因，发展十分缓慢。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种医学视觉问答的实现方法、装置及存储介质。

本发明所采用的技术方案是：

一种医学视觉问答的实现方法，包括以下步骤：

获取输入信息，将输入信息输入训练后的医学视觉问答模型，输出带不确定估计的回答信息；

其中，所述医学视觉问答模型通过以下方式获得：

获取医学图像-问答文本对，根据医学图像-问答文本对获取训练集；

搭建图像编码器，对图像数据进行编码，获得图像编码特征向量Fv；

搭建文本编码器，对文本数据进行编码，获得文本编码特征向量Fq；

搭建跨模态自注意力模块，将图像编码特征向量Fv和文本编码特征向量Fq进行向量拼接，获得图像-文本编码特征向量Fc，并传递给跨模态自注意力模块，最终获得带注意力增强表示的图像-文本融合特征向量Fcm；

搭建贝叶斯分类器，将图像-文本融合特征向量Fcm传递给贝叶斯分类器，输出预测答案以及不确定性估计结果；

根据图像编码器、文本编码器、跨模态自注意力模块和贝叶斯分类器搭建医学视觉问答模型，采用训练集对模型进行训练，最终获得带不确定估计的医学视觉问答模型。

进一步地，所述图像编码器包括3个子编码器，不同子编码器之间作用不相同，最终将编码结果拼接获得最终的图像编码向量Fv；

其中，所述3个子编码器分别是降噪自编码器、启发元学习编码器和基于对比学习的预训练编码器，分别作用于图像降噪、降低样本需求以及获得更具泛化的图像表示。

进一步地，所述文本编码器为基于对比学习的预训练编码器，对比学习具有获取跨模态语义的能力，可以拓展文本表示空间，具有更好的文本特征提取能力。

进一步地，所述跨模态自注意力模块包括依次连接的自注意力层、池化层和卷积层，且所述自注意力层内部采用残差连接。

进一步地，所述将图像编码特征向量Fv和文本编码特征向量Fq进行向量拼接，获得图像-文本编码特征向量Fc，并传递给跨模态自注意力模块，最终获得带注意力增强表示的图像-文本融合特征向量Fcm，包括：

对图像编码特征向量Fv和文本编码特征向量Fq采取特征维度拼接的方式进行融合，得到图像-文本融合编码特征向量Fc；

图像-文本融合编码特征向量Fc经过卷积处理后，将图像-文本融合编码特征向量Fc经过线性变换得到特征矩阵Q,K,V，使用特征矩阵Q，K计算注意力特征矩阵A，将注意力特征矩阵A和特征矩阵V再次运算，得到带注意力增强表示的图像-文本融合特征向量Fcm：

Fcm＝A×V

其中，softmax是指数归一化函数，d是一个常量。

进一步地，所述贝叶斯分类器由两层贝叶斯神经网络(BNN)搭建而成；

所述将图像-文本融合特征向量Fcm传递给贝叶斯分类器，输出预测答案以及不确定性估计结果，包括：

所述贝叶斯神经网络接收带注意力增强表示的图像-文本融合特征向量Fcm，按预设先验分布进行多次采样，在输入训练样本为D时，输入x经蒙特卡洛采样T次后由贝叶斯分类器分类，获得对结果y的预测分布P(y|x,D)；

根据预测分布P(y|x,D)计算均值和方差，用均值表示预测答案Answer，用方差表示不确定性估计结果Uncertainty。

进一步地，所述预测答案Answer的表达式为：

所述不确定性估计结果Uncertainty的表达式为：

其中，T表示贝叶斯分类器对输入x的蒙特卡洛采样次数，由人工设定；P_i为这T次蒙特卡洛采样中贝叶斯分类器对第i次采样的预测结果，由网络输出。

进一步地，在对医学视觉问答模型训练过程中，采用误差损失Loss对模型进行训练，所述误差损失Loss包括贝叶斯估计损Lcls和自编码器损失Lrec；

其中，误差损失Loss经过贝叶斯反向传播算法计算均值的梯度和标准差梯度，从而更新模型中的变分参数，使得模型中的权值变分后验分布不断逼近真实后验。

本发明所采用的另一技术方案是：

一种医学视觉问答的实现装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明在医学问答模型中加入不确定性，以估计自身输出结果的不确定性，能够让用户获得更安全可靠的答案。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中搭建并训练医学视觉问答模型的步骤流程图；

图2是本发明实施例中一种医学视觉问答的实现方法的流程示意图；

图3是本发明实施例中的医学视觉问答模型结构图；

图4是本发明实施例中的贝叶斯网络采样示意图；

图5是本发明实施例中医学视觉问答模型在数据集Med-RAD的预测效果图；

图6是本发明实施例中医学视觉问答模型在数据集SLAKE的预测效果图；

图7是本发明实施例中医学视觉问答模型的预测Demo图；

图8是本发明实施例中当T＝10时医学视觉问答模型的不确定性预测样例示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

针对现有医学问答模型可靠性低，容易发生误诊等问题，本实施例提供一种医学视觉问答的实现方法，包括以下步骤：

获取输入信息，将输入信息输入训练后的医学视觉问答模型，输出带不确定估计的回答信息。其中，输入信息包括医学图像信息和问题文本信息。

其中，如图1所示，所述医学视觉问答模型通过以下步骤获得：

S1、获取医学图像-问答文本对，根据医学图像-问答文本对获取训练集。

如图2所示，将医学图像-问答文本对作为模型输入、并作为模型训练数据D。在本实施例中，使用已经对外公开的医学问答数据集Med-RAD，SLAKE作为训练数据D的来源。

S2、搭建图像编码器，对图像数据进行编码，获得图像编码特征向量Fv。

参见图3，在本实施例中，步骤S2具体包括步骤S21-S22：

S21、所述的图像编码器具体由3个子编码器组成，相互之间采用同级并联的方式连接，这样做使得每个子编码器之间编码独立，互不干扰，提高了编码信息的纯净度；

S22、所述的三个图像子编码器分别是降噪自编码器DAE、启发元学习编码器MAML和对比学习预训练编码器PubMedCLIP。降噪自编码器DAE采用压缩重构的方式可以降低图像噪声。启发元学习编码器MAML经过相似任务训练和参数迁移可以获得较好的初始化权重，降低了样本压力和训练开销。对比学习预训练编码器PubMedCLIP可以充分借鉴跨领域知识，具有极强的零样本学习(Zero-shot)能力，同时具有更强的跨模态表征能力。

S3、搭建文本编码器，对文本数据进行编码，获得文本编码特征向量Fq。

在本实施例中，步骤S3具体包括步骤S31-S32：

S31、所述文本编码器使用的是对比学习预训练编码器PubMedCLIP，对比学习具有获取跨模态语义的能力，也可以拓展文本的表示空间，经过预训练后具有更优秀的文本特征提取能力；

S32、所述的文本编码器在经过PubMedCLIP后接入长短期循环神经网络(LSTM)，用于学习文本特征的前后关联并输出带有全局信息的文本编码特征向量Fq。

S4、搭建跨模态自注意力模块，将图像编码特征向量Fv和文本编码特征向量Fq进行向量拼接，获得图像-文本编码特征向量Fc，并传递给跨模态自注意力模块，最终获得带注意力增强表示的图像-文本融合特征向量Fcm。

参见图3，在本实施例中，步骤S4具体包括步骤S41-S43：

S41、对图像编码特征向量Fv和文本编码特征向量Fq采取直接拼接的方式进行特征融合，这种方式可以得到兼具不同模态信息的统一表示：图像-文本融合编码特征Fc：

Fc＝[Fv；Fq]

S42、所述的跨模态自注意力模型CMSA内部由自注意力层、池化层和卷积层前后连接组成，顺序为自注意力层-池化层-卷积层，所述的自注意力层内部采用残差连接，残差可以保持信息(特征向量)在传递过程中的全局流动，帮助模型更好地处理向量间的关联；

S43、所述的图像-文本融合编码特征向量Fc经过卷积处理后再将其经过线性变换得到特征矩阵Q,K,V，使用特征矩阵Q，K计算注意力特征矩阵A，注意力特征矩阵A和特征矩阵V再次运算得到带注意力增强表示的图像-文本融合特征向量Fcm。

A＝softmax(Q×K^T)

Fcm＝A×V

S5、搭建贝叶斯分类器，将图像-文本融合特征向量Fcm传递给贝叶斯分类器，输出预测答案以及不确定性估计结果。

参见图3，在本实施例中，步骤S5具体包括步骤S51-S53：

S51、所述贝叶斯分类器由贝叶斯神经网络(BNN)搭建而成，该网络结构如附图4所示，BNN在给定训练数据D时对特征输入x的预测分布为：

P(y|x，D)＝∫P(y|x，w)P(w|D)dw

＝∫P(y|x，w)q(w|θ)dw

其中P(y|x，w)是神经网络中的权值给定为w时的输出，P(w|D)为给定训练数据为D情况下计算权值的后验分布，q(w|θ)是权值w的变分后验分布。这一积分相当于是对无数个神经模型的预测进行平均，但由于权值w空间的积分往往难以计算，因此这项积分通常采用蒙特卡洛采样方法进行近似。

S52、所述贝叶斯分类器通过对带注意力增强表示的图像-文本融合特征向量Fcm按球形高斯分布进行T次蒙特卡洛采样，此时BNN对输出的概率分布预测P(y|x，D)可以近似为：

其中w_t是从其变分后验分布q(w|θ)中采样得到的权值，θ是变分参数。

S53、所述T次蒙特卡洛采样后的模型预测结果[P1，P2，……，PT]的均值可以视作答案Answer，差异(方差)可以视为预测不确定性Uncertainty。可见BNN预测相当于多个模型的集成预测，预测Demo如附图7所示：

S6、根据图像编码器、文本编码器、跨模态自注意力模块和贝叶斯分类器搭建医学视觉问答模型，采用训练集对模型进行训练，最终获得带不确定估计的医学视觉问答模型。

参见图2和图3，各模型先后连接搭建成系统，计算系统输出和标签的误差损失Loss并训练模型，最终获得带不确定估计的医学视觉问答模型，该模型在数据集Med-RAD，SLAKE下的问答性能分别如附图5，附图6所示，已经达到或超过目前主流的一些不具备不确定性预测的医学视觉问答模型的性能水准，不确定性预测性能如下表1所示：

表1多次采样下的不确定预测性能

其中U/A表示预测中具有不确定性的问题数U占数据集中所有问题总数A的占比。

当T＝10时模型的不确定性预测样例如图8所示。

在本实施例中，步骤S6具体包括步骤S61-S62：

S61、参见图3，所述的误差损失Loss(Lvqa)由两个子项相加得到，包括贝叶斯估计损Lcls，以及自编码器损失Lrec：

Loss＝αLcls+βLrec

其中α、β为损失之间的权重关系，作为模型的超参数是一个手动输入的常量。

S62、所述的误差损失Loss(Lvqa)经过贝叶斯反向传播算法计算均值的梯度和标准差梯度从而更新网络中的变分参数，使得网络中的权值变分后验分布不断逼近真实后验。

综上所述，本发明相对于现有技术，至少具有如下优点及有益效果：

(1)本发明在传统的医学视觉问答模型的基础上，融合了多编码器集成思想和跨模态自注意力机制，降低训练样本需求的同时获得了更好的模型性能。

(2)本发明还依据贝叶斯不确定性估计方法设计搭建了贝叶斯分类器，这相较于现有的分类器，贝叶斯分类器可以在给出综合预测答案的同时也提供其预测的准确率。显著提高了现有医学问答模型的可靠性和防误诊能力，同时也提高了模型的可解释性和鲁棒性。

本实施例还提供一种医学视觉问答的实现装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种医学视觉问答的实现装置，可执行本发明方法实施例所提供的一种医学视觉问答的实现方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种医学视觉问答的实现方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种医学视觉问答的实现方法，其特征在于，包括以下步骤：

其中，所述医学视觉问答模型通过以下方式获得：

2.根据权利要求1所述的一种医学视觉问答的实现方法，其特征在于，所述图像编码器包括3个子编码器，不同子编码器之间作用不相同，最终将编码结果拼接获得最终的图像编码向量Fv；

3.根据权利要求1所述的一种医学视觉问答的实现方法，其特征在于，所述文本编码器为基于对比学习的预训练编码器。

4.根据权利要求1所述的一种医学视觉问答的实现方法，其特征在于，所述跨模态自注意力模块包括依次连接的自注意力层、池化层和卷积层，且所述自注意力层内部采用残差连接。

5.根据权利要求4所述的一种医学视觉问答的实现方法，其特征在于，所述将图像编码特征向量Fv和文本编码特征向量Fq进行向量拼接，获得图像-文本编码特征向量Fc，并传递给跨模态自注意力模块，最终获得带注意力增强表示的图像-文本融合特征向量Fcm，包括：

Fcm＝A×V

其中，softmax是指数归一化函数，d是一个常量。

6.根据权利要求1所述的一种医学视觉问答的实现方法，其特征在于，所述贝叶斯分类器由两层贝叶斯神经网络搭建而成；

7.根据权利要求6所述的一种医学视觉问答的实现方法，其特征在于，所述预测答案Answer的表达式为：

所述不确定性估计结果Uncertainty的表达式为：

其中，T表示贝叶斯分类器对输入x的蒙特卡洛采样次数；P_i为T次蒙特卡洛采样中贝叶斯分类器对第i次采样的预测结果。

8.根据权利要求1所述的一种医学视觉问答的实现方法，其特征在于，在对医学视觉问答模型训练过程中，采用误差损失Loss对模型进行训练，所述误差损失Loss包括贝叶斯估计损Lcls和自编码器损失Lrec；

9.一种医学视觉问答的实现装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-8任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。