CN115994212B

CN115994212B - 视觉问答处理方法、视觉问答模型的训练方法及装置

Info

Publication number: CN115994212B
Application number: CN202310275875.1A
Authority: CN
Inventors: 袁正; 谭传奇; 苑洪意; 黄非; 黄松芳
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-08-01
Anticipated expiration: 2043-03-15
Also published as: CN115994212A

Abstract

本申请实施例公开了一种视觉问答处理方法、视觉问答模型的训练方法及装置，涉及人工智能技术领域。主要技术方案包括：获取包括待预测图像和问题文本的待预测视觉数据；从预先构建的视觉问答资源库中获取与待预测视觉数据相关的参考资源；将待预测视觉数据和参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，视觉问答模型对待预测视觉数据和参考资源进行特征提取，得到待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示，再进行融合处理，得到待预测视觉数据的融合特征表示；利用待预测视觉数据的融合特征表示，生成针对问题文本的答案文本。本申请能够提高视觉问答的效果。

Description

视觉问答处理方法、视觉问答模型的训练方法及装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视觉问答处理方法、视觉问答模型的训练方法及装置。

背景技术

视觉问答（VQA，Visual Question Answering）是一种涉及计算机视觉和自然语言处理的多模态学习任务。视觉问答是输入一个图像和一个与该图像有关的自然语言问题时，能够自动产生针对该问题的答案。与其他多模态学习任务相比，视觉问答是一个更具挑战性的任务，因为它需要对图像信息和文本信息具有更好的语义理解，还需要结合两者之间的关系来进行答案预测。目前的视觉问答技术取得了一些成就，但究其目前所能够达到的效果来看，仍需要进一步提高。

发明内容

有鉴于此，本申请实施例提供了一种视觉问答处理方法、视觉问答模型的训练方法及装置，从而提高视觉问答的效果。

本申请提供了如下方案：

第一方面，提供了一种视觉问答处理方法，所述方法包括：

获取待预测视觉数据，所述待预测视觉数据包括待预测图像和问题文本；

从预先构建的视觉问答资源库中获取与所述待预测视觉数据相关的参考资源，各参考资源包括参考图像及其对应的参考文本；

将所述待预测视觉数据和所述参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述待预测视觉数据和所述参考资源进行特征提取，得到所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；所述融合模块利用所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到所述待预测视觉数据的融合特征表示；所述预测模块利用所述待预测视觉数据的融合特征表示，生成针对所述问题文本的答案文本。

根据本申请实施例中一可实现的方式，所述从预先构建的视觉问答资源库中获取与所述待预测视觉数据相关的参考资源包括：

获取待预测视觉数据中所述待预测图像的第一特征表示；

分别确定所述视觉问答资源库中各参考图像的第一特征表示与所述待预测图像的第一特征表示之间的相似度，将对应相似度满足预设相似度要求的参考图像及其对应的参考文本作为与所述待预测视觉数据相关的参考资源。

根据本申请实施例中一可实现的方式，所述视觉问答资源库采用如下方式预先构建：

从预设领域的资源库中获取包含图像的文档；

利用图像过滤模型对所述文档中的图像进行过滤，仅保留预设类型的图像作为参考图像；

从包含参考图像的文档中获取所述参考图像的描述文本，将参考图像及其描述文本作为一个参考资源存储于视觉问答资源库。

根据本申请实施例中一可实现的方式，所述融合模块包括N个融合层，所述N为大于或等于1的正整数；

第一个融合层利用所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示；

其他融合层利用上一融合层输出的所述各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示进行融合处理，得到本融合层输出的各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示；

将最后一个融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示。

根据本申请实施例中一可实现的方式，所述融合处理包括：将待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示分别进行自注意力处理，得到待预测图像的第二特征表示、各参考图像的第二特征表示、问题文本的第二特征表示以及各参考文本的第二特征表示；

利用参考图像的第二特征表示对参考文本的第二特征表示进行注意力处理，得到参考文本的第三特征表示作为本融合层输出的参考文本的第一特征表示；利用参考文本的第二特征表示对参考图像的第二特征表示进行注意力处理，得到各参考图像的第三特征表示作为本融合层输出的参考图像的第一特征表示；利用问题文本的第二特征表示对待预测图像的第二特征表示进行注意力处理，得到待预测图像的第三特征表示；利用待预测图像的第二特征表示对问题文本的第二特征表示进行注意力处理，得到问题文本的第三特征表示；

利用各参考图像的第二特征表示对待预测图像的第二特征表示进行注意力处理，得到待预测图像的第四特征表示，利用所述待预测图像的第三特征表示和第四特征表示得到本融合层输出的待预测图像的第一特征表示；利用各参考文本的第二特征表示对问题文本的第二特征表示进行注意力处理，得到问题文本的第四特征表示，利用所述问题文本的第三特征表示和第四特征表示，得到本融合层输出的问题文本的第一特征表示。

第二方面，提供了一种医学影像问答处理方法，所述方法包括：

获取待预测视觉数据，所述待预测视觉数据包括待预测的医学影像和问题文本；

从预先利用包含医学影像的医学文献构建的医学问答资源库中，获取与待预测视觉数据相关的参考资源，各参考资源包括参考医学影像及其对应的参考文本；

将所述待预测视觉数据和所述参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述待预测视觉数据和所述参考资源进行特征提取，得到所述待预测的医学影像的第一特征表示、各参考医学影像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；所述融合模块利用所述待预测的医学影像的第一特征表示、各参考医学影像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到所述待预测视觉数据的融合特征表示；所述预测模块利用所述待预测视觉数据的融合特征表示，生成针对所述问题文本的答案文本。

第三方面，提供了一种视觉问答模型的训练方法，所述方法包括：

获取多个训练样本，所述训练样本包括视觉数据样本和答案样本，所述视觉数据样本包括待预测图像样本和问题样本；

从预先构建的视觉问答资源库中获取与所述视觉数据样本相关的参考资源，各参考资源包括参考图像及其对应的参考文本；

利用所述训练样本和参考资源训练基于深度学习模型的视觉问答模型，其中所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述视觉数据样本和所述参考资源进行特征提取，得到所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示；所述融合模块利用所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到所述视觉数据样本的融合特征表示；所述预测模块利用所述视觉数据样本的融合特征表示，生成针对所述问题样本的答案文本；所述训练的目标包括：最小化针对所述问题样本的答案文本与所述问题样本对应的答案样本的差异。

第一个融合层利用所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示；

其他融合层利用上一融合层输出的各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像样本的第一特征表示和问题样本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示；

将最后一个融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示。

根据本申请实施例中一可实现的方式，所述融合处理包括：将待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示分别进行自注意力处理，得到待预测图像样本的第二特征表示、各参考图像的第二特征表示、问题样本的第二特征表示以及各参考文本的第二特征表示；

利用参考图像的第二特征表示对参考文本的第二特征表示进行注意力处理，得到参考文本的第三特征表示作为本融合层输出的参考文本的第一特征表示；利用参考文本的第二特征表示对参考图像的第二特征表示进行注意力处理，得到各参考图像的第三特征表示作为本融合层输出的各参考图像的第一特征表示；利用问题样本的第二特征表示对待预测图像样本的第二特征表示进行注意力处理，得到待预测图像样本的第三特征表示；利用待预测图像样本的第二特征表示对问题样本的第二特征表示进行注意力处理，得到问题样本的第三特征表示；

利用各参考图像的第二特征表示对待预测图像样本的第二特征表示进行注意力处理，待预测图像的第四特征表示，利用所述待预测图像的第三特征表示和第四特征表示得到本融合层输出的待预测图像样本的第一特征表示；利用各参考文本的第二特征表示对问题样本的第二特征表示进行注意力处理，得到问题文本的第四特征表示，利用所述问题文本的第三特征表示和第四特征表示，得到本融合层输出的问题样本的第一特征表示。

根据本申请实施例中一可实现的方式，所述视觉问答模型的训练是基于预训练得到的编码模块和/或融合模块进行的训练；

所述编码模块和/或融合模块的预训练包括：

获取多个由图像和文本构成的样本对，所述样本对包括正样本对和负样本对；

利用所述样本对训练所述编码模块和/或融合模块，其中所述编码模块对样本对中的图像和文本进行特征提取，得到所述图像的第一特征表示和所述文本的第一特征表示；所述融合模块对所述图像的第一特征表示和所述文本的第一特征表示进行自注意力处理，得到所述图像的第二特征表示和所述文本的第二特征表示，利用所述文本的第二特征表示对所述图像的第二特征表示进行注意力处理，得到图像的第三特征表示，利用所述图像的第二特征表示对所述文本的第二特征表示进行注意力处理，得到文本的第三特征表示；

所述训练包括对比学习任务、样本对匹配任务和掩码预测任务中的至少一种；

其中所述对比学习任务的训练目标为：最大化包含同一图像的正样本对和负样本对分别对应的第一距离与第二距离之间的差异，所述第一距离为正样本对中所述同一图像与文本之间的第一特征表示距离，所述第二距离为负样本对中所述同一图像与文本之间的第一特征表示距离；

所述样本对匹配任务的训练目标为：最大化正样本对中图像和文本之间的第三特征表示距离，最小化负样本对中图像和文本之间的第三特征表示距离；

所述掩码预测任务的训练目标为：最小化利用正样本对中图像的第三特征表示和文本的第三特征表示对该正样本对中被掩码Token（元素）的预测结果与该被掩码Token的实际值之间的差异。

第四方面，提供了一种视觉问答处理装置，所述装置包括：

数据获取单元，被配置为获取待预测视觉数据，所述待预测视觉数据包括待预测图像和问题文本；

资源检索单元，被配置为从预先构建的视觉问答资源库中获取与所述待预测视觉数据相关的参考资源，各参考资源包括参考图像及其对应的参考文本；

答案生成单元，被配置为将所述待预测视觉数据和所述参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述待预测视觉数据和所述参考资源进行特征提取，得到所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；所述融合模块利用所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到所述待预测视觉数据的融合特征表示；所述预测模块利用所述待预测视觉数据的融合特征表示，生成针对所述问题文本的答案文本。

第五方面，提供了一种视觉问答模型的训练装置，所述装置包括：

样本获取单元，被配置为获取多个训练样本，所述训练样本包括视觉数据样本和答案样本，所述视觉数据样本包括待预测图像样本和问题样本；

资源检索单元，被配置为从预先构建的视觉问答资源库中获取与所述视觉数据样本相关的参考资源，各参考资源包括参考图像及其对应的参考文本；

模型训练单元，被配置为利用所述训练样本和参考资源训练基于深度学习模型的视觉问答模型，其中所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述视觉数据样本和所述参考资源进行特征提取，得到所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示；所述融合模块利用所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到所述视觉数据样本的融合特征表示；所述预测模块利用所述视觉数据样本的融合特征表示，生成针对所述问题样本的答案文本；所述训练的目标包括：最小化针对所述问题样本的答案文本与所述问题样本对应的答案样本的差异。

根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。

根据第七方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1）本申请在针对问题文本生成答案文本时，不仅仅利用待预测图像和问题文本，还通过从视觉问答资源库中召回相关的参考资源来辅助生成答案文本，从而提高视觉问答的效果。

2）本申请能够从预设领域的资源库中获取包含图像的文档，保留预设类型的图像作为参考图像后，从包含参考图像的文档中获取参考图像的描述文本作为一个参考资源存储于视觉问答资源库，从而实现了视觉问答资源库的自动构建。

3）本申请在融合处理中除了自注意力、图像与文本之间的交叉注意力之外，还在相同模态之间引入了参考资源对待预测视觉数据的注意力处理，从而将参考资源的信息充分融入待预测视觉数据的融合特征表示，使得视觉问答模型能够综合理解参考资源的信息和待预测视觉数据的信息，准确预测答案文本。

4）本申请在训练视觉问答模型的过程中，不仅仅利用视觉数据样本和答案样本，还通过从视觉问答资源库中召回相关的参考资源来辅助生成答案文本，从而减轻视觉问答模型对于训练样本的依赖，缓解因训练样本不足所带来的过拟合现象，提高视觉问答模型的问答效果。

5）本申请能够采用对比学习任务、样本对匹配任务和掩码预测任务对编码模块和/融合模块进行预训练，然后在此基础上对视觉问答模型进行微调，这种方式能够有效提高视觉问答模型的训练效率。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的视觉问答处理方法；

图3为本申请实施例提供的构建视觉问答资源库的方法流程图；

图4为本申请实施例提供的视觉问答模型的原理性结构示意图；

图5为本申请实施例提供的视觉问答模型的训练方法流程图；

图6为本申请实施例提供的预训练过程的原理性示意图；

图7a和图7b分别为本申请实施例提供的两种病例报告的示意图；

图8为本申请实施例提供的视觉问答处理装置的示意性框图；

图9为本申请实施例提供的视觉问答模型的训练装置的示意性框图；

图10为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

目前主流的视觉问答处理方法，在输入图像和问题文本至视觉问答模型时，视觉问答模型通过提取图像和问题文本的特征并学习他们之间的关联，从而预测答案。但这种模型需要大量的图像、问题和答案样本，容易因为样本数量少而过拟合，从而造成视觉问答的答案生成效果较差。

有鉴于此，本申请提供了一种全新的思路，为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构包括采用离线方式建立视觉问答模型的模型训练装置，以及在线实现问答的视觉问答处理装置。

其中，模型训练装置在获取训练数据后，预先训练得到视觉问答模型。

视觉问答处理装置可以本申请实施例提供的方式针对用户的问题文本和待预测图像，获取该问题文本对应的答案文本，并将答案文本返回给用户。其中问题文本是用户针对待预测图像提出的。

模型训练装置和视觉问答处理装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPs，Virtual Private Server）服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和视觉问答处理装置还可以设置于具有较强计算能力的计算机终端。

在其中一种常用的场景下，用户可以使用终端设备与设置于服务端的视觉问答处理装置进行交互，终端设备上可以安装有各种应用，例如语音交互应用、网页浏览器应用、通信类应用等。

终端设备可以是各种电子设备，可以是有屏设备，也可以是无屏设备。包括但不限于智能手机、平板电脑、智能音箱、智能电视、PC（Personal Computer，个人计算机）、可穿戴式设备等等。

用户可以通过文本或语音的方式输入问题，该问题与待预测图像通过网络发送到服务器端的视觉问答处理装置，由视觉问答处理装置获取该问题对应的答案后，将答案返回给用户的终端设备。若采用语音的形式，则在服务器端还会包含相应的语音处理部分，例如语音解析、语音合成等模块，本申请对此不做限制。

应该理解，图1中的模型训练装置、视觉问答处理装置、终端设备以及视觉问答模型的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、视觉问答处理装置、终端设备以及视觉问答模型。

图2为本申请实施例提供的视觉问答处理方法，该方法可以由图1所示架构中的视觉问答处理装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取待预测视觉数据，待预测视觉数据包括待预测图像和问题文本。

步骤204：从预先构建的视觉问答资源库中获取与待预测视觉数据相关的参考资源，各参考资源包括参考图像及其对应的参考文本。

步骤206：将待预测视觉数据和参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，视觉问答模型包括编码模块、融合模块和预测模块；编码模块对待预测视觉数据和参考资源进行特征提取，得到待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；融合模块利用待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到待预测视觉数据的融合特征表示；预测模块利用待预测视觉数据的融合特征表示，生成针对问题文本的答案文本。

由上述流程可以看出，本申请在针对问题文本生成答案文本时，不仅仅利用待预测图像和问题文本，还通过从视觉问答资源库中召回相关的参考资源来辅助生成答案文本，从而提高视觉问答的效果。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分，例如“第一特征表示”、“第二特征表示”和“第三特征表示”等用以在名称上区分不同的特征表示。

下面结合实施例对上述方法中的各步骤进行详细描述。在上述步骤202中获取的待预测视觉数据通常是来源于提问用户的，当用户希望获得关于某个图像的信息时，可以通过提问的方式提出与图像相关的问题。该问题可以是以文本的形式输入的，也可以是以语音的形式输入的。若以语音的形式输入，则可以采用语音识别技术首先对语音进行识别，得到问题文本。

用户通过终端设备将待预测视觉数据发送给服务器端的视觉问答处理装置，其中待预测图像和问题可以通过一个消息发送给服务器端，也可以在同一个会话中通过不同的消息发送给服务器端，本申请对此不加以限制。

下面结合实施例对上述步骤204即“从预先构建的视觉问答资源库中获取与待预测视觉数据相关的参考资源，各参考资源包括参考图像及其对应的参考文本”进行详细描述。

上述的视觉问答资源库可以是通用的资源库，也可以是针对特定领域的资源库。视觉问答资源库包含大量的参考资源，各参考资源采用的是图像-文本对的形式，即参考资源包括参考图像及其对应的参考文本。通常参考图像对应的参考文本是对参考图像的信息进行的相关描述或说明。预先构建视觉问答资源库以供视觉问答处理装置进行调用和检索。

以构建特定领域的视觉问答资源库为例，预先构建视觉问答资源库的过程可以如图3中所示，包括以下步骤：

步骤302：从预设领域的资源库中获取包含图像的文档。

例如，若视觉问答应用于教育领域，则可以从教育领域的资源库中获取包含图像的知识文献。若视觉问答应用于医学领域，则从医学领域的资源库中获取包含图像的医学文献。

步骤304：利用图像过滤模型对文档中的图像进行过滤，仅保留预设类型的图像作为参考图像。

对于不同领域的视觉问答通常应用的图像类型是不同的。例如，在医学领域中，用户通常希望从一些医学影像中获知健康状况，其中医学影像可以是诸如造影图像、断层扫描图像、核磁共振图像、超音波检查图像等等。本申请实施例中可以采用预先训练得到的图像过滤模型对文档中的图像进行过滤，图像过滤模型通常是图像分类模型，能够对特定领域的图像进行分类，得到图像类别。然后仅保留预设类型的图像作为参考图像，例如在医学领域仅保留医学影像作为参考图像，而过滤掉其他类型的诸如流程图、直方图、散点图等图像。

步骤306：从包含参考图像的文档中获取参考图像的描述文本，将参考图像及其描述文本作为一个参考资源存储于视觉问答资源库。

包含参考图像的文档中通常会包含对参考图像的描述文本，这些描述文本通常位于参考图像的下方特定区域，例如对图像的文字说明部分。因此可以从该特定区域中获取对参考图像的描述文本。然后将参考图像及其描述文本作为一个图像-文本对（即一个参考资源）存储于视觉问答资源库。一个文档中可能包含多个参考图像，那么相应地，就可以从该文档中分别提取每一个参考图像及其描述文本，即得到多个参考资源。

更进一步地，视觉问答资源库是为了方便在线视觉问答过程中进行检索并获取与待预测视觉数据相关的参考资源的，这一过程通常是利用参考图像与待预测图像之间的第一特征表示进行匹配的，因此视觉问答资源库的构建过程还可以包括步骤308：确定并存储各参考图像的第一特征表示。

各参考图像的第一特征表示可以利用编码模块来获取，即将参考图像输入编码模块，编码模块对参考图像进行特征提取得到参考图像的第一特征表示。

作为其中一种可实现的方式，本步骤中在确定待预测视觉数据相关的参考资源时，可以获取待预测视觉数据中待预测图像的第一特征表示；然后分别确定视觉问答资源库中各参考图像的第一特征表示与待预测图像的第一特征表示之间的相似度，将对应相似度满足预设相似度要求的参考图像及其对应的参考文本作为与待预测视觉数据相关的参考资源。其中，两个第一特征表示之间的相似度可以采用诸如余弦相似度的方式确定。

可以看出在这种方式中仅利用待预测图像进行检索来确定相关的参考资源，之所以这么做是因为单纯考虑问题文本通常是同质的和无信息的。对于不同的图像，问题可能类似，例如“这张图像中的异常是什么?”或者“这张照片有异常吗?”，因此使用问题文本来进行相似度匹配无法召回有效的相关参考资源。

假设待预测视觉数据包括待预测图像和问题文本，即待预测视觉数据表示为。其中问题文本的各Token（元素）构成的序列可以表示为，其中为起始符，为问题文本中的第l个字符，为问题文本中的字符个数。待预测图像的各Token构成的序列可以表示为，其中，为待预测图像中的第l个区块，m为待预测图像中的区块个数。这里的区块指的是将待预测图像按照预设的大小进行切分后得到的图像块，可以是一个像素，也可以由多个像素构成，每个区块的大小一致。

利用编码模块对问题文本进行编码，得到问题文本的第一特征表示为：W=，其中，为问题文本中首个Token的向量表示，为问题文本中第l个字符的向量表示。

利用编码模块对待预测图像进行编码，得到待预测图像的第一特征表示为：V=，其中，为待预测图像中第一个Token的向量表示，为待预测图像中第l个区块的向量表示。

视觉问答资源库中所有的参考资源集合表示为，其中，表示第j个参考资源中的参考图像，表示第j个参考资源中的参考文本。利用编码模块分别对各参考资源进行编码，得到各参考图像的特征表示和参考文本的特征表示。在计算待预测图像和参考图像之间的第一特征表示的相似度时，可以通过计算待预测图像的第一特征表示的第一个Token的向量表示与参考图像的第一特征表示的第一个Token的向量表示之间的余弦相似度，然后选取相似度排在前K个的参考图像，K为预设的正整数。然后这K个参考图像及其参考文本作为与待预测视觉数据相关的参考资源。

下面结合实施例对上述步骤206即将待预测视觉数据和参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，由视觉问答模型生成针对问题文本的答案文本的过程进行详细描述。

视觉问答模型的结构可以如图4中所示，包括编码模块、融合模块和预测模块。

其中，编码模块用以对待预测视觉数据和参考资源进行特征提取，得到待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示。

由于待预测视觉数据和参考资源均涉及两种模态的特征提取，因此编码模块可以包括图像编码器和文本编码器。

其中图像编码器用以进行待预测图像和各参考图像的编码，得到待预测图像的第一特征表示和各参考图像的第一特征表示。图像编码器可以采用诸如ViT（VisionTransformer，视觉转换器）等预训练模型。

其中图像编码器在对图像（即待预测图像或各参考图像）进行编码时，进行基于Token的Embedding（嵌入）处理，得到各Token的嵌入表示，然后对各Token的嵌入表示进行编码处理，得到图像的第一特征表示。

图像的各Token指的是构成图像的元素。对于图像而言，将图像切分成不重叠的区块序列，则图像中的区块以及序列的起始符均为Token。上述基于Token的Embedding处理至少包括：图像Embedding和位置Embedding。图像Embedding，即将各Token进行图向量编码，得到图向量表示。位置Embedding，即将各Token在图像序列中的位置进行编码，得到位置的表示。

文本编码器用以进行问题文本和各参考文本的编码，得到问题文本的第一特征表示和各参考文本的第一特征表示。文本编码器可以采用诸如T5（Transfer Text-to-TextTransformer，迁移文本到文本转换）、BERT（Bidirectional Encoder Representationfrom Transformers，基于转换的双向编码表示）等预训练语言模型。

其中文本编码器在对文本（即问题文本或各参考文本）进行编码时，进行基于Token的Embedding（嵌入）处理，得到各Token的嵌入表示，然后对各Token的嵌入表示进行编码处理，得到文本的第一特征表示。

文本的各Token指的是构成文本的元素。对于文本而言，将文本切分为字符或者词语序列，则文本序列中的字符或者词语、以及起始符、分隔符均为Token。上述基于Token的Embedding处理至少包括：词Embedding和位置Embedding。词Embedding，即将各Token进行词向量编码，得到词向量表示。位置Embedding，即将各Token在待预测文本序列中的位置进行编码，得到位置的表示。

如步骤204中所述的，编码模块获取的待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示分别表示为：和。

融合模块利用待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到待预测视觉数据的融合特征表示。

在本申请实施例中，融合模块可以包括N个融合层，N为大于或等于1的正整数。即可以包括一个融合层，也可以包括多个融合层。

其中第一个融合层利用待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示。

其他融合层利用上一融合层输出的各参考图像的第一特征表示、各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示进行融合处理，得到本融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示。

也就是说，对于第i个融合层，如果是第一个融合层，则其输入来自于编码模块。对于其他融合层，其输入来自于上一融合层。经过每一个融合层的处理，均能够得到更新的待预测图像的第一特征表示和问题文本的第一特征表示。将最后一个融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示。

在本申请实施例中，融合模块进行的融合处理引入了全新的注意力处理方式，在相同模态之间利用参考资源的特征表示对待预测视觉数据的特征表示进行注意力处理，即将待预测视觉数据和参考资源之间进行相同模态的信息融合，从而得到待预测视觉数据的融合特征。

作为其中一种可实现的方式，上述融合处理可以包括自注意力处理、交叉注意力处理和召回注意力处理。下面对这三种注意力处理进行详细描述。

融合层首先进行自注意力处理，即将待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示分别进行自注意力处理，得到待预测图像的第二特征表示、各参考图像的第二特征表示、问题文本的第二特征表示以及各参考文本的第二特征表示。自注意力处理实际上是考虑各图像（待预测图像或参考图像）自身所包含各Token之间的交互关系（即图像内部各Token之间的相互影响程度）。

以问题样本和待预测图像为例，具体可以采用如下公式：

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

其中，为第i个融合层得到的问题文本的第二特征表示，为第i个融合层得到的待预测图像的第二特征表示，为第i个融合层被输入的问题文本的第一特征表示，为第i个融合层被输入的待预测图像的第一特征表示。、、、、和为模型学习到的参数，上标代表问题文本，上标代表待预测图像，上述参数分别为问题文本对应的查询权重矩阵、键权重矩阵、值权重矩阵，待预测图像对应的查询权重矩阵、键权重矩阵、值权重矩阵。参考样本和参考图像进行自注意力处理的过程采用的公式类似，在此不做赘述。

在本申请实施例中，注意力机制为如下公式：

（9）

然后融合层进行交叉注意力处理，即利用参考图像的第二特征表示对参考文本的第二特征表示进行注意力处理，得到参考文本的第三特征表示作为本融合层输出的参考文本的第一特征表示；利用参考文本的第二特征表示对参考图像的第二特征表示进行注意力处理，得到各参考图像的第三特征表示作为本融合层输出的参考图像的第一特征表示；利用问题文本的第二特征表示对待预测图像的第二特征表示进行注意力处理，得到待预测图像的第三特征表示；利用待预测图像的第二特征表示对问题文本的第二特征表示进行注意力处理，得到问题文本的第三特征表示。这里采用的交叉注意力处理实际上是在参考资源内部进行不同模态（即参考图像和参考文本）之间的信息交互，考虑参考资源内部不同模态之间的相互影响；在待预测视觉数据内部进行不同模态（即待预测图像和问题文本）之间的信息交互，考虑待预测视觉数据内部不同模态之间的相互影响。

例如可以由采用以下公式：

(10)

(11)

其中，为问题文本的第三特征表示，为待预测图像的第三特征表示。公式（10）和（11）中涉及的可以采用类似于公式（4）~（8）中的形式，只是将其中的和替换为和。

之后融合层进行召回注意力处理，即利用各参考图像的第二特征表示对待预测图像的第二特征表示进行注意力处理，得到待预测图像的第四特征表示，利用待预测图像的第三特征表示和第四特征表示得到本融合层输出的待预测图像的第一特征表示；利用各参考文本的第二特征表示对问题文本的第二特征表示进行注意力处理，得到问题文本的第四特征表示，利用问题文本的第三特征表示和第四特征表示，得到本融合层输出的问题文本的第一特征表示。召回注意力处理实际上就是将待预测视觉数据和召回的参考资源之间进行相同模态的信息交互。例如可以采用如下公式：

（12）

（13）

（14）

（15）

其中，指代问题文本，时，表示第个融合层输出的问题文本的第一特征表示中的第一个Token的向量表示，为第个融合层得到的问题文本的第二特征表示中的第一个Token的向量表示。指代各参考文本，时，表示第个融合层输出的第个参考文本的第一特征表示中的第一个Token的向量表示，为第个融合层得到的第个参考文本的第二特征表示中的第一个Token的向量表示。、和为模型学习到的参数，分别代表召回注意力中学习到的查询权重矩阵、键权重矩阵、值权重矩阵。

在得到上述后，结合已经得到的，即将作为中第一个Token的向量表示，就得到了本融合层输出的问题文本的第一特征表示。对于待预测图像的处理过程类似，不做赘述。

最后一个融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示分别表示为和，可以将和进行拼接得到待预测视觉数据的融合特征表示。

预测模块利用待预测视觉数据的融合特征表示，生成针对问题文本的答案文本。预测模块可以采用线性分类器实现，将融合特征表示映射至答案空间，得到答案文本。

图5为本申请实施例提供的视觉问答模型的训练方法流程图，该方法可以由图1所示系统架构中的模型训练装置执行。如图5中所示，该方法可以包括如下步骤：

步骤502：获取多个训练样本，训练样本包括视觉数据样本和答案样本，视觉数据样本包括待预测图像样本和问题样本。

作为其中一种可实现的方式，可以从特定领域的资源库中选取一些图像作为待预测图像样本，人工针对待预测图像样本进行问题和答案的标注作为问题样本和答案样本。

作为另一种可实现的方式，可以从已有跨模态的问答系统中获取图像以及用户针对该图像的提问分别作为待预测图像样本和问题样本，依据用户对问答系统所提供答案的反馈，选择用户满意的答案作为答案样本。

作为再一种可实现的方式，可以从特定领域的资源库中获取包含图像的文档，从包含图像的文档中选择特定类型的图像作为待预测图像样本，从该文档中获取针对该图像的描述文本，由问答对生成模型利用该描述文本生成问答对分别作为问题样本和答案样本。

还可以采用其他方式获取训练样本，在此不做一一列举。

步骤504：从预先构建的视觉问答资源库中获取与视觉数据样本相关的参考资源，各参考资源包括参考图像及其对应的参考文本。

作为其中一种可实现的方式，本步骤中在确定视觉数据样本相关的参考资源时，可以获取视觉数据样本中待预测图像样本的第一特征表示；然后分别确定视觉问答资源库中各参考图像的第一特征表示与待预测图像样本的第一特征表示之间的相似度，将对应相似度满足预设相似度要求的参考图像及其对应的参考文本作为与视觉数据样本相关的参考资源。其中，两个第一特征表示之间的相似度可以采用诸如余弦相似度的方式确定。

其中，待预测图像样本的第一特征表示和参考图像的第一特征表示可以由编码模块分别对待预测图像样本和参考图像进行编码后得到。

步骤506：利用训练样本和参考资源训练基于深度学习模型的视觉问答模型，其中视觉问答模型包括编码模块、融合模块和预测模块；编码模块对视觉数据样本和参考资源进行特征提取，得到待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示；融合模块利用待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到视觉数据样本的融合特征表示；预测模块利用视觉数据样本的融合特征表示，生成针对问题样本的答案文本；训练的目标包括：最小化针对问题样本的答案文本与问题样本对应的答案样本的差异。

其中，上述融合模块可以包括N个融合层，N为大于或等于1的正整数。

第一个融合层利用待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示。

其他融合层利用上一融合层输出的各参考图像的第一特征表示、各参考文本的第一特征表示、待预测图像样本的第一特征表示和问题样本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示。

作为其中一种可实现的方式，上述融合处理包括：自注意力处理、交叉注意力处理和召回注意力处理。

自注意力处理：将待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示分别进行自注意力处理，得到待预测图像样本的第二特征表示、各参考图像的第二特征表示、问题样本的第二特征表示以及各参考文本的第二特征表示。

交叉注意力处理：利用参考图像的第二特征表示对参考文本的第二特征表示进行注意力处理，得到参考文本的第三特征表示作为本融合层输出的参考文本的第一特征表示；利用参考文本的第二特征表示对参考图像的第二特征表示进行注意力处理，得到各参考图像的第三特征表示作为本融合层输出的各参考图像的第一特征表示；利用问题样本的第二特征表示对待预测图像样本的第二特征表示进行注意力处理，得到待预测图像样本的第三特征表示；利用待预测图像样本的第二特征表示对问题样本的第二特征表示进行注意力处理，得到问题样本的第三特征表示。

召回注意力处理：利用各参考图像的第二特征表示对待预测图像样本的第二特征表示进行注意力处理，待预测图像的第四特征表示，利用待预测图像的第三特征表示和第四特征表示得到本融合层输出的待预测图像样本的第一特征表示；利用各参考文本的第二特征表示对问题样本的第二特征表示进行注意力处理，得到问题文本的第四特征表示，利用问题文本的第三特征表示和第四特征表示，得到本融合层输出的问题样本的第一特征表示。

视觉问答模型的具体结构和原理可以参见方法实施例中的相关记载，在此不做详述。

在训练视觉问答模型的过程中，最小化针对问题样本的答案文本与问题样本对应的答案样本的差异。可以依据此训练目标设计损失函数，例如采用交叉熵损失函数。在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新视觉问答模型的参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

在训练视觉问答模型时，视觉问答模型的各模型参数可以采用随机初始化的方式，也可以初始化为预设的值。但作为其中一种可实现的方式，上述编码模块和/或融合模块可以预训练得到，然后基于预训练得到的编码模块和/或融合模块进行视觉问答模型的微调，即采用fine-tuning的方式训练视觉问答模型。

其中在预训练编码模块和/或融合模块时，可以首先获取多个图像和文本构成的样本对，其中样本对包括正样本对和负样本对。其中正样本对是图像和文本密切相关的样本对，负样本对可以基于正样本对进行构造，例如将一个正样本对中的文本随机替换为其他样本对中的文本，得到一个负样本对；再例如将一个正样本对中的图像随机替换为其他样本对中的图像，得到一个负样本对；等等。然后利用这些样本对预训练编码模块和/或融合模块。

当一个样本对输入编码模块后，编码模块对样本对中的图像和文本进行特征提取，得到图像的第一特征表示和文本的第一特征表示。其中，对图像的特征提取可以由编码模块中的图像编码器对图像进行编码实现，对文本的特征提取可以由编码模块中的文本编码器对文本进行编码实现。

编码模块输出的图像的第一特征表示和文本的第一特征表示输入融合模块后，由融合模块对图像的第一特征表示和文本的第一特征表示进行自注意力处理，得到图像的第二特征表示和文本的第二特征表示，利用文本的第二特征表示对图像的第二特征表示进行注意力处理，得到图像的第三特征表示，利用图像的第二特征表示对文本的第二特征表示进行注意力处理，得到文本的第三特征表示。

预训练过程可以采用对比学习任务、样本对匹配任务和掩码预测任务中的至少一种。下面分别对这几种任务进行描述。

对比学习任务用以预训练编码模块，训练目标为最大化包含同一图像的正样本对和负样本对对应的第一距离与第二距离之间的差异，第一距离为正样本对中该同一图像与文本之间的第一特征表示距离，第二距离为负样本对中该同一图像与文本之间的第一特征表示距离。也就是说，尽可能拉近正样本对中图像与文本之间的第一特征表示距离，拉远负样本对中图像与文本之间的第一特征表示距离。如图6中所示，可以依据该训练目标设计损失函数loss1。

样本对匹配任务用以预训练编码模块和融合模块，也可以在已训练得到的编码模块的基础上训练融合模块。训练目标为最大化正样本对中图像和文本之间的第三特征表示距离，最小化负样本对中图像和文本之间的第三特征表示距离。如图6中所示，可以依据该训练目标设计损失函数loss2。

掩码训练任务用以预训练编码模块和融合模块，也可以在已训练得到的编码模块的基础上训练融合模块。训练目标为最小化利用正样本对中图像的第三特征表示和文本的第三特征表示对该正样本对中被掩码Token的预测结果与该被掩码Token的实际值之间的差异。例如将正样本对中文本的部分Token进行掩码，然后在融合模块之后连接掩码预测模块，正样本对输入编码模块和融合模块后，得到正样本对中图像的第三特征表示和文本的第三特征表示。掩码预测模块利用图像的第三特征表示和文本的第三特征表示预测正样本对中被掩码的Token的内容。如图6中所示，可以依据该训练目标设计损失函数loss3。

作为其中一种可实现的方式，可以结合上述三个训练目标，在每一轮迭代中利用总损失函数的取值，采用诸如梯度下降等方式更新编码模块和融合模块的参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如总损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。其中总损失函数loss可以由loss1、loss2和loss3的取值综合得到，例如：

loss= （16）

其中，、和为预设的加权系数。

由上述流程可以看出，本申请在训练视觉问答模型的过程中，不仅仅利用视觉数据样本和答案样本，还通过从视觉问答资源库中召回相关的参考资源来辅助生成答案文本，从而减轻视觉问答模型对于训练样本的依赖，缓解因训练样本不足所带来的过拟合现象，提高视觉问答模型的问答效果。

本申请实施例提供的上述方法可以应用于多种应用场景，在此列举一种比较典型的应用场景。

在就医过程中，患者和医生经常需要从患者检查的医学影像中了解病变信息，发现异常的身体器官等。但往往对这些医学影像进行分析需要医学专家才能够做到。因此如果视觉问答系统能够在输入一个医学影像和一个问题文本后，自动地对医学影像进行分析并给出问题文本对应的答案，则能够高效率地辅助医生或者患者。例如用户输入一个肺部的CT（Computed Tomography，计算机断层扫描）图像以及问题文本“肺部是否发生病变”，视觉问答系统能够自动回答该问题。

在该应用场景下，可以首先利用包含大量医学文献的资料库预先构建视觉问答资源库。其中医学文献可以是诸如医学论文、医学新闻报道、医学期刊、医学调查材料、医学研究记录等等。在本申请实施例中应用了其中一种较为优选的方式，利用病例报告这种特定类型的医学文献。病例报告通常记录并描述了患者在医院的检查过程、医学影像、患病状况、疾病表现以及诊断治疗等信息，因此在本申请实施例中可以首先筛选出病例报告。病例报告的筛选方式可以通过诸如关键词、正则表达式等，例如将包含诸如“病例”、“患者”等关键词的医学文献识别为病例报告。对于识别出的病例报告可以进一步基于语言、长度、地区等进行过滤，例如过滤掉长度小于第一长度阈值的病例报告，过滤掉长度大于第二长度阈值的病例报告，第一长度阈值小于第二长度阈值，也就是说过滤掉过长或过短的病例报告。再例如，过滤掉非中文或者非英文的病例报告。

利用图像过滤模型对获取的病例报告进行图像过滤，仅保留预设类型的图像（例如造影图像、断层扫描图像、核磁共振图像、超音波检查图像等）作为参考图像。从病例报告的特定区域提取文本作为参考图像对应的参考文本从而形成参考资源存储至视觉问答资源库。如图7a中所示，有些病例报告中，在图像下方区域会存在关于图像的描述文本，诸如“图3A显示筛状腺样囊性癌和神经周围浸润”，可以从中获取“筛状腺样囊性癌和神经周围浸润”作为该参考图像对应的参考文本。再例如图7b中所示，有些病例报告中存在病例诊断或临床诊断栏目，从该栏目中获取文本作为图像1、图像2和图像3对应的参考文本，从而形成三个参考资源。

当患者或医师等用户使用视觉问答平台时，可以通过终端设备将诸如肺部CT图像的待预测医学影像和诸如“肺部是否发生病变”的问题文本上传至服务器端的视觉问答处理装置，由视觉问答处理装置采用本申请实施例中提供的方式，从视觉问答数据库中获取与待预测医学影像相关的参考图像，然后将待预测图像、问题文本、参考图像及其对应的参考文本输入视觉问答模型，由视觉问答模型生成针对该问题文本的答案文本。具体地，视觉问答模型中的编码模块对待预测视觉数据和参考资源进行特征提取，得到待预测的医学影像的第一特征表示、各参考医学影像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；融合模块利用待预测的医学影像的第一特征表示、各参考医学影像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到待预测视觉数据的融合特征表示；预测模块利用待预测视觉数据的融合特征表示，生成针对问题文本的答案文本。

视觉问答模型充分利用了诸如病例报告等医学文献中相关的图文对信息，从而辅助基于待预测医学影像的自动问答，提高问答效果。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种视觉问答处理装置。图8示出根据一个实施例的视觉问答处理装置的示意性框图。如图8所示，该装置800包括：数据获取单元801、资源检索单元802和答案生成单元803，还可以包括资源库构建单元804。其中各组成单元的主要功能如下：

数据获取单元801，被配置为获取待预测视觉数据，待预测视觉数据包括待预测图像和问题文本。

资源检索单元802，被配置为从预先构建的视觉问答资源库中获取与待预测视觉数据相关的参考资源，各参考资源包括参考图像及其对应的参考文本。

答案生成单元803，被配置为将待预测视觉数据和参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，视觉问答模型包括编码模块、融合模块和预测模块；编码模块对待预测视觉数据和参考资源进行特征提取，得到待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；融合模块利用待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到待预测视觉数据的融合特征表示；预测模块利用待预测视觉数据的融合特征表示，生成针对问题文本的答案文本。

作为其中一种可实现的方式，资源检索单元802具体被配置为：获取待预测视觉数据中待预测图像的第一特征表示；分别确定视觉问答资源库中各参考图像的第一特征表示与待预测图像的第一特征表示之间的相似度，将对应相似度满足预设相似度要求的参考图像及其对应的参考文本作为与待预测视觉数据相关的参考资源。

作为其中一种可实现的方式，资源库构建单元804，被配置为从预设领域的资源库中获取包含图像的文档；利用图像过滤模型对文档中的图像进行过滤，仅保留预设类型的图像作为参考图像；从包含参考图像的文档中获取参考图像的描述文本，将参考图像及其描述文本作为一个参考资源存储于视觉问答资源库。

关于视觉问答模型的原理和结构可以采用方法实施例中关于图4的相关记载，在此不做赘述。

根据另一方面的实施例，提供了一种视觉问答模型的训练装置。图9示出根据一个实施例的视觉问答模型的训练装置的示意性框图，该装置即图1所示系统架构中的模型训练装置。如图9所示，该装置900包括：样本获取单元901、资源检索单元902和模型训练单元903。其中各组成单元的主要功能如下：

样本获取单元901，被配置为获取多个训练样本，训练样本包括视觉数据样本和答案样本，视觉数据样本包括待预测图像样本和问题样本；

资源检索单元902，被配置为从预先构建的视觉问答资源库中获取与视觉数据样本相关的参考资源，各参考资源包括参考图像及其对应的参考文本；

模型训练单元903，被配置为利用训练样本和参考资源训练基于深度学习模型的视觉问答模型，其中视觉问答模型包括编码模块、融合模块和预测模块；编码模块对视觉数据样本和参考资源进行特征提取，得到待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示；融合模块利用待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到视觉数据样本的融合特征表示；预测模块利用视觉数据样本的融合特征表示，生成针对问题样本的答案文本；训练的目标包括：最小化针对问题样本的答案文本与问题样本对应的答案样本的差异。

作为其中一种可实现的方式，资源检索单元902可以具体被配置为：获取视觉数据样本中待预测图像样本的第一特征表示；分别确定视觉问答资源库中各参考图像的第一特征表示与待预测图像样本的第一特征表示之间的相似度，将对应相似度满足预设相似度要求的参考图像及其对应的参考文本作为与视觉数据样本相关的参考资源。

作为其中一种可实现的方式，模型训练单元903在训练视觉问答模型时，视觉问答模型的各模型参数可以采用随机初始化的方式，也可以初始化为预设的值。但作为其中一种可实现的方式，模型训练单元903对视觉问答模型的训练可以是基于预训练得到的编码模块和/或融合模块进行的训练，即采用fine-tuning的方式训练视觉问答模型。

其中，模型训练单元903对编码模块和/或融合模块的预训练包括：

首先，获取多个由图像和文本构成的样本对，样本对包括正样本对和负样本对；利用样本对训练编码模块和/或融合模块，其中编码模块对样本对中的图像和文本进行特征提取，得到图像的第一特征表示和文本的第一特征表示；融合模块对图像的第一特征表示和文本的第一特征表示进行自注意力处理，得到图像的第二特征表示和文本的第二特征表示，利用文本的第二特征表示对图像的第二特征表示进行注意力处理，得到图像的第三特征表示，利用图像的第二特征表示对文本的第二特征表示进行注意力处理，得到文本的第三特征表示。

训练包括对比学习任务、样本对匹配任务和掩码预测任务中的至少一种；

其中对比学习任务的训练目标为：最大化包含同一图像的正样本对和负样本对对应的第一距离与第二距离之间的差异，第一距离为正样本对该同一图像与文本之间的第一特征表示距离，第二距离为负样本对中该同一图像与文本之间的第一特征表示距离。

样本对匹配任务的训练目标为：最大化正样本对中图像和文本之间的第三特征表示距离，最小化负样本对中图像和文本之间的第三特征表示距离。

掩码预测任务的训练目标为：最小化利用正样本对中图像的第三特征表示和文本的第三特征表示对该正样本对中被掩码Token的预测结果与该被掩码Token的实际值之间的差异。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图10示例性的展示出了电子设备的架构，具体可以包括处理器1010，视频显示适配器1011，磁盘驱动器1012，输入/输出接口1013，网络接口1014，以及存储器1020。上述处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020之间可以通过通信总线1030进行通信连接。

其中，处理器1010可以采用通用的CPU、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储用于控制电子设备1000运行的操作系统1021，用于控制电子设备1000的低级别操作的基本输入输出系统(BIOS) 1022。另外，还可以存储网页浏览器1023，数据存储管理系统1024，以及视觉问答处理装置/模型训练装置1025等等。上述视觉问答处理装置/模型训练装置1025就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1013用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1014用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1030包括一通路，在设备的各个组件（例如处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，存储器1020，总线1030等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视觉问答处理方法，其特征在于，所述方法包括：

将所述待预测视觉数据和所述参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述待预测视觉数据和所述参考资源进行特征提取，得到所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；所述融合模块包括N个融合层，所述N为大于或等于1的正整数；第一个融合层利用所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的各参考图像的第一特征表示、各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示；其他融合层利用上一融合层输出的所述各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示进行融合处理，得到本融合层输出的各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示；将最后一个融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示；所述预测模块利用所述待预测视觉数据的融合特征表示，生成针对所述问题文本的答案文本。

2.根据权利要求1所述的方法，其特征在于，所述从预先构建的视觉问答资源库中获取与所述待预测视觉数据相关的参考资源包括：

获取待预测视觉数据中所述待预测图像的第一特征表示；

3.根据权利要求1所述的方法，其特征在于，所述视觉问答资源库采用如下方式预先构建：

从预设领域的资源库中获取包含图像的文档；

4.根据权利要求1所述的方法，其特征在于，所述融合处理包括：将待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示分别进行自注意力处理，得到待预测图像的第二特征表示、各参考图像的第二特征表示、问题文本的第二特征表示以及各参考文本的第二特征表示；

5.一种医学影像问答处理方法，其特征在于，所述方法包括：

将所述待预测视觉数据和所述参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述待预测视觉数据和所述参考资源进行特征提取，得到所述待预测的医学影像的第一特征表示、各参考医学影像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；所述融合模块包括N个融合层，所述N为大于或等于1的正整数；第一个融合层利用所述待预测的医学影像的第一特征表示、各参考医学影像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的各参考医学影像的第一特征表示、各参考文本的第一特征表示、待预测的医学影像的第一特征表示和问题文本的第一特征表示；其他融合层利用上一融合层输出的所述各参考医学影像的第一特征表示、所述各参考文本的第一特征表示、待预测的医学影像的第一特征表示和问题文本的第一特征表示进行融合处理，得到本融合层输出的各参考医学影像的第一特征表示、所述各参考文本的第一特征表示、待预测的医学影像的第一特征表示和问题文本的第一特征表示；将最后一个融合层输出的待预测的医学影像的第一特征表示和问题文本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示；所述预测模块利用所述待预测视觉数据的融合特征表示，生成针对所述问题文本的答案文本。

6.一种视觉问答模型的训练方法，其特征在于，所述方法包括：

利用所述训练样本和参考资源训练基于深度学习模型的视觉问答模型，其中所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述视觉数据样本和所述参考资源进行特征提取，得到所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示；所述融合模块包括N个融合层，所述N为大于或等于1的正整数；第一个融合层利用所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示；其他融合层利用上一融合层输出的各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像样本的第一特征表示和问题样本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示；将最后一个融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示；所述预测模块利用所述视觉数据样本的融合特征表示，生成针对所述问题样本的答案文本；所述训练的目标包括：最小化针对所述问题样本的答案文本与所述问题样本对应的答案样本的差异。

7.根据权利要求6所述的方法，其特征在于，所述融合处理包括：将待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示分别进行自注意力处理，得到待预测图像样本的第二特征表示、各参考图像的第二特征表示、问题样本的第二特征表示以及各参考文本的第二特征表示；

8.根据权利要求6或7所述的方法，其特征在于，所述视觉问答模型的训练是基于预训练得到的编码模块和/或融合模块进行的训练；

所述编码模块和/或融合模块的预训练包括：

所述掩码预测任务的训练目标为：最小化利用正样本对中图像的第三特征表示和文本的第三特征表示对该正样本对中被掩码元素Token的预测结果与该被掩码Token的实际值之间的差异。

9.一种视觉问答处理装置，其特征在于，所述装置包括：

答案生成单元，被配置为将所述待预测视觉数据和所述参考资源提供给基于深度学习模型预先训练得到的视觉问答模型，所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述待预测视觉数据和所述参考资源进行特征提取，得到所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示；所述融合模块包括N个融合层，所述N为大于或等于1的正整数；第一个融合层利用所述待预测图像的第一特征表示、各参考图像的第一特征表示、问题文本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的各参考图像的第一特征表示、各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示；其他融合层利用上一融合层输出的所述各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示进行融合处理，得到本融合层输出的各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像的第一特征表示和问题文本的第一特征表示；将最后一个融合层输出的待预测图像的第一特征表示和问题文本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示；所述预测模块利用所述待预测视觉数据的融合特征表示，生成针对所述问题文本的答案文本。

10.一种视觉问答模型的训练装置，其特征在于，所述装置包括：

模型训练单元，被配置为利用所述训练样本和参考资源训练基于深度学习模型的视觉问答模型，其中所述视觉问答模型包括编码模块、融合模块和预测模块；所述编码模块对所述视觉数据样本和所述参考资源进行特征提取，得到所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示；所述融合模块包括N个融合层，所述N为大于或等于1的正整数；第一个融合层利用所述待预测图像样本的第一特征表示、各参考图像的第一特征表示、问题样本的第一特征表示以及各参考文本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示；其他融合层利用上一融合层输出的各参考图像的第一特征表示、所述各参考文本的第一特征表示、待预测图像样本的第一特征表示和问题样本的第一特征表示进行融合处理，得到本融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示；将最后一个融合层输出的待预测图像样本的第一特征表示和问题样本的第一特征表示进行拼接，得到待预测视觉数据的融合特征表示；所述预测模块利用所述视觉数据样本的融合特征表示，生成针对所述问题样本的答案文本；所述训练的目标包括：最小化针对所述问题样本的答案文本与所述问题样本对应的答案样本的差异。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至8中任一项所述的方法的步骤。