CN117271818B

CN117271818B - 视觉问答方法、系统、电子设备及存储介质

Info

Publication number: CN117271818B
Application number: CN202311559297.0A
Authority: CN
Inventors: 胡孟豪; 宋亚光; 王耀威; 杨小汕; 徐常胜
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-03-01
Anticipated expiration: 2043-11-22
Also published as: CN117271818A

Abstract

本申请实施例提供了一种视觉问答方法、系统、电子设备及存储介质，属于计算机视觉技术领域。该方法包括：获取目标图像，以及对应的自然语言问题；基于目标图像和自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；并基于目标图像和自然语言问题进行关联查询，得到相应的隐式知识，并基于隐式知识得到目标问题；之后，将目标问题对应的文本特征和图像对应的目标图像特征拼接，得到多模态查询信息；再之后，根据多模态查询信息和候选知识进行注意力机制融合处理，得到细粒度信息；最后，将多模态查询信息与细粒度信息进行特征融合，得到目标特征信息，并基于目标特征信息进行查询，得到目标答案。本申请能够提高视觉问答的准确性。

Description

视觉问答方法、系统、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视觉问答方法、系统、电子设备及存储介质。

背景技术

随着人们物质生活水平地提高，可供食用的食材种类和数量都有了显著地增加，由此，使用不同食材制成的食物种类也日益增长。

从个人饮食角度来看，不同健康状况的人对食物的需求是不同的，例如，糖尿病患者要避免食用高血糖的食物。然而，面对丰富多元的食物，人们只能依据自身的经验对食物做出选择，相关技术中基于食物的资料能够得到待识别图像对应问题的解答，然而，这样的方法不适用复杂的视觉问答，并且应用该方法得到的答案往往准确度较低。

发明内容

本申请实施例的主要目的在于提出一种视觉问答方法、系统、电子设备及存储介质，能够提高视觉问答的准确性。

为实现上述目的，本申请实施例的第一方面提出了一种视觉问答方法，所述方法包括：

获取目标图像，以及所述目标图像对应的自然语言问题；

基于所述目标图像和所述自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；

基于所述目标图像和所述自然语言问题进行关联查询，得到相应的隐式知识；

将所述隐式知识和所述自然语言问题进行结合，得到目标问题；

将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息；

根据所述多模态查询信息和所述候选知识进行注意力机制融合处理，得到细粒度信息；

将多模态查询信息与所述细粒度信息进行特征融合，得到目标特征信息，并基于所述目标特征信息进行查询，得到目标答案。

在一些实施例中，所述知识图谱可以通过以下步骤构建得到，所述步骤包括：

获取样本名称信息，以及样本名称信息对应的样本图文信息和样本标签信息；

基于所述样本名称信息、所述样本图文信息和所述样本标签信息，确定样本数据；

根据所述样本数据，生成所述知识图谱。

在一些实施例中，所述样本图文信息包括样本图像；

所述基于所述目标图像和所述自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识，包括：

计算所述目标图像与所述样本图像的第一相似度，基于所述第一相似度，确定第一样本图像；

从所述自然语言问题中提取得到匹配关键词，并基于所述第一样本图像和所述匹配关键词，得到结构特征信息、类型特征信息和上下文特征信息；

连接所述结构特征信息、所述类型特征信息和所述上下文特征信息，得到候选知识。

在一些实施例中，所述基于所述目标图像和所述自然语言问题进行关联查询，得到相应的隐式知识，包括：

基于所述第一样本图像，确定第一图像特征，并基于所述匹配关键词，确定第一文本特征；

连接所述第一图像特征和所述第一文本特征，得到关联查询信息，将所述关联查询信息输入预设的智能问答模型中，得到隐式知识。

在一些实施例中，所述将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息，包括：

将所述目标问题输入预设的第一学生网络模型中，得到目标文本特征；

将所述目标图像输入预设的第二学生网络模型中，得到目标图像特征；

拼接所述目标文本特征和所述目标图像特征，得到多模态查询信息。

在一些实施例中，所述第一学生网络模型和所述第二学生网络模型是由教师网络模型训练得到的，所述训练的步骤包括：

获取样本问题；

将所述样本问题分别输入第一学生网络模型和所述教师网络模型中，基于所述第一学生网络模型得到第一文本特征向量，并基于所述教师网络模型得到的第二文本特征向量；

通过所述第一文本特征向量和所述第二文本特征向量计算得到文本特征损失值，依据所述文本特征损失值训练所述第一学生网络模型；

将所述样本图像分别输入第二学生网络模型和所述教师网络模型中，基于所述第二学生网络模型得到第一图像特征向量，并基于所述教师网络模型得到的第二图像特征向量；

通过所述第一图像特征向量和所述第二图像特征向量计算得到图像特征损失值，依据所述图像特征损失值训练所述第二学生网络模型。

在一些实施例中，所述根据所述多模态查询信息和所述候选知识进行注意力机制融合处理，得到细粒度信息，包括：

根据预设的第一参数，确定所述多模态查询信息对应的第一查询信息，以及所述候选知识对应的第一键值对；

以所述第一查询信息和第一键值对作为约束条件，对所述多模态查询信息和所述候选知识进行特征融合，得到融合信息；

分别对所述多模态查询信息和所述融合信息进行特征增强，得到特征增强后的所述多模态查询信息和所述融合信息；

计算特征增强后的所述融合信息和所述多模态查询信息的点积，得到特征分数，并根据所述特征分数，得到更新后的候选知识；

将更新后的所述候选知识和所述多模态查询信息进行特征融合，得到细粒度信息。

在一些实施例中，所述分别对所述多模态查询信息和所述融合信息进行特征增强，得到特征增强后的所述多模态查询信息和所述融合信息，包括：

根据预设的第二参数，确定所述多模态查询信息对应的第二查询信息，以及所述融合信息对应的第二键值对；

以所述第二查询信息和第二键值对作为约束条件，对所述多模态查询信息进行特征增强，得到特征增强后的所述多模态查询信息；

根据预设的第三参数，确定所述融合信息对应的第三查询信息，以及所述多模态查询信息对应的第三键值对；

以所述第三查询信息和第三键值对作为约束条件，对所述融合信息进行特征增强，得到特征增强后的所述融合信息。

在一些实施例中，所述基于所述目标特征信息进行查询，得到目标答案，包括：

根据预设的第四参数，确定所述目标特征信息的目标查询信息和目标键值对；

以所述目标查询信息和所述目标键值对作为约束条件，对所述目标特征信息进行特征增强，得到特征增强后的所述目标特征信息；

将所述目标特征信息输入预设的分类器中，以使所述分类器基于特征增强后的所述目标特征信息，得到目标答案。

为实现上述目的，本申请实施例的第二方面提出了一种视觉问答系统，所述系统包括：

获取模块，用于获取目标图像，以及所述目标图像对应的自然语言问题；

候选知识模块，用于基于所述目标图像和所述自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；

隐式知识模块，用于基于所述目标图像和所述自然语言问题进行关联查询，得到相应的隐式知识；

目标问题模块，用于将所述隐式知识和所述自然语言问题进行结合，得到目标问题；

多模态查询信息模块，用于将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息；

细粒度信息模块，用于根据所述多模态查询信息和所述候选知识进行注意力机制融合处理，得到细粒度信息；

目标答案模块，用于将多模态查询信息与所述细粒度信息进行特征融合，得到目标特征信息，并基于所述目标特征信息进行查询，得到目标答案。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的视觉问答方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的视觉问答方法。

本申请实施例提出了一种视觉问答方法、系统、电子设备及存储介质，该方法首先通过获取目标图像，以及目标图像对应的自然语言问题；接着，基于目标图像和自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；并基于目标图像和自然语言问题进行关联查询，得到相应的隐式知识；然后，将隐式知识和自然语言问题进行结合，得到目标问题；之后，将目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息；再之后，根据多模态查询信息和候选知识进行注意力机制融合处理，得到细粒度信息；最后，将多模态查询信息与细粒度信息进行特征融合，得到目标特征信息，并基于目标特征信息进行查询，得到目标答案。

可以理解的是，本申请实施例通过将目标图像和自然语言问题进行关联查询，能够得到两者之间不被轻易发现的隐式知识，接着，通过将隐式知识和原本的自然语言问题进行结合得到目标问题，并基于目标问题生成多模态查询信息，其中，多模态查询信息中包含有与查询相关的更多特征，通过多模态查询信息与候选知识的多次特征融合处理，能够确定最终的目标答案，并且，该目标答案具有较高的准确度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。

附图说明

图1是本申请实施例提供的一种视觉问答系统示意图；

图2是本申请实施例提供的视觉问答方法的一个可选的流程图；

图3是本申请实施例提供的视觉问答方法的一个可选的目标图像示意图；

图4是本申请实施例提供的视觉问答方法的另一个可选的流程图；

图5a是本申请实施例提供的视觉问答方法的一个可选的食物名称词云的示意图；

图5b是本申请实施例提供的视觉问答方法的一个可选的配方词云的示意图；

图5c是本申请实施例提供的视觉问答方法的一个可选的标签词云的示意图；

图6是图2中的步骤S102的一个实现流程图；

图7是图2中的步骤S103的一个实现流程图；

图8是本申请实施例提供的视觉问答方法的一个可选的隐式知识模块示意图；

图9是图2中的步骤S105的一个实现流程图；

图10是本申请实施例提供的又一个可选的流程图；

图11是本申请实施例提供的视觉问答方法的一个可选的学生网络模型训练示意图；

图12是图2中的步骤S106的一个实现流程图；

图13是本申请实施例提供的视觉问答方法的一个可选的第一注意力机制模块示意图；

图14是本申请实施例提供的视觉问答方法的一个可选的第二注意力机制模块示意图；

图15是图12中的步骤S703的一个实现流程图；

图16是图2中的步骤S107的一个实现流程图；

图17是本申请实施例提供的视觉问答方法的一个可选的第四注意力机制模块示意图；

图18是本申请实施例提供的视觉问答系统的系统功能模块示意图；

图19是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

基于上述背景，本申请实施例提出了一种视觉问答方法、系统、电子设备及存储介质，该方法首先通过获取目标图像，以及目标图像对应的自然语言问题；接着，基于目标图像和自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；并基于目标图像和自然语言问题进行关联查询，得到相应的隐式知识；然后，将隐式知识和自然语言问题进行结合，得到目标问题；之后，将目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息；再之后，根据多模态查询信息和候选知识进行注意力机制融合处理，得到细粒度信息；最后，将多模态查询信息与细粒度信息进行特征融合，得到目标特征信息，并基于目标特征信息进行查询，得到目标答案。

在介绍本申请实施例提出的一种视觉问答方法、系统、电子设备及存储介质之前，首先对本申请中涉及的若干名词进行解析：

词云，一种可视化工具，用于展示文本数据中词汇的频率或重要性。它通过将词汇以不同大小和颜色展示在图像或图表上，以便用户可以更直观地了解文本中的关键词。

注意力机制（Attention Mechanism），是一种模拟人类注意力机制的计算模型，在多模态融合处理中有着广泛的应用。通过注意力机制，可以根据输入数据的重要性和相关性，动态地分配不同权重，从而实现对不同模态信息的有效融合。

数据爬取，是指通过程序自动化地从互联网或其他数据源中获取数据的过程，数据爬取可以用于各种目的，如数据分析、机器学习训练集的构建、商业情报等。

蒸馏，在机器学习中，蒸馏是指将一个大型、复杂的模型（通常称为教师网络模型）的知识转移到一个小型、简单的模型（通常称为学生网络模型）中的过程，这个过程通常可以用来压缩模型大小、提高模型推理速度，同时保持一定的预测准确率。

本申请实施例提供的视觉问答方法、系统、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的视觉问答方法所应用的一种视觉问答系统。

如图1所示，图1是本申请实施例提供的一种视觉问答系统示意图，其中，视觉问答系统包括隐式知识注入模块、显式知识检索模块、排序模块和答案模块。具体地，各模块的模块功能如下所述：

（1）隐式知识注入模块，用于根据输入的目标图像i和自然语言问题q进行关联查询，具体地，通过目标图像i与知识图谱中各图像的相似度确定目标图像i表征的食物实体R，并依据自然语言问题q提取得到匹配关键词H，通过归纳R与H的关系得到信息P，并将信息P输入智能回答模型中，以找出目标图像和自然语言问题之间不被轻易发现的隐式知识IK，接着，基于该隐式知识得到目标问题q´，将该目标问题q´对应的目标文本特征与目标图像i对应的目标图像特征进行拼接，得到多模态查询信息m_q；

（2）显式知识检索模块，能够根据输入的目标图像i和自然语言问题q在预设的知识图谱中进行检索，得到候选知识G_n，其中，候选知识G_n通常是根据目标图像i和自然语言问题q检索得到的较为显而易见的知识；

（3）排序模块，利用注意力机制模块对多模态查询信息m_q和候选知识G_n进行融合处理，并对融合后的结果以及多模态查询信息m_q进行特征增强，以进一步筛选从显式知识检索模块中得到的候选知识G_n得到更新后的候选知识G_k；

（4）答案模块，利用注意力机制模块，对从排序模块中获取得到的候选知识G_k和进行特征集合处理得到g_t，将g_t与多模态查询信息进行融合处理，并对融合后的结果进行特征增强，将特征增强后的结果输入至分类器中，得到目标答案。

需要说明的是，知识图谱也属于视觉问答系统的一部分。

以上是对本申请实施例视觉问答系统的简要介绍，为了更好地理解，将基于上述视觉问答系统，对本申请提出的视觉问答方法做进一步描述。在本申请实施例中，视觉问答方法可以应用于视觉问答系统中。

需要说明的是，各附图中的符号表示均能够在具体实施方式中找到对应的说明。

本申请实施例提供的视觉问答方法，涉及人工智能技术领域。本申请实施例提供的视觉问答方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现视觉问答方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会首先获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标图像和自然语言问题。

如图2所示，图2是本申请实施例提供的视觉问答方法的一个可选的流程图，图2中的方法可以包括但不限于包括步骤S101至步骤S107。

步骤S101，获取目标图像，以及目标图像对应的自然语言问题。

在一些实施例中，用户可以向视觉问题系统输入目标图像以及对应的自然语言问题，其中，目标图像可以是通过拍摄设备即时获取得到的，也可以是用户通过其他途径预先获取并保存得到的。示例性地，如图3所示，图3是本申请实施例提供的视觉问答方法的一个可选的目标图像示意图，图3中的食物为宫保鸡丁，需要说明的是，目标图像的颜色可以是彩色的，也可以是黑白的，本申请实施例并不做具体地限制。

进一步地，自然语言问题可以是用户自定义输入的，示例性地，基于图3，用户可以提出对应的自然语言问题，例如，自然语言问题可以是：“我想要一道适合高血压人群，而且可以减肥的食物，图中的菜适合吗？”。

进一步地，自然语言问题还可以是从终端的可视化界面中选择得到的，例如，终端中预设了多个类型的自然语言问题，用户可以针对输入的目标图像选择相应的问题，无需手动输入，降低了用户的操作负担。

步骤S102，基于目标图像和自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识。

在一些实施例中，可以通过数据爬取得到食物数据，并根据爬取到的食物数据构建知识图谱，进一步地，在完成知识图谱的构建后，可以将目标图像输入至知识图谱中，基于目标图像与知识图谱中各图像的相似度，得到最相似的一个或多个图像以确定食物实体（以下也可简称“实体”），依据该食物实体，可以检索得到第一候选知识。

进一步地，将自然语言问题输入至知识图谱中，首先提取自然语言问题中的匹配关键词，再利用字符串匹配算法，得到自然语言问题相关的第二候选知识。结合第一候选知识和第二候选知识，即可得到候选知识。

可以理解的是，该候选知识是基于目标图像和自然语言问题直接检索得到的，通常是知识图谱中对应的较为显而易见的知识。

步骤S103，基于目标图像和自然语言问题进行关联查询，得到相应的隐式知识。

在一些实施例中，输入的目标图像和自然语言问题中隐含的有限知识对提供对最终给出的目标答案造成了重大的准确度限制，因此，需要挖掘目标图像和自然语言问题之间的隐式知识。

进一步地，首先将输入的目标图像与知识图谱中的各图像进行对比，根据最相似的一张图像确定第一图像特征，并从自然语言模型中提取匹配关键词，得到第一文本特征，将第一图像特征与第一文本特征结合，并输入预设的智能问答模型中，得到隐式知识。

可以理解的是，隐式知识指的是那些无法从目标图像和自然语言问题中通过常规检索得到的显而易见的知识，换言之，其是蕴含在目标图像与自然语言问题中不被轻易发现的相关知识。

步骤S104，将隐式知识和自然语言问题进行结合，得到目标问题。

在一些实施例中，将得到的隐式知识与自然语言问题进行拼接，可以得到包含有更丰富信息的目标问题。

示例性地，在步骤S103中得到的隐式知识为：宫保鸡丁中的盐分含量相对较低，而高盐饮食是高血压的一个重要危险因素。并将该隐式知识和自然语言问题进行拼接，可以得到目标问题。

步骤S105，将目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息。

在一些实施例中，从目标问题中提取得到目标文本特征，并从目标图像中提取得到目标图像特征，连接这两个特征，能够得到多模态查询信息，即多模态查询信息中整合了图像类型和文本类型的数据，能够形成更全面、更准确的查询信息，以便在后续使用该多模态查询信息对检索到的候选知识做进一步地检索，如此，在提高查询信息精度的情况下，进而提高对候选知识检索的精确度。

步骤S106，根据多模态查询信息和候选知识进行注意力机制融合处理，得到细粒度信息。

在一些实施例中，在得到多模态查询信息后，并不直接使用该多模态查询信息对候选知识进行查询，而是基于注意力机制对多模态查询信息和候选知识进行融合处理，得到细粒度信息，以进一步增强多模态查询信息和候选知识之间的关联。

进一步地，注意力机制包括点积注意力机制、双线性注意力机制、多头注意力机制、自注意力机制和交叉注意力机制等，本申请实施例中使用不同的注意力机制对多模态查询信息和候选知识进行多次融合，由于注意力机制可以对输入的多模态信息和候选知识的不同部分赋予不同的重要性权重，因此，经过多次特征融合后得到的细粒度信息包含有更准确、更全面的特征表示。

步骤S107，将多模态查询信息与细粒度信息进行特征融合，得到目标特征信息，并基于目标特征信息进行查询，得到目标答案。

在一些实施例中，可以将所得到的细粒度信息与多模态查询信息再次进行特征融合，并得到目标特征信息。可以理解的是，目标特征信息融合了查询所需的目标图像和自然语言问题中的隐式图像、文本特征，以及从知识图谱中检索得到的显式图像、文本特征，根据目标特征信息进行查询，所得到的目标答案的准确度往往比较高。

进一步地，可以直接将目标特征信息输入预先训练好的机器学习模型中，得到目标答案。目标答案包括正向答案和负向答案两种，示例性地，“适合”为正向答案，“不适合”为负向答案。

需要说明的是，多模态查询信息可以与细粒度信息进行多次特征融合，以提高最终得到的目标特征信息的精确度，其中，特征融合的次数可以依据实际情况进行具体设定，本申请仅以较佳实施例进行说明，而并不做具体地限制。

综上，可以理解的是，本申请实施例通过将目标图像和自然语言问题进行关联查询，能够得到两者之间不被轻易发现的隐式知识，接着，通过将隐式知识和原本的自然语言问题进行结合得到目标问题，并基于目标问题生成多模态查询信息，其中，多模态查询信息中包含有与查询相关的更多特征，通过多模态查询信息与候选知识的多次特征融合处理，能够确定最终的目标答案，并且，该目标答案具有较高的准确度。

如图4所示，图4是本申请实施例提供的视觉问答方法的另一个可选的流程图，图4中的方法可以包括但不限于包括步骤S201至步骤S203。

步骤S201，获取样本名称信息，以及样本名称信息对应的样本图文信息和样本标签信息。

在一些实施例中，知识图谱可以通过以下步骤构建得到:

在一些实施例中，通过数据爬取得到食物数据，并根据爬取到的食物数据构建知识图谱，其中，知识图谱也可以称为多模态食物知识图谱（Multimodal Food KnowledgeGraph，MFKG)。具体地，爬取到的食物数据通常包括食物信息、图文信息以及标签信息，进一步地，食物信息包括有食物名称信息和食物配方信息。食物名称信息包括对应的食物图像信息；食物配方信息中又包括配方图像信息、营养信息和烹饪信息；而标签信息又可以具体划分为疾病标签、功能标签和描述标签，用于指示该食物在各类标签下的关键信息。

进一步地，当食物由多种食材制成时，配方信息中会包括每一食材的配方图像信息、营养信息，以及根据这些食材进行烹饪形成的烹饪信息，示例性地，当食物为宫保鸡丁时，食物图像信息上展示的是基于相关食材制作完成后的宫保鸡丁图像，而配方图像信息上展示的是各食材对应的图像，例如，制作宫保鸡丁所需的鸡肉图像。

进一步地，知识图谱中的食物名称信息、配方信息以及标签信息可以通过词云技术进行可视化展示，如图5a、图5b和图5c所示，图5a是本申请实施例提供的视觉问答方法的一个可选的食物名称词云的示意图，图5b是本申请实施例提供的视觉问答方法的一个可选的配方词云的示意图，图5c是本申请实施例提供的视觉问答方法的一个可选的标签词云的示意图，通过词云技术，可以帮助用户快速了解知识图谱中的热门关键词。

示例性地，为构建知识图谱，可以从某一美食分享网站中爬取数据，得到约127×10³个食物名称信息，43×10³个配方信息，304个标签信息，并定义食物名称信息和配方信息之间的关系为“包含”，食物名称信息和标签信息之间的关系为“适合”或者“不适合”，由此得到了构建知识图谱的食物数据，该食物数据可以统计如下表1所示：

表1

步骤S202，基于样本名称信息、样本图文信息和样本标签信息，确定样本数据。

进一步地，以上述步骤S202中的食物名称信息为样本名称信息，以图文信息为样本图文信息，以标签信息为样本标签信息，并基于样本名称信息、样本图文信息和样本标签信息得到对应的样本数据，其中，一个样本名称信息对应一个或多个样本图文信息，样本图文信息包括样本图像和样本文字，每一样本图文信息又包括了一个或多个样本标签信息。

步骤S203，根据样本数据，生成知识图谱。

在一些实施例中，根据爬取得到的多条样本数据，生成知识图谱。例如，样本数据可以使用图存储结构进行存储，由此，存储的多条样本数据能够构成知识图谱。

进一步地，样本数据的每一部分可以有不同的存储方式，例如，营养信息可以用数组存储结构进行存储，而烹饪信息可以用图存储结构进行存储。

需要说明的是，样本数据还可以依据实际情况选择使用其他存储结构进行数据的存储，如数组存储结构、链表存储结构或树存储结构等，本申请实施例仅以较佳实施例进行说明，而并不做具体地限制。

如图6所示，图6是图2中的步骤S102的一个实现流程图，图6中的方法可以包括但不限于包括步骤S301至步骤S303。

步骤S301，计算目标图像与样本图像的第一相似度，基于第一相似度，确定第一样本图像。

在一些实施例中，如果利用知识图谱中的所有样本数据对输入的目标图像和自然语言问题进行检索，将导致巨大的计算成本，因此，需要首先根据目标图像对知识图谱中的样本数据进行初步筛选，以便首先排除大量不符合要求的数据，减少算力资源的浪费。

进一步地，可以首先计算目标图像与样本图像的第一相似度，具体地，使用深度残差网络（ResNet18）对目标图像进行编码，并计算其与知识图谱中各样本图像对应的样本图像特征之间的距离，由此得到预设数量个（top n个）最相似的第一样本图像。

步骤S302，从自然语言问题中提取得到匹配关键词，并基于第一样本图像和匹配关键词，得到结构特征信息、类型特征信息和上下文特征信息。

在一些实施例中，基于第一样本图像，能够得到存储在知识图谱中与第一样本图像相关联的食物信息。接着，利用自然语言模型从自然语言问题中提取得到匹配关键词，根据匹配关键词和食物信息，能够从知识图谱中确定一条或多条相关的候选知识。

进一步地，可以基于知识图谱得到知识集合，其中，E、R和F分别是实体、关系和事实的集合，示例性地，{宫保鸡丁，适合，高血压}是一个知识。并且，每个事实可以表示为一个三元组/>，其中h，r和t分别是头部实体、关系实体和尾部实体。

进一步地，基于食物信息可以确定头部实体集{}，根据匹配关键词可以确定尾实体集合{/>}，接着，以头部实体和尾部实体为关联，在知识图谱中进行检索，得到所有路径/>在{/>}和{/>}作为候选知识w。

进一步地，为每个候选知识w提取三种特征:结构特征信息w^s、类型特征信息w^t和上下文特征信息w^c。其中，结构特征信息用于表示该候选知识是以何种存储结构进行存储的，类型特征信息用于表示该候选知识对应的是事实中的头部实体、关系实体或是尾部实体，上下文特征信息则表示该候选知识对应的图文信息。

示例性地，将一个顺序为头部实体、关系实体和尾部实体的句子输入到基于BERT的改进模型（RoBERT）中，得到该候选知识对应的结构特征信息，其中，d_h用于表示维数为768的向量。接着，对于该候选知识，提取其类型信息/>，并将该类型信息输入到类型嵌入层，再输入到双向长短期记忆网络架构（双向LSTM）中，得到类型特征信息/>，其中，hid、rid和tid分别是头部实体、关系实体和尾部实体的类型序号（id）。

接着，分别使用RoBERT和ResNet18对候选知识相关的文本和图像进行编码，得到文本特征向量和图像特征向量/>，其中，attr_tnum表示文本属性数，attr_vnum表示图像属性数，d_v用于表示维数为512的向量。之后，通过固定顺序将/>和/>连接起来并映射到相同的维度，得到上下文特征信息/>。

步骤S303，连接结构特征信息、类型特征信息和上下文特征信息，得到候选知识。

在一些实施例中，将结构特征信息、类型特征信息和上下文征信息连接，可以得到候选知识向量g₁至g_n，且多个候选知识g的集合构成了候选知识G_n。

示例性地，将上述步骤S302中得到的结构特征信息w^s、类型特征信息w^t和上下文征信息w^c进行连接，即可得到候选知识，其中，attr_num=attr_tnum+attr_vnum+2。

需要说明的是，虽然滤去了大量与目标图像和自然语言问题无关的食物信息，但是从显式知识检索模块中得到候选知识对应的范围仍比较大，需要对候选知识做进一步地处理，以提高最终得到的目标答案的准确度。

如图7所示，图7是图2中的步骤S103的一个实现流程图，图7中的方法可以包括但不限于包括步骤S401至步骤S402。

步骤S401，基于第一样本图像，确定第一图像特征，并基于匹配关键词，确定第一文本特征。

在一些实施例中，如图8所示，图8是本申请实施例提供的视觉问答方法的一个可选的隐式知识模块示意图，可以利用蒸馏后的ResNet模型提取目标图像的图像特征，计算该图像特征与知识图谱中各样本图像的图像特征的相似度，并选取相似度最高的一张样本图像，并据此样本图像确定第一图像特征。

进一步地，依据自然语言问题中的匹配关键词，得到第一文本特征。

示例性地，用户输入了一张宫保鸡丁的目标图像A，ResNet模型能够提取该目标图像A的图像特征，并根据该图像特征从知识图谱中选取相似度最高的一张样本图像A，并以样本图像A的图像特征作为第一图像特征；用户输入了自然语言问题A：“我想要一道适合高血压人群，而且可以减肥的食物，图中的菜适合吗？”，基于自然语言问题A，可以提取得到匹配关键词为高血压、减肥，基于该匹配关键词，可以得到第一文本特征。

步骤S402，连接第一图像特征和第一文本特征，得到关联查询信息，将关联查询信息输入至预设的智能问答模型中，得到隐式知识。

在一些实施例中，将第一图像特征和第一文本特征连接起来，能够得到关联查询信息，可以理解的是，关联查询信息融合了图像和文本两种类型的特征信息，具有强泛化能力和强鲁棒性，将这样的关联查询信息输入智能模型中所得到的隐式知识，更强调了“宫保鸡丁”与“高血压”、“减肥”之间的关联关系，是基于目标图像和自然语言问题无法轻易得到的。

进一步地，智能问答模型可以是ChatGLM-6B，其中，ChatGLM-6B模型采用双向LSTM，并利用清华大学中文文本分类数据集（THUCTC）和腾讯问答数据集（LCQMC）等中文数据集进行训练，所以与传统的ChatGPT模型相比，ChatGLM-6B在汉语语境中表现出更优越的性能，在处理复杂的汉语语法和词汇方面表现出更强的能力。

如图9所示，图9是图2中的步骤S105的一个实现流程图，图9中的方法可以包括但不限于包括步骤S501至步骤S503。

步骤S501，将目标问题输入预设的第一学生网络模型中，得到目标文本特征。

在一些实施例中，将目标问题输入预设的第一学生网络模型中后，第一学生网络模型会对目标问题中的文本信息进行处理，包括但不限于文本预处理、词嵌入、序列编码、文本特征提取和表示等，并得到目标文本特征。

进一步地，第一学生网络模型可以是RoBERT，并且，将RoBERT最后一个输出层的输出值作为目标文本特征。

步骤S502，将目标图像输入预设的第二学生网络模型中，得到目标图像特征。

在一些实施例中，将目标图像输入预设的第二学生网络模型中后，第二学生网络模型会对目标图像中的图像信息进行处理，包括但不限于图像预处理、图像特征提取、图像特征编码、图像特征表示等，并得到目标图像特征。

进一步地，第二学生网络模型可以是ResNet18，并且，将ResNet18最后一个完全连接层的输出值作为目标图像特征。

需要说明的是，图1中RoBERT以及ResNet18仅展示了一个连接层，实际上二者均包括了多个连接层，并且，连接层的具体数量可以依据实际情况进行具体设定。

步骤S503，拼接目标文本特征和目标图像特征，得到多模态查询信息。

在一些实施例中，拼接目标文本特征和目标图像特征，即可得到多模态查询信息，其中，多模态指的是多种类型的数据信息，可以理解的是，多模态查询信息中包含了更全面、丰富的查询特征，进而能够提高目标答案生成的准确性。

如图10所示，图10是本申请实施例提供的又一个可选的流程图，图10中的方法可以包括但不限于包括步骤S601至步骤S605。

步骤S601，获取样本问题。

在一些实施例中，第一学生网络模型和第二学生网络模型是由教师网络模型训练得到的，其中，教师网络模型可以是卷积神经网络（CNN）、循环神经网络（RNN）或生成对抗网络（GAN）等。

进一步地，为训练第一学生网络模型，需要首先获取样本问题。其中，样本问题可以通过知识图谱中的实体及三元组替换得到。

示例性地，可以从某一食物健康网站中爬取得到100个问题模板，并将问题模板中的1至2个槽替换为知识图谱中的实体，其中，槽指的是用于收集用于信息的占位符，可以看作是对话中需要填充具体值的变量或参数，用于构造特定的问题或语句。可以理解的是，实体所替换的槽的数量和位置并不做具体地限制，以确保生成的样本问题的多样性和可行性。接着，为每个三元组分配一个模板，通过替换槽或者文字连接的方式生成问题模板对应的疑问句。

示例性地，收集到的部分问题模板如下表2所示:

表2

示例性地，可以利用知识图谱中的实体替换问题模板中的{疾病}槽或{功能}槽，并用三元组中进行槽的替换，并得到如下样本问题：（1）高血压人群，适合吃图片中的这道菜吗？（2）高血压人群，不适合吃图片中的这道菜吗？（3）为了减肥，宜食用该菜品吗？（4）为了减肥，不宜食用该菜品吗？

可以理解的是，样本问题能够模拟用户的输入的自然语言问题，具有一定的实际提问价值，可用于视觉问答系统的训练。

步骤S602，将样本问题分别输入第一学生网络模型和教师网络模型中，基于第一学生网络模型得到第一文本特征向量，并基于教师网络模型得到的第二文本特征向量。

在一些实施例中，如图11所示，图11是本申请实施例提供的视觉问答方法的一个可选的学生网络模型训练示意图。首先，将样本问题将分别输入到第一学生网络模型和教师网络模型中，其中，本申请实施例采用的教师网络模型为多模态预训练模型（ChineseCLIP），ChineseCLIP包括文本分支（BERT）和图像分支（ViT），第一学生网络模型采用的是RoBERT，接着，第一学生网络模型和教师网络模型都会对输入的样本问题进行特征学习，并且，ChineseCLIP还会将学习到的文本特征提取到RoBERT中，这样，RoBERT能够具有和ChineseCLIP相同或相似的特征学习及表示能力。

进一步地，在RoBERT和BERT的最后一层都添加了一个全连接层（FC），并分别得到第一文本特征向量和第二文本特征向量。

步骤S603，通过第一文本特征向量和第二文本特征向量计算得到文本特征损失值，依据文本特征损失值训练第一学生网络模型。

在一些实施例中，使用均方误差损失（MSEloss）计算第一学生网络模型和教师网络模型之间的损失值，并以该损失值对第一学生网络模型进行调整优化。其中，MSEloss公式如下式（1）所示：

（1）

其中，Y_i表示教师网络模型中学习到的特征表示，表示学生网络模型中学习到的特征表示。

步骤S604，将样本图像分别输入第二学生网络模型和教师网络模型中，基于第二学生网络模型得到第一图像特征向量，并基于教师网络模型得到的第二图像特征向量。

在一些实施例中，样本图像可以从知识图谱中获取得到，如图11所示，首先，将样本图像将分别输入到第二学生网络模型和教师网络模型中，其中，本申请实施例中的第二学生网络模型采用的是ResNet18，接着，第二学生网络模型和教师网络模型都会对输入的样本图像进行特征学习，并且，ChineseCLIP还会将学习到的图像特征提取到ResNet18中，这样，ResNet18能够具有和ChineseCLIP相同或相似的特征学习及表示能力。

进一步地，在ResNet18和ViT的最后一层都添加了一个全连接层（FC），并分别得到第一图像特征向量和第二图像特征向量。

步骤S605，通过第一图像特征向量和第二图像特征向量计算得到图像特征损失值，依据图像特征损失值训练第二学生网络模型。

在一些实施例中，同样可以利用上述公式（1）计算第二学生网络模型和教师网络模型之间的损失值，并以该损失值对第二学生网络模型进行调整优化，实现第二学生网络模型的训练。

如图12所示，图12是图2中的步骤S106的一个实现流程图，图12中的方法可以包括但不限于包括步骤S701至步骤S705。

步骤S701，根据预设的第一参数，确定多模态查询信息对应的第一查询信息，以及候选知识对应的第一键值对。

在一些实施例中，如图1所示，步骤S106中提到的注意力机制融合处理实际上是由多个注意力机制模块完成的，如图13所示，图13是本申请实施例提供的视觉问答方法的一个可选的第一注意力机制模块示意图，将多模态查询信息和候选知识输入第一注意力机制模块后，可以确定多模态查询信息对应第一查询信息，以及候选知识对应的第一键值对，其中，第一查询信息用于表征关注的查询内容，而键值对提供了查询相关的信息。具体地，第一查询信息和第一键值对通过下式（2）计算得到：

（2）

其中，Q_q为第一查询信息，K_g和V_g为第一键值对，W_Qq、W_Kg、W_Vg均为预设的第一参数，g为候选知识，m_q为多模态查询信息。

进一步地，本申请实施例中的第一注意力机制模块采用的是单一注意力机制模块（Single Attention）。

步骤S702，以第一查询信息和第一键值对作为约束条件，对多模态查询信息和候选知识进行特征融合，得到融合信息。

在一些实施例中，以第一查询信息Q_q和第一键值对K_g、V_g作为约束条件，在图13所示的第一注意力机制模块中通过下述公式（3）进行特征融合处理，得到融合信息m_g：

（3）

步骤S703，分别对多模态查询信息和融合信息进行特征增强，得到特征增强后的多模态查询信息和融合信息。

在一些实施例中，在得到多模态查询信息m_q和融合信息m_g后，为了使视觉问答系统更好地识别并理解查询相关信息和知识图谱相关的知识，需要对多模态查询信息和融合信息进行特征增强。

进一步地，如图14所示，图14是本申请实施例提供的视觉问答方法的一个可选的第二注意力机制模块示意图，其中，本申请实施例中的第二注意力机制采用的是交叉注意力机制模块（Cross Attention），并输出增强后的多模态查询信息和融合信息，以提高多模态查询信息和融合信息的表达能力和鲁棒性。

步骤S704，计算特征增强后的融合信息和多模态查询信息的点积，得到特征分数，并根据特征分数，得到更新后的候选知识；

在一些实施例中，提取特征增强后的融合信息m_g´和多模态查询信息m_q´中第一个特征向量，作为统一特征和/>。之后，计算s_g和s_q的点积，得到知识特征g与查询m_q的相似度分数s(g，m_q)。基于分数集/>，提取预设数量个（top k）个知识特征作为更新后的候选知识G_k，需要说明的是，更新后的候选知识的数量少于步骤S303中未更新的候选知识数量，即top k小于top n。

进一步地，将更新后的候选知识G_k中的连接称为一个集成的知识表示g_t，g_t能够用于与多模态查询信息进行特征融合。

步骤S705，将更新后的候选知识和多模态查询信息进行特征融合，得到细粒度信息。

在一些实施例中，即使更新后得到的候选知识的知识范围已经比未更新前小，但为了进一步提高输入的目标答案准确度，需要再次通过多模态查询信息进行特征融合，并得到细粒度信息M_g。可以理解的是，细粒度信息M_g是由多模态查询信息和候选知识经过多次融合得到的，其包含了文本类型和图像类型下更详细、更丰富的特征信息，由此，进一步提高了目标答案输入的准确性。

进一步地，与图13相类似的，本申请实施例中的第三注意力机制采用的是与第一注意力机制模块相似的单一注意力机制模块。通过输入更新后的候选知识和多模态查询信息以进行特征融合，并得到细粒度信息M_g。

如图15所示，图15是图12中的步骤S703的一个实现流程图，图15中的方法可以包括但不限于包括步骤S801至步骤S804。

步骤S801，根据预设的第二参数，确定多模态查询信息对应的第二查询信息，以及融合信息对应的第二键值对。

在一些实施例中，如图14所示，将多模态查询信息和融合信息输入第二注意力机制模块后，可以确定多模态查询信息对应的第二查询信息，以及融合信息对应的第二键值对，具体地，第二查询信息和第二键值对通过下述式（4）计算得到：

（4）

其中，Q_q´为第二查询信息，K_g´和V_g´为第二键值对，W_Qq´、W_Kg´、W_Vg´均为预设的第二参数。

步骤S802，以第二查询信息和第二键值对作为约束条件，对多模态查询信息进行特征增强，得到特征增强后的多模态查询信息。

在一些实施例中，以第二查询信息Q_q´和第二键值对K_g´、V_g´作为约束条件，在图14所示的第二注意力机制模块中使用下述公式（5）进行特征增强处理，得到特征增强后的多模态查询信息m_q´：

（5）

步骤S803，根据预设的第三参数，确定融合信息对应的第三查询信息，以及多模态查询信息对应的第三键值对。

在一些实施例中，如图14所示，将多模态查询信息和融合信息输入第三注意力机制模块后，可以确定多模态查询信息对应的第三查询信息，以及融合信息对应的第三键值对，具体地，第三查询信息和第三键值对通过下述式（6）计算得到：

（6）

其中，Q_g´为第三查询信息，K_q´和V_q´为第三键值对，W_Qg´、W_Kq´、W_Vq´均为预设的第三参数。

步骤S804，以第三查询信息和第三键值对作为约束条件，对融合信息进行特征增强，得到特征增强后的融合信息。

在一些实施例中，以第三查询信息Q_g´和第三键值对K_q´、V_q´作为约束条件，在图14所示的第三注意力机制模块中使用下述式（7）进行特征增强处理，得到特征增强后的融合信息m_g´：

（7）

如图16所示，图16是图2中的步骤S107的一个实现流程图，图16中的方法可以包括但不限于包括步骤S901至步骤S903。

步骤S901，根据预设的第四参数，确定目标特征信息的目标查询信息和目标键值对。

在一些实施例中，在将多模态查询信息和细粒度信息进行特征融合得到目标特征信息后，需要对得到的目标特征信息做进一步地特征增强处理，以再次提高用于确定目标答案的特征的表达能力和泛化性能。

进一步地，可以将多模态查询信息m_q和细粒度信息M_g进行连接，以得到目标特征信息x。具体地，可以通过CLS令牌连接多模态查询信息和细粒度信息，其中，CLS令牌是一种特殊的标记，其用于表征输入中的句子或文本序列的整体表示。

进一步地，如图17所示，图17是本申请实施例提供的视觉问答方法的一个可选的第四注意力机制模块示意图，将目标特征信息x输入第四注意力机制模块后，可以确定目标特征信息对应目标查询信息和目标键值对。具体地，目标查询信息和目标键值对通过以下式（8）计算得到：

（8）

其中，Q_x为目标查询信息，K_x和V_x为目标键值对，W_Qx、W_Kx、W_Vx均为预设的第四参数。

进一步地，本申请实施例中的第四注意力机制模块采用的是自注意力机制模块（Self Attention）。

步骤S902，以目标查询信息和目标键值对作为约束条件，对目标特征信息进行特征增强，得到特征增强后的目标特征信息。

在一些实施例中，以目标查询信息Q_x和目标键值对K_x、V_x作为约束条件，在图17所示的第四注意力机制模块中使用下述式（9）进行特征增强处理，得到特征增强后的目标特征信息x´：

x´=（9）

步骤S903，将目标特征信息输入预设的分类器中，以使分类器基于特征增强后的目标特征信息，得到目标答案。

在一些实施例中，在得到特征增强后的目标特征信息后，可以将目标特征信息输入预设的分类器中以得到最终的目标答案。其中，分类器可以对目标特征信息进行特征提取和映射处理，并将所得结果与预设的答案阈值进行比较，若该结果大于预设的答案阈值，则输出正向答案如“适合”，若该结果小于预设的答案阈值，则输出负向答案如“不适合”。

进一步地，分类器可以采用支持向量机（SVM）、决策树分类器或贝叶斯分类器中的一个，或者，根据实际情况选择具体的分类器，本申请实施例并不做具体地限制。

在一些实施例中，在对视觉问答系统进行训练的过程中，还可以对如图1中视觉问答系统的排序模块以及答案模块进行优化，通常，在视觉问答系统训练的过程中，排序模块会产生第一损失值，答案模块会产生第二损失值/>，接着，具体使用下式（10）对视觉问答系统进行优化：

（10）

其中，和/>分别用于约束检索模块和回答模块，/>和/>是平衡权重，/>损失函数用于训练排序模块，其中，/>损失函数如下式（11）所示：

（11）

其中，n表示需要排序的候选三元组的个数；S_j表示正确候选三元组的得分，即总有一个正确三元组j；S_i表示错误候选三元组的得分，且i不等于j；target是一个标签张量，正确候选三元组的值为-1，错误三元组的值为1，margin为预设值。

并将定义为预测值与真实值/>的交叉熵如下式（12）所示:

（12）

其中，CE是交叉熵（Cross-Entropy）的缩写。

为了更好地理解本申请实施例提出的视觉问答方法所带来的有益效果，下面以一具体地训练和测试结果进行说明。

在一些实施例中，首先将爬取到的数据以比例80%:10%:10%分为训练集、验证集和测试数据集。为了模拟知识图谱中缺乏一些知识的情况，删除了测试集中部分表征标签和食物之间的关系的三元组。

需要说明的是，在训练和测试中，使用F1分数（F1 Score）和准确性（Accuracy）指标来评估结果，其中，F1-Score是统计学中用来衡量二分类模型精确度的一种指标。

进一步地，在数据方面，只对训练数据集进行了数据增强，而没有对测试数据集进行数据增强。为了增强训练数据集，使用了图像数据增强技术，具体地，利用六种颜色空间转换，将图像转换为亮度-色度-饱和度（XYZ）、色度坐标系（Xyz）、亮度-色差（YUV）、色调-饱和度-亮度（HSB）、亮度-红色差-蓝色差（YCrCb）和CIE实验室颜色空间（CIE Lab）。此外，对图像的每个通道执行图像归一化、水平翻转和随机系数乘法(Color Skew)，以扩展训练数据集的多样性，并增强视觉问答系统对输入的不同图像的泛化处理能力。

进一步地，视觉问答系统中的第一注意力机制模块、第二注意力机制模块、第三注意力机制模块和第四注意力机制模块的数量可以分别设置为2个、2个、8个和8个；并设置候选知识生成中头部实体的个数为15，设置显式知识检索模块中选择的知识特征的个数为16，并将整体损失函数的两个平衡权值、/>设置0.5和0.5；整个框架使用Adam优化器进行训练，并将学习率设置为0.001以控制优化过程中的步长；为了保证数值的稳定性，采用1×10^-8的epsilon值(eps)；选取系数(beta)为(0.9，0.999)以计算梯度的第一和第二指数衰减率；通过纳入0.001的权重衰减，并应用正则化来控制模型的复杂性；此外，还启用了AMSGrad变体(AMSGrad)来增强了算法的收敛性。

进一步地，为了优化学习过程，使用学习率调整策略为OneCycleLR；并将各参数组中的最大学习率周期绑定为0.001，迭代步数为10，训练的总次数为30次。并且，如果学习率在10个迭代周期内没有下降，则会提前停止训练。

进一步地，本申请实施例中的训练和测试将在高性能加速计算机（NVIDIA A100-SXM4-40GB GPU）上使用PyTorch1.8.1+cu111对视觉问答系统进行训练和测试。在较好结果中，完成训练和测试需要8.5个小时。

进一步地，下表3是应用了本申请实施例的视觉问答方法（VQA）与现有方法的测试数据比较，其中，现有方法包括图像问答任务的深度学习模型（BAMnet）、基于预训练的自然语言处理模型（ConceptBert）、用于文本分类或序列标注任务的深度学习模型（HAN）、用于图像问答任务的深度学习模型（BAN）、基于图神经网络的自然语言处理模型（HypergraphTransformer）、用于问答任务的多因素模型（MFQA），表3如下所示：

表3

可以理解的是，在相同的数据训练和测试情况下，本申请实施例中的视觉问答方法的最终得到的F1分数和准确率均高于其他现有方法。

如图18所示，本申请实施例还提供了另一种视觉问答系统，图18是本申请实施例提供的视觉问答系统的系统功能模块示意图，可以实现上述视觉问答方法，视觉问答系统包括：

获取模块1001，用于获取目标图像，以及目标图像对应的自然语言问题。

候选知识模块1002，用于基于目标图像和自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识。

隐式知识模块1003，用于基于目标图像和自然语言问题进行关联查询，得到相应的隐式知识。

目标问题模块1004，用于将隐式知识和自然语言问题进行结合，得到目标问题。

多模态查询信息模块1005，用于将目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息。

细粒度信息模块1006，用于根据多模态查询信息和候选知识进行注意力机制融合处理，得到细粒度信息。

目标答案模块1007，用于将多模态查询信息与细粒度信息进行特征融合，得到目标特征信息，并基于目标特征信息进行查询，得到目标答案。

需要说明的是，多模态查询信息可以与细粒度信息进行多次特征融合，以提高最终得到的目标特征信息的精确度，其中，特征融合的次数可以依据实际情况进行具体设定，本申请仅以较佳实施例进行说明，而并不做具体地限制。综上，可以理解的是，本申请实施例通过将目标图像和自然语言问题进行关联查询，能够得到两者之间不被轻易发现的隐式知识，接着，通过将隐式知识和原本的自然语言问题进行结合得到目标问题，并基于目标问题生成多模态查询信息，其中，多模态查询信息中包含有与查询相关的更多特征，通过多模态查询信息与候选知识的多次特征融合处理，能够确定最终的目标答案，并且，该目标答案具有较高的准确度。

该视觉问答系统的具体实施方式与上述视觉问答方法的具体实施例基本相同，在此不再赘述。在满足本申请实施例要求的前提下，视觉问答系统还可以设置其他功能模块，以实现上述实施例中的视觉问答方法。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述视觉问答方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

如图19所示，图19是本申请实施例提供的电子设备的硬件结构示意图，电子设备包括：

处理器1101，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器1102，可以采用只读存储器（ReadOnly Memory，ROM）、静态存储设备、动态存储设备或者随机存取存储器(RandomAccess Memory，RAM)等形式实现。存储器1102可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1102中，并由处理器1101来调用执行本申请实施例的视觉问答方法；

输入/输出接口1103，用于实现信息输入及输出；

通信接口1104，用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信；

总线1105，在设备的各个组件（例如处理器1101、存储器1102、输入/输出接口1103和通信接口1104）之间传输信息；

其中处理器1101、存储器1102、输入/输出接口1103和通信接口1104通过总线1105实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述视觉问答方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种视觉问答方法，其特征在于，所述方法包括：

获取目标图像，以及所述目标图像对应的自然语言问题；

将多模态查询信息与所述细粒度信息进行特征融合，得到目标特征信息，并基于所述目标特征信息进行查询，得到目标答案；

其中，所述根据所述多模态查询信息和所述候选知识进行注意力机制融合处理，得到细粒度信息，包括：

将更新后的所述候选知识和所述多模态查询信息进行特征融合，得到细粒度信息；

所述分别对所述多模态查询信息和所述融合信息进行特征增强，得到特征增强后的所述多模态查询信息和所述融合信息，包括：

2.根据权利要求1所述的视觉问答方法，其特征在于，所述知识图谱可以通过以下步骤构建得到，所述步骤包括：

根据所述样本数据，生成所述知识图谱。

3.根据权利要求2所述的视觉问答方法，其特征在于，所述样本图文信息包括样本图像；

4.根据权利要求3所述的视觉问答方法，其特征在于，所述基于所述目标图像和所述自然语言问题进行关联查询，得到相应的隐式知识，包括：

5.根据权利要求4所述的视觉问答方法，其特征在于，所述将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息，包括：

6.根据权利要求5所述的视觉问答方法，其特征在于，所述第一学生网络模型和所述第二学生网络模型是由教师网络模型训练得到的，所述训练的步骤包括：

获取样本问题；

7.根据权利要求1所述的视觉问答方法，其特征在于，所述基于所述目标特征信息进行查询，得到目标答案，包括：

8.一种视觉问答系统，其特征在于，所述系统包括：

目标答案模块，用于将多模态查询信息与所述细粒度信息进行特征融合，得到目标特征信息，并基于所述目标特征信息进行查询，得到目标答案；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的视觉问答方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的视觉问答方法。