CN117033609A

CN117033609A - 文本视觉问答方法、装置、计算机设备和存储介质

Info

Publication number: CN117033609A
Application number: CN202311296256.7A
Authority: CN
Inventors: 又木; 保长存; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-11-10
Anticipated expiration: 2043-10-09
Also published as: CN117033609B

Abstract

本申请涉及一种文本视觉问答方法、装置、计算机设备、存储介质和计算机程序产品。涉及计算机视觉和自然语言处理技术。所述方法包括：获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本；从所述目标图像中，提取至少表征所述目标对象的对象名称和对象边界框的图像元数据；将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合，得到多模态编码序列；将所述多模态编码序列输入回答生成模型，得到所述问题文本的回答文本。采用上述方法，能够准确得到问题文本的回答文本。

Description

文本视觉问答方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本视觉问答方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着互联网技术的发展，越来越多的信息采用包括视觉(如图像)、文本等多种模态方式来展示。随着计算机技术的发展，出现了视觉问答技术（Visual Question andAnswering，VQA），视觉问答是一种复杂的多模态任务，旨在自动回答与给定图像内容相关的文本问题，并且需要同时理解视觉图像和自然语言问题。

然而，相关技术中，通常是直接将图像信息与文本信息进行分析，导致相关技术中视觉问答结果的准确性较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高视觉问答准确性的文本视觉问答方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种文本视觉问答方法。所述方法包括：

获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本；

从所述目标图像中，提取至少表征所述目标对象的对象名称和对象边界框的图像元数据；

将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合，得到多模态编码序列；

将所述多模态编码序列输入回答生成模型，得到所述问题文本的回答文本。

第二方面，本申请还提供了一种文本视觉问答装置。所述装置包括：

数据获取模块，用于获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本；

图像处理模块，用于从所述目标图像中，提取至少表征所述目标对象的对象名称和对象边界框的图像元数据；

编码融合模块，用于将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合，得到多模态编码序列；

回答生成模块，用于将所述多模态编码序列输入回答生成模型，得到所述问题文本的回答文本。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述文本视觉问答方法、装置、计算机设备、存储介质和计算机程序产品，通过对目标图像进行图像元数据提取，以使得到的图像元数据能够至少表征目标对象的对象名称和对象边界框，实现了对目标图像的多维度信息提取，从而能够使得表征图像元数据的第二编码序列能够从对象名称以及对象位置等维度准确地表征图像所包含的语义，通过将表征问题文本的第一编码序列和表征图像元数据的第二编码序列进行编码融合，由于第一编码序列和图像元数据中均包含对目标对象的描述，能够在编码融合过程中，提高对图像语义的理解，进而基于编码融合得到的多模态编码序列，准确得到问题文本的回答文本。

附图说明

图1为一个实施例中文本视觉问答方法的应用环境图；

图2为一个实施例中文本视觉问答方法的流程示意图；

图3为一个实施例中文本视觉问答方法的流程示意图；

图4为一个实施例中目标图像中目标对象的掩码示意图；

图5为一个实施例中文本视觉问答方法的流程示意图；

图6为一个实施例中回答生成模型的训练流程示意图；

图7为另一个实施例中文本视觉问答方法的流程示意图；

图8为另一个实施例中文本视觉问答方法的流程示意图；

图9为一个实施例中文本视觉问答装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本视觉问答方法可以是基于人工智能的，例如，本申请中的回答生成模型可以是神经网络模型，本申请中的文本视觉问答方法可以是使用回答生成模型对目标图像进行分析得到问题文本对应的回答文本的过程。其中，人工智能（ArtificialIntelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术等研究方向。

计算机视觉（Computer Vision, CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR（Optical Character Recognition，光学字符识别）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。

自然语言处理（Nature Language processing, NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉和自然语言处理技术，具体通过如下实施例进行说明：

本申请实施例提供的文本视觉问答方法，可以应用于如图1所示的应用环境中。该应用场景可以包括终端102和服务器104，终端102与服务器104之间可以通过通信网络进行通信。该通信网络可以是有线网络或无线网络。因此，终端102和服务器104可以通过有线或无线通信方式进行直接或间接的连接。比如，终端102可以通过无线接入点与服务器104间接地连接，或者终端102通过因特网与服务器104直接地连接，本申请在此不做限制。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。本申请实施例可应用于与文本视觉问答关联的多个场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等各种场景。终端102上可以安装有与文本视觉问答相关的客户端，用户可以通过客户端界面提出问题和上传图片。该客户端可以是软件（例如浏览器、图像或视频软件等），也可以是网页、小程序等。服务器104则是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行文本视觉问答相关模型训练的服务器，在一些实施例中，文本视觉问答相关模型包括回答生成模型和图像分割模型，回答生成模型和图像分割模型训练可以通过不同服务器实现，也可以通过同一服务器实现，本申请不做具体限定。进一步地，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置，可以集成在服务器104上，也可以放在云上或其他服务器上。

需要说明的是，本申请实施例中的文本视觉问答方法，可以由终端102或服务器104等计算机设备单独执行，也可以由终端102和服务器104共同执行。在一些实施例中，服务器104获取终端102上传的目标图像、以及针对目标图像中至少一个目标对象的问题文本，服务器104从目标图像中，提取至少表征目标对象的对象名称和对象边界框的图像元数据，将表征问题文本的第一编码序列和表征图像元数据的第二编码序列进行编码融合，得到多模态编码序列，将多模态编码序列输入回答生成模型，得到问题文本的回答文本，并将问答文本回传给终端102。

在一个示例性的实施方式中，计算机设备均可以是区块链系统中的节点设备，能够将获取到以及生成的信息共享给区块链系统中的其他节点设备，实现多个节点设备之间的信息共享。区块链系统中的多个节点设备可以配置有同一条区块链，该区块链由多个区块组成，并且前后相邻的区块具有关联关系，使得任一区块中的数据被篡改时都能通过下一区块检测到，从而能够避免区块链中的数据被篡改，保证区块链中数据的安全性和可靠性。

在实际应用中，本申请实施例的文本视觉问答可用于在线学习平台、智能客服场景、旅游推荐平台、在线购物平台、智能家居系统、科研辅助工具等应用场景，具体商品应用场景描述如下：

在线学习平台：例如，一个在线学习平台可以使用文本视觉问答技术来回答有关图像或视频教程中的问题。例如，学生可以询问图像中显示的是什么，或者视频教程的某个部分发生了什么，在线学习平台能够理解并回答这些问题。此外，在线学习平台技术还可以理解和回答关于图像或图表的问题，在自动批改作业或考试中发挥作用。

智能客服场景：在智能客服场景中，用户可以上传图片并针对该图片提出问题。系统将显示提出的问题和上传的图片，并根据问题提供答案。用户也可以查看系统的置信度得分。在图中，用户上传了一张狗的图片，并提出了“这是什么品种的狗”的问题。系统回答这是一只金毛犬，置信度得分为90%。

旅游推荐平台：在旅游推荐平台上，用户可能会上传一张他们喜欢的旅游照片，然后询问“这张照片是在哪里拍的”或者“这个地标建筑是什么”等问题。采用本申请的方法可以帮助旅游推荐平台理解照片内容，然后给出准确的回答，并可能进一步为用户推荐相关的旅游信息。

在线购物平台：用户可能会看到一件他们喜欢的商品，然后针对该商品的图片提问如“这件衣服的材质是什么”或者“这个产品的尺寸是多少？”等问题。利用本申请的方法，在线购物平台可以理解商品的图片内容，然后给出准确的回答，提高用户购物的便利性。

智能家居系统：用户可能需要询问关于家中的某个设备的问题，例如，针对设备图片提问“这个设备的型号是什么”或者“这个设备的工作原理是什么”。本申请的方法可以帮助智能家居系统理解设备的图片内容，然后针对该问题生成准确的回答。

艺术和文化教育应用：这样的应用可以利用我们的申请，让用户向系统提出关于艺术品或文化遗产图片的问题，例如，“这个画作的作者是谁”或者“这个建筑的建筑风格是什么”等。艺术和文化教育应用系统可以理解图片，然后给出准确的回答，提供丰富的教育信息。

科研辅助工具：在进行科学研究时，研究人员可能需要理解复杂的图像，例如电子显微镜图像、X射线图像或其他实验数据图像。科研人员可能会针对实验数据图像提问“这个结构是什么”或者“这个图像显示的数据趋势是什么”等问题。本申请的方法。可以帮助科研辅助工具理解这些图像，并生成准确的回答，从而辅助科研人员的研究工作。

需要说明的是，以上是对本发明实施例可用应用场景的示例性说明，实际应用中，本发明实施例的使用场景不局限于上述应用场景，也可以应用到更加通用的自然语言处理/计算机视觉多模态特征融合场景，如图像标注、内容审查、字幕生成等，本申请实施例对于可适用的应用场景不作具体限定。

在一个实施例中，如图2所示，提供了一种文本视觉问答方法，该方法可以由计算机设备执行，该计算机设备可以是图1所示的终端或服务器，在本实施例中，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取目标图像、以及针对目标图像中至少一个目标对象的问题文本。

其中，目标图像可以是具有可直接从图像中识别到的视觉特点的图像，视觉特点例如可以是图像中目标对象的大小、轮廓、颜色、位置、种类等特征。目标图像，例如可以是视频中的至少一张视频帧图像，也可以是图片。用户可以针对目标图像中的至少一个目标对象进行提问。

问题文本是针对目标图像中的至少一个目标对象进行提问的问题。目标图像和问题文本可以是用户手动输入，也可以是文本视觉问答系统自动获取。在一些实施例中，问题文本可以是用户通过输入框直接输入的文本，也可以是通过语音识别等方式对输入的语音进行识别转换得到的问题文本。

以图3为例，目标图像为图3中的小狗照片，进一步的，可以对目标图像设置问题文本“图片中的小狗是什么颜色的”。在其他实施例中，目标图像可以是同时包含几个目标对象的目标图像，例如显示有3只柯基1只柴犬的图片，进一步地，针对该图片设置的问题文本可以是“图片中有几只柯基”，即问题文本可以是针对目标图形中的多个目标对象设置的。可以理解，一个目标图像可以设置一个或多个问题文本，本申请实施例对此不进行限制。

具体的，问题文本是针对目标图像中至少一个目标对象提问的文本，问题文本与所针对的目标图像构成一个数据组合，当问题文本和目标图像由客户端同步提交给服务器时，该问题文本和目标图像可以是响应于客户端向服务器提交数据的提交操作建立的组合关系。当目标图像和问题文本是客户端依次提交给服务器的数据时，客户端或服务器可以基于提交问题文本时所指向的目标图像，建立起问题文本和目标图像之间的组合关系。其中，问题文本时所指向的目标图像可以是在交互数据中距离问题文本最近的图像，也可以是用户在提交问题文本之前通过触发操作指定的图像。

步骤204，从目标图像中，提取至少表征目标对象的对象名称和对象边界框的图像元数据。

其中，图像元数据是用来表征目标图像的图像语义的数据，具体地，目标图像的图像元数据可以表征目标图像中目标对象的对象名称，目标图像中目标对象的对象边界框等，在其他实施例中，图像元数据所表征的图像语义内容可以根据实际的场景需要进行设定。

目标对象的对象名称是用来指代目标图像中的目标对象的文本表示。具体的，当目标图像中存在文本内容时，目标对象的对象名称可以基于图像语义和文本内容的匹配来确定。当目标图像中不存在文本内容时，目标对象的对象名称可以通过对目标图像进行语义识别来得到。

例如，图3中目标图像中目标对象的对象名称可以为“小狗”，也可以为“柴犬”。具体地，目标对象的对象名称可以基于问题文本来确定。例如，在问题文本为“图片中的小狗是什么颜色的”，可以确定目标图像中目标对象的对象名称为“小狗”，再例如，问题文本为“图片中是一只什么狗”，可以确定目标图像中目标对象的对象名称可以具体为小狗的所属种类，即目标对象的对象名称可以确定为“柴犬”。

目标对象的对象边界框是指目标对象在目标图像中的定位信息，用于表征目标对象在目标图像中的显示区域。具体地，目标对象的边界框可以用坐标数据来表示，基于该坐标数据可以从目标图像中准确定位目标对象的边界，从而实现目标图像中的目标对象与其他对象的分割，减少其他对象造成的信息干扰，从而提高对目标对象的信息提取的准确性。

具体地，计算机设备通过对目标图像进行语义识别，可以从目标图像中，得到表征目标对象的对象名称的信息，通过对目标图像进行目标对象边界识别，可以得到表征目标对象的对象边界框的信息，计算机设备通过表征目标对象的对象名称的信息，以及表征目标对象的对象边界框的信息，即可得到至少表征目标对象的对象名称和对象边界框的图像元数据。

步骤206，将表征问题文本的第一编码序列和表征图像元数据的第二编码序列进行编码融合，得到多模态编码序列。

其中，第一编码序列是基于问题文本进行编码处理得到的序列表示，用于表征问题文本的文本语义。第二编码序列是基于图像元数据进行编码处理得到的序列表示，用于表征目标图像的图像语义。其中，基于问题文本和基于图像元数据的编码处理可以通过不同的编码器来实现。例如，基于问题文本的编码可以基于文本编码器来实现，基于图像元数据的编码可以基于图像元数据提取模型自带的编码器来实现，以简化图像元数据编码所需的资源。在一个实施例中，计算机设备可以使用训练好的图像编码器（Image Encoder）对图像元数据进行编码，得到第二编码序列。该图像编码器的具体网络结构，例如可以是卷积神经网络（Convolutional Neural Networks，CNN）或循环神经网络（RecurrentNeuralNetwork，RNN）等。

编码融合是指将第一编码序列和第二编码序列进行融合的数据处理过程。融合第一编码序列和第二编码序列的具体算法，可以包括并行融合，分层融合，和动态融合等算法中的至少一项。在其中一些实施例中，编码融合可以是将第一编码序列和第二编码序列进行序列拼接或序列叠加，得到多模态编码序列。其中，序列拼接具体可以是将第一编码序列和第二编码序列的序列表示通过对齐处理后拼接为一个序列的数据处理过程。序列叠加具体可以是将第一编码序列与第二编码序列按照设定的融合参数进行数据融合，得到一个序列的数据处理过程，编码融合的具体方式可以基于实际的场景需要进行设定，在此不做限定。

步骤208，将多模态编码序列输入回答生成模型，得到问题文本的回答文本。

其中，回答生成模型是用于生成问题文本的回答文本的语言模型，回答生成模型具体可以采用如GPT-4模型、BERT模型、RoBERTa模型或T5模型等模型中的任意一种来实现，具体的模型使用可以基于特定的自然语言处理任务来确定。

回答生成模型可以是大型自回归语言模型，在一些实施例中，回答生成模型可以是基于参数微调的训练方式，对预训练的大型自回归语言模型进行微调得到的。具体来说，在计算机设备中部署有训练结束的回答生成模型，回答生成模型可以对输入的多模态编码序列进行语义解析处理，结合多模态编码序列中所表征的问题语义信息和图像语义信息，生成针对问题文本的回答文本。

上述文本视觉问答方法，通过对目标图像进行图像元数据提取，以使得到的图像元数据能够至少表征目标对象的对象名称和对象边界框，实现了对目标图像的多维度信息提取，从而能够使得表征图像元数据的第二编码序列能够从对象名称以及对象位置等维度准确地表征图像所包含的语义，通过将表征问题文本的第一编码序列和表征图像元数据的第二编码序列进行编码融合，由于第一编码序列和图像元数据中均包含对目标对象的描述，能够在编码融合过程中，提高对图像语义的理解，进而基于编码融合得到的多模态编码序列，准确得到问题文本的回答文本。

在其中一些实施例中，从目标图像中，提取至少表征目标对象的对象名称和对象边界框的图像元数据，包括：

对目标图像进行图像分割，确定目标图像中的目标对象区域；对目标对象区域进行对象识别，得到目标对象的对象名称表示；基于目标对象区域在目标图像中的位置，得到目标对象在目标图像中的对象边界框表示；生成包括对象名称表示和对象边界框表示的图像元数据。

其中，图像分割是指将图像中各个对象分割成单独个体的数据处理过程。具体的，计算机设备可以使用图像语义分割技术，对目标图像中的每一个像素点进行分类，确定每个像素点的所属对象，从而将目标图像分割成多个区域，每一区域包含一个或一类对象。具体地，计算机设备可以采用Unet图像分割网络或传统的图像分割方式，对目标图像进行图像分割，得到多个图像区域。进一步的，在对目标图像进行图像分割之前，还可以对目标图像进行背景去除处理，提取出目标图像中的有效区域，再进一步对有效区域进行图像分割处理。对目标图像进行背景去除处理的具体算法，可以是Otsu算法、OpenCV算法等等。示例性的，图4中的空白区域为背景，背景以外的区域为有效区域。

然后，计算机设备再对各目标对象分别进行语义分析，确定各目标对象各自表征的物体，并结合目标图像中所包含的物体，确定该目标对象的语义信息实现对象识别，得到目标对象的对象名称表示。例如，对于包含行人、雨伞、建筑物、车辆的目标图像，该目标图像的语义信息例如可以包括“行人”、“雨伞”、“建筑物”、“车辆”等关键词，也可以包括“雨中的街道”或“雨中的车辆”“雨中的行人”等词汇。

具体地，计算机设备在目标图像划分为多个图像区域后，服务器可以基于每一图像区域中各自包含的图像元素，分别对每一图像区域进行图像语义分析，得到各图像区域各自的局部语义，从而确定包括各局部语义的图像全局语义，进而结合图像全局语义，得到目标对象的对象名称表示。实际应用中，服务器可以结合单个图像区域的相邻区域，对该图像区域进行图像语义分析，从而在单个图像区域中目标对象不完整的情况下，能够确保局部语义的准确性，从而得到目标对象准确的对象名称表示。

对象边界框表示用于表征目标对象在目标图像中的空间位置。计算机设备以目标图像中的某个参考点为原点，可以建立坐标系，基于目标对象区域在目标图像中的相对位置，可以确定目标对象区域在该坐标系中的坐标数据，进而得到目标对象在目标图像中的对象边界框表示。

具体地，计算机设备可以将目标图像输入图像分割模型，通过图像分割模型对目标图像进行图像分割，确定目标图像中的目标对象区域，然后利用图像分割模型对目标对象区域进行对象识别，得到目标对象的对象名称表示，并基于目标对象区域在目标图像中的位置，得到目标对象在目标图像中的对象边界框表示，生成包括对象名称表示和对象边界框表示的图像元数据并输出。其中，图像分割模型可以SAM模型、Mask R-CNN模型、U-Net模型和Deeplab模型中的至少一种。其中，SAM模型包括图像编码器、提示编码器和轻量级掩膜解码器，能够适应新的图像分布和任务，而不需要预先知识，具有零射击转移的特性，能够快速生成准确表征目标图像的图像语义的图像元数据。

在其中一些实施例中，对目标图像进行图像分割，确定目标图像中的目标对象，包括：获取与目标对象关联的掩码提示信息，基于掩码提示信息，生成针对目标图像的图像分割掩码；按照图像分割掩码对目标图像进行图像分割，得到包括目标图像的目标区域；将目标区域中的对象确定为目标对象。

其中，掩码提示信息是用于生成图像分割掩码的提示信息，掩码提示信息可以由图像分割模型直接生成，也可以由图像分割模型结合问题文本分析得到。其中，图像分割模型具体可以包括提示编码器，通过提示编码器可以生成针对目标图像的掩码提示信息，该掩码提示信息中包括了与目标对象关联的掩膜提示信息。通过图像分割模型结合问题文本可以快速便捷地从提示编码器生成的掩码提示信息中，确定出与目标对象关联的掩膜提示信息。

图像分割掩码是指在进行图像分割处理的过程中所使用的掩码信息。具体来说，计算机设备可以通过对图像中的一部分对象进行掩码处理，得到过滤掉该部分对象的结果。例如，计算机设备可以通过图像分割掩码，对目标图像中除了目标对象以外的其他对象进行掩码和图像分割，得到仅包含目标对象的目标区域。

具体地，计算机设备可以通过图像分割模型中的提示编码器生成掩码提示信息，从掩码提示信息中获取与目标对象关联的掩码提示信息，进而生成针对目标图像的图像分割掩码，图像分割模型可以按照图像分割掩码对目标图像进行图像分割，得到包括目标图像的目标区域，目标区域中的对象即为目标图像中的目标对象。

在本实施例中，通过掩码提示信息，生成针对目标图像的图像分割掩码来进行图像分割，能够使得分割得到的目标区域能够准确地表征目标对象，提高目标对象的定位信息的准确性。

在其中一些实施例中，获取与目标对象关联的掩码提示信息，包括：通过对问题文本进行语义分析，从问题文本提取至少一个表征实体的关键词；将与关键词匹配的掩码提示信息，作为与目标对象关联的掩码提示信息。

具体地，计算机设备通过对问题文本进行语义分析，能够确定问题文本中包含的实体关键词，通过将实体关键词与针对目标图像生成的掩码提示信息进行匹配，能够从各个掩码提示信息中选择出与关键词匹配的掩码提示信息，来作为与目标对象关联的掩码提示信息，从而能够使得基于掩码提示信息分割得到的目标区域能够准确地表征目标对象，提高目标对象的目标区域的准确性。

在其中一些实施例中，文本视觉问答方法还包括：对问题文本进行上下文编码，得到表征问题文本的语义内容的文本编码序列。

进一步地，将表征问题文本的第一编码序列和表征图像元数据的第二编码序列进行编码融合，得到多模态编码序列，包括：将文本编码序列与表征图像元数据的第二编码序列进行编码融合，得到多模态编码序列。

其中，上下文编码是对文本进行语义理解的重要方式。具体地，计算机设备可以将问题文本确定为待处理文本，在该待处理文本的基础上，围绕目标图像的语义信息进行上下文编码，得到目标图像的上下文编码信息。示例性的，计算机设备可以使用无监督学习技术，从词库中查找与问题文本最相关的词汇，并将该词汇与问题文本拼接，将拼接结果作为新的待处理文本，直至拼接结果满足拼接终止条件，或者拼接得到的文本所包含的文本长度达到长度条件。

在其中一些实施例中，对问题文本进行上下文编码可以采用的是仅对问题文本进行上文编码，或是仅对问题文本进行下文编码，还可以同时对问题文本进行上文编码和下文编码等方式实现。具体可以根据实际应用场景设定上下文编码方式，在进行上下文编码时，可以按照设定的上下文编码方式进行相应处理，提高与具体应用场景的适配性。

在本实施例中，通过对问题文本进行上下文编码处理，能够更好地理解问题文本所表达的文本语义，从而使得得到的文本编码序列所表征的语义内容更为准确，能够进一步提高回答生成模型所生成答案文本的准确性。

在一些实施例中，对问题文本进行上下文编码，得到表征问题文本的语义内容的文本编码序列，包括：按照问题文本中的每一个分词在问题文本中的排序位置，对问题文本进行掩码自编码处理，确定问题文本的上下文特征；基于问题文本和上下文特征进行编码处理，得到表征问题文本的语义内容的文本编码序列。

其中，计算机设备可以采用基于字典、基于理解或基于统计的分词方法，对问题文本进行分词处理，得到多个分词，按照每一分词在问题文本中的位置，对问题文本进行掩码自编码处理，确定问题文本的上下文特征。其中，基于字典的分词方法，需要事先编制字典，并将问题文本与字典中的词条进行匹配，若问题文本中扫描到字段中已有的词条则匹配成功，切分出一个词汇，以此类推，直至无法继续切分，得到问题文本所包含的多个词汇。基于理解的分词方法，则是通过利用人工智能技术，并结合语法、语义和心理学知识模拟人对文本的理解，将问题文本切分成多个词汇。基于统计的分词方法是通过计算出字与字之间相邻出现的概率，将相邻出现的概率较大的连续字确定为一个词汇。

上述实施例中，结合分词和掩码自编码算法，进行上下文编码处理，相当于从词法的角度进行匹配理由的扩展，能够确保生成的匹配理由的准确性。

需要说明的是，进行掩码自编码处理的具体方式并不唯一。在一个具体的实施例中，上下文特征包括问题文本中第一个分词的上文特征。服务器可以将每一分词在问题文本中的上文位置确定为掩码位置，根据每一分词各自对应的掩码位置，对问题文本进行掩码自编码处理，得到每一分词各自的上文特征。其中，除第一个分词以外的每一分词各自的上文特征所表征的期望上文信息，与分词在问题文本中的上文信息满足文本相似条件。

其中，除最后一个分词以外的每一分词各自的下文特征所表征的期望下文信息，与分词所表征词汇在问题文本中的下文信息满足文本相似条件。具体地，对应于每一分词，计算机设备可以将分词在问题文本中的下文位置，确定为分词对应的掩码位置。对于每一分词而言，进行掩码自编码的过程中，只能看到该分词之前的词。计算机设备按照每一分词各自对应的掩码位置，依次对问题文本进行掩码自编码处理，得到每一分词各自的下文特征，并从中确定问题文本中最后一个词汇的下文特征。

在掩码自编码过程中，除最后一个分词以外的每一分词各自的下文特征所表征的期望下文信息，与分词所表征词汇在问题文本中的下文信息满足文本相似条件。相当于除最后一个分词以外的每一分词对应的掩码自编码过程中，均进行了编码学习，从而可以通过多次编码提高下文特征的预测能力，进而提升文本编码序列所表征的问题文本的语义准确性。

在其中一些实施例中，文本视觉问答方法通过视觉问答模型实现，视觉问答模型包括回答生成模型和用于提取图像元数据的图像分割模型，回答生成模型包括文本编码器。

进一步地，文本视觉问答方法还包括：通过文本编码器，对问题文本进行编码，得到第一编码序列；通过图像分割模型，对图像元数据进行编码，得到第二编码序列。

其中，如图5所示，视觉问答模型是包括回答生成模型和图像分割模型的组合模型，图像分割模型能够用于提取目标图像的图像元数据，问答生成模型包括文本编码器，能够对问题文本进行编码处理，得到第一编码序列，其中，问答生成模型中的文本编码器在进行文本编码时，所采用的编码方式可以是直接对问题文本进行编码，将编码结果作为第一编码序列，可以快速得到问题文本对应的第一编码序列，也可以是对问题文本进行上下文编码，将问题文本和上下文特征的编码结果作为第一编码序列，可以提高问题文本对应的第一编码序列的准确性。

在本实施例中，通过将集成与回答生成模型的文本编码器，对问题文本进行编码，并利用图像分割模型对图像元数据进行编码，能够简化视觉问答模型的复杂度，从而简化视觉问答模型的训练过程，提高资源利用率。

在一些实施例中，如图6，回答生成模型的生成过程包括：

步骤602，获取多个样本组，每一样本组包括样本图像、针对样本图像提问的样本问题文本、以及回答样本问题文本的正确回答文本；

步骤604，基于各样本组对预训练的通用语言模型进行训练，以调整通用语言模型的模型参数，得到针对图像进行视觉问答的回答生成模型。

其中，用于对预训练的通用语言模型的训练数据，包括针对视觉问答场景下的多个样本组。样本组是包含样本问题文本、样本图像和正确回答文本的一组数据。例如，样本图像是天空中飞过黑色小鸟，样本问题文本为针对样本图像进行提问的文本“图片中的鸟是什么颜色的”，正确回答文本为回答该样本问题文本的文本“图片中的鸟是黑色的”。

通用语言模型是通过大量样本训练后、具备生成问题相应答案能力的预训练模型，为了提高回答生成模型与具体应用场景的适配性，可以利用与场景匹配的训练样本通过参数微调对通用语言模型进行再训练，得到回答生成模型。其中，预训练模型可以通过大规模样本数据训练得到的。通用语言模型的预训练方式也可以通过迁移学习，半监督学习、以及自监督学习等方式中的一种或多种的组合来实现。

在模型训练前和训练过程中，通用语言模型可以基于样本对中的样本图像和样本问题文本得到输出回答文本，而输出回答文本与期望生成的正确回答文本之间存在一定差异，计算机设备可以基于输出回答文本与正确回答文本之间的差异对通用语言模型进行参数微调来实现对模型的训练，直至满足训练停止条件，得到回答生成模型。其中，模型的训练停止条件可以是训练次数达到预设的次数条件，也可以是训练时长达到预设时长，还可以是训练后的回答生成模型满足模型评价条件等。

在其中一个具体的应用中，通用语言模型可以为GPT-4模型，GPT-4模型是一种大型自回归语言模型，具有强大的自然语言处理和生成能力，通过对GPT-4模型采用参数微调的方式进行训练，能够使其能够更好地处理视觉问题回答任务，从而提升了GPT-4模型在处理自然语言问题时的性能。

在本实施例中，通过参数微调的方式对通用语言模型进行训练，能够有效提升模型训练的速度，减少训练过程所需的数据处理资源量，同时使用参数微调训练后的回答生成模型，能够进一步提高回答生成模型与应用场景的适配性，提高回答生成模型的性能。

在其中一些实施例中，样本组的获取方式包括：基于预训练的通用语言模型对样本图像进行图像语义识别，得到样本图像的描述文本；基于描述文本，生成针对样本图像提问的样本问题文本；基于样本问题文本，确定回答样本问题文本的正确回答文本；构建包括样本图像、样本问题文本以及正确回答文本的样本组。

其中，预训练的通用语言模型作为一种具有强大的语言处理能力的模型，能够识别图像中的语义，得到描述样本图像中所显示的内容的描述文本。在一些具体的实施例中，计算机设备可以通过预训练的通用语言模型对样本图像进行语义识别，得到用于描述样本图像的内容，作为样本图像的描述文本。基于样本图像的描述文本中包含的关键信息，可以进一步生成针对样本图像提问的样本问题文本。例如，样本图像的描述文本中的关键信息可以是描述文本中的实体词、形容词等关键词，基于关键词可以生成一系列的针对样本图像的问题，作为提问的样本问题文本，从而实现了对样本问题文本的批量快速生成，有效提高模型训练样本的生成效率。

在其中一些实施例中，基于各样本组对预训练的通用语言模型进行训练，以调整通用语言模型的模型参数，得到针对图像进行视觉问答的回答生成模型，包括：针对每一样本组，将样本图像和样本问题文本各自的编码数据，输入预训练的通用语言模型，得到输出回答文本；确定输出回答文本与正确回答文本之间的损失数据；基于每一样本组对应的损失数据，对通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型。

其中，通用语言模型可以通过样本问题文本和样本图像进行语义分析处理，生成回答文本并输出。计算机设备通过将同一样本组中的样本问题文本和样本图像，按照模型匹配的数据格式进行编码得到编码数据，然后将编码数据输入预训练的通用语言模型，通用语言模型可以基于编码数据来融合样本图像和样本问题文本的语义特征，得到针对该样本问题文本和样本图像的输出回答文本。

输出回答文本与正确回答文本之间损失数据，可以通过损失函数来计算得到，损失函数的选择可以根据具体的任务和需求而变化。例如，损失函数具体可以包括用于分类任务的交叉熵损失或用于回归任务的均方误差损失等，损失函数的选择可以根据实际的应用场景来确定。

在本实施例中，通过对编码数据进行处理，能够使得样本图像和样本问题文本的语义内容能够更好地被通用语言模型识别和理解，进而得到更准确的输出回答文本。在模型训练过程中，通过对输出回答文本与正确回答文本之间损失数据进行损失数据的计算，能够更精确地确定输出回答文本与正确回答文本之间的差异，进而通过损失数据对通用语言模型进行参数微调，提高参数微调过程的准确性，有利于提高参数微调到精确值的调整速度，进而能够提高模型训练效率。

在其中一些实施例中，输出回答文本为通用语言模型通过前向传播得到的输出结果；

进一步地，基于每一样本组对应的损失数据，对通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型，包括：在反向传播过程中，按照各损失数据确定通用语言模型的模型参数梯度；基于模型参数梯度，使用优化器对通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型。

其中，前向传播（Forward Propagation）是指在一个神经网络中，从输入层到输出层的信息传递过程。具体来说就是，将上一层的输出作为下一层的输入，并计算下一层的输出，一直到运算到输出层为止。反向传播 (Back Propagation) 本质上指的是计算神经网络每一层参数梯度的方法。利用链式法则逐层求出损失函数对模型各个神经元权重和偏置的偏导数，构成损失函数对权值和偏置向量的梯度，作为修改权值的依据。在反向传播的过程中，从输出层开始，逐层往输入层计算梯度。也就是说从最后一层开始，逐层往第一层计算梯度。反向传播算法的梯度计算公式是基于链式法则来推导的，是对模型各层间关系的数学描述。在进行梯度计算时，可以使用反向传播算法的梯度计算公式来逐层计算模型中各层的梯度，然后使用优化器来更新模型的参数，使得模型的性能逐步达到最优。其中，优化器更新参数所采用的算法具体可以是梯度下降法或其他优化算法。

在本实施例中，通过前向传播和反向传播的方式确定模型参数梯度，对模型进行优化，能够有效提高模型参数微调过程中的效率，实现对通用语言模型的高效训练。

在实现文本视觉问答方法的过程中，该方法可以应用于针对单张目标图像的文本视觉问答，也可以应用与针对视频的文本视觉问答。

在其中一个实施例中，目标图像为从目标视频中提取的多帧图像，问题文本为针对目标视频中至少一个目标对象的文本。进一步地，将多模态编码序列输入回答生成模型，得到问题文本的回答文本，包括：将每一目标图像各自的多模态编码序列分别输入回答生成模型，得到目标视频中针对问题文本的回答文本。

其中，目标视频是需要进行文本视觉问答的对象，问题文本是针对目标视频中的至少一个目标对象提问的文本。具体的，目标图像可以是从目标视频中提取的多个连续图像帧，也可以是帧间间隔满足间隔条件的多个图像帧（例如帧间间隔小于10帧），提取的多帧图像中至少一部分图像帧中需要包含相同的目标对象。

具体的，目标视频中目标图像的抽取，可以基于问题文本中所包含的目标对象来确定，从目标视频中抽取包含目标对象的视频帧作为目标图像，实现针对性的图像处理，避免对不包含目标对象的图像的处理，确保提高针对视频的文本视觉问答处理过程中的资源利用率。

在一个实施例中，计算机设备先确定基于问题文本中所包含的目标对象，从目标视频中抽取包含目标对象的视频帧作为目标图像，按照以上各实施例的方法得到每一目标图像各自的多模态编码序列，然后将每一目标图像各自的多模态编码序列分别输入回答生成模型，得到回答生成模型输出的回答文本。

例如，目标视频是植物A生长的过程，在视频中记录了植物A从发芽到结果的每一个过程中的时间信息，针对目标视频的问题文本可以是“植物A从发芽到结果需要多长时间”则目标图片可以是植物A在3月1日发芽对应的视频帧1、以及植物A在6月1日结果对应的视频帧2，计算机设备通过将视频帧1和视频帧1各自的多模态编码序列分别输入回答生成模型，得到回答生成模型输出的回答文本“植物A从发芽到结果需要3个月”。

在本实施例中，通过对目标视频提取多个目标图像进行分析，能够实现对动态变化的目标对象的问答，有效扩展了文本视觉问答的应用场景。

在其中一些实施例中，将每一目标图像各自的多模态编码序列分别输入回答生成模型，得到目标视频中针对问题文本的回答文本，包括：

将每一目标图像各自的多模态编码序列分别输入回答生成模型，通过回答生成模型，得到每一目标图像各自对应的回答文本表示；基于各目标图像在目标视频中的排列顺序以及每一目标图像各自对应的回答文本表示，得到目标视频中针对问题文本的回答文本。

在针对目标视频进行文本视觉问答的过程中，通过回答生成模型对每一目标图像进行处理，得到每一目标图像各自对应的回答文本表示。其中，回答文本表示可以是将问题文本进行问题拆分后得到的针对不同目标图像的分析结果。

例如，还是以目标视频是植物A生长的过程，在视频中记录了植物A从发芽到结果的每一个过程中的时间信息，针对目标视频的问题文本可以是“植物A从发芽到结果需要多长时间”为例。可以将问题文本拆分为“植物A发芽的时间是什么时候”、“植物A结果的时间是什么时候”、以及“从发芽的时间到结果的时间的时间差有多长时间”。

目标图片可以包括植物A在3月1日发芽对应的视频帧1，针对视频帧1回答生成模型生成的回答文本表示1可以是“植物A发芽的时间是3月1日”。目标图片还可以包括植物A在6月1日结果对应的视频帧2，针对视频帧2回答生成模型生成的回答文本表示2可以是“植物A结果的时间是6月1日”。回答生成模型可以基于回答文本表示1和回答文本表示2，得到输出的回答文本“植物A从发芽到结果需要3个月”。

在本实施例中，通过对每一目标图像分别进行处理，得到每一目标图像各自对应的回答文本表示，进而得到输出的回答文本，能够考虑目标视频中各目标图像的时序特点进行分析，得到目标视频中针对问题文本的准确回答文本。

在一个具体的实施例中，如图7所示，提供了一种文本视觉问答方法，方法具体包括模型的训练过程和模型的应用过程。

步骤702，获取包含样本问题文本、样本图像和正确回答文本的样本组。

步骤704，将同一样本组中的样本问题文本和样本图像各自的编码数据，输入预训练的通用语言模型，通过前向传播得到输出回答文本。

步骤706，基于损失函数，确定输出回答文本与正确回答文本之间的损失数据，在反向传播过程中，按照损失数据确定通用语言模型的模型参数梯度。

步骤708，基于模型参数梯度，使用优化器对通用语言模型进行参数微调，直至满足训练停止条件，得到回答生成模型。

步骤710，获取目标图像、以及针对目标图像中至少一个目标对象的问题文本。

步骤712，通过对问题文本进行语义分析，从问题文本提取至少一个表征实体的关键词。

步骤714，将与关键词匹配的掩码提示信息，作为与目标对象关联的掩码提示信息，基于掩码提示信息，生成针对目标图像的图像分割掩码。

步骤716，按照图像分割掩码对目标图像进行图像分割，得到包括目标图像的目标区域，将目标区域中的对象确定为目标对象。

步骤718，对目标对象区域进行对象识别，得到目标对象的对象名称表示。

步骤720，基于目标对象区域在目标图像中的位置，得到目标对象在目标图像中的对象边界框表示。

步骤722，生成包括对象名称表示和对象边界框表示的图像元数据。

步骤724，通过回答生成模型中的文本编码器，对问题文本进行上下文编码，得到表征问题文本的语义内容的第一编码序列，通过图像分割模型，对图像元数据进行编码，得到第二编码序列。

步骤726，将第一编码序列与第二编码序列进行编码融合，得到多模态编码序列。

步骤728，将多模态编码序列输入回答生成模型，得到问题文本的回答文本。

本申请还提供一种应用场景，该应用场景应用上述的文本视觉问答方法。具体地，该文本视觉问答方法在该应用场景的应用如下：

模型架构：本实施例中使用的基础模型是GPT-4模型，GPT-4模型是一种大型自回归语言模型，具有强大的自然语言处理和生成能力。此外，本实施例中还利用了SAM模型，SAM模型是一种视觉模型，用于从图像中提取关键信息，如物体和边界框。具体而言：

模型架构包括以GPT-4模型为主体的GPT-4模块、以及以SAM模型为主体的SAM模块、多模态融合模块以及回答审查模块，其中：

GPT-4模块：该模块主要负责处理文本信息，包括接收问题文本描述与图像信息和理解问题以及生成答案。在接收到一个问题后，GPT-4模块会将问题转化为词向量，词向量然后被输入到GPT-4模型主体中。GPT-4模型主体通过理解问题的上下文，生成一个向量表示，这个向量表示捕捉了问题的语义信息。

SAM模块：该模块负责处理图像信息。当接收到一个图像输入时，SAM模块会对图像进行分割，并生成一个或多个分割的区域。每一个分割的区域都代表图像中的一个对象或者一类对象，之后输出一系列描述图片的文本token（如将对象名称在SAM中的id转换为对应的文本名称）。

多模态融合模块：将GPT-4模块生成的问题表示和SAM模块生成的图像表示进行结合，即将问题文本token序列与图像输出的token序列进行拼接，形成一个融合了文本和图像信息的token序列。这个多模态表示能同时理解问题的语义和图像的视觉信息。

回答生成模块：多模态表示会被输入到GPT-4模型主体，回答生成模块根据这个多模态表示生成最终的答案。

在这个系统中，GPT-4模块和SAM模块需要协同工作。GPT-4模块需要理解问题的语义，同时，SAM模块需要根据问题的需求，对图像进行适当的分割。两个模块的输出需要相互对应，才能生成正确的答案。

以上模型结构的设计使得这个系统可以在理解文本的同时，也理解图像的内容，从而在对图像进行准确的解读的同时，也能生成精确的答案。

下面分别介绍模型的输入输出数据、模型的训练过程以及应用过程。

模型输入输出：

本实施例中模型的输入包括文本问题和从图像中提取的图像元数据，图像元数据包括物体和边界框信息。文本问题由用户提供，而图像元数据则由SAM模型从图像中提取。具体而言：

图像处理：首先，使用SAM模型对输入的图像进行处理。SAM模型可以通过提示来生成分割掩码，帮助将图像中的特定对象或区域与其他部分分隔开。并将其bound box的坐标以及内部物体对应的名称作为输出。

文本处理：然后，将问题输入到GPT-4模型的tokenizer中进行处理。GPT-4模型可以生成问题的上下文表示，这将用于理解问题的语义内容。

特征融合：将图像分割结果和问题的上下文表示进行融合（token序列拼接）。这一步的目标是将视觉信息和文本信息结合起来，形成一个多模态的表示。

回答生成：将多模态的表示输入到回答生成模型中，该模型可以是一个序列生成模型，如GPT-4模型，用于生成问题的回答。

在模型训练阶段，模型使用fine-tuning（参数问题）的方式，以调整GPT-4的权重以便更好地处理VQA任务。模型的输入是文本问题和从图像中提取的图像元数据，而输出则是问题的回答。具体而言：

数据预处理，需要将文本问题和对应的图像进行编码。对于图像，使用SAM模型进行分割，并将分割的结果编码为向量。对于文本问题，使用GPT-4的tokenizer进行编码。

前向传播：将编码后的图像元数据和文本输入到GPT-4模型中，进行前向传播。这个过程会生成一个多模态的表示，该多模态的表示结合了图像和文本的信息。

计算损失：模型在前向传播后会生成一个问题的答案，需要将这个答案与数据集中的正确答案进行比较，计算损失。损失函数的选择可能会根据具体的任务和需求而变化，常见的选择包括交叉熵损失（用于分类任务）或均方误差损失（用于回归任务）。

反向传播和优化：计算出损失后，需要进行反向传播，计算模型参数的梯度。然后，使用优化器（例如SGD或Adam）来更新模型的参数，以减少损失。

迭代训练：以上步骤构成了一个训练迭代，需要进行多次迭代，直到模型的性能满足训练终止条件或者模型开始过拟合。

在模型应用阶段，当用户提出一个与图像相关的问题时，SAM模型首先从图像中提取图像元数据，然后图像元数据和文本问题的编码数据一起作为GPT-4模型的输入。然后，GPT-4模型会生成问题的答案。

在一个具体的实施例中，用户可以通过前端界面提出问题和上传图片，前端还会显示模型生成的答案。后端主要负责处理用户输入的数据，调用SAM模型提取图像元数据，并调用GPT-4模型生成答案。具体：

前端：前端主要负责与用户交互，包括接收用户的问题和上传的图片，然后将这些信息发送到后端进行处理。在后端返回答案后，前端将答案展示给用户。前端可以是一个网页应用，也可以是一个移动应用。

后端：后端主要负责处理前端发送的请求，包括运行SAM模型从图像中提取元数据，然后将这些元数据和用户的问题一起作为GPT-4模型的输入，最后返回GPT-4模型生成的答案。后端可以部署在服务器上，也可以部署在云端。

例如，如图8所示，用户通过前端上传“照片中的狗在哪里？”，以及一张包含多个物体（包括一只狗）的照片。这个问题和照片会被输入到系统中。

GPT-4处理：首先，问题会被输入到GPT-4模块的tokenizer中。tokenizer将问题转化为词向量，然后输入到模型中。模型通过理解问题的上下文，生成一个向量表示，捕捉了问题的语义信息，即需要找到“狗”的位置。

SAM处理：同时，照片会被输入到SAM模块。SAM模块对照片进行分割，生成每个物体（包括狗）的分割区域。

多模态融合：GPT-4生成的问题表示和SAM生成的图像表示被结合在一起，形成了一个多模态表示。这个表示理解了问题的语义（找到狗），同时也理解了图像的视觉信息（照片中的物体和它们的位置）。

答案生成：多模态表示被输入到GPT-4中，GPT-4中根据这个表示生成最终的答案。答案可能是：“狗在照片的右下角”。

以上示例显示了如何使用这个系统来解决一个涉及到文本和图像的问题。这个系统能够理解问题的语义，同时也理解图像的视觉信息，从而生成准确的答案。

关于硬件环境：由于在运行时需要高性能的计算硬件，主要是图形处理单元（GPU）。因为深度学习模型（例如GPT-4和SAM）的训练和推理阶段通常需要大量的并行计算能力，这是GPU所擅长的。在具体的硬件配置上，推荐使用具有高计算能力和大内存的GPU，例如NVIDIA的A100或V100。此外，为了处理大量的用户请求和数据，也需要具有足够存储和计算能力的CPU、内存和硬盘。如果需要进一步扩展计算能力和存储能力，可以使用云计算资源或者构建分布式计算集群。例如，可以使用Amazon AWS，Google Cloud或者MicrosoftAzure等公有云服务提供商的GPU计算实例，也可以搭建自己的私有云或者边缘计算环境。

需要说明的是，上述实施例结合了最新的语言模型（GPT-4）和图像分割模型（SAM）。这两种模型在各自的领域都是最先进的，将它们结合起来，可以实现更复杂、更准确的多模态任务。提出了一种新的多模态融合策略，能够有效地结合语言模型和图像模型的输出，生成一个包含了问题的语义信息和图像的视觉信息的多模态表示。这种融合策略是解决多模态问题的关键。SAM模型具有零样本迁移的能力，即不需要先验知识就能适应新的图像分布和任务。这使得系统能够处理各种各样的问题和图像，具有很高的通用性。SAM模型是在大规模的SA-1B数据集上训练的，这个数据集包含了超过11亿个分割掩码和1100万张精选的图片。通过大规模训练，SAM模型可以获得更好的性能和更强的泛化能力。SAM模型还具有自动标注的功能，可以使用预训练的检测模型快速准确地为大量图片生成分割数据集，极大地节省了手动标注的时间和精力。

具体来说，通过将SAM模型的视觉识别能力与GPT-4的自然语言处理能力结合，这项技术可以处理涉及图像内容的复杂问题，从而增强了系统的视觉理解能力，从而能够增强视觉理解能力。本实施例中利用fine-tuning方法训练GPT-4模型，使其能够更好地处理视觉问题回答任务，从而提升了系统在处理自然语言问题时的性能。用户可以直接上传图片并提出与图片相关的问题，系统能生成准确的答案，这大大提高了用户体验。本申请方案不仅可用于视觉问题回答，还可以在其他需要处理图像和文本的任务中应用，例如图像标注、内容审查、自动字幕生成等。通过在高性能GPU服务器上运行，或者利用云计算资源或分布式计算集群，申请方案可以实现大规模并行计算和高效处理，从而提高处理速度和可扩展性。申请方案可以作为一个独立的模块集成到现有的系统中，且对外提供了友好的用户界面，用户无需专门的技术知识就可以使用。

同时，对于其中的SAM模块，其有益效果体现在：

在SAM的整体技术效果方面，它提供了一个独特的能力，即可以从任何给定的提示生成有效的分割掩膜，例如识别对象的空间或文本线索。这种提示可分割的任务设计使得SAM具有在各种下游任务中展示卓越性能的可能性。SAM的独特架构，包括强大的图像编码器、提示编码器和轻量级掩膜解码器，使得它能够适应新的图像分布和任务，而不需要预先知识，这是零射击转移的特性。

此外，SAM还引入了自动注释的概念，它允许用户使用预先训练的检测模型生成分割数据集。这一特性使得可以快速准确地注释大量图像，绕过了耗时的手动标注的需要。这一特性对于处理大型图像集的研究人员和开发者特别有益，因为它使他们可以专注于模型的开发和评估，而不是手动注释。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本视觉问答方法的文本视觉问答装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本视觉问答装置实施例中的具体限定可以参见上文中对于文本视觉问答方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种文本视觉问答装置，包括：数据获取模块902、图像处理模块904、编码融合模块906和回答生成模块908，其中：

数据获取模块902，用于获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本；

图像处理模块904，用于从所述目标图像中，提取至少表征所述目标对象的对象名称和对象边界框的图像元数据；

编码融合模块906，用于将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合，得到多模态编码序列；

回答生成模块908，用于将所述多模态编码序列输入回答生成模型，得到所述问题文本的回答文本。

在其中一个实施例中，所述图像处理模块904，具体用于对所述目标图像进行图像分割，确定所述目标图像中的目标对象区域；对所述目标对象区域进行对象识别，得到所述目标对象的对象名称表示；基于所述目标对象区域在所述目标图像中的位置，得到所述目标对象在所述目标图像中的对象边界框表示；生成包括所述对象名称表示和所述对象边界框表示的图像元数据。

在其中一个实施例中，所述图像处理模块904，具体用于获取与所述目标对象关联的掩码提示信息；基于所述掩码提示信息，生成针对所述目标图像的图像分割掩码；按照所述图像分割掩码对所述目标图像进行图像分割，得到包括所述目标图像的目标区域；将所述目标区域中的对象确定为目标对象。

在其中一个实施例中，所述图像处理模块904，具体用于通过对所述问题文本进行语义分析，从所述问题文本提取至少一个表征实体的关键词；将与所述关键词匹配的掩码提示信息，作为与所述目标对象关联的掩码提示信息。

在其中一个实施例中，所述文本视觉问答装置还包括文本编码模块，用于对所述问题文本进行上下文编码，得到表征所述问题文本的语义内容的文本编码序列；所述编码融合模块906，具体用于将所述文本编码序列与表征所述图像元数据的第二编码序列进行编码融合，得到多模态编码序列。

在其中一个实施例中，所述文本编码模块，具体用于按照所述问题文本中的每一个分词在所述问题文本中的排序位置，对所述问题文本进行掩码自编码处理，确定所述问题文本的上下文特征；基于所述问题文本和所述上下文特征进行编码处理，得到表征所述问题文本的语义内容的文本编码序列。

在其中一个实施例中，所述方法通过视觉问答模型实现，所述视觉问答模型包括所述回答生成模型和用于提取所述图像元数据的图像分割模型，所述回答生成模型包括文本编码器；所述文本编码器，用于对所述问题文本进行编码，得到第一编码序列；通过所述图像分割模型，还用于对所述图像元数据进行编码，得到第二编码序列。

在其中一个实施例中，所述文本视觉问答装置包括回答生成模型训练模块，用于获取多个样本组，每一所述样本组包括样本图像、针对所述样本图像提问的样本问题文本、以及回答所述样本问题文本的正确回答文本；基于各所述样本组对预训练的通用语言模型进行训练，以调整所述通用语言模型的模型参数，得到针对图像进行视觉问答的回答生成模型。

在其中一个实施例中，所述回答生成模型训练模块，包括样本组获取模块，用于基于预训练的通用语言模型对样本图像进行图像语义识别，得到所述样本图像的描述文本；基于所述描述文本，生成针对所述样本图像提问的样本问题文本；基于所述样本问题文本，确定回答所述样本问题文本的正确回答文本；构建包括所述样本图像、所述样本问题文本以及所述正确回答文本的样本组。

在其中一个实施例中，所述回答生成模型训练模块，具体用于针对每一所述样本组，将所述样本图像和所述样本问题文本各自的编码数据，输入预训练的通用语言模型，得到输出回答文本；确定所述输出回答文本与所述正确回答文本之间的损失数据；基于每一所述样本组对应的所述损失数据，对所述通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型。

在其中一个实施例中，所述输出回答文本为所述通用语言模型通过前向传播得到的输出结果；

所述回答生成模型训练模块，具体用于在反向传播过程中，按照各所述损失数据确定所述通用语言模型的模型参数梯度；基于所述模型参数梯度，使用优化器对所述通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型。

在其中一个实施例中，所述目标图像为从目标视频中提取的多帧图像，所述问题文本为针对所述目标视频中至少一个目标对象的文本；

所述回答生成模块，具体用于将每一所述目标图像各自的多模态编码序列分别输入回答生成模型，得到所述目标视频中针对所述问题文本的回答文本。

在其中一个实施例中，所述回答生成模块，具体用于将每一所述目标图像各自的多模态编码序列分别输入回答生成模型，通过所述回答生成模型，得到每一所述目标图像各自对应的回答文本表示；基于各所述目标图像在所述目标视频中的排列顺序以及每一所述目标图像各自对应的回答文本表示，得到所述目标视频中针对所述问题文本的回答文本。

上述文本视觉问答装置，通过对目标图像进行图像元数据提取，以使得到的图像元数据能够至少表征目标对象的对象名称和对象边界框，实现了对目标图像的多维度信息提取，从而能够使得表征所述图像元数据的第二编码序列能够从对象名称以及对象位置等维度准确地表征图像所包含的语义，通过将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合，由于第一编码序列和图像元数据中均包含对目标对象的描述，能够在编码融合过程中，提高对图像语义的理解，进而基于编码融合得到的多模态编码序列，准确得到问题文本的回答文本。

上述文本视觉问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本视觉问答方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种文本视觉问答方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10或图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本视觉问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述回答生成模型的生成过程包括：

获取多个样本组，每一所述样本组包括样本图像、针对所述样本图像提问的样本问题文本、以及回答所述样本问题文本的正确回答文本；

基于各所述样本组对预训练的通用语言模型进行训练，以调整所述通用语言模型的模型参数，得到针对图像进行视觉问答的回答生成模型。

3.根据权利要求2所述的方法，其特征在于，所述样本组的获取方式包括：

基于预训练的通用语言模型对样本图像进行图像语义识别，得到所述样本图像的描述文本；

基于所述描述文本，生成针对所述样本图像提问的样本问题文本；

基于所述样本问题文本，确定回答所述样本问题文本的正确回答文本；

构建包括所述样本图像、所述样本问题文本以及所述正确回答文本的样本组。

4.根据权利要求2所述的方法，其特征在于，所述基于各所述样本组对预训练的通用语言模型进行训练，以调整所述通用语言模型的模型参数，得到针对图像进行视觉问答的回答生成模型，包括：

针对每一所述样本组，将所述样本图像和所述样本问题文本各自的编码数据，输入预训练的通用语言模型，得到输出回答文本；

确定所述输出回答文本与所述正确回答文本之间的损失数据；

基于每一所述样本组对应的所述损失数据，对所述通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型。

5.根据权利要求4所述的方法，其特征在于，所述输出回答文本为所述通用语言模型通过前向传播得到的输出结果；

所述基于每一所述样本组对应的所述损失数据，对所述通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型，包括：

在反向传播过程中，按照各所述损失数据确定所述通用语言模型的模型参数梯度；

基于所述模型参数梯度，使用优化器对所述通用语言模型进行参数微调，直至满足训练停止条件，得到针对图像进行视觉问答的回答生成模型。

6.根据权利要求1所述的方法，其特征在于，所述从所述目标图像中，提取至少表征所述目标对象的对象名称和对象边界框的图像元数据，包括：

对所述目标图像进行图像分割，确定所述目标图像中的目标对象区域；

对所述目标对象区域进行对象识别，得到所述目标对象的对象名称表示；

基于所述目标对象区域在所述目标图像中的位置，得到所述目标对象在所述目标图像中的对象边界框表示；

生成包括所述对象名称表示和所述对象边界框表示的图像元数据。

7.根据权利要求6所述的方法，其特征在于，所述对所述目标图像进行图像分割，确定所述目标图像中的目标对象，包括：

获取与所述目标对象关联的掩码提示信息；

基于所述掩码提示信息，生成针对所述目标图像的图像分割掩码；

按照所述图像分割掩码对所述目标图像进行图像分割，得到包括所述目标图像的目标区域；

将所述目标区域中的对象确定为目标对象。

8.根据权利要求7所述的方法，其特征在于，所述获取与所述目标对象关联的掩码提示信息，包括：

通过对所述问题文本进行语义分析，从所述问题文本提取至少一个表征实体的关键词；

将与所述关键词匹配的掩码提示信息，作为与所述目标对象关联的掩码提示信息。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述问题文本进行上下文编码，得到表征所述问题文本的语义内容的文本编码序列；

所述将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合，得到多模态编码序列，包括：

将所述文本编码序列与表征所述图像元数据的第二编码序列进行编码融合，得到多模态编码序列。

10.根据权利要求9所述的方法，其特征在于，所述对所述问题文本进行上下文编码，得到表征所述问题文本的语义内容的文本编码序列，包括：

按照所述问题文本中的每一个分词在所述问题文本中的排序位置，对所述问题文本进行掩码自编码处理，确定所述问题文本的上下文特征；

基于所述问题文本和所述上下文特征进行编码处理，得到表征所述问题文本的语义内容的文本编码序列。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法通过视觉问答模型实现，所述视觉问答模型包括所述回答生成模型和用于提取所述图像元数据的图像分割模型，所述回答生成模型包括文本编码器；

所述方法还包括：

通过所述文本编码器，对所述问题文本进行编码，得到第一编码序列；

通过所述图像分割模型，对所述图像元数据进行编码，得到第二编码序列。

12.根据权利要求1至10中任一项所述的方法，其特征在于，所述目标图像为从目标视频中提取的多帧图像，所述问题文本为针对所述目标视频中至少一个目标对象的文本；

所述将所述多模态编码序列输入回答生成模型，得到所述问题文本的回答文本，包括：

将每一所述目标图像各自的多模态编码序列分别输入回答生成模型，得到所述目标视频中针对所述问题文本的回答文本。

13.根据权利要求12所述的方法，其特征在于，所述将每一所述目标图像各自的多模态编码序列分别输入回答生成模型，得到所述目标视频中针对所述问题文本的回答文本，包括：

将每一所述目标图像各自的多模态编码序列分别输入回答生成模型，通过所述回答生成模型，得到每一所述目标图像各自对应的回答文本表示；

基于各所述目标图像在所述目标视频中的排列顺序以及每一所述目标图像各自对应的回答文本表示，得到所述目标视频中针对所述问题文本的回答文本。

14.一种文本视觉问答装置，其特征在于，所述装置包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。