CN116881427A

CN116881427A - 问答处理方法、装置、电子设备及存储介质

Info

Publication number: CN116881427A
Application number: CN202311134158.3A
Authority: CN
Inventors: 骆云鹏; 鄢科
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-10-13
Anticipated expiration: 2043-09-05
Also published as: CN116881427B

Abstract

本申请提供一种问答处理方法、装置、电子设备及存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，该方法包括：确定待处理图像中的兴趣区域的区域位置信息以及兴趣区域中所包括的对象的类别；对兴趣区域所包括的对象的类别设置标识信息，得到兴趣区域对应的设置后的类别词元；组合设置后的类别词元和区域位置信息，得到类别位置提示信息；对待处理图像、提问信息和类别位置提示信息进行问答预测处理，得到提问信息对应的回答结果。本申请能够通过设置后的类别词元将图像中感兴趣的目标或区域进行高效且准确的传递，进而实现了高效且精准的目标级的多模态推理和对话，使得问答处理的效率和准确率均较高。

Description

问答处理方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，具体涉及一种问答处理方法、装置、电子设备及存储介质。

背景技术

相关技术通常使用大语言模型（LLM）进行自然语言处理和多模态推理。其中，大语言模型包括图像编码器和文本解码器，以图像和文本作为大语言模型的输入，回答文本作为大语言模型的输出。

然而相关技术均是全图粒度的图文指令问答，在交互过程中需要使用特定的位置或属性描述词才能向大语言模型传达感兴趣目标的具体位置（例如，“左边或右边的车的颜色是什么？”），或者由于图像中目标较多，无法简单通过语言确定感兴趣的目标，即用户难以准确针对图像中的感兴趣的目标进行相应问答，无法实现目标级的推理和对话，从而使得问答处理的效率和准确率均较低。

发明内容

为了解决上述技术问题，本申请提供一种问答处理方法、装置、电子设备及存储介质。

一方面，本申请提出了一种问答处理方法，所述方法包括：

获取待处理图像；

确定所述待处理图像中的兴趣区域、所述兴趣区域的区域位置信息以及所述兴趣区域中所包括的对象的类别；

对所述兴趣区域所包括的对象的类别设置标识信息，以通过所述标识信息区分类别相同的对象，得到所述兴趣区域对应的设置后的类别词元；

组合所述设置后的类别词元和所述区域位置信息，得到类别位置提示信息；

对所述待处理图像、针对所述待处理图像的提问信息和所述类别位置提示信息进行问答预测处理，得到所述提问信息对应的回答结果；

其中，所述提问信息包括与所述兴趣区域所包括的对象对应的提问信息、与所述兴趣区域对应的提问信息中的至少一种。

另一方面，本申请提出了一种问答处理装置，所述装置包括：

待处理图像获取模块，用于获取待处理图像；

区域对象类确定模块，用于确定所述待处理图像中的兴趣区域、所述兴趣区域的区域位置信息以及所述兴趣区域中所包括的对象的类别；

标识设置模块，用于对所述兴趣区域所包括的对象的类别设置标识信息，以通过所述标识信息区分类别相同的对象，得到所述兴趣区域对应的设置后的类别词元；

类别位置提示信息生成模块，用于组合所述设置后的类别词元和所述区域位置信息，得到类别位置提示信息；

问答预测模块，用于对所述待处理图像、针对所述待处理图像的提问信息和所述类别位置提示信息进行问答预测处理，得到所述提问信息对应的回答结果；其中，所述提问信息包括与所述兴趣区域所包括的对象对应的提问信息、与所述兴趣区域对应的提问信息中的至少一种。

另一方面，本申请提出了一种问答处理的电子设备，所述电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的问答处理方法。

另一方面，本申请提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的问答处理方法。

另一方面，本申请提出了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述所述的问答处理方法。

本申请实施例提出一种问答处理方法、装置、电子设备及存储介质，通过获取待处理图像，确定待处理图像中的兴趣区域、兴趣区域的区域位置信息以及兴趣区域中所包括的对象的类别，对兴趣区域所包括的对象的类别设置标识信息，以通过标识信息区分类别相同的对象，得到兴趣区域对应的设置后的类别词元，组合设置后的类别词元和区域位置信息，得到类别位置提示信息，对待处理图像、针对待处理图像的提问信息和类别位置提示信息进行问答预测处理，得到提问信息对应的回答结果的方案，实现了对兴趣区域中的对象的类别设置标识信息得到设置后的类别词元，由于设置的标识信息能够区分类别相同的对象，因此通过设置后的类别词元能够将图像中感兴趣的目标或区域进行高效且准确的传递，从而能够高效且精准地理解感兴趣的目标或区域，进而实现了高效且精准的目标级的多模态推理和对话，使得问答处理的效率和准确率均较高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是根据一示例性实施例示出的一种问答处理方法的实施环境示意图。

图2是根据一示例性实施例示出的一种问答处理方法的流程示意图一。

图3是根据一示例性实施例示出的一种问答处理方法的流程示意图二。

图4是根据一示例性实施例示出的一种目标语言模型的生成方法的流程示意图。

图5是根据一示例性实施例示出的一种问答处理方法的流程示意图三。

图6是根据一示例性实施例示出的采用本申请实施例中的问答处理方法在目标级的对话上实现的效果示意图一。

图7是根据一示例性实施例示出的采用本申请实施例中的问答处理方法在目标级的对话上实现的效果示意图二。

图8是根据一示例性实施例示出的一种问答处理装置的框图。

图9是根据一示例性实施例提供的一种服务器的硬件结构框图。

具体实施方式

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体地，本申请实施例中的“对待处理图像、针对待处理图像的提问信息和类别位置提示信息进行问答预测处理，得到提问信息对应的回答结果”的过程涉及自然语言处理中的机器人问答技术。

具体地，本申请实施例中的目标语言模型的生成过程涉及机器学习中的深度学习技术。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是根据一示例性实施例示出的一种问答处理方法的实施环境示意图。如图1所示，该实施环境至少可以包括终端01和服务器02，该终端01和服务器02之间可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

具体地，该服务器02可以用于获取待处理图像和针对该待处理图像的提问信息，并输出针对该提问信息的回答结果。可选地，该服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体地，该终端01可以用于采集待处理图像，发送待处理图像至服务器02，以及用于展示针对该提问信息的回答结果。可选地，该终端01包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

需要说明的是，图1仅仅是一种示例。在其他场景中，还可以包括其他实施环境。

图2是根据一示例性实施例示出的一种问答处理方法的流程示意图一。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。具体的如图2所示，该方法可以包括：

S101.获取待处理图像。

可选地，服务器可以获取终端账号上传的待处理图像，也可以从预设图像库中随机选取待处理图像，还可以接收终端账号的图像选取指令，从预设图像库中选取与图像选取指令中所携带的图像信息关联的待处理图像，本申请实施例不对待处理图像的获取方式和待处理图像的图像类型做具体限定。

S103.确定待处理图像中的兴趣区域、兴趣区域的区域位置信息以及兴趣区域中所包括的对象的类别。

其中，兴趣区域指的是终端账号感兴趣的区域，区域位置信息指的是该兴趣区域所在的位置信息，兴趣区域中所包括的对象可以是终端账号感兴趣的目标，该对象的类别可以指的是兴趣区域中包含的感兴趣目标的类别，该感兴趣目标的类别可以为各种类型的类别，例如，可以为人、苹果、猫、书、篮球等等，对此不做具体限定。

本申请实施例可以通过多种方式确定待处理图像中的兴趣区域、兴趣区域的区域位置信息以及兴趣区域中所包括的对象的类别，对此不做具体限定。

S105.对兴趣区域所包括的对象的类别设置标识信息，以通过标识信息区分类别相同的对象，得到兴趣区域对应的设置后的类别词元。

服务器在确定得到兴趣区域所包括的对象的类别之后，可以对兴趣区域所包括的对象的类别设置标识信息，以通过标识信息区分类别相同的对象，以便通过设置后的类别词元将待处理图像中感兴趣的目标或区域进行高效且准确的传递，从而能够高效且精准地理解感兴趣的目标或区域，进而实现高效且精准的目标级的多模态推理和对话。其中，多模态指的是：可以根据图片内容与终端账号通过文本交流，不仅需要拥有图像理解能力，同时也需要具备文本理解、生成能力，因此为多模态。需要说明的是，标识信息可以为任何能够区分类别相同的对象的标识，申请实施例并不限定标识信息的具体形式。例如，该标识信息可以为编号、符号、图形等。

S107.组合设置后的类别词元和区域位置信息，得到类别位置提示信息。

服务器可以将设置后的类别词元和对应的区域位置信息进行组合，得到类别位置提示信息，即以“设置后的类别词元+区域位置信息”的方式传递感兴趣的目标或区域。本申请实施例并不限定组合的方式，例如，可以将设置后的类别词元设置在区域位置信息的前面或后面以拼接得到类别位置提示信息。

S109.对待处理图像、针对待处理图像的提问信息和类别位置提示信息进行问答预测处理，得到提问信息对应的回答结果。

其中，从提问信息的获取方式来看，针对待处理图像的提问信息可以为服务获取得到的、终端账号实时提出的问题，也可以是服务器从预设提问信息库中随机选取的问题、还可以是服务器响应于终端账号触发的问题选取指令，从预设提问信息库中选取的与问题选取指令关联的提问信息，对此不作具体限定。

从提问信息的类型来看，该提问信息可以是与兴趣区域所包括的对象对应的提问信息、与兴趣区域对应的提问信息中的至少一种。例如，兴趣区域包括兴趣区域1，兴趣区域1中的对象包括对象1，则提问信息可以为：“对象1在干什么？”、“兴趣区域1中有什么东西？”。

需要说明的是，该提问信息还可以是针对兴趣区域之外的区域或目标所提出的问题。

在获取得到针对待处理图像的提问信息之后，服务器可以基于待处理图像、针对待处理图像的提问信息和类别位置提示信息进行问答预测处理，得到提问信息对应的回答结果。在一种实施方式中，当提问信息为与兴趣区域所包括的对象对应的提问信息的情况下，该回答结果可以为针对该兴趣区域所包括的对象的回答结果。例如，提问信息为“对象1在干什么？”，对应的回答结果可以为“对象1在看电视”。

在另一种实施方式中，当提问信息为与兴趣区域对应的提问信息的情况下，该回答结果可以是用于描述该兴趣区域中所包含的内容的结果。例如，提问信息可以为：“兴趣区域1中有什么东西？”，对应的回答结果可以为“兴趣区域1中有一个苹果和一根香蕉”。需要说明的是，在提问信息为与兴趣区域对应的提问信息的情况下，上述步骤S107中的组合设置后的类别词元和区域位置信息，得到类别位置提示信息，还可以替换为：组合兴趣区域和区域位置信息。

由于能够对兴趣区域中的对象的类别设置标识信息得到设置后的类别词元，而设置的标识信息能够区分类别相同的对象，因此通过设置后的类别词元和区域位置信息能够将图像中感兴趣的目标或区域进行高效且准确的传递，从而能够高效且精准地理解感兴趣的目标或区域，进而实现了高效且精准的目标级的多模态推理和对话。例如，兴趣区域1中包括两个人物，由于对两个人物设置了标识信息以区分这两个人物（假设为人物1和人物2），那么在后续感兴趣的对象传递的过程中，能够通过设置的标识信息和区域位置信息准确告诉服务器感兴趣的目标是哪个区域中的哪个人物，从而能够使得服务器高效且精准地理解感兴趣的目标或区域，进而实现了高效且精准的目标级的多模态推理和对话。假设提问信息为：“人物1在干什么？”，由于预先对人物进行了区分，且通过人物1的标识信息和所在的区域位置信息能够高效且准确地对人物1进行传递，使得服务器可以精准且高效地理解感兴趣的目标为人物1以及人物1的位置，进而高效且准确地确定出人物1在干什么。该种方式相比于相关技术中的需要使用特定的位置或属性描述词才能传达感兴趣目标的具体位置的方式，能够降低问答成本，提高问答效率，从而实现目标级的多模态推理和对话。

在一个可选的实施例中，在上述步骤S103中，服务器可以采用多种方式确定待处理图像中的兴趣区域，对此不作具体限定。在一种实施方式中，服务器可以响应于终端账号触发的兴趣区域选取指令，将该选取指令对应的区域作为兴趣区域。在另一种实施方式中，该待处理图像中携带有终端账号预先框选的兴趣区域，服务器从该待处理图像中提取该预先框选的兴趣区域。在第三种实施方式中，服务器可以使用目标检测器对该待处理图像中的对象进行检测，得到包括对象的兴趣区域。

在一个可选的实施例中，在上述步骤S103中，服务器可以采用多种方式确定兴趣区域的区域位置信息，对此不作具体限定。在一种实施方式中，在兴趣区域是规则形状的情况下，服务器可以获取兴趣区域的左上角坐标（x₁,y₁）和右下角坐标（x₂,y₂），将左上角坐标（x₁,y₁）和右下角坐标（x₂,y₂）拼接在一起，得到该区域位置信息（x₁,y₁,x₂,y₂）。在另一种实施方式中，在兴趣区域是非规则形状的情况下，可以对兴趣区域的上、下、左、右的边做切线，通过切线确定兴趣区域对应的规则区域，获取该规则区域的左上角坐标和右下角坐标，得到对应的区域位置信息。

在一个可选的实施例中，在上述步骤S103中，服务器可以采用多种方式确定兴趣区域中所包括的对象的类别，对此不作具体限定。在一种实施方中，服务器可以采用目标检测器检测该兴趣区域中所包含的对象，并通过分类模型或其他分类方式确定对象的类别。在另一种实施方式中，在兴趣区域是终端账号预先框选的情况下，终端账号可以对该兴趣区域中的对象进行标记，服务器提取标记的对象，并通过分类模型或其他分类方式确定对象的类别。

需要说明的是，兴趣区域可以为至少一个，每个兴趣区域可以与其他兴趣区域存在交集，也可以不存在交集。每个兴趣区域中可以包括至少一个对象，该至少一个对象的类别可以相同，也可以不同。例如，兴趣区域为N个，bboxes={bbox ₁ ,bbox ₂ ,…,bbox _N}，其中，N为兴趣区域的总数。区域位置信息为，/>为bbox _i的左上角坐标，/>为bbox _i右下角坐标。该区域位置信息可以认为是将两个二维坐标（左上角坐标和右下角坐标）组合在一起的四维坐标。每个兴趣区域的中所包括的对象的类别o={o ₁ ,o ₂ ,…,o _N}，o _i为bbox _i所包括的对象的类别。

图3是根据一示例性实施例示出的一种问答处理方法的流程示意图二，如图3所示，在一个可选的实施例中，上述兴趣区域为至少一个，则在上述步骤S105中，上述对兴趣区域所包括的对象的类别设置标识信息，以通过标识信息区分类别相同的对象，得到兴趣区域对应的设置后的类别词元，可以包括：

S1051.按照对象的类别对每个兴趣区域所包括的对象进行分类处理，得到至少一个对象集；每个对象集中的对象的类别相同。

S1053.对每个对象集中的对象的类别设置不同的标识信息，以通过不同的标识信息区分每个对象集中的类别相同的对象，得到每个兴趣区域对应的设置后的类别词元。

如上述步骤S1051-S1053所述，服务器可以将每个兴趣区域中所包含的对象按照对象类别进行分类，使类别相同的对象归入同一个对象集中，得到一个或多个对象集。每个对象集中的对象的类别相同。服务器对每个对象集中的类别相同的对象设置不同的标识信息，以区别每个对象集中的类别相同的对象，得每个兴趣区域对应的设置后的类别词元。

例如，兴趣区域为三个，分别为bbox ₁、bbox ₂和bbox ₃，bbox ₁中包括的对象的类别o={人物,苹果,人物，猫}、bbox ₂中包括的对象的类别o={人物,猫,苹果}、bbox ₃中包括的对象的类别o={人物,苹果,苹果}，则按照对象的类别对每个兴趣区域所包括的对象进行分类处理，可以得到三个对象集，分别为人物对象集合{人物,人物,人物,人物}、苹果对象集合{苹果,苹果,苹果,苹果}和猫对象集合{猫,猫}。服务器对人物对象集合中的四个人物设置不同的标识信息以区分这四个人物，为苹果对象集合中的四个苹果设置不同的标识信息以区分这四个苹果，为猫对象集合中的两只猫设置不同的标识信息以区分这两只猫。人物对象集合中的四个人物分别来自于bbox ₁、bbox ₁、bbox ₂和bbox ₃，苹果对象集合中的苹果分别来自于bbox ₁、bbox ₂、bbox ₃和bbox ₃，猫对象集合中的两只猫分别来自于bbox ₁和bbox ₂。由此，每个兴趣区域所包括的对象均被设置了对应的标识信息，得到每个兴趣区域对应的设置后的类别词元。

该实施例中先将同一类别的对象归入同一对象集，然后再针对不用对象集中的同类对象设置不同的标识信息能够降低标识信息的设置难度，提高标识信息设置的效率，从而提高问答处理的效率，降低问答处理的成本。

在一个示例性的实施例中，标识信息为编号，则在上述步骤S1053中，上述对每个对象集中的对象的类别设置不同的标识信息，以通过不同的标识信息区分每个对象集中的类别相同的对象，得到每个兴趣区域对应的设置后的类别词元，可以包括：

对每个对象集中的对象的类别依次设置不同的编号，以通过不同的编号区分每个对象集中的类别相同的对象，得到每个兴趣区域对应的设置后的类别词元。

如上所述，该标识信息可以为编号、符号、图形等。以编号为例，服务器可以对每个对象集中的对象的类别依次设置不同的编号，以通过不同的编号区分每个对象集中的类别相同的对象，得到每个兴趣区域对应的设置后的类别词元。继续参考上述例子，三个对象集分别为人物对象集合{人物,人物,人物,人物}、苹果对象集合{苹果,苹果,苹果,苹果}和猫对象集合{猫,猫}。则可以为人物对象集合中的人物依次设置不同的编号，得到人物1,人物2,人物3和人物4，为苹果的对象集合中的苹果设置不用的编号，得到苹果1,苹果2,苹果3和苹果4，为猫对象集合中的猫设置不用的编号得到猫1和猫2。由于人物1、人物2、苹果1和猫1属于bbox ₁，则bbox ₁对应的设置后的类别词元o'={人物1,苹果1,人物2,猫1}。由于人物3、猫2和苹果2属于bbox ₂，则bbox ₂对应的设置后的类别词元o'={人物3,猫2,苹果2}。由于人物4、苹果3、苹果4属于bbox ₃，则bbox ₃对应的设置后的类别词元o'={人物4,苹果3,苹果4}。

以对象集为维度为对象集中类别相同的对象设置不用的编号，能够降低标识信息的设置难度，提高标识信息设置的效率，从而提高问答处理的效率，降低问答处理的成本；此外，由于编号设置较为简单，且通过编号区分不同的类别对象更加便捷，因此以编号作为标识信息以区分相同类别的对象能够进一步降低标识信息设置的复杂度，从而进一步提高问答处理的效率，降低问答处理的成本。

在其他实施例中，除了划分对象集的方式之外，还可以按照预设方向对不同兴趣区域中所出现的类别相同的对象依次设置不同的标识信息，以对类别相同的对象进行区分。该预设方向可以为待处理图像从左至右的顺序、从上至下的顺序、从右至左的顺序、从下至上的顺序等，对此不做具体限定。例如，待处理图像从左至右依次包括三个兴趣区域，分别为bbox ₁、bbox ₂和bbox ₃，bbox ₁中从左至右依次包括的对象的类别o={人物,苹果,人物,猫}、bbox ₂中从左至右依次包括的对象的类别o={人物,猫,苹果}、bbox ₃中从左至右依次包括的对象的类别o={人物,苹果,苹果}、则bbox ₁对应的设置后的类别词元o'={人物1,苹果1,人物2,猫1}，bbox ₂对应的设置后的类别词元o'={人物3,猫2,苹果2}，bbox ₃对应的设置后的类别词元o'={人物4,苹果3,苹果4}。需要说明的是，如果若干个兴趣区域中存在交集，则可以先对距离待处理图像的左边框更近的兴趣区域中的对象的类别均进行设置标识信息之后，再对其他兴趣区域中的对象的类别设置标识信息。

由于不同的待处理图像的尺寸不同，其具有不同的坐标，为了将不同尺寸、不同范围的坐标转换为标准化的坐标值，以提升目标级的多模态推理和对话的精度，可以对待处理图像的坐标进行归一化处理。继续如图3所示，在一个可选的实施例中，上述兴趣区域为至少一个，则在确定待处理图像中的兴趣区域、兴趣区域的区域位置信息以及兴趣区域中所包括的对象的类别之后，上述方法还可以包括：S104.归一化每个兴趣区域的区域位置信息，得到每个兴趣区域的归一化位置信息。

需要说明的是，本申请实施例可以采用多种方式实现归一化，对此不做具体限定。在一种实施方式中，可以采用待处理图像的宽度信息和高度信息对每个兴趣区域的区域位置信息进行归一化处理，得到每个兴趣区域的归一化位置信息。每个兴趣区域的区域位置信息包括每个兴趣区域的左上角坐标和右下角坐标，在上述步骤S104中，上述归一化每个兴趣区域的区域位置信息，得到每个兴趣区域的归一化位置信息，可以包括：

确定每个兴趣区域的左上角坐标中的横坐标与待处理图像的宽度信息的比值，得到第一归一化横坐标，以及确定每个兴趣区域的右下角坐标中的横坐标与待处理图像的宽度信息的比值，得到第二归一化横坐标。

确定每个兴趣区域的左上角坐标中的纵坐标与待处理图像的高度信息的比值，得到第一归一化纵坐标，以及确定每个兴趣区域的右下角坐标中的纵坐标与待处理图像的高度信息的比值，得到第二归一化纵坐标。

根据第一归一化横坐标、第一归一化纵坐标、第二归一化横坐标和第二归一化纵坐标，生成每个兴趣区域的归一化位置信息。

该实施例中，对于每个兴趣区域的横坐标，服务器可以通过其与待处理图像的宽度信息的比值进行归一化，具体可以为：服务器确定每个兴趣区域的左上角坐标中的横坐标、右下角坐标中的横坐标与待处理图像的宽度信息的比值，得到第一归一化横坐标，以及确定每个兴趣区域的右下角坐标中的横坐标与待处理图像的宽度信息的比值，得到第二归一化横坐标。

对于每个兴趣区域的纵坐标，服务器可以通过其与待处理图像的高度信息之间的比值进行归一化，具体可以为：服务器确定每个兴趣区域的右下角坐标中的纵坐标、右下角坐标中的纵坐标与待处理图像的高度信息的比值，得到第二归一化纵坐标。

服务器将第一归一化横坐标、第一归一化纵坐标、第二归一化横坐标和第二归一化纵坐标组合成四维坐标，得到每个兴趣区域的归一化位置信息。

例如，兴趣区域为N个，bboxes={bbox ₁ ,bbox ₂ ,…,bbox _N}，其中N为兴趣区域的总数。区域位置信息为，/>为bbox _i的左上角坐标，/>为bbox _i右下角坐标。待处理图像的宽度信息为w，高度信息为h，横坐标的归一化方式为：/>，纵坐标的归一化方式为：/>，其中，/>为第一归一化横坐标，/>为第二归一化横坐标，为第一归一化纵坐标，/>为第二归一化纵坐标，则bbox _i的归一化位置信息为，每个兴趣区域的归一化位置信息为：/>。

该实施例通过待处理图像的宽度信息和高度信息对每个兴趣区域的区域位置信息进行归一化处理，能够将绝对坐标归一化为待处理图像左上角的相对偏移值，从而能够将不同尺寸、不同范围的坐标转换为标准化的坐标值，进而提升目标级的多模态推理和对话的精度。

在其他实施方式中，归一化方式还可以为：服务器根据待处理图像的宽度信息和高度信息对提升目标级的多模态推理和对话的精度的贡献度，确定宽度信息对应的第一权重和高度信息对应的第二权重，将上述第一归一化横坐标与第一权重的乘积、上述第一归一化纵坐标与第二权重的乘积、第二归一化横坐标与第一权重的乘积和第二归一化纵坐标与第二权重的乘积，作为每个兴趣区域的归一化位置信息。

在一个可选的实施例中，继续如图3所示，在上述步骤S107中，上述组合设置后的类别词元和区域位置信息，得到类别位置提示信息，可以包括：

S1071.组合每个兴趣区域对应的设置后的类别词元和每个兴趣区域的归一化位置信息，得到类别位置提示信息。

该实施例中，服务器可以将每个兴趣区域对应的设置后的类别词元和每个兴趣区域的归一化位置信息进行组合，得到类别位置提示信息。本申请实施例并不限定组合的方式，例如，可以将设置后的类别词元设置在对应的归一化位置信息的前面或后面，以拼接得到类别位置提示信息。

例如，设置后的类别词元为，每个兴趣区域的归一化位置信息为：，则类别位置提示信息为：/>，或者类别位置提示信息为：/>。

由于归一化位置信息是相对标准化的坐标值，将其与对应的设置后的类别词元进行组合以得到类别位置提示信息的方式，能够将图像中感兴趣的目标或区域进行高效且准确的传递，从而提升目标级的多模态推理和对话的精度，从而提高问答处理的精度。

在一个具体的实施例中，上述组合每个兴趣区域对应的设置后的类别词元和每个兴趣区域的归一化位置信息，得到类别位置提示信息，可以包括：

组合每个兴趣区域对应的设置后的类别词元和每个兴趣区域的归一化位置信息，得到初始提示信息。

组合预设提示信息和初始提示信息，得到类别位置提示信息；其中，预设提示信息用于描述设置后的类别词元和归一化位置信息。

该实施例中，服务器可以组合每个兴趣区域对应的设置后的类别词元和每个兴趣区域的归一化位置信息，得到初始提示信息。并将该初始提示信息与一预设提示信息进行组合，得到该类别位置提示信息。

需要说明的是，本申请实施例并不限定初始提示信息和预设提示信息的组合方式，例如，可以将预设提示信息作为前缀提示短语设置在初始提示信息的前面以拼接得到该类别位置提示信息，或者将预设提示信息作为后缀提示短语设置在初始提示信息的后面以拼接得到该类别位置提示信息。该预设提示信息的作用是为了通过文本向大语言模型解释上述构造得到的初始提示信息，便于大语言模型更充分地理解该初始提示信息中的设置后的类别词元和归一化位置信息，从而进一步提升目标级的多模态推理和对话的精度，以及问答处理的精度。

例如，设置后的类别词元为，每个兴趣区域的归一化位置信息为：，则初始提示信息可以为：/>，预设提示信息可以为“以下为图中显著物体及其位置”，则将该预设提示信息作为前缀提示短语，最终组合得到的类别位置提示信息p为：“以下为图中显著物体及其位置：。

需要说明的是，在提问信息为针对兴趣区域的提示信息时，初始提示信息为组合兴趣区域和区域位置信息得到，该预设提示信息还可以为用于描述该兴趣区域的提示信息。例如，图中存在显著物体区域。相应地，类别位置提示信息可以为：图中存在显著物体区域，兴趣区域1：兴趣区域1的区域位置信息，兴趣区域2：兴趣区域2的区域位置，兴趣区域3：兴趣区域3的区域位置信息。

在其他实施方式中，服务器还可以不对兴趣区域的位置信息进行归一化处理，直接组合每个兴趣区域对应的设置后的类别词元和每个兴趣区域的区域位置信息，得到初始提示信息，组合预设提示信息和初始提示信息，得到类别位置提示信息。其中，该预设提示信息用于描述设置后的类别词元和区域位置信息。

需要说明的是，在上述步骤S109可以采用多种方式实现，对此不作具体限定。继续如图3所示，在一种可选的实施例中，在上述步骤S109中，上述对待处理图像、针对待处理图像的提问信息和类别位置提示信息进行问答预测处理，得到提问信息对应的回答结果，可以包括：

S1091.输入待处理图像、提问信息和类别位置提示信息至目标语言模型进行问答预测处理，得到回答结果；

其中，目标语言模型为基于样本图像、针对样本图像的样本提问信息和样本类别位置提示信息对预设语言模型进行训练得到；样本类别位置提示信息为对样本兴趣区域对应的设置后的样本类别词元和样本兴趣区域的样本区域位置信息进行组合得到，设置后的样本类别词元为对样本兴趣区域所包括的样本对象的样本类别设置样本标识信息，以通过样本标识信息区分类别相同的样本对象得到；样本兴趣区域为样本图像中的区域。

该实施例中的目标语言模型为大语言模型，服务器可以输入该待处理图像、提问信息和类别位置提示信息至目标语言模型进行问答预测处理，得到对应的回答结果。由于目标语言模型为基于样本图像、针对样本图像的样本提问信息和样本类别位置提示信息对预设语言模型进行训练得到，而样本类别位置提示信息为对样本兴趣区域对应的设置后的样本类别词元和样本兴趣区域的样本区域位置信息进行组合得到，设置后的样本类别词元为对样本兴趣区域所包括的样本对象的样本类别设置样本标识信息，以通过样本标识信息区分类别相同的样本对象得到，由此在训练过程中能够通过设置后的样本类别词元和样本区域位置信息将样本图像中感兴趣的目标或区域传递至预设语言模型，从而使得预测语言模型能够高效且准确地理解感兴趣的目标或区域，从而使得训练得到的目标语言模型具备以图像、对应的提问信息和类别位置提示信息为输入，输出该提问信息对应的回答结果的功能，从而能够提高问答结果的生成精度。

在使用该目标语言模型的过程中，由于设置的标识信息能够区分类别相同的对象，通过设置后的类别词元能够将图像中感兴趣的对象进行高效且准确的传递至目标语言模型，从而使得目标语言模型能够高效且精准地理解感兴趣的目标或区域，进而实现了高效且精准的目标级的多模态推理和对话。

在其他实施方式中，还可以不通过目标语言模型进行问答预测处理。例如，服务器还可以从预设图像库中获取与待处理图像相似的图像，从预设问题库中获取与该提问信息相似、且针对该相似的图像提出的问题，从类别位置提示信息库中获取与该相似的图像中的兴趣区域中的类别以及兴趣区域的区域位置信息关联的类别位置提示信息，最后服务器从预设回答数据库中获取与该相似的图像、针对该相似的图像提出的问题以及关联的类别位置提示信息匹配的回答，得到该回答结果。其中，该类别位置提示信息库中预先存储有与各个图像对应的类别位置提示信息，各个图像对应的类别位置提示信息为组合各个图像中的兴趣区域对应的设置后的类别词元以及各个兴趣区域的区域位置信息得到。

在一些其他实施方式中，除了直接将待处理图像、提问信息和类别位置提示信息作为目标语言模型的输入之外，还可以预先组合类别位置提示信息和提问信息，得到信息组合结果，将该信息组合结果作为文本特征，并将该待处理图像作为图像特征输入目标语言模型，由此能够让目标语言模型更高效且充分的理解哪些是文本特征，哪些是图像特征，以便通过文本特征将图像中感兴趣的对象进行高效且准确的传递至目标语言模型，从而使得模目标语言模型能够高效且精准地理解感兴趣的目标或区域，进而实现了高效且精准的目标级的多模态推理和对话。相应地，继续如图3所示，在上述步骤S1091中，上述输入待处理图像、提问信息和类别位置提示信息至目标语言模型进行问答预测处理，得到回答结果，可以包括：

S10911.组合类别位置提示信息和提问信息，得到信息组合结果。

S10913.获取待处理图像的图像特征以及获取信息组合结果的文本特征。

S10915.输入图像特征和文本特征至目标语言模型进行问答预测处理，得到回答结果。

该实施例中，服务器可以将类别位置提示信息p和提问信息q连接成一句话，得到信息组合结果，将该信息组合结果的文本特征和待处理图像的图像特征共同输入至目标语言模型中进行回答预测处理，得到回答结果。

需要说明的是，本申请实施例并不限定S10911中的组合方式，服务器可以将提问信息设置在类别位置提示信息的前面或后面以连接成一句话。例如，类别位置提示信息p为：“以下为图中显著物体及其位置：”，提问信息q=“请问/>在干什么”，那么连接得到的信息组合结果可以为：以下为图中显著物体及其位置：，请问/>在干什么。

可选地，在上述步骤S10913中，服务器可以通过多种方式获取待处理图像的图像特征，对此不作具体限定。

在一种实施方式中，服务器可以将待处理图像输入视觉编码器，通过视觉编码器提取待处理图像的整个图像特征v={v ₁ ,v ₂ ,…,v _L}，其中，v_i是图片的第i个局部特征，L为待处理图像的特征总数。示例性地，可以通过语言-图像预训练模型（Contrastive Language-Image Pre-Training，CLIP）提取待处理图像的图像特征，以将待处理图像编码成多个特征向量。由于整个图像的图像特征更能够有利于对兴趣区域中的目标的理解，因此将待处理图像的整个图像特征作为目标语言模型的输入，使得目标语言模型能够高效且精准的进行目标级的多模态推理和对话。

在另一种实施方式中，服务器可以将兴趣区域裁剪出来，通过视觉编码器提取兴趣区域的图像特征，将兴趣区域的图像特征作为待处理图像的图像特征输入目标语言模型。由于是将感兴趣的目标传递给目标语言模型，因此将兴趣区域的图像特征直接作为目标语言模型的输入的方式不仅能够降低目标级多模态推理和对话的成本，还能够进一步提高目标级的多模态推理和对话的精度。

在另一种实施方式中，服务器可以将兴趣区域裁剪出来，通过使用感兴趣区域池化（Region of interestpooling，RoI Pooling）或区域特征聚集方式（RoI align）提取兴趣区域的局部图像特征，将兴趣区域的图像特征作为待处理图像的图像特征输入目标语言模型。由于是将感兴趣的目标传递给目标语言模型，将兴趣区域的图像特征直接作为目标语言模型的输入的方式不仅能够降低目标级多模态推理和对话的成本，还能够进一步提高目标级的多模态推理和对话的精度。

可选地，在上述步骤S10913中，上述获取信息组合结果的文本特征，可以包括：输入信息组合结果至文本编码器进行文本编码得到文本特征。例如，将信息组合结果至文本编码器得到文本特征u={u ₁ ,u ₂ ,…,u _n}，其中，n是句子经文本编码器编码后的词元个数。

可选地，在上述步骤S10915中，服务器可以将图像特征和文本特征连接，得到图像文本特征连接结果，输入该图像文本特征连接结果至目标语言模型进行问答预测处理，得到回答结果。本申请实施例并不限定图像特征和文本特征的连接方式，可以将图像特征放置在文本特征的前面或后面等。例如，将图像特征放置在文本特征的前面进行连接，得到图像文本特征连接结果w={v ₁ ,v ₂ ,…,v _L,u ₁ ,u ₂ ,…,u _n},输入该w至目标语言模型中。

以下，对目标语言模型的生成方法进行介绍：

图4是根据一示例性实施例示出的一种目标语言模型的生成方法的流程示意图，如图4所示，该目标语言模型的生成方法包括：

S201.获取样本图像。

S203.确定样本图像中的样本兴趣区域、样本兴趣区域的样本区域位置信息和样本兴趣区域中所包括的样本对象的样本类别。

可选地，该样本图像可以为服务器从样本数据库中获取得到，其可以为各种类型的图像，本申请实施例不对样本图像的获取方式和类型做限定。

其中，样本兴趣区域指的是终端账号感兴趣的区域，样本区域位置信息指的是该样本兴趣区域所在的位置信息，样本兴趣区域中所包括的样本对象的样本类别，指的是样本兴趣区域中包含的感兴趣目标的类别，该感兴趣目标的类别可以包括人、苹果、猫、书、篮球等等。

本申请实施例可以通过多种方式确定样本处理图像中的样本兴趣区域、样本兴趣区域的样本区域位置信息以及样本兴趣区域中所包括的样本对象的样本类别，对此不做具体限定。

S205.对样本兴趣区域所包括的样本对象的样本类别设置样本标识信息，以通过样本标识信息区分类别相同的样本对象，得到样本兴趣区域对应的设置后的样本类别词元。

服务器在确定得到样本兴趣区域所包括的样本对象的样本类别之后，可以对样本兴趣区域所包括的样本对象的样本类别设置样本标识信息，以通过样本标识信息区分类别相同的样本对象，以便通过设置后的样本类别词元和样本区域位置信息将待处理图像中感兴趣的对象高效且准确地传递至预设语言模型，从而使得预设语言模型能够高效且精准地理解感兴趣的目标或区域，进而实现高效且精准的目标级的多模态推理和对话。需要说明的是，样本标识信息可以为能够区分类别相同的样本对象的标识，本申请实施例并不限定样本标识信息的具体形式。例如，该样本标识信息可以为编号、符号、图形等。

S207.组合样本类别词元和样本区域位置信息，得到样本类别位置提示信息。

服务器可以将设置后的样本类别词元和对应的样本区域位置信息进行组合，得到样本类别位置提示信息。本申请实施例并不限定组合的方式。

S209.输入样本图像、样本提问信息和样本类别位置提示信息至预设语言模型进行问答预测处理，得到预设语言模型输出的预测回答结果，基于预测回答结果和样本提问信息所携带的回答标签之间的损失数据训练预设语言模型，直至损失数据满足预设条件，得到目标语言模型。

服务器可以将样本图像、样本提问信息和样本类别位置提示信息输入至预设语言模型进行问答预测处理，得到预设语言模型输出的预测回答结果，计算预测回答结果与样本提问信息所携带的回答标签之间的损失数据，在损失数据不满足预设条件的情况下，不断调整预设语言模型的模型参数，并使用梯度下降算法优化，直至损失数据满足预设条件，得到训练完成的目标语言模型。

示例性地，回答标签可以为y={y ₁ ,y ₂ ,…,y _T}，预设语言模型输出的预测回答结果可以为概率分布p={p ₁ ,p ₂ ,…,p _T}，y ₁ ,y ₂ ,…,y _T指的是回答标签中的词元，p ₁ ,p ₂ ,…,p _T指的是预测回答结果与回答标签之间匹配的概率。上述损失数据可以为交叉损失数据，公式如下：

；

其中，L为交叉损失数据，y _t和y _1：t-1指的是回答标签中的词元，p _t指的是预测回答结果与回答标签之间匹配的概率。

本申请实施例中的训练过程实现了对样本兴趣区域中的样本对象的样本类别设置样本标识信息，得到设置后的样本类别词元，由于设置的样本标识信息能够区分类别相同的样本对象，因此通过设置后的样本类别词元和样本区域位置信息能够将样本图像中感兴趣的样本对象高效且准确的传递至预设语言模型，从而使得预设语言模型能够高效且精准地理解感兴趣的目标或区域，提高了预测回答结果的预测精度，进而提高了训练得到的目标语言模型生成回答结果的效率和精度，使得生成得到的目标语言模型能够高效且精准的进行目标级的多模态推理和对话。

可选地，上述步骤S203中确定样本兴趣区域的方式、确定样本区域位置信息的方式、确定样本兴趣区域中所包括的样本对象的样本类别的方式，与上述步骤S103中的相似，即将上述步骤S103中的“兴趣区域”替换为“样本兴趣区域”，将“区域位置信息”替换为“样本区域位置信息”，将“对象”替换为“样本对象”，将“类别”替换为“样本类别”，在此不再赘述。

可选地，上述步骤S205中的设置后的样本类别词元的方式，与上述步骤S105中确定设置后的类别词元的方式相同，将上述步骤S205中的“标识信息”改为“样本标识信息”。例如，上述步骤S205可以包括：

按照样本对象的样本类别对每个样本兴趣区域所包括的样本对象进行分类处理，得到至少一个样本对象集；每个样本对象集中的样本对象的样本类别相同；对每个样本对象集中的样本对象的样本类别设置不同的样本标识信息，以通过不同的样本标识信息区分每个样本对象集中的类别相同的样本对象，得到每个兴趣区域对应的设置后的样本类别词元。

在一个可选的实施例中，上述样本兴趣区域为至少一个，则在确定样本图像中的样本兴趣区域、样本兴趣区域的样本区域位置信息以及样本兴趣区域中所包括的样本对象的样本类别之后，上述方法还可以包括：归一化每个样本兴趣区域的样本区域位置信息，得到每个样本兴趣区域的样本归一化位置信息。

示例性地，上述归一化每个样本兴趣区域的样本区域位置信息，得到每个样本兴趣区域的样本归一化位置信息可以包括：

确定每个样本兴趣区域的左上角坐标中的横坐标与样本图像的宽度信息的比值，得到第一样本归一化横坐标，以及确定每个样本兴趣区域的右下角坐标中的横坐标与样本图像的宽度信息的比值，得到第二样本归一化横坐标。确定每个样本兴趣区域的左上角坐标中的纵坐标与样本图像的高度信息的比值，得到第一样本归一化纵坐标，以及确定每个样本兴趣区域的右下角坐标中的纵坐标与样本图像的高度信息的比值，得到第二样本归一化纵坐标。根据第一样本归一化横坐标、第一样本归一化纵坐标、第二样本归一化横坐标和第二样本归一化纵坐标，生成每个样本兴趣区域的样本归一化位置信息。

可选地，上述步骤S207中确定样本类别位置提示信息的方式，与上述步骤S107中确定类别位置提示信息的方式相同。例如，组合每个样本兴趣区域对应的设置后的样本类别词元和每个样本兴趣区域的样本归一化位置信息，得到样本类别位置提示信息。

示例性地，组合每个样本兴趣区域对应的设置后的样本类别词元和每个样本兴趣区域的样本归一化位置信息，得到样本类别位置提示信息，可以包括：

组合每个样本兴趣区域对应的设置后的样本类别词元和每个样本兴趣区域的样本归一化位置信息，得到样本初始提示信息。组合样本预设提示信息和样本初始提示信息，得到样本类别位置提示信息；其中，样本预设提示信息用于描述设置后的样本类别词元和样本归一化位置信息。

在一个可选的实施例中，在上述步骤S209中，可以直接输入样本图像、样本提问信息和样本类别位置提示信息至预设语言模型进行问答预测处理，得到预设语言模型输出的预测回答结果。

在其他实施方式中，还可以预先组合样本类别位置提示信息和样本提问信息，得到样本信息组合结果，将该样本信息组合结果作为样本文本特征，并将该样本图像作为样本图像特征输入目标语言模型，由此能够让目标语言模型高效且精准识别出哪些是文本特征，哪些是图像特征，以便通过文本特征将图像中感兴趣的目标或区域高效且准确的传递至预设语言模型，从而使得预设语言模型能够高效且精准地理解感兴趣的目标或区域，从而提高了目标语言模型的训练精度和预测精度。相应地，在上述步骤S209中，上述输入样本图像、样本提问信息和样本类别位置提示信息至预设语言模型进行问答预测处理，包括：

组合样本类别位置提示信息和样本提问信息，得到样本信息组合结果。

获取样本图像的样本图像特征和样本信息组合结果的样本文本特征。

输入样本图像特征和样本文本特征至预设语言模型进行问答预测处理。

该实施例中，“组合样本类别位置提示信息和样本提问信息，得到样本信息组合结果”的方式可以参考上述步骤S10911中，在此不做具体限定。“获取样本图像的样本图像特征和样本信息组合结果的样本文本特征”的方式可以参考上述步骤S10913，在此不做具体限定。“输入样本图像特征和样本文本特征至目标语言模型至预设语言模型进行问答预测处理”的方式可以参考上述步骤S10915，对此不作具体限定。

需要说明的是，该样本提问信息包括与样本对象对应的样本提问信息、与样本兴趣区域对应的样本提问信息中的至少一种。在一种实施方式中，当提问信息为与样本兴趣区域所包括的样本对象对应的提问信息的情况下，该预测回答结果可以为针对样本兴趣区域所包括的样本对象的回答结果。例如，样本提问信息为“样本对象1在干什么？”，对应的预测回答结果可以为“样本对象1在看电视”。在另一种实施方式中，当提问信息为与样本兴趣区域对应的提问信息的情况下，该预测回答结果可以是用于描述该样本兴趣区域中所包含的内容的结果。例如，样本提问信息可以为：“样本兴趣区域1中有什么东西？”，对应的预测回答结果可以为“样本兴趣区域1中有一个苹果和一根香蕉”。

图5是根据一示例性实施例示出的一种问答处理方法的流程示意图三，如图5所示，待处理图像中包括兴趣区域1、兴趣区域2和兴趣区域3，服务器构建类别词元：服务器对每个兴趣区域所包括的对象的类别设置标识信息，以通过标识信息区分类别相同的对象，得到每个兴趣区域对应的设置后的类别词元，例如，兴趣区域1中的设置后的类别词元为人物0、兴趣区域2中的设置后的类别词元为苹果0、兴趣区域3中的设置后的类别词元为人物1。由此，能够将兴趣区域1中和兴趣区域3所包括的类别相同的人物通过标识信息进行区分。

服务器组合所述设置后的类别词元和区域位置信息，得到类别位置提示信息。例如，类别位置提示信息为：以下为图中的显著物体及其位置，人物0:（x ₁ ,y ₁ ,x ₂ ,y ₂），人物1:（x ₃ ,y ₃ ,x ₄ ,y ₄），苹果0:（x ₅ ,y ₅ ,x ₆ ,y ₆）。

服务器获取提问信息，该提问信息可以是与兴趣区域所包括的对象对应的提问信息、与兴趣区域对应的提问信息中的至少一种。例如，该提问信息为“为什么人物1看着人物0？”。

服务器组合该提问信息和类别位置提示信息，得到信息组合结果。将信息组合结果输入文本编码器得到文本特征，将待处理图像输入编码器提取图像特征。

服务器输入该文本特征和图像特征至目标语言模型进行问答预测处理，得到针对该提问信息的回答结果。例如，该回答结果为：人物1正在确认人物0的身体状况。

在上述过程中由于服务器构建类别词元，以通过标识信息区分类别相同的对象，在问答预测处理过程中可以通过设置后的类别词元和区域位置信息传递感兴趣的目标至目标语言模型，目标语言模型能够高效且准确地确定终端账号感兴趣的目标是兴趣区域3中的人物1和兴趣区域0中的人物0，相比于相关技术中的需要使用特定的位置或属性描述词才能向模型传达感兴趣目标的具体位置的方式，能够降低问答成本，提高问答效率，从而实现了目标级的多模态推理和对话。

本申请实施例可以应用在通用多模态聊天机器人上，终端账号上传待处理图像后，可以与聊天机器人围绕待处理图片的内容进行聊天。本申请实施例可以为通用多模态聊天机器人提供更丰富的交互体验，终端账号可以指定感兴趣的目标或区域，目标语言模型即可根据终端账号的指定进行精准的定位和回答。

图6是根据一示例性实施例示出的采用本申请实施例中的问答处理方法在目标级的对话上实现的效果示意图一、图7是根据一示例性实施例示出的采用本申请实施例中的问答处理方法在目标级的对话上实现的效果示意图二。如图6所示，提问信息为与兴趣区域所包括的对象对应的提问信息，目标语言模型可以通过设置后的类别词元精准理解终端账号感兴趣的目标，并与终端账号围绕这些目标进行对话。

如图7所示，提问信息为与兴趣区域对应的提问信息，目标语言模型可以通过引用设置后的类别词元理解终端账号感兴趣的区域，并且准确描述出区域中所包含的内容。需要说明的，在提问信息为针对兴趣区域的提示信息时，除了按照“设置后的类别词元+区域位置信息”的方式构建引用词元之外，类别位置提示信息中的初始提示信息可以直接由组合兴趣区域和区域位置信息得到，预设提示信息还可以为用于描述该兴趣区域的提示信息。例如，该预设提示信息为：图中存在显著物体区域。相应地，类别位置提示信息可以为：图中存在显著物体区域，兴趣区域1：兴趣区域1的区域位置信息，兴趣区域2：兴趣区域2的区域位置，兴趣区域3：兴趣区域3的区域位置信息。

本申请实施例赋予了当前的图文大模型目标级的理解和推理能力，细化图文大模型图像理解的粒度，更适合复杂场景中的多目标对话。

上述实施方式采用的是组合设置后的类别词元和区域位置信息，得到类别位置提示信息的方式，即采用的是“设置后的类别词元+区域位置信息”的方式，为了达到将兴趣目标传递给大语言模型的目的，在其他实施方式中，还可以通过点坐标的形式传递兴趣目标，具体为：终端账号点击待处理图像中的某个坐标，以告知大模型感兴趣的目标，将该点坐标和提问信息连接成一句话输入文本编码器得到文本特征，将文本特征和待处理图像的图像特征一起输入大语言模型，得到回答结果。

在其他实施方式中，为了达到将兴趣目标传递给大语言模型的目的，还可以通过语义分割的方式确定感兴趣目标的掩码，将该掩码和提问信息连接成一句话输入文本编码器得到文本特征，将文本特征和待处理图像的图像特征一起输入大语言模型，得到回答结果。

图8是根据一示例性实施例示出的一种问答处理装置的框图，如图8所示，该问答处理装置包括：

待处理图像获取模块301，用于获取待处理图像。

区域对象类确定模块303，用于确定所述待处理图像中的兴趣区域、所述兴趣区域的区域位置信息以及所述兴趣区域中所包括的对象的类别。

标识设置模块305，用于对所述兴趣区域所包括的对象的类别设置标识信息，以通过所述标识信息区分类别相同的对象，得到所述兴趣区域对应的设置后的类别词元。

类别位置提示信息生成模块307，用于组合所述设置后的类别词元和所述区域位置信息，得到类别位置提示信息。

问答预测模块309，用于对所述待处理图像、针对所述待处理图像的提问信息和所述类别位置提示信息进行问答预测处理，得到所述提问信息对应的回答结果；其中，所述提问信息包括与所述兴趣区域所包括的对象对应的提问信息、与所述兴趣区域对应的提问信息中的至少一种。

在一个可选的实施例中，所述标识设置模块，包括：

分类处理单元，用于按照对象的类别对每个所述兴趣区域所包括的对象进行分类处理，得到至少一个对象集；每个所述对象集中的对象的类别相同。

类别词元生成单元，用于对每个所述对象集中的对象的类别设置不同的标识信息，以通过不同的标识信息区分每个所述对象集中的类别相同的对象，得到每个所述兴趣区域对应的设置后的类别词元。

在一个可选的实施例中，所述标识信息为编号，所述类别词元生成单元，用于对每个所述对象集中的对象的类别依次设置不同的编号，以通过不同的编号区分每个对象集中的类别相同的对象，得到每个所述兴趣区域对应的设置后的类别词元。

在一个可选的实施例中，所述兴趣区域为至少一个，所述装置还包括：

归一化模块，用于归一化每个所述兴趣区域的区域位置信息，得到每个所述兴趣区域的归一化位置信息。

相应地，所述类别位置提示信息生成模块，包括：

组合单元，用于组合每个所述兴趣区域对应的设置后的类别词元和每个所述兴趣区域的归一化位置信息，得到所述类别位置提示信息。

在一个可选的实施例中，所述组合单元，包括：

第一组合子单元，用于组合每个所述兴趣区域对应的设置后的类别词元和每个所述兴趣区域的归一化位置信息，得到初始提示信息。

第二组合子单元，用于组合预设提示信息和所述初始提示信息，得到所述类别位置提示信息；其中，所述预设提示信息用于描述设置后的类别词元和归一化位置信息。

在一个可选的实施例中，每个所述兴趣区域的区域位置信息包括每个所述兴趣区域的左上角坐标和右下角坐标，所述归一化模块，包括：

比值确定单元，用于确定每个所述兴趣区域的左上角坐标中的横坐标与所述待处理图像的宽度信息的比值，得到第一归一化横坐标，以及确定每个所述兴趣区域的右下角坐标中的横坐标与所述待处理图像的宽度信息的比值，得到第二归一化横坐标；以及确定每个所述兴趣区域的左上角坐标中的纵坐标与所述待处理图像的高度信息的比值，得到第一归一化纵坐标，以及确定每个所述兴趣区域的右下角坐标中的纵坐标与所述待处理图像的高度信息的比值，得到第二归一化纵坐标。

归一化位置信息生成单元，用于根据所述第一归一化横坐标、第一归一化纵坐标、第二归一化横坐标和第二归一化纵坐标，生成每个所述兴趣区域的归一化位置信息。

在一个可选的实施例中，所述问答预测模块，包括：

回答结果生成单元，用于输入所述待处理图像、所述提问信息和所述类别位置提示信息至目标语言模型进行问答预测处理，得到所述回答结果；

其中，所述目标语言模型为基于样本图像、针对所述样本图像的样本提问信息和样本类别位置提示信息对预设语言模型进行训练得到；所述样本类别位置提示信息为对样本兴趣区域对应的设置后的样本类别词元和所述样本兴趣区域的样本区域位置信息进行组合得到，所述设置后的样本类别词元为对所述样本兴趣区域所包括的样本对象的样本类别设置样本标识信息，以通过所述样本标识信息区分类别相同的样本对象得到；所述样本兴趣区域为所述样本图像中的区域。

在一个可选的实施例中，所述回答结果生成单元，包括：

信息组合结果生成子单元，用于组合所述类别位置提示信息和所述提问信息，得到信息组合结果。

特征获取子单元，用于获取所述待处理图像的图像特征以及获取所述信息组合结果的文本特征。

输入单元，用于输入所述图像特征和所述文本特征至所述目标语言模型进行问答预测处理，得到所述回答结果。

在一个可选的实施例中，所述装置还包括目标模型生成模块，所述目标模型生成模块包括：

样本图像获取单元，用于获取样本图像；确定所述样本图像中的样本兴趣区域、所述样本兴趣区域的样本区域位置信息和所述样本兴趣区域中所包括的样本对象的样本类别。

样本标识信息设置单元，用于对所述样本兴趣区域所包括的样本对象的样本类别设置样本标识信息，以通过所述样本标识信息区分类别相同的样本对象，得到所述样本兴趣区域对应的设置后的样本类别词元。

样本信息组合单元，用于组合所述样本类别词元和所述样本区域位置信息，得到样本类别位置提示信息。

目标语言模型生成单元，用于输入所述样本图像、所述样本提问信息和所述样本类别位置提示信息至预设语言模型进行问答预测处理，得到预设语言模型输出的预测回答结果，基于所述预测回答结果和所述样本提问信息所携带的回答标签之间的损失数据训练预设语言模型，直至损失数据满足预设条件，得到所述目标语言模型；其中，所述样本提问信息包括与所述样本对象对应的样本提问信息、与所述样本兴趣区域对应的样本提问信息中的至少一种。

在一个可选的实施例中，所述目标语言模型生成单元，包括：

样本信息组合结果生成单元，用于组合所述样本类别位置提示信息和所述样本提问信息，得到样本信息组合结果。

样本特征获取单元，用于获取所述样本图像的样本图像特征和所述样本信息组合结果的样本文本特征。

样本特征输入单元，用于输入所述样本图像特征和所述样本文本特征至预设语言模型进行问答预测处理。

在一个可选的实施例中，所述样本特征获取单元，用于通过视觉编码器提取所述待处理图像的图像特征；或者，用于通过所述视觉编码器提取所述兴趣区域的图像特征，确定所述兴趣区域的图像特征为所述待处理图像的图像特征；或者，用于获取所述兴趣区域的局部图像特征，确定所述兴趣区域的局部图像特征为所述待处理图像的图像特征。

在一个可选的实施例中，所述样本特征获取单元，还用于输入所述信息组合结果至文本编码器进行文本编码，得到所述文本特征。

需要说明的是，本申请实施例提供的装置实施例与上述方法实施例基于相同的发明构思。

本申请实施例还提供了一种问答处理的电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述任一实施例提供的问答处理方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种问答处理方法的至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的问答处理方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的问答处理方法。

本申请实施例所提供的问答处理方法的实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图9是根据一示例性实施例提供的一种服务器的硬件结构框图。如图9所示，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，CPU）410（中央处理器410可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器430，一个或一个以上存储应用程序423或数据422的存储介质420（例如一个或一个以上海量存储设备）。其中，存储器430和存储介质420可以是短暂存储或持久存储。存储在存储介质420的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器410可以设置为与存储介质420通信，在服务器400上执行存储介质420中的一系列指令操作。服务器400还可以包括一个或一个以上电源460，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口440，和/或，一个或一个以上操作系统421，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口440可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器400的通信供应商提供的无线网络。在一个实例中，输入输出接口440包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口440可以为射频（RadioFrequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器400还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种问答处理方法，其特征在于，所述方法包括：

获取待处理图像；

2.根据权利要求1所述的问答处理方法，其特征在于，所述兴趣区域为至少一个，所述对所述兴趣区域所包括的对象的类别设置标识信息，以通过所述标识信息区分类别相同的对象，得到所述兴趣区域对应的设置后的类别词元，包括：

按照对象的类别对每个所述兴趣区域所包括的对象进行分类处理，得到至少一个对象集；每个所述对象集中的对象的类别相同；

对每个所述对象集中的对象的类别设置不同的标识信息，以通过不同的标识信息区分每个所述对象集中的类别相同的对象，得到每个所述兴趣区域对应的设置后的类别词元。

3.根据权利要求2所述的问答处理方法，其特征在于，所述标识信息为编号，所述对每个所述对象集中的对象的类别设置不同的标识信息，以通过不同的标识信息区分每个所述对象集中的类别相同的对象，得到每个所述兴趣区域对应的设置后的类别词元，包括：

对每个所述对象集中的对象的类别依次设置不同的编号，以通过不同的编号区分每个所述对象集中的类别相同的对象，得到每个所述兴趣区域对应的设置后的类别词元。

4.根据权利要求2所述的问答处理方法，其特征在于，所述兴趣区域为至少一个，在所述确定所述待处理图像中的兴趣区域、所述兴趣区域的区域位置信息以及所述兴趣区域中所包括的对象的类别之后，所述方法还包括：

归一化每个所述兴趣区域的区域位置信息，得到每个所述兴趣区域的归一化位置信息；

所述组合所述设置后的类别词元和所述区域位置信息，得到类别位置提示信息，包括：

组合每个所述兴趣区域对应的设置后的类别词元和每个所述兴趣区域的归一化位置信息，得到所述类别位置提示信息。

5.根据权利要求4所述的问答处理方法，其特征在于，所述组合每个所述兴趣区域对应的设置后的类别词元和每个所述兴趣区域的归一化位置信息，得到所述类别位置提示信息，包括：

组合每个所述兴趣区域对应的设置后的类别词元和每个所述兴趣区域的归一化位置信息，得到初始提示信息；

组合预设提示信息和所述初始提示信息，得到所述类别位置提示信息；

其中，所述预设提示信息用于描述设置后的类别词元和归一化位置信息。

6.根据权利要求4所述的问答处理方法，其特征在于，每个所述兴趣区域的区域位置信息包括每个所述兴趣区域的左上角坐标和右下角坐标，所述归一化每个所述兴趣区域的区域位置信息，得到每个所述兴趣区域的归一化位置信息，包括：

确定每个所述兴趣区域的左上角坐标中的横坐标与所述待处理图像的宽度信息的比值，得到第一归一化横坐标，确定每个所述兴趣区域的右下角坐标中的横坐标与所述待处理图像的宽度信息的比值，得到第二归一化横坐标；以及确定每个所述兴趣区域的左上角坐标中的纵坐标与所述待处理图像的高度信息的比值，得到第一归一化纵坐标，确定每个所述兴趣区域的右下角坐标中的纵坐标与所述待处理图像的高度信息的比值，得到第二归一化纵坐标；

根据所述第一归一化横坐标、第一归一化纵坐标、第二归一化横坐标和第二归一化纵坐标，生成每个所述兴趣区域的归一化位置信息。

7.根据权利要求1至6中任一项所述的问答处理方法，其特征在于，所述对所述待处理图像、针对所述待处理图像的提问信息和所述类别位置提示信息进行问答预测处理，得到所述提问信息对应的回答结果，包括：

输入所述待处理图像、所述提问信息和所述类别位置提示信息至目标语言模型进行问答预测处理，得到所述回答结果；

8.根据权利要求7所述的问答处理方法，其特征在于，所述输入所述待处理图像、所述提问信息和所述类别位置提示信息至目标语言模型进行问答预测处理，得到所述回答结果，包括：

组合所述类别位置提示信息和所述提问信息，得到信息组合结果；

获取所述待处理图像的图像特征以及获取所述信息组合结果的文本特征；

输入所述图像特征和所述文本特征至所述目标语言模型进行问答预测处理，得到所述回答结果。

9.根据权利要求7所述的问答处理方法，其特征在于，所述目标语言模型的生成方法包括：

获取样本图像；确定所述样本图像中的样本兴趣区域、所述样本兴趣区域的样本区域位置信息和所述样本兴趣区域中所包括的样本对象的样本类别；

对所述样本兴趣区域所包括的样本对象的样本类别设置样本标识信息，以通过所述样本标识信息区分类别相同的样本对象，得到所述样本兴趣区域对应的设置后的样本类别词元；

组合所述样本类别词元和所述样本区域位置信息，得到样本类别位置提示信息；

输入所述样本图像、所述样本提问信息和所述样本类别位置提示信息至所述预设语言模型进行问答预测处理，得到所述预设语言模型输出的预测回答结果，基于所述预测回答结果和所述样本提问信息所携带的回答标签之间的损失数据训练所述预设语言模型，直至损失数据满足预设条件，得到所述目标语言模型；

其中，所述样本提问信息包括与所述样本对象对应的样本提问信息、与所述样本兴趣区域对应的样本提问信息中的至少一种。

10.根据权利要求9所述的问答处理方法，其特征在于，所述输入所述样本图像、所述样本提问信息和所述样本类别位置提示信息至所述预设语言模型进行问答预测处理，包括：

组合所述样本类别位置提示信息和所述样本提问信息，得到样本信息组合结果；

获取所述样本图像的样本图像特征和所述样本信息组合结果的样本文本特征；

输入所述样本图像特征和所述样本文本特征至所述预设语言模型进行问答预测处理。

11.根据权利要求8所述的问答处理方法，其特征在于，所述获取所述待处理图像的图像特征，包括：

通过视觉编码器提取所述待处理图像的图像特征；或者，

通过所述视觉编码器提取所述兴趣区域的图像特征，确定所述兴趣区域的图像特征为所述待处理图像的图像特征；或者，

获取所述兴趣区域的局部图像特征，确定所述兴趣区域的局部图像特征为所述待处理图像的图像特征；

所述获取所述信息组合结果的文本特征，包括：

输入所述信息组合结果至文本编码器进行文本编码，得到所述文本特征。

12.一种问答处理装置，其特征在于，所述装置包括：

待处理图像获取模块，用于获取待处理图像；

13.一种问答处理的电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1至11中任一项所述的问答处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至11中任一项所述的问答处理方法。