CN118151818A

CN118151818A - 基于视觉内容的交互方法以及装置

Info

Publication number: CN118151818A
Application number: CN202410564752.4A
Authority: CN
Inventors: 苑爱泉; 刘传宝
Original assignee: Rajax Network Technology Co Ltd; Zhejiang Koubei Network Technology Co Ltd
Current assignee: Rajax Network Technology Co Ltd; Zhejiang Koubei Network Technology Co Ltd
Priority date: 2024-05-08
Filing date: 2024-05-08
Publication date: 2024-06-07

Abstract

本申请公开了一种基于视觉内容的交互方法以及装置，通过本申请实施例提供的技术方案，获取目标视觉内容和针对该目标视觉内容的问题文本。通过多模态理解模型，基于该问题文本和该目标视觉内容，在该目标视觉内容上标记目标区域。通过该多模态理解模型，基于标记该目标区域的目标视觉内容以及该问题文本，生成该问题文本的回复文本。基于该目标回复文本以及该目标视觉内容，召回该目标视觉内容的目标标签，该目标标签用于触发与该目标视觉内容相关的功能。显示该回复文本以实现对问题文本的回复，同时显示目标标签，以供用户快捷执行对应的功能，丰富了与用户进行交互的方式，从而满足用户需求，提高用户体验。

Description

基于视觉内容的交互方法以及装置

技术领域

本申请涉及人工智能技术领域，并且更具体地，涉及人工智能技术领域中一种基于视觉内容的交互方法以及装置。

背景技术

随着人工智能技术的发展，出现了越来越多利用人工智能技术来与用户进行对话的产品。比如，用户可以输入想要询问的问题文本，该产品就能够生成该问题的回复文本。

相关技术中，通常是基于自然语言处理（Natural Language Processing，NLP）来对用户输入的问题文本进行处理，从而实现与用户进行对话的。

但是，基于文本进行交互的形式较为单一，无法满足用户的需求。

发明内容

本申请实施例提供了基于视觉内容的交互方法以及装置，能够基于视觉内容和文本来与用户进行交互，从而满足用户的需求，提高用户体验，技术方案如下：

一方面，提供了一种基于视觉内容的交互方法，所述方法包括：

获取目标视觉内容和针对所述目标视觉内容的问题文本，所述目标视觉内容为本轮对话围绕的视觉内容；

通过多模态理解模型，基于所述问题文本和所述目标视觉内容，在所述目标视觉内容上标记目标区域，所述目标区域为所述问题文本关注的区域；

通过所述多模态理解模型，基于标记所述目标区域的所述目标视觉内容以及所述问题文本，生成所述问题文本的回复文本；

基于所述回复文本以及所述目标视觉内容，召回所述目标视觉内容的目标标签，所述目标标签用于触发与所述目标视觉内容相关的功能；

显示所述回复文本和所述目标标签。

在一种可能的实施方式中，所述显示所述回复文本和所述目标标签之后，所述方法还包括：

响应于对所述目标标签的点击操作，显示所述目标标签对应的功能页面。

一方面，提供了一种基于视觉内容的交互装置，所述装置包括：

获取模块，用于获取针对目标视觉内容的问题文本，所述目标视觉内容为本轮对话围绕的视觉内容；

区域标记模块，用于通过多模态理解模型，基于所述问题文本，在所述目标视觉内容上标记目标区域，所述目标区域为所述问题文本关注的区域；

回复文本生成模块，用于通过所述多模态理解模型，基于标记所述目标区域的所述目标视觉内容以及所述问题文本，生成所述问题文本的回复文本；

标签召回模块，用于基于所述回复文本以及所述目标视觉内容，召回目标标签，所述目标标签用于触发与所述回复文本和所述目标视觉内容相关的功能；

显示模块，用于显示所述回复文本和所述目标标签。

一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述基于视觉内容的交互方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述基于视觉内容的交互方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该电子设备执行上述基于视觉内容的交互方法。

通过本申请实施例提供的技术方案，获取目标视觉内容和针对该目标视觉内容的问题文本，该目标视觉内容为本轮对话围绕的视觉内容。通过多模态理解模型，基于该问题文本和该目标视觉内容，在该目标视觉内容上标记目标区域，该目标区域为该问题文本关注的区域。通过该多模态理解模型，基于标记该目标区域的目标视觉内容以及该问题文本，生成该问题文本的回复文本，从而实现了基于视觉内容的问题回复。基于该目标回复文本以及该目标视觉内容，召回该目标视觉内容的目标标签，该目标标签用于触发与该目标视觉内容相关的功能。显示该回复文本以实现对问题文本的回复，同时显示目标标签，以供用户快捷执行对应的功能，丰富了与用户进行交互的方式，从而满足用户需求，提高用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于视觉内容的交互方法的实施环境的示意图；

图2是本申请实施例提供的一种基于视觉内容的交互方法的流程图；

图3是本申请实施例提供的另一种基于视觉内容的交互方法的流程图；

图4是本申请实施例提供的一种页面示意图；

图5是本申请实施例提供的又一种基于视觉内容的交互方法的流程图；

图6是本申请实施例提供的再一种基于视觉内容的交互方法的流程图；

图7是本申请实施例提供的另一种页面示意图；

图8是本申请实施例提供的又一种页面示意图；

图9是本申请实施例提供的一种在目标视觉内容上显示目标标签的示意图；

图10是本申请实施例提供的一种基于视觉内容的交互装置的结构示意图；

图11是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B：文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。

为便于理解本申请实施例，下面对本申请实施例中涉及的专业术语进行解释：

人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得较佳结果的理论、方法、技术及应用系统。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉：使用计算机及相关设备对生物视觉进行模拟的一种技术。通过对采集的图片或视频进行处理以实现对相应场景的多维理解。

自然语言处理：自然语言处理是人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

大语言模型（Large Language Model，LLM）：是使用大量文本训练的深度学习模型，可以生成语言提示词或理解语言文本的含义，从而处理多种自然语言任务，包括对话问答、信息抽取、文本分类等，并在多项任务上展现出了巨大的潜力。

提示词（Prompt）：指输入的文本段落或短语，加在待解决任务文本的前面，一起传递给LLM来实现预期任务，具有指令、提示的含义，通常为问题、对话、描述等形式，Prompt的输入使LLM具有适应各种下游应用的能力。

归一化：将取值范围不同的数列映射到（0，1）区间上，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。

学习率（Learning Rate）：用于控制模型的学习进度，学习率可以指导模型在梯度下降法中，如何使用损失函数的梯度调整网络权重。学习率如果过大，可能会使损失函数直接越过全局最优点，此时表现为损失过大；学习率如果过小，损失函数的变化速度很慢，会大大增加网络的收敛复杂度，并且很容易被困在局部最小值或者鞍点。

嵌入编码（Embedded Coding）：嵌入编码在数学上表示一个对应关系，即通过一个函数F将X空间上的数据映射到Y空间上，其中该函数F是单射函数，映射的结果是结构保存，单射函数表示映射后的数据与映射前的数据唯一对应，结构保存表示映射前数据的大小关系与映射后数据的大小关系相同，例如映射前存在数据X₁以及X₂，映射后得到X₁对应的Y₁以及X₂对应的Y₂。若映射前的数据X₁＞X₂，那么相应地，映射后的数据Y₁大于Y₂。对于词语来说，就是将词语映射到另外一个空间，便于后续的机器学习和处理。

注意力权重：可以表示训练或预测过程中某个数据的重要性，重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高，重要性低的数据其对应的注意力权重的值较低。在不同的场景下，数据的重要性并不相同，模型的训练注意力权重的过程也即是确定数据重要性的过程。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

图1是本申请实施例提供的一种基于视觉内容的交互方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选的，终端110是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110安装和运行有支持基于视觉内容进行交互的应用程序。在本申请实施例中，用户能够通过终端110来使用本申请实施例提供的技术方案。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络（Content Delivery Network，CDN），以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务，

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

介绍完本申请实施例的实施环境之后，下面对本申请实施例的应用场景进行介绍。

本申请实施例提供的基于视觉内容的交互方法能够应用在任一需要与用户进行交互的场景下，比如，可以应用在外卖类应用中与用户进行交互的场景下，也可以应用在电商类应用中与用户进行交互的场景下，还可以应用在地图类应用中与用户进行交互的场景下。

在本申请实施例提供的技术方案应用在外卖类应用中与用户进行交互的场景下为例，获取目标视觉内容和针对该目标视觉内容的问题文本，该目标视觉内容为本轮对话围绕的视觉内容，也即是本轮对话中用户关注的视觉内容，在外卖类应用中，该目标视觉内容可能是与外卖商品相关的视觉内容，比如，该目标视觉内容为与菜品相关的视觉内容。基于该目标视觉内容以及该问题文本，生成该问题文本的回复文本，该回复文本用于回答该问题文本。基于该回复文本以及该目标视觉内容，召回该目标视觉内容的目标标签，该目标标签用于触发与该目标视觉内容相关的功能，该功能是外卖类应用能够提供的功能，比如，搜索外卖以及领取外卖权益等。显示该回复文本和该目标标签，用户能够查看该回复文本，并根据需求来决定是否通过目标标签来触发相应的功能。

需要说明的是，上述是以本申请实施例提供的技术方案应用在外卖类应用为例进行说明的，本申请实施例提供的技术方案应用在其他类型的应用的方式与上述描述属于同一发明构思，在此不再赘述。另外，本申请实施例提供的技术方案除了能够应用在上述外卖类应用、电商类应用以及地图类应用之外，还能够应用在其他类型的应用中，本申请实施例对此不做限定。

在介绍完本申请实施例的应用场景之后，下面对本申请实施例提供的技术方案进行介绍。图2是本申请实施例提供的一种基于视觉内容的交互方法的流程图，参见图2，以执行主体为终端为例，方法包括下述步骤。

201、终端获取目标视觉内容和针对该目标视觉内容的问题文本，该目标视觉内容为本轮对话围绕的视觉内容。

其中，视觉内容为图像或视频，相应地，目标视觉内容为本轮对话围绕的图像或视频。在本申请实施例中，一轮对话包括多对问题文本和回复文本。针对目标视觉内容的问题文本为用户输入的问题，用于询问与该目标视觉内容相关的内容。

202、终端通过多模态理解模型，基于该问题文本和该目标视觉内容，在该目标视觉内容上标记目标区域，该目标区域为该问题文本关注的区域。

其中，多模态理解模型为具有多模态理解能力以及回复文本生成能力的模型，其中，多模态理解包括文本理解以及图像理解和/或视频理解。目标区域为该问题文本关注的区域，也即是该目标视觉内容中可能与该问题文本相关的区域，通过在目标视觉内容上标记该目标区域，使得后续多模态理解模型对该目标视觉内容进行处理时能够关注该目标区域，期望通过该目标区域来辅助多模态理解模型来理解目标视觉内容。

203、终端通过该多模态理解模型，基于标记该目标区域的该目标视觉内容以及该问题文本，生成该问题文本的回复文本。

其中，该回复文本为该问题文本的回答，用于答复用户的问题。

204、终端基于该回复文本以及该目标视觉内容，召回该目标视觉内容的目标标签，该目标标签用于触发与该目标视觉内容相关的功能。

其中，目标标签为与目标视觉内容和回复文本相关的功能标签。触发某个功能是指调用对应该功能的功能组件，在本申请实施例中，目标标签通过应用程序接口（Application Programming Interface，API）来调用实现对应功能的功能组件。

205、终端显示该回复文本和该目标标签。

上述步骤201-205是对本申请实施例提供的基于视觉内容的交互方法的简单介绍，下面将结合一些例子，对本申请实施例提供的基于视觉内容的交互方法进行更加详细地介绍，参见图3，以执行主体为终端为例，方法包括下述步骤。

301、终端获取目标视觉内容和针对该目标视觉内容的问题文本，该目标视觉内容为本轮对话围绕的视觉内容。

其中，视觉内容为图像或视频，相应地，目标视觉内容为本轮对话围绕的图像或视频。在本申请实施例中，一轮对话包括多对问题文本和回复文本。针对目标视觉内容的问题文本为用户输入的问题，用于询问与该目标视觉内容相关的内容。比如，在目标视觉内容为菜品图像的情况下，问题文本可能为“图中是什么菜品？”或者为“图中的菜品用了什么食材”。

在一种可能的实施方式中，响应于视觉内容输入操作和问题文本输入操作，终端获取该视觉内容输入操作对应的目标视觉内容以及问题文本输入操作对应的问题文本。

其中，视觉内容输入操作用于输入目标视觉内容，比如，视觉内容输入操作是指选择并加载终端上存储的目标视觉内容的操作，或者，内容输入操作是指选择终端当前显示的目标视觉内容的操作，或者，内容输入操作是指输入目标视觉内容的链接或本地存储地址的操作。问题文本输入操作用于输入问题文本，比如，问题文本输入操作是指打字输入问题文本的操作。视觉内容输入操作和问题文本输入操作是先后执行的，视觉内容输入操作既可以在问题文本输入操作之前执行，也可以在问题文本输入操作之后执行，本申请实施例对此不做限定。

下面通过几个例子对上述实施方式进行说明。

例1、响应于视觉内容输入操作，终端获取该视觉内容输入操作对应的目标视觉内容。在预设时长后未检测到问题文本输入操作的情况下，终端显示第一预设回复文本，该第一预设回复文本用于询问针对该目标视觉内容的问题文本。响应于问题文本输入操作，终端获取针对该目标视觉内容的问题文本。

其中，该预设时长和第一预设回复文本由技术人员根据实际情况进行设置，比如将预设时长设置为2s或3s等，将第一预设回复文本设置为“针对该XXX（目标视觉内容），您有什么想问的呢？”，本申请实施例对此不作限定。

例2、响应于视觉内容输入操作，终端获取该视觉内容输入操作对应的目标视觉内容。在预设时长内检测到问题文本输入操作的情况下，终端获取该问题文本输入操作对应的问题文本。

例3、响应于问题文本输入操作，终端获取该文本输入操作对应的问题文本。在该问题文本携带针对还未输入的目标视觉内容的问题且在预设时长后未检测到视觉内容输入操作的情况下，终端显示第二预设回复文本，该第二预设回复文本用于请求问题文本对应的目标视觉内容。响应于视觉内容输入操作，终端获取该视觉内容输入操作对应的目标视觉内容。

其中，该第二预设回复文本由技术人员根据实际情况进行设置，比如，将第二预设回复文本设置为“请输入您上述问题针对的XXX（目标视觉内容）”。

比如，响应于问题文本输入操作，终端获取该文本输入操作对应的问题文本。终端对该问题文本进行语义识别，得到该问题文本的语义特征。在该语义特征指示该问题文本携带针对还未输入的目标视觉内容的问题且在预设时长后未检测到视觉内容输入操作的情况下，终端显示第二预设回复文本。响应于视觉内容输入操作，终端获取该视觉内容输入操作对应的目标视觉内容。

例4、响应于问题文本输入操作，终端获取该文本输入操作对应的问题文本。在预设时长后检测到视觉内容输入操作的情况下，终端获取该视觉内容输入操作对应的目标视觉内容。

上述几个例子提供了几种可能的交互方式，在其他可能的实施方式中，也可能存在其他类型的交互方式，本申请实施例对此不作限定。

在一些实施例中，在上述步骤301之前，终端显示交互页面，该交互页面用于与用户进行交互。在本申请实施例中，与用户进行交互是指接收用户输入的内容并给出相应的回复内容。用户能够在该交互页面上执行视觉内容输入操作和问题文本输入操作，从而实现内容的输入。相应地，回复内容也显示在该交互页面上，从而直观地展示给用户。

其中，该交互页面为支持基于视觉内容进行交互的应用程序，该应用程序为外卖类应用、电商类应用或者地图类应用等。

比如，参见图4，终端显示交互页面401，该交互页面401包括对话展示区域402以及内容输入区域403，对话展示区域402用于展示用户输入的内容以及对用户的回复文本。内容输入区域403用于输入问题文本和目标视觉内容，也即是，用户能够在内容输入区域403中执行视觉内容输入操作和问题文本输入操作。

302、终端将该目标视觉内容以及该问题文本输入多模态理解模型。

其中，多模态理解模型为具有多模态理解能力以及回复文本生成能力的模型，其中，多模态理解包括文本理解以及图像理解和/或视频理解。该多模态理解模型是采用大量样本视觉内容以及大量样本问答对训练得到的，该样本问答对包括对应的样本问题文本和样本回复文本。

303、终端通过多模态理解模型，基于该问题文本和该目标视觉内容，在该目标视觉内容上标记目标区域，该目标区域为该问题文本关注的区域。

其中，目标区域为该问题文本关注的区域，也即是该目标视觉内容中可能与该问题文本相关的区域，通过在目标视觉内容上标记该目标区域，使得后续多模态理解模型对该目标视觉内容进行处理时能够关注该目标区域，期望通过该目标区域来辅助多模态理解模型来理解目标视觉内容。

在一种可能的实施方式中，终端通过多模态理解模型，对该目标视觉内容以及该问题文本进行低维特征提取，得到该目标视觉内容的低维视觉内容特征以及该问题文本的低维问题文本特征。终端通过多模态理解模型，基于该目标视觉内容的低维视觉内容特征以及该问题文本的低维问题文本特征，在该目标视觉内容上标记目标区域。

其中，低维视觉内容特征和低维问题文本特征是维度较低的特征，这里的维度较低是相较于后续的高维视觉内容特征和高维问题文本特征的维度来说的。具体的维度由技术人员根据实际情况进行设置，本申请实施例对此不作限定。

在这种实施方式下，对提取目标视觉内容的低维视觉内容特征以及该问题文本的低维问题文本特征，采用维度较低的低维视觉内容特征和低维问题文本特征来确定目标区域，实现快速确定目标区域的目的。

为了对上述实施方式进行更加清楚地说明，下面将分为几个部分对上述实施方式进行说明。

第一部分、终端通过多模态理解模型，对该目标视觉内容以及该问题文本进行低维特征提取，得到该目标视觉内容的低维视觉内容特征以及该问题文本的低维问题文本特征。

在一种可能的实施方式中，终端通过多模态理解模型，采用第一数量的卷积核对该目标视觉内容的多个区域进行卷积，得到各个区域的低维区域特征，该第一数量小于第一预设数量。终端通过多模态理解模型，将各个区域的低维区域特征的集合确定为该目标视觉内容的低维视觉内容特征。终端通过多模态理解模型，采用第一注意力编码器对该问题文本进行编码，得到该问题文本的低维问题文本特征，该第一注意力编码器中编码模块的数量小于第二预设数量。

其中，该第一预设数量和该第二预设数量由技术人员根据实际情况进行设置，本申请实施例对此不作限定。在上述实施方式中，通过限制卷积核的数量来限制视觉内容特征的维度，通过限制编码模块的数量来限制问题文本特征的维度，维度限制的难度较低。

举例来说，终端通过多模态理解模型，采用第一数量的卷积核对该目标视觉内容的多个区域进行卷积，得到各个区域的多个第一卷积特征。终端通过多模态理解模型，将各个区域的多个第一卷积特征进行拼接，得到各个区域的低维区域特征，该第一数量小于第一预设数量。终端通过多模态理解模型，将各个区域的低维区域特征的集合确定为该目标视觉内容的低维视觉内容特征。终端通过多模态理解模型，采用第一注意力编码器中的编码模块对该问题文本进行编码，得到该问题文本的低维问题文本特征。

第二部分、终端通过多模态理解模型，基于该目标视觉内容的低维视觉内容特征以及该问题文本的低维问题文本特征，在该目标视觉内容上该标记目标区域。

在一种可能的实施方式中，该目标视觉内容的低维视觉内容特征为该目标视觉内容的多个区域的低维区域特征的集合，终端通过多模态理解模型，基于各个区域的低维区域特征以及该问题文本的低维问题文本特征，确定各个区域与该问题文本之间的匹配程度。终端通过多模态理解模型，将该多个区域中与该问题文本之间的匹配程度大于预设匹配程度的区域确定为目标区域。终端在该目标视觉内容上标记目标区域。

其中，该预设匹配程度由技术人员根据实际情况进行设置，本申请实施例对此不做限定。

举例来说，终端通过多模态理解模型，确定各个区域的低维区域特征以及该问题文本的低维问题文本特征之间的特征相似度。终端将该特征相似度确定为各个区域与该问题文本之间的匹配程度。终端通过多模态理解模型，将该多个区域中与该问题文本之间的匹配程度大于预设匹配程度的区域确定为目标区域。终端在该目标视觉内容上标记目标区域。

其中，特征相似度可以采用余弦相似度或余弦距离来表示，相应地，在特征相似度采用余弦相似度来表示的情况下，匹配程度大于预设匹配程度是指余弦相似度大于预设余弦相似度；在特征相似度采用余弦距离来表示的情况下，匹配程度大于预设匹配程度是指余弦距离小于预设余弦距离，预设余弦相似度和预设余弦距离由技术人员根据实际情况进行设置，本申请实施例对此不作限定。

304、终端通过该多模态理解模型，基于标记该目标区域的该目标视觉内容以及该问题文本，生成该问题文本的回复文本。

在一种可能的实施方式中，终端通过该多模态理解模型，对该目标视觉内容、该目标区域以及该问题文本进行高维特征提取，得到该目标视觉内容的高维视觉内容特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征。

在这种实施方式下，利用多模态理解模型对该目标视觉内容、目标区域和该问题文本进行特征提取，得到该目标视觉内容的高维视觉内容特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征，利用该目标视觉内容的高维视觉内容特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征来生成问题文本的回复文本，回复文本的准确性较高。

第一部分、终端通过该多模态理解模型，对该目标视觉内容、该目标区域以及该问题文本进行高维特征提取，得到该目标视觉内容的高维视觉内容特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征。

在一种可能的实施方式中，终端通过该多模态理解模型，采用第二数量的卷积核对该目标视觉内容的多个区域进行卷积，得到各个区域的高维区域特征，该第二数量大于或等于第一预设数量。终端通过该多模态理解模型，将各个区域的高维区域特征的集合确定为该目标视觉内容的高维视觉内容特征。终端通过该多模态理解模型，采用第三数量的卷积核对该目标区域进行卷积，得到该目标区域的高维目标区域特征，该第三数量大于该第二数量。终端通过该多模态理解模型，采用第二注意力编码器对该问题文本进行编码，得到该问题文本的高维问题文本特征，该第二注意力编码器中编码模块的数量大于或等于第二预设数量。

下面通过几个例子对上述实施方式进行说明。

例1、终端通过多模态理解模型，采用第二数量的卷积核对该目标视觉内容的多个区域进行卷积，得到各个区域的多个第二卷积特征。终端通过多模态理解模型，将各个区域的多个第二卷积特征进行拼接，得到各个区域的高维区域特征，该第二数量小于第一预设数量。终端通过多模态理解模型，将各个区域的高维区域特征的集合确定为该目标视觉内容的高维视觉内容特征。终端通过多模态理解模型，采用第三数量的卷积核对该目标区域进行卷积，得到目标区域的多个第三卷积特征。终端通过多模态理解模型，将目标区域的多个第三卷积特征进行拼接，得到该目标区域的高维目标区域特征。终端通过多模态理解模型，采用第二注意力编码器中的编码模块对该问题文本进行编码，得到该问题文本的低维问题文本特征。

例2、终端通过多模态理解模型，采用第二数量的卷积核对该目标视觉内容的多个区域进行卷积，得到各个区域的多个第二卷积特征。终端通过多模态理解模型，将各个区域的多个第二卷积特征进行拼接，得到各个区域的高维区域特征。终端通过该多模态理解模型，基于注意力机制对各个区域的高维区域特征进行编码，得到该目标视觉内容的视觉内容特征。终端通过多模态理解模型，采用第三数量的卷积核对该目标区域进行卷积，得到目标区域的多个第三卷积特征。终端通过多模态理解模型，将目标区域的多个第三卷积特征进行拼接，得到该目标区域的高维目标区域特征。终端通过多模态理解模型，采用第二注意力编码器中的编码模块对该问题文本进行编码，得到该问题文本的低维问题文本特征。

下面对上述实施方式中，终端通过多模态理解模型，采用第二注意力编码器中的编码模块对该问题文本进行编码，得到该问题文本的低维问题文本特征的方法进行说明。

在一种可能的实施方式中，终端通过多模态理解模型，采用第二注意力编码器中的编码模块对该问题文本的多个词汇进行嵌入编码，得到该多个词汇各自的嵌入特征。终端通过多模态理解模型，采用第二注意力编码器中的编码模块，基于注意力机制对多个词汇各自的嵌入特征进行编码，得到该问题文本的问题文本特征。

举例来说，终端通过多模态理解模型，采用第二注意力编码器中的编码模块对该问题文本进行分词，得到该问题文本中的多个词汇。终端通过该多模态理解模型，采用第二注意力编码器中的编码模块对该多个词汇进行嵌入编码，得到各个词汇的嵌入特征。终端通过该多模态理解模型，采用第二注意力编码器中的编码模块对各个词汇的嵌入特征进行线性变换，得到各个词汇的查询矩阵、键矩阵以及值矩阵。终端通过该多模态理解模型，采用第二注意力编码器中的编码模块基于各个词汇的查询矩阵以及键矩阵，确定各个词汇的注意力权重。终端通过该多模态理解模型，采用第二注意力编码器中的编码模块采用各个词汇的注意力权重将各个词汇的值矩阵进行加权融合，得到该问题文本的问题文本特征。

其中，对该问题文本进行分词时可以采用n-gram模型的原理来实现，嵌入编码通过one-hot编码的原理来实现，当然，为了降低维度，避免维度爆炸，可以对经过one-hot编码的特征进行降维处理，降低特征的稀疏性。

第二部分、终端通过该多模态理解模型，将该目标视觉内容的高维视觉内容特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征进行融合，得到多模态特征。

在一种可能的实施方式中，该目标视觉内容的高维视觉内容特征为该目标视觉内容的多个区域的高维区域特征的集合，终端通过该多模态理解模型，基于该问题文本对各个区域的关注程度，将该多个区域的高维区域特征进行融合，得到该目标视觉内容的高维视觉融合特征。终端通过该多模态理解模型，将该目标视觉内容的高维视觉融合特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征进行加权融合，得到该多模态特征。

其中，加权求和的权重由技术人员根据实际情况进行设置，本申请实施例对此不作限定。该问题文本对各个区域的关注程度为该问题文本与各个区域之间的匹配程度。

第三部分、终端通过该多模态理解模型，基于该多模态特征，生成该问题文本的回复文本。

在一种可能的实施方式中，终端通过该多模态理解模型，对该多模态特征进行多轮迭代解码，得到该问题文本的回复文本。

举例来说，在第一轮解码过程中，服务器通过该多模态理解模型，对该多模态特征和开始符号进行解码，得到回复文本的第一个字符。在第二轮迭代解码过程中，服务器通过该多模态理解模型，对该多模态特征、开始符号以及该第一个字符进行解码，得到回复文本的第二个字符，以此类推，直至解码出结束符号的情况下，表示回复文本解码结束，此时能够得到完整的回复文本。

305、终端基于该回复文本，确定是否存在标签召回需求。

其中，标签召回需求用于表示需要召回标签，在存在标签召回需求的情况下，需要进一步召回相关标签来进行展示；在不存在标签召回需求的情况下，无需进一步召回标签，等待用户后续输入即可。

在一种可能的实施方式中，终端对该回复文本进行实体识别，得到该回复文本中的目标实体。终端基于该回复文本中的目标实体，确定是否存在标签召回需求。

举例来说，终端对该回复文本进行命名实体识别，得到该回复文本中的目标实体。终端确定该回复文本中的目标实体的实体类型。在该目标实体的实体类型为预设实体类型的情况下，终端确定存在标签召回需求。在该目标实体的实体类型不是该预设实体类型的情况下，终端确定不存在标签召回需求。

其中，该预设实体类型与终端上运行的支持基于视觉内容进行交互的应用程序的类型相关，比如，在该应用程序为外卖类应用的情况下，该预设实体类型包括食物实体以及药品实体等；在该应用程序为购物类应用的情况下，该预设类型包括商品实体；在该应用程序为地图类应用的情况下，该预设类型包括地名实体。该预设实体类型由技术人员根据实际情况进行设置，本申请实施例对此不作限定。

在这种实施方式下，根据回复文本中目标实体的实体类型就能够确定是否存在标签召回需求，效率较高。

可选的，在步骤305之后，终端能够根据实际情况来执行下述步骤306或下述步骤309，本申请实施例对此不作限定。

306、在存在标签召回需求的情况下，终端基于该目标视觉内容和该回复文本中的目标实体进行召回，得到该目标视觉内容的该目标标签，该目标标签用于触发与该目标视觉内容相关的功能。

在一种可能的实施方式中，在存在标签召回需求的情况下，终端基于该目标视觉内容和该回复文本中的目标实体进行召回，得到该目标视觉内容的该目标标签。

在这种实施方式下，在存在标签召回需求的情况下，基于目标视觉内容和目标实体进行召回，从而得到目标视觉内容的目标标签，目标标签与目标视觉内容和回复文本的匹配程度较高。

举例来说，在存在标签召回需求的情况下，终端对该目标实体进行特征提取，得到该目标实体的实体特征。终端采用该目标实体的实体特征在标签数据库中进行特征匹配，得到多个候选标签，该候选标签的标签特征与该实体特征之间的相似度符合预设相似度条件。终端基于该目标视觉内容在该多个候选标签中进行筛选，得到该目标视觉内容的该目标标签。

其中，该标签数据库中存储有大量候选标签，大量候选标签包括利用多模态理解模型生成的标签，还包括技术人员手动配置的标签，也包括从其他标签体系直接获取的标签，本申请实施例对此不做限定。上述举例中的多个候选标签属于数据库中存储的大量候选标签。每个候选标签均对应于一个功能，利用候选标签能够快速触发对应的功能，比如，一个候选标签对应于搜索功能，触发该候选标签能够触发搜索功能来搜索该候选标签中的内容。

比如，在存在标签召回需求的情况下，终端对该目标实体进行特征提取，得到该目标实体的实体特征。终端确定该目标实体的实体特征与标签数据库中的大量候选标签的标签特征之间的相似度。终端将大量候选标签中标签特征与实体特征之间的相似度大于或等于相似度阈值的候选标签，确定为与该目标实体匹配的候选标签。终端确定该多个候选标签分别与该目标视觉内容的相关程度。终端将该多个候选标签中相关程度最高的N个候选标签，确定为该目标视觉内容的该目标标签，N为正整数。

其中，相似度阈值和N的具体数值由技术人员根据实际情况进行设置，本申请实施例对此不作限定。

为了对上述实施方式进行更加清楚地说明，下面对标签数据库中候选标签的生成方法进行说明。

在一种可能的实施方式中，终端获取多个样本视觉内容以及各个样本视觉内容的描述文本。终端基于该多个样本视觉内容以及各个样本视觉内容的描述文本，生成各个样本视觉内容的候选标签。

其中，样本视觉内容和样本视觉内容的描述文本为生成候选标签的原始素材。在不同的应用场景中，样本视觉内容具有不同的含义，比如，在外卖类应用中采用本申请实施例提供的技术方案的情况下，样本视觉内容为外卖商家上传的外卖图像或外卖视频，该描述文本为外卖商家对于外卖图像或外卖视频的描述，比如描述外卖类型、使用食材、使用调料、制作流程、口味以及食品特性等，有助于生成候选标签。另外，若该外卖类应用还提供除外卖之外的其他功能，那么该样本视觉内容还包括其他功能对应的样本视觉内容和描述文本，比如，该外卖类应用还提供游戏功能，那么该样本视觉内容还可以包括游戏素材，描述文本包括游戏介绍。

在这种实施方式下，利用样本视觉内容以及样本视觉内容的描述文本来社会功能成候选标签，候选标签与样本视觉内容的匹配程度较高，后续进行标签召回时也能够快速定位需要的样本视觉内容和描述文本。

举例来说，终端获取多个样本视觉内容以及各个样本视觉内容的描述文本。对于该多个样本视觉内容中的任一样本视觉内容，终端将该样本视觉内容和该样本视觉内容的描述文本输入多模态理解模型，由该多模态理解模型对该样本视觉内容以及该样本视觉内容的描述文本进行处理，得到该样本视觉内容的候选标签。

为了对上述举例进行更加清楚地说明，下面将分为几个部分对上述举例进行说明。

A、终端获取多个样本视觉内容以及各个样本视觉内容的描述文本。

在一种可能的实施方式中，在外卖类应用或购物类应用中采用本申请实施例提供的技术方案的情况下，终端获取商家端和功能开发端上传的多个样本视觉内容以及各个样本视觉内容的描述文本。

其中，商家端是指外卖商家或商品商家使用的终端，功能开发端是指功能开发人员使用的终端。

B、对于该多个样本视觉内容中的任一样本视觉内容，终端将该样本视觉内容和该样本视觉内容的描述文本输入多模态理解模型，由该多模态理解模型对该样本视觉内容以及该样本视觉内容的描述文本进行处理，得到该样本视觉内容的候选标签。

在一种可能的实施方式中，对于该多个样本视觉内容中的任一样本视觉内容，终端将该样本视觉内容和该样本视觉内容的描述文本输入多模态理解模型。终端通过该多模态模型，对该样本视觉内容和该描述文本进行特征提取，得到该样本视觉内容的样本视觉内容特征以及该描述文本的描述文本特征。终端通过该多模态理解模型，将该样本视觉内容的样本视觉内容特征以及该描述文本的描述文本特征进行融合，得到样本多模态特征。终端通过该多模态理解模型，基于该样本多模态特征，生成该样本视觉内容的候选标签。

在上述步骤301-306生成回复文本和召回目标标签和过程中使用了多模态理解模型，在上述生成候选标签的过程中也使用该多模态理解模型，下面将结合图5对使用该多模态理解模型来实现本申请实施例提供的技术方案的方式进行说明。

参见图5，以在外卖类应用中采用本申请实施例提供的技术方案为例，用户在登录该外卖类应用的情况下，能够在该外卖类应用中浏览外卖、下单外卖以及进行互动。在用户进行互动的过程中，能够上传一张图像（目标视觉内容），并提出针对该图像的问题（问题文本）。终端通过多模态理解模型501对该图像和问题进行理解，得到理解结果（多模态特征）。终端通过该多模态理解模型501，基于该多模态特征来生成回复文本，利用回复文本来从标签数据库中召回目标标签，该标签数据库包括外卖标签子数据库以及功能标签子数据库，该外卖标签子数据库中存储有外卖相关的候选标签，功能标签子数据库存储有与其他功能（比如游戏）相关的候选标签。在生成该外卖标签子数据库中的候选标签的过程中，商家可以上传多个外卖图像（样本视觉内容）以及各个外卖图像的描述（描述文本）。终端通过该多模态理解模型501对该个样本图像以及各个图像的描述进行理解，得到理解结果（样本多模态特征）。终端通过该多模态理解模型501，基于该样本多模态特征来生成候选标签。终端将候选标签上传至外卖标签子数据库。

为了对本申请实施例提供的技术方案进行更加清楚地说明，下面对该多模态理解模型的训练方法进行说明。

在一种可能的实施方式中，终端获取初始模型，该初始模型是经过预训练的多模态理解模型。终端采用样本数据集对该初始模型进行训练，得到最终的多模态理解模型，其中，该样本数据集为目标领域的样本数据集。

其中，初始模型是一个通用的多模态理解模型，也是一个大语言模型，比如，该初始模型是采用GPT-4V或Qwen-VL同理架构的模型。样本数据集包括样本视觉内容以及该样本视觉内容对应的样本问答对，该样本问答对包括一组对应的样本问题文本和样本回复文本。目标领域是与使用场景匹配的领域，比如，在外卖类应用中采用本申请实施例提供的技术方案的情况下，那么该目标领域也即是外卖领域，该样本数据集是与外卖领域相关的样本数据集；在购物类应用中采用本申请实施例提供的技术方案的情况下，那么该目标领域也即是购物领域，该样本数据集是与购物领域相关的样本数据集。

需要说明的是，训练或使用该多模态理解模型的过程中，提示词（Prompt）由技术人员手动编写或利用APE（Actions Purpose Expectations，行动/目的/期望）等提示词工程自动生成，本申请实施例对此不做限定。另外，上述是以终端训练该多模态识别模型为例进行说明的，在其他可能的实施方式中，也可以由其他终端或服务器来训练该多模态识别模型，本申请实施例对此不作限定。

比如，参见图6，以在外卖类应用中采用本申请实施例提供的技术方案为例，终端获取初始模型601，采用外卖领域的样本数据集对该初始模型601进行训练，得到多模态理解模型602。在使用该多模态理解模型的过程中，用户输入目标视觉内容和问题文本，终端从Prompt库603中找到问题文本对应的Prompt。终端通过该多模态识别模型602，基于目标视觉内容和问题文本对应的Prompt来进行处理，生成该问题文本的回复文本。终端利用该回复文本从标签数据库604中召回目标标签。

需要说明的是，上述步骤301-306是以执行主体为终端为例进行说明的，在其他可能的实施方式中，上述步骤301-306也可以由服务器来执行，服务器在得到回复文本和目标标签之后，将回复文本和目标标签发送给终端，由终端后续步骤307，本申请实施例对此不作限定。

307、终端显示该回复文本和该目标标签。

在一种可能的实施方式中，终端在该问题文本下方显示该回复文本，并在该目标视觉内容上显示该目标标签。

比如，参见图7，终端在交互页面701的对话展示区域702中显示目标视觉内容7021以及针对该目标视觉内容7021的问题文本7022。终端在该问题文本7022的下方显示该回复文本7023，终端在该目标视觉内容7021上显示该目标标签7024。

上述显示方式是以对话的形式来展示目标视觉内容、问题文本和回复文本的，在用户不断输入其他问题文本以及生成对应的回复文本的情况下，目标视觉内容可能会被“顶”到上方而消失，不便于用户查看目标视觉内容以及目标视觉内容上的目标标签，此时提供了下述显示方式。

在一些实施例中，交互页面包括除了包括对话展示区域和内容输入区域之外，还包括视觉内容展示区域，该视觉内容展示区域用于展示目标视觉内容，终端将该目标标签显示在该视觉内容展示区域中的目标视觉内容上，以便用户查看目标视觉内容以及目标标签，人机交互的效率较高。比如，参见图8，终端在交互页面801的视觉内容展示区域802中显示目标视觉内容8021，在对话展示区域803中显示针对该目标视觉内容8021的问题文本8031。终端在该问题文本8031的下方显示回复文本8032，在视觉内容展示区域802中显示的目标视觉内容8021上显示目标标签8022。

在一些实施例中，参见图9，在目标视觉内容为菜品图像901的情况下，终端在该菜品图像901上显示目标标签902，该目标标签902为“菜品：XXXX”。

可选的，在步骤307之后，还能够执行下述步骤。

在一种可能的实施方式中，终端获取针对该目标视觉内容的接续问题文本。终端通过该多模态理解模型，基于该接续问题文本和该目标视觉内容，在该目标视觉内容上标记参考区域，该参考区域为该接续问题文本关注的区域。终端将该问题文本和该回复文本拼接为该接续问题文本的上下文文本。终端通过该多模态理解模型，基于该接续问题文本、该上下文文本以及标记该参考区域的该目标视觉内容，生成该接续问题文本的接续回复文本。

下面对上述实施方式中生成该接续问题文本的接续回复文本的方法进行说明。

在一些实施例中，终端通过该多模态理解模型，对该接续问题文本、该上下文文本以及该参考区域进行高维特征提取，得到该接续问题文本的高维接续文本特征、该上下文文本的高维上下文文本特征以及该参考区域的高维参考区域特征。终端通过该多模态理解模型，将该目标视觉内容的高维视觉内容特征、该接续问题文本的高维接续文本特征、该上下文文本的高维上下文文本特征以及该参考区域的高维参考区域特征进行融合，得到接续多模态特征。终端通过该多模态理解模型，基于该接续多模态特征，生成该接续问题文本的接续回复文本。

在一些实施例中，生成该接续问题文本的接续回复文本之后，终端还能够执行下述步骤。

在一种可能的实施方式中，终端基于该接续回复文本以及该目标视觉内容，召回该目标视觉内容的接续标签，该接续标签用于触发与该目标视觉内容相关的功能。终端显示该接续回复文本和该接续标签。

308、响应于对该目标标签的点击操作，终端显示该目标标签对应的功能页面。

其中，目标标签与功能直接的对应关系由技术人员根据实际情况进行设置，比如，将目标标签对应的功能设置为搜索，那么在点击该目标标签之后，终端能够自动搜索目标标签携带的文本，比如，目标标签携带的文本为“菜品：XXXX”，在该目标标签被点击的情况下，终端能够自动搜索“菜品：XXXX”或“XXXX”。

309、在不存在标签召回需求的情况下，在该问题文本下方显示该回复文本。

需要说明的是，在上述步骤305和307之后，终端还能够继续获取针对该目标视觉内容的问题文本，从而基于该目标视觉内容和问题文本来继续生成回复文本，实现与用户的对话。当然，若后续对话过程中也召回了目标标签，终端将新的目标标签也显示在目标视觉内容上以供用户查看。

下面通过一个具体的例子对本申请实施例提供的技术方案进行说明。

用户输入了一张鱼香茄子的菜品图像，用户可以针对这张菜品图像来进行多轮提问，比如，菜品图像中是什么菜品、菜品图像中的菜品的制作流程是什么、菜品图像中的菜品可以与哪些菜品共同搭配食用等等，从而充分了解该菜品图像中的菜品。在用户多轮提问的过程中，可以召回了多个目标标签，将这些目标标签显示在该菜品图像上，比如，多个目标标签包括“菜品：鱼香茄子”、“调料：酱油”、“家常菜”以及“这道菜也能玩一玩”等。用户点击感兴趣的目标标签就可以跳转至对应的功能页面，从而提高用户体验。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图10是本申请实施例提供的一种基于视觉内容的交互装置的结构示意图，参见图10，装置包括：获取模块1001、区域标记模块1002、回复文本生成模块1003、标签召回模块1004以及显示模块1005。

获取模块1001，用于获取针对目标视觉内容的问题文本，该目标视觉内容为本轮对话围绕的视觉内容。

区域标记模块1002，用于通过多模态理解模型，基于该问题文本，在该目标视觉内容上标记目标区域，该目标区域为该问题文本关注的区域。

回复文本生成模块1003，用于通过该多模态理解模型，基于标记该目标区域的该目标视觉内容以及该问题文本，生成该问题文本的回复文本。

标签召回模块1004，用于基于该回复文本以及该目标视觉内容，召回目标标签，该目标标签用于触发与该回复文本和该目标视觉内容相关的功能。

显示模块1005，用于显示该回复文本和该目标标签。

在一种可能的实施方式中，该区域标记模块1002，用于对该目标视觉内容以及该问题文本进行低维特征提取，得到该目标视觉内容的低维视觉内容特征以及该问题文本的低维问题文本特征。基于该目标视觉内容的低维视觉内容特征以及该问题文本的低维问题文本特征，在该目标视觉内容上标记目标区域。

在一种可能的实施方式中，该区域标记模块1002，用于采用第一数量的卷积核对该目标视觉内容的多个区域进行卷积，得到各个区域的低维区域特征，该第一数量小于第一预设数量。将各个区域的低维区域特征的集合确定为该目标视觉内容的低维视觉内容特征。采用第一注意力编码器对该问题文本进行编码，得到该问题文本的低维问题文本特征，该第一注意力编码器中编码模块的数量小于第二预设数量。

在一种可能的实施方式中，该区域标记模块1002，用于基于各个区域的低维区域特征以及该问题文本的低维问题文本特征，确定各个区域与该问题文本之间的匹配程度。将该多个区域中与该问题文本之间的匹配程度大于预设匹配程度的区域确定为目标区域。在该目标视觉内容上标记目标区域。

在一种可能的实施方式中，该回复文本生成模块1003，用于对该目标视觉内容、该目标区域以及该问题文本进行高维特征提取，得到该目标视觉内容的高维视觉内容特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征。将该目标视觉内容的高维视觉内容特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征进行融合，得到多模态特征。基于该多模态特征，生成该问题文本的回复文本。

在一种可能的实施方式中，该回复文本生成模块1003，用于采用第二数量的卷积核对该目标视觉内容的多个区域进行卷积，得到各个区域的高维区域特征，该第二数量大于或等于第一预设数量。将各个区域的高维区域特征的集合确定为该目标视觉内容的高维视觉内容特征。采用第三数量的卷积核对该目标区域进行卷积，得到该目标区域的高维目标区域特征，该第三数量大于该第二数量。采用第二注意力编码器对该问题文本进行编码，得到该问题文本的高维问题文本特征，该第二注意力编码器中编码模块的数量大于或等于第二预设数量。

在一种可能的实施方式中，该回复文本生成模块1003，用于基于该问题文本对各个区域的关注程度，将该多个区域的高维区域特征进行融合，得到该目标视觉内容的高维视觉融合特征。通过该多模态理解模型，将该目标视觉内容的高维视觉融合特征、该目标区域的高维目标区域特征以及该问题文本的高维问题文本特征进行加权融合，得到该多模态特征。

在一种可能的实施方式中，该回复文本生成模块1003，用于对该多模态特征进行多轮迭代解码，得到该问题文本的回复文本。

在一种可能的实施方式中，该标签召回模块1004，用于对该回复文本进行实体识别，得到该回复文本中的目标实体。基于该回复文本中的目标实体，确定是否存在标签召回需求。在存在标签召回需求的情况下，基于该目标视觉内容和该回复文本中的目标实体进行召回，得到该目标视觉内容的该目标标签。

在一种可能的实施方式中，该标签召回模块1004，用于确定该回复文本中的目标实体的实体类型。在该目标实体的实体类型为预设实体类型的情况下，确定存在标签召回需求。在该目标实体的实体类型不是该预设实体类型的情况下，确定不存在标签召回需求。

在一种可能的实施方式中，该标签召回模块1004，用于对该目标实体进行特征提取，得到该目标实体的实体特征。采用该目标实体的实体特征在标签数据库中进行特征匹配，得到多个候选标签，该候选标签的标签特征与该实体特征之间的相似度符合预设相似度条件。基于该目标视觉内容在该多个候选标签中进行筛选，得到该目标视觉内容的该目标标签。

在一种可能的实施方式中，该标签召回模块1004，用于确定该多个候选标签分别与该目标视觉内容的相关程度。将该多个候选标签中相关程度最高的N个候选标签，确定为该目标视觉内容的该目标标签，N为正整数。

在一种可能的实施方式中，该标签数据库中候选标签的生成装置包括：

候选标签生成模块，用于获取多个样本视觉内容以及各个样本视觉内容的描述文本。基于该多个样本视觉内容以及各个样本视觉内容的描述文本，生成各个样本视觉内容的候选标签。

在一种可能的实施方式中，该候选标签生成模块，用于对于该多个样本视觉内容中的任一样本视觉内容，将该样本视觉内容和该样本视觉内容的描述文本输入多模态理解模型，由该多模态理解模型对该样本视觉内容以及该样本视觉内容的描述文本进行处理，得到该样本视觉内容的候选标签。

在一种可能的实施方式中，该显示模块1005，用于在不存在标签召回需求的情况下，在该问题文本下方显示该回复文本。

在一种可能的实施方式中，该回复文本生成模块1003，还用于获取针对该目标视觉内容的接续问题文本。通过该多模态理解模型，基于该接续问题文本和该目标视觉内容，在该目标视觉内容上标记参考区域，该参考区域为该接续问题文本关注的区域。将该问题文本和该回复文本拼接为该接续问题文本的上下文文本。通过该多模态理解模型，基于该接续问题文本、该上下文文本以及标记该参考区域的该目标视觉内容，生成该接续问题文本的接续回复文本。

在一种可能的实施方式中，该回复文本生成模块1003，还用于对该接续问题文本、该上下文文本以及该参考区域进行高维特征提取，得到该接续问题文本的高维接续文本特征、该上下文文本的高维上下文文本特征以及该参考区域的高维参考区域特征。将该目标视觉内容的高维视觉内容特征、该接续问题文本的高维接续文本特征、该上下文文本的高维上下文文本特征以及该参考区域的高维参考区域特征进行融合，得到接续多模态特征。基于该接续多模态特征，生成该接续问题文本的接续回复文本。

在一种可能的实施方式中，该显示模块1005，还用于基于该接续回复文本以及该目标视觉内容，召回该目标视觉内容的接续标签，该接续标签用于触发与该目标视觉内容相关的功能。显示该接续回复文本和该接续标签。

在一种可能的实施方式中，该显示模块1005，用于在该问题文本下方显示该回复文本，并在该目标视觉内容上显示该目标标签。

在一种可能的实施方式中，该显示模块1005，还用于响应于对该目标标签的点击操作，显示该目标标签对应的功能页面。

需要说明的是：上述实施例提供的基于视觉内容的交互装置在基于视觉内容进行交互时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于视觉内容的交互装置与基于视觉内容的交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种电子设备的结构示意图，该电子设备1100可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（Central ProcessingUnits，CPU）1101和一个或多个的存储器1102，其中，所述一个或多个存储器1102中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然，该电子设备1100还可以具有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备1100还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的基于视觉内容的交互方法。例如，该计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘 (Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该电子设备执行上述基于视觉内容的交互方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行，分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于视觉内容的交互方法，其特征在于，所述方法包括：

显示所述回复文本和所述目标标签。

2.根据权利要求1所述的方法，其特征在于，所述基于所述问题文本和所述目标视觉内容，在所述目标视觉内容上标记目标区域，包括：

对所述目标视觉内容以及所述问题文本进行低维特征提取，得到所述目标视觉内容的低维视觉内容特征以及所述问题文本的低维问题文本特征；

基于所述目标视觉内容的低维视觉内容特征以及所述问题文本的低维问题文本特征，在所述目标视觉内容上标记所述目标区域。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标视觉内容以及所述问题文本进行低维特征提取，得到所述目标视觉内容的低维视觉内容特征以及所述问题文本的低维问题文本特征，包括：

采用第一数量的卷积核对所述目标视觉内容的多个区域进行卷积，得到各个所述区域的低维区域特征，所述第一数量小于第一预设数量；将各个所述区域的低维区域特征的集合确定为所述目标视觉内容的低维视觉内容特征；

采用第一注意力编码器对所述问题文本进行编码，得到所述问题文本的低维问题文本特征，所述第一注意力编码器中编码模块的数量小于第二预设数量。

4.根据权利要求2所述的方法，其特征在于，所述目标视觉内容的低维视觉内容特征为所述目标视觉内容的多个区域的低维区域特征的集合，所述基于所述目标视觉内容的低维视觉内容特征以及所述问题文本的低维问题文本特征，在所述目标视觉内容上标记所述目标区域，包括：

基于各个所述区域的低维区域特征以及所述问题文本的低维问题文本特征，确定各个所述区域与所述问题文本之间的匹配程度；

将所述多个区域中与所述问题文本之间的匹配程度大于预设匹配程度的区域确定为目标区域；在所述目标视觉内容上标记所述目标区域。

5.根据权利要求1所述的方法，其特征在于，所述基于标记所述目标区域的所述目标视觉内容以及所述问题文本，生成所述问题文本的回复文本，包括：

对所述目标视觉内容、所述目标区域以及所述问题文本进行高维特征提取，得到所述目标视觉内容的高维视觉内容特征、所述目标区域的高维目标区域特征以及所述问题文本的高维问题文本特征；

将所述目标视觉内容的高维视觉内容特征、所述目标区域的高维目标区域特征以及所述问题文本的高维问题文本特征进行融合，得到多模态特征；

基于所述多模态特征，生成所述问题文本的回复文本。

6.根据权利要求5所述的方法，其特征在于，所述对所述目标视觉内容、所述目标区域以及所述问题文本进行高维特征提取，得到所述目标视觉内容的高维视觉内容特征、所述目标区域的高维目标区域特征以及所述问题文本的高维问题文本特征，包括：

采用第二数量的卷积核对所述目标视觉内容的多个区域进行卷积，得到各个所述区域的高维区域特征，所述第二数量大于或等于第一预设数量；将各个所述区域的高维区域特征的集合确定为所述目标视觉内容的高维视觉内容特征；

采用第三数量的卷积核对所述目标区域进行卷积，得到所述目标区域的高维目标区域特征，所述第三数量大于所述第二数量；

采用第二注意力编码器对所述问题文本进行编码，得到所述问题文本的高维问题文本特征，所述第二注意力编码器中编码模块的数量大于或等于第二预设数量。

7.根据权利要求5所述的方法，其特征在于，所述目标视觉内容的高维视觉内容特征为所述目标视觉内容的多个区域的高维区域特征的集合，所述将所述目标视觉内容的高维视觉内容特征、所述目标区域的高维目标区域特征以及所述问题文本的高维问题文本特征进行融合，得到多模态特征，包括：

基于所述问题文本对各个所述区域的关注程度，将所述多个区域的高维区域特征进行融合，得到所述目标视觉内容的高维视觉融合特征；

将所述目标视觉内容的高维视觉融合特征、所述目标区域的高维目标区域特征以及所述问题文本的高维问题文本特征进行加权融合，得到所述多模态特征。

8.根据权利要求5所述的方法，其特征在于，所述基于所述多模态特征，生成所述问题文本的回复文本，包括：

对所述多模态特征进行多轮迭代解码，得到所述问题文本的回复文本。

9.根据权利要求1所述的方法，其特征在于，所述基于所述回复文本以及所述目标视觉内容，召回所述目标视觉内容的目标标签，包括：

对所述回复文本进行实体识别，得到所述回复文本中的目标实体；

基于所述回复文本中的目标实体，确定是否存在标签召回需求；

在存在标签召回需求的情况下，基于所述目标视觉内容和所述回复文本中的目标实体进行召回，得到所述目标视觉内容的所述目标标签。

10.根据权利要求9所述的方法，其特征在于，所述基于所述回复文本中的目标实体，确定是否存在标签召回需求，包括：

确定所述回复文本中的目标实体的实体类型；

在所述目标实体的实体类型为预设实体类型的情况下，确定存在标签召回需求；

在所述目标实体的实体类型不是所述预设实体类型的情况下，确定不存在标签召回需求。

11.根据权利要求9所述的方法，其特征在于，所述基于所述目标视觉内容和所述回复文本中的目标实体进行召回，得到所述目标视觉内容的所述目标标签，包括：

对所述目标实体进行特征提取，得到所述目标实体的实体特征；

采用所述目标实体的实体特征在标签数据库中进行特征匹配，得到多个候选标签，所述候选标签的标签特征与所述实体特征之间的相似度符合预设相似度条件；

基于所述目标视觉内容在所述多个候选标签中进行筛选，得到所述目标视觉内容的所述目标标签。

12.根据权利要求11所述的方法，其特征在于，所述基于所述目标视觉内容在所述多个候选标签中进行筛选，得到所述目标视觉内容的所述目标标签，包括：

确定所述多个候选标签分别与所述目标视觉内容的相关程度；

将所述多个候选标签中相关程度最高的N个候选标签，确定为所述目标视觉内容的所述目标标签，N为正整数。

13.根据权利要求11所述的方法，其特征在于，所述标签数据库中候选标签的生成方法包括：

获取多个样本视觉内容以及各个所述样本视觉内容的描述文本；

基于所述多个样本视觉内容以及各个所述样本视觉内容的描述文本，生成各个所述样本视觉内容的候选标签。

14.根据权利要求13所述的方法，其特征在于，所述基于所述多个样本视觉内容以及各个所述样本视觉内容的描述文本，生成各个所述样本视觉内容的候选标签，包括：

对于所述多个样本视觉内容中的任一样本视觉内容，将所述样本视觉内容和所述样本视觉内容的描述文本输入多模态理解模型，由所述多模态理解模型对所述样本视觉内容以及所述样本视觉内容的描述文本进行处理，得到所述样本视觉内容的候选标签。

15.根据权利要求9所述的方法，其特征在于，所述方法还包括：

在不存在标签召回需求的情况下，在所述问题文本下方显示所述回复文本。

16.根据权利要求1所述的方法，其特征在于，所述显示所述回复文本和所述目标标签之后，所述方法还包括：

获取针对所述目标视觉内容的接续问题文本；

通过所述多模态理解模型，基于所述接续问题文本和所述目标视觉内容，在所述目标视觉内容上标记参考区域，所述参考区域为所述接续问题文本关注的区域；

将所述问题文本和所述回复文本拼接为所述接续问题文本的上下文文本；

通过所述多模态理解模型，基于所述接续问题文本、所述上下文文本以及标记所述参考区域的所述目标视觉内容，生成所述接续问题文本的接续回复文本。

17.根据权利要求16所述的方法，其特征在于，所述基于所述接续问题文本、所述上下文文本以及标记所述参考区域的所述目标视觉内容，生成所述接续问题文本的接续回复文本，包括：

对所述接续问题文本、所述上下文文本以及所述参考区域进行高维特征提取，得到所述接续问题文本的高维接续文本特征、所述上下文文本的高维上下文文本特征以及所述参考区域的高维参考区域特征；

将所述目标视觉内容的高维视觉内容特征、所述接续问题文本的高维接续文本特征、所述上下文文本的高维上下文文本特征以及所述参考区域的高维参考区域特征进行融合，得到接续多模态特征；

基于所述接续多模态特征，生成所述接续问题文本的接续回复文本。

18.根据权利要求16所述的方法，其特征在于，所述基于所述接续问题文本、所述上下文文本以及标记所述参考区域的所述目标视觉内容，生成所述接续问题文本的接续回复文本之后，所述方法还包括：

基于所述接续回复文本以及所述目标视觉内容，召回所述目标视觉内容的接续标签，所述接续标签用于触发与所述目标视觉内容相关的功能；

显示所述接续回复文本和所述接续标签。

19.根据权利要求1所述的方法，其特征在于，所述显示所述回复文本和所述目标标签，包括：

在所述问题文本下方显示所述回复文本，并在所述目标视觉内容上显示所述目标标签。

20.一种基于视觉内容的交互装置，其特征在于，所述装置包括：

显示模块，用于显示所述回复文本和所述目标标签。