CN114821129A

CN114821129A - 基于语言提示的任务处理方法及相关设备

Info

Publication number: CN114821129A
Application number: CN202110130113.3A
Authority: CN
Inventors: 刘洋; 郭逸飞; 刘松
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-07-29

Abstract

本申请提供了基于语言提示的任务处理方法及相关设备，涉及人工智能技术领域。其中，基于语言提示的任务处理方法包括：获取与目标语言信息对应的目标图像；基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息；基于预期注意力信息，确定当前时刻的任务处理结果。基于本申请的实施，能够有效提升强化学习模型的学习效率。同时，由电子设备执行的上述基于语言提示的任务处理方法可以使用人工智能模型来执行。

Description

基于语言提示的任务处理方法及相关设备

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及基于语言提示的任务处理方法及相关设备。

背景技术

随着人工智能技术的发展，在一般强化学习算法的框架下，现有技术还提出了基于语言信息增强的强化学习技术，该技术一般分为语言条件的强化学习和语言辅助的强化学习。其中，语言条件的强化学习主要是通过输入语言描述，为强化学习设置新的奖励策略；语言辅助的强化学习主要是通过输入语言描述，为智能代理提供完成任务的辅助信息，以提升处理任务的效率。

然而，无论是语言条件的强化学习技术还是语言辅助的强化学习技术，其训练过程都较长，且学习训练而成的模型在新的应用场景中难以泛化，适应性较差。

发明内容

本申请的目的旨在提供一种基于语言提示的任务处理方法及相关设备，以解决上述至少一个技术问题。本申请实施例所提供的方案具体如下：

第一方面，本申请提供了一种基于语言提示的任务处理方法，包括：

获取与目标语言信息对应的目标图像；

基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息；

基于预期注意力信息，确定当前时刻的任务处理结果。

结合第一方面，本申请在第一方面的第一种实施方式中，获取与目标语言信息对应的目标图像，包括：

基于预构建的语言信息与图像的关联关系，获取与目标语言信息对应的目标图像；

其中，语言信息与图像的关联关系采用二分图或知识图谱进行构建。

结合第一方面的第一种实施方式，本申请在第一方面的第二种实施方式中，当语言信息与图像的关联关系采用二分图进行构建时，二分图的构建包括：

获取待构建的语言信息-图像对；

在语言信息集合中检测是否存在待构建的语言信息；若否，基于该待构建的语言信息在语言信息集合对应的图结构中新增节点；

在图像集合中检测是否存在待构建的图像；若否，基于该待构建的图像在图像集合对应的图结构中新增节点；

基于待构建的语言信息和待构建的图像的关联关系在分别对应的节点之间建立关联边。

结合第一方面的第一种实施方式，本申请在第一方面的第三种实施方式中，当语言信息与图像的关联关系采用知识图谱进行构建时，知识图谱的构建包括：

获取三元组数据，三元组数据包括表征语言信息、视觉关系、图像三者之间关联关系的数据；

基于三元组数据，采用构建知识图谱的方式构建多模态知识图谱。

结合第一方面，本申请在第一方面的第四种实施方式中，基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息，包括：

将目标图像与强化学习模型中当前时刻的观察图像进行匹配，确定目标图像在观察图像中的目标匹配区域；

基于目标匹配区域，生成预期注意力信息。

结合第一方面的第四种实施方式，本申请在第一方面的第五种实施方式中，将目标图像与强化学习模型中当前时刻的观察图像进行匹配，确定目标图像在观察图像中的目标匹配区域，包括：

采用模板匹配方式计算目标图像在强化学习模型中当前时刻的观察图像中各个匹配区域的匹配度；

基于匹配度，确定目标图像在观察图像中的目标匹配区域。

结合第一方面，本申请在第一方面的第六种实施方式中，基于预期注意力信息，确定当前时刻的任务处理结果，包括：

基于当前时刻的观察图像生成自注意力信息；

融合预期注意力信息和自注意力信息，得到融合注意力信息；

基于融合注意力信息确定当前时刻的任务处理结果。

结合第一方面的第六种实施方式，本申请在第一方面的第七种实施方式中，基于当前时刻的观察图像生成自注意力信息，包括：

对当前时刻和上一时刻的观察图像进行视觉编码，基于视觉编码结果确定键信息keys和值信息values；

基于上一时刻的查询信息与键信息生成自注意力信息。

结合第一方面的第七种实施方式，本申请在第一方面的第八种实施方式中，基于融合注意力信息确定当前时刻的任务处理结果，包括：

加权合并融合注意力信息与值信息，并基于权合并后得到的信息确定当前时刻的任务处理结果。

第二方面，本申请提供了一种基于语言提示的任务处理装置，包括：

获取模块，用于获取与目标语言信息对应的目标图像；

第一确定模块，用于基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息；

第二确定模块，用于基于预期注意力信息，确定当前时刻的任务处理结果。

第三方面，本申请提供了一种电子设备，该电子设备包括存储器和处理器；存储器中存储有计算机程序；处理器，用于在运行计算机程序时，执行本申请实施例所提供的基于语言提示的任务处理方法。

第四方面，本申请提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序在被处理器运行时，执行本申请实施例所提供的基于语言提示的任务处理方法。

本申请提供的技术方案带来的有益效果包括：

本申请提出一种基于语言提示的任务处理方法，通过获取与目标语言信息对应的目标图像，基于目标图像与强化学习模型中当前时刻的观察图像确定与任务相关的预期注意力信息，可以通过目标图像将与目标语言信息相关联的环境状态信息引入至强化学习模型中；并且预期注意力信息是根据环境状态信息得到的预期与任务相关的信息，基于该预期注意力信息确定当前时刻的任务处理结果，有利于提高强化学习模型在新的应用场景中的适应性，且通过预期注意力信息强化学习模型可以在当前时刻的观察图像中有效地注意到与任务相关的信息，其无需在强化学习模型的基础上从零开始训练模型的注意力机制，有效提升了强化学习模型的学习效率。

另一方面，本申请是基于预构建的语言信息与图像的关联关系，获取的与目标语言信息对应的目标图像，其中，语言信息与图像的关联关系可以采用二分图或知识图谱进行构建。本申请中可以根据相应的使用场景预构建相应的语言信息和图像的关联关系，可以有效提高本申请技术方案的适应性和灵活性；另，本申请采用二分图构建语言信息与图像的关联关系时，由于采用的是图结构且为解耦的语言结构，使得语言信息与图像之间的关联关系是可解释、可修改的，有效提高了该解耦的语言结构的灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请的一种实施例提供的基于语言提示的任务处理方法的流程图；

图2为本申请的一种实施例提供的系统框架示意图；

图3为本申请的一种实施例提供的二分图结构示意图；

图4a为本申请的一种实施例提供的采用模板匹配方式针对目标图像与观察图像进行匹配的示意图；

图4b为本申请的一种实施例提供的预期注意力信息的生成过程示意图；

图4c为本申请的一种实施例提供的预期注意力信息的生成过程示意图；

图5为本申请的一种实施例提供的界面示意图；

图6为本申请的一种实施例提供的基于语言提示的任务处理装置的结构示意图；

图7为本申请提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为了更好的理解及说明本申请实施例所提供的方案，下面首先对本申请所涉及的相关技术进行说明。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，主要涉及强化学习技术。

强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。

相关技术中，在强化学习技术的基础上，提出了一种语言增强的强化学习技术，该技术主要涉及到语言条件的强化学习和语言辅助的强化学习。

其中，语言条件的强化学习主要是通过输入语言描述，为强化学习设置新的奖励策略。语言辅助的强化学习主要是通过输入语言描述，为智能代理提供完成任务的辅助信息，以提升处理任务的效率。然而，无论是语言条件的强化学习技术还是语言辅助的强化学习技术，其训练过程都较长，需要耗费一定量的训练数据；且学习训练而成的模型在新的应用场景中难以泛化，适应性较差。

另，相关技术中还提供一种基于注意力的强化学习技术，该技术采用自注意力(self-attention)技术，可以在交互训练过程中不断评估和寻找出与任务相关的信息。但是该技术需要从零开始训练自注意力框架，在训练开始时，注意力对所有状态评估是一致的，且该技术无法避免地消耗了一定量的训练样本数据，增加了强化学习的学习成本。

为了解决上述至少一个技术问题，本申请提出一种基于语言提示的任务处理方法；具体地，该方法通过获取与目标语言信息对应的目标图像，基于目标图像与强化学习模型中当前时刻的观察图像确定与任务相关的预期注意力信息，可以通过目标图像将与目标语言信息相关联的环境状态信息引入至强化学习模型中；并且预期注意力信息是根据环境状态信息得到的预期与任务相关的信息，基于该预期注意力信息确定当前时刻的任务处理结果，有利于提高强化学习模型在新的应用场景中的适应性，且通过预期注意力信息强化学习模型可以在当前时刻的观察图像中有效地注意到与任务相关的信息，其无需在强化学习模型的基础上从零开始训练模型的注意力机制，有效提升了强化学习模型的学习效率。

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体地实施例和附图对本申请的各可选的实施方式及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。图1中示出了本申请实施例提供的一种基于语言提示的任务处理方法，该方法包括以下步骤S101-S103：

步骤S101：获取与目标语言信息对应的目标图像。

具体地，目标语言信息可以采用词汇的形式进行表达，具体表现为一种文本信息；在本申请实施例中，目标语言信息可以是一句话中的关键词，如“接下来出现怪物”，则“怪物”为该语句的关键词并作为目标语言信息；目标语言信息还可以是一个字，如“棍”；目标语言信息还可以是一个词“桌子”，也还可以是一个组合词“绿色的桌子”等。目标语言信息可以是由用户输入的(可以是语音输入，也可以是文本输入，本申请对此不作限定)，也可以是执行本申请实施例的系统设定的。

具体地，目标语言信息与目标图像之间存在关联关系；可能的是，目标语言信息与目标图像可以是一对一的关系，也可以是一对多的关系。如下表1所示：

从表1可见，当目标语言信息为怪物时，与其对应的目标图像包括图像A和图像B(一对多的关系)；当目标语言信息为桌子时，与其对应的目标图像包括图像C(一对一的关系)。在一可行的实施例中，一个目标图像也可以对应多个词汇，如图像D可以是西高地白梗的图片，当目标语言信息为西高地白梗时可以查询到对应的图像D，当目标语言信息为狗时也可以查询到对应的图像D。

可选地，目标语言信息和目标图像可以采用图结构进行存储，具体的存储方式以及目标语言信息和目标图像之间关联关系的构建将在后续实施例中详细说明。

可选地，目标语言信息可以涉及多种语言，如上述表1所示为中文，其还可以包括英文、德文、韩文等语言，本申请实施例对此不作限定。

步骤S102：基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息。

具体地，强化学习模型是指基于强化学习框架搭建的网络模型，其可以是采用循环神经网络(Recurrent Neural Network,RNN)网络结构，也可以是采用长短时记忆网络(Long Short-Term Memory，LSTM)网络结构，在下述实施例中，以采用LSTM网络结构为基础进行说明。

具体地，当前时刻的观察图像t为在强化学习模型中当前时刻的观察值observation。其中，目标图像的大小可以与观察图像的大小相同，也可以不同，在下述实施例中，采用h*w表征目标图像的大小，采用H*W表征观察图像的大小。

可选地，预期注意力信息可以是基于目标图像与观察图像的匹配情况生成，匹配的具体过程将在后续实施例中详细说明。预期注意力信息具体可以是一个图像，也可以是特征图，还可以采用矩阵方式表示。具体地，预期注意力信息以图的形式表示时其大小尺寸(H*W)与观察图像相同。

步骤S103：基于预期注意力信息，确定当前时刻的任务处理结果。

具体地，在本申请实施例中，可以基于预期注意力信息进行任务处理，确定出当前时刻的任务处理结果。其中，任务可以涉及多个应用领域，例如可以是针对某一多人在线竞技游戏(multiplayer online battle arena，MOBA)，在某一对战场景下预测当前时刻应用于控制对象的控制策略；其中控制策略即本申请实施例中的任务处理结果。

在本申请实施例中，可以通过引入目标图像将语言信息对应的环境信息加载到为任务准备的强化学习模型中；具体地，假设当前需要处理的任务对应于某一游戏时，可以模仿该游戏的执行手册阅读行为，针对该游戏给出任务后，与该游戏相关的语言信息“敌人”将被加载到强化学习模型中(例如加入到LSTM网络中)。具体地，如下公式(1)所示：

w_i→I₁，I₂，I₃...，I_n

......公式(1)

其中，w表征词汇word，I表征图像image，w_i表征第i个词汇；I₁,I₂,I₃......,I_n表征对应第i个词汇的第1、2、3......n张图像。

具体地，可以根据输入的语言信息w_i将与其所有关联的目标图像I₁,I₂,I₃......,I_n经一系列的处理后加载到模型中(如加载到LSTM网络中)。

下面针对获取与目标语言信息对应的目标图像的具体过程进行说明。

在一实施例中，步骤S101中获取与目标语言信息对应的目标图像，包括步骤S1011：基于预构建的语言信息与图像的关联关系，获取与目标语言信息对应的目标图像。

其中，语言信息与图像的关联关系采用二分图(bipartite graph)或知识图谱进行构建；在本申请实施例中，二分图与知识图谱在表达语言信息与图像的关联关系时，可以称为关联通用图(Associative universal graph)。

具体地，语言信息与图像之间的关联关系可以是在任务处理之前预构建的，也可以是在任务处理过程中新增。其中，语言信息与图像之间的关联关系可以适应所需处理任务进行构建，如当前需要针对某一游戏输出应用于某一控制对象的控制策略时，语言信息与图像之间的关联关系可以是根据该游戏的场景进行设定的，例如游戏场景中存在草丛、河道、怪物等，可以截取游戏场景中对应的图像与相应的词汇构建关联。

在一实施例中，获取与目标语言信息对应的目标图像包括获取目标语言信息，基于所获取的目标语言信息在存储有预构建的语言信息与图像的关联关系的内容中查询与目标语言信息对应的图像，即以词汇搜图的过程。

其中，二分图又称作二部图，是一种特殊模型。在二分图的结构中，将不同的两种类别的集合区分为两个不相关的子集，并允许边在子集之间进行垮集合连接；基于该二分图的结构特性，使得在访问任意一个结合的元素时，都可以直接访问到与其相关联的另一个集合中的元素。在本申请实施例中，二分图中包括语言信息集合U和图像集合V，可以理解的是通过语言信息(词汇)访问图像集合中的元素(图像)。

其中，知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

可选地，如图3所示，当语言信息与图像的关联关系采用二分图进行构建时，二分图的构建包括下述步骤A1-A4：

步骤A1：获取待构建的语言信息-图像对。

具体地，待构建的语言信息-图像对可以是基于客观数据分析确定的，也可以是基于经验值人为设定的。其中，待构建的语言信息-图像对<词，图像>中，可以是一对一的关系，也可以是一对多的关系或多对一的关系；也即同一词汇可以对应多个图像，或者一个图像可以对应多个词汇。

步骤A2：在语言信息集合中检测是否存在待构建的语言信息；若否，基于该待构建的语言信息在语言信息集合对应的图结构中新增节点。

具体地，由于语言信息集合(又称词汇集合)与图像集合是相互独立的存在，在构建语言信息与图像之间的关联关系时，需要首先判断原始存在的语言信息集合中是否存在待构建的语言信息；若存在，则无需进行处理；若不存在，则需要在语言信息集合对应的图结构中为该词汇新增节点。其中，在语言信息集合中检测是否存在待构建的语言信息时，可以采用全词匹配的方式进行，即可以理解为进行一对一匹配，以有效确保二分图所能体现的语言信息与图像之间关联关系的准确性。

步骤A3：在图像集合中检测是否存在待构建的图像；若否，基于该待构建的图像在图像集合对应的图结构中新增节点。

具体地，由于图像集合与语言信息集合是相互独立存在的，在构建语言信息与图像之间的关联关系时，需要首先判断原始存在的图像集合中是否存在待构建的图像；若存在，则无需进行处理；若不存在，则需要在图像集合对应的图结构中为该图像新增节点。其中，在图像集合中检测是否存在待构建的图像时，可以采用模板匹配(template matching)方式进行，匹配度的阈值设置可以为0.9(该数值只是作为一个实例，可以根据实际情况进行调整，本申请对此不作限定)，若大于或等于该阈值，则可以理解为图像集合中存在待构建的图像；否则，不存在。可选地，也可以采用余弦相似度的计算方式，计算图像集合中各个图像元素与待构建图像之间的相似度值，若该相似度值大于或等于预设阈值时，确定图像集合中存在待构建的图像；否则，不存在。

步骤A4：基于待构建的语言信息和待构建的图像的关联关系在分别对应的节点之间建立关联边。

可选地，基于步骤A2和A3的实施后，基于待构建的语言信息与待构建的图像之间的关联关系，在图结构相应的节点中建立关联边。具体地，每个待构建的语言信息或待构建的图像均在图结构中具有相应的节点，在建立两者之间的关联关系时，可以通过连接节点完成。

在本申请实施例中，采用二分图进行语言信息与图像的关联关系的构建时，可以基于经验值或认为设定语言信息与图像之间的关联关系，而无需要求语言信息与图像之间存在必然的联系；可以有效地提高本申请实施例的灵活性，基于不同的应用场景可以快速地构建相应的语言信息与图像之间的关联关系。另，二分图中所表达的语言信息与图像之间的关联关系可以是处于一种不断更新的状态，如人类记忆过程类似，可以通过学习不断更新二分图中的数据结构。

可选地，当语言信息与图像的关联关系采用知识图谱进行构建时，知识图谱的构建包括下述步骤B1-B2：

步骤B1：获取三元组数据，三元组数据包括表征语言信息、视觉关系、图像三者之间关联关系的数据。

具体地，可以采用<语言信息，视觉关系，图像>的结构关系表征语言信息、视觉关系、图像三者之间关联关系；其中，视觉关系AR可以通过标识的方式进行设置。

步骤B2：基于三元组数据，采用构建知识图谱的方式构建多模态知识图谱。

具体地，在多模态知识图谱(Multi-Modal Knowledge Graphs，MMKG)中，多模态可以理解包括各种模态的数据，如图像、视频、文本、语言、数据库和知识图谱，而这些数据的交叉关系可以理解为多模态。

可选地，在步骤B1和B2的实施后，还可以通过人工编辑修正知识图谱中的三元组的集合，并设置相关阈值数据判断关联边之间的有效性。

在本申请实施例中，知识图谱与二分图可以是互为替代关系，知识图谱与二分图的区别在于，知识图谱中所构建的语言信息与图像之间的关联关系是客观存在的，而二分图中所所构建的语言信息与图像之间的关联关系除了是客观存在的还可以是基于经验值设置的。

下面针对生成预期注意力信息的具体过程进行说明。

在一实施例中，步骤S102中基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息，包括下述步骤S1021-S1022：

步骤S1021：将目标图像与强化学习模型中当前时刻的观察图像进行匹配，确定目标图像在观察图像中的目标匹配区域。

具体地，在步骤S101中获取的与目标语言信息对应的目标图像可以只有一张也可以有多张，在将目标图像与强化学习模型中当前时刻的观察图像进行匹配时，可以采用模板匹配(template matching)的方式进行，也可以采用其他匹配方式进行，下面针对采用模板匹配的方式确定目标图像在观察图像中的目标匹配区域的具体过程进行说明。

可选地，步骤S1021中将目标图像与强化学习模型中当前时刻的观察图像进行匹配，确定目标图像在观察图像中的目标匹配区域，包括下述步骤C1-C2：

步骤C1：采用模板匹配方式计算目标图像在强化学习模型中当前时刻的观察图像中各个匹配区域的匹配度。

具体地，模板匹配是一种在给定的模板图像中找到目标图像中位置的技术，可以理解为在模板块和输入图像之间寻找匹配，获得匹配结果图像的过程；其中，模板块为本申请实施例中的目标图像，输入图像为本申请实施例中当前时刻的观察图像，即本申请实施例采用模板匹配技术来定位目标图像在观察图像中的潜在位置。在匹配过程中，参考图4a所示，可以采用将目标图像在观察图像上滑动的方式(如从左往右，从上往下的滑动方向)将目标图像与观察图像上的每个位置进行度量计算得到目标图像在观察图像中各个匹配区域的匹配度；其中，滑动时可以采用如图4a虚线所示的匹配区域(大小与目标图像一致)作为一次滑动的单元，也可以是每次滑动一个像素位置。

其中，计算匹配度可以采用下述其中一种或多种方法：

平方差匹配或标准平方差匹配：匹配程度越差(目标图像与当前进行匹配的匹配区域差别越大)，匹配值越大，因此预设阈值可以以0为基础进行调整。

相关匹配或标准相关匹配：匹配程度越高(目标图像与当前进行匹配的匹配区域差别越小)，匹配值越大，因此预设阈值可以以1为基础进行调整。

在一可行的实施例中，除采用模板匹配方式外，还可以采用基于隐马尔可夫模型(HMM)或基于神经网络等方法进行匹配处理。

步骤C2：基于匹配度，确定目标图像在观察图像中的目标匹配区域。

具体地，可以采用下述几种方式中的一种确定目标匹配区域：

(1)基于计算匹配度的方式，设置预设阈值，对预设阈值与匹配度进行比较，以比较结果筛选目标图像在观察图像中的目标匹配区域。

具体地，当采用如相关匹配或标准相关匹配的方式计算匹配度时，可以设置预设阈值th为0.8，则当在步骤C1中计算得到的匹配度大于或等于0.8时，可以将该匹配度对应的匹配区域视为目标匹配区域；可选地，目标匹配区域可以包括一个或多个。

具体地，当采用如平方差匹配或标准平方差匹配的方式计算匹配度时，可以设置预设阈值th为0.2，则当在步骤C1中计算得到的匹配度小于或等于0.2时，可以将该匹配度对应的匹配区域视为目标匹配区域；可选地，目标匹配区域可以包括一个或多个。

其中，预设阈值可以根据实际情况进行调整，本申请不对预设阈值的具体数值进行限定。

(2)无需限定计算匹配度的方式，可以将以匹配度最高或匹配度降序排序在前N名对应的匹配区域作为目标匹配区域。如，当前包括9个匹配区域，则对该9个匹配区域分别对应的匹配度进行降序排序，取排序第一或排序在前N名对应的匹配区域作为目标匹配区域。

步骤S1022：基于目标匹配区域，生成预期注意力信息。

具体地，参考图4b所示，在生成预期注意力信息时，可以将步骤C2确定出来的一个或多个目标匹配区域作为预期注意力区域，并同时基于观察图像生成预期注意力矩阵，在矩阵中采用0标识该匹配区域与目标图像的匹配度低于预设阈值，采用1标识目标匹配区域。在图4b可见，当前目标图像在观察图像中的各个区域中，有两个匹配区域可以作为目标匹配区域。

具体地，确定目标图像Iⁿ∈R^h×w×C在观察图像O∈R^H×W×C的目标匹配区域后，可以确定出相应的预期注意力矩阵A_hint∈R^H×W，该矩阵可以用于表征目标图像与观察图像之间的相似度。在本申请实施例中，考虑到可能有多个目标图像，对应地，可以采用针对不同的目标图像对应生成不同的预期注意力信息的方案；具体地，在生成预期注意力矩阵时，针对每个预期注意力矩阵的计算公式可以表达如下公式(2)和(3)所示：

其中，h x w表征目标图像的大小；H x W表征观察图像的大小；C可以理解为一个超参数，根据实际需求可以适应调整，如针对彩色图像时，C可以为3，对应RGB三原色的通道；R表征实数集；i,j表征某一匹配区域的位置；m，n，和k表征进行模板匹配的过程中目标图像每次滑动的像素单位；T表征匹配度阈值(预设阈值)。

可选地，可以基于目标图像与观察图像的匹配度设置相应的阈值T，当T>0是将张量

转换为二进制矩阵预期注意力信息A_hint的匹配度阈值。

在一可行的实施例中，当前需要与观察图像进行匹配的目标图像可能包括多张，此时，可以考虑采用如图4c所示的情况，生成的预期注意力信息中，包括各个目标图像在观察图像中的目标匹配区域对应的特征信息。

在本申请实施例中，图4a、图4b和图4c所示的仅为其中一种模板匹配的示意性过程，可能的是，目标匹配区域(即预期注意力区域)可能是各种形状不一的区域，如可以是圆形区域、椭圆形区域或与目标图像的形状相同的各种形状区域；还可能的是，考虑到提高匹配的准确度，可以设置匹配区域的大小小于或等于目标图像的大小。

在一实施例中，如图2所示，预期注意力信息具体可以为一个权重矩阵，矩阵中符合预期注意力的部分(目标匹配区域)对应的权重系数较其他匹配区域高，如图4b所示，标识为1所在匹配区域的权重系数高于标识为2所在匹配区域的权重系数。

本申请实施例中通过生成预期注意力信息，使得强化学习模型可以在当前时刻的观察图像中有效地注意到与当前任务相关的信息，可以有效提高强化学习模型的学习效率。

下面针对基于预期注意力信息确定当前时刻的任务处理结果的具体过程进行说明。

在一实施例中，如图2所示，步骤S103中基于预期注意力信息，确定当前时刻的任务处理结果，包括下述步骤S1031-S1033：

步骤S1031：基于当前时刻的观察图像生成自注意力信息。

具体地，在本申请实施例中引入了自注意力机制，可以基于当前时刻的观察图像生成自注意力信息，通过自注意力机制学习与当前任务相关的特征信息。其中，在自注意力机制中，具有查询信息query-键信息keys-值信息values的架构；可以通过卷积神经网络(Convolutional Neural Networks,CNN)编码器(如图2中所示的视觉核心)在观察图像O∈R^H×W×C中提取特征F∈R^h×w×c，并基于通道维度区分为两个张量，如键信息

和值信息

而查询信息

是基于上一时刻LSTM(t-1)的单元状态信息确定的。查询网络中通过会生成多个关注头attention heads来尽可能地捕获到更多的关键特征信息。在针对单个关注头时，自注意力信息

可以由下述两个步骤得到：

首先，获取键信息和查询信息(查询向量)之间的内积，其计算过程如下述公式(4)所示：

其中，

表征内积结果，q表征查询信息query，K表征键信息keys。

而后，应用如下公式(5)所示的softmax函数进行计算：

基于上述两个步骤的计算，可以得到自注意力信息A_self∈R^h×w，该信息可以对观察到的不同位置的空间信息进行编码。在上述公式中，i和j表征的是对应的位置信息。

具体地，步骤S1031主要是采用LSTM网络(长短时记忆网络)结构中上一时刻计算得到的查询信息query与当前时刻的观察值t生成自注意力信息，其具体过程如下：

可选地，步骤S1031中基于当前时刻的观察图像生成自注意力信息，包括下述步骤D1-D2：

步骤D1：对当前时刻和上一时刻的观察图像进行视觉编码，基于视觉编码结果确定键信息keys和值信息values。

具体地，在进行视觉编码时，涉及到需要处理的数据包括当前时刻和上一时刻的观察图像；如图2所示，对当前时刻和上一时刻的观察图像进行视觉编码可以理解为基于上一时刻的单元状态信息state(基于上一时刻的观察图像处理所得)对当前时刻的观察图像进行视觉编码处理。其中，将当前时刻的观察图像t和上一时刻的单元状态信息state输入视觉核心(visoncore)，以使视觉核心对当前时刻的观察图像t进行视觉编码，进而将观察图像t的键信息keys和值信息values进行区分计算。其中，视觉编码的过程可以采用相关技术进行，本申请对此不再详述。

可选地，如图2所示，在进行视觉编码时，可以将上一时刻计算得到的单元状态信息同步引入视觉核心模块，使得视觉核心模块结合上一时刻的单元状态信息对当前时刻的观察值进行视觉编码处理。

步骤D2：基于上一时刻的查询信息与键信息生成自注意力信息。

具体地，上一时刻的查询信息可以为LSTM网络结构中上一时刻(t-1)计算得到的查询信息query，可以基于该查询信息query与键信息keys生成自注意力信息。其中，自注意力信息可以理解为一种权重矩阵，如图2所示，自注意信息中的白色区域对应的权重系数将高于其他灰色区域对应的权重系数。

步骤S1032：融合预期注意力信息和自注意力信息，得到融合注意力信息。

在本申请实施例中，需要汇总从观察值中学习到的预期注意力信息和自注意力信息，具体地，可以通过融合处理进行预期注意力信息和自注意力信息的合并，在融合处理中，将预期注意力信息和自注意力信息通过通过维度连接到张量

中，其中，张量可以表述如下公式(6)所示：

其中，

为自注意力信息，A_hint为预期注意力信息；concat函数表征将自注意信息和预期注意力信息进行组合。

另，在本申请实施例中，为了充分融合预期注意力信息与自注意力信息并匹配张量V的维数，可以通过采用卷积操作conv来减少张量

的维数，并获得包括N个关注头attention heads的融合注意力信息

具体地，卷积操作可以体现如下公式(7)所示：

具体地，融合的操作可以采用卷积神经网络进行，如通过卷积神经网络将预期注意力信息对应的权重矩阵(H*W*N)与自注意力信息对应的权重矩阵(H*W*N)经过层叠处理可以得到H*W*2N的矩阵，进而通过卷积神经网络进行融合处理，得到H*W*N的矩阵(融合注意力信息)。其中，H*W表征矩阵的大小，N可以理解为超参数。

可选地，如图2所示，融合注意力信息的大小与预期注意力信息和自注意力信息一致，且融合注意力信息包括了预期注意力信息和自注意力信息分别表征的权重系数信息(如白色区域所示)。

步骤S1033：基于融合注意力信息确定当前时刻的任务处理结果。

具体地，可以将融合注意力信息反馈到强化学习模型的控制模块(如采用LSTM网络结构时，对应为输入至控制网络policy)中，以结合该融合注意力信息生成当前时刻t的任务处理结果。

在上述实施例的基础上，步骤S1033中基于融合注意力信息确定当前时刻的任务处理结果，包括：加权合并融合注意力信息与值信息，并基于加权合并后得到的信息确定当前时刻的任务处理结果。

其中，可以通过每个关注头的观察值Rⁿ∈R^Cv的加权状态表示形式来表示融合注意力信息与值信息values之间的点积之和，具体如下公式(8)所示：

其中，A表征融合注意力信息，V表征值信息values。上述公式中i和j表征相应的位置信息。

在获得上述的状态表示后，可以将该状态表示输入强化学习模型的控制模块(LSTM网络的policy)中，同时，模型的隐藏层状态通过完全连接的网络转换为查询信息，以通过融合注意力信息影响强化学习模型的行为。

可选地，融合过程中，上述求点积只是其中一种可行的方法，在本申请实施例中，还可以采用叉乘等方法进行处理，本申请对此不作限定。

可选地，如图2所示，加权合并的操作可以在聚焦模块进行处理，具体地，可以为将各个值信息进行加权求和后，将加权求和得到的结果与融合注意力信息进行合并，进而将合并后得到的信息输入至强化学习模块的控制(policy)模块中，使得强化学习模型可以基于融合注意力信息确定当前时刻的任务处理结果。

本申请实施例中，将预期注意力信息与自注意力信息进行融合处理得到融合注意力信息，可以理解的是强化学习模型对应的系统中使用了两个注意力信息，其中预期注意力信息用于引入提示信息，自注意力信息用于引入自注意力；实现了采用预期注意力引导自注意力进行强化学习，可以有效地提升强化学习模块的学习效率。

在本申请实施例中，主要涉及以下三个部分的内容：(1)建立语言信息与图像之间的关联关系；(2)在强化学习模型训练之前，在代理agent与环境互动探索的过程中，输入语言提示，并将该语言提示相关信息添加到模型中；(3)为有效协助模型注意与任务相关的信息，将语言提示与注意力机制得到的自注意力信息进行融合。下面结合图2所示的框架图，对本申请实施例提供的基于语言提示的任务处理方法进行说明。

如图2所示，若将本申请实施例置于一个系统中进行实施时，该系统中可包括：图查询模块、匹配模块、视觉核心模块、预期注意力模块、自注意力模块、融合注意力模块、聚焦模块。下面将首先说明每个模块的功能与结构内容。

图查询模块：可以采用如图2所示的二分图，也可以采用知识图谱进行构建。在图查询模块采用二分图结构时，模块中包括词汇集合中各个词汇对应的节点和图像集合中各图像对应的节点，还包括表征语言信息(词汇)与图像之间关联关系的连接在两个节点之间的关联边。图查询模块的输入可以是词汇，如<词，*>，模块获得该输入数据后，经查询可以达到对应的图像，如<*，图像>，并以该图像作为图查询模块的输出(对应于上述实施例中的步骤S101，经图查询模块可以获取到与目标语言信息对应的目标图像)。在图查询模块中，构建有语言环境映射关系(language-environment grounding)，该关系具体表征为语言信息与图像之间的关联关系，即可以通过图像引入与语言信息相关的环境信息。

匹配模块：该模块的输入包括图查询模块的输出与强化学习模型中当前时刻的观察值t(观察图像)，在匹配模块中可以采用模板匹配方式，将目标图像作为模板块，将观察图像作为输入图像，基于目标图像在观察图像中进行滑动比较，计算目标图像在观察图像中的各个匹配区域的匹配值，并基于预设阈值与匹配值进行匹配区域的筛选，最终确定出目标匹配区域，即预期注意力区域，并生成预期注意力信息(如权重矩阵)，并将该预期注意力信息作为匹配模块的输出。

视觉核心模块：该模块的输入包括当前时刻t的观察值(观察图像)与上一时刻的单元状态信息state，在获得输入数据后，在模块中进行视觉编码处理，并基于视觉编码结果确定观察图像对应的键信息keys和值信息values，并将该键信息和值信息作为输出数据。

预期注意力模块：该模块对应存储有匹配模块的输出(预期注意力信息)。

自注意力模块：该模块的输入包括视觉核心模块的输出(键信息)以及上一时刻的查询信息query，进而在模块中采用自注意力机制确定出相应的自注意力信息(权重矩阵)，并将该自注意力信息作为输出。

融合注意力模块：可以通过卷积神经网络构建融合注意力模块；该模块的输入包括预期注意力信息和自注意力信息，通过卷积神经网络进行融合处理得到融合注意力信息(权重矩阵)，并将该融合注意力信息作为输出。

聚焦模块：该模块可以采用简单的数学算法构建；该模块的输入包括融合注意力信息和视觉核心模块的输出(值信息)，经简单的数学运算(加权合并)可以得到与当前任务相关的聚焦信息，进而将该聚焦信息作为输出，并输入至强化学习模型的控制模块中。

可选地，在本申请实施例对应的系统中无需额外布局一个预期注意力模块，可以直接将匹配模块的输出数据输入至融合注意力模块进行融合处理。

下面结合上述对各个模块的描述，针对本申请实施例提供的基于语言提示的任务处理方法给出一种可行的应用例。

以当前应用场景为某一交互平台提供的某一块控制类游戏作为例子进行说明。在该游戏中，可以包括一个控制对象，用户可以控制该对象进行上下左右的移动，并在移动过程中吃掉相应位置的虚拟对象可以获得相应的增益，但若在移动过程中碰到“怪物”则面临上交已获的部分或全部增益，或结束游戏的情况，因此，为提高用户体验，可以提供一种控制策略以避免控制对象在移动过程中碰到“怪物”，或减少在移动过程中碰到“怪物”的几率，用户可以基于该控制策略控制对象进行移动。

其中，所需提供的控制策略可以理解为本申请实施例的需要处理的任务，相应地，基于该游戏，本申请实施例可以在执行任务之前构建语言信息与图像之间的关联关系，在游戏开始时即可触发本申请实施例执行任务，任务处理可以包括下述几个步骤：

步骤一：在任务开始时，系统基于输入语言信息，如“怪物”，此时输入系统的信息格式可以为<monster,*>，系统中通过图查询模块，首先在词汇集合中查找到与monste相应的词汇，进而基于与该词汇对应的节点的关联边，访问存储在图像集合中的目标图像，并输出该目标图像。

步骤二：系统中的匹配模块根据目标图像(h*w*3，其中3对应的是RGB三原色的通道数)和强化学习模型中当前时刻的观察图像(H*W*3，其中3对应的是RGB三原色的通道数)进行匹配处理，其中强化学习模型中当前时刻的观察图像可以理解为当前交互界面所示的场景图像，匹配模块中可以选用模板匹配template matching1算法进行匹配度进行计算，并设置预设阈值作为筛选条件(th≧0.8)，当满足筛选条件时标记相应的匹配区域为有效状态，并根据该匹配区域生成以该位置为中心的尺寸与目标图像相应的预期注意力区域(h*w*N，其中N可以为一个超参数)，相应地，整体的预期注意力信息对应的尺寸与观察图像一致(H*W*N，其中N可以为一个超参数)。

步骤三：在观察值observation(t)输入系统之后，根据上一时刻LSTM(t-1)的单元状态信息计算得到的查询信息query与基于视觉核心模块输出确定的键信息keys生成一个自注意力信息self-attention mask；该自注意力信息的尺寸为(H*W*N)，且该自注意力信息中所有单元的值在[0,1]中取值，具体表征为一个权重矩阵。

步骤四：将预期注意力信息expectation attention mask与自注意力信息self-attention mask通过融合处理模块进行融合处理。具体处理包括：通过一个卷积神经网络将2个大小为H*W*N的矩阵通过卷积操作合并成一个融合注意力信息fused attentionmask(H*W*N)进行输出。

步骤五：将融合注意力信息与基于视觉核心模块输出确定的值信息values进行加权合并，并将处理后的结果输入到强化学习模块后续的控制模块(LSTM Policy)中。进而强化学习模块基于融合注意力信息输出控制对象当前时刻需要往哪一方向移动的控制策略。

在显示界面中，如图5所示，若存在上下左右的四个功能控件时，可以通过高亮显示某一功能控件(如图5所示，当前控制向上移动的控件具有高亮显示效果)以提示用户系统当前建议通过该高亮的功能控件控制对象进行移动。

对应于本申请所提供的基于语言提示的任务处理方法，本申请实施例还提供了一种基于语言提示的任务处理装置600，其结构示意图如图6中所示，该基于语言提示的任务处理装置600包括：获取模块600、第一确定模块601、第二确定模块602。

其中，获取模块601，用于获取与目标语言信息对应的目标图像；第一确定模块602，用于基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息；第二确定模块603，用于基于预期注意力信息，确定当前时刻的任务处理结果。

可选地，在获取模块601执行获取与目标语言信息对应的目标图像的步骤时，执行以下步骤：

可选地，当语言信息与图像的关联关系采用二分图进行构建时，二分图的构建包括：

获取待构建的语言信息-图像对；

可选地，当语言信息与图像的关联关系采用知识图谱进行构建时，知识图谱的构建包括：

可选地，第一确定模块602在执行基于目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息的步骤时，还执行下述步骤：

基于目标匹配区域，生成预期注意力信息。

可选地，第一确定模块602用于执行将目标图像与强化学习模型中当前时刻的观察图像进行匹配，确定目标图像在观察图像中的目标匹配区域的步骤时，还用于执行下述步骤：

基于匹配度，确定目标图像在观察图像中的目标匹配区域。

可选地，第二确定模块603在执行基于预期注意力信息，确定当前时刻的任务处理结果的步骤时，还用于执行下述步骤：

基于当前时刻的观察图像生成自注意力信息；

基于融合注意力信息确定当前时刻的任务处理结果。

可选地，第二确定模块603在执行基于当前时刻的观察图像生成自注意力信息的步骤时，还用于执行下述步骤：

对当前时刻和上一时刻的观察图像进行视觉编码，得到键信息keys和值信息values；

基于上一时刻的查询信息与键信息生成自注意力信息。

可选地，第二确定模块603用于执行基于融合注意力信息确定当前时刻的任务处理结果的步骤时，还用于执行下述步骤：

加权合并融合注意力信息与值信息，并基于加权合并后得到的信息确定当前时刻的任务处理结果。

本申请实施例的装置可执行本申请的实施例所提供的方法，其实现原理相类似，本申请各实施例中的装置中的各模块所执行的动作是与本申请各实施例中的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应的方法中的描述，此处不再赘述。

本申请还提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于在运行计算机程序时，执行本申请任一可选实施例中所提供的基于语言提示的任务处理方法。

本申请还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序在被处理器运行时，执行本申请任一可选实施例中所提供的方法。

作为一可选方案，图7示出了本申请实施例适用的一种电子设备的结构示意图，如图7所示，该电子设备700可以包括处理器701和存储器703。其中，处理器701和存储器703相连，如通过总线702相连。可选地，电子设备700还可以包括收发器704。需要说明的是，实际应用中收发器704不限于一个，该电子设备700的结构并不构成对本申请实施例的限定。

处理器701可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线702可包括一通路，在上述组件之间传送信息。总线702可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线702可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器703可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器703用于存储执行本申请方案的应用程序代码，并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码(计算机程序)，以实现前述任一方法实施例所示的内容。

本申请所提供的实施例中，由电子设备执行的上述基于语言提示的任务处理方法可以使用人工智能模型来执行。

根据本申请的实施例，在电子设备中执行的该方法可以通过使用图像数据或视频数据作为人工智能模型的输入数据来获得识别图像或图像中的图像特征的输出数据。人工智能模型可以通过训练获得。这里，“通过训练获得”意味着通过训练算法用多条训练数据训练基本人工智能模型来获得被配置成执行期望特征(或目的)的预定义操作规则或人工智能模型。人工智能模型可以包括多个神经网络层。多个神经网络层中的每一层包括多个权重值，并且通过在前一层的计算结果与多个权重值之间的计算来执行神经网络计算。

视觉理解是一种用于像人类视觉一样识别和处理事物的技术，并且包括例如对象识别、对象跟踪、图像检索、人类识别、场景识别、3D重建/定位或图像增强。

本申请所提供的基于语言提示的任务处理装置，可以通过AI模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

该处理器可以包括一个或多个处理器。此时，该一个或多个处理器可以是通用处理器，(例如中央处理单元(CPU)、应用处理器(AP)等)、或者是纯图形处理单元，(例如，图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器，(例如，神经处理单元(NPU))。

该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。

这里，通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行，和/或可以通过单独的服务器/系统来实现。

该AI模型可以由包含多个神经网络层组成。每一层具有多个权重值，一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。

学习算法是一种使用多个学习数据训练预定目标装置(例如，机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于语言提示的任务处理方法，其特征在于，包括：

获取与目标语言信息对应的目标图像；

基于所述目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息；

基于所述预期注意力信息，确定当前时刻的任务处理结果。

2.根据权利要求1所述的方法，其特征在于，所述获取与目标语言信息对应的目标图像，包括：

3.根据权利要求2所述的方法，其特征在于，当语言信息与图像的关联关系采用二分图进行构建时，二分图的构建包括：

获取待构建的语言信息-图像对；

在语言信息集合中检测是否存在待构建的语言信息；若否，基于该待构建的语言信息在所述语言信息集合对应的图结构中新增节点；

在图像集合中检测是否存在待构建的图像；若否，基于该待构建的图像在所述图像集合对应的图结构中新增节点；

基于所述待构建的语言信息和待构建的图像的关联关系在分别对应的节点之间建立关联边。

4.根据权利要求2所述的方法，其特征在于，当语言信息与图像的关联关系采用知识图谱进行构建时，知识图谱的构建包括：

获取三元组数据，所述三元组数据包括表征语言信息、视觉关系、图像三者之间关联关系的数据；

基于所述三元组数据，采用构建知识图谱的方式构建多模态知识图谱。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息，包括：

将所述目标图像与强化学习模型中当前时刻的观察图像进行匹配，确定所述目标图像在所述观察图像中的目标匹配区域；

基于所述目标匹配区域，生成预期注意力信息。

6.根据权利要求5所述的方法，其特征在于，所述将所述目标图像与强化学习模型中当前时刻的观察图像进行匹配，确定所述目标图像在所述观察图像中的目标匹配区域，包括：

基于所述匹配度，确定所述目标图像在所述观察图像中的目标匹配区域。

7.根据权利要求1所述的方法，其特征在于，所述基于所述预期注意力信息，确定当前时刻的任务处理结果，包括：

基于所述当前时刻的观察图像生成自注意力信息；

融合所述预期注意力信息和自注意力信息，得到融合注意力信息；

基于所述融合注意力信息确定当前时刻的任务处理结果。

8.根据权利要求7所述的方法，其特征在于，所述基于所述当前时刻的观察图像生成自注意力信息，包括：

对所述当前时刻和上一时刻的观察图像进行视觉编码，基于视觉编码结果确定键信息keys和值信息values；

基于上一时刻的查询信息与所述键信息生成自注意力信息。

9.根据权利要求8所述的方法，其特征在于，所述基于所述融合注意力信息确定当前时刻的任务处理结果，包括：

加权合并所述融合注意力信息与所述值信息，并基于加权合并后得到的信息确定当前时刻的任务处理结果。

10.一种基于语言提示的任务处理装置，其特征在于，包括：

获取模块，用于获取与目标语言信息对应的目标图像；

第一确定模块，用于基于所述目标图像与强化学习模型中当前时刻的观察图像，确定预期注意力信息；

第二确定模块，用于基于所述预期注意力信息，确定当前时刻的任务处理结果。

11.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于在运行所述计算机程序时，执行权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序在被处理器运行时，执行权利要求1至9中任一项所述的方法。