CN117876651B

CN117876651B - 视觉定位方法、装置、设备及介质

Info

Publication number: CN117876651B
Application number: CN202410281924.7A
Authority: CN
Inventors: 范宝余; 李晓川; 李仁刚; 郭振华; 赵雅倩
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-05-24
Anticipated expiration: 2044-03-13
Also published as: CN117876651A

Abstract

本发明涉及人工智能技术领域，公开了一种视觉定位方法、装置、设备及介质，包括：从输入图像中提取元素属性特征并输入到关联提取网络，得到元素关系特征和元素索引库；将元素关系特征和元素属性特征进行拼接，得到元素第一综合特征；从输入文本中获取文本编码特征并与元素第一综合特征进行跨模态编码，提取元素第二综合特征；对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征；将视觉溯源特征和文本编码特征拼接成多模态溯源特征，经定位解码器处理后输出从输入图像中定位的导致输入文本事件发生的对应元素位置。这样能够根据视觉要素和关系进行视觉因果溯源的综合推理，从而推理出人类需求在视觉上的体现，得到准确的定位结果。

Description

视觉定位方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种视觉定位方法、装置、设备及介质。

背景技术

视觉定位（Visual Grounding，VG）是将文本中出现的语言描述定位在图像中。VG任务包括指代表达理解（Referring Expression Comprehension，REC），它同时考虑了语言和视觉模态，能够将整个文本描述作为一个相关表达并在图像中将它整体地定位出来，在多模态领域有比较广泛的研究。

由于智能体需要理解人类语言的表达在现实生活的对应物体，这是机器人/机器算法理解人类给出的语言命令的本质能力要求之一。然而，日常生活中人类的语言并不总是直白的命令，导致REC任务的输入并不总是确定的描述，可能无法彻底理解人类的非命令语句，无法对人类不清楚的事物给出相应定位答案。

发明内容

本发明的目的是提供一种视觉定位方法、装置、设备及介质，具有因果推理能力以及多模态理解能力，便于理解人类的语言需求中多模态的内容，并进行视觉因果溯源的综合推理。

为了解决上述技术问题，本发明提供一种视觉定位方法，所述方法包括：

从输入图像中提取元素属性特征；

将所述元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库；所述元素索引库用于存储所述元素关系特征中每个关系的元素索引；

将所述元素关系特征和所述元素属性特征进行拼接，得到元素第一综合特征；

从输入文本中获取文本编码特征；

对所述文本编码特征与所述元素第一综合特征进行跨模态编码，提取元素第二综合特征；

对所述元素第二综合特征与所述元素索引库进行溯源编码，得到视觉溯源特征；

将所述视觉溯源特征和所述文本编码特征拼接成多模态溯源特征，经定位解码器处理后输出从所述输入图像中定位的导致所述输入文本事件发生的对应元素位置。

第一方面，在本发明提供的上述视觉定位方法中，将所述元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库，包括：

将所述元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征；

根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库。

另一方面，在本发明提供的上述视觉定位方法中，在将所述元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码之前，还包括：

将各元素之间的关系用向量表示，并使用随机高斯概率分布进行预设，得到初始的关系预设特征。

另一方面，在本发明提供的上述视觉定位方法中，将所述元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征，包括：

将初始的关系预设特征与所述元素属性特性输入至第一个索引跨模态注意力层中进行编码，得到第一个单层元素关系特征；

将第一个单层元素关系特征作为关系预设特征，继续与所述元素属性特征输入至下一个索引跨模态注意力层中进行编码，得到第二个单层元素特征；

将第二个单层元素关系特征作为关系预设特征，继续与所述元素属性特征进行编码的步骤；

直至得到最后一个索引跨模态注意力层输出的最后一个单层元素关系特征，并作为所述关联提取网络输出的元素关系特征。

另一方面，在本发明提供的上述视觉定位方法中，将关系预设特征与所述元素属性特性输入至索引跨模态注意力层中进行编码，得到单层元素关系特征的过程中，包括：

将关系预设特征与所述元素属性特性输入至索引跨模态注意力层中进行编码，获得单层索引权重；

根据获得的所述单层索引权重和所述元素属性特征，得到单层元素关系特征。

另一方面，在本发明提供的上述视觉定位方法中，采用第一公式获得单层索引权重；所述第一公式为：

；

其中，为关系预设特征，为所述元素属性特征，为关系预设特征对应的查询转移矩阵参数，为所述元素属性特征对应的键转移矩阵参数，为所述元素属性特征的维度，为单层索引权重，softmax表示归一化指数函数。

另一方面，在本发明提供的上述视觉定位方法中，采用第二公式得到单层元素关系特征；所述第二公式为：

；

其中，为单层元素关系特征，为所述元素属性特征对应的数值转移矩阵参数。

另一方面，在本发明提供的上述视觉定位方法中，根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库，包括：

将各索引跨模态注意力层输出的单层元素关系特征进行相乘并排序；

输出排序后的最大两个索引并作为元素索引，得到元素索引库。

另一方面，在本发明提供的上述视觉定位方法中，采用第三公式得到元素索引库；所述第三公式为：

；

其中，为第个索引跨模态注意力层输出的单层元素关系特征，为排序后的最大两个索引，表示对进行求积运算，max表示取最大值的函数，argsort表示排序的函数。

另一方面，在本发明提供的上述视觉定位方法中，对所述元素第二综合特征与所述元素索引库进行溯源编码，得到视觉溯源特征，包括：

将所述元素第二综合特征进行拆分，得到关系拆分特征和元素拆分特征；

将所述关系拆分特征和所述元素拆分特征分别输入至跨注意力编码器中进行编码，得到关系编码特征和元素编码特征；

将所述关系编码特征和所述元素索引库输入到元素权重重构中，得到索引元素补偿特征；

根据所述索引元素补偿特征和所述元素编码特征，得到视觉溯源特征。

另一方面，在本发明提供的上述视觉定位方法中，采用第四公式得到关系编码特征；所述第四公式为：

；

其中，为所述关系拆分特征，为所述元素拆分特征，为所述关系编码特征，为所述元素拆分特征对应的查询转移矩阵参数，为所述元素拆分特征对应的键转移参数矩阵，为所述元素拆分特征对应的数值转移矩阵参数，为所述元素拆分特征的维度，softmax表示归一化指数函数。

另一方面，在本发明提供的上述视觉定位方法中，采用第五公式得到元素编码特征；所述第五公式为：

；

其中，为所述元素编码特征，为所述关系拆分特征对应的查询转移矩阵参数，为所述关系拆分特征对应的键转移矩阵参数，为所述关系拆分特征对应的数值转移矩阵参数，为所述关系拆分特征的维度。

另一方面，在本发明提供的上述视觉定位方法中，将所述关系编码特征和所述元素索引库输入到元素权重重构中，得到索引元素补偿特征，包括：

构建与所述元素编码特征相同大小的全零矩阵，并作为初始的元素补偿矩阵；

将所述关系编码特征中各特征按照所述元素索引库指向的索引加到所述元素补偿矩阵的对应位置中，得到索引元素补偿特征。

另一方面，在本发明提供的上述视觉定位方法中，将所述关系编码特征中各特征按照所述元素索引库指向的索引加到所述元素补偿矩阵的对应位置中，得到索引元素补偿特征，包括：

构造关系打分矩阵；

根据所述关系编码特征得到当前关系包含的信息含量大小和当前关系包含的其他关系中未含有的信息含量大小，并分别存储至所述关系打分矩阵中；

利用所述关系打分矩阵进行打分并排序，得到所述关系编码特征中各特征在所述关系打分矩阵中的次序；

基于各特征在所述关系打分矩阵中的次序，将各特征按照所述元素索引库指向的索引加到所述元素补偿矩阵的对应位置中，得到索引元素补偿特征。

另一方面，在本发明提供的上述视觉定位方法中，采用第六公式得到当前关系包含的信息含量大小；所述第六公式为：

；

采用第七公式得到当前关系包含的其他关系中未含有的信息含量大小；所述第七公式为：

；

其中，为所述关系编码特征中当前关系的特征，为当前关系包含的信息含量大小，为所述关系编码特征中的每一行特征，为中除当前关系之外的其他关系的特征，为当前关系包含的其他关系中未含有的信息含量大小，sum表示求和运算的函数，max表示取最大值的函数。

另一方面，在本发明提供的上述视觉定位方法中，采用第八公式利用所述关系打分矩阵进行打分；所述第八公式为：

；

其中，为所述关系编码特征中各特征的分值，为超参数。

另一方面，在本发明提供的上述视觉定位方法中，采用第九公式得到索引元素补偿特征；所述第九公式为：

；

其中，表示所述元素补偿矩阵中的第个特征，表示所述元素拆分特征中的第个特征，是超参数，表示所述关系编码特征中各特征在关系打分矩阵中的次序；所述第九公式表示的值重新赋值给。

另一方面，在本发明提供的上述视觉定位方法中，根据所述索引元素补偿特征和所述元素编码特征，得到视觉溯源特征，包括：

将所述索引元素补偿特征和所述元素编码特征进行索引位置的融合，得到视觉溯源特征。

另一方面，在本发明提供的上述视觉定位方法中，从输入图像中提取元素属性特征，包括：

将输入图像输入到视觉编码器中提取视觉特征，并将视觉特征作为元素属性特征；所述视觉特征包括所述输入图像中被检测的多个元素和元素对应的多维属性特征。

另一方面，在本发明提供的上述视觉定位方法中，从输入文本中获取文本编码特征，包括：

将输入文本输入到语言编码器中进行编码，得到文本编码特征。

为了解决上述技术问题，本发明还提供一种视觉定位装置，所述装置包括：

元素属性特征提取模块，用于从输入图像中提取元素属性特征；

关联提取网络推理模块，用于将所述元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库；所述元素索引库用于存储所述元素关系特征中每个关系的元素索引；

第一综合特征拼接模块，用于将所述元素关系特征和所述元素属性特征进行拼接，得到元素第一综合特征；

文本编码特征获取模块，用于从输入文本中获取文本编码特征；

第二综合特征提取模块，用于对所述文本编码特征与所述元素第一综合特征进行跨模态编码，提取元素第二综合特征；

溯源编码模块，用于对所述元素第二综合特征与所述元素索引库进行溯源编码，得到视觉溯源特征；

定位解码模块，用于将所述视觉溯源特征和所述文本编码特征拼接成多模态溯源特征，经定位解码器处理后输出从所述输入图像中定位的导致所述输入文本事件发生的对应元素位置。

为了解决上述技术问题，本发明还提供一种视觉定位设备，所述设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述的视觉定位方法的步骤。

为了解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的视觉定位方法的步骤。

从上述技术方案可以看出，本发明所提供的一种视觉定位方法，该方法包括：从输入图像中提取元素属性特征；将元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库；元素索引库用于存储元素关系特征中每个关系的元素索引；将元素关系特征和元素属性特征进行拼接，得到元素第一综合特征；从输入文本中获取文本编码特征；对文本编码特征与元素第一综合特征进行跨模态编码，提取元素第二综合特征；对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征；将视觉溯源特征和文本编码特征拼接成多模态溯源特征，经定位解码器处理后输出从输入图像中定位的导致输入文本事件发生的对应元素位置。

本发明的有益效果在于，本发明提供的上述视觉定位方法，先从输入图像中提取元素属性特征，将其输入到关联提取网络中得到元素关系特征和元素索引库，之后，元素关系特征和元素属性特征被拼接在一起，得到元素第一综合特征，这样可以将图像中的元素关系与属性进行有效结合，获取后续所需的视觉要素和关系，另一方面，从输入文本中获取文本编码特征，文本编码特征被与元素第一综合特征共同输入到跨模态编码器中提取出元素第二综合特征，对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征，最后视觉溯源特征和文本编码特征拼接成多模态溯源特征，这样能够便于理解人类的语言需求中多模态的内容，并根据视觉要素和关系进行视觉因果溯源的综合推理，从而推理出人类的需求在视觉上的体现，进而解决了在图像中定位事件原因的任务，最终得到较为准确的从输入图像中定位的导致输入文本事件发生的对应元素位置。这样的视觉定位方法具有因果推理能力以及多模态理解能力，有助于人工智能进一步理解因果逻辑，更好地实现通用人工智能。

此外，本发明还针对视觉定位方法提供了相应的视觉定位装置、视觉定位设备及计算机可读存储介质，与上述提到的视觉定位方法具有相同或相对应的技术特征，效果同上。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视觉定位方法的流程图；

图2为本发明实施例提供的视觉定位方法中多模态视觉因果溯源过程的流程图；

图3为本发明实施例提供的关联提取网络的推理过程示意图；

图4为本发明实施例提供的溯源编码器的编码过程示意图；

图5为本发明实施例提供的视觉定位装置的结构示意图；

图6为本发明实施例提供的视觉定位设备的结构示意图。

具体实施方式

由于人类的语言并不总是直白的命令，换言之，视觉定位任务的输入并不总是确定的描述，例如图像中有至少两只小狗，而人类问出“我的沙发是被谁咬破的”，人类并不清楚答案，需要机器人/机器算法帮助人类定位这个未知的目标。这就需要机器能够理解人类的语言需求，理解需求中的关键要素，如“沙发被咬坏”，从图像中各小狗的表情推理出是某只小狗更有可能咬破的沙发。这种任务可称之为视觉因果溯源任务。而相关的技术方案中，执行视觉定位任务时，输入图像和文本分别经由各自的编码器进行特征提取，之后提取后的特征被融合在一起经过图文交互编码器提取多模态编码特征，最后经过定位解码器后输出对应目标的位置坐标。直接使用该方式进行视觉因果溯源是不可行的，这是因为输入文本中隐藏的因果逻辑需要参考图像的信息进行综合的推理，该方式还未具备该能力。

因此，为了使机器人/机器算法能够理解人类的非命令语句，对人类不清楚的事物给出相应定位答案，本发明提供了一种视觉定位方法，具有因果推理能力和多模态理解能力。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。图1为本发明实施例提供的视觉定位方法的流程图，如图1所示，该方法包括：

S101、从输入图像中提取元素属性特征。

在实施中，在执行步骤S101从输入图像中提取元素属性特征的过程中，可以包括：将输入图像输入到视觉编码器中提取视觉特征，并将视觉特征作为元素属性特征；视觉特征包括输入图像中被检测的多个元素和元素对应的多维属性特征。需要说明的是，这里的元素可以理解为实体，即输入图像中被检测的多个元素可以理解为输入图像中被检测的多个实体。

上述视觉编码器是指用于将视觉输入（如图像）转换为表示向量的模型或组件。它能够将高维的视觉数据转换为低维的表示，将视觉信息转化为语言模型可以理解和处理的形式。上述元素属性特征是指输入图像中被检测的多个元素对应的多维属性特征。

图2为本发明实施例提供的视觉定位方法中多模态视觉因果溯源过程的流程图。如图2所示，输入图像被输入到视觉编码器中提取视觉特征，记为元素属性特征。这是因为视觉特征的维度为，其中表示特征维度，表示图像中提取出的元素个数，视觉特征可用来表示图像中可以被检测到的个元素，每个元素的维特征可用来表示它的属性等信息，因此视觉特征可记为元素属性特征。

S102、将元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库；元素索引库用于存储元素关系特征中每个关系的元素索引。

在实施中，在执行步骤S102将元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库的过程中，如图2所示，可以包括：将元素属性特性输入到关联提取网络中，可输出元素关系特征和元素索引库；其中，关联提取网络是一种深度学习模型，可用于从元素属性特征中提取各元素之间的关系，以及每个关系的元素索引，即提取到元素关系特征和元素索引库。

上述元素关系特征可理解为元素之间的关联和差异，这些关联和差异可以反映元素之间的关系。例如元素之间的距离、相似度、相关度等都可以作为元素关系特征。上述元素索引库可理解为一种用于存储元素关系特征中每个关系的元素索引的数据库系统。该元素索引库可以提高信息检索的效率和准确性，便于后续的溯源编码处理。

S103、将元素关系特征和元素属性特征进行拼接，得到元素第一综合特征。

在实施中，在执行步骤S103将元素关系特征和元素属性特征进行拼接，得到元素第一综合特征的过程中，如图2所示，可以包括：将元素关系特征和元素属性特征拼接组合在一起，得到新的特征，即元素第一综合特征。这样将元素关系特征和元素属性特征进行有效结合，构成一个整体，可以提取输入图像中更加有用和丰富的信息，获取后续所需的视觉要素和关系。

S104、从输入文本中获取文本编码特征。

在实施中，在执行步骤S104从输入文本中获取文本编码特征的过程中，如图2所示，可以包括：将输入文本输入到语言编码器中进行编码，得到文本编码特征。

实际应用中，上述输入文本可以是人类直白的命令，如“狗身边的半开着的笔记本电脑”；也可以是非直白的命令，如“我的沙发是被谁咬破的”、“金毛为什么可以舒舒服服地趴着”。输入文本可以理解为因果溯源中的“果”。

上述语言编码器是指将自然语言转换为机器语言或代码的工具。它可以将人类语言（如语音或文本）中的单词、短语和句子转换成计算机能够理解和执行的二进制代码。语言编码器包括语音识别、文本转换和语法分析等功能，在将语音或文本输入转换成代码后，通过编译器可将代码转换成可执行的程序或命令。

上述文本编码特征是指文本在编码后所呈现的特点或属性，用于表示文本数据的特征。这些特点或属性是文本所特有的，能够反映文本的内容、形式、风格等方面的特征，可以揭示文本的重要信息。本发明通过文本编码特征的获取，有利于后续文本处理的准确性和效率。

S105、对文本编码特征与元素第一综合特征进行跨模态编码，提取元素第二综合特征。

在实施中，在执行步骤S105对文本编码特征与元素第一综合特征进行跨模态编码，提取元素第二综合特征的过程中，如图2所示，可以包括：将文本编码特征与元素第一综合特征共同输入到跨模态编码器中，提取出元素第二综合特征。

上述跨模态编码器是指对不同模态数据进行处理的编码器。本发明可将文本编码特征和元素第一综合特征这两种不同模态数据进行统一编码，以便于进行跨模态的信息处理，理解人类的语言需求中多模态的内容。跨模态编码器可以采用深度学习方式，通过学习文本编码特征和元素第一综合特征这两种不同模态数据之间的内在联系和特征，实现不同模态数据的统一表示。

S106、对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征。

在实施中，在执行步骤S106对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征的过程中，如图2所示，可以包括：将元素第二综合特征与元素索引库共同输入到溯源编码器中进行溯源编码，输出视觉溯源特征。

上述溯源编码器是指具有追溯功能的编码器，用于将编码后的特征进一步加工成指向导致输入文本事件产生的对应目标元素（溯源）的特征。上述视觉溯源特征为溯源编码器输出的特征信息，可用于描述和识别待定位的目标元素。本发明可以利用元素索引库中存储的元素关系特征中每个关系的元素索引来对元素第二综合特征进行溯源编码，得到视觉溯源特征，以达到视觉因果溯源的综合推理的目的，便于后续识别和定位图像中目标元素，提高视觉定位任务的精度和效率。

S107、将视觉溯源特征和文本编码特征拼接成多模态溯源特征，经定位解码器处理后输出从输入图像中定位的导致输入文本事件发生的对应元素位置。

在实施中，在执行步骤S107将视觉溯源特征和文本编码特征拼接成多模态溯源特征，经定位解码器处理后输出溯源定位坐标的过程中，如图2所示，可以包括：对视觉溯源特征和文本编码特征进行拼接处理，得到多模态溯源特征，然后将多模态溯源特征输入到定位解码器中，在经过定位解码器之后，可输出溯源定位坐标，该溯源定位坐标指的是从输入图像中定位的导致输入文本事件发生的对应元素位置。

上述多模态溯源特征是综合考虑了视觉溯源特征和文本编码特征并进行融合和整合，得到的不同模态特征信息。上述定位解码器是指用于解码溯源编码的工具，它可以从多模态溯源特征中提取出目标元素的位置信息，并将其转换为相应的坐标。由于多模态溯源特征具有全面和准确的特征信息，利用多模态溯源特征输入到定位解码中进行定位解码，可以快速准确地定位输入图像中的目标元素。

本发明实施例提供的上述视觉定位方法中，先从输入图像中提取元素属性特征，将其输入到关联提取网络中得到元素关系特征和元素索引库，之后，元素关系特征和元素属性特征被拼接在一起，得到元素第一综合特征，这样可以将图像中的元素关系与属性进行有效结合，获取后续所需的视觉要素和关系，另一方面，从输入文本中获取文本编码特征，文本编码特征被与元素第一综合特征共同输入到跨模态编码器中提取出元素第二综合特征，对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征，最后视觉溯源特征和文本编码特征拼接成多模态溯源特征，这样能够便于理解人类的语言需求中多模态的内容，并根据视觉要素和关系进行视觉因果溯源的综合推理，从而推理出人类的需求在视觉上的体现，进而解决了在图像中定位事件原因的任务，最终得到较为准确的从输入图像中定位的导致输入文本事件发生的对应元素位置。这样的视觉定位方法具有因果推理能力以及多模态理解能力，有助于人工智能进一步理解因果逻辑，更好地实现通用人工智能。

进一步地，在具体实施时，在本发明实施例提供的上述视觉定位方法中，步骤S102将元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库，具体可以包括：首先，将元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征；然后，根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库。

需要说明的是，通常情况下，视觉编码器提取到的特征用于表示输入图像中每个元素的特征，大小为，表示元素数量，表示特征维度。换言之，视觉编码器提取到了输入图像中个元素的维属性特征。但是，对于视觉因果溯源任务来说，不仅每个元素的属性很重要，它们之间的关系同样重要。因此，本发明提出关联提取网络，用来专门为元素之间的关系进行建模、表征。

在实施中，本发明的关联提取网络可以包括多个索引跨模态注意力层和一个索引计算层。索引跨模态注意力层是指一种注意力机制，用于将不同模态的信息进行融合和交互。这种注意力层通过将不同模态的特征进行加权组合，可以生成更加全面和准确的多模态特征表示，提高多模态内容的精度。索引计算层是在进行数据索引时所使用的一种计算方法。

图3为本发明实施例提供的关联提取网络的推理过程示意图。如图3所示，本发明将各索引跨模态注意力层输出的单层元素关系特征输入到索引计算层中进行计算，可以得到元素索引库。

在具体实施时，在执行上述步骤中将元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码之前，如图3所示，还可以包括：将各元素之间的关系用向量表示，并使用随机高斯概率分布进行预设，得到初始的关系预设特征。

在实施中，本发明首先预设一个用来表示关系的向量，大小为，表示关系数量，该向量被使用随机高斯概率分布进行预设，之后，该向量与元素属性特征共同输入到索引跨模态注意力层中进行编码。

在具体实施时，在执行上述步骤中将元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征的过程中，如图3所示，具体可以包括以下步骤：

首先，将初始的关系预设特征与元素属性特性输入至第一个索引跨模态注意力层中进行编码，得到第一个单层元素关系特征；

然后，将第一个单层元素关系特征作为关系预设特征，继续与元素属性特征输入至下一个索引跨模态注意力层中进行编码，得到第二个单层元素特征；

之后，将第二个单层元素关系特征作为关系预设特征，继续与元素属性特征进行编码的步骤；即继续与元素属性特征输入至第三个索引跨模态注意力层中进行编码，得到第三个单层元素特征；

随后，将第三个单层元素特征作为关系预设特征，继续连同元素属性特征输入到后面的索引跨模态注意力层中进行编码。

重复执行上述步骤，直至得到最后一个索引跨模态注意力层输出的最后一个单层元素关系特征，并作为关联提取网络输出的元素关系特征。

在具体实施时，将关系预设特征与元素属性特性输入至索引跨模态注意力层中进行编码，得到单层元素关系特征的过程中，具体可以包括：首先，将关系预设特征与元素属性特性输入至索引跨模态注意力层中进行编码，获得单层索引权重；然后，根据获得的单层索引权重和元素属性特征，得到单层元素关系特征。

在实施中，将初始的关系预设特征与元素属性特性输入至第一个索引跨模态注意力层中进行编码，得到第一个单层元素关系特征，具体可以包括：首先，将初始的关系预设特征与元素属性特性输入至第一个索引跨模态注意力层中进行编码，获得第一个单层索引权重；然后，根据获得的第一个单层索引权重和元素属性特征，得到第一个单层元素关系特征。

同理，将第一个单层元素关系特征作为关系预设特征，继续与元素属性特征输入至下一个索引跨模态注意力层中进行编码，得到第二个单层元素特征，具体可以包括：首先，将第一个单层元素关系特征当做关系预设特征，并与元素属性特性输入至下一个索引跨模态注意力层中进行编码，获得第二个单层索引权重；然后，根据获得的第二个单层索引权重和元素属性特征，得到第二个单层元素关系特征。

在具体实施时，在本发明实施例提供的上述视觉定位方法中，可以采用第一公式（1）获得单层索引权重；第一公式（1）为：

；（1）

其中，为关系预设特征，为元素属性特征，为元素属性特征的维度，为单层索引权重，和分别为大小为的可学习转移矩阵参数；实际应用中，可以为关系预设特征对应的查询转移矩阵参数，可以为元素属性特征对应的键转移矩阵参数，softmax表示归一化指数函数。

在具体实施时，在本发明实施例提供的上述视觉定位方法中，可以采用第二公式（2）得到单层元素关系特征；第二公式（2）为：

；（2）

其中，为单层元素关系特征，为元素属性特征对应的数值转移矩阵参数。

在实施中，单层元素关系特征被当作关系预设特征，继续连同元素属性特征输入到后面的索引跨模态注意力层中，最终层的输出被称为元素关系特征。

在具体实施时，在本发明实施例提供的上述视觉定位方法中，上述步骤中根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库，具体可以包括：将各索引跨模态注意力层输出的单层元素关系特征进行相乘并排序；输出排序后的最大两个索引并作为元素索引，得到元素索引库。

在实施中，每个索引跨模态注意力层中都会输出一个单层元素关系特征，表示第几层。将单层元素关系特征输入到索引计算层中进行计算，具体可以采用第三公式（3）得到元素索引库；第三公式（3）为：

；（3）

上述第三公式（3）先将若干进行相乘，再将排序后的最大的2个索引输出，作为该关系的元素索引，因此元素索引库的大小为。

之后，元素关系特征与元素属性特征可以合并为大小为的元素第一综合特征，在经过与文本编码特征的跨注意力编码之后，可以得到大小为的元素第二综合特征。

进一步地，在具体实施时，在本发明实施例提供的上述视觉定位方法中，步骤S106对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征，具体可以包括以下步骤：

首先，将元素第二综合特征进行拆分，得到关系拆分特征和元素拆分特征；

然后，将关系拆分特征和元素拆分特征分别输入至跨注意力编码器中进行编码，得到关系编码特征和元素编码特征；

之后，将关系编码特征和元素索引库输入到元素权重重构中，得到索引元素补偿特征；

最后，根据索引元素补偿特征和元素编码特征，得到视觉溯源特征。

图4为本发明实施例提供的溯源编码器的编码过程示意图。如图4所示，元素第二综合特征被拆分为两部分，分别为关系拆分特征和元素拆分特征；其中，关系拆分特征的大小为，元素拆分特征的大小为。之后，二者被分别被跨注意力编码器编码，得到关系编码特征和元素编码特征；其中，关系编码特征的大小为，元素编码特征的大小为。

在具体实施时，在本发明实施例提供的上述视觉定位方法中，可以采用第四公式（4）得到关系编码特征；第四公式（4）为：

；（4）

其中，为关系拆分特征，为元素拆分特征，为关系编码特征，、、均为关系拆分特征对应的可学习转移矩阵参数矩阵。实际应用中，为关系拆分特征对应的查询转移矩阵参数，为元素拆分特征对应的键转移参数矩阵，为元素拆分特征对应的数值转移矩阵参数，为元素拆分特征的维度。

在具体实施时，在本发明实施例提供的上述视觉定位方法中，可以采用第五公式（5）得到元素编码特征；第五公式（5）为：

；（5）

其中，为元素编码特征，、、均为元素拆分特征对应的可学习转移矩阵参数矩阵。实际应用中，为元素拆分特征对应的查询转移矩阵参数，为关系拆分特征对应的键转移矩阵参数，为关系拆分特征对应的数值转移矩阵参数，为关系拆分特征的维度。

在具体实施时，在本发明实施例提供的上述视觉定位方法中，上述步骤中将关系编码特征和元素索引库输入到元素权重重构中，得到索引元素补偿特征，具体可以包括：首先，构建与元素编码特征相同大小的全零矩阵，并作为初始的元素补偿矩阵；然后，将关系编码特征中各特征按照元素索引库指向的索引加到元素补偿矩阵的对应位置中，得到索引元素补偿特征。

在实施中，为了要将关系特征加载到元素特征中方便后续的编解码，同时考虑不同的关系对整体影响的强弱，换言之，要考虑每个特征所携带的信息量大小，如图4所示，本发明将元素编码特征输入到元素权重重构中，先构造与元素编码特征相同大小（）的全零矩阵，记为初始元素补偿矩阵；后将关系编码特征中各特征按照元素索引库指向的索引加到预先构建的元素补偿矩阵的对应位置中，得到索引元素补偿特征。

在具体实施时，在本发明实施例提供的上述视觉定位方法中，上述步骤中将关系编码特征中各特征按照元素索引库指向的索引加到元素补偿矩阵的对应位置中，得到索引元素补偿特征，具体可以包括以下步骤：

首先，构造关系打分矩阵；关系打分矩阵的大小可以为。

然后，根据关系编码特征得到当前关系包含的信息含量大小和当前关系包含的其他关系中未含有的信息含量大小，并分别存储至关系打分矩阵中。

在具体实施时，将关系编码特征按照第六公式（6）进行计算可以得到当前关系包含的信息含量大小；第六公式（6）为：

；（6）

将关系编码特征按照第七公式（7）进行计算可以得到当前关系包含的其他关系中未含有的信息含量大小；第七公式（7）为：

；（7）

其中，为关系编码特征中当前关系的特征，为当前关系包含的信息含量大小，为关系编码特征中的每一行特征，为中除当前关系之外的其他关系的特征，为当前关系包含的其他关系中未含有的信息含量大小，sum表示求和运算的函数，max表示取最大值的函数。

计算后将、分别存入对应位置的关系打分矩阵中。

之后，利用关系打分矩阵进行打分并排序，得到关系编码特征中各特征在关系打分矩阵中的次序。

在具体实施时，可以按照第八公式（8）利用关系打分矩阵进行打分；第八公式（8）为：

；（8）

其中，为关系编码特征中各特征的分值，为可预设的超参数。

在打分后可以将分数进行排序，得到各特征在关系打分矩阵中的次序。

最后，基于各特征在关系打分矩阵中的次序，将各特征按照元素索引库指向的索引加到元素补偿矩阵的对应位置中，得到索引元素补偿特征。

在实施中，对于关系编码矩阵（大小为），遍历，将该维特征按照元素索引库指向的两个索引加到初始元素补偿矩阵的对应位置中。初始元素补偿矩阵变为索引元素补偿向量。该操作将该关系涉及到的元素的位置的特征进行了加强。

在具体实施时，可以采用第九公式（9）得到索引元素补偿特征；第九公式（9）为：

；（9）

其中，表示元素补偿矩阵中的第个特征，表示元素拆分特征中的第个特征，是可设置的超参数，表示关系编码特征中各特征在关系打分矩阵中的次序。上述第九公式表示的值重新赋值给。

进一步地，在具体实施时，在本发明实施例提供的上述视觉定位方法中，上述步骤中根据索引元素补偿特征和元素编码特征，得到视觉溯源特征，具体可以包括：将索引元素补偿特征和元素编码特征进行索引位置的融合，得到视觉溯源特征。

在实施中，如图4所示，索引元素补偿向量和元素编码特征在经过索引位置的融合后，可以得到视觉溯源特征。

在上述实施例中，对于视觉定位方法进行了详细描述，本发明还提供视觉定位装置、视觉定位设备对应的实施例。需要说明的是，本发明从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件的角度。

图5为本发明实施例提供的视觉定位装置的结构示意图。本实施例基于功能模块的角度，如图5所示，该装置包括：

元素属性特征提取模块10，用于从输入图像中提取元素属性特征；

关联提取网络推理模块11，用于将元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库；元素索引库用于存储元素关系特征中每个关系的元素索引；

第一综合特征拼接模块12，用于将元素关系特征和元素属性特征进行拼接，得到元素第一综合特征；

文本编码特征获取模块13，用于从输入文本中获取文本编码特征；

第二综合特征提取模块14，用于对文本编码特征与元素第一综合特征进行跨模态编码，提取元素第二综合特征；

溯源编码模块15，用于对元素第二综合特征与元素索引库进行溯源编码，得到视觉溯源特征；

定位解码模块16，用于将视觉溯源特征和文本编码特征拼接成多模态溯源特征，经定位解码器处理后输出从输入图像中定位的导致输入文本事件发生的对应元素位置。

在本发明实施例提供的上述视觉定位装置中，可以通过上述七个模块的相互作用，将图像中的元素关系与属性进行有效结合，获取需要的视觉要素和关系，且有助于理解人类的语言需求中多模态的内容，根据视觉要素和关系进行视觉因果溯源的综合推理，从而推理出人类的需求在视觉上的体现，进而解决了在图像中定位事件原因的任务，最终得到准确的定位坐标结果。这样的视觉定位装置具有因果推理能力以及多模态理解能力，有助于人工智能进一步理解因果逻辑，更好地实现通用人工智能。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。并且具有与上述提到的视觉定位方法相同的有益效果。

进一步地，在具体实施时，在本发明实施例提供的上述视觉定位装置中，元素属性特征提取模块10，具体可以用于将输入图像输入到视觉编码器中提取视觉特征，并将视觉特征作为元素属性特征；视觉特征包括输入图像中被检测的多个元素和元素对应的多维属性特征。

在实施中，元素属性特征提取模块10可以将输入图像输入到视觉编码器中提取视觉特征，记为元素属性特征。实际应用中，元素属性特征提取模块10可提取到输入图像中个元素的维属性特征。

进一步地，在具体实施时，在本发明实施例提供的上述视觉定位装置中，关联提取网络推理模块11，具体可以包括：

单层元素关系特征获取单元，用于将元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征；

元素索引库获取单元，用于根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库。

上述关联提取网络是一种深度学习模型，用于从元素属性特征中提取各元素之间的关系，以及每个关系的元素索引，可以用来专门为元素之间的关系进行建模、表征。

在实施中，关联提取网络推理模块11可以将元素属性特征与对应的关系预设特征输入到关联提取网络中的多个索引跨模态注意力层，即元素属性特征与初始的关系预设特征输入到第一个索引跨模态注意力层，得到第一个索引跨模态注意力层输出的单层元素关系特征，接下来，元素属性特征与当前的关系预设特征输入到第二个索引跨模态注意力层，得到第二个索引跨模态注意力层输出的单层元素关系特征，依次类推，可得到各索引跨模态注意力层输出的单层元素关系特征。另外，关联提取网络推理模块11还可以将各索引跨模态注意力层输出的单层元素关系特征输入到关联提取网络中的索引计算层中进行计算，得到元素索引库。

在具体实施时，关联提取网络推理模块11，具体还可以包括：

初始关系预设特征设置单元，用于将各元素之间的关系用向量表示，并使用随机高斯概率分布进行预设，得到初始的关系预设特征。

在实施中，通过关联提取网络推理模块11中的初始关系预设特征设置单元可以预设一个用来表示关系的向量，大小为，表示关系数量，该向量被使用随机高斯概率分布进行预设。通过单层元素关系特征获取单元可以将该向量与元素属性特征共同输入到第一个索引跨模态注意力层中进行编码。

对应地，关联提取网络推理模块11中的单层元素关系特征获取单元，具体可以用于将初始的关系预设特征与元素属性特性输入至第一个索引跨模态注意力层中进行编码，得到第一个单层元素关系特征；将第一个单层元素关系特征作为关系预设特征，继续与元素属性特征输入至下一个索引跨模态注意力层中进行编码，得到第二个单层元素特征；将第二个单层元素关系特征作为关系预设特征，继续与元素属性特征进行编码的步骤；直至得到最后一个索引跨模态注意力层输出的最后一个单层元素关系特征，并作为关联提取网络输出的元素关系特征。

在实施中，关联提取网络推理模块11中的单层元素关系特征获取单元可以将初始的关系预设特征与元素属性特性输入至第一个索引跨模态注意力层中进行编码，获得第一个单层索引权重；根据获得的第一个单层索引权重和元素属性特征，得到第一个单层元素关系特征。同理，关联提取网络推理模块11中的单层元素关系特征获取单元可以将第一个单层元素关系特征当做关系预设特征，并与元素属性特性输入至下一个索引跨模态注意力层中进行编码，获得第二个单层索引权重；根据获得的第二个单层索引权重和元素属性特征，得到第二个单层元素关系特征。

进一步地，在具体实施时，关联提取网络推理模块11中的元素索引库获取单元，具体可以用于将各索引跨模态注意力层输出的单层元素关系特征进行相乘并排序；输出排序后的最大两个索引并作为元素索引，得到元素索引库。

在实施中，每个索引跨模态注意力层中都会输出一个单层元素关系特征，表示第几层。关联提取网络推理模块11中的元素索引库获取单元可以将若干进行相乘，再将排序后的最大的2个索引输出，作为该关系的元素索引，因此元素索引库的大小为。

基于此，第一综合特征拼接模块12可以将元素关系特征与元素属性特征合并为大小为的元素第一综合特征。

第二综合特征提取模块14可以在将元素第一综合特征与文本编码特征进行跨注意力编码，得到大小为的元素第二综合特征。

进一步地，在具体实施时，在本发明实施例提供的上述视觉定位装置中，溯源编码模块15，具体可以包括：

特征拆分单元，用于将元素第二综合特征进行拆分，得到关系拆分特征和元素拆分特征；

跨注意力编码单元，用于将关系拆分特征和元素拆分特征分别输入至跨注意力编码器中进行编码，得到关系编码特征和元素编码特征；

元素权重重构单元，用于将关系编码特征和元素索引库输入到元素权重重构中，得到索引元素补偿特征；

视觉溯源特征获取单元，根据索引元素补偿特征和元素编码特征，得到视觉溯源特征。

在实施中，通过溯源编码模块15中的特征拆分单元将元素第二综合特征拆分为两部分，分别为关系拆分特征和元素拆分特征；其中，关系拆分特征的大小为，元素拆分特征的大小为。通过溯源编码模块15中的跨注意力编码单元将关系拆分特征和元素拆分特征分别被跨注意力编码器编码，得到关系编码特征和元素编码特征；其中，关系编码特征的大小为，元素编码特征的大小为。

为了要将关系特征加载到元素特征中方便后续的编解码，同时考虑不同的关系对整体影响的强弱，换言之，要考虑每个特征所携带的信息量大小，通过溯源编码模块15中的元素权重重构单元将关系编码特征和元素索引库输入到元素权重重构中，得到索引元素补偿特征。

在具体实施中，元素权重重构单元，具体可以用于构建与元素编码特征相同大小的全零矩阵，并作为初始的元素补偿矩阵；将关系编码特征中各特征按照元素索引库指向的索引加到元素补偿矩阵的对应位置中，得到索引元素补偿特征。

在可能的实施方式中，上述元素权重重构单元可以包括：

全零矩阵构造子单元，用于构造与元素编码特征相同大小的全零矩阵，记为初始元素补偿矩阵；

关系打分矩阵构造子单元，用于构造关系打分矩阵；

信息量获取子单元，用于根据关系编码特征得到当前关系包含的信息含量大小和当前关系包含的其他关系中未含有的信息含量大小，并分别存储至关系打分矩阵中；

打分排序子单元，用于利用关系打分矩阵进行打分并排序，得到关系编码特征中各特征在关系打分矩阵中的次序；

元素补偿子单元，用于基于各特征在关系打分矩阵中的次序，将各特征按照元素索引库指向的索引加到元素补偿矩阵的对应位置中，得到索引元素补偿特征。

在实施中，上述元素权重重构单元中全零矩阵构造子单元可以构造与元素编码特征相同大小的全零矩阵，记为初始元素补偿矩阵，初始元素补偿矩阵的大小可以为。关系打分矩阵构造子单元可以构造关系打分矩阵；该关系打分矩阵的大小可以为。

信息量获取子单元可以根据关系编码特征得到当前关系包含的信息含量大小和当前关系包含的其他关系中未含有的信息含量大小，并分别存储至关系打分矩阵中。打分排序子单元可以利用关系打分矩阵对当前关系包含的信息含量大小和当前关系包含的其他关系中未含有的信息含量大小进行打分，在打分后可以将分数进行排序，得到各特征在关系打分矩阵中的次序。元素补偿子单元可以对于关系编码矩阵（大小为），遍历，将该维特征按照元素索引库指向的两个索引加到初始元素补偿矩阵的对应位置中，此时初始元素补偿矩阵变为索引元素补偿向量。元素补偿子单元的操作可以对该关系涉及到的元素的位置的特征进行了加强处理。

在具体实施中，视觉溯源特征获取单元，可以用于将索引元素补偿特征和元素编码特征进行索引位置的融合，得到视觉溯源特征。

在实施中，通过溯源编码模块15中的视觉溯源特征获取单元将索引元素补偿向量和元素编码特征经过索引位置的融合后，可以得到视觉溯源特征。视觉溯源特征可用于描述和识别待定位的导致输入文本事件发生的目标元素。

本发明是利用元素索引库中存储的元素关系特征中每个关系的元素索引来对元素第二综合特征进行溯源编码，得到视觉溯源特征，可以达到视觉因果溯源的综合推理的目的，便于后续识别和定位图像中目标元素，提高视觉定位任务的精度和效率。

图6为本发明实施例提供的视觉定位设备的结构示意图。本实施例基于硬件角度，如图6所示，视觉定位设备包括：

存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例中所提到的视觉定位方法的步骤。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器（Digital Signal Processor，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable LogicArray，PLA）中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以集成有图形处理器（Graphics Processing Unit，GPU），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括人工智能（Artificial Intelligence，AI）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的视觉定位方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于上述所提到的视觉定位方法所涉及到的数据等。

在一些实施例中，视觉定位设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图6中示出的结构并不构成对视觉定位设备的限定，可以包括比图示更多或更少的组件。

本发明实施例提供的视觉定位设备，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：视觉定位方法，效果同上。

最后，本发明还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明提供的计算机可读存储介质包括上述提到的视觉定位方法，效果同上。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的视觉定位方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明的保护范围内。

Claims

1.一种视觉定位方法，其特征在于，所述方法包括：

从输入图像中提取元素属性特征；

将所述元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库，包括：将所述元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征；根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库；所述元素索引库用于存储所述元素关系特征中每个关系的元素索引；

从输入文本中获取文本编码特征；

对所述元素第二综合特征与所述元素索引库进行溯源编码，得到视觉溯源特征，包括：将所述元素第二综合特征进行拆分，得到关系拆分特征和元素拆分特征；将所述关系拆分特征和所述元素拆分特征分别输入至跨注意力编码器中进行编码，得到关系编码特征和元素编码特征；将所述关系编码特征和所述元素索引库输入到元素权重重构中，得到索引元素补偿特征；根据所述索引元素补偿特征和所述元素编码特征，得到视觉溯源特征；

2.根据权利要求1所述的视觉定位方法，其特征在于，在将所述元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码之前，还包括：

3.根据权利要求2所述的视觉定位方法，其特征在于，将所述元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征，包括：

4.根据权利要求3所述的视觉定位方法，其特征在于，将关系预设特征与所述元素属性特性输入至索引跨模态注意力层中进行编码，得到单层元素关系特征的过程中，包括：

5.根据权利要求4所述的视觉定位方法，其特征在于，采用第一公式获得单层索引权重；所述第一公式为：

；

6.根据权利要求5所述的视觉定位方法，其特征在于，采用第二公式得到单层元素关系特征；所述第二公式为：

；

7.根据权利要求6所述的视觉定位方法，其特征在于，根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库，包括：

8.根据权利要求7所述的视觉定位方法，其特征在于，采用第三公式得到元素索引库；所述第三公式为：

；

9.根据权利要求1所述的视觉定位方法，其特征在于，采用第四公式得到关系编码特征；所述第四公式为：

；

10.根据权利要求9所述的视觉定位方法，其特征在于，采用第五公式得到元素编码特征；所述第五公式为：

；

11.根据权利要求1所述的视觉定位方法，其特征在于，将所述关系编码特征和所述元素索引库输入到元素权重重构中，得到索引元素补偿特征，包括：

12.根据权利要求11所述的视觉定位方法，其特征在于，将所述关系编码特征中各特征按照所述元素索引库指向的索引加到所述元素补偿矩阵的对应位置中，得到索引元素补偿特征，包括：

构造关系打分矩阵；

13.根据权利要求12所述的视觉定位方法，其特征在于，采用第六公式得到当前关系包含的信息含量大小；所述第六公式为：

；

14.根据权利要求13所述的视觉定位方法，其特征在于，采用第八公式利用所述关系打分矩阵进行打分；所述第八公式为：

；

其中，为所述关系编码特征中各特征的分值，为超参数。

15.根据权利要求14所述的视觉定位方法，其特征在于，采用第九公式得到索引元素补偿特征；所述第九公式为：

；

16.根据权利要求1所述的视觉定位方法，其特征在于，根据所述索引元素补偿特征和所述元素编码特征，得到视觉溯源特征，包括：

17.根据权利要求1所述的视觉定位方法，其特征在于，从输入图像中提取元素属性特征，包括：

18.根据权利要求1所述的视觉定位方法，其特征在于，从输入文本中获取文本编码特征，包括：

19.一种视觉定位装置，其特征在于，所述装置包括：

关联提取网络推理模块，用于将所述元素属性特征输入到关联提取网络，得到元素关系特征和元素索引库；所述元素索引库用于存储所述元素关系特征中每个关系的元素索引；所述关联提取网络推理模块包括：单层元素关系特征获取单元，用于将元素属性特征与对应的关系预设特征输入到多个索引跨模态注意力层中进行编码，得到各索引跨模态注意力层输出的单层元素关系特征；元素索引库获取单元，用于根据各索引跨模态注意力层输出的单层元素关系特征，得到元素索引库；

溯源编码模块，用于对所述元素第二综合特征与所述元素索引库进行溯源编码，得到视觉溯源特征；所述溯源编码模块包括：特征拆分单元，用于将元素第二综合特征进行拆分，得到关系拆分特征和元素拆分特征；跨注意力编码单元，用于将关系拆分特征和元素拆分特征分别输入至跨注意力编码器中进行编码，得到关系编码特征和元素编码特征；元素权重重构单元，用于将关系编码特征和元素索引库输入到元素权重重构中，得到索引元素补偿特征；视觉溯源特征获取单元，根据索引元素补偿特征和元素编码特征，得到视觉溯源特征；

20.一种视觉定位设备，其特征在于，所述设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至18任一项所述的视觉定位方法的步骤。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至18任一项所述的视觉定位方法的步骤。