CN113515886B

CN113515886B - 基于地标特征卷积的视觉定位方法、系统、终端及介质

Info

Publication number: CN113515886B
Application number: CN202110469726.XA
Authority: CN
Inventors: 高盛华; 黄彬彬; 廉东泽
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-11-24
Anticipated expiration: 2041-04-28
Also published as: CN113515886A

Abstract

本发明的基于地标特征卷积的视觉定位方法、系统、终端及介质，过提取输入的待定位图像的视觉特征以及输入的语言描述信息中的语言特征，将所述视觉特征图的视觉特征与所述语言特征融合获得融合特征图，基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图，以对所述地标特征图进行定位。本发明针对建模上下文信息对现有的方法进行改进，证明显示地建模物体间信息对指代性表达式理解具有重要意义，并增加全局理解的场景精度，解决了现有技术的问题。

Description

基于地标特征卷积的视觉定位方法、系统、终端及介质

技术领域

本发明视觉技术领域，特别是涉及一种基于地标特征卷积的视觉定位方法、系统、终端及介质。

背景技术

指代表达式理解，即Referring Expression Comprehension，目的是在给定图像和语言描述下检测出语言所描述的目标。针对指代表达式理解的方法可以分为两类，两阶段方法和一阶段方法。两阶段方法，首先提取用一个离线的物体检测器先检测出候选的区域，然后用区域池化得到的特征与语言特征进行匹配，选出与语言最相符的区域作为结果。一阶段方法则同时进行检测和匹配，对于输入图片得到的特征图进行与语言的融合，最后再回归出目标区域的包围盒。相比于两阶段方法，由于端到端的推理，一阶段方法拥有实时的推理速度。然而，这些一阶段方法缺少对物体间关系的建模，场景中的上下文没有得到充分挖掘，因而对于需要全局理解的场景精度很低。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于地标特征卷积的视觉定位方法、系统、终端及介质，用于解决现有技术中所涉及的一阶段方法缺少对物体间关系的建模，场景中的上下文没有得到充分挖掘，因而对于需要全局理解的场景精度很低的问题。

为实现上述目的及其他相关目的，本发明提供一种基于地标特征卷积的视觉定位方法，包括:提取输入的待定位图像的视觉特征，并获得视觉特征图；提取输入的语言描述信息中的语言特征；将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图；基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图；其中，所述地标特征区域通过分别以所述融合特征图的各点为中心划分所述融合特征图获得；对所述地标特征图进行定位，以获得视觉定位信息。

于本发明的一实施例中，所述基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图的方式包括：以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域；对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图。

于本发明的一实施例中，对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图包括：对对应各点的各地标特征区域分别采用一映射函数映射，获得对应各地标特征区域的地标特征；其中，各映射函数分别包括：学习参数；对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图。

于本发明的一实施例中，所述对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图包括：利用动态规划算法，对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图。

于本发明的一实施例中，所述以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域包括：以所述融合特征图中的各点为中心分别将所述融合特征图划分为四个90度夹角等分的地标特征区域。

于本发明的一实施例中，所述将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图包括：将所述不同尺度的视觉特征图中的视觉特征与所述语言特征融合，获得不同尺度的初始融合特征图；将不同尺度的初始融合特征图进行结合，获得融合特征图。

为实现上述目的及其他相关目的，本发明提供一种基于地标特征卷积的视觉定位系统，所述系统包括：视觉特征提取模块，用于提取输入的待定位图像的视觉特征，并获得视觉特征图；语言特征提取模块，用于提取输入的语言描述信息中的语言特征；特征融合模块，连接所述视觉特征提取模块以及语言特征提取模块，用于将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图；地标特征卷积模块，连接所述特征融合模块，用于基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图；其中，所述地标特征区域通过分别以所述融合特征图的各点为中心划分所述融合特征图获得；定位模块，连接所述地标特征卷积模块，用于对所述地标特征图进行定位，以获得视觉定位信息。

于本发明的一实施例中，所述地标特征卷积模块包括：区域划分单元，用于以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域；特征卷积单元，连接所述区域划分单元，对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图。

为实现上述目的及其他相关目的，本发明提供一种基于地标特征卷积的视觉定位终端，包括：存储器，用于存储计算机程序；处理器，用于执行所述的基于地标特征卷积的视觉定位方法。

为实现上述目标及其他相关目标，本申请提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被一个或多个处理器运行时执行所述的基于地标特征卷积的视觉定位方法。

如上所述，本发明是一种基于地标特征卷积的视觉定位方法、系统、终端及介质，具有以下有益效果：本发明通过提取输入的待定位图像的视觉特征以及输入的语言描述信息中的语言特征，将所述视觉特征图的视觉特征与所述语言特征融合获得融合特征图，基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图，以对所述地标特征图进行定位。本发明针对建模上下文信息对现有的方法进行改进，证明显示地建模物体间信息对指代性表达式理解具有重要意义，并增加全局理解的场景精度。

附图说明

图1显示为本发明一实施例中的基于地标特征卷积的视觉定位方法的流程示意图。

图2显示为本发明一实施例中的基于地标特征卷积的视觉定位系统的结构示意图。

图3显示为本发明一实施例中的基于地标特征卷积的视觉定位网络LBYL-Ne的结构示意图。

图4显示为本发明一实施例中的基于地标特征卷积的视觉定位终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此，以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内，可以言及到第二部分、成分、区域、层或段。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本发明提供一种基于地标特征卷积的视觉定位方法，通过提取输入的待定位图像的视觉特征以及输入的语言描述信息中的语言特征，将所述视觉特征图的视觉特征与所述语言特征融合获得融合特征图，基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图，以对所述地标特征图进行定位。本发明针对建模上下文信息对现有的方法进行改进，证明显示地建模物体间信息对指代性表达式理解具有重要意义，并增加全局理解的场景精度，解决了现有技术的问题。

下面以附图为参考，针对本发明的实施例进行详细说明，以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现，并不限于此处说明的实施例。

如图1所示，展示本发明实施例中的基于地标特征卷积的视觉定位方法的流程示意图。

所述方法包括：

步骤S11：提取输入的待定位图像的视觉特征，并获得视觉特征图。

可选的，采用视觉特征提取模型，提取输入的待定位图像的视觉特征，并输出视觉特征图；其中，所述视觉特征提取模型由图像样本集以及对应图像样本集中各图像的视觉特征分别作为输入以及输出进行训练。

可选的，所述视觉特征提取模型采用基于暗网53(DarkNet-53)的特征金字塔(FPN)的骨干网络结构来提取不同尺度的特征；优选的，所述骨干网络结构选择层级分别为P3，P4，P5的金字塔特征，并应用卷积映射到同一纬度，再对每层金字塔再合并一个8维的坐标嵌入特征，进而输出不同尺度的视觉特征图。

步骤S12：提取输入的语言描述信息中的语言特征。

可选的，采用语言特征提取模型，提取输入的语言描述信息的语言特征；其中，所述语言特征提取模型由语言描述样本集以及对应语言描述样本集中各语言描述信息的语言特征分别作为输入以及输出进行训练。

可选的，语言特征提取模型采用LSTM或者BERT结构。

步骤S13：将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图。

可选的，将所述不同尺度的视觉特征图中的视觉特征与所述语言特征融合，获得不同尺度的初始融合特征图；将不同尺度的初始融合特征图进行结合，获得融合特征图。

可选的，将所述不同尺度的视觉特征图中的视觉特征与所述语言特征融合，获得不同尺度的初始融合特征图；优选的，利用FiLM模型将将所述不同尺度的视觉特征图中的视觉特征与所述语言特征融合，获得不同尺度的初始融合特征图。

可选的，为了能够充分考虑上下文信息，我们可以利用BFPN模型，将不同尺度的初始融合特征图进行结合获得融合特征图，以此来构建大小物体关系的桥梁。

步骤S14：基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图。

在本实施例中，所述地标特征区域通过分别以所述融合特征图的各点为中心划分所述融合特征图获得。

可选的，所述基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图的方式包括：

以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域；对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图。

举例来说，以所述融合特征图X中的每一点p₀为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域对对应各点的各地标特征区域分别应用一映射函数F:R^h×w×c→R^1×1×c，以获得包含对应各地标特征区域的地标特征的地标特征图Y。

在本实施例中，对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图包括：

对对应各点的各地标特征区域分别采用一映射函数映射，获得对应各地标特征区域的地标特征；其中，各映射函数分别包括：学习参数；对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图。

举例来说，对对应各点的各地标特征区域分别采用一对应一学习参数w(r_n)的映射函数F:R^h×w×c→R^1×1×c映射，获得对应各地标特征区域的地标特征F(X(r_n)；对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得地标特征图Y，如以下所示：

可选的，为了算法的效率，映射函数简单实现为Maxpool(Conv(·))。对于所有的位置进行地标卷积，我们使用了一个高效的动态规划算法,对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图。例如，对于每个位置划分为4个矩形子区域的情况下，表1为应用动态规划算法的地标特征卷积算法。

表1：应用动态规划算法的地标特征卷积算法

可选的，所述以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域包括：以所述融合特征图中的各点为中心分别将所述融合特征图划分为四个90度夹角等分的地标特征区域。

步骤S15：对所述地标特征图进行定位，以获得视觉定位信息。

可选的，采用定位模型，对所述地标特征图进行定位，以获得用于描述检测出语言所描述的目标在所述待定位图像的视觉定位信息。

可选的，采用YOLOv3模型，根据输入的地标特征图输出视觉定位信息。优选的，整个训练的损失函数由定位项l_loc和回归项l_reg组成，即l＝l_loc+βl_reg；其中，我们经验地取β＝5。

与上述实施例原理相似的是，本发明提供一种基于地标特征卷积的视觉定位系统。

以下结合附图提供具体实施例：

如图2展示本发明实施例中的一种基于地标特征卷积的视觉定位系统的结构示意图。

所述系统包括：

视觉特征提取模块21，用于提取输入的待定位图像的视觉特征，并获得视觉特征图；

语言特征提取模块22，用于提取输入的语言描述信息中的语言特征；

特征融合模块23，连接所述视觉特征提取模块21以及语言特征提取模块22，用于将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图；

地标特征卷积模块24，连接所述特征融合模块23，用于基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图；其中，所述地标特征区域通过分别以所述融合特征图的各点为中心划分所述融合特征图获得；

定位模块25，连接所述地标特征卷积模块24，用于对所述地标特征图进行定位，以获得视觉定位信息。

需说明的是，应理解图2系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现；

例如各模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

因此，由于该基于地标特征卷积的视觉定位系统的实现原理已在前述实施例中进行了叙述，因此此处不作重复赘述。

可选的，所述地标特征卷积模块包括：区域划分单元，用于以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域；特征卷积单元，连接所述区域划分单元，对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图。

可选的，所述特征卷积单元还用于对对应各点的各地标特征区域分别采用一映射函数映射，获得对应各地标特征区域的地标特征；其中，各映射函数分别包括：学习参数；对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图。

可选的，为了算法的效率，对于所有的位置进行地标卷积，我们使用了一个高效的动态规划算法,对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图。

为了更好的描述所述基于地标特征卷积的视觉定位系统，提供一具体实施例；

实施例1：一种实现所述基于地标特征卷积的视觉定位系统功能的基于地标特征卷积的视觉定位网络LBYL-Ne。

如图3所示，视觉定位网络LBYL-Ne包括：

视觉和语言编码器；首先将图片输入到一个基于暗网53(DarkNet-53)的特征金字塔(FPN)的骨干网络来提取不同尺度的特征。本发明选择层级为P3，P4，P5的金字塔特征。其次，应用一个1×1卷积映射到同一纬度。然后，对于每层金字塔再合并一个8维的坐标嵌入特征(Yang et.al 19)。对于语言特征，我们用LSTM或者BERT提取输入的语言描述信息中的语言特征。

特征融合模块，用于使用FiLM(Perez et al.2018)来将语言特征与视觉特征进行融合，获得融合特征图；由于FPN把不同尺度的物体分配给不同的金字塔。为了能够充分考虑上下文信息，我们使用BFPN(Pan et al.2019)构建大小物体关系的桥梁。

地标卷积模块，用于对于融合特征图上的每一个点p₀,以该点为中心分别把整个特征图划分为夹角等分的四个区域，一共获得n个区域对各个区域应用一个映射函数F:R^h×w×c→R^1×1×c得到区域池化点特征。对这些区域用可学习的参数进行加权求和获得地标特征图Y，如以下所示：

定位模块，用于采用YOLOv3模型，根据输入的地标特征图输出视觉定位信息。整个模型训练的损失函数由定位项和回归项组成，即l＝l_loc+βl_reg。我们经验地取β＝5。

所述视觉定位网络LBYL-Ne的训练过程包括：先在COCO数据集上预训练一个DarkNet-53网络，作为一个骨干网络。其次，利用Adam优化器在整个LBYL-Net，具体参数为：学习率设置为0.0001，权重衰减为0.0001，最下批大小为64，总共训练100个epoch,使用2张TITANX GPU进行训练，使用图片的输入尺寸为256x256。LSTM则是从头训练，以及不需要要预先训练的词向量。

我们在4个公开数据集上验证了本实施例的有效性，这些公开数据集包括ReferItGame,RefCOCO，RefCOCO+，RefCOCOg。评价指标即在预测的包围盒与真实包围盒的IOU如超过0.5则视为正确的条件下预测的定位准确率，本实施例的准确率明显高于现有技术的准确率。

如图4展示本发明实施例中的基于地标特征卷积的视觉定位终端40的结构示意图。

所述基于地标特征卷积的视觉定位终端40包括：存储器41及处理器42所述存储器41用于存储计算机程序；所述处理器42运行计算机程序实现如图1所述的基于地标特征卷积的视觉定位方法。

可选的，所述存储器41的数量均可以是一或多个，所述处理器42的数量均可以是一或多个，而图4中均以一个为例。

可选的，所述基于地标特征卷积的视觉定位终端40中的处理器42会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器41中，并由处理器42来运行存储在第一存储器41中的应用程序，从而实现如图1所述基于地标特征卷积的视觉定位方法中的各种功能。

可选的，所述存储器41，可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备；所述处理器42，可能包括但不限于中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的，所述处理器42可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供计算机可读存储介质，存储有计算机程序，所述计算机程序运行时实现如图1所示的基于地标特征卷积的视觉定位方法。所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

综上所述，本发明基于地标特征卷积的视觉定位方法、系统、终端及介质，通过提取输入的待定位图像的视觉特征以及输入的语言描述信息中的语言特征，将所述视觉特征图的视觉特征与所述语言特征融合获得融合特征图，基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图，以对所述地标特征图进行定位。本发明针对建模上下文信息对现有的方法进行改进，证明显示地建模物体间信息对指代性表达式理解具有重要意义，并增加全局理解的场景精度。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于地标特征卷积的视觉定位方法，其特征在于，所述方法包括：

采用视觉特征提取模型提取输入的待定位图像的视觉特征，并获得视觉特征图；其中，所述视觉特征提取模型采用基于暗网53的特征金字塔的骨干网络结构来提取不同尺度的特征；所述骨干网络结构选择层级分别为P3、P4、P5的金字塔特征，并应用卷积映射到同一纬度，再对每层金字塔再合并一个8维的坐标嵌入特征，进而输出不同尺度的视觉特征图；

提取输入的语言描述信息中的语言特征；

将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图；

基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图；其中，所述地标特征区域通过分别以所述融合特征图的各点为中心划分所述融合特征图获得；

对所述地标特征图进行定位，以获得视觉定位信息；

其中，所述基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图的方式包括：以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域；对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图；

对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图包括：对对应各点的各地标特征区域分别采用一映射函数映射，获得对应各地标特征区域的地标特征；其中，各映射函数分别包括：学习参数；对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图；

对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图包括：利用动态规划算法，对对应各地标区域的地标特征以及该区域所对应的学习参数进行加权求和，获得包含对应各地标特征区域的地标特征的地标特征图；

将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图包括：将所述不同尺度的视觉特征图中的视觉特征与所述语言特征融合，获得不同尺度的初始融合特征图；

将不同尺度的初始融合特征图进行结合，获得融合特征图。

2.根据权利要求1中所述的基于地标特征卷积的视觉定位方法，其特征在于，所述以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域包括：

以所述融合特征图中的各点为中心分别将所述融合特征图划分为四个90度夹角等分的地标特征区域。

3.一种基于地标特征卷积的视觉定位系统，其特征在于，所述系统包括：

视觉特征提取模块，用于采用视觉特征提取模型提取输入的待定位图像的视觉特征，并获得视觉特征图；其中，所述视觉特征提取模型采用基于暗网53的特征金字塔的骨干网络结构来提取不同尺度的特征；所述骨干网络结构选择层级分别为P3、P4、P5的金字塔特征，并应用卷积映射到同一纬度，再对每层金字塔再合并一个8维的坐标嵌入特征，进而输出不同尺度的视觉特征图；

语言特征提取模块，用于提取输入的语言描述信息中的语言特征；

特征融合模块，连接所述视觉特征提取模块以及语言特征提取模块，用于将所述视觉特征图的视觉特征与所述语言特征融合，获得融合特征图；

地标特征卷积模块，连接所述特征融合模块，用于基于所述融合特征图，经过地标特征卷积获得具有各地标特征区域的地标特征的地标特征图；其中，所述地标特征区域通过分别以所述融合特征图的各点为中心划分所述融合特征图获得；

定位模块，连接所述地标特征卷积模块，用于对所述地标特征图进行定位，以获得视觉定位信息；

其中，所述地标特征卷积模块包括：区域划分单元，用于以所述融合特征图中的各点为中心分别将所述融合特征图划分为一或多个夹角等分的地标特征区域；特征卷积单元，连接所述区域划分单元，对对应各点的各地标特征区域分别应用一映射函数，以获得包含对应各地标特征区域的地标特征的地标特征图；

将不同尺度的初始融合特征图进行结合，获得融合特征图。

4.一种基于地标特征卷积的视觉定位终端，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行如权利要求1或2所述的基于地标特征卷积的视觉定位方法。

5.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序运行时实现如权利要求1或2所述的基于地标特征卷积的视觉定位方法。