CN117975472B

CN117975472B - 物体定位方法、装置、设备及介质

Info

Publication number: CN117975472B
Application number: CN202410382411.5A
Authority: CN
Inventors: 王耀威; 肖麟慧; 杨小汕; 徐常胜; 彭芳; 熊宝琛; 胡孟豪
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-06-21
Anticipated expiration: 2044-04-01
Also published as: CN117975472A

Abstract

本申请实施例提供了物体定位方法、装置、设备及介质，通过在前向过程从层级的角度整合多层级的文本表征和图像表征，实现多模态自适应；在反向过程中，在冻结图像编码器深层的网络层组的权重矩阵的情况下，先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵，逐步增加网络层组，在每次增加网络层组后重复更新低秩矩阵的过程；通过层级解耦，使图像编码器的学习率在不同适应阶段产生变化，保证图像编码器逐渐从浅层特征适应到深层特征，实现细粒度的跨模态特征的交互和对齐，通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。

Description

物体定位方法、装置、设备及介质

技术领域

本申请实施例涉及图像处理领域，尤其涉及物体定位方法、装置、设备及介质。

背景技术

图像视觉定位是通过根据文本的语义信息去识别图像中的特定区域，因此依赖于多模态特征之间交互和对齐。

对比视觉-语言预训练(Contrastive Language-Image Pretraining，CLIP)利用图像数据进行语言自监督，能够获得多模态表征。由于对比视觉-语言预训练的自监督预训练任务的限制，CLIP只能在图像级实现粗粒度的全局的文本和图像跨模态特征的对齐，而定位任务则需要精细和复杂的跨模态交互。这导致预训练任务与定位任务之间存在多模态任务的任务粒度差距。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一，本申请实施例提供了物体定位方法、装置、设备及介质，通过整合多层级的文本表征和图像表征并逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。

本申请的第一方面的实施例，一种物体定位方法，包括：

获取训练用的第一图像和第一文本；

通过所述第一图像和所述第一文本训练定位模型，得到目标定位模型；

获取待处理的第二图像和第二文本，将所述第二图像和所述第二文本输入至所述目标定位模型进行视觉定位处理，得到定位信息；

其中，所述定位模型包括图像编码器，所述图像编码器包括多个网络层；所述通过所述第一图像和所述第一文本训练定位模型，得到目标定位模型，包括：

在训练所述定位模型的前向过程中，从所述第一文本中提取得到多层级的文本编码；在每个所述网络层，对所述文本编码进行差异化特征感知得到差异文本编码，结合所述差异文本编码与所述第一图像进行特征提取，进而从所述第一图像中提取得到多层级的图像编码；根据所述文本编码和所述图像编码进行定位预测得到调参数据；

在训练定位模型的反向过程中，为由至少一个所述网络层组成的网络层组获取权重矩阵，将低秩矩阵作为训练参数添加至所述权重矩阵；冻结所述权重矩阵，并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵，以对所述图像编码器调参，得到调参后的图像编码器；

根据所述调参后的图像编码器得到目标定位模型。

本申请的第二方面的实施例，一种物体定位装置，包括：

训练单元，被设置为：获取训练用的第一图像和第一文本，通过所述第一图像和所述第一文本训练定位模型得到目标定位模型；

应用单元，被设置为：获取待处理的第二图像和第二文本，将所述第二图像和所述第二文本输入至所述目标定位模型进行视觉定位处理，得到定位信息；

其中，所述定位模型包括图像编码器，所述图像编码器包括多个网络层；所述训练单元还被设置为：在训练所述定位模型的前向过程中，从所述第一文本中提取得到多层级的文本编码；在每个所述网络层，对所述文本编码进行差异化特征感知得到差异文本编码，结合所述差异文本编码与所述第一图像进行特征提取，进而从所述第一图像中提取得到多层级的图像编码；根据所述文本编码和所述图像编码进行定位预测得到调参数据；在训练定位模型的反向过程中，为由至少一个所述网络层组成的网络层组获取权重矩阵，将低秩矩阵作为训练参数添加至所述权重矩阵；冻结所述权重矩阵，并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵，以对所述图像编码器调参，得到调参后的图像编码器；根据所述调参后的图像编码器得到目标定位模型。

本申请的第三方面的实施例，一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的物体定位方法。

本申请的第四方面的实施例，一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上所述的物体定位方法。

上述方案至少具有以下的有益效果：通过在前向过程从层级的角度整合多层级的文本表征和图像表征，实现多模态自适应；在反向过程中，在冻结图像编码器深层的网络层组的权重矩阵的情况下，先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵，逐步增加网络层组，在每次增加网络层组后重复更新低秩矩阵的过程；通过层级解耦，使图像编码器的学习率在不同适应阶段产生变化，保证图像编码器逐渐从浅层特征适应到深层特征，实现细粒度的跨模态特征的交互和对齐，通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距；有利于在视觉定位任务达到更加精准的性能。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是定位模型的原理图；

图2是定位模型的训练阶段的步骤图；

图3是定位模型的应用阶段的步骤图；

图4是训练定位模型的前向过程的步骤图；

图5是步骤S200的子步骤图；

图6是语言门的执行步骤的步骤图；

图7是结合差异文本编码与第一图像进行特征提取的步骤图；

图8是适配器的原理图；

图9是图像编码器的参数调整方式的原理图；

图10是物体定位装置的结构图；

图11是电子设备的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

本申请的实施例提供了一种物体定位方法。

物体定位方法采用了以下的定位模型。

参照图1，定位模型包括文本编码器、图像编码器、定位编码器、多层级的文本感知器、多层级的视觉感知器。

物体定位方法包括定位模型的训练阶段和定位模型的应用阶段。

参照图2，定位模型的训练阶段，包括：步骤S111，获取训练用的第一图像和第一文本；步骤S112，通过第一图像和第一文本训练定位模型，得到目标定位模型。

参照图3，定位模型的应用阶段，包括：步骤S121，获取待处理的第二图像和第二文本；步骤S121，将第二图像和第二文本输入至目标定位模型进行视觉定位处理，得到定位信息。

在定位模型的训练阶段，会进行多次的前向过程和反向过程，直至达到预设的训练次数或者定位模型收敛，进而由定位模型得到目标定位模型。

第一图像和第一文本可以从大型网络数据库获取得到，或者从本地数据中获取得到。可以理解的是，第一文本可以是对第一图像中的相关描述，也可以是对第一图像中的非相关描述。

将第一图像和第一文本输入至定位模型，以对定位模型进行训练。

在训练定位模型的前向过程中，根据输入的第一图像和第一文本得到包括定位结果和损失函数在内的调参数据。

参照图4，前向过程包括以下步骤：

步骤S200，从第一文本中提取得到多层级的文本编码；

步骤S300，在每个网络层，对文本编码进行差异化特征感知得到差异文本编码，结合差异文本编码与第一图像进行特征提取，进而从第一图像中提取得到多层级的图像编码；

步骤S400，根据文本编码和图像编码进行定位预测得到调参数据。

参照图5，对于步骤S200,从第一文本中提取得到多层级的文本编码，包括以下步骤：

步骤S210，对第一文本进行分词处理得到文本分词数据；

步骤S220，对文本分词数据进行特征提取，得到多层级的中间文本编码；

步骤S230，拼接部分或全部层级的中间文本编码得到多层级的拼接文本编码，根据拼接文本编码和预设的文本权重得到多层级的文本编码。

对于步骤S210，利用小写单词进行字节对编码的分词器对第一文本进行分词处理，得到第一文本的分词，即文本分词数据。

对于步骤S220，利用文本编码器对文本分词数据进行特征提取。基于对比语言-图像预训练的文本编码器设置有多层网络层，网络层为转换器（Transformer）模型结构。文本编码器的每层网络层对文本分词数据进行特征提取得到中间文本编码。多层网络层所提取得到的中间文本编码组成多层级的中间文本编码。多层级的中间文本编码表示为：；式中，N为批处理大小，/>为文本分词数据的长度，/>为中间文本编码的隐藏维度。

对于步骤S230，利用多层级文本感知器根据多层级的中间文本编码和文本权重得到多层级的文本编码，即多层级文本感知器的各层会分别根据各层级的中间文本编码和文本权重得到文本编码，将各层级的文本编码组成多层级的文本编码。多层级文本感知器将多层级的中间文本编码沿文本编码的隐藏维度进行拼接得到多层级的拼接文本编码，根据文本权重将拼接文本编码投影至第一嵌入空间中得到多层级的文本编码。多层级文本感知器的处理过程可以表示为：；式中，p为中间文本编码的层数，/>为文本编码，/>为多层级文本感知器的文本权重，p为中间文本编码的层数。多层级的文本编码表示为：/>；/>为第一嵌入空间的隐藏维度。

对于步骤S300，通过图像编码器根据文本编码和第一图像提取得到多层级的图像编码。

图像编码器包括多个网络层，网络层基于Transformer结构。

基于Transformer结构的图像编码器依赖于模型的原始输入，并缺乏对跨模态信息的直接感知。通过引入语言引导的适配器解决图像编码器依赖于模型的原始输入的限制并促进与语言模态的交互。因此，在图像编码器的每个网络层之前连接一个适配器。

将文本编码和第一图像输入至适配器中，不同层级的语言特征分别被输入至不同层级的适配器中，以保证层级的多模态自适应。

适配器设置有由双曲正切函数（tanh）函数、卷积层、线性整流函数（Linearrectification function，ReLU）激活函数和卷积层组成的语言门，通过不同层的语言门有条件地引导语言特征以实现编码器的不同网络层的差异化语言特征感知。

参照图6，语言门执行以下步骤：

步骤S310,对文本编码依次进行三角函数处理、一次卷积处理、激活函数处理和二次卷积处理，得到差异文本编码。

然后，图像编码器结合差异文本编码与第一图像进行特征提取。参照图7，结合差异文本编码与第一图像进行特征提取，包括以下步骤：

步骤S320，根据差异文本编码与第一图像得到多层级的中间图像编码；

步骤S330，拼接部分或全部层级的中间图像编码得到多层级的拼接图像编码，根据拼接图像编码和预设的图像权重得到多层级的图像编码。

参照图8，对于步骤S320，适配器对第一图像进行层标准化处理，将层标准化处理的结果作为多头自注意力机制的查询、键和值，基于自注意力机制由多头自注意力机制的查询、键和值得到自注意力特征；通过第一加法器拼接自注意力特征与第一图像得到第一拼接特征，将第一拼接特征进行层标准化处理，得到层标准化的自注意力特征作为交叉注意力机制的查询；将差异文本编码作为多头交叉注意力机制的键和值；基于交叉注意力机制由多头交叉注意力机制的查询、键和值得到交叉注意力特征；将交叉注意力特征输入至第一前馈网络进行映射，得到第一图像编码，通过第二加法器将自注意力特征和第一图像编码融合得到第二图像编码，将第二图像编码进行层标准化处理，得到第三图像编码，将第三图像编码输入至第二前馈网络进行映射，得到第四图像编码，通过第三加法器将第二图像编码和第四图像编码融合，然后将融合的编码输入至网络层中。编码数据沿多个网络层进行前向传播，以从浅层到深层的方式提取中间图像编码。将多个网络层的中间图像编码组成多层级的中间图像编码。

多层级的中间图像编码表示为：；式中，/>为第一图像的长度，/>为中间图像编码的隐藏维度。

对于步骤S330，通过多层级视觉感知器将多层级的中间图像编码沿中间图像编码的隐藏维度进行拼接得到多层级的拼接图像编码，则视觉感知器的各层分别对各层级的间图像编码沿中间图像编码的隐藏维度进行拼接得到拼接图像编码，将各层级的拼接图像编码组成多层级的拼接图像编码。根据图像权重将多层级的拼接图像编码投影至第二嵌入空间得到多层级的图像编码。多层级视觉感知器的处理过程表示为：；式中，m为中间图像编码的层数，为多层级视觉感知器的图像权重，/>为第二嵌入空间的隐藏维度。

对于步骤S400，通过定位编码器根据文本编码和图像编码进行定位预测得到调参数据。

通过最后一层文本编码的线性投影特征输入至定位编码器，防止对分词[EOS]的干扰，确保后续的约束免受影响。最后一层文本编码的线性投影特征表示为：。

输入至定位编码器的分词表示为：；其中，/>为来自图像编码的分词，/>为来自文本编码的分词，cls表示分类分词[CLS]；/>表示定位分词[REG],用于输出边界框的回归结果。分词/>来自/>和/>中每个序列的最后一个分词。

根据输入分词进行对比学习，通过回归头提取定位编码器最后一层特征中的定位分词[REG]，并根据分词[REG]回归得到包括预测边界框和真实边界框的边界框，将边界框作为定位结果。

将定位编码器进行定位预测的过程中，通过多种约束促进模型训练，从而使这一基于层级多模态低秩自适应结构的跨模态交互最大化。

为了进一步加快模型的收敛速度，在定位编码器的图像编码的分词中引入基于图像的边界框约束。通过包括三层连续的反卷积层和一层双线性插值层的上采样层对重新调整形状的图像编码的分词进行上采样。通过多层感知器在隐藏维度上进行投影，对图像编码的分词进行ReLU激活和布尔二值变换，得到预测框掩码。对真实边界框进行掩码处理得到真实框掩码。计算关于真实框掩码的约束，得到视觉定位框约束的损失函数，即第一类损失函数。视觉定位框约束的损失函数表示为：；式中，/>为预测框掩码，/>为真实框掩码，/>为控制焦点损失（Focal loss）的系数；/>为控制骰子损失（Dice/F-1 loss）的系数。

通过边界框掩码实现边界框区域-文本的对比学习来匹配文本与图像。将文本编码的最后一个分词[EOS]，作为文本编码的聚合分词。将文本编码的聚合分词进行层标准化处理。计算文本编码的聚合分词与各个图像编码的分词之间的相似性，相似性可以通过以下式子表示：；式中，/>表示S型（sigmoid）函数，/>表示图像编码的分词。根据相似性计算出边界框，对边界框进行掩码处理得到边界框掩码。将处于边界框内的图像编码的分词和文本编码的分词作为正样本，将处于边界框外的图像编码的分词和文本编码的分词作为负样本，根据正样本和负样本进行对比学习。

在通过分词级的区域-文本的对比学习实现约束的时候，通过Focal损失和Dice/F-1损失来约束聚合的相似度和最近邻下采样的边界框掩码，进而得到区域文本对比约束的损失函数；P为块（patch）的大小。区域文本对比约束的损失函数表示为：。式中，/>为控制Focal损失的系数，/>为控制Dice/F-1损失的系数。

将训练批次内的用于定位表达的文本编码和图像编码随机打乱，能够形成对比学习。将文本编码和图像编码所组成的样本对分为正样本对和负样本对；具体地，将用于定位表达的文本编码和图像编码所组成的样本对作为正样本对，将其他的样本对作为负样本对。根据正样本对和负样本对进行对比学习；并且，将样本对中的文本编码进行归一化处理得到文本嵌入，将样本对中的图像编码进行归一化处理得到图像嵌入。

通过图像-文本的对比学习作为文本编码器的约束。根据文本嵌入和图像嵌入得到对应语言特征到视觉特征的匹配的第一子损失函数和对应视觉特征到语言特征的匹配的第二子损失函数，第一子损失函数表示为：；第二子损失函数表示为：/>。式中，/>为第i个样本对的文本编码对应的文本嵌入，/>为第j个样本对的文本编码对应的文本嵌入，/>为第i个样本对中的图像编码对应的图像嵌入，/>为第j个样本对中的图像编码对应的图像嵌入，是用于温度系数，/>为余弦相似性运算。根据第一子损失函数和第二子损失函数得到对比学习约束的损失函数，即第三类损失函数。对比学习约束的损失函数表示为：。

基于以上的约束，将细粒度的语义信息从文本编码传播到每个分词级别的图像编码中，并聚合为一个区域分词，进而促进了文本模态和图像模态的一致性。

利用回归头实现边界框回归。回归头为多层感知器，每个多层感知器由线性层和ReLU激活层组成。边界框回归损失由平滑L1损失和并集上的广义交集（generalizedintersection over union，Giou）损失构成。边界框回归损失表示为：；式中，/>为控制平滑L1损失的系数，/>为控制Giou损失的系数，/>为预测边界框，/>为真实边界框。

通过边界框回归损失、视觉定位框约束的损失函数、区域文本对比约束的损失函数、对比学习约束的损失函数的总和来计算出定位模型的总训练损失函数，定位模型的总训练损失函数可以通过以下式子表示：。

根据定位模型的总训练损失函数调整定位模型的文本编码器、图像编码器、定位编码器、多层级的文本感知器、多层级的视觉感知器的参数，得到训练后的定位模型。

其中，调整图像编码器的参数的方式如下所示。

参照图1和图9，将图像编码器的多个网络层分为多个网络层组，并且每个网络层组包括至少一个网络层。例如，图像编码器的多个网络层被分为3个层组。当网络层组包含四个网络层，形成对比视觉-语言预训练的B型（CLIP-B）结构；当网络层组包含八个网络层，形成对比视觉-语言预训练的L型（CLIP-L)结构。

在前向过程中，输入数据从浅层的网络层向深层的网络层传输，浅层的网络层提取得到浅层特征，深层的网络层提取得到深层特征。当将网络层划分为网络层组，可以理解为，输入数据从浅层的网络层组向深层的网络层组传输。由更浅层的网络层组成的网络层组为浅层的网络层组，由更深层的网络层组成的网络层组为深层的网络层组；例如，第k个网络层组相对于第k-1个网络层组为深层的网络层组，相对于第k+1个网络层组为浅层的网络层组。

为网络层组获取权重矩阵，为网络层组的权重矩阵添加作为可训练参数的低秩分解，有/>，其中，/>，/>。第一低秩矩阵A和第二低秩矩阵B中的低秩r远小于网络层的维度（d，k）。

对第一低秩矩阵进行随机高斯初始化，对第二低秩矩阵进行零初始化，则在训练初始时为0。同时，可以对/>进行缩放处理，例如缩放/>倍，其中，是与低秩相关的一个常数。

在整个训练过程中，权重矩阵保持不变，只更新第一低秩矩阵和第二低秩矩阵。

对于隐藏状态，在添加低秩矩阵后，其前向过程表示为：。进一步，隐藏状态h包括单模态视觉状态/>和跨模态状态/>，有/>和/>。

对图像编码器从浅层到深层通过多个适应阶段逐步达到对下游任务的自适应。在每个适应阶段执行一次调整步骤；在隐藏状态下，前向过程表示为：。式中，/>表示第j个适应阶段第i个网络层组的隐藏状态，/>表示第i个网络层组的权重矩阵，n为网络层组的数量；表示第j个适应阶段，并且每个适应阶段都会更新第一低秩矩阵和第二低秩矩阵。/>表示第j个适应阶段第i个网络层组的第一低秩矩阵，/>表示第j个适应阶段第i个网络层组的第二低秩矩阵，则/>包含/>，/>包含/>。

在反向过程中，在维持权重矩阵不变的情况下，从浅层的网络层组向深层的网络层组逐渐更新低秩矩阵，以调整图像编码器的参数。具体地，执行K次调整步骤调整低秩矩阵；当执行第i次调整步骤，在冻结除前i个网络层组之外的其他网络层组的权重矩阵和低秩矩阵的情况下，在冻结前i个网络层组的权重矩阵的情况下根据调参数据调整前i个网络层组的低秩矩阵；K为正整数，i属于K。一般地，调整步骤的次数与网络层组的数量相等。冻结权重矩阵为维持权重矩阵不变，冻结低秩矩阵为维持低秩矩阵不变。

例如，执行第一次调整步骤，冻结第二个网络层组和第三个网络层组，并且在冻结第一个网络层组的权重矩阵的情况下更新第一个网络层组的低秩矩阵。

执行第二次调整步骤，冻结第三个网络层组，在冻结第一个网络层组的权重矩阵的情况下更新第一个网络层组的低秩矩阵，在冻结第二个网络层组的权重矩阵的情况下更新第二个网络层组的低秩矩阵。

执行第三次调整步骤，在冻结第一个网络层组的权重矩阵的情况下更新第一个网络层组的低秩矩阵，在冻结第二个网络层组的权重矩阵的情况下更新第二个网络层组的低秩矩阵，在冻结第三个网络层组的权重矩阵的情况下更新第三个网络层组的低秩矩阵。

训练过程中对图像编码器的层级解耦使得图像编码器的学习率在不同适应阶段会产生变化，从而避免图像编码器的梯度从深层传播到浅层，保证图像编码器从浅层特征逐渐适应到深层特征，优化潜层特征。从层级的角度整合多层级的文本表征和图像表征，以实现细粒度的跨模态特征的交互和对齐，从而减少预训练和定位之间的任务差距。

通过以上训练方法得到的定位模型获得更精确的跨模态对齐特征和更强的复杂文本的理解能力，对图像区域信息表现出更高的敏感性；并显著地减少预训练和定位之间的任务差距，能够实现出色的跨模态定位能力；能够在小分辨率图像上取得良好的定位结果，而无需依赖于高分辨率图像。

本申请的实施例，提供了一种物体定位装置。物体定位装置应用如上所述的物体定位方法。

参照图10，物体定位装置包括：训练单元110和应用单元120。

训练单元110被设置为：获取训练用的第一图像和第一文本，通过第一图像和第一文本训练定位模型得到目标定位模型。

应用单元120被设置为：获取待处理的第二图像和第二文本，将第二图像和第二文本输入至目标定位模型进行视觉定位处理，得到定位信息。

其中，定位模型包括图像编码器，图像编码器包括多个网络层；训练单元还被设置为：在训练定位模型的前向过程中，从第一文本中提取得到多层级的文本编码；在每个网络层，对文本编码进行差异化特征感知得到差异文本编码，结合差异文本编码与第一图像进行特征提取，进而从第一图像中提取得到多层级的图像编码；根据文本编码和图像编码进行定位预测得到调参数据；在训练定位模型的反向过程中，为由至少一个网络层组成的网络层组获取权重矩阵，将低秩矩阵作为训练参数添加至权重矩阵；冻结权重矩阵，并根据调参数据从浅层的网络层组向深层的网络层组逐渐调整低秩矩阵，以对图像编码器调参，得到调参后的图像编码器；根据调参后的图像编码器得到目标定位模型。

可以理解的是，本实施例的物体定位装置应用如上所述的物体定位方法，本实施例的物体定位装置的各单元与物体定位方法的各步骤一一对应，物体定位装置与物体定位方法具有相同的技术方案，解决了相同的技术问题，带来了相同的有益效果。

本申请的实施例，提供一种电子设备。参照图11，电子设备包括：存储器220、处理器210及存储在存储器220上并可在处理器210上运行的计算机程序，处理器210执行计算机程序时实现如上所述的定位方法。

该电子设备可以为包括电脑等任意智能终端。

总体而言，对于电子设备的硬件结构，处理器210可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案。

存储器220可以采用只读存储器（ReadOnlyMemory，ROM）、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器220可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器220中，并由处理器210来调用执行本申请实施例的方法。

输入/输出接口用于实现信息输入及输出。

通信接口用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线230在设备的各个组件（例如处理器210、存储器220、输入/输出接口和通信接口）之间传输信息。处理器210、存储器220、输入/输出接口和通信接口通过总线230实现彼此之间在设备内部的通信连接。

本申请的实施例，提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于执行如上所述的定位方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种物体定位方法，其特征在于，包括：

获取训练用的第一图像和第一文本；

根据所述调参后的图像编码器得到目标定位模型。

2.根据权利要求1所述的一种物体定位方法，其特征在于，所述从所述第一文本中提取得到多层级的文本编码，包括：

对所述第一文本进行分词处理，得到文本分词数据；

对所述文本分词数据进行特征提取，得到多层级的中间文本编码；

拼接部分或全部层级的中间文本编码得到多层级的拼接文本编码，根据所述拼接文本编码和预设的文本权重得到多层级的文本编码。

3.根据权利要求1所述的一种物体定位方法，其特征在于，所述对所述文本编码进行差异化特征感知得到差异文本编码，包括：

对所述文本编码依次进行三角函数处理、一次卷积处理、激活函数处理和二次卷积处理，得到差异文本编码。

4.根据权利要求1所述的一种物体定位方法，其特征在于，所述结合所述差异文本编码与所述第一图像进行特征提取，包括：

根据所述差异文本编码与所述第一图像得到多层级的中间图像编码；

拼接部分或全部层级的中间图像编码得到多层级的拼接图像编码，根据所述拼接图像编码和预设的图像权重得到多层级的图像编码。

5.根据权利要求4所述的一种物体定位方法，其特征在于，所述根据所述差异文本编码与所述第一图像得到多层级的中间图像编码，包括：

基于自注意力机制对所述第一图像进行特征提取，得到自注意力特征；

对所述自注意力特征进行层标准化处理，得到层标准化的自注意力特征；

由所述层标准化的自注意力特征得到交叉注意力机制的查询；

由所述差异文本编码得到交叉注意力机制的键和值；

基于交叉注意力机制由交叉注意力机制的查询、键和值得到交叉注意力特征；

根据所述自注意力特征和所述交叉注意力特征进行特征提取，得到中间图像编码；

将多个所述网络层的中间图像编码组成多层级的中间图像编码。

6.根据权利要求5所述的一种物体定位方法，其特征在于，所述根据所述自注意力特征和所述交叉注意力特征进行特征提取，得到中间图像编码，包括：

将所述交叉注意力特征输入至第一前馈网络进行映射，得到第一图像编码；

将所述自注意力特征和所述第一图像编码融合，得到第二图像编码；

将所述第二图像编码进行层标准化处理，得到第三图像编码；

将所述第三图像编码输入至第二前馈网络进行映射，得到第四图像编码；

将所述第二图像编码和所述第四图像编码融合，得到中间图像编码。

7.根据权利要求1所述的一种物体定位方法，其特征在于，所述冻结所述权重矩阵，并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵，包括：

执行K次调整步骤调整所述低秩矩阵；

当执行第i次所述调整步骤，在冻结除前i个网络层组之外的其他网络层组的权重矩阵和低秩矩阵的情况下，根据所述调参数据在冻结前i个网络层组的权重矩阵的情况下调整前i个网络层组的低秩矩阵；K为正整数，i属于K。

8.根据权利要求1所述的一种物体定位方法，其特征在于，所述调参数据包括第一类损失函数值；所述根据所述文本编码和所述图像编码进行定位预测得到调参数据，包括：

对所述图像编码的分词进行掩码处理，得到预测框掩码；

根据所述文本编码和所述图像编码进行定位得到真实框；

对所述真实框进行掩码处理，得到真实框掩码；

根据所述预测框掩码和所述真实框掩码计算损失函数，得到第一类损失函数值。

9.根据权利要求1所述的一种物体定位方法，其特征在于，所述调参数据包括第二类损失函数值；所述根据所述文本编码和所述图像编码进行定位预测得到调参数据，包括：

将所述文本编码的最后一个分词作为文本编码的聚合分词；

获取所述文本编码的聚合分词与所述图像编码的分词的相似性；

根据所述相似性得到边界框，根据所述边界框进行掩码处理得到边界框掩码；

根据所述相似性和所述边界框掩码计算损失函数，得到第二类损失函数值。

10.根据权利要求1所述的一种物体定位方法，其特征在于，所述调参数据包括第三类损失函数值；所述根据所述文本编码和所述图像编码进行定位预测得到调参数据，包括：

将所述文本编码和所述图像编码组成样本对，将所述样本对分为正样本对和负样本对；

将所述样本对中的文本编码转换为文本嵌入，将所述样本对中的图像编码转换为图像嵌入；

根据所述文本嵌入和所述图像嵌入得到对应语言特征到视觉特征的匹配的第一子损失函数值和对应视觉特征到语言特征的匹配的第二子损失函数值；

根据所述第一子损失函数值和所述第二子损失函数值之和得到第三类损失函数值。

11.一种物体定位装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述的物体定位方法。

13.一种计算机存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至10中任一项所述的物体定位方法。