CN116091836A

CN116091836A - 一种多模态视觉语言理解与定位方法、装置、终端及介质

Info

Publication number: CN116091836A
Application number: CN202310152704.XA
Authority: CN
Inventors: 王耀威; 肖麟慧; 杨小汕; 徐常胜; 彭芳; 胡孟豪
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-09

Abstract

本发明公开了一种多模态视觉语言理解与定位方法、装置、终端及介质，包括：构建视觉语言理解与定位模型；对未标注的图像数据进行处理，生成多个伪标签源；分别学习每一个源的视觉语言理解与定位模型；根据多源自步自适应算法，依据每一个源的表达文本的平均实体数由易到难逐步选择全部伪数据源；根据所述多源自步自适应算法，对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过可靠性评估器选择、可靠性阈值选择以及贪心算法获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型；本发明提出无监督的视觉语言理解与定位方法，可以基于多源伪标签对多模态基础大模型CLIP进行自适应，以解决无监督视觉定位的问题。

Description

一种多模态视觉语言理解与定位方法、装置、终端及介质

技术领域

本发明涉及无监督视觉定位技术领域，尤其涉及的是一种多模态视觉语言理解与定位方法、装置、终端及介质。

背景技术

视觉语言理解与定位，简称视觉定位(Visual grounding，VG)，又称指代表达理解(Reference Expression Comprehension，REC)或短语定位(Phrase grounding，PG)，是指在特定图像中定位文本表达所描述的边界框的区域，这一技术已成为人工智能人机交互的关键技术之一。由于视觉语言理解与定位模型具有跨模态特性，需要同时理解语言表达和图像的语义，这一直是一项复杂而富有挑战性的任务。

考虑到视觉定位任务的复杂性，大多数现有的方法集中于全监督设置(即使用手工标注的图片-文本-边界框构成的三元组数据作为监督信号)。然而，在有监督的视觉定位中，对标注的质量有严格的要求。具体来说，文本表达需要满足：其一，需要与边界框配对；其二，指代唯一；其三，表达的语义要丰富。为了减轻对标注数据的依赖，弱监督设置(即只给定图像和文本查询对，没有边界框)和无监督视觉定位(即不使用任何与任务相关的标注来实现图像目标区域的定位)最近越来越受到关注。

现有的无监督视觉定位的方法主要是利用预训练的检测器和特定的语料库实现对未配对数据的指代文本的定位。最先进的方法使用手工设计的模板来匹配现成的目标和属性检测器检测到的结果(例如，“属性-关系-名词”，“Attr-Rela-Noun”，“standingrightman”)。从而通过这种方式，生成了表达文本和边界框的伪配对数据，并将其作为伪标注，以有监督的方式学习视觉语言理解与定位模型。然而，现有方法中的这些伪标注的有效性在很大程度上依赖于目标或属性检测器，而目标或属性检测器总是在特定的数据集上预训练的，例如，MSCOCO数据集，这可能会限制匹配模式的多样性和上下文语义的丰富性。

在过去的几年里，视觉和语言基础模型(例如，CLIP模型，即ContrastiveLanguage-Image Pre-Training)通过使用少量任务相关的数据进行adapting(适应)或prompting(提示)，在许多下游任务上取得了出色的结果。这些基础模型的主要优点是，它们可以从现成的具有自监督约束的网络数据中学习泛化的知识。这可以考虑利用预训练的模型来解决无监督视觉定位问题。但是，由于缺乏与任务相关的标注数据，这是一项具有挑战性的任务。一种直接的解决方案是利用在以前的无监督视觉定位方法中生成的伪标签来微调预训练的模型。但是，由于伪标注与相应的特定任务的ground truth(真值)标注之间存在差异，这必然会影响预训练模型的泛化能力。

事实上，除了目标或属性检测之外，许多其他任务，如Scene Graph Generation(场景图生成)和Image caption(图像描述)，都与视觉语言理解与定位密切相关。虽然这些任务与视觉定位有不同的标注，但这些模型的预测结果可以很容易地扩展到表达文本和边界框的伪配对数据，从而可以帮助CLIP在无监督视觉定位问题中实现自适应。在这些任务中学习到的现成模型可以为无监督视觉定位轻松地扩展伪标签源，从而提供零成本的标注信息。虽然这些标签是零成本的，但也可能带来对VG有害的噪声。

因此，需要一方面利用多源伪标签带来的多样性，另一方面也要减轻噪声的影响。

发明内容

本发明要解决的技术问题在于，针对现有技术缺陷，本发明提供一种多模态视觉语言理解与定位方法、装置、终端及介质，以解决现有的无监督视觉定位的方法的伪标签泛化能力差及噪声高的技术问题。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种多模态视觉语言理解与定位方法，包括：

构建视觉语言理解与定位模型；

对未标注的图像数据进行处理，生成多个伪标签源；

分别学习每一个源的视觉语言理解与定位模型，并将学习到的模型作为可靠性评估器；其中，所述可靠性评估器用于评估并获得样本的特定源可靠性和跨源可靠性；

根据多源自步自适应算法，依据每一个源的表达文本的平均实体数对多个所述伪标签源进行排序，由易到难逐步选择全部伪数据源；

根据所述多源自步自适应算法，在每一个当前选择的伪数据源中，分别从特定源可靠性和跨源可靠性对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过固定可靠性阈值、固定可靠性评估器的方式，依次选出最优可靠性评估器和最优可靠性阈值；

以贪心的方式筛选出当前源伪样本数据并添加至总样本子集，逐步扩大并获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型。

在一种实现方式中，所述对未标注的图像数据进行处理，之前包括：

定义未标注的图像数据集I和n个不同源的伪三元组数据

其中，S_i＝(I,E_i,B_i)，E_i表示第i个源的伪表达的集合，B_i表示边界框的集合；

定义测试数据集D^t＝(I_t,E_t,B_t)和学习目标模型；

其中，所述学习目标模型为：

F_θ:(I,E)→B为基于D^s的模型；

l表示损失函数。

在一种实现方式中，所述对未标注的图像数据进行处理，生成多个伪标签源，包括：

通过目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源；

通过场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源；

通过图像标题生成器对所述未标注的图像数据进行处理，生成标题表达伪标签源。

在一种实现方式中，所述通过所述目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源，包括：

通过所述目标检测器和属性检测器生成若干种模板；

根据若干种所述模板生成所述模板表达伪标签源的词汇表达。

在一种实现方式中，所述通过所述场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源，包括：

通过所述场景图生成模型将场景图关系作为表达文本，并将场景图中主语的边界框作为表达文本的边界框，生成所述关系表达伪标签源。

在一种实现方式中，所述通过所述图像标题生成器对所述未标注的图像数据进行处理，生成标题表达伪标签源，包括：

通过语言解析器解析生成伪句子的主语，并将所述主语与图像的检测结果进行配对；

根据配对结果将检测器检测到的边界框与对应的伪句子进行配对，得到所述标题表达伪标签源。

在一种实现方式中，所述视觉语言理解与定位模型包括：图像编码器、文本编码器以及视觉语言跨模态融合定位模块。

在一种实现方式中，所述分别学习每一个源的视觉语言理解与定位模型，包括：

提取并拼接所述图像编码器的层特征，并根据线性投影将所述层特征融合到原始单层的特征大小中；

将语言标记、视觉标记、类别标记以及区域标记输入到所述视觉语言跨模态融合定位模块：

其中，

为所述语言标记，

为所述视觉标记，[cls]为所述图像编码器生成的类别标记，p_r为所述区域标记。

在一种实现方式中，所述根据所述多源自步自适应算法，在每一个当前选择的伪数据源中，分别从特定源可靠性和跨源可靠性对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过固定可靠性阈值、固定可靠性评估器的方式，依次选出最优可靠性评估器和最优可靠性阈值，包括：

根据定义的可靠性阈值h₀，从当前数据源中选择一个伪样本的子集；

将所选子集加入D_χ进行模型训练，并在验证集上选择性能最优的可靠性评估器M_i*：

其中，D_χ为当前所选伪样本的全部集合；

根据最优可靠性评估器对应的可靠性直方图H_i*j*，从当前数据源S_j*中找到验证集上性能最好的可靠性阈值h^*：

选择可靠性值属于可靠性直方图H_i*j*区间[0,h^*]上的伪样本，并将选取的伪样本加入到整个样本子集D_χ中：

D_χ＝D_χ∪percent(H_i*j*,h^*)

在一种实现方式中，所述以贪心的方式筛选出当前源伪样本数据并添加至总样本子集，逐步扩大并获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型，包括：

基于二分搜索的贪心样本选择算法进行求解，得到一组最终的伪样本

根据伪样本

学习最终的视觉定位模型F_θ ^*：

其中，

为通过贪婪算法选择的伪样本。

第二方面，本发明提供一种多模态视觉语言理解与定位装置，包括：

伪标签源生成模块，用于对未标注的图像数据进行处理，生成多个伪标签源；

视觉语言理解与定位模块，用于选择多个所述伪标签源中的若干个源作为特定源，并分别学习若干个所述特定源的视觉语言理解与定位模型；

多源自步自适应算法模块，用于根据多源自步自适应算法，利用每个表达文本的平均实体数逐步选择伪数据源；

计算及学习模块，用于分别从特定源可靠性和跨源可靠性对图像和伪标签的每个配对数据进行样本实例级可靠性计算，并根据计算结果学习视觉语言理解与定位模型。

第三方面，本发明提供一种终端，包括：处理器以及存储器，所述存储器存储有多模态视觉语言理解与定位程序，所述多模态视觉语言理解与定位程序被所述处理器执行时用于实现如第一方面所述的多模态视觉语言理解与定位方法的操作。

第四方面，本发明还提供一种介质，所述介质为计算机可读存储介质，所述介质存储有多模态视觉语言理解与定位程序，所述多模态视觉语言理解与定位程序被处理器执行时用于实现如第一方面所述的多模态视觉语言理解与定位方法的操作。

本发明采用上述技术方案具有以下效果：

本发明通过将CLIP应用于无监督视觉语言理解与定位的系统，使整个系统实现了具有多样性的伪数据的自适应，同时还保留了多模态基础大模型CLIP的泛化能力；并通过特定源可靠性和跨源可靠性，可以挖掘视觉定位数据的深层分布特征信息，从而使模型可以达到更强的泛化能力；而且，通过一个贪心的多源自步自适应的样本选择算法，可以筛选图像和伪标签的配对数据，对视觉定位模型进行重训练，在自步学习的每一步的选择样本过程中，都能在可靠性和多样性之间找到最佳平衡；本发明可以基于多源伪标签对多模态基础大模型CLIP进行自适应，以解决无监督视觉定位的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明的一种实现方式中多模态视觉语言理解与定位方法的流程图。

图2是本发明的一种实现方式中基于CLIP在无监督视觉语言理解与定位任务上的自适应示意图。

图3是本发明的一种实现方式中多模态视觉语言理解与定位模型框架示意图。

图4是本发明的一种实现方式中视觉语言定位模型的示意图。

图5是本发明的一种实现方式中多源自适应算法及其伪标签源、可靠性评估器和样本的选择方案的示意图。

图6是本发明的一种实现方式中多源自步自适应算法的流程图。

图7是本发明的一种实现方式中单源自步自适应算法的流程图。

图8是本发明的一种实现方式中终端的功能原理图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

示例性方法

无监督视觉定位(Unsupervised Visual grounding)可以学习并定位输入文本表达所指代的对应描述的区域，而不使用任何与任务相关的手工标注信息，旨在减轻对人工标注数据的严重依赖。然而，现有方法生成的伪标注主要依赖于目标或属性检测器，这可能会限制匹配模式的多样性和上下文语义的丰富性。

为了利用预训练好的基础大模型，并合理利用在不同任务中学习到的现成模型生成的多源伪标签，本实施例中提出了一种新颖的基于自步课程学习的无监督多模态视觉语言理解与定位系统及方法，该系统和方法可以对带有多源伪标签的多模态基础大模型CLIP进行自适应，从而解决无监督视觉语言理解与定位的问题。对于未标注的图像数据，本实施例中首先通过不同的现成模型生成多个伪标签源，然后提出了一种多源自适应的无监督视觉语言理解与定位方法，以自步的方式逐步找到具有更可靠伪标签的样本，最终实现所选择的伪样本在可靠性和多样性之间的平衡。本实施例中的方法大幅度超越现有的最先进的无监督视觉语言理解与定位方法，甚至优于现有的弱监督方法。

如图1所示，本发明实施例提供一种多模态视觉语言理解与定位方法，包括以下步骤：

步骤S100，构建视觉语言理解与定位模型。

在本实施例中，该多模态视觉语言理解与定位方法应用于终端上，该终端包括但不限于：计算机等设备。

如图2所示，在本实施例中提出一种新的无监督的视觉语言理解与定位方法，该方法通过CLIP-VG框架实现，该框架采用自步的方式用多源伪标签去实现CLIP在无监督视觉语言理解与定位任务上的自适应。

本实施例中，CLIP-VG框架示意图如图3所示。本实施例提出的方法包括一个视觉语言定位模型(Visual Language Grounding Model，VLGM)、一个多源伪标签生成模块(Multi-source Pseudo Labels Generation Module，MPGM)和一个多源自适应(Multi-source Self-paced Adapting，MSA)模块，该模块包含三个重要的选择模块。

本实施例中的方法可以基于多源伪标签对CLIP进行自适应，以解决无监督视觉定位的问题；首先，构建视觉语言理解与定位模型VLGM，针对伪标签不同源信息的多样性，提出了CLIP-VG模型，模型将CLIP的图像和文本编码器作为框架中视觉和语言的主干，从而提高了对各种标签源的泛化能力。CLIP-VG由CLIP的2个编码器和一个视觉语言跨模态融合定位模块Transformer组成，即视觉语言理解与定位模型包括：图像编码器、文本编码器以及视觉语言跨模态融合定位模块。该视觉语言理解与定位模型可以在训练和推理过程中实现表达文本的理解和定位。为了更好地挖掘视觉尺度信息，本实施例中提出提取CLIP编码器的中间层特征，从而实现视觉表征的多层级感知。

在构建视觉语言理解与定位模型VLGM后，对于未标注的图像数据，本实施例中使用不同类型的现成模型，即使用目标检测器、场景图生成器和图像标题生成器，生成多个伪标签源；然后，本实施例中首先独立地分别学习多个特定源的视觉语言理解与定位模型，其中CLIP作为每个伪数据源模型的骨干(backbone)；接下来，本实施例中利用多源自步自适应学习(Self-Paced Learning，SPL)逐步找到具有更可靠的伪标签的样本，以提高视觉定位模型的性能。具体来说，在执行SPL算法的步骤中，本实施例中根据每个表达文本的平均实体数从简单到复杂逐步选择伪数据源。同时，在SPL算法的每一步所选数据源内，本实施例中提出分别从特定源可靠性和跨源可靠性两个方面对图像和伪标签的每个配对数据进行样本实例级可靠性计算。

特定源的可靠性是用当前标签源学习到的视觉定位模型对当前源的标签的正确预测的可能性来计算。相反，跨源可靠性是通过其他标签源学习的视觉定位模型对当前源的标签的正确预测的可能性来计算。为了有效地选择一个伪配对的数据子集来重新训练视觉定位模型，本实施例设计了一种基于二分搜索的贪婪样本选择算法，以达到可靠性和多样性的最佳平衡。整个方法可以在由易到难的课程学习的范式下，逐步利用不同源的伪配对数据学习视觉语言理解与定位模型。

视觉语言理解与定位，简称视觉定位(Visual grounding,VG)，是指在特定图像中定位文本表达所描述的边界框的区域。完全监督和弱监督的视觉语言理解与定位模型都严重依赖于高成本的手工标注。本实施例中提出的方法是无监督设置，即在训练过程中不使用任何与任务相关的手工标注，因此，本实施例中需要对任务进行定义。

步骤S200，对未标注的图像数据进行处理，生成多个伪标签源。

在本实施例的一种实现方式中，步骤S200之前包括以下步骤：

步骤S001，定义未标注的图像数据集I和n个不同源的伪三元组数据

步骤S002，定义测试数据集D^t＝(I_t,E_t,B_t)和学习目标模型。

在本实施例中，首先定义I为未标注的图像数据集。假设有n个不同源的伪三元组数据，记为

其中，S_i＝(I,E_i,B_i)，E_i表示来自第i个源的伪表达的集合，B_i表示边界框的集合。注意，不同源中的伪标签有不同的分布特征。测试数据集定义为D^t＝(I_t,E_t,B_t)。本实施例中的目标是学习一个基于D^s的模型F_θ:(I,E)→B，使它能很好地泛化到测试数据D^t：

其中，l表示损失函数，其利用SmoothL1损失和带有λ系数的Giou损失来度量预测框和伪边界框之间的距离：

l＝L_smooth-l1(F_θ(I,E_i),B_i)+λ·L_giou(F_θ(I,E_i),B_i). (2)

本实施例中，在训练阶段，对于未标注的图片，MPGM模块利用现成的模型生成不同组的伪标签去构造伪三元组数据，作为伪监督信号进行训练。然后，对CLIP模型进行自步自适应，根据可靠度从不同标签源中逐步选择可靠的伪配对数据，动态扩大训练数据。随着自步的课程学习范式的执行，最终可以学习到最优的视觉语言定位模型(VLGM)。

具体地，在本实施例的一种实现方式中，步骤S100包括以下步骤：

步骤S201，通过所述目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源。

在本实施例的一种实现方式中，步骤S201包括以下步骤：

步骤S201a，通过所述目标检测器和属性检测器生成若干种模板；

步骤S201b，根据若干种所述模板生成所述模板表达伪标签源的词汇表达。

在本实施例中，在MPGM模块中，使用了三种现成的模型，即检测器、场景图生成器和图像描述器。三种现成的模型构成了模板表达、关系表达和标题表达三种伪标签源，从而构建视觉定位的伪三元组数据。模板表达基于Pseudo-Q模型，其中表达由11种模板生成，模板的词汇和bbox来自Visual Genome数据集上预训练的目标检测器和属性检测器。

步骤S202，通过所述场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源；

在本实施例的一种实现方式中，步骤S202包括以下步骤：

步骤S202a，通过所述场景图生成模型将场景图关系作为表达文本，并将场景图中主语的边界框作为表达文本的边界框，生成所述关系表达伪标签源。

在本实施例中，关系表达是由RelTR生成的具有(例如，主语-谓语-宾语)结构的短语，这是在Visual Genome数据集上预训练的场景图生成模型。本实施例中用场景图关系作为表达文本，用场景图中主语的边界框作为表达文本的边界框来构建伪标签对。本实施例中为每张图片选择RelTR的前10个场景关系。

步骤S203，通过所述图像标题生成器对所述未标注的图像数据进行处理，生成标题表达伪标签源。

在本实施例的一种实现方式中，步骤S203包括以下步骤：

步骤S203a，通过语言解析器解析生成伪句子的主语，并将所述主语与图像的检测结果进行配对；

步骤S203b，根据配对结果将检测器检测到的边界框与对应的伪句子进行配对，得到所述标题表达伪标签源。

本实施例中，标题表达由图像标题(Image Caption)模型M2或ClipCap(M2用于RefCOCO/+/g数据集，ClipCap用于ReferIt Game和Flickr数据集)生成的伪句子。本实施例中使用语言解析器(例如，spaCy)来解析生成的伪句子的主语，并将其与图像的检测结果进行配对。如果伪句子的主语与检测到的标签匹配，则可以将检测器检测到的边界框与对应的伪句子进行配对，从而得到伪标签对。

如图1所示，在本发明实施例的一种实现方式中，多模态视觉语言理解与定位方法还包括以下步骤：

步骤S300，分别学习每一个源的视觉语言理解与定位模型，并将学习到的模型作为可靠性评估器。

在本实施例的一种实现方式中，步骤S300包括以下步骤：

步骤S301，提取并拼接所述图像编码器的层特征，并根据线性投影将所述层特征融合到原始单层的特征大小中；

步骤S302，将语言标记、视觉标记、类别标记以及区域标记输入到所述视觉语言跨模态融合定位模块。

在本实施例中，所提出的视觉语言定位系统CLIP-VG的网络结构如下表1所示：

CLIP-VG的示意图如图4所示。本实施例中将CLIP的图像和文本编码器作为视觉和语言的主干，并通过适应多源伪标签来提高模型的泛化能力。为了更好地探索尺度信息，本实施例中提出提取CLIP编码器的中间层特征，以实现视觉表征的多层次感知。具体来说，提取并拼接图像编码器的[1,4,8,12]层特征，然后用线性投影将其融合到原始单层的特征大小中。CLIP-VG的详细网络结构如表1所示。为了防止灾难遗忘，本实施例中在训练时冻结了CLIP编码器的参数，这样只需要自适应少量的参数。输入到跨模态Transformer的token顺序为：

其中，

为CLIP语言token(即语言标记)，

为CLIP视觉token(即视觉标记)，[cls]表示CLIP图像编码器生成的类别token(即类别标记)，p_r表示最终输出结果的Regiontoken(即区域标记)，[Reg]用于输出回归边界框的结果。[Reg]token在训练开始时随机初始化阶段，并与整个模型进行优化。

在本实施例中，用可靠性(Reliability)和多样性(Diversity)来描述模型所需要的样本的特征。可靠性代表的是样本的可靠程度，多样性代表的是样本子集中包含的语义信息的丰富程度。

不同源的伪标签有不同的分布特点，也可能有噪声。首先，在源层级，不同的标签源由于生成伪标签时特定的匹配模式或质量而具有不同的分布。其次，同一源中不同的伪标签在视觉定位模型学习的可靠性上也存在差异。为了充分利用伪标签，需要找到更可靠的数据，同时也需要避免丢失过多的数据多样性，从而学习到具有良好泛化能力的视觉定位模型。针对这些问题，本实施例首先从源层级和实例级介绍了可靠性的三种定义和计算方法。

难度评估器(Difficulty Measurer)是传统课程学习的两个核心组成部分之一，用于评估每个样本的相对“易”或“难”的程度。在单模态任务中，通常采用预先设定的可量化的规则来衡量难度，如自然语言处理(NLP)中的句子长度、POS熵，计算机视觉(CV)中的目标数量等。然而，由于跨模态数据的相关性，视觉定位的样本的难易度无法直接评估。

为了获得图像与伪标签配对的多模态数据的特定可靠性，本实施例中定义一组初始的视觉定位模型为可靠性评估器(Reliability Measures)

其中每个模型都是从特定的伪数据源学习到的：

然后，可以得到单个样本的可靠性，定义如下：

r＝1-IOU(M_i(i,e),b) (5)

其中，i,e,b代表一个三元组对数据的图片、表达文本、目标候选框。

从而，可以在一个特定的伪数据源中计算所有样本的可靠性，具体如下所示：

R_ij＝1-IOU(M_i(I,E_j),B_j),i∈[1,n],j∈[1,n], (6)

其中，R_ij为第i个可靠性评估器M_i在第j个数据源的所有样本中获得的可靠性值的集合。当i＝j时，R_ij为特定源可靠性(Source-specific reliability)，当i≠j时，R_ij为跨源可靠性(Cross-source reliability)。IOU是一个度量函数，可以计算每个样本的预测边界框和伪边界框之间的Jaccard重叠。

值得注意的是，本实施例中将可靠性定义为R_ij＝1-IOU(M_i(I,E_j),B_j)而不是直接使用IOU。主要考虑的是方便选择伪数据。用这样的定义，可以根据可靠性直方图采用增量式的逐步将可靠性值从0.0增加到1.0来选择伪数据。

由于伪标签的质量和语义特征，不同的源具有不同的分布特征，同一可靠性评估器对不同的源具有不同的识别能力。一方面，在当前源上学习的模型可以捕捉到该标签源中伪配对数据的主要特征，从而可以使用特定源可靠性(Source-specific Reliability)来选择更可靠的数据。另一方面，由于伪标签和ground-truth标签之间的差异，在当前源上获得的模型很容易与理想模型产生偏差，这也可能影响数据选择的有效性。通过考虑跨源可靠性(Cross-source Reliability)，可以利用在其他伪标签源上学习到的模型来指导当前标签源中样本的选择，从而可以选择更加泛化的伪数据。因此，有必要在自步课程学习过程中同时利用特定源可靠性和跨源可靠性来提高模型的泛化能力。

为了方便自步学习过程中的数据选择，本实施例中基于R_ij为每个伪数据源定义了可靠性直方图H_ij。可靠性直方图有m个箱(bin)，涵盖了所有可靠度的取值范围，即[0,1.0]，每个bin表示在相应的可靠性值区间内具有的样本数量。

步骤S400，根据多源自步自适应算法，依据每一个源的表达文本的平均实体数对多个所述伪标签源进行排序，由易到难逐步选择全部伪数据源。

在本实施例中，提出了多源自步适应算法(Multi-source Self-paced Adapting，MSA)来收集可靠的伪样本，并以从简单到复杂的课程学习的范式精心选择样本。其中，MSA算法的流程如图5所示，MSA算法的公式如图6所示。

具体地，在本实施例的一种实现方式中，选择全部伪数据源的过程包括：

首先，计算每个标签源中每个表达的平均实体数，并将计算的平均实体数作为源层级的难易度的评估标准；

其次，根据所述评估标准对标签源从简单到复杂进行排序，并根据所述排序逐步添加得到所述伪数据源。

在本实施例中，对于单源全监督的视觉语言定位任务，直接找到对目标数据泛化最好的最优模型并不复杂。但对于多源伪标签，由于不同标签源之间的差异，这一问题无法轻松解决。为了保证该模型能够在多源噪声数据下获得鲁棒的视觉定位能力，本实施例中采用了自步课程学习(Self-Paced Curriculum Learning，SPL)的方法来吸收不同源的知识。

在SPL的每个步骤中，需要决定使用哪个标签源来重新训练VG模型。因此，本实施例中提出计算每个标签源中每个表达的平均实体数作为源层级的难易度的评估标准，从而可以对标签源从简单到复杂进行排序。假设当前SPL步骤中所选数据源为S_j*。然后，在SPL的每一步中，可以由简单到复杂逐步添加一个新的标签源来学习VG模型，通过这种方式完成伪标签源的选择。

步骤S500，根据所述多源自步自适应算法，在每一个当前选择的伪数据源中，分别从特定源可靠性和跨源可靠性对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过固定可靠性阈值、固定可靠性评估器的方式，依次选出最优可靠性评估器和最优可靠性阈值。

在本实施例中，由于标签的质量和语义特征不同，不同的伪标签源包含不同的特征分布。因此，从不同的伪标签源学习到的不同的可靠性评估器对特定的不同的源也有不同的判别能力。在选择可靠性评估器时，可以由不同的可靠性评估器为数据源S_j*获得多个可不同的可靠度(即，

)。因此，需要为当前SPL步骤中所学习的数据源选择一个最优的可靠性评估器来选择伪样本。

具体地，在本实施例的一种实现方式中，步骤S500包括以下步骤：

步骤S501，根据定义的可靠性阈值h₀，从当前数据源中选择一个伪样本的子集；

步骤S502，将所选子集加入D_χ进行模型训练，并在验证集上选择性能最优的可靠性评估器M_i*。

本实施例中首先定义一个可靠性阈值h₀，并使用它从当前数据源中选择一个伪样本的子集。具体来说，定义percent(H_ij*,h₀)作为根据H_ij*从第j^*个数据源中提取的子集，其中提取的每个样本属于可靠性直方图H_ij*在可靠性值区间[0,h₀]。该子集中的样本数可以通过数学公式描述为如下：

特别的，当h₀＝0/1时，不选择/选择所有数据。

然后，通过将所选子集加入D_χ进行模型训练，并在验证集上选择性能最好的最优的可靠性评估器M_i*具体如下所示：

其中，D_χ是当前SPL步骤之前所选伪样本的全部集合，该集合在初始化时为空集。

在确定最优可靠性评估器M_i*之后，根据相应的可靠性直方图H_i*j*，需要进一步从当前数据源S_j*中选择伪样本(即贪婪样本)。

具体地，在本实施例的一种实现方式中，步骤S500还包括以下步骤：

步骤S503，根据最优可靠性评估器对应的可靠性直方图H_i*j*，从当前数据源S_j*中找到验证集上性能最好的可靠性阈值h^*；

步骤S504，选择可靠性值属于可靠性直方图H_i*j*区间[0,h^*]上的伪样本，并将选取的伪样本加入到整个样本子集D_χ中。

在本实施例中，要找到验证集上性能最好的可靠性阈值h^*：

然后，选择最优可靠性评估器对应的直方图H_i*j*区间[0,h^*]上的伪样本。最后，将选取的伪样本加入到整个样本子集D_χ中，如下所示：

D_χ＝D_χ∪percent(H_i*j*,h^*) (10)

值得注意的是，如果直接求解公式(8)，代价是无法承受的。因此，提出了一种基于二分搜索的贪心样本选择算法。

步骤S600，以贪心的方式筛选出当前源伪样本数据并添加至总样本子集，逐步扩大并获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型。

在本实施例的一种实现方式中，步骤S600包括以下步骤：

步骤S601，基于二分搜索的贪心样本选择算法进行求解，得到一组最终的伪样本

步骤S602，根据伪样本

学习最终的视觉定位模型F_θ ^*。

本实施例中提出了一种基于二分搜索的贪心样本选择算法，具体来说，将h_r、h_m和h_l定义为三个临时可靠性阈值。同时将h_m初始化为初始值h_m＝h₀，并固定h_r＝h_m+Δ，而h_l＝h_m-Δ。

然后，通过尝试不同的h_m值贪婪地求解公式(8)。通过不断更新h_m＝h_r或h_l，直到h_m达到比h_r和h_l更好的性能。基于二分搜索的思想，可以快速找到性能次优的合适的可靠性阈值，从而减少模型训练的成本，保证所选伪样本取得可靠性和多样性之间的平衡。在自步学习结束时，将得到一组最终的伪样本

可以用它来学习最终的视觉定位模型F_θ ^*：

本实施例中的方法也适用于单源全监督的场景，在这种情况下MSA退化为单源自步适应(SSA)，如图7所示。与MSA相比，SSA不具有跨源可靠性。它只需要用单源的模型对训练数据进行自步的可靠性评估，然后找到合适的可靠性阈值。需要注意的是，由于手工标注的可靠性更好，在单源全监督场景中将h₀设为0.8。后续对全监督视觉定位的研究可以借鉴该插件算法，进一步提高原有模型的性能。

本实施例通过上述技术方案达到以下技术效果：

本实施例通过将CLIP应用于无监督视觉语言理解与定位的系统，使整个系统实现了具有多样性的伪数据的自适应，同时还保留了多模态基础大模型CLIP的泛化能力；并通过特定源可靠性和跨源可靠性，可以挖掘视觉定位数据的深层分布特征信息，从而使模型可以达到更强的泛化能力；而且，通过一个贪心的多源自步自适应的样本选择算法，可以筛选图像和伪标签的配对数据，对视觉定位模型进行重训练，在自步学习的每一步的选择样本过程中，都能在可靠性和多样性之间找到最佳平衡；本实施例可以基于多源伪标签对多模态基础大模型CLIP进行自适应，以解决无监督视觉定位的问题。

示例性设备

基于上述实施例，本发明还提供一种多模态视觉语言理解与定位装置，包括：

基于上述实施例，本发明还提供一种终端，其原理框图可以如图8所示。

该终端包括：通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块；其中，该终端的处理器用于提供计算和控制能力；该终端的存储器包括存储介质以及内存储器；该存储介质存储有操作系统和计算机程序；该内存储器为存储介质中的操作系统和计算机程序的运行提供环境；该接口用于连接外部设备，例如，移动终端以及计算机等设备；该显示屏用于显示相应的信息；该通讯模块用于与云端服务器或移动终端进行通讯。

该计算机程序被处理器执行时用以实现一种多模态视觉语言理解与定位方法的操作。

本领域技术人员可以理解的是，图8中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端，其中，包括：处理器和存储器，存储器存储有多模态视觉语言理解与定位程序，多模态视觉语言理解与定位程序被处理器执行时用于实现如上的多模态视觉语言理解与定位方法的操作。

在一个实施例中，提供了一种存储介质，其中，存储介质存储有多模态视觉语言理解与定位程序，多模态视觉语言理解与定位程序被处理器执行时用于实现如上的多模态视觉语言理解与定位方法的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

综上，本发明提供了一种多模态视觉语言理解与定位方法、装置、终端及介质，方法包括：构建视觉语言理解与定位模型；对未标注的图像数据进行处理，生成多个伪标签源；分别学习每一个源的视觉语言理解与定位模型；根据多源自步自适应算法，依据每一个源的表达文本的平均实体数由易到难逐步选择全部伪数据源；根据所述多源自步自适应算法，对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过可靠性评估器选择、可靠性阈值选择以及贪心算法获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型；本发明提出无监督的视觉语言理解与定位方法，可以基于多源伪标签对多模态基础大模型CLIP进行自适应，以解决无监督视觉定位的问题。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种多模态视觉语言理解与定位方法，其特征在于，包括：

构建视觉语言理解与定位模型；

对未标注的图像数据进行处理，生成多个伪标签源；

2.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述对未标注的图像数据进行处理，之前包括：

定义未标注的图像数据集I和n个不同源的伪三元组数据

定义测试数据集D^t＝(I_t,E_t,B_t)和学习目标模型；

其中，所述学习目标模型为：

F_θ:(I,E)→B为基于D^s的模型；

l表示损失函数。

3.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述对未标注的图像数据进行处理，生成多个伪标签源，包括：

4.根据权利要求3所述的多模态视觉语言理解与定位方法，其特征在于，所述通过所述目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源，包括：

通过所述目标检测器和属性检测器生成若干种模板；

5.根据权利要求3所述的多模态视觉语言理解与定位方法，其特征在于，所述通过所述场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源，包括：

6.根据权利要求3所述的多模态视觉语言理解与定位方法，其特征在于，所述通过所述图像标题生成器对所述未标注的图像数据进行处理，生成标题表达伪标签源，包括：

7.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述视觉语言理解与定位模型包括：图像编码器、文本编码器以及视觉语言跨模态融合定位模块。

8.根据权利要求7所述的多模态视觉语言理解与定位方法，其特征在于，所述分别学习每一个源的视觉语言理解与定位模型，包括：

其中，

为所述语言标记，

9.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述根据所述多源自步自适应算法，在每一个当前选择的伪数据源中，分别从特定源可靠性和跨源可靠性对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过固定可靠性阈值、固定可靠性评估器的方式，依次选出最优可靠性评估器和最优可靠性阈值，包括：

其中，D_χ为当前所选伪样本的全部集合；

D_χ＝D_χ∪percent(H_i*j*,h^*)

10.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述以贪心的方式筛选出当前源伪样本数据并添加至总样本子集，逐步扩大并获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型，包括：

根据伪样本

学习最终的视觉定位模型F_θ ^*：

其中，

为通过贪婪算法选择的伪样本。

11.一种多模态视觉语言理解与定位装置，其特征在于，包括：

12.一种终端，其特征在于，包括：处理器以及存储器，所述存储器存储有多模态视觉语言理解与定位程序，所述多模态视觉语言理解与定位程序被所述处理器执行时用于实现如权利要求1-10中任意一项所述的多模态视觉语言理解与定位方法的操作。

13.一种介质，其特征在于，所述介质为计算机可读存储介质，所述介质存储有多模态视觉语言理解与定位程序，所述多模态视觉语言理解与定位程序被处理器执行时用于实现如权利要求1-10中任意一项所述的多模态视觉语言理解与定位方法的操作。