CN117407557B

CN117407557B - 零样本实例分割方法、系统、可读存储介质及计算机

Info

Publication number: CN117407557B
Application number: CN202311705342.9A
Authority: CN
Inventors: 王伟; 张磊; 唐涛; 夏迪; 张智睿
Original assignee: Jiangxi Yunyan Shijie Technology Co ltd
Current assignee: Jiangxi Yunyan Shijie Technology Co ltd
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-05-07
Anticipated expiration: 2043-12-13
Also published as: CN117407557A

Abstract

本发明提供一种零样本实例分割方法、系统、可读存储介质及计算机，该方法包括：对数据筛选得到的筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选得到目标图像数据集；分别提取目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取图像特征和文本图特征的嵌入表征，以构建编码器模型；在编码器模型中引入模态交互算法得到目标编码器模型；基于对比损失函数、目标损失函数和目标图像数据集计算出整体损失函数；利用目标编码器模型、跨模态解码器模型以及整体损失函数所构建的双流编解码模型实现图像数据的语义标签检测。本发明通过输入来检测任意对象，并输出带有检测框的相应像素级别的语义标签。

Description

零样本实例分割方法、系统、可读存储介质及计算机

技术领域

本发明涉及数据处理技术领域，特别涉及一种零样本实例分割方法、系统、可读存储介质及计算机。

背景技术

实例分割是计算机视觉领域中的一项关键任务，涉及将图像分割成有意义的区域，其主要目标是将图像中的对象进行像素级别的分割，并为每个对象分配唯一的标识。

然而，现有的方法通常依赖昂贵的人工注释作为模型训练的监督信号，这限制了它们对大型、未标记数据集探索的可扩展性和适应性。随着预训练视觉语言模型（例如CLIP)的成功，尽管提出了许多开放词汇零样本实例分割模型，但整个训练管道仍然需要依赖大规模的文本-图像对来构建训练流程，限制了它们在开放世界情境下的应用以及可适应性。

发明内容

基于此，本发明的目的是提供一种零样本实例分割方法、系统、可读存储介质及计算机，以至少解决上述技术中的不足。

本发明提出一种零样本实例分割方法，包括：

获取若干图像数据集，并对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集；

对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集；

分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型；

在所述编码器模型中引入模态交互算法，以得到对应的目标编码器模型；

构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数；

根据所述目标编码器模型、所述跨模态解码器模型以及所述整体损失函数构建双流编解码模型，并利用所述双流编解码模型实现图像数据的语义标签检测。

进一步的，对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集的步骤包括：

利用图像处理算法分别检测出各所述图像数据集中所有图像数据的曝光度和模糊度；

将所述曝光度不符合曝光度阈值的图像数据和所述模糊度不符合模糊度阈值的图像数据进行筛除，以得到对应的筛选图像数据集。

进一步的，对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集的步骤包括：

利用图像标签提取器和实例分割模型提取器对所述筛选图像数据集进行伪标签生成，以得到对应的图像标签和文本标签；

计算出所述图像标签与所述文本标签的相似度，并根据相似度阈值对所述筛选图像数据集进行标签选择，以得到对应的目标图像数据集。

进一步的，分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型的步骤包括：

利用预训练的Swin-Transformer算法提取所述目标图像数据集的图像特征，并利用Bert算法提取所述目标图像数据集的文本图特征；

利用自注意力机制和多尺度可变注意力机制增强所述图像特征和所述文本图特征的特征表达，以得到对应的编码器模型。

本发明还提出一种零样本实例分割系统，包括：

数据筛选模块，用于获取若干图像数据集，并对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集；

数据处理模块，用于对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集；

特征提取模块，用于分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型；

编码器构建模块，用于在所述编码器模型中引入模态交互算法，以得到对应的目标编码器模型；

损失函数计算模块，用于构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数；

模型构建模块，用于根据所述目标编码器模型、所述跨模态解码器模型以及所述整体损失函数构建双流编解码模型，并利用所述双流编解码模型实现图像数据的语义标签检测。

进一步的，所述数据筛选模块包括：

图像处理单元，用于利用图像处理算法分别检测出各所述图像数据集中所有图像数据的曝光度和模糊度；

数据筛选单元，用于将所述曝光度不符合曝光度阈值的图像数据和所述模糊度不符合模糊度阈值的图像数据进行筛除，以得到对应的筛选图像数据集。

进一步的，所述数据处理模块包括：

标签处理单元，用于利用图像标签提取器和实例分割模型提取器对所述筛选图像数据集进行伪标签生成，以得到对应的图像标签和文本标签；

数据处理单元，用于计算出所述图像标签与所述文本标签的相似度，并根据相似度阈值对所述筛选图像数据集进行标签选择，以得到对应的目标图像数据集。

进一步的，所述特征提取模块包括：

特征提取单元，用于利用预训练的Swin-Transformer算法提取所述目标图像数据集的图像特征，并利用Bert算法提取所述目标图像数据集的文本图特征；

表达增强单元，用于利用自注意力机制和多尺度可变注意力机制增强所述图像特征和所述文本图特征的特征表达，以得到对应的编码器模型。

本发明还提出一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的零样本实例分割方法。

本发明还提出一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的零样本实例分割方法。

本发明当中的零样本实例分割方法、系统、可读存储介质及计算机，通过对图像数据集进行数据预处理，并对预处理得到的数据进行特征提取，并构建编码器模型和解码器模型以及对应的损失函数构建双流编解码模型，利用该双流编解码模型实现图像数据的语义标签检测，通过输入来检测任意对象，并输出带有检测框的相应像素级别的语义标签，整个训练过程无需任何的文本图像标签，借助已有的开放词汇图像标签提取器和实例分割模型提取器，针对任意输入图像获取相应的文本标签和图像像素级别的实例级伪标签，并基于CUP模型计算文本和图像伪标签之间的相似度，将大于给定阈值的文本-图像对作为后续GroundingSeg的训练素材，从而构建丰富的视觉概念知识。

附图说明

图1为本发明第一实施例中的零样本实例分割方法的流程图；

图2为图1中步骤S101的详细流程图；

图3为图1中步骤S102的详细流程图；

图4为图1中步骤S103的详细流程图；

图5为本发明第二实施例中的零样本实例分割系统的结构框图；

图6为本发明第三实施例中的计算机的结构框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的零样本实例分割方法，所述方法具体包括步骤S101至S106：

S101，获取若干图像数据集，并对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集；

进一步的，请参阅图2，所述步骤S101具体包括步骤S1011~S1012：

S1011，利用图像处理算法分别检测出各所述图像数据集中所有图像数据的曝光度和模糊度；

S1012，将所述曝光度不符合曝光度阈值的图像数据和所述模糊度不符合模糊度阈值的图像数据进行筛除，以得到对应的筛选图像数据集。

在本实施例中，引入了一种基于Transformer的 DETR类实例分割框架与主流多模态技术相结合的开放世界零样本实例分割方法——GroundingSeg，它可以通过人类输入来检测任意对象，并输出带有检测框的相应像素级别的语义标签，整个训练过程无需任何的文本图像标签。具体地，借助已有的开放词汇图像标签提取器和实例分割模型提取器，理论上可以针对任意输入图像获取相应的文本标签和图像像素级别的实例级伪标签,并基于CLIP模型计算文本和图像伪标签之间的相似度，将大于给定阈值的文本-图像对作为后续GroundingSeg的训练素材，从而构建丰富的视觉概念知识。

具体实施时，准备大规模的未标记数据集，该数据集包含各种类型的图像，这些图像可以根据需求收集来自各种领域，如安防监控、自然图像、工业设备等，以确保输入数据的质量和一致性。数据集应包括多种丰富场景（如不同光照、亮度、季节、地点等）以及多种形态（如尺寸、位置、颜色等）的对象，以确保模型具有广泛的适应性。

具体的，对上述得到的数据集进行数据筛选，在数据筛选阶段，对收集到的图像进行初步筛选。这包括去除掉明显的低质量图像，例如曝光过度或模糊不清的图像，可以使用以下方法来实现初步筛选：

曝光度检测：使用图像处理技术来检测图像的曝光度，例如将图像中的曝光度异常高或低的图像可以被标记为低质量图像并加以排除。

模糊度检测：使用图像处理技术来检测图像的模糊度，例如将图像中的模糊度超过阈值的图像可以被标记为低质量图像并排除。

S102，对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集；

进一步的，请参阅图3，所述步骤S102具体包括步骤S1021~S1022：

S1021，利用图像标签提取器和实例分割模型提取器对所述筛选图像数据集进行伪标签生成，以得到对应的图像标签和文本标签；

S1022，计算出所述图像标签与所述文本标签的相似度，并根据相似度阈值对所述筛选图像数据集进行标签选择，以得到对应的目标图像数据集。

在具体实施时，为了提高GroundingSeg的训练效率，本实施例采用离线伪标签的提取方案。因此首要关键便是需要生成源图像对应的标签文本信息和像素级别的图像伪标签。这一步是通过已有的 SOTA图像标签提取器和实例分割模型提取器来实现的。这些提取器可以自动检测图像中的对象，并为每个图像生成丰富的标签(Tag)文本信息以及相应的实例级分割掩码，这些伪标签将在后续的训练中用于监督模型的学习。例如，针对自然图像场景，可以应用RAM(Recognize Anything Model)和 SEEM(SemanticSegment AnythingModel))作为相应的文本标签和图像标签提取器。

-RAM：是一种图像标签解析模型，可以高精度地识别任何常见类别，其引入了图像打标签的一个新范式，利用大规模的图像-文本对进行训练，从而可用于给图像打标签。

-SEEM：是一个多粒度、带语义的统一分割模型，可以根据给定提示分割中图中的一切前景对象。相较于SAM(Segment AnythingModel),SEEM可以提供粒度可控的高质量掩码输出，本发明采用对象级别（object-level）的输出掩码作为GroundingSeg 的标签掩码。

进一步的，计算文本和图像伪标签之间的相似度。本实施例中采用CLIP模型来将文本和图像伪标签映射到一个共享的嵌入空间，并计算它们之间的余弦相似度。相似度值表示了每个伪标签对之间的关联程度。

具体的，根据设定的相似度阈值，选择大于阈值的文本-图像伪标签对作为训练素材，用于监督GroundingSeg模型的训练。具体地，给定源数据集/>，根据以上步骤构建相应地图像-文本对标签集/>：

式中，和/>分别表示预训练图像和文本模型提取到的标签信息，则代表利用预训练的视觉语言模型CLIP模型计算图像-文本的匹配对/>所得到的相似度分数，这一步骤确保了模型只使用与图像内容相关的文本信息，而忽略不相关的信息。

S103，分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型；

进一步的，请参阅图4，所述步骤S103具体包括步骤S1031~S1032：

S1031，利用预训练的Swin-Transformer算法提取所述目标图像数据集的图像特征，并利用Bert算法提取所述目标图像数据集的文本图特征；

S1032，利用自注意力机制和多尺度可变注意力机制增强所述图像特征和所述文本图特征的特征表达，以得到对应的编码器模型。

在具体实施时， GroundingSeg模型是一个双流编解码器架构，其包含一个用于提取图像嵌入的视觉编码器(Visual Encoder)、一个用于提取文本嵌入的文本编码器(Textual Encoder)、一个用于融合多模态信息的双向跨模态交互模块以及对应的视觉-文本跨模态解码器。GroundingSeg接收每个（图像-文本）对作为输入，并输出相应图片的目标框及掩码图。例如，给定输入图像，用户输入“tv”、“dog”和“person”，模型便可以从图像中定位并分割出相应感兴趣目标的掩码图。

具体的，如上所述，GroundingSeg 的编码器部分是一个双流结构，其包含一个图像主干网络和一个文本主干网络。其中，对于图像主干网络采用预训练的Swin-Transformer用于提取原始的图像特征（Pure visual Features)；而对于文本主干网络，则采用Bert来提取原始的文本图特征(Pure Texture Features)。此外，为了进一步增强特征表达，进一步采用常规的自注意力(Self-Attention)机制和多尺度可变形注意力(Multi-Scale Deformable Attention，MSDeform Attn）模块来提取文本和图像的嵌入(Embedding）表征和/>。

S104，在所述编码器模型中引入模态交互算法，以得到对应的目标编码器模型；

在具体实施时，为了更好的融合不同模态的信息，本实施例中引入了双向跨模态交互(Bidirectional Cross-Modal Attention, BiCMA）模块来实现图像和文本特征之间的信息交互：

首先，先给出自注意力机制的一般形式：

；

对于给定的嵌入，利用投影函数将其映射为相应的查询(Query)、键(Key)和值(Value)矩阵即对应三种不同的表示，然后通过计算它们之间的相似性来分配注意力权重，以实现对序列内部关联性的建模，其中，即上述的查询(Query)、键(Key)和值(Value)矩阵，/>是一种常见的标度方式，使得点积结果的数量级大致保持在一个相对合理的范围内。这种机制在各种深度学习任务中都发挥着重要作用，包括文本生成、机器翻译、语音识别和图像处理等。其中：

查询(Query):查询表示是用于确定每个位置或向量在计算注意力时的重要性的一种表示。每个位置的查询向量用于与其他位置的键进行比较，以确定它们之间的相似性，从而决定每个位置的注意力分布。

键(Key):键表示是用于提供比较基准的一种表示。它们与查询一起用于计算注意力分数。在自注意力机制中，键通常与查询具有相同的维度。

值(Value):值表示是在计算注意力分数之后用于加权汇总信息的表示。在自注意力机制中，值通常与查询和键具有相同的维度。值的权重由注意力分数确定，从而确定了每个位置或向量的最终表示。

具体的，注意力权重是通过查询和键之间的相似性来计算的，通常使用点积或其他相似性度量方法。然后，这些权重用于加权值，以生成每个位置的输出。这种机制允许模型根据输入序列中不同位置的信息，动态地分配注意力，从而捕捉序列内部的关联性和重要性，是实现序列建模和依赖关系建模的强大工具。为了进一步增强了模型的表征能力，可以引入多头自注意力机制，从而再处理序列化数据时更好地捕捉不同位置之间的关系和特征。其中每个头可以关注序列中的不同部分，有助于模型更好地区分具体的组件或特征。

进一步的，受 Visual-Guided Attention (VGA)Transformer 模块的启发，本实施例中，引入了一个用于跨模态的注意力机制块（BiCMA），用于实现文本和视觉之间的跨模态交互。在这个块中，每个模态的查询向量都被修改，以便指向另一模态的中间特征。引入了文本和视觉流之间的跨模态信息交换。BiCMA块允许不同模态之间的信息互相影响，从而帮助模型更好地理解文本和视觉之间的关联。通常，注意力机制用于根据输入的查询（query)向量来分配不同位置的注意力权重。在 BiCMA块中，查询向量(query）被修改，以便将其指向中间的视觉特征，而不是原始的文本特征。这就使得BiCMA块的注意力机制更多地关注文本流中与视觉信息相关的部分。这意味着在当前任务中，BiCMA块有助于文本流根据相关的视觉信息自适应地调整注意力权重系数，反之类似。

S105，构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数；

在具体实施时，跨模态任务在计算机视觉和自然语言处理领域具有广泛的应用，如机器人、视觉问题回答、多模态情感分析等。这种模块的设计允许模型在这些任务中更好地理解和处理不同模态的信息。这也是多模态深度学习研究领域的一个重要方向，通过融合不同模态的信息，可以获得更丰富、更准确的表示，从而提高了模型在各种任务中的性能。在实际应用中，跨模态任务对于理解多模态数据的互动和关联性非常重要，有助于深度学习模型更好地理解图像和文本之间的关系，从而在各种应用中提供更准确的结果。

与原始的DINO解码器层相比，本实施例应用了视觉-文本跨模态解码器(Cross-Modality Decoder,CM-Decoder)，该模块的每个解码器层多了一个额外的文本交叉注意力层。这是因为在跨模态任务中，需要更好地对齐图像和文本信息，以便在模型中引入文本信息。因此，为了确保图像和文本能够更好地融合，引入了额外的文本交叉注意力层，以将文本信息注入到查询中。CM-Decoder模块同样包含多个层，每一层都具有以下组件：

1. Self-Attention Layer：每个跨模态查询(cross-modality query)首先进入一个自注意力层。自注意力层用于捕获输入序列内部的依赖关系，有助于建模查询之间的上下文信息。

2. lmage Cross-Attention Layer：在自注意力层之后，跨模态查询通过一个图像交叉注意力层。这一层的目的是将图像特征与查询关联起来，以使图像的信息能够在处理文本时被考虑。

3. Text Cross-Attention Layer：类似地，每个查询也通过一个文本交叉注意力层。这一层的作用是将文本特征与查询关联起来，以使文本的信息能够在处理图像时被考虑。

4. FN Layer(Feedforward Network)：最后，在图像和文本交叉注意力之后，每个跨模态查询进入一个前馈神经网络层，通常称为FFN层。FFN层有助于进一步处理融合的特征以获得更有信息量的表示。

最终，最后一个解码器的输出查询将用于预测目标框和相应的分割掩码，以作后续的损失计算。

S106，根据所述目标编码器模型、所述跨模态解码器模型以及所述整体损失函数构建双流编解码模型，并利用所述双流编解码模型实现图像数据的语义标签检测。

在具体实施时，损失函数是深度学习模型训练的关键组成部分，它们用于衡量模型的预测与真实数据之间的差异。在本实施例中，采用了一种复合的损失函数，针对不同的任务和模型部分设计多样化的损失函数。这种多任务损失的设计有助于综合考虑物体检测、分割和文本预测等方面的信息，以实现开放词汇零样本实例分割任务中的准确预测和特征学习。

1.对比损失：

对比表征学习是视觉-语言跨模态预训练中的一种常用学习范式，旨在促进网络学习到比预测表征学习更好的特征表示。遵循交叉模态对比学习的一般范式，将GroundingSeg 抽象为一个由图像编码器和文本编码器/>组成的视觉-语言跨模态模型，其目的在于学习图像数据I和文本数据T的表征。具体地，给定一个视觉嵌入/>和一个文本嵌入/>，假设采用距离度量的方式，那么希望表征/>和/>越相近则相关系数越大，反之则相关系数越小。因此，在每个训练批次中，假设由p个图像-文本对/>，将视为正样本对，剩余匹配对视为当前寻来批次的负样本，为此，可以计算出文本到图像的对比损失函数：

；

式中，代表第t个文本到第k个图像之间的相似度分数，类似的，同样可以计算出关于第t个图像到第k个文本之间的相似度分数：

；

至此，能够得到当前批次的对比损失表达式：

；

其中，每个查询(query)与文本特征进行点积运算，以预测每个文本标记的logit值。然后，使用focal loss来计算每个逻辑值的损失。这有助于模型准确地将对象分类为文本中所描述的类别。

2.目标损失：

同DINO一样，建立预测值和真实值之间的二分匹配(bipartite matching)。同样的，除了二分匹配中的原始框和分类损失之外，还添加了掩码预测损失，以鼓励一次查询获得更准确和一致的匹配结果。因此，可以将目标损失建模为：

；

其中，、/>和/>分别是分类损失/>、边框损失/>以及掩码损失的权重系数，此时，针对边框回归任务，本申请采用L1损失(L1 loss)和GIOU损失(Generalized Intersection over Union loss)共同优化。这些损失函数用于衡量模型预测的边界框与真实边界框之间的差异。L1损失通常用于计算边界框的坐标偏差，而GIoU损失考虑了边界框的形状和位置，因此更适用于物体检测任务。而针对/>和/>则采用常规的交叉嫡损失和Dice 损失来监督分类和掩码分支的信号，最终，能够得到Groundingseg 的整体损失函数：

。

综上，本发明上述实施例当中的零样本实例分割方法，通过对图像数据集进行数据预处理，并对预处理得到的数据进行特征提取，并构建编码器模型和解码器模型以及对应的损失函数构建双流编解码模型，利用该双流编解码模型实现图像数据的语义标签检测，通过输入来检测任意对象，并输出带有检测框的相应像素级别的语义标签，整个训练过程无需任何的文本图像标签，借助已有的开放词汇图像标签提取器和实例分割模型提取器，针对任意输入图像获取相应的文本标签和图像像素级别的实例级伪标签，并基于CUP模型计算文本和图像伪标签之间的相似度，将大于给定阈值的文本-图像对作为后续GroundingSeg的训练素材，从而构建丰富的视觉概念知识。

实施例二

本发明另一方面还提出一种零样本实例分割系统，请查阅图5，所示为本发明第二实施例中的零样本实例分割系统，所述系统包括：

数据筛选模块11，用于获取若干图像数据集，并对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集；

进一步的，所述数据筛选模块11包括：

数据处理模块12，用于对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集；

进一步的，所述数据处理模块12包括：

特征提取模块13，用于分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型；

进一步的，所述特征提取模块13包括：

编码器构建模块14，用于在所述编码器模型中引入模态交互算法，以得到对应的目标编码器模型；

损失函数计算模块15，用于构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数；

模型构建模块16，用于根据所述目标编码器模型、所述跨模态解码器模型以及所述整体损失函数构建双流编解码模型，并利用所述双流编解码模型实现图像数据的语义标签检测。

上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

本发明实施例所提供的零样本实例分割系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，系统实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例三

本发明还提出一种计算机，请参阅图6，所示为本发明第三实施例中的计算机，包括存储器10、处理器20以及存储在所述存储器10上并可在所述处理器20上运行的计算机程序30，所述处理器20执行所述计算机程序30时实现上述的零样本实例分割方法。

其中，存储器10至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器10在一些实施例中可以是计算机的内部存储单元，例如该计算机的硬盘。存储器10在另一些实施例中也可以是外部存储装置，例如插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器10还可以既包括计算机的内部存储单元也包括外部存储装置。存储器10不仅可以用于存储安装于计算机的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

其中，处理器20在一些实施例中可以是电子控制单元 (Electronic ControlUnit，简称ECU，又称行车电脑)、中央处理器（Central Processing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器10中存储的程序代码或处理数据，例如执行访问限制程序等。

需要指出的是，图6示出的结构并不构成对计算机的限定，在其它实施例当中，该计算机可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还提出一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的零样本实例分割方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种零样本实例分割方法，其特征在于，包括：

对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集，其中，对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集的步骤包括：

根据采用CLIP模型将所述图像标签与所述文本标签映射到一个共享的嵌入空间，以计算出所述图像标签与所述文本标签之间的相似度，给定源数据集，并根据相似度阈值/>对所述筛选图像数据集进行标签选择，选择大于所述相似度阈值/>的文本-图像伪标签对作为训练素材对GroundingSeg模型进行训练，以得到对应的目标图像数据集：

式中，和/>分别表示预训练图像和文本模型提取到的标签信息，/>则代表利用预训练的视觉语言模型CLIP模型计算图像-文本的匹配对/>所得到的相似度分数；

构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数，其中，构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数的步骤包括：

将GroundingSeg 抽象为一个由图像编码器和文本编码器/>组成的视觉-语言跨模态模型，给定一个视觉嵌入/>和一个文本嵌入/>，采用距离度量的方式，在每个训练批次中，假设由p个图像-文本对/>，将/>视为正样本对，剩余匹配对视为当前寻来批次的负样本，以计算出文本/>到图像/>的对比损失函数/>；

计算出关于第t个图像到第k个文本之间的相似度分数；

根据所述文本到图像/>的对比损失函数/>和所述第t个图像到第k个文本之间的相似度分数/>得到当前批次的对比损失表达式：

；

建立预测值和真实值之间的二分匹配，将目标损失建模为：

；

其中，、/>和/>分别是分类损失/>、边框损失/>以及掩码损失/>的权重系数，采用L1损失和GIOU损失共同优化，针对/>和/>则采用常规的交叉嫡损失和Dice 损失来监督分类和掩码分支的信号得到Groundingseg 的整体损失函数：

；

2.根据权利要求1所述的零样本实例分割方法，其特征在于，对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集的步骤包括：

3.根据权利要求1所述的零样本实例分割方法，其特征在于，分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型的步骤包括：

4.一种零样本实例分割系统，其特征在于，包括：

数据处理模块，用于对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集，其中，所述数据处理模块包括：

数据处理单元，用于根据采用CLIP模型将所述图像标签与所述文本标签映射到一个共享的嵌入空间，以计算出所述图像标签与所述文本标签之间的相似度，给定源数据集，并根据相似度阈值/>对所述筛选图像数据集进行标签选择，选择大于所述相似度阈值/>的文本-图像伪标签对作为训练素材对GroundingSeg模型进行训练，以得到对应的目标图像数据集：

损失函数计算模块，用于构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数，其中，所述损失函数计算模块具体用于：

计算出关于第t个图像到第k个文本之间的相似度分数；

；

建立预测值和真实值之间的二分匹配，将目标损失建模为：

；

5.根据权利要求4所述的零样本实例分割系统，其特征在于，所述数据筛选模块包括：

6.根据权利要求4所述的零样本实例分割系统，其特征在于，所述特征提取模块包括：

7.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3任一项所述的零样本实例分割方法。

8.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的零样本实例分割方法。