CN117218456B

CN117218456B - 一种图像标注方法、系统、电子设备和存储介质

Info

Publication number: CN117218456B
Application number: CN202311466814.XA
Authority: CN
Inventors: 王磊; 付伟男; 张鸣磊
Original assignee: Hangzhou Lingxi Robot Intelligent Technology Co ltd
Current assignee: Hangzhou Lingxi Robot Intelligent Technology Co ltd
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-02-02
Anticipated expiration: 2043-11-07
Also published as: CN117218456A

Abstract

本申请实施例提供的一种图像标注方法、系统、电子设备和存储介质，通过从参考图像中获取目标物体的参考特征；从待标注图像中获取待标注图像特征，并基于参考特征和待标注图像特征生成置信度图，其中，置信度图映射了待标注图像的任一像素点是目标物体的概率；根据置信度图，从待标注图像中获取各个目标物体的近似中心点；生成各个近似中心点对应的提示编码，并基于参考特征和各个提示编码，获取待标注图像中各个目标物体的掩膜。本实施例提供的方法利用参考图像进行图像标注，省去了直接使用SAM模型进行标注需要人工点击目标物体的步骤，解决了相关技术中图像标注方法效率差和精度低的问题，实现了完全无需人工干预的自动标注。

Description

一种图像标注方法、系统、电子设备和存储介质

技术领域

本申请涉及计算机视觉领域，特别是涉及一种图像标注方法、系统、计算机设备和计算机可读存储介质。

背景技术

在拆码垛场景中，只有将单个纸箱完整无误的从图像中分割出来，才可以为后续抓取流程提供精确的坐标，在基于深度学习的方法中，通常需要对大量纸箱数据进行十分精细的标注并训练才能满足精度的要求。

在相关技术中，针对于拆码垛场景中的图像标注方法包括：

1.基于在线学习的辅助标注的方法，该方法由人对应用场景的部分数据进行标注并训练得到初始版本的预训练模型，进一步的，通过该模型对剩余部分数据进行预测，并将预测的结果作为预标注结果，由人工进行修改之后继续训练模型，反复迭代此过程，直至模型收敛。

但是，在被标注物类丰富时，初始标注的数据量仍然较大；此外，在迭代训练过程中，人工校正标注结果的成本也可能很大。

2. 基于视觉分割大模型（例如SAM（Segment Anything Model）的辅助标注方法，该方法在海量自然场景数据上训练得到一版模型，该模型能够感知物体的形状和边界等信息；将该模型直接在应用场景进行预测，并将预测结果作为预标注结果并修正。

具体的，SAM模型具有图像编码器，点提示编码器和解码器，图像编码器负责提取图像的特征，点提示编码器负责将输入的点提示编码、框提示或者掩膜提示进行编码，解码器负责结合点提示编码和图像特征计算出提示在图像中的对应掩膜。

应用该方法，只需要点击图片中的某个位置，该位置对应的目标就可以被分割出来；将SAM作为辅助标注引擎，通过点击图片的方式来进行标注，大大加快了人工标注的速度。

但是，由于该类型大模型的训练数据是自然场景下的图片，在拆码垛等特定工业应用场景下的实际效果很差，模型标注的结果依然需要修改，无法达到可用的标准。尽管可以通过微调模型其标注效果，但是，微调模型的过程还是需要标注部分图片，因此，仍然会造成较高的人工成本。此外，如果目标较多，通过逐个点击目标实现标注的方式也需要消耗较大的人力成本。

发明内容

本申请实施例提供了一种图像标注方法、系统、计算机设备和计算机可读存储介质，以至少解决相关技术中物体标注方法效率较差的问题。

第一方面，本申请实施例提供了一种图像标注方法，通过视觉分割大模型基于目标场景的参考图像和待标注图像实现，所述方法包括：

从所述参考图像中获取目标物体的参考特征；

从所述待标注图像中获取待标注图像特征，并基于所述参考特征和所述待标注图像特征生成置信度图，其中，所述置信度图映射了所述待标注图像的任一像素点是所述目标物体的概率；

根据所述置信度图，从所述待标注图像中获取各个目标物体的近似中心点；

生成各个近似中心点对应的提示编码，并基于所述参考特征和各个提示编码，获取所述待标注图像中各个目标物体的掩膜。

在其中一些实施例中，所述方法还包括：

优化各个目标物体的掩膜，根据优化之后的各个目标物体的掩膜过滤所述待标注图像特征，并对所述参考特征进行平均池化，得到压缩特征；

基于所述压缩特征和所述参考特征，更新所述参考特征，根据所述更新之后的参考特征和所述待标注图像特征生成置信度图。

在其中一些实施例中，基于所述参考特征和各个提示编码，获取所述待标注图像中各个目标物体的掩膜：

通过提示编码器，根据各个目标物体的近似中心点，生成点提示编码；

通过解码器，基于所述参考特征和所述点提示编码在通道维度合并的结果进行解码，得到第一掩膜，

基于所述参考特征、所述点提示编码和所述第一掩膜在通道维度合并的结果进行解码，得到第二掩膜；

基于所述参考特征、所述点提示编码所述第二掩膜的最小外接水平框在通道维度合并的结果进行解码，得到所述待标注图像中各个目标物体的掩膜。

在其中一些实施例中，从所述参考图像中获取目标物体的参考特征包括：

通过图像编码器提取所述参考图像的参考图像特征；

通过提示编码器，生成所述参考图像中目标物体的提示信息；

通过解码器，基于所述参考图像特征和所述提示信息，得到所述目标物体的参考掩膜；

根据所述参考掩膜过滤所述参考图像，得到所述目标物体的参考特征。

在其中一些实施例中，基于所述参考图像特征和所述提示信息，得到所述目标物体的参考掩膜包括：

基于所述参考特征和所述提示信息，得到所述目标物体的初始掩膜；

响应于校正信息对所述初始掩膜进行校正，得到优化初始掩膜，其中，基于所述优化初始掩膜对所述参考图像进行标注的结果，误差小于预设误差阈值。

在其中一些实施例中，根据所述置信度图，生成所述待标注图像中各个目标物体的近似中心点包括：

根据所述置信度图中各个像素点的置信度，确定置信度阈值；

根据所述置信度阈值对所述置信度图进行二值化处理，得到多个连通域；

获取所述各个连通域的中点坐标，得到所述各个目标物体的近似中心点。

在其中一些实施例中，基于所述参考特征和所述待标注图像特征生成置信度图包括：

对各个目标物体的参考特征进行平均池化，得到压缩之后的参考特征；

获取所述待标注图像的待标注图像特征，基于压缩之后的参考特征和所述待标注图像特征，生成所述置信度图。

第二方面，本实施例提供了一种图像标注系统，通过视觉分割大模型，基于目标场景的参考图像和待标注图像实现，所述系统包括：参考图像处理模块和待标注图像处理模块，其中：

所述参考图像处理模块，用于从所述参考图像中获取目标物体的参考特征；

所述待标注图像处理模块，用于从所述待标注图像中获取待标注图像特征，并基于所述参考特征和所述待标注图像特征，生成置信度图，其中，所述置信度图映射了所述待标注图像的任一像素点是所述目标物体的概率，以及，

根据所述置信度图，从所述待标注图像中获取各个目标物体的近似中心点，生成各个近似中心点对应的提示编码，并基于所述参考特征和各个提示编码，获取所述待标注图像中各个目标物体的掩膜。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的方法。

相比于相关技术，本申请实施例提供的一种图像标注方法，通过从参考图像中获取目标物体的参考特征；从待标注图像中获取待标注图像特征，并基于参考特征和待标注图像特征生成置信度图；根据置信度图，从待标注图像中获取各个目标物体的近似中心点；生成各个近似中心点对应的提示编码，并基于参考特征和各个提示编码，获取待标注图像中各个目标物体的掩膜。本实施例提供的方法利用参考图像进行图像标注，省去了直接使用SAM模型进行标注需要人工点击目标物体的步骤，解决了相关技术中图像标注方法效率差和精度低的问题，实现了完全无需人工干预的自动标注。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种图像标注方法的应用环境示意图；

图2是根据本申请实施例的一种图像标注方法的流程图；

图3是根据本申请实施例获取目标物体参考特征的流程图；

图4是根据本申请实施例的一种从待标注图像中获取各个目标物体的掩膜的流程图；

图5是根据本申请实施例的另一种图像标注方法的流程图；

图6是根据本申请实施例的一种目标物体标注结果的示意图；

图7是根据本申请实施例的一种图像标注方法的结构框图；

图8是根据本申请实施例的一种图像标注系统运行逻辑的流程图；

图9是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

图1是根据本申请实施例的一种图像标注方法的应用环境示意图，如图1所示，在拆码垛场景下，机器人通过摄像装置采集场景内的物料图像，对该物料图像进行自动标注并将其标注结果校正得到参考图像；进一步的，通过图像处理单元，利用参考图像精准的标注结果对后续获取的每一帧物料图像进行标注，并利用标注结果实现目标物抓取等操作。通过本实施例提供的方法，可以高效、准确地分割出其中的目标物体。

本实施例提供的方法，通过视觉分割大模型，基于目标场景的参考图像和待标注图像实现。图2是根据本申请实施例的一种图像标注方法的流程图，如图2所示，该流程包括如下步骤：

S201，从参考图像中获取目标物体的参考特征；

其中，该参考图像和上述待标注图像是同一场景下的图像，该场景可以是常见的工业场景、例如堆垛、码垛、搬运等；

另外，该参考图像中包括目标物体信息和场景信息，其中，目标物体信息是图像中待标注物体的信息，场景信息是场景中除目标物体之外的其他图像信息；具体的，该目标物体可以是纸箱、木箱和泡沫盒等，该场景信息可以对应于真实空间中的地面、载具等。

本实施例中，本领域技术人员可以理解，该参考图像中包括目标物体的标注结果，且标注结果的误差应小于预设误差阈值；

具体的，一种可选的获取参考图像的方式包括：通过视觉分割大模型直接对目标场景下的任意一张图像进行标注，并将标注结果的修改至非常准确；具体的，标注结果的修改可以通过自动化修正并结合预设的误差校验算法实现，也可以通过人工操作结合经验知识实现。需要说明的是，该步骤的目的是获取一张标注结果非常准确的图像作为参考图像，为后续标注流程提供数据基础。

在一个可选的实施例中，通过SAM模型从参考图像中获取目标物体的参考特征；其中，SAM（Segment Anything Model）是视觉分割大模型的一种，其具有图像编码器，提示编码器和解码器；图像编码器负责提取图像的特征，提示编码器负责将输入的点提示、框提示和掩膜提示进行编码，解码器负责结合提示编码和图像特征计算出提示在图像中的对应掩膜，用户只需要点击图片中目标物体的位置，该位置对应的目标就可以被SAM分割出来。

图3是根据本申请实施例获取目标物体参考特征的流程图，如图3所示，该流程包括如下步骤：

S2011，通过图像编码器提取参考图像的图像特征，通过提示编码器生成参考图像中目标物体的提示信息；

可选的，该参考图像可以记为，参考图像的图像特征记为/>，其中，/>，分别是特征图的高度，宽度和通道数；其中，SAM模型通过图像编码器提取特征的具体过程，以及通过提示编码器生成提示信息的具体实现过程生成为本领域的通用手段，其具体实现细节对本申请核心创新点并无影响，因此，本实施例中对该步骤的具体实现手段不再赘述。

S2012，通过解码器，基于参考图像的图像特征和提示信息，得到目标物体的参考掩膜；

其中，掩膜（Mask）是用于标识图像中不同对象的图像数据结构，其通常是与原始图像具有相同的尺寸，每个像素的值表示相应位置是否属于某个特定对象或类别，掩膜的主要目的是对图像中的不同对象或区域进行精确的分割和标注。

可以理解，在本实施例中，该参考掩膜用于区分参考图像中目标物体和背景部分。

S2013，根据参考掩膜过滤参考图像，得到目标物体的参考特征；

具体的，该步骤可以通过掩膜过滤参考图片的特征/>实现。

进一步的，考虑到参考图像中，各个目标物体的特征较为相似，本实施例中，对各个目标物体特征进行平均池化，生成一个压缩的特征表示，以便更有效地表示整个图像特征，具体的，可以通过如下公式1获取压缩特征：

公式1：

其中，。

通过上述步骤S201，通过SAM模型结合对标注结果的修正，获取参考图像中目标物体的精准特征，并对其进行平均池化操作，从而有助于降低特征的维度，减少计算成本，同时仍然保留了可用程度的信息。

S202，从待标注图像中获取待标注图像特征，并基于参考特征和待标注图像特征生成置信度图，其中，置信度图映射了待标注图像的任一像素点是目标物体的概率；

其中，该待标注图像是与参考图像同一应用场景下的图像，获取该待标注图像的方式可以是不同时序拍摄或不同角度拍摄参考图像中所有目标物体得到，同时，该待标注图像中应包括参考图像中所有目标物体的像素信息。

在一个示例性实施例中，基于参考特征和待标注图像特征生成置信度图包括如下步骤：

Step1，通过图像编码器，提取待标注图像的特征，得到待标注图像特征，可选的，将其记为；

Step2，通过计算步骤S201得到的参考特征和上述待标注图像特征之间的余弦相似度，得到置信度图；

具体的，该步骤可以基于上述特征，通过如下公式2实现：

公式2：

其中，由于上述参考特征是目标物体的特征，且待标注图像中包括了同样目标物体的特征和背景特征，因此，通过计算两者之间各个像素点的余弦相似度，即可得到置信度图；

可以理解，通过上述步骤S202得到待标注图像对应的置信度图，映射了待标注图像的任一像素点是目标物体的概率。

S203，根据置信度图，获取待标注图像中各个目标物体的近似中心点；

具体的，步骤S203包括如下具体步骤：

Step1，结合置信度图中各个像素点的置信度，确定置信度阈值；

具体的，该置信度阈值可以根据本领域经验知识确定，也可以通过自动化程序确定。

Step2，根据置信度阈值，对置信度图进行二值化处理，得到多个连通域；

可以理解，该步骤即依次遍历置信度图中各个像素点，对置信度大于该阈值的点赋值为1，对置信度小于或等于该阈值的点赋值为0。

进一步的，对应于目标物体的像素点由于具备更高的置信度，会组成为一个连通域，在原始图像中存在多个目标物体时，该步骤将得到多个连通域；

Step3，获取各个连通域的中点坐标，得到各个目标物体的近似中心点。

可以理解，各个连通域的中点坐标反映了待标注图像中目标物体的中心位置，本实施例中，将其定义为目标物体的近似中心点。

可选的，近似中心点的集合可以表示为P={ …/> }，其中，N为待标注图像中目标物体的个数。

S204，生成各个近似中心点对应的提示编码，并基于参考特征和各个提示编码，获取待标注图像中各个目标物体的掩膜。

具体的，图4是根据本申请实施例的一种从待标注图像中获取各个目标物体的掩膜的流程图，

S2041，通过提示编码器，根据各个目标物体的近似中心点，生成各个近似中心点对应的提示编码；

S2042，通过解码器，基于参考特征和点提示编码在通道维度合并的结果进行解码，得到第一掩膜；

需要说明的是，该步骤通过将参考图像中目标物体的参考特征和点提示编码在通道维度融合，可以同时参考目标物体的位置信息和图像中包含的语义信息，从而得到相对更加准确的第一掩膜。

其次，考虑到第一掩膜的标注结果可能包括了一些粗糙的边缘，为了进一步优化标注结果，通过如下步骤继续优化，

S2043，通过解码器，基于参考特征、点提示编码和第一掩膜在通道维度合并的结果进行解码，得到第二掩膜；

本步骤中，在点提示和特征维度的基础上，在SAM模型中进一步结合了额外的掩膜提示信息，该步骤得到的第二掩膜的标注结果，相比较于第一掩膜的标注结果，将进一步的减少孤立点。

S2044，通过提示编码器，基于参考特征、点提示编码第二掩膜的最小外接水平框在通道维度合并的结果进行解码，得到待标注图像中各个目标物体的掩膜。

可以理解，该步骤在上述提示信息的基础上进一步结合最小外接框作为额外的提示信息，可以进一步得到更加精细的目标物体掩膜。

通过上述步骤S201至S204，基于精细标注的参考图像支持SAM模型的自动化辅助标注，将SAM模型的分割能力迁移到了应用场景中部署的小模型上，提升了小模型在拆码垛上的纸箱分割精度，降低了部署成本，得到更加精确的标注结果。同时，该过程无需通过人工操作，依次点选图像中各个目标物体区域，提升了生产效率。从而极大深度地提升了图像标注的时间成本。

在其中一些实施例中，在场景信息复杂，考虑到一次循环标注的结果可能并不完全准确，本实施例中还提供如下步骤，对标注方法进行优化，具体的，图5是根据本申请实施例的另一种图像标注方法的流程图，如图5所示，该流程包括如下步骤：

S501，优化各个目标物体的掩膜，并根据优化之后的各个目标物体的掩膜过滤待标注图像特征，并对参考特征进行平均池化，得到压缩特征，可选的，该压缩特征记为；

具体的，优化掩膜的过程同样可以通过自动化修正并结合预设的误差校验算法实现，另外，也可以通过人工操作结合经验知识实现。

进一步的，再结合优化掩膜过滤步骤S202得到的待标注图像特征，以及通过平均池化操作，得到压缩特征。其中，由于该步骤的实现方式与上述步骤S202相同，区别仅在于作用对象不同，因此此处对具体实现细节不再赘述。

S502，基于第一压缩特征和参考特征，更新参考特征；

将待标注图的压缩特征和参考图的压缩特征/>取指数移动平均，得到新的参考特征，并将其赋值给步骤S202中的/>；

S503，基于更新之后的参考特征，继续进行上述步骤S202至S204，直到得到新的目标物体的掩膜。

需要说明的是，该步骤的具体实现方式与S202至S204相似，区别仅在使用了更新之后的参考特征，因此，对步骤S503的具体实施细节不再赘述。

通过上述步骤S501至S503，通过优化之后的参考特征，对标注结果进一步优化，随着标注图像越来越多，参考特征所借鉴的数据也随之增多，最终能够得到更加精准的标注结果。

在一示例性实施例中，以目标物体是纸箱为例，图6是根据本申请实施例的一种目标物体标注结果的示意图；图6中，左侧是包含多个不同形状、颜色的纸箱的图像，右侧是图像的标注结果，其中，不同纸箱被标注为不同颜色区域。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种图像标注系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本申请实施例的一种图像标注系统的结构框图，如图7所示，该系统包括：参考图像处理模块70和待标注图像处理模块71，其中：

参考图像处理模块70，用于从参考图像中获取目标物体的参考特征；

该参考图像和上述待标注场景是同一场景下的图像，该场景可以是常见的工业场景、例如堆垛、码垛、搬运等；

另外，该参考图像中包括目标物体信息和场景信息，该目标物体信息是图像中待标注物体的信息，场景信息是场景中出目标物体之外的其他图像信息；具体的，该目标物体可以是纸箱、木箱和泡沫盒等，该场景信息可以是地面的图像、载具平台的图像等。

待标注图像处理模块71，用于从待标注图像中获取待标注图像特征，并基于参考特征和待标注图像特征，生成置信度图，其中，置信度图映射了待标注图像的任一像素点是目标物体的概率，以及，

根据置信度图，从待标注图像中获取各个目标物体的近似中心点，生成各个近似中心点对应的提示编码，并基于参考特征和各个提示编码，获取待标注图像中各个目标物体的掩膜。

其中，待标注图像是与参考图像同一应用场景下的图像，获取该待标注图像的方式可以是不同时序拍摄或不同角度拍摄参考图像中所有目标物体得到，同时，该待标注图像中应包括参考图像中所有目标物体的像素信息。

进一步的，在计算掩膜的过程中，可以在点提示和特征维度的基础上，在SAM模型中进一步结合了额外的初始掩膜提示信息，该步骤得到的第二掩膜的标注结果，相比较于第一掩膜的标注结果，将进一步的减少孤立点。

以及，在上述提示信息的基础上进一步结合最小外接框作为额外的提示信息，可以进一步得到更加精细的目标物体掩膜，

通过本系统，基于精细标注的参考图像支持SAM模型的自动化辅助标注，可以得到更加精确的标注结果。同时，该过程无需通过人工操作，依次点选图像中各个目标物体区域，从而极大深度地提升了图像标注的时间成本。

此外，图8是根据本申请实施例的一种图像标注系统运行逻辑的流程图。

在一个实施例中，图9是根据本申请实施例的电子设备的内部结构示意图，如图9所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图9所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统的运行提供环境，计算机程序被处理器执行时以一种图像标注方法，数据库用于存储数据。

本领域技术人员可以理解，图9示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像标注方法，其特征在于，通过视觉分割大模型基于目标场景的参考图像和

待标注图像实现，所述方法包括：

从所述参考图像中获取目标物体的参考特征；

生成各个近似中心点对应的提示编码，并基于所述参考特征和各个提示编码，获取所述待标注图像中各个目标物体的掩膜，包括：

通过提示编码器，根据各个目标物体的近似中心点，生成各个近似中心点对应的提示编码；

通过解码器，基于参考特征和点提示编码在通道维度合并的结果进行解码，得到第一掩膜；

通过解码器，基于参考特征、点提示编码和第一掩膜在通道维度合并的结果进行解码，得到第二掩膜；

通过提示编码器，基于参考特征、点提示编码第二掩膜的最小外接水平框在通道维度合并的结果进行解码，得到待标注图像中各个目标物体的掩膜。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，从所述参考图像中获取目标物体的参考特征包括：

通过图像编码器提取所述参考图像的参考图像特征；

4.根据权利要求3所述的方法，其特征在于，基于所述参考图像特征和所述提示信息，得到所述目标物体的参考掩膜包括：

5.根据权利要求1所述的方法，其特征在于，根据所述置信度图，生成所述待标注图像中各个目标物体的近似中心点包括：

6.根据权利要求1所述的方法，其特征在于，基于所述参考特征和所述待标注图像特征生成置信度图包括：

7.一种图像标注系统，其特征在于，通过视觉分割大模型，基于目标场景的参考图像和待标注图像实现，所述系统包括：参考图像处理模块和待标注图像处理模块，其中：

根据所述置信度图，从所述待标注图像中获取各个目标物体的近似中心点，生成各个近似中心点对应的提示编码，并基于所述参考特征和各个提示编码，获取所述待标注图像中各个目标物体的掩膜，包括：

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。