CN117893756A

CN117893756A - 图像分割模型的训练方法、手持物识别方法、设备及介质

Info

Publication number: CN117893756A
Application number: CN202311766525.1A
Authority: CN
Inventors: 刘忠耿; 潘华东; 刘艳禹; 袁雷; 桂青
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-04-16

Abstract

本申请公开了一种图像分割模型的训练方法、手持物识别方法、设备及介质，图像分割模型的训练方法包括：对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果；基于掩码结果，确定待训练对象在样本图像中的对象图像区域；提取对象图像区域的图像特征，得到待训练对象的语义特征表示；对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别；将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型。可以实现图像分割模型的无监督训练，无需人为进行大量样本图像标注，节约模型训练所需要的人力成本和时间成本。

Description

图像分割模型的训练方法、手持物识别方法、设备及介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像分割模型的训练方法、手持物识别方法、设备及介质。

背景技术

图像语义分割是计算机视觉中非常重要的任务，它的目标是为图像中的每个像素分类。它的应用领域包括但不限于：目标识别、自动驾驶、图像美化、三维重建等等。如果能够快速准确地做图像分割，很多问题将会迎刃而解。

目前，图像分割模型一般依赖大规模标注数据集，这些大规模标注数据集需要具备专业知识的技术人员长期密集地手工标注，这消耗了昂贵的人力成本和时间成本。

发明内容

为了解决上述问题，本申请至少提供一种图像分割模型的训练方法、手持物识别方法、设备及介质。

本申请第一方面提供了一种图像分割模型的训练方法，方法包括：针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果；基于掩码结果，确定待训练对象在样本图像中的对象图像区域；提取对象图像区域的图像特征，得到待训练对象的语义特征表示；对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别；将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型。

在一实施例中，针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果，包括：获取针对待训练对象的提示信息，提示信息用于指示样本图像中的待训练对象的信息；将样本图像和提示信息输入至初始语义分割模型，得到初始语义分割输出的待训练对象的掩码结果。

在一实施例中，基于掩码结果，确定待训练对象在样本图像中的对象图像区域，包括：基于掩码结果，确定样本图像中属于待训练对象的像素内容；基于待训练对象的像素内容进行区域划分，得到待训练对象在样本图像中的对象图像区域。

在一实施例中，基于待训练对象的像素内容进行区域划分，得到待训练对象在样本图像中的对象图像区域，包括：构建待训练对象的像素内容对应的外接矩形框；将外接矩形框内的图像区域作为待训练对象对应的对象图像区域。

在一实施例中，对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别，包括：对每个样本图像中的待训练对象的语义特征表示进行密度聚类，以将每个样本图像中的待训练对象划分为多个对象集合，每个对象集合对应一个聚类类别。

在一实施例中，待训练对象为手持物；利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型，包括：将样本图像输入至待训练的图像分割模型中，得到待训练的图像分割模型输出的图像分割结果，图像识别结果含有手持物的区域分割结果和类别预测结果；计算样本图像对应的伪标签与图像分割结果之间的损失值；利用损失值更新待训练的图像分割模型，以得到训练完成的图像分割模型。

本申请第二方面提供了一种手持物识别方法，方法包括：将待检测图像输入至训练完成的图像分割模型中，得到待检测图像中含有的手持物的掩码结果，以及待检测图像中含有的手持物对应的手持物特征表示；计算手持物特征表示与每个手持物模板特征之间的相似度，将相似度满足预设条件的手持物模板特征作为匹配特征；其中，手持物模板特征基于手持物模板图像得到，每个手持物模板特征对应有手持物类别；将匹配特征对应的手持物类别作为待检测图像中含有的手持物的类别预测结果，将待检测图像中含有的手持物的掩码结果作为区域分割结果。

在一实施例中，获取手持物模板特征的步骤包括：获取多个手持物模板图像集合，每个手持物模板图像集合对应一个手持物类别；针对每个手持物模板图像集合，提取手持物模板图像集合中各个手持物模板图像的图像特征，得到各个手持物模板图像对应的模板图像特征；融合手持物模板图像集中各个手持物模板图像对应的模板图像特征，将融合结果作为手持物模板图像集合对应的手持物模板特征。

本申请第三方面提供了一种图像分割模型的训练装置，装置包括：初始分割模块，用于针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果；区域确定模块，用于基于掩码结果，确定待训练对象在样本图像中的对象图像区域；特征提取模块，用于提取对象图像区域的图像特征，得到待训练对象的语义特征表示；聚类模块，用于对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别；模型训练模块，用于将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型。

本申请第四方面提供了一种手持物识别装置，装置包括：分割及特征提取模块，用于将待检测图像输入至训练完成的图像分割模型中，得到所述待检测图像中含有的手持物的掩码结果，以及所述待检测图像中含有的手持物对应的手持物特征表示；相似度计算模块，用于计算所述手持物特征表示与每个手持物模板特征之间的相似度，将相似度满足预设条件的手持物模板特征作为匹配特征；其中，手持物模板特征基于手持物模板图像得到，每个手持物模板特征对应有手持物类别；结果获取模块，用于将所述匹配特征对应的手持物类别作为所述待检测图像中含有的手持物的类别预测结果，将所述待检测图像中含有的手持物的掩码结果作为区域分割结果。

本申请第五方面提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述图像分割模型的训练方法或手持物识别方法。

本申请第六方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述图像分割模型的训练方法或手持物识别方法。

上述方案，通过针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果；基于掩码结果，确定待训练对象在样本图像中的对象图像区域；提取对象图像区域的图像特征，得到待训练对象的语义特征表示；对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别；将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型，可以实现图像分割模型的无监督训练，无需人为进行大量样本图像标注，在保证图像分割模型的训练效果的前提下，节约图像分割模型训练所需要的人力成本和时间成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请的一示例性实施例示出的图像分割模型的训练方法的流程图；

图3是本申请的一示例性实施例示出的对图像进行语义分割的示意图；

图4是本申请的一示例性实施例示出的对语义特征表示进行聚类的示意图；

图5是本申请的一示例性实施例示出的获得待训练对象的掩码结果的示意图；

图6是本申请的一示例性实施例示出的划分对象图像区域以及提取语义特征表示的示意图；

图7是本申请的一示例性实施例示出的手持物识别方法的流程图；

图8是本申请的一示例性实施例示出的手持物识别的示意图；

图9是本申请的一示例性实施例示出的图像分割模型的训练装置的框图；

图10是本申请的一示例性实施例示出的手持物识别装置的框图；

图11是本申请的一示例性实施例示出的电子设备的结构示意图；

图12是本申请的一示例性实施例示出的计算机可读存储介质的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联信息，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

下面对本申请实施例所提供的图像分割模型的训练方法进行说明。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。

模型训练设备10可以是诸如电脑、平板电脑、服务器、智能机器人等电子设备，或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对图像分割模型进行训练。

在本申请实施例中，图像分割模型是用于对图像进行分割的神经网络模型。示例性地，该图像分割模型是用于对图像中的指定对象进行定位的神经网络模型。例如，图像分割模型可以从摄像机拍摄的场景图像中检测是否含有手持物，以及检测手持物的类型和位置。

可选地，模型训练设备10可以采用机器学习的方式对该图像分割模型进行训练，以使得其具备较好的性能。

上述训练完成的图像分割模型可部署在模型使用设备20中使用，以提供针对图像的图像分割功能。模型使用设备20可以是诸如手机、电脑、智能电视、可穿戴设备等终端设备，也可以是服务器，本申请对此不作限定。

需要说明的是，在本申请的具体实施方式中，涉及到样本图像、待检测图像等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要守相关国家和地区的相关法律法规和标准。

请参阅图2，图2是本申请的一示例性实施例示出的图像分割模型的训练方法的流程图。该图像分割模型的训练方法可以应用于图1所示的实施环境，并由该实施环境中的模型训练设备10具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

如图2所示，图像分割模型的训练方法至少包括步骤S210至步骤S250，详细介绍如下：

步骤S210：针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果。

样本图像集合中含有多个样本图像，这些样本图像中含有待训练对象，图像分割模型的训练目标为从图像中对待训练对象进行分割。

可以理解的是，图像分割模型的应用场景不同，则待训练对象也不同。例如，图像分割模型应用于人物交互(Human Object Interaction，HOI)分析场景中，人物交互分析场景需要理解场景中人物关系，包括人和物的定位识别，以及交互的判别，该场景需要对人的手持物进行定位，因此，待训练对象为手持物；又例如，图像分割模型应用于目标跟踪场景中，目标跟踪场景用于在连续的图像帧中对目标对象的位置进行跟踪，该场景需要对目标对象进行定位，因此，待训练对象为需要跟踪的目标对象，如行人、车辆等。

其中，语义分割是对图像在像素级别上的分类，属于同一类的像素被归为一类。例如，请参阅图3，图3为本申请一示例性实施例示出的对待分割图像进行语义分割的示意图，如图3所示，可以将待分割图像的像素进行划分，将属于同一类的像素被归为一类。

对样本图像中含有的待训练对象进行初始语义分割的方法可以为：基于神经网络模型对样本图像中含有的待训练对象进行初始语义分割，如利用分割一切模型(SegmentAnything Model，SAM)对样本图像中含有的待训练对象进行初始语义分割；基于图论的方法对样本图像中含有的待训练对象进行初始语义分割，基于图论的方法利用图论领域的理论和方法，将图像映射为带权无向图，把像素视作节点，将图像分割问题看作是图的顶点划分问题，利用最小剪切准则得到图像的最佳分割；基于像素聚类的分割方法对样本图像中含有的待训练对象进行初始语义分割，基于像素聚类的代表方法包括但不限于K-means(K均值)、谱聚类(Spectral Clustering，SC)、Meanshift和SLIC(Simple Linear IterativeClustering)等。

通过对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果。

步骤S220：基于掩码结果，确定待训练对象在样本图像中的对象图像区域。

根据待训练对象的掩码结果，可以明确样本图像中待训练对象的位置，进而确定该待训练对象在样本图像中的对象图像区域。

需要说明的是，可以根据具体应用场景或者模型训练情况确定对象图像区域的划分策略。

例如，划分策略可以为：直接将属于待训练对象的像素划分为对象图像区域，即对象图像区域中仅含有属于待训练对象的像素。划分策略还可以为：将属于待训练对象的像素以及待训练对象邻接范围内的其它像素划分为对象图像区域，即对象图像区域中不仅含有属于待训练对象的像素，还含有与待训练对象相邻的其它像素。

步骤S230：提取对象图像区域的图像特征，得到待训练对象的语义特征表示。

其中，图像特征包括但不限于图像纹理特征、图像颜色特征、图像形状特征、图像空间关系特征、统计特征等。

通过对待训练对象的对象图像区域进行图像特征提取，得到待训练对象的语义特征表示。图像特征提取指对图像中的信息进行处理和分析，将其中不易受随机因素干扰的、具有标志性的信息作为该图像的特征信息提取出来。

需要说明的是，图像特征提取的方式包括但不限于基于神经网络模型提取的方法、基于传统图像特征提取的方法等，可以根据实际应用情况灵活选取图像特征提取的方式。其中，神经网络模型提取的方法包括但不限于卷积神经网络(Convolutional NeuralNetworks，CNN)、前馈神经网络(feedforward neural network，FNN)等；传统图像特征提取的方法包括但不限于方向梯度直方图(Histogram of Oriented Gradient，HOG)、灰度共生矩阵、傅里叶形状描述符(Fourier shape descriptors)等。

示例性地，基于DINO模型或DINOv2提取对象图像区域的图像特征，得到待训练对象的语义特征表示。

步骤S240：对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别。

聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术，以样本图像的语义特征表示为分类依据，利用某种相似性度量的方法，把特征相同的或相近的分为一类，实现聚类分析。

示例性地，对每个样本图像中的待训练对象的语义特征表示进行聚类所采用的聚类方法包括但不限于：K均值(K-means)聚类、谱聚类、K最近邻(k-Nearest Neighbor，KNN)分类等。

在一些实施方式中，对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别，包括：对每个样本图像中的待训练对象的语义特征表示进行密度聚类，以将每个样本图像中的待训练对象划分为多个对象集合，每个对象集合对应一个聚类类别。

其中，密度聚类依据样本分布的紧密程度来确定聚类结构，其使用一定邻域内点的数量作为连通性的标准，并基于该连通性不断扩展聚类簇得到最终的聚类结果。密度聚类常用的算法为DBSCAN(Density-Based Spatial Clustering of Application withNoise)。

请参阅图4，图4为本申请一示例性实施例示出的对语义特征表示进行聚类的示意图，如图4所示，向量空间中存在每个样本图像中含有的待训练对象对应的语义特征表示，对这些语义特征表示进行密度聚类，以将待训练对象划分为多个对象集合，每个对象集合对应一个聚类类别。

步骤S250：将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型。

通过将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用携带伪标签的样本图像迭代训练待训练的图像分割模型，直至达到训练结束条件，得到训练完成的图像分割模型。

其中，训练结束条件可以为迭代训练的次数超过预设次数；训练结束条件还可以为图像分割模型的损失值收敛，本申请对此不进行限定。

需要说明的是，本申请中的图像分割模型的模型架构可以根据具体的应用场景的不同进行灵活选择，本申请不对图像分割模型的模型架构进行限定。

接下来对本申请的部分步骤进行进一步详细说明。

在一些实施方式中，针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果，包括：获取针对待训练对象的提示信息，提示信息用于指示样本图像中的待训练对象的信息；将样本图像和提示信息输入至初始语义分割模型，得到初始语义分割输出的待训练对象的掩码结果。

其中，提示信息用于指示图像中要分割的内容的任何信息，例如，提示信息可以是前景背景点、粗框或遮罩、针对要分割的内容的点击、文本等。

将携带有提示信息的样本图像输入至初始语义分割模型，得到初始语义分割输出的待训练对象的掩码结果。

可以理解的是，提示信息可以是人为输入的，也可以是通过计算机分析得到的。

例如，以人物交互分析场景为例，待训练对象为手持物，可以通过对行人的手部进行识别，然后根据手部位置标记该手部对应的手持物的提示信息。

具体地，请参阅图5，图5示出了一具体实施例中获得待训练对象的掩码结果的示意图，如图5所示，样本图像中含有手持物，对手持物的位置进行弱标注，弱标注的方式可以为矩形框标注或者点标注，以将弱标注结果作为提示信息，然后，将携带提示信息的样本图像输入SAM模型，SAM模型根据提示信息确定需要分割的对象以对其进行初始语义分割，得到手持物的掩码结果。

进一步地，根据掩码结果确定待训练对象的对象图像区域。

在一些实施方式中，基于掩码结果，确定待训练对象在样本图像中的对象图像区域，包括：基于掩码结果，确定样本图像中属于待训练对象的像素内容；基于待训练对象的像素内容进行区域划分，得到待训练对象在样本图像中的对象图像区域。

可以是直接将属于待训练对象的像素内容划分为对象图像区域，即对象图像区域中仅含有属于待训练对象的像素；还可以是将属于待训练对象的像素内容、以及待训练对象邻接范围内的其它像素内容划分为对象图像区域，即对象图像区域中不仅含有属于待训练对象的像素，还含有与待训练对象相邻的其它像素。其中，待训练对象对应的邻接范围可以是预先设定的固定范围，也可以是根据如样本图像的清晰度、待训练对象的大小等灵活确定的范围，如样本图像的清晰度越高，则待训练对象对应的邻接范围的取值越小，而样本图像的清晰度越低，则待训练对象对应的邻接范围的取值越高，以提高对象图像区域划分的灵活度和准确度，便于后续提取到更加准确的语义特征表示，以进一步提高聚类的准确度。

例如，基于待训练对象的像素内容进行区域划分，得到待训练对象在样本图像中的对象图像区域，包括：构建待训练对象的像素内容对应的外接矩形框；将外接矩形框内的图像区域作为待训练对象对应的对象图像区域。

其中，外接矩形框为在对象图像区域外侧的最小矩形。

以人物交互分析场景为例，参阅图6，图6为本申请一示例性实施例示出的划分对象图像区域的示意图，如图6所示，待训练对象为手持物，得到手持物对应的掩码结果后，根据该掩码结果确定样本图像中属于该手持物的像素内容，以构建对应的外接矩形框，将该外接矩形框内的图像区域作为该手持物对应的对象图像区域。

进一步地，继续如图6所示，对手持物对应的对象图像区域进行图像特征提取，如利用DIONv2模型提取该对象图像区域的图像特征，得到该手持物的语义特征表示。

通过对每个样本图像中含有的手持物均进行图像特征提取，再对提取得到的多个手持物的语义特征表示进行密度聚类，得到每个待训练对象对应的聚类类别。

例如，样本图像集合{I₁,I₂,...,I_N}含有N个样本图像，每个样本图像中含有一个手持物，对这些样本图像按照上述步骤提取手持物的语义特征表示，得到N个语义特征表示{f₁,f₂,...,f_N}，然后通过进行无监督的密度聚类，得到K个簇，每个簇对应一个聚类标签，聚类标签可以表示为{c₁,c₂,...,c_K}。

将图5得到的样本图像的掩码结果以及该样本图像所对应的聚类标签作为伪标签，实现模型训练。

具体地，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型，包括：将样本图像输入至待训练的图像分割模型中，得到待训练的图像分割模型输出的图像分割结果，图像识别结果含有手持物的区域分割结果和类别预测结果；计算样本图像对应的伪标签与图像分割结果之间的损失值；利用损失值更新待训练的图像分割模型，以得到训练完成的图像分割模型。

将样本图像对应的伪标签作为模型训练的目标，图像分割模型输出的图像分割结果与伪标签之间的差异越小，则损失值越小，反之，图像分割模型输出的图像分割结果与伪标签之间的差异越大，则损失值越大，通过样本图像对应的伪标签与图像分割结果之间的损失值，反向更新待训练的图像分割模型。

其中，计算的损失值包括但不限于交叉熵损失(Cross Entropy Loss)、平方误差损失(Mean Squared Error Loss)、二元交叉熵损失(Binary Cross Entropy Loss)等，本申请对此不进行限定。

得到训练完成的图像分割模型后，该图像分割模型可以实现待训练对象的分割，接下来仍旧以人物交互分析场景为例，对该图像分割模型的应用场景进行示意性说明。

请参阅图7，图7是本申请的一示例性实施例示出的手持物识别方法的流程图。该手持物识别方法可以应用于图1所示的实施环境，并由该实施环境中的模型使用设备20具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

如图7所示，手持物识别方法至少包括步骤S710至步骤S730，详细介绍如下：

步骤S710：将待检测图像输入至训练完成的图像分割模型中，得到待检测图像中含有的手持物的掩码结果，以及待检测图像中含有的手持物对应的手持物特征表示；

步骤S720：计算手持物特征表示与每个手持物模板特征之间的相似度，将相似度满足预设条件的手持物模板特征作为匹配特征；其中，手持物模板特征基于手持物模板图像得到，每个手持物模板特征对应有手持物类别；

步骤S730：将匹配特征对应的手持物类别作为待检测图像中含有的手持物的类别预测结果，将待检测图像中含有的手持物的掩码结果作为区域分割结果。

训练完成的图像分割模型可以实现开集手持物分割，请参阅图8，图8为本申请一示例性实施例示出的手持物识别的示意图，如图8所示，手持物识别含有手持物模板特征创建过程和手持物识别过程。

首先，创建手持物模板特征：获取多个手持物模板图像集合，每个手持物模板图像集合对应一个手持物类别；针对每个手持物模板图像集合，提取手持物模板图像集合中各个手持物模板图像的图像特征，得到各个手持物模板图像对应的模板图像特征；融合手持物模板图像集中各个手持物模板图像对应的模板图像特征，将融合结果作为手持物模板图像集合对应的手持物模板特征。

手持物模板图像集合可以是基于样本图像集合得到的，例如，将样本图像集合作为手持物模板图像集合；手持物模板图像集合还可以是其它方式获取的，如通过图像采集装置对应用场景中的含有手持物的图像进行采集得到，本申请不对手持物模板图像集合的获取方式进行限定。

例如，手持物模板图像集合为用户输入的，当前手持物识别任务需要识别m种手持物，则获取用户输入的每种手持物的多张手持物图像，每种手持物对应一个手持物模板图像集合。

针对手持物模板图像集合中的手持物模板图像提取图像特征，得到单个手持物模板图像对应的模板图像特征，例如，将手持物模板图像输入至DINOv2模型中，得到DINOv2模型输出的模板图像特征。再对该手持物模板图像集合中的每个手持物模板图像的模板图像特征进行融合，融合的方式包括但不限于平均特征计算、加权计算等，以得到该手持物模板图像集合对应的手持物模板特征。

即针对m个手持物模板图像集合，得到的手持物模板特征含有{F₁,F₂,...,F_m}。

其中，可以将手持物模板图像输入至训练完成的图像分割模型中进行图像特征提取，以得到手持物模板特征。

进一步地，根据手持物模板特征进行手持物识别：将待检测图像输入至训练完成的图像分割模型中，得到待检测图像中含有的手持物的掩码结果，以及待检测图像中含有的手持物对应的手持物特征表示；计算手持物特征表示与每个手持物模板特征之间的相似度，将相似度满足预设条件的手持物模板特征作为匹配特征；其中，手持物模板特征基于手持物模板图像得到，每个手持物模板特征对应有手持物类别；将匹配特征对应的手持物类别作为待检测图像中含有的手持物的类别预测结果，将待检测图像中含有的手持物的掩码结果作为区域分割结果。

根据训练完成的图像分割模型，对待检测图像进行手持物分割以及特征提取，得到手持物的掩码结果以及该手持物对应的手持物特征表示。将该手持物特征表示和各个手持物模板特征进行对比，得到该手持物特征表示与各个手持物模板特征之间的相似度，例如，计算手持物特征表示与各个手持物模板特征之间的余弦相似度。再将相似度满足预设条件的手持物模板特征作为匹配特征。

其中，满足预设条件手持物模板特征可以是相似度最大的手持物模板特征；满足预设条件手持物模板特征还可以是相似度大于预设相似度阈值的手持物模板特征，本申请对此不进行限定。

最后，将匹配特征对应的手持物类别作为待检测图像中含有的手持物的类别预测结果，将待检测图像中含有的手持物的掩码结果作为区域分割结果，图像分割模型输出该待检测图像的类别预测结果和区域分割结果。

本申请提供的图像分割模型的训练方法，通过针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果；基于掩码结果，确定待训练对象在样本图像中的对象图像区域；提取对象图像区域的图像特征，得到待训练对象的语义特征表示；对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别；将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型，可以实现图像分割模型的无监督训练，无需人为进行大量样本图像标注，在保证图像分割模型的训练效果的前提下，节约图像分割模型训练所需要的人力成本和时间成本。

图9是本申请的一示例性实施例示出的图像分割模型的训练装置的框图。如图9所示，该示例性的图像分割模型的训练装置900包括：初始分割模块910、区域确定模块920、特征提取模块930、聚类模块940和模型训练模块950。具体地：

初始分割模块910，用于针对样本图像集合中的每个样本图像，对样本图像中含有的待训练对象进行初始语义分割，得到待训练对象的掩码结果；

区域确定模块920，用于基于掩码结果，确定待训练对象在样本图像中的对象图像区域；

特征提取模块930，用于提取对象图像区域的图像特征，得到待训练对象的语义特征表示；

聚类模块940，用于对每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别；

模型训练模块950，用于将每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用每个样本图像和每个样本图像对应伪标签训练得到图像分割模型。

在上述示例性的图像分割模型的训练装置中，可以实现图像分割模型的无监督训练，无需人为进行大量样本图像标注，在保证图像分割模型的训练效果的前提下，节约图像分割模型训练所需要的人力成本和时间成本。

图10是本申请的一示例性实施例示出的手持物识别装置的框图。如图10所示，该示例性的手持物识别装置1000包括：分割及特征提取模块1010、相似度计算模块1020和结果获取模块1030。具体地：

分割及特征提取模块1010，用于将待检测图像输入至训练完成的图像分割模型中，得到所述待检测图像中含有的手持物的掩码结果，以及所述待检测图像中含有的手持物对应的手持物特征表示；

相似度计算模块1020，用于计算所述手持物特征表示与每个手持物模板特征之间的相似度，将相似度满足预设条件的手持物模板特征作为匹配特征；其中，手持物模板特征基于手持物模板图像得到，每个手持物模板特征对应有手持物类别；

结果获取模块1030，用于将所述匹配特征对应的手持物类别作为所述待检测图像中含有的手持物的类别预测结果，将所述待检测图像中含有的手持物的掩码结果作为区域分割结果。

在上述示例性的手持物识别装置中，通过进行手持物模板特征的对比，可以分割类别的手持物，增加手持物识别的可分割手持物的类型，提高手持物识别效果。

请参阅图11，图11是本申请电子设备一实施例的结构示意图。电子设备1100包括存储器1101和处理器1102，处理器1102用于执行存储器1101中存储的程序指令，以实现上述任一图像分割模型的训练方法或手持物识别方法实施例中的步骤。在一个具体的实施场景中，电子设备1100可以包括但不限于：微型计算机、服务器，此外，电子设备1100还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器1102用于控制其自身以及存储器1101以实现上述任一图像分割模型的训练方法或手持物识别方法实施例中的步骤。处理器1102还可以称为中央处理单元(Central Processing Unit，CPU)。处理器1102可能是一种集成电路芯片，具有信号的处理能力。处理器1102还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器1102可以由集成电路芯片共同实现。

请参阅图12，图12是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质1200存储有能够被处理器运行的程序指令1210，程序指令1210用于实现上述任一图像分割模型的训练方法或手持物识别方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种图像分割模型的训练方法，其特征在于，所述方法包括：

针对样本图像集合中的每个样本图像，对所述样本图像中含有的待训练对象进行初始语义分割，得到所述待训练对象的掩码结果；

基于所述掩码结果，确定所述待训练对象在所述样本图像中的对象图像区域；

提取所述对象图像区域的图像特征，得到所述待训练对象的语义特征表示；

对所述每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别；

将所述每个待训练对象对应的聚类类别和掩码结果作为伪标签，利用所述每个样本图像和所述每个样本图像对应伪标签训练得到图像分割模型。

2.根据权利要求1所述的方法，其特征在于，所述针对样本图像集合中的每个样本图像，对所述样本图像中含有的待训练对象进行初始语义分割，得到所述待训练对象的掩码结果，包括：

获取针对所述待训练对象的提示信息，所述提示信息用于指示所述样本图像中的待训练对象的信息；

将所述样本图像和所述提示信息输入至初始语义分割模型，得到所述初始语义分割输出的所述待训练对象的掩码结果。

3.根据权利要求1所述的方法，其特征在于，所述基于所述掩码结果，确定所述待训练对象在所述样本图像中的对象图像区域，包括：

基于所述掩码结果，确定所述样本图像中属于所述待训练对象的像素内容；

基于所述待训练对象的像素内容进行区域划分，得到所述待训练对象在所述样本图像中的对象图像区域。

4.根据权利要求3所述的方法，其特征在于，所述基于所述待训练对象的像素内容进行区域划分，得到所述待训练对象在所述样本图像中的对象图像区域，包括：

构建所述待训练对象的像素内容对应的外接矩形框；

将所述外接矩形框内的图像区域作为所述待训练对象对应的对象图像区域。

5.根据权利要求1所述的方法，其特征在于，所述对所述每个样本图像中的待训练对象的语义特征表示进行聚类，确定每个待训练对象对应的聚类类别，包括：

对所述每个样本图像中的待训练对象的语义特征表示进行密度聚类，以将所述每个样本图像中的待训练对象划分为多个对象集合，每个对象集合对应一个聚类类别。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述待训练对象为手持物；所述利用所述每个样本图像和所述每个样本图像对应伪标签训练得到图像分割模型，包括：

将所述样本图像输入至待训练的图像分割模型中，得到所述待训练的图像分割模型输出的图像分割结果，所述图像识别结果含有手持物的区域分割结果和类别预测结果；

计算所述样本图像对应的伪标签与所述图像分割结果之间的损失值；

利用所述损失值更新所述待训练的图像分割模型，以得到训练完成的图像分割模型。

7.一种手持物识别方法，其特征在于，所述方法包括：

将待检测图像输入至训练完成的图像分割模型中，得到所述待检测图像中含有的手持物的掩码结果，以及所述待检测图像中含有的手持物对应的手持物特征表示；其中，所述图像分割模型基于权利要求1-6任一项图像分割模型的训练方法训练得到；

计算所述手持物特征表示与每个手持物模板特征之间的相似度，将相似度满足预设条件的手持物模板特征作为匹配特征；其中，手持物模板特征基于手持物模板图像得到，每个手持物模板特征对应有手持物类别；

将所述匹配特征对应的手持物类别作为所述待检测图像中含有的手持物的类别预测结果，将所述待检测图像中含有的手持物的掩码结果作为区域分割结果。

8.根据权利要求7所述的方法，其特征在于，获取所述手持物模板特征的步骤包括：

获取多个手持物模板图像集合，每个手持物模板图像集合对应一个手持物类别；

针对所述每个手持物模板图像集合，提取所述手持物模板图像集合中各个手持物模板图像的图像特征，得到所述各个手持物模板图像对应的模板图像特征；

融合所述手持物模板图像集中各个手持物模板图像对应的模板图像特征，将融合结果作为所述手持物模板图像集合对应的手持物模板特征。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现如权利要求1-8任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令能够被处理器执行以实现如权利要求1-8任一项所述方法中的步骤。