CN113947693A - 获取目标对象识别模型的方法、装置及电子设备 - Google Patents
获取目标对象识别模型的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113947693A CN113947693A CN202111193204.8A CN202111193204A CN113947693A CN 113947693 A CN113947693 A CN 113947693A CN 202111193204 A CN202111193204 A CN 202111193204A CN 113947693 A CN113947693 A CN 113947693A
- Authority
- CN
- China
- Prior art keywords
- target object
- recognition model
- clustering
- training
- object recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 99
- 238000012545 processing Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 235000019580 granularity Nutrition 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种获取目标对象识别模型的方法、装置及电子设备,涉及计算机技术领域,尤其涉及智能学习、深度学习技术领域。具体实现方案为:获取无标签数据集的多个聚类结果,其中,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇;根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型。
Description
技术领域
本公开涉及智能学习、深度学习技术领域,尤其涉及一种获取目标对象识别模型的方法、装置及电子设备。
背景技术
目前,行人在识别方案主要分为两种:一种是有监督训练方案,即采用公开数据集或自行收集的数据,并对上述数据进行标注处理,基于上述标注后的数据进行监督式行人再识别模型训练。但该方法的数据采集以及标注成本偏高。
另一种是无监督训练方案,即使用无标签的数据,无需对数据进行标注,通过聚类方法得到数据的伪标签,然后再以伪标签作为监督信号进行监督式行人再识别模型训练。但该方法获得的伪标签中存在噪声,导致模型训练精度较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本公开提供了一种用于获取目标对象识别模型的方法、装置及电子设备。
根据本公开的一方面,提供了一种获取目标对象识别模型的方法,包括:获取无标签数据集的多个聚类结果,其中,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇;根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型。
根据本公开的另一方面,提供了一种目标对象识别方法,包括:获取待识别图像,其中,上述待识别图像中包含目标对象;将上述待识别图像输入至目标对象识别模型,其中,上述目标对象识别模型为基于无标签数据集的多个聚类结果对应的伪标签,对初始识别模型进行无监督对比训练得到;接收上述目标对象识别模型返回的识别处理结果。
根据本公开的另一方面,提供了一种获取目标对象识别模型的装置,包括:获取模块,用于获取无标签数据集的多个聚类结果,其中,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇;分配模块,用于根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;训练模块,用于基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型。
根据本公开的另一方面,提供了一种目标对象识别装置,包括:获取单元,用于获取待识别图像,其中,上述待识别图像中包含目标对象;识别单元,用于将上述待识别图像输入至目标对象识别模型,其中,上述目标对象识别模型为基于无标签数据集的多个聚类结果对应的伪标签,对初始识别模型进行无监督对比训练得到;接收单元,用于接收上述目标对象识别模型返回的识别处理结果。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行任一项上述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行任一项上述的获取目标对象识别模型的方法,或者上述的目标对象识别方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现任一项上述的获取目标对象识别模型的方法,或者上述的目标对象识别方法。
根据本公开的另一方面,提供了一种获取目标对象识别模型的产品,包括:如上述的电子设备。
在本公开实施例中,通过获取无标签数据集的多个聚类结果,其中,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇;根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型的方式,达到了降低伪标签中的噪声的目的,从而实现了提高目标对象识别模型训练精度的技术效果,进而解决了由于通过聚类方法得到的伪标签中存在噪声,导致模型训练精度差的技术问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的获取目标对象识别模型的方法的步骤流程示意图;
图2是根据本公开第一实施例的一种可选的获取目标对象识别模型的方法的步骤流程示意图;
图3是根据本公开第一实施例的另一种可选的获取目标对象识别模型的方法的步骤流程示意图;
图4是根据本公开第一实施例的另一种可选的获取目标对象识别模型的方法的步骤流程示意图;
图5是根据本公开第二实施例的获取目标对象识别模型的方法的步骤流程示意图;
图6是根据本公开第三实施例的获取目标对象识别模型的装置的结构示意图;
图7是根据本公开第四实施例的获取目标对象识别装置的结构示意图;
图8是根据本公开第五实施例的电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,为方便理解本公开实施例,下面将对本公开中所涉及的部分术语或名词进行解释说明:
反向传播:主要是针对神经网络优化的过程中进行,在L端计算总的损失函数,然后根据梯度递减公式,逐层的向前反馈,形成反向传播机制,可用于优化参数。
行人再识别任务需要辨别出同一身份标识ID在不同角度的行人图片,也需要区分不同身份标识的行人图片。因此上述联系与区分能力是行人再识别模型的关键。另外,有监督的行人再识别任务需要带有ID标签的行人图片作为训练数据。而用于行人再识别任务的数据采集和标注难度较高,且模型训练成本偏高。
现有的大多数行人再识别方法为缓解数据标注问题,采用无监督方式训练模型。具体的,无监督方法直接收集行人图片却不再进行标注,而是采用聚类算法给无标签数据分配伪标签,再以伪标签作为监督信号进行训练。但是伪标签中往往存在很多噪声,最终难以使行人再识别达到较好的模型精度。
实施例1
根据本公开实施例,提供了一种获取目标对象识别模型的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本公开第一实施例的获取目标对象识别模型的方法的步骤流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,获取无标签数据集的多个聚类结果;
步骤S104,根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;
步骤S106,基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型。
可选的,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇。根据不同算法进行不同的聚类设置,会得到多套聚类设置,例如,DBSCAN聚类算法是通过演进分组Eps进行聚类设置,k-means聚类算法是通过设置类别数目进行聚类设置,其中,聚类设置方式会影响到类别数目的多少和平均类簇的大小。
可选的,上述初始识别模型可以但不限于为随机初始化的行人再识别模型、以及预训练的行人再识别模型;上述目标对象识别模型为行人再识别模型,即为通过不断更新训练该初始识别模型得到的模型。
需要说明的是,本公开实施例中,通过调整聚类算法和/或聚类参数,使得无标签数据被聚类成不同大小的类簇,最小/最细最细粒度的类簇形式里每个样本都单独成为一个类簇。训练时,该方法约束同一聚簇中的样本相互靠近,不同聚簇中的样本相互远离。由此,细粒度类簇会加强行人再识别模型的区分能力,而粗粒度类簇能够加强模型的联系能力。
在本公开实施例中,通过获取无标签数据集的多个聚类结果,其中,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇;根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;基于上述伪标签对初始识别模型进行无监督对比训练,得到行人再识别模型的方式,达到了降低伪标签中的噪声的目的,从而实现了提高行人再识别模型训练精度的技术效果,进而解决了由于通过聚类方法得到的伪标签中存在噪声,导致模型训练精度差的技术问题。
在一种可选的实施例中,获取无标签数据集的多个聚类结果包括:
步骤S202,获取上述无标签数据集;
步骤S204,对上述无标签数据特征进行多粒度聚类处理,得到多个上述聚类结果,其中,不同上述聚类结果对应的平均类簇的大小不等。
可选的,上述无标签数据集包括:多组无标签数据,上述多组无标签数据中的每组数据包括:上述预训练图像以及对上述预训练图像进行特征提取处理得到的无标签数据特征。
需要说明的是,模型训练最开始通过初始化模型对无标签数据集中的每一张图像进行特征提取,得到无标签数据特征,其中,上述初始化模型可以但不限于为随机初始化的行人再识别模型、以及预训练的行人再识别模型。后续模型训练过程中则是使用不断更新后的模型对无标签数据进行特征提取,得到无标签数据特征。
可选的,通过使用不同的聚类算法和/或调整同一聚类算法的参数,对对上述无标签数据特征进行多粒度聚类处理,其中,上述聚类算法可以但不限于包括DBSCAN聚类算法、k-means聚类算法。
需要说明的是,所谓多粒度,是指不同的聚类设置会得到多套聚类结果,通过控制聚类设置,尽量不同聚类结果对应的平均类簇的大小不等。例如,共有100个无标签数据特征,基于不同的聚类设置,若将上述100个无标签数据特征分为10类,则每一类10个样本;若将上述100个无标签数据特征分为5个类,则每一类5个样本,等等。此外,多粒度聚类过程中设置一种最细粒度的聚类结果,即每个样本单独成为一个类簇。通过上述多粒度聚类操作,可以将一个无标签数据集会得出多套独立且类簇规模不同的聚类结果。其中,上述一套聚类结果指一种聚类设置下得到的所有类簇。
作为一种可选的实施例,图2是根据本公开一种可选的获取目标对象识别模型的方法的步骤流程示意图,如图2所示,根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签,包括:
步骤S302,获取上述无标签数据集中的每张上述预训练图像;
步骤S304,确定每张上述预训练图像在特征空间中对应的上述类簇;
步骤S306,根据每张上述预训练图像对应的上述类簇,为每个上述聚类结果分配对应的伪标签,其中,每个上述聚类结果对应的上述伪标签是唯一的。
可选的,根据无标签数据集每张图像在特征空间中对应的类簇,为其分配伪标签。其中,上述伪标签即为相应的类簇索引。
可选的,若每张上述预训练图像处于不同的聚类结果,则每张上述预训练图像对应多个伪标签。
需要说明的是,由于通过上述多粒度聚类操作,可以将一个无标签数据集会得出多套独立且类簇规模不同的聚类结果,因此,上述伪标签分配可多次独立进行。由于同一张图像可以同时属于不同的聚类结果,因此同一张图像可以被分配多个伪标签,并且对于同一套聚类结果,伪标签是唯一的,进而达到不同聚类结果之间互不限制和影响的目的。
在一种可选的实施例中,基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型,包括:
采用对比学习损失函数,基于上述伪标签对上述初始识别模型进行无监督对比训练,得到上述目标对象识别模型。
可选的,上述无监督对比训练用于训练上述目标对象识别模型区分不同的上述预训练图像之间的差别,以及建立上述类簇内的图像相似性联系和区分不同的上述类簇之间的明显差异。
需要说明的是,根据上述分配的伪标签,通过对比学习损失函数的约束,使得同一类簇的样本在特征空间相互靠近,不同类簇的样本在特征空间相互远离。为了避免伪标签里存在的噪声带来的负面影响,本公开实施例采用对比学习的方式对上述目标对象识别模型进行训练,而不使用伪标签计算交叉熵损失。
在本公开实施例中,通过采用对比学习损失函数,基于上述伪标签对上述初始识别模型进行无监督对比训练,得到上述目标对象识别模型的方式,达到了使得同一类簇的样本在特征空间相互靠近,不同类簇的样本在特征空间相互远离的目的,有助于有效避免伪标签里存在的噪声带来的负面影响。
作为一种可选的实施例,图3是根据本公开第一实施例的另一种可选的获取目标对象识别模型的方法的步骤流程示意图,如图3所示,采用对比学习损失函数,基于上述伪标签对上述初始识别模型进行无监督对比训练,得到上述目标对象识别模型,包括:
步骤S402,采用上述对比学习损失函数,对每个上述聚类结果对应的上述伪标签计算得到损失函数值;
步骤S404,将多个上述聚类结果对应的多个损失函数值进行再计算,得到损失计算结果,其中,上述再计算包括:加和计算或平均计算;
步骤S406,依据上述损失计算结果对上述初始识别模型进行上述无监督对比训练,得到上述目标对象识别模型。
可选的,针对每一套聚类结果,也即每一套伪标签,对比学习损失函数都是独立计算的,将多个上述聚类结果对应的多个损失函数值进行再计算,包括:加和计算或平均计算,其中,上述加和计算为对所有聚类结果的损失函数值进行加和计算;上述平均计算为求取上述所有聚类结果的损失函数值的平均值。基于上述加和计算或平均计算结果,完成反向传播。
需要说明的是,对比学习损失函数只是将样本的特征相对地推远或者拉近,且在本公开实施例中多粒度聚类方法的设定下,对比学习损失函数能够使得行人再识别模型学会在细粒度上区分两两样本间的差别,以及在粗粒度上建立类簇内的样本相似性联系和区分类簇间明显的差异。即基于上述对比学习损失函数对上述初始识别模型进行无监督对比训练,能够使细粒度类簇加强行人再识别模型的区分能力,使粗粒度类簇加强行人再识别模型的联系能力。
在一种可选的实施例中,对上述目标对象识别模型进行往复迭代训练,直至达到预设训练时长和/或满足预设测试条件时停止训练。
需要说明的是,上述目标对象识别模型的整个训练过程是往复迭代进行的,最初的模型为初始化模型,通过对上述初始化模型的不断训练得到更新参数后的模型。当训练达到一定条件后,例如,达到一定的训练时长或者达成一定测试条件,则停止对上述初始化模型的训练,最终得到上述目标对象识别模型,通过上述方法可以准确获取模型训练的有效时间,提高模型训练效率的目的。
作为一种可选的实施例,图4是根据本公开第一实施例的另一种可选的获取目标对象识别模型的方法的步骤流程示意图,如图4所示,上述方法包括如下方法步骤:
步骤S600,获取无标签数据集,对上述无标签数据集中的预训练图像进行特征提取,得到无标签数据特征;
步骤S601,对上述无标签数据特征进行多粒度聚类处理,得到多个上述聚类结果,其中,不同上述聚类结果对应的平均类簇的大小不等;
步骤S602,为每个上述聚类结果分配对应的伪标签,其中,每个上述聚类结果对应的上述伪标签是唯一的;
步骤S603,基于上述伪标签对初始识别模型进行无监督对比训练;
步骤S604,在达到预设训练时长和/或满足预设测试条件时停止训练,得到目标对象识别模型。
需要说明的是,一般的目标对象识别技术依赖数据标注,或者很依赖聚类效果的好坏。要么训练成本较高,要么受聚类伪标签噪声负面影响较大。本公开实施例提出了多粒度聚类的无监督目标对象识别方法。该方法通过调整聚类设置,使得无标签数据对应多套独立的聚类结果。训练时,该方法约束同一套聚类结果的同一类簇中的样本相互靠近,不同聚簇中的样本相互远离。多粒度的聚类结果会加强目标对象识别模型的区分能力,也能够加强模型对相似样本的联系能力。相比于一般方法,本公开实施例能够进一步提升模型性能,最终取得更好的结果。
仍需说明的是,本实施例的可选或优选实施方式可以参见上述获取目标对象识别模型的方法实施例中的相关描述,此处不再赘述。本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例2
根据本公开实施例,还提供了一种目标对象识别方法,图5是根据本公开第二实施例的获取目标对象识别模型的方法的步骤流程示意图,如图1所示,该方法包括如下步骤:
步骤S112,获取待识别图像,其中,上述待识别图像中包含目标对象;
步骤S114,将上述待识别图像输入至目标对象识别模型,其中,上述目标对象识别模型为基于无标签数据集的多个聚类结果对应的伪标签,对初始识别模型进行无监督对比训练得到;
步骤S116,接收上述目标对象识别模型返回的识别处理结果。
可选的,上述目标对象识别模型为行人再识别模型,即为通过不断更新训练该初始识别模型得到的模型。
可选的,根据无标签数据集每张图像在特征空间中对应的类簇,为其分配伪标签。其中,上述伪标签即为相应的类簇索引;若每张上述预训练图像处于不同的聚类结果,则每张上述预训练图像对应多个伪标签。
需要说明的是,本公开实施例中,上述多个聚类结果通过调整聚类算法和/或聚类参数,使得无标签数据被聚类成不同大小的类簇,最小/最细最细粒度的类簇形式里每个样本都单独成为一个类簇的方式获取得到的。训练时,该方法约束同一聚簇中的样本相互靠近,不同聚簇中的样本相互远离。由此,细粒度类簇会加强行人再识别模型的区分能力,而粗粒度类簇能够加强模型的联系能力。
在本公开实施例中,通过获取待识别图像,其中,上述待识别图像中包含目标对象;将上述待识别图像输入至目标对象识别模型;接收上述目标对象识别模型返回的识别处理结果的方式,达到了准确目标对象识别的目的,从而实现了提高行人再识别精度的技术效果,进而解决了现有技术中的目标对象识别模型识别目标对象的精度较低的技术问题。
实施例3
根据本公开实施例,还提供了一种用于实施上述获取目标对象识别模型的方法的装置实施例,图6是根据本公开第三实施例的获取目标对象识别模型的装置的结构示意图,如图6所示,上述获取目标对象识别模型的装置,包括:获取模块500、分配模块502、训练模块504,其中:
上述获取模块500,用于获取无标签数据集的多个聚类结果,其中,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇;上述分配模块502,用于根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;上述训练模块504,用于基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型。
在本公开实施例中,通过获取模块500,用于获取无标签数据集的多个聚类结果,其中,多个上述聚类结果为独立且类簇规模不同的聚类结果,每个上述聚类结果包括一种聚类设置下得到的所有类簇;分配模块502,用于根据上述无标签数据集中的每张预训练图像对应的类簇,为每个上述聚类结果分配对应的伪标签;训练模块504,用于基于上述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型,达到了提高障碍物图像特征提取效率的目的,从而实现了提高障碍物检测精度和检测效率,降低资源损耗以及障碍物检测技术在自动驾驶系统中的可靠性的技术效果,进而解决了由于通过聚类方法得到的伪标签中存在噪声,导致模型训练精度差的技术问题。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述获取模块500、分配模块502、训练模块504对应于实施例1中的步骤S102至步骤S106,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例4
根据本公开实施例,还提供了一种用于实施上述目标对象识别方法的装置实施例,图7是根据本公开第四实施例的获取目标对象识别装置的结构示意图,如图7所示,上述目标对象识别装置,包括:获取单元600、识别单元602、接收单元604,其中:
上述获取单元600,用于获取待识别图像,其中,上述待识别图像中包含目标对象;上述识别单元602,用于将上述待识别图像输入至目标对象识别模型,其中,上述目标对象识别模型为基于无标签数据集的多个聚类结果对应的伪标签,对初始识别模型进行无监督对比训练得到;上述接收单元604,用于接收上述目标对象识别模型返回的识别处理结果。
在本公开实施例中,通过上述获取单元600,用于获取待识别图像,其中,上述待识别图像中包含目标对象;上述识别单元602,用于将上述待识别图像输入至目标对象识别模型,其中,上述目标对象识别模型为基于无标签数据集的多个聚类结果对应的伪标签,对初始识别模型进行无监督对比训练得到;上述接收单元604,用于接收上述目标对象识别模型返回的识别处理结果,达到了准确目标对象识别的目的,从而实现了提高行人再识别精度的技术效果,进而解决了现有技术中的目标对象识别模型识别目标对象的精度较低的技术问题。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述获取单元600、识别单元602、接收单元604对应于实施例1中的步骤S112至步骤S116,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例5
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如方法获取无标签数据集的多个聚类结果。例如,在一些实施例中,方法获取无标签数据集的多个聚类结果可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的方法获取无标签数据集的多个聚类结果的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法获取无标签数据集的多个聚类结果。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种获取目标对象识别模型的方法,包括:
获取无标签数据集的多个聚类结果,其中,多个所述聚类结果为独立且类簇规模不同的聚类结果,每个所述聚类结果包括一种聚类设置下得到的所有类簇;
根据所述无标签数据集中的每张预训练图像对应的类簇,为每个所述聚类结果分配对应的伪标签;
基于所述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型。
2.根据权利要求1所述的方法,其中,获取无标签数据集的多个聚类结果包括:
获取所述无标签数据集,其中,所述无标签数据集包括:多组无标签数据,所述多组无标签数据中的每组数据包括:所述预训练图像以及对所述预训练图像进行特征提取处理得到的无标签数据特征;
对所述无标签数据特征进行多粒度聚类处理,得到多个所述聚类结果,其中,不同所述聚类结果对应的平均类簇的大小不等。
3.根据权利要求1所述的方法,其中,根据所述无标签数据集中的每张预训练图像对应的类簇,为每个所述聚类结果分配对应的伪标签,包括:
获取所述无标签数据集中的每张所述预训练图像;
确定每张所述预训练图像在特征空间中对应的所述类簇;
根据每张所述预训练图像对应的所述类簇,为每个所述聚类结果分配对应的伪标签,其中,每个所述聚类结果对应的所述伪标签是唯一的。
4.根据权利要求3所述的方法,其中,若每张所述预训练图像处于不同的聚类结果,则每张所述预训练图像对应多个伪标签。
5.根据权利要求1所述的方法,其中,基于所述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型,包括:
采用对比学习损失函数,基于所述伪标签对所述初始识别模型进行无监督对比训练,得到所述目标对象识别模型,
其中,所述无监督对比训练用于训练所述目标对象识别模型区分不同的所述预训练图像之间的差别,以及建立所述类簇内的图像相似性联系和区分不同的所述类簇之间的明显差异。
6.根据权利要求1所述的方法,其中,采用对比学习损失函数,基于所述伪标签对所述初始识别模型进行无监督对比训练,得到所述目标对象识别模型,包括:
采用所述对比学习损失函数,对每个所述聚类结果对应的所述伪标签计算得到损失函数值;
将多个所述聚类结果对应的多个损失函数值进行再计算,得到损失计算结果,其中,所述再计算包括:加和计算或平均计算;
依据所述损失计算结果对所述初始识别模型进行所述无监督对比训练,得到所述目标对象识别模型。
7.根据权利要求1所述的方法,所述方法还包括:
对所述目标对象识别模型进行往复迭代训练,直至达到预设训练时长和/或满足预设测试条件时停止训练。
8.一种目标对象识别方法,包括:
获取待识别图像,其中,所述待识别图像中包含目标对象;
将所述待识别图像输入至目标对象识别模型,其中,所述目标对象识别模型为基于无标签数据集的多个聚类结果对应的伪标签,对初始识别模型进行无监督对比训练得到;
接收所述目标对象识别模型返回的识别处理结果。
9.根据权利要求8所述的方法,其中,多个所述聚类结果为独立且类簇规模不同的聚类结果,每个所述聚类结果包括一种聚类设置下得到的所有类簇;根据所述无标签数据集中的每张预训练图像对应的类簇,为每个所述聚类结果分配对应的所述伪标签。
10.一种获取目标对象识别模型的装置,包括:
获取模块,用于获取无标签数据集的多个聚类结果,其中,多个所述聚类结果为独立且类簇规模不同的聚类结果,每个所述聚类结果包括一种聚类设置下得到的所有类簇;
分配模块,用于根据所述无标签数据集中的每张预训练图像对应的类簇,为每个所述聚类结果分配对应的伪标签;
训练模块,用于基于所述伪标签对初始识别模型进行无监督对比训练,得到目标对象识别模型。
11.一种目标对象识别装置,包括:
获取单元,用于获取待识别图像,其中,所述待识别图像中包含目标对象;
识别单元,用于将所述待识别图像输入至目标对象识别模型,其中,所述目标对象识别模型为基于无标签数据集的多个聚类结果对应的伪标签,对初始识别模型进行无监督对比训练得到;
接收单元,用于接收所述目标对象识别模型返回的识别处理结果。
12.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述获取目标对象识别模型的方法,或者权利要求8或9所述的目标对象识别方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述获取目标对象识别模型的方法,或者权利要求8或9所述的目标对象识别方法。
14.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述获取目标对象识别模型的方法,或者权利要求8或9所述的目标对象识别方法。
15.一种获取目标对象识别模型的产品,包括:如权利要求12所述的电子设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111193204.8A CN113947693A (zh) | 2021-10-13 | 2021-10-13 | 获取目标对象识别模型的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111193204.8A CN113947693A (zh) | 2021-10-13 | 2021-10-13 | 获取目标对象识别模型的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113947693A true CN113947693A (zh) | 2022-01-18 |
Family
ID=79330343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111193204.8A Pending CN113947693A (zh) | 2021-10-13 | 2021-10-13 | 获取目标对象识别模型的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947693A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114637848A (zh) * | 2022-03-15 | 2022-06-17 | 美的集团(上海)有限公司 | 语义分类方法及装置 |
CN114724090A (zh) * | 2022-05-23 | 2022-07-08 | 北京百度网讯科技有限公司 | 行人再识别模型的训练方法、行人再识别方法及装置 |
CN115273148A (zh) * | 2022-08-03 | 2022-11-01 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
CN115331216A (zh) * | 2022-08-11 | 2022-11-11 | 北京林业大学 | 核桃果实成熟度聚类识别方法、装置及系统和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN112149637A (zh) * | 2020-10-23 | 2020-12-29 | 北京百度网讯科技有限公司 | 用于生成目标再识别模型和用于目标再识别的方法和装置 |
CN112507901A (zh) * | 2020-12-14 | 2021-03-16 | 华南理工大学 | 一种基于伪标签自纠正的无监督行人重识别方法 |
CN112784749A (zh) * | 2021-01-22 | 2021-05-11 | 北京百度网讯科技有限公司 | 目标模型的训练方法、目标对象的识别方法、装置及介质 |
CN112861825A (zh) * | 2021-04-07 | 2021-05-28 | 北京百度网讯科技有限公司 | 模型训练方法、行人再识别方法、装置和电子设备 |
CN113255573A (zh) * | 2021-06-17 | 2021-08-13 | 成都东方天呈智能科技有限公司 | 基于混合簇中心标签学习的行人重识别方法和存储介质 |
EP3867819A1 (en) * | 2018-10-18 | 2021-08-25 | Deep North, Inc. | Semi-supervised person re-identification using multi-view clustering |
-
2021
- 2021-10-13 CN CN202111193204.8A patent/CN113947693A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3867819A1 (en) * | 2018-10-18 | 2021-08-25 | Deep North, Inc. | Semi-supervised person re-identification using multi-view clustering |
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN112149637A (zh) * | 2020-10-23 | 2020-12-29 | 北京百度网讯科技有限公司 | 用于生成目标再识别模型和用于目标再识别的方法和装置 |
CN112507901A (zh) * | 2020-12-14 | 2021-03-16 | 华南理工大学 | 一种基于伪标签自纠正的无监督行人重识别方法 |
CN112784749A (zh) * | 2021-01-22 | 2021-05-11 | 北京百度网讯科技有限公司 | 目标模型的训练方法、目标对象的识别方法、装置及介质 |
CN112861825A (zh) * | 2021-04-07 | 2021-05-28 | 北京百度网讯科技有限公司 | 模型训练方法、行人再识别方法、装置和电子设备 |
CN113255573A (zh) * | 2021-06-17 | 2021-08-13 | 成都东方天呈智能科技有限公司 | 基于混合簇中心标签学习的行人重识别方法和存储介质 |
Non-Patent Citations (2)
Title |
---|
ZUOZHUO DAI, GUANGYUAN WANG, SIYU ZHU, WEIHAO YUAN, PING TAN: "Cluster Contrast for Unsupervised Person Re-Identification", ARXIV, 22 March 2021 (2021-03-22) * |
姚明海;黄展聪;: "基于主动学习的半监督领域自适应方法研究", 高技术通讯, no. 08, 15 August 2020 (2020-08-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114637848A (zh) * | 2022-03-15 | 2022-06-17 | 美的集团(上海)有限公司 | 语义分类方法及装置 |
CN114724090A (zh) * | 2022-05-23 | 2022-07-08 | 北京百度网讯科技有限公司 | 行人再识别模型的训练方法、行人再识别方法及装置 |
CN114724090B (zh) * | 2022-05-23 | 2022-08-30 | 北京百度网讯科技有限公司 | 行人再识别模型的训练方法、行人再识别方法及装置 |
CN115273148A (zh) * | 2022-08-03 | 2022-11-01 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
CN115273148B (zh) * | 2022-08-03 | 2023-09-05 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
CN115331216A (zh) * | 2022-08-11 | 2022-11-11 | 北京林业大学 | 核桃果实成熟度聚类识别方法、装置及系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113947693A (zh) | 获取目标对象识别模型的方法、装置及电子设备 | |
CN112560996B (zh) | 用户画像识别模型训练方法、设备、可读存储介质及产品 | |
CN113642583B (zh) | 用于文本检测的深度学习模型训练方法及文本检测方法 | |
CN113657483A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN109886311B (zh) | 增量聚类方法、装置、电子设备和计算机可读介质 | |
CN113963186A (zh) | 目标检测模型的训练方法、目标检测方法及相关装置 | |
CN113627536A (zh) | 模型训练、视频分类方法,装置,设备以及存储介质 | |
CN114186681A (zh) | 用于生成模型簇的方法、装置及计算机程序产品 | |
CN113627526A (zh) | 车辆标识的识别方法、装置、电子设备和介质 | |
CN113591709B (zh) | 动作识别方法、装置、设备、介质和产品 | |
CN114612651A (zh) | Roi检测模型训练方法、检测方法、装置、设备和介质 | |
CN113780578A (zh) | 模型训练方法、装置、电子设备及可读存储介质 | |
CN113657596A (zh) | 训练模型和图像识别的方法和装置 | |
CN112560936A (zh) | 模型并行训练方法、装置、设备、存储介质和程序产品 | |
CN115273148B (zh) | 行人重识别模型训练方法、装置、电子设备及存储介质 | |
CN114549961B (zh) | 目标对象的检测方法、装置、设备以及存储介质 | |
CN115761698A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
JP2023152270A (ja) | 人工知能によるデータラベリング方法、装置、電子デバイス、記憶媒体、及びプログラム | |
CN115470900A (zh) | 一种神经网络模型的剪枝方法、装置及设备 | |
CN114707638A (zh) | 模型训练、对象识别方法及装置、设备、介质和产品 | |
CN114842541A (zh) | 模型的训练及人脸识别方法、装置、设备以及存储介质 | |
CN114821190A (zh) | 图像分类模型训练方法、图像分类方法、装置及设备 | |
CN115809687A (zh) | 一种图像处理网络的训练方法及装置 | |
CN114610953A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN114120410A (zh) | 用于生成标签信息的方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |