CN116091783A - 一种目标识别方法、装置、终端设备和可读存储介质 - Google Patents

一种目标识别方法、装置、终端设备和可读存储介质 Download PDF

Info

Publication number
CN116091783A
CN116091783A CN202211604437.7A CN202211604437A CN116091783A CN 116091783 A CN116091783 A CN 116091783A CN 202211604437 A CN202211604437 A CN 202211604437A CN 116091783 A CN116091783 A CN 116091783A
Authority
CN
China
Prior art keywords
triplet
target
distance
image
sample image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211604437.7A
Other languages
English (en)
Inventor
王侃
庞建新
谭欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ubtech Technology Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Priority to CN202211604437.7A priority Critical patent/CN116091783A/zh
Publication of CN116091783A publication Critical patent/CN116091783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请适用于图像识别技术领域,提供了一种目标识别方法、装置、终端设备和可读存储介质。其中,上述目标识别方法具体包括:获取待识别目标的目标图像;对目标图像进行特征提取,得到目标图像中的图像特征;将图像特征输入至目标识别网络模型中,得到待识别目标所属分类的识别结果,其中,目标识别网络模型的损失函数用于约束多个三元组中每个三元组对应的第一距离和每个三元组对应的第二距离,第一距离表征三元组中基准图像特征和同一三元组中正样本图像特征之间的距离,第二距离表征三元组中基准图像特征和同一三元组中多个类别的负样本图像特征之间的距离。本申请的实施例可以提高目标识别的准确性。

Description

一种目标识别方法、装置、终端设备和可读存储介质
技术领域
本申请属于图像识别技术领域,尤其涉及一种目标识别方法、装置、终端设备和可读存储介质。
背景技术
目标识别是计算机视觉技术的一个重要应用领域,相关技术中常利用基于深度学习的网络模型来实现目标识别。损失函数是网络模型的重要组成部分之一。网络模型通常是以数据为输入,通过最小化损失函数进行模型训练,以最小化网络模型对于数据的预测值和该数据的真实值之间的误差来优化网络模型。
相关技术中,通常采用三元组损失函数来进行模型训练,三元组损失函数的优化方向易受到三元组中样本图像的特征和标签的影响,导致采用三元组损失函数训练得到的模型不能准确地进行目标识别。
发明内容
本申请实施例提供一种目标识别方法、装置、终端设备和可读存储介质,可以提高目标识别的准确性。
本申请实施例第一方面提供一种目标识别方法,包括:获取待识别目标的目标图像;对所述目标图像进行特征提取,得到所述目标图像中的图像特征;将所述图像特征输入至目标识别网络模型中,得到所述待识别目标所属分类的识别结果,其中,所述目标识别网络模型的损失函数用于约束多个三元组中每个所述三元组对应的第一距离和每个所述三元组对应的第二距离,所述第一距离表征所述三元组中基准图像特征和同一所述三元组中正样本图像特征之间的距离,所述第二距离表征所述三元组中所述基准图像特征和同一所述三元组中多个类别的负样本图像特征之间的距离。
本申请实施例第二方面提供的一种目标识别装置,包括:图像获取单元,用于获取待识别目标的目标图像;特征提取单元,用于对所述目标图像进行特征提取,得到所述目标图像中的图像特征;目标识别单元,用于将所述图像特征输入至目标识别网络模型中,得到所述待识别目标所属分类的识别结果,其中,所述目标识别网络模型的损失函数用于约束多个三元组中每个所述三元组对应的第一距离和每个所述三元组对应的第二距离,所述第一距离表征所述三元组中基准图像特征和同一所述三元组中正样本图像特征之间的距离,所述第二距离表征所述三元组中所述基准图像特征和同一所述三元组中多个类别的负样本图像特征之间的距离。
本申请实施例第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述目标识别方法的步骤。
本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述目标识别方法的步骤。
本申请实施例第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面所述的目标识别方法。
在本申请的实施方式中,通过对待识别目标的目标图像进行特征提取,得到目标图像中的图像特征,将图像特征输入至目标识别网络模型中,得到待识别目标所属分类的识别结果,其中,目标识别网络模型的损失函数用于约束多个三元组中每个三元组对应的第一距离和第二距离,第一距离表征三元组中基准图像特征和同一三元组中正样本图像特征之间的距离,第二距离表征三元组中基准图像特征和同一三元组中多个类别的负样本图像特征之间的距离,也就是说,在单次优化时增加了负样本图像的类别数量和图像数量,降低负样本图像的错误标签对模型优化方向的影响,也避免了不同次优化采用不同负样本图像时向相反方向优化的情况出现,使得训练得到的模型可以更加准确地进行目标识别,提高了目标识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1中为相关技术中基于交叉熵损失函数进行模型训练的示意图;
图2是本申请实施例提供的一种目标识别方法的实现流程示意图;
图3是本申请实施例提供的计算损失值的具体实现流程示意图;
图4是基于本申请实施例提供的损失函数进行模型训练示意图;
图5是本申请实施例提供的一种目标识别装置的结构示意图;
图6是本申请实施例提供的终端设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护。
相关技术中,通常采用交叉熵损失函数来进行模型训练。三元组损失函数是最为常见的损失函数之一,常常用于人脸识别、行人重识别等视觉任务中。其主要功能是增大类内相似度、减小类间相似度。三元组损失函数的输入为一个图像特征的三元组{fa,fp,fn},其公式如下所示:
Figure BDA0003996866960000041
其中,fa、fp、fn分别表示一个三元组中的基准图像特征、正样本图像特征和负样本图像特征。正样本图像特征也即和基准图像特征为同一分类的图像特征,负样本图像特征也即和基准图像特征类别不同的图像特征。Ntp为一个批次中三元组的总数量。{x}+表示x和0之间的最大值,即{x}+=max{x,0}。在模型优化阶段,三元组损失函数约束基准图像特征和正样本图像特征之间的距离D(fi a,i p)与基准图像特征和负样本图像特征之间的距离D(fi a,i n)的差值大于一个阈值α,从而达到增大同一分类内图像特征的类内相似度、减小不同分类的图像特征之间的类间相似度的优化目标。
原始的三元组损失函数往往使用所有的三元组来训练模型,其计算复杂度为O(N3),这里N为训练数据集中图片的数量。为了提高模型的训练效率,一些相关技术使用“难例挖掘”的策略来挑选出“有效”三元组。如下所示,基于难例挖掘的三元组损失函数的公式可以表示为:
Figure BDA0003996866960000042
其中,P为一个批次中目标的类别的总数量,A为一个批次中每个目标(如行人)的样本图像的图像数量。max()表示取最大值,min()表示取最小值。
实际应用中发现,三元组损失函数的优化方向易受到三元组中样本图像的特征和标签的影响。
具体而言,请参考图1,纯色填充的圆形、斜线填充的圆形、空心圆形分别表示不同类别的目标的样本图像特征。其中,a、p分别表示基准图像特征和正样本图像特征。n1和n2表示不同类别的负样本图像特征,v1和v2分别表示n1和n2作为负样本图像特征时,基准图像特征a的优化方向。
由图1可以看出,v1和v2差异明显,这将导致对基准图像特征a进行优化时的优化方向不稳定。具体而言,当选择n1作为负样本图像特征时,传统三元组损失函数使基准图像特征a向图1的右上优化;而当选择n2作为负样本图像特征时,传统三元组损失函数使基准图像特征a向图1的右下方优化。两个负样本图像特征对基准图像特征a进行优化时的优化方向不一致,从而造成模型训练过程中,特征点a的优化方向随着负样本图像特征的变化而变化。在一些较为极端的情况下,不同的负样本图像特征对基准图像特征a的优化方向可能相反,造成一种“拉锯”现象,从而造成训练阶段模型无法收敛。
并且,在单次优化过程中,传统的三元组损失函数仅使用一个负样本图像。例如,基于“难例挖掘”策略的传统三元组损失函数只使用与基准样本图像最为相似(即最难)的图像作为负样本图像,利用其对应的负样本图像特征计算损失值。这种方案容易受错误标签的影响。具体而言,由于传统的三元组损失函数只考虑一个负样本图像的信息,假如该负样本图像是标注错误的图像(例如,负样本图像的真实类别与基准图像的类别是一致的,但是标注错误),传统的三元组损失函数将会促使基准图像特征往错误的方向优化。
综上所述,利用训练得到的模型进行目标识别可能出现识别错误的问题。
鉴于此,本申请对传统的三元组损失函数进行了改进,能够一定程度上网络模型向错误方向优化,进而提高目标识别的鲁棒性和准确性。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
图2示出了本申请实施例提供的一种目标识别方法的实现流程示意图,该方法可以应用于终端设备上,可适用于需提高目标识别准确性的情形。其中,上述终端设备可以为智能手机、计算机、车载设备、监控设备或者其他具有目标识别需求的智能设备。
具体的,上述目标识别方法可以包括以下步骤S201至步骤S203。
步骤S201,获取待识别目标的目标图像。
其中,上述待识别目标为需要进行识别的目标,目标图像为对待识别目标进行采集得到的图像。应理解的是,待识别目标可以为人、车辆、宠物或者其他物体,可以根据识别任务的需求进行调整。
在本申请的实施方式中,终端设备可以通过不同的方式获取目标图像。例如,终端设备可以通过摄像头对待识别目标进行拍摄,得到目标图像。又例如,终端设备可以从网络上下载需要进行目标识别的目标图像。对此本申请不进行限制。
步骤S202,对目标图像进行特征提取,得到目标图像中的图像特征。
其中,图像特征是指目标图像中的特征,可以包括目标图像中像素值、轮廓、纹理等不同图像信息的特征,也可以包括目标图像中待识别目标的特征,例如待识别目标的关键特征点等。
需要说明的是,本申请不对图像特征的特征提取方式进行限制,终端设备可以采用局部二值模式(Local Binary Patterns,LBP)特征提取算法、方向梯度直方图(Histogram of Oriented Gradient,HOG)特征提取算法、SIFT(Scale-invariant featuretransform)特征点提取算法、基于深度神经网络(例如,ResNet)的特征提取算法,或者其他算法提取目标图像的图像特征。
步骤S203,将图像特征输入至目标识别网络模型中,得到待识别目标所属分类的识别结果。
在本申请的实施方式中,目标识别网络模型是用于对待识别目标进行目标识别分类的网络模型。目标识别网络模型的损失函数可用于约束多个三元组中每个三元组对应的第一距离和第二距离。
其中,第一距离可以表征三元组中基准图像特征和同一三元组中正样本图像特征之间的距离,第二距离可以表征三元组中基准图像特征和同一三元组中多个类别的负样本图像特征之间的距离。
在本申请的实施方式中,样本图像是用于对目标识别网络模型进行训练的图像,样本图像可以包括多个批次,每个批次可以包括一个或多个三元组,每个三元组为单次优化所使用的样本图像组。具体的,每个三元组中可以包括基准样本图像的基准图像特征、正样本图像的正样本图像特征和多个类别的负样本图像的负样本图像特征。
其中,基准样本图像可以是样本图像中的任意一个图像,正样本图像可以为与基准样本图像类别相同的样本图像,负样本图像可以为与基准样本图像类别不同的样本图像。基准图像特征、正样本图像特征和负样本图像特征分别为从基准样本图像、正样本图像和负样本图像提取得到的特征。
也就是说,本申请可以利用多个三元组进行模型训练,由于在单次优化所使用的三元组中包括多个类别的负样本图像特征,因此每次损失函数需要考虑基准图像特征和多个类别的负样本图像特征之间的距离,在负样本图像的类别数量和图像数量上实现了均衡。
更具体地说,目标识别网络模型的损失函数的损失值与第一距离呈正相关,与第二距离呈负相关。
应理解的是,上述样本图像(基准样本图像、正样本图像和负样本图像)的获取方式和样本图像特征(基准图像特征、正样本图像特征和负样本图像特征)的特征提取方式可以参考目标图像的获取方式和其图像特征的提取方式,对此本申请不进行赘述。
在本申请的实施方式中,通过对待识别目标的目标图像进行特征提取,得到目标图像中的图像特征,将图像特征输入至目标识别网络模型中,得到待识别目标所属分类的识别结果,其中,目标识别网络模型的损失函数用于约束多个三元组中每个三元组对应的第一距离和第二距离,第一距离表征三元组中基准图像特征和同一三元组中正样本图像特征之间的距离,第二距离表征三元组中基准图像特征和同一三元组中多个类别的负样本图像特征之间的距离,也就是说,在单次优化时增加了负样本图像的类别数量和图像数量,降低负样本图像的错误标签对模型优化方向的影响,也避免了不同次优化采用不同负样本图像时向相反方向优化的情况出现,使得训练得到的模型可以更加准确地进行目标识别,提高了目标识别的准确性。
在本申请的一些实施方式中,如图3所示,上述损失函数的计算过程可以包括以下步骤S301至步骤S305。
步骤S301,根据批次中各个样本图像的样本图像特征,计算每个类别的类别中心。
本申请的实施方式中,类别中心可以为对应类别的所有样本图像特征的均值。终端设备根据批次中各个样本图像的样本图像特征和类别中心计算公式,可以计算每个类别的类别中心。
其中,类别中心计算公式可以表示为:
Figure BDA0003996866960000081
fi表示第i个类别的类别中心,fi k表示批次中第i个类别的第k个样本图像的样本图像特征,Ni表示批次中第i个类别的样本图像的总数量,也即第i个类别的样本图像特征的总数量。
步骤S302,根据每个类别的类别中心,计算每个三元组的目标负样本图像特征。
其中,目标负样本图像特征可以表征三元组中所有类别的负样本图像特征。
在本申请的一些实施方式中,终端设备可以获取每个三元组中每个类别分别对应的权重值,并根据每个三元组中每个类别分别对应的权重值对对应的三元组中负样本图像对应类别的类别中心进行加权平均,得到对应三元组的目标负样本图像特征。
一些实施方式中,终端设备可以计算三元组中基准图像特征分别和三元组中负样本图像对应的每个类别的类别中心之间的第三距离,根据第三距离,确定对应的三元组中负样本图像对应类别的权重值。其中,权重值与第三距离成反比。
具体来说,终端设备可以根据以下特征计算公式计算目标负样本图像特征:
Figure BDA0003996866960000082
其中,
Figure BDA0003996866960000083
表示第i个三元组的目标负样本图像特征。C为三元组中包含的类别总数。优选的,每个三元组可以包括所在批次中所有类别的负样本图像,此时,C为该批次包含的类别总数。
wc为类别c的权重,wc可以表示为
Figure BDA0003996866960000091
fc表示第c个分类的类别中心,fa表示第i个三元组的基准图像特征,||||表示范数。
采用上述加权平均的方式,可以使得优化的时候考虑与基准样本图像的样本图像特征相对更近的类别中心。
步骤S303,根据每个三元组的基准图像特征和对应三元组中正样本图像特征,计算每个三元组对应的第一距离。
步骤S304,根据每个三元组的基准图像特征和对应三元组的目标负样本图像特征,计算每个三元组对应的第二距离。
步骤S305,根据每个三元组对应的第一距离和每个三元组对应的第二距离,确定损失函数的损失值。
具体的,利用第i个三元组的基准图像特征fi a和该三元组中正样本图像特征fi p,可以计算该三元组对应的第一距离D(fi a,fi p)。例如,可以通过对fi a和fi p作差得到第一距离
Figure BDA0003996866960000094
同样的,利用第i个三元组的基准图像特征fi a和该三元组的目标负样本图像特征Fi n,可以计算每个三元组对应的第二距离D(fi a,Fi n)。例如,可以通过对fi a和Fi n作差得到第一距离D(fi a,Fi n)。
此时,上述损失函数表示为:
Figure BDA0003996866960000092
Figure BDA0003996866960000093
其中,Ntp表示批次中三元组的数量,fi a表示第i个三元组的基准图像特征,
Figure BDA0003996866960000095
表示第i个三元组的正样本图像特征,Fi n表示根据第i个三元组的负样本图像特征得到的目标负样本图像特征。α为预设的距离阈值,α>0,具体取值可以根据实际情况进行调整。{x}+表示取x和0之间的最大值,即{x}+=max(x,0),D(s,y)表示x和y之间的距离。
具体而言,本申请所提出的损失函数在确定基准图像特征优化方向的时候,考虑了来自不同类别的负样本图像的信息。请参考图4,纯色填充的圆形、斜线填充的圆形、空心圆形分别表示不同类别的目标的样本图像特征。其中,a、p分别表示基准图像特征和正样本图像特征。C1和C2表示不同类别的类别中心,v1和v2分别表示C1和C2基对准图像特征a的优化方向。在确定基准图像特征a的优化方向的时候,考虑来自两种不同类别的负样本图像特征所提供的优化方向,即图4所示的v1和v2。为了减少错误标签的影响,本申请所提出的损失函数在负样本图像的图像数量上施加了均衡策略,在确定负样本图像特征对应的类别对基准图像特征点优化方向的时候,我们不只考虑该类别的一张图像,而是考虑该批次中该类别的所有负样本图像。如图4所示,负样本图像所提供的优化方向(即v1和v2)由该负样本图像对应类别的类别中心(所有负样本图像特征的均值)决定。因此,所训练得到的目标识别网络模型仍能较好地对目标做出分类,一定程度上提高了目标识别的准确性和鲁棒性。
基于该损失函数,终端设备可以获取样本目标的样本图像,基于样本图像确定多个三元组,以使损失函数最小化为目标,利用三元组对待训练的识别网络模型进行迭代训练,直至损失函数的损失值小于或等于预设的损失值阈值,或者,直至待训练的识别网络模型的迭代次数大于或等于次数阈值,得到目标识别网络模型。
更具体的说,对于样本图像{I1,I2,...,Ip}分别提取其样本图像特征{f1,f2,...,fp},这里p表示样本图像的总数量,Ip表示第p个样本图像,fp表示第p个样本图像的样本图像特征。从其中取出若干张组成一个批次,该批次中包含各个类别的样本图像,依据类别可以划分出若干个三元组。
将该批次中的三元组的基准图像特征输入至待训练的识别网络模型,获取其预测值,并利用预测值、正样本图像特征和负样本图像特征计算损失函数Leq_triplet的损失值。如果待训练的识别网络模型的收敛条件为损失值小于或等于损失值阈值,则在损失值大于损失值阈值时调整待训练的识别网络模型的模型参数,然后重新利用新的批次对待训练的识别网络模型进行训练,直至损失值小于或等于损失值阈值,得到目标识别网络模型。如果待训练的识别网络模型的收敛条件为迭代次数大于或等于次数阈值,则在迭代次数小于次数阈值时调整待训练的识别网络模型的模型参数,然后重新利用新的批次对待训练的识别网络模型进行训练,以此类推,直至迭代次数大于或等于次数阈值,得到目标识别网络模型。
其中,次数阈值和损失值阈值均可根据实际情况进行调整。
得到目标识别网络模型之后,终端设备即可利用其进行目标识别。该目标识别方法可以适用于行人重识别、车辆识别等领域,对此本申请不进行限制。
本申请提出的目标识别方法,使用了基于均衡策略的三元组损失函数,该损失函数从负样本图像的类别数量和图像数量两个角度施加均衡策,缓解了传统三元组损失函数的优化方向不稳定和易受错误标签影响的问题,从而提升模型所提取的特征质量,提高目标识别的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为根据本申请,某些步骤可以采用其它顺序进行。
如图5所示为本申请实施例提供的一种目标识别装置500的结构示意图,所述目标识别装置500配置于终端设备上。
具体的,所述目标识别装置500可以包括:
图像获取单元501,用于获取待识别目标的目标图像;
特征提取单元502,用于对所述目标图像进行特征提取,得到所述目标图像中的图像特征;
目标识别单元503,用于将所述图像特征输入至目标识别网络模型中,得到所述待识别目标所属分类的识别结果,其中,所述目标识别网络模型的损失函数用于约束多个三元组中每个所述三元组对应的第一距离和每个所述三元组对应的第二距离,所述第一距离表征所述三元组中基准图像特征和同一所述三元组中正样本图像特征之间的距离,所述第二距离表征所述三元组中所述基准图像特征和同一所述三元组中多个类别的负样本图像特征之间的距离。
在本申请的一些实施方式中,上述目标识别装置500可以包括模型训练单元,用于:根据批次中各个样本图像的样本图像特征,计算每个类别的类别中心,所述批次包括一个或多个所述三元组;根据每个类别的类别中心,计算每个所述三元组的目标负样本图像特征;根据每个所述三元组的所述基准图像特征和对应所述三元组中正样本图像特征,计算每个所述三元组对应的所述第一距离;根据每个所述三元组的所述基准图像特征和对应所述三元组的所述目标负样本图像特征,计算每个所述三元组对应的所述第二距离;根据每个所述三元组对应的所述第一距离和每个所述三元组对应的所述第二距离,确定所述损失函数的损失值。
在本申请的一些实施方式中,上述模型训练单元可以具体用于:获取每个所述三元组中每个类别分别对应的权重值;根据每个所述三元组中每个类别分别对应的权重值,对对应的三元组中所述负样本图像对应类别的类别中心进行加权平均,得到对应所述三元组的所述目标负样本图像特征。
在本申请的一些实施方式中,上述模型训练单元可以具体用于:计算所述三元组中所述基准图像特征分别和所述三元组中所述负样本图像对应的每个类别的类别中心之间的第三距离;根据所述第三距离,确定对应的所述三元组中所述负样本图像对应类别的权重值,其中,所述权重值与所述第三距离成反比。
在本申请的一些实施方式中,上述模型训练单元可以具体用于:根据批次中各个样本图像的样本图像特征和类别中心计算公式,计算每个类别的所述类别中心;其中,类别中心计算公式表示为:
Figure BDA0003996866960000121
fi表示第i个类别的类别中心,fi k表示所述批次中第i个类别的第k个样本图像的样本图像特征,Ni表示所述批次中第i个类别的样本图像的总数量。
在本申请的一些实施方式中,上述损失函数表示为:
Figure BDA0003996866960000122
Figure BDA0003996866960000123
其中,Ntp表示三元组的数量,i a表示第i个所述三元组的基准图像特征,fi p表示第i个所述三元组的正样本图像特征,Fi n表示根据第i个所述三元组的负样本图像特征得到的目标负样本图像特征,α为预设的距离阈值,{x}+表示取x和0之间的最大值,
D(x,y)表示x和y之间的距离。。
在本申请的一些实施方式中,上述模型训练单元可以具体用于:基于所述样本图像确定多个所述三元组;以使所述损失函数最小化为目标,利用所述三元组对待训练的识别网络模型进行迭代训练,直至所述损失函数的损失值小于或等于预设的损失值阈值,或者,直至所述待训练的识别网络模型的迭代次数大于或等于次数阈值,得到所述目标识别网络模型。
需要说明的是,为描述的方便和简洁,上述目标识别装置500的具体工作过程,可以参考图2至图4所述方法的对应过程,在此不再赘述。
如图6所示,为本申请实施例提供的一种终端设备的示意图。该终端设备6可以包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如目标识别程序。所述处理器60执行所述计算机程序62时实现上述各个目标识别方法实施例中的步骤,例如图2所示的步骤S201至S203。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示的图像获取单元501、特征提取单元502和目标识别单元503。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
例如,所述计算机程序可以被分割成:图像获取单元、特征提取单元和目标识别单元。各单元具体功能如下:图像获取单元,用于获取待识别目标的目标图像;特征提取单元,用于对所述目标图像进行特征提取,得到所述目标图像中的图像特征;目标识别单元,用于将所述图像特征输入至目标识别网络模型中,得到所述待识别目标所属分类的识别结果,其中,所述目标识别网络模型的损失函数用于约束多个三元组中每个所述三元组对应的第一距离和每个所述三元组对应的第二距离,所述第一距离表征所述三元组中基准图像特征和同一所述三元组中正样本图像特征之间的距离,所述第二距离表征所述三元组中所述基准图像特征和同一所述三元组中多个类别的负样本图像特征之间的距离。
所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器61也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,为描述的方便和简洁,上述终端设备的结构还可以参考方法实施例中对结构的具体描述,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对各个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种目标识别方法,其特征在于,包括:
获取待识别目标的目标图像;
对所述目标图像进行特征提取,得到所述目标图像中的图像特征;
将所述图像特征输入至目标识别网络模型中,得到所述待识别目标所属分类的识别结果,其中,所述目标识别网络模型的损失函数用于约束多个三元组中每个所述三元组对应的第一距离和每个所述三元组对应的第二距离,所述第一距离表征所述三元组中基准图像特征和同一所述三元组中正样本图像特征之间的距离,所述第二距离表征所述三元组中所述基准图像特征和同一所述三元组中多个类别的负样本图像特征之间的距离。
2.如权利要求1所述的目标识别方法,其特征在于,所述损失函数的损失值的计算过程,包括:
根据批次中各个样本图像的样本图像特征,计算每个类别的类别中心,所述批次包括一个或多个所述三元组;
根据每个类别的类别中心,计算每个所述三元组的目标负样本图像特征;
根据每个所述三元组的所述基准图像特征和对应所述三元组中正样本图像特征,计算每个所述三元组对应的所述第一距离;
根据每个所述三元组的所述基准图像特征和对应所述三元组的所述目标负样本图像特征,计算每个所述三元组对应的所述第二距离;
根据每个所述三元组对应的所述第一距离和每个所述三元组对应的所述第二距离,确定所述损失函数的损失值。
3.如权利要求2所述的目标识别方法,其特征在于,所述根据每个类别的类别中心,计算每个所述三元组的目标负样本图像特征,包括:
获取每个所述三元组中每个类别分别对应的权重值;
根据每个所述三元组中每个类别分别对应的权重值,对对应的三元组中所述负样本图像对应类别的类别中心进行加权平均,得到对应所述三元组的所述目标负样本图像特征。
4.如权利要求3所述的目标识别方法,其特征在于,所述获取根据每个所述三元组中每个类别分别对应的权重值,包括:
计算所述三元组中所述基准图像特征分别和所述三元组中所述负样本图像对应的每个类别的类别中心之间的第三距离;
根据所述第三距离,确定对应的所述三元组中所述负样本图像对应类别的权重值,其中,所述权重值与所述第三距离成反比。
5.如权利要求2所述的目标识别方法,其特征在于,所述根据每个批次中各个样本图像的样本图像特征,计算每个类别的类别中心,包括:
根据批次中各个样本图像的样本图像特征和类别中心计算公式,计算每个类别的所述类别中心;
其中,类别中心计算公式表示为:
Figure FDA0003996866950000021
fi表示第i个类别的类别中心,fi k表示所述批次中第i个类别的第k个样本图像的样本图像特征,Ni表示所述批次中第i个类别的样本图像的总数量。
6.如权利要求1至5任意一项所述的目标识别方法,其特征在于,所述损失函数表示为:
Figure FDA0003996866950000022
其中,Ntp表示三元组的数量,fi a表示第i个所述三元组的基准图像特征,fi p表示第i个所述三元组的正样本图像特征,Fi n表示根据第i个所述三元组的负样本图像特征得到的目标负样本图像特征,α为预设的距离阈值,{x}+表示取x和0之间的最大值,D(x,y)表示x和y之间的距离。
7.如权利要求1至5任意一项所述的目标识别方法,其特征在于,所述目标识别网络模型的训练过程,包括:
获取所述样本图像;
基于所述样本图像确定多个所述三元组;
以使所述损失函数最小化为目标,利用所述三元组对待训练的识别网络模型进行迭代训练,直至所述损失函数的损失值小于或等于预设的损失值阈值,或者,直至所述待训练的识别网络模型的迭代次数大于或等于次数阈值,得到所述目标识别网络模型。
8.一种目标识别装置,其特征在于,包括:
图像获取单元,用于获取待识别目标的目标图像;
特征提取单元,用于对所述目标图像进行特征提取,得到所述目标图像中的图像特征;
目标识别单元,用于将所述图像特征输入至目标识别网络模型中,得到所述待识别目标所属分类的识别结果,其中,所述目标识别网络模型的损失函数用于约束多个三元组中每个所述三元组对应的第一距离和每个所述三元组对应的第二距离,所述第一距离表征所述三元组中基准图像特征和同一所述三元组中正样本图像特征之间的距离,所述第二距离表征所述三元组中所述基准图像特征和同一所述三元组中多个类别的负样本图像特征之间的距离。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述目标识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标识别方法的步骤。
CN202211604437.7A 2022-12-13 2022-12-13 一种目标识别方法、装置、终端设备和可读存储介质 Pending CN116091783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211604437.7A CN116091783A (zh) 2022-12-13 2022-12-13 一种目标识别方法、装置、终端设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211604437.7A CN116091783A (zh) 2022-12-13 2022-12-13 一种目标识别方法、装置、终端设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN116091783A true CN116091783A (zh) 2023-05-09

Family

ID=86207246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211604437.7A Pending CN116091783A (zh) 2022-12-13 2022-12-13 一种目标识别方法、装置、终端设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN116091783A (zh)

Similar Documents

Publication Publication Date Title
CN110991465B (zh) 一种物体识别方法、装置、计算设备及存储介质
CN110033026B (zh) 一种连续小样本图像的目标检测方法、装置及设备
CN111461165A (zh) 图像识别方法、识别模型的训练方法及相关装置、设备
CN110751037A (zh) 车身颜色识别的方法及终端设备
CN111079785A (zh) 一种图像识别方法、装置及终端设备
CN110689043A (zh) 一种基于多重注意力机制的车辆细粒度识别方法及装置
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
US20240203097A1 (en) Method and apparatus for training image processing model, and image classifying method and apparatus
CN112507897A (zh) 跨模态人脸识别方法、装置、设备及存储介质
CN112364916A (zh) 基于迁移学习的图像分类方法、相关设备及存储介质
CN114444565A (zh) 一种图像篡改检测方法、终端设备及存储介质
CN113902944A (zh) 模型的训练及场景识别方法、装置、设备及介质
CN108960246B (zh) 一种用于图像识别的二值化处理装置及方法
CN113920382A (zh) 基于类一致性结构化学习的跨域图像分类方法和相关装置
CN113963295A (zh) 视频片段中地标识别方法、装置、设备及存储介质
CN117197864A (zh) 基于深度学习的证件照分类识别及免冠检测方法及系统
CN111968154A (zh) 一种融合hog-lbp和kcf的行人跟踪方法
CN113723431B (zh) 图像识别方法、装置以及计算机可读存储介质
CN113239738B (zh) 一种图像的模糊检测方法及模糊检测装置
CN116091783A (zh) 一种目标识别方法、装置、终端设备和可读存储介质
CN112214639B (zh) 视频筛选方法、视频筛选装置及终端设备
CN112364856A (zh) 翻拍图像识别方法、装置、计算机设备及存储介质
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
CN116030494A (zh) 一种目标识别方法、装置、终端设备和可读存储介质
US20240193930A1 (en) Target identification method, device and computer-readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination