CN107704838B - 目标对象的属性识别方法及装置 - Google Patents
目标对象的属性识别方法及装置 Download PDFInfo
- Publication number
- CN107704838B CN107704838B CN201710983033.6A CN201710983033A CN107704838B CN 107704838 B CN107704838 B CN 107704838B CN 201710983033 A CN201710983033 A CN 201710983033A CN 107704838 B CN107704838 B CN 107704838B
- Authority
- CN
- China
- Prior art keywords
- network
- pedestrian
- loss function
- function value
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种目标对象的属性识别方法及装置,涉及图像识别技术领域,该方法采用识别网络执行,该识别网络包括特征提取网络,以及分别与特征提取网络相连的行人再识别网络、行人姿态识别网络和行人属性识别网络;识别网络的参数由行人再识别网络、行人姿态识别网络和行人属性识别网络基于共享特征提取网络的方式联合训练得到;该方法包括:特征提取网络提取目标对象的特征信息;行人属性识别网络基于该特征信息,确定目标对象的属性。本发明可以使行人属性识别网络通过与行人再识别网络、行人姿态识别网络共享特征提取网络的方式而获取到更为丰富全面的特征信息,从而有效提升了属性识别的准确性和鲁棒性。
Description
技术领域
本发明涉及图像识别技术领域,尤其是涉及一种目标对象的属性识别方法及装置。
背景技术
行人属性识别技术能够识别出图片中行人的属性信息;其中,行人的属性信息可以包括性别、年龄、衣服颜色、是否背包等。行人属性识别技术通常采用的方法是:用SVM(support vector machine,支撑向量机)或者卷积神经网络训练若干二分类分类器来判断当前的目标是否有某个属性,或者确定一共需要判断哪些属性后,训练一个多分类分类器来判断这些属性。然而,发明人在研究过程中发现,利用上述常规方法进行的行人属性识别的过程中,容易受诸如人体姿态变化、人体部分遮挡等不利于属性识别的因素干扰,鲁棒性较差;此外,还存在数据缺乏等问题,都会导致行人属性识别的准确性较低。
发明内容
有鉴于此,本发明的目的在于提供一种目标对象的属性识别方法及装置,能够提升行人属性识别的准确性和鲁棒性。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种目标对象的属性识别方法,所述方法采用识别网络执行,所述识别网络包括特征提取网络,以及分别与所述特征提取网络相连的行人再识别网络、行人姿态识别网络和行人属性识别网络;所述识别网络的参数由所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络基于共享所述特征提取网络的方式联合训练得到;所述方法包括:所述特征提取网络提取所述目标对象的特征信息;所述行人属性识别网络基于所述特征信息,确定所述目标对象的属性。
进一步,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述方法还包括:基于共享特征提取网络的方式对所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络联合训练,直至所述识别网络的总损失函数值收敛至预设值,将所述总损失函数值收敛至预设值时对应的参数作为识别网络的参数。
进一步,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于共享所述特征提取网络的方式对所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络联合训练的步骤包括:将训练图片输入至所述特征提取网络,以使所述特征提取网络生成所述训练图片的特征图;将所述特征图输入至所述行人再识别网络,计算得到第一损失函数值;将所述特征图输入至所述行人姿态识别网络,计算得到第二损失函数值;将所述特征图输入至所述行人属性识别网络,计算得到第三损失函数值;根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值,确定总损失函数值;基于所述总损失函数值,通过反向传播算法对所述识别网络的参数进行训练。
进一步,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述将训练图片输入至所述特征提取网络的步骤,包括:从含有行人身份标签的第一数据集挑选三张图片,从含有行人骨架标签的第二数据集挑选一张图片,以及从含有行人属性标签的第三数据集挑选一张图片,将挑选的图片作为训练图片;其中,从所述第一数据集挑选的三张图片分别为参考图片、正样本图片和负样本图片。
进一步,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述将所述特征图输入至所述行人再识别网络,计算得到第一损失函数值的步骤,包括:将所述参考图片、所述正样本图片和所述负样本图片分别对应的特征图输入至所述行人再识别网络;通过三元组损失函数计算得到第一损失函数值。
进一步,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述将所述特征图输入至所述行人姿态识别网络,计算得到第二损失函数值的步骤,包括:将所述第二数据集挑选的图片对应的特征图输入至包括有M个骨架点对应分支的所述行人姿态识别网络,计算得到第二损失函数值;其中,所述第二损失函数值包括M个所述分支分别对应的损失函数值。
进一步,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述将所述特征图输入至所述行人属性识别网络,计算得到第三损失函数值的步骤,包括:将所述第三数据集挑选的图片对应的特征图输入至包括有N个属性对应子网络的所述行人属性识别网络,计算得到第三损失函数值;其中,所述第三损失函数值包括N个所述属性对应子网络分别对应的损失函数值;每个属性对应子网络还分别连接有属性分类器。
进一步,本发明实施例提供了第一方面的第八种可能的实施方式,其中,根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值,确定总损失函数值的步骤,包括:将所述第一损失函数值、所述第二损失函数值和所述第三损失函数值按照预设的权重比例求和,得到总损失函数值。
第二方面,本发明实施例还提供一种目标对象的属性识别装置,所述装置应用于识别网络,所述识别网络包括特征提取网络,以及分别与所述特征提取网络相连的行人再识别网络、行人姿态识别网络和行人属性识别网络;所述识别网络的参数为所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络基于共享所述特征提取网络的方式联合训练得到;所述装置包括:特征提取模块,用于通过所述特征提取网络提取所述目标对象的特征信息;属性确定模块,用于通过所述行人属性识别网络基于所述特征信息,确定所述目标对象的属性。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面任一项所述的方法的步骤。
本发明实施例提供了一种目标对象的属性识别方法及装置,由于识别网络的参数由行人再识别网络、行人姿态识别网络和行人属性识别网络基于共享特征提取网络的方式联合训练得到的,因此特征提取网络在基于联合训练所得的参数下,能够提取到可用于行人再识别、行人姿态识别和行人属性识别的较为丰富全面的特征信息,行人属性识别网络在基于该丰富的特征信息进行属性识别时,能够较好地提升属性识别的准确性和鲁棒性。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种电子设备的结构示意图;
图2示出了本发明实施例所提供的一种目标对象的属性识别方法流程图;
图3示出了本发明实施例所提供的一种识别网络的结构示意图;
图4示出了本发明实施例所提供的一种目标对象的属性识别装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前在单独采用行人属性识别技术对目标对象进行属性识别时,数据缺乏,抗干扰能力不强,属性识别的准确度不高。为了提高行人属性识别效果的鲁棒性和准确性,本发明实施例提供的一种目标对象的属性识别方法及装置,以下对本发明实施例进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的目标对象的属性识别方法及装置的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的目标对象的属性识别方法及装置的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。
实施例二:
参见图2所示的一种目标对象的属性识别方法流程图,该方法采用识别网络执行,该识别网络包括特征提取网络,以及分别与特征提取网络相连的行人再识别网络、行人姿态识别网络和行人属性识别网络;识别网络的参数由行人再识别网络、行人姿态识别网络和行人属性识别网络基于共享特征提取网络的方式联合训练得到;可以理解的是,识别网络的参数包括特征提取网络的参数、行人再识别网络的参数、行人姿态识别网络的参数和行人属性识别网络的参数。对识别网络进行训练的目的,是最终确定可满足要求的识别网络的各参数,也可以理解为是对识别网络的参数进行训练。利用已训练得到的参数,识别网络对目标对象的识别结果能够达到预期要求。
该方法包括如下步骤:
步骤S202,特征提取网络提取目标对象的特征信息。
由于特征提取网络的参数经由行人再识别网络、行人姿态识别网络和行人属性识别网络联合训练得到,因此,该特征提取网络可基于已训练得到的参数提取可用于对目标对象进行行人再识别、行人姿态识别和行人属性识别的较为全面的特征信息,该特征信息的内容更为丰富,数据量也更大。
步骤S204,行人属性识别网络基于上述特征信息,确定目标对象的属性。
利用训练所得的识别网络的参数,能够使行人再识别网络、行人姿态识别网络和行人属性识别网络之间通过特征提取网络传递共有的特征信息,也即可实现信息迁移。这种方式可以协助行人属性识别网络获取更丰富的特征信息,从而使行人属性识别网络利用丰富的特征信息确定的目标对象的属性的准确性更高,同时丰富的特征信息也可以有效降低因背景干扰等因素所带来的不良影响,进而提升了属性识别的鲁棒性。根据特征信息确定目标对象的属性的具体方式可以参照相关技术实现,在此不再赘述。
本实施例的上述方法中,由于识别网络的参数由行人再识别网络、行人姿态识别网络和行人属性识别网络基于共享特征提取网络的方式联合训练得到的,因此特征提取网络在基于联合训练所得的参数下,能够提取到可用于行人再识别、行人姿态识别和行人属性识别的较为丰富全面的特征信息,行人属性识别网络在基于该丰富的特征信息进行属性识别时,能够较好地提升属性识别的准确性和鲁棒性。
为便于理解,在此对行人属性识别网络能够获取到较为全面的特征信息给出一种表层意义上的解释:以目标图像是行人为例进行说明,在行人再识别中,通常考虑整张行人图片的特征,而部分需要识别的行人属性(例如性别、年龄等)也是考虑了整体特征,由于信息层次相同,且行人再识别网络和行人属性识别网络共享特征提取网络,使得特征提取网络中的信息的迁移传递更加有效;行人姿态识别中通常提取到行人的局部特征,而部分行人属性(例如头发长短、衣着类型等)也为局部特征,此类行人属性特征与行人姿态识别任务中的局部特征,信息层次相同,且行人姿态识别网络和行人属性识别网络共享特征提取网络,同样较好地实现了特征提取网络中的信息传递迁移,因而行人属性识别网络能够通过特征提取网络较为方便地获取到全面丰富的特征信息。基于共享特征提取网络的方式,行人属性识别网络能够利用用于其它任务(行人再识别、行人姿态识别)的特征信息对目标对象进行属性识别,准确性得以增强。
为便于理解,参见图3所示的一种识别网络的结构示意图,分别示出了特征提取网络1、以及与特征提取网络1相连的行人再识别网络2、行人姿态识别网络3和行人属性识别网络4。
其中,特征提取网络包括一层或多层卷积神经网络,可用于提取包含有目标对象的图片的特征。具体的,卷积神经网络是一种前馈神经网络,由若干卷积单元组成。每个卷积单元可以响应一部分覆盖范围内的周围单元。每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征。例如,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。这些特征类似于热力图,对于一张图像,经过卷积网络提取的特征,是一个三维张量X。该三维张量的三个维度分别代表横向,纵向和频道。不同于一些其他方法,人为定义图像的特征,该三维张量X是由卷积神经网络自动提取的。对于该卷积网络的参数可以进行随机初始化,也可以利用之前已经训练好的网络进行初始化,如VGG,ResNet等。对于这些已有的网络,我们可以选取其中的部分网络作为识别网络的一部分,也可以固定部分网络不参与训练;也即不再训练过程中改变该部分网络的参数值。
现有技术中,只是利用行人属性识别网络进行属性识别,具体的,如果设定N个属性,也就是行人属性识别网络包括N个卷积神经网络,则图片直接进入N个卷积神经网络,而本发明实施例采用行人再识别网络、行人姿态识别网络和行人属性识别网络联合训练、共享特征的方式,因此对于本发明实施例中的特征图会进入(N+2)个卷积神经网络。
为了使识别网络可以直接应用于对目标对象的属性识别,输出较为可靠准确的结果,需要事先训练该识别网络,具体的,上述目标对象的属性识别方法还包括对识别网络的训练过程,具体可以为:基于共享特征提取网络的方式对行人再识别网络、行人姿态识别网络和行人属性识别网络联合训练,直至识别网络的总损失函数值收敛至预设值,确定总损失函数值收敛至预设值时对应的参数作为识别网络的参数。图3所示的特征提取网络1中的share(共享)也表示了各神经网络之间提取的特征信息或数据之间的共享。
如果单独训练行人属性识别网络,由于数据量少,导致准确率较低,且抗干扰能力弱。而上述基于特征共享的方式,对行人再识别任务、行人姿态识别任务和行人属性识别任务进行联合训练,能够将行人再识别任务和行人姿态识别任务得到的特征信息进行信息迁移,也即行人再识别网络、行人姿态识别网络和行人属性识别网络之间传递共有的信息特征,可以协助训练数据较少的行人属性识别任务,丰富行人属性识别中的数据量,且行人再识别的数据标签可以只需要行人ID,数据标注简单便捷,在有限成本内标注的数据量较多。数量较多的丰富数据量可以显著提高行人属性识别效果的准确性。
而且在行人再识别和行人姿态识别的过程中会有大量训练数据,大量的训练数据中包含有环境干扰的图片,则在训练这些数据后,识别网络会对干扰表现的更为鲁棒,提升了属性识别过程的抗干扰性能。
况且,上述三个任务可以共享识别网络中的部分网络结构,在训练和应用过程中,与分别训练相比,也可以较好地减缓显存负担。
为了便于理解,本实施例给出一种基于特征提取网络共享的方式对识别网络进行训练的具体实施方式,其步骤可以参照如下所示:
(1)将训练图片输入至特征提取网络,以使特征提取网络生成训练图片的特征图。
具体的,可以从含有行人身份标签的第一数据集挑选三张图片,从含有行人骨架标签的第二数据集挑选一张图片,以及从含有行人属性标签的第三数据集挑选一张图片,将挑选的图片作为训练图片;其中,从第一数据集挑选的三张图片分别为参考图片、正样本图片和负样本图片。正样本图片中包含的目标对象与参考图片中包含的目标对象相同,负样本图片中包含的目标对象与参考图片中包含的目标对象不同。参考图片、正样本图片和负样本图片构成一个三元组。图3也示意出了从含有行人身份标签的第一数据集挑选的参考图片I、正样本图片I+和负样本图片I-,以及从含有行人骨架标签的第二数据集挑选的图片S,还有从含有行人属性标签的第三数据集挑选的图片A一共5张图片为一测试组,作为训练图片输入至识别网络进行训练。
(2)将特征图输入至行人再识别网络,计算得到第一损失函数值。
具体的,将参考图片、正样本图片和负样本图片分别对应的特征图输入至行人再识别网络;通过三元组损失函数计算得到第一损失函数值。在实际应用中,以目标对象是张三为例说明,参考图片为张三的一张照片,正样本为张三的另一张照片,负样本图片为李四的一张照片。在经由行人再识别网络得到各特征图的特征向量后,尽量使得参考图片的特征向量F1与正样本图片的特征向量F2之间的距离d12尽可能小,而参考图片的特征向量F1与负样本图片的特征向量F3之间的距离d13尽可能大;因此三元组损失函数可以设定为:
L1=max(d12-d13+margin,0)
其中,margin可以为预设常数,用于控制需要参与训练的样本难度。
(3)将特征图输入至行人姿态识别网络,计算得到第二损失函数值。
具体的,可以将第二数据集挑选的图片对应的特征图输入至包括有M个骨架点对应分支的行人姿态识别网络,计算得到第二损失函数值;其中,第二损失函数值包括M个分支分别对应的损失函数值。
在实际中,行人姿态识别网络可以是全卷积网络。设定行人骨架的点的个数为M,则行人姿态识别网络包括M个分支,对于输入的特征图经过各个分支后,每个分支都会得到新的特征图,代表对于分支的骨架点的位置信息,而真实标签则是以这个点的坐标为中心填满正值(1)的圆,其余点填满负值(0)的特征图。则第i个骨架点对应的特征图pred和真实标签label的距离算出的损失函数L2_i。每个分支得到的新特征图可以直接和获知的相同大小的标签图算距离。为了便于理解,进一步解释如下:
特征图pred可以是一个二维矩阵,其中每个点的大小为0-1,是网络预测出来的数。标签label也是一个二维矩阵,其中的每个点是我们标记的0或者1,两者的距离计算方式可以自行设定,诸如,损失函数选用squared loss(平方损失),该函数可以为sum((pred-labe)**2)。
在标注的时候,已知一个人骨架点(例如17个骨架点)的坐标,如果仅仅标记坐标所在的那个点为1,其余所有点为0,在计算距离时,标记点所占的权重就会特别小,这样网络就难以学习该位置信息。而采用标记以标记点为中心的圆圈的方式就相当于在它附近的点也会贡献正样本的比例,方便网络学习。而相同大小的标签图是指特征图和标签图的长宽分别对应相同。一般经过卷积网络中还会有下采样层会使特征图变小,不再和原图尺寸相同,但是标签图是根据原图坐标生成的,所以为了使图片大小一致,可以采取相应的措施,诸如对特征图进行上采样,或者把标签图缩小为特征图大小。具体可参照相关技术实现,在此不再赘述。
通过上述方式,可以较为准确可靠的第二损失函数值。具体的,每个分支都对应一个损失函数值,假设第i个分支对应的损失函数值为L2_i;有M个分支,所以第二损失函数值包括从L2_1至L2_m。如图3所示的CNN1至CNNm,M个分支分别得到L2_1至L2_m共M个损失函数。
(4)将特征图输入至行人属性识别网络,计算得到第三损失函数值。
具体的,可以将第三数据集挑选的图片对应的特征图输入至包括有N个属性对应子网络的行人属性识别网络,计算得到第三损失函数值;其中,第三损失函数值包括N个属性对应子网络分别对应的损失函数值;每个属性对应子网络还分别连接有属性分类器。
其中,属性分类器可以是二分类器,用于判断是否存在该子网络对应的属性值;特征图分别经由N个属性识别子网络,经各属性分类器识别后,确定对应的损失函数值。假设第i个分类器的第i个分类器的损失函数为L3_i(predi,labeli),其中,损失函数可以采用cross_encropy(互熵)、欧氏距离等设定。行人属性识别网络有N个子网络,所以第二损失函数值包括从L3_1至L3_n。如图3所示的CNN1至CNNn,每个子网络也都连接有属性分类器FC,之后示出了L3_1至L3_n共N个损失函数。
(5)根据第一损失函数值、第二损失函数值和第三损失函数值,确定总损失函数值。
具体的,可以将第一损失函数值、第二损失函数值和第三损失函数值按照预设的权重比例求和,得到总损失函数值。
第一损失函数为L1,第二损失函数包括L2_1至L2_m共M个损失函数,第三损失函数包括L3_1至L3_n共N个损失函数,因此总损失函数可以包括(1+M+N)个损失函数按照预设权重求和。
(6)基于总损失函数值,通过反向传播算法对识别网络的参数进行训练。整个网络通过大量样本数据,以降低总损失函数为目标,利用反向传播算法来训练卷积神经网络中的各个参数,当总损失函数收敛至预设值时,则将总损失函数收敛至预设值时对应的参数作为识别网络的参数,此时设定该参数的识别网络为已训练的识别网络,可以直接用于对图片进行属性识别,将该识别网络的包含有N个子网络的属性识别网络的输出作为该张图片的属性值,作为较为准确可靠的属性识别结果。
应当注意的是,上述步骤(2)(3)(4)之间没有时序关系,执行顺序可以互换,或者同时执行。
基于上述已训练的识别网络对目标对象进行属性识别,可以使行人属性识别网络通过与行人再识别网络、行人姿态识别网络共享的特征提取网络获取到较为丰富全面的特征信息,也可以理解为,行人再识别网络和行人姿态识别网络通过特征提取网络进行信息迁移,协助数据量较少的行人属性识别网络获取较多的特征信息,进而对目标对象进行较为准确可靠的属性识别。
综上所述,本实施例提供的目标对象的属性识别方法,可以较好地提升属性识别的鲁棒性以及准确性。
实施例三:
对于实施例二中所提供的目标对象的属性识别方法,本发明实施例提供了一种目标对象的属性识别装置,该装置应用于识别网络,该识别网络包括特征提取网络,以及分别与特征提取网络相连的行人再识别网络、行人姿态识别网络和行人属性识别网络;识别网络的参数由行人再识别网络、行人姿态识别网络和行人属性识别网络基于共享特征提取网络的方式联合训练得到。关于识别网络的详细解释可参见前述实施例所述。
参见图4所示的一种目标对象的属性识别装置的结构框图,该装置包括以下模块:
特征提取模块402,用于通过所述特征提取网络提取所述目标对象的特征信息。
属性确定模块404,用于通过所述行人属性识别网络基于所述特征信息,确定所述目标对象的属性。
本实施例的上述装置中,由于识别网络的参数由行人再识别网络、行人姿态识别网络和行人属性识别网络基于共享特征提取网络的方式联合训练得到的,因此特征提取网络在基于联合训练所得的参数下,能够提取到可用于行人再识别、行人姿态识别和行人属性识别的较为丰富全面的特征信息,行人属性识别网络在基于该特征信息进行属性识别时,能够较好地提升属性识别的准确性和鲁棒性。
上述装置还包括:
网络训练模块,用于基于共享特征提取网络的方式对行人再识别网络、行人姿态识别网络和行人属性识别网络联合训练,直至识别网络的总损失函数值收敛至预设值,确定总损失函数值收敛至预设值时对应的参数作为识别网络的参数。
进一步,上述网络训练模块还包括:
特征图生成单元,用于将训练图片输入至特征提取网络,以使特征提取网络生成训练图片的特征图;
第一损失函数得到单元,用于将特征图输入至行人再识别网络,计算得到第一损失函数值;
第二损失函数得到单元,用于将特征图输入至行人姿态识别网络,计算得到第二损失函数值;
第三损失函数得到单元,用于将特征图输入至行人属性识别网络,计算得到第三损失函数值;
总损失函数得到单元,用于根据第一损失函数值、第二损失函数值和第三损失函数值,确定总损失函数值;
训练单元,用于基于总损失函数值,通过反向传播算法对识别网络的参数进行训练。
进一步,上述特征图生成单元还用于:从含有行人身份标签的第一数据集挑选三张图片,从含有行人骨架标签的第二数据集挑选一张图片,以及从含有行人属性标签的第三数据集挑选一张图片,将挑选的图片作为训练图片;其中,从第一数据集挑选的三张图片分别为参考图片、正样本图片和负样本图片。
第一损失函数得到单元还用于:将参考图片、正样本图片和负样本图片分别对应的特征图输入至行人再识别网络;通过三元组损失函数计算得到第一损失函数值。
第二损失函数得到单元还用于:将第二数据集挑选的图片对应的特征图输入至包括有M个骨架点对应分支的行人姿态识别网络,计算得到第二损失函数值;其中,第二损失函数值包括M个分支分别对应的损失函数值。
第三损失函数得到单元还用于:将第三数据集挑选的图片对应的特征图输入至包括有N个属性对应子网络的行人属性识别网络,计算得到第三损失函数值;其中,第三损失函数值包括N个子网络分别对应的损失函数值;每个属性对应子网络还分别连接有属性分类器。
总损失函数得到单元还用于:将第一损失函数值、第二损失函数值和第三损失函数值按照预设的权重比例求和,得到总损失函数值。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
此外,本实施例提供了一种电子设备,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述方法实施例提供的方法的步骤。
进一步,本实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行前述方法实施例提供的方法的步骤。
本发明实施例所提供的一种目标对象的属性识别方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种目标对象的属性识别方法,其特征在于,所述方法采用识别网络执行,所述识别网络包括特征提取网络,以及分别与所述特征提取网络相连的行人再识别网络、行人姿态识别网络和行人属性识别网络;所述识别网络的参数由所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络基于共享所述特征提取网络的方式联合训练得到;
所述方法包括:
所述特征提取网络提取所述目标对象的特征信息;
所述行人属性识别网络基于所述特征信息,确定所述目标对象的属性;
所述方法还包括:基于共享所述特征提取网络的方式对所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络联合训练,直至所述识别网络的总损失函数值收敛至预设值,将所述总损失函数值收敛至预设值时对应的参数作为识别网络的参数;
所述基于共享所述特征提取网络的方式对所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络联合训练的步骤包括:将训练图片输入至所述特征提取网络,以使所述特征提取网络生成所述训练图片的特征图;将所述特征图输入至所述行人再识别网络,计算得到第一损失函数值;将所述特征图输入至所述行人姿态识别网络,计算得到第二损失函数值;将所述特征图输入至所述行人属性识别网络,计算得到第三损失函数值;根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值,确定总损失函数值;基于所述总损失函数值,通过反向传播算法对所述识别网络的参数进行训练。
2.根据权利要求1所述的方法,其特征在于,所述将训练图片输入至所述特征提取网络的步骤,包括:
从含有行人身份标签的第一数据集挑选三张图片,从含有行人骨架标签的第二数据集挑选一张图片,以及从含有行人属性标签的第三数据集挑选一张图片,将挑选的图片作为训练图片;其中,从所述第一数据集挑选的三张图片分别为参考图片、正样本图片和负样本图片。
3.根据权利要求2所述的方法,其特征在于,所述将所述特征图输入至所述行人再识别网络,计算得到第一损失函数值的步骤,包括:
将所述参考图片、所述正样本图片和所述负样本图片分别对应的特征图输入至所述行人再识别网络;
通过三元组损失函数计算得到第一损失函数值。
4.根据权利要求2所述的方法,其特征在于,所述将所述特征图输入至所述行人姿态识别网络,计算得到第二损失函数值的步骤,包括:
将所述第二数据集挑选的图片对应的特征图输入至包括有M个骨架点对应分支的所述行人姿态识别网络,计算得到第二损失函数值;其中,所述第二损失函数值包括M个所述分支分别对应的损失函数值。
5.根据权利要求2所述的方法,其特征在于,所述将所述特征图输入至所述行人属性识别网络,计算得到第三损失函数值的步骤,包括:
将所述第三数据集挑选的图片对应的特征图输入至包括有N个属性对应子网络的所述行人属性识别网络,计算得到第三损失函数值;其中,所述第三损失函数值包括N个所述属性对应子网络分别对应的损失函数值;每个属性对应子网络还分别连接有属性分类器。
6.根据权利要求1所述的方法,其特征在于,根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值,确定总损失函数值的步骤,包括:
将所述第一损失函数值、所述第二损失函数值和所述第三损失函数值按照预设的权重比例求和,得到总损失函数值。
7.一种目标对象的属性识别装置,其特征在于,所述装置应用于识别网络,所述识别网络包括特征提取网络,以及分别与所述特征提取网络相连的行人再识别网络、行人姿态识别网络和行人属性识别网络;所述识别网络的参数由所述行人再识别网络、所述行人姿态识别网络和所述行人属性识别网络基于共享所述特征提取网络的方式联合训练得到;
所述装置包括:
特征提取模块,用于通过所述特征提取网络提取所述目标对象的特征信息;
属性确定模块,用于通过所述行人属性识别网络基于所述特征信息,确定所述目标对象的属性;
所述装置还包括:网络训练模块,用于基于共享特征提取网络的方式对行人再识别网络、行人姿态识别网络和行人属性识别网络联合训练,直至识别网络的总损失函数值收敛至预设值,确定总损失函数值收敛至预设值时对应的参数作为识别网络的参数;
所述网络训练模块还包括:特征图生成单元,用于将训练图片输入至特征提取网络,以使特征提取网络生成训练图片的特征图;第一损失函数得到单元,用于将特征图输入至行人再识别网络,计算得到第一损失函数值;第二损失函数得到单元,用于将特征图输入至行人姿态识别网络,计算得到第二损失函数值;第三损失函数得到单元,用于将特征图输入至行人属性识别网络,计算得到第三损失函数值;总损失函数得到单元,用于根据第一损失函数值、第二损失函数值和第三损失函数值,确定总损失函数值;训练单元,用于基于总损失函数值,通过反向传播算法对识别网络的参数进行训练。
8.一种电子设备,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710983033.6A CN107704838B (zh) | 2017-10-19 | 2017-10-19 | 目标对象的属性识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710983033.6A CN107704838B (zh) | 2017-10-19 | 2017-10-19 | 目标对象的属性识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704838A CN107704838A (zh) | 2018-02-16 |
CN107704838B true CN107704838B (zh) | 2020-09-25 |
Family
ID=61182897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710983033.6A Active CN107704838B (zh) | 2017-10-19 | 2017-10-19 | 目标对象的属性识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704838B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875932A (zh) * | 2018-02-27 | 2018-11-23 | 北京旷视科技有限公司 | 图像识别方法、装置和系统及存储介质 |
CN108427939B (zh) * | 2018-03-30 | 2022-09-23 | 百度在线网络技术(北京)有限公司 | 模型生成方法和装置 |
CN108921051B (zh) * | 2018-06-15 | 2022-05-20 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
CN108920924B (zh) * | 2018-06-20 | 2022-05-03 | 中电万维信息技术有限责任公司 | 一种基于人脸识别的数据共享方法 |
CN109063607B (zh) * | 2018-07-17 | 2022-11-25 | 北京迈格威科技有限公司 | 用于重识别的损失函数确定的方法及装置 |
CN109214271B (zh) * | 2018-07-17 | 2022-10-18 | 北京迈格威科技有限公司 | 用于重识别的损失函数确定的方法及装置 |
CN109117753B (zh) * | 2018-07-24 | 2021-04-20 | 广州虎牙信息科技有限公司 | 部位识别方法、装置、终端及存储介质 |
CN109145766B (zh) * | 2018-07-27 | 2021-03-23 | 北京旷视科技有限公司 | 模型训练方法、装置、识别方法、电子设备及存储介质 |
CN109165589B (zh) * | 2018-08-14 | 2021-02-23 | 北京颂泽科技有限公司 | 基于深度学习的车辆重识别方法和装置 |
CN109409250A (zh) * | 2018-10-08 | 2019-03-01 | 高新兴科技集团股份有限公司 | 一种基于深度学习的无交叠视域跨摄像机行人再识别方法 |
CN111079479A (zh) | 2018-10-19 | 2020-04-28 | 北京市商汤科技开发有限公司 | 小孩状态分析方法和装置、车辆、电子设备、存储介质 |
CN111435432B (zh) | 2019-01-15 | 2023-05-26 | 北京市商汤科技开发有限公司 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
CN109886154A (zh) * | 2019-01-30 | 2019-06-14 | 电子科技大学 | 基于Inception V3的多数据集联合训练的行人外观属性识别方法 |
CN110096947A (zh) * | 2019-03-15 | 2019-08-06 | 昆明理工大学 | 一种基于深度学习的行人再识别算法 |
CN110378278B (zh) * | 2019-07-16 | 2021-11-02 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、对象搜索方法、装置以及电子设备 |
CN110569779B (zh) * | 2019-08-28 | 2022-10-04 | 西北工业大学 | 基于行人局部和整体属性联合学习的行人属性识别方法 |
CN111091835B (zh) * | 2019-12-10 | 2022-11-29 | 携程计算机技术(上海)有限公司 | 模型训练的方法、声纹识别的方法、系统、设备及介质 |
CN111178403B (zh) * | 2019-12-16 | 2023-10-17 | 北京迈格威科技有限公司 | 训练属性识别模型的方法、装置、电子设备及存储介质 |
CN111178251B (zh) * | 2019-12-27 | 2023-07-28 | 汇纳科技股份有限公司 | 一种行人属性识别方法及系统、存储介质及终端 |
CN111274216B (zh) * | 2020-01-09 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 无线局域网的识别方法、识别装置、存储介质及电子设备 |
CN111259786B (zh) * | 2020-01-14 | 2022-05-03 | 浙江大学 | 一种基于视频的外观和运动信息同步增强的行人重识别方法 |
CN111339991A (zh) * | 2020-03-12 | 2020-06-26 | 北京爱笔科技有限公司 | 一种人体属性识别方法及装置 |
CN112036487A (zh) * | 2020-08-31 | 2020-12-04 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN114387633A (zh) * | 2020-10-19 | 2022-04-22 | 北京澎思科技有限公司 | 面部属性识别方法、装置和计算机可读存储介质 |
CN114877820B (zh) * | 2021-03-22 | 2023-06-02 | 重庆交通大学 | 基于不利诱因识别的高桩码头基桩监测方法 |
CN114445683A (zh) * | 2022-01-29 | 2022-05-06 | 北京百度网讯科技有限公司 | 属性识别模型训练、属性识别方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294998A (zh) * | 2013-05-22 | 2013-09-11 | 合肥工业大学 | 一种基于属性空间的人脸可视化特征表征方法 |
KR20150066799A (ko) * | 2013-12-09 | 2015-06-17 | 현대자동차주식회사 | 보행자 인식 장치 및 그의 처리 방법과 이를 지원하는 차량 |
CN105518744A (zh) * | 2015-06-29 | 2016-04-20 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
CN105976400A (zh) * | 2016-05-10 | 2016-09-28 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN106778527A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于三重损失的改进的神经网络行人再识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140169624A1 (en) * | 2012-12-14 | 2014-06-19 | Hyundai Motor Company | Image based pedestrian sensing apparatus and method |
-
2017
- 2017-10-19 CN CN201710983033.6A patent/CN107704838B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294998A (zh) * | 2013-05-22 | 2013-09-11 | 合肥工业大学 | 一种基于属性空间的人脸可视化特征表征方法 |
KR20150066799A (ko) * | 2013-12-09 | 2015-06-17 | 현대자동차주식회사 | 보행자 인식 장치 및 그의 처리 방법과 이를 지원하는 차량 |
CN105518744A (zh) * | 2015-06-29 | 2016-04-20 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
CN105976400A (zh) * | 2016-05-10 | 2016-09-28 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN106778527A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于三重损失的改进的神经网络行人再识别方法 |
Non-Patent Citations (1)
Title |
---|
多特征融合与独立测度学习的行人再识别;齐美彬等;《中国图像图形学报》;20161130;第1464-1471页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107704838A (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704838B (zh) | 目标对象的属性识别方法及装置 | |
US10936911B2 (en) | Logo detection | |
CN110555481B (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN112200062B (zh) | 一种基于神经网络的目标检测方法、装置、机器可读介质及设备 | |
US11816880B2 (en) | Face recognition method and apparatus, computer device, and storage medium | |
US20200151849A1 (en) | Visual style transfer of images | |
CN112232293A (zh) | 图像处理模型训练、图像处理方法及相关设备 | |
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
WO2019011249A1 (zh) | 一种图像中物体姿态的确定方法、装置、设备及存储介质 | |
CN109816769A (zh) | 基于深度相机的场景地图生成方法、装置及设备 | |
CN111670457A (zh) | 动态对象实例检测、分割和结构映射的优化 | |
CN111667001B (zh) | 目标重识别方法、装置、计算机设备和存储介质 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
CN114511041B (zh) | 模型训练方法、图像处理方法、装置、设备和存储介质 | |
US11436804B2 (en) | Augmented reality system | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
WO2022179603A1 (zh) | 一种增强现实方法及其相关设备 | |
CN113822965A (zh) | 图像渲染处理方法、装置和设备及计算机存储介质 | |
KR102637342B1 (ko) | 대상 객체를 추적하는 방법과 장치 및 전자 장치 | |
US20160086365A1 (en) | Systems and methods for the conversion of images into personalized animations | |
CN112308977B (zh) | 视频处理方法、视频处理装置和存储介质 | |
CN117252791A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN112528978B (zh) | 人脸关键点的检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |