CN109697395A - 物体属性预测方法、装置及设备 - Google Patents
物体属性预测方法、装置及设备 Download PDFInfo
- Publication number
- CN109697395A CN109697395A CN201711001059.2A CN201711001059A CN109697395A CN 109697395 A CN109697395 A CN 109697395A CN 201711001059 A CN201711001059 A CN 201711001059A CN 109697395 A CN109697395 A CN 109697395A
- Authority
- CN
- China
- Prior art keywords
- attribute
- network
- sub
- forecast
- thingness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000001373 regressive effect Effects 0.000 claims abstract description 113
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000010276 construction Methods 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims description 135
- 238000012549 training Methods 0.000 claims description 85
- 239000000284 extract Substances 0.000 claims description 66
- 238000013527 convolutional neural network Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 210000004218 nerve net Anatomy 0.000 claims 5
- 238000000547 structure data Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 51
- 238000005516 engineering process Methods 0.000 abstract description 11
- 210000004209 hair Anatomy 0.000 description 31
- 238000010586 diagram Methods 0.000 description 18
- 238000013135 deep learning Methods 0.000 description 14
- 210000002569 neuron Anatomy 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 210000003128 head Anatomy 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 241000220645 Leonotis nepetifolia Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 241000883966 Astrophytum capricorne Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000283220 Odobenus rosmarus Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/179—Human faces, e.g. facial parts, sketches or expressions metadata assisted face recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术,具体涉及一种物体属性预测方法、装置和设备,以及一种物体属性预测模型构建方法、装置和设备,以解决现有技术存在的预测准确率较低且计算资源消耗较多的问题。利用共享特征抽取网络将所有属性放在一起进行特征抽取,在特征抽取网络后,又根据有序属性和无序属性的划分标准,将不同类别的属性分别放到分类结构和回归结构的属性预测网络进行处理,不同结构的属性预测网络采用不同的损失函数。通过本发明提供的方案,不仅充分利用属性间的相关性,实现高效的多属性特征共享,挖掘出更有效的特征,而且充分利用属性间的异质性,实现对有序属性和无序属性分而治之的属性预测,从而可以提高预测准确率且节省计算资源。
Description
技术领域
本发明实施例涉及计算机视觉领域,尤其涉及一种物体属性预测方法、装置和设备,以及一种物体属性预测模型构建方法、装置和设备。
背景技术
人的属性检测技术,是指对于任意一幅给定的人的图像,利用图像上显示的细节特征,来确定人的属性,例如,性别、年龄、种族、身高等属性。在检测出人的属性后,可实现人像的筛选、分类、检索乃至身份识别等功能。
目前,人的属性检测技术通常采用基于深度学习框架的人的属性预测方法实现。在基于深度学习框架的人的属性预测方法中,一种典型的技术方案是:首先,通过属性编码技术将训练样本的有序属性(如年龄或身高等)转换为无序属性;然后,采用多任务学习方式从训练样本中学习获得人的属性预测模型;最后,使用该模型预测人的属性。采用该方案获得的人的属性预测模型具有如下优点:可同时预测多个有序属性和多个无序属性,模型复杂度与属性数量无关,特征学习与分类器学习可联合调优。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:1)预测模型采用分类神经网络结构,将有序属性和无序属性作为同类任务进行处理,利用相同的损失函数(如softmax损失函数)计算有序属性和无序属性的损失,因此预测准确率较低;2)模型训练前需要对每个训练样本的有序属性进行编码,以将有序属性转换为无序属性,且在属性预测前需要通过相同的属性编码方式将有序属性转换为无序属性,在属性预测后需要通过对应的属性解码方式将有序属性对应的分类结果转换为有序值,因此消耗了较多的计算资源。
发明内容
本发明实施例提供了一种物体属性预测方法和一种物体属性预测模型构建方法,以及相应的装置和设备,以解决现有技术存在的预测准确率较低且计算资源消耗较多的问题。
第一方面,本发明实施例提供了一种物体属性预测方法,可用于生物体(如人,动物等)或非生物体(如服饰等)等各种物体的属性预测。方法的执行主体包括物体属性预测装置,物体属性预测装置首先获取待预测的物体图像,然后,再将该物体图像作为预先生成的物体属性预测模型中输入层的数据,获取该物体图像的属性的预测值,其中,通过所述物体属性预测模型中第一共有特征抽取子网络,抽取该物体图像的第一共有特征,所述第一共有特征为包含有序属性和无序属性的特征,所述第一共有特征为所述物体属性预测模型中至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络的输入数据,通过所述物体属性预测模型中所述至少一个回归结构的属性预测子网络,获取该物体图像的所有所述有序属性的预测值,通过所述物体属性预测模型中所述至少一个分类结构的属性预测子网络预测,获取该物体图像的所有所述无序属性的预测值。
其中,所述有序属性为不同属性值之间具有顺序关系的属性,如年龄(0-100岁)、身高(90-230厘米)为有序属性。所述无序属性为不同属性值之间不具有顺序关系的属性,如性别(男或女)、种族(白种、黄种或黑种)为无序属性。由于性别、种族和视角等属性的不同取值之间不存在顺序关系,取值范围较小,而年龄和身高等属性的不同取值之间存在顺序关系,取值范围较大;因此,本发明实施例提供的方案,将属性分为有序属性和无序属性,由不同结构的属性预测子网络分别处理,将不同结构的属性预测子网络可预测的属性之间的间隔扩大,同一属性结构的属性预测子网络可预测的属性之间的间隔缩小,即扩大类间间距和缩小类内间距。
需要说明的是,一些属性既可以作为有序属性,也可以作为无序属性,例如,属性取值设置为短发、中长发、长发等的头发长度属性,或者,属性取值设置为儿童、中青年、老年等的年龄属性。一方面,由于该类属性的不同属性值之间具有一定的顺序关系(短发长度<中长发长度<长发长度,儿童年龄<中青年年龄<老年年龄),因此可将该属性作为有序属性;另一方面,这些属性值又是不同的分类结果,属性取值范围较小,因此也可将该属性作为无序属性。具体实施时,可根据实际需求将这类属性作为有序属性或无序属性。
所述第一共有特征为包含有序属性和无序属性的特征,即所述物体属性预测模型可预测的所有属性的特征,每一个属性均将依据这些特征进行预测,也就是说,这些特征被所有属性共享(共有)。所述第一共有特征抽取子网络被所有属性共用,在通过所述第一共有特征抽取子网络抽取出所述第一共有特征后,各个属性预测子网络将根据这些特征对该预测子网络可预测的所有属性进行预测。
通过本发明实施例提供的方案,利用第一共有特征抽取子网络将所有属性放在一起进行特征抽取,在第一共有特征抽取子网络后,又根据有序属性和无序属性的划分标准,将不同属性值类别的属性分别放到分类结构和回归结构的属性预测子网络进行处理,不同结构的属性预测子网络采用不同的损失函数;这种处理方式,同时考虑属性相关性和属性异质性;在属性相关性方面,体现在利用多任务学习挖掘所有属性的相关性,实现高效的多属性特征共享;在属性异质性方面,利用回归结构的分支网络处理有序属性,利用分类结构的分支网络处理无序属性,实现对有序属性和无序属性分而治之的属性预测;因此,可以有效提高有序属性和无序属性的预测准确率。同时,由于无需对有序属性进行编解码处理;因此,可以有效减少计算资源的消耗。
此外,采用本发明实施例提供的方案,还具有以下有益效果:1)对所有属性只学习一个完整的神经网络,所有属性通过一个模型进行预测,只是在属性预测阶段划分两个或多个子网络,模型复杂度与属性数量无关,即使属性数量非常多,仍具有较低的模型复杂度,因此模型可扩展性高,且可操作性高,易于训练和测试;2)由于采用深度学习方法,不依赖人工设计的特征,因此可自动对所有属性学习最优的特征;3)可利用海量数据进行训练模型,从而提升模型的泛化能力以及准确度;4)可将特征抽取与属性预测进行联合调优,因此模型准确度高,且形成端到端的模型。
结合第一方面,在第一方面第一种可能的实现方式中,所述方法还包括:获取标注有多个属性的属性值的多个训练用物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括有序属性类或无序属性类;根据所述多个属性和各个属性的属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述回归结构的属性预测子网络用于预测至少一个所述有序属性,所述分类结构的属性预测子网络用于预测至少一个所述无序属性;根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
结合第一方面第一种可能的实现方式,在第一方面第二种可能的实现方式中,所述根据所述多个训练用物体图像及所述属性值,并对所述深度神经网络进行训练,以得到所述物体属性预测模型,包括:将所述训练用物体图像作为所述深度神经网络中输入层的数据,通过所述第一共有特征抽取子网络从所述训练用物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述训练用物体图像的所有所述有序属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述训练用物体图像的所有所述无序属性的预测值;获取所有所述训练用物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型;否则,调整所述深度神经网络的连接权重参数,并对调整后的深度神经网络进行训练。
结合第一方面第一种可能的实现方式或第二种可能的实现方式,在第一方面第三种可能的实现方式中,所述根据所述多个属性和所述属性值类别,并构建深度神经网络,包括:获取所述属性所属的属性集合;针对各个所述属性集合,构建与所述属性集合内所有所述有序属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述无序属性对应的所述分类结构的属性预测子网络。
当所有属性同属于一个属性集合时,所述至少一个回归结构的属性预测子网络的数量为一个,所述回归结构的属性预测子网络用于预测所有有序属性;所述至少一个分类结构的属性预测子网络的数量为一个,所述分类结构的属性预测子网络用于预测所有无序属性。这种情况下,所述深度神经网络只有两个属性预测子网络,因此模型复杂度最低。
当所有属性分属于多个属性集合时,所述至少一个回归结构的属性预测子网络的数量可为所述属性集合的数量,每个所述回归结构的属性预测子网络用于预测与该子网络对应的所述属性集合下所有有序属性;所述至少一个分类结构的属性预测子网络的数量可为所述属性集合的数量,每个所述分类结构的属性预测子网络用于预测与该子网络对应的所述属性集合下所有无序属性。采用本实现方式,使得不同属性集合的属性通过不同的属性预测子网络进行属性预测,由于属性分组更细致,相应的分支网络(属性预测子网络)对第一共有特征进行微调时,将更有针对性,从而可以有效提高预测准确率。需要注意的是,如果属性集合过多,也会导致网络计算复杂度的提升。
所述属性集合可以是根据单一维度的属性类别划分形成的属性集合,例如,将所有属性划分为两个集合:全局属性的第一集合和局部属性的第二集合,或者头部属性的第一集合和身体属性的第二集合等。所述属性集合还可以是根据多维度属性类别组合划分形成的属性集合。
其中,全局属性包括表示物体整体特征的属性,例如,年龄、身高、性别、种族等属性为全局属性。局部属性包括表示物体局部特征的属性,例如,发型、眼镜、胡子形状等属性为局部属性。
头部属性包括人体头部特征的属性,例如,发型、胡子形状、眼镜、表情等属性为头部属性。身体属性包括人体头部以外特征的属性,例如,驼背、腿长等属性为身体属性。
结合第一方面第一种可能的实现方式、第二种可能的实现方式或第三种可能的实现方式,在第一方面第四种可能的实现方式中,所述根据所述多个训练用物体图像及所述属性值,并对所述深度神经网络进行训练,以得到物体属性预测模型,采用如下训练目标函数:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个训练用物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个训练用物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个训练用物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,l(yi *g,j,f(xi g,j;wg ,j))是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
所述属性预测误差的权重表示属性的重要性。属性的误差权重越高,则属性的预测准确率越高。通过实验表明,如果所述深度神经网络只包括两个不同结构(分类结构和回归结构)的属性预测子网络,则不同的误差权重组合对属性预测性能基本不会产生影响。这种情况下,两个分支产生的损失采用相同的误差权重进行加权。
训练目标,可以是所有训练样本的各个属性的所述属性值与所述预测值之间的误差之和最小。当达到该训练目标时,训练结束,获得物体属性预测模型。
结合第一方面第四种可能的实现方式,在第一方面第五种可能的实现方式中,所述有序属性的损失函数包括欧式距离损失函数;所述无序属性的损失函数包括交叉熵损失函数。
结合第一方面的上述一至五任一种可能的实现方式,在第一方面第六种可能的实现方式中,所述根据所述多个训练用物体图像及所述属性值,并对所述深度神经网络进行训练,以得到物体属性预测模型,采用如下方式:通过随机梯度下降算法,根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
结合第一方面的上述一至六任一种可能的实现方式,在第一方面第七种可能的实现方式中,所述第一共有特征抽取子网络可以采用卷积神经网络的结构,可包括卷积层,池化层,非线性层和全连接层。采用本实现方式,利用卷积神经网络具有权值共享等特点,可以有效降低模型复杂度,避免过高的计算损耗。
结合第一方面或第一方面的上述一至七任一种可能的实现方式,在第一方面第八种可能的实现方式中,所述回归结构的属性预测子网络和/或所述分类结构的属性预测子网络包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。采用本实现方式,在属性预测子网络内可以进一步优化包含该子网络可预测的所有属性的特征,从而提高预测准确率;并且,利用卷积神经网络具有权值共享等特点,可以有效降低模型复杂度,避免过高的计算损耗。
第二方面,本发明实施例还提供了一种物体属性预测装置,其包括用于执行上述方法设计中物体属性预测装置行为相对应的模块。所述模块可以是软件和/或硬件。
第三方面,本发明实施例还提供了一种电子设备,其包括处理器和存储器,所述处理器其被配置为支持电子设备执行上述物体属性预测方法中相应的功能。所述存储器用于与处理器耦合,其保存执行上述物体属性预测方法必要的程序指令和数据。
第四方面,本发明实施例提供了一种物体属性预测模型构建方法,该方法包括:获取标注有多个属性的属性值的多个物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括第一类别和第二类别;根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述第一共有特征为包含所述第一类别的属性和所述第二类别的属性的特征,所述回归结构的属性预测子网络用于预测至少一个第一类别的属性,所述分类结构的属性预测子网络用于预测至少一个第二类别的属性;根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到物体属性预测模型。
采用本发明实施例提供的物体属性预测模型构建方法,具有以下有益效果:1)对所有待预测的属性只学习一个完整的神经网络,所有属性通过一个模型进行预测,只是在属性预测阶段划分两个或多个子网络,模型复杂度与属性数量无关,即使属性数量非常多,仍具有较低的模型复杂度,因此模型可扩展性高,且可操作性高,易于训练和测试;2)由于采用深度学习方法,不依赖人工设计的特征,因此可自动对所有属性学习最优的特征;3)可利用海量数据进行训练模型,从而提升模型的泛化能力以及准确度;4)可将特征抽取与属性预测进行联合调优,因此模型准确度高,且形成端到端的模型。
第五方面,本发明实施例还提供了一种物体属性预测模型构建装置,其包括用于执行上述方法设计中物体属性预测模型构建装置行为相对应的模块。所述模块可以是软件和/或硬件。
第六方面,本发明实施例还提供了一种电子设备,其包括处理器和存储器,所述处理器其被配置为支持电子设备执行上述物体属性预测模型构建方法中相应的功能。所述存储器用于与处理器耦合,其保存执行上述物体属性预测模型构建方法必要的程序指令和数据。
第七方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
第八方面,本发明实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
相较于现有技术,本发明提供的方案可以提高属性预测准确率并节约计算资源。
附图说明
图1为本发明实施例提供的应用场景示意图;
图2为本发明实施例提供的一种物体属性预测流程示意图;
图3为本发明实施例提供的生成物体属性预测模型的流程示意图;
图4为本发明实施例提供的人像检测示意图;
图5为本发明实施例提供的深度神经网络的一种结构示意图;
图6为本发明实施例提供的深度神经网络的另一种结构示意图;
图7为本发明实施例提供的回归结构的属性预测子网络中线性神经元的结构示意图;
图8为本发明实施例提供的深度神经网络的又一种结构示意图;
图9为本发明实施例提供的待预测属性的人像示意图;
图10为本发明实施例提供的一种物体属性预测装置示意图;
图11为本发明实施例提供的一种物体属性预测装置的具体示意图;
图12为本发明实施例提供的一种电子设备示意图;
图13为本发明实施例提供的一种物体属性预测模型构建流程示意图;
图14为本发明实施例提供的一种物体属性预测模型构建装置示意图;
图15为本发明实施例提供的另一种电子设备示意图。
具体实施方式
下面将结合附图,对本发明的应用场景及实施例中的技术方案做说明。
本发明描述的技术可以适用于多种应用场景中,一种典型的应用场景是如图1所示的以图搜图场景。以图搜图是指输入一张人的查询图像,系统能在海量的监控视频中快速自动地找出这个人,并给出该人出现的时间、地点等信息。以图搜图系统可用于辅助公安快速定位犯罪嫌疑人的犯罪地点以及行动轨迹,从而节省人力、快速破案。
由图1可见,以图搜图系统分为数据库生成和查询两个大模块,其中数据库生成模块首先对海量视频数据中的人进行检测、跟踪、提取关键帧,然后利用本发明实施例提供的物体属性预测方法,对需要入库的关键帧进行属性预测,如性别、年龄、视角等,建立半结构化的数据库;查询模块中,对于一张输入的人的图像,首先根据其属性值(如图中人的性别是男士、年龄是青年、视角为正面)在数据库中进行过滤,缩小搜索范围,然后再对该人的图像提取特征,在过滤后的数据库中进行检索,从而定位出该人的轨迹以及出现过的时间、地点等信息。
为了便于理解本发明实施例的技术方案,下面首先对方案的基本思想及相关概念做说明。
本发明实施例提供的物体属性预测方法,其基本思想是:同时考虑属性相关性和属性异质性;在属性相关性方面,体现在利用多任务学习挖掘所有属性的相关性,实现高效的多属性特征共享;在属性异质性方面,利用回归结构的分支网络处理有序属性,利用分类结构的分支网络处理无序属性,实现对不同类别属性分而治之的属性预测。由于利用了属性相关性,使得挖掘出更有效的多属性共享特征,从而实现了鲁棒的特征抽取;由于利用了属性异质性,实现了对有序属性和无序属性分而治之的属性预测;因此,可以有效提高有序属性和无序属性的预测准确率。
所述属性相关性,是指不同属性之间具有联系。例如,如果某一人脸图像具有“胡须”和“秃头”的属性,则能够断定该人物为男性;换言之如果将“胡须”和“秃头”两个属性相关联,则能够进一步的得到“男性”这一属性。再例如,当一个人脸图像中存在“弯眉毛”、“嘴角上翘”、“眯眼睛”的属性,就可以进一步的得到“微笑”这一属性。不同属性之间彼此关联,检测每种属性的特征也彼此关联,因此属性相关性意味着多个属性之间可共享属性特征,可依据共享属性特征对多个属性进行预测。利用多任务学习可抽取多个属性共有的属性特征。
多任务学习(Multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法。多任务学习是一种联合学习,多个任务并行学习,结果相互影响。本发明描述的技术,利用多任务(多属性预测任务)学习挖掘所有属性的相关性,实现高效的多属性特征共享,挖掘出更有效的多属性共享特征,从而实现鲁棒的特征抽取。
所述属性异质性,是指有序属性和无序属性具有不同的性质。无序属性(如性别、种族和视角等)为不同属性值之间不具有顺序关系的属性,取值范围通常较小;而有序属性(如年龄、头发长度等)为不同属性值之间具有顺序关系的属性,取值范围通常较大。有序属性的预测属于回归问题,无序属性的预测属于分类问题,因此有序属性和无序属性是异质属性,二者具有属性异质性。
下面结合图2,以人的属性预测为例,对本发明实施例提供的物体属性预测方法进行详细说明。可以理解的是,对于其它物体(如动物、服饰等)属性的预测可采用相同的处理方法,例如,可通过本发明描述的技术预测服饰的诸如衣服类别(如上衣、背心、裤子、风衣等)、穿着人的性别(如男式、女式或中性)、长短、花纹(如图案、条纹、纯色等)、颜色、领型、袖型、材质、品牌等属性。本发明实施例提供的物体属性预测方法的执行主体包括物体属性预测装置。
在201部分,物体属性预测装置获取待预测的物体图像。
在202部分,物体属性预测装置将所述物体图像作为预先生成的物体属性预测模型中输入层的数据,获取该物体图像的属性的预测值,其中,通过所述物体属性预测模型中第一共有特征抽取子网络,抽取所述物体图像的第一共有特征,所述第一共有特征为包含有序属性和无序属性的特征,所述第一共有特征为所述物体属性预测模型中至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络的输入数据,通过所述物体属性预测模型中所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有所述有序属性的预测值,通过所述物体属性预测模型中所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述无序属性的预测值。
其中,所述有序属性为不同属性值之间具有顺序关系的属性,如年龄(0-100岁)、身高(90-230厘米)为有序属性。所述无序属性为不同属性值之间不具有顺序关系的属性,如性别(男或女)、种族(白种、黄种或黑种)为无序属性。由于性别、种族和视角等属性的不同取值之间不存在顺序关系,取值范围较小,而年龄和身高等属性的不同取值之间存在顺序关系,取值范围较大;因此,本发明实施例提供的方案,将属性分为有序属性和无序属性,由不同结构的属性预测子网络分别处理,将不同结构的属性预测子网络可预测的属性之间的间隔扩大,同一属性结构的属性预测子网络可预测的属性之间的间隔缩小,即扩大类间间距和缩小类内间距。
需要说明的是,一些属性既可以作为有序属性,也可以作为无序属性,例如,属性取值设置为短发、中长发、长发等的头发长度属性,或者,属性取值设置为儿童、中青年、老年等的年龄属性。一方面,由于该类属性的不同属性值之间具有一定的顺序关系(短发长度<中长发长度<长发长度,儿童年龄<中青年年龄<老年年龄),因此可将该属性作为有序属性;另一方面,这些属性值又是不同的分类结果,属性取值范围较小,因此也可将该属性作为无序属性。具体实施时,可根据实际需求将这类属性作为有序属性或无序属性。
所述第一共有特征为包含有序属性和无序属性的特征,即所述物体属性预测模型可预测的所有属性的特征,每一个属性均将依据这些特征进行预测,也就是说,这些特征被所有属性共享(共有)。所述第一共有特征抽取子网络被所有属性共用,在通过所述第一共有特征抽取子网络抽取出所述第一共有特征后,各个属性预测子网络将根据这些特征对该预测子网络可预测的所有属性进行预测。
需要注意的是,本发明实施例提供的物体属性预测方法,通过预先生成的物体属性预测模型对物体的多个属性同时进行预测,因此,在执行本方法之前,首先需要从训练样本中学习获得所述物体属性预测模型。
请参考图3,其为本发明实施例提供的生成物体属性预测模型的具体流程图。在本实施例中,要生成所述物体属性预测模型,可采用如下步骤:
在301部分,物体属性预测装置获取标注有多个属性的属性值的多个训练用物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括有序属性类或无序属性类。
物体属性预测模型根据训练样本集对深度神经网络训练获得,因此首先需要获取训练样本集。所述标注有多个属性的属性值的多个训练用物体图像即为训练样本集,一个训练用物体图像就是一个训练样本。为物体图像标注的属性值是物体图像的真实属性值,通过物体属性预测模型获得的属性值是物体图像的预测属性值。
所述训练用物体图像包括从实际场景图像(如监控视频图像)中检测出的只包括物体的子图像。在一个示例中,所述多个训练用物体图像可采用如下步骤获取:1)获取实际场景图像集;2)通过人脸检测算法,将实际场景图像集中的人检测出来,得到只包括人的子图像;3)通过人脸对齐算法,将检测出的所有人的子图像对齐,形成所述多个训练用物体图像。
具体实施时,可以采用AdaBoost分类器(自适应增强分类器)或者深度学习的人脸监测算法等各种现有的人脸检测算法检测人脸。人脸检测算法属于较为成熟的现有技术,此处不再赘述。
如图4所示,a图是实际场景图像,b图和c图是采用人的检测算法从a图中检测到的人的子图像。
在一个示例中,使用监控录像下行人属性数据集RAP形成训练样本集。RAP数据集共包括4万幅行人图像,每幅行人图像标注了92个属性,该示例从中选取了4个常见属性,包括性别、年龄、发型、是否戴帽子。其中,性别取值为女或男(用0和1表示),年龄取值为0-100岁(用0-100表示),发型取值为短发和长发(用0和1表示),是否戴帽子取值为无和有(用0和1表示)。由于该数据集中的图像已经是行人检测并对齐后的行人图像,因此无须通过人的检测及对齐算法从实际场景图像中检测出的只包括人的子图像,而是可以直接获取到标注有多个属性的属性值的多个行人图像。
本发明描述的技术,不仅需要获取训练样本集,还需要获取各个属性的属性值类别,以便根据预测模型要预测的属性及属性值类别构建模型架构,即所述深度神经网络。所述深度神经网络的结构与要预测的属性数量相关,也与各个属性的属性值类别相关。
本发明实施例将属性值类别划分为有序属性类和无序属性类,将有序属性类的属性简称为有序属性,将无序属性类的属性简称为无序属性。
如图4所示,b图人像可标注为:性别:女性,无序属性;年龄:40,有序属性;视角:正面,无序属性等;c图人像可标注为:性别:男性,无序属性;年龄:45,有序属性;视角:背面,无序属性等。
在一个示例中,由于每个行人图像拥有4个属性,因此每个行人图像可通过一个8维的向量来表示其属性标签,奇数位置为真实属性值,偶数位置为该属性的属性值类别。假设性别、年龄、发型、是否戴帽子分别用(X1,X2,X3,X4)表示,无序属性用0表示,有序属性用1表示,则可一个性别为女,年龄为30岁,长头发,不戴帽子的人像标注为(X1,0,X2,1,X3,0,X4,0),具体又可表示为(0,0,30,1,1,0,0,0)。可以看到,标签向量中奇数位置为真实属性值,偶数位置为该属性的属性值类别。上述向量形式表示的属性标签可存放在训练样本标注文件中,通过在训练样本标注文件中为每一个属性设置一个属性值类别标注位,使得在深度神经网络训练过程中更加方便地计算不同分支网络(回归结构的属性预测子网络和分类结构的属性预测子网络)的损失。同时,采用上述属性标签格式,使得在计算损失时不必关心样本数据中属性的顺序,能够更为灵活的处理不同属性值类型的属性,便于应用于不同的数据集中。
在302部分,根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述回归结构的属性预测子网络用于预测至少一个所述有序属性,所述分类结构的属性预测子网络用于预测至少一个所述无序属性。
所述深度神经网络可同时预测物体的多个有序属性和无序属性,因此该深度神经网络是一个多任务学习的深度神经网络。所述深度神经网络需根据待预测的属性及各个属性的属性值类别进行构建。
如图5所示,所述深度神经网络包括两部分,前半部分为所有属性共享的第一共有特征抽取子网络,后半部分针对异质属性分出多个属性预测子网络。所述深度神经网络的输入层获取物体图像;第一共有特征抽取子网络连接在输入层后,用于抽取所有属性共享的第一共有特征;多个属性预测子网络并列连接在第一共有特征抽取子网络后,包括至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,其中,回归结构的属性预测子网络用于预测至少一个有序属性,分类结构的属性预测子网络用于预测至少一个无序属性。每个属性预测子网络在预测属性时,均以所述第一共有特征为依据。
需要注意的是,不同物体属性预测模型可预测不同的属性,根据模型可预测的属性数量和各个属性的属性值类别,构建相应的深度神经网络。例如,物体属性预测模型可预测性别、年龄、发型和是否戴帽子这四个属性;其中性别、发型和是否戴帽子均为无序属性,年龄为有序属性;因此回归结构的属性预测子网络的输出层只包括年龄属性,分类结构的属性预测子网络的输出层包括性别、发型和是否戴帽子这三个属性。
所述第一共有特征抽取子网络可采用卷积神经网络的结构。卷积神经网络就是将图像处理中的二维离散卷积运算和人工神经网络相结合。这种卷积运算可以用于自动提取特征,而卷积神经网络也主要应用于二维图像的识别。通常卷积神经网络包含卷积层、池化层、全连接层。多个卷积-池化单元构成特征表达,主要应用于二维图像识别。
在卷积神经网络的卷积层中,一个神经元只与部分邻层神经元连接,且一个卷积层包括的多个特征平面的神经元共享权重,卷积神经网络具有权值共享等优点。通过采用卷积神经网络结构设计第一共有特征抽取子网络,可以有效降低模型复杂度。
如图6所示,所述第一共有特征抽取子网络,具体可包含多个卷积层、多个池化层、多个非线性层和多个全连接层。其中,卷积层通过线性变换从输入数据中抽取出新特征;池化层通过将多个数值映射为一个数值,可以将特征空间变小;非线性层借鉴生物神经元的激活机制,增加神经网络的非线性表达能力;全连接层将前面卷积层、池化层和非线性层学到的样本特征投影到一个更好的子空间以利于属性预测。
具体实施时,所述第一共有特征抽取子网络可采用AlexNet或GoogLeNet等现有的特征抽取网络。AlexNet或GoogLeNet等特征抽取网络属于成熟的现有技术,此处不再赘述。
为了直观的说明所述第一共有特征抽取子网络的作用,下面通过形式化方式进行描述。给定一个人脸图像x0,通过一系列的非线性映射,被所有属性预测任务共享的第一共有特征抽取子网络逐步将x0投影到更高层的表示xl,如下式所示:
其中,σ(.)表示非线性激活函数,而wl s表示非线性激活函数中的权重参数。
所述回归结构的属性预测子网络或所述分类结构的属性预测子网络,可以采用包括第二共有特征抽取子网络、全连接层和非线性层的复杂结构,也可以采用只包含全连接层和非线性层的简单结构。属性预测子网络中的全连接层,用于将特征表示映射到样本的标签空间,即物体图像的属性空间。
所述第二共有特征抽取子网络,用于从第一共有特征中抽取出该子网络对应的属性值类别下所有属性共享的属性特征。通过第二共有特征抽取子网络,可以进一步优化该子网络可预测的属性之间的共享特征,抽取出更精确的特征,因此可以进一步提高预测准确率。第二共有特征抽取子网络具体可包括卷积层、池化层、非线性层和全连接层。
如图7所示,其为回归结构的属性预测子网络的输出层包括线性神经元,线性神经元与邻层神经元之间采用全连接方式,从而实现从属性特征到属性值的映射。在回归结构的网络中,输出层的线性神经元对邻层神经元输出的所有特征进行加权求和运算,计算得到该神经元对应属性的预测值。
所述分类结构的属性预测子网络的输出层包括多个神经元,输出层的神经元可以对邻层神经元输出的所有特征进行softmax运算,计算得到对应属性的各个分类的概率。
如图6所示,在网络训练阶段,属性预测子网络还包括损耗层。损耗层用于度量神经网络当前输出的属性预测值与训练样本中标注的所述属性值之间的误差,作为神经网络学习过程的反馈。所述多个属性同时连接损耗层,且根据所有属性预测子网络产生的损失,形成深度神经网络的整体损失;这种处理方式,使得多个属性预测任务可同时进行学习,多个属性共享深度网络学到的第一共有特征。其中,在分类结构的属性预测子网络中,损耗层实现softmax损失或交叉熵(crossentropy)等损失的计算;在回归结构的属性预测子网络中,损耗层实现欧式距离损失或铰链损失(hinge loss)等损失的计算。
在一个示例中,所述深度神经网络中的所述回归结构的属性预测子网络的数量为一个,所述回归结构的属性预测子网络用于预测所有有序属性;所述深度神经网络中的所述分类结构的属性预测子网络的数量也为一个,所述分类结构的属性预测子网络用于预测所有无序属性。这种情况下,所述深度神经网络只有两个属性预测子网络,因此模型复杂度最低。
如图5所示,神经网络的输入为一幅图像,假设需要预测的属性有:性别(男、女)、种族(黄种人、白种人、黑种人、棕种人)、视角(正面、背面、左侧、右侧)、年龄(1-100岁)和头发长度(0-50cm),则性别、种族和视角为无序属性,采用分类结构的属性预测子网络进行学习与预测;年龄和头发是有序属性,采用回归结构的属性预测子网络进行学习与预测;网络最后输出的结果为性别:女,种族:白种人,视角:正面,年龄:28,头发长度:25cm。
在另一个示例中,所述深度神经网络中的所述回归结构的属性预测子网络和所述分类结构的属性预测子网络与所述属性所属的属性集合的数量有关。所述根据所述多个属性和所述属性值类别,并构建深度神经网络,包括:获取所述属性所属的属性集合;针对各个所述属性集合,构建与所述属性集合内所有所述有序属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述无序属性对应的所述分类结构的属性预测子网络。
当所有属性分属于多个属性集合时,如果每个属性集合均包括有序属性和无序属性,则所述至少一个回归结构的属性预测子网络的数量为所述属性集合的数量,每个所述回归结构的属性预测子网络用于预测与该子网络对应的所述属性集合下所有有序属性;所述至少一个分类结构的属性预测子网络的数量也为所述属性集合的数量,每个所述分类结构的属性预测子网络用于预测与该子网络对应的所述属性集合下所有无序属性。采用本实现方式,使得不同属性集合的属性通过不同的属性预测子网络进行属性预测,由于属性分组更细致,可通过属性集合对应的属性预测子网络对第一共有特征进行微调时,将更有针对性,从而可以有效提高预测准确率。需要注意的是,如果属性集合过多,也会导致网络计算复杂度的提升。
所述属性集合可以是根据单一维度的属性类别划分形成的属性集合,例如,将所有属性划分为两个集合:所有全局属性均归属于第一集合和所有局部属性均归属于第二集合,或者所有头部属性均归属于第一集合和所有身体属性均归属于第二集合等。所述属性集合还可以是根据多维度属性类别组合划分形成的属性集合。
其中,全局属性包括表示物体整体特征的属性,例如,年龄、身高、性别、种族等属性为全局属性。局部属性包括表示物体局部特征的属性,例如,发型、眼镜、胡子形状等属性为局部属性。
头部属性包括人体头部特征的属性,例如,发型、胡子形状、眼镜、表情等属性为头部属性。身体属性包括人体头部以外特征的属性,例如,驼背、腿长等属性为身体属性。
例如,将所有属性划分为全局属性子集和局部属性子集,则深度神经网络可包括如下四个属性预测子网络:有序且全局类属性对应的属性预测子网络、无序且全局类属性对应的属性预测子网络、有序且局部类属性对应的属性预测子网络和无序且局部类属性对应的属性预测子网络。其中,有序且全局类属性对应的属性预测子网络用于预测年龄、身高等属性值类别为有序属性类、且属性类别为全局属性类的属性,有序且局部类属性对应的属性预测子网络用于预测发型(平头、齐耳或披肩)等属性值类别为有序属性类、且属性类别为局部属性类的属性,无序且全局类属性对应的属性预测子网络用于预测性别、种族等属性值类别为无序属性类、且属性类别为全局属性类的属性,无序且局部类属性对应的属性预测子网络用于预测胡子形状(八字胡,络腮胡,羊角胡)等属性值类别为无序属性类、且属性类别为局部属性类的属性。
采用这种针对不同属性集合的属性通过不同的属性预测子网络进行属性预测的方式,通过实验可证明具有以下有益效果:在LFWA+(人脸属性数据集)上的实验结果发现4个分支与原来的2分支相比,预测准确率有提升。预测准确率提升的原因在于,属性分组更细致,与各个属性集合分别对应的属性预测子网络对第一共有特征进行微调时,将更有针对性,从而获得更有效的属性特征,因此可以有效提高预测准确率。需要注意的是,如果分组太多,也会导致网络计算复杂度提升。
需要说明的是,深度神经网络包括的属性预测子网络的数量可以根据属性集合数量、属性值类别数量、或者属性集合和属性值类别组合的数量确定,但不仅仅局限于上述数量确定方式,还可以根据属性重要性灵活调整,例如,所有有序属性通过一个所述回归结构的属性预测子网络进行预测,全局且无序属性通过一个所述分类结构的属性预测子网络进行预测,局部无序属性通过另一个所述分类结构的属性预测子网络进行预测等。上述这些不同的方式,都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
如图8所示,本发明实施例提供的物体属性预测方法,将对属性异质性和相关性的考量融入到卷积神经网络中,网络的前半部分由所有属性共享,以便学习不同属性的通用特征,网络的后半部分针对不同属性值类别的属性设计不同结构的属性预测子网络,以便学习不同类型属性的独有特征。同时,卷积神经网络的框架可以自然地达到多任务学习的效果。因此,本发明描述的技术可以在兼顾属性相关性和异质性考量的同时避免过高的计算消耗。
在303部分,根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到物体属性预测模型。
构建好深度神经网络后,就可以利用训练样本集对该网络结构的连接权重进行训练,达到训练目标后将得到物体属性预测模型。本发明实施例中的深度神经网络结构将深度学习和多任务学习合二为一,在训练神经网络结构时进行损失的计算和反传,待网络收敛(达到训练目标)后即可获得物体属性预测模型。
所述根据所述多个训练用物体图像及所述属性值,并对所述深度神经网络进行训练,以得到所述物体属性预测模型,可包括如下步骤:1)将所述训练用物体图像作为所述深度神经网络中输入层的数据,通过所述第一共有特征抽取子网络从所述训练用物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述训练用物体图像的所有所述有序属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述训练用物体图像的所有所述无序属性的预测值;2)获取所有所述训练用物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;3)若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型。在训练过程中,如果所述误差之和没有满足预设的停止训练条件,则需要调整所述深度神经网络的连接权重参数,然后采用上述步骤对调整后的深度神经网络进行训练。
训练目标也成为停止训练条件,可以是所有训练样本的各个属性的属性标注值与属性预测值之间的误差之和最小。当达到该训练目标时,训练结束,获得物体属性预测模型。
在一个示例中,深度神经网络包括一个回归结构的属性预测子网络和一个分类结构的属性预测子网络,该深度神经网络的训练目标可以用下面的公式进行表示:
在该公式中,Tr表示所述所有有序属性的数量,Tc表示所述所有无序属性的数量,N表示所述多个训练用物体图像的数量;f为属性预测函数,f(xi r;wr)表示第i个训练用物体图像在模型参数wr下的第r个属性的预测值,yi *r表示第i个训练用物体图像的第r个属性的真实属性值;lr是第r个有序属性的属性预测损失函数,lr(yi *r,f(xi r;wr))是第r个有序属性的属性预测误差;lc是第c个无序属性的属性预测损失函数,lc(yi *c,f(xi c;wc))是第c个无序属性的属性预测误差;λr表示第r个有序属性的所述属性预测误差的权重,λc表示第c个无序属性的所述属性预测误差的权重。
在实际应用中,可以为有序属性和无序属性设置不同的属性重要性,属性重要性体现在分支网络各自产生的损失相加时的误差权重。对不同分支网络产生的损失进行加权,形成网络的整体损失。
误差权重表示属性的重要性。不同分支产生的损失组合时的权重可以根据属性重要性灵活调整。属性的误差权重越高,则属性的预测准确率越高。针对不同的误差权重组合,通过实验表明,如果所述深度神经网络包括两个不同结构(分类结构和回归结构)的属性预测子网络,则不同的权重组合对属性预测性能基本不会产生影响。这种情况下,两个分支产生的损失采用相同的权重进行加权,如λr=λc=1。
如果用确切的损失函数定义代替上述公式中的损失函数,则上述公式可更新为如下表达式:
在该公式中,第一项表示欧式距离损失,第二项表示交叉熵损失。在第二项中,M表示每个无序属性的取值个数,比如性别有两个取值(男性和女性);B{.}是一个符号函数,定义为B{真命题}=1,B{假命题}=0,比如B{2>1}=1,B{2<1}=0。
在另一个示例中,深度神经网络包括多个回归结构的属性预测子网络和多个分类结构的属性预测子网络,该深度神经网络的优化目标可以用下面的公式进行表示:
在该公式中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个训练用物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个训练用物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个训练用物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,l(yi *g,j,f(xi g,j;wg,j))是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
在实际应用中,还可以为不同属性集合的属性设置不同的属性重要性,或者为属性集合和属性值类别不同组合设置不同的属性重要性。所述组合可以是全局且有序、全局且无序、局部且有序或局部且无序等。不同分支产生的损失组合时的权重可以根据属性重要性灵活调整。
在训练所述深度神经网络时,可采用深度学习中较为通用的随机梯度下降的方法来更新第一共有特征抽取子网络和各个属性预测子网络的权重。例如,回归任务的权重矩阵通过进行更新,而分类任务的权重矩阵通过其中η是卷积神经网络的学习率(如η=0.0001)。回归任务和分类任务的权重更新的公式如下:
在该公式中,(h(xi c;wc)是softmax函数的输出,yi c′是输出中第yi *c个位置的元素值为1而其余位置的元素值为0的一个列向量。
根据训练目标函数可以在训练神经网络结构时进行损失的计算和反传,待网络收敛后即可获得物体属性预测模型。在训练得到物体属性预测模型后,就可以输入待预测属性的人的图像,采用该模型对该图像中人的属性进行预测,输出预测结果。
如图9所示,利用该深度模型在RAP测试集上测试4个属性的准确率。即输入一幅图像,用S4训练得到的网络预测其属性(性别、年龄、发型、是否戴帽子)。如图(a)所示,预测结果为:(0,25,1,0),即女性,25岁,长发,没有戴帽子;图(b)预测结果为:(1,22,0,0),即男性,22岁,短发,没有戴帽子。
从上述实施例可以看出,本发明实施例提供的方案,利用第一共有特征抽取子网络将所有属性放在一起进行特征抽取,在第一共有特征抽取子网络后,又根据有序属性和无序属性的划分标准,将不同类别的属性分别放到分类结构和回归结构的属性预测子网络进行处理,不同结构的属性预测子网络采用不同的损失函数;这种处理方式,不仅充分利用属性间的相关性,实现了高效的多属性特征共享,挖掘出更有效的特征,还充分利用属性间的异质性,实现了对有序属性和无序属性分而治之的属性预测;因此,可以有效提高有序属性和无序属性的预测准确率。同时,由于无需对有序属性进行编解码处理;因此,可以有效减少计算资源的消耗。
此外,采用本发明实施例提供的方案,还具有以下有益效果:1)对所有属性只学习一个完整的神经网络,所有属性通过一个模型进行预测,只是在属性预测阶段划分两个或多个子网络,模型复杂度与属性数量无关,即使属性数量非常多,仍具有较低的模型复杂度,因此模型可扩展性高,且可操作性高,易于训练和测试;2)由于采用深度学习方法,不依赖人工设计的特征,由深度学习自动对所有属性学习最优的特征;3)可利用海量数据进行训练,从而提升模型的泛化能力以及准确度;4)将特征抽取与属性预测进行联合调优,因此模型准确度高,且形成端到端的模型。
与本发明的一种物体属性预测方法相对应,本发明还提供了一种物体属性预测装置。
图10所示了上述实施例中所涉及的物体属性预测装置涉及的结构示意图,所述物体属性预测装置包括:物体图像获取单元1001和物体属性预测单元1002。
其中,所述物体图像获取单元1001,用于获取待预测的物体图像。
所述物体属性预测单元1002,用于将所述物体图像作为物体属性预测模型中输入层的数据,获取所述物体图像的属性的预测值,其中,通过所述物体属性预测模型中第一共有特征抽取子网络,抽取所述物体图像的第一共有特征,所述第一共有特征为包含有序属性和无序属性的特征,所述有序属性为不同属性值之间具有顺序关系的属性;所述无序属性为不同属性值之间不具有顺序关系的属性,所述第一共有特征为所述物体属性预测模型中至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络的输入数据,通过所述物体属性预测模型中所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有所述有序属性的预测值,通过所述物体属性预测模型中所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述无序属性的预测值。
可选的,由图11可见,所述装置还可包括:训练数据获取单元1101,深度神经网络构建单元1102和物体属性预测模型生成单元1103。
其中,所述训练数据获取单元1101,用于获取标注有多个属性的属性值的多个训练用物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括有序属性类或无序属性类。
所述深度神经网络构建单元1102,用于根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述回归结构的属性预测子网络用于预测至少一个所述有序属性,所述分类结构的属性预测子网络用于预测至少一个所述无序属性。
所述物体属性预测模型生成单元1103,用于物体属性预测模型生成单元,用于根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
可选的,所述物体属性预测模型生成单元1103包括:
属性预测子单元,用于将所述训练用物体图像作为所述深度神经网络中输入层的数据,通过所述第一共有特征抽取子网络从所述训练用物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述训练用物体图像的所有所述有序属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述训练用物体图像的所有所述无序属性的预测值;
总预测误差获取子单元,用于获取所有所述训练用物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;
物体属性预测模型确定子单元,用于若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型;
网络参数调整子单元,用于若所述误差之和不满足所述预设的停止训练条件,则调整所述深度神经网络的连接权重参数,并启动所述属性预测子单元。
可选的,所述深度神经网络构建单元1102包括:
属性集合获取子单元,用于获取所述属性所属的属性集合;
属性预测子网络构建子单元,用于针对各个所述属性集合,构建与所述属性集合内所有所述有序属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述无序属性对应的所述分类结构的属性预测子网络。
可选的,所述物体属性预测模型生成单元1103,具体用于采用如下训练目标函数对所述深度神经网络进行训练:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个训练用物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个训练用物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个训练用物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,l(yi *g,j,f(xi g,j;wg ,j))是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
可选的,所述有序属性的损失函数包括欧式距离损失函数;所述无序属性的损失函数包括交叉熵损失函数。
可选的,所述物体属性预测模型生成单元1103,具体用于通过随机梯度下降算法,根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
可选的,所述第一共有特征抽取子网络采用卷积神经网络结构。
可选的,所述回归结构的属性预测子网络和/或所述分类结构的属性预测子网络包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。
从上述实施例可以看出,本发明实施例提供的方案,利用第一共有特征抽取子网络将所有属性放在一起进行特征抽取,在第一共有特征抽取子网络后,又根据有序属性和无序属性的划分标准,将不同类别的属性分别放到分类结构和回归结构的属性预测子网络进行处理,不同结构的属性预测子网络采用不同的损失函数;这种处理方式,不仅充分利用属性间的相关性,实现了高效的多属性特征共享,挖掘出更有效的特征,还充分利用属性间的异质性,实现了对有序属性和无序属性分而治之的属性预测;因此,可以有效提高有序属性和无序属性的预测准确率。同时,由于无需对有序属性进行编解码处理;因此,可以有效减少计算资源的消耗。
此外,采用本发明实施例提供的方案,还具有以下有益效果:1)对所有属性只学习一个完整的神经网络,所有属性通过一个模型进行预测,只是在属性预测阶段划分两个或多个子网络,模型复杂度与属性数量无关,即使属性数量非常多,仍具有较低的模型复杂度,因此模型可扩展性高,且可操作性高,易于训练和测试;2)由于采用深度学习方法,不依赖人工设计的特征,由深度学习自动对所有属性学习最优的特征;3)可利用海量数据进行训练,从而提升模型的泛化能力以及准确度;4)将特征抽取与属性预测进行联合调优,因此模型准确度高,且形成端到端的模型。
图12示出了本发明实施例提供的一种电子设备涉及的方框图。
所述电子设备包括处理器1201和存储器1202。处理器1201执行图2至图9中物体属性预测的处理过程和/或用于本申请所描述的技术的其他过程。存储器1202用于存储物体属性预测过程的程序代码和数据。
可选的,所述电子设备还可包括输入设备和/或显示器,其中,其中,输入设备用于输入包括物体图像的监控视频等实际场景图像,也可以用于输入物体图像,显示器可用于显示属性预测结果。
可选的,所述电子设备还可包括通信接口,通信接口用于实现所述设备与其他设备之间的通信。例如,当所述设备为RCS时,所述通信接口可以是用于实现RRS与RCS之间通信的通用公共无线电接口(common public radio interface,CPRI)。
可以理解的是,图12仅仅是电子设备的简化设计。可以理解的是,电子设备可以包含任意数量的处理器,存储器,输入设备,显示器,通信接口。
与本发明的一种物体属性预测方法相对应,本发明还提供了一种物体属性预测模型构建方法。
下面结合附图13,对本发明的物体属性预测模型构建方法的实施例进行说明。
在1301部分,获取标注有多个属性的属性值的多个物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括第一类别和第二类别。
在一个示例中,所述第一类别可以为有序属性类,所述第二类别可以为无序属性类;其中,所述有序属性类的属性的不同属性值之间具有顺序关系,如年龄(0-100岁)、身高(90-230厘米)为有序属性;所述无序属性类的属性的不同属性值之间不具有顺序关系,如性别(男或女)、种族(白种、黄种或黑种)为无序属性。
在另一个示例中,所述第一类别可以为数值数据类,所述第二类别可以为分类数据类。其中,数值数据就是用数值表示、且能够进行数学运算的数据,例如,年龄、身高、体重等数据;分类数据是反映事物类别的数据,例如,性别为男或女。分类数据包括顺序数据,顺序数据是特殊的分类数据,例如,头发长度:短发、中长发、长发。
所述物体图像用于对深度神经网络进行训练,因此也称为训练用物体图像,相当于上述实施例一种301部分的训练用物体图像。
在1102部分,根据所述多个属性和所述属性值类别,构建深度神经网络。
本部分与上述实施例一种302部分相对应,具体说明参照上述302部分所述,这里不再赘述。
其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述第一共有特征为包含所述第一类别的属性和所述第二类别的属性的特征,所述回归结构的属性预测子网络用于预测至少一个第一类别的属性,所述分类结构的属性预测子网络用于预测至少一个第二类别的属性。
所述第一共有特征抽取子网络可采用卷积神经网络结构。
所述回归结构的属性预测子网络、或者所述分类结构的属性预测子网络、或者所述回归结构的属性预测子网络和所述分类结构的属性预测子网络,可包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。
所述根据所述多个属性和所述属性值类别,并构建深度神经网络,可包括如下步骤:1)获取所述属性所属的属性集合;2)针对各个所述属性集合,构建与所述属性集合内所有所述第一类别的属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述第二类别的属性对应的所述分类结构的属性预测子网络。
在1103部分,根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到物体属性预测模型。
本部分与上述实施例一种303部分相对应,具体说明参照上述302部分所述,这里不再赘述。
在一个示例中,1103部分可采用如下方式:通过随机梯度下降算法,根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
在本实施例中,1103部分包括如下步骤:1)将所述物体图像作为所述输入层的数据,通过所述第一共有特征抽取子网络从所述物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有第一类别的属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述第二类别的属性的预测值;2)获取所有所述物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;3)若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型。如果所述误差之和不满足预设的停止训练条件,则调整所述深度神经网络的连接权重参数,并采用上述步骤对调整后的深度神经网络进行训练。
在对所述深度神经网络进行训练时,可采用如下训练目标函数:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,l(yi *g,j,f(xi g,j;wg,j))是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
所述第一类别的属性的损失函数包括但不限于欧式距离损失函数;所述第二类别的属性的损失函数包括但不限于交叉熵损失函数。
从上述实施例可以看出,本发明实施例提供的物体属性预测模型构建方法,对所有属性只学习一个完整的神经网络,所有属性通过一个模型进行预测,只是在属性预测阶段划分两个或多个子网络,因此模型复杂度与属性数量无关,即使属性数量非常多,仍具有较低的模型复杂度,因此模型可扩展性高,且可操作性高,易于训练和测试。同时,由于采用深度学习方法,因此不依赖人工设计的特征,由深度学习自动对所有属性学习最优的特征。同时,可利用海量数据进行训练,从而提升模型的泛化能力以及准确度。同时,将特征抽取与属性预测进行联合调优,因此模型准确度高,且形成端到端的模型。
与本发明的一种物体属性预测模型构建方法相对应,本发明还提供了一种物体属性预测模型构建装置。
图14所示了本发明实施例提供的物体属性预测模型构建装置的结构示意图,所述物体属性预测模型构建装置包括:
训练数据获取单元1401,用于获取标注有多个属性的属性值的多个物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括第一类别和第二类别;
深度神经网络构建单元1402,用于根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述第一共有特征为包含所述第一类别的属性和所述第二类别的属性的特征,所述回归结构的属性预测子网络用于预测至少一个第一类别的属性,所述分类结构的属性预测子网络用于预测至少一个第二类别的属性;
物体属性预测模型生成单元1403,用于根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到物体属性预测模型。
可选的,所述第一类别为有序属性类,所述第二类别为无序属性类;其中,所述有序属性类的属性的不同属性值之间具有顺序关系;所述无序属性类的属性的不同属性值之间不具有顺序关系。
可选的,所述第一类别为数值数据类,所述第二类别为分类数据类。
可选的,所述物体属性预测模型生成单元1403包括:
属性预测子单元,用于将所述物体图像作为所述输入层的数据,通过所述第一共有特征抽取子网络从所述物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有第一类别的属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述第二类别的属性的预测值;
总预测误差获取子单元,用于获取所有所述物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;
物体属性预测模型确定子单元,用于若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型;
网络参数调整子单元,用于若所述误差之和不满足所述预设的停止训练条件,则调整所述深度神经网络的连接权重参数,并启动所述属性预测子单元。
可选的,所述深度神经网络构建单元1402包括:
属性集合获取子单元,用于获取所述属性所属的属性集合;
属性预测子网络构建子单元,用于针对各个所述属性集合,构建与所述属性集合内所有所述第一类别的属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述第二类别的属性对应的所述分类结构的属性预测子网络。
可选的,所述物体属性预测模型生成单元1403,具体用于采用如下训练目标函数对所述深度神经网络进行训练:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,l(yi *g,j,f(xi g,j;wg,j))是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
可选的,所述第一类别的属性的损失函数包括欧式距离损失函数;所述第二类别的属性的损失函数包括交叉熵损失函数。
可选的,所述物体属性预测模型生成单元1403,具体用于通过随机梯度下降算法,根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
可选的,所述第一共有特征抽取子网络采用卷积神经网络结构。
可选的,所述回归结构的属性预测子网络和/或所述分类结构的属性预测子网络包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。
从上述实施例可以看出,本发明实施例提供的物体属性预测模型构建装置,对所有属性只学习一个完整的神经网络,所有属性通过一个模型进行预测,只是在属性预测阶段划分两个或多个子网络,因此模型复杂度与属性数量无关,即使属性数量非常多,仍具有较低的模型复杂度,因此模型可扩展性高,且可操作性高,易于训练和测试。同时,由于采用深度学习方法,因此不依赖人工设计的特征,由深度学习自动对所有属性学习最优的特征。同时,可利用海量数据进行训练,从而提升模型的泛化能力以及准确度。同时,将特征抽取与属性预测进行联合调优,因此模型准确度高,且形成端到端的模型。
图15示出了本发明实施例提供的另一种电子设备涉及的方框图。
所述电子设备包括处理器1501和存储器1502。处理器1501执行图13中物体属性预测模型构建的处理过程和/或用于本申请所描述的技术的其他过程。存储器1502用于存储物体属性预测模型构建过程的程序代码和数据。
可选的,所述电子设备还可包括输入设备和/或显示器,其中,输入设备用于输入包括物体图像的监控视频等实际场景图像,也可以用于输入物体图像,显示器可用于显示属性预测结果。
可选的,所述电子设备还可包括通信接口,通信接口用于与网元通信。
可以理解的是,图15仅仅是电子设备的简化设计。可以理解的是,电子设备可以包含任意数量的处理器,存储器,输入设备,显示器,通信接口。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD)等。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于物体属性预测装置、物体属性预测模型构建方法及装置的实施例而言,由于其基本相似于物体属性预测方法实施例,所以描述的比较简单,相关之处参见物体属性预测方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (41)
1.一种物体属性预测方法,其特征在于,所述方法包括:
获取待预测的物体图像;
将所述物体图像作为物体属性预测模型中输入层的数据,获取所述物体图像的属性的预测值,其中,通过所述物体属性预测模型中第一共有特征抽取子网络,抽取所述物体图像的第一共有特征,所述第一共有特征为包含有序属性和无序属性的特征,所述有序属性为不同属性值之间具有顺序关系的属性;所述无序属性为不同属性值之间不具有顺序关系的属性,所述第一共有特征为所述物体属性预测模型中至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络的输入数据,通过所述物体属性预测模型中所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有所述有序属性的预测值,通过所述物体属性预测模型中所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述无序属性的预测值。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取标注有多个属性的属性值的多个训练用物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括有序属性类或无序属性类;
根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述回归结构的属性预测子网络用于预测至少一个所述有序属性,所述分类结构的属性预测子网络用于预测至少一个所述无序属性;
根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述多个训练用物体图像及所述属性值,并对所述深度神经网络进行训练,以得到所述物体属性预测模型,包括:
将所述训练用物体图像作为所述深度神经网络中输入层的数据,通过所述第一共有特征抽取子网络从所述训练用物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述训练用物体图像的所有所述有序属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述训练用物体图像的所有所述无序属性的预测值;
获取所有所述训练用物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;
若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型;否则,调整所述深度神经网络的连接权重参数,并对调整后的深度神经网络进行训练。
4.如权利要求2所述的方法,其特征在于,所述根据所述多个属性和所述属性值类别,并构建深度神经网络,包括:
获取所述属性所属的属性集合;
针对各个所述属性集合,构建与所述属性集合内所有所述有序属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述无序属性对应的所述分类结构的属性预测子网络。
5.如权利要求2所述的方法,其特征在于,所述根据所述多个训练用物体图像及所述属性值,并对所述深度神经网络进行训练,以得到物体属性预测模型,采用如下训练目标函数:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个训练用物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个训练用物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个训练用物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
6.如权利要求5所述的方法,其特征在于,所述有序属性的损失函数包括欧式距离损失函数;所述无序属性的损失函数包括交叉熵损失函数。
7.如权利要求2-6任一项所述的方法,其特征在于,所述根据所述多个训练用物体图像及所述属性值,并对所述深度神经网络进行训练,以得到物体属性预测模型,采用如下方式:
通过随机梯度下降算法,根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
8.如权利要求1-6任一项所述的方法,其特征在于,所述第一共有特征抽取子网络采用卷积神经网络结构。
9.如权利要求1-6任一项所述的方法,其特征在于,所述回归结构的属性预测子网络和/或所述分类结构的属性预测子网络包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。
10.一种物体属性预测装置,其特征在于,包括:
物体图像获取单元,用于获取待预测的物体图像;
物体属性预测单元,用于将所述物体图像作为物体属性预测模型中输入层的数据,获取所述物体图像的属性的预测值,其中,通过所述物体属性预测模型中第一共有特征抽取子网络,抽取所述物体图像的第一共有特征,所述第一共有特征为包含有序属性和无序属性的特征,所述有序属性为不同属性值之间具有顺序关系的属性;所述无序属性为不同属性值之间不具有顺序关系的属性,所述第一共有特征为所述物体属性预测模型中至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络的输入数据,通过所述物体属性预测模型中所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有所述有序属性的预测值,通过所述物体属性预测模型中所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述无序属性的预测值。
11.如权利要求10所述的装置,其特征在于,所述装置还包括:
训练数据获取单元,用于获取标注有多个属性的属性值的多个训练用物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括有序属性类或无序属性类;
深度神经网络构建单元,用于根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述回归结构的属性预测子网络用于预测至少一个所述有序属性,所述分类结构的属性预测子网络用于预测至少一个所述无序属性;
物体属性预测模型生成单元,用于根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
12.如权利要求11所述的装置,其特征在于,所述物体属性预测模型生成单元包括:
属性预测子单元,用于将所述训练用物体图像作为所述深度神经网络中输入层的数据,通过所述第一共有特征抽取子网络从所述训练用物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述训练用物体图像的所有所述有序属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述训练用物体图像的所有所述无序属性的预测值;
总预测误差获取子单元,用于获取所有所述训练用物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;
物体属性预测模型确定子单元,用于若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型;
网络参数调整子单元,用于若所述误差之和不满足所述预设的停止训练条件,则调整所述深度神经网络的连接权重参数,并启动所述属性预测子单元。
13.如权利要求11所述的装置,其特征在于,所述深度神经网络构建单元包括:
属性集合获取子单元,用于获取所述属性所属的属性集合;
属性预测子网络构建子单元,用于针对各个所述属性集合,构建与所述属性集合内所有所述有序属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述无序属性对应的所述分类结构的属性预测子网络。
14.如权利要求11所述的装置,其特征在于:
所述物体属性预测模型生成单元,具体用于采用如下训练目标函数对所述深度神经网络进行训练:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个训练用物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个训练用物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个训练用物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
15.如权利要求14所述的装置,其特征在于,所述有序属性的损失函数包括欧式距离损失函数;所述无序属性的损失函数包括交叉熵损失函数。
16.如权利要求11-15任一项所述的装置,其特征在于:
所述物体属性预测模型生成单元,具体用于通过随机梯度下降算法,根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
17.如权利要求11-15任一项所述的装置,其特征在于,所述第一共有特征抽取子网络采用卷积神经网络结构。
18.如权利要求11-15任一项所述的装置,其特征在于,所述回归结构的属性预测子网络和/或所述分类结构的属性预测子网络包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。
19.一种电子设备,其特征在于,包括:
至少一个存储器;
耦合到所述至少一个存储器的至少一个处理器,所述至少一个处理器配置为:获取待预测的物体图像;将所述物体图像作为物体属性预测模型中输入层的数据,获取所述物体图像的属性的预测值,其中,通过所述物体属性预测模型中第一共有特征抽取子网络,抽取所述物体图像的第一共有特征,所述第一共有特征为包含有序属性和无序属性的特征,所述有序属性为不同属性值之间具有顺序关系的属性;所述无序属性为不同属性值之间不具有顺序关系的属性,所述第一共有特征为所述物体属性预测模型中至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络的输入数据,通过所述物体属性预测模型中所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有所述有序属性的预测值,通过所述物体属性预测模型中所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述无序属性的预测值。
20.一种物体属性预测模型构建方法,其特征在于,所述方法包括:
获取标注有多个属性的属性值的多个物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括第一类别和第二类别;
根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述第一共有特征为包含所述第一类别的属性和所述第二类别的属性的特征,所述回归结构的属性预测子网络用于预测至少一个第一类别的属性,所述分类结构的属性预测子网络用于预测至少一个第二类别的属性;
根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到物体属性预测模型。
21.如权利要求20所述的方法,其特征在于,所述第一类别为有序属性类,所述第二类别为无序属性类;其中,所述有序属性类的属性的不同属性值之间具有顺序关系;所述无序属性类的属性的不同属性值之间不具有顺序关系。
22.如权利要求20所述的方法,其特征在于,所述第一类别为数值数据类,所述第二类别为分类数据类。
23.如权利要求20所述的方法,其特征在于,所述根据所述多个物体图像及所述属性值,并对所述深度神经网络进行训练,以得到物体属性预测模型,包括:
将所述物体图像作为所述输入层的数据,通过所述第一共有特征抽取子网络从所述物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有第一类别的属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述第二类别的属性的预测值;
获取所有所述物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;
若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型;否则,调整所述深度神经网络的连接权重参数,并对调整后的深度神经网络进行训练。
24.如权利要求20所述的方法,其特征在于,所述根据所述多个属性和所述属性值类别,,并构建深度神经网络,包括:
获取所述属性所属的属性集合;
针对各个所述属性集合,构建与所述属性集合内所有所述第一类别的属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述第二类别的属性对应的所述分类结构的属性预测子网络。
25.如权利要求20所述的方法,其特征在于,所述根据所述多个物体图像及所述属性值,并对所述深度神经网络进行训练,以得到物体属性预测模型,采用如下训练目标函数:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
26.如权利要求25所述的方法,其特征在于,所述第一类别的属性的损失函数包括欧式距离损失函数;所述第二类别的属性的损失函数包括交叉熵损失函数。
27.如权利要求20-26任一项所述的方法,其特征在于,所述根据所述多个物体图像及所述属性值,并对所述深度神经网络进行训练,以得到物体属性预测模型,采用如下方式:
通过随机梯度下降算法,根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
28.如权利要求20-26任一项所述的方法,其特征在于,所述第一共有特征抽取子网络采用卷积神经网络结构。
29.如权利要求20-26任一项所述的方法,其特征在于,所述回归结构的属性预测子网络和/或所述分类结构的属性预测子网络包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。
30.一种物体属性预测模型构建装置,其特征在于,包括:
训练数据获取单元,用于获取标注有多个属性的属性值的多个物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括第一类别和第二类别;
深度神经网络构建单元,用于根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述第一共有特征为包含所述第一类别的属性和所述第二类别的属性的特征,所述回归结构的属性预测子网络用于预测至少一个第一类别的属性,所述分类结构的属性预测子网络用于预测至少一个第二类别的属性;
物体属性预测模型生成单元,用于根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到物体属性预测模型。
31.如权利要求30所述的装置,其特征在于,所述第一类别为有序属性类,所述第二类别为无序属性类;其中,所述有序属性类的属性的不同属性值之间具有顺序关系;所述无序属性类的属性的不同属性值之间不具有顺序关系。
32.如权利要求30所述的装置,其特征在于,所述第一类别为数值数据类,所述第二类别为分类数据类。
33.如权利要求30所述的装置,其特征在于,所述物体属性预测模型生成单元包括:
属性预测子单元,用于将所述物体图像作为所述输入层的数据,通过所述第一共有特征抽取子网络从所述物体图像中抽取所述第一共有特征,所述第一共有特征为所述至少一个回归结构的属性预测子网络和所述至少一个分类结构的属性预测子网络的输入数据;通过所述至少一个回归结构的属性预测子网络,获取所述物体图像的所有第一类别的属性的预测值,以及,通过所述至少一个分类结构的属性预测子网络预测,获取所述物体图像的所有所述第二类别的属性的预测值;
总预测误差获取子单元,用于获取所有所述物体图像的各个所述属性的所述属性值和所述预测值之间的误差之和;
物体属性预测模型确定子单元,用于若所述误差之和满足预设的停止训练条件,则将所述深度神经网络作为所述物体属性预测模型;
网络参数调整子单元,用于若所述误差之和不满足所述预设的停止训练条件,则调整所述深度神经网络的连接权重参数,并启动所述属性预测子单元。
34.如权利要求30所述的装置,其特征在于,所述深度神经网络构建单元包括:
属性集合获取子单元,用于获取所述属性所属的属性集合;
属性预测子网络构建子单元,用于针对各个所述属性集合,构建与所述属性集合内所有所述第一类别的属性对应的所述回归结构的属性预测子网络,以及,构建与所述属性集合内所有所述第二类别的属性对应的所述分类结构的属性预测子网络。
35.如权利要求30所述的装置,其特征在于:
所述物体属性预测模型生成单元,具体用于采用如下训练目标函数对所述深度神经网络进行训练:
其中,G表示所述回归结构的属性预测子网络和所述分类结构的属性预测子网络的总数量,Tg是第g个属性预测子网络可预测的所有属性的数量,N表示所述多个物体图像的数量;f是属性预测函数,f(xi g,j;wg,j)为第i个物体图像的第g个属性预测子网络下第j个属性的预测值,yi *g,j是第i个物体图像的第g个属性预测子网络下第j个属性的属性值,l是第g个属性预测子网络下第j个属性的损失函数,是第g个属性预测子网络下第j个属性的属性预测误差,φ(wg,j)是第g个属性预测子网络下第j个属性的惩罚权重复杂度的正则项;λg表示第g个属性预测子网络下所述属性的所述属性预测误差的权重。
36.如权利要求35所述的装置,其特征在于,所述第一类别的属性的损失函数包括欧式距离损失函数;所述第二类别的属性的损失函数包括交叉熵损失函数。
37.如权利要求30-36任一项所述的装置,其特征在于:
所述物体属性预测模型生成单元,具体用于通过随机梯度下降算法,根据所述多个训练用物体图像及所述属性值,对所述深度神经网络进行训练,以得到所述物体属性预测模型。
38.如权利要求30-36任一项所述的装置,其特征在于,所述第一共有特征抽取子网络采用卷积神经网络结构。
39.如权利要求30-36任一项所述的装置,其特征在于,所述回归结构的属性预测子网络和/或所述分类结构的属性预测子网络包括第二共有特征抽取子网络,所述第二共有特征抽取子网络采用卷积神经网络结构,所述第二共有特征为包含所述回归结构的属性预测子网络或所述分类结构的属性预测子网络预测的所有属性的特征。
40.一种电子设备,其特征在于,包括:
至少一个存储器;
耦合到所述至少一个存储器的至少一个处理器,所述至少一个处理器配置为:获取标注有多个属性的属性值的多个物体图像;以及,获取所述多个属性的属性值类别,所述属性值类别包括第一类别和第二类别;根据所述多个属性和所述属性值类别,构建深度神经网络;其中,所述深度神经网络包含输入层、与所述输入层连接的第一共有特征抽取子网络、及并列连接在所述第一共有特征抽取子网络之后的至少一个回归结构的属性预测子网络和至少一个分类结构的属性预测子网络,所述第一共有特征为包含所述第一类别的属性和所述第二类别的属性的特征,所述回归结构的属性预测子网络用于预测至少一个第一类别的属性,所述分类结构的属性预测子网络用于预测至少一个第二类别的属性;根据所述多个物体图像及所述属性值,对所述深度神经网络进行训练,以得到物体属性预测模型。
41.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至9、20至29中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711001059.2A CN109697395A (zh) | 2017-10-24 | 2017-10-24 | 物体属性预测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711001059.2A CN109697395A (zh) | 2017-10-24 | 2017-10-24 | 物体属性预测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109697395A true CN109697395A (zh) | 2019-04-30 |
Family
ID=66227806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711001059.2A Pending CN109697395A (zh) | 2017-10-24 | 2017-10-24 | 物体属性预测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697395A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490052A (zh) * | 2019-07-05 | 2019-11-22 | 山东大学 | 基于级联多任务学习的人脸检测及人脸属性分析方法及系统 |
CN111680170A (zh) * | 2020-06-11 | 2020-09-18 | 南京星火技术有限公司 | 周期结构的物理特性预测方法、装置及相关产品 |
CN111881303A (zh) * | 2020-07-28 | 2020-11-03 | 内蒙古众城信息科技有限公司 | 一种城市异构节点分类的图网络结构方法 |
CN113418948A (zh) * | 2021-08-23 | 2021-09-21 | 中南大学 | 基于矿物相结构特征和重金属同异质属性判断微观结合作用的方法 |
US20210303833A1 (en) * | 2019-07-23 | 2021-09-30 | Shenzhen University | Object attribute inference method, storage medium and electronic device |
US20220270398A1 (en) * | 2020-07-03 | 2022-08-25 | Nec Corporation | Detection device, learning device, detection method and storage medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404877A (zh) * | 2015-12-08 | 2016-03-16 | 商汤集团有限公司 | 基于深度学习和多任务学习的人脸属性预测方法及装置 |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
-
2017
- 2017-10-24 CN CN201711001059.2A patent/CN109697395A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404877A (zh) * | 2015-12-08 | 2016-03-16 | 商汤集团有限公司 | 基于深度学习和多任务学习的人脸属性预测方法及装置 |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490052A (zh) * | 2019-07-05 | 2019-11-22 | 山东大学 | 基于级联多任务学习的人脸检测及人脸属性分析方法及系统 |
US20210303833A1 (en) * | 2019-07-23 | 2021-09-30 | Shenzhen University | Object attribute inference method, storage medium and electronic device |
US12100501B2 (en) * | 2019-07-23 | 2024-09-24 | Shenzhen University | Object attribute inference method, storage medium and electronic device |
CN111680170A (zh) * | 2020-06-11 | 2020-09-18 | 南京星火技术有限公司 | 周期结构的物理特性预测方法、装置及相关产品 |
CN111680170B (zh) * | 2020-06-11 | 2023-05-02 | 南京星火技术有限公司 | 周期结构的物理特性预测方法、装置及相关产品 |
US20220270398A1 (en) * | 2020-07-03 | 2022-08-25 | Nec Corporation | Detection device, learning device, detection method and storage medium |
CN111881303A (zh) * | 2020-07-28 | 2020-11-03 | 内蒙古众城信息科技有限公司 | 一种城市异构节点分类的图网络结构方法 |
CN113418948A (zh) * | 2021-08-23 | 2021-09-21 | 中南大学 | 基于矿物相结构特征和重金属同异质属性判断微观结合作用的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697395A (zh) | 物体属性预测方法、装置及设备 | |
Xing et al. | An efficient federated distillation learning system for multitask time series classification | |
Zhang et al. | Graph edge convolutional neural networks for skeleton-based action recognition | |
Chen et al. | LSTM networks for mobile human activity recognition | |
Huang et al. | Cross-domain image retrieval with a dual attribute-aware ranking network | |
CN110288018A (zh) | 一种融合深度学习模型的WiFi身份识别方法 | |
Wu et al. | ClothGAN: generation of fashionable Dunhuang clothes using generative adversarial networks | |
CN109598186A (zh) | 一种基于多任务深度学习的行人属性识别方法 | |
Wang et al. | Deep multi-task learning for joint prediction of heterogeneous face attributes | |
CN109543602A (zh) | 一种基于多视角图像特征分解的行人再识别方法 | |
CN116762089A (zh) | 基于多模态时装知识图谱的产品推荐系统及方法 | |
Astudillo et al. | Imposing tree-based topologies onto self organizing maps | |
CN117152788B (zh) | 基于知识蒸馏与多任务自监督学习的骨架行为识别方法 | |
Marcus | A comprehensive review of artificial bee colony algorithm | |
Zhao et al. | Learning discriminative region representation for person retrieval | |
Park et al. | Neurocartography: Scalable automatic visual summarization of concepts in deep neural networks | |
Zhang et al. | Class relatedness oriented-discriminative dictionary learning for multiclass image classification | |
Ahmed et al. | Robust Object Recognition with Genetic Algorithm and Composite Saliency Map | |
CN116012094A (zh) | 一种深度图匹配网络及基于该网络的时尚搭配推荐方法 | |
CN117386344A (zh) | 一种基于两阶段学习的钻井异常工况诊断方法及系统 | |
Ly et al. | Large‐Scale Coarse‐to‐Fine Object Retrieval Ontology and Deep Local Multitask Learning | |
Balim et al. | Diagnosing fashion outfit compatibility with deep learning techniques | |
CN112699261B (zh) | 一种服装图像自动生成系统及方法 | |
Li et al. | Facial age estimation by deep residual decision making | |
CN113705301A (zh) | 图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190430 |