CN117409450A - 一种年龄识别方法、装置、电子设备及存储介质 - Google Patents
一种年龄识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117409450A CN117409450A CN202210794799.0A CN202210794799A CN117409450A CN 117409450 A CN117409450 A CN 117409450A CN 202210794799 A CN202210794799 A CN 202210794799A CN 117409450 A CN117409450 A CN 117409450A
- Authority
- CN
- China
- Prior art keywords
- age
- identified
- human body
- target
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 30
- 238000007499 fusion processing Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 210000003127 knee Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请提供了一种年龄识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,可以充分利用与年龄高度相关的特征或信息,能够基于多个维度准确地识别出待识别对象的真实年龄,提升了年龄预测的准确度。该方法包括:获取待识别对象在预设视频中的空间特征和运动特征;其中,该空间特征用于表征该待识别对象在该预设视频中的至少两个关键点之间的位置关系,该运动特征用于表征该至少两个关键点在该预设视频中的位置变化情况,该至少两个关键点为该待识别对象中的人体关键点;基于该空间特征、该运动特征以及该待识别对象的人脸特征,确定该待识别对象的年龄。本申请可用于识别用户的年龄。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种年龄识别方法、装置、电子设备及存储介质。
背景技术
目前,年龄识别装置可以将某一人脸图像输入到人脸年龄识别模型中,以预测出该人脸图像对应的用户年龄。
但是,在用户年龄的预测过程中,会存在一些影响到用户年龄的其他因素(例如身高等),如此上述仅基于单一人脸图像预测用户年龄的方式可能是不合理的,无法准确地预测出用户的真实年龄。
发明内容
本申请提供一种年龄识别方法、装置、电子设备及存储介质,解决了相关技术在用户年龄的预测过程中,会存在一些影响到用户年龄的其他因素(例如身高等),如此仅基于单一人脸图像预测用户年龄的方式可能是不合理的,无法准确地预测出用户的真实年龄的技术问题。
本申请实施例的技术方案如下:
第一方面,本申请提供一种年龄识别方法。该方法可以包括:获取待识别对象在预设视频中的空间特征和运动特征;其中,该空间特征用于表征该待识别对象在该预设视频中的至少两个关键点之间的位置关系,该运动特征用于表征该至少两个关键点在该预设视频中的位置变化情况,该至少两个关键点为该待识别对象中的人体关键点;基于该空间特征、该运动特征以及该待识别对象的人脸特征,确定该待识别对象的年龄。
本申请中,由于待识别对象在预设视频中的空间特征可以表征该待识别对象的身高、身材等信息,该待识别对象在该预设视频中的运动特征可以表征该待识别对象的运动姿态等信息,因此电子设备基于该空间特征、该运动特征以及该待识别对象的人脸特征确定该待识别对象的年龄,可以充分利用这些与年龄高度相关的特征或信息,能够基于多个维度准确地识别出待识别对象的真实年龄,提升了年龄预测的准确度。
可选地,上述获取待识别对象在预设视频中的空间特征具体包括:确定预设人体构造信息以及该待识别对象在该预设视频中的人体关键信息;其中,该预设人体构造信息包括该至少两个关键点之间的连接关系,该人体关键信息包括该至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片;基于该预设人体构造信息以及该人体关键信息,确定该空间特征。
本申请中,由于预设人体构造信息包括至少两个关键点之间的连接关系,具体为该至少两个关键点中每个关键点与哪些关键点之间存在连接关系;人体关键信息包括该每个关键点在预设视频中包括的多个图片中各自的位置信息;如此电子设备基于该预设人体构造信息以及该人体关键信息确定该空间特征,即可以结合该至少两个关键点之间的连接关系以及该每个关键点在该多个图片中各自的位置,确定出该至少两个关键点之间的位置关系(即该空间特征),能够方便、快捷地确定出可以表征不同年龄段的对象的身高、身材等信息的空间特征,进而可以提升年龄识别的效率。
可选地,上述基于该预设人体构造信息以及该人体关键信息,确定该空间特征具体包括:根据该预设人体构造信息,确定该至少两个关键点的邻接矩阵以及该至少两个关键点的度矩阵,该邻接矩阵用于表征该至少两个关键点之间的连接关系,该度矩阵用于表征该每个关键点对应的连接关系的数量;将该人体关键信息输入特征提取网络,以基于该人体关键信息、该邻接矩阵、该度矩阵以及目标网络层的权重,确定该空间特征,该目标网络层为该特征提取网络包括的网络层中的一个。
本申请中,由于邻接矩阵可以表征至少两个关键点之间连接关系,度矩阵可以表征该至少两个关键点中每个关键点对应的连接关系的数量,因此,电子设备将人体关键信息输入特征提取网络,以基于该人体关键信息、该邻接矩阵、该度矩阵以及目标网络层的权重,能够准确、有效地确定出空间特征,可以准确地表征出不同年龄段的对象的身高、身材等信息,进而能够提升年龄识别的准确度。
可选地,获取该待识别对象在该预设视频中的运动特征具体包括:根据该待识别对象在预设视频中的人体关键信息,确定该运动特征;该人体关键信息包括该至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片。
本申请中,由于人体关键信息包括至少两个关键点中每个关键点在多个图片中各自的位置信息,因此基于该人体关键信息可以确定出该至少两个关键点在该多个图片中的位置信息的变化情况,即可以确定出该至少两个关键点在预设视频中的位置变化情况,能够方便、快捷地确定出待识别对象在预设视频中的运动特征。
可选地,上述根据该待识别对象在预设视频中的人体关键信息,确定该运动特征具体包括:将该人体关键信息输入特征提取网络,以基于该人体关键信息以及目标网络层的权重,确定该运动特征,该目标网络层为该特征提取网络包括的网络层中的一个。
本申请中,由于人体关键信息包括至少两个关键点中每个关键点在多个图片中各自的位置信息,因此,电子设备将人体关键信息输入特征提取网络,以基于该人体关键信息以及目标网络层的权重,能够准确、有效地确定出运动特征,可以准确地表征出不同年龄段的对象的运动姿态等信息,进而能够提升年龄识别的准确度。
可选地,上述年龄识别方法还包括:获取该每个关键点在该多个图片中每个图片的三维坐标;在检测到该三维坐标中包括深度信息的情况下,以该深度信息为基准,对该三维坐标进行归一化处理,得到该每个关键点在该每个图片中的位置信息。
本申请中,电子设备以深度信息为基准,对三维坐标进行归一化处理,可以将每个关键点归一化到与摄像头具有统一的距离,得到的每个关键点在每个图片中的位置信息能够消除摄像机在成像过程中存在的近大远小的现象,基于该每个关键点在该每个图片中的位置信息可以准确的确定出待识别对象在预设视频中的人体关键信息,能够提升年龄识别的准确度。
可选地,上述基于该空间特征、该运动特征以及该待识别对象的人脸特征,确定该待识别对象的年龄具体包括:对该空间特征、该运动特征以及该人脸特征进行融合处理,得到该待识别对象的目标特征;基于该目标特征,确定该待识别对象的年龄。
本申请中,由于目标特征是电子设备对空间特征、运动特征以及人脸特征进行融合处理得到的特征,因此该目标特征可以同时表征待识别对象的身高、身材,该待识别对象的运动姿态以及该待识别对象的面部特性。如此,电子设备基于该目标特征,能够准确、有效地识别出待识别对象的真实年龄,提升了年龄预测的准确度。
可选地,上述基于该目标特征,确定该待识别对象的年龄具体包括:将该目标特征输入目标年龄识别模型,得到该待识别对象的年龄;其中,该目标年龄识别模型用于识别对象的年龄。
本申请中,由于该目标年龄识别模型为已经训练完成的、预测精度较高的年龄识别模型。如此电子设备将该待识别对象的目标特征输入该目标年龄识别模型,可以基于已经训练完成的目标年龄识别模型准确地识别出待识别对象的年龄,提升了年龄识别的准确度。
可选地,上述年龄识别方法还包括:确定训练对象的目标特征,并且将该训练对象的目标特征输入初始年龄识别模型,得到该训练对象的预测年龄;确定目标损失函数,该目标损失函数用于表征该训练对象的预测年龄与该训练对象的真实年龄之间的不一致程度;基于该目标损失函数,更新该初始年龄识别模型,得到该目标年龄识别模型。
本申请中,电子设备可以基于训练对象的预测年龄与该训练对象的真实年龄之间的不一致程度,更新初始年龄识别模型,可以提升模型训练的有效性,能够得到预测精度较高的目标年龄识别模型,进而提升年龄识别的准确度。
第二方面,本申请提供一种年龄识别装置。该装置可以包括:获取模块和确定模块;该获取模块,用于获取待识别对象在预设视频中的空间特征和运动特征;其中,该空间特征用于表征该待识别对象在该预设视频中的至少两个关键点之间的位置关系,该运动特征用于表征该至少两个关键点在该预设视频中的位置变化情况,该至少两个关键点为该待识别对象中的人体关键点;该确定模块,用于基于该空间特征、该运动特征以及该待识别对象的人脸特征,确定该待识别对象的年龄。
可选地,该确定模块,具体用于确定预设人体构造信息以及该待识别对象在该预设视频中的人体关键信息;其中,该预设人体构造信息包括该至少两个关键点之间的连接关系,该人体关键信息包括该至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片;该确定模块,具体还用于基于该预设人体构造信息以及该人体关键信息,确定该空间特征。
可选地,该确定模块,具体用于根据该预设人体构造信息,确定该至少两个关键点的邻接矩阵以及该至少两个关键点的度矩阵,该邻接矩阵用于表征该至少两个关键点之间的连接关系,该度矩阵用于表征该每个关键点对应的连接关系的数量;该确定模块,具体还用于将该人体关键信息输入特征提取网络,以基于该人体关键信息、该邻接矩阵、该度矩阵以及目标网络层的权重,确定该空间特征,该目标网络层为该特征提取网络包括的网络层中的一个。
可选地,该确定模块,具体用于根据该待识别对象在预设视频中的人体关键信息,确定该运动特征;该人体关键信息包括该至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片。
可选地,该确定模块,具体还用于将该人体关键信息输入特征提取网络,以基于该人体关键信息以及目标网络层的权重,确定该运动特征,该目标网络层为该特征提取网络包括的网络层中的一个。
可选地,上述年龄识别装置还包括处理模块;该获取模块,还用于获取该每个关键点在该多个图片中每个图片的三维坐标;该处理模块,用于在检测到该三维坐标中包括深度信息的情况下,以该深度信息为基准,对该三维坐标进行归一化处理,得到该每个关键点在该每个图片中的位置信息。
可选地,该处理模块,用于对该空间特征、该运动特征以及该人脸特征进行融合处理,得到该待识别对象的目标特征;该确定模块,具体用于基于该目标特征,确定该待识别对象的年龄。
可选地,该处理模块,具体用于将该目标特征输入目标年龄识别模型,得到该待识别对象的年龄;其中,该目标年龄识别模型用于识别对象的年龄。
可选地,该确定模块,还用于确定训练对象的目标特征,并且将该训练对象的目标特征输入初始年龄识别模型,得到该训练对象的预测年龄;该确定模块,还用于确定目标损失函数,该目标损失函数用于表征该训练对象的预测年龄与该训练对象的真实年龄之间的不一致程度;该处理模块,还用于基于该目标损失函数,更新该初始年龄识别模型,得到该目标年龄识别模型。
第三方面,本申请提供一种电子设备,可以包括:处理器和被配置为存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现上述第一方面中任一种可选地年龄识别方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当该计算机可读存储介质中的指令由电子设备执行时,使得该电子设备能够执行上述第一方面中任一种可选地年龄识别方法。
第五方面,本申请提供一种计算机程序产品,该计算机程序产品包括计算机指令,当该计算机指令在电子设备上运行时,使得该电子设备执行如第一方面中任一种可选地年龄识别方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1示出了本申请实施例提供的一种年龄识别方法的流程示意图;
图2示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图3示出了本申请实施例提供的一种得到待识别对象在预设视频中的人体关键信息的示意图;
图4示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图5示出了本申请实施例提供的一种在空间图卷积神经网络中提取待识别对象在预设视频中的空间特征的示意图;
图6示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图7示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图8示出了本申请实施例提供的一种在时间图卷积神经网络中提取待识别对象在预设视频中的运动特征的示意图;
图9示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图10示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图11示出了本申请实施例提供的一种确定待识别对象的年龄的示意图;
图12示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图13示出了本申请实施例提供的又一种年龄识别方法的流程示意图;
图14示出了本申请实施例提供的一种年龄识别装置的结构示意图;
图15示出了本申请实施例提供的又一种年龄识别装置的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于空间特征、运动特征以及人脸特征等),均为经用户授权或者经过各方充分授权的信息和数据。
相关技术中,在用户年龄的预测过程中,会存在一些影响到用户年龄的其他因素(例如身高等),如此仅基于单一人脸图像预测用户年龄的方式可能是不合理的,无法准确地预测出用户的真实年龄。
基于此,本申请实施例提供一种年龄识别方法,由于待识别对象在预设视频中的空间特征可以表征待识别对象的身高、身材等信息,该待识别对象在该预设视频中的运动特征可以表征待识别对象的运动姿态等信息,因此电子设备基于该空间特征、该运动特征以及该待识别对象的人脸特征确定该待识别对象的年龄,可以充分利用这些与年龄高度相关的特征或信息,能够基于多个维度准确地识别出待识别对象的真实年龄,提升了年龄预测的准确度。
本申请实施例提供的年龄识别方法、装置、电子设备及存储介质,应用于年龄识别(或年龄预测)的场景中。当电子设备获取到待识别对象在预设识别中的空间特征和运动特征之后,可以基于该空间特征、该运动热证以及该待识别对象的人脸特征,确定出该待识别对象的年龄。
以下结合附图对本申请实施例提供的年龄识别方法进行示例性说明:
示例性的,执行本申请实施例提供的年龄识别方法的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digitalassistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等,本申请对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
可选地,该电子设备还可以为服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
如图1所示,本申请实施例提供的年龄识别方法可以包括S101-S102。
S101、电子设备获取待识别对象在预设视频中的空间特征和运动特征。
其中,该空间特征用于表征该待识别对象在该预设视频中的至少两个关键点之间的位置关系,该运动特征用于表征该至少两个关键点在该预设视频中的位置变化情况,该至少两个关键点为该待识别对象中的人体关键点。
本申请实施例中,该人体关键点可以为人体的关键部位。示例性的,该人体关键点可以包括鼻子、眼睛、耳朵、颈部、肩膀、手肘、手部、腰部、膝盖以及脚部等。
应理解,上述待识别对象为预设视频中包括的对象。该待识别对象在该预设视频中的至少两个关键点之间的位置关系可以包括方向关系和距离关系。具体的,该方向关系用于表征一个关键点在另一个关键点的预设方向上,例如鼻子在颈部的上方,左眼在右眼的左方(或左侧);该距离关系用于表征一个关键点与另一个关键点之间间隔一定的距离,例如左眼与右眼之间可以间隔60mm(毫米)。
可以理解的是,该待识别对象在该预设视频中的位置信息可能会随着该预设视频的播放(也可以理解为按照时间先后顺序)而变化,具体为上述至少两个关键点的各自的位置信息可能会随着该预设视频的播放而变化,即上述位置变化情况可以理解为随着预设视频的播放(或随着时间的变化)该至少两个关键点的位置变化情况。例如,假设在该预设视频开始播放时某一个关键点的位置信息为第一位置,在该预设视频结束播放时该关键点的位置信息为第二位置,该第二位置相较于该第一位置而言,向右移动了一定的距离(例如100mm)。
需要说明的是,随着上述预设视频的播放(或随着时间的变化)上述至少两个关键点中可能有且只有1个关键点的位置信息发生变化,也可能该至少两个关键点中每个关键点的位置信息均发生变化。本申请实施例对位置信息发生变化的关键点的数量不作具体限定。
S102、电子设备基于空间特征、运动特征以及待识别对象的人脸特征,确定待识别对象的年龄。
应理解,该人脸特征可以表征该待识别对象的面部特性。
在一种可选的实现方式中,电子设备可以将待识别对象的人脸图像输入深度残差网络(deep residual network,ResNet),以得到该人脸特征。
可以理解的是,上述空间特征可以表征不同年龄段的对象的身高、身材等信息,具体的,成年人的身高一般是要大于未成年人的身高的,成年人的肩宽(即左肩膀与右肩膀之间的距离)一般也是要大于未成年人的肩宽的。上述运动特征可以表征不同年龄段的对象的运动姿态等信息,具体的,未成年人一般情况下比较活泼好动(可以理解为上述位置变化情况较大,具体为上述至少两个关键点中每个关键点的位置信息可能均会发生变化),成年人一般情况下是比较沉稳的(可以理解为位置变化情况较小,具体为该至少两个关键点中可能只有很少一部分的关键点的位置信息会发生变化)。
上述实施例提供的技术方案至少能够带来以下有益效果:由S101-S102可知,电子设备可以获取待识别对象在预设视频中的空间特征和运动特征,由于该空间特征可以表征待识别对象的身高、身材等信息,该运动特征可以表征待识别对象的运动姿态等信息,因此电子设备基于该空间特征、该运动特征以及该待识别对象的人脸特征确定该待识别对象的年龄,可以充分利用这些与年龄高度相关的特征或信息,能够基于多个维度准确地识别出待识别对象的真实年龄,提升了年龄预测的准确度。
结合图1,如图2所示,在本申请实施例的一种实现方式中,上述电子设备获取待识别对象在预设视频中的空间特征,具体包括S1011-S1012。
S1011、电子设备确定预设人体构造信息以及待识别对象在预设视频中的人体关键信息。
其中,该预设人体构造信息包括上述至少两个关键点之间的连接关系,该人体关键信息包括该至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片。
应理解,该预设人体构造信息可以理解为人体的结构构造,该至少两个关键点之间的连接关系用于表征该至少两个关键点中每个关键点与哪些关键点之间存在(或具有)连接关系。例如上述颈部分别与左肩以及右肩存在连接关系,左肘分别与左肩以及左手存在连接关系,右膝盖分别与右脚以及腰部右侧存在连接关系。
可以理解的是,一个关键点与另一个关键点之间存在的连接关系也可以理解为一条边,该条边用于连接该关键点与该另一个关键点。
在一种可选的实现方式中,电子设备可以对上述预设视频进行抽帧处理,得到多个视频帧,一个视频帧对应一个图片,即电子设备可以得到上述多个图片。
示例性的,如图3所示,电子设备可以对该预设视频进行抽帧处理,得到多个第一图片,该多个第一图片中每个第一图片可以包括多个对象(例如4个对象);然后电子设备可以基于该多个第一图片得到多个第二图片,该多个第二图片中每个第二图片仅包括1个对象(可以理解为待识别对象);之后,电子设备可以基于该多个第二图片,确定该待识别对象在该预设视频中的人体关键信息。
可选的,电子设备可以获取该多个图片的生成时间,并且根据该多个图片的生成时间确定该多个图片的时间先后顺序,然后按照该时间先后顺序对该至少两个关键点在该多个图片中的位置信息进行排序,以生成上述人体关键信息。
S1012、电子设备基于预设人体构造信息以及人体关键信息,确定空间特征。
本申请实施例中,由于该预设人体构造信息包括上述至少两个关键点之间的连接关系,具体为该至少两个关键点中每个关键点与哪些关键点之间存在连接关系;该人体关键信息包括该每个关键点在预设视频中包括的多个图片中各自的位置信息;如此电子设备基于该预设人体构造信息以及该人体关键信息确定该空间特征,即可以结合该至少两个关键点之间的连接关系以及该每个关键点在该多个图片中各自的位置,确定出该至少两个关键点之间的位置关系(即该空间特征),能够方便、快捷地确定出可以表征不同年龄段的对象的身高、身材等信息的空间特征,进而可以提升年龄识别的效率。
结合图2,如图4所示,在本申请实施例的一种实现方式中,上述电子设备基于预设人体构造信息以及人体关键信息,确定空间特征,具体可以包括S1012a-S1012b。
S1012a、电子设备根据预设人体构造信息,确定至少两个关键点的邻接矩阵以及至少两个关键点的度矩阵。
其中,该邻接矩阵用于表征该至少两个关键点之间的连接关系,该度矩阵用于表征该至少两个关键点中每个关键点对应的连接关系的数量。
应理解,一个关键点对应的连接关系的数量为该关键点存在(或具有)的连接关系的数量。假设该关键点为颈部,颈部与左肩存在连接关系并且与右肩也存在连接关系,则电子设备确定颈部存在连接关系的数量为2,即该关键点对应的连接关系的数量为2。
S1012b、电子设备将人体关键信息输入特征提取网络,以基于人体关键信息、邻接矩阵、度矩阵以及目标网络层的权重,确定空间特征。
其中,该目标网络层为该特征提取网络包括的网络层中的一个。
在一种可选的实现方式中,该特征提取网络中可以包括空间(spatial)图卷积神经网络(graph convolutional networks,GCN)。电子设备将该人体关键信息输入该空间图卷积神经网络,以基于该人体关键信息、该邻接矩阵、该度矩阵以及该目标网络层的权重,确定该空间特征。
应理解,上述S1012a可以为该特征提取网络(具体为该空间图卷积神经网络)内部的执行过程,即该特征提取网络可以根据上述人体构造信息确定该邻接矩阵以及该度矩阵。
示例性的,如图5所示,电子设备可以为上述至少两个关键点配置分区策略。具体的,电子设备可以将一部分关键点(例如颈部、右肩、右肘以及腰部右侧)划分为一个区域,将另一部分关键点(例如腰部左侧、左膝盖以及左脚)划分为另一个区域;并且确定每一个区域的邻接矩阵,然后确定该至少两个关键点的邻接矩阵,进而确定待识别对象在预设视频中的空间特征。
在本申请实施例的一种实现方式中,电子设备可以确定上述空间特征满足下述公式(1)。
F'=D-1AD*F*W 公式(1)
其中,F'表示该空间特征,D-1表示该度矩阵的逆矩阵,A表示该邻接矩阵,D表示该度矩阵,F表示该人体关键信息,W表示该目标网络层的权重。
上述实施例提供的技术方案至少能够带来以下有益效果:由S1012a-S1012b可知,电子设备可以根据预设人体构造信息,确定至少两个关键点的邻接矩阵以及该至少两个关键点的度矩阵;然后该电子设备可以将人体关键信息输入特征提取网络,以基于该人体关键信息、该邻接矩阵、该度矩阵以及该特征提取网络包括的某一个网络层(即目标网络层)的权重,确定待识别对象在预设视频中的空间特征。本申请实施例中,由于邻接矩阵可以表征至少两个关键点之间连接关系,度矩阵可以表征该至少两个关键点中每个关键点对应的连接关系的数量,因此,电子设备将人体关键信息输入特征提取网络,以基于该人体关键信息、该邻接矩阵、该度矩阵以及目标网络层的权重,能够准确、有效地确定出空间特征,可以准确地表征出不同年龄段的对象的身高、身材等信息,进而能够提升年龄识别的准确度。
结合图1,如图6所示,在本申请实施例的一种实现方式中,电子设备获取待识别对象在预设视频中的运动特征,具体包括S1013。
S1013、电子设备根据待识别对象在预设视频中的人体关键信息,确定运动特征。
其中,该人体关键信息包括上述至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片。
应理解,由于该人体关键信息包括该至少两个关键点中每个关键点在该多个图片中各自的位置信息,因此基于该人体关键信息可以确定出该至少两个关键点在该多个图片中的位置信息的变化情况,即可以确定出该至少两个关键点在上述预设视频中的位置变化情况,能够方便、快捷地确定出待识别对象在预设视频中的运动特征。
结合上述实施例的描述,应理解,该多个图片的生成时间是不同的,即该多个图片是具有时间先后顺序的,因此该运动特征也可以理解为待识别对象在预设视频中的时间特征,该时间特征可以表征上述至少两个关键点在该预设视频中的(具体为随着时间变化的)位置变化情况。
结合图6,如图7所示,在本申请实施例的一种实现方式中,电子设备根据待识别对象在预设视频中的人体关键信息,确定待识别对象在预设视频中的运动特征,具体包括S1013a。
S1013a、电子设备将人体关键信息输入特征提取网络,以基于人体关键信息以及目标网络层的权重,确定运动特征。
其中,该目标网络层为该特征提取网络中包括的网络层中的一个。
在一种可选的实现方式中,该特征提取网络中还可以包括时间(temporal)图卷积神经网络。电子设备将该人体关键信息输入该时间图卷积神经网络,以基于该人体关键信息以及该目标网络层的权重,确定该运动特征。
示例性的,如图8所示,假设图片1、图片2、图片3以及图片4分别对应于上述多个图片中的第一帧图片、第二帧图片、第三帧图片以及第四帧图片,该图片1用于表征上述至少两个关键点中每个关键点在该第一帧图片中的位置信息,该图片2用于表征该每个关键点在该第二帧图片中的位置信息,该图片3用于表征该每个关键点在该第三帧图片中的位置信息,该图片4用于表征该每个关键点在该第四帧图片中的位置信息。又假设上述时间图卷积神经网络的卷积核为3,则电子设备可以将该每个关键点在任意相邻3帧图片中的位置信息进行卷积操作,进而得到待识别对象在预设视频中的运动特征。具体的,电子设备可以对左肩在该第一帧图片、该第二帧图片以及该第三帧图片中的位置信息进行卷积操作;该电子设备还可以对左肘在该第二帧图片、该第三帧图片以及该第四帧图片中的位置信息进行卷积操作。
在本申请实施例的一种实现方式中,电子设备可以确定上述运动特征满足下述公式(2。
F”=F*W 公式(2)
其中,F”表示该运动特征,F表示上述人体关键信息,W表示上述目标网络层的权重。
上述实施例提供的技术方案至少能够带来以下有益效果:由S1013a可知,电子设备可以将人体关键信息输入特征提取网络,以基于该人体关键信息以及该特征提取网络包括的某一个网络层(即目标网络层)的权重,确定待识别对象在预设视频中的运动特征。本申请实施例中,由于该人体关键信息包括至少两个关键点中每个关键点在多个图片中各自的位置信息,因此,电子设备将人体关键信息输入特征提取网络,以基于该人体关键信息以及目标网络层的权重,能够准确、有效地确定出运动特征,可以准确地表征出不同年龄段的对象的运动姿态等信息,进而能够提升年龄识别的准确度。
结合图2,如图9所示,本申请实施例提供的年龄识别方法还包括S103-S104。
S103、电子设备获取至少两个关键点中每个关键点在多个图片中每个图片的三维坐标。
应理解,一个关键点在一个图片的三维坐标包括该关键点在该图片中的X轴的坐标、该关键点在该图片中的Y轴的坐标以及该关键点在该图片中的Z轴的坐标。
S104、在检测到三维坐标中包括深度信息的情况下,电子设备以深度信息为基准,对三维坐标进行归一化处理,得到每个关键点在每个图片中的位置信息。
可以理解的是,一个关键点在一个图片的三维坐标中包括的深度信息为该关键点在该图片中的Z轴的坐标。
在一种可选的实现方式中,电子设备可以将该深度信息转化为预设值,并且基于该三维坐标中包括的横坐标(即X轴的坐标)、该三维坐标中包括的纵坐标(即Y轴的坐标)以及该预设值,确定转化后的横坐标以及转化后的纵坐标;然后该电子设备可以基于该转化后的横坐标、该转化后的纵坐标以及该预设值,生成该每个关键点在该每个图片中的位置信息。具体的,该位置信息中包括的X轴的坐标为该转化后的横坐标,该位置信息中包括的Y轴的坐标为该转化后的纵坐标,该位置信息中包括的Z轴的坐标为该预设值。
具体的,上述预设值的取值范围可以为(0,1],示例性的,该预设值可以为1。
应理解,摄像机在成像过程中会存在近大远小的现象,如果在确定上述空间特征以及时间特征的过程中,直接使用上述三维坐标,可能会无法准确地确定出该空间特征以及该时间特征,进而会影响年龄识别的准确程度。本申请实施例中,电子设备以深度信息为基准,对三维坐标进行归一化处理,可以将每个关键点归一化到与摄像头具有统一的距离,得到的每个关键点在每个图片中的位置信息能够消除摄像机在成像过程中存在的近大远小的现象,基于该每个关键点在该每个图片中的位置信息可以准确的确定出待识别对象在预设视频中的人体关键信息,能够提升年龄识别的准确度。
结合图1,如图10所示,在本申请实施例的一种实现方式中,上述电子设备基于空间特征、运动特征以及待识别对象的人脸特征,确定待识别对象的年龄,具体包括S1021-S1022。
S1021、电子设备对空间特征、运动特征以及人脸特征进行融合处理,得到待识别对象的目标特征。
在一种可选的实现方式中,该融合处理为拼接操作,具体为电子设备可以拼接该空间特征、该运动特征以及该人脸特征,以得到该目标特征。
S1022、电子设备基于目标特征,确定待识别对象的年龄。
应理解,由于该目标特征是电子设备对空间特征、运动特征以及人脸特征进行融合处理得到的特征,因此该目标特征可以同时表征待识别对象的身高、身材,该待识别对象的运动姿态以及该待识别对象的面部特性。如此,电子设备基于该目标特征,能够准确、有效地识别出待识别对象的真实年龄,提升了年龄预测的准确度。
示例性的,如图11所示,电子设备可以确定待识别对象的人脸图像,然后将该人脸图像输入ResNet18网络,得到该待识别对象的人脸特征;并且电子设备在确定出该待识别对象在预设视频中的人体关键信息之后,可以将该人体关键信息输入时空图卷积神经网络(即ST-GCN,该ST-GCN中包括上述空间图卷积神经网络以及时间图卷积神经网络)得到该待识别对象在该预设视频中的空间特征和运动特征。之后,电子设备可以对该人脸特征、该空间特征以及该运动特征进行融合处理得到该待识别对象的目标特征,并且基于该目标特征进行年龄预测,即确定该待识别对象的年龄。
结合图10,如图12所示,在本申请实施例的一种实现方式中,上述电子设备基于目标特征,确定待识别对象的年龄,具体包括S1022a。
S1022a、电子设备将目标特征输入目标年龄识别模型,得到待识别对象的年龄。
其中,该目标年龄识别模型用于识别对象的年龄。
应理解,该目标年龄识别模型为已经训练完成的、用于识别对象(包括待识别对象)的年龄的神经网络模型。
可以理解的是,该目标年龄识别模型的输入为某一个对象(例如待识别对象)的目标特征,该目标年龄识别模型的输出为该对象的年龄,电子设备将该对象的目标特征输入该目标年龄识别模型,以基于该目标年龄识别模型识别(或预测)出该对象的年龄。能够基于已经训练完成的目标年龄识别模型准确地识别出待识别对象的年龄,提升了年龄识别的准确度。
结合图12,如图13所示,本申请实施例提供的年龄识别方法还包括S105-S107。
S105、电子设备确定训练对象的目标特征,并且将训练对象的目标特征输入初始年龄识别模型,得到训练对象的预测年龄。
应理解,该训练对象与上述待识别对象为不同的对象。
需要说明的是,电子设备确定该训练对象的目标特征的具体过程与上述电子设备确定该待识别对象的解释说明是相同或类似的,并且电子设备将该训练对象的目标特征输入该初始年龄识别模型得到该训练对象的预测年龄的具体过程与上述电子设备将该待识别对象的目标特征输入上述目标年龄识别模型得到该待识别对象的年龄的解释说明是相同或类似的,此处不再赘述。
S106、电子设备确定目标损失函数。
其中,该目标损失函数用于表征上述训练对象的预测年龄与该训练对象的真实年龄之间的不一致程度。
应理解,上述训练对象的真实年龄为该待训练对象的年龄标签,该训练对象的真实年龄可以理解为该训练对象的年龄的真实值,该训练对象的预测年龄可以理解为该训练对象的预测值。电子设备确定该目标损失函数即为确定该真实值与该预测值之间的不一致程度。
在一种可选的实现方式中,该目标损失函数可以为交叉熵损失函数。
S107、电子设备基于目标损失函数,更新初始年龄识别模型,得到目标年龄识别模型。
具体的,电子设备可以基于该目标损失函数更新该初始年龄识别模型中包括的权重,以得到该目标年龄识别模型。
可以理解的是,该初始年龄识别模型为未训练完成(或未训练)的年龄识别模型,该未训练完成的年龄识别模型的预测精度较低,电子设备基于该初始年龄识别模型无法准确地预测出某一对象(例如待识别对象)的年龄。电子设备基于该目标损失函数更新该初始年龄识别模型,得到的该目标年龄识别模型为已经训练完成的、预测精度较高的年龄识别模型,电子设备基于该目标年龄识别模型能够准确地预测出待识别对象的年龄。
上述实施例提供的技术方案至少能够带来以下有益效果:由S105-S107可知,电子设备可以确定训练对象的目标特征,并且将该待训练对象的目标特征输入初始年龄识别模型得到该训练对象的预测年龄;然后电子设备可以确定目标损失函数,并且基于该目标损失函数更新该初始年龄识别模型,得到目标年龄识别模型。本申请实施例中,电子设备可以基于训练对象的预测年龄与该训练对象的真实年龄之间的不一致程度,更新初始年龄识别模型,可以提升模型训练的有效性,能够得到预测精度较高的目标年龄识别模型,进而提升年龄识别的准确度。
可以理解的,在实际实施时,本申请实施例所述的电子设备可以包含有用于实现前述对应年龄识别方法的一个或多个硬件结构和/或软件模块,这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所申请的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
基于这样的理解,本申请实施例还对应提供一种年龄识别装置,图14示出了本申请实施例提供的年龄识别装置的结构示意图。如图14所示,该年龄识别装置10可以包括:获取模块101和确定模块102。
获取模块101,用于获取待识别对象在预设视频中的空间特征和运动特征;其中,该空间特征用于表征该待识别对象在该预设视频中的至少两个关键点之间的位置关系,该运动特征用于表征该至少两个关键点在该预设视频中的位置变化情况,该至少两个关键点为该待识别对象中的人体关键点。
确定模块102,用于基于该空间特征、该运动特征以及该待识别对象的人脸特征,确定该待识别对象的年龄。
可选地,确定模块102,具体用于确定预设人体构造信息以及该待识别对象在该预设视频中的人体关键信息;其中,该预设人体构造信息包括该至少两个关键点之间的连接关系,该人体关键信息包括该至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片。
确定模块102,具体还用于基于该预设人体构造信息以及该人体关键信息,确定该空间特征。
可选地,确定模块102,具体用于根据该预设人体构造信息,确定该至少两个关键点的邻接矩阵以及该至少两个关键点的度矩阵,该邻接矩阵用于表征该至少两个关键点之间的连接关系,该度矩阵用于表征该每个关键点对应的连接关系的数量。
确定模块102,具体还用于将该人体关键信息输入特征提取网络,以基于该人体关键信息、该邻接矩阵、该度矩阵以及目标网络层的权重,确定该空间特征,该目标网络层为该特征提取网络包括的网络层中的一个。
可选地,确定模块102,具体用于根据该待识别对象在预设视频中的人体关键信息,确定该运动特征;该人体关键信息包括该至少两个关键点中每个关键点在多个图片中各自的位置信息,该多个图片为该预设视频中包括的图片。
可选地,确定模块102,具体还用于将该人体关键信息输入特征提取网络,以基于该人体关键信息以及目标网络层的权重,确定该运动特征,该目标网络层为该特征提取网络包括的网络层中的一个。
可选地,该年龄识别装置20还包括处理模块103。
获取模块101,还用于获取该每个关键点在该多个图片中每个图片的三维坐标。
处理模块103,用于在检测到该三维坐标中包括深度信息的情况下,以该深度信息为基准,对该三维坐标进行归一化处理,得到该每个关键点在该每个图片中的位置信息。
可选地,处理模块103,用于对该空间特征、该运动特征以及该人脸特征进行融合处理,得到该待识别对象的目标特征。
确定模块102,具体用于基于该目标特征,确定该待识别对象的年龄。
可选地,处理模块103,具体用于将该目标特征输入目标年龄识别模型,得到该待识别对象的年龄;其中,该目标年龄识别模型用于识别对象的年龄。
可选地,确定模块102,还用于确定训练对象的目标特征,并且将该训练对象的目标特征输入初始年龄识别模型,得到该训练对象的预测年龄。
确定模块102,还用于确定目标损失函数,该目标损失函数用于表征该训练对象的预测年龄与该训练对象的真实年龄之间的不一致程度。
处理模块103,还用于基于该目标损失函数,更新该初始年龄识别模型,得到该目标年龄识别模型。
如上所述,本申请实施例可以根据上述方法示例对年龄识别装置进行功能模块的划分。其中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,还需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。
关于上述实施例中的年龄识别装置,其中各个模块执行操作的具体方式、以及具备的有益效果,均已经在前述方法实施例中进行了详细描述,此处不再赘述。
图15是本申请提供的另一种年龄识别装置的结构示意图。如图15,该年龄识别装置20可以包括至少一个处理器201以及用于存储处理器可执行指令的存储器203。其中,处理器201被配置为执行存储器203中的指令,以实现上述实施例中的年龄识别方法。
另外,年龄识别装置20还可以包括通信总线202以及至少一个通信接口204。
处理器201可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。
通信总线202可包括一通路,在上述组件之间传送信息。
通信接口204,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器203用于存储执行本申请方案的指令,并由处理器201来控制执行。处理器201用于执行存储器203中存储的指令,从而实现本申请方法中的功能。
在具体实现中,作为一种实施例,处理器201可以包括一个或多个CPU,例如图15中的CPU0和CPU1。
在具体实现中,作为一种实施例,年龄识别装置20可以包括多个处理器,例如图15中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,年龄识别装置20还可以包括输出设备205和输入设备206。输出设备205和处理器201通信,可以以多种方式来显示信息。例如,输出设备205可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备206和处理器201通信,可以以多种方式接受用户的输入。例如,输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。
本领域技术人员可以理解,图15中示出的结构并不构成对年龄识别装置20的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
另外,本申请还提供一种计算机可读存储介质,包括指令,当指令由电子设备执行时,使得电子设备执行如上述实施例所提供的年龄识别方法。
另外,本申请还提供一种计算机程序产品,包括指令,当指令由电子设备执行时,使得电子设备执行如上述实施例所提供的年龄识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
Claims (21)
1.一种年龄识别方法,其特征在于,包括:
获取待识别对象在预设视频中的空间特征和运动特征;其中,所述空间特征用于表征所述待识别对象在所述预设视频中的至少两个关键点之间的位置关系,所述运动特征用于表征所述至少两个关键点在所述预设视频中的位置变化情况,所述至少两个关键点为所述待识别对象中的人体关键点;
基于所述空间特征、所述运动特征以及所述待识别对象的人脸特征,确定所述待识别对象的年龄。
2.根据权利要求1所述的年龄识别方法,其特征在于,所述获取待识别对象在预设视频中的空间特征,包括:
确定预设人体构造信息以及所述待识别对象在所述预设视频中的人体关键信息;其中,所述预设人体构造信息包括所述至少两个关键点之间的连接关系,所述人体关键信息包括所述至少两个关键点中每个关键点在多个图片中各自的位置信息,所述多个图片为所述预设视频中包括的图片;
基于所述预设人体构造信息以及所述人体关键信息,确定所述空间特征。
3.根据权利要求2所述的年龄识别方法,其特征在于,所述基于所述预设人体构造信息以及所述人体关键信息,确定所述空间特征,包括:
根据所述预设人体构造信息,确定所述至少两个关键点的邻接矩阵以及所述至少两个关键点的度矩阵,所述邻接矩阵用于表征所述至少两个关键点之间的连接关系,所述度矩阵用于表征所述每个关键点对应的连接关系的数量;
将所述人体关键信息输入特征提取网络,以基于所述人体关键信息、所述邻接矩阵、所述度矩阵以及目标网络层的权重,确定所述空间特征,所述目标网络层为所述特征提取网络包括的网络层中的一个。
4.根据权利要求1-3中任一项所述的年龄识别方法,其特征在于,获取所述待识别对象在所述预设视频中的运动特征,包括:
根据所述待识别对象在预设视频中的人体关键信息,确定所述运动特征;所述人体关键信息包括所述至少两个关键点中每个关键点在多个图片中各自的位置信息,所述多个图片为所述预设视频中包括的图片。
5.根据权利要求4所述的年龄识别方法,其特征在于,所述根据所述待识别对象在预设视频中的人体关键信息,确定所述运动特征,包括:
将所述人体关键信息输入特征提取网络,以基于所述人体关键信息以及目标网络层的权重,确定所述运动特征,所述目标网络层为所述特征提取网络包括的网络层中的一个。
6.根据权利要求2-5中任一项所述的年龄识别方法,其特征在于,所述方法还包括:
获取所述每个关键点在所述多个图片中每个图片的三维坐标;
在检测到所述三维坐标中包括深度信息的情况下,以所述深度信息为基准,对所述三维坐标进行归一化处理,得到所述每个关键点在所述每个图片中的位置信息。
7.根据权利要求1-6中任一项所述的年龄识别方法,其特征在于,所述基于所述空间特征、所述运动特征以及所述待识别对象的人脸特征,确定所述待识别对象的年龄,包括:
对所述空间特征、所述运动特征以及所述人脸特征进行融合处理,得到所述待识别对象的目标特征;
基于所述目标特征,确定所述待识别对象的年龄。
8.根据权利要求7所述的年龄识别方法,其特征在于,所述基于所述目标特征,确定所述待识别对象的年龄,包括:
将所述目标特征输入目标年龄识别模型,得到所述待识别对象的年龄;其中,所述目标年龄识别模型用于识别对象的年龄。
9.根据权利要求8所述的年龄识别方法,其特征在于,所述方法还包括:
确定训练对象的目标特征,并且将所述训练对象的目标特征输入初始年龄识别模型,得到所述训练对象的预测年龄;
确定目标损失函数,所述目标损失函数用于表征所述训练对象的预测年龄与所述训练对象的真实年龄之间的不一致程度;
基于所述目标损失函数,更新所述初始年龄识别模型,得到所述目标年龄识别模型。
10.一种年龄识别装置,其特征在于,包括:获取模块和确定模块;
所述获取模块,用于获取待识别对象在预设视频中的空间特征和运动特征;其中,所述空间特征用于表征所述待识别对象在所述预设视频中的至少两个关键点之间的位置关系,所述运动特征用于表征所述至少两个关键点在所述预设视频中的位置变化情况,所述至少两个关键点为所述待识别对象中的人体关键点;
所述确定模块,用于基于所述空间特征、所述运动特征以及所述待识别对象的人脸特征,确定所述待识别对象的年龄。
11.根据权利要求10所述的年龄识别装置,其特征在于,
所述确定模块,具体用于确定预设人体构造信息以及所述待识别对象在所述预设视频中的人体关键信息;其中,所述预设人体构造信息包括所述至少两个关键点之间的连接关系,所述人体关键信息包括所述至少两个关键点中每个关键点在多个图片中各自的位置信息,所述多个图片为所述预设视频中包括的图片;
所述确定模块,具体还用于基于所述预设人体构造信息以及所述人体关键信息,确定所述空间特征。
12.根据权利要求11所述的年龄识别装置,其特征在于,
所述确定模块,具体用于根据所述预设人体构造信息,确定所述至少两个关键点的邻接矩阵以及所述至少两个关键点的度矩阵,所述邻接矩阵用于表征所述至少两个关键点之间的连接关系,所述度矩阵用于表征所述每个关键点对应的连接关系的数量;
所述确定模块,具体还用于将所述人体关键信息输入特征提取网络,以基于所述人体关键信息、所述邻接矩阵、所述度矩阵以及目标网络层的权重,确定所述空间特征,所述目标网络层为所述特征提取网络包括的网络层中的一个。
13.根据权利要求10-12中任一项所述的年龄识别装置,其特征在于,
所述确定模块,具体用于根据所述待识别对象在预设视频中的人体关键信息,确定所述运动特征;所述人体关键信息包括所述至少两个关键点中每个关键点在多个图片中各自的位置信息,所述多个图片为所述预设视频中包括的图片。
14.根据权利要求13所述的年龄识别装置,其特征在于,
所述确定模块,具体还用于将所述人体关键信息输入特征提取网络,以基于所述人体关键信息以及目标网络层的权重,确定所述运动特征,所述目标网络层为所述特征提取网络包括的网络层中的一个。
15.根据权利要求11-14中任一项所述的年龄识别装置,其特征在于,所述年龄识别装置还包括处理模块;
所述获取模块,还用于获取所述每个关键点在所述多个图片中每个图片的三维坐标;
所述处理模块,用于在检测到所述三维坐标中包括深度信息的情况下,以所述深度信息为基准,对所述三维坐标进行归一化处理,得到所述每个关键点在所述每个图片中的位置信息。
16.根据权利要求10-15中任一项所述的年龄识别装置,其特征在于,所述年龄识别装置还包括处理模块;
所述处理模块,用于对所述空间特征、所述运动特征以及所述人脸特征进行融合处理,得到所述待识别对象的目标特征;
所述确定模块,具体用于基于所述目标特征,确定所述待识别对象的年龄。
17.根据权利要求16所述的年龄识别装置,其特征在于,
所述处理模块,具体用于将所述目标特征输入目标年龄识别模型,得到所述待识别对象的年龄;其中,所述目标年龄识别模型用于识别对象的年龄。
18.根据权利要求17所述的年龄识别装置,其特征在于,
所述确定模块,还用于确定训练对象的目标特征,并且将所述训练对象的目标特征输入初始年龄识别模型,得到所述训练对象的预测年龄;
所述确定模块,还用于确定目标损失函数,所述目标损失函数用于表征所述训练对象的预测年龄与所述训练对象的真实年龄之间的不一致程度;
所述处理模块,还用于基于所述目标损失函数,更新所述初始年龄识别模型,得到所述目标年龄识别模型。
19.一种电子设备,其特征在于,所述电子设备包括:
存储器;
通信接口;
一个或多个处理器;
其中,所述存储器中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令,当所述指令被所述电子设备执行时,使得所述电子设备执行如权利要求1-9中任一项所述的年龄识别方法。
20.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-9中任一项所述的年龄识别方法。
21.一种计算机程序产品,包括指令,其特征在于,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1-9中任一项所述的年龄识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794799.0A CN117409450A (zh) | 2022-07-05 | 2022-07-05 | 一种年龄识别方法、装置、电子设备及存储介质 |
PCT/CN2023/105082 WO2024008009A1 (zh) | 2022-07-05 | 2023-06-30 | 一种年龄识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794799.0A CN117409450A (zh) | 2022-07-05 | 2022-07-05 | 一种年龄识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117409450A true CN117409450A (zh) | 2024-01-16 |
Family
ID=89454376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210794799.0A Pending CN117409450A (zh) | 2022-07-05 | 2022-07-05 | 一种年龄识别方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117409450A (zh) |
WO (1) | WO2024008009A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376604B (zh) * | 2018-09-25 | 2021-01-05 | 苏州飞搜科技有限公司 | 一种基于人体姿态的年龄识别方法和装置 |
CN109492571B (zh) * | 2018-11-02 | 2020-10-09 | 北京地平线机器人技术研发有限公司 | 识别人体年龄的方法、装置及电子设备 |
CN112307796B (zh) * | 2019-07-24 | 2022-06-24 | 魔门塔(苏州)科技有限公司 | 一种用于红外图像的年龄预测方法及装置 |
CN112329716A (zh) * | 2020-11-26 | 2021-02-05 | 重庆能源职业学院 | 一种基于步态特征的行人年龄段识别方法 |
CN112990056A (zh) * | 2021-03-29 | 2021-06-18 | 北京市商汤科技开发有限公司 | 年龄识别方法及装置、电子设备和存储介质 |
CN113469144B (zh) * | 2021-08-31 | 2021-11-09 | 北京文安智能技术股份有限公司 | 基于视频的行人性别及年龄识别方法和模型 |
-
2022
- 2022-07-05 CN CN202210794799.0A patent/CN117409450A/zh active Pending
-
2023
- 2023-06-30 WO PCT/CN2023/105082 patent/WO2024008009A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024008009A1 (zh) | 2024-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295413B2 (en) | Neural networks for cropping images based on body key points | |
CN109313490A (zh) | 使用神经网络的眼睛注视跟踪 | |
CN109146943B (zh) | 静止物体的检测方法、装置及电子设备 | |
KR20220062338A (ko) | 스테레오 카메라들로부터의 손 포즈 추정 | |
CN109344806B (zh) | 利用多任务目标检测模型执行目标检测的方法和系统 | |
US20210055124A1 (en) | Method and apparatus for obtaining abbreviated name of point of interest on map | |
CN111552888A (zh) | 内容推荐方法、装置、设备及存储介质 | |
CN111815768B (zh) | 三维人脸重建方法和装置 | |
CN116235226A (zh) | 用于预测下半身姿势的系统和方法 | |
CN111507285A (zh) | 人脸属性识别方法、装置、计算机设备和存储介质 | |
CN110147742A (zh) | 一种关键点定位方法、装置及终端 | |
CN112419326A (zh) | 图像分割数据处理方法、装置、设备及存储介质 | |
CN110555102A (zh) | 媒体标题识别方法、装置及存储介质 | |
CN110956131A (zh) | 单目标追踪方法、装置及系统 | |
CN114677572B (zh) | 对象描述参数的生成方法、深度学习模型的训练方法 | |
US10769795B2 (en) | Image processing method and device | |
US20220382246A1 (en) | Differentiable simulator for robotic cutting | |
CN110427864B (zh) | 一种图像处理方法、装置及电子设备 | |
CN117409450A (zh) | 一种年龄识别方法、装置、电子设备及存储介质 | |
CN115176285B (zh) | 利用缓冲的交叉现实系统用于定位精度 | |
CN110148202B (zh) | 用于生成图像的方法、装置、设备和存储介质 | |
CN116745822A (zh) | 用于预测肘关节姿势的系统和方法 | |
KR20210025324A (ko) | 딥 뉴럴 네트워크를 이용한 애니메이션 생성 장치 및 애니메이션 생성 방법 | |
US20240177517A1 (en) | Intelligent Real Time Ergonomic Management | |
US20220261574A1 (en) | System for correcting user movement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |