CN112528897B - 人像的年龄估测方法、装置、计算机设备及存储介质 - Google Patents
人像的年龄估测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112528897B CN112528897B CN202011497230.5A CN202011497230A CN112528897B CN 112528897 B CN112528897 B CN 112528897B CN 202011497230 A CN202011497230 A CN 202011497230A CN 112528897 B CN112528897 B CN 112528897B
- Authority
- CN
- China
- Prior art keywords
- portrait
- image
- area
- network
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种人像的年龄估测方法、装置、计算机设备及存储介质,属于计算机技术领域。本申请能够在待处理图像中首先确定人像区域,然后再从人像区域中确定出至少一个局部区域,分别从上述不同的区域中提取出第一图像特征和第二图像特征,并将两种特征融合成为一个融合图像特征,对该融合图像特征进行处理,得到人像区域中的人物对应的估测年龄,避免了相关技术中依靠人脸特征估计年龄不准的问题,提高了估计人物年龄的准确度。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种人像的年龄估测方法、装置、计算机设备及存储介质。
背景技术
随着图像识别技术的发展,年龄估计(Age Estimation)作为机器理解人类的一个重要的分支越来越受到重视。
相关技术中,神经网络能够识别到图像中的人脸,对人脸部分进行特征提取,并将提取后的特征输入到分类器中,根据预先训练好的分类器估计人脸对应的年龄。
发明内容
本申请实施例提供了一种人像的年龄估测方法、装置、计算机设备及存储介质。所述技术方案如下:
根据本申请的一方面内容,提供了一种人像的年龄估测方法,所述方法包括:
从待处理图像中确定人像区域,所述人像区域的面积小于或等于所述待处理图像的面积;
从所述人像区域中提取出第一图像特征;
从所述人像区域确定出至少一个局部区域,并从所述局部区域中提取出第二图像特征,所述局部区域的面积小于所述人像区域;
融合所述第一图像特征和所述第二图像特征,得到融合图像特征;
基于所述融合图像特征,得到所述人像区域中的人物对应的估测年龄。
根据本申请的另一方面内容,提供了一种人像的年龄估测装置,所述装置包括:
第一确定模块,用于从待处理图像中确定人像区域,所述人像区域的面积小于或等于所述待处理图像的面积;
第一提取模块,用于从所述人像区域中提取出第一图像特征;
第二确定模块,用于从所述人像区域确定出至少一个局部区域,并从所述局部区域中提取出第二图像特征,所述局部区域的面积小于所述人像区域;
特征融合模块,用于融合所述第一图像特征和所述第二图像特征,得到融合图像特征;
年龄估测模块,用于基于所述融合图像特征,得到所述人像区域中的人物对应的估测年龄。
根据本申请的另一方面内容,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如本申请各个方面提供的人像的年龄估测方法。
根据本申请的另一方面内容,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如本申请各个方面提供的人像的年龄估测方法。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述人像的年龄估测方面的各种可选实现方式中提供的方法。
本申请实施例提供的技术方案带来的有益效果可以包括:
本申请能够在待处理图像中首先确定人像区域,然后再从人像区域中确定出至少一个局部区域,分别从上述不同的区域中提取出第一图像特征和第二图像特征,并将两种特征融合成为一个融合图像特征,对该融合图像特征进行处理,得到人像区域对应的估测年龄,避免了相关技术中依靠人脸特征估计年龄不准的问题,提高了估计人物年龄的准确度。
附图说明
为了更清楚地介绍本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种待处理图像中各区域之间的关系示意图;
图2是本申请一个示例性实施例提供的一种终端的结构框图;
图3是本申请一个实施例提供的一种服务器的结构示意图;
图4是本申请实施例提供的一种估测年龄模型的训练示意图;
图5是本申请实施例提供的一种估测年龄模型的示意图;
图6是基于图5所示实施例提供的一种细分类网络的示意图;
图7是本申请实施例提供的一种人像的年龄估测方法的用户界面图;
图8是基于图5所示实施例提供的一种估测年龄模型的结构示意图;
图9是本申请一个示例性实施例提供的一种人像的年龄估测方法的流程图;
图10是本申请另一个示例性实施例提供的一种人像的年龄估测方法流程图;
图11是基于图10所示实施例提供的一种预选框的筛选示意图;
图12是本申请实施例提供的一种引导网络的训练过程;
图13是本申请实施例提供的一种训练第一预选框确定网络P-net的过程示意图;
图14是本申请实施例提供的一种训练第二预选框确定网络R-net的过程示意图;
图15是本申请实施例提供的一种训练分类器的过程示意图;
图16是本申请一个示例性实施例提供的人像的年龄估测装置的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了本申请实施例所示方案易于理解,下面对本申请实施例中出现的若干名词进行介绍。
SIFT(Scale-Invariant Feature Transform,尺度不变特征变换)。
GIST(Generalized Search Tree,空间包络特征)。
HOG(Histogram of Oriented Gradient,定向梯度直方图)。
GLCM(Grey-Level Co-occurrence Matrix,灰度共生矩阵)。
LBP(Local Binary Pattern,局部二值模式)。
SURF(Speeded Up Robust Features,加速鲁棒特征)。
PCA(Principal Components Analysis,主成分分析)。
DB(Deep Belief Nets,深信念网)。
DBM(Deep Boltzmann Machine,深玻尔兹曼机器)。
SAE(Stacked Autoencoder,堆叠自动编码器)。
CNN(Convolutional Neural Network,卷积神经网络)。
Bbox(Bounding box,预选框)。
NMS(Non Maximum Suppression,非极大值抑制)。
待处理图像:是单幅用于被处理的图像。当单幅图像中包括人像,则该图像可以是本申请实施例中指示的待处理图像。
从生成方式上而言,待处理图像既可以是图像采集组件拍摄的真实世界的图像,也可以是计算机设备通过指定算法合成的虚拟图像。其中,图像采集组件可以是摄像头或其它光信号传感器,该光信号传感器能够将真实世界的光线信号转化为可存储的数据。
示意性的,待处理图像通常而言是通过图像采集组件拍摄的真实世界的图像。一方面,本申请所应用的场景是获取待处理图像中的人物的估测年龄,若待处理图像包括真实世界中的人物,则本申请具有理解真实世界的意义。另一方面,倘若待处理图像是虚拟图像,则本申请可用于评价计算机设备生成人物真实性的评价工具,使得生成的虚拟图像中的人物在年龄这一属性上贴近于真实场景。
请参考图1,图1是本申请实施例提供的一种待处理图像中各区域之间的关系示意图。图1包括本申请中所示的待处理图像100。在待处理图像100中,存在人像。本申请提供的方法能够从待处理图像100的图像内部确定出人像区域110。其中,人像区域110的面积等于或者小于待处理图像100的面积。并且,人像区域110是包含单个人像的区域。
示意性的,待处理图像100中同时存在人像区域110和人像区域120。其中,人像区域110中包括人像1A,人像区域120中包含人像1B。
在本申请实施例中,人像区域还可以进一步进行细粒度地划分。以人像区域110为例,本申请实施例能够从该人像区域110中,确定出至少一个局部区域。示意性的,以本申请实施例在一个人像区域中确定的局部区域的数量是3为例。人像区域110中包括第一局部区域111、第二局部区域112和第三局部区域113。需要说明的是,局部区域的面积小于人像区域的面积。任意两个局部区域不是相同的区域,且任意两个局部区域之间可以存在重叠的部分。
比如,第一局部区域111和第二局部区域112之间存在重叠的部分。
针对单幅待处理图像中包括多个人像区域的场景。任意两个人像区域之间的关系可以包括相离、相切和相交三种关系,本申请实施例不对此进行限定。
基于图1所示的各个区域之间的关系,下面将介绍人像区域和局部区域各自的含义。
人像区域:用于指示待处理图像中包含人物的全部身体的图像区域。在当前的图像分割技术中,所采用的分割框通常是矩形。也即,人像区域可以是矩形框选出的区域。
示意性的,当采用具有其他分割形状的分割框时,人像区域还可以是指定形状的区域。可选地,分割框还可以是圆形、三角形或其它多边形。
例如,当待处理图像中包括人物的全身图像时,本申请提供的方案能够将该全身图像框在分割框内,并将该分割框内的矩形全身图像称为人像区域。需要说明的是,本申请实施例中以人像区域指示待处理图像在该区域中的图像,也即人像区域在本申请中提示指定区域的局部图像,该局部图像中包括人物的身体。
另一种可能的方式中,当待处理图像中包括人物的部分身体的图像时,本申请提供的方案能够将出现在待处理图像中的人物的部分身体框选在分割框内,并将该部分选定为人像区域。比如待处理图像中仅包括了杰克的半身的图像,则人像区域是杰克的半身所在的区域的图像。
局部区域:在本申请是是位于人像区域中的子区域。换言之,局部区域所能够包括的范围最大不超过人像区域所包括的范围。通常而言,局部区域是小于人像区域的区域。同样的,人像区域和局部区域是封闭区域。
示意性的,本申请实施例能够应用在计算机设备中。其中,计算机设备既可以包括部署在厂商或者服务商侧的服务器,也可以包括部署在用户侧的终端。
示例性地,当本申请实施例所示的人像的年龄估测方法,应用在终端中时,该终端具备显示屏且具备人像的年龄估测功能。终端可以包括手机、平板电脑、膝上型电脑、台式电脑、电脑一体机、电视、机顶盒、智能眼镜、智能手表、数码相机、MP4播放终端、MP5播放终端、学习机、点读机、电纸书、电子词典、车载终端、虚拟现实(Virtual Reality,VR)播放终端或增强现实(Augmented Reality,AR)播放终端等。
示例性地,当本申请实施例所示的人像的年龄估测方法,应用在服务器中时,服务器能够在获取待处理图像后,应用本申请提供的人像的年龄估测方法,对待处理图像中的人像进行处理,最终得出待处理图像中的人像对应的估测年龄。
需要说明的是,有关终端的结构可以参见图2的介绍,有关服务器的结构可以参见图3的介绍。
图2是本申请一个示例性实施例提供的一种终端的结构框图,如图2所示,该终端包括处理器220和存储器240,所述存储器240中存储有至少一条指令,所述指令由所述处理器220加载并执行以实现如本申请各个方法实施例所述的人像的年龄估测方法。
在本申请中,终端200从待处理图像中确定人像区域,所述人像区域的面积小于或等于所述待处理图像的面积;从所述人像区域中提取出第一图像特征;从所述人像区域确定出至少一个局部区域,并从所述局部区域中提取出第二图像特征,所述局部区域的面积小于所述人像区域;融合所述第一图像特征和所述第二图像特征,得到融合图像特征;基于所述融合图像特征,得到所述人像区域中的人物对应的估测年龄。
处理器220可以包括一个或者多个处理核心。处理器220利用各种接口和线路连接整个终端200内的各个部分,通过运行或执行存储在存储器240内的指令、程序、代码集或指令集,以及调用存储在存储器240内的数据,执行终端200的各种功能和处理数据。可选的,处理器220可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器220可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器220中,单独通过一块芯片进行实现。
存储器240可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选的,该存储器240包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器240可用于存储指令、程序、代码、代码集或指令集。存储器240可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等;存储数据区可存储下面各个方法实施例中涉及到的数据等。
示意性的,若终端需要展示待处理图像中的人物对应的估测年龄。终端中可以包括信息输出组件,该信息输出组件能够输出用户可感知的信息。其中,可感知的信息包括语音信息或图像信息。当可感知的信息包括语音信息时,信息输出组件可以是麦克风。当可感知的信息包括图像信息时,信息输出组件可以是显示屏或者其它图像输出组件。
请参考图3,图3是本申请一个实施例提供的一种服务器的结构示意图。该服务器用于实施上述实施例提供的人像的年龄估测方法。具体来讲:
所述服务器300包括中央处理单元(CPU)301、包括随机存取存储器(RAM)302和只读存储器(ROM)303的系统存储器304,以及连接系统存储器304和中央处理单元301的系统总线305。所述服务器300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)306,和用于存储操作系统313、应用程序314和其他程序模块315的大容量存储设备307。
所述基本输入/输出系统306包括有用于显示信息的显示器308和用于用户输入信息的诸如鼠标、键盘之类的输入设备309。其中所述显示器308和输入设备309都通过连接到系统总线305的输入输出控制器310连接到中央处理单元301。所述基本输入/输出系统306还可以包括输入输出控制器310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备307通过连接到系统总线305的大容量存储控制器(未示出)连接到中央处理单元301。所述大容量存储设备307及其相关联的计算机可读介质为服务器300提供非易失性存储。也就是说,所述大容量存储设备307可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Electrical Programmable Read Only Memory,电动程控只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,带电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器304和大容量存储设备307可以统称为存储器。
根据本申请的各种实施例,所述服务器300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器300可以通过连接在所述系统总线305上的网络接口单元311连接到网络312,或者说,也可以使用网络接口单元311来连接到其他类型的网络或远程计算机系统。
需要说明的是,本申请所介绍的人像的年龄估测方法可以通过预定的数学模型或者算法来实现。具体地,计算机设备在运行预定的数学模型或者算法时,能够处理待处理图像,最终得到待处理图像中的人物的估测年龄。
另一种可能的实现方式中,计算机设备可以预先训练并维护一个估测年龄模型。其中,该估测年龄模型可以包括多个网络。请参考图4,图4是本申请实施例提供的一种估测年龄模型的训练示意图。在图4中,包括训练前的估测年龄模型40。训练前的估测年龄模型40在训练数据4a和损失函数4b的作用下,得到训练后的估测年龄模型。
请参见图5,图5是本申请实施例提供的一种估测年龄模型的示意图。在图5中,估测年龄模型500包括人像确定网络510、细分类网络520、特征融合网络530和分类器540。
待处理图像5A从人像确定网络510输入估测年龄模型500。人像确定网络510能够从待处理图像5A中确定出人像区域5B1和人像区域5B2。示意性的,单幅待处理图像5A既可以包括人像区域,也可以不包括人像区域。当单幅待处理图像5A中不包括人像区域时,计算机设备不再执行本申请提供的人像的年龄估测方法。
在待处理图像5A中存在人像区域时,人像确定网络510能够确定出待处理图像5A中的每一个人像区域。一种可能的方式中,人像区域是一个;另一种可能的方式中,人像区域是多个。每一个人像区域对应一个人物。在图5中,以人像区域是2个为例进行介绍。
响应于人像确定网络510处理待处理图像5A,从待处理图像5A中确定出人像区域5B1和人像区域5B2,人像确定网络510将人像区域5B1和人像区域5B2传递至细分类网络520。需要说明的是,细分类网络520对人像区域处理时,将逐个进行处理。此处以人像区域5B1为例,介绍细分类网络520对人像区域5B1处理的过程。
请参见图6,图6是基于图5所示实施例提供的一种细分类网络的示意图。在图6中,细分类网络520包括第一处理分支61和第二处理分支62。其中,第一处理分支61包括引导网络611、第一个第二特征提取器612a、第二个第二特征提取器612b和第三个第二特征提取器612c。第二处理分支62包括第一特征提取器620。
需要说明的是,第二特征提取器的个数可以按照实际需要的情况设计。例如,第二特征提取器可以是1、2、3、4或5等正整数个。一种可能的方式中,响应于第二特征提取器的个数较少时,例如1或2时,最终确定人物对应的估测年龄的准确度有待提高,另一种可能的方式中,响应于第二特征提取器的个数较多时,例如4或5时,细分类网络从人像区域的速度会较慢。因此,在本申请实施例中,细分类网络中的第一处理分支61中可以设置数量较为适中的特征提取器。例如,如图6所示的细分类网络中,设置有3个第二特征提取器。
在一种可能的实施方式中,第一特征提取器和第二特征提取器共享同一个网络参数和结构。
在本例中,按照细分类模型处理人像区域的处理流程,介绍细分类模型中的第一处理分支61和第二处理分支62中的数据传递过程。响应于人像确定网络510向细分类网络520传递人像区域5B1,细分类网络520将人像区域5B1复制为相同的两份。
一方面,细分类网络520将第一份人像区域5B1传递到第一处理分支61中的引导网络611中。引导网络611对人像区域5B1进行处理,能够从该人像区域5B1中确定出n个局部区域。其中,n是设计引导网络611时预先设定的参数。引导网络611在从人像区域5B1中确定局部区域时,将能够自动按照预先设定的数据n,确定局部区域。其中,引导网络611确定出的任意两个局部区域之间不是完全相同的区域。并且,任意两个局部区域之间可以存在重合的区域。
在图6中,以引导网络611能够确定出3个局部区域为例进行介绍,三个局部区域分别是第一个局部区域5C1、第二个局部区域5C2和第三个局部区域5C3。当引导网络611确定出3个局部区域时,引导网络611将分别将一个局部区域输入至第一个第二特征提取器612a、第二个第二特征提取器612b和第三个第二特征提取器612c中,从而分别得到对应的第二图像特征v11、第二图像特征v12和第二图像特征v13。请参照表一,表一示出了一种局部区域和各自对应的图像特征的关系。
局部区域 | 局部区域5C1 | 局部区域5C2 | 局部区域5C3 |
第二图像特征 | v11 | v12 | v13 |
表一
另一方面,细分类网络520将第二份人像区域5B1传递到第二处理分支62中。由第二处理分支62中的第一特征提取器620从人像区域5B1中提取出第一图像特征v20。
基于上述细分类网络520从第一处理分支61得到的第一图像特征v20,以及从第二处理分支62得到的第二图像特征v11、第二图像特征v12和第二图像特征v13一共三个不同的第二图像特征。细分类网络520完成其设计功能,将上述得到的数据传递到特征融合网络530中。
特征融合网络530的输入数据包括来自细分类网络520的两类数据,第一类是用于指示人像区域整体特征的第一图像特征,第二类是用于指示人像区域中的局部区域特征的第二图像特征。在本例中,特征融合网络530的输入数据的总个数是n+1。其中,第二图像特征的个数是n个,第一图像特征的个数是1个。
特征融合网络530可以将第一图像特征和第二图像特征融合在一起。在一种可能的融合方式中,特征融合网络530可以采用串接的方式执行融合操作。
例如,每一个图像特征以向量的形式表示。下面分别以各个图像特征是包括10个维数的向量进行举例。
其中,第一图像特征v20的取值是v20(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10)。
第二图像特征v11的取值是v11(b1,b2,b3,b4,b5,b6,b7,b8,b9,b10)。
第二图像特征v12的取值是v12(c1,c2,c3,c4,c5,c6,c7,c8,c9,c10)。
第二图像特征v13的取值是v13(d1,d2,d3,d4,d5,d6,d7,d8,d9,d10)。
若特征融合网络530采用串行的方式融合第一图像特征和第二图像特征,则经过特征融合网络530处理得到的融合特征v30的取值是v30(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,b1,b2,b3,b4,b5,b6,b7,b8,b9,b10,c1,c2,c3,c4,c5,c6,c7,c8,c9,c10,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10)。需要说明的是,该融合特征v30仍然是一维向量,便于后续分类器的快速的处理。
在另一种特征融合方式中,特征融合网络530也可以将第一图像特征和第二图像特征融合成为一个矩阵。例如,将每一个图像特征对应的向量作为一行,从而形成(n+1)行的矩阵,列数是每一个图像特征对应的向量的维数。
基于特征融合网络530输出的融合特征v30,分类器能够对融合特征v30进行处理,得到融合特征v30与各个年龄层的匹配程度。其中,年龄层可以根据实际应用场景设置为不同准确度的数值。在一种可能的方式中,年龄层可以以一岁为粒度,划分为100个层级,表示100个年龄层。在另一种可能的方式中,可以以较大年龄间隔划分年龄层。比如,以5岁为粒度,将0~99岁的年龄区间划分为20个年龄层。在又一种可能的实现方式中,年龄层还可以按照不同的间隔进行划分,请参考表二。
0~1岁 | 2~4岁 | 5~11岁 | 12~18岁 | 19~35岁 | 35~59岁 | 60岁以上 |
婴儿 | 幼儿 | 儿童 | 少年 | 青年 | 中年 | 老年 |
表二
需要说明的是,分类器能够对融合特征v30符合各个年龄层中的概率进行判断。在一种可能的方式中,以表三所示为例介绍一种分类器处理融合特征v30后得到的各个年龄层对应的概率。
表三
基于表三所示的数据,分类器将获得的融合特征v30对应的各个年龄层的实测对应的概率与概率阈值相比。其中,概率阈值可以是统一的数值,例如0.8。在表三所示的数据中,年龄层“5~11岁”也即“儿童”年龄层对应的概率0.89大于概率阈值0.8。在该场景中,分类器将年龄层“5~11岁”也即“儿童”年龄层输出为待处理图像5A中的人像区域5B1中的人物对应的估测年龄。需要说明的是,表三所示的年龄层判断仅为示例性举例,不对本申请所提供的方法确定年龄的粒度进行限定。应用本申请实施例提供的方法,计算机设备也能够提供以一岁为一个年龄层进行年龄估计的方案。
类似的,本申请实施例提供的估测年龄模型500能够通过类似的操作对人像区域5B2进行处理,得到待处理图像5A中的人像区域5B2的人物对应的估测年龄。
需要说明的是,由于实际应用的场景中,估测年龄模型500可能是被封装为一个外部不可见内部结构的数据处理模型。因此,估测年龄模型500的外部表现可能仅是输入待处理图像,经过估测年龄模型500处理后,获得待处理图像中的各个人像区域以及人像区域中的人物对应的估测年龄。请参照图7,图7是本申请实施例提供的一种人像的年龄估测方法的用户界面图。
示意性的,图7可以分为待处理图像确定阶段7A、年龄估测阶段7B和结果显示阶段7C。在待处理图像确定阶段7A中,终端的显示屏700中显示已拍摄到的图像710,当用户点击显示在显示屏700中的年龄估测控件720时,图像710被确定为待处理图像。其中,用户在终端的手指接触触点721以同心圆示出。
在年龄估测阶段7B中,终端的显示屏700中显示提示文本“正在年龄估测中,请稍等”,同时位于后台的估测年龄模型将输入该图像710,获取图像710中的人像区域和对应的年龄层。当获取到人像区域和对应的年龄层时,终端进入到结果显示阶段7C。
在结果显示阶段7C中,终端在显示屏700中的图像710上显示人像区域和对应的年龄层。例如,在图像710上显示人像区域711和人像区域712。其中,人像区域711中的人物对应的年龄层是5岁至11岁,显示为儿童,人像区域712中的人物对应的年龄层是19岁至35岁,显示为青年。
基于上述内容,估测年龄模型500还可以包括多预选框排序网络,请参见图8,图8是基于图5所示实施例提供的一种估测年龄模型的结构示意图。在图8中,所述估测年龄模型800包括人像确定网络510、细分类网络520、特征融合网络530、分类器540和多预选框排序网络550。
在图8所示的估测年龄模型800中,待处理图像8A先输入到人像确定网络510中。人像确定网络510确定出人像区域8B1和人像区域8B2后,人像确定网络510将人像区域8B1和人像区域8B2传递至多预选框排序网络550中。在多预选框排序网络550中对人像区域8B1和人像区域8B2的外框大小进行排序,排序的次序是和估测年龄模型500在训练阶段中对多个人像区域的外框排序的方式相同。该排序的方式包括升序或降序。
当人像区域完成排序后,例如按照升序的方式将面积较小的人像区域8B1排在第一位,将面积较大的人像区域8B2排在第二位。随后,多预选框排序网络550将人像区域8B1和人像区域8B2依次输入细分类网络520。
细分类网络520分别在人像区域8B1中确定出3个局部区域,分别是第一个局部区域8C1、第二个局部区域8C2和第三个局部区域8C3。细分类网络520在人像区域8B2中确定出3个局部区域,分别是第四个局部区域8C4、第五个局部区域8C5和第六个局部区域8C6(该部分图8中未示出)。
随后,细分类网络520将按照人像区域为单位,依次将得出的第一图像特征和第二图像特征输入特征融合网络530。
示意性的,细分类网络520一次性将人像区域8B1的第一图像特征,以及人像区域8B1对应的第一个局部区域8C1、第二个局部区域8C2和第三个局部区域8C3各自对应的第二图像特征输入到特征融合网络530中。特征融合网络530在该次操作中,将人像区域8B1的第一图像特征和从该人像区域中确定的局部区域中提取出的第二图像特征融合为一个融合图像特征。当人像区域8B1的融合图像特征生成之后,特征融合网络530将融合图像特征传递到分类器540中,由分类器540确定人像区域8B1中的人物对应的年龄层。
类似的,细分类网络520同样能够一次性将人像区域8A2的第一图像特征,以及人像区域8A2对应的第四个局部区域8C4、第五个局部区域8C5和第六个局部区域8C6各自对应的第二图像特征输入到特征融合网络530中。特征融合网络530在该次操作中,将人像区域8B2的第一图像特征和从该人像区域中确定的局部区域中提取出的第二图像特征融合为一个融合图像特征。当人像区域8B2的融合图像特征生成之后,特征融合网络530将融合图像特征传递到分类器540中,由分类器540确定人像区域8B2中的人物对应的年龄层。
由此可见,图8提供的估测年龄模型能够将同一幅待处理图像中的多个人物所在的人像区域标出,并同时显示出该人像区域对应的估测年龄。
基于上述内容的介绍,下面介绍本申请提供的方法在执行的过程中,以计算机设备为执行主体执行的一种年龄估测方法。
请参考图9,图9是本申请一个示例性实施例提供的一种人像的年龄估测方法的流程图。该人像的年龄估测方法可以应用在上述图2所示的终端中,或者,应用在图3所示的服务器中。在图9中,该人像的年龄估测方法包括:
步骤910,从待处理图像中确定人像区域,人像区域的面积小于或等于待处理图像的面积。
在本申请实施例中,计算机设备能够从多种途径获取到待处理图像。若计算机设备是移动终端,则待处理图像既可以是移动终端通过摄像头拍摄的图像。或者,待处理图像也可以是别的计算机设备发送给该移动终端的。
若计算机设备是服务器,则待处理图像可以是移动终端在使用图像处理应用、云相册或者云备份等时发送至服务器的图像。
计算机设备将能够从待处理图像中通过设置预选框的方式,框选出人像区域。该人像区域小于或者等于待处理图像的面积。当人像区域小于待处理图像的面积,则说明人像区域是待处理图像中的一个局部的区域。当人像区域等于待处理图像的面积,则说明人像区域铺满了整张待处理图像。此时,待处理图像整幅图像是一个人像区域。
可选地,待处理图像中的人像区域可以是0、1、2或3等正整数个。若待处理图像中的人像区域是0个,则计算机设备停止执行本申请提供的方案,并可显示“本图像中未检测到人像”的提示信息。在待处理图像中的人像区域是1个或者多个时,计算机设备对确定出的人像区域继续执行后续步骤920,以期得到人像区域中的人物对应的估测年龄。
步骤920,从人像区域中提取出第一图像特征。
在本申请中,计算机设备将能够从人像区域中提取出第一图像特征。其中,人像区域可以是预选框框选出的矩形区域。计算机设备能够针对该矩形区域进行图像特征提取。
需要说明的是,对图像进行特征提取的方式较多,本申请可以选择使用卷积神经网络对图像进行特征提取,从而得到能够反映人像区域整体的特征的第一图像特征。
可选地,针对第一图像特征的数据格式而言,该第一图像特征可以通过向量或矩阵的数据形式提存储。
步骤930,从人像区域确定出至少一个局部区域,并从局部区域中提取出第二图像特征,局部区域的面积小于人像区域。
在本例中,计算机设备能够继续从人像区域中提取至少一个局部区域。其中,在实际应用场景中提取的局部区域的个数可以参照预先设置的参数。例如,计算机设备中被预先设置确定出n个局部区域,n是正整数。
示意性的,局部区域仍然可以是矩形框包围的区域。计算机设备将从人像区域中框选出指定的n个局部区域。
在本例中,局部区域是用于确定人像区域中具有代表性特征的区域。在该步骤中,计算机设备可以通过预先训练好的数学模型提取。因此,确定局部区域的具体过程可以被视为通过类似黑盒的数学模型,直接确定人像区域中指定个数的局部区域。并且,每一个局部区域都能够被提取出一个第二图像特征。
步骤940,融合第一图像特征和第二图像特征,得到融合图像特征。
在本例中,计算机设备能够在得到第一图像特征和第二图像特征后,将两个图像特征融合为一个融合图像特征,以便候选分类器对该单个融合图像特征进行处理。
步骤950,基于融合图像特征,得到人像区域中的人物对应的估测年龄。
在本申请实施例中,计算机设备可以对融合图像特征进行处理,分析该融合图像特征和预先保存的各个模版特征之间的相似度,将相似度最高的模版特征对应的年龄层确定为估测年龄。
可选地,该步骤可以通过神经网络中的分类器来实现。
需要说明的是,本申请实施例在确定人像区域中的人物对应的估测年龄之后,还能够针对不同的年龄层做定向美颜。例如,儿童就按照针对儿童预设的美颜方案进行美颜,青年就按照针对青年预设的美颜方案进行美颜。
综上所述,本实施例提供的人像的年龄估测方法,能够在待处理图像中首先确定人像区域,然后再从人像区域中确定出至少一个局部区域,分别从上述不同的区域中提取出第一图像特征和第二图像特征,并将两种特征融合成为一个融合图像特征,对该融合图像特征进行处理,得到人像区域对应的估测年龄,避免了相关技术中依靠人脸特征估计年龄不准的问题,提高了估计人物年龄的准确度。
基于上一个实施例所公开的方案,计算机设备还能够通过图5或图8提供的估测年龄模型来实现本案所示的人像的年龄估测方案,请参考如下实施例。
请参见图10,图10是本申请另一个示例性实施例提供的一种人像的年龄估测方法流程图。该人像的年龄估测方法可以应用在上述所示的计算机设备中。在图10中,该人像的年龄估测方法包括:
步骤1001,将待处理图像输入第一预选框确定网络,确定p个第一预选框。
在本申请实施例中,计算机设备能够通过执行步骤(a1)和步骤(a2)来实现确定p个第一预选框的步骤。
步骤(a1),将待处理图像输入第一预选框确定网络,获得p+h个第一待处理预选框,h是正整数。
步骤(a2),对p+h个第一待处理预选框进行非极大值抑制筛选,得到p个第一预选框。
步骤1002,将p个第一预选框和待处理图像输入第二预选框确定网络,确定q个第二预选框,第二预选框是第一预选框中的确定人像区域置信度高于阈值的预选框。
其中,p和q是正整数,q小于p。
在本申请实施例中,计算机设备能够通过执行步骤(b1)和步骤(b2)来实现确定q个第二预选框的步骤。
步骤(b1),将p个第一预选框和待处理图像输入第二预选框确定网络,得到q+k个第二待处理预选框,k是正整数。
步骤(b2),对q+k个第二待处理预选框进行非极大值抑制筛选,得到q个第二预选框。
请参见图11,图11是基于图10所示实施例提供的一种预选框的筛选示意图。在图11中,待处理图像11A输入到第一预选框确定网络P-net中,第一预选框确定网络P-net能够确定p+h个第一待处理预选框。随后,p+h个第一待处理预选框输入到第一非极大值抑制网络中,进行非极大值抑制筛选,得到p个第一预选框。随后,第一预选框被输入到第二预选框确定网络R-net中,第二预选框确定网络R-net能够确定q+k个第二待处理预选框。随后,q+k个第二待处理预选框输入到第二非极大值抑制网络中,进行非极大值抑制筛选,得到q个第二预选框。其中,第二预选框是从第一预选框中筛选出的部分框。
步骤1003,将第二预选框所包括的区域确定为人像区域。
步骤1011,通过细分类网络的第一处理分支,从人像区域中确定出至少一个局部区域。
可选地,计算机设备可以通过引导网络从人像区域确定出至少一个局部区域,引导网络属于第一处理分支。
在一种可能的方式中,引导网络中可以存在预设数量n。计算机设备将通过引导网络按照预设数量n,从人像区域中确定n个局部区域,n为正整数。
步骤1012,通过细分类网络的第一处理分支,从局部区域中提取出第二图像特征。
可选地,计算机设备将至少一个局部区域从引导网络传递至第二特征提取器中;通过第二特征提取器从局部区域中提取第二图像特征,引导网络和第二特征提取器属于第一处理分支。
在一种可能的方式中,计算机设备将n个局部区域分别传递到n个第二特征提取器中。计算机设备通过n个第二特征提取器分别从对应的局部区域中提取出n个第二图像特征。
步骤1013,通过细分类网络的第二处理分支,从人像区域中提取出第一图像特征。
可选地,计算机设备还可以通过第一特征提取器从人像区域中提取出第一图像特征,第一特征提取器属于第二处理分支。
步骤1021,将第一图像特征对应的数据转化为第一向量。
步骤1022,将n个第二图像特征对应的数据转化为n个第二向量。
步骤1023,串接第一向量和n个第二向量,得到融合向量,融合向量用于表示融合图像特征。
其中,第一向量、第二向量和融合向量是一维向量。
在一种可能的方式中,计算机设备能够在n大于1时,按照第二向量对应的局部区域的面积大小,排列n个第二向量,排列包括降序排列或升序排列;串接第一向量和完成排序后的n个第二向量,得到融合向量。
步骤1030,基于融合图像特征,得到人像区域中的人物对应的估测年龄。
在一种可能的方式中,计算机设备能够通过分类器处理融合图像特征,从而得到人像区域中的人物对应的估测年龄。分类器可以是诸如SVM(Support Vector Machines,支持向量机)。
需要说明的是,当本申请是通过估测年龄模型来实现时,本申请实施例可以预先对估测年龄模型中需要使用到的部分进行训练。在估测年龄模型中,作为深度学习网络的可以包括细分类网络中的引导网络、人像确定网络中的第一预选框确定网络P-net和人像确定网络中的第二预选框确定网络R-net,上述3个部分均需要进行训练。另外,估测年龄模型中的分类器同样需要进行训练。下面,将通过分别介绍每个部分的训练过程。
请参考图12,图12是本申请实施例提供的一种引导网络的训练过程。训练图像12a输入到引导网络1201中,引导网络1201从训练图像12a中确定出3个局部区域并分别输入到第一个特征提取器1202、第二个特征提取器1203和第三个特征提取器1204。第一个特征提取器1202、第二个特征提取器1203和第三个特征提取器1204在提取出图像特征后,将图像特征输入到教师网络1205中,教师网络1205将图像特征输入到损失计算网络1206中,根据损失函数计算本次确定局部网络的置信度,并将结果反馈到教师网络1205中。同时,损失计算网络1206能够将计算后的数据反馈到引导网络1201,令引导网络1201调整其网络参数。
需要说明的是,教师网络在图12所示的结构中的作用是起监督引导作用,通过比较引导网络得到的各个局部区域的信息置信度,来监督局部区域的选取。引导网络经过图12所示的训练过程,能够更为精确选取到有助于准确确定人物的年龄的局部区域。
请参考图13,图13是本申请实施例提供的一种训练第一预选框确定网络P-net的过程示意图。在图13中,训练图像13a输入到下采样网络1301中,将采样后的数据输入到第一预选框确定网络1302中,第一预选框确定网络1302输出的数据经过损失计算网络1303的计算后,得到的反馈数据反馈给第一预选框确定网络1302,使得第一预选框确定网络1302调整自身的网络参数。
请参考图14,图14是本申请实施例提供的一种训练第二预选框确定网络R-net的过程示意图。在图14中,训练图像14a输入到下采样网络1401中,将采样后的数据输入到第二预选框确定网络1402中,第二预选框确定网络1402输出的数据经过损失计算网络1403的计算后,得到的反馈数据反馈给第二预选框确定网络1402,使得第二预选框确定网络1402调整自身的网络参数。
请参考图15,图15是本申请实施例提供的一种训练分类器的过程示意图。在图15中,训练样本15a输入到分类器1501中。通过对训练样本15a的不停迭代,直至目标函数1502的值达到最优,分类器收敛。由于分类器能够有效拓展分类维度。以分类器是SVM为例,SVM是将特征投影到高维空间中,再对特征进行非线性区分。对于softmax逻辑回归或全连接层等线性分类器,只对低维度线性分类有较好效果。应用本申请实施例提供的方案,能够降低softmax逻辑回归在非线性分类上的缺陷。需要说明的是,训练样本15a是本申请中已经经过特征融合之后的融合特征。
综上所述,本申请实施例提供的人像的年龄估测方法,能够通过第一预选框确定网络初步确定出p+h个第一待处理预选框,再通过非极大值抑制筛选,得到p个第一预选框,完成对数量较多的第一待处理预选框的初步筛选。在得到p个第一预选框之后,计算机设备可以将p个第一预选框和待处理图像一并输入到第二预选框确定网络中,进而确定q+k个第二待处理预选框,并通过非极大值抑制筛选,从q+k个第二待处理预选框中确定出q个第二预选框。由此可见,本申请实施例能够通过上述过程从多个预选框中确定出较佳的预选框,从而确定出框选范围较佳的人像区域,提高了人像区域选择的准确度。
可选地,本申请实施例还能够根据细分类网络,针对已经确定的人像区域,提取其中用于指示人像区域整体的第一图像特征,并且能够通过引导网络在人像区域中确定n个局部区域之后,从每一个局部区域中提取出一个第二图像特征,在获得各个特征之后,本申请实施例能够将上述第一图像特征和第二图像特征串接在一起,形成一个一维的融合图像特征,在分类器处理该融合图像特征之后,能够判断出人像区域中的人物对应的年龄层,由于判断的融合图像特征中不仅包括了人像区域对应的特征,而且包括了人像区域中的局部区域对应的特征,因此,分类器能够综合上述特征得出人物对应的年龄层,提高了判断人物年龄层的准确度。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图16,图16是本申请一个示例性实施例提供的人像的年龄估测装置的结构框图。该人像的年龄估测装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该装置包括:
第一确定模块1610,用于从待处理图像中确定人像区域,所述人像区域的面积小于或等于所述待处理图像的面积;
第一提取模块1620,用于从所述人像区域中提取出第一图像特征;
第二确定模块1630,用于从所述人像区域确定出至少一个局部区域,并从所述局部区域中提取出第二图像特征,所述局部区域的面积小于所述人像区域;
特征融合模块1640,用于融合所述第一图像特征和所述第二图像特征,得到融合图像特征;
年龄估测模块1650,用于基于所述融合图像特征,得到所述人像区域中的人物对应的估测年龄。
在一个可选的实施例中,所述第二确定模块1630,用于通过细分类网络的第一处理分支,从所述人像区域中确定出至少一个所述局部区域;通过所述细分类网络的第一处理分支,从所述局部区域中提取出所述第二图像特征;所述第一提取模块1620,用于通过所述细分类网络的第二处理分支,从所述人像区域中提取出所述第一图像特征。
在一个可选的实施例中,所述第一提取模块1620,用于通过第一特征提取器从所述人像区域中提取出所述第一图像特征,所述第一特征提取器属于所述第二处理分支;所述第二确定模块1630,用于通过引导网络从所述人像区域确定出至少一个所述局部区域,所述引导网络属于所述第一处理分支;将至少一个所述局部区域从所述引导网络传递至第二特征提取器中;通过所述第二特征提取器从所述局部区域中提取所述第二图像特征,所述引导网络和所述第二特征提取器属于所述第一处理分支。
在一个可选的实施例中,所述第二确定模块1630,用于通过所述引导网络按照预设数量n,从所述人像区域中确定n个所述局部区域,n为正整数;将n个所述局部区域分别传递到n个所述第二特征提取器中;通过n个所述第二特征提取器分别从对应的所述局部区域中提取出n个所述第二图像特征。
在一个可选的实施例中,所述特征融合模块1640,用于将所述第一图像特征对应的数据转化为第一向量;将n个所述第二图像特征对应的数据转化为n个第二向量;串接所述第一向量和n个所述第二向量,得到融合向量,所述融合向量用于表示所述融合图像特征;其中,所述第一向量、所述第二向量和所述融合向量是一维向量。
在一个可选的实施例中,所述特征融合模块1640,用于响应于n大于1,按照所述第二向量对应的所述局部区域的面积大小,排列n个所述第二向量,所述排列包括降序排列或升序排列;串接所述第一向量和完成排序后的n个所述第二向量,得到所述融合向量。
在一个可选的实施例中,所述第一确定模块1610,用于将所述待处理图像输入第一预选框确定网络,确定p个第一预选框;将p个所述第一预选框和所述待处理图像输入第二预选框确定网络,确定q个第二预选框,所述第二预选框是所述第一预选框中的确定人像区域置信度高于阈值的预选框;将所述第二预选框所包括的区域确定为所述人像区域;其中,p和q是正整数,q小于p。
在一个可选的实施例中,所述第一确定模块1610,用于将所述待处理图像输入第一预选框确定网络,获得p+h个第一待处理预选框,h是正整数;对p+h个所述第一待处理预选框进行非极大值抑制筛选,得到p个所述第一预选框;所述将p个所述第一预选框和所述待处理图像输入第二预选框确定网络,得到q+k个第二待处理预选框,k是正整数;对q+k个所述第二待处理预选框进行所述非极大值抑制筛选,得到q个所述第二预选框。
综上所述,本申请实施例提供的人像的年龄估测装置,能够通过第一预选框确定网络初步确定出p+h个第一待处理预选框,再通过非极大值抑制筛选,得到p个第一预选框,完成对数量较多的第一待处理预选框的初步筛选。在得到p个第一预选框之后,计算机设备可以将p个第一预选框和待处理图像一并输入到第二预选框确定网络中,进而确定q+k个第二待处理预选框,并通过非极大值抑制筛选,从q+k个第二待处理预选框中确定出q个第二预选框。由此可见,本申请实施例能够通过上述过程从多个预选框中确定出较佳的预选框,从而确定出框选范围较佳的人像区域,提高了人像区域选择的准确度。
可选地,本申请实施例还能够根据细分类网络,针对已经确定的人像区域,提取其中用于指示人像区域整体的第一图像特征,并且能够通过引导网络在人像区域中确定n个局部区域之后,从每一个局部区域中提取出一个第二图像特征,在获得各个特征之后,本申请实施例能够将上述第一图像特征和第二图像特征串接在一起,形成一个一维的融合图像特征,在分类器处理该融合图像特征之后,能够判断出人像区域中的人物对应的年龄层,由于判断的融合图像特征中不仅包括了人像区域对应的特征,而且包括了人像区域中的局部区域对应的特征,因此,分类器能够综合上述特征得出人物对应的年龄层,提高了判断人物年龄层的准确度。
本申请实施例还提供了一种计算机可读介质,该计算机可读介质存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的人像的年龄估测方法。
需要说明的是:上述实施例提供的人像的年龄估测装置在执行人像的年龄估测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的人像的年龄估测装置与人像的年龄估测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的能够实现的示例性的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (7)
1.一种人像的年龄估测方法,其特征在于,所述方法包括:
从待处理图像中确定人像区域,所述人像区域的面积小于或等于所述待处理图像的面积,所述人像区域是包含单个人像的区域;
通过细分类网络的第二处理分支,从所述人像区域中提取出第一图像特征;
通过引导网络按照预设数量n,从所述人像区域中确定n个局部区域,n为正整数;将n个所述局部区域从所述引导网络分别传递到n个第二特征提取器中;通过n个所述第二特征提取器分别从对应的所述局部区域中提取出n个第二图像特征,所述引导网络和所述第二特征提取器属于所述细分类网络的第一处理分支,所述局部区域的面积小于所述人像区域,所述局部区域是所述人像区域中用于准确确定人物年龄的区域,所述引导网络在训练过程中使用教师网络进行监督引导,所述教师网络通过比较所述引导网络得到的各个局部区域的信息置信度,以监督所述局部区域的选取;
将所述第一图像特征对应的数据转化为第一向量;
将n个所述第二图像特征对应的数据转化为n个第二向量;
响应于n大于1,按照所述第二向量对应的所述局部区域的面积大小,排列n个所述第二向量,所述排列包括降序排列或升序排列;
串接所述第一向量和完成排序后的n个所述第二向量,得到融合向量,其中,所述第一向量、所述第二向量和所述融合向量是一维向量;
基于所述融合向量,得到所述人像区域中的人物对应的估测年龄。
2.根据权利要求1所述的方法,其特征在于,通过所述细分类网络的第二处理分支,从所述人像区域中提取出第一图像特征,包括:
通过第一特征提取器从所述人像区域中提取出所述第一图像特征,所述第一特征提取器属于所述第二处理分支。
3.根据权利要求1或2所述的方法,其特征在于,所述从待处理图像中确定人像区域,包括:
将所述待处理图像输入第一预选框确定网络,确定p个第一预选框;
将p个所述第一预选框和所述待处理图像输入第二预选框确定网络,确定q个第二预选框,所述第二预选框是所述第一预选框中的确定人像区域置信度高于阈值的预选框;
将所述第二预选框所包括的区域确定为所述人像区域;
其中,p和q是正整数,q小于p。
4.根据权利要求3所述的方法,其特征在于,所述将所述待处理图像输入第一预选框确定网络,确定p个第一预选框,包括:
将所述待处理图像输入第一预选框确定网络,获得p+h个第一待处理预选框,h是正整数;
对p+h个所述第一待处理预选框进行非极大值抑制筛选,得到p个所述第一预选框;
所述将p个所述第一预选框和所述待处理图像输入第二预选框确定网络,确定q个第二预选框,包括:
所述将p个所述第一预选框和所述待处理图像输入第二预选框确定网络,得到q+k个第二待处理预选框,k是正整数;
对q+k个所述第二待处理预选框进行所述非极大值抑制筛选,得到q个所述第二预选框。
5.一种人像的年龄估测装置,其特征在于,所述装置包括:
第一确定模块,用于从待处理图像中确定人像区域,所述人像区域的面积小于或等于所述待处理图像的面积,所述人像区域是包含单个人像的区域;
第一提取模块,用于通过细分类网络的第二处理分支,从所述人像区域中提取出第一图像特征;
第二确定模块,用于通过引导网络按照预设数量n,从所述人像区域中确定n个局部区域,n为正整数;将n个所述局部区域从所述引导网络分别传递到n个第二特征提取器中;通过n个所述第二特征提取器分别从对应的所述局部区域中提取出n个第二图像特征,所述引导网络和所述第二特征提取器属于所述细分类网络的第一处理分支,所述局部区域的面积小于所述人像区域,所述局部区域是所述人像区域中用于准确确定人物年龄的区域,所述引导网络在训练过程中使用教师网络进行监督引导,所述教师网络通过比较所述引导网络得到的各个局部区域的信息置信度,以监督所述局部区域的选取;
特征融合模块,用于将所述第一图像特征对应的数据转化为第一向量;
所述特征融合模块,还用于将n个所述第二图像特征对应的数据转化为n个第二向量;
所述特征融合模块,还用于响应于n大于1,按照所述第二向量对应的所述局部区域的面积大小,排列n个所述第二向量,所述排列包括降序排列或升序排列;
所述特征融合模块,还用于串接所述第一向量和完成排序后的n个所述第二向量,得到融合向量,其中,所述第一向量、所述第二向量和所述融合向量是一维向量;
年龄估测模块,用于基于所述融合向量,得到所述人像区域中的人物对应的估测年龄。
6.一种计算机设备,其特征在于,所述计算机设备包括处理器、和与所述处理器相连的存储器,以及存储在所述存储器上的程序指令,所述处理器执行所述程序指令时实现如权利要求1至4任一所述的人像的年龄估测方法。
7.一种计算机可读存储介质,所述存储介质中存储有程序指令,其特征在于,所述程序指令被处理器执行时实现如权利要求1至4任一所述的人像的年龄估测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497230.5A CN112528897B (zh) | 2020-12-17 | 2020-12-17 | 人像的年龄估测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497230.5A CN112528897B (zh) | 2020-12-17 | 2020-12-17 | 人像的年龄估测方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528897A CN112528897A (zh) | 2021-03-19 |
CN112528897B true CN112528897B (zh) | 2023-06-13 |
Family
ID=75001061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011497230.5A Active CN112528897B (zh) | 2020-12-17 | 2020-12-17 | 人像的年龄估测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528897B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310247A (zh) * | 2019-07-05 | 2019-10-08 | Oppo广东移动通信有限公司 | 图像处理方法、装置、终端及计算机可读存储介质 |
CN110826469A (zh) * | 2019-11-01 | 2020-02-21 | Oppo广东移动通信有限公司 | 一种人物检测方法、装置及计算机可读存储介质 |
CN111105487A (zh) * | 2019-12-19 | 2020-05-05 | 华中师范大学 | 一种虚拟教师系统中的面部合成方法及装置 |
CN111242027A (zh) * | 2020-01-13 | 2020-06-05 | 北京工业大学 | 一种融合语义信息的无监督学习场景特征快速提取方法 |
CN111339818A (zh) * | 2019-12-18 | 2020-06-26 | 中国人民解放军第四军医大学 | 一种人脸多属性识别系统 |
CN111340124A (zh) * | 2020-03-03 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像中实体类别的识别方法和装置 |
CN111523489A (zh) * | 2020-04-26 | 2020-08-11 | 上海眼控科技股份有限公司 | 年龄分类网络的生成方法、车载人员检测方法、装置 |
CN112084917A (zh) * | 2020-08-31 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种活体检测方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140270409A1 (en) * | 2013-03-15 | 2014-09-18 | Eyelock, Inc. | Efficient prevention of fraud |
CN109523463B (zh) * | 2018-11-20 | 2023-04-07 | 中山大学 | 一种基于条件生成对抗网络的人脸老化方法 |
CN110175595B (zh) * | 2019-05-31 | 2021-03-02 | 北京金山云网络技术有限公司 | 人体属性识别方法、识别模型训练方法及装置 |
CN110532970B (zh) * | 2019-09-02 | 2022-06-24 | 厦门瑞为信息技术有限公司 | 人脸2d图像的年龄性别属性分析方法、系统、设备和介质 |
CN111814611B (zh) * | 2020-06-24 | 2022-09-13 | 重庆邮电大学 | 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统 |
-
2020
- 2020-12-17 CN CN202011497230.5A patent/CN112528897B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310247A (zh) * | 2019-07-05 | 2019-10-08 | Oppo广东移动通信有限公司 | 图像处理方法、装置、终端及计算机可读存储介质 |
CN110826469A (zh) * | 2019-11-01 | 2020-02-21 | Oppo广东移动通信有限公司 | 一种人物检测方法、装置及计算机可读存储介质 |
CN111339818A (zh) * | 2019-12-18 | 2020-06-26 | 中国人民解放军第四军医大学 | 一种人脸多属性识别系统 |
CN111105487A (zh) * | 2019-12-19 | 2020-05-05 | 华中师范大学 | 一种虚拟教师系统中的面部合成方法及装置 |
CN111242027A (zh) * | 2020-01-13 | 2020-06-05 | 北京工业大学 | 一种融合语义信息的无监督学习场景特征快速提取方法 |
CN111340124A (zh) * | 2020-03-03 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像中实体类别的识别方法和装置 |
CN111523489A (zh) * | 2020-04-26 | 2020-08-11 | 上海眼控科技股份有限公司 | 年龄分类网络的生成方法、车载人员检测方法、装置 |
CN112084917A (zh) * | 2020-08-31 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种活体检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112528897A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428088B (zh) | 视频分类方法、装置及服务器 | |
CN110163198B (zh) | 一种表格识别重建方法、装置和存储介质 | |
CN111738251B (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN109145784B (zh) | 用于处理视频的方法和装置 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
US20230103340A1 (en) | Information generating method and apparatus, device, storage medium, and program product | |
CN106803055B (zh) | 人脸识别方法和装置 | |
CN105144239A (zh) | 图像处理装置、程序及图像处理方法 | |
CN106372624B (zh) | 人脸识别方法及系统 | |
CN109919252B (zh) | 利用少数标注图像生成分类器的方法 | |
CN111182367A (zh) | 一种视频的生成方法、装置及计算机系统 | |
US20230021551A1 (en) | Using training images and scaled training images to train an image segmentation model | |
CN111062854A (zh) | 检测水印的方法、装置、终端及存储介质 | |
CN105956631A (zh) | 一种面向电子图库的在线渐进式图像分类方法 | |
CN112819008B (zh) | 实例检测网络的优化方法、装置、介质及电子设备 | |
US20220375223A1 (en) | Information generation method and apparatus | |
CN111080746A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN109993187A (zh) | 一种用于识别物体类别的建模方法、机器人及存储装置 | |
Shah et al. | Efficient portable camera based text to speech converter for blind person | |
KR20210041856A (ko) | 딥 러닝 기반으로 애니메이션 캐릭터를 학습하는 데 필요한 학습 데이터 생성 방법 및 장치 | |
CN110619334A (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
WO2023047162A1 (en) | Object sequence recognition method, network training method, apparatuses, device, and medium | |
CN114022497A (zh) | 一种图像处理方法及装置 | |
CN112528897B (zh) | 人像的年龄估测方法、装置、计算机设备及存储介质 | |
CN111476144A (zh) | 行人属性识别模型确定方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |