CN114998961A - 虚拟三维人脸生成方法、人脸生成模型的训练方法及装置 - Google Patents
虚拟三维人脸生成方法、人脸生成模型的训练方法及装置 Download PDFInfo
- Publication number
- CN114998961A CN114998961A CN202210601570.0A CN202210601570A CN114998961A CN 114998961 A CN114998961 A CN 114998961A CN 202210601570 A CN202210601570 A CN 202210601570A CN 114998961 A CN114998961 A CN 114998961A
- Authority
- CN
- China
- Prior art keywords
- face
- region
- feature
- features
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/02—Non-photorealistic rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Graphics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请涉及一种虚拟三维人脸生成方法、人脸生成模型的训练方法及装置,属于图像处理技术领域。包括:对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,所述第一区域语义特征用于表示所述参考人脸图像的第一人脸区域的多个部位的语义特征;基于所述第一区域语义特征,确定第一注意力权重特征,所述第一注意力权重特征用于表示所述第一人脸区域的多个部位对人脸属性的重要程度;基于所述第一区域语义特征和所述第一注意力权重特征,确定所述第一人脸区域对应的多个第一人脸属性类别;基于所述多个第一人脸属性类别对应的多个三维人脸素材,生成所述参考人脸图像对应的虚拟三维人脸。本申请提高了虚拟三维人脸图像的准确性。
Description
技术领域
本申请实施例涉及图像处理技术领域,特别涉及一种虚拟三维人脸生成方法、人脸生成模型的训练方法及装置。
背景技术
随着图像处理技术的发展,可以对图像处理的方式越来越多;例如,可以基于参考人脸图像中的人脸,生成一个与该人脸类似的虚拟三维人脸,从而用户将该虚拟三维人脸作为用户的头像或者用户在直播或者视频通话的过程中,使用该虚拟三维人脸遮挡用户的头部。
相关技术中,生成虚拟三维人脸的过程为:提取参考人脸图像中的人脸特征,对人脸特征进行分类,得到人脸的多个人脸属性类别,获取多个人脸属性类别对应的三维人脸素材,对多个人脸属性类别对应的三维人脸素材进行拼接,得到该参考人脸图像对应的虚拟三维人脸。
相关技术中,当某个人脸属性类别涉及的区域在人脸区域中占比较小的情况下,提取的人脸特征就不准确,从而导致确定出的人脸属性类别不准确,进而导致生成的虚拟三维人脸与参考人脸图像的对应性较差,也即虚拟三维人脸的准确性低。
发明内容
本申请实施例提供了一种虚拟三维人脸生成方法、人脸生成模型的训练方法及装置,能够提高生成的虚拟三维人脸的准确性。所述技术方案如下:
一方面,提供了一种虚拟三维人脸生成方法,所述方法包括:
对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,所述第一区域语义特征用于表示所述参考人脸图像的第一人脸区域的多个部位的语义特征;
基于所述第一区域语义特征,确定第一注意力权重特征,所述第一注意力权重特征用于表示所述第一人脸区域的多个部位对人脸属性的重要程度;
基于所述第一区域语义特征和所述第一注意力权重特征,确定所述第一人脸区域对应的多个第一人脸属性类别;
基于所述多个第一人脸属性类别对应的多个三维人脸素材,生成所述参考人脸图像对应的虚拟三维人脸。
另一方面,提供了一种人脸生成模型的训练方法,所述方法包括:
获取样本数据,所述样本数据包括样本人脸图像和所述样本人脸图像的第二人脸区域的多个样本人脸属性类别;
对所述样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,所述第三区域语义特征用于表示所述样本人脸图像的第二人脸区域的多个部位的语义特征;
基于所述第三区域语义特征,确定第二注意力权重特征,所述第二注意力权重特征用于表示所述第二人脸区域的多个部位对人脸属性的重要程度;
基于所述第三区域语义特征和所述第二注意力权重特征,确定所述第二人脸区域对应的多个第二人脸属性类别;
基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,训练得到人脸生成模型。
另一方面,提供了一种虚拟三维人脸生成装置,所述装置包括:
第一解析模块,用于对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,所述第一区域语义特征用于表示所述参考人脸图像的第一人脸区域的多个部位的语义特征;
第一确定模块,用于基于所述第一区域语义特征,确定第一注意力权重特征,所述第一注意力权重特征用于表示所述第一人脸区域的多个部位对人脸属性的重要程度;
第二确定模块,用于基于所述第一区域语义特征和所述第一注意力权重特征,确定所述第一人脸区域对应的多个第一人脸属性类别;
生成模块,用于基于所述多个第一人脸属性类别对应的多个三维人脸素材,生成所述参考人脸图像对应的虚拟三维人脸。
另一方面,提供了一种人脸生成模型的训练装置,所述装置包括:
第三获取模块,用于获取样本数据,所述样本数据包括样本人脸图像和所述样本人脸图像的第二人脸区域的多个样本人脸属性类别;
第三解析模块,用于对所述样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,所述第三区域语义特征用于表示所述样本人脸图像的第二人脸区域的多个部位的语义特征;
第五确定模块,用于基于所述第三区域语义特征,确定第二注意力权重特征,所述第二注意力权重特征用于表示所述第二人脸区域的多个部位对人脸属性的重要程度;
第六确定模块,用于基于所述第三区域语义特征和所述第二注意力权重特征,确定所述第二人脸区域对应的多个第二人脸属性类别;
第二训练模块,用于基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,训练得到人脸生成模型。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器;所述存储器存储有至少一条程序代码,所述至少一条程序代码用于被所述处理器执行以实现如上述方面所述的虚拟三维人脸生成方法。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器;所述存储器存储有至少一条程序代码,所述至少一条程序代码用于被所述处理器执行以实现如上述方面所述的人脸生成模型的训练方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如上述方面所述的虚拟三维人脸生成方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如上述方面所述的人脸生成模型的训练方法。
另一方面,提供了一种计算机程序产品,所述计算机程序产品存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如上述方面所述的虚拟三维人脸生成方法。
另一方面,提供了一种计算机程序产品,所述计算机程序产品存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如上述方面所述的人脸生成模型的训练方法。
在本申请实施例中,获取参考人脸图像的区域语义特征和注意力权重特征,而区域语义特征用于表示参考人脸图像的人脸区域的语义特征,也即区域语义特征体现的是人脸区域的表达能力;注意力权重特征用于表示人脸区域的多个部位对人脸属性的重要程度,也即注意力权重特征能够增强特征之间的相关性;因此,融合区域语义特征和注意力权重特征,确定人脸属性类别能够增强特征之间的相关性和表达能力,从而提高了确定出的人脸属性类别的准确性,进而提高了生成的虚拟三维人脸与参考人脸图像的对应性,也即提高了虚拟三维人脸图像的准确性。
附图说明
图1示出了本申请一个示例性实施例示出的虚拟三维人脸生成方法的实施环境的示意图;
图2示出了本申请一个示例性实施例示出的虚拟三维人脸生成方法的流程图;
图3示出了本申请一个示例性实施例示出的人脸生成模型的训练方法的流程图;
图4示出了本申请一个示例性实施例示出的虚拟三维人脸生成方法的流程图;
图5示出了本申请一个示例性实施例示出的虚拟三维人脸生成方法的示意图;
图6示出了本申请一个示例性实施例示出的对样本人脸图像进行数据增强预处理的示意图;
图7示出了本申请一个示例性实施例示出的U-net的网络结构意图;
图8示出了本申请一个示例性实施例示出的人脸生成模型的训练方法的流程图;
图9示出了本申请一个示例性实施例示出的人脸生成模型的训练方法的示意图;
图10示出了本申请一个示例性实施例示出的对参考人脸图像进行数据增强预处理的示意图;
图11示出了本申请一个示例性实施例示出的虚拟三维人脸生成装置的结构框图;
图12示出了本申请一个示例性实施例示出的人脸生成模型的训练装置的结构框图;
图13示出了本申请一个示例性实施例示出的终端的结构框图;
图14示出了本申请一个示例性实施例示出的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本申请所涉及的相关数据可以为经用户授权或者经各方充分授权的数据。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、显示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的参考人脸图像和样本人脸图像等都是在充分授权的情况下获取的。
本申请实施例提供的虚拟三维人脸生成方法可以应用在拍照、直播或者视频通话等场景中。
例如,虚拟三维人脸生成方法应用在拍照场景中,在用户使用终端拍照时,终端将当前拍摄的人脸图像作为参考人脸图像,基于该参考人脸图像,生成该参考人脸图像对应的虚拟三维人脸,将该虚拟三维人脸显示在当前拍摄界面的预设位置,或者直接将该虚拟三维人脸存储在相册中。其中,该预设位置可以为拍摄界面的右下角、左下角、左上角或者右上角等。
再如,虚拟三维人脸生成方法应用在直播场景中,在用户使用终端进行直播的过程中,或者用户使用终端直播前,终端生成参考人脸图像对应的虚拟三维人脸,然后使用该虚拟三维人脸遮挡用户的脸部,也即使用虚拟三维人脸进行直播。
再如,虚拟三维人脸生成方法应用在视频通话场景中,在用户使用终端进行视频通话的过程中,或者用户使用终端视频通话前,终端生成参考人脸图像对应的虚拟三维人脸,然后使用该虚拟三维人脸遮挡用户的脸部,也即使用虚拟三维人脸进行视频通话。
本申请一个示例性实施例示出的虚拟三维人脸生成方法,能够由电子设备执行。在一些实施例中,电子设备被配置为终端101,也即终端101生成虚拟三维人脸;并且,终端101可以借助于人脸生成模型生成虚拟三维人脸;而人脸生成模型可以为终端101训练的,也可以为服务器102训练后部署到终端101中的。该终端101是智能手机、平板电脑、笔记本电脑或者台式电脑等,但并不限于此。
在一些实施例中,电子设备被配置为服务器102,也即服务器102生成虚拟三维人脸;并且,服务器102可以借助于人脸生成模型生成虚拟三维人脸;而人脸生成模型可以是服务器102训练的。服务器102是独立的服务器102,或者是多个物理服务器102工程的服务器102集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器102。
在一些实施例中,电子设备被配置为终端101和服务器102。相应的,请参考图1,图1示出了本申请一个示例性实施例示出的虚拟三维人脸生成方法的实施环境的示意图;该实施环境包括:终端101和服务器102;终端101上安装有目标应用,该目标应用可以为拍摄应用、社交应用或者直播应用;该服务器102为目标应用对应的后台服务器102;且终端101和服务器102通过无线或者有线网络连接。
其中,终端101有虚拟三维人脸生成需求时,终端101向服务器102发送生成请求,该生成请求携带参考人脸图像;服务器102响应于该参考人脸图像,生成该参考人脸图像对应的虚拟三维人脸,将该三维人脸发送给终端101。并且,服务器102可以借助于人脸生成模型生成虚拟三维人脸;而人脸生成模型可以是服务器102训练的。
请参考图2,其示出了本申请一个示例性实施例示出的虚拟三维人脸生成方法的流程图。该方法包括:
步骤S201:电子设备对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,第一区域语义特征用于表示参考人脸图像的第一人脸区域的多个部位的语义特征。
参考人脸图像可以为电子设备当前拍摄的图像,也可以为电子设备中已存储的图像;并且,参考人脸图像中包括第一人脸区域,第一人脸特征包括第一人脸区域的多个部位的人脸特征;多个部分包括耳朵、眼睛、鼻子、嘴巴、头发、脸颊等中的多个。
电子设备中部署有人脸生成模型,人脸生成模型中包括语义解析模块;电子设备通过该语义解析模块,对第一人脸特征进行语义解析,得到第一区域语义特征。
步骤S202:电子设备基于第一区域语义特征,确定第一注意力权重特征,第一注意力权重特征用于表示第一人脸区域的多个部位对人脸属性的重要程度。
电子设备中部署有人脸生成模型,人脸生成模型中包括注意力特征提取模块;电子设备基于第一区域语义特征,通过该注意力特征提取模块,确定第一注意力权重特征。
步骤S203:电子设备基于第一区域语义特征和第一注意力权重特征,确定第一人脸区域对应的多个第一人脸属性类别。
一个第一人脸属性类别对应一个部位;例如,多个部分包括耳朵、眼睛、鼻子、嘴巴、头发和脸颊;则多个第一人脸属性类别包括耳朵对应的属性类别、眼睛对应的属性类别、鼻子对应的属性类别、嘴巴对应的属性类别、头发对应的属性类别和脸颊对应的属性类别。
步骤S204:电子设备基于多个第一人脸属性类别对应的多个三维人脸素材,生成参考人脸图像对应的虚拟三维人脸。
电子设备基于多个第一人脸属性类别,获取多个第一人脸属性类别对应的多个三维人脸素材,一个第一人脸属性类别对应获取一个三维人脸素材,将多个三维人脸素材进行拼接,得到参考人脸图像对应的虚拟三维人脸。例如,多个第一人脸属性类别包括耳朵对应的属性类别、眼睛对应的属性类别、鼻子对应的属性类别、嘴巴对应的属性类别、头发对应的属性类别、脸颊对应的属性类别;则电子设备获取耳朵素材、眼睛素材、鼻子素材、嘴巴素材、头发素材和脸颊素材,将耳朵素材、眼睛素材、鼻子素材、嘴巴素材、头发素材和脸颊素材进行拼接,得到虚拟三维人脸。
在本申请实施例中,获取参考人脸图像的区域语义特征和注意力权重特征,而区域语义特征用于表示参考人脸图像的人脸区域的语义特征,也即区域语义特征体现的是人脸区域的表达能力;注意力权重特征用于表示人脸区域的多个部位对人脸属性的重要程度,也即注意力权重特征能够增强特征之间的相关性;因此,融合区域语义特征和注意力权重特征,确定人脸属性类别能够增强特征之间的相关性和表达能力,从而提高了确定出的人脸属性类别的准确性,进而提高了生成的虚拟三维人脸与参考人脸图像的对应性,也即提高了虚拟三维人脸图像的准确性。
请参考图3,其示出了本申请一个示例性实施例示出的人脸生成模型的训练方法的流程图。该方法包括:
步骤S301:电子设备获取样本数据,样本数据包括样本人脸图像和样本人脸图像的第二人脸区域的多个样本人脸属性类别。
样本人脸图像包括第二人脸区域,第二人脸特征包括第二人脸区域的多个部位的人脸特征;多个部分包括耳朵、眼睛、鼻子、嘴巴、头发、脸颊等中的多个。一个样本人脸属性类别对应一个部位;例如,多个部分包括耳朵、眼睛、鼻子、嘴巴、头发和脸颊;则多个样本人脸属性类别包括耳朵对应的属性类别、眼睛对应的属性类别、鼻子对应的属性类别、嘴巴对应的属性类别、头发对应的属性类别和脸颊对应的属性类别。
步骤S302:电子设备对样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,第三区域语义特征用于表示样本人脸图像的第二人脸区域的多个部位的语义特征。
电子设备中部署有初始的人脸生成模型,初始的人脸生成模型中包括语义解析模块;电子设备通过该语义解析模块,对第二人脸特征进行语义解析,得到第三区域语义特征。
步骤S303:电子设备基于第三区域语义特征,确定第二注意力权重特征,第二注意力权重特征用于表示第二人脸区域的多个部位对不同人脸属性的重要程度。
电子设备中部署有初始的人脸生成模型,初始的人脸生成模型中包括注意力特征提取模块;电子设备基于第三区域语义特征,通过该注意力特征提取模块,确定第二注意力权重特征。
步骤S304:电子设备基于第三区域语义特征和多个第二注意力权重特征,确定第二人脸区域对应的多个第二人脸属性类别。
一个第二人脸属性类别对应一个部位;例如,多个部分包括耳朵、眼睛、鼻子、嘴巴、头发和脸颊;则多个第二人脸属性类别包括耳朵对应的属性类别、眼睛对应的属性类别、鼻子对应的属性类别、嘴巴对应的属性类别、头发对应的属性类别和脸颊对应的属性类别。
步骤S305:电子设备基于多个第二人脸属性类别和多个样本人脸属性类别,训练得到人脸生成模型。
电子设备基于多个第二人脸属性类别和多个样本人脸属性类别,确定损失值,基于损失值进行反向传播,更新初始的人脸生成模型,直到初始的人脸生成模型满足收敛条件,得到最终训练完成的人脸生成模型。
在本申请实施例中,训练人脸生成模型时,结合了样本人脸图像的区域语义特征和注意力权重特征,而区域语义特征用于表示参考人脸图像的人脸区域的语义特征,也即区域语义特征体现的是人脸区域的表达能力;注意力权重特征用于表示人脸区域的多个部位对人脸属性的重要程度,也即注意力权重特征能够增强特征之间的相关性;因此,融合区域语义特征和注意力权重特征,确定人脸属性类别能够增强特征之间的相关性和表达能力,从而提高了确定出的人脸属性类别的准确性,进而提高了基于人脸属性类别训练得到的人脸生成模型的准确性。
请参考图4,其示出了本申请一个示例性实施例示出的人脸生成模型的训练方法的流程图。该方法包括:
步骤S401:电子设备获取样本数据,样本数据包括样本人脸图像和样本人脸图像的第二人脸区域的多个样本人脸属性类别。
样本人脸图像可以为二维图像,包括但不限于特定像素格式(Y'CbCr,YUV)的图像、红绿蓝(Red Green Blue,RGB)图像或纹理格式的图像。样本人脸图像包括第二人脸区域,第二人脸特征包括第二人脸区域的多个部位的人脸特征;多个部分包括耳朵、眼睛、鼻子、嘴巴、头发、脸颊等中的多个。一个样本人脸属性类别对应一个部位;例如,多个部分包括耳朵、眼睛、鼻子、嘴巴、头发和脸颊;则多个样本人脸属性类别包括耳朵对应的属性类别、眼睛对应的属性类别、鼻子对应的属性类别、嘴巴对应的属性类别、头发对应的属性类别和脸颊对应的属性类别。
步骤S402:电子设备对样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,第三区域语义特征用于表示样本人脸图像的第二人脸区域的多个部位的语义特征。
第二人脸特征用于表示第二人脸区域的多个部位的人脸特征。本步骤可以通过以下步骤(1)至(3)实现,包括:
(1)电子设备对样本人脸图像进行数据增强预处理。
例如,参见图5,电子设备获取到样本人脸图像后,先对样本人脸图像进行数据增加预处理。其中,数据增强预处理包括随机中心剪裁、随机色度处理、饱和度处理、亮度增强、随机水平旋转、归一化处理中的至少一项。例如,数据增强预处理包括随机中心剪裁、随机色度处理、饱和度处理、亮度增强、随机水平旋转和归一化处理;则参见图6,电子设备依次对样本人脸图像进行随机中心剪裁、随机色度处理、饱和度处理、亮度增强、随机水平旋转和归一化处理。
在一些实施例中,数据增强预处理包括随机中心剪裁;则电子设备对样本人脸图像进行数据增强预处理,包括:电子设备在样本人脸图像中确定第二人脸区域,以第二人脸区域为中心,对样本人脸图像进行剪裁,裁剪后的样本人脸图像的图像尺寸满足尺寸要求,该尺寸要求是指训练人脸生成模型需要的尺寸要求。
在本申请实施例中,对样本人脸图像进行裁剪,从而将边缘区域裁剪掉,能够增强第二人脸区域的显示效果,进而提高后续训练得到的人脸生成模型的表达能力。
在一些实施例中,数据增强预处理包括随机色度处理;则电子设备对样本人脸图像进行数据增强预处理,包括:电子设备将样本人脸图像的像素点色度修改为随机色度,不同像素点的色度相同或者不同。
在本申请实施例中,对样本人脸图像进行随机色度处理,从而提高后续训练得到的人脸生成模型的识别能力。
在一些实施例中,数据增强预处理包括饱和度处理;则电子设备对样本人脸图像进行数据增强预处理,包括:电子设备将样本人脸图像的饱和度设置为预设饱和度,预设饱和度为大于预设阈值的饱和度,也即预设饱和度为高饱和度;或者,预设饱和度为不大于预设阈值的饱和度,也即预设饱和度为低饱和度。
在本申请实施例中,对样本人脸图像进行饱和度处理,从而提高后续训练得到的人脸生成模型的识别能力。
在一些实施例中,数据增加预处理包括亮度增强;则电子设备对样本人脸图像进行数据增强预处理,包括:电子设备增加样本人脸图像的亮度。
在本申请实施例中,对样本人脸图像进行亮度增强,从而能够增强第二人脸区域的显示效果,进而提高后续训练得到的人脸生成模型的表达能力。
在一些实施例中,数据增强预处理包括随机水平旋转;则电子设备对样本人脸图像进行数据增强预处理,包括:电子设备将样本人脸图像进行随机水平旋转。其中,电子设备按照预设的翻转概率进行随机水平旋转,预设的翻转概率可以为0.5。
在本申请实施例中,对样本人脸图像进行随机水平旋转,这样并不需要对其他方向的人脸进行训练,从而降低了训练人脸生成模型的计算量。
需要说明的一点是,随机水平旋转是非必须的操作;如果不对样本人脸图像进行随机水平旋转,则在后续训练人脸生成模型时,采用四个方向训练,因此,在后续基于人脸生成模型生成参考人脸图像对应的虚拟三维人脸时,也可以对四个方向进行预测,即也不需要对参考人脸图像进行旋转。
在一些实施例中,数据增强预处理包括归一化处理;则电子设备对样本人脸图像进行数据增强预处理,包括:对于样本人脸图像中的任一像素点,电子设备将该像素点的任一通道值减去第一数值,然后除以第二数值。第一数值和第二数值均可以根据需要进行设置并更改;例如,第一数值和第二数值均为127.5,该像素点的任一通道值(R通道、G通道和B通道)为X,则归一化处理后的该像素点的通道值为(X-127.5)/127.5。需要说明的一点是,电子设备还可以通过其他的方式来对样本人脸图像进行归一化处理;例如,电子设备将该像素点的任一通道值(R通道、G通道和B通道)直接除以255,则归一化处理后的该像素点的通道值为X/255。
在本申请实施例中,通过对样本人脸图像进行数据增强预处理,能够增强数据的多样性和训练结果的鲁棒性。
需要说明的一点是,步骤(1)不是必须的步骤,电子设备可以直接通过以下步骤(2)和(3)确定第三区域语义特征。
(2)电子设备提取样本人脸图像的第二人脸特征。
例如,继续参见图5,电子设备中部署有初始的人脸生成模型;初始的人脸生成模型中包括人脸特征提取模块;电子设备通过该人脸特征提取模块,提取样本人脸图像的第二人脸特征。例如,人脸特征提取模块为核心(backbone)编码网络模块,样本人脸图像经过backbone编码网络模块后,尺寸会变小,通道数会增大,从而得到第二人脸特征的精度会更高。其中,backbone编码网络模块可以采用但不限于残差网络(resnet)、移动网络(mobilenet)、深度可分离卷积(xception)等网络结构。
需要说明的一点是,电子设备还可以借助于其他模型的特征提取模块来提取样本人脸图像的第二人脸特征。
(3)电子设备对第二人脸特征进行语义解析,得到第三区域语义特征。
例如,继续参见图5,电子设备中部署有初始的人脸生成模型;初始的人脸生成模型中包括语义解析模块;电子设备通过该语义解析模块,对第二人脸特征进行语义解析,得到第三区域语义特征。其中,第三区域语义特征的维度为N*K*H1*W1,N表示训练时每次迭代的图像数,K表示后续进行语义分割人脸图像区域数量,第三区域语义特征是以特征图的形式输出,H1表示输出特征图的高,W1表示输出特征图的宽。
其中,人脸特征提取模块和语义解析模块构成类似于基础语义分割网络(U-Net)的网络结构,相应的,U-Net的网络结构如图6所示。人脸特征提取模块和语义解析模块是对称的结果,也即人脸特征提取模块包括的多个特征提取层和语义解析模块包括的多个语义解析层的数量是相同,且结果是对称的,且相同结构的语义解析层是跳跃连接的。例如,参见图7,人脸特征提取模块的结构为译码器(encoder),语义解析模块的结构为编码器(decoder);人脸特征提取模块包括6个特征提取层,分别为特征提取层1-6,语义解析模块包括6个语义解析层,分别为语义解析层1-6;特征提取层1与语义解析层6跳跃连接,特征提取层2与语义解析层5跳跃连接,特征提取层3与语义解析层4跳跃连接,特征提取层4与语义解析层5跳跃连接,特征提取层6与语义解析层2跳跃连接,特征提取层6与语义解析层1跳跃连接。
步骤S403:电子设备基于第三区域语义特征,确定第二注意力权重特征,第二注意力权重特征用于表示第二人脸区域的多个部位对人脸属性的重要程度。
电子设备中部署有初始的人脸生成模型,初始的人脸生成模型中包括注意力特征提取模块;电子设备基于第三区域语义特征,通过该注意力特征提取模块,确定第二注意力权重特征。
其中,本步骤可以通过以下步骤(1)和(2)实现,包括:
(1)电子设备对第三区域语义特征进行卷积处理,得到第五区域语义特征。
例如,继续参见图5,电子设备中部署有初始的人脸生成模型,初始的人脸生成模型中包括卷积处理模块(卷积block),卷积处理模块包括多个卷积层;电子设备通过该卷积处理模块,对第三区域语义特征进行卷积处理,得到第五区域语义特征。其中,第三区域语义特征和第五区域语义特征的维度不同。电子设备对第三区域语义特征进行卷积处理其实是对第三区域语义特征的维度进行改变。例如,第三区域语义特征的维度为N*K*H1*W1;而第五区域语义特征的维度为N*K*C*1,C通常取512、1024、2048、4096等。并且N的值越大,第五区域语义特征的表达能力越强。
(2)电子设备对第五区域语义特征进行通道注意力处理,得到第二注意力权重特征。
例如,继续参见图5,电子设备中部署有初始的人脸生成模型,初始的人脸生成模型中包括注意力特征提取模块;电子设备基于第五区域语义特征,通过该注意力特征提取模块,确定第二注意力权重特征。其中,注意力特征提取模块包括一组卷积层(conv2d)、批量归一化层(BatchNormalization,BN)和激活函数层(relu);相应的,电子设备基于第五区域语义特征,依次通过conv2d、BN、relu,将第五区域语义特征由维度N*K*C*1转换为N*K*1*1的维度,转换得到的特征即为第二注意力权重特征。其中,第二注意力权重特征用于表示第二人脸区域的多个部位对人脸属性的重要程度。例如,要对头发的长度、卷直、颜色等属性进行回归,则第二注意力权重特征会更加关注第二人脸区域的头发区域,因此,第二注意力权重特征N*K*1*1中头发代表的通道值会比较大。
步骤S404:电子设备基于第三区域语义特征和第二注意力权重特征,确定第二人脸区域对应的多个第二人脸属性类别。
一个第二人脸属性类别对应一个部位;例如,多个部分包括耳朵、眼睛、鼻子、嘴巴、头发和脸颊;则多个第二人脸属性类别包括耳朵对应的属性类别、眼睛对应的属性类别、鼻子对应的属性类别、嘴巴对应的属性类别、头发对应的属性类别和脸颊对应的属性类别。
本步骤可以通过以下步骤(1)和(2)实现,包括:
(1)电子设备将第三区域语义特征与第二注意力权重特征进行融合,得到第二融合特征,第二融合特征包括多个部位对应的区域语义特征。
例如,继续参见图5,第二注意力权重特征包括多个注意力权重,多个注意力权重用于表示多个部位对人脸属性的重要程度。电子设备将第三区域语义特征拷贝M份,M的表示人脸需要分类的细粒度属性数量,将第三区域语义特征分别与第二注意力权重特征包括的多个注意力权重相乘,得到第二融合特征。其中,第二融合特征的维度为N*K*C*1。
需要说明的一点是,在本步骤中,电子设备还可以对电子设备对第三区域语义特征进行卷积处理,得到第五区域语义特征,将第五区域语义特征与第二注意力权重特征进行融合,得到第二融合特征。其中,电子设备将第五区域语义特征与第二注意力权重特征进行融合,得到第二融合特征与电子设备将第三区域语义特征与第二注意力权重特征进行融合,得到第二融合特征的过程相同,在此不再赘述。
(2)电子设备基于多个部位对应的区域语义特征,确定第二人脸区域对应的多个第二人脸属性类别。
例如,继续参见图5,电子设备中部署有初始的人脸生成模型,初始的人脸生成模型中包括属性回归模块;电子设备基于多个部分对应的区域语义特征,通过属性回归模块,实现相应属性的回归,得到第二人脸区域对应的多个属性特征,一个属性特征用于表示一个第二人脸属性类别,并且,属性特征的维度为N*1。其中,初始的人脸生成模型中包括多个属性回归模块,分别为属性回归模块1-属性回归模块N,一个属性回归模块用于处理一个部位对应的区域语义特征。
步骤S405:电子设备基于第二人脸特征和第三区域语义特征,确定第一交叉熵损失值。
本步骤可以通过以下步骤(1)和(2)实现,包括:
(1)电子设备对第三区域语义特征进行归一化处理,得到第四区域语义特征,第四区域语义特征包括多个特征点的语义特征值。
例如,继续参见图5,电子设备基于归一化函数(softmax),通过以下公式一,对第三区域语义特征进行归一化处理,得到第四区域语义特征。
其中,ai表示第三区域语义特征经过softmax计算后每个像素点的输出值,ezi表示第三区域语义特征经过softmax后第i个通道的输出值,k为通道数量。
(2)电子设备基于第四区域语义特征和第二人脸特征,确定第一交叉熵损失值。
例如,继续参见图5,第二人脸特征包括多个像素点的特征,电子设备对多个像素点的特征进行属性分类,得到多个像素点的类别;电子设备基于第四区域语义特征和多个像素点的类别,通过以下公式二,确定第一交叉熵损失值。
其中,C表示第一交叉熵损失值,ai表示第三区域语义特征经过softmax计算后每个像素点的输出值,yi表示每个像素点的类别。
步骤S406:电子设备基于多个第二人脸属性类别和多个样本人脸属性类别,确定多个第二交叉熵损失值。
例如,继续参见图5,电子设备通过以下公式三,第二人脸区域对应的多个属性特征进行归一化处理,基于多个样本人脸属性类别和归一化处理后的多个属性特征,确定多个第二交叉熵损失值,一个样本人脸属性类别和归一化处理后的一个属性特征,会确定出一个第二交叉熵损失值。
其中,e-x表示属性特征,f(x)表示归一化处理后的属性特征。
需要说明的一点是,电子设备基于多个样本人脸属性类别和归一化处理后的多个属性特征,通过任一损失函数,确定第二交叉熵损失值。例如,通过以下步骤405中的(2)中相同的损失函数确定第二交叉熵损失值。
步骤S407:电子设备基于第一交叉熵损失值和多个第二交叉熵损失值,训练得到人脸生成模型。
本步骤可以通过以下步骤(1)至(3)实现,包括:
(1)电子设备确定多个第二损失值的平均值。
(2)电子设备对第一损失值和多个第二损失值的平均值进行加权求和,得到目标损失值。
第一损失值对应的第一权重和多个第二损失值的平均值对应的第二权重可以根据需要进行设置并更改,在本申请实施例中,对第一权重和第二权重不作具体限定;例如,第一权重和第二权重的比值为1∶10,也即电子设备将第一损失值与该平均值的10倍进行求和,得到目标损失值。
(3)电子设备基于目标损失值,更新人脸生成模型的模型参数,直到人脸模型达到收敛条件,得到训练完成的人脸生成模型。
例如,继续参见图5,电子设备通过反向传播的方式,基于目标损失值,迭代更新人脸生成模型的模型参数,直到人脸模型达到收敛条件,得到训练完成的人脸生成模型。
需要说明的一点是,步骤(1)至(3)可以通过以下公式四实现。
需要说明的一点是,电子设备在确定第一损失值和第二损失值时,还可以基于OHEM损失提升算法对人脸区域困难像素点语义分割的精度。针对每个属性中正负样本不均衡的问题,采用focal loss提升属性分类的精度。相应的,步骤(1)至(3)可以通过以下公式五实现。
在本申请实施例中,训练人脸生成模型时,结合了样本人脸图像的区域语义特征和注意力权重特征,而区域语义特征用于表示参考人脸图像的人脸区域的语义特征,也即区域语义特征体现的是人脸区域的表达能力;注意力权重特征用于表示人脸区域的多个部位对人脸属性的重要程度,也即注意力权重特征能够增强特征之间的相关性;因此,融合区域语义特征和注意力权重特征,确定人脸属性类别能够增强特征之间的相关性和表达能力,从而提高了确定出的人脸属性类别的准确性,进而提高了基于人脸属性类别训练得到的人脸生成模型的准确性。
请参考图8,其示出了本申请一个示例性实施例示出的虚拟三维人脸生成方法的流程图。该方法包括:
步骤S801:电子设备提取参考人脸图像的第一人脸特征。
参考人脸图像可以为电子设备中已存储的图像、电子设备当前拍摄的图像或者电子设备取景框中的预览图像;在本申请实施例中,对参考人脸图像不作具体限定。例如,参考人脸图像为电子设备中已存储的图像,则电子设备能够实现生成任一已存储的图像对应的虚拟三维人脸。再如,参考人脸图像为电子设备当前拍摄的图像,则电子设备在拍摄图像的过程中,即可生成当前拍摄的图像对应的虚拟三维人脸,从而实现拍摄过程中及时生成虚拟三维人脸。再如,参考人脸图像为电子设备取景框中的预览图像,则电子设备在预览模式下,即可生成当前预览的图像对应的虚拟三维人脸,这样在虚拟三维人脸不满足用户需求的情况下,可以及时调整预览图像。
本步骤可以通过以下步骤(1)至(3)实现,包括:
(1)电子设备获取参考人脸图像。
参考人脸图像可以为电子设备中已存储的图像、电子设备当前拍摄的图像或者电子设备取景框中的预览图像;相应的,电子设备获取已存储的参考人脸图像,或者电子设备检测到拍摄指令时,获取当前拍摄的图像,将当前拍摄的图像作为参考人脸图像;或者电子设备在预览模式下,获取取景框中的预览图像,将预览图像作为参考人脸图像。
(2)电子设备对参考人脸图像进行数据增强预处理。
参见图9,电子设备获取到参考人脸图像后,先对参考人脸图像进行数据增强预处理。其中,电子设备对参考人脸图像进行数据增强预处理与电子设备对样本人脸图像进行数据增强预处理相同或者不同;例如,电子设备对参考人脸图像进行的数据增强预处理包括旋转、裁剪和归一化处理中的至少一项。
在一些实施例中,数据增强预处理包括旋转,则电子设备对参考人脸图像进行数据增强预处理,包括:电子设备对参考人脸图像进行旋转,旋转后的参考人脸图像的人脸方向满足方向要求,也即旋转后的参考人脸图像的人脸方向朝上。
在一些实施例中,数据增强预处理包括裁剪,则电子设备对参考人脸图像进行数据增强预处理,包括:电子设备对参考人脸图像进行裁剪,裁剪后的参考人脸图像包括第一人脸区域,且裁剪后的参考人脸图像的图像尺寸满足尺寸要求,也即裁剪后的参考人脸图像满足人脸生成模型需要的尺寸要求。
在一些实施例中,数据增强预处理包括归一化处理,则电子设备对参考人脸图像进行数据增强预处理,包括:电子设备对参考人脸图像进行归一化处理。其中,电子设备对参考人脸图像进行归一化处理与电子设备对样本人脸图像进行归一化处理的过程相同,在此不再赘述。
例如,电子设备对参考人脸图像进行的数据增强预处理包括旋转、裁剪和归一化处理;则参见图10,电子设备对参考人脸图像进行数据增强预处理,包括:电子设备输入参考人脸图像,对参考人脸图像进行旋转,对旋转后的参考人脸图像进行人脸检测,基于人脸检测结果,将人脸区域裁剪到满足要求的尺寸,对裁剪后的参考人脸图像进行归一化处理。
(3)电子设备提取预处理后的参考人脸图像的人脸特征,得到第一人脸特征。
电子设备中部署有训练完成的人脸生成模型,该人脸生成模型包括人脸特征提取模块;电子设备通过该人脸特征提起模块,提取预处理后的参考人脸图像的人脸特征,得到第一人脸特征。
步骤S802:电子设备对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,第一区域语义特征用于表示参考人脸图像的第一人脸区域的多个部位的语义特征。
例如,继续参见图9,电子设备中部署有训练完成的人脸生成模型,该人脸生成模型中包括语义解析模块;电子设备通过该语义解析模块,对第一人脸特征进行语义解析,得到第一区域语义特征。
步骤S803:电子设备基于第一区域语义特征,确定第一注意力权重特征,第一注意力权重特征用于表示第一人脸区域的多个部位对人脸属性的重要程度。
例如,继续参见图9,电子设备中部署有训练完成的人脸生成模型,该人脸生成模型中包括注意力特征提取模块;电子设备基于第一区域语义特征,通过该注意力特征提取模块,确定第一注意力权重特征。
其中,电子设备基于第一区域语义特征,确定第一注意力权重特征,包括:电子设备对第一区域语义特征进行卷积处理,得到第二区域语义特征;对第二区域语义特征进行通道注意力处理,得到第一注意力权重特征。
步骤S804:电子设备将第一区域语义特征与第一注意力权重特征进行融合,得到第一融合特征,第一融合特征中包括多个部位对应的区域语义特征。
例如,继续参见图9,本步骤与步骤S404中的步骤(1)的实现过程相似,在此不再赘述。
在本申请实施例中,融合第一区域语义特征和第一注意力权重特征,从而增强了算法的可解释性,重点提升了属性类别较多情况下的区域占比较小的细粒度人脸属性分类精度,避免了常规算法在针对人脸细粒度类别较多的情况下,识别精度不高,导致生成的虚拟三维人脸与参考人脸图像对应性不强的问题。
步骤S805:电子设备基于多个部位对应的区域语义特征,确定第一人脸区域对应的多个第一人脸属性类别。
例如,继续参见图9,本步骤与步骤S404中的步骤(2)的实现过程相似,在此不再赘述。
需要说明的一点是,对于任一部位对应的区域语义特征,电子设备基于该部位对应的区域语义特征和预先设置的该部分对应的多个属性类别,确定该部分属于每个属性类别的概率,基于该部分属于每个属性类别的概率,从多个属性类别中选择概率超过预设阈值的概率,得到该部位对应的第一人脸属性类别。该预设阈值可以根据需要进行设置并更改,在本申请实施例中,对该预设阈值不作具体限定;例如,预设阈值可以为0.5。
步骤S806:电子设备获取多个第一人脸属性类别对应的多个三维人脸素材。
例如,继续参见图9,电子设备基于多个第一人脸属性类别,从电子设备或者云端的素材库中选择多个第一人脸属性类别对应的多个三维人脸素材,一个第一人脸属性类别对应获取一个三维人脸素材;或者,一个第一人脸属性类别对应获取多个三维人脸素材。
步骤S807:电子设备基于多个第一人脸属性类别对应的多个三维人脸素材,生成参考人脸图像对应的虚拟三维人脸。
例如,继续参见图9,在一个第一人脸属性类别对应获取一个三维人脸素材的情况下,则电子设备将多个三维人脸素材进行拼接,得到该虚拟三维人脸,从而能够提高生成虚拟三维人脸的效率。
在一个第一人脸属性类别对应获取多个三维人脸素材的情况下,则电子设备基于多个三维人脸素材,对应生成多个虚拟三维人脸,然后确定多个虚拟三维人脸分别与参考人脸图像的相似度,基于多个虚拟三维人脸分别与参考人脸图像的相似度,从多个虚拟三维人脸中确定相似度最高的虚拟三维人脸,从而能够提高生成虚拟三维人脸的准确性。
在本申请实施例中,获取参考人脸图像的区域语义特征和注意力权重特征,而区域语义特征用于表示参考人脸图像的人脸区域的语义特征,也即区域语义特征体现的是人脸区域的表达能力;注意力权重特征用于表示人脸区域的多个部位对人脸属性的重要程度,也即注意力权重特征能够增强特征之间的相关性;因此,融合区域语义特征和注意力权重特征,确定人脸属性类别能够增强特征之间的相关性和表达能力,从而提高了确定出的人脸属性类别的准确性,进而提高了生成的虚拟三维人脸与参考人脸图像的对应性,也即提高了虚拟三维人脸图像的准确性。
请参考图11,其示出了本申请一个示例性实施例示出的虚拟三维人脸生成装置的结构框图。该虚拟三维人脸生成装置可以通过软件、硬件或者两者的结合实现成为处理器的全部或一部分。该装置包括:
第一解析模块1101,用于对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,第一区域语义特征用于表示参考人脸图像的第一人脸区域的多个部位的语义特征;
第一确定模块1102,用于基于第一区域语义特征,确定第一注意力权重特征,第一注意力权重特征用于表示第一人脸区域的多个部位对人脸属性的重要程度;
第二确定模块1103,用于基于第一区域语义特征和第一注意力权重特征,确定第一人脸区域对应的多个第一人脸属性类别;
生成模块1104,用于基于多个第一人脸属性类别对应的多个三维人脸素材,生成参考人脸图像对应的虚拟三维人脸。
在一些实施例中,第二确定模块1103,用于将第一区域语义特征与第一注意力权重特征进行融合,得到第一融合特征,第一融合特征中包括多个部位对应的区域语义特征;基于多个部位对应的区域语义特征,确定第一人脸区域对应的多个第一人脸属性类别。
在一些实施例中,第一确定模块1102,用于对第一区域语义特征进行卷积处理,得到第二区域语义特征;对第二区域语义特征进行通道注意力处理,得到第一注意力权重特征。
在一些实施例中,第一区域语义特征、第一注意力权重特征、多个人脸属性类别均是通过人脸生成模型确定的;装置还包括:
第一获取模块,用于获取样本数据,样本数据包括样本人脸图像和样本人脸图像的第二人脸区域的多个样本人脸属性类别;
第二解析模块,用于对样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,第三区域语义特征用于表示样本人脸图像的第二人脸区域的多个部位的语义特征;
第三确定模块,用于基于第三区域语义特征,确定第二注意力权重特征,第二注意力权重特征用于表示第二人脸区域的多个部位对人脸属性的重要程度;
第四确定模块,用于基于第三区域语义特征和第二注意力权重特征,确定第二人脸区域对应的多个第二人脸属性类别;
第一训练模块,用于基于多个第二人脸属性类别和多个样本人脸属性类别,训练得到人脸生成模型。
在一些实施例中,第一训练模块,用于基于第二人脸特征和第三区域语义特征,确定第一交叉熵损失值;基于多个第二人脸属性类别和多个样本人脸属性类别,确定多个第二交叉熵损失值;基于第一交叉熵损失值和多个第二交叉熵损失值,训练得到人脸生成模型。
在一些实施例中,第一训练模块,用于对第三区域语义特征进行归一化处理,得到第四区域语义特征,第四区域语义特征包括多个特征点的语义特征值;基于第四区域语义特征和第二人脸特征,确定第一交叉熵损失值。
在一些实施例中,第一训练模块,用于确定多个第二损失值的平均值;对第一损失值和多个第二损失值的平均值进行加权求和,得到目标损失值;基于目标损失值,更新人脸生成模型的模型参数,直到人脸模型达到收敛条件,得到训练完成的人脸生成模型。
在一些实施例中,装置还包括:
第二获取模块,用于获取参考人脸图像;
预处理模块,用于对参考人脸图像进行数据增强预处理;
提取模块,用于提取预处理后的参考人脸图像的人脸特征,得到第一人脸特征。
在一些实施例中,预处理模块,用于执行以下至少一种实现方式:
对参考人脸图像进行旋转,旋转后的参考人脸图像的人脸方向满足方向要求;
对参考人脸图像进行裁剪,裁剪后的参考人脸图像包括第一人脸区域,且裁剪后的参考人脸图像的图像尺寸满足尺寸要求;
对参考人脸图像进行归一化处理。
在本申请实施例中,获取参考人脸图像的区域语义特征和注意力权重特征,而区域语义特征用于表示参考人脸图像的人脸区域的语义特征,也即区域语义特征体现的是人脸区域的表达能力;注意力权重特征用于表示人脸区域的多个部位对人脸属性的重要程度,也即注意力权重特征能够增强特征之间的相关性;因此,融合区域语义特征和注意力权重特征,确定人脸属性类别能够增强特征之间的相关性和表达能力,从而提高了确定出的人脸属性类别的准确性,进而提高了生成的虚拟三维人脸与参考人脸图像的对应性,也即提高了虚拟三维人脸图像的准确性。
需要说明的是:上述实施例提供的虚拟三维人脸生成方法在虚拟三维人脸生成时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的虚拟三维人脸生成装置与虚拟三维人脸生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图12,其示出了本申请一个示例性实施例示出的人脸生成模型的训练装置的结构框图。该人脸生成模型的训练装置可以通过软件、硬件或者两者的结合实现成为处理器的全部或一部分。该装置包括:
第三获取模块1201,用于获取样本数据,样本数据包括样本人脸图像和样本人脸图像的第二人脸区域的多个样本人脸属性类别;
第三解析模块1202,用于对样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,第三区域语义特征用于表示样本人脸图像的第二人脸区域的多个部位的语义特征;
第五确定模块1203,用于基于第三区域语义特征,确定第二注意力权重特征,第二注意力权重特征用于表示第二人脸区域的多个部位对人脸属性的重要程度;
第六确定模块1204,用于基于第三区域语义特征和第二注意力权重特征,确定第二人脸区域对应的多个第二人脸属性类别;
第二训练模块1205,用于基于多个第二人脸属性类别和多个样本人脸属性类别,训练得到人脸生成模型。
在一些实施例中,第二训练模块1205,用于基于第二人脸特征和第三区域语义特征,确定第一交叉熵损失值;基于多个第二人脸属性类别和多个样本人脸属性类别,确定多个第二交叉熵损失值;基于第一交叉熵损失值和多个第二交叉熵损失值,训练得到人脸生成模型。
在一些实施例中,第二训练模块1205,用于对第三区域语义特征进行归一化处理,得到第四区域语义特征,第四区域语义特征包括多个特征点的语义特征值;基于第四区域语义特征和第二人脸特征,确定第一交叉熵损失值。
在一些实施例中,第二训练模块1205,用于确定多个第二损失值的平均值;对第一损失值和多个第二损失值的平均值进行加权求和,得到目标损失值;基于目标损失值,更新人脸生成模型的模型参数,直到人脸模型达到收敛条件,得到训练完成的人脸生成模型。
在本申请实施例中,训练人脸生成模型时,结合了样本人脸图像的区域语义特征和注意力权重特征,而区域语义特征用于表示参考人脸图像的人脸区域的语义特征,也即区域语义特征体现的是人脸区域的表达能力;注意力权重特征用于表示人脸区域的多个部位对人脸属性的重要程度,也即注意力权重特征能够增强特征之间的相关性;因此,融合区域语义特征和注意力权重特征,确定人脸属性类别能够增强特征之间的相关性和表达能力,从而提高了确定出的人脸属性类别的准确性,进而提高了基于人脸属性类别训练得到的人脸生成模型的准确性。
需要说明的是:上述实施例提供的人脸生成模型的训练方法在人脸生成模型的训练时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的人脸生成模型的训练装置与人脸生成模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在电子设备被配置为终端的情况下,请参考图13,其示出了本申请一个示例性实施例示出的终端的结构框图。终端1300可以是智能手机、平板电脑等具有控制其他设备的功能的设备。本申请中的终端1300可以包括一个或多个如下部件:处理器1301、存储器1302。
处理器1301可以包括一个或者多个处理核心。处理器1301利用各种接口和线路连接整个终端1300内的各个部分,通过运行或执行存储在存储器1302内的程序代码、程序、代码集或程序代码集,以及调用存储在存储器1302内的数据,执行终端1300的各种功能和处理数据。可选地,处理器1301可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1301可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)、神经网络处理器(Neural-network Processing Unit,NPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;NPU用于实现人工智能(Artificial Intelligence,AI)功能;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1301中,单独通过一块芯片进行实现。
存储器1302可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选地,该存储器1302包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1302可用于存储程序代码、程序、代码、代码集或程序代码集。存储器1302可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的程序代码、用于至少一个功能的程序代码(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的程序代码等;存储数据区可存储根据终端1300的使用所创建的数据(比如音频数据、电话本)等。
除此之外,本领域技术人员可以理解,上述附图所示出的终端1300的结构并不构成对终端1300的限定,终端1300可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端1300中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity,Wi-Fi)模块、电源、蓝牙模块等部件,在此不再赘述。
在电子设备被配置为服务器的情况下,参见图14,图14是本申请实施例提供的一种服务器的结构框图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括处理器(central processing units,CPU)1401和存储器1402,其中,该存储器1402中存储有至少一条程序代码,该至少一条程序代码由该处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1400还可以包括其他用于实现设备功能的部件,在此不做赘述。
在电子设备被配置为终端和服务器的情况下,则终端和服务器的结构框图可以分别参见图13和图14。
本申请实施例还提供了一种计算机可读介质,该计算机可读介质存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的虚拟三维人脸生成方法。
本申请实施例还提供了一种计算机可读介质,该计算机可读介质存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的人脸生成模型的训练方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的虚拟三维人脸生成方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的人脸生成模型的训练方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个程序代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种虚拟三维人脸生成方法,其特征在于,所述方法包括:
对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,所述第一区域语义特征用于表示所述参考人脸图像的第一人脸区域的多个部位的语义特征;
基于所述第一区域语义特征,确定第一注意力权重特征,所述第一注意力权重特征用于表示所述第一人脸区域的多个部位对人脸属性的重要程度;
基于所述第一区域语义特征和所述第一注意力权重特征,确定所述第一人脸区域对应的多个第一人脸属性类别;
基于所述多个第一人脸属性类别对应的多个三维人脸素材,生成所述参考人脸图像对应的虚拟三维人脸。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一区域语义特征和所述第一注意力权重特征,确定所述第一人脸区域对应的多个第一人脸属性类别,包括:
将所述第一区域语义特征与所述第一注意力权重特征进行融合,得到第一融合特征,所述第一融合特征中包括所述多个部位对应的区域语义特征;
基于所述多个部位对应的区域语义特征,确定所述第一人脸区域对应的多个第一人脸属性类别。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一区域语义特征,确定第一注意力权重特征,包括:
对所述第一区域语义特征进行卷积处理,得到第二区域语义特征;
对所述第二区域语义特征进行通道注意力处理,得到所述第一注意力权重特征。
4.根据权利要求1所述的方法,其特征在于,所述第一区域语义特征、所述第一注意力权重特征、所述多个人脸属性类别均是通过人脸生成模型确定的;所述人脸生成模型的训练过程,包括:
获取样本数据,所述样本数据包括样本人脸图像和所述样本人脸图像的第二人脸区域的多个样本人脸属性类别;
对所述样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,所述第三区域语义特征用于表示所述样本人脸图像的第二人脸区域的多个部位的语义特征;
基于所述第三区域语义特征,确定第二注意力权重特征,所述第二注意力权重特征用于表示所述第二人脸区域的多个部位对人脸属性的重要程度;
基于所述第三区域语义特征和所述第二注意力权重特征,确定所述第二人脸区域对应的多个第二人脸属性类别;
基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,训练得到所述人脸生成模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,训练得到所述人脸生成模型,包括:
基于所述第二人脸特征和所述第三区域语义特征,确定第一交叉熵损失值;
基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,确定多个第二交叉熵损失值;
基于所述第一交叉熵损失值和所述多个第二交叉熵损失值,训练得到所述人脸生成模型。
6.根据权利要求4所述的方法,其特征在于,所述基于所述第二人脸特征和所述第三区域语义特征,确定第一交叉熵损失值,包括:
对所述第三区域语义特征进行归一化处理,得到第四区域语义特征,所述第四区域语义特征包括多个特征点的语义特征值;
基于所述第四区域语义特征和所述第二人脸特征,确定所述第一交叉熵损失值。
7.根据权利要求4所述的方法,其特征在于,所述基于所述第一损失值和所述多个第二损失值,训练得到所述人脸生成模型,包括:
确定所述多个第二损失值的平均值;
对所述第一损失值和所述多个第二损失值的平均值进行加权求和,得到目标损失值;
基于所述目标损失值,更新所述人脸生成模型的模型参数,直到所述人脸模型达到收敛条件,得到训练完成的所述人脸生成模型。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取参考人脸图像;
对所述参考人脸图像进行数据增强预处理;
提取预处理后的参考人脸图像的人脸特征,得到所述第一人脸特征。
9.根据权利要求8所述的方法,其特征在于,所述对所述参考人脸图像进行数据增强预处理包括以下至少一种实现方式:
对所述参考人脸图像进行旋转,旋转后的参考人脸图像的人脸方向满足方向要求;
对所述参考人脸图像进行裁剪,裁剪后的参考人脸图像包括所述第一人脸区域,且所述裁剪后的参考人脸图像的图像尺寸满足尺寸要求;
对所述参考人脸图像进行归一化处理。
10.一种人脸生成模型的训练方法,其特征在于,所述方法包括:
获取样本数据,所述样本数据包括样本人脸图像和所述样本人脸图像的第二人脸区域的多个样本人脸属性类别;
对所述样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,所述第三区域语义特征用于表示所述样本人脸图像的第二人脸区域的多个部位的语义特征;
基于所述第三区域语义特征,确定第二注意力权重特征,所述第二注意力权重特征用于表示所述第二人脸区域的多个部位对人脸属性的重要程度;
基于所述第三区域语义特征和所述第二注意力权重特征,确定所述第二人脸区域对应的多个第二人脸属性类别;
基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,训练得到人脸生成模型。
11.根据权利要求10所述的方法,其特征在于,所述基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,训练得到人脸生成模型,包括:
基于所述第二人脸特征和所述第三区域语义特征,确定第一交叉熵损失值;
基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,确定多个第二交叉熵损失值;
基于所述第一交叉熵损失值和所述多个第二交叉熵损失值,训练得到所述人脸生成模型。
12.根据权利要求11所述的方法,其特征在于,所述基于所述第二人脸特征和所述第三区域语义特征,确定第一交叉熵损失值,包括:
对所述第三区域语义特征进行归一化处理,得到第四区域语义特征,所述第四区域语义特征包括多个特征点的语义特征值;
基于所述第四区域语义特征和所述第二人脸特征,确定所述第一交叉熵损失值。
13.根据权利要求11所述的方法,其特征在于,所述基于所述第一交叉熵损失值和所述多个第二交叉熵损失值,训练得到所述人脸生成模型,包括:
确定所述多个第二损失值的平均值;
对所述第一损失值和所述多个第二损失值的平均值进行加权求和,得到目标损失值;
基于所述目标损失值,更新所述人脸生成模型的模型参数,直到所述人脸模型达到收敛条件,得到训练完成的所述人脸生成模型。
14.一种虚拟三维人脸生成装置,其特征在于,所述装置包括:
第一解析模块,用于对参考人脸图像的第一人脸特征进行语义解析,得到第一区域语义特征,所述第一区域语义特征用于表示所述参考人脸图像的第一人脸区域的多个部位的语义特征;
第一确定模块,用于基于所述第一区域语义特征,确定第一注意力权重特征,所述第一注意力权重特征用于表示所述第一人脸区域的多个部位对人脸属性的重要程度;
第二确定模块,用于基于所述第一区域语义特征和所述第一注意力权重特征,确定所述第一人脸区域对应的多个第一人脸属性类别;
生成模块,用于基于所述多个第一人脸属性类别对应的多个三维人脸素材,生成所述参考人脸图像对应的虚拟三维人脸。
15.一种人脸生成模型的训练装置,其特征在于,所述装置包括:
第三获取模块,用于获取样本数据,所述样本数据包括样本人脸图像和所述样本人脸图像的第二人脸区域的多个样本人脸属性类别;
第三解析模块,用于对所述样本人脸图像的第二人脸特征进行语义解析,得到第三区域语义特征,所述第三区域语义特征用于表示所述样本人脸图像的第二人脸区域的多个部位的语义特征;
第五确定模块,用于基于所述第三区域语义特征,确定第二注意力权重特征,所述第二注意力权重特征用于表示所述第二人脸区域的多个部位对人脸属性的重要程度;
第六确定模块,用于基于所述第三区域语义特征和所述第二注意力权重特征,确定所述第二人脸区域对应的多个第二人脸属性类别;
第二训练模块,用于基于所述多个第二人脸属性类别和所述多个样本人脸属性类别,训练得到人脸生成模型。
16.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;所述存储器存储有至少一条程序代码,所述至少一条程序代码用于被所述处理器执行以实现如权利要求1至9任一项所述的虚拟三维人脸生成方法或者如权利要求10-13任一项所述的人脸生成模型的训练方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如权利要求1至9任一项所述的虚拟三维人脸生成方法或者如权利要求10-13任一项所述的人脸生成模型的训练方法。
18.一种计算机程序产品,其特征在于,所述计算机程序产品中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至9任一项所述的虚拟三维人脸生成方法或者如权利要求10-13任一项所述的人脸生成模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210601570.0A CN114998961A (zh) | 2022-05-30 | 2022-05-30 | 虚拟三维人脸生成方法、人脸生成模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210601570.0A CN114998961A (zh) | 2022-05-30 | 2022-05-30 | 虚拟三维人脸生成方法、人脸生成模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114998961A true CN114998961A (zh) | 2022-09-02 |
Family
ID=83030999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210601570.0A Pending CN114998961A (zh) | 2022-05-30 | 2022-05-30 | 虚拟三维人脸生成方法、人脸生成模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998961A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117135305A (zh) * | 2023-10-27 | 2023-11-28 | 深圳市大而信科技有限公司 | 一种电话会议实现方法、装置和系统 |
-
2022
- 2022-05-30 CN CN202210601570.0A patent/CN114998961A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117135305A (zh) * | 2023-10-27 | 2023-11-28 | 深圳市大而信科技有限公司 | 一种电话会议实现方法、装置和系统 |
CN117135305B (zh) * | 2023-10-27 | 2024-03-19 | 深圳市大而信科技有限公司 | 一种电话会议实现方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670427B (zh) | 一种图像信息的处理方法、装置及存储介质 | |
CN111598776A (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN111985281B (zh) | 图像生成模型的生成方法、装置及图像生成方法、装置 | |
CN110796721A (zh) | 虚拟形象的颜色渲染方法、装置、终端及存储介质 | |
CN109948093B (zh) | 表情图片生成方法、装置及电子设备 | |
CN112954450A (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN114092678A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
WO2023016191A1 (zh) | 图像显示方法、装置、计算机设备及存储介质 | |
CN111603772A (zh) | 区域检测方法、装置、设备及存储介质 | |
CN114998961A (zh) | 虚拟三维人脸生成方法、人脸生成模型的训练方法及装置 | |
CN114567693B (zh) | 视频生成方法、装置和电子设备 | |
CN110266955B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN112785669B (zh) | 一种虚拟形象合成方法、装置、设备及存储介质 | |
CN111160240B (zh) | 图像对象的识别处理方法、装置及智能设备、存储介质 | |
CN114841340B (zh) | 深度伪造算法的识别方法、装置、电子设备及存储介质 | |
CN115205164B (zh) | 图像处理模型的训练方法、视频处理方法、装置及设备 | |
CN116824004A (zh) | 图标生成方法及装置、存储介质、电子设备 | |
CN112862073B (zh) | 一种压缩数据分析方法、装置、存储介质及终端 | |
EP2963910A1 (en) | Image processing device, method, and program | |
CN114612321A (zh) | 视频处理方法、装置以及设备 | |
CN112634444B (zh) | 一种基于三维信息的人体姿态迁移方法、装置、存储介质及终端 | |
CN112861687B (zh) | 用于门禁系统的口罩佩戴检测方法、装置、设备和介质 | |
CN116883708A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN113887498A (zh) | 人脸识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |