CN115471901B - 基于生成对抗网络的多姿态人脸正面化方法及系统 - Google Patents

基于生成对抗网络的多姿态人脸正面化方法及系统 Download PDF

Info

Publication number
CN115471901B
CN115471901B CN202211365059.1A CN202211365059A CN115471901B CN 115471901 B CN115471901 B CN 115471901B CN 202211365059 A CN202211365059 A CN 202211365059A CN 115471901 B CN115471901 B CN 115471901B
Authority
CN
China
Prior art keywords
face
feature
channel
pose
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211365059.1A
Other languages
English (en)
Other versions
CN115471901A (zh
Inventor
刘成云
曹佳倩
陈振学
张玉娇
孙露娜
钟昆儒
秦皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202211365059.1A priority Critical patent/CN115471901B/zh
Publication of CN115471901A publication Critical patent/CN115471901A/zh
Application granted granted Critical
Publication of CN115471901B publication Critical patent/CN115471901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了基于生成对抗网络的多姿态人脸正面化方法及系统,涉及图像数据转换技术领域,包括获取多姿态人脸图像并进行预处理;将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;利用所述语义特征表示的特征图进行正面人脸图像的合成;本公开人脸注意力机制增强人脸中最具判别性区域的生成效果,指导生成结构更真实的人脸图像。

Description

基于生成对抗网络的多姿态人脸正面化方法及系统
技术领域
本公开涉及图像数据转换技术领域,具体涉及基于生成对抗网络的多姿态人脸正面化方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
在生活中,通过生物特征识别个体身份是各个场景下的主要方式,如指纹识别,虹膜识别,人脸识别等。其中人脸识别具有非接触性和非强制性的优点,成为了人工智能、计算机视觉领域的研究热点,同时也产生很多优秀的应用产品。然而在非受限的环境(如监控视频)中,受到姿态、光照、遮挡、表情等因素的影响,这些应用及现有的人脸识别模型的性能会严重下降。近年来,人脸识别的研究重点也逐渐从受限环境下的人脸识别转变为非受限环境下的人脸识别。人脸识别在现实场景中有广泛的应用,且在非受限环境问题上还有提升空间。研究人脸正面化解决多姿态识别问题具有重要的实际意义。此外,人脸正面化在其他领域也有利用价值,如为刑侦领域的办案人员提供参考等。
姿态是非受限条件下影响人脸识别模型性能下降的主要因素,姿态问题的本质是人脸头部刚性旋转导致的自遮挡问题,意味着用于识别的人脸信息的缺失。随着生成对抗网络的发展,很多基于该网络的人脸正面化方法被提出,这些方法很大程度上提高了多姿态人脸识别的准确率,但现有的方法存在网络复杂,训练时间长,需要先验知识(如人脸偏转角度)等问题,且图像生成质量和正面化后的人脸识别准确率有待进一步提高。
发明内容
本公开为了解决上述问题,提出了基于生成对抗网络的多姿态人脸正面化方法及系统,通过残差块加深生成对抗网络层数,并融合多种注意力机制,对数据库中多种姿态的人脸图像生成正面人脸图像,在保证生成图像质量的同时,提高了生成图像的速度。
根据一些实施例,本公开采用如下技术方案:
基于生成对抗网络的多姿态人脸正面化方法,包括:
获取多姿态人脸图像并进行预处理;
将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
利用所述语义特征表示的特征图进行正面人脸图像的合成。
根据一些实施例,本公开采用如下技术方案:
基于生成对抗网络的多姿态人脸正面化系统,包括:
图像获取模块,用于获取多姿态人脸图像并进行预处理;
图像特征提取模块,用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
图像合成模块,用于利用所述语义特征表示的特征图进行正面人脸图像的合成。
根据一些实施例,本公开采用如下技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法。
根据一些实施例,本公开采用如下技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法。
与现有技术相比,本公开的有益效果为:
本公开在多姿态人脸正面化模型中采用了多种注意力机制,位置注意力在局部特征上建立丰富的上下文关系,将更广泛的上下文信息编码为局部特征,进而增强他们的表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,可以突出相互依赖的特征图,提高特定语义的特征表示,人脸注意力机制增强人脸中最具判别性区域的生成效果,指导生成结构更真实的人脸图像。
本公开利用残差块构成深度特征编码器,加深网络,使网络提取到更细节和抽象的特征,生成图像在细节上更接近真实图像。
本公开提出的算法能有效为视频监控等场景下的人脸识别提供帮助,同时满足准确性和实时性要求,能够克服训练时间长的问题。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本发明实施例1的流程图;
图2为本发明实施例1的网络框架示意图;
图3为本发明实施例1的深度特征编码器示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于生成对抗网络的多姿态人脸正面化方法,包括:
步骤1:获取多姿态人脸图像并进行预处理;
步骤2:将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
步骤3:利用所述语义特征表示的特征图进行正面人脸图像的合成。
作为一种实施例,预处理的方式为进行图像裁剪,进行图像大小格式的统一裁剪,使得图像大小为相同尺寸。
本公开的整体思路为:获取人脸图像,依据获取的多姿态人脸图像,以及预设的人脸正面化模型,得到正面人脸图像;
其中,所述人脸正面化模型通过生成对抗网络训练得到。
利用人脸正面化转换模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像,多姿态人脸图像可以理解为多种视角的人脸图像,包括偏转和俯仰角度,人脸正面化模型可以理解为融合多种注意力机制的生成对抗网络。
本实施例的具体步骤为:
S1、获取人脸图像,收集人脸图像库,比如人脸照片库,对人脸图像库的图像划分形成训练集和测试集,如图2所示;具体的,人脸图像库的收集可以通过手机、相机等进行收集,也可以在网络上进行现有人脸图像的收集;可以理解的,人脸图像库中可以包括多种姿态的人脸图像照片。
步骤S1的具体过程为:
对人脸图像进行预处理,得到相同尺寸的图像,输入到神经网络中;得到相同尺寸的图像时,可以先采用python库处理不同的格式文件和图像类型,使用numpy ndarray存储图像,通过PIL进行裁剪图像的操作。
S2、将预处理之后的人脸照片图像的训练集输入到如图2所示的生成对抗网络中进行训练,训练过程中采用多种注意力机制学习特征依赖关系,并且使用深度特征编码器学习更抽象的特征,使保持速度的同时,提高合成质量;步骤S2的具体过程为:
S2.1、下采样部分,依次通过一个步长为1卷积核为7×7的卷积层,一个步长为2卷积核为5×5的卷积层,以及三个步长为2卷积核为3×3的卷积层;
S2.2、深度特征编码器部分,由如图3所示部分堆叠而成(堆叠四次),图3示意的模块由残差块和双注意力模块串联组成。残差块帮助加深网络,进一步得到更丰富的图像信息。双注意力模块由位置注意力模块和通道注意力模块并联组成。位置注意力在局部特征上建立丰富的上下文关系,将更广泛的上下文信息编码为局部特征,所述局部特征就是每个位置的特征,也就是每个像素点的信息,图像中的每一个像素点不可能是孤立的,一个像素一定和周围像素是有一定的关系的,所以针对每个局部特征要融合上下文特征重新编码为新的局部特征,进而增强他们的表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,相互依赖关系指的是特征图的各个通道之间的相互关系,在高级语义特征中,每一个通道都可以被认为是对于某一个类的特殊响应,增强拥有这种响应的特征通道可以有效的提高任务效果,通道注意力通过计算一个权重因子,对每个通道进行加权,突出重要的通道,增强特征表示,可以突出相互依赖的特征图,通过通道注意力合成的新的特征图中,增强了需要的语义特征的表示。通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射,最后得到的是融合了通道信息的特征图,提高特定语义的特征表示;
S2.3、上采样模块采用了和下采样模块对称的结构。至此,生成器的结构介绍完毕;
S2.4:在判别器结构方面,如图2所示,由四个判别器组成,分别针对整张人脸、眼睛、鼻子、嘴巴区域;每个判别器均包括一个下采样模块、一个全连接层;其中,下采样模块包括四个步长为2卷积核为3×3的卷积层,最后两层前增加一个自我注意力模块;
S2.5、下采样后网络通过一个全连接层,进入特征图的计算判断中;
S2.6、最后,通过一个步长为1卷积核为4×4的卷积层得到判别结果。
本实施例中,整体损失函数包括对抗生成网络损失函数、多尺度像素损失函数、感知损失函数、身份保留损失函数和总变分损失函数;
其中,生成对抗网络损失函数为:
其中, D j 为判别器,I代表真实的人脸图像,代表生成的人脸图像, j为人脸区域编号及对应判别器的编号,可取值 F, E, N, M分别对应整张人脸图像,眼睛区域、鼻子区域、嘴巴区域。
多尺度像素损失函数为:
其中, i包含三个尺度,分别为128×128, 64×64, 32×32, C为图像通道数, WH为对应的宽度和高度。 W i H i 分别代表每个尺度下对应的宽度和高度,三个尺度分别为128×128, 64×64, 32×32。真实正面人脸图像,为生成的正面人脸图像。
感知损失函数为:
其中,为真实的正面人脸图像,为生成的正面人脸图像,代表求特征图的网络(vgg16)。
身份保留损失函数为:
其中,i从1到2,代表的是分类网络的最后两层卷积层。
总变分损失函数为:
本实施例利用生成对抗网络解决了多姿态人脸正面化问题;对人脸照片库中的人脸照片划分形成训练集和测试集,对人脸照片的图像进行预处理,得到相同尺寸的图像,输入到神经网络中;通过生成对抗网络,融合多种注意力机制,增加深度特征编码器,提取更抽象细节的特征,提高人脸正面化效果,从而提高多姿态人脸识别准确率;本实施例提出的人脸正面化算法能有效为监控视频等非受控环境下的人脸识别应用领域提供帮助,同时满足准确性和实时性要求,能够克服训练时间长,需要其他人脸先验知识的问题。
实施例二
本公开的一种实施例中提供了一种基于生成对抗网络的多姿态人脸正面化系统,包括:
图像获取模块,用于获取多姿态人脸图像并进行预处理;
图像特征提取模块,用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
图像合成模块,用于利用所述语义特征表示的特征图进行正面人脸图像的合成。
实施例三
本公开的一种实施例中提供了一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法步骤。
实施例四
本公开的一种实施例中提供了一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法步骤。
以上实施例二、三和四的系统中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (6)

1.基于生成对抗网络的多姿态人脸正面化方法,其特征在于,包括:
获取多姿态人脸图像并进行预处理;
将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;所述人脸正面化模型通过生成对抗网络训练得到,利用人脸正面化模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像,多姿态人脸图像为多种视角的人脸图像,包括偏转和俯仰角度,人脸正面化模型为融合多种注意力机制的生成对抗网络;
所述生成对抗网络包括生成器、判别器,所述生成器包括下采样部分、深度特征编码器部分以及上采样部分,所述判别器包括四个判别器结构,针对对应人脸图像中的人脸、眼睛、鼻子以及嘴巴区域,每个判别器均包括一个下采样模块、一个全连接层;
深度特征编码器由残差块和双注意力模块串联组成,双注意力机制为模型中包括双注意力模块,所述双注意力模块由位置注意力模块和通道注意力模块并联组成;其中,位置注意力模块在局部特征上建立上下文关系,将上下文信息编码为局部特征,针对每个局部特征融合上下文特征重新编码为新的局部特征,进而增强表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,通道注意力通过计算一个权重因子,对每个通道进行加权,增强特征表示,突出相互依赖的特征图,通过通道注意力合成的新的特征图中,增强语义特征的表示;通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射,最后得到融合了通道信息的特征图;
利用所述语义特征表示的特征图进行正面人脸图像的合成。
2.如权利要求1所述的基于生成对抗网络的多姿态人脸正面化方法,其特征在于,所述预处理的方式为进行图像大小格式的裁剪,使得图像大小为相同尺寸。
3.如权利要求1所述的基于生成对抗网络的多姿态人脸正面化方法,其特征在于,所述下采样模块包括四个步长为2,卷积核为3×3的卷积层,并且在最后两层前增加一个自我注意力模块。
4.基于生成对抗网络的多姿态人脸正面化系统,其特征在于,包括:
图像获取模块,用于获取多姿态人脸图像并进行预处理;
图像特征提取模块,用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;所述人脸正面化模型通过生成对抗网络训练得到,利用人脸正面化模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像,多姿态人脸图像为多种视角的人脸图像,包括偏转和俯仰角度,人脸正面化模型为融合多种注意力机制的生成对抗网络;
所述生成对抗网络包括生成器、判别器,所述生成器包括下采样部分、深度特征编码器部分以及上采样部分,所述判别器包括四个判别器结构,针对对应人脸图像中的人脸、眼睛、鼻子以及嘴巴区域,每个判别器均包括一个下采样模块、一个全连接层;
深度特征编码器由残差块和双注意力模块串联组成,双注意力机制为模型中包括双注意力模块,所述双注意力模块由位置注意力模块和通道注意力模块并联组成;其中,位置注意力模块在局部特征上建立上下文关系,将上下文信息编码为局部特征,针对每个局部特征融合上下文特征重新编码为新的局部特征,进而增强表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,通道注意力通过计算一个权重因子,对每个通道进行加权,增强特征表示,突出相互依赖的特征图,通过通道注意力合成的新的特征图中,增强语义特征的表示;通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射,最后得到融合了通道信息的特征图;
图像合成模块,用于利用所述语义特征表示的特征图进行正面人脸图像的合成。
5.一种计算机可读存储介质,其特征在于,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-3中任一项所述的基于生成对抗网络的多姿态人脸正面化方法。
6.一种终端设备,其特征在于,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如权利要求1-3中任一项所述的基于生成对抗网络的多姿态人脸正面化方法。
CN202211365059.1A 2022-11-03 2022-11-03 基于生成对抗网络的多姿态人脸正面化方法及系统 Active CN115471901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211365059.1A CN115471901B (zh) 2022-11-03 2022-11-03 基于生成对抗网络的多姿态人脸正面化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211365059.1A CN115471901B (zh) 2022-11-03 2022-11-03 基于生成对抗网络的多姿态人脸正面化方法及系统

Publications (2)

Publication Number Publication Date
CN115471901A CN115471901A (zh) 2022-12-13
CN115471901B true CN115471901B (zh) 2023-04-07

Family

ID=84337193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211365059.1A Active CN115471901B (zh) 2022-11-03 2022-11-03 基于生成对抗网络的多姿态人脸正面化方法及系统

Country Status (1)

Country Link
CN (1) CN115471901B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579917B (zh) * 2023-05-16 2023-09-26 山东大学 基于级联双生成器的人脸正面化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652827A (zh) * 2020-04-24 2020-09-11 山东大学 一种基于生成对抗网络的正面人脸合成方法及系统
CN113239870A (zh) * 2021-05-31 2021-08-10 西安电子科技大学 一种基于身份约束的生成对抗网络人脸校正方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275638B (zh) * 2020-01-16 2022-10-28 湖南大学 基于多通道注意力选择生成对抗网络的人脸修复方法
US11651526B2 (en) * 2020-01-23 2023-05-16 Northeastern University Frontal face synthesis from low-resolution images
US11776210B2 (en) * 2021-01-22 2023-10-03 Sony Group Corporation 3D face modeling based on neural networks
CN113674148A (zh) * 2021-07-15 2021-11-19 河南工业大学 一种基于坐标注意力机制的ip-fsrgan-ca人脸图像超分辨率重建算法
CN113962893A (zh) * 2021-10-27 2022-01-21 山西大学 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652827A (zh) * 2020-04-24 2020-09-11 山东大学 一种基于生成对抗网络的正面人脸合成方法及系统
CN113239870A (zh) * 2021-05-31 2021-08-10 西安电子科技大学 一种基于身份约束的生成对抗网络人脸校正方法及系统

Also Published As

Publication number Publication date
CN115471901A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
US11810377B2 (en) Point cloud segmentation method, computer-readable storage medium, and computer device
CN111311578B (zh) 基于人工智能的对象分类方法以及装置、医学影像设备
CN114119638A (zh) 一种融合多尺度特征和注意力机制的医学图像分割方法
CN111259875B (zh) 一种基于自适应语义时空图卷积网络的唇读方法
CN111144348A (zh) 图像处理方法、装置、电子设备及存储介质
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN112818862A (zh) 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN113435269A (zh) 一种基于YOLOv3改进的水面漂浮物检测与识别方法及系统
CN113298018A (zh) 基于光流场和脸部肌肉运动的假脸视频检测方法及装置
CN115471901B (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统
CN113971735A (zh) 一种深度图像聚类方法、系统、设备、介质及终端
CN112036520A (zh) 基于深度学习的大熊猫年龄识别方法、装置及存储介质
CN115830449A (zh) 显式轮廓引导和空间变化上下文增强的遥感目标检测方法
CN114842524A (zh) 一种基于不规则显著性像素簇的人脸鉴伪方法
US10991085B2 (en) Classifying panoramic images
CN104166840A (zh) 一种基于视频会议系统的聚焦实现方法
CN115862103A (zh) 一种小样本人脸识别方法及系统
CN115862120A (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN114581396A (zh) 三维医学图像的识别方法、装置、设备、存储介质及产品
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN113780241A (zh) 一种显著物体检测的加速方法与装置
CN113516148A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN111079704A (zh) 一种基于量子计算的人脸识别方法及装置
CN116579917B (zh) 基于级联双生成器的人脸正面化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant