CN115471901B - 基于生成对抗网络的多姿态人脸正面化方法及系统 - Google Patents
基于生成对抗网络的多姿态人脸正面化方法及系统 Download PDFInfo
- Publication number
- CN115471901B CN115471901B CN202211365059.1A CN202211365059A CN115471901B CN 115471901 B CN115471901 B CN 115471901B CN 202211365059 A CN202211365059 A CN 202211365059A CN 115471901 B CN115471901 B CN 115471901B
- Authority
- CN
- China
- Prior art keywords
- face
- feature
- channel
- pose
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 13
- 238000005065 mining Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000003042 antagnostic effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了基于生成对抗网络的多姿态人脸正面化方法及系统,涉及图像数据转换技术领域,包括获取多姿态人脸图像并进行预处理;将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;利用所述语义特征表示的特征图进行正面人脸图像的合成;本公开人脸注意力机制增强人脸中最具判别性区域的生成效果,指导生成结构更真实的人脸图像。
Description
技术领域
本公开涉及图像数据转换技术领域,具体涉及基于生成对抗网络的多姿态人脸正面化方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
在生活中,通过生物特征识别个体身份是各个场景下的主要方式,如指纹识别,虹膜识别,人脸识别等。其中人脸识别具有非接触性和非强制性的优点,成为了人工智能、计算机视觉领域的研究热点,同时也产生很多优秀的应用产品。然而在非受限的环境(如监控视频)中,受到姿态、光照、遮挡、表情等因素的影响,这些应用及现有的人脸识别模型的性能会严重下降。近年来,人脸识别的研究重点也逐渐从受限环境下的人脸识别转变为非受限环境下的人脸识别。人脸识别在现实场景中有广泛的应用,且在非受限环境问题上还有提升空间。研究人脸正面化解决多姿态识别问题具有重要的实际意义。此外,人脸正面化在其他领域也有利用价值,如为刑侦领域的办案人员提供参考等。
姿态是非受限条件下影响人脸识别模型性能下降的主要因素,姿态问题的本质是人脸头部刚性旋转导致的自遮挡问题,意味着用于识别的人脸信息的缺失。随着生成对抗网络的发展,很多基于该网络的人脸正面化方法被提出,这些方法很大程度上提高了多姿态人脸识别的准确率,但现有的方法存在网络复杂,训练时间长,需要先验知识(如人脸偏转角度)等问题,且图像生成质量和正面化后的人脸识别准确率有待进一步提高。
发明内容
本公开为了解决上述问题,提出了基于生成对抗网络的多姿态人脸正面化方法及系统,通过残差块加深生成对抗网络层数,并融合多种注意力机制,对数据库中多种姿态的人脸图像生成正面人脸图像,在保证生成图像质量的同时,提高了生成图像的速度。
根据一些实施例,本公开采用如下技术方案:
基于生成对抗网络的多姿态人脸正面化方法,包括:
获取多姿态人脸图像并进行预处理;
将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
利用所述语义特征表示的特征图进行正面人脸图像的合成。
根据一些实施例,本公开采用如下技术方案:
基于生成对抗网络的多姿态人脸正面化系统,包括:
图像获取模块,用于获取多姿态人脸图像并进行预处理;
图像特征提取模块,用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
图像合成模块,用于利用所述语义特征表示的特征图进行正面人脸图像的合成。
根据一些实施例,本公开采用如下技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法。
根据一些实施例,本公开采用如下技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法。
与现有技术相比,本公开的有益效果为:
本公开在多姿态人脸正面化模型中采用了多种注意力机制,位置注意力在局部特征上建立丰富的上下文关系,将更广泛的上下文信息编码为局部特征,进而增强他们的表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,可以突出相互依赖的特征图,提高特定语义的特征表示,人脸注意力机制增强人脸中最具判别性区域的生成效果,指导生成结构更真实的人脸图像。
本公开利用残差块构成深度特征编码器,加深网络,使网络提取到更细节和抽象的特征,生成图像在细节上更接近真实图像。
本公开提出的算法能有效为视频监控等场景下的人脸识别提供帮助,同时满足准确性和实时性要求,能够克服训练时间长的问题。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本发明实施例1的流程图;
图2为本发明实施例1的网络框架示意图;
图3为本发明实施例1的深度特征编码器示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于生成对抗网络的多姿态人脸正面化方法,包括:
步骤1:获取多姿态人脸图像并进行预处理;
步骤2:将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
步骤3:利用所述语义特征表示的特征图进行正面人脸图像的合成。
作为一种实施例,预处理的方式为进行图像裁剪,进行图像大小格式的统一裁剪,使得图像大小为相同尺寸。
本公开的整体思路为:获取人脸图像,依据获取的多姿态人脸图像,以及预设的人脸正面化模型,得到正面人脸图像;
其中,所述人脸正面化模型通过生成对抗网络训练得到。
利用人脸正面化转换模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像,多姿态人脸图像可以理解为多种视角的人脸图像,包括偏转和俯仰角度,人脸正面化模型可以理解为融合多种注意力机制的生成对抗网络。
本实施例的具体步骤为:
S1、获取人脸图像,收集人脸图像库,比如人脸照片库,对人脸图像库的图像划分形成训练集和测试集,如图2所示;具体的,人脸图像库的收集可以通过手机、相机等进行收集,也可以在网络上进行现有人脸图像的收集;可以理解的,人脸图像库中可以包括多种姿态的人脸图像照片。
步骤S1的具体过程为:
对人脸图像进行预处理,得到相同尺寸的图像,输入到神经网络中;得到相同尺寸的图像时,可以先采用python库处理不同的格式文件和图像类型,使用numpy ndarray存储图像,通过PIL进行裁剪图像的操作。
S2、将预处理之后的人脸照片图像的训练集输入到如图2所示的生成对抗网络中进行训练,训练过程中采用多种注意力机制学习特征依赖关系,并且使用深度特征编码器学习更抽象的特征,使保持速度的同时,提高合成质量;步骤S2的具体过程为:
S2.1、下采样部分,依次通过一个步长为1卷积核为7×7的卷积层,一个步长为2卷积核为5×5的卷积层,以及三个步长为2卷积核为3×3的卷积层;
S2.2、深度特征编码器部分,由如图3所示部分堆叠而成(堆叠四次),图3示意的模块由残差块和双注意力模块串联组成。残差块帮助加深网络,进一步得到更丰富的图像信息。双注意力模块由位置注意力模块和通道注意力模块并联组成。位置注意力在局部特征上建立丰富的上下文关系,将更广泛的上下文信息编码为局部特征,所述局部特征就是每个位置的特征,也就是每个像素点的信息,图像中的每一个像素点不可能是孤立的,一个像素一定和周围像素是有一定的关系的,所以针对每个局部特征要融合上下文特征重新编码为新的局部特征,进而增强他们的表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,相互依赖关系指的是特征图的各个通道之间的相互关系,在高级语义特征中,每一个通道都可以被认为是对于某一个类的特殊响应,增强拥有这种响应的特征通道可以有效的提高任务效果,通道注意力通过计算一个权重因子,对每个通道进行加权,突出重要的通道,增强特征表示,可以突出相互依赖的特征图,通过通道注意力合成的新的特征图中,增强了需要的语义特征的表示。通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射,最后得到的是融合了通道信息的特征图,提高特定语义的特征表示;
S2.3、上采样模块采用了和下采样模块对称的结构。至此,生成器的结构介绍完毕;
S2.4:在判别器结构方面,如图2所示,由四个判别器组成,分别针对整张人脸、眼睛、鼻子、嘴巴区域;每个判别器均包括一个下采样模块、一个全连接层;其中,下采样模块包括四个步长为2卷积核为3×3的卷积层,最后两层前增加一个自我注意力模块;
S2.5、下采样后网络通过一个全连接层,进入特征图的计算判断中;
S2.6、最后,通过一个步长为1卷积核为4×4的卷积层得到判别结果。
本实施例中,整体损失函数包括对抗生成网络损失函数、多尺度像素损失函数、感知损失函数、身份保留损失函数和总变分损失函数;
其中,生成对抗网络损失函数为:
其中,
D j 为判别器,I代表真实的人脸图像,代表生成的人脸图像,
j为人脸区域编号及对应判别器的编号,可取值
F, E, N, M分别对应整张人脸图像,眼睛区域、鼻子区域、嘴巴区域。
多尺度像素损失函数为:
其中,
i包含三个尺度,分别为128×128, 64×64, 32×32,
C为图像通道数,
W和
H为对应的宽度和高度。
W i 和
H i 分别代表每个尺度下对应的宽度和高度,三个尺度分别为128×128, 64×64, 32×32。真实正面人脸图像,为生成的正面人脸图像。
感知损失函数为:
其中,为真实的正面人脸图像,为生成的正面人脸图像,代表求特征图的网络(vgg16)。
身份保留损失函数为:
其中,i从1到2,代表的是分类网络的最后两层卷积层。
总变分损失函数为:
本实施例利用生成对抗网络解决了多姿态人脸正面化问题;对人脸照片库中的人脸照片划分形成训练集和测试集,对人脸照片的图像进行预处理,得到相同尺寸的图像,输入到神经网络中;通过生成对抗网络,融合多种注意力机制,增加深度特征编码器,提取更抽象细节的特征,提高人脸正面化效果,从而提高多姿态人脸识别准确率;本实施例提出的人脸正面化算法能有效为监控视频等非受控环境下的人脸识别应用领域提供帮助,同时满足准确性和实时性要求,能够克服训练时间长,需要其他人脸先验知识的问题。
实施例二
本公开的一种实施例中提供了一种基于生成对抗网络的多姿态人脸正面化系统,包括:
图像获取模块,用于获取多姿态人脸图像并进行预处理;
图像特征提取模块,用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;
图像合成模块,用于利用所述语义特征表示的特征图进行正面人脸图像的合成。
实施例三
本公开的一种实施例中提供了一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法步骤。
实施例四
本公开的一种实施例中提供了一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于生成对抗网络的多姿态人脸正面化方法步骤。
以上实施例二、三和四的系统中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (6)
1.基于生成对抗网络的多姿态人脸正面化方法,其特征在于,包括:
获取多姿态人脸图像并进行预处理;
将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;所述人脸正面化模型通过生成对抗网络训练得到,利用人脸正面化模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像,多姿态人脸图像为多种视角的人脸图像,包括偏转和俯仰角度,人脸正面化模型为融合多种注意力机制的生成对抗网络;
所述生成对抗网络包括生成器、判别器,所述生成器包括下采样部分、深度特征编码器部分以及上采样部分,所述判别器包括四个判别器结构,针对对应人脸图像中的人脸、眼睛、鼻子以及嘴巴区域,每个判别器均包括一个下采样模块、一个全连接层;
深度特征编码器由残差块和双注意力模块串联组成,双注意力机制为模型中包括双注意力模块,所述双注意力模块由位置注意力模块和通道注意力模块并联组成;其中,位置注意力模块在局部特征上建立上下文关系,将上下文信息编码为局部特征,针对每个局部特征融合上下文特征重新编码为新的局部特征,进而增强表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,通道注意力通过计算一个权重因子,对每个通道进行加权,增强特征表示,突出相互依赖的特征图,通过通道注意力合成的新的特征图中,增强语义特征的表示;通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射,最后得到融合了通道信息的特征图;
利用所述语义特征表示的特征图进行正面人脸图像的合成。
2.如权利要求1所述的基于生成对抗网络的多姿态人脸正面化方法,其特征在于,所述预处理的方式为进行图像大小格式的裁剪,使得图像大小为相同尺寸。
3.如权利要求1所述的基于生成对抗网络的多姿态人脸正面化方法,其特征在于,所述下采样模块包括四个步长为2,卷积核为3×3的卷积层,并且在最后两层前增加一个自我注意力模块。
4.基于生成对抗网络的多姿态人脸正面化系统,其特征在于,包括:
图像获取模块,用于获取多姿态人脸图像并进行预处理;
图像特征提取模块,用于将多姿态人脸图像输入至人脸正面化模型中提取抽象特征,采用双注意力机制建立上下文关系,将上下文信息编码为局部特征,通过注意力挖掘通道图之间的相互依赖关系,形成相互依赖的特征图,获取语义特征表示;所述人脸正面化模型通过生成对抗网络训练得到,利用人脸正面化模型对人脸图像库中的多姿态人脸图像转换成正面人脸图像,多姿态人脸图像为多种视角的人脸图像,包括偏转和俯仰角度,人脸正面化模型为融合多种注意力机制的生成对抗网络;
所述生成对抗网络包括生成器、判别器,所述生成器包括下采样部分、深度特征编码器部分以及上采样部分,所述判别器包括四个判别器结构,针对对应人脸图像中的人脸、眼睛、鼻子以及嘴巴区域,每个判别器均包括一个下采样模块、一个全连接层;
深度特征编码器由残差块和双注意力模块串联组成,双注意力机制为模型中包括双注意力模块,所述双注意力模块由位置注意力模块和通道注意力模块并联组成;其中,位置注意力模块在局部特征上建立上下文关系,将上下文信息编码为局部特征,针对每个局部特征融合上下文特征重新编码为新的局部特征,进而增强表示能力;通道注意力通过挖掘通道图之间的相互依赖关系,通道注意力通过计算一个权重因子,对每个通道进行加权,增强特征表示,突出相互依赖的特征图,通过通道注意力合成的新的特征图中,增强语义特征的表示;通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射,最后得到融合了通道信息的特征图;
图像合成模块,用于利用所述语义特征表示的特征图进行正面人脸图像的合成。
5.一种计算机可读存储介质,其特征在于,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-3中任一项所述的基于生成对抗网络的多姿态人脸正面化方法。
6.一种终端设备,其特征在于,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如权利要求1-3中任一项所述的基于生成对抗网络的多姿态人脸正面化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365059.1A CN115471901B (zh) | 2022-11-03 | 2022-11-03 | 基于生成对抗网络的多姿态人脸正面化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365059.1A CN115471901B (zh) | 2022-11-03 | 2022-11-03 | 基于生成对抗网络的多姿态人脸正面化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115471901A CN115471901A (zh) | 2022-12-13 |
CN115471901B true CN115471901B (zh) | 2023-04-07 |
Family
ID=84337193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211365059.1A Active CN115471901B (zh) | 2022-11-03 | 2022-11-03 | 基于生成对抗网络的多姿态人脸正面化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115471901B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579917B (zh) * | 2023-05-16 | 2023-09-26 | 山东大学 | 基于级联双生成器的人脸正面化方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652827A (zh) * | 2020-04-24 | 2020-09-11 | 山东大学 | 一种基于生成对抗网络的正面人脸合成方法及系统 |
CN113239870A (zh) * | 2021-05-31 | 2021-08-10 | 西安电子科技大学 | 一种基于身份约束的生成对抗网络人脸校正方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275638B (zh) * | 2020-01-16 | 2022-10-28 | 湖南大学 | 基于多通道注意力选择生成对抗网络的人脸修复方法 |
US11651526B2 (en) * | 2020-01-23 | 2023-05-16 | Northeastern University | Frontal face synthesis from low-resolution images |
US11776210B2 (en) * | 2021-01-22 | 2023-10-03 | Sony Group Corporation | 3D face modeling based on neural networks |
CN113674148A (zh) * | 2021-07-15 | 2021-11-19 | 河南工业大学 | 一种基于坐标注意力机制的ip-fsrgan-ca人脸图像超分辨率重建算法 |
CN113962893B (zh) * | 2021-10-27 | 2024-07-09 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
-
2022
- 2022-11-03 CN CN202211365059.1A patent/CN115471901B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652827A (zh) * | 2020-04-24 | 2020-09-11 | 山东大学 | 一种基于生成对抗网络的正面人脸合成方法及系统 |
CN113239870A (zh) * | 2021-05-31 | 2021-08-10 | 西安电子科技大学 | 一种基于身份约束的生成对抗网络人脸校正方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115471901A (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3933688A1 (en) | Point cloud segmentation method, computer-readable storage medium and computer device | |
CN114119638A (zh) | 一种融合多尺度特征和注意力机制的医学图像分割方法 | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN111259875B (zh) | 一种基于自适应语义时空图卷积网络的唇读方法 | |
CN112818862A (zh) | 基于多源线索与混合注意力的人脸篡改检测方法与系统 | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN113435269A (zh) | 一种基于YOLOv3改进的水面漂浮物检测与识别方法及系统 | |
CN112801146A (zh) | 一种目标检测方法及系统 | |
CN112966574A (zh) | 人体三维关键点预测方法、装置及电子设备 | |
CN109492610B (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
CN112036520A (zh) | 基于深度学习的大熊猫年龄识别方法、装置及存储介质 | |
CN115471901B (zh) | 基于生成对抗网络的多姿态人脸正面化方法及系统 | |
CN113971735A (zh) | 一种深度图像聚类方法、系统、设备、介质及终端 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN114842524A (zh) | 一种基于不规则显著性像素簇的人脸鉴伪方法 | |
CN115862103A (zh) | 一种小样本人脸识别方法及系统 | |
CN115063859A (zh) | 基于生成对抗网络的人脸图像转换成素描的方法及系统 | |
CN114581396A (zh) | 三维医学图像的识别方法、装置、设备、存储介质及产品 | |
US20200311901A1 (en) | Classifying panoramic images | |
CN104166840A (zh) | 一种基于视频会议系统的聚焦实现方法 | |
CN117079313A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114863186A (zh) | 基于双Transformer分支的三维模型分类方法 | |
CN113516148A (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN111079704A (zh) | 一种基于量子计算的人脸识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |