CN115131205B - 基于域迁移融合网络的多摄像头人脸超分辨率方法及系统 - Google Patents
基于域迁移融合网络的多摄像头人脸超分辨率方法及系统 Download PDFInfo
- Publication number
- CN115131205B CN115131205B CN202210692899.2A CN202210692899A CN115131205B CN 115131205 B CN115131205 B CN 115131205B CN 202210692899 A CN202210692899 A CN 202210692899A CN 115131205 B CN115131205 B CN 115131205B
- Authority
- CN
- China
- Prior art keywords
- face
- network
- fusion
- resolution
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 158
- 238000013508 migration Methods 0.000 title claims abstract description 72
- 230000005012 migration Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 16
- 210000000056 organ Anatomy 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000006731 degradation reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 abstract description 2
- 210000000887 face Anatomy 0.000 description 32
- 210000001508 eye Anatomy 0.000 description 10
- 210000000697 sensory organ Anatomy 0.000 description 6
- 210000000214 mouth Anatomy 0.000 description 5
- 210000001331 nose Anatomy 0.000 description 5
- 210000003128 head Anatomy 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010420 art technique Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明提供一种基于域迁移融合网络的多摄像头人脸超分辨率方法及系统,将原始真实监控数据集中的人脸图像进行预处理,构建身份对齐图像数据集;构建多摄像头人脸融合超分辨率网络,包括特征配准模块、特征融合模块和权重调节模块;构建基于域迁移融合网络的多摄像头人脸超分辨率网络,利用域迁移架构进行无监督训练;利用训练后的网络模型,输入两张不同模态的低分辨率人脸图像,重建高清人脸。本发明利用多摄像头人脸之间的互补性,既增强了人脸图像主观视觉效果,又保留了人脸输入的身份信息;采用伪孪生结构,充分利用了不同模态摄像头间的信息互补性;采用域迁移架构以适应真实场景,使得超分辨率重建人脸图像质量更佳。
Description
技术领域
本发明属于数字图像技术领域,涉及一种智能人脸超分辨率方案,具体涉及一种基于域迁移融合网络的多摄像头人脸超分辨率方案。
背景技术
近年来随着监控摄像设备的多元化,应用日益广泛,例如刑侦人员在视频侦查过程中会获取到嫌疑人的多摄像头异质人脸图像,即不同类型摄像头,比如可见光和红外摄像头在不同环境条件下拍摄的同一对象非连续多帧人脸图像。与传统的同质多帧人脸图像相比,多摄像头多帧人脸图像之间存在两方面问题:(1)降质过程不一致:不同摄像头类型、不同拍摄环境会导致拍摄图像的降质过程不同;(2)时域相关性缺失:不同时间拍摄的图像之间不具有连续的运动轨迹和姿态变化,不具有时域上的相关性。现有多帧人脸超分辨率方法假设输入的多帧图像之间既具有一致的降质过程,也具有时域相关性,不适用于多摄像头人脸超分辨率。
基于深度卷积神经网络(CNN)的图像超分辨率方法在近几年取得了迅速发展。2020年, FuzhiYang等人([文献1])提出了一种用于基于参考帧的图像超分辨率新型纹理变换器网络。 2021年,YumingJiang等人([文献2])利用一个教师-学徒训练策略,显式提取并匹配参考图像和低质量图像的参考帧超分辨率方法。2022年,提出一个先清除降质再进行超分的两段式盲视频多帧超分方法。
现有多帧图像的超分辨率方法主要针对于视频多帧图像超分辨率和基于参考帧的图像超分辨率,没有考虑到多摄像头图像超分辨率所面临的降质过程不一致和时域相关性缺失的问题。
[文献1]Ahn,N.,Kang,B.,and Sohn,K.-A.:‘Fast,accurate,and lightweightsuper-resolution with cascading residual network’,in Editor(Ed.)^(Eds.):‘BookFast,accurate,and lightweight super-resolution with cascading residualnetwork’(2018,edn.),pp.252-268.
[文献2]Hui,Z.,Gao,X.,Yang,Y.,and Wang,X.:‘Lightweight image super-resolution with information multi-distillation network’,in Editor(Ed.)^(Eds.):‘Book Lightweight image super-resolution with information multi-distillation network’(2019,edn.),pp.2024-2032.
[文献3]Kelvin C.K.Chan,Shangchen Zhou,Xiangyu Xu,and Chen ChangeLoy.Investigating tradeoffs in real-world video super-resolution.In IEEEConference on Computer Vision and Pattern Recognition,2022.
发明内容
为了解决上述技术问题,本发明提供了一种基于域迁移融合网络的多摄像头人脸超分辨率方案。
本发明所采用的技术方案是一种基于域迁移融合网络的多摄像头人脸超分辨率方法,包括以下步骤:
步骤1,构建数据集,包括将原始真实监控数据集中的人脸图像进行预处理,构建训练域迁移融合网络所需的低质量人脸-高质量身份信息的身份对齐图像数据集;
步骤2,构建多摄像头人脸融合超分辨率网络,所述多摄像头人脸融合超分辨率网络包括特征配准模块、特征融合模块和权重调节模块,首先在特征配准模块根据预超分图像获取对应的五官位置掩膜并进行五官特征配准得到配准后的图像;其次,利用权重调节模块在两个配准特征间获取可信权重信息;最后根据进行特征配准后的人脸和可信权重,通过特征融合模块进行自适应融合,获得最终输出人脸;
步骤3,构建基于域迁移融合网络的多摄像头人脸超分辨率网络,该网络利用域迁移架构进行无监督训练,将真实监控人脸超分辨率至高清域,将两个域迁移架构组成伪孪生结构,并提出人脸特征识别损失,从损失函数层面上利用不同模态人脸间的身份相关性,嵌入步骤 2所得多摄像头人脸融合超分网络,利用不同人脸间的特征相关性,进一步提升超分质量;
步骤4,采用训练数据集对基于域迁移融合网络的多摄像头人脸超分辨率网络进行训练,得到训练好的网络模型;
步骤5,利用训练后的网络模型,输入两张不同模态的低分辨率人脸图像,重建高清人脸。
而且,所述特征配准模块由预超分子模块和人脸标点子模块组成,预超分子模块包括一个Unet卷积网络,人脸标点子模块采用四个StackedHourGlass网络块组成的堆叠沙漏网络实现。
而且,所述权重调节模块包含全局融合权重分支和局部融合权重分支,全局合权重分支由两个3×3卷积网络块、一个全局池化层和两个1×1卷积网络块依次串联组成;局部融合权重分支由三个3×3卷积网络块和两个1×1卷积网络块串联组成;在最后将分别生成的全局融合权重和局部融合权重相加送入激活层得到最终的融合可信权重。
而且,所述特征融合模块包括头尾两部分,头部首先分别对四组五官特征左眼、右眼、鼻子、嘴巴,利用三个不同大小卷积核的多尺度可变性卷积DeformmableConv对输入进行特征提取,并将输出的三组特征进行通道叠加,再送入一个可变形卷积块DeformBlock,最后对四组特征进行像素相加;尾部设置了一个共享网络权重的双分支特征融合网络,每个分支包含5个密集连接的融合块。
而且,所述基于域迁移融合网络的多摄像头人脸超分辨率网络包括一个负责生成高质量人脸的人脸融合超分辨率网络、两个用于辅助域回归损失约束的低质量域生成模块、两个用于得到低质量域判别损失的域判别器模块、一个用于得到高质量域判别损失的域判别器和一个辅助生成人脸相似度损失的人脸识别特征提取模块;
构建过程包括以下子步骤,
步骤3.1,使用人脸融合超分辨率网络对步骤1中的不同模态的低质量人脸图像进行超分辨率增强得到同一高质量域的两张人脸;
步骤3.2,将步骤3.1生成的高质量人脸送入低质量域生成模块,使其回归到低质量域获得生成的低质量人脸图像;
步骤3.3,分别使用两个低质量域生成模块对步骤1中的高质量人脸图像进行降质回归得到两张不同模态的低质量域人脸;
步骤3.4,将步骤3.3生成的低质量人脸送入人脸融合超分辨率网络,使其回归到高质量域获得生成的高质量人脸图像;
步骤3.5,将步骤3.1和步骤3.4中生成的高质量人脸送入高质量域判别器模块,分别求高质量域判别损失并更新网络参数;
步骤3.6,将步骤3.2和步骤3.3中生成的低质量人脸按对应模态分别送入两个低质量域判别器模块,分别求各个模态的低质量域判别损失并更新网络参数;
步骤3.7,将步骤3.1和步骤3.4中的高质量人脸送入人脸识别特征提取模块,提取出对应的人脸识别特征,并在两组特征之间计算身份识别损失函数,更新网络参数;
步骤3.8,对步骤3.2和步骤3.4得到的人脸分别于步骤1中得到的人脸分别计算域循环损失,并更新网络参数。
而且,步骤4训练网络时根据损失函数更新整体网络参数,得到训练好的网络模型,整体损失函数表示为,
其中,λ表示各个损失之间的经验权重设置,LdomainL表示低质量域判别损失,LdomainH表示高质量域判别损失,表示两个模态的域循环损失,表示两个模态的身份识别损失,相应权重分别记为λ1,λ2,λ3,λ4,λ5,λ6。
另一方面,本发明提供一种基于域迁移融合网络的多摄像头人脸超分辨率系统,用于实现如上所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
而且,包括以下模块,
第一模块,用于构建数据集,包括将原始真实监控数据集中的人脸图像进行预处理,构建训练域迁移融合网络所需的低质量人脸-高质量身份信息的身份对齐图像数据集;
第二模块,用于构建多摄像头人脸融合超分辨率网络,所述多摄像头人脸融合超分辨率网络包括特征配准模块、特征融合模块和权重调节模块,首先在特征配准模块根据预超分图像获取对应的五官位置掩膜并进行五官特征配准得到配准后的图像;其次,利用权重调节模块在两个配准特征间获取可信权重信息;最后根据进行特征配准后的人脸和可信权重,通过特征融合模块进行自适应融合,获得最终输出人脸;
第三模块,用于构建基于域迁移融合网络的多摄像头人脸超分辨率网络,该网络利用域迁移架构进行无监督训练,将真实监控人脸超分辨率至高清域,将两个域迁移架构组成伪孪生结构,并提出人脸特征识别损失,从损失函数层面上利用不同模态人脸间的身份相关性,嵌入第二模块所得多摄像头人脸融合超分网络,利用不同人脸间的特征相关性,进一步提升超分质量;
第四模块,用于采用训练数据集对基于域迁移融合网络的多摄像头人脸超分辨率网络进行训练,得到训练好的网络模型;
第五模块,用于利用训练后的网络模型,输入两张不同模态的低分辨率人脸图像,重建高清人脸。
或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
本发明使用多摄像头人脸不同模态间的互补信息,从特征和损失函数两个层面上利用不同模态的特征相关性,使得超分辨率重建图像质量更佳。本发明利用多摄像头人脸之间的互补性,既增强了人脸图像主观视觉效果,又保留了人脸输入的身份信息;所述方法采用伪孪生结构,充分利用了不同模态摄像头间的信息互补性;采用域迁移架构,使得方法可以在真实数据集上进行无监督、弱监督训练以适应真实场景,使得超分辨率重建人脸图像质量更佳。
附图说明
图1是本发明实施例的特征融合模块网络图;
图2是本发明实施例的特征配准模块网络图;
图3是本发明实施例构建的权重调节网络图;
图4是本发明实施例构建的基于域迁移融合网络的多摄像头人脸超分辨率方法网络的框架流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明公开了一种基于域迁移融合网络的多摄像头人脸超分辨率方法,主要包括构建训练神经网络所需的低/高分辨率图像对数据集;构建所需的多摄像头人脸融合超分辨率网络;构建基于域迁移融合网络的多摄像头人脸超分辨率框架;利用所述数据集训练和测试所述建基于域迁移融合网络的多摄像头人脸超分辨率网络,得到训练后的神经网络模型;利用训练后的网络模型由低分辨率图像重建超分辨率图像。
请见图4,本发明实施例提供的一种基于域迁移融合网络的多摄像头人脸超分辨率算法,包括以下步骤:
步骤1:构建数据集:将原始真实监控数据集中的人脸图像进行预处理,构建训练域迁移融合网络所需的低质量人脸-高质量身份信息的身份对齐图像数据集。首先去除掉真实监控人脸图像中的无关背景,然后将裁剪出来的人脸缩放至目标分辨率大小,最后根据身份信息,组成身份配对的训练和测试数据。在本实施例中,记分别为数据集处理后的低质量可见光模态和低质量近红外模态的低质量图像以及高质量可见光模态图像。
步骤2:构建多摄像头域迁移的人脸融合超分辨率网络,即多摄像头人脸融合超分辨率网络:
所述多摄像头人脸融合超分辨率网络包括特征配准模块、特征融合模块和权重调节模块:首先在特征配准模块,根据预超分图像获取对应的五官位置掩膜并进行五官特征配准得到配准后的图像;其次,利用权重调节模块在两个配准特征间获取可信权重信息;最后我将进行特征配准后的人脸和可信权重输入特征融合模块进行自适应融合,获得最终输出人脸。实施例中,根据本发明的需求相应设计实现了特征融合模块和权重调节模块。
所述特征配准模块由预超分子模块和人脸标点子模块组成,预超分子模块(即预超分网络)包括一个Unet卷积网络,人脸标点子模块采用四个StackedHourGlass网络块组成的堆叠沙漏网络作为人脸特征标点网络,输出H/4*W/4*68(H,W为原先输入人脸图像的高与宽)的三维特征矩阵。Unet卷积网络和StackedHourGlass网络块可采用现有技术,具体详见图2。
特征融合模块包括头尾两部分,头部首先分别对四组五官特征(左眼、右眼、鼻子、嘴巴)利用三个不同大小(3*3、5*5、7*7)卷积核的多尺度可变性卷积DeformmableConv对输入进行特征提取,并将输出的三组特征进行通道叠加,再送入一个可变形卷积块DeformBlock,可变形卷积块DeformBlock由一个3×3卷积网络块conv、Norm(InstanceNormalization)和Relu串联组成,最后对四组特征进行像素相加;尾部设置了一个共享网络权重的双分支特征融合网络,每个分支包含5个密集连接的融合块,每个融合块FusionBlock包括一个Convolution、InstanceNormalization和Relu串联组成的分支以及一个从输入到输出的快速分支,两个分支进行连接concat得到输出,具体详见图1。
权重调节模块包含全局融合权重和局部融合权重两个分支,全局融合权重分支由两个 3×3卷积网络块、一个全局池化层(adpavgpool)和两个1×1卷积网络块依次串联组成,每个卷积网络块由一个Conv(3×3或1×1)、Norm(InstanceNormalizatio)和Relu串联组成,具体详见图3;局部融合权重分支由三个3×3卷积网络块和两个1×1卷积网络块串联组成;在最后将两个分支分别生成的全局融合权重和局部融合权重相加送入sigmoid激活层得到最终的融合可信权重W和1-W,具体详见图3。
构建过程具体包括以下子步骤:
步骤2.1:根据步骤1得到的两张真实低分辨率监控人脸,利用如图2所示特征配准模块进行配准得到配准后的图像数据。
在本实施例中:
1)特征配准模块首先通过一个预超分网络对输入的两个低质量模态进行统一增强,表示如下:
其中分别为输入的两个低质量模态图像,Prea(·)、Prea(·)分别表示对应模态的预超分网络操作,表示预超分结果。
2)五官特征提取阶段,本实施例使用人脸特征标点网络对预增强输出进行标点,然后根据特征点得到相应的五官特征,其过程可以表示如下式:
其中Feature(·)为人脸特征标点网络,Mata、Matb为其输出的人脸特征坐标可信矩阵。
3)根据得到的人脸特征点对两张人脸进行配准操作,由于多摄像头人脸图像间缺乏时域相关性,因此很难在像素层级进行显式的配准。本发明利用人脸的特征相关性,粗化了配准粒度,在对应五官特征块之间进行配准操作:
其中Registration(·)表示配准操作,根据输入的Mata、Matb、输出配准后的人脸图像
4)在本实施例中,配准操作流程具体步骤为:
(1)使用预超分网络对低质量模态人脸进行预超分,并将预超分后的两张人脸送入人脸标点网络;
(2)分别将人脸标点网络所得人脸特征坐标可信矩阵Mata、Matb中68个人脸特征点,按左眼、右眼、鼻子和嘴巴的标签分为四个点群,从每个点群中分别取得两组Xmin、Xmax、 Ymin、Ymax坐标,得到矩形图像块;
(3)每个点群获得的图像块,以此长度和各自的(Xmin,Ymin)坐标点为基准,生成五官位置掩膜;
(4)根据五官位置掩膜,取两张图片对应的左眼、右眼、鼻子和嘴巴,将输入人脸的五官分别按各自的掩膜进行配准,获得五官初步配准后的图像
步骤2.2:将步骤2.1得到的配准图像送入如图3所示权重调节模块生成可信权重。权重生成操作可表示为:
其中,WB(·)表示权重调节模块,是预超分模块的输出。
步骤2.3:根据步骤2.2得到的权重及人脸图像,分别将可信权重与两张配准人脸图像相乘,然后将两张预超分人脸及其四组配准五官分别按和的顺序堆叠两次 (顺序在先的表示融合的目标人脸)作为input1、input2送入如图1所示共享网络参数(share weight)的特征融合网络,特征融合网络先利用不同卷积核的多尺度可变形卷积(DeformmableConv)对配准五官进行特征变换,然后利用可变形卷积块(DeformBlock:将普通卷积替换为可变形卷积DeformConv)对配准后的左眼、右眼、鼻子、嘴巴经过特征融合后得到四组融合特征,进行像素级相加(PixelAddition)后送入后续全局融合网络块中(FusionBlock)进行全局自适应融合,最终与对应的预超分人脸SRpre进行像素级相加得到两张高清人脸。该过程可用下式表示:
其中SRa,SRb为最终输出的高质量域人脸图像,Fusion(·)为特征融合模块过程。
步骤3:构建基于域迁移融合网络的多摄像头人脸超分辨率网络:该网络利用域迁移架构进行无监督训练,将真实监控人脸超分辨率至高清域,将两个域迁移架构组成伪孪生结构,并提出人脸特征识别损失,从损失函数层面上利用不同模态人脸间的身份相关性,嵌入步骤 2所得多摄像头人脸融合超分网络,利用不同人脸间的特征相关性,进一步提升超分质量。
实施例中优选实现的所述基于域迁移融合网络的多摄像头人脸超分辨率网络如图4,包括一个负责生成高质量人脸的人脸融合超分辨率网络、两个用于辅助域回归损失约束的低质量域生成模块、两个用于得到低质量域判别损失的域判别器模块、一个用于得到高质量域判别损失的域判别器和一个辅助生成人脸相似度损失的人脸识别特征提取模块。
所述人脸融合超分辨率网络根据步骤2构建得到;所述低质量域生成模块由Unet卷积网络组成;所述域判别器模块由3个卷积核大小为4,步长为2的卷积网络块和两个卷积核大小为4,步长为1的卷积网络块组成;所述人脸识别特征提取模块基于Magface损失预训练完毕的卷积神经网络。
构建过程具体包括以下子步骤:
步骤3.1:使用人脸融合超分辨率网络对步骤1中的不同模态的低质量人脸图像进行超分辨率增强得到同一高质量域的两张人脸,可表示为如下算式:
其中F()表示多摄像头人脸融合超分辨率网络,而IGHa,IGHb则为根据输入的两个低质量模态生成的高质量域人脸。
步骤3.2:将步骤3.1生成的高质量人脸送入低质量域生成模块,使其回归到低质量域获得生成的低质量人脸图像。
其中,GYa(),GYb()为两个低质量域生成器模块,为使用低质量域生成器模块将步骤3.1生成的高质量人脸IGHa,IGHb回归到低质量域后的低质量人脸。
步骤3.3:分别使用两个低质量域生成模块对步骤1中的高质量人脸图像进行降质,得到两张不同模态的低质量域人脸,具体利用算式:
其中,GYa(),GYb()为两个低质量域生成器模块,IGLa,IGLb为不同低质量域生成器模块根据高清输入生成的不同的低质量域人脸。
步骤3.4:将步骤3.3生成的低质量人脸送入人脸融合超分辨率网络,使其回归到高质量域获得生成的高质量人脸图像。
其中,F()表示多摄像头人脸融合超分辨率网络,GYa,GYb为人脸融合超分辨率网络根据步骤3.3生成的低质量域人脸IGLa,IGLb生成的高质量人脸图像。
步骤3.5:将步骤3.1中生成的高质量人脸送入高质量域判别器模块,分别求高质量域判别损失并更新网络参数。具体借助算式:
其中,分别为两个模态IGHa,IGHb的高质量域判别输出的值,将他们与真实标签值 real(实施例中真实标签值为1)相减获得高质量域判别损失LdomainH。
步骤3.6:将步骤3.3中生成的低质量人脸按对应模态分别送入两个低质量域判别器模块,分别求各个模态的低质量域判别损失并更新网络参数。具体借助算式:
其中分别为两个模态IGLa,IGLb的低质量域判别输出,将他们与真实标签值real相减获得低质量域判别损失LdomainL。
步骤3.7:分别将步骤3.1和步骤1中的高质量人脸送入人脸识别特征提取模块,提取出对应的人脸识别特征,并分别在两个不同模态IGHa,IGHb、生成图像IGH与的两两特征之间计算身份识别损失函数Lsimilarity,更新网络参数。具体借助算式:
其中x,y为人脸识别特征提取网络提取的人脸识别特征向量,而xi,yi为人脸识别特征向量中每一个值的大小,对两个特征向量求余弦相似度得到身份识别损失,其中i为人脸识别特征向量中的元素标号。
本步骤使用身份识别损失来约束超分辨率过程,生成辨识度高的高质量域人脸。
步骤3.8:对步骤3.2和步骤3.4得到的人脸分别于步骤1中得到的人脸分别计算域循环损失Lcyvle。具体借助算式:
其中,ILR为原始输入的低质量模态人脸,为域回归后的低质量模态人脸,则表示输入的低质量与重新翻译回原模态的图像逐像素相减并求绝对值相加。IHR为输入的高质量模态人脸,为域回归后的高质量模态人脸,则同理为高质量与重新翻译回原高质量模态的图像逐像素相减并求绝对值相加。
步骤4:采用训练数据集对上述基于域迁移融合网络的多摄像头人脸超分辨率网络进行训练,并根据损失函数更新整体网络参数,得到训练好的网络模型。整体损失函数可表示为:
其中,λ表示各个损失之间的经验权重设置,LdomainL表示低质量域判别损失,LdomainH表示高质量域判别损失,表示两个模态的域循环损失,表示两个模态的身份识别损失,相应权重分别记为λ1,λ2,λ3,λ4,λ5,λ6。在本实施例中各个权重优选采用的具体数值为λ1=1,λ2=1,λ3=10,λ4=10,λ5=2,λ6=2,具体实施时可根据需要进行调整。
步骤5:利用训练后的网络模型,输入两张不同模态的低分辨率人脸图像,重建高清人脸。
综上所述,本发明构建了一个多摄像头人脸超分辨率模型,通过利用不同摄像头人脸之间的互补信息,获得更好的人脸超分辨率效果。本发明通过局部双分支蒸馏模块分别处理真假人脸融合超分辨率网络和域迁移统一增强框架,将不同摄像头人脸增强至同一高清域中,再进行特征相关性融合,成功解决了降质不一致和时域相关性缺失的难题。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种基于域迁移融合网络的多摄像头人脸超分辨率系统,包括以下模块,
第一模块,用于构建数据集,包括将原始真实监控数据集中的人脸图像进行预处理,构建训练域迁移融合网络所需的低质量人脸-高质量身份信息的身份对齐图像数据集;
第二模块,用于构建多摄像头人脸融合超分辨率网络,所述多摄像头人脸融合超分辨率网络包括特征配准模块、特征融合模块和权重调节模块,首先在特征配准模块根据预超分图像获取对应的五官位置掩膜并进行五官特征配准得到配准后的图像;其次,利用权重调节模块在两个配准特征间获取可信权重信息;最后根据进行特征配准后的人脸和可信权重,通过特征融合模块进行自适应融合,获得最终输出人脸;
第三模块,用于构建基于域迁移融合网络的多摄像头人脸超分辨率网络,该网络利用域迁移架构进行无监督训练,将真实监控人脸超分辨率至高清域,将两个域迁移架构组成伪孪生结构,并提出人脸特征识别损失,从损失函数层面上利用不同模态人脸间的身份相关性,嵌入第二模块所得多摄像头人脸融合超分网络,利用不同人脸间的特征相关性,进一步提升超分质量;
第四模块,用于采用训练数据集对基于域迁移融合网络的多摄像头人脸超分辨率网络进行训练,得到训练好的网络模型;
第五模块,用于利用训练后的网络模型,输入两张不同模态的低分辨率人脸图像,重建高清人脸。
在一些可能的实施例中,提供一种基于域迁移融合网络的多摄像头人脸超分辨率系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
在一些可能的实施例中,提供一种基于域迁移融合网络的多摄像头人脸超分辨率系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (9)
1.一种基于域迁移融合网络的多摄像头人脸超分辨率方法,包括以下步骤:
步骤1,构建数据集,包括将原始真实监控数据集中的人脸图像进行预处理,构建训练域迁移融合网络所需的低质量人脸-高质量身份信息的身份对齐图像数据集;
步骤2,构建多摄像头人脸融合超分辨率网络,所述多摄像头人脸融合超分辨率网络包括特征配准模块、特征融合模块和权重调节模块,首先在特征配准模块根据预超分图像获取对应的五官位置掩膜并进行五官特征配准得到配准后的图像;其次,利用权重调节模块在两个配准特征间获取可信权重信息;最后根据进行特征配准后的人脸和可信权重,通过特征融合模块进行自适应融合,获得最终输出人脸;
步骤3,构建基于域迁移融合网络的多摄像头人脸超分辨率网络,该网络利用域迁移架构进行无监督训练,将真实监控人脸超分辨率至高清域,将两个域迁移架构组成伪孪生结构,并提出人脸特征识别损失,从损失函数层面上利用不同模态人脸间的身份相关性,嵌入步骤2所得多摄像头人脸融合超分网络,利用不同人脸间的特征相关性,进一步提升超分质量;
步骤4,采用训练数据集对基于域迁移融合网络的多摄像头人脸超分辨率网络进行训练,得到训练好的网络模型;
步骤5,利用训练后的网络模型,输入两张不同模态的低分辨率人脸图像,重建高清人脸;
所述基于域迁移融合网络的多摄像头人脸超分辨率网络包括一个负责生成高质量人脸的人脸融合超分辨率网络、两个用于辅助域回归损失约束的低质量域生成模块、两个用于得到低质量域判别损失的域判别器模块、一个用于得到高质量域判别损失的域判别器和一个辅助生成人脸相似度损失的人脸识别特征提取模块;构建过程包括以下子步骤,
步骤3.1,使用人脸融合超分辨率网络对步骤1中的不同模态的低质量人脸图像进行超分辨率增强得到同一高质量域的两张人脸;
步骤3.2,将步骤3.1生成的高质量人脸送入低质量域生成模块,使其回归到低质量域获得生成的低质量人脸图像;
步骤3.3,分别使用两个低质量域生成模块对步骤1中的高质量人脸图像进行降质回归得到两张不同模态的低质量域人脸;
步骤3.4,将步骤3.3生成的低质量人脸送入人脸融合超分辨率网络,使其回归到高质量域获得生成的高质量人脸图像;
步骤3.5,将步骤3.1和步骤3.4中生成的高质量人脸送入高质量域判别器模块,分别求高质量域判别损失并更新网络参数;
步骤3.6,将步骤3.2和步骤3.3中生成的低质量人脸按对应模态分别送入两个低质量域判别器模块,分别求各个模态的低质量域判别损失并更新网络参数;
步骤3.7,将步骤3.1和步骤3.4中的高质量人脸送入人脸识别特征提取模块,提取出对应的人脸识别特征,并在两组特征之间计算身份识别损失函数,更新网络参数;
步骤3.8,对步骤3.2和步骤3.4得到的人脸分别于步骤1中得到的人脸分别计算域循环损失,并更新网络参数。
2.根据权利要求1所述一种基于域迁移融合网络的多摄像头人脸超分辨率方法,其特征在于:所述特征配准模块由预超分子模块和人脸标点子模块组成,预超分子模块包括一个Unet卷积网络,人脸标点子模块采用四个StackedHourGlass网络块组成的堆叠沙漏网络实现。
3.根据权利要求1所述一种基于域迁移融合网络的多摄像头人脸超分辨率方法,其特征在于:所述权重调节模块包含全局融合权重分支和局部融合权重分支,全局合权重分支由两个3×3卷积网络块、一个全局池化层和两个1×1卷积网络块依次串联组成;局部融合权重分支由三个3×3卷积网络块和两个1×1卷积网络块串联组成;在最后将分别生成的全局融合权重和局部融合权重相加送入激活层得到最终的融合可信权重。
4.根据权利要求1所述一种基于域迁移融合网络的多摄像头人脸超分辨率方法,其特征在于:所述特征融合模块包括头尾两部分,头部首先分别对四组五官特征左眼、右眼、鼻子、嘴巴,利用三个不同大小卷积核的多尺度可变性卷积DeformmableConv对输入进行特征提取,并将输出的三组特征进行通道叠加,再送入一个可变形卷积块DeformBlock,最后对四组特征进行像素相加;尾部设置了一个共享网络权重的双分支特征融合网络,每个分支包含5个密集连接的融合块。
5.根据权利要求1所述一种基于域迁移融合网络的多摄像头人脸超分辨率方法,其特征在于:步骤4训练网络时根据损失函数更新整体网络参数,得到训练好的网络模型,整体损失函数表示为,
其中,λ表示各个损失之间的经验权重设置,LdomainL表示低质量域判别损失,LdomainH表示高质量域判别损失,表示两个模态的域循环损失,表示两个模态的身份识别损失,相应权重分别记为λ1,λ2,λ3,λ4,λ5,λ6。
6.一种基于域迁移融合网络的多摄像头人脸超分辨率系统,其特征在于:用于实现如权利要求1-5任一项所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
7.根据权利要求6所述一种基于域迁移融合网络的多摄像头人脸超分辨率系统,其特征在于:包括以下模块,
第一模块,用于构建数据集,包括将原始真实监控数据集中的人脸图像进行预处理,构建训练域迁移融合网络所需的低质量人脸-高质量身份信息的身份对齐图像数据集;
第二模块,用于构建多摄像头人脸融合超分辨率网络,所述多摄像头人脸融合超分辨率网络包括特征配准模块、特征融合模块和权重调节模块,首先在特征配准模块根据预超分图像获取对应的五官位置掩膜并进行五官特征配准得到配准后的图像;其次,利用权重调节模块在两个配准特征间获取可信权重信息;最后根据进行特征配准后的人脸和可信权重,通过特征融合模块进行自适应融合,获得最终输出人脸;
第三模块,用于构建基于域迁移融合网络的多摄像头人脸超分辨率网络,该网络利用域迁移架构进行无监督训练,将真实监控人脸超分辨率至高清域,将两个域迁移架构组成伪孪生结构,并提出人脸特征识别损失,从损失函数层面上利用不同模态人脸间的身份相关性,嵌入第二模块所得多摄像头人脸融合超分网络,利用不同人脸间的特征相关性,进一步提升超分质量;
第四模块,用于采用训练数据集对基于域迁移融合网络的多摄像头人脸超分辨率网络进行训练,得到训练好的网络模型;
第五模块,用于利用训练后的网络模型,输入两张不同模态的低分辨率人脸图像,重建高清人脸。
8.根据权利要求6所述一种基于域迁移融合网络的多摄像头人脸超分辨率系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-5任一项所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
9.根据权利要求6所述一种基于域迁移融合网络的多摄像头人脸超分辨率系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-5任一项所述的一种基于域迁移融合网络的多摄像头人脸超分辨率方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210692899.2A CN115131205B (zh) | 2022-06-17 | 2022-06-17 | 基于域迁移融合网络的多摄像头人脸超分辨率方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210692899.2A CN115131205B (zh) | 2022-06-17 | 2022-06-17 | 基于域迁移融合网络的多摄像头人脸超分辨率方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115131205A CN115131205A (zh) | 2022-09-30 |
CN115131205B true CN115131205B (zh) | 2024-07-26 |
Family
ID=83377142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210692899.2A Active CN115131205B (zh) | 2022-06-17 | 2022-06-17 | 基于域迁移融合网络的多摄像头人脸超分辨率方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131205B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471251B (zh) * | 2024-07-09 | 2024-09-03 | 厦门蝉羽网络科技有限公司 | 一种数字人稳定口型的训练方法、装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717732A (zh) * | 2018-05-21 | 2018-10-30 | 电子科技大学 | 一种基于MobileNets模型的表情追踪方法 |
WO2021134872A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市爱协生科技有限公司 | 基于生成对抗网络的马赛克人脸图像超分辨率重建方法 |
-
2022
- 2022-06-17 CN CN202210692899.2A patent/CN115131205B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717732A (zh) * | 2018-05-21 | 2018-10-30 | 电子科技大学 | 一种基于MobileNets模型的表情追踪方法 |
WO2021134872A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市爱协生科技有限公司 | 基于生成对抗网络的马赛克人脸图像超分辨率重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115131205A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Niu et al. | Hdr-gan: Hdr image reconstruction from multi-exposed ldr images with large motions | |
Jiang et al. | Unsupervised decomposition and correction network for low-light image enhancement | |
Pumarola et al. | Ganimation: Anatomically-aware facial animation from a single image | |
Li et al. | Video superresolution via motion compensation and deep residual learning | |
CN107729805B (zh) | 用于行人再识别的神经网络和基于深度学习的行人再识别算法 | |
CN110502986A (zh) | 识别图像中人物位置方法、装置、计算机设备和存储介质 | |
Lau et al. | Atfacegan: Single face image restoration and recognition from atmospheric turbulence | |
Lau et al. | Atfacegan: Single face semantic aware image restoration and recognition from atmospheric turbulence | |
Guo et al. | Joint denoising and demosaicking with green channel prior for real-world burst images | |
CN110674759A (zh) | 一种基于深度图的单目人脸活体检测方法、装置及设备 | |
Jiang et al. | Graph-regularized locality-constrained joint dictionary and residual learning for face sketch synthesis | |
Zhang et al. | Multi-branch and progressive network for low-light image enhancement | |
Zhu et al. | IPLF: A novel image pair learning fusion network for infrared and visible image | |
WO2021042774A1 (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
Prajapati et al. | Direct unsupervised super-resolution using generative adversarial network (DUS-GAN) for real-world data | |
CN113592726A (zh) | 高动态范围成像方法、装置、电子设备和存储介质 | |
Li et al. | Uphdr-gan: Generative adversarial network for high dynamic range imaging with unpaired data | |
An et al. | Single-shot high dynamic range imaging via deep convolutional neural network | |
CN112001843A (zh) | 一种基于深度学习的红外图像超分辨率重建方法 | |
CN115131205B (zh) | 基于域迁移融合网络的多摄像头人脸超分辨率方法及系统 | |
Wang et al. | Image super-resolution using a improved generative adversarial network | |
Xue et al. | FLFuse-Net: A fast and lightweight infrared and visible image fusion network via feature flow and edge compensation for salient information | |
Wang et al. | Semantic-aware texture-structure feature collaboration for underwater image enhancement | |
CN115239857B (zh) | 图像生成方法以及电子设备 | |
Bao et al. | S 2 net: Shadow mask-based semantic-aware network for single-image shadow removal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |