CN108171325A - 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置 - Google Patents

一种多尺度人脸恢复的时序集成网络、编码装置及解码装置 Download PDF

Info

Publication number
CN108171325A
CN108171325A CN201711460967.8A CN201711460967A CN108171325A CN 108171325 A CN108171325 A CN 108171325A CN 201711460967 A CN201711460967 A CN 201711460967A CN 108171325 A CN108171325 A CN 108171325A
Authority
CN
China
Prior art keywords
output
sequential
decoding
level
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711460967.8A
Other languages
English (en)
Other versions
CN108171325B (zh
Inventor
陈志波
林剑新
周天贶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201711460967.8A priority Critical patent/CN108171325B/zh
Publication of CN108171325A publication Critical patent/CN108171325A/zh
Application granted granted Critical
Publication of CN108171325B publication Critical patent/CN108171325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明提出了一种多尺度人脸恢复的时序集成网络、编码装置及解码装置,该集成网络集成了多个不同层次的基编解码器,并且进一步的采用时序门来有效的进行多尺度人脸恢复问题。其中,针对多尺度人脸恢复的时序集成网络包括,一个全卷积网络,该全卷积网络包括N个基编码器和N个基解码器,N个基编码器输出N个层次的编码输出,N个基解码器输出N个层次的解码输出;N‑1个时序门单元,在编码端,对于N个层次的编码输出进行顺序地从下到上结合和选择;N‑1个时序门单元,在解码端,对于N个层次的解码输出进行顺序地从上到下的结合和选择。

Description

一种多尺度人脸恢复的时序集成网络、编码装置及解码装置
技术领域
本发明涉及图像信号处理,尤其是一种多尺度人脸恢复的时序集成网络、相应的编码装置及解码装置。
背景技术
在过去的几年里,人脸分析技术取得了显著的进步,比如人脸检测和人脸识别。以此同时,由于监控系统的快速发展,人脸分析技术已经被广泛应用于各种各样的应用,比如犯罪调查。然而,当面临低质量的人脸图片时。大多数人脸分析技术的性能会急剧下降。所以如何从一个低质量人脸恢复出高质量人脸是一个急需解决的挑战。
既然人脸恢复技术在实际应用中有极大的潜力,最近几年许多人脸恢复算法已经相继被提出。有些算法专注于解决人脸超分辨率问题。其他算法在进行人脸超分辨率的同时也把噪声考虑进来。我们观察到大多数现有的人脸恢复算法忽略了一个真实世界图片的重要特性,也就是实际应用中的图片经常包含不同尺度的人脸。并且,当图片被失真严重污染时,人脸检测算法就很难从图片中检测出人脸。所以,我们专注于解决更符合实际应用的人脸恢复问题,也就是多尺度人脸恢复问题。之前的算法通常使用自编码器进行人脸恢复。但是自编码器本身缺少了多尺度的表达,所以对多尺度人脸变换不能进行很好的表达。
发明内容
针对现有的人脸恢复技术的缺陷,本发明提供了一种新的集成网络,该集成网络集成了多个不同层次的基编解码器,并且进一步的采用时序门来有效的进行多尺度人脸恢复问题。
本发明提出了一种更有效多尺度人脸恢复的时序集成网络,有效的解决以下关键技术问题:
1)传统的自编码器缺乏多尺度表达能力,在多尺度人脸恢复这个问题上效果不好。然而本发明集成了多个层次的基自编码器,能够有效地对多尺度输入进行有效的表达,从而获得更好的恢复效果。
2)由于自编码器结构中隐含了在编码器端对输入进行提取高层特征,在解码器端进行低层细节恢复。一些模型对自编码器的结构也进行的改进,比如SRGAN和RED-Net,但是这些网络没有探索多层次特征图之间的隐含层次关系。我们通过添加时序门单元能够顺序地从下到上提取高层特征,并且能顺序地从上到下恢复图像。
本发明提供一种针对多尺度人脸恢复的时序集成网络,其中,该网络包括,
一个全卷积网络,该全卷积网络包括N个基编码器和N个基解码器,N个基编码器输出N个层次的编码输出,N个基解码器输出N个层次的解码输出;
N-1个时序门单元,在编码端,对于N个层次的编码输出进行顺序地从下到上结合和选择;N-1个时序门单元,在解码端,对于N个层次的解码输出进行顺序地从上到下的结合和选择。编码和解码是串行的,所以这里时序门单元为2*(N-1)个。
进一步地,上述针对多尺度人脸恢复的时序集成网络,其中:
所述时序门单元包含由主动输入控制的两个门,一个为主动输入门,一个为被动输入门;
所述在编码端,对于N个层次的编码输出进行顺序地从下到上结合和选择具体为:在编码端,将高层的基编码器输出的高层编码特征输入到主动输入门,将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门,进行顺序的从下到上的结合和选择;
所述在解码端,对于N个层次的解码输出进行顺序地从上到下的结合和选择具体为:在解码端,将低层的基解码器输出的低层解码特征输入到主动输入门,将顺序于该低层的高层的基解码器输出的高层解码特征输入到被动输入门,进行顺序的从上到下的结合和选择。
本发明还提供了一种针对多尺度人脸恢复的时序编码装置,其中:该编码装置位于一个全卷积网络中,包括:
N个基编码器,N个基编码器输出N个层次的编码输出,N个基解码器输出N个层次的解码输出;
N-1个时序门单元,对于N个层次的编码输出进行顺序地从下到上结合和选择。
进一步地,上述针对多尺度人脸恢复的时序编码装置,其中:
所述时序门单元包含由主动输入控制的两个门,一个为主动输入门,一个为被动输入门;
所述对于N个层次的编码输出进行顺序地从下到上结合和选择具体为:在编码端,将高层的基编码器输出的高层编码特征输入到主动输入门,将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门,进行顺序的从下到上的结合和选择。
本发明还提供了一种针对多尺度人脸恢复的时序解码装置,其中:该解码装置位于全卷积网络中,包括:
N个基解码器,N个基解码器输出N个层次的解码输出;
N-1个时序门单元,对于N个层次的解码输出进行顺序地从上到下的结合和选择。
进一步地,上述针对多尺度人脸恢复的时序解码装置,其中:
所述时序门单元包含由主动输入控制的两个门,一个为主动输入门,一个为被动输入门;所述对于N个层次的解码输出进行顺序地从上到下的结合和选择具体为:在解码端,将低层的基解码器输出的低层解码特征输入到主动输入门,将顺序于该低层的高层的基解码器输出的高层解码特征输入到被动输入门,进行顺序的从上到下的结合和选择。
本发明具有以下优点和积极效果:
(1)本发明能够对多尺度的人脸失真图像进行自动恢复。
(2)本发明提出了一种时序集成网络,集成了多个层次的基编码器,并且采用顺序地特征结合和选择方法,能够对多尺度输入进行更好的表达,从而对图像进行更好的恢复。
(3)本发明提出了一个时序门单元,能够对多层次特征进行有效的结合和选择。
(4)本发明(SGEN和SGEN-MSE)在公共数据库上取得目前最好的结果,如表格1和表格2所示,PSNR,SSIM和MOS越高越好。
表格1.本发明在公共数据库上性能比较
表格2.本发明在公共数据库上性能比较
附图说明
图1为本发明时序集成网络的具体实施流程图;
图2为本发明采用的时序门单元。
具体实施方式
下面结合图1和图2来说明本发明的具体实施方案。
首先,我们的生成器是一个全卷积网络,全卷积网络的输入理论上可以是任意的尺寸。让我们表示第k个层的编码器特征为xk,第k个层的解码器特征为yk,第k个基编码器特征为Xk,第k个基解码器特征为Yk,并且假设总共有N个基编解码器。给定一个随机尺度的低质量人脸图片样本s,时序集成网络G可以用如下公式表示:
x1=lrelu(conv2(lrelu(conv(s)))),
xk=lrelu(conv2(xk-1)),k=2,3,...,N
X1=lrelu(conv2N(x1)),
Xk=SGU(lrelu(conv2N-k+1(xk)),Xk-1),k=2,3,...,N
Yk=relu(deconv2k(XN-k+1)),k=1,2,3,...,N
y1=relu(deconv2(Y1))
yk=relu(deconv2(SGU(Yk,yk-1))),k=2,3,...,N
G(s)=tanh(conv(yN)),
其中G(s)是生成的人脸图像,conv2k和d∈conv2k分别是2k下采样卷积和上采样解卷积操作。SGU是时序门单元。每个卷积层紧接着lrelu激活函数,每个解卷积层紧接着relu激活函数,生成器的最后一层是tanh激活函数。需要注意的是,在不同的卷积,解卷积操作和SGU单元之间没有共享参数。
为了时序地结合和选择多层信息,我们提出了一种时序门单元(SGU)。SGU时序地将两层基编解码器的信息作为输入,并且通过其中一个主动输入决定单元的输出。SGU由以下的公式描述:
f=σ(conv(xa))*xa+σ(conv(xa))*xp
其中f是SGU的输出,σ(x)是sigmoid激活函数,xa是主动输入,xp是被动输入。在编码端,高层基编码器作为主动输入,低层基编码器作为被动输入,使得网络逐渐提取高层特征。在解码端,低层基编码器作为主动输入,高层基编码器作为被动输入,使得网络逐渐恢复低层丰富细节。
传统的图像恢复问题的目标是最小化恢复图像和原始图像的均方根误差(MSE)。然而,最小化均方根误差经常会导致恢复图像比较模糊。我们提出在模型训练过程中加入生成对抗生成模型中(GAN)的对抗训练过程,使得生成出来的图像更加清晰自然。修改之后的损失函数有如下所示:
其中α是为了取得均方根误差项和对抗训练项平衡的权重。

Claims (6)

1.一种多尺度人脸恢复的时序集成网络,其特征在于:该网络包括,
一个全卷积网络,该全卷积网络包括N个基编码器和N个基解码器,N个基编码器输出N个层次的编码输出,N个基解码器输出N个层次的解码输出;
N-1个时序门单元,在编码端,对于N个层次的编码输出进行顺序地从下到上结合和选择;N-1个时序门单元,在解码端,对于N个层次的解码输出进行顺序地从上到下的结合和选择。
2.根据权利要求1所述的一种多尺度人脸恢复的时序集成网络,其特征在于:
所述时序门单元包含由主动输入控制的两个门,一个为主动输入门,一个为被动输入门;
所述在编码端,对于N个层次的编码输出进行顺序地从下到上结合和选择具体为:
在编码端,将高层的基编码器输出的高层编码特征输入到主动输入门,将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门,进行顺序的从下到上的结合和选择;
所述在解码端,对于N个层次的解码输出进行顺序地从上到下的结合和选择具体为:在解码端,将低层的基解码器输出的低层解码特征输入到主动输入门,将顺序于该低层的高层的基解码器输出的高层解码特征输入到被动输入门,进行顺序的从上到下的结合和选择。
3.一种多尺度人脸恢复的时序编码装置,其特征在于:该编码装置位于一个全卷积网络中,包括:
N个基编码器,N个基编码器输出N个层次的编码输出,N个基解码器输出N个层次的解码输出;
N-1个时序门单元,对于N个层次的编码输出进行顺序地从下到上结合和选择。
4.根据权利要求3所述的一种多尺度人脸恢复的时序编码装置,其特征在于:
所述时序门单元包含由主动输入控制的两个门,一个为主动输入门,一个为被动输入门;
所述对于N个层次的编码输出进行顺序地从下到上结合和选择具体为:
在编码端,将高层的基编码器输出的高层编码特征输入到主动输入门,将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门,进行顺序的从下到上的结合和选择。
5.一种多尺度人脸恢复的时序解码装置,其特征在于:该解码装置位于全卷积网络中,包括:
N个基解码器,N个基解码器输出N个层次的解码输出;
N-1个时序门单元,对于N个层次的解码输出进行顺序地从上到下的结合和选择。
6.根据权利要求5所述的一种多尺度人脸恢复的时序解码装置,其特征在于:
所述时序门单元包含由主动输入控制的两个门,一个为主动输入门,一个为被动输入门;
所述对于N个层次的解码输出进行顺序地从上到下的结合和选择具体为:
在解码端,将低层的基解码器输出的低层解码特征输入到主动输入门,将顺序于该低层的高层的基解码器输出的高层解码特征输入到被动输入门,进行顺序的从上到下的结合和选择。
CN201711460967.8A 2017-12-28 2017-12-28 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置 Active CN108171325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711460967.8A CN108171325B (zh) 2017-12-28 2017-12-28 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711460967.8A CN108171325B (zh) 2017-12-28 2017-12-28 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置

Publications (2)

Publication Number Publication Date
CN108171325A true CN108171325A (zh) 2018-06-15
CN108171325B CN108171325B (zh) 2020-08-28

Family

ID=62519169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711460967.8A Active CN108171325B (zh) 2017-12-28 2017-12-28 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置

Country Status (1)

Country Link
CN (1) CN108171325B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020107877A1 (zh) * 2018-11-29 2020-06-04 北京市商汤科技开发有限公司 视频压缩处理方法及装置、电子设备及存储介质
CN113542758A (zh) * 2020-04-15 2021-10-22 辉达公司 生成对抗神经网络辅助的视频压缩和广播
CN114862699A (zh) * 2022-04-14 2022-08-05 中国科学院自动化研究所 基于生成对抗网络的人脸修复方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0664037B1 (en) * 1991-07-15 2001-12-19 Iridian Technologies, Inc. Biometric personal identification system based on iris analysis
CN103971095A (zh) * 2014-05-09 2014-08-06 西北工业大学 基于多尺度lbp和稀疏编码的大规模人脸表情识别方法
CN105095833A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 用于人脸识别的网络构建方法、识别方法及系统
CN105868706A (zh) * 2016-03-28 2016-08-17 天津大学 一种基于稀疏自编码的三维模型识别方法
CN106791870A (zh) * 2016-11-30 2017-05-31 华为技术有限公司 一种视频编码方法、视频解码方法以及相关设备
CN107273824A (zh) * 2017-05-27 2017-10-20 西安电子科技大学 基于多尺度多方向局部二值模式的人脸识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0664037B1 (en) * 1991-07-15 2001-12-19 Iridian Technologies, Inc. Biometric personal identification system based on iris analysis
CN105095833A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 用于人脸识别的网络构建方法、识别方法及系统
CN103971095A (zh) * 2014-05-09 2014-08-06 西北工业大学 基于多尺度lbp和稀疏编码的大规模人脸表情识别方法
CN105868706A (zh) * 2016-03-28 2016-08-17 天津大学 一种基于稀疏自编码的三维模型识别方法
CN106791870A (zh) * 2016-11-30 2017-05-31 华为技术有限公司 一种视频编码方法、视频解码方法以及相关设备
CN107273824A (zh) * 2017-05-27 2017-10-20 西安电子科技大学 基于多尺度多方向局部二值模式的人脸识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZOLHAVARIEH S等: "Online pattern recognition in subsequence time series clustering", 《3RD INTERNATIONAL CONFERENCE ON COMPUTER ENGINEERING AND MATHEMATICAL SCIENCES》 *
尹晓燕等: "多尺度非监督特征学习的人脸识别_", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020107877A1 (zh) * 2018-11-29 2020-06-04 北京市商汤科技开发有限公司 视频压缩处理方法及装置、电子设备及存储介质
US11290723B2 (en) 2018-11-29 2022-03-29 Beijing Sensetime Technology Development Co., Ltd. Method for video compression processing, electronic device and storage medium
CN113542758A (zh) * 2020-04-15 2021-10-22 辉达公司 生成对抗神经网络辅助的视频压缩和广播
CN114862699A (zh) * 2022-04-14 2022-08-05 中国科学院自动化研究所 基于生成对抗网络的人脸修复方法、装置及存储介质

Also Published As

Publication number Publication date
CN108171325B (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
Dong et al. Model-guided deep hyperspectral image super-resolution
Chen et al. Denoising hyperspectral image with non-iid noise structure
CN110517329B (zh) 一种基于语义分析的深度学习图像压缩方法
US20190327479A1 (en) Devices for compression/decompression, system, chip, and electronic device
CN109377452B (zh) 基于vae和生成式对抗网络的人脸图像修复方法
CN109087258A (zh) 一种基于深度学习的图像去雨方法及装置
CN112580782A (zh) 基于通道增强的双注意力生成对抗网络及图像生成方法
CN109308689A (zh) 基于掩码生成对抗网络迁移学习的无监督图像修复方法
CN108171325A (zh) 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN113965659B (zh) 基于网络对网络的训练hevc视频隐写分析方法、系统
CN111080522A (zh) 一种基于双向对抗网络的图像超分辨率重建方法
CN108537133A (zh) 一种基于监督学习深度自编码器的人脸重构方法
CN107087201A (zh) 图像处理方法和装置
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN116052218B (zh) 一种行人重识别方法
CN111860116B (zh) 一种基于深度学习和特权信息的场景识别方法
CN111222583B (zh) 一种基于对抗训练与关键路径提取的图像隐写分析方法
Wan et al. Feature consistency training with JPEG compressed images
Wei et al. A robust image watermarking approach using cycle variational autoencoder
Zhu et al. Generative high-capacity image hiding based on residual CNN in wavelet domain
CN107040786A (zh) 一种基于时空域特征自适应选择的h.265/hevc视频隐写分析方法
Fu Digital Image Art Style Transfer Algorithm Based on CycleGAN
CN109558819B (zh) 一种用于遥感图像目标检测的深度网络轻量化方法
CN112862655B (zh) 一种基于通道空间注意力机制的jpeg图像隐写分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: No.443 Huangshan Road, Shushan District, Hefei City, Anhui Province 230022

Patentee after: University of Science and Technology of China

Address before: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Patentee before: University of Science and Technology of China