CN111340708B - 一种根据先验信息快速生成高分辨率完整人脸图像的方法 - Google Patents

一种根据先验信息快速生成高分辨率完整人脸图像的方法 Download PDF

Info

Publication number
CN111340708B
CN111340708B CN202010135152.8A CN202010135152A CN111340708B CN 111340708 B CN111340708 B CN 111340708B CN 202010135152 A CN202010135152 A CN 202010135152A CN 111340708 B CN111340708 B CN 111340708B
Authority
CN
China
Prior art keywords
resolution
face image
complete
image
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010135152.8A
Other languages
English (en)
Other versions
CN111340708A (zh
Inventor
金福生
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010135152.8A priority Critical patent/CN111340708B/zh
Publication of CN111340708A publication Critical patent/CN111340708A/zh
Application granted granted Critical
Publication of CN111340708B publication Critical patent/CN111340708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks

Abstract

本发明涉及一种根据先验信息快速生成高分辨率完整人脸图像的方法,属于人工智能计算机视觉图像补全技术领域。将提取到的视频数据按帧切分,输出完整的高分辨率图像;根据先验信息快速生成高分辨率完整人脸图像,具体使用条件生成对抗网络模型,以嘴唇残缺的高分辨人脸图像作为输入,使用条件生成对抗网络模型的生成器生成完整低分辨率人脸图像,然后使用超分辨率网络将低分辨率人脸图像转化为高分辨率人脸图像;再将两个训练好的模型结合实现由低分辨率嘴唇残缺人脸图像快速生成高分辨率完整人脸图像。所述方法能极大降低生成对抗网络模型的训练难度何缩短生成对抗网络模型的训练时间;能大幅提升生成对抗网络模型的生成器进行前向推断的速度。

Description

一种根据先验信息快速生成高分辨率完整人脸图像的方法
技术领域
本发明涉及一种根据先验信息快速生成高分辨率完整人脸图像的方法,属于人工智能计算机视觉图像补全技术领域。
背景技术
图像补全是指根据已有残缺图像的边缘和纹理等特征对图像残缺部分进行补全,得到完整图像的过程。图像补全作为计算机视觉领域的一个重要研究方向,已经有相当长的研究历史,且在这个过程中,涌现出了大量的方法,近年来,随着深度学习技术的兴起,出现了大量使用各种神经网络模型进行图像补全的方法。目前比较常见的方法主要是使用基于深度学习的生成式模型,常用的3种有代表性的方法是自回归模型、变分自编码器和条件生成对抗网络,这三种方法各有优缺点,而根据已有嘴唇残缺人脸图像快速生成高分辨率完整人脸图像可以视为图像补全的一个子问题,由于嘴唇部分与人脸其他部分的纹理特征差别较大,所以不仅传统的图像补全方法并不适用,而且自回归模型和变分自编码器在这个问题上的表现效果不佳,相比之下,条件生成对抗网络效果相较于自回归模型和变分自编码器不仅效果更好,而且速度也更快,因此成为此类问题的首选方法。但是使用条件生成对抗网络解决此问题时存在如下两个缺陷:
1)使用条件生成对抗网络,以嘴唇残缺的高分辨人脸图像作为输入,完整的高分率人脸图像作为输出,在训练过程中,训练难度大,耗费计算资源多,而且训练时间长。
2)在条件生成对抗网络模型训练结束后,使用模型的生成器部分进行前向推断时,速度较慢。
本发明的主要目的是找到一种方法,能够快速地根据已有嘴唇残缺低分辨人脸图像快速生成高分辨率人脸图像,即此方法主要是提升上述的方法生成高分辨率人脸图像时的速度,同时能尽可能的降低神经网络模型的训练难度,提升训练效率。首先,针对上述目的,发明人认为,高分辨率图像与低分辨率图像虽然尺度不同(即大小不同),但其空间结构是相似的,同时图像具有平移和尺度不变性特征,这里的不变性指的是图像表达的语义信息不变,即内容不变,由此可知,高分辨图像与低分辨图像之间的区别只在于高分辨图像比低分辨率图像包含更多的细节的信息,因此一张高分辨率图像可以通过在一张低分辨图像的基础上,在保证空间结构相似的前提下,利用已有信息,增加其细节,从而得到高分率图像,基于此考虑,作者认为,可以使用条件生成对抗网络中的较好实现pix2pix网络模型的方法生成完整低分辨率人脸图像,然后在使用超分辨网络模型的方法,增加低分辨率图像细节,从而得到高分辨人脸图像,上述两个模型分开训练,可以有效的降低使用高分辨人脸图像训练条件对抗生成网络的难度,同时因为超分辨网络是基于已有低分辨网络的图像内容,只是在细节上进行增强和扩大图像尺度的操作,而直接生成高分辨图片,则需要完全重新生成所有像素点,所以本发明提出的方法的好处在于,不仅降低了使用高分辨率图像进行生成式网络训练的时候耗时好资源且效果不佳的问题,而且更重要的是可以提高生成式模型做前向计算时的速度。基于深度学习的超分辨率网络模型的发展有两种方向,第一种是直接重构的方法,即由低分辨图像经过一系列卷积和反卷积操作之后直接得到高分辨图像;第二种是渐进的重构高分率网络图像的方法,即先通过低分辨率图像重构得到一个较高分辨率的图像,然后通过这个较高分辨率的图像,再得到高分辨率的图像,目前直接重构的方法和渐进式的方法都取得很不错的效果但渐进式的方法能够适应更多的应用场景。综上所述,发明人提出以pix2pix模型作为生成式模型,根据嘴唇残缺低分辨率人脸图像生成完整低分辨率人脸图像,然后使用LapSRN模型(一种渐进式超分辨网络模型)实现将低分率人脸图像重构得到高分辨人脸图像。
发明内容
本发明的目的是为了进一步降低使用高分辨率图像进行生成式网络训练的时候耗时好资源且效果不佳的问题以及提高生成式模型做前向计算时的速度,克服了在条件生成对抗网络模型训练结束后,使用模型的生成器部分进行前向推断时,速度较慢的技术缺陷,提出了一种根据先验信息快速生成高分辨率完整人脸图像的方法,根据先验信息快速生成高分辨率完整人脸图像的方法,使用条件生成对抗网络模型,以嘴唇残缺的高分辨人脸图像作为输入,使用条件生成对抗网络模型的生成器生成完整低分辨率人脸图像,然后使用超分辨率网络将低分辨率人脸图像转化为高分辨率人脸图像。
本发明是通过下述技术方案实现的:
所述根据先验信息快速生成高分辨率完整人脸图像的方法,包括如下步骤:
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集带音频的视频;
其中,交谈视频数据中包含音频和视频,且为单一人物的演讲视频;
步骤一具体为:从公开的视频网站中寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据;
步骤二、从步骤一收集的带音频的视频中根据视频中人物脸部是否晃动明显,使用开源工具对视频进行处理,提取音频和视频,分别得到音频数据和视频数据;
步骤三、将步骤二中提取到的视频数据按帧切分,输出完整的高分辨率图像;
步骤三具体为:使用步骤二安装的FFMPEG工具,使用其将视频按帧切分的功能,从视频中提取完整高分辨率图像,并按照相应的顺序进行保存;
步骤四、使用开源工具库提取步骤三切分的图像帧中每帧人脸图像的嘴型关键点坐标信息并记录;
其中,优选的开源工具库为DLIB;
步骤五、根据步骤四得到的人脸嘴型关键点坐标信息将其对应的每帧人脸图像的嘴唇部分打上掩膜,并在其上勾勒唇线,得到嘴唇带掩膜的高分辨率人脸图像;
步骤五具体为:在步骤四的基础上,基于opencv库实现根据嘴型关键点信息为高分辨率人脸图像的嘴唇部分打上掩膜,勾勒唇线得到嘴唇带掩膜的高分辨率人脸图像;
步骤六、将步骤五得到的嘴唇带掩膜的高分辨率人脸图像,使用进行降采样,得到嘴唇带掩膜的低分辨率人脸图像;
步骤七、将步骤三切分得到的完整高分辨率人脸图像使用开源工具进行降采样,得到完整低分辨率人脸图像;
步骤八、将步骤六和步骤七得到的嘴唇带掩膜低分辨率人脸图像和完整的低分辨率人脸图像一一对应起来,组成生成条件对抗网络模型的训练数据集;
步骤八具体为:按照嘴唇带掩膜的低分辨率人脸图像与完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于条件生成对抗网络模型训练的训练数据集;
步骤九:按照步骤三切分的完整的高分辨率人脸图像与步骤七得到的完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于超分辨率网络模型训练的训练数据集;
步骤十、使用步骤八得到的训练数据集,对条件生成对抗网络模型进行训练,直至模型收敛,得到训练好的条件生成对抗生成器模型;
其中,步骤十采用有监督的方式对条件生成对抗网络进行训练,以嘴唇带掩膜的低分辨率人脸图像作为输入,输出完整的低分辨率人脸;
条件生成对抗网络由生成器和判别器两部分组成,具体为:生成器采用卷积层跳跃串联结构,有多层卷积和反卷积,即按照卷积和反卷积执行的先后顺序,卷积操作的结果与反卷积操作的结果依次串联,且每一层卷积和反卷积之后都使用BatchNormalization函数做归一化,每一层卷积之后都使用LeakyRelu函数作为激活函数,每一层反卷积之后都使用Relu函数作为激活函数;判别器为层卷积和1层全连接,其中卷积层之后使用BatchNormalization函数做归一化操作,使用LeakyRelu函数作为激活函数,全连接层仅1个节点,使用Sigmoid函数作为激活函数;
对条件生成对抗网络进行训练时,以交叉熵损失函数和L1损失函数作为生成器的损失函数,同时以交叉熵损失函数作为判别器的目标函数,采用随机梯度下降方法对判别器和生成器交替训练优化,即先优化1次判别器参数,然后将其固定,在优化1次生成器参数,如此反复训练,直至目标函数收敛;
步骤十一、使用步骤九得到的训练数据集,对超分辨率网络模型进行训练,得到训练好的超分辨率网络模型;
步骤十一具体为:使用步骤九得到的训练数据集,采用有监督的方式对超分辨率网络模型进行训练,以完整的低分辨率人脸图像作为输入,完整的高分辨人脸图像作为输出;
其中,超分辨率网络具体为:
超分辨率网络模型使用Resnet网络的残差块的方式,整个网络由1个或多个残差块组成,一个残差块包含10层等宽卷积层将整个网络分四步实现:
第一步,输入图像经过1个或多个残差块,做卷积操作,残差块中每层卷积特征映射均使用LeakyRelu函数作为激活函数;
第二步,在每一个残差块后都做一次反卷积操作,其特征映射的长和宽均为残差块输入的2倍;
第三步,先对输入图像做1次或多次反卷积操作;
第四步,对第二步得到的结果做一次等宽卷积操作,将得到的特征映射按通道和维度大小逐点加到第三步得到的对应大小的反卷积操作的结果上,以此得到高分辨率图像,使用知名的感受野损失函数作为目标函数,使用随机梯度下降的方法进行优化,直至目标函数收敛;
步骤十二、将步骤十得到的训练好的生成对抗网络模型的生成器部分和步骤十一得到的训练好的超分辨率网络模型结合起来,实现由低分辨率嘴唇残缺人脸图像快速生成高分辨率完整人脸图像;
步骤十二具体为:使用步骤十一训练好的条件生成对抗网络模型中的生成器实现利用嘴唇带掩膜低分辨率图像作为先验信息输入,生成低分辨率完整人脸图像,然后将生成的低分辨率完整人脸图像输入训练好的超分辨率网络模型,得到完整高分辨率人脸图像。
有益效果
本发明所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,对比已有技术,具有如下有益效果:
1.所述方法能够极大的降低生成对抗网络模型的训练难度;
2.所述方法能极大的缩短生成对抗网络模型的训练时间;
3.所述方法能够在保证最终效果的前提下,大幅度提升生成对抗网络模型的生成器进行前向推断的速度;
4.所述方法能部署在计算能力更弱的设备上,比现有方法拥有更广阔的应用场景。
附图说明
图1为本发明一种根据先验信息快速生成高分辨率完整人脸图像的方法的流程示意图。
具体实施方式
下面结合附图及实施例对本发明所述一种根据先验信息快速生成高分辨率完整人脸图像的方法的实施方式做详细说明。
实施例1
本实施阐述了本发明所述一种根据先验信息快速生成高分辨率完整人脸图像的方法的具体实施,如图1所示,具体包括如下步骤:
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集数据;
步骤一具体为:从公开的视频网站,如爱奇艺、优酷和腾讯视频等寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据。
步骤二、从带音频的视频中分别提取音频和视频,分别得到音频数据和视频数据;其中,优选的,提取音频和视频使用开源工具FFMPEG;
步骤二具体为:首先下载FFMPEG工具,根据安装说明,将其安装在Ubuntu16.04操作系统上,然后依次点击导入、提取视频、提取音频,将每个视频的音频和视频分离开。
步骤三、将步骤二中提取到的视频数据切分成图像帧;其中,优选的,提取音频和视频使用开源工具FFMPEG;
步骤三具体为:使用步骤二安装的FFMPEG工具,使用其将视频按帧切分的功能,从视频中提取图像,并按照相应的顺序进行保存。
步骤四、使用开源工具库DLIB提取步骤三得到的图像帧中每帧人脸图像20个嘴型关键点信息,并记录关键点的坐标;
步骤四具体为:首先下载python软件,根据安装说明进行安装,然后下载与Python软件版本兼容的DLIB人脸检测库,根据安装说明进行安装,然后下载DLIB人脸检测库官方提供的已经训练好的用于检测人脸68个关键点的模型,然后根据官方示例代码,稍作修改,实现提取每帧图片的人脸嘴型关键点,并将其进行保存。
步骤五、根据步骤四得到的关键点坐标信息将其对应的每帧人脸图像的嘴唇部分打上掩膜,并在其上勾勒唇线,得到嘴唇带掩膜的高分辨率人脸图像;
步骤五具体为:在步骤四的基础上,下载与python软件版本兼容opencv库,根据安装说明进行安装,然后根据官方示例代码,稍作修改,实现根据嘴型关键点信息,为高分辨率人脸图像的嘴唇部分打上掩膜,勾勒唇线。
步骤六、将步骤五得到的嘴唇带掩膜的高分辨率人脸图像,使用双线性插值或双三次插值的方式进行降采样,得到嘴唇带掩膜的低分辨率人脸图像;
步骤六具体为:根据opencv库的官方示例代码,稍作修改,实现将嘴唇带掩膜的高分辨率人脸图像降采样得到嘴唇带掩膜的低分辨率人脸图像
步骤七、将步骤三得到的完整高分辨率人脸图像,使用双线性插值或双三次插值的方式进行降采样,得到完整低分辨率人脸图像;
步骤七具体为:根据opencv库的官方示例代码,稍作修改,实现将完整的高分辨率人脸图像降采样得到完整的低分辨率人脸图像;
步骤八、将步骤六和步骤七得到的嘴唇带掩膜的低分辨率人脸图像和完整的低分辨率人脸图像一一对应起来,组成生成对抗网络模型的训练数据集;
步骤八具体为:按照嘴唇带掩膜的低分辨率人脸图像与完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于条件生成对抗网络模型训练的训练数据集;
步骤九、将步骤三和步骤七得到的完整高分辨率人脸图像和完整低分辨率人脸图像一一对应起来,组成超分辨率网络模型的训练数据集;
步骤九具体为:按照完整的高分辨率人脸图像与完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于超分辨率网络模型训练的训练数据集;
步骤十、使用步骤八得到训练数据集,对条件生成对抗网络模型进行训练,得到训练好的模型;
步骤十具体为:使用步骤八得到的训练数据集,采用有监督的方式对生成对抗网络进行训练,以嘴唇带掩膜的低分辨率人脸图像作为输入,完整的低分辨率人脸作为输出,其中条件生成对抗网络具体为:
条件生成对抗网络模型由生成器和判别器两部分组成,其具体细节为为:生成器采用类似于知名的U-net模型的卷积层跳跃串联结构,有8层卷积和8层反卷积,即按照卷积和反卷积执行的先后顺序,第7层卷积操作的结果与第1层反卷积操作的结果串联,进行反卷积操作,得到第2层反卷积操作的结果,第6层卷积操作的结果与第2层反卷积操作的结果串联,进行反卷积操作,得到第3层反卷积操作的结果,第5层卷积操作的结果与第3层反卷积操作的结果串联,进行反卷积操作,得到第4层反卷积操作的结果,以此类推,同时,每一层卷积和反卷积之后都使用BatchNormalization函数做归一化,每一层卷积之后都使用LeakyRelu函数作为激活函数,其中α参数取值为0.2,每一层反卷积之后都使用Relu函数作为激活函数,其中8层卷积的特征映射数量分别为64、128、256、512、512、512、512和512,8层反卷积的特征映射数量分别为512、512、512、512、256、128、64和3;判别器使用4层卷积和1层全连接,其中卷积层之后使用BatchNormalization函数做归一化操作,使用LeakyRelu函数作为激活函数,其中α参数取值为0.2,全连接层仅1个节点,使用Sigmoid函数作为激活函数,4层卷积的特征映射数量分别为24、128、256和512,以交叉熵损失函数和L1损失函数作为生成器的损失函数,同时以交叉熵损失函数作为判别器的目标函数,采用随机梯度下降方法对判别器和生成器交替训练优化,即先优化1次判别器参数,然后将其固定,在优化1次生成器参数,如此反复训练,直至目标函数收敛。
步骤十一、使用步骤九得到的训练数据集,对超分辨率网络模型进行训练,得到训练好的模型;
步骤十一具体为:使用步骤九得到的训练数据集,采用有监督的方式对超分辨率网络模型进行训练,以完整的低分辨率人脸图像作为输入,完整的高分辨人脸图像作为输出,其中,超分辨率网络具体为:
超分辨率网络模型使用类似于构建知名的Resnet网络的残差块的方式,整个网络由1个或多个残差块组成(在模型中使用残差块的数量根据高分辨率图像和低分辨图像之间的放缩比来决定),一个残差块包含10层等宽卷积层(即输入和输出尺度大小相同)整个网络分四步实现,第一步,输入图像经过1个或多个残差块,做卷积操作,残差块中每层卷积特征映射数量均为64,均使用LeakyRelu函数作为激活函数,其中α取值为0.2,,第二步,在每一个残差块后都做一次反卷积操作,其特征映射数量为64,其特征映射的长和宽均为残差块输入的2倍,第三步,先对输入图像做1次或多次反卷积操作(具体次数根据高分辨率图像和低分辨图像之间的放缩比来决定),第四步,对第二步得到的结果做一次等宽卷积操作,其特征映射数量为3,将得到的3个特征映射按通道和维度大小逐点加到第三步得到的对应大小的反卷积操作的结果上,以此得到高分辨率图像,使用知名的感受野损失函数作为目标函数,使用随机梯度下降的方法进行优化,直至目标函数收敛。
步骤十二、将步骤十得到的训练好的生成对抗网络模型的生成器部分和步骤十一得到的训练好的超分辨率网络模型结合起来,实现由低分辨率嘴唇残缺人脸图像快速生成高分辨率完整人脸图像。
步骤十二具体为:使用步骤十一训练好的条件生成对抗网络模型中的生成器实现利用嘴唇带掩膜低分辨率图像作为先验信息输入,生成低分辨率完整人脸图像,然后将生成的低分辨率完整人脸图像输入训练好的超分辨率网络模型,得到完整高分辨率人脸图像。
本实例使用硬件为CPU:Intel(R)Xeon(R)CPU E5-2680 v4@2.40GHz、GPU:Teslap40,显存容量24GB,显存带宽346GB/s、内存:256GB、硬盘:180TB。软件为,操作系统:Linux商用发行版Redhat64位,CUDA(8.0),cudnn(6.0),TensorFlow(1.4.0),Keras(2.1.3),dlib(19.9.0),easydict(1.9),editdistance(0.4),h5py(2.9.0),scikit-learn(0.19.1),opencv-python(3.4.3.18),opencv-contrib-python(3.4.0.12),python-speech-features(0.6),scikit-image(0.15.0);使用结构相似度(SSIM)作为生成的高分辨率完整人脸图像的评价指标。
在图像补全问题中,关于嘴型部分残缺的人脸图像补全需要从整张图像的有效特征中推断得到其嘴型部分的纹理细节和形状细节,同时将两者有效的结合在一起,得到完整的人脸图像。高分辨图像相较于低分辨率图像,包含更多细节信息,能够极大的改善人的观看感受,本发明中的方法能够根据先验信息快速生成高分辨率完整人脸图像,极大的提升人们的观看体验。
本发明所述的一种根据先验信息快速生成高分辨完成人脸图像的方法与已有方法对一组测试数据进行测试,得到各方法所用模型训练时间、前向推断时间以及测试结果如下表1所示。
表1各种方法所用模型训练时间、前向推断时间以及测试结果
Figure BDA0002396993260000121
注:pix2pix指所用条件生成对抗网络模型,lapsrn3x指残差块的网络层数为3层的超分辨率网络模型,lapsrn5x指残差块的网络层数为3层的超分辨率网络模型,
Lapsrn10x指残差块的网络层数为3层的超分辨率网络模型,SSIM是常用的评价指标。
由上表可知,本发明所述方法与已有方法相比,在最终效果相差不大的情况下,本发明所述方法对条件生成对抗网络模型进行训练时训练时间更短,所以本发明所述方法能够极大的降低生成对抗网络模型的训练难度;
本发明所述方法与已有方法相比,在最终效果相差不大的情况下,本发明所述方法训练时间更短,所以本发明所述方法能极大的缩短生成对抗网络模型的训练时间;
本发明所述方法与已有方法相比,在最终效果相差不大的情况下,本发明所述方法前向推断时间,即生成高分辨图像所用时间更短,所以本发明所述方法能够在保证最终效果的前提下,大幅度提升生成对抗网络模型的生成器进行前向推断的速度;
本发明所述方法与已有方法相比,在最终效果相差不大的情况下,本发明所述方法使用了两个模型,因此,本发明所述方法的两个模型可以部署在不同的计算设备上,条件对抗网络模型的生成器可以部署在服务器端,而超分辨率网络模型可以部署在客户端,即计算能力更弱的设备上,因此,本发明所述方法比已有方法拥有更广阔的应用场景。
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集数据;
步骤一具体为:从公开的视频网站,如爱奇艺、优酷和腾讯视频等寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据。
步骤二、从带音频的视频中分别提取音频和视频,分别得到音频数据和视频数据;其中,优选的,提取音频和视频使用开源工具FFMPEG;
步骤二具体为:首先下载FFMPEG工具,根据安装说明,将其安装在Ubuntu16.04操作系统上,然后依次点击导入、提取视频、提取音频,将每个视频的音频和视频分离开。
步骤三、将步骤二中提取到的视频数据切分成图像帧;其中,优选的,提取音频和视频使用开源工具FFMPEG;
步骤三具体为:使用步骤二安装的FFMPEG工具,使用其将视频按帧切分的功能,从视频中提取图像,并按照相应的顺序进行保存。
步骤四、使用开源工具库DLIB提取步骤三得到的图像帧中每帧人脸图像20个嘴型关键点信息,并记录关键点的坐标;
步骤四具体为:首先下载python软件,根据安装说明进行安装,然后下载与Python软件版本兼容的DLIB人脸检测库,根据安装说明进行安装,然后下载DLIB人脸检测库官方提供的已经训练好的用于检测人脸68个关键点的模型,然后根据官方示例代码,稍作修改,实现提取每帧图片的人脸嘴型关键点,并将其进行保存。
步骤五、根据步骤四得到的关键点坐标信息将其对应的每帧人脸图像的嘴唇部分打上掩膜,并在其上勾勒唇线,得到嘴唇带掩膜的高分辨率人脸图像;
步骤五具体为:在步骤四的基础上,下载与python软件版本兼容opencv库,根据安装说明进行安装,然后根据官方示例代码,稍作修改,实现根据嘴型关键点信息,为高分辨率人脸图像的嘴唇部分打上掩膜,勾勒唇线。
步骤六、将步骤五得到的嘴唇带掩膜的高分辨率人脸图像,使用双线性插值或双三次插值的方式进行降采样,得到嘴唇带掩膜的低分辨率人脸图像;
步骤六具体为:根据opencv库的官方示例代码,稍作修改,实现将嘴唇带掩膜的高分辨率人脸图像降采样得到嘴唇带掩膜的低分辨率人脸图像
步骤七、将步骤三得到的完整高分辨率人脸图像,使用双线性插值或双三次插值的方式进行降采样,得到完整低分辨率人脸图像;
步骤七具体为:根据opencv库的官方示例代码,稍作修改,实现将完整的高分辨率人脸图像降采样得到完整的低分辨率人脸图像;
步骤八、将步骤六和步骤七得到的嘴唇带掩膜的低分辨率人脸图像和完整的低分辨率人脸图像一一对应起来,组成生成对抗网络模型的训练数据集;
步骤八具体为:按照嘴唇带掩膜的低分辨率人脸图像与完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于条件生成对抗网络模型训练的训练数据集;
步骤九、将步骤三和步骤七得到的完整高分辨率人脸图像和完整低分辨率人脸图像一一对应起来,组成超分辨率网络模型的训练数据集;
步骤九具体为:按照完整的高分辨率人脸图像与完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于超分辨率网络模型训练的训练数据集;
步骤十、使用步骤八得到训练数据集,对条件生成对抗网络模型进行训练,得到训练好的模型;
步骤十具体为:使用步骤八得到的训练数据集,采用有监督的方式对生成对抗网络进行训练,以嘴唇带掩膜的低分辨率人脸图像作为输入,完整的低分辨率人脸作为输出,其中条件生成对抗网络具体为:
条件生成对抗网络模型由生成器和判别器两部分组成,其具体细节为为:生成器采用类似于知名的U-net模型的卷积层跳跃串联结构,有8层卷积和8层反卷积,即按照卷积和反卷积执行的先后顺序,第7层卷积操作的结果与第1层反卷积操作的结果串联,进行反卷积操作,得到第2层反卷积操作的结果,第6层卷积操作的结果与第2层反卷积操作的结果串联,进行反卷积操作,得到第3层反卷积操作的结果,第5层卷积操作的结果与第3层反卷积操作的结果串联,进行反卷积操作,得到第4层反卷积操作的结果,以此类推,同时,每一层卷积和反卷积之后都使用BatchNormalization函数做归一化,每一层卷积之后都使用LeakyRelu函数作为激活函数,其中α参数取值为0.2,每一层反卷积之后都使用Relu函数作为激活函数,其中8层卷积的特征映射数量分别为64、128、256、512、512、512、512和512,8层反卷积的特征映射数量分别为512、512、512、512、256、128、64和3;判别器使用4层卷积和1层全连接,其中卷积层之后使用BatchNormalization函数做归一化操作,使用LeakyRelu函数作为激活函数,其中α参数取值为0.2,全连接层仅1个节点,使用Sigmoid函数作为激活函数,4层卷积的特征映射数量分别为24、128、256和512,以交叉熵损失函数和L1损失函数作为生成器的损失函数,同时以交叉熵损失函数作为判别器的目标函数,采用随机梯度下降方法对判别器和生成器交替训练优化,即先优化1次判别器参数,然后将其固定,在优化1次生成器参数,如此反复训练,直至目标函数收敛。
步骤十一、使用步骤九得到的训练数据集,对超分辨率网络模型进行训练,得到训练好的模型;
步骤十一具体为:使用步骤九得到的训练数据集,采用有监督的方式对超分辨率网络模型进行训练,以完整的低分辨率人脸图像作为输入,完整的高分辨人脸图像作为输出,其中,超分辨率网络具体为:
超分辨率网络模型使用类似于构建知名的Resnet网络的残差块的方式,整个网络由1个或多个残差块组成(在模型中使用残差块的数量根据高分辨率图像和低分辨图像之间的放缩比来决定),一个残差块包含10层等宽卷积层(即输入和输出尺度大小相同)整个网络分四步实现,第一步,输入图像经过1个或多个残差块,做卷积操作,残差块中每层卷积特征映射数量均为64,均使用LeakyRelu函数作为激活函数,其中α取值为0.2,,第二步,在每一个残差块后都做一次反卷积操作,其特征映射数量为64,其特征映射的长和宽均为残差块输入的2倍,第三步,先对输入图像做1次或多次反卷积操作(具体次数根据高分辨率图像和低分辨图像之间的放缩比来决定),第四步,对第二步得到的结果做一次等宽卷积操作,其特征映射数量为3,将得到的3个特征映射按通道和维度大小逐点加到第三步得到的对应大小的反卷积操作的结果上,以此得到高分辨率图像,使用知名的感受野损失函数作为目标函数,使用随机梯度下降的方法进行优化,直至目标函数收敛。
步骤十二、将步骤十得到的训练好的生成对抗网络模型的生成器部分和步骤十一得到的训练好的超分辨率网络模型结合起来,实现由低分辨率嘴唇残缺人脸图像快速生成高分辨率完整人脸图像。
步骤十二具体为:使用步骤十一训练好的条件生成对抗网络模型中的生成器实现利用嘴唇带掩膜低分辨率图像作为先验信息输入,生成低分辨率完整人脸图像,然后将生成的低分辨率完整人脸图像输入训练好的超分辨率网络模型,得到完整高分辨率人脸图像。
虽然结合了附图描述了本发明的实施方式,但是对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。

Claims (10)

1.一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:包括如下步骤:
步骤一、收集大量带有音频的高分辨率交谈视频数据,在各类视频网站进行下载并收集带音频的视频;
步骤二、从步骤一收集的带音频的视频中根据视频中人物脸部是否晃动明显,使用开源工具对视频进行处理,提取音频和视频,分别得到音频数据和视频数据;
步骤三、将步骤二中提取到的视频数据按帧切分,输出完整的高分辨率图像;
步骤四、使用开源工具库提取步骤三切分的图像帧中每帧人脸图像的嘴型关键点坐标信息并记录;
步骤五、根据步骤四得到的人脸嘴型关键点坐标信息将其对应的每帧人脸图像的嘴唇部分打上掩膜,并在其上勾勒唇线,得到嘴唇带掩膜的高分辨率人脸图像;
步骤六、将步骤五得到的嘴唇带掩膜的高分辨率人脸图像,使用进行降采样,得到嘴唇带掩膜的低分辨率人脸图像;
步骤七、将步骤三切分得到的完整高分辨率人脸图像使用开源工具进行降采样,得到完整低分辨率人脸图像;
步骤八、将步骤六和步骤七得到的嘴唇带掩膜低分辨率人脸图像和完整的低分辨率人脸图像一一对应起来,组成生成条件对抗网络模型的训练数据集;
步骤九:按照步骤三切分的完整的高分辨率人脸图像与步骤七得到的完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于超分辨率网络模型训练的训练数据集;
步骤十、使用步骤八得到的训练数据集,对条件生成对抗网络模型进行训练,直至模型收敛,得到训练好的条件生成对抗生成器模型;
步骤十一、使用步骤九得到的训练数据集,对超分辨率网络模型进行训练,得到训练好的超分辨率网络模型;
步骤十二、将步骤十得到的训练好的生成对抗网络模型的生成器部分和步骤十一得到的训练好的超分辨率网络模型结合起来,实现由低分辨率嘴唇残缺人脸图像快速生成高分辨率完整人脸图像。
2.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤一中,交谈视频数据中包含音频和视频,且为单一人物的演讲视频。
3.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤一具体为:从公开的视频网站中寻找单一人物的演讲视频,并对寻找到的这个人的所有演讲视频进行挑选,选择演讲内容比较连贯,停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据。
4.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤三具体为:使用步骤二安装的FFMPEG工具,使用其将视频按帧切分的功能,从视频中提取完整高分辨率图像,并按照相应的顺序进行保存。
5.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤四中,优选的开源工具库为DLIB;
步骤五具体为:在步骤四的基础上,基于opencv库实现根据嘴型关键点信息为高分辨率人脸图像的嘴唇部分打上掩膜,勾勒唇线得到嘴唇带掩膜的高分辨率人脸图像。
6.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤八具体为:按照嘴唇带掩膜的低分辨率人脸图像与完整的低分辨率人脸图像之间的对应关系,将两个图像集组织起来,得到用于条件生成对抗网络模型训练的训练数据集。
7.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤十采用有监督的方式对条件生成对抗网络进行训练,以嘴唇带掩膜的低分辨率人脸图像作为输入,输出完整的低分辨率人脸。
8.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤十中条件生成对抗网络由生成器和判别器两部分组成,具体为:生成器采用卷积层跳跃串联结构,有多层卷积和反卷积,即按照卷积和反卷积执行的先后顺序,卷积操作的结果与反卷积操作的结果依次串联,且每一层卷积和反卷积之后都使用BatchNormalization函数做归一化,每一层卷积之后都使用LeakyRelu函数作为激活函数,每一层反卷积之后都使用Relu函数作为激活函数;判别器为层卷积和1层全连接,其中卷积层之后使用BatchNormalization函数做归一化操作,使用LeakyRelu函数作为激活函数,全连接层仅1个节点,使用Sigmoid函数作为激活函数;
对条件生成对抗网络进行训练时,以交叉熵损失函数和L1损失函数作为生成器的损失函数,同时以交叉熵损失函数作为判别器的目标函数,采用随机梯度下降方法对判别器和生成器交替训练优化,即先优化1次判别器参数,然后将其固定,在优化1次生成器参数,如此反复训练,直至目标函数收敛。
9.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤十一具体为:使用步骤九得到的训练数据集,采用有监督的方式对超分辨率网络模型进行训练,以完整的低分辨率人脸图像作为输入,完整的高分辨人脸图像作为输出;
其中,超分辨率网络具体为:
超分辨率网络模型使用Resnet网络的残差块的方式,整个网络由1个或多个残差块组成,一个残差块包含10层等宽卷积层将整个网络分四步实现:
第一步,输入图像经过1个或多个残差块,做卷积操作,残差块中每层卷积特征映射均使用LeakyRelu函数作为激活函数;
第二步,在每一个残差块后都做一次反卷积操作,其特征映射的长和宽均为残差块输入的2倍;
第三步,先对输入图像做1次或多次反卷积操作;
第四步,对第二步得到的结果做一次等宽卷积操作,将得到的特征映射按通道和维度大小逐点加到第三步得到的对应大小的反卷积操作的结果上,以此得到高分辨率图像,使用知名的感受野损失函数作为目标函数,使用随机梯度下降的方法进行优化,直至目标函数收敛。
10.根据权利要求1所述的一种根据先验信息快速生成高分辨率完整人脸图像的方法,其特征在于:步骤十二具体为:使用步骤十一训练好的条件生成对抗网络模型中的生成器实现利用嘴唇带掩膜低分辨率图像作为先验信息输入,生成低分辨率完整人脸图像,然后将生成的低分辨率完整人脸图像输入训练好的超分辨率网络模型,得到完整高分辨率人脸图像。
CN202010135152.8A 2020-03-02 2020-03-02 一种根据先验信息快速生成高分辨率完整人脸图像的方法 Active CN111340708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135152.8A CN111340708B (zh) 2020-03-02 2020-03-02 一种根据先验信息快速生成高分辨率完整人脸图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135152.8A CN111340708B (zh) 2020-03-02 2020-03-02 一种根据先验信息快速生成高分辨率完整人脸图像的方法

Publications (2)

Publication Number Publication Date
CN111340708A CN111340708A (zh) 2020-06-26
CN111340708B true CN111340708B (zh) 2022-04-15

Family

ID=71185896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135152.8A Active CN111340708B (zh) 2020-03-02 2020-03-02 一种根据先验信息快速生成高分辨率完整人脸图像的方法

Country Status (1)

Country Link
CN (1) CN111340708B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288627B (zh) * 2020-10-23 2022-07-05 武汉大学 一种面向识别的低分辨率人脸图像超分辨率方法
CN113139907B (zh) * 2021-05-18 2023-02-14 广东奥普特科技股份有限公司 视觉分辨率增强的生成方法、系统、装置及存储介质
CN113435334B (zh) * 2021-06-28 2024-02-27 中国科学院上海微系统与信息技术研究所 一种基于深度学习的小目标人脸识别方法
CN113591917B (zh) * 2021-06-29 2024-04-09 深圳市捷顺科技实业股份有限公司 一种数据增强的方法及装置
CN113239902B (zh) * 2021-07-08 2021-09-28 中国人民解放军国防科技大学 一种基于双判别器生成对抗网络的唇语识别方法及装置
CN114419702B (zh) * 2021-12-31 2023-12-01 南京硅基智能科技有限公司 数字人生成模型、模型的训练方法以及数字人生成方法
CN114529450B (zh) * 2022-01-25 2023-04-25 华南理工大学 基于改进深度迭代协作网络的人脸图像超分辨方法
CN115880158B (zh) * 2023-01-30 2023-10-27 西安邮电大学 一种基于变分自编码的盲图像超分辨率重建方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN110211045A (zh) * 2019-05-29 2019-09-06 电子科技大学 基于srgan网络的超分辨率人脸图像重建方法
CN110490804A (zh) * 2019-08-14 2019-11-22 西安工程大学 一种基于生成对抗网络的生成超分辨图像的方法
CN110660020A (zh) * 2019-08-15 2020-01-07 天津中科智能识别产业技术研究院有限公司 一种基于融合互信息的对抗生成网络的图像超分辨率方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895345B (zh) * 2017-11-29 2020-05-26 浙江大华技术股份有限公司 一种提高人脸图像分辨率的方法和装置
CN110070487B (zh) * 2019-04-02 2021-05-11 清华大学 基于深度强化学习的语义重构人脸超分方法及装置
CN110147776B (zh) * 2019-05-24 2021-06-11 北京百度网讯科技有限公司 确定人脸关键点位置的方法和装置
CN110222628A (zh) * 2019-06-03 2019-09-10 电子科技大学 一种基于生成式对抗网络的人脸修复方法
CN110706157B (zh) * 2019-09-18 2022-09-30 中国科学技术大学 一种基于身份先验生成对抗网络的人脸超分辨率重建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN110211045A (zh) * 2019-05-29 2019-09-06 电子科技大学 基于srgan网络的超分辨率人脸图像重建方法
CN110490804A (zh) * 2019-08-14 2019-11-22 西安工程大学 一种基于生成对抗网络的生成超分辨图像的方法
CN110660020A (zh) * 2019-08-15 2020-01-07 天津中科智能识别产业技术研究院有限公司 一种基于融合互信息的对抗生成网络的图像超分辨率方法

Also Published As

Publication number Publication date
CN111340708A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111340708B (zh) 一种根据先验信息快速生成高分辨率完整人脸图像的方法
CN110033410B (zh) 图像重建模型训练方法、图像超分辨率重建方法及装置
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
Anvari et al. Dehaze-GLCGAN: unpaired single image de-hazing via adversarial training
CN112950471A (zh) 视频超分处理方法、装置、超分辨率重建模型、介质
Chen et al. Cross parallax attention network for stereo image super-resolution
Ma et al. Learning to jointly generate and separate reflections
Seo et al. Object recognition in very low resolution images using deep collaborative learning
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
Liu et al. BE-CALF: Bit-depth enhancement by concatenating all level features of DNN
CN112419174B (zh) 基于门循环单元的图像文字去除方法、系统及装置
CN114820341A (zh) 一种基于增强Transformer的图像盲去噪方法及系统
Din et al. Effective removal of user-selected foreground object from facial images using a novel GAN-based network
CN112288632A (zh) 基于精简esrgan的单图像超分辨率方法及系统
CN115358932A (zh) 一种多尺度特征融合的人脸超分辨率重构方法及系统
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
Li et al. Representation learning for compressed video action recognition via attentive cross-modal interaction with motion enhancement
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN109272450B (zh) 一种基于卷积神经网络的图像超分方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
Niu et al. Fast object placement assessment
Ma et al. VommaNet: An End-to-End network for disparity estimation from reflective and texture-less light field images
Sun et al. ESinGAN: Enhanced single-image GAN using pixel attention mechanism for image super-resolution
Fu Digital Image Art Style Transfer Algorithm Based on CycleGAN
Ma et al. AFEC: adaptive feature extraction modules for learned image compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200626

Assignee: Beijing Shengshi Huanyu Technology Co.,Ltd.

Assignor: BEIJING INSTITUTE OF TECHNOLOGY

Contract record no.: X2023110000130

Denomination of invention: A method for quickly generating high-resolution complete facial images based on prior information

Granted publication date: 20220415

License type: Common License

Record date: 20231013

EE01 Entry into force of recordation of patent licensing contract