CN112633234A - 人脸去眼镜模型训练、应用方法及其装置、设备和介质 - Google Patents

人脸去眼镜模型训练、应用方法及其装置、设备和介质 Download PDF

Info

Publication number
CN112633234A
CN112633234A CN202011630413.XA CN202011630413A CN112633234A CN 112633234 A CN112633234 A CN 112633234A CN 202011630413 A CN202011630413 A CN 202011630413A CN 112633234 A CN112633234 A CN 112633234A
Authority
CN
China
Prior art keywords
face
glasses
image
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011630413.XA
Other languages
English (en)
Inventor
郑康元
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202011630413.XA priority Critical patent/CN112633234A/zh
Publication of CN112633234A publication Critical patent/CN112633234A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开人脸去眼镜模型训练、应用方法及其装置、设备和介质,其中的训练方法包括:向作为生成器的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。本申请能以少量样本训练出适于人脸去眼镜模型,能够高效精准地为人脸图像去除其中的眼镜图像,具有宽广的应用前景。

Description

人脸去眼镜模型训练、应用方法及其装置、设备和介质
技术领域
本申请实施例涉及图像处理领域,尤其是一种人脸去眼镜模型训练、应用方法,及其相应的装置、计算机设备和存储介质。
背景技术
图像识别的一种具体应用场景是人脸识别技术,是一项基于人的脸部特征进行身份识别的人工智能技术。因其具有非接触性、便捷性和快速性等特点,使得人脸识别技术具有非常广泛的落地场景,例如安防、金融、电子政务和场所进出等领域。
在实际应用中,人脸识别的精度容易受到人脸佩带装饰物的影响,其中眼镜就是一种常见的人为增加装饰物。人脸戴眼镜一方面会带来遮挡从而降低人脸相似度,另一方面在特定光照下也会带来眼镜区域反光影响眼睛区域的特征提取,上述两方面因素都会导致眼镜用户人脸识别精度的下降,出现拒识或者误识的情况。
随人工智能的发展,采用卷积神经网络来进行图像识别的相关技术已经日趋成熟。众所周知,人工智能的实现依赖于大数据及其算法,换言之,一个有效的人脸去眼镜模型,对其训练样本的稀疏性和样本总量往往存在依赖。
因此,如何借助人工智能技术,通过高效训练人脸去眼镜模型以用于提高戴眼镜用户的人脸识别精度,是一个亟待解决的现实需求。
发明内容
本申请的诸多目的在于提供一种用于实现人脸图像还原的人脸去眼镜模型训练、应用方法及其相应的装置、计算机设备及存储介质。
为解决上述技术问题,本申请采用如下技术方案:
适应本申请的目的之一,提供一种人脸去眼镜模型训练方法,包括如下步骤:
向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;
将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;
利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
部分实施例中,向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像的步骤,包括:
向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;
从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;
将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;
将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;
融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
部分实施例中,所述第一神经网络子模型/第二神经网络子模型提取特征图集合的过程,包括:
获得其所接收的输入的中间特征映射;
将所述中间特征映射经其编码路径中的多个编码器逐步压缩提取多尺度特征;
以所述多尺度特征为馈入特征,经其解码路径中的多个解码器逐步解码,逐级还原为更高分辨率的特征图,其中,每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原;
将解码器的所有输出构成所述的特征图集合。
部分实施例中,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练的步骤,包括:
对馈入的每种类型的图像进行特征提取;
依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果;
根据判别结果反向传播修正其自身所使用的权重参数。
部分实施例中,利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型的步骤,包括:
对馈入的每种类型的图像进行特征提取;
依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果;
冻结对其自身所使用的权重参数的修正;
向生成对抗模型的生成器反向传播,修正该生成器的相关权重参数,以提升其所输出的人脸去眼镜图像的准确率;
在所述人脸去眼镜模型内进行反向传播,以修正其相关权重参数,以提升其所生成的人脸去眼镜图像的准确率。
适应本申请的另一目的,本申请提供一种人脸去眼镜模型应用方法,包括如下步骤:
将经姿态矫正的人脸图像馈入预训练的人脸去眼镜模型中,获得该模型输出的去眼镜人脸图像;
调用预设接口对该去眼镜人脸图像进行人脸识别,获得识别结果;
依据该识别结果开放或关闭特定权限;
其中,将经姿态矫正的人脸图像馈入预训练的人脸去眼镜模型的过程,包括如下步骤:
向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;
从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;
将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;
将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;
融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
较佳的实施例中,所述人脸去眼镜模型经如下步骤实施预训练:
向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;
将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;
利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
适应本申请的再一目的,本申请提供一种人脸去眼镜模型训练装置,其包括:
图像生产模块,用于向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;
鉴别训练模块,用于将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;
模型训练模块,用于利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
部分实施例中,所述图像生产模块包括:
第一提取子模块,用于向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;
第一输出子模块,用于从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;
通道合并子模块,用于将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;
第二提取子模块,用于将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;
第二输出子模块,用于融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
适应本申请的又一目的,本申请提供一种人脸去眼镜模型应用装置,其包括:
人脸还原模块,用于将经姿态矫正的人脸图像馈入预训练的人脸去眼镜模型中,获得该模型输出的去眼镜人脸图像;
人脸识别模块,用于调用预设接口对该去眼镜人脸图像进行人脸识别,获得识别结果;
权限验证模块,用于依据该识别结果开放或关闭特定权限;
其中,所述人脸还原模块包括:
第一提取子模块,用于向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;
第一输出子模块,用于从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;
通道合并子模块,用于将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;
第二提取子模块,用于将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;
第二输出子模块,用于融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
适应本申请的再一目的,本申请还提供一种计算机设备,其包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行前述任意一种方法的步骤。
适应本申请的又一目的,本申请还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述前述任意一种方法的步骤。
与现有技术相比较,本申请的有益效果是:
本申请采用人脸去眼镜模型用于从戴眼镜的人脸原图中将眼镜图像去除,以还原出不戴眼镜的纯净的人脸图像,在此基础上,结合生成对抗模型,一方面,将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型的样本;另一方面,采用人工预标记的无眼镜人脸图像作为真值类别的样本。用这两类样本先训练出该生产对抗模型的鉴别器,使鉴别器获得从图片中判别出其所含的人脸图像是真值还是假值的能力。再利用训练好的鉴别器作为判决依据,协助训练生成器,主要是训练其中的人脸去眼镜模型,使得该人脸去眼镜模型所生成的去眼镜人脸图像可以持续收敛到理想的效果。
本申请将人脸去眼镜模型与生成对抗模型进行结合,通过生成器与鉴别器之间实现对抗学习,利用人脸去眼镜模型在训练过程中生产的去眼镜人脸图像生产出更丰富的样本参与训练,最终优化了该人脸去眼镜模型,所需样本数量明显减少,使其仅需少量样本训练便可实现收敛,适用于对人脸图像进行去眼镜处理,通过向经训练的所述人脸去眼镜模型馈入原始人脸图像,便可获得去除眼镜后的绩效人脸图像。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为适于部署本申请的技术方案的一种网络架构的原理示意图;;
图2为本申请的人脸去眼镜模型参与训练的系统架构示意图;
图3为本申请人脸去眼镜模型训练方法的流程示意图;
图4为图3中步骤S1100具体实现所形成的流程示意图;
图5为本申请所采用的基于U-net架构的子模型的工作流程示意图;
图6为本申请的鉴别器被训练时的工作流程示意图;
图7为本申请的鉴别器用于监督生成器训练时的工作流程图;
图8为本申请的人脸去眼镜模型训练方法的流程示意图;
图9为本申请的人脸去眼镜模型训练装置的基本结构示意图;
图10为本申请的人脸去眼镜模型应用装置的基本结构示意图;
图11为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称的服务器80部署在云端,主要用于部署本申请的生成对抗模型,其仅为逻辑概念上的服务器,代表着用于实现该生成对抗模型或者用于实现人脸去眼镜处理服务相关的整个服务机群,通过设计应用程序开放调用接口来实现利用这一逻辑上的服务器为相关的终端设备例如图中所示的智能手机81和个人计算机82提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数据通信链路,以便启动本申请人脸去眼镜模型的训练、利用该模型进行人脸图像去除眼镜的操作等。
请参阅图2,本申请的技术方案基于图2所示的架构而实施,在该架构中,实现了一个复合了生成对抗模型与以两个U-net原理实现的人脸去眼镜模型的训练结构。
生成对抗模型(GAN:Generative Adversarial Network),是Goodfellow等在2014年提出的一种生成式模型,GAN在结构上受博弈论中的二人零和博弈(即二人的利益之和为零,一方的所得正是另一方的所失)的启发,系统由一个生成器90和一个鉴别器92构成,生成器捕捉真实数据样本的潜在分布,并生成新的数据样本;鉴别器92是一个二分类器,判别输入是真实数据还是生成的样本,生成器90和鉴别器92均可以采用深度神经网络来构造。GAN的优化过程是一个极小极大博弈问题,优化目标是达到纳什均衡,使生成器估测到数据样本的分布。
U-net网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,构成包括多个用于逐级下降规格提取局部特征的编码器的编码路径,各级编码器使用了3x3的卷积和池化下采样,能够抓住图像中的上下文信息;后面部分网络则是与前面基本对称,形成一个解码路径,该解码路径由多个用于逐级提升规格以扩大分辨率的解码器所构成,使用的是3x3反卷积层和上采样,以达到输出图像分割的目的。在每个解码器实施反卷积,会通过跳层连接接收与其同级的编码器的输入作为参考以便该解码器能在输出更高分辨率时能还原更丰富的图像信息。此外,网络中还用到了特征融合,将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息,达到更好的分割效果。
所述人脸去眼镜模型900包括第一神经网络子模型901和第二神经网络子模型902,两个子模型901、902本质均是图像分割模型,即每个子模型均以U-net架构实现,优选U2-net架构,基于coarse-to-fine思想,将两个U-net模型组建为一个统一的人脸去眼镜模型900,其中第一神经网络子模型901负责概要的图像分割,第二神经网络子模型902负责精细的图像分割,两个子模型901、902由粗到细相配合最终获得接近期望的输出结果。
所述的U-net架构,包括其后续发展的U2-net架构,或者其它适于实施图像特征分割的架构,均可用作所述的第一神经网络子模型901和第二神经网络子模型902。在一些实施方式中,所述第一神经网络子模型901和第二神经网络子模型902所采用的网络类型还能够为(不限于):卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。
本申请所采用的架构,在对所述人脸去眼镜模型900进行训练的阶段,将该人脸去眼镜模型900作为该生成器90的主要构件,用于生产与馈入的戴眼镜人脸原图61相对应的去眼镜人脸图像69。另外预备经人工预标记的无眼镜人脸图像(未图示)。去眼镜人脸图像69与无眼镜人脸图像均有人脸原图与之相对应,其中,前者由于是人脸去眼镜模型900所生产的,因此被标记为假值类型,后者由于经过人工鉴定,因此被标记为真值类型,对应得到真假两类训练样本,由此,真假两类图片数据便可被馈入至生产对抗模型的鉴别器92对其实施训练。
在多次迭代训练使鉴别器92收敛后,完成训练定型,便可反过来将鉴别器92用于训练生成器90,具体是为了训练其中的人脸去眼镜模型900,以便使该人脸去眼镜模型900不断提高其将人脸原图61去除眼镜从而得到纯净的人脸图像69的准确率,最终完成该人脸去眼镜模型900的训练,将该人脸去眼镜模型900用于人脸识别或者用于人脸图像美容修饰。
可见,基于本申请的技术方案而实现的上述网络架构,综合了U-net和GAN的优点,将两者有机整合,由U-net负责生产部分越来越趋于真实的训练样本,由GAN的鉴别器92负责提升鉴别能力相当于对U-net提出更高要求,经过多番迭代,最终达到纳什均衡,经此训练的人脸去眼镜模型便能够有效地为人脸原图去除其中的眼镜图像,达到有效输出无眼镜人脸图像的能力。
在理解上述所揭示的与本申请技术方案相关的相关应用环境和开发环境的基础上,请参阅如下说明继续了解本申请的多种实施方式。需要指出的是,本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
请结合图3,本申请的一种人脸图像识别模型训练方法,用于训练一个适于为人脸原图去除其中的眼镜图像的人脸去眼镜模型,适宜在云端部署实施,通过提供调用接口以允许外部调用其服务实现相关功能,其包括如下迭代执行的步骤:
步骤S1100、向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像:
生产对抗模型的生成器采用所述人脸去眼镜模型作为其生产工厂,而所述人脸去眼镜模型由两个基于U-net实现的子模型构成,当为其中第一个神经网络子模型馈入一张人脸原图时,第一神经网络子模型经过对人脸原图进行特征提取和分割之后,便可获得与该人脸原图相对应的去眼镜的人脸概要特征图,利用人脸概要特征图对人脸原图进行分割,可以获得一张人脸眼镜特征图,后者实质上是一张掩膜。可以理解,这时的人脸概要特征图是相对模糊的,基于Coarse-to-fine的精神,尚需经过第二神经网络子模型进行精炼处理。因此,将所述的人脸眼镜特征图、人脸概要特征图以及所述的人脸原图经concat进行通道合并之后,将其输入至第二神经网络子模型中做进一步的处理。第二神经网络子模型于是对通道合并后的多通道特征图做进一步的特征提取,最后获得更为精细的多尺度特征图,通过将这些特征图进行全连接,便可获得所述去眼镜人脸图像。可以理解,第二神经网络子模型获得的所述去眼镜人脸图像相对于第一神经网络子模型的获得的人脸概要特征图,将具有更为精细的去眼镜效果。
然而,要将一个非规则的眼镜图像的整体轮廓特征从一张人脸原图中提取出来,对于未经训练的人脸去眼镜模型而言,虽然其自身算法已经具备一定的总结能力,但在初期所得的输出结果是偏向幼稚的。因此,所述人脸去眼镜模型在初期所产生的去眼镜人脸图像的质量必然呈现参差不齐。因此,在对生产对抗模型的鉴别器进行训练的前期阶段,该人脸去眼镜模型所生成的去眼镜人脸图像将被视为假值类型的训练样本,用于为鉴别器实施训练。
可以理解,所述第一神经网络子模型与第二神经网络子模型在权重参数上是共享的,以便将其统一成同一所述的人脸去眼镜模型,因此,后续可用一个L2 Loss损失函数来进行反向传播。
步骤S1200、将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练:
在对鉴别器进行训练的阶段,根据GAN原理,需要为所述鉴别器提供两类训练样本,一类为表示真实数据的图片,另一类为表示伪数据的图片,以便鉴别器从两类图片中学习到判别图片真假的能力。
对于所述表示真实数据的图片,如前所述,采用人工识别后预标记的无眼镜人脸图像来表示真实数据,将其标记为真值类型作为训练样本,提供给鉴别器训练。
对于所述表示伪数据的图片,其由所述人脸去眼镜模型所生成输出,因此,生产对抗模型的生成器自动将其视为伪数据,将其打标为假值类型,然后将这类训练样本提供给鉴别器训练。
一个实施例中,在对鉴别器进行训练的阶段,可以人工干预或自动识别所述人脸去眼镜模型所生产的去眼镜人脸图像的实际效果,将其中被人工判断为具有较高匹配度打标归入真值类型,构成真实数据训练样本参与所述的鉴别器的训练。
对鉴别器进行训练的目的,是为了提升鉴别器判别所馈入其中的图片是有效去除了眼镜、纯净效果较佳的人脸图像,还是未能有效去除眼镜、纯净效果不佳的图像的判别能力。
鉴别器是一个相对简单的分类模型,其主要功能便在于从馈入的图片中分辨出生成器所生成的假值类型的去眼镜人脸图像和人工打标的真值类型的无眼镜人脸图像。
鉴别器在结构上通常由两部分组成,其前端部分为CNN卷积层,用于合成图进行特征提取,一般采用Resnet或者VGG网络作为其主干;后端部分为一全连接层,负责将CNN卷积层提取的特征映射到[0,1]空间实现分类,此处数值1代表真值类型,0代表假值类型。
由于鉴别器是简单的二分类模型,因此,可使用交叉熵损失函数即可满足需求,其损失函数Lossd表达式为:
Lossd=-∑TlogY
其中,T为鉴别器的模型目标,Y为模型的输出。
可以理解,为了训练鉴别器,可以多次迭代执行步骤S1100-步骤S1200,经过多次迭代训练之后,鉴别器通过不断修正自身的权重参数提高自身的识别能力,最终使函数收敛,获得判别馈入其中的图片所属真假类别的能力,本质上是判别生成器输出的去眼镜人脸图像是否接近或达到预期目标美化效果的能力。
需要指出的是,鉴别器经训练后可以为之判别的图片,虽然不局限于本申请所称的各种图片,但是,在本申请这一特定应用场景中,为解决本申请的特定问题,发挥鉴别器为生成器提供判据的作用,这里所称的鉴别器经训练后可以为之判别的图片一般是指由本申请的人脸去眼镜模型所输出的去眼镜人脸图像。
步骤S1300、利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率:
如前所述,当所述鉴别器完成训练之后,鉴别器便具备了从一张图片中识别出其是属于真值类型还是假值类型的能力,因此,鉴别器可以反过来用作对生成器进行训练的判断依据,反向指导生成器,特别是促成生成器不断优化自身的权重参数以及促成其所采用的人脸去眼镜模型不断优化自身权重参数来生产出更接近于真值类型的去眼镜人脸图像,将人脸去眼镜模型训练至收敛。
因此,可以理解,在进入对生成器进行训练的阶段中,鉴别器不再接受训练,故其权重参数被冻结而不再被修正,只是将其判断结果提供给生成器作为判断依据,反向传播修正生成器及其中的人脸去眼镜模型的相关权重参数。
对生成器训练阶段,可由本领域技术人员根据实际需要而灵活确定生成器的相关损失函数。而对于所述人脸去眼镜模型的损失函数而言,由于存在两个基于U-net实现的子模型,其中,对于第一神经网络子模型得到的人脸概要特征图Icoarse和人脸原图的眼镜区域进行基于像素的L2-pixel loss计算,对于第二神经网络子模型则基于其输出的去眼镜人脸图像Irefine和人脸原图进行全图基于像素的L2-pixel loss,所述L2-pixel loss指的是逐像素平方差之和之后,再求平均值。而在其他实施例中,本领域常用的L1 Loss也可起到相同的效果。在对生成器训练的阶段,第一神经网络子模型与第二神经网络子模型之间共享权值,在损失函数的约束下,经多轮迭代,逐渐收敛,最终使整个人脸去眼镜模型完成训练。
经过上述各个步骤,本申请的典型实施例,先训练出所述的鉴别器,然后将鉴别器用于为生成器输出的去眼镜人脸图像判别真假,为其提供判据,持续修正生成器,使其产生提供越来越接近理想效果的去眼镜人脸图像。
相应的,由于生成器采用U-net为架构的人脸去眼镜模型来实现,因此,在对生成器进行训练的过程,本质上也是对人脸去眼镜模型进行训练的过程,随着迭代训练的次数不断增加,这一过程使得人脸去眼镜模型生成越来越接近理想效果的去眼镜人脸图像。
更值得一提的是,由于人脸去眼镜模型在生成对抗模型的支持下被训练,其分割出的去眼镜人脸图像一方面能够被鉴别器高效验证,另一方面又为生成对抗模型生成有代表性的样本,生成对抗模型的博弈机制又反过来帮助人脸去眼镜模型不断提升自身制备去眼镜人脸图像的准确率,相辅相成,两相益彰。
由此可以理解,按照本申请的技术方案实施的训练过程,仅需采用少量的表示真实数据的无眼镜人脸图像作为真实数据训练样本素材,便可训练出一个基于U-net的人脸去眼镜模型。
在本申请人的实测中,只要给出少量的分布足够稀疏的样本,就可以训练出一个基于U-net和coarse-to-fine思想实现的人脸去眼镜模型。如果在训练鉴别器的过程中适度人工干预,比如在迭代过程中将该人脸去眼镜模型所生产的一部分匹配效果比较好的去眼镜人脸图像打标为真值类型的训练样本,则会大大提高整个架构相关模型尤其是该人脸去眼镜模型的收敛速度和鲁棒性。
因此可见,本申请提出的架构,不断接近人类智能,仅需少量的训练样本,便能使神经网络架构总结归纳出相关的规律,大大提升其学习效率和应用能力。
在本申请的人脸去眼镜模型训练方法的典型实施例的基础上,还可以变换出多种灵活实现或者不断深化的实施例,如下继续揭示其他实施例:
部分实施例中,对步骤S1100进行深化,在该步骤中,如图4所示,包括:
步骤S1110、向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合:
所述第一神经网络子模型采用U-net架构实现,以此为例,当人脸原图被馈入该子模型时,可先采用诸如预训练的VGG-16之类的网络对其进行中间特征提取,以获得其多通道特征图作为中间特征映射,用于后续过程中进行局部特征提取。一种实施例中,可用VGG-16的前五个卷积层进行,其卷积核可用3x3规格。
在此基础上经过U-net的编码路径的各级编码器进行卷积,实施多尺度特征提取逐步升高特征语义之后,再进入相对应的解码路径的级解码器进行反卷积,逐级放大还原出更高分辨率的特征图,在各级解码器还原更高分辨率的特征图时,会通过跳层连接引用其对应级的编码器所引用的前一级的特征图作为参照,最终,由解码路径的各级解码器所产生的特征图便构成所述的特征图集合。
步骤S1120、从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图:
经过各级解码器获得的多个特征图中,通过进行融合,可获得一张去眼镜人脸特征图,该去眼镜人脸特征图实际上是比较粗糙的一张人脸概要特征图,利用该人脸概要特征图对所述人脸原图进行图像分割,便可获得其眼镜掩膜特征图。
步骤S1130、将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图:
为了将第一神经网络子模型的输出转换为第二神经网络子模型的输入,需要将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并,其中,去眼镜人脸特征图和人脸原图各占3个通道,而眼镜掩膜特征图只占1个通道,因此,经通道合并后可生成一个7通道的特征图。
需要指出的是,此处进行通道合并时,予以关联相关受所述第二神经网络子模型的L2-pixel loss损失函数约束的权重参数,以便在第二神经网络子模型被训练阶段时进行反向传播。
步骤S1140、将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合:
同理,第二神经网络子模型也采用U-net架构实现,由于已经为其直接提供了一张7通道的多通道特征图,因此,无需在U-net前端设置额外的模型或卷积层对其输入的图进行额外的中间特征提取,而只需按照第一神经网络子模型中所述的过程,直接将所述多通道特征图作为中间特征映射馈入U-net经其编码路径和解码路径进行同理的局部特征提取和分辨率扩增即可,最终获得的多尺度的特征图便构成所述的特征图集合。
步骤S1150、融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像:
最后,将所述特征图集合中的多尺度特征图馈入全连接层进行融合,便可获得所述的去眼镜人脸图像。可以理解,这一去眼镜人脸图像相较于第一神经网络子模型输出的人脸概要特征图而言,具有更精细的去眼镜效果,而且,在L2-pixel loss的制约下,经过多次迭代训练,整个人脸去眼镜模型最终收敛,第二神经网络子模型输出的去眼镜人脸图像便能取得理想的去眼镜图像的效果。
尽管U-net、U2-net的基本原理已经公知,为便于对本申请技术方案的理解,此处继续结合本申请的部分实施例,就所述第一神经网络子模型、第二神经网络子模型共有部分的模型结构及功能用于本申请中提取特征图集合的过程做概略介绍如下,如图5所示,其过程具体包括:
步骤S1101、获得其所接收的输入的中间特征映射:
对于所述第一神经网络子模型而言,其所获得的人脸原图的中间特征映射,如前所述,可以使用VGG-16的卷积部分,用3x3的卷积核进行过滤获得。而对于所述第二神经网络子模型而言,由于其直接获得第一神经网络子模型的输出,获得一个多通道特征图作为所述的中间特征映射,因此,无需再独立设置用于提取中间特征映射的卷积部分。
步骤S1102、将所述中间特征映射经其编码路径中的多个编码器逐步压缩提取多尺度特征:
所述中间特征映射进入所述编码路径的各个编码器后,由每个编码器对输入其中的特征图进行卷积和池化处理,逐级降采样获得尺寸渐小的特征图,最终在最后一个编码器的输出中获得尺寸最小但具有最高语义的特征图,编码路径在多个尺度上提取特征,获得所述的多尺度特征。
步骤S1103、以所述多尺度特征为馈入特征,经其解码路径中的多个解码器逐步解码,逐级还原为更高分辨率的特征图,其中,每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原:
所述的多尺度特征进入被馈入解码路径中,解码路径以其多个解码器实施反卷积操作对缩小后的特征图进行插值处理,插值处理的过程中同时通过跳层连接提取与该解码器同级的编码器的输入特征图作为参考,以便还原出输出更高分辨率的特征图。
步骤S1104、将解码器的所有输出构成所述的特征图集合:
经过所述编码路径的降采样和解码路径的下采样之后,便获得了多个尺度的特征图,然而,通过全连接层对这一过程所产生的特征图进行融合叠加,融合叠加的过程就是对卷积和反卷积特征图进行加权得到一个融合后的去眼镜人脸图像的过程。
两个子模型的内部工作机理均相同,不同的是,在所述第一神经网络子模型中,其获得去眼镜人脸图像由于较为粗糙实际上被视为所述的人脸概要特征图,然后用该图进一步分割获得相应的眼镜掩膜特征图,最终引用所述人脸原图作为参考还可合并成所述的多通道特征图;在所述第二神经网络子模型中,其获得的去眼镜人脸图像已经较为精细,因此被直接作为最张结果输出。
由于以U-net为基础的模型,特别是以U2-net为基础的模型,其用于图像分割的优势明显,因此,采用此类模型将更有助于产出更完美的去眼镜人脸图像。
部分实施例中,主要深化生成对抗模型中的鉴别器在其训练过程中的运作,通过优化这一过程,确保生成对抗模型与U-net的有效协作。步骤S1200中,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练的步骤,请参阅图6,包括:
步骤S1210、对馈入的每种类型的图像进行特征提取:
结合前文,鉴别器是一个简单的分类模型,其先通过一个卷积层对所述合成图进行特征提取之后,获得相关特征映射。这里所称的每称类型,是指鉴别器训练所需的人工预标记的真值类型与所述生产器输出的,也即所述人脸去眼镜模型产出的人脸图像所属的假值类型。鉴别器通过卷积层对馈入其中的每种类型的图像进行必要的特征提取,以便进行后续的判别。
步骤S1220、依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果:
前一步骤获得的特征映射再经过一个全连接层处理,将其映射到[0,1]空间中,从而获得相应的判别结果。
步骤S1230、根据判别结果反向传播修正其自身所使用的权重参数:
鉴别器在其自身的损失函数的约束下进行反向传播,根据其分类判别结果关联性地修改其各相关共享权重参数,使其经过多次迭代之后,被训练至收敛。
本申请的又一实施例中,主要是进一步深化揭示所述鉴别器在训练完成后,在参与生成器的训练的过程中的表现。在步骤S1300中,鉴别器不再被训练,而是反过来为生成器的训练提供判断依据,因此,在利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型的步骤中,如图7所示,其包括:
步骤S1310、对馈入的每种类型的图像进行特征提取;
同理,鉴别器在被用于提供判据的阶段,对生成器馈入的图像先进行特征提取,以便依据所提取的特征进行判别。
步骤S1320、依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果:
鉴别器获取所提取的特征后,馈入全连接层进行全连接实现分类,最终判别所馈入的图像是真值类型还是假值类型。
步骤S1330、冻结对其自身所使用的权重参数的修正:
需要特别指出的是,由于鉴别器理论上已经被训练至收敛状态,因此其享有为生成器提供判决依据的权威,并且需要确保这种权威的稳定性,因此,本步骤中,鉴别器自身的权重参数被冻结,不再参与反向传播过程的修正。
步骤S1340、向生成对抗模型的生成器反向传播,修正该生成器的相关权重参数,以提升其所输出的人脸去眼镜图像的准确率:
所述生成器由于正在被训练,因此,根据所述鉴别器对由生成器提供的图像的判别结果,生成器内部将根据自身损失函数进行反向传播,从而修正该生成器自身的相关权重参数,提升其所输出的人脸去眼镜图像的准确率。此处,有关生成器自身的损失函数,可由本领域技术人员灵活确定。
步骤S1350、在所述人脸去眼镜模型内进行反向传播,以修正其相关权重参数,以提升其所生成的人脸去眼镜图像的准确率:
同理,在所述人脸去眼镜模型内,也将根据所述鉴别器的判决依据而在其自身的权重参数的制约下进行反向传播,实现权重更新。特别是,第二神经网络子模型中,在所述L2-pixel loss的制约下,逐像素计算提供给第二神经网络子模型的多通道特征图与最终输出的去眼镜人脸特征图之间的平方差之后求和,然后再求均值。在每次迭代训练生成器的过程中,同步对人脸去眼镜模型的各个子模型进行训练,因此,第二神经网络子模型在其损失函数的制约下,当其所求均值大于对应的预设阈值时,便调用回传函数实施对相关权重参数的校正,通过多次这样的修正使人脸去眼镜模型所输出的无眼镜人脸图像越来越接近理想结果。而当所求均值小于等于预设阈值时,可无需修正权重参数,继续下一张训练样本的训练。反向传播也发生在第一神经网络子模型的路径中,本领域技术人员同理可以理解。当多个迭代训练之后,继续训练时,反复多次输出的去眼镜人脸图像在该损失函数的作用下求得的均值均小于所述预设阈值,即可视为将所述人脸去眼镜模型训练至收敛状态,而将其投入实际应用。
需要指出的是,以上揭示本申请的诸多实施例,彼此之间可以任意结合或单独实施,或者基于本申请的创造精神而与其他同类技术或者同理技术等同替换。例如,基于U-net的不断升级的网络结构,理论上也可被用于本申请中替换所述的子模型。本领域技术人员对此应当知晓。
本申请还提供一种人脸去眼镜模型应用方法,其主要是利用本申请提出的人脸去眼镜模型,在其被本申请的人脸去眼镜模型训练方法的任意各种实施例训练至收敛的基础上,做进一步的应用。请参阅图8,具体而言,其包括如下步骤:
步骤S2100:将经姿态矫正的人脸图像馈入预训练的人脸去眼镜模型中,获得该模型输出的去眼镜人脸图像:
在将需要去除眼镜图像的人脸图像馈入所述的人脸去眼镜模型之前,先对其进行姿态矫正,有助于确保模型去眼镜效果。
将矫正好姿态好的人脸图像直接馈入所述的人脸去眼镜模型中,便可获得其输出的去眼镜人脸图像,不同于现有技术,本步骤中,从输入人脸图像到获得其去眼镜人脸图像的全过程,无需再利用第三方工具或模型对人脸图像进行特征提取。
步骤S2200:调用预设接口对该去眼镜人脸图像进行人脸识别,获得识别结果:
基于不同的应用,可以调用不同的预设接口,对所述去眼镜人脸图像进行人脸识别,从而获得是否属于合法用户的识别结果。
例如,在基于人脸的身份验证应用场景中,启动摄像头捕捉用户人脸图像后,如果用户恰巧佩戴眼镜,可能影响识别效果,通过先将此一图像帧传入所述的人脸去眼镜模型进行去眼镜图像处理,获得纯净的人脸图像,再在后台传送给用于识别用户身份的预设接口,这时,与预设接口关联的鉴别程序便可依据更为绩效的人脸图像对用户身份进行识别,在纯净的人脸图像的基础上更高效地判别用户身份,输出识别结果。
步骤S2300:依据该识别结果开放或关闭特定权限:
视具体应用需求的不同,可以依据所述的识别结果开放或关闭不同的特定权限。例如,在线支付场景中,当该识别结果表征鉴别用户身份通过后,便可允许登录、支付等;在家居安防场景中,当该识别结果表征鉴别用户身份通过后,可以为其开户门锁;在移动终端设备的锁屏界面中,当该识别结果表征鉴别用户身份通过后,便可允许其进入系统主界面;再如,在视频直播领域,在视频帧的基础上,将各视频帧输入经本申请训练至收敛的人脸去眼镜模型中去除用户佩戴的眼镜,可以实现对用户进行视频美化。当然,如果识别结果表征鉴权不能通过,则可以关闭相关权限,或者置诸不理而无响应等。诸如此类,可由本领域技术人员灵活应用。
其中,步骤S2100可以包括如下步骤:向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
其中,所述人脸去眼镜模型经如下步骤实施预训练:向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
可见,本申请进一步拓宽了所述人脸去眼镜识别模型的应用场景,扩展了本申请解决不同技术领域的同类技术难题的能力,夯实了本申请技术方案的经济贡献能力。
本申请可以通过实现了前述的方法的各个实施例的应用程序在计算机中的运行来构造一个相应的装置,具体请参阅图9,其为本实施例人脸去眼镜模型训练装置基本结构示意图。
如图9所示,一种人脸去眼镜模型训练/应用装置,包括:图像生产模块1100、鉴别训练模块1200、模型训练模块1300。其中,图像生产模块1100,用于向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;鉴别训练模块1200,用于将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;模型训练模块1300,用于利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
所述的图像生产模块1100包括:第一提取子模块,用于向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;第一输出子模块,用于从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;通道合并子模块,用于将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;第二提取子模块,用于将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;第二输出子模块,用于融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
所述鉴别训练模块1200包括:第一输入子模块,用于对馈入的每种类型的图像进行特征提取;第一分类子模块,用于依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果;第一修正子模块,用于根据判别结果反向传播修正其自身所使用的权重参数。
所述模型训练模块1300包括:第二输入子模块,用于对馈入的每种类型的图像进行特征提取;第二分类子模块,用于依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果;状态控制子模块,用于冻结对其自身所使用的权重参数的修正;第二修正子模块,用于向生成对抗模型的生成器反向传播,修正该生成器的相关权重参数,以提升其所输出的人脸去眼镜图像的准确率;关联修正子模块,用于在所述人脸去眼镜模型内进行反向传播,以修正其相关权重参数,以提升其所生成的人脸去眼镜图像的准确率。
本发明的人脸去眼镜模型训练装置具有与本发明的人脸去眼镜模型训练方法相同的有益效果。
本申请可以通过实现了前述的方法的各个实施例的应用程序在计算机中的运行来构造一个相应的装置,具体请参阅图10,其为本实施例人脸去眼镜模型应用装置基本结构示意图。
本申请提供一种人脸去眼镜模型应用装置,如图10所示,其包括:人脸还原模块2100、人脸识别模块2200、权限验证模块2300。其中,所述人脸还原模块,用于将经姿态矫正的人脸图像馈入预训练的人脸去眼镜模型中,获得该模型输出的去眼镜人脸图像;所述人脸识别模块,用于调用预设接口对该去眼镜人脸图像进行人脸识别,获得识别结果;所述权限验证模块,用于依据该识别结果开放或关闭特定权限。
其中,所述人脸还原模块包括:第一提取子模块,用于向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;第一输出子模块,用于从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;通道合并子模块,用于将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;第二提取子模块,用于将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;第二输出子模块,用于融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
本发明的人脸去眼镜模型应用装置具有与本发明的人脸去眼镜模型应用方法相同的有益效果。
为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述人脸去眼镜模型训练/应用方法所实现的计算机程序。具体请参阅图11,图11为本实施例计算机设备基本结构框图。
如图11所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种人脸去眼镜模型训练/应用方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种人脸去眼镜模型训练/应用方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行本发明的人脸去眼镜模型训练/应用装置的各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸去眼镜模型训练/应用装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种非易失性存储介质,所述的人脸去眼镜模型训练/应用方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例人脸去眼镜模型训练/应用方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能以少量样本训练出适于人脸去眼镜模型,能够高效精准地为人脸图像去除其中的眼镜图像,具有宽广的应用前景。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种人脸去眼镜模型训练方法,其特征在于,包括如下步骤:
向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;
将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;
利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
2.根据权利要求1所述的人脸去眼镜模型训练方法,其特征在于,向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像的步骤,包括:
向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;
从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;
将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;
将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;
融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
3.根据权利要求2所述的人脸去眼镜模型方法,其特征在于,所述第一神经网络子模型/第二神经网络子模型提取特征图集合的过程,包括:
获得其所接收的输入的中间特征映射;
将所述中间特征映射经其编码路径中的多个编码器逐步压缩提取多尺度特征;
以所述多尺度特征为馈入特征,经其解码路径中的多个解码器逐步解码,逐级还原为更高分辨率的特征图,其中,每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原;
将解码器的所有输出构成所述的特征图集合。
4.根据权利要求1所述的人脸去眼镜模型训练方法,其特征在于,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练的步骤,包括:
对馈入的每种类型的图像进行特征提取;
依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果;
根据判别结果反向传播修正其自身所使用的权重参数。
5.根据权利要求1所述的人脸去眼镜模型训练方法,其特征在于,利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型的步骤,包括:
对馈入的每种类型的图像进行特征提取;
依据所提取的特征对该图像进行分类判别,获得对应的真值和假值判别结果;
冻结对其自身所使用的权重参数的修正;
向生成对抗模型的生成器反向传播,修正该生成器的相关权重参数,以提升其所输出的人脸去眼镜图像的准确率;
在所述人脸去眼镜模型内进行反向传播,以修正其相关权重参数,以提升其所生成的人脸去眼镜图像的准确率。
6.一种人脸去眼镜模型应用方法,其特征在于,包括如下步骤:
将经姿态矫正的人脸图像馈入预训练的人脸去眼镜模型中,获得该模型输出的去眼镜人脸图像;
调用预设接口对该去眼镜人脸图像进行人脸识别,获得识别结果;
依据该识别结果开放或关闭特定权限;
其中,将经姿态矫正的人脸图像馈入预训练的人脸去眼镜模型的过程,包括如下步骤:
向所述人脸去眼镜模型中的第一神经网络子模型馈入所述人脸原图,经其进行图像特征提取后,获得该人脸原图所含的特征图集合;
从所述特征图集合中融合出该人脸原图的去眼镜人脸特征图,利用该去眼镜人脸特征图分割所述人脸原图获得眼镜掩膜特征图;
将所述眼镜掩膜特征图、去眼镜人脸特征图以及所述人脸原图进行通道合并成多通道特征图;
将所述多通道特征图馈入所述人脸去眼镜模型中的第二神经网络子模型,经其进行图像特征提取后,获得该多通道特征图所含的特征图集合;
融合所述特征图集合中的各个特征图,生成该人脸原图相对应的所述去眼镜人脸图像。
7.根据权利要求6所述的人脸去眼镜模型应用方法,其特征在于,所述人脸去眼镜模型经如下步骤实施预训练:
向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;
将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;
利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
8.一种人脸去眼镜模型训练装置,其特征在于,包括:
图像生产模块,用于向作为生成对抗模型的生成器的被训练的人脸去眼镜模型馈入包含眼镜图像的人脸原图,获得由其生成的去眼镜人脸图像;
鉴别训练模块,用于将该人脸去眼镜模型输出的去眼镜人脸图像作为假值类型,将为该人脸原图预备的无眼镜人脸图像作为真值类型,将该两种类型的人脸图像馈入该生成对抗模型的鉴别器实施训练;
模型训练模块,用于利用完成训练的鉴别器作为该生成器输出的去眼镜人脸图像的真假类别判别依据,训练该生成器所采用的人脸去眼镜模型,使其提升从人脸原图中还原出去眼镜人脸图像的准确率。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述方法的步骤。
CN202011630413.XA 2020-12-30 2020-12-30 人脸去眼镜模型训练、应用方法及其装置、设备和介质 Pending CN112633234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011630413.XA CN112633234A (zh) 2020-12-30 2020-12-30 人脸去眼镜模型训练、应用方法及其装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011630413.XA CN112633234A (zh) 2020-12-30 2020-12-30 人脸去眼镜模型训练、应用方法及其装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112633234A true CN112633234A (zh) 2021-04-09

Family

ID=75290319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011630413.XA Pending CN112633234A (zh) 2020-12-30 2020-12-30 人脸去眼镜模型训练、应用方法及其装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112633234A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012178A (zh) * 2021-05-07 2021-06-22 西安智诊智能科技有限公司 一种肾脏肿瘤图像分割方法
CN113420665A (zh) * 2021-06-23 2021-09-21 平安国际智慧城市科技股份有限公司 对抗人脸图像生成、人脸识别模型训练方法、装置及设备
CN114495222A (zh) * 2022-01-20 2022-05-13 杭州登虹科技有限公司 图像处理模型的构建方法与系统、图像处理方法及系统
WO2023105800A1 (en) * 2021-12-10 2023-06-15 Hitachi, Ltd. Object detection device, object detection method, and object detection system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012178A (zh) * 2021-05-07 2021-06-22 西安智诊智能科技有限公司 一种肾脏肿瘤图像分割方法
CN113420665A (zh) * 2021-06-23 2021-09-21 平安国际智慧城市科技股份有限公司 对抗人脸图像生成、人脸识别模型训练方法、装置及设备
CN113420665B (zh) * 2021-06-23 2024-05-07 平安国际智慧城市科技股份有限公司 对抗人脸图像生成、人脸识别模型训练方法、装置及设备
WO2023105800A1 (en) * 2021-12-10 2023-06-15 Hitachi, Ltd. Object detection device, object detection method, and object detection system
CN114495222A (zh) * 2022-01-20 2022-05-13 杭州登虹科技有限公司 图像处理模型的构建方法与系统、图像处理方法及系统

Similar Documents

Publication Publication Date Title
CN109815928B (zh) 一种基于对抗学习的人脸图像合成方法和装置
Li et al. Single image dehazing via conditional generative adversarial network
CN112633234A (zh) 人脸去眼镜模型训练、应用方法及其装置、设备和介质
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN111783566B (zh) 一种基于唇语同步和神态适配效果增强的视频合成方法
CN110084734B (zh) 一种基于物体局部生成对抗网络的大数据权属保护方法
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
Hu et al. Underwater image restoration based on convolutional neural network
CN114511576B (zh) 尺度自适应特征增强深度神经网络的图像分割方法与系统
CN115439857B (zh) 一种基于复杂背景图像的倾斜字符识别方法
CN112241939B (zh) 一种基于多尺度和非局部的轻量去雨方法
CN114255474A (zh) 一种基于多尺度、多粒度行人重识别方法
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN114627269A (zh) 一种基于深度学习目标检测的虚拟现实安防监控平台
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
CN116453232A (zh) 人脸活体检测方法、人脸活体检测模型的训练方法和装置
CN112950505B (zh) 一种基于生成对抗网络的图像处理方法、系统和介质
CN114155165A (zh) 一种基于半监督的图像去雾方法
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN113554047A (zh) 图像处理模型的训练方法、图像处理方法及对应的装置
CN116703750A (zh) 基于边缘注意力和多阶微分损失的图像去雾方法及系统
CN115966006A (zh) 基于深度学习模型的跨年龄式人脸识别系统
WO2022252372A1 (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
Zeng et al. Swin-CasUNet: cascaded U-Net with Swin Transformer for masked face restoration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination