CN110070487A

CN110070487A - 基于深度强化学习的语义重构人脸超分方法及装置

Info

Publication number: CN110070487A
Application number: CN201910265191.7A
Authority: CN
Inventors: 鲁继文; 周杰; 袁博; 程晓娟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-07-30
Anticipated expiration: 2039-04-02
Also published as: CN110070487B

Abstract

本发明公开了一种基于深度强化学习的语义重构人脸超分方法及装置，其中，方法包括以下步骤：通过卷积神经网络对待重构人脸图像进行像素级约束，以得到人脸图像整体结构信息；利用深度强化学习从人脸图像整体结构信息中选取多个待修复人脸区域；通过增强网络对多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域；通过人脸识别网络和双向一致性网络对多个修复后的人脸区域进行人脸的类别语义信息和人脸的表观信息的约束，以得到待重构人脸图像的人脸重构结果。该方法利用深度强化学习使得生成的高清人脸既恢复丰富的表观信息也保留人脸的语义信息，从而可以有效提高人脸超分的性能和精确度。

Description

基于深度强化学习的语义重构人脸超分方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于深度强化学习的语义重构人脸超分方法及装置。

背景技术

近年来，人脸超分在计算机视觉领域得到了广泛关注。人脸超分旨在将低分辨率的人脸图像重构出高清图像，并且对于进一步的人脸检测，人脸对齐和人脸识别等任务中起着重要的作用。通常，低分辨率的人脸图像包含很少的信息量，人脸超分需要利用有限的信息恢复出高清晰的人脸并且还原尽可能多的人脸特性。尽管在人脸超分领域有很多研究工作，但是开发出同时重构出人脸的表观信息和语义信息的算法仍然是非常具有挑战性的任务。

现有的大部分人脸超分的工作主要集中于恢复人脸表观信息。为帮助重构出更多人脸特性，很多研究工作借助于先验信息，如人脸的关键点特征，人脸属性以及人脸解析等信息使得生成的人脸尽可能恢复高清的表观信息。相关技术包括：(1)设计两个卷积神经网络，同时优化两个互补的任务，即人脸超分与高密度场估计，使得生成的高清人脸与真实高清图片分别在像素级别与高密度响应方面接近。(2)利用人脸关键点的信息辅助生成高分辨率人脸。两个工作利用生成对抗网络同时保证人脸关键点检测与人脸超分任务共同完成。(3)考虑到对于低分辨率人脸图像比较模糊，对关键点的检测存在一定困难，为此首先设计一个粗超分网络结构，先将低分率人脸超分到稍微高清些的人脸，然后同时借助于人脸关键点以及人脸解析使得生成的高清人脸恢复人脸的结构信息。(4)挖掘人脸属性信息辅助生成高清人脸图像。网络通过融合真实高清人脸图像属性信息使得生成的高清人脸可以保留原有属性。(5)另外，利用深度强化学习选择一系列的人脸区域块通过约束像素级信息重构出高清人脸。虽然现有方法利用先验信息对实现人脸超分起着重要作用，但是这些信息只是辅助生成的高清人脸在表观信息上更加接近真实图像。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度强化学习的语义重构人脸超分方法，该方法可以有效提高人脸超分的性能，约束表观信息和语义信息，提高人脸超分的精确度。

本发明的另一个目的在于提出一种基于深度强化学习的语义重构人脸超分装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度强化学习的语义重构人脸超分方法，包括以下步骤：通过卷积神经网络对待重构人脸图像进行像素级约束，以得到人脸图像整体结构信息；利用深度强化学习从所述人脸图像整体结构信息中选取多个待修复人脸区域；通过增强网络对所述多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域；通过人脸识别网络和双向一致性网络对所述多个修复后的人脸区域进行人脸的类别语义信息和人脸的表观信息的约束，以得到所述待重构人脸图像的人脸重构结果。

本发明实施例的基于深度强化学习的语义重构人脸超分方法，通过设计卷积网络约束像素级的人脸信息，生成稍微高清的人脸图像，该网络可以重构出人脸整体的结构信息，为了进一步重构精确的人脸图像，利用深度强化学习选取一系列的人脸区域块修复人脸的细节信息，在修复细节进程中，引入人脸识别网络以及双向一致性网络约束生成的高清人脸既能保留丰富的表观信息又能恢复语义信息，从而可以有效提高人脸超分的性能，约束表观信息和语义信息，提高人脸超分的精确度。

另外，根据本发明上述实施例的基于深度强化学习的语义重构人脸超分方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，其中，所述通过卷积神经网络对待重构人脸图像进行像素级约束的约束公式为：

其中，L为约束函数，N为训练集图像数量，是网络重构的整体结构的人脸，y_i是真实人脸图像。

进一步地，在本发明的一个实施例中，所述通过增强网络对所述多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域，进一步包括：通过融合待修复人脸区域信息和当前增强图像信息对所述待修复人脸区域进行逐步修复修复后的人脸区域。

进一步地，在本发明的一个实施例中，在得到所述修复后的人脸区域之后，还包括：将所述待修复人脸区域替换为所述修复后的人脸区域，且所述修复后的人脸区域为下一时刻增强图像。

进一步地，在本发明的一个实施例中，其中，

通过所述人脸识别网络对所述多个修复后的人脸区域进行人脸的类别语义信息的约束，约束的公式为：

其中，表示重构的人脸，y表示真实人脸图像，φ(·)表示人脸识别网络所提取的特征，l_p用来约束特征空间的相似性，l_id是spherefaceloss函数，用来约束重构人脸与真实人脸的身份一致性。

通过所述双向一致性网络对所述多个修复后的人脸区域进行人脸的表观信息的约束，其中，约束公式为：

其中，表示重构的人脸，y表示真实人脸图像，l_mse表示像素级的最小方差，l_tex约束纹理信息的相似性。

为达到上述目的，本发明另一方面实施例提出了一种基于深度强化学习的语义重构人脸超分装置，包括：约束模块，用于通过卷积神经网络对待重构人脸图像进行像素级约束，以得到人脸图像整体结构信息；选取模块，用于利用深度强化学习从所述人脸图像整体结构信息中选取多个待修复人脸区域；修复模块，用于通过增强网络对所述多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域；重构模块，用于通过人脸识别网络和双向一致性网络对所述多个修复后的人脸区域进行人脸的类别语义信息和人脸的表观信息的约束，以得到所述待重构人脸图像的人脸重构结果。

本发明实施例的基于深度强化学习的语义重构人脸超分装置，通过设计卷积网络约束像素级的人脸信息，生成稍微高清的人脸图像，该网络可以重构出人脸整体的结构信息，为了进一步重构精确的人脸图像，利用深度强化学习选取一系列的人脸区域块修复人脸的细节信息，在修复细节进程中，引入人脸识别网络以及双向一致性网络约束生成的高清人脸既能保留丰富的表观信息又能恢复语义信息，从而可以有效提高人脸超分的性能，约束表观信息和语义信息，提高人脸超分的精确度。

另外，根据本发明上述实施例的基于深度强化学习的语义重构人脸超分装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述修复模块进一步用于通过融合待修复人脸区域信息和当前增强图像信息对所述待修复人脸区域进行逐步修复修复后的人脸区域。

进一步地，在本发明的一个实施例中，还包括：替换模块，用于在得到所述修复后的人脸区域之后，将所述待修复人脸区域替换为所述修复后的人脸区域，且所述修复后的人脸区域为下一时刻增强图像。

进一步地，在本发明的一个实施例中，其中，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度强化学习的语义重构人脸超分方法的流程图；

图2为根据本发明一个具体实施例的基于深度强化学习的语义重构人脸超分方法的流程图；

图3为根据本发明一个实施例的构造低频网络生成粗略高清人脸的流程图

图4为根据本发明一个实施例的通过策略网络选择需要进行面部区域修复的流程图；

图5为根据本发明一个实施例的通过增强网络修复由策略网络所选出的面部区域的流程图；

图6为根据本发明一个实施例的基于深度强化学习的语义重构人脸超分方法的整体效果示意图；

图7为根据本发明一个实施例的于深度强化学习的语义重构人脸超分装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度强化学习的语义重构人脸超分方法及装置，首先将参照附图描述根据本发明实施例提出的基于深度强化学习的语义重构人脸超分方法。

图1是本发明一个实施例的基于深度强化学习的语义重构人脸超分方法的流程图。

如图1所示，该基于深度强化学习的语义重构人脸超分方法包括以下步骤：

在步骤S101中，通过卷积神经网络对待重构人脸图像进行像素级约束，以得到人脸图像整体结构信息。

可以理解的是，如图2所示，本发明实施例设计卷积神经网络在像素级约束生成的稍微高清人脸重构整体的人脸结构，具体地，首先通过像素级的约束保证生成的高清人脸恢复真实人脸的结构信息，从而可以利用网络生成较为清晰的人脸图像，增强人脸的表观信息。

在本发明的一个实施例中，其中，通过卷积神经网络对待重构人脸图像进行像素级约束的约束公式为：

具体而言，如图3所示，构造低频网络，生成粗略高清人脸，具体为：

首先利用hourglass的网络结构以低分率人脸图像x作为输入，通过约束生成的高清图像与真实高清图像y在像素级上的信息，生成粗略的高清人脸。Hourglass的低频网络结构使得生成的高清图像重构了人脸的整体结构信息。如下所示：

进一步地，本发明实施例构造高频语义网络，修复人脸细节。通过低频网络获得人脸整体结构信息，我们进一步设计高频语义网络以低频网络的输出图像作为输入信息修复人脸细节信息。高频语义网络利用深度强化学习通过设计策略网络，增强网络，人脸识别网络以及双向一致性网络来实现。策略网络自动选择一系列人脸区域块，同时增强网络对所选取的区域块进行信息增强，生成更加高清的人脸。人脸识别网络提供约束条件使得生成的高清图像可以保留人脸的类别语义信息。另外，双向一致性网络进一步约束人脸的表观信息，保证生成的高清图像与真实图像的相似并且保证生成的高清图像采样生成的低清图像与输入的低分辨率图像相似。

在步骤S102中，利用深度强化学习从人脸图像整体结构信息中选取多个待修复人脸区域。

具体而言，如图4所示，设计策略网络。策略网络提供哪个面部区域应该被修复。选取面部区域的过程可以通过强化学习来实现。正如图4介绍的策略网络。在每个时间步骤t，策略控制器以当前状态s_t为条件输出行为a_t选取下一时刻人脸区域p_t+1。通过增强网络R修复所选区域最大化奖励r_t。我们定义状态s_t，行为a_t和奖励r。第t个时间步骤，状态s_t包含两个部分I_t和c_t，其中I_t表示通过之前t-1步所增强的人脸图像，c_t表示t-1时刻所选的行为特征，为避免重复选取相同动作。行为a_t是所选区域所出现的位置l_t＝{(x_i,y_i),x_i∈[1,W],y_i∈[1,H]}，W和H分别表示图像的宽度和高度。策略网络输出W×H维的向量，表示下一时刻区域的位置。奖励r包括短时奖励r_s和长时奖励r_l，如下所示：

其中r_t是每个时间步骤所获奖励，T表示时间步骤的数量。

其中x，y分别表示低分辨率图像和生成的高清图像，表示真实的高清人脸图像。

r_l＝-(l_p+l_id+l_v)

在步骤S103中，通过增强网络对多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域。

可以理解的是，如图2所示，本发明实施例为更精确的修复人脸的细节信息，利用深度强化学习选择一系列的人脸区域块逐步重构高清人脸。具体地，本发明实施例利用深度强化学习自动选择一系列人脸区域逐步修复人脸细节信息，从而可以进一步对较为高清的人脸图像进行修复，不止在整体表观信息而且在局部信息保证重构的精确度。

进一步地，在本发明的一个实施例中，通过增强网络对多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域，进一步包括：通过融合待修复人脸区域信息和当前增强图像信息对待修复人脸区域进行逐步修复修复后的人脸区域。其中，在本发明的一个实施例中，在得到修复后的人脸区域之后，还包括：将待修复人脸区域替换为修复后的人脸区域，且修复后的人脸区域为下一时刻增强图像。

具体而言，如图5所示，设计增强网络。本发明实施例设计增强网络去修复有策略网络所选出的面部区域。增强网络的输入包括当前增强的图像I_t-1和所选取的区域p_t，通过融合两部分的信息，输出高清的面部区域。然后将生成的高清面部区域取代所选取的区域p_t得到下一时刻增强的人脸图像I_t。

在步骤S104中，通过人脸识别网络和双向一致性网络对多个修复后的人脸区域进行人脸的类别语义信息和人脸的表观信息的约束，以得到待重构人脸图像的人脸重构结果。

可以理解的是，如图2所示，在修复细节进程中，本发明实施例引入人脸识别网络以及双向一致性网络使得生成的高清人脸既保留语义信息也恢复表观特征。具体地，通过引入人脸类别网络和双向一致性网络，约束生成的高清人脸可以重构出人脸类别的语义信息以及更高清的表观信息，从而可以提高人脸的表观以及语义信息。

其中，在本发明的一个实施例中，通过人脸识别网络对多个修复后的人脸区域进行人脸的类别语义信息的约束，约束的公式为：

其中，表示重构的人脸，y表示真实人脸图像，φ(·)表示人脸识别网络所提取的特征，l_p用来约束特征空间的相似性。l_id是spherefaceloss函数，用来约束重构人脸与真实人脸的身份一致性。

通过双向一致性网络对多个修复后的人脸区域进行人脸的表观信息的约束，其中，约束公式为：

其中，表示重构的人脸，y表示真实人脸图像。l_mse表示像素级的最小方差，l_tex约束纹理信息的相似性。

具体而言，本发明实施例设计人脸识别网络和双向一致性网络，具体地，本发明实施例通过设计人脸识别网络和双向一致性网络约束模型生成保留表观和语义信息的高清人脸。人脸识别网络提供约束函数l_p和l_id。双向一致性网络提供约束函数l_v。

综上而言，本发明实施例的目的是解决现有人脸超分技术没有充分利用人脸语义信息的问题导致生成的高清人脸不够精确的技术问题，对于人脸超分任务，本发明实施例不仅要重构出人脸的表观信息而且要保留语义信息(人脸类别信息)，并且本发明实施例利用深度强化学习使得生成的高清人脸既恢复丰富的表观信息也保留人脸的语义信息。根据本发明实施例的方法，挖掘出人脸的语义信息，则会增强模型的重构能力，不仅在表观信息而且在语义信息方面提高超分水平，如图6所示，展示了可以通过约束表观信息以及语义信息去重构更加高清的人脸图像。

根据本发明实施例提出的基于深度强化学习的语义重构人脸超分方法，通过设计卷积网络约束像素级的人脸信息，生成稍微高清的人脸图像，该网络可以重构出人脸整体的结构信息，为了进一步重构精确的人脸图像，利用深度强化学习选取一系列的人脸区域块修复人脸的细节信息，在修复细节进程中，引入人脸识别网络以及双向一致性网络约束生成的高清人脸既能保留丰富的表观信息又能恢复语义信息，从而可以有效提高人脸超分的性能，约束表观信息和语义信息，提高人脸超分的精确度。

其次参照附图描述根据本发明实施例提出的基于深度强化学习的语义重构人脸超分装置。

图7是本发明一个实施例的基于深度强化学习的语义重构人脸超分装置的结构示意图。

如图7所示，该基于深度强化学习的语义重构人脸超分装置10包括：约束模块100、选取模块200、修复模块300和重构模块400。

其中，约束模块100用于通过卷积神经网络对待重构人脸图像进行像素级约束，以得到人脸图像整体结构信息。选取模块200用于利用深度强化学习从人脸图像整体结构信息中选取多个待修复人脸区域。修复模块300用于通过增强网络对多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域。重构模块400用于通过人脸识别网络和双向一致性网络对多个修复后的人脸区域进行人脸的类别语义信息和人脸的表观信息的约束，以得到待重构人脸图像的人脸重构结果。本发明实施例的装置10利用深度强化学习使得生成的高清人脸既恢复丰富的表观信息也保留人脸的语义信息，从而可以有效提高人脸超分的性能，约束表观信息和语义信息，提高人脸超分的精确度。

进一步地，在本发明的一个实施例中，其中，通过卷积神经网络对待重构人脸图像进行像素级约束的约束公式为：

进一步地，在本发明的一个实施例中，修复模块300进一步用于通过融合待修复人脸区域信息和当前增强图像信息对待修复人脸区域进行逐步修复修复后的人脸区域。

进一步地，在本发明的一个实施例中，本发明实施例的装置10还包括：替换模块。其中，替换模块用于在得到修复后的人脸区域之后，将待修复人脸区域替换为修复后的人脸区域，且修复后的人脸区域为下一时刻增强图像。

进一步地，在本发明的一个实施例中，其中，

通过人脸识别网络对多个修复后的人脸区域进行人脸的类别语义信息的约束，约束的公式为：

需要说明的是，前述对基于深度强化学习的语义重构人脸超分方法实施例的解释说明也适用于该实施例的基于深度强化学习的语义重构人脸超分装置，此处不再赘述。

根据本发明实施例提出的基于深度强化学习的语义重构人脸超分装置，通过设计卷积网络约束像素级的人脸信息，生成稍微高清的人脸图像，该网络可以重构出人脸整体的结构信息，为了进一步重构精确的人脸图像，利用深度强化学习选取一系列的人脸区域块修复人脸的细节信息，在修复细节进程中，引入人脸识别网络以及双向一致性网络约束生成的高清人脸既能保留丰富的表观信息又能恢复语义信息，从而可以有效提高人脸超分的性能，约束表观信息和语义信息，提高人脸超分的精确度。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度强化学习的语义重构人脸超分方法，其特征在于，包括以下步骤：

通过卷积神经网络对待重构人脸图像进行像素级约束，以得到人脸图像整体结构信息；

利用深度强化学习从所述人脸图像整体结构信息中选取多个待修复人脸区域；

通过增强网络对所述多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域；以及

通过人脸识别网络和双向一致性网络对所述多个修复后的人脸区域进行人脸的类别语义信息和人脸的表观信息的约束，以得到所述待重构人脸图像的人脸重构结果。

2.根据权利要求1所述的基于深度强化学习的语义重构人脸超分方法，其特征在于，其中，所述通过卷积神经网络对待重构人脸图像进行像素级约束的约束公式为：

3.根据权利要求1所述的基于深度强化学习的语义重构人脸超分方法，其特征在于，所述通过增强网络对所述多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域，进一步包括：

通过融合待修复人脸区域信息和当前增强图像信息对所述待修复人脸区域进行逐步修复修复后的人脸区域。

4.根据权利要求3所述的基于深度强化学习的语义重构人脸超分方法，其特征在于，在得到所述修复后的人脸区域之后，还包括：

将所述待修复人脸区域替换为所述修复后的人脸区域，且所述修复后的人脸区域为下一时刻增强图像。

5.根据权利要求1所述的基于深度强化学习的语义重构人脸超分方法，其特征在于，其中，

6.一种基于深度强化学习的语义重构人脸超分装置，其特征在于，包括：

约束模块，用于通过卷积神经网络对待重构人脸图像进行像素级约束，以得到人脸图像整体结构信息；

选取模块，用于利用深度强化学习从所述人脸图像整体结构信息中选取多个待修复人脸区域；

修复模块，用于通过增强网络对所述多个待修复人脸区域中的每个待修复人脸区域进行逐步修复，以得到多个修复后的人脸区域；以及

重构模块，用于通过人脸识别网络和双向一致性网络对所述多个修复后的人脸区域进行人脸的类别语义信息和人脸的表观信息的约束，以得到所述待重构人脸图像的人脸重构结果。

7.根据权利要求6所述的基于深度强化学习的语义重构人脸超分装置，其特征在于，其中，所述通过卷积神经网络对待重构人脸图像进行像素级约束的约束公式为：

8.根据权利要求6所述的基于深度强化学习的语义重构人脸超分装置，其特征在于，所述修复模块进一步用于通过融合待修复人脸区域信息和当前增强图像信息对所述待修复人脸区域进行逐步修复修复后的人脸区域。

9.根据权利要求8所述的基于深度强化学习的语义重构人脸超分方法，其特征在于，还包括：

替换模块，用于在得到所述修复后的人脸区域之后，将所述待修复人脸区域替换为所述修复后的人脸区域，且所述修复后的人脸区域为下一时刻增强图像。

10.根据权利要求6所述的基于深度强化学习的语义重构人脸超分装置，其特征在于，其中，