CN110222588B

CN110222588B - 一种人脸素描图像衰老合成方法、装置及存储介质

Info

Publication number: CN110222588B
Application number: CN201910403562.3A
Authority: CN
Inventors: 王鹏; 孙锐; 吴柳玮
Original assignee: HEFEI JINYI SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: HEFEI JINYI SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-03-27
Anticipated expiration: 2039-05-15
Also published as: CN110222588A

Abstract

本申请披露了一种人脸素描图像衰老合成方法，其特征在于，包括：将目标素描图像输入到预先训练的注意力编码对抗网络模型，确定所述目标素描图像中的人脸在不同年龄段的衰老素描图像；所述预先训练的注意力编码对抗网络模型的训练过程包括：获取多张素描图像，所述多张素描图像上的人脸对应的年龄和性别呈均匀分布；将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得预先训练的注意力编码对抗网络模型。

Description

一种人脸素描图像衰老合成方法、装置及存储介质

技术领域

本发明涉及一种人脸素描图像处理方法。具体的，涉及一种基于人脸素描图像衰老合成方法、装置及存储介质。

背景技术

人脸衰老合成算法凭借其广泛的应用性和巨大的挑战性，吸引了许多学者的研究兴趣。然而作为人脸衰老合成的一个分支，人脸素描图像衰老合成却少有人研究，实际上，该算法也拥有许多应用领域，典型的是公共安全领域。例如，长时间未找到走失儿童或抓到逃犯时，人脸素描图像衰老合成可以更新警察手头的素描图像，从而帮助警察找到失踪的孩子或逃犯。

目前已有的人脸素描图像衰老合成技术包括基于异质图像转换的方法和基于数据驱动的方法。基于异质图像转换的方法主要是先利用异质图像转换将素描图像生成伪照片，再利用已有的人脸图像衰老合成方法实现伪照片的老化，最后仍然通过异质图像转换，将老化后的伪照片生成老化后的素描图像。然而这种方法需要对图像风格进行两次转化，即素描-照片-素描，使得结果图像容易存在较大形变和模糊，且耗时较长。

基于数据驱动的方法是假设人脸照片的老化规律也适用于人脸素描图像，借助主成分分析方法，利用原型方法从训练数据中提取老化规律，然后利用老化常规学习来指导人脸素描图像衰老合成问题。这种方法的鲁棒性不高，尤其当素描图像存在表情变化和遮挡时，合成图像效果不太理想。

发明内容

针对现有技术中素描图像老化的特殊性的情况，本申请提出了一种人脸素描图像衰老合成方法。

本申请的一个方面涉及一种人脸素描图像衰老合成方法，包括：将目标素描图像输入到预先训练的注意力编码对抗网络模型，确定所述目标素描图像中的人脸在不同年龄段的衰老素描图像；所述预先训练的注意力编码对抗网络模型的训练过程包括：获取多张素描图像，所述多张素描图像上的人脸对应的年龄和性别呈均匀分布；将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得预先训练的注意力编码对抗网络模型。

在一些实施例中，所述注意力编码对抗网络模型包括注意力编码网络、生成器、判别器，所述训练过程为调整所述注意力编码网络、生成器和判别器的参数。

在一些实施例中，所述人脸素描图像衰老合成方法还包括针对多张素描图像中的每张素描图像，确定该素描图像的年龄标签与性别标签，连接所述年龄标签和所述性别标签后得到联合标签向量。

在一些实施例中，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，包括：将该素描图像输入到注意力编码网络，确定多个重构的注意力区域图像和多个特征向量；基于所述多个特征向量和联合标签向量，确定潜在向量；将所述潜在向量输入至生成器，确定生成图像。

在一些实施例中，所述方法还包括：将该素描图像、生成图像及联合标签输入至判别器中，最小化输入和输出图像之间的距离，以使生成器生成更为逼真的图像。

在一些实施例中，所述将该素描图像输入到注意力编码网络，确定多个重构的注意力区域图像和多个特征向量，包括：将该素描图像分割成一系列的局部小块，对于每一小块中的每个像素点分别提取局部二值模式特征，得到该素描图像的局部二值模式特征图；利用定位函数预测一组关注区域的位置；基于所述一组关注区域的位置，在该素描图像上生成多个注意力掩模，并基于所述多个注意力掩模，裁剪出多个注意力区域图像；将所述多个注意力区域图像中的每一个注意力区域图像通过一个卷积自编码器，生成多个重构的注意力区域图像和多个特征向量。

在一些实施例中，所述基于所述多个特征向量和联合标签向量，确定潜在向量，包括：将所述多个特征向量在通道维度上连接后获得总特征向量；将总特征向量与联合标签向量连接后获得潜在向量。

在一些实施例中，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，包括：对所述多张素描图像进行预处理：通过裁剪和对齐操作使图像尺寸大小统一，且每张图像眼睛处于图片中同一水平位置；将所述预处理后的多张素描图像输入到所述注意力编码对抗网络模型进行训练。

在一些实施例中，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：将每张素描图像及其对应的联合标签输入到所述注意力编码对抗网络模型，优化所述注意力掩模的生成过程。

在一些实施例中，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：所述卷积自编码器包括编码器和解码器，调整所述编码器和解码器的参数，使得所述卷积自编码器对应的重构损失函数最小。

在一些实施例中，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：将所述多个特征向量和联合标签输入至生成器，通过实际输出与目标输出计算出生成器的损失，反向传播所述生成器的损失并更新所述生成器参数。

在一些实施例中，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：将生成图像、素描图像和联合标签输入至判别器，通过实际输出与目标输出计算出判别器的损失，反向传播所述判别器的损失并更新所述判别器参数。

本申请的第二方面涉及一种人脸素描图像衰老合成装置，其特征在于，包括：预先训练的注意力编码对抗网络模型，用于接收目标素描图像，确定所述目标素描图像中的人脸在不同年龄段的衰老素描图像；训练模块，所述训练模块包括获取单元和训练单元，所述获取单元用于获取多张素描图像，所述多张素描图像上的人脸对应的年龄和性别呈均匀分布；所述训练单元用于将所述获取的多张素描图像输入到注意力编码对抗网络模型进行训练，获得所述预先训练的注意力编码对抗网络模型。

本申请的第三方面涉及一种电子设备，包括：存储器以及一个或多个处理器；其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现所述人脸素描图像衰老合成方法。

本申请的第三方面涉及一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现所述人脸素描图像衰老合成方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构和操作。

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。

图1是根据本申请的一些实施例所示的注意力编码对抗网络模型的训练方法流程图；

图2是根据本申请的一些实施例所示的一种生成图像方法示意图；

图3是根据本申请的一些注意力编码网络工作流程图；

图4是根据本申请的一些实施例所示的注意力编码网络示意图；

图5是根据本申请的一些实施例所示的注意力编码对抗网络模型的模块图；

图6为根据本申请的一些实施例所示的所述注意力编码对抗网络模型的输出结果示意图；

图7是根据本申请的一些实施例所示的人脸素描图像衰老合成装置示意图；以及

图8是适于用来实现根据本申请实施方式的电子设备的结构示意图。

具体实施方式

条件生成对抗网络是生成对抗网络的一种改进形式，其生成器和判别器都增加一个额外信息作为约束条件，在训练过程中让模型学习多种不同分类的样本生成过程，根据约束条件生成不同的指定类别的对象。已有研究人员将其应用到人脸衰老合成算法中，取得了不错的效果。但由于素描与照片图像的表达方式不同，素描图像包含更多纹理信息，同样的算法直接应用到素描图像会使生成的老化素描图像过于平滑，有些局部的纹理特征难以显现。

注意力机制借鉴了人类视觉的选择性注意力机制，目的是从众多信息中选择对当前任务目标更为关键且真正起作用的信息。将注意力机制引入条件生成对抗网络中，着重提取人脸素描图像上对衰老合成更为关键的区域特征，能更好地保留素描图像的纹理特征，且更加适应于表情变化、遮挡等情况下的人脸素描图像衰老合成，具有较好的鲁棒性，合成时间也能大幅缩短。

人脸素描图像衰老合成算法需要解决的问题：一、注意力区域的划分；二、图像特征的提取及处理；三、利用所获特征生成老化素描图像。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标是从众多信息中选择出对当前任务目标更关键的信息，以提高视觉信息处理的效率与准确性。近两年被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中。将注意力机制引入条件生成对抗网络中，在素描图像上划分出对衰老合成更为关键的区域，并提取这些区域的特征，从而得到一组有效的特征向量，保留了输入图像的高级特征，提高了对表情变化和遮挡情况的容忍度，从而提高整个方法的鲁棒性。

在一些实施例中，本方法包括将目标素描图像输入到预先训练的注意力编码对抗网络模型，确定所述目标素描图像中的人脸在不同年龄段的衰老素描图像。图1是根据本申请的一些实施例所示的注意力编码对抗网络模型的训练方法流程图。

在102中，获取多张素描图像，所述多张素描图像上的人脸对应的年龄和性别呈均匀分布。在104中，将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得预先训练的注意力编码对抗网络模型。

在一些实施例中，所述注意力编码对抗网络模型包括注意力编码网络、生成器、判别器。

在一些实施例中，所述获取的多张素描图像中的人脸的年龄可以划分为任意个数的年龄段。例如，0-5、6-10、11-15、16-20、21-30、31-40、41-60、61-80，共8个年龄段。即，可以用8个元素的独热向量来表示每张图像的年龄。在一些实施例中，可以用2个元素的独热向量来表示每张图像的性别。因此，针对多张素描图像中的每张素描图像，可以确定该素描图像的年龄标签l_a与性别标签l_G，并连接所述年龄标签l_a和所述性别标签l_G后确定联合标签向量L。

图2是根据本申请的一些实施例所示的一种生成图像方法示意图。

在202中，针对所述多张素描图像中的每张素描图像，将该素描图像输入到注意力编码网络，确定多个重构的注意力区域图像和多个特征向量。所述确定多个重构的注意力区域图像和多个特征向量的过程见图3及其描述。如图3所示，是根据本申请的一些注意力编码网络工作流程图。在302中，将该素描图像分割成一系列的局部小块，对于每一小块中的每个像素点分别提取局部二值模式特征，得到该素描图像的局部二值模式特征图，表示为LBP(X)。

在304中，利用定位函数预测一组关注区域的位置。所述定位函数为f_loc()，具体地，所述定位函数为

其中，[x_i，y_i]表示一个区域的中心坐标位置，N表示预测区域的总数。

在306中，基于所述一组关注区域的位置，在该素描图像上生成多个注意力掩模，并基于所述多个注意力掩模，裁剪出多个注意力区域图像。

具体地，用w和h分别表示该素描图像的半宽和半长，则当前关注区域的参数为：

利用这些参数生成注意力掩模M_i：

其中，σ(·)代表一个sigmoid函数，用公式表示为：

σ(·)＝1/(1+exp^-kx) (2)

其中，k为待定参数，通过在该素描图像(用X表示)上应用对位相乘，实现对该素描图像的裁剪，用R表示裁剪后得到的注意力区域，则：

其中，

为对位相乘符号。最终该素描图像X生成N个注意力区域图像

在308中，将所述多个注意力区域图像中的每一个注意力区域图像通过一个卷积自编码器，生成多个重构的注意力区域图像和多个特征向量。

具体地，将N个裁剪出的注意力区域图像

分别通过N个卷积自编码器，所述卷积自编码器包括编码器和解码器两部分。所述编码器提取

的特征生成N个特征向量

用公式表示为：

E(R_i)＝z_i (4)

所述解码器将所述N个特征向量重构，确定出N个重构的注意力区域图像

相对应地，所述确定多个重构的注意力区域图像和多个特征向量的模块图见图4，如图4所示，是根据本申请的一些实施例所示的注意力编码网络示意图。

在204中，基于所述多个特征向量和联合标签向量，确定潜在向量。具体地，将所述N个特征向量

在通道维度上连接之后得到向量Z，将向量Z与联合标签向量L连接后获得潜在向量[Z，L]。

在206中，将所述潜在向量输入至生成器，确定生成图像。具体地，将潜在向量[Z，L]输入到生成器G，得到生成图像X′，用公式表示为：G(Z，L)＝X′。

在一些实施例中，前述图1-图2的方法还包括：将该素描图像、生成图像及联合标签输入至判别器D中，最小化素描图像X和生成图像X′之间的距离，以使生成器G生成更为逼真的图像。

在一些实施例中，所述训练过程还包括：将每张素描图像及其对应的联合标签输入到所述注意力编码对抗网络模型，优化所述注意力掩模的生成过程。具体地，首先，设定几何正则化

其中，d表示数据空间中的相似度度量，可以采用多种方式优化d；然后，将每张素描图像及其对应的联合标签输入到所述注意力编码对抗网络模型，采用欧式距离，根据几何正则化优化d，更新sigmoid函数σ(·)中的参数k。

在一些实施例中，所述训练过程还包括：调整所述卷积自编码器的编码器和解码器的参数，使得所述卷积自编码器对应的重构损失函数最小。在一些实施例中，可以通过卷积自编码器的重构损失函数来优化对素描图像各注意力区域图像特征的提取。所述重构损失函数的表达形式可以是任意的。例如，所述重构损失函数的表达式为argmin||R_i-R_i′||²。

在一些实施例中，所述训练过程还包括：将所述多个特征向量和联合标签输入至生成器，通过实际输出与目标输出计算出生成器的损失L_G，反向传播所述生成器的损失L_G并更新所述生成器参数。

在一些实施例中，所述训练过程还包括：将生成图像、素描图像和联合标签输入至判别器，通过实际输出与目标输出计算出判别器的损失L_D，反向传播所述判别器的损失L_D并更新所述判别器参数。

在一些实施例中，所述判别器D和带有联合标签的生成器G通过如下函数优化：

其中，ATE表示注意力编码网络。

在一些实施例中，如前文所述的方法还包括对所述多个素描图像进行预处理。所述预处理过程包括：对所述多张素描图像进行预处理：通过裁剪和对齐操作使图像尺寸大小统一，且每张图像眼睛处于图片中同一水平位置；将所述预处理后的多张素描图像输入到所述注意力编码对抗网络模型进行训练。也就是说，当输入到注意力编码对抗网络模型的多张素描图像的尺寸不一致时，需要执行所述预处理过程。此时，前文(图1-3及其描述)所述输入到注意力编码网络或判别器的图像均为经过预处理的素描图像。值得说明的是，所述预处理过程并不是必须的。例如，当输入到所述注意力编码对抗网络模型的多张素描图像的尺寸一致时，则不需要所述预处理过程。

图5是根据本申请的一些实施例所示的注意力编码对抗网络模型的模块图。

如图5所示，首先，针对训练样本中的每张素描图像，确定该素描图像的年龄标签与性别标签，连接所述年龄标签和所述性别标签后得到联合标签向量。其次，对该素描图像进行预处理后输入到注意力编码网络确定出多个重构的注意力区域图像和多个特征向量。基于所述多个特征向量和联合标签向量，确定潜在向量。将所述潜在向量输入至生成器，确定生成图像。将经过预处理后的素描图像、生成图像及联合标签输入至判别器中，最小化输入和输出图像之间的距离，以使生成器生成更为逼真的图像。在一些实施例中，所述预处理过程并不是必需的。此时，输入到所述注意力编码网络(ATE)或判别器的图像为未经预处理的素描图像。

所述注意力编码对抗网络模型训练完成后，可以将目标素描图像输入到预先训练好的注意力编码对抗网络模型中，确定出所述目标素描图像中的人脸在不同年龄段的衰老素描图像。图6为根据本申请的一些实施例所示的所述注意力编码对抗网络模型的输出结果示意图。如图6所示，输入图像经过所述预先训练的注意力编码对抗网络模型，输出0-5、6-10、11-15、16-20、21-30、31-40、41-60、61-80，共8个年龄段的衰老素描图像。所述年龄段为预先划分的。

图7是根据本申请的一些实施例所示的人脸素描图像衰老合成装置示意图。如图7所示，所述人脸素描图像衰老合成装置700包括识别模块710和模型获取模块720。所述识别模块710用于将目标素描图像输入到预先训练的注意力编码对抗网络模型，确定所述目标素描图像中的人脸在不同年龄段的衰老素描图像。所述模型获取模块720用于确定预先训练的注意力编码对抗网络模型。在一些实施例中，所述模型获取模块720包括获取单元721和训练单元722。所述获取单元721用于获取多张素描图像。所述多张素描图像上的人脸对应的年龄和性别呈均匀分布。所述训练单元722用于将所述获取的多张素描图像输入到注意力编码对抗网络模型进行训练，获得所述预先训练的注意力编码对抗网络模型。

值得说明的是，所述模型获取模块720的工作过程与图1-6所示的模型训练过程一致，在此不作赘述。

图8是适于用来实现根据本申请实施方式的电子设备的结构示意图。如图8所示，电子设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述图1-图3所示的实施方式中的各种处理。在RAM803中，还存储有电子设备800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施方式，上文参考图1-图3描述的方法可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行图1-图3的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。

与现有技术相比，本申请的有益效果表现如下：

一、通过构建注意力编码对抗网络，以端到端的方式解决人脸素描图像衰老合成问题，减小了网络复杂度，提高了合成速率。

二、使用年龄标签和性别标签的联合标签向量作为生成器和判别器一个额外的约束条件，学习年龄和性别对人脸素描图像的影响，减小生成图像和输入图像的差别程度。

三、输入生成器的不是随机噪声，而是利用注意力编码网络得到的特征向量，以达到控制输出图像的目的。

四、建立注意力编码网络，借助定位函数划分注意力区域，在素描图像上提取注意力区域特征，以保留输入图像的高级特征，提高对表情变化和遮挡情况的容忍度，从而提高整个方法的鲁棒性。

五、使用卷积自编码器在提取注意力区域特征的同时利用这些特征重构注意力区域图像，根据重构图像优化对特征的提取。

以上内容描述了本申请和/或一些其他的示例。根据上述内容，本申请还可以作出不同的变形。本申请披露的主题能够以不同的形式和例子所实现，并且本申请可以被应用于大量的应用程序中。后文权利要求中所要求保护的所有应用、修饰以及改变都属于本申请的范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档、物件等，特将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不限于本申请明确介绍和描述的实施例。

Claims

1.一种人脸素描图像衰老合成方法，其特征在于，包括：

将目标素描图像输入到预先训练的注意力编码对抗网络模型，确定所述目标素描图像中的人脸在不同年龄段的衰老素描图像；

所述注意力编码对抗网络模型包括注意力编码网络、生成器、判别器；

所述预先训练的注意力编码对抗网络模型的训练过程为调整所述注意力编码网络、生成器和判别器的参数，训练过程包括：

获取多张素描图像，所述多张素描图像上的人脸对应的年龄和性别呈均匀分布；

针对所述多张素描图像中的每张素描图像，将该素描图像分割成一系列的局部小块，对于每一小块中的每个像素点分别提取局部二值模式特征，得到该素描图像的局部二值模式特征图；

利用定位函数预测一组关注区域的位置；

基于所述一组关注区域的位置，在该素描图像上生成多个注意力掩模，并基于所述多个注意力掩模，裁剪出多个注意力区域图像；

将所述多个注意力区域图像中的每一个注意力区域图像通过一个卷积自编码器，生成多个重构的注意力区域图像和多个特征向量。

2.如权利要求1所述的人脸素描图像衰老合成方法，其特征在于，还包括：

针对多张素描图像中的每张素描图像，确定该素描图像的年龄标签与性别标签，连接所述年龄标签和所述性别标签后得到联合标签向量。

3.如权利要求2所述的人脸素描图像衰老合成方法，其特征在于，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，包括：

将该素描图像输入到注意力编码网络，确定多个重构的注意力区域图像和多个特征向量；

基于所述多个特征向量和联合标签向量，确定潜在向量；

将所述潜在向量输入至生成器，确定生成图像。

4.如权利要求3所述的人脸素描图像衰老合成方法，其特征在于，所述方法还包括：

将该素描图像、生成图像及联合标签输入至判别器中，最小化输入和输出图像之间的距离，以使生成器生成更为逼真的图像。

5.如权利要求3所述的人脸素描图像衰老合成方法，其特征在于，所述基于所述多个特征向量和联合标签向量，确定潜在向量，包括：

将所述多个特征向量在通道维度上连接后获得总特征向量；

将总特征向量与联合标签向量连接后获得潜在向量。

6.如权利要求1-5任一一项所述的人脸素描图像衰老合成方法，其特征在于，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，包括：

对所述多张素描图像进行预处理：通过裁剪和对齐操作使图像尺寸大小统一，且每张图像眼睛处于图片中同一水平位置；

将所述预处理后的多张素描图像输入到所述注意力编码对抗网络模型进行训练。

7.如权利要求1所述的人脸素描图像衰老合成方法，其特征在于，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：

将每张素描图像及其对应的联合标签输入到所述注意力编码对抗网络模型，优化所述注意力掩模的生成过程。

8.如权利要求7所述的人脸素描图像衰老合成方法，其特征在于，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：

所述卷积自编码器包括编码器和解码器，调整所述编码器和解码器的参数，使得所述卷积自编码器对应的重构损失函数最小。

9.如权利要求8所述的人脸素描图像衰老合成方法，其特征在于，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：

将所述多个特征向量和联合标签输入至生成器，通过实际输出与目标输出计算出生成器的损失，反向传播所述生成器的损失并更新所述生成器参数。

10.如权利要求9所述的人脸素描图像衰老合成方法，其特征在于，所述将所述多张素描图像输入到注意力编码对抗网络模型进行训练，获得训练后的注意力编码对抗网络模型，还包括：

将生成图像、素描图像和联合标签输入至判别器，通过实际输出与目标输出计算出判别器的损失，反向传播所述判别器的损失并更新所述判别器参数。

11.一种人脸素描图像衰老合成装置，其特征在于，包括：

预先训练的注意力编码对抗网络模型，用于接收目标素描图像，确定所述目标素描图像中的人脸在不同年龄段的衰老素描图像，所述注意力编码对抗网络模型包括注意力编码网络、生成器、判别器；

训练模块，所述训练模块用于调整所述注意力编码网络、生成器和判别器的参数，所述训练模块包括获取单元和训练单元，

所述获取单元用于获取多张素描图像，所述多张素描图像上的人脸对应的年龄和性别呈均匀分布；

所述训练单元用于：

利用定位函数预测一组关注区域的位置；

12.一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如权利要求1-10任一项所述的人脸素描图像衰老合成方法。

13.一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如权利要求1-10任一项所述的人脸素描图像衰老合成方法。