CN116311473A

CN116311473A - 基于扩散模型的表情迁移方法、装置、设备及介质

Info

Publication number: CN116311473A
Application number: CN202310373403.XA
Authority: CN
Inventors: 李泽远; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-23

Abstract

本发明公开了一种基于扩散模型的表情迁移方法，该方法包括获取待迁移图像和待分割图像；将待迁移图像和待分割图像分别输入至预设扩散模型中，获取待迁移图像对应的表情特征和待分割图像对应的轮廓特征；将表情特征和轮廓特征分别输入至预设标签模型中，获取表情特征对应的表情语义标签和轮廓特征对应的轮廓语义标签；根据表情语义标签和轮廓语义标签，对表情特征和轮廓特征进行图像融合，得到目标人脸图像。本发明基于扩散模型对表情特征和轮廓特征进行提取，提高了图像特征的采样质量，增加了捕捉表情特征的多样性。通过表情语义标签和轮廓语义标签进行图像融合，降低了图像融合的复杂度，增强了目标人脸图像的细节，使得目标人脸图像更加自然。

Description

基于扩散模型的表情迁移方法、装置、设备及介质

技术领域

本发明涉及生物识别技术领域，尤其涉及一种基于扩散模型的表情迁移方法、装置、设备及介质。

背景技术

人脸表情迁移技术是指通过某种映射关系，将输入人脸的表情迁移到目标人脸上。该技术不仅可以使得用户通过输入人脸来控制目标图片或视频中的人脸表情，还能为人脸识别任务提供数据增强服务。

现有技术，往往是通过生成对抗网络对图像进行语义切割，主要是通过生成对抗网络中的隐空间对图像进行二进制分割，并且通过生成对抗网络对图像进行分割时，需要通过设置额外的编码器将图像映射到隐空间进行图像分割。而且生成对抗网络无法学习整个图像的数据分布，导致特征提取质量差，以及捕捉特征的多样性不够丰富。

发明内容

本发明实施例提供一种基于扩散模型的表情迁移方法、装置、设备及介质，以解决现有技术中特征采样质量差以及捕捉特征的多样性不够丰富的问题。

一种基于扩散模型的表情迁移方法，包括：

获取待迁移图像和待分割图像；所述待迁移图像和所述待分割图像是不同的图像；

将所述待迁移图像和所述待分割图像分别输入至预设扩散模型中，获取所述待迁移图像对应的表情特征，以及所述待分割图像对应的轮廓特征；

将所述表情特征和所述轮廓特征分别输入至预设标签模型中，获取所述表情特征对应的表情语义标签，以及所述轮廓特征对应的轮廓语义标签；

根据所述表情语义标签和所述轮廓语义标签，对所述表情特征和所述轮廓特征进行图像融合，得到目标人脸图像。

一种基于扩散模型的表情迁移装置，包括：

图像获取模块，用于获取待迁移图像和待分割图像；所述待迁移图像和所述待分割图像是不同的图像；

特征提取模块，用于将所述待迁移图像和所述待分割图像分别输入至预设扩散模型中，获取所述待迁移图像对应的表情特征，以及所述待分割图像对应的轮廓特征；

标签获取模块，用于将所述表情特征和所述轮廓特征分别输入至预设标签模型中，获取所述表情特征对应的表情语义标签，以及所述轮廓特征对应的轮廓语义标签；

表情迁移模块，用于根据所述表情语义标签和所述轮廓语义标签，对所述表情特征和所述轮廓特征进行图像融合，得到目标人脸图像。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于扩散模型的表情迁移方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于扩散模型的表情迁移方法。

本发明提供一种基于扩散模型的表情迁移方法、装置、设备及介质，该方法通过预设扩散模型对待迁移图像和待分割图像进行特征提取，实现了对表情特征以及轮廓特征的提取，从而学习整个图像的数据分布，进而提高了表情特征以及轮廓特征的采样质量，丰富了捕捉表情特征的多样性。通过预设标签模型对表情特征以及轮廓特征进行标签预测，从而实现了给表情特征和轮廓特征打上语义标签。根据表情语义标签和轮廓语义标签将表情特征融合至轮廓特征中，从而实现了表情特征的迁移，降低了图像融合的复杂度。在图像融合过程中采用中值滤波方法进行滤波处理，增强了目标人脸图像的细节，使得目标人脸图像更加自然。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于扩散模型的表情迁移方法的应用环境示意图；

图2是本发明一实施例中基于扩散模型的表情迁移方法的流程图；

图3是本发明一实施例中基于扩散模型的表情迁移方法中步骤S20的流程图；

图4是本发明一实施例中基于扩散模型的表情迁移方法中步骤S40的流程图；

图5是本发明一实施例中基于扩散模型的表情迁移装置的原理框图；

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于扩散模型的表情迁移方法，该基于扩散模型的表情迁移方法可应用如图1所示的应用环境中。具体地，该基于扩散模型的表情迁移方法应用在基于扩散模型的表情迁移装置中，该基于扩散模型的表情迁移装置包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决现有技术中特征采样质量差以及捕捉特征的多样性不够丰富的问题。其中，该服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。

在一实施例中，如图2所示，提供一种基于扩散模型的表情迁移方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取待迁移图像和待分割图像；所述待迁移图像和所述待分割图像是不同的图像。

可理解地，待迁移图像为需要将表情进行迁移的图像。待分割图像为需要分割出人脸轮廓的图像，也即将表情迁移至该图像上。其中，待迁移图像和待分割图像可以是两个完全不同的人的人脸图像，即两个人的图像，也可以是相同的人的人脸图像，其图像的表情不同。进一步的，通过爬虫技术从不同的网站或客户端采集得到待迁移图像和待分割图像，亦或者从不同的数据库中采集得到待迁移图像和待分割图像，也可以由用户从客户端发送到服务器中的待迁移图像和待分割图像。

S20：将所述待迁移图像和所述待分割图像分别输入至预设扩散模型中，获取所述待迁移图像对应的表情特征，以及所述待分割图像对应的轮廓特征。

可理解地，预设扩散模型为提前训练好的扩散模型，该扩散模型是以UNet网络为架构通过大量的图像训练数据进行训练得到的。表情特征为人脸图像中的器官特征、纹理区域或预定义的特征点，如眼，嘴巴，鼻子和眉毛等。轮廓特征用于表征一个人的脸部轮廓，不同的人的脸部轮廓是不同的。

具体地，在得到待迁移图像和待分割图像之后，从服务器中调取预设扩散模型，将待迁移图像和待分割图像输入到预设扩散模型，通过预设扩散模型对待迁移图像和待分割图像进行特征提取，也即通过一系列的卷积层和下池化层进行编码，逐步的对待迁移图像和待分割图像下采样至最底卷积层。在最底层经过卷积处理，得到下采样特征，再通过对下采样特征进行上池化处理，并通过跳跃传输将每一层的下采样特征和上采样特征进行特征连接。然后通过一系列的转置卷积层和上池化层进行解码，逐步的对下采样特征进行上采样处理，得到待迁移图像和待分割图像的像素级特征，如此即可得到待迁移图像对应的表情特征和待分割图像对应的轮廓特征。如此，通过上述方式即可得到待迁移图像对应的所有表情特征，以及所有待分割图像对应的轮廓特征。

S30：将所述表情特征和所述轮廓特征分别输入至预设标签模型中，获取所述表情特征对应的表情语义标签，以及所述轮廓特征对应的轮廓语义标签。

可理解地，预设标签模型为提前训练好的用于对表情特征类别进行标签预测的，该标签模型可以为多层感知机模型。表情语义标签为用于表征表情特征的标签，如待迁移图像的眼睛等。预设标签模型中包括预设数量个(如2个或3个)的隐藏层，每个隐藏层设有预设数量个(如64个或128个)的隐藏单元。轮廓语义标签用于表征待分割图像对应的轮廓特征，如该轮廓特征为用户2的。

具体地，在得到所有表情特征和轮廓特征之后，将所有的表情特征和轮廓特征输入到预设标签模型中，该预设标签模型对所有的表情特征和轮廓特征进行类别标签预测，即通过多层感知机模型对提取的表情特征和轮廓特征进行预测，也即多层感知机模型中第一层隐藏层通过不同的权重值对所有表情特征和轮廓特征进行计算，得到预测结果。将所有预测结果传送到下一层隐藏层通过不同与第一层隐藏层的权重值进行标签预测，如此，通过预设数量个不同权重值的隐藏层后，即可得到该表情特征的表情语义标签以及轮廓特征对应的轮廓语义标签。如此，通过上述方式给所有表情特征打上表情语义标签。进而根据上述方式确定所有待分割图像的轮廓特征对应的轮廓语义标签。

其中，通过爬虫技术从网站或客户端获取大量的人脸图像，通过扩散模型对所有的人脸图像进行语音分割，得到各个人脸图像的局部图片，并设置每个局部图片对应的人脸图像编号，即实际标签。将所有人脸图像的局部图片输入到多层感知机模型中进行训练，通过多层感知机模型对所有人脸图像的局部图片进行标签预测，得到预测标签。将同一人脸图像的同一局部图片的预测标签和实际标签进行比较，当两个标签不同时，将该局部图片和实际标签输入到多层感知机模型中进行训练，如此使得多层感知机模型输出的结果可以不断向准确地结果靠拢，让预测准确率越来越高，直至所有人脸图像的局部图片的预测损失值均达到预设的收敛条件时，将收敛之后的多层感知机模型记录为预设标签模型。

S40：根据所述表情语义标签和所述轮廓语义标签，对所述表情特征和所述轮廓特征进行图像融合，得到目标人脸图像。

可理解地，目标人脸图像为将待迁移图像的表情特征迁移到待分割图像得到的。

具体地，在得到所有表情语义标签和轮廓语义标签之后，根据表情特征对应的表情语义标签，将表情特征拼接到轮廓语义标签对应的轮廓特征上，也即将待迁移图像上的表情迁移至待分割图像上，如将表情特征中待迁移图像的鼻子拼接到待分割图像的鼻子的位置，将表情特征中待迁移图像的眼睛拼接到待分割图像的眼睛的位置等，如此根据所有表情语义标签将所有表情特征融合到待分割图像的位置，即可得到融合人脸图像。并根据表情特征和轮廓特征对拼接后的融合人脸图像进行细节处理，使得表情特征更加符合轮廓特征。并通过中值滤波法对融合人脸图像进行滤波处理，也即采用该融合人脸图像的编码中间值，对该融合人脸图像进行滤波处理，得到目标人脸图像，从而使得目标人脸图像看起来更自然。

在本发明实施例中的一种基于扩散模型的表情迁移方法，该方法通过预设扩散模型对待迁移图像和待分割图像进行特征提取，实现了对表情特征以及轮廓特征的提取，从而学习整个图像的数据分布，进而提高了表情特征以及轮廓特征的采样质量，增加了捕捉表情特征的多样性。通过预设标签模型对表情特征以及轮廓特征进行预测，从而实现了给表情特征和轮廓特征打上语义标签。根据表情语义标签和轮廓语义标签将表情特征融合至轮廓特征中，从而实现了表情特征的迁移，降低了图像融合的复杂度。在图像融合过程中采用中值滤波方法进行滤波处理，增强了目标人脸图像的细节，使得目标人脸图像更加自然。

在一实施例中，步骤S10中，也即获取待迁移图像之前，还包括：

S101，获取初始图像，并对所述初始图像进行噪音扩散处理，得到噪音初始图像。

可理解地，初始图像像可以通过爬虫技术从不同的网站或客户端上采集得到，亦或者从不同的数据库中采集得到，也可以由用户从客户端发送到服务器中的。噪音初始图像为对初始图像增加高斯噪音并逐步扩散得到的。

具体地，在获取待迁移图像之前，获取初始图像并对初始图像进行预处理，即在第一个时间步内对初始图像增加高斯噪音，并根据特征的扩散步骤在T-1个时间步内将增加的高斯噪音扩散到整个初始图像，也即加噪过程持续T次，产生一系列带噪声图像x₁、x₂、、、x_t。在由x_t-1加噪至x_t的过程中，噪声的标准差/方差是以一个在区间(0，1)内的固定值β_t来确定的，均值是以固定值β_t和当前时刻的图片数据x_t-1来确定的。也即该扩散步骤的公式为

q(x_t|x_t-1)为高斯噪音从x_t-1到x_t的过程，高斯噪音满足分布/>

(是指以/>

为均值，β_t为方差的高斯分布)，如此，只需在初始图像的基础上确定每一步的固定值β_t，即可得到每一时间步内的噪音图片，直至到最后一个时间步内扩散完成，即可得到噪音初始图像。

S102，对所述噪音初始图像进行去噪预测处理，得到所述待迁移图像。

具体地，在得到噪音初始图像之后，对噪音初始图像进行逆扩散过程，对噪音初始图像进行去噪处理，即根据初始图像对噪音初始图像进行预测处理，也即只需将步骤S101的过程进行逆处理，从q(x_t-1|x_t)中采样，可以从一个随机的高斯分布N(0,I)中重建出一个真实的初始图像(不包含噪音的初始图像)，也就是从一个完全杂乱无章的噪声初始图像中得到一张真实初始图像。由于需要从噪音初始图像中找到数据分布，因此需要一个模型p_θ来近似模拟条件概率，从而对噪音初始图像进行逆扩散过程。该逆扩散的公式为p_θ(x_t-1|x_t)：＝N(x_t-1；μ_θ(x_t,t),∑_θ(x_t,t))，其中，

为预测的平均值参数化表示，/>

在对去噪预测处理时，需要根据初始图像(x₀)对x_t到x_t-1的预测(q(x_t-1|x_t,x₀))进行条件概率计算，从而得到待迁移图像。

本发明实施例通过对初始图像增加高斯噪音，并根据特征扩散步骤将高斯噪音扩散到整个初始图像，从而实现了对噪音初始图像的获取。通过根据初始图像对噪音初始图像进行去噪处理，从而实现对初始图像中噪音的去除，进而实现了对待迁移图像的获取。提高了后续表情特征提取的准确性，提高了表情特征提取的质量。

在一实施例中，步骤S20之前，也即将所述待迁移图像和所述待分割图像分别输入至预设扩散模型中之前，包括：

S103，获取图像训练数据集；所述图像训练数据集包括至少一个图像训练数据；一个所述图像训练数据关联一个样本特征。

可理解地，图像训练数据可以通过爬虫技术从不同的网站上采集得到，亦或者从不同的数据库中采集得到，也可以是由用户从客户端发送到服务器中的，进而根据获取的所有图像训练数据构建图像训练数据集。对每一个图像训练数据设置一个样本特征，该样本特征可以是表情特征，也可以是轮廓特征。

S104，获取预设训练模型，通过所述预设训练模型对所述图像训练数据进行预测处理，得到预测特征。

可理解地，预设训练模型为以Unet网络为架构的模型。预测特征为通过预设训练模型对图像训练数据进行预测得到，该预测特征可以是表情特征，也可以是轮廓特征。

具体地，从服务器中调取预设训练模型，将获取的所有图像训练数据均输入到预设训练模型中，通过预设训练模型对图像训练数据先进行至少一组卷积层和上池化层的下采样处理，得到下采样特征。在对下采样特征进行维度恢复，也即对下采样特征进行至少一组上池化层和转置卷积层的上采样处理，得到图像训练数据的上采样特征。其中，在对下采样特征进行维度恢复时，经过上池化后的特征和下采样过程中的卷积特征进行拼接，并将拼接后的特征进行转置卷积处理，从而经过至少一组池化卷积处理，得到上采样特征。对所有上采样特征进行一维卷积处理，得到预测特征。

S105，根据同一所述图像训练数据对应的所述样本特征以及所述预测特征，确定所述图像训练数据的预测损失值。

可理解地，预测损失值为对图像训练数据的预测特征进行预测的过程中生成的，该预测损失值用于表征样本特征和预测特征之间的差值。

具体地，在得到预测特征之后，将图像训练数据对应的所有样本特征按照图像训练数据集中图像训练数据的顺序进行排列，进而将图像训练数据关联的预测特征，与序列相同的图像训练数据的样本特征进行比较；也即按照图像训练数据排序，将位于第一的图像训练数据对应的样本特征，与位于第一的图像训练数据对应的预测特征进行比较，通过损失函数确定样本特征与预测特征之间的损失值；进而将位于第二的图像训练数据对应的样本特征，与位于第二的图像训练数据对应的预测特征进行比较，直至所有样本特征与预测特征均比较完成，即可确定图像训练数据的预测损失值。

S106，在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设训练模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设训练模型记录为预设扩散模型。

可以理解地，该收敛条件可以为预测损失值小于设定阈值的条件，也即在预测损失值小于设定阈值时，停止训练；收敛条件还可以为预测损失值经过了500次计算后值为很小且不会再下降的条件，也即预测损失值经过500次计算后值很小且不会下降时，停止训练，将收敛之后的所述预设训练模型记录为预设扩散模型。

进一步地，确定图像训练数据的预测损失值之后，在预测损失值未达到预设的收敛条件时，根据该预测损失值调整预设训练模型的初始参数，并将所有图像训练数据重新输入至调整初始参数后的预设训练模型中，以在图像训练数据的预测损失值达到预设的收敛条件时，选取图像训练数据集中其它的图像训练数据，并执行上述步骤S103至S105，并得到与调整初始参数的预设训练模型相对应的预测损失值，并在该预测损失值未达到预设的收敛条件时，根据该预测损失值再次调整预设训练模型的初始参数，使得再次调整初始参数的预设训练模型的预测损失值达到预设的收敛条件。

如此，在通过所有图像训练数据对预设训练模型进行训练之后，使得预设训练模型输出的结果可以不断向准确地结果靠拢，让预测准确率越来越高，直至所有图像训练数据的预测损失值均达到预设的收敛条件时，将收敛之后的所述预设训练模型记录为预设扩散模型。

本发明实施例通过大量的图像训练数据对预设训练模型进行训练，并通过预设损失函数确定预测特征和样本特征之间的预测损失值。根据预测损失值对预设训练模型的初始参数进行调整，直至模型收敛，从而实现了对预设扩散模型的获取，并确保了预设扩散模型有较高的预测准确率。

在一实施例中，如图3所示，步骤S20中，也即获取所述待迁移图像对应的表情特征，包括：

S201：通过所述预设扩散模型中的下采样模块对所述待迁移图像进行下采样处理，得到下采样特征。

可理解地，下采样模块包括至少一组的卷积层和下池化层，该模块用于对待迁移图像进行编码处理。下采样特征为通过下采样模块对待迁移图像进行特征提取得到的。

具体地，在得到待迁移图像和待分割图像之后，从服务器中调取预设扩散模型，将待迁移图像和待分割图像先后输入到预设扩散模型中，通过预设扩散模型中的下采样模块对待迁移图像进行表情特征提取，即通过至少一组的卷积层和下池化层对待迁移图像进行下采样处理，也即通过至少一组的卷积层和下池化层对待迁移图像进行编码，并逐渐的下采样至最底层。在最底层通过3*3的卷积核，输出通道数为1024的卷积矩阵对上一次池化结果进行卷积处理，即可得到待迁移图像对应的下采样特征。其中，每层的卷积层均输入两个卷积特征，一个卷积特征用于下池化层的池化处理，另一个卷积特征用于跳跃传输传输到上采样过程中，用于与上采样特征连接。

S202：通过所述预设扩散模型中的上采样模块对所述下采样特征进行上采样处理，得到表情特征。

可理解地，上采样模块包括至少一组的转置卷积层和上池化层，该模块用于对待迁移图像进行解码处理。

具体地，在得到下采样特征之后，通过预设扩散模型中的上采样模块对下采样特征进行特征维度恢复处理，也即将下采样特征恢复到原来的维度。通过至少一组的转置卷积层和上池化层对下采样特征进行上采样处理，也即通过至少一组的转置卷积层和上池化层对下采样特征进行解码。对下采样特征进行上池化处理，也即将下采样特征的输出通道数增加一倍，将最后一次的卷积特征和第一次上池化特征进行拼接，并对拼接后的融合特征进行卷积处理，如此通过至少一次即可得到上采样特征。对上采样特征进行一维卷积处理，即可得到表情特征。如此，对所有下采样特征进行上采样处理，即可得到所有表情特征。

在另一实施例中，对待分割图像对应的轮廓特征的获取，也可以采用上述步骤S201到S202的方式进行轮廓特征的获取，具体过程不在赘述。

本发明实施例通过对待迁移图像进行下采样处理，从而实现了对待迁移图像的语义切割，进而实现了对下采样特征的获取。通过对下采样特征进行上采样处理，从而实现了对表情特征的获取，提高了特征提取的质量。

在一实施例中，步骤S201中，也即通过所述预设扩散模型中的下采样模块对所述待迁移图像进行下采样处理，得到下采样特征，包括：

S2011，通过所述预设扩散模型中的所述卷积层对所述待迁移图像进行卷积处理，得到卷积特征。

可理解地，卷积特征为对待迁移图像进行卷积处理得到的。

具体地，在得到待迁移图像之后，对待迁移图像进行卷积处理，也即先采用3*3的卷积核，输出通道数为64的卷积矩阵对待迁移图像进行第一次卷积处理，得到第一卷积结果。并通过BN层对第一卷积结果进行归一化处理，以及通过ReLU非线性函数对第一卷积结果进行激活处理，即可得到第一卷积特征。再通过3*3的卷积核，输出通道数为64的卷积矩阵对第一卷积特征进行第二次卷积处理，得到第二卷积结果。并通过BN层对第二卷积结果进行归一化处理，以及通过ReLU非线性函数对第二卷积结果进行激活处理，即可得到卷积特征。将得到两个卷积特征一个用于池化处理，一个用于跳跃传输与上采样特征连接。示例性地，初始图像的灰度图为572*572*1，采用3*3*64的卷积矩阵对初始图像进行第一次卷积处理，得到570*570*64的卷积结果。采用3*3*64的卷积矩阵对卷积结果进行第二次卷积处理，得到568*568*64的卷积特征。

S2012，通过所述预设扩散模型中的下池化层对所述卷积特征进行池化处理，得到下采样特征。

具体地，在得到卷积特征之后，对卷积特征进行最大值池化处理，即采用2*2的池化矩阵对卷积特征进行池化处理，也即将每个池化矩阵中的最大值确定为池化结果，即可得到池化特征，如通过2*2的池化矩阵对568*568*64的卷积特征进行池化处理，即可得到248*248*64的池化特征。如此通过上述方式经过至少一次重复处理，也即(3*3卷积+2*2池化)*N次(N可以为1、2、3等)，在每一次池化之后的第一个3*3卷积操作，3*3卷积核数量成倍增加。达到最底层时即最后一次最大值池化之后，图像变为32*32*512大小，然后再进行2次的3*3*1024的卷积操作，最后变化为28*28*1024的大小图像，并将该图像确定为下采样特征。如此，通过上述方式得到待迁移图像中的所有下采样特征。

本发明实施例通过卷积层对所述待迁移图像进行两次卷积处理，从而实现了对卷积特征的获取。再通过下池化层对所述卷积特征进行池化处理，从而实现了对池化特征的获取。通过至少一组卷积池化处理，从而实现了对待迁移图像中的下采样特征的提取。

在一实施例中，步骤S202中，也即通过所述预设扩散模型中的上采样模块对所述下采样特征进行上采样处理，得到表情特征，包括：

S2021，通过所述预设扩散模型中的所述上池化层对所述下采样特征进行池化处理，得到上池化特征。

可理解地，上池化特征为通过2*2的池化矩阵对下采样特征进行池化处理得到的。

具体地，在得到所有下采样特征之后，对所有下采样特征进行上池化处理，即采用2*2的池化矩阵对下采样特征进行池化处理，将每个池化矩阵中的最大值作为池化结果，从而对下采样特征进行维度恢复。也即采用2*2的池化矩阵对28*28*1024的下采样特征进行池化处理，得到56*56*512的上池化特征。

S2022，通过所述预设扩散模型中的所述转置卷积层对所述上池化特征进行转置卷积处理，得到上采样特征。

S2023，对所有所述上采样特征进行一维卷积处理，得到所有所述表情特征。

可理解地，转置卷积层为上采样过程中的卷积层，用于将下采样特征恢复到原来的维度。转置卷积特征为对下采样特征进行转置卷积得到的。下采样特征为将上采样特征恢复到原来维度得到的。

具体地，在得到所有上池化特征之后，将通过跳跃传输的第四次卷积特征和第一次上池化特征进行拼接，得到56*56*1024的拼接特征。对该拼接特征进行转置卷积处理，也即先采用3*3*512的卷积矩阵对拼接特征进行第一次卷积处理，得到54*54*512的转置卷积结果。并通过BN层对第一转置卷积结果进行归一化处理，以及通过ReLU函数对第一转置卷积结果进行激活处理，即可得到第一转置卷积特征。再采用3*3*512的卷积矩阵对第一转置卷积矩阵进行第二次卷积处理，得到52*52*256的第二转置卷积结果。并通过BN层对第二转置卷积结果进行归一化处理，以及通过ReLU函数对第二转置卷积结果进行激活处理，即可第二转置卷积特征。

如此，通过上述方式采用相同的卷积核3*3，不同的输出通道数的卷积矩阵和相同的卷积核2*2的池化矩阵经过至少一次重复处理，也即(3*3卷积+2*2池化)*N次(N可以为1、2、3等)，在每一次上池化之后将通过跳跃传输的卷积特征与上池化特征进行拼接，再通过两次卷积核为3*3的卷积操作，3*3卷积核数量成倍减少。到达最后一层后经过两次转置卷积处理，得到388*388*54的图像，并将该图像确定为上采样特征。进一步地，对所有上采样特征进行一维卷积处理，也即采用1*1*2的一维卷积矩阵对所有上采样特征进行预测处理，从而得到待迁移图像对应的表情特征。

在另一实施例中，在上采样过程中采用双线性插值法对下采样特征进行维度恢复处理，也即先选取四个点Q11(x1，y1)、Q12(x1，y2)、Q21(x2，y1)和Q22(x2，y2)，在X方向插值得到R1(x，y1)和R2(x，y2)，R1的坐标为R1(x，y1)＝(x2-x)/(x2-x1)Q11+(x-x1)/(x2-x1)Q21，R2的坐标为R2(x，y2)＝(x2-x)/(x2-x1)Q12+(x-x1)/(x2-x1)Q22。在Y方向插值得到P(x，y)，P的坐标为P(x，y)＝(y2-y)/(y2-y1)R1+(y-y1)/(y2-y1)R2。如此，通过上述方式将下采样特征恢复到原来的维度，即可得到表情特征。

本发明实施例通过对下采样特征进行上池化处理，从而实现了下采样特征恢复到原来的维度。通过将上池化特征和卷积特征进行融合处理，实现了对下采样特征的增强。通过对融合特征进行至少一组卷积池化处理，实现了对上采样特征的获取，并通过一维卷积处理，从而实现了对表情特征的提取。

在一实施例中，如图4所示，步骤S40中，也即对所述表情特征和所述轮廓特征进行图像融合，得到目标人脸图像，包括：

S401，根据所有所述表情语义标签，将所有所述表情特征融合至所述轮廓特征，得到待滤波图像。

可理解地，待滤波图像为将表情特征和轮廓特征融合得到的。

具体地，在得到轮廓语义标签之后，根据所有表情语义标签和轮廓语义标签将表情特征迁移到轮廓特征上，从而使得表情特征和轮廓特征的融合。通过表情语义标签确定表情特征在待迁移图像上的位置，根据轮廓语义标签确定轮廓特征在待分割图像上的位置，从而通过所有表情语义标签和轮廓语义标签，将提取的表情特征填充到轮廓特征的位置。如此，将所有表情特征填充到轮廓特征中，即将待迁移图像的表情特征迁移到待分割图像中，即可得到待滤波图像。

S402，通过中值滤波法对所述待滤波图像进行滤波处理，得到目标人脸图像。

可理解地，目标人脸图像为对待滤波图像经过中值滤波得到的。

具体地，在得到待滤波图像之后，选取一个采样窗口，并在待滤波图像上选取N个(奇数个，根据图像大小进行设置)连续采样点。通过采样窗口对N个采样点进行采样，得到N个采样值，并删除所有采样值中的最小值和最大值，将剩余采样值的中间值作为滤波值。根据该滤波值对待滤波图像进行滤波处理，从而得到目标人脸图像。

本发明实施例通过所有表情语义标签和轮廓语义标签，将所有表情特征和轮廓特征融合，从而实现了表情迁移，降低了图像融合的复杂度。通过中值滤波法对待滤波图像进行滤波处理，从而实现了对目标人脸图像的获取，并使得目标人脸图像更自然。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于扩散模型的表情迁移装置，该基于扩散模型的表情迁移装置与上述实施例中基于扩散模型的表情迁移方法一一对应。如图5所示，该基于扩散模型的表情迁移装置包括图像获取模块11、特征提取模块12、标签获取模块13和表情迁移模块14。各功能模块详细说明如下：

图像获取模块11，用于获取待迁移图像和待分割图像；所述待迁移图像和所述待分割图像是不同的图像；

特征提取模块12，用于将所述待迁移图像和所述待分割图像分别输入至预设扩散模型中，获取所述待迁移图像对应的表情特征，以及所述待分割图像对应的轮廓特征；

标签获取模块13，用于将所述表情特征和所述轮廓特征分别输入至预设标签模型中，获取所述表情特征对应的表情语义标签，以及所述轮廓特征对应的轮廓语义标签；

表情迁移模块14，用于根据所述表情语义标签和所述轮廓语义标签，对所述表情特征和所述轮廓特征进行图像融合，得到目标人脸图像。

在一实施例中，所述图像获取模块11包括：

噪音扩散单元，用于获取初始图像，并对所述初始图像进行噪音扩散处理，得到噪音初始图像；

去噪预测单元，用于对所述噪音初始图像进行去噪预测处理，得到所述待迁移图像。

在一实施例中，所述特征提取模块12包括：

下采样特征单元，用于通过所述预设扩散模型中的下采样模块对所述待迁移图像进行下采样处理，得到下采样特征；

上采样特征单元，用于通过所述预设扩散模型中的上采样模块对所述下采样特征进行上采样处理，得到表情特征。

在一实施例中，所述下采样特征单元包括：

卷积特征子单元，用于通过所述预设扩散模型中的所述卷积层对所述待迁移图像进行卷积处理，得到卷积特征；

下池化子单元，用于通过所述预设扩散模型中的下池化层对所述卷积特征进行池化处理，得到下采样特征。

在一实施例中，所述上采样特征单元包括：

上池化子单元，用于通过所述预设扩散模型中的所述上池化层对所述下采样特征进行池化处理，得到上池化特征；

转置卷积子单元，用于通过所述预设扩散模型中的所述转置卷积层对所述上池化特征进行转置卷积处理，得到上采样特征；

一维卷积子单元，用于对所有所述上采样特征进行一维卷积处理，得到所有所述表情特征。

在一实施例中，所述表情迁移模块14包括：

图像融合单元，用于根据所有所述表情语义标签，将所有所述表情特征融合至所述轮廓特征，得到待滤波图像；

图像滤波单元，用于通过中值滤波法对所述待滤波图像进行滤波处理，得到目标人脸图像。

关于基于扩散模型的表情迁移装置的具体限定可以参见上文中对于基于扩散模型的表情迁移方法的限定，在此不再赘述。上述基于扩散模型的表情迁移装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中基于扩散模型的表情迁移方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于扩散模型的表情迁移方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于扩散模型的表情迁移方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于扩散模型的表情迁移方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围内。

Claims

1.一种基于扩散模型的表情迁移方法，其特征在于，包括：

2.如权利要求1所述的基于扩散模型的表情迁移方法，其特征在于，所述获取待迁移图像之前，还包括：

获取初始图像，并对所述初始图像进行噪音扩散处理，得到噪音初始图像；

对所述噪音初始图像进行去噪预测处理，得到所述待迁移图像。

3.如权利要求1所述的基于扩散模型的表情迁移方法，其特征在于，所述获取所述待迁移图像对应的表情特征，包括：

通过所述预设扩散模型中的下采样模块对所述待迁移图像进行下采样处理，得到下采样特征；

通过所述预设扩散模型中的上采样模块对所述下采样特征进行上采样处理，得到表情特征。

4.如权利要求3所述的基于扩散模型的表情迁移方法，其特征在于，所述下采样模块包括至少一组的卷积层以及下池化层；

所述通过所述预设扩散模型中的下采样模块对所述待迁移图像进行下采样处理，得到下采样特征，包括：

通过所述预设扩散模型中的所述卷积层对所述待迁移图像进行卷积处理，得到卷积特征；

通过所述预设扩散模型中的下池化层对所述卷积特征进行池化处理，得到下采样特征。

5.如权利要求3所述的基于扩散模型的表情迁移方法，其特征在于，所述上采样模块包括至少一组的转置卷积层以及上池化层；

所述通过所述预设扩散模型中的上采样模块对所述下采样特征进行上采样处理，得到表情特征，包括：

通过所述预设扩散模型中的所述上池化层对所述下采样特征进行池化处理，得到上池化特征；

通过所述预设扩散模型中的所述转置卷积层对所述上池化特征进行转置卷积处理，得到上采样特征；

对所有所述上采样特征进行一维卷积处理，得到所有所述表情特征。

6.如权利要求1所述的基于扩散模型的表情迁移方法，其特征在于，所述对所述表情特征和所述轮廓特征进行图像融合，得到目标人脸图像，包括：

根据所有所述表情语义标签，将所有所述表情特征融合至所述轮廓特征，得到待滤波图像；

通过中值滤波法对所述待滤波图像进行滤波处理，得到目标人脸图像。

7.如权利要求1所述的基于扩散模型的表情迁移方法，其特征在于，所述将所述待迁移图像和所述待分割图像分别输入至预设扩散模型中之前，包括：

获取图像训练数据集；所述图像训练数据集包括至少一个图像训练数据；一个所述图像训练数据关联一个样本特征；

获取预设训练模型，通过所述预设训练模型对所述图像训练数据进行预测处理，得到预测特征；

根据同一所述图像训练数据对应的所述样本特征以及所述预测特征，确定所述图像训练数据的预测损失值；

在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设训练模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设训练模型记录为预设扩散模型。

8.一种基于扩散模型的表情迁移装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于扩散模型的表情迁移方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于扩散模型的表情迁移方法。