CN112508830B

CN112508830B - 图像处理模型的训练方法、装置、设备及存储介质

Info

Publication number: CN112508830B
Application number: CN202011379281.8A
Authority: CN
Inventors: 李鑫; 李甫; 林天威; 张赫男
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-10-13
Anticipated expiration: 2040-11-30
Also published as: CN112508830A

Abstract

本申请公开了图像处理模型的训练方法、装置、设备及存储介质，涉及计算机视觉和深度学习技术领域。具体实现方案为：获取训练样本，训练样本包括一个目标图像和至少一个参考图像；分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定训练样本的所有参考图像的综合外表特征；将综合外表特征和目标图像的动作特征输入图像处理模型中的生成器，得到动作迁移图像；利用动作迁移图像及训练样本计算损失函数的值，根据损失函数的值调整图像处理模型的参数。本申请实施例能够提高合成的动作迁移图像的分辨率及清晰度。

Description

图像处理模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及计算机视觉和深度学习技术领域。

背景技术

随着人工智能和计算机技术的发展，出现了肢体动作迁移技术。肢体动作迁移是指将目标图像或目标视频中的人换成参考图像中的人，同时保持参考图像中人的外表特征。

例如，用户A可以上传一张自己的图像，选择目标视频，就可以合成一段新的视频，该新的视频中的对象是用户A，该视频中用户A的动作与目标视频中人物的动作相同；也就是使目标视频中原有对象的动作去驱动用户A的身体，生成合成图像。

目前的肢体动作迁移技术只使用一张参考图像，导致合成的图像的分辨率较低，清晰度较差。

发明内容

本申请提供了一种图像处理模型的训练方法、装置、设备及存储介质。

根据本申请的一方面，提供了一种图像处理模型的训练方法，包括：

获取训练样本，训练样本包括一个目标图像和至少一个参考图像；

分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；

利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定训练样本的所有参考图像的综合外表特征；

将综合外表特征和目标图像的动作特征输入图像处理模型中的生成器，得到动作迁移图像；

利用动作迁移图像及训练样本计算损失函数的值，根据损失函数的值调整图像处理模型的参数。

根据本申请的另一方面，提供了一种图像处理方法，包括：

获取目标图像和至少一个参考图像；

利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定所有参考图像的综合外表特征；

将综合外表特征和目标图像的动作特征输入预先训练的图像处理模型中的生成器，得到动作迁移图像。

根据本申请的另一方面，提供了一种图像处理模型的训练装置，包括：

样本获取模块，用于获取训练样本，训练样本包括一个目标图像和至少一个参考图像；

第一提取模块，用于分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；

第一确定模块，用于利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定训练样本的所有参考图像的综合外表特征；

第一输入模块，用于将综合外表特征和目标图像的动作特征输入图像处理模型中的生成器，得到动作迁移图像；

训练模块，用于利用动作迁移图像及训练样本计算损失函数的值，根据损失函数的值调整图像处理模型的参数。

根据本申请的另一方面，提供了一种图像处理装置，包括：

图像获取模块，用于获取目标图像和至少一个参考图像；

第二提取模块，用于分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；

第二确定模块，用于利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定所有参考图像的综合外表特征；

第二输入模块，用于将综合外表特征和目标图像的动作特征输入预先训练的图像处理模型中的生成器，得到动作迁移图像。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如上所述的方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

本申请实施例提出的图像处理模型的训练方法及图像处理方法，利用一个目标图像和至少一个参考图像进行合成，提取一组参考图像的综合外表特征，因此能够提高合成的动作迁移图像的分辨率及清晰度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例的一种图像处理模型的训练框架示意图；

图2是本申请实施例的一种图像处理模型的训练方法实现流程图一；

图3是本申请实施例的一种图像处理模型的训练方法中，步骤S203的实现流程图；

图4是本申请实施例的一种图像处理模型的训练方法实现流程图二；

图5是本申请实施例的一种图像处理模型的训练方法实现流程图三；

图6是本申请实施例的一种图像处理模型的训练方法实现流程图四；

图7是本申请实施例的一种图像处理模型的使用框架示意图；

图8是本申请实施例的一种图像处理方法实现流程图；

图9是本申请实施例的一种图像处理模型的训练装置900的结构示意图；

图10是本申请实施例的一种图像处理模型的训练装置1000的结构示意图；

图11是本申请实施例的一种图像处理装置1100的结构示意图；

图12是本申请实施例的一种图像处理装置1200的结构示意图；

图13是用来实现本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例提出一种图像处理模型的训练方法，该模型可以用于将用户输入的至少一个参考(reference)图像与一个(target)目标图像进行合成，得到综合了参考图像的外表特征和目标图像的动作特征的合成图像，该图像可以称为伪造(fake)图像。如果用户输入至少一个参考图像，并输入或选择一个目标视频，则可以将用户输入的参考图像与目标视频中的各个帧分别进行合成，得到的合成图像就可以组成一段合成视频。

图1是本申请实施例的一种图像处理模型的训练框架示意图。如图1所示，本申请实施例采用编码器(图1中用E表示)，用于提取各个参考图像的动作特征和外表特征、以及目标图像的外表特征。采用注意力(attention)模块，将输入的所有参考图像的外表特征合成为一个综合外表特征；注意力模块在图1中用att表示。图像处理模型可以采用生成对抗网络(GAN，Generative Adversarial Networks)，包括生成器(E)和判别器(D)，生成器主要是为了合成图像，判别器主要是为了区分图像是真实图像还是合成图像(即伪造图像)，二者之间相互对抗，不断学习，最终训练得到图像处理模型。

以下以图1所示的框架图为基础，介绍本申请实施例提出的图像处理模型的训练方法。图2是本申请实施例的一种图像处理模型的训练方法实现流程图，包括：

步骤S201：获取训练样本，该训练样本包括一个目标图像和至少一个参考图像；

步骤S202：分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；

步骤S203：利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定训练样本的所有参考图像的综合外表特征；

步骤S204：将综合外表特征和目标图像的动作特征输入图像处理模型中的生成器，得到动作迁移图像；

步骤S205：利用动作迁移图像及该训练样本计算损失函数的值，根据损失函数的值调整图像处理模型的参数。

步骤S202中，本申请实施例可以采用编码器(E)分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征。在图1所示的框架图中，编码器输出的方形图示表示动作特征，动作特征的大小可以为8*64*64；编码器输出的长条形图示表示外表特征，外表特征可以是维度为2048的向量。

本申请实施例融合多个参考图像的外表特征，可以采用深度学习技术中的注意力(attention)机制生成融合了所有参考图像外表特征的综合外表特征。图3是本申请实施例的一种图像处理模型的训练方法中，步骤S203的实现流程图。如图3所示，可选地，上述步骤203中包括：

步骤S301：将目标图像的动作特征设置为查询语句(query)；并将每个参考图像动作特征和外表特征设置为一个键值对(Key-Value)，其中，动作特征设置为键(Key)，外表特征设置为值(Value)；

步骤S302：利用查询语句及键值对，采用注意力机制确定每个参考图像的外表特征所对应的加权系数；

步骤S303：利用该加权系数及每个参考图像的外表特征，确定训练样本的所有参考图像的综合外表特征。

例如，将参考图像的外表特征与对应的加权系数相乘，再将相乘后的各个结果相加，得到一个训练样本中所有参考图像的综合外表特征。

可见，加权系数表示了各个参考图像的外表特征的重要程度，一个参考图像的外表特征的加权系数越大，表明该参考图像的外表特征的重要程度越高，则它在所有参考图像的综合外表特征中的比重越大。

加权系数是和参考图像的动作特征与目标图像的动作特征的相似度相关的，一个参考图像的动作与目标图像的动作越相像，则该参考图像的外表特征对应的加权系数越大。也就是说，在提取一组参考图像的综合外表特征时，尽量从与目标图像的动作相像的参考图像中提取，这样提取出的综合外表特征与目标图像的动作特征合成的图像更接近于真实图像。

在生成综合外表特征时，采用的注意力(attention)机制是深度学习技术中的已有技术，在此不再赘述。

针对本申请实施例的图像处理模型中的生成器，至少设计以下两种损失函数：

(1)第一种可以称为重建损失，即当target图像和reference图像中的对象(例如人)是同一个时，重建损失等于fake图像与target图像的差异。容易理解的是，在训练图像处理模型时，希望重建损失的值越小越好，即希望fake图像与target图像越像越好。

基于此，上述步骤S205中的利用动作迁移图像及训练样本计算损失函数的值，包括：

在目标图像中的第一对象与参考图像中的第二对象相同的情况下，计算动作迁移图像与目标图像的差异，将该差异作为损失函数的值。

(2)第二种可以称为特征差比例损失(feature diff ratio loss)，即当target图像和reference图像中的对象(例如人)不是同一个时，特征差比例损失由fake图像的外表特征与reference图像的外表特征的差异、以及fake图像的外表特征与target图像的外表特征的差异决定。容易理解的是，在训练图像处理模型时，希望fake图像的外表特征与reference图像的外表特征的差异越小越好，并且fake图像的外表特征与target图像的外表特征的差异越大越好。

在目标图像中的第一对象与参考图像中的第二对象不同的情况下，提取动作迁移图像的外表特征；

计算动作迁移图像的外表特征与一个参考图像的外表特征的第一差异，并计算动作迁移图像的外表特征与目标图像的外表特征的第二差异；

利用该第一差异和第二差异计算损失函数的值。

可选地，上述利用第一差异和第二差异计算损失函数的值，包括：

计算第一差异和第二差异的比值，将比值作为损失函数的值；其中，损失函数的训练目标为趋近于0。

对于图像处理模型中的判别器(D)，本申请实施例设计了三种训练方式，具体地：

(1)第一种，判别生成器(G)所生成的动作迁移图像的动作是否与目标图像中的动作一致。

例如，生成器采用目标图像Target 1与一组参考图像生成动作迁移图像Fake 1；将该Target 1与Fake 1进行拼接，将拼接得到的图像作为正样本；将其他图像与Fake 1进行拼接，将拼接得到的图像作为负样本。其中，前述拼接可以采用通道拼接方式，即将2个三通道(RGB通道)图拼接为一个六通道图。将正样本和负样本输入判别器(D)，由判别器(D)输出图像属性的判别结果，该图像属性包括正样本和负样本；根据判别器输出的判别结果与真实的图像属性进行比较，根据比较结果对图像处理模型中的参数进行调整。

基于此，如图4所示，本申请实施例提出的训练方法还可以包括：

步骤S401：获取第一目标图像生成的第一动作迁移图像；

步骤S402：将第一目标图像与第一动作迁移图像拼接，将拼接后的图像作为正样本；并将第二目标图像与第一动作迁移图像拼接，将拼接后的图像作为负样本；其中，第二目标图像与第一目标图像的动作特征不同；

步骤S403：将正样本和负样本分别输入图像处理模型中的判别器，得到对应的图像属性的判别结果；图像属性包括正样本和负样本；

步骤S405：根据图像属性的判别结果调整图像处理模型的参数。

(2)第二种，判别生成器(G)所生成的动作迁移图像的外表是否与参考图像的外表一致。

例如，生成器采用目标图像Target 1与一组参考图像Reference 1生成动作迁移图像Fake 1；将该Target 1与一个Reference 1进行拼接，将拼接得到的图像作为正样本；将该Target 1与Target 1进行拼接，将拼接得到的图像作为负样本。其中，前述拼接可以采用通道拼接方式，即将2个三通道(RGB通道)图拼接为一个六通道图。将正样本和负样本输入判别器(D)，由判别器(D)输出图像属性的判别结果，该图像属性包括正样本和负样本；根据判别器输出的判别结果与真实的图像属性进行比较，根据比较结果对图像处理模型中的参数进行调整。

基于此，如图5所示，本申请实施例提出的训练方法还可以包括：

步骤S501：获取第一目标图像和第一参考图像生成的第一动作迁移图像；

步骤S502：将第一参考图像与第一动作迁移图像拼接，将拼接后的图像作为正样本；并将第一目标图像与第一动作迁移图像拼接，将拼接后的图像作为负样本；其中，第一目标图像和第一参考图像的外表特征不同；

步骤S503：将正样本和负样本分别输入图像处理模型中的判别器，得到对应的图像属性的判别结果；图像属性包括正样本和负样本；

步骤S504：根据图像属性的判别结果调整图像处理模型的参数。

(3)第三种，判别输入的图像是生成器(G)生成的动作迁移图像(fake图像)还是真实图像。其中，真实图像作为正样本，fake图像作为负样本。将正样本和负样本输入判别器(D)，由判别器(D)输出图像属性的判别结果，该图像属性包括正样本和负样本；根据判别器输出的判别结果与真实的图像属性进行比较，根据比较结果对图像处理模型中的参数进行调整。

基于此，如图6所示，本申请实施例提出的训练方法还可以包括：

步骤S601：将真实图像作为正样本，将动作迁移图像作为负样本；

步骤S602：将正样本和负样本分别输入图像处理模型中的判别器，得到对应的图像属性的判别结果；图像属性包括正样本和负样本；

步骤S603：根据图像属性的判别结果调整图像处理模型的参数。

以上介绍了本申请实施例提出的图像处理模型的训练方法。图像处理模型中的生成器和判别器是同步训练，且相互促进的。以上述第三种训练模式为例，通过调整生成器的参数，使生成器生成的fake图像更逼真，更接近于真实图像；这就对判别器的判别能力的要求更高。通过调整判别器的参数，使判别器区分fake图像和真实图像的能力更强；这就要求生成器所生成的fake图像更逼真。以此相互促进，得到最终训练完成的图像处理模型。理想情况下，在向判别器输入真实图像或生成器生成的fake图像时，判别器判断准确的概率都是50％，也就是说，生成器所生成的fake图像与真实图像极其相似。

在使用该图像处理模型时，仅使用图像处理模型中的生成器，即将一组参考图像和一个目标图像输入图像处理模型中的生成器，由生成器合成一个动作迁移图像。在进行视频合成时，可以采用该图像处理模型中的生成器将一组参考图像分别与目标视频中的每一帧进行合成，得到多个动作迁移图像，所有动作迁移图像组合即可得到动作迁移视频。

图7是本申请实施例的一种图像处理模型的使用框架示意图，如图7可见，在使用图像处理模型时，仅使用图像处理模型中的生成器。

图8是本申请实施例的一种图像处理方法实现流程图，包括：

步骤S801：获取目标图像和至少一个参考图像；

步骤S802：分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；

步骤S803：利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定参考图像的综合外表特征；

步骤S804：将综合外表特征和目标图像的动作特征输入预先训练的图像处理模型中的生成器，得到动作迁移图像。

在本实施例中，提取动作特征及外表特征的方式与上述模型训练实施例中的对应方式相同，在此不再赘述。

可选地，上述步骤S803包括：

将目标图像的动作特征设置为查询语句；并将每个参考图像动作特征和外表特征设置为一个键值对，其中，动作特征设置为键，外表特征设置为值；

利用查询语句及键值对，采用注意力机制确定每个参考图像的外表特征所对应的加权系数；

利用加权系数及每个参考图像的外表特征，确定所有参考图像的综合外表特征。

在本实施例中，确定参考图像的综合外表特征的具体方式与上述模型训练实施例中的对应方式相同，在此不再赘述。

采用本申请实施例方式提出的图像处理方法实现动作迁移，由于集合了多个参考图像的外表特征，因此合成的图像的分辨率较高，清晰度较高。并且，本申请实施例提升了在合成视频时的时序连续性。

本申请实施例还提出一种图像处理模型的训练装置，图9是本申请实施例的一种图像处理模型的训练装置900的结构示意图，包括：

样本获取模块910，用于获取训练样本，训练样本包括一个目标图像和至少一个参考图像；

第一提取模块920，用于分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；

第一确定模块930，用于利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定训练样本的所有参考图像的综合外表特征；

第一输入模块940，用于将综合外表特征和目标图像的动作特征输入图像处理模型中的生成器，得到动作迁移图像；

训练模块950，用于利用动作迁移图像及训练样本计算损失函数的值，根据损失函数的值调整图像处理模型的参数。

图10是本申请实施例的一种图像处理模型的训练装置1000的结构示意图，可选地，上述第一确定模块930包括：

第一设置子模块931，用于将目标图像的动作特征设置为查询语句；并将每个参考图像动作特征和外表特征设置为一个键值对，其中，动作特征设置为键，外表特征设置为值；

第一加权系数确定子模块932，用于利用查询语句及键值对，采用注意力机制确定每个参考图像的外表特征所对应的加权系数；

第一综合确定子模块933，用于利用加权系数及每个参考图像的外表特征，确定训练样本的所有参考图像的综合外表特征。

可选地，上述训练模块950用于：

利用第一差异和第二差异计算损失函数的值。

可选地，上述训练模块950用于：

在目标图像中的第一对象与参考图像中的第二对象相同的情况下，计算动作迁移图像与目标图像的差异，将差异作为损失函数的值。

可选地，上述训练模块950还用于：

获取第一目标图像生成的第一动作迁移图像；

将第一目标图像与第一动作迁移图像拼接，将拼接后的图像作为正样本；并将第二目标图像与第一动作迁移图像拼接，将拼接后的图像作为负样本；其中，第二目标图像与第一目标图像的动作特征不同；

将正样本和负样本分别输入图像处理模型中的判别器，得到对应的图像属性的判别结果；图像属性包括正样本和负样本；

根据图像属性的判别结果调整图像处理模型的参数。

可选地，上述训练模块950还用于：

获取第一目标图像和第一参考图像生成的第一动作迁移图像；

将第一参考图像与第一动作迁移图像拼接，将拼接后的图像作为正样本；并将第一目标图像与第一动作迁移图像拼接，将拼接后的图像作为负样本；其中，第一目标图像和第一参考图像的外表特征不同；

根据图像属性的判别结果调整图像处理模型的参数。

可选地，上述训练模块950还用于：

将真实图像作为正样本，将动作迁移图像作为负样本；

根据图像属性的判别结果调整图像处理模型的参数。

本申请实施例各装置中的各模块的功能可以参见上述模型训练方法中的对应描述，在此不再赘述。

本申请实施例还提出一种图像处理装置，图11是本申请实施例的一种图像处理装置1100的结构示意图，包括：

图像获取模块1110，用于获取目标图像和至少一个参考图像；

第二提取模块1120，用于分别提取各个参考图像的动作特征和外表特征，并提取目标图像的动作特征；

第二确定模块1130，用于利用各个参考图像的动作特征和外表特征、以及目标图像的动作特征，确定所有参考图像的综合外表特征；

第二输入模块1140，用于将综合外表特征和目标图像的动作特征输入预先训练的图像处理模型中的生成器，得到动作迁移图像。

图12是本申请实施例的一种图像处理装置1200的结构示意图，可选地，

可选地，上述第二确定模块1130包括：

第二设置子模块1131，用于将目标图像的动作特征设置为查询语句；并将每个参考图像动作特征和外表特征设置为一个键值对，其中，动作特征设置为键，外表特征设置为值；

第二加权系数确定子模块1132，用于利用查询语句及键值对，采用注意力机制确定每个参考图像的外表特征所对应的加权系数；

第二综合确定子模块1133，用于利用加权系数及每个参考图像的外表特征，确定所有参考图像的综合外表特征。

本申请实施例各装置中的各模块的功能可以参见上述图像处理方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图13所示，是根据本申请实施例的图像处理模型的训练方法或图像处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器1301、存储器1302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器1301为例。

存储器1302即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的图像处理模型的训练方法或图像处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像处理模型的训练方法或图像处理方法。

存储器1302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像处理模型的训练方法或图像处理方法对应的程序指令/模块(例如，附图9所示的样本获取模块910、第一提取模块920、第一确定模块930、第一输入模块940和训练模块950，或者图11所示的图像获取模块1110、第二提取模块1120、第二确定模块1130和第二输入模块1140)。处理器1301通过运行存储在存储器1302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像处理模型的训练方法或图像处理方法。

存储器1302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图像处理模型的训练方法或图像处理方法的电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1302可选包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至图像处理模型的训练方法或图像处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图像处理模型的训练方法或图像处理方法的电子设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置1303可接收输入的数字或字符信息，以及产生与图像处理模型的训练方法或图像处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1304可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像处理模型的训练方法，包括：

获取训练样本，所述训练样本包括一个目标图像和至少一个参考图像；

分别提取各个所述参考图像的动作特征和外表特征，并提取所述目标图像的动作特征；

利用所述各个所述参考图像的动作特征和外表特征、以及所述目标图像的动作特征，采用深度学习技术中的注意力机制，确定每个参考图像的外表特征所对应的加权系数，利用所述加权系数及所述每个参考图像的外表特征，确定所述训练样本的所有参考图像的综合外表特征，其中，所述加权系数与所述目标图像的动作特征和所述参考图像的动作特征的相似度相关；

将所述综合外表特征和所述目标图像的动作特征输入所述图像处理模型中的生成器，得到动作迁移图像；

利用所述动作迁移图像及所述训练样本计算损失函数的值，根据所述损失函数的值调整所述图像处理模型的参数；

所述利用所述动作迁移图像及所述训练样本计算损失函数的值，包括：

在所述目标图像中的第一对象与所述参考图像中的第二对象不同的情况下，提取所述动作迁移图像的外表特征；

计算所述动作迁移图像的外表特征与一个所述参考图像的外表特征的第一差异，并计算所述动作迁移图像的外表特征与所述目标图像的外表特征的第二差异；

利用所述第一差异和第二差异计算损失函数的值。

2.根据权利要求1所述的方法，其中，所述利用所述各个所述参考图像的动作特征和外表特征、以及所述目标图像的动作特征，采用深度学习技术中的注意力机制，确定每个参考图像的外表特征所对应的加权系数，利用所述加权系数及所述每个参考图像的外表特征，确定所述训练样本的所有参考图像的综合外表特征，包括：

将所述目标图像的动作特征设置为查询语句；并将每个所述参考图像动作特征和外表特征设置为一个键值对，其中，所述动作特征设置为键，所述外表特征设置为值；

利用所述查询语句及所述键值对，采用注意力机制确定每个参考图像的外表特征所对应的加权系数；

利用所述加权系数及所述每个参考图像的外表特征，确定所述训练样本的所有参考图像的综合外表特征。

3.根据权利要求1所述的方法，所述利用所述第一差异和第二差异计算损失函数的值，包括：

计算所述第一差异和第二差异的比值，将所述比值作为所述损失函数的值；其中，所述损失函数的训练目标为趋近于0。

4.根据权利要求1所述的方法，所述利用所述动作迁移图像及所述训练样本计算损失函数的值，包括：

在所述目标图像中的第一对象与所述参考图像中的第二对象相同的情况下，计算所述动作迁移图像与所述目标图像的差异，将所述差异作为所述损失函数的值。

5.根据权利要求1所述的方法，还包括，

获取第一目标图像生成的第一动作迁移图像；

将所述第一目标图像与所述第一动作迁移图像拼接，将拼接后的图像作为正样本；并将第二目标图像与所述第一动作迁移图像拼接，将拼接后的图像作为负样本；其中，所述第二目标图像与所述第一目标图像的动作特征不同；

将所述正样本和负样本分别输入所述图像处理模型中的判别器，得到对应的图像属性的判别结果；所述图像属性包括正样本和负样本；

根据所述图像属性的判别结果调整所述图像处理模型的参数。

6.根据权利要求1所述的方法，还包括，

将所述第一参考图像与所述第一动作迁移图像拼接，将拼接后的图像作为正样本；并将第一目标图像与所述第一动作迁移图像拼接，将拼接后的图像作为负样本；其中，所述第一目标图像和第一参考图像的外表特征不同；

7.根据权利要求1所述的方法，还包括，

将真实图像作为正样本，将所述动作迁移图像作为负样本；

8.一种图像处理方法，包括：

获取目标图像和至少一个参考图像；

利用所述各个所述参考图像的动作特征和外表特征、以及所述目标图像的动作特征，采用深度学习技术中的注意力机制，确定每个参考图像的外表特征所对应的加权系数，利用所述加权系数及所述每个参考图像的外表特征，确定所有参考图像的综合外表特征，其中，所述加权系数与所述目标图像的动作特征和所述参考图像的动作特征的相似度相关；

将所述综合外表特征和所述目标图像的动作特征输入如权利要求1至7任一项所述的图像处理模型的训练方法预先训练的图像处理模型中的生成器，得到动作迁移图像。

9.根据权利要求8所述的方法，其中，所述利用所述各个所述参考图像的动作特征和外表特征、以及所述目标图像的动作特征，采用深度学习技术中的注意力机制，确定每个参考图像的外表特征所对应的加权系数，利用所述加权系数及所述每个参考图像的外表特征，确定所有参考图像的综合外表特征，包括：

利用所述加权系数及所述每个参考图像的外表特征，确定所有参考图像的综合外表特征。

10.一种图像处理模型的训练装置，包括：

样本获取模块，用于获取训练样本，所述训练样本包括一个目标图像和至少一个参考图像；

第一提取模块，用于分别提取各个所述参考图像的动作特征和外表特征，并提取所述目标图像的动作特征；

第一确定模块，用于利用所述各个所述参考图像的动作特征和外表特征、以及所述目标图像的动作特征，采用深度学习技术中的注意力机制，确定每个参考图像的外表特征所对应的加权系数，利用所述加权系数及所述每个参考图像的外表特征，确定所述训练样本的所有参考图像的综合外表特征，其中，所述加权系数与所述目标图像的动作特征和所述参考图像的动作特征的相似度相关；

第一输入模块，用于将所述综合外表特征和所述目标图像的动作特征输入所述图像处理模型中的生成器，得到动作迁移图像；

训练模块，用于利用所述动作迁移图像及所述训练样本计算损失函数的值，根据所述损失函数的值调整所述图像处理模型的参数；

所述训练模块用于：

利用所述第一差异和第二差异计算损失函数的值。

11.根据权利要求10所述的装置，其中，所述第一确定模块包括：

第一设置子模块，用于将所述目标图像的动作特征设置为查询语句；并将每个所述参考图像动作特征和外表特征设置为一个键值对，其中，所述动作特征设置为键，所述外表特征设置为值；

第一加权系数确定子模块，用于利用所述查询语句及所述键值对，采用注意力机制确定每个参考图像的外表特征所对应的加权系数；

第一综合确定子模块，用于利用所述加权系数及所述每个参考图像的外表特征，确定所述训练样本的所有参考图像的综合外表特征。

12.根据权利要求10所述的装置，所述训练模块用于：

13.根据权利要求10所述的装置，所述训练模块用于：

14.根据权利要求10所述的装置，所述训练模块还用于：

获取第一目标图像生成的第一动作迁移图像；

15.根据权利要求10所述的装置，所述训练模块还用于：

16.根据权利要求10所述的装置，所述训练模块还用于：

将真实图像作为正样本，将所述动作迁移图像作为负样本；

17.一种图像处理装置，包括：

图像获取模块，用于获取目标图像和至少一个参考图像；

第二提取模块，用于分别提取各个所述参考图像的动作特征和外表特征，并提取所述目标图像的动作特征；

第二确定模块，用于利用所述各个所述参考图像的动作特征和外表特征、以及所述目标图像的动作特征，采用深度学习技术中的注意力机制，确定每个参考图像的外表特征所对应的加权系数，利用所述加权系数及所述每个参考图像的外表特征，确定所有参考图像的综合外表特征，其中，所述加权系数与所述目标图像的动作特征和所述参考图像的动作特征的相似度相关；

第二输入模块，用于将所述综合外表特征和所述目标图像的动作特征输入如权利要求10至16任一项所述的图像处理模型的训练装置预先训练的图像处理模型中的生成器，得到动作迁移图像。

18.根据权利要求17所述的装置，其中，所述第二确定模块包括：

第二设置子模块，用于将所述目标图像的动作特征设置为查询语句；并将每个所述参考图像动作特征和外表特征设置为一个键值对，其中，所述动作特征设置为键，所述外表特征设置为值；

第二加权系数确定子模块，用于利用所述查询语句及所述键值对，采用注意力机制确定每个参考图像的外表特征所对应的加权系数；

第二综合确定子模块，用于利用所述加权系数及所述每个参考图像的外表特征，确定所有参考图像的综合外表特征。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-9中任一项所述的方法。