CN116630479A

CN116630479A - 图像生成方法、装置、电子设备及可读存储介质

Info

Publication number: CN116630479A
Application number: CN202310592256.5A
Authority: CN
Inventors: 吴飞
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-22

Abstract

本申请公开了一种图像生成方法、装置、电子设备及可读存储介质，属于人工智能技术领域。该方法包括：确定原始图像和N个驱动图像，并获取原始图像中主体的第一姿态位置信息和N个驱动图像中主体的N个第二姿态位置信息，N为正整法数；以第i个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；基于第i个扭曲姿态位置信息，对原始图像执行姿态迁移处理，得到原始图像对应的第i个姿态迁移图像。

Description

图像生成方法、装置、电子设备及可读存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种图像生成方法、装置、电子设备及可读存储介质。

背景技术

当前在聊天社交软件中，越来越多的用户喜欢用表情包来表达情绪，表情包相比于文字的表现能力更加突出，而表情包中又可以区分为静态表情和动态表情，动态表情包的表达能力更胜一筹。

目前，表情包的制作主要分为以下三种：方式1，通过录制或截取一段视频，并添加一些文字后转成图形交换格式(Graphics Interchange Format，GIF)格式，从而得到动态表情包；方式2，设计师绘制一套静态表情包图片，然后以GIF格式将一套静态表情包串起来，从而构成动态表情包。

然而，按照上述方法，上述方式1可能需要反复多次录制或截取视频，才能得到满意的表情包素材上述方式2专业程度高且难度大。如此相关技术中制作表情包存在制作过程复杂且难度较大的问题。

发明内容

本申请实施例的目的是提供一种图像生成方法、装置、电子设备及可读存储介质，能够解决制作表情包存在制作过程复杂且难度较大的问题。

第一方面，本申请实施例提供了一种图像生成方法，该方法包括：确定原始图像和N个驱动图像，并获取原始图像中主体的第一姿态位置信息和N个驱动图像中主体的N个第二姿态位置信息，N为正整数；以第i个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；基于第i个扭曲姿态位置信息，对原始图像执行姿态迁移处理，得到原始图像对应的第i个姿态迁移图像。

第二方面，本申请实施例提供了一种图像生成装置，所述装置包括：所述装置包括：确定模块、获取模块和处理模块。所述确定模块，用于确定原始图像和N个驱动图像；所述获取模块，用于获取所述确定模块确定的所述原始图像中主体的第一姿态位置信息和所述N个驱动图像中主体的N个第二姿态位置信息，N为正整数；所述处理模块，用于以所述获取模块获取的第i个所述第二姿态位置信息为参考，对所述获取模块获取的所述第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；所述处理模块，还用于基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，可以确定原始图像和N个驱动图像，并获取原始图像中主体的第一姿态位置信息和N个驱动图像中主体的N个第二姿态位置信息，N为正整数；以第i个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；基于第i个扭曲姿态位置信息，对原始图像执行姿态迁移处理，得到原始图像对应的第i个姿态迁移图像。通过该方案，由于可以基于驱动图像中主体的第二姿态位置信息指导原始图像进行姿态扭曲，因此可以使得姿态迁移图像中主体的姿态与驱动图像中主体的姿态较为相似，即通过原始图像和驱动图像即可自动生成姿态迁移图像，因此可以简化表情包的制作过程，降低表情包制作难度。

附图说明

图1是本申请实施例提供的图像生成方法的流程示意图之一；

图2(a)是本申请实施例提供的图像生成方法对应的界面示意图之一；

图2(b)是本申请实施例提供的图像生成方法对应的界面示意图之二；

图3(a)是本申请实施例提供的图像生成方法对应的界面示意图之三；

图3(b)是本申请实施例提供的图像生成方法对应的界面示意图之四三；

图4是本申请实施例提供的图像生成方法对应的关键点检测示意图；

图5是本申请实施例提供的图像生成方法中关键点局部重组示意图；

图6是本申请实施例提供的关键点扭曲模型的结构示意图；

图7是本申请实施例提供的姿态迁移模型的网络结构示意图；

图8是本申请实施例提供的表情包自动生成方法对应的算法框架示意图；

图9是本申请实施例提供的图像生成方法的流程示意图之二；

图10是本申请实施例提供的图像生成装置的结构示意图；

图11是本申请实施例提供的电子设备的结构示意图之一；

图12是本申请实施例提供的电子设备的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面对本申请实施例中涉及的名词或术语进行解释。

Embedding：一种嵌入式的低维向量，一般用于指导某种特性的生成。

Reshape：将指定矩阵变换成特定维数矩阵一种方法，且矩阵中元素个数不变。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像生成方法、装置、电子设备及可读存储介质进行详细地说明。

本申请实施例提供的图像生成方法、装置、电子设备及可读存储介质可以应用于自定义表情包的场景中。

本申请实施例提供的图像生成方法的执行主体可以为图像生成装置，该图像生成装置可以为电子设备，或电子设备中的功能模块。以下以电子设备为例，对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种图像生成方法，图1示出了本申请实施例提供的一种图像生成方法的流程图。如图1所示，本申请实施例提供的图像生成方法可以包括下述的步骤101至步骤104。

步骤101、电子设备确定原始图像和N个驱动图像。

其中，N可以为正整数。

可选地，N个驱动图像可以包括一个驱动文件中所有图像。

可选地，当N大于1时，驱动文件具体可以为一个驱动视频或一个动态表情包；N＝1时，驱动文件为一个图像，如一个静态表情包。

可选地，驱动文件可以为表情包。如驱动文件为静态表情包或动态表情包。

可选地，驱动文件可以为任意可能的图像或视频。

可选地，原始图像和驱动文件可以为基于用户输入确定的。

可选地，用户可以通过输入选择原始图像和驱动文件，以触发电子设备根据驱动文件中的图像和原始图像自定义表情包。

示例性地，如图2(a)所示，电子设备显示会话应用的表情管理界面，用户可以对选择“自定义表情包”控件上点击，如图2(b)所示，电子设备可以显示“自定义表情”界面，“自定义表情”界面中可以包括三个选项，分别为：添加原始图像选项，添加驱动视频选项，添加驱动图像选项。然后，用户可以根据其实际使用需求，通过对添加原始图像选项的输入，触发电子设备选择原始图像；并通过对添加驱动视频选项或添加驱动图像选项的输入，触发电子设备确定驱动文件。如此，可以实现表情包的自定义制作。

可选地，用户可以通过输入触发电子设备将已有表情包作为原始图像，并基于该表情包和用户选择的驱动文件，生成一个新的表情包。该已有表情包可以为会话应用中的或输入法表情库中的。

示例性地，如图3(a)所示，用户可以通过对输入法界面30中的原始表情包31，触发将该原始表情包作为原始图像，并如图3(b)所示，电子设备在原始图像31上显示“表情迁移”控件32，从而用户可以通过对该“表情迁移”控件32的输入，触发电子设备选择驱动文件。从而可以实现对已有表情包的扩充。如此可以扩充输入法表情包库，并提升用户对输入法表情的使用兴趣。例如，输入法可以为Jovi输入法或其他任意可能的输入法，如电子设备默认的输入法。

步骤102、电子设备获取原始图像中主体的第一姿态位置信息和N个驱动图像中主体的N个第二姿态位置信息。

可选地，原始图像中主体的第一姿态位置信息可以理解为：原始图像中主体的姿态位置信息。

可选地，N个驱动图像与N个第二姿态位置信息一一对应，即N个第二姿态位置信息包括：N个驱动图像中主体的姿态位置信息。

本申请实施例中，主体的姿态位置信息是指：主体的姿态的关键点位置信息。

可选地，本申请实施例中的主体的姿态可以包括：人体姿势和面部表情中的至少之一。其中，人体姿态可以包括但不限于：站姿、坐姿、行姿、手势等。

可选地，以姿态为面部表情为例，主体的姿态位置信息可以包括能够指示面部表情的关键点的位置，其中，面部表情的关键点可以包括但不限于以下一种关键点类型：左眼、右眼、左眉、右眉、鼻子及嘴唇；或者，面部表情的关键点还可以包括左耳和右耳。

可选地，以主体的姿态为主体的手势为例，主体的姿态位置信息可以包括：主体的左手、右手、左胳膊、右胳膊等，任意能够指示主体的手势的关键点。

步骤103、电子设备以第i个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息。

本申请实施例中，由于可以以第i个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，因此可以使得第i个扭曲姿态位置信息与第i个第二姿态位置信息之间的相似度大于或等于第一预设相似度。

需要说明的是，电子设备可以先以第1个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第1个扭曲姿态位置信息；然后再以第2个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第2个扭曲姿态位置信息；以此类推，直至以第N个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，得到第N个扭曲姿态位置信息。换句话说，电子设备可以分别以N个第二姿态位置信息为参考，对第一姿态位置信息执行位置扭曲处理，以得到N个扭曲姿态位置信息。

可以理解，本申请实施例中，是先以驱动图像中图像主体的第二姿态位置信息，指导原始图像中主体的第一姿态位置信息进行扭曲的。如此可以降低后续对原始图像进行表情迁移处理的迁移难度。

可选地，上述第一姿态位置信息可以包括M类原始位置信息，第i个第二姿态位置信息包括与M个原始位置信息一一对应的M类驱动位置信息，M可以为大于1的整数。

需要说明的是，M个原始位置信息与M类驱动位置信息一一对应可以理解为：第一姿态位置信息与第i个第二姿态位置信息包括相同类型关键点的位置信息。

例如，假设第一姿态位置信息包括原始图像中主体的左眼、右眼、左眉、右眉、鼻子及嘴唇的位置信息，即第一姿态位置信息包括6类原始位置信息，第i个第二姿态位置信息第i个驱动图像中主体的左眼、右眼、左眉、右眉、鼻子及嘴唇的位置信息，即第二姿态位置信息包括6类驱动位置信息，且6类原始位置信息与6类驱动位置信息一一对应。

可选地，上述步骤103具体可以通过下述的步骤103a至步骤103c实现。

步骤103a、电子设备将M类原始位置信息和M类驱动位置信息，输入关键点扭曲模型，基于关键点扭曲模型中的全局扭曲块，以M类驱动位置信息为参考，对M类原始位置信息执行位置扭曲处理，得到全局扭曲位置信息。

步骤103b、电子设备基于关键点扭曲模型中的M个局部扭曲块，分别以M类驱动位置信息中一类驱动位置信息为参考，对M类原始位置信息中对应的原始位置信息执行位置扭曲处理，得到M个局部扭曲位置信息。

其中，关键点扭曲模型中的各扭曲块的参数可以用于表征：一类原始位置信息向相同类的驱动位置信息扭曲的扭曲特性性。

本申请实施例中，关键点扭曲模型可以包括一个全局扭曲块、M个局部扭曲块。

其中，全局扭曲块用于以M类驱动位置信息为参考，对M类原始位置信息执行位置扭曲处理，以得到全局扭曲位置信息。每个局部扭曲块用于以一类驱动位置信息为参考，对该类驱动位置信息对应的一类原始位置信息执行位置扭曲处理，以得到该类原始位置信息对应的局部扭曲位置信息。

可以理解，M个局部扭曲块中的不同局部扭曲块用于以不同类驱动位置信息为参考，对对应的原始位置信息执行位置扭曲处理。

本申请实施例中，关键点扭曲模型中的各扭曲块的参数用于表征：相关的原始位置信息向对应的驱动位置信息扭曲的扭曲特性可以理解为：全局扭曲块的模型参数用于表征M类原始位置信息向M类驱动位置信息扭曲的扭曲特性；每个局部扭曲块的模型参数用于表征一类原始位置信息向该原始位置信息对应的驱动位置信息扭曲的扭曲特性。

需要说明的是，关键点扭曲模型融合了关键点全局特性与一系列局部特性，并学习了从原始图像到驱动图像扭曲的扭曲特性或扭曲能力。

本申请实施例中，关键点迁移模块包括(M+1)个扭曲块，即关键点迁移模块采用分组自注意力机制网络结构，即可以对姿态关键点分别制定注意力机制，从而可以有效捕捉原始图像的当前姿态与驱动图像的驱动姿态之间在关键点层面的光流信息。

需要说明的是，扭曲位置信息也可以称为扭曲位置特征。如全局扭曲位置信息可以称为全局扭曲位置特征，局部扭曲位置信息可以称为局部位置扭曲特征。

可选地，在将M个原始位置信息和M个驱动位置信息输入关键点扭曲模型之前，电子设备可以按照姿态关键点类型，对M类原始位置信息和M类驱动位置信息进行局部重组，得到M组局部位置信息，每组局部位置信息中包括：姿态关键点类型相同的一个原始位置信息和一个驱动位置信息。

示例性地，假设驱动文件为驱动视频，该驱动视频中包括N个图像，即N个驱动图像。然后，如图4所示，电子设备可以对原始图像和N个驱动图像进行表情关键点检测，每张图像检测出6个关键点，分别为左眉、右眉、左眼、右眼、鼻子、嘴巴，原始图像中主体的表情关键点位置信息记为Sk，即M类原始位置信息；N个驱动图像的关键点位置信息记分别为Dk1，Dk2，……DKN。SK与每个驱动图像的关键点位置信息进行配对，得到匹配关键点位置信息数组{(Sk，Dk1)、(Sk，Dk2)…(Sk，DkN)}。

可以理解，上述匹配关键点位置信息数组中的每一项，如(Sk，Dki)包括：原始图像中主体的6类表情关键点位置信息，及第i个驱动图像中主体的6类表情关键点位置信息，i∈[1,6]。

然后，以(Sk，Dki)为例，即如图5所示，电子设备可以对Sk和Dki，进行进行局部重组，即将Sk中一类原始位置信息与Dki中的相同类的驱动位置信息分为一组，这样Sk和Dki可以重组为6组局部位置信息。

进一步地，如图6所示，电子设备可以将6组局部位置信息和1组全局位置信息对输入分别输入各自对应的扭曲块(Attention Block)，生成局部和全局的扭曲特征{F1，F2，…，F6，F7}，其中，F1～F6是局部位置扭曲特征，F7是全局位置扭曲特征。

本申请实施例中，每个局部扭曲块用于以一组局部位置信息中的驱动位置信息为参考，对该组局部位置信息中的原始位置信息执行位置扭曲处理，得到一个局部扭曲位置信息。M个局部扭曲块与M组局部位置信息一一对应。

本申请实施例中，关键点扭曲模型中的扭曲块可以为注意力块(AttentionBlock)或自注意力块。

本申请实施例不限定步骤103a和步骤103b的执行顺序，即步骤103a和步骤103b可以同时执行，或者步骤103a可以在执行步骤103b之后执行，或者步骤103a可以在执行步骤103b之前执行。

步骤103c、电子设备基于全局扭曲位置信息和M个局部扭曲位置信息，得到第i个扭曲姿态位置信息。

本申请实施例中，电子设备可以对全局扭曲位置信息和M个局部扭曲位置信息执行融合处理，得到第i个扭曲姿态位置信息。

可选地，上述步骤103c具体可以通过下述的步骤103c1实现。

步骤103c1、电子设备按照全局扭曲位置信息和M个局部扭曲位置信息各自对应的权重，对全局扭曲位置信息和M个局部扭曲位置信息执行加权平均处理，得到第i个扭曲姿态位置信息。

可以理解，全局扭曲位置信息和M个局部扭曲位置信息对应的权重可以相同，也可以不同。

可选地，电子设备可以通过关键点扭曲模型中的加权平均块或加权平均层，按照全局扭曲位置信息和M个局部扭曲位置信息各自对应的权重，对全局扭曲位置信息和M个局部扭曲位置信息执行加权平均处理，得到第i个扭曲姿态位置信息。

示例性地，如图6所示，关键点扭曲模型还可以包括一个加权平均块，如“avg”块，该加权平均块的输入与(M+1)个扭曲块的输出连接，加权平局块用于对(M+1)个扭曲块处理得到的(M+1)个位置扭曲特征执行加权平均处理，得到第i个扭曲姿态位置信息。该加权平均块的模型参数用于表征：(M+1)个扭曲块各自对应的权重。需要说明的是，“注意模块对应的权重”是指，扭曲块处理得到的位置扭曲特征对应的权重。

可选地，全局扭曲块对应的权重可以大于局部扭曲块对应的权重。

例如，局部扭曲块对应的权重为0.12，全局扭曲块对应的权重为0.28。

示例性地，如图6所示，Sk为原始图像，Dki为第i个驱动图像，M个局部扭曲位置信息可以包括位置扭曲特征集合{F1，F2，…，F6，F7}中的F1～F6，全局扭曲特征为位置扭曲特征集合中的F7；为了融合特征并降低计算量，“avg”块可以对位置扭曲特征集合中的特征进行加权平均处理，到第i个扭曲姿态位置信息Ffuse，Ffuse可以是维度为128×128×16的张量。其中，局部扭曲位置信息的权重为0.12，全局扭曲位置信息的权重为0.28。可以理解，“avg”块可以对位置扭曲特征集合中的特征进行加权平均处理的处理公式可以表示为：Ffuse＝(0.12*(F1+F2+F3+F4+F5+F6)+0.28*F7)/7。

需要说明的是，可以对Ffuse执行一次卷积处理，以得到第i个扭曲姿态位置图Ski’。

当然，实际实现中，全局扭曲块和局部扭曲块还可以对应其他任意可能的权重，如全局扭曲块对应的权重可以为0.29，局部扭曲块对应的权重可以为0.11。

如此，由于可以按照各位置扭曲特征对应的权重，将M个局部扭曲位置信息和全局扭曲位置信息进行加权平均处理，得到第i个扭曲姿态位置信息，因此可以确保最终得到的第i个扭曲姿态位置信息更加准确，从而可以确保第i个姿态迁移图像中主体的姿态更加真实自然、且更加贴合第i个驱动图像中主体的姿态。

如此，由于全局扭曲位置信息是M类原始位置信息整体向M类驱动位置信息扭曲得到的，M个局部扭曲位置信息是M类原始位置信息分别向同类的驱动位置信息扭曲得到的，即综合考量了局部和全局位置扭曲特征，因此可以确保最终得到的第i个扭曲姿态位置信息更加准确，从而可以确保第i个姿态迁移图像中主体的姿态更加自然、且贴合第i个驱动图像中主体的姿态。

步骤104、电子设备基于第i个扭曲姿态位置信息，对原始图像执行姿态迁移处理，得到原始图像对应的第i个姿态迁移图像。

其中，i∈[1，N]。

本申请实施例中，电子设备可以通过姿态迁移模型，基于第i个扭曲姿态位置信息，对原始图像执行姿态迁移处理，得到原始图像对应的第i个姿态迁移图像。

可以理解，姿态迁移模型的模型参数可以用于表征：图像中主体的姿态向驱动图像中主体的姿态迁移时的姿态迁移特性。

可选地，电子设备可以基于第i个扭曲姿态位置信息，预测原始图像对应的第i个姿态迁移图像。或者另一种方式中，电子设备可以基于第i个扭曲姿态位置信息，通过姿态迁移模型，推理原始图像对应的第i个姿态迁移图像。

可选地，姿态生成模型兼容图像和视频两种模式，在视频生成的过程中，充分利用视频帧间关系，从而生成更加逼真的N个图像，从而可以根据该N个图像中主体的姿态的变化更加平滑。

可选地，一种方式中，上述步骤104具体可以通过下述的步骤104a至步骤104c实现。

步骤104a、电子设备将原始图像和第i个扭曲姿态位置信息输入姿态迁移模型，获取原始图像的第一图像特征信息。

其中，第一图像特征信息是经过姿态迁移模型中的自编码器的所有特征提取层处理得到的。可以理解，假设自编码器包括X个特征提取层，分别为特征提取层1、特征提取层2，……，特征提取层X，那么：原始图像先由特征提取层1提取特征信息，并将特征提取层1提取到的特征信息输入特征提取层2。由特征提取层2继续进行特征提取，并将特征提取层2提取到的特征信息输入特征提取层3。以此类推，直至由特征提取层X对特征提取层X-1提取的特征信息进行提取，以得到第一图像特征信息。

步骤104b、电子设备将第i个扭曲姿态位置信息与第一图像特征信息融合，得到第i个融合特征信息。

可以理解，步骤104b是在姿态迁移模型中完成的，或通过姿态迁移模型将第i个扭曲姿态位置信息与第一图像特征信息融合，得到第i个融合特征信息。

步骤104c、电子设备基于第i个融合特征信息和姿态迁移模型中自编码器的所有特征提取层提取得到的图像特征信息，生成并输出原始图像对应的第i个姿态迁移图像。

本申请实施例中，姿态迁移模型中自编码器的所有特征提取层提取得到的图像特征信息可以包括：每个特征提取层对前一个特征提取层提取的特征信息进一步提取得到的特征信息。例如，假设自编码器包括3个特征提取层，依次为特征提取层1、特征提取层2和特征提取层3；那么姿态迁移模型中自编码器的各特征提取层提取得到的图像特征信息可以包括：特征提取层1从原始图像中提取的特征信息a，特征提取层2从特征信息a中提取的特征信息b，特征提取层3从特征信息b中提取的特征信息c。

本申请实施例中，姿态迁移模型还可以包括解码器，姿态迁移模型的自编码器的各特征提取层与解码器的对应特征层连接。电子设备可以通过解码器，将第i个融合特征信息及自编码器的所有特征提取层提取到的图像特征信息融合，生成并输出原始图像对应的第i个姿态迁移图像。

具体的，假设自编码器包括X个特征提取层，解码器包括X个特征层，那么：解码器的第1个特征层可以将第i个融合特征信息及自编码器的第1个特征提取层提取到的特征信息融合，得到第1中间融合特征信息；然后由解码器的第2个特征层将第1中间融合特征信息与自编码器的第2个特征提取层提取到的特征信息融合，得到第2个中间融合特征信息，以此类推，由解码器的第X个特征层将第X-1个中间融合特征信息和自编码器的第X个特征提取层提取到的特征信息融合，得到第i个姿态迁移图像。

本申请实施例中，步骤104c可以看做是解码过程。

如此，由于可以通过姿态迁移模型，基于第i个扭曲姿态位置信息，实现对原始图像的姿态迁移处理，因此可以简化姿态迁移的复杂度。

可选地，在另一种方式中，上述步骤104具体可以通过下述的步骤104d至步骤104f实现。

步骤104d、电子设备将原始图像、第i个参考图像和第i个扭曲姿态位置信息输入姿态迁移模型，获取原始图像的第一图像特征信息、第i个参考图像的第二图像特征信息。

其中，第一图像特征信息和第二图像特征信息是分别通过姿态迁移模型中结构相同的两个自编码器的所有特征提取层处理得到的。i＝1，第i个参考图像的像素值为0；i＞1，第i个参考图像为所述原始图像对应的第i-1个姿态迁移图像。可以理解，i的取值不同，第i个参考图像也不同。

对于两个自编码器的所有特征提取层提取到的图像特征信息的描述，参见上述实施例中对姿态迁移模型中自编码器的所有特征提取层提取得到的图像特征信息的相关描述。

可选地，本申请中的姿态迁移模型可以为双分支KGNet(Key Point DrivingGeneration Network)姿态生成模型，该姿态生成模型可以根据姿态关键点进行姿态迁移，如面部表情生成。

可以理解，两个自编码器的结构完全相同，具体而言，两个自编码器包括相同个数的特征提取层，例如，以包括X个特征提取层。

步骤104e、电子设备将第一图像特征信息、第二图像特征信息及第i个扭曲姿态位置信息融合，得到第i个融合特征信息。

可选地，电子设备可以先对第i个扭曲姿态位置信息进行初始化。例如，电子设备可以采用Reshape方式，将第i个扭曲姿态位置信息F_fuse，从128×128×16Reshape成与第一图像特征信息Fs和第二图像特征信息D_i F相同长宽的Embedding，如尺度为32×32×256，初始化后的第i个扭曲姿态位置信息可以记为F_E。

可选地，电子设备将第一图像特征信息、第二图像特征信息和初始化后的第i个扭曲姿态位置信息进行融合，得到第i个融合特征信息，第i个融合特征信息可以为一个向量。

可选地，电子设备可以将F_S、F_E在第三维度执行堆叠操作，以得到第i个融合特征信息。其中，第三维度可以为图7中的双向箭头所示的方向。

步骤104f、电子设备基于第i个融合特征信息及两个自编码器的所有特征提取层提取到的图像特征信息，生成并输出原始图像对应的第i个姿态迁移图像。

如此，由于可以根据原始图像，第i个参考图像以及第i个扭曲姿态位置信息确定原始图像对应的第i个姿态迁移图像，因此一方面可以确保第i个姿态迁移图像中主体的姿态与第i个驱动图像中主体的姿态之间的相似度较高，另一方面可以尽可能保留原始图像中的图像特征。如此可以提高生成的图像的图像质量。

可选地，姿态迁移模型还可以包括解码器，两个自编码器的各特征提取层与解码器的对应特征层连接。上述步骤104f具体可以通过下述的步骤104f1实现。

步骤104f1，电子设备通过解码器，将第i个融合特征信息及两个自编码器的所有特征提取层提取到的图像特征信息融合，生成并输出原始图像对应的第i个姿态迁移图像。

可选地，假设每个自编码器包括X个特征提取层，解码器包括X个特征层，那么：解码器的第1个特征层可以将第i个融合特征信息及两个自编码器的第1个特征提取层提取到的特征信息融合，得到第1中间融合特征信息；然后由解码器的第2个特征层将第1中间融合特征信息与两个自编码器的第2个特征提取层提取到的特征信息融合，得到第2个中间融合特征信息，以此类推，由解码器的第X个特征层将第X-1个中间融合特征信息和两个自编码器的第X个特征提取层提取到的特征信息融合，得到第i个姿态迁移图像。

可选地，姿态迁移模型的结构如图7所示，姿态迁移模型可以包含双分支输入，即2个自编码器，一个融合块和一个解码器；两个自编码器的各特征提取层与解码器的对应特征层连接；融合块用于将第一图像特征信息、第二图像特征信息及第i个扭曲姿态位置信息融合，得到第i个融合特征信息。解码器用于将第i个融合特征信息和两个自编码器所有特征提取层提取的特征信息进行融合，以生成和输出原始图像对应的第i个姿态迁移图像Si’。如此，由于可以采用第i-1个姿态迁移图像的图像特征信息，辅助推理原始图像对应的第i个姿态迁移图像，即针对视频进行帧间的迭代和优化，能够覆盖图像生成的同时，生成平滑的视频迁移效果。

如此，由于可以利用第i-1个姿态迁移图像和第i个扭曲姿态位置信息，辅助原始图像执行第i次姿态迁移处理，因此可以使得相邻姿态迁移图像中主体姿态的变化更加平滑、生动。

需要说明的是，电子设备可以针对N个扭曲姿态位置信息中的每个扭曲姿态位置信息均执行步骤103和步骤104，即电子设备执行N次步骤103和步骤104。

例如，假设N个驱动图像包括图像1、图像2和图像3，那么：电子设备可以分别以图像1、图像2和图像3中主体的第二姿态位置信息为参考，对原始图像中主体的第一姿态位置信息执行位置扭曲处理，得到3个扭曲姿态位置信息。然后，再分别基于这3个扭曲姿态位置信息，对原始图像执行姿态迁移处理，得到原始图像对应的3个姿态迁移图像。

需要说明的是，电子设备可以先得到N个扭曲姿态位置信息；然后再分别基于N个扭曲姿态位置信息对原始图像执行表情迁移处理。或者，电子设备可以在每得到一个扭曲姿态位置信息之后，即基于该扭曲姿态位置信息对原始图像执行表情迁移处理。

可以理解，本申请实施例提供的图像生成方法支持用户自定义生成表情包，用户根据喜好选择原始图像和驱动视频/图像，就能实现动态或静态表情包的任意生成。例如，可以将静态表情包任意转换为开心、悲伤、惊讶等多种动态表情，满足用户不同使用需求。

在本申请实施例提供的图像生成方法中，由于可以基于驱动图像中主体的第二姿态位置信息指导原始图像进行姿态扭曲，因此可以使得姿态迁移图像中主体的姿态与驱动图像中主体的姿态较为相似，即通过原始图像和驱动图像即可自动生成姿态迁移图像，因此可以提高自定义表情包的灵活性。

可选地，当N大于1时，在上述步骤104之后，本申请实施例提供的图像生成方法还可以包括下述的步骤105。

步骤105、电子设备对原始图像对应的N个姿态迁移图像执行视频化处理，得到目标视频。

可选地，电子设备可以加个N个姿态迁移图像制作成GIF格式的动态表情包。

如此，由于电子设备可以原始图像对应的N个姿态迁移图像执行视频化处理得到目标视频，从而可以提高视频制作，尤其是动态表情包制作的便捷性。

下面对训练关键点扭曲模型和姿态迁移模型的过程进行进一步地描述。

可选地，在上述步骤101之前，本申请实施例提供的图像生成方法还可以包括下述的步骤106至步骤110。

步骤106、电子设备获取训练数据对。

其中，训练数据对包括：一个随机图像，第一视频中的第j-1帧图像和所述第一视频中的第j帧图像，所述第一视频的每帧图像中包括相同主体，j为正整数。

可以理解，第j-1帧图像作为上述训练数据对的参考图像，随机图像为原始图像，第j帧图像为驱动图像。

其中，当j＝1时，第j-1帧图像为像素值为0的图像，即全黑图像。

步骤107、电子设备获取随机图像中主体的第三姿态位置信息和第j帧图像中主体的第四姿态位置信息。

其中，第三姿态位置信息中包括M类第一位置信息，第四姿态位置信息中包括M类第二位置信息。

且M类第一位置信息和M个第二位置信息指示的关键点类型相同，如指示：左眼、右眼、左眉、右眉、鼻子和嘴巴。

步骤108、电子设备M类第一位置信息和M类第二位置信息输入初始关键点扭曲模型，基于初始关键点扭曲模型中的全局扭曲块，以M类第二位置信息为参考，对M类第一位置信息执行位置扭曲处理，得到训练的全局扭曲位置信息。

步骤109、电子设备基于初始关键点扭曲模型中的M个局部扭曲块，分别以M类第二位置信息中一类第二位置信息为参考，对M类第一位置信息中对应的第一位置信息执行位置扭曲处理，得到M个训练的局部扭曲位置信息。

步骤110、电子设备基于训练全局扭曲位置信息和M个训练局部扭曲位置信息，得到训练扭曲姿态位置信息。

步骤111、电子设备对训练扭曲姿态位置信息进行卷积处理，得到训练扭曲姿态位置图。

步骤112、电子设备确定训练扭曲姿态位置图与第j帧图像中主体的姿态位置图之间的第一最小平方差。

步骤113、电子设备基于第一最小均方误差，优化初始关键点扭曲模型的损失函数。

需要说明的是，电子设备可以采用不同的训练数据对，重复上述步骤106至步骤113，直至初始关键点扭曲模型的损失函数收敛。其中，初始关键点扭曲模型的损失函数收敛表示关键点扭曲模型训练完成。

可选地，初始关键点扭曲模型的损失函数L_k定义如下：

其中，L_k为初始关键点扭曲模型的损失函数，也称为姿态关键点损失函数。P是训练数据对的数量，Skj’是训练数据对训练初始关键点扭曲模型得到的训练扭曲姿态位置图，Dk_j是第j帧图像中主体的姿态位置图。“||||”，表示最小均方差。

如此，可以保证原始图像经过关键点扭曲模型扭曲后的扭曲姿态位置图与驱动图像的姿态位置图尽可能相似，从而使得关键点扭曲模型能够学习原始图像中主体的姿态位置向驱动图像中主体的姿态位置扭曲的扭曲特性。

可选地，在上述步骤110之后，本申请实施例提供的图像生成方法还包括下述的步骤114至步骤118。

步骤114、电子设备将随机图像、第i-1帧图像输入初始姿态迁移模型，获取随机图像的第三图像特征信息和第j-1帧图像的第四图像特征信息。

其中，第三图像特征信息和第四图像特征信息是分别经过初始姿态迁移模型中的一个自编码器的所有特征提取层处理得到的。

步骤115、电子设备将训练扭曲姿态位置信息、第三图像特征信息、第四图像特征信息融合，得到训练融合特征信息。

步骤116、电子设备基于训练融合特征信息和两个自编码器的所有特征提取层提取得到的图像特征信息，生成并输出随机图像对应的一个训练姿态迁移图像。

步骤117、电子设备确定训练姿态迁移图像与第j帧图像之间的第二最小平方差。

步骤118、电子设备基于第二最小均方差，优化初始姿态迁移模型的损失函数。

可选地，初始姿态迁移模型的损失函数为L_pix。

其中，L_pix为初始姿态迁移模型的损失函数。P为训练数据对的数量，S_j′是训练数据对训练初始姿态迁移模型得到的训练姿态迁移图，D_j是第j帧图像，即训练数据对中的驱动图像。“||||”，表示最小均方差。

需要说明的是，对于每个数据对，均需要重复上述步骤107至步骤118，直至L_k和L_pix均收敛。如此可以确保姿态迁移模型和关键点扭曲模型均得到较好的训练。

如此，L_pix可以使得姿态迁移模型处理得到的结果图像与驱动图像尽可能相似，且确保该结果图像与前一帧结果图像之间的姿态变化更加平滑、自然。

下面以姿态关键点为表情关键点为例，对本申请实施例提供的图像生成方法进行说明。

本申请提供的图像生成方法支持用户自定义生成表情包，根据喜好选择原始图像和驱动视频/图像，就能实现动态或静态表情包的任意生成。例如可以将静态表情包任意转换为开心、悲伤、惊讶等多种动态表情，满足用户不同使用需求。

本申请具有以下优点：1)本申请提出一种新的高效便捷的基于五官关键点迁移的表情包生成方案，为用户提供一个表情包创作平台，根据原始表情和驱动视频可自动生成目标表情。2)本申请提出一种新的表情包自动生成方案，对于原始图像和视频帧的两组表情关键点，提出一种新的表情迁移方案，即先学习关键点扭曲模型，再通过集成扭曲Embedding的方式指导表情扭曲；并且提出一种分组自注意力机制网络结构，对面部关键点分别制定注意力机制，从而有效捕捉当前表情与驱动表情之间在关键点层面的光流信息。3)本申请提出一种新的双分支KGNet(Key Point Driving Generation Network)表情生成模块，可以根据关键点进行五官面部生成，并且模型结构兼容图像和视频两种模式，在视频生成的过程中，充分利用视频帧间关系，从而生成更加逼真的表情图像。

示例性地，本发明实施例提供了一种表情包自动生成方法，算法框架图如图9所示，具体包括以下步骤：

步骤901、获取用户数据的原始图像和目标驱动图像/视频。

可选地，可以从聊天软件的自定义表情接口，获取用户上传的原始图像，以及目标驱动文件，若该驱动文件为视频，则进入步骤902，否则进入步骤903。

步骤902、解析原始图像和目标驱动视频，并进行配对。

对目标驱动视频进行逐帧抽取，帧数记为N。对原始图像和N帧驱动帧进行关键点检测，每张图像检测出6个关键点，分别为左眉、右眉、左眼、右眼、鼻子、嘴巴，原始图像的关键点记为Sk，驱动帧的关键点记为Dk_1～N得到匹配数组{(Sk,Dk₁)、(Sk,Dk₂)…(Sk,Dk_N)}。

步骤903、解析原始图像和驱动图像。

对原始图像和驱动图像进行关键点检测，分别检测出6个关键点，分别为左眉、右眉、左眼、右眼、鼻子、嘴巴，同样得到一对关键点(Sk,Dk)。

步骤904、对关键点对进行局部重组。

对原图关键点Sk和驱动图关键点Dk，进行局部重组，即将原图某一关键点位置与驱动图对应关键点位置分为一组，这样全局关键点可以重组为6组局部关键点对图像。

步骤905、对局部重组后的关键点进行扭曲。

扭曲块融合关键点全局特性与一系列局部特征，并学习Sk到Dk的扭曲能力。如下图所示，将全局关键点对与局部关键点对分别输入各自Attention Block，并生成局部和全局的位置扭曲特征{F₁,F₂,…,F₆,F₇}。为了融合特征并降低计算量，对{F₁,F₂,…,F₆,F₇}进行加权平均，其中局部特征权重0.12，全局权重0.28，得到融合后扭曲特征F_fuse，F_fuse是维度为128×128×16的张量。

最后对F_fuse再进行一次卷积运算，输出扭曲后关键点图Sk’。

步骤906、根据扭曲后的关键点进行表情生成。

可选地，以设计并训练一个KGNet表情迁移模型，利用表情迁移模型以及扭曲特征F_fuse生成目标帧。

其中，表情迁移模块结构如图7所示，该模块包含双分支输入，并结合关键点驱动信息，并且针对视频进行帧间的迭代和优化，能够覆盖图像生成的同时，生成平滑的视频迁移效果。

步骤907、将生成后的所有目标帧拼接，返回用户。

可选地，若步骤901获取的是驱动图像，也称为驱动表情，则直接将步骤106生成的结果返回给客户。若驱动表情为视频格式，将N帧生成结果拼接成视频格式后返回给用户。

如此，本申请提供的图像生成方案可以基于关键点驱动的表情迁移方案，能够给用户提供一个便捷且可玩性高的表情创作平台，同时支持图像和视频的自动表情迁移，能够自动生成不同表情的表情包，丰富用户表情包的来源，趣味性高。

下面对训练阶段进行说明。

训练阶段：包含训练数据、模型结构、损失函数和迭代过程。

a)确定训练数据：从一段视频中随机采样原图S和第i帧驱动图D_i，构建训练数据对{S，D_i，D_i-1}，其中D_i-1为视频的第i-1帧。如果i＝1，那么D₀用全0像素表示。

b)将S和D_i-1输入表情迁移模块的2个自编码器中，其中2个自编码器结构完全一致，分别得到各自特征层F_S和其中F_S和/>分别为32×32×256的张量。

c)对步骤105中扭曲特征F_fuse从128×128×16Reshape成得到与F_S相同长宽的Embedding，即尺度为32×32×256，记为F_e。需要说明的是，此处的F_fuse根据训练数据对{S，D_i，D_i-1}确定的。

d)将F_S、F_E在第三维度进行堆叠操作，形成一个特征向量。

e)解码阶段，基于特征向量，将b)中2个输入分支的自编码器每个特征层通过跳跃连接的方式连接到解码器的对应位置，并逐渐解码生成最终迁移后的图S’。(对应图7中加号的过程)。

定义并优化表情迁移模块的总损失函数L。L关键点损失L_k，以及图像级别的损失L_pix。L_pix为了让生成的目标帧S’和驱动帧D_i尽可能相似，同时利用各个驱动帧之间的联系性，保证生成的目标帧更加平滑。即总损失函数L定义为：L＝L_pix+L_k对于L_pix和L_k的描述参见上述相关描述。

f)重复执行a)～f)，直至最终损失函数L收敛。

推理阶段：经过训练阶段保存对应的模型权重信息进行推理，支持视频和图像两种模式。

a)S设置为原图，D₀设置为像素为0的全黑图，经过一次前向传播后得到第一帧预测结果S₁′；

b)令D₁＝S₁′，再经过一次前向传播得到第二帧预测结果S₂′；

c)重复b)操作N次，直至遍历完所有驱动帧。

驱动文件若为图像，则经过步骤a)得到的预测结果S₁′即为最终的结果，若为视频，则进行步骤a)至步骤c)，直至完整生成视频N帧动态表情。

本申请实施例提供的图像生成方法，执行主体可以为图像生成装置。本申请实施例中以图像生成装置执行图像生成法为例，说明本申请实施例提供的图像生成装置。

图10示出了本申请实施例提供的图像生成装置60的结构示意图，如图10所示，该图像生成装置60包括：确定模块61、获取模块62和处理模块63。

所述确定模块61，用于确定原始图像和N个驱动图像；

所述获取模块62，用于获取所述确定模块61确定的所述原始图像中主体的第一姿态位置信息和所述N个驱动图像中主体的N个第二姿态位置信息，N为正整数；

所述处理模块63，用于以所述获取模块62获取的第i个所述第二姿态位置信息为参考，对所述获取模块62获取的所述第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；

所述处理模块63，还用于基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像。

一种可能的实现方式中，所述第一姿态位置信息包括M类原始位置信息，第i个所述第二姿态位置信息包括与所述M个原始位置信息一一对应的M类驱动位置信息，M为大于1的整数；

所述处理模块63，具体用于：

将所述M类原始位置信息和所述M类驱动位置信息，输入关键点扭曲模型，基于所述关键点扭曲模型中的全局扭曲块，以所述M类驱动位置信息为参考，对所述M类原始位置信息执行位置扭曲处理，得到全局扭曲位置信息；

基于所述关键点扭曲模型中的M个局部扭曲块，分别以所述M类驱动位置信息中一类所述驱动位置信息为参考，对所述M类原始位置信息中对应的原始位置信息执行位置扭曲处理，得到M个局部扭曲位置信息；

基于所述全局扭曲位置信息和所述M个局部扭曲位置信息，得到第i个扭曲姿态位置信息；

其中，所述关键点扭曲模型中的各扭曲块的参数用于表征：一类原始位置信息向相同类的驱动位置信息扭曲的扭曲特性。

一种可能的实现方式中，所述处理模块63，具体用于：按照所述全局扭曲位置信息和所述M个局部扭曲位置信息各自对应的权重，对所述全局扭曲位置信息和所述M个局部扭曲位置信息执行加权平均处理，得到第i个扭曲姿态位置信息。

一种可能的实现方式中，所述处理模块63，具体用于：

将所述原始图像和所述扭曲姿态位置信息输入姿态迁移模型，获取所述原始图像的第一图像特征信息，所述第一图像特征信息是经过所述姿态迁移模型中的自编码器的所有特征提取层处理得到的；

将所述第i个扭曲姿态位置信息与所述第一图像特征信息融合，得到第i个融合特征信息；

基于所述第i个融合特征信息和所述自编码器的所有特征提取层提取得到的图像特征信息，生成并输出所述原始图像对应的第i个姿态迁移图像。

一种可能的实现方式中，所述处理模块63具体用于：将所述原始图像、第i个参考图像和所述第i个扭曲姿态位置信息输入姿态迁移模型，获取所述原始图像的第一图像特征信息、所述第i个参考图像的第二图像特征信息；所述第一图像特征信息和所述第二图像特征信息是分别通过所述姿态迁移模型中结构相同的两个自编码器的所有特征提取层处理得到的；

将所述第一图像特征信息、所述第二图像特征信息及所述第i个扭曲姿态位置信息融合，得到第i个融合特征信息；

基于所述第i个融合特征信息及两个所述自编码器的所有特征提取层提取到的图像特征信息，生成并输出所述原始图像对应的第i个姿态迁移图像；

其中，i＝1，所述第i个参考图像的像素值为0；i＞1，所述第i个参考图像为所述原始图像对应的第i-1个姿态迁移图像。

一种可能的实现方式中，所述姿态迁移模型还包括解码器，所述两个自编码器的各特征提取层与所述解码器的对应特征层连接；

所述处理模块63，具体用于通过所述解码器，将所述第i个融合特征信息及两个所述自编码器的所有特征提取层提取到的图像特征信息融合，生成并输出所述原始图像对应的第i个姿态迁移图像。

一种可能的实现方式中，所述处理模块63，还用于在基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像之后，对所述原始图像对应的N个姿态迁移图像执行视频化处理，得到目标视频。

在本申请实施例提供的图像生成装置中，由于可以基于驱动图像中主体的第二姿态位置信息指导原始图像进行姿态扭曲，因此可以使得姿态迁移图像中主体的姿态与驱动图像中主体的姿态较为相似，即通过原始图像和驱动图像即可自动生成姿态迁移图像，因此可以简化表情包的制作过程，降低表情包制作难度。

本申请实施例中的图像生成装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像生成装置能够实现图1至图9的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图11所示，本申请实施例还提供一种电子设备1100，包括处理器1101和存储器1102，存储器1102上存储有可在所述处理器1101上运行的程序或指令，该程序或指令被处理器1111执行时实现上述图像生成方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图12为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备7000包括但不限于：射频单元7001、网络模块7002、音频输出单元7003、输入单元7004、传感器7005、显示单元7006、用户输入单元7007、接口单元7008、存储器7009、以及处理器7010等部件。

本领域技术人员可以理解，电子设备7000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器7010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，所述处理器7010，用于确定原始图像和N个驱动图像；

所述处理器7010，用于获取所述原始图像中主体的第一姿态位置信息和所述N个驱动图像中主体的N个第二姿态位置信息，N为正整数；

所述处理器7010，用于以获取的第i个所述第二姿态位置信息为参考，对获取的所述第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；

所述处理器7010，还用于基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像。

所述处理器7010，具体用于：

一种可能的实现方式中，所述处理器7010，具体用于：按照所述全局扭曲位置信息和所述M个局部扭曲位置信息各自对应的权重，对所述全局扭曲位置信息和所述M个局部扭曲位置信息执行加权平均处理，得到第i个扭曲姿态位置信息。

一种可能的实现方式中，所述处理器7010，具体用于：

一种可能的实现方式中，所述处理器7010具体用于：将所述原始图像、第i个参考图像和所述第i个扭曲姿态位置信息输入姿态迁移模型，获取所述原始图像的第一图像特征信息、所述第i个参考图像的第二图像特征信息；所述第一图像特征信息和所述第二图像特征信息是分别通过所述姿态迁移模型中结构相同的两个自编码器的所有特征提取层处理得到的；

其中，i＝1，所述第i个参考图像的像素值为0；

i＞1，所述第i个参考图像为所述原始图像对应的第i-1个姿态迁移图像。

所述处理器7010，具体用于通过所述解码器，将所述第i个融合特征信息及两个所述自编码器的所有特征提取层提取到的图像特征信息融合，生成并输出所述原始图像对应的第i个姿态迁移图像。

一种可能的实现方式中，所述处理器7010，还用于在基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像之后，对所述原始图像对应的N个姿态迁移图像执行视频化处理，得到目标视频。

在本申请实施例提供的电子设备中，由于可以基于驱动图像中主体的第二姿态位置信息指导原始图像进行姿态扭曲，因此可以使得姿态迁移图像中主体的姿态与驱动图像中主体的姿态较为相似，即通过原始图像和驱动图像即可自动生成姿态迁移图像，因此可以简化表情包的制作过程，降低表情包制作难度。

应理解的是，本申请实施例中，输入单元7004可以包括图形处理器(GraphicsProcessing Unit，GPU)70041和麦克风70042，图形处理器70041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元7006可包括显示面板70061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板70061。用户输入单元7007包括触控面板70071以及其他输入设备70072中的至少一种。触控面板70071，也称为触摸屏。触控面板70071可包括触摸检测装置和触摸控制器两个部分。其他输入设备70072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器7009可用于存储软件程序以及各种数据。存储器7009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器7009可以包括易失性存储器或非易失性存储器，或者，存储器7009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器7009包括但不限于这些和任意其它适合类型的存储器。

处理器7010可包括一个或多个处理单元；可选的，处理器7010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器7010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

确定原始图像和N个驱动图像，并获取所述原始图像中主体的第一姿态位置信息和所述N个驱动图像中主体的N个第二姿态位置信息，N为正整数；

以第i个所述第二姿态位置信息为参考，对所述第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；

基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像。

2.根据权利要求1所述的方法，其特征在于，所述第一姿态位置信息包括M类原始位置信息，第i个所述第二姿态位置信息包括与所述M个原始位置信息一一对应的M类驱动位置信息，M为大于1的整数；

所述以第i个所述第二姿态位置信息为参考，对所述第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述全局扭曲位置信息和所述M个局部扭曲位置信息，得到所述第i个扭曲姿态位置信息，包括：

按照所述全局扭曲位置信息和所述M个局部扭曲位置信息各自对应的权重，对所述全局扭曲位置信息和所述M个局部扭曲位置信息执行加权平均处理，得到第i个扭曲姿态位置信息。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像，包括：

将所述原始图像和所述第i个扭曲姿态位置信息输入姿态迁移模型，获取所述原始图像的第一图像特征信息，所述第一图像特征信息是经过所述姿态迁移模型中的自编码器的所有特征提取层处理得到的；

5.根据权利要求1所述的方法，其特征在于，所述基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像，包括：

将所述原始图像、第i个参考图像和所述第i个扭曲姿态位置信息输入姿态迁移模型，获取所述原始图像的第一图像特征信息、所述第i个参考图像的第二图像特征信息；所述第一图像特征信息和所述第二图像特征信息是分别通过所述姿态迁移模型中结构相同的两个自编码器的所有特征提取层处理得到的；

其中，i＝1，所述第i个参考图像的像素值为0；

6.根据权利要求5所述的方法，其特征在于，所述姿态迁移模型还包括解码器，所述两个自编码器的各特征提取层与所述解码器的对应特征层连接；

所述基于所述第i个融合特征信息、两个所述自编码器的所有特征提取层提取到的图像特征信息，生成并输出所述原始图像对应的第i个姿态迁移图像，包括：

通过所述解码器，将所述第i个融合特征信息及两个所述自编码器的所有特征提取层提取到的图像特征信息融合，生成并输出所述原始图像对应的第i个姿态迁移图像。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像之后，所述方法还包括：

对所述原始图像对应的N个姿态迁移图像执行视频化处理，得到目标视频。

8.一种图像生成装置，其特征在于，所述装置包括：确定模块、获取模块和处理模块；

所述确定模块，用于确定原始图像和N个驱动图像；

所述获取模块，用于获取所述确定模块确定的所述原始图像中主体的第一姿态位置信息和所述N个驱动图像中主体的N个第二姿态位置信息，N为正整数；

所述处理模块，用于以所述获取模块获取的第i个所述第二姿态位置信息为参考，对所述获取模块获取的所述第一姿态位置信息执行位置扭曲处理，得到第i个扭曲姿态位置信息，i∈[1，N]；

所述处理模块，还用于基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像。

9.根据权利要求8所述的装置，其特征在于，所述第一姿态位置信息包括M类原始位置信息，第i个所述第二姿态位置信息包括与所述M个原始位置信息一一对应的M类驱动位置信息，M为大于1的整数；

所述处理模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述处理模块，具体用于：按照所述全局扭曲位置信息和所述M个局部扭曲位置信息各自对应的权重，对所述全局扭曲位置信息和所述M个局部扭曲位置信息执行加权平均处理，得到第i个扭曲姿态位置信息。

11.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于：

12.根据权利要求8所述的装置，其特征在于，所述处理模块具体用于：将所述原始图像、第i个参考图像和所述第i个扭曲姿态位置信息输入姿态迁移模型，获取所述原始图像的第一图像特征信息、所述第i个参考图像的第二图像特征信息；所述第一图像特征信息和所述第二图像特征信息是分别通过所述姿态迁移模型中结构相同的两个自编码器的所有特征提取层处理得到的；

其中，i＝1，所述第i个参考图像的像素值为0；

13.根据权利要求12所述的装置，其特征在于，所述姿态迁移模型还包括解码器，所述两个自编码器的各特征提取层与所述解码器的对应特征层连接；

所述处理模块，具体用于通过所述解码器，将所述第i个融合特征信息及两个所述自编码器的所有特征提取层提取到的图像特征信息融合，生成并输出所述原始图像对应的第i个姿态迁移图像。

14.根据权利要求8至13中任一项所述的装置，其特征在于，所述处理模块，还用于在基于所述第i个扭曲姿态位置信息，对所述原始图像执行姿态迁移处理，得到所述原始图像对应的第i个姿态迁移图像之后，对所述原始图像对应的N个姿态迁移图像执行视频化处理，得到目标视频。

15.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的图像生成方法的步骤。

16.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的图像生成方法的步骤。