CN118071577A

CN118071577A - 图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN118071577A
Application number: CN202211449865.7A
Authority: CN
Inventors: 王晶; 苗旺; 徐雨旸; 徐丁丁; 刘松伟
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2024-05-24
Also published as: WO2024104477A1

Abstract

本公开实施例提供一种图像生成方法、装置、电子设备及存储介质，通过获取至少两个原始图像；对至少两个原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧；将至少两个目标图像帧按照目标拼图布局进行组合，生成目标拼图，其中，目标拼图布局是基于初始图像数据中的至少两个原始图像的图像内容确定的。通过对初始图像数据中的多个原始图像进行风格迁移，得到具有特定图像风格的目标图像帧，再对目标图像帧进行组合，得到布局与多个原始图像的内容相匹配的目标拼图，实现了对多帧原始图像中有效信息的充分展示，提高视觉表现力。

Description

图像生成方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及图像生成技术领域，尤其涉及一种图像生成方法、装置、电子设备及存储介质。

背景技术

当前，以视频内容创造的应用场景为例，用户需要基于视频数据生成对应的图像作为视频封面，以实现视频内容的预览和展示的目的。现有技术中，通常是基于用户手动选取的方式，抽取视频中的某一视频帧来生成上述视频封面。

然而，现有技术中通过视频数据生成的图像，存在图像信息量少，视觉表现力差等问题。

发明内容

本公开实施例提供一种图像生成方法、装置、电子设备及存储介质，以克服生成的图像存在的图像信息量少，视觉表现力差的问题。

第一方面，本公开实施例提供一种图像生成方法，包括：

获取至少两个原始图像，并对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧；根据至少两个所述原始图像对应的图像内容，确定目标拼图布局；将至少两个所述目标图像帧按照目标拼图布局进行组合，生成目标拼图。

第二方面，本公开实施例提供一种图像生成装置，包括：

获取模块，用于获取至少两个原始图像；

迁移模块，用于对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧；

组合模块，用于根据至少两个所述原始图像对应的图像内容，确定目标拼图布局，并将至少两个所述目标图像帧按照目标拼图布局进行组合，生成目标拼图。

第三方面，本公开实施例提供一种电子设备，包括：

处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如上第一方面以及第一方面各种可能的设计所述的图像生成方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的图像生成方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的图像生成方法。

本实施例提供的图像生成方法、装置、电子设备及存储介质，通过获取至少两个原始图像，并对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧；根据至少两个所述原始图像对应的图像内容，确定目标拼图布局；将至少两个所述目标图像帧按照目标拼图布局进行组合，生成目标拼图。由于通过对至少两个原始图像进行风格迁移，得到具有特定图像风格的目标图像帧，再对目标图像帧进行排列组合，得到布局与多个原始图像的内容相匹配的目标拼图，使目标拼图不仅能展示带有风格特效的多帧图像，还能通过拼图布局展示带有风格特效的多帧图像在内容上的关联性，实现了对多帧原始图像中有效信息的充分展示，提高视觉表现力。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的图像生成方法的一种应用场景图；

图2为本公开实施例提供的图像生成方法的流程示意图一；

图3为图2所示实施例中步骤S102的具体实现方式流程图；

图4为图3所示实施例中步骤S1022的具体实现方式流程图；

图5为本公开实施例提供的一种确定第一图像帧的示意图；

图6为本公开实施例提供的一种目标拼图的目标拼图布局的示意图；

图7为本公开实施例提供的图像生成方法的流程示意图二；

图8为本公开实施例提供的一种剪裁图像的示意图；

图9为图2所示实施例中步骤S206的具体实现方式流程图；

图10为图2所示实施例中步骤S208的具体实现方式流程图；

图11为本公开实施例提供的图像生成装置的结构框图；

图12为本公开实施例提供的一种电子设备的结构示意图；

图13为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

下面对本公开实施例的应用场景进行解释：

图1为本公开实施例提供的图像生成方法的一种应用场景图，本公开实施例提供的图像生成方法，可以应用于视频封面生成、视频转换为图片集等视频图像编辑处理的应用场景。具体地，以生成视频封面的应用场景为例，本公开实施例提供的方法，可以应用于终端设备或服务器，以应用于终端设备为例，终端设备内运行有视频编辑应用程序(APP)，如图1所示，用户通过拍摄、服务器下载或接收其他终端设备传输等方式，获取待处理视频后，将待处理视频加载至应用了本申请实施例提供的图像生成方法的视频编辑应用程序(图中示为App)，之后，终端设备利用该视频编辑应用程序对待处理视频进行处理后，基于待处理视频中的视频内容，生成能够表征视频内容的目标图片，从而将该目标图片作为该待处理视频的视频封面。

现有技术中，以视频内容创造的过程中制作视频封面的应用场景为例，用户通过操作终端设备，基于视频数据生成对应的图像作为视频封面，以实现视频内容的预览和展示的目的。现有技术中，通常是基于用户手动选取的方式，抽取视频中的某一视频帧来生成上述图像，然而，视频数据中包括多帧图像，各帧图像的图像内容存在差异，取出其中的一帧图像作为视频封面，完全无法完全表现视频数据的内容，存在图像信息量少的问题，同时，使用视频数据中的原始图像帧作为视频封面，相比于视频数据的视频内容连续播放的展示方式，会导致视频封面无法突出视频内容的重点，影响视觉表现力和信息表达能力。

另外，在本实施例方法所适用的其他图像处理的应用场景中，例如视频转换为一张或多张图片、利用图片集生成拼图的应用场景中，也同样面临上述问题。

本公开实施例提供一种图像生成方法以解决上述问题。

参考图2，图2为本公开实施例提供的图像生成方法的流程示意图一。本实施例的方法可以应用在终端设备中，该图像生成方法包括：

步骤S101：获取至少两个原始图像。

示例性地，原始图像即用于作为目标拼图的素材的图像，原始图像可以通过从素材数据中进行抽帧而获得。其中，素材数据可以为视频、或者图片集、或者二者的集合。以素材数据为视频为例，参考图1所示的应用场景示意图，素材数据对应图1所示实施例中的待处理视频。素材数据可以是用户通过终端设备的图像采集单元，例如摄像头，拍摄得到的；也可以是通过访问服务器进行下载得到的，或者接收其他终端设备发送的数据而得到的，此处可根据需要设置，不再举例赘述。

其中，素材数据中包括至少两帧素材图像，以素材图像为视频数据为例，素材数据(视频数据)由多个视频帧(素材图像)组成，对初始图像数据进行解码，可以得到构成初始图像数据的各视频帧。之后，基于预设的规则，对素材数据中的各视频帧(素材图像)进行筛选，可得到其中满足规则要求的图像，即原始图像，例如，将素材数据中的关键帧(I帧，I-frame)作为原始图像。其中，视频数据中的关键帧的确定和检索方法为现有技术，此处不再赘述。

在另一种可能的实现方式中，可以基于素材数据的内容，对素材数据进行抽帧，从而得到用于生成后续目标拼图的素材的原始图像。示例性地，如图3所示，步骤S101的具体实现方式包括：

步骤S1011：获取素材数据，素材数据包括视频和/或图片集；

步骤S1012：根据素材数据中的素材图像的图像内容，对素材数据进行抽帧，得到至少两个原始图像，素材图像为视频中的视频帧和/或图片集中的图片。

示例性地，在获得素材数据后，首先对素材数据中的每一素材图像进行图像识别，获得每一素材图像的图像内容，其中，图像内容的具体实现方式有多种，例如，可以是描述图像内容的特征矩阵(feature)，也可以是描述图像内容的像素矩阵，还可以是表征图像中的具体内容的标识，更具体地，例如，当图像中包括人像时，对应的标识(图像内容)为#001、当图像中包括风景时，对应的标识(图像内容)为#002。

进一步地，可以在此基础上对内容进一步细分，从而得到更加细化的标识，例如，当图像中包括一个人像时，对应的标识(图像内容)为#001_1；当图像中包括两个人像时，对应的标识(图像内容)为#001_2。表征素材图像中的具体内容的标识的具体表示方式，以及标识与图像中具体内容的映射关系，可以基于具体需要设置，此处不再一一举例。

进一步地，在得到各素材图像对应的图像内容之后，根据素材图像对应的图像内容进行筛选，确定出其中的至少两个关键的、能够更好的素材数据中的重要内容的图像帧，即原始图像，来生成目标拼图。在一种可能的实现方式中，如图4所示，步骤S1012的具体实现方式包括：

步骤S1012A：基于素材图像的图像内容，获取素材图像对应的姿态相似度，姿态相似度表征图像内容中的人物元素的姿态与目标姿态的相似度。

步骤S1012B：根据各素材图像对应的姿态相似度，确定至少两个原始图像。

示例性地，在识别各素材图像后，得到素材图像的图像内容，本实施例中，图像内容中包括人物元素，人物元素是指与人像相关的图像元素，例如人像中的头部、躯干、四肢、手部以及人像整体等。素材图像的图像内容中，人物元素呈现不同的姿态，对比图像内容中的人物元素的姿态和预设的目标姿态，得到姿态相似度，其中，素材图像的图像内容中的人物元素的姿态与目标姿态越一致，则姿态相似度越高；反正，则姿态相似度越低，姿态相似度的具体计算方法，可以基于图像一致性算法实现，图像一致性算法为本领域技术人员知晓的现有技术，此处不再赘述。其中，人物元素的姿态例如包括：面部表情、四肢和躯干的动作、手部动作等一种或多种。

本实施例中，获取各素材图像对应的姿态相似度的目的，是为了评估素材图像是否能够表现素材数据中的重要内容，从而被筛选为原始图像作为后续生成的目标拼图的素材；其中，目标姿态包括多种预设的人物元素的姿态，例如，面部微笑的表情、面部大笑的表情、挥手时的四肢动作等，可以作为判断人物元素的姿态是否能够表达有效信息(例如是否能够表达开心、愤怒的情绪)，以及是否符合美学特征的规则。因此，通过对比各素材图像的图像内容中人物元素的姿态和目标姿态的相似度，得到各原始图像对应的姿态相似度，之后基于该姿态相似度，筛选出各原始图像的图像内容中，人物姿态更加有意义，也更加符合美学特征，使后续生成的目标图像帧以及目标拼图能够表达出更加丰富的有效信息，并使图像中的人像更加美观。更进一步地，在一种可能的实现方式中，根据各素材图像对应的姿态相似度，确定至少两个原始图像的具体实现方式，包括：

将姿态相似度大于第一相似度阈值的素材图像，确定为第一图像帧，和/或，将姿态相似度小于第二相似度阈值的素材图像，确定为第一图像帧；其中，第一相似度阈值大于第二相似度阈值。

图5为本公开实施例提供的一种确定原始图像的示意图，下面结合图5对上述步骤中确定至少两个原始图像的过程进行介绍，参考图5所示，姿态相似度、第一相似度阈值和第二相似度阈值均为归一化值，其中，姿态相似度＝1时，表示完全一致；姿态相似度＝0时，表示完全不一致，第一相似度阈值大于第二相似度阈值，具体地，例如，第一相似度阈值(图中示为p1)例如为0.9；第一相似度阈值(图中示为p2)例如为0.2。基于目标姿态，分别对素材图像A、素材图像A和素材图像C的图像内容进行处理后，得到素材图像A对应的姿态相似度gesture_evl_A＝0.95，素材图像B对应的姿态相似度gesture_evl_B＝0.7，素材图像C对应的姿态相似度gesture_evl_C＝0.1，其中，一方面，素材图像A对应的姿态相似度gesture_evl_A＝0.95满足大于第一相似度阈值的条件(gesture_evl_A>0.9)，即素材图像A对应的人物元素的姿态与目标姿态非常相近，因此将素材图像A对应的人物元素的姿态视为目标姿态，进而将原始图像A确定为原始图像。另一方面，素材图像C对应的姿态相似度gesture_evl_C＝0.1满足小于第二相似度阈值的条件(gesture_evl_C<0.2)，即素材图像C对应的人物元素的姿态与目标姿态相差非常大，此种情况下，认为素材图像中的人像的姿态是用户有目的性的设计的姿态，虽然(由于距离目标姿态相差较大)存在不符合美学特征的可能性，但该姿态包含较多的信息量，因此将素材图像C也确定为原始图像。而素材图像B对应的姿态相似度gesture_evl_B＝0.8即不满足小于第二相似度阈值的条件，也不满足大于第一相似度阈值的条件(0.2<gesture_evl_B<0.9)，此种情况下，素材图像B对应的姿态视为劣化的目标姿态，无法满足美学特征的要求，同时由于与目标姿态相近，也不足以体现出足够的信息量，因此，将素材图像B排出，而不作为原始图像。

本实施例步骤中，通过获取素材图像的姿态相似度，并基于姿态相似度的大小，将大于第一相似度阈值和/或小于第二相似度阈值的原始图像确定为原始图像，从而保证第一图像帧能够包含较多的信息量并兼顾美学特征，进而实现对素材数据中的数据内容的充分展示，提高后续生成的目标图像帧和目标拼图的信息量和图像观感。

步骤S102：对至少两个原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧。

示例性地，在获得至少两个原始图像后，对多个原始图像分别进行图像风格迁移，例如，素材数据共包括有30个关键帧，将该30个关键帧作为原始图像，分别进行图像风格迁移，得到30个对应的具体相同的图像风格(目标图像风格)的图像帧，即目标图像帧。其中，图像风格迁移是指为图像增加图像风格特效，从而使被处理的图像在颜色、线条上具有某种图像绘画风格，例如，油画风格、漫画风格、素描风格等。具体地的实现方法，例如通过预训练的能够实现目标图像风格的风格迁移模型，对原始图像分别进行处理，从而得到具有目标图像风格的图像，即目标图像帧。风格迁移模型的具体训练及使用方法为本领域技术人员知晓的现有技术，此处不再赘述。

步骤S103：根据至少两个原始图像对应的图像内容，确定目标拼图布局。

步骤S104：将至少两个目标图像帧按照目标拼图布局进行组合，生成目标拼图。

示例性地，在得到至少两个目标图像帧后，对各目标图像帧进行拼接组合，得到一张具有一定布局规则的图像，即目标拼图。示例性地，目标拼图包括至少两个拼图区域，每一拼图区域用于显示一个对应的目标图像帧，目标拼图布局表征目标拼图中的拼图区域的大小和/或位置。图6为本公开实施例提供的一种目标拼图的目标拼图布局的示意图，如图6所示，目标拼图由四张目标图像帧构成，分别为目标图像帧A、目标图像帧B、目标图像帧C和目标图像帧D，其中，每一目标图像帧对应一个拼图区域，目标图像帧A对应的拼图区域相对较大，位于目标拼图的左侧，目标图像帧B、目标图像帧C和目标图像帧D对应的拼图区域相对较小，位于目标拼图的右侧。

其中，该目标拼图的目标拼图布局不是随机生成的，而是基于各目原始图像的图像内容而确定的。一种可能的实现方式中，目标拼图布局的生成步骤包括：

步骤S103A：根据初始图像数据中的至少两个原始图像对应的图像内容，得到布局信息，布局信息表征目标拼图中各拼图区域的大小和/或位置。

步骤S103B：根据布局信息，生成目标拼图布局。

示例性地，上述步骤在步骤S103之前执行，具体地，例如，参考图6所示的目标拼图，初始图像数据是一段用于介绍衣服穿搭的视频数据，基于该初始图像数据中的原始图像得到的各目标图像帧中，目标图像帧A的图像内容对应整体人像(人物元素，下同)，位于目标拼图左侧最显著的主要位置，来表现人物整体的衣物穿搭效果；而目标图像帧B的图像内容对应人像正面、目标图像帧C的图像内容对应人像背面、目标图像帧D的图像内容对应人像侧面，均位于目标拼图右侧的次要位置，用于表现人物在正面、背面和侧面的衣物穿搭效果，从而使目标拼图能够实现对视频数据(初始图像数据)中的重要内容信息的展现(衣物穿搭的正面、背面、侧面以及整体效果)，提高目标拼图的信息量。

进一步地，各目标图像帧的图像内容的获得方法在之前步骤中已进行介绍，一种可能的实现方式中，可以根据目标图像帧针对目标姿态的姿态相似度，或者美学特征的显著程度进行排序，从而确定各目标视频帧对应的拼图区域的面积和位置，进而确定目标拼图布局。

在本实施例中，通过获取至少两个原始图像，并对至少两个原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧；根据至少两个原始图像对应的图像内容，确定目标拼图布局；将至少两个目标图像帧按照目标拼图布局进行组合，生成目标拼图。由于通过对至少两个原始图像进行风格迁移，得到具有特定图像风格的目标图像帧，再对目标图像帧进行排列组合，得到布局与多个原始图像的内容相匹配的目标拼图，使目标拼图不仅能展示带有风格特效的多帧图像，还能通过拼图布局展示带有风格特效的多帧图像在内容上的关联性，实现了对多帧原始图像中有效信息的充分展示，提高视觉表现力。

参考图7，图7为本公开实施例提供的图像生成方法的流程示意图二。本实施例在图2所示实施例的基础上，进一步对步骤S102进行细化，并增加了确定目标拼图布局的步骤，该图像生成方法包括：

步骤S201：获取素材数据，素材数据包括视频和/或图片集。

步骤S202：获取素材数据中各素材图像的图像内容。

本实施例的步骤S201-S202的具体实现方式，在图2所示实施例中已进行详细介绍，此处不再赘述。

步骤S203：获取各素材图像对应的动态清晰度，并基于各素材图像的图像内容和对应的动态清晰度，得到至少两个原始图像。

示例性地，在获取素材图像的情况下，可以进一步针对各素材图像进行清晰度检测，获得对应的动态清晰度，其中，动态清晰度指在播放动态图像时的画面清晰度，具体表现在动态画面是否出现“拖尾”、“重影”等现象。清晰度检测可以通过对图像进行相关分析而得到，具体地，例如将图像分为若干横向或纵向区域，之后计算相邻区域的相关性(correlation)，若存在“拖尾”、“重影”等现象，即动态清晰度较低时，则相关性较大，反正则相关性较小，从而，基于相关性的计算，得到对应的动态清晰度。当然，动态清晰度还有其他可能的实现方式，此处不再一一举例赘述。

进一步地，在获取素材图像对应的动态清晰度后，在基于素材图像的图像内容对各素材图像进行筛选的同时，进一步基于动态清晰度对各素材图像进行筛选，将其中动态清晰度较低的图像剔除，保留其中动态清晰度较高的图像作为原始图像，从而提高原始图像的画面清晰度，提高后续生成的目标图像帧的视觉效果。其中，基于素材图像的图像内容对各素材图像进行筛选的实现方式，在图2所示实施例中，已进行详细介绍，此处不再赘述。

可选地，本实施例中还包括：

步骤S203A：基于至少两个原始图像对应的图像内容，确定目标图像风格。

示例性地，目标图像风格是指某种图像风格特效的类型，例如油画风格、漫画风格、素描风格等。目标图像风格的确定方式有多种，例如，通过预设的配置信息，确定对应的目标图像风格；再例如，基于初始图像数据的数据内容，确定目标图像风格，其中，至少两个原始图像对应的图像内容，是指至少两个原始图像分别对应的图像内容，以及各图像内容之间的关联性，一种可能的实现方式中，至少两个原始图像对应的图像内容可以通过原始图像对应的素材数据的内容确定。至少两个原始图像对应的图像内容所表现的内容主题、类型，可以通过特定的内容标识来表示，例如，内容标识为#1，表示至少两个原始图像为用户的自拍视频；内容标识为#2，表示至少两个原始图像为短视频；内容标识为#3，表示至少两个原始图像为电影。内容标识的具体实现方式及表达方式可以基于需要设置，此处不再一一赘述。进一步地，至少两个原始图像对应的图像内容与目标图像风格之间具有预设的映射关系，例如，当至少两个原始图像对应的图像内容为人像自拍视频时，对应的目标图像风格为漫画风格；当至少两个原始图像对应的图像内容为短视频时，对应的目标图像风格为素描风格。本实施例中，通过至少两个原始图像对应的图像内容以及至少两个原始图像对应的图像内容之间的内容关联性，确定对应的目标图像风格，使生成的目标图像帧的图像风格与至少两个原始图像对应的图像内容相匹配，提高目标图像帧的视觉表现力。

步骤S204：基于原始图像的图像内容，确定原始图像中的目标图像元素。

步骤S205：围绕目标图像元素进行边缘剪裁，得到包含目标图像元素的剪裁图像，其中，目标图像元素在剪裁图像中的图像区域占比大于目标图像元素在原始图像中的图像区域占比。

示例性地，在获得原始图像之后，原始图像的画面构图与素材图像相同，将原始图像从素材数据中单独抽出后，由于缺乏前后图像帧的变化表现，会导致无法突出画面重点的问题。

为解决上述问题，本实施例中，基于原始图像的图像内容，确定原始图像中的目标图像元素，例如，原始图像的图像内容为人像自拍，则将其中的人像轮廓作为中心进行四周剪裁，剪切掉第一图像帧中的无效区域，而获得包含该人像轮廓(目标图像元素)的剪裁图像。图8为本公开实施例提供的一种剪裁图像的示意图，如图8所示，原始图像中包括人像，基于人像轮廓对人像外部的无效区域进行了裁剪后，得到的包含该人像的图像帧，即剪裁图像。其中。由于对第一图像帧中的无效区域进行了剪裁，因此，剪裁图像中的人像轮廓(目标图像元素)在剪裁图像中的占比，高于人像轮廓在原始图像中的占比。从而实现了突出画面重点的目的，提高目标图像帧的视觉表现力。同时，通过对原始图像进行剪裁，得到剪裁图像，减少无效图像区域，可以增加后续风格迁移过程中的图像迁移效率。

步骤S206：根据至少两个原始图像对应的图像内容，确定目标拼图布局。

进一步地，获取原始图像的图像内容后，可以基于一定的规则，对原始图像的图像内容进行评估，并根据评估结果生成目标拼图布局，使具有较高信息量和/或较高美观度的第一图像帧能够优先展示。具体实现方式例如基于图像内容对应的姿态相似度、美学特征等对第一图像帧进行评估和排序，从而生成目标拼图布局，具体实现方法在图2所示实施例的对应段落已进行介绍，此处不再赘述。

在一种可能的实现方式中，示例性地，如图9所示，步骤S206的具体实现方式包括：

步骤S2061：根据至少两个原始图像对应的图像内容，得到上下文信息，上下文信息表征至少两个初始图像对应的图像内容之间的上下文关系。

步骤S2062：根据上下文信息，确定目标拼图布局。

示例性地，原始图像是对初始图像数据中的素材图像进行筛选的结果，也即，原始图像是特定的素材图像。不同的原始图像之间，具有内容上的连续性，例如，原始图像对应的素材数据是一段“舞蹈”视频，则视频中的各素材图像对应的舞蹈动作具有时序上的联系，从素材图像中筛选出的原始图像，也具有这种时序上的关联性，即上下文关系，更具体地，例如，基于之前的步骤，得到了100个原始图像，之后，对各原始图像进行语义识别，得到每一原始图像对应的表征舞蹈动作的语义信息；基于各有序的原始图像对应的语义信息，生成上下文信息，上下文信息可以是表征语义信息之间的关联性的特征矩阵，之后，基于上下文信息，对重复性舞蹈动作、非重要舞蹈动作对应的原始图像进行筛选，得到只表征重要舞蹈动作、非重复舞蹈动作的第一图像帧的数量(例如为10个)，以及表征舞蹈动作重要性的重要性评估值；进而，确定目标拼图布局中拼图区域的数量，以及对应的原始图像大小、位置，即布局信息。

本实施例中，通过获取上下文信息，并基于上下文信息确定目标拼图布局，充分利用了初始图像数据中的信息，使生成的目标拼图的目标拼图布局更加合理，能够更好的体现初始图像数据中的重要信息，提高展示效果。

步骤S207：基于目标图像风格对应的风格迁移模型，对各剪裁图像进行风格迁移，得到各剪裁图像对应的目标图像帧。

步骤S208：在目标图像帧中显示特效标识，得到特效目标图像帧，其中，特效标识是基于目标图像帧的图像内容确定的。

示例性地，在对剪裁图像进行风格迁移，得到目标图像帧后，还可以进一步的在目标图像帧中添加动态特征标识，例如“烟花贴图特效”、“虚拟饰品特效”等，从而进一步的提高目标拼图的视觉表现力。

示例性地，如图10所示，步骤S208的具体实现步骤包括：

步骤S2081：对目标图像帧中的人物元素进行面部特征检测，得到对应的面部表情特征。

步骤S2082：基于面部表情特征，确定对应的目标特效标识，并确定目标特效标识的目标显示位置。

步骤S2083：基于目标显示位置，在目标图像帧中添加目标特效标识，得到特效目标图像帧。

示例性地，本实施例适用于目标图像帧中包含人物元素的场景，具体地，首先对目标图像帧中各元素进行识别，得到人物元素，例如人像的面部，再对人物元素进行面部特征检测，得到面部表情特征，例如包括：开心、难过等。之后，基于面部表情特征，确定对应的目标特效标识，再基于目标图像帧中各元素的位置，确定标特效标识的目标显示位置，使目标特效标识避开其他图像元素，避免造成遮挡。最后，将目标特效标识加载至目标图像帧的目标显示位置处，得到特效目标图像帧。

步骤S209：将至少两个特效目标图像帧按照目标拼图布局进行组合，生成目标拼图。

本实施例的步骤S207、S209的具体实现方式，在图2所示实施例中已进行详细介绍，此处不再赘述。

对应于上文实施例的图像生成方法，图11为本公开实施例提供的图像生成装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。

参照图11，图像生成装置3包括：

获取模块31，用于获取至少两个原始图像；

迁移模块32，用于对至少两个原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧；

组合模块33，用于根据至少两个原始图像对应的图像内容，确定目标拼图布局，并将至少两个目标图像帧按照目标拼图布局进行组合，生成目标拼图。

在一种可能的实现方式中，获取模块31，具体用于：获取素材数据，素材数据包括视频和/或图片集；根据素材数据中的素材图像的图像内容，对素材数据进行抽帧，得到至少两个原始图像，素材图像为视频中的视频帧和/或图片集中的图片。

在一种可能的实现方式中，获取模块31在根据素材数据中的素材图像的图像内容，对素材数据进行抽帧，得到至少两个原始图像时，具体用于：基于素材图像的图像内容，获取素材图像对应的姿态相似度，姿态相似度表征图像内容中的人物元素的姿态与目标姿态的相似度；根据各素材图像对应的姿态相似度，确定至少两个原始图像。

在一种可能的实现方式中，获取模块31在根据各素材图像对应的姿态相似度，确定至少两个原始图像时，具体用于：将姿态相似度大于第一相似度阈值的素材图像，确定为原始图像，和/或，将姿态相似度小于第二相似度阈值的素材图像，确定为原始图像；其中，第一相似度阈值大于第二相似度阈值。

在一种可能的实现方式中，获取模块31，还用于：获取素材图像对应的动态清晰度；获取模块31在根据素材数据中的素材图像的图像内容，对素材数据进行抽帧，得到至少两个原始图像时，具体用于；基于各素材图像的图像内容和对应的动态清晰度，得到至少两个原始图像。

在一种可能的实现方式中，迁移模块32，具体用于：获取目标图像风格对应的风格迁移模型；基于风格迁移模型处理原始图像，得到原始图像对应的目标图像帧。

在一种可能的实现方式中，迁移模块32在基于风格迁移模型处理原始图像，得到原始图像对应的目标图像帧时，具体用于：基于原始图像的图像内容，确定原始图像中的目标图像元素；围绕目标图像元素进行边缘剪裁，得到包含目标图像元素的剪裁图像，其中，目标图像元素在剪裁图像中的图像区域占比大于目标图像元素在原始图像中的图像区域占比；基于目标图像风格对应的风格迁移模型对各剪裁图像进行风格迁移，得到原始图像对应的目标图像帧。

在一种可能的实现方式中，在对至少两个原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧之前，迁移模块32，还用于：基于至少两个原始图像对应的图像内容，确定目标图像风格。

在一种可能的实现方式中，目标拼图包括至少两个拼图区域，每一拼图区域用于显示一个对应的目标图像帧，目标拼图布局表征目标拼图中的拼图区域的大小和/或位置。

在一种可能的实现方式中，组合模块33在根据至少两个原始图像对应的图像内容，确定目标拼图布局时，具体用于：据至少两个原始图像对应的图像内容，得到上下文信息，上下文信息表征至少两个初始图像对应的图像内容之间的上下文关系；根据上下文信息，确定目标拼图布局。

在一种可能的实现方式中，组合模块33，还用于：在目标图像帧中添加特效标识，得到特效目标图像帧，其中，特效标识是基于目标图像帧的图像内容确定的。

在一种可能的实现方式中，组合模块33在目标图像帧中添加特效标识，得到特效目标图像帧时，具体用于：对目标图像帧中的人物元素进行面部特征检测，得到对应的面部表情特征；基于面部表情特征，确定对应的目标特效标识；确定目标特效标识的目标显示位置；基于目标显示位置，在目标图像帧中添加目标特效标识，得到特效目标图像帧。

其中，获取模块31、迁移模块32和组合模块33依次连接。本实施例提供的图像生成装置3可以执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图12为本公开实施例提供的一种电子设备的结构示意图，如图12所示，该电子设备4包括：

处理器41，以及与处理器41通信连接的存储器42；

存储器42存储计算机执行指令；

处理器41执行存储器42存储的计算机执行指令，以实现如图2-图10所示实施例中的图像生成方法。

其中，可选地，处理器41和存储器42通过总线43连接。

相关说明可以对应参见图2-图10所对应的实施例中的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

参考图13，其示出了适于用来实现本公开实施例的电子设备900的结构示意图，该电子设备900可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(Portable Android Device，简称PAD)、便携式多媒体播放器(Portable MediaPlayer，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图13示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示，电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901，其可以根据存储在只读存储器(Read Only Memory，简称ROM)902中的程序或者从存储装置908加载到随机访问存储器(Random Access Memory，简称RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图13示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM902被安装。在该计算机程序被处理装置901执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

第一方面，根据本公开的一个或多个实施例，提供了一种图像生成方法，包括：

根据本公开的一个或多个实施例所述获取至少两个原始图像，包括：获取素材数据，所述素材数据包括视频和/或图片集；根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像，所述素材图像为所述视频中的视频帧和/或所述图片集中的图片。

根据本公开的一个或多个实施例根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像，包括：基于所述素材图像的图像内容，获取所述素材图像对应的姿态相似度，所述姿态相似度表征所述图像内容中的人物元素的姿态与目标姿态的相似度；根据各所述素材图像对应的姿态相似度，确定至少两个原始图像。

根据本公开的一个或多个实施例根据各所述素材图像对应的姿态相似度，确定至少两个原始图像，包括：将所述姿态相似度大于第一相似度阈值的素材图像，确定为所述原始图像，和/或，将所述姿态相似度小于第二相似度阈值的素材图像，确定为所述原始图像；其中，所述第一相似度阈值大于所述第二相似度阈值。

根据本公开的一个或多个实施例，所述方法还包括：获取所述素材图像对应的动态清晰度；根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像，包括；基于各所述素材图像的图像内容和对应的动态清晰度，得到至少两个所述原始图像。

根据本公开的一个或多个实施例，对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧，包括：获取所述目标图像风格对应的风格迁移模型；基于所述风格迁移模型处理所述原始图像，得到所述原始图像对应的目标图像帧。

根据本公开的一个或多个实施例，基于所述风格迁移模型处理所述原始图像，得到所述原始图像对应的目标图像帧，包括：基于所述原始图像的图像内容，确定所述原始图像中的目标图像元素；围绕所述目标图像元素进行边缘剪裁，得到包含所述目标图像元素的剪裁图像，其中，所述目标图像元素在所述剪裁图像中的图像区域占比大于所述目标图像元素在所述原始图像中的图像区域占比；基于所述目标图像风格对应的风格迁移模型对各所述剪裁图像进行风格迁移，得到所述原始图像对应的目标图像帧。

根据本公开的一个或多个实施例，在对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧之前，还包括：基于至少两个所述原始图像对应的图像内容，确定所述目标图像风格。

根据本公开的一个或多个实施例，所述目标拼图包括至少两个拼图区域，每一拼图区域用于显示一个对应的所述目标图像帧，所述目标拼图布局表征所述目标拼图中的拼图区域的大小和/或位置。

根据本公开的一个或多个实施例，根据至少两个所述原始图像对应的图像内容，确定目标拼图布局，包括：据所述至少两个原始图像对应的图像内容，得到上下文信息，所述上下文信息表征所述至少两个初始图像对应的图像内容之间的上下文关系；根据所述上下文信息，确定目标拼图布局。

根据本公开的一个或多个实施例，所述方法还包括：在所述目标图像帧中添加特效标识，得到特效目标图像帧，其中，所述特效标识是基于所述目标图像帧的图像内容确定的。

根据本公开的一个或多个实施例，在所述目标图像帧中添加特效标识，得到特效目标图像帧，包括：对所述目标图像帧中的人物元素进行面部特征检测，得到对应的面部表情特征；基于所述面部表情特征，确定对应的目标特效标识；确定所述目标特效标识的目标显示位置；基于所述目标显示位置，在所述目标图像帧中添加所述目标特效标识，得到特效目标图像帧。

第二方面，根据本公开的一个或多个实施例，提供了一种图像生成装置，包括：

获取模块，用于获取至少两个原始图像；

在一种可能的实现方式中，所述获取模块，具体用于：获取素材数据，所述素材数据包括视频和/或图片集；根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像，所述素材图像为所述视频中的视频帧和/或所述图片集中的图片。

在一种可能的实现方式中，所述获取模块在根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像时，具体用于：基于所述素材图像的图像内容，获取所述素材图像对应的姿态相似度，所述姿态相似度表征所述图像内容中的人物元素的姿态与目标姿态的相似度；根据各所述素材图像对应的姿态相似度，确定至少两个原始图像。

在一种可能的实现方式中，所述获取模块在根据各所述素材图像对应的姿态相似度，确定至少两个原始图像时，具体用于：将所述姿态相似度大于第一相似度阈值的素材图像，确定为所述原始图像，和/或，将所述姿态相似度小于第二相似度阈值的素材图像，确定为所述原始图像；其中，所述第一相似度阈值大于所述第二相似度阈值。

在一种可能的实现方式中，所述获取模块，还用于：获取所述素材图像对应的动态清晰度；所述获取模块在根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像时，具体用于；基于各所述素材图像的图像内容和对应的动态清晰度，得到至少两个所述原始图像。

在一种可能的实现方式中，所述迁移模块，具体用于：获取所述目标图像风格对应的风格迁移模型；基于所述风格迁移模型处理所述原始图像，得到所述原始图像对应的目标图像帧。

在一种可能的实现方式中，所述迁移模块在基于所述风格迁移模型处理所述原始图像，得到所述原始图像对应的目标图像帧时，具体用于：基于所述原始图像的图像内容，确定所述原始图像中的目标图像元素；围绕所述目标图像元素进行边缘剪裁，得到包含所述目标图像元素的剪裁图像，其中，所述目标图像元素在所述剪裁图像中的图像区域占比大于所述目标图像元素在所述原始图像中的图像区域占比；基于所述目标图像风格对应的风格迁移模型对各所述剪裁图像进行风格迁移，得到所述原始图像对应的目标图像帧。

在一种可能的实现方式中，在对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧之前，所述迁移模块，还用于：基于至少两个所述原始图像对应的图像内容，确定所述目标图像风格。

在一种可能的实现方式中，所述目标拼图包括至少两个拼图区域，每一拼图区域用于显示一个对应的所述目标图像帧，所述目标拼图布局表征所述目标拼图中的拼图区域的大小和/或位置。

在一种可能的实现方式中，所述组合模块在根据至少两个所述原始图像对应的图像内容，确定目标拼图布局时，具体用于：据所述至少两个原始图像对应的图像内容，得到上下文信息，所述上下文信息表征所述至少两个初始图像对应的图像内容之间的上下文关系；根据所述上下文信息，确定目标拼图布局。

在一种可能的实现方式中，所述组合模块，还用于：在所述目标图像帧中添加特效标识，得到特效目标图像帧，其中，所述特效标识是基于所述目标图像帧的图像内容确定的。

在一种可能的实现方式中，所述组合模块在所述目标图像帧中添加特效标识，得到特效目标图像帧时，具体用于：对所述目标图像帧中的人物元素进行面部特征检测，得到对应的面部表情特征；基于所述面部表情特征，确定对应的目标特效标识；确定所述目标特效标识的目标显示位置；基于所述目标显示位置，在所述目标图像帧中添加所述目标特效标识，得到特效目标图像帧。

第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的图像生成方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种图像生成方法，其特征在于，包括：

获取至少两个原始图像；

对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧；

根据至少两个所述原始图像对应的图像内容，确定目标拼图布局；

将至少两个所述目标图像帧按照目标拼图布局进行组合，生成目标拼图。

2.根据权利要求1所述的方法，其特征在于，所述获取至少两个原始图像，包括：

获取素材数据，所述素材数据包括视频和/或图片集；

根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像，所述素材图像为所述视频中的视频帧和/或所述图片集中的图片。

3.根据权利要求2所述的方法，其特征在于，根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像，包括：

基于所述素材图像的图像内容，获取所述素材图像对应的姿态相似度，所述姿态相似度表征所述图像内容中的人物元素的姿态与目标姿态的相似度；

根据各所述素材图像对应的姿态相似度，确定至少两个原始图像。

4.根据权利要求3所述的方法，其特征在于，根据各所述素材图像对应的姿态相似度，确定至少两个原始图像，包括：

将所述姿态相似度大于第一相似度阈值的素材图像，确定为所述原始图像，和/或，

将所述姿态相似度小于第二相似度阈值的素材图像，确定为所述原始图像；

其中，所述第一相似度阈值大于所述第二相似度阈值。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述素材图像对应的动态清晰度；

根据所述素材数据中的素材图像的图像内容，对所述素材数据进行抽帧，得到至少两个所述原始图像，包括；

基于各所述素材图像的图像内容和对应的动态清晰度，得到至少两个所述原始图像。

6.根据权利要求1所述的方法，其特征在于，对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧，包括：

获取所述目标图像风格对应的风格迁移模型；

基于所述风格迁移模型处理所述原始图像，得到所述原始图像对应的目标图像帧。

7.根据权利要求6所述的方法，其特征在于，基于所述风格迁移模型处理所述原始图像，得到所述原始图像对应的目标图像帧，包括：

基于所述原始图像的图像内容，确定所述原始图像中的目标图像元素；

围绕所述目标图像元素进行边缘剪裁，得到包含所述目标图像元素的剪裁图像，其中，所述目标图像元素在所述剪裁图像中的图像区域占比大于所述目标图像元素在所述原始图像中的图像区域占比；

基于所述目标图像风格对应的风格迁移模型对各所述剪裁图像进行风格迁移，得到所述原始图像对应的目标图像帧。

8.根据权利要求1所述的方法，其特征在于，在对至少两个所述原始图像分别进行图像风格迁移，得到对应的具有目标图像风格的目标图像帧之前，还包括：

基于至少两个所述原始图像对应的图像内容，确定所述目标图像风格。

9.根据权利要求1所述的方法，其特征在于，所述目标拼图包括至少两个拼图区域，每一拼图区域用于显示一个对应的所述目标图像帧，所述目标拼图布局表征所述目标拼图中的拼图区域的大小和/或位置。

10.根据权利要求1所述的方法，其特征在于，根据至少两个所述原始图像对应的图像内容，确定目标拼图布局，包括：

据所述至少两个原始图像对应的图像内容，得到上下文信息，所述上下文信息表征所述至少两个初始图像对应的图像内容之间的上下文关系；

根据所述上下文信息，确定目标拼图布局。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述目标图像帧中添加特效标识，得到特效目标图像帧，其中，所述特效标识是基于所述目标图像帧的图像内容确定的。

12.根据权利要求11所述的方法，其特征在于，在所述目标图像帧中添加特效标识，得到特效目标图像帧，包括：

对所述目标图像帧中的人物元素进行面部特征检测，得到对应的面部表情特征；

基于所述面部表情特征，确定对应的目标特效标识；

确定所述目标特效标识的目标显示位置；

基于所述目标显示位置，在所述目标图像帧中添加所述目标特效标识，得到特效目标图像帧。

13.一种图像生成装置，其特征在于，包括：

获取模块，用于获取至少两个原始图像；

14.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至12中任一项所述的图像生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至12任一项所述的图像生成方法。

16.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的图像生成方法。