CN118262016A

CN118262016A - 图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN118262016A
Application number: CN202211683409.9A
Authority: CN
Inventors: 陈力; 杨昊; 刘凯; 曾伟宏
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2024-06-28

Abstract

本公开涉及图像处理技术领域，具体涉及图像生成方法、装置、电子设备及存储介质，该方法包括响应于包括目标对象的待处理图像的输入操作，以确定所述目标对象的虚拟形象信息；对所述待处理图像进行场景理解，确定所述待处理图像的场景信息，以生成目标场景图像；基于所述虚拟形象信息以及所述目标场景图像，生成目标图像。由于生成的目标场景图像是通过对输入的待处理图像进行场景理解得到的，使得所生成的目标场景图像是合理的；在将目标虚拟形象信息与目标场景图像进行融合时，能够将目标虚拟形象信息较好地融合到目标场景图像中，一方面扩展了虚拟形象的呈现形式，另一方面可以实现虚拟形象与外界信息的智能交互，提升了用户体验。

Description

图像生成方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，具体涉及图像生成方法、装置、电子设备及存储介质。

背景技术

虚拟形象，即用信息科学的方法对目标对象在不同水平的形态和功能进行虚拟仿真，其在各场景领域得到广泛的应用，例如，线上的智能手机助手、虚拟电商主播、虚拟明星等，或者，线下的银行、地铁、医院等的智能问答一体机等等。但是，现有的虚拟形象的呈现方式较为单一有限，难以满足多样化的业务需求。

发明内容

有鉴于此，本公开实施例提供了一种图像生成方法、装置、电子设备及存储介质，以解决虚拟形象的呈现方式单一的问题。

根据第一方面，本公开实施例提供了一种图像生成方法，包括：

响应于包括目标对象的待处理图像的输入操作，以确定所述目标对象的虚拟形象信息；

对所述待处理图像进行场景理解，确定所述待处理图像的场景信息，以生成目标场景图像；

基于所述虚拟形象信息以及所述目标场景图像，生成目标图像。

根据第二方面，本公开实施例提供了一种图像生成装置，包括：

响应模块，用于响应于包括目标对象的待处理图像的输入操作，以确定所述目标对象的虚拟形象信息；

确定模块，用于对所述待处理图像进行场景理解，确定所述待处理图像的场景信息，以生成目标场景图像；

生成模块，用于基于所述虚拟形象信息以及所述目标场景图像，生成目标图像。

根据第三方面，本公开实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的图像生成方法。

根据第四方面，本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的图像生成方法。

本公开实施例提供的图像生成方法，目标图像是通过虚拟形象信息与目标场景图像融合得到的，而生成的目标场景图像是通过对输入的待处理图像进行场景理解得到的，使得所生成的目标场景图像是合理的；在将虚拟形象信息与目标场景图像进行融合时，能够将虚拟形象信息较好地融合到目标场景图像中，实现较好的融合效果。对于用户而言，仅需要输入待处理图像即可，无需复杂的交互过程，就能得到符合生成场景风格的虚拟形象，从而能够得到多样化的目标图像。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开实施例的图像生成方法的流程图；

图2是根据本公开实施例的图像生成方法的流程图；

图3是根据本公开实施例的图像生成方法的流程图；

图4a-图4c是根据本公开实施例的图像生成示意图；

图5是根据本公开实施例的图像生成装置的结构框图；

图6是本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在相关技术的虚拟形象生成时，用户能够获取到2D或3D的虚拟形象，但是这种情况下虚拟形象的呈现多限于面部或全身，其交互形式也多局限于通过识别目标对象的表情、动作来驱动虚拟形象完成相应的动作。然而，这种方式仅仅是从目标对象本身出发生成虚拟形象，其呈现方式较为单一，难以满足多样化的需求。

基于此，本公开实施例提供的图像生成方法，是基于目标对象的待处理图像进行处理的。在得到待处理图像之后，对待处理图像进行场景理解，生成目标场景图像。再将虚拟形象信息与目标场景图像结合生成目标图像，经过如此处理，能够将虚拟形象信息与目标场景图像进行较好地融合以生成目标图像。上述过程对于用户而言，仅需要输入待处理图像，即可得到较理想的包含虚拟形象的目标图像。该方法一方面扩展了虚拟形像的呈现形式，另一方面可以实现虚拟形象与外界信息的智能交互，提升了用户体验。其中，外界信息对应于上文所述的对待处理图像进行场景理解后获得的目标场景图像。对于用户无需经过复杂的操作，就能够直观地获得相应的虚拟形象。

需要说明的是，图像生成可以基于安装的目标应用实现的，也可以是目标应用的小程序实现的，或在网页端实现，等等。在此对图像生成方法的具体实现方式并不做任何限定，具体根据实际需求进行设置。

以基于电子设备中安装的目标应用实现为例，该目标应用的运行可以是离线的，可以是在线。例如，当电子设备的网络性能较好时，目标应用为在线运行；当电子设备的网络性能不佳时，目标应用为离线运行。当在线运行时，用户通过向目标应用输入待处理图像，电子设备通过与目标应用的服务器的交互，服务器生成目标图像，并将目标图像下发至电子设备，从而在电子设备上显示出目标图像。当离线运行时，用户通过向目标应用输入待处理图像，电子设备通过目标应用中自带的素材确定并显示出待处理图像。

根据本公开实施例，提供了一种图像生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种图像生成方法，可用于电子设备，如电脑、移动终端、服务器等，图1是根据本公开实施例的图像生成方法的流程图，如图1所示，该流程包括如下步骤：

S11，响应于包括目标对象的待处理的输入操作，以确定目标对象的虚拟形象信息。

待处理图像可以是实时采集并输入的，例如，在电子设备上设置有图像输入控件，用户通过与该图像输入控件的交互操作，即可触发电子设备的图像采集功能，实现待处理图像的实时采集，相应地，电子设备即可获得待处理图像。或者，待处理图像是存储在电子设备中，例如，在电子设备上设置有图像输入标签，用户通过与该图像输入控件的交互操作，即可触发访问电子设备的相册功能，并将相册内的图像显示在电子设备的界面上，用户通过对相册的选择操作确定出待处理图像，相应地，电子设备即可获得待处理图像。

目标对象的虚拟形象信息可以是通过基于待处理图像自动生成的，也可以是基于待处理图像从其他地方调取到的，等等。例如，基于待处理图像自动生成，可以是基于人脸检测方法，检测出待处理图像中的人脸区域，自动或由用户指定的方式确定目标对象，再基于确定出的目标对象生成目标对象的虚拟形象信息。其中，虚拟形象信息包括但不限于虚拟形象的图像，或创建虚拟形象所需的信息，等等，具体根据实际需求进行设置。

在一些实施方式中，上述S11包括：

(1)显示虚拟形象的基本组成部分。

(2)响应于对基本组成部分的选择和/或编辑操作，确定目标对象的虚拟形象信息。

在一些可能的实施方式中，可以由电子设备提供一个选择界面，在该选择界面上显示有虚拟形象的基本组成部分，其中，基本组成部分包括但不限于五官、脸型、发型、肤色等等，用户通过与电子设备的交互进行所期望生成的虚拟形象的基本组成部分的选择和/或编辑处理，从而确定目标对象的虚拟形象信息。例如，用户通过交互选择一个脸型，再对该脸型进行适应性调整，得到目标脸型，进而在此基础上确定目标对象的虚拟形象信息。

利用对虚拟形象的基本组成部分的选择和/或编辑，生成目标对象的虚拟形象信息，能够保证所得到的目标虚拟形象信息是依据用户需求生成，提升用户体验。

在另一些实施方式中，上述S11包括：

(1)响应于目标对象的虚拟形象信息是否已创建的确认操作。

(2)当确认目标对象的虚拟形象信息已创建时，响应于对调取已创建的虚拟形象信息的确认操作，以确定目标对象的虚拟形象信息。

在电子设备上的多个应用中可能均涉及到虚拟形象的生成，例如，电子设备中运行有应用A以及应用B，目标对象通过与应用A的交互，输入目标图像，经过应用A的处理后得到目标对象的虚拟形象信息。其中，应用B中同样也涉及到虚拟形象信息的生成，对于同一用户而言，其虚拟形象信息是类似的，因此，就可以基于与用户进行交互的方式进行确认，进而从应用B中获取虚拟形象信息。

需要说明的是，应用A在确定虚拟形象信息时，可以在应用A的页面上显示是否已创建目标对象的虚拟形象信息的确认页面，若用户选择已创建，则跳转至是否调取已创建的虚拟形象信息的确认页面，若用户选择确认调取，则显示跳转至应用B的授权请求，用户与该授权请求进行交互，允许应用的跳转，在跳转后即可从应用B中获得已创建的虚拟形象信息。

对于已创建虚拟形象信息的调取，例如，在应用A的页面上显示有涉及到虚拟形象信息的各个可选应用，在用户确认调取已创建的虚拟形象信息之后，依次查询各个可选应用，进行已创建有虚拟形象信息的目标应用的确定。其中，对于可选应用的确定是电子设备通过对各个应用的描述信息进行分析后得到的。需要说明的是，对描述信息的分析可能存在误判断的情况，针对该情况，在页面上显示可选应用之后，还支持用户的筛选操作处理，以进一步对可选应用进行过滤。电子设备在过滤后的可选应用中进行已创建有虚拟形象信息的查询，最终确定出目标应用。

通过用户的交互形式，从目标应用中提取出虚拟形象信息，无需再次创建，提高了虚拟形象信息的获取效率。即，能够直接从目标应用中提取出已创建的虚拟形象信息。

在一些实施方式中，已创建的虚拟形象信息除了可以从其他应用中进行调取，也可以是从本地存储中调取。若用户确认已创建目标对象的虚拟形象信息，则可以提供已创建的虚拟形象信息的存储位置，用户通过对存储位置的选择，即可从调取已创建的虚拟形象信息。

S12，对待处理图像进行场景理解，确定待处理图像的场景信息，以生成目标场景图像。

对待处理图像进行场景理解可以是通过目标识别模型，识别出待处理图像中的至少一个特征对象。例如，特征对象可以是待处理图像中的摆件、装饰、建筑等等。目标识别模型是利用特征对象的样本图像进行训练得到的，目标识别模型的输入为图像，输出为多目标的识别结果。或者，在电子设备中建立有特征对象库，先识别出待处理图像中的特征对象的位置，再利用该位置从待处理图像中提取出特征对象的图像，再将提取出的特征对象的图像与特征对象库中的图像进行匹配，从而确定出各个特征对象的类别。

对待处理图像的场景理解是对待处理图像进行语义分析，得到较为丰富的场景信息。例如，待处理图像中包含多类特征对象，经过场景理解后可能得到相应的多个语义信息，此时是从中选择部分或全部语义信息作为待处理图像的场景信息。例如，可以通过预先定义一些语义，如识别得到的语义属于预先定义的语义的话，可以将其作为场景信息；例如，可以将目标对象外，在图像中所占区域最大的特征对象对应的语义作为场景信息；例如，可以将待处理图像中位于目标对象的预设距离范围内的特征对象对应的语义作为场景信息；再例如，可以为从所有识别到的语义信息中随机选择预设数量的语义信息作为场景信息。

在一些实施方式中，场景理解的语义信息可以作为待处理图像的场景信息的部分，还可以包括从外界获取到其他场景信息，等等。为了便于全文的统一，将从待处理图像中直接能够获知的场景信息称之为第一场景信息。将从外界获取的场景信息称之为第二场景信息。

在得到场景信息的基础上，可以是利用多模态生成模型生成目标场景图像。其中，多模态生成模型的输入为文本，输出为目标场景图像。基于此，待处理图像的场景信息需要转换为文本信息，将转换后的文本信息输入多模态生成模型中，得到目标场景图像。需要说明的是，此处生成的目标场景图像可以是包括单帧图像，也可以为包括多帧图像，从而最终生成的图像也可以为多帧，通过在预设时间内依次显示上述多帧图像，可以实现场景的动态变化等等。

S13，基于虚拟形象信息以及目标场景图像，生成目标图像。

目标图像是将虚拟形象信息与目标场景图像进行融合后得到的，对于目标场景图像而言，需要在目标场景图像中预留有虚拟形象信息的融合位置，基于该融合位置实现虚拟形象信息与目标场景图像的融合，得到目标图像。例如，对应舞台类的目标场景图像，融合位置可以是舞台的中央；对于教室类的目标场景图像，融合位置可以是讲台的位置；等等。在生成目标图像之后，在电子设备的界面上显示有该目标图像，该目标图像可以是单帧图像，也可以是多帧图像。若目标图像是多帧图像时，则可以在预设时间内逐帧显示，以实现动态显示。

若虚拟形象信息是单帧图像，目标场景图像为多帧图像，则在目标场景图像的每一帧图像中的融合位置处融合单帧的虚拟形象信息。若虚拟形象信息是多帧图像，目标场景图像也是多帧图像时，则可以将多帧图像进行逐帧对齐，再进行逐帧融合。其中，在进行逐帧融合时，每一帧对应的融合位置可以是不同的，但是为了保证画面的连续性，相邻帧的融合位置之间的距离小于预设距离阈值，以满足显示的连续性。若虚拟形象信息是多帧图像，目标场景图像为单帧图像，则将目标场景图像作为多帧图像的背景，实现两者的融合。

当然，虚拟形象信息与目标场景图像的融合方式并不限于上文所述，具体根据实际需求进行设置。

本实施例提供的图像生成方法，是基于目标对象的待处理图像进行处理的。在得到待处理图像之后，对待处理图像进行场景理解，生成目标场景图像。再将虚拟形象信息与目标场景图像结合生成目标图像，经过如此处理，能够较好地将虚拟形象信息与目标场景图像进行较好地融合生成目标图像。上述过程对于用户而言，仅需要输入待处理图像，即可得到较理想的包含虚拟形象的目标图像。该方法一方面扩展了虚拟形象的呈现形式，另一方面可以实现虚拟形象与外界信息的智能交互，提升了用户体验。其中，外界信息对应于上文所述的对待处理图像进行场景理解后获得的。对于用户无需经过复杂的操作，就能够直观地获得相应的虚拟形象。

在本实施例中提供了一种图像生成方法，可用于电子设备，如电脑、移动终端、服务器等，图2是根据本公开实施例的图像生成方法的流程图，如图2所示，该流程包括如下步骤：

S21，响应于包含目标对象的待处理图像的输入操作，以确定目标对象的虚拟形象信息。

详细请参见图1所示实施例的S11，在此不再赘述。

S22，对待处理图像进行场景理解，确定目标图像的场景信息，以生成目标场景图像。

具体地，上述S22包括：

S221，对待处理图像中的场景进行分析，确定第一场景信息。

通过分析待处理图像中的物品以及周边场景的信息等等，对待处理图像中的场景进行分析得到第一场景信息。其中，所得到的第一场景信息为待处理图像直接能够表征出的场景信息。

需要说明的是，待处理图像中的场景并不限定于物品以及周边场景等，还可以包括待处理图像中的人、动物、建筑等。

S222，获取待处理图像的输入信息，确定第二场景信息。

第二场景信息为待处理图像间接表征的场景信息，例如，用户在上传待处理图像时，附加的一些输入信息，例如，输入时间，天气信息或其他一些描述信息等。例如，在电子设备的界面上除了包括有图像上传控件以外，还包括有场景补充说明控件。用户通过与该场景补充说明控件的交互，即可进行信息的输入，相应地，电子设备即可获得第二场景信息。

在电子设备中存储有一些元素库，例如，若输入信息包括输入时间，则在该元素库中进行输入时间对应的元素的查询，以丰富第二场景信息。以输入时间处于中秋节期间为例，第二场景信息包括但不限于月亮、月饼、玉兔、团圆等等。当然，此处的输入时间并不特指节日当天，可以是节日附近的一段时间内。同样以中秋节为例，若输入时间落入中秋节的前后10天内，则均可以将中秋节的相关元素作为第二场景信息。需要说明的是，本公开实施例中的时间段并不限于上文所述的前后10天，也可以是3天，或15天等等，具体根据实际需求进行限定。

通过输入信息确定出第二场景信息，以丰富待处理图像的场景信息，使得后续所生成的目标场景图像能够产生多种且丰富的有趣场景。同时在季节变迁和节假日时期，可以结合实时特点，产生多种且丰富的有趣场景，添加用户粘性，增强目标应用的可玩性。

S223，基于第一场景信息与第二场景信息，确定待处理图像的场景信息。

第一场景信息与第二场景信息均是与待处理图像相关联的，两者的融合可以为两个信息的拼接，以丰富待处理图像的场景信息的描述。例如，第一场景信息包括宇航员，第二场景信息包括中秋节的月圆，则两者融合后得到的场景信息可以表示为：宇航员+月圆。

S224，基于场景信息生成目标场景图像。

在生成目标场景图像时，电子设备可以利用场景信息作为关键词进行图像或视频的检索，生成目标场景图像。例如，电子设备经过检索输出最接近的1个图像或视频，将其作为目标场景图像。或者，电子设备经过检索输出10个可选场景，并将10个可选场景显示在界面上以供目标对象进行选择，目标对象通过与电子设备的交互从中选择1个场景作为目标场景图像。

在生成目标场景图像时，可以将目标文本中的词作为检索关键词，进行图像或视频的检索，从而生成目标场景图像。或者，获取事先训练好的多模态生成模型，将目标文本输入该多模态生成模型中，得到动态可变化的场景，即目标场景图像。多模态生成模型的输入为文本，输出为图像。此处的图像并不特指一张图像，可以是多张连续的图像序列形成的视频。

在一些实施方式中，若场景信息中的第一场景信息包括目标品牌的产品，则在生成目标场景图像时，可以针对目标品牌的产品进行差异性生成，添加更加华丽的展示和效果。其中，目标品牌可以是目标对象根据实际需求进行设置的。

S23，基于虚拟形象信息以及目标场景图像，生成目标图像。

具体地，上述S23包括：

S231，基于场景信息对虚拟形象信息进行更新，确定目标虚拟形象信息。

在上文中所获取到的虚拟形象信息是基于人脸信息生成，或者，是基于目标对象自身生成的，或者，基于用户对虚拟形象的基本组成部分的选择和/或编辑生成的，其是独立于待处理图像中的场景。因此，在上述S22中获得场景信息之后，利用该场景信息对S21中获得的虚拟形象信息进行更新，使得更新后的目标虚拟形象信息中包括有场景信息的元素。例如，虚拟形象信息为虚拟形象的图像。在对待处理图像进行场景识别时，识别到待处理图像中存在一个宇航员的摆件，相应地，所生成的目标场景图像是与宇宙星辰有关的。此时，在场景信息中就包括有宇航员相关的信息，基于此，就利用宇航员相关的信息对虚拟形象的图像进行更新，所得到的目标虚拟形象信息为穿着有宇航服的虚拟形象。

对虚拟形象的更新可以是：基于确定的场景信息，获得相应的虚拟形象的增强信息。增强信息具体可以包括虚拟的服饰、配饰特效等等，还可以包括其他对虚拟形象的风格进行增强的虚拟物品特效等等。

具体在实现时，可以是通过搜索与场景信息相关的图像，将其作为虚拟形象信息的增强信息。再将该增强信息与虚拟形象信息进行融合，最终得到目标虚拟形象信息。例如，从目标图像得到的场景信息为篮球，则相应的虚拟形象的增强信息为虚拟篮球特效，而虚拟篮球特效可以是静态的特效，也可以是动态的特效，例如，呈现旋转状态的篮球。

在一些实施方式中，上述S231包括：

(1)获取场景信息中的第一场景信息。

其中，第一场景信息为待处理图像中的场景。

关于第一场景信息的获取方式请参见S221的描述，在此不再赘述。

(2)基于虚拟形象信息以及第一场景信息，确定目标虚拟形象信息。

虚拟形象信息的描述请参见上文S11的描述，在此不再赘述。如上文所述，虚拟形象信息为图4a所示的人脸形象，并不包括人体的信息。在对待处理图像进行场景分析时，识别出场景中存在一个宇航员的摆件，即可确定该待处理图像的场景信息为宇宙星辰，即如图4b所示的目标场景。因此，若将该虚拟形象直接与如图4b所示的目标场景进行融合，就会显得很突兀。基于此，在本实施例中通过将虚拟形象信息与第一场景信息进行融合，在虚拟形象信息的基础上为其添加上人体或其他附加信息，得到目标虚拟形象信息。

第一场景信息为直接从目标图像中获得的信息，而场景信息中的第二场景信息用于表示的是目标图像的输入信息，并不是直接从目标图像中得到的。为了保证所得到的虚拟形象的逼真性，利用场景信息中的第一场景信息对虚拟形象信息进行更新。例如，第一场景信息为宇航员，利用该信息对图4a所示的虚拟形象信息进行更新，得到的如图4c所示的目标虚拟形象信息穿着有宇航服的人，即，在虚拟形象信息的基础上，增加了宇航服，使得所生成的虚拟形象与目标场景图像更加贴合。

在一些实施方式中，上述S231的步骤(2)包括：

(2.1)基于虚拟形象信息确定第一特征向量。

(2.2)基于第一场景信息确定第二特征向量。

(2.3)基于第一特征向量与第二特征向量的组合，确定目标虚拟形象信息。

在将虚拟形象信息与第一场景信息进行融合时，将虚拟形象信息转换成第一特征向量，将第一场景信息转换成第二特征向量。其中，特征向量的转换可以是通过生成对抗模型的逆映射方法(即，GAN inversion)得到的。将第一特征向量与第二特征向量进行组合后得到目标特征向量，再基于目标特征向量确定目标虚拟形象信息。其中，两个特征向量的组合方式包括但不限于拼接。

S232，基于目标虚拟形象信息以及目标场景图像，生成目标图像。

在得到更新后的目标虚拟形象信息之后，将目标虚拟形象信息与目标场景图像进行融合，生成目标图像。

其余详细请参见图1所示实施例的S13，在此不再赘述。

本实施例提供的图像生成方法，在场景信息中，除了包括有待处理图像中的物品表征的第一场景信息，还通过获取第二场景信息，以丰富场景信息，使得所生成的目标场景图像具有多样性。结合场景信息中的第一场景信息，对虚拟形象信息进行二次变化和更新，使得所得到的目标虚拟形象信息在生成的场景中是合理的。

在本实施例中提供了一种图像生成方法，可用于电子设备，如电脑、移动终端、服务器等，图3是根据本公开实施例的图像生成方法的流程图，如图3所示，该流程包括如下步骤：

S31，响应于包含目标对象的待处理图像的输入操作，以确定目标对象的虚拟形象信息。

详细请参见图1所示实施例的S11，在此不再赘述。

S32，对待处理图像进行场景理解，确定待处理图像的场景信息，以生成目标场景图像。

详细请参见图2所示实施例的S22，在此不再赘述。

S33，基于目标虚拟形象信息以及目标场景图像，生成目标图像。

具体地，上述S34包括：

S341，获取目标场景图像中的融合位置。

目标场景图像中的融合位置是与目标场景图像相关的，如上文所述，若目标场景图像为舞台，则融合位置为舞台的中央；若目标场景图像为教室，则融合位置为讲台，等等。当然，上述仅仅是一种示例，并不限定融合位置在目标场景图像中的具体位置，具体融合位置是根据实际需求进行设置的，在此对其并不做任何限定。

S342，基于融合位置将目标虚拟形象信息与目标场景图像进行融合，生成目标图像。

在目标虚拟形象信息与目标场景图像进行融合时，可以基于风格转换的方式，将目标虚拟形象信息无痕迹地置入目标场景图像中，即可生成目标图像。

例如，目标虚拟形象信息与目标场景图像均为图像形式表征的，通过对目标虚拟形象信息以及目标场景图像分别进行特征提取，选择一个预训练的卷积神经网络来提取图像特征，这个选择的卷积神经网络凭借多个层逐级提取图像的特征，例如，可以选择其中某些层的输出作为内容特征或风格特征。经过特征提取，将目标场景图像分成内容特征和风格特征，相应地，将虚拟形象也分为内容特征和风格特征。在此基础上，将虚拟形象的内容特征与融合位置的风格特征进行结合，重构出符合生成场景风格的虚拟形象，即可生成目标图像。

本实施例提供的图像生成方法，不同目标场景图像中对应有不同的融合位置，使得所生成的虚拟形象更加符合目标场景图像，即通过图像融合的方式能够将不同风格的虚拟形象融合到相应的目标场景图像中。

作为本公开实施例的一个具体应用实例，电子设备为移动终端，在移动终端上安装有目标应用。当用户需要生成虚拟形象时，通过与移动终端的交互，触发目标应用的启动。在目标应用的页面上显示有图像上传控件，用户通过选择该图像上传控件，触发移动终端上的图像采集设备实时进行待处理图像的采集。相应地，目标应用获得待处理图像。同时，用户在触发目标应用启动时，通过与用户的交互确认从其他应用中读取到目标对象的虚拟形象信息。例如，在待处理图像中，目标对象处于书房环境中，桌面上摆放的物品包括书本、笔等，相应地，通过对待处理图像中的场景进行识别，得到第一场景信息为书本+笔；目标应用获取到用户输入的时间为教师节，得到第二场景信息为教师节；将第一场景信息与第二场景信息进行融合得到的场景信息为书本+笔+教师节，基于该场景信息生成的目标场景图像为教室场景。目标应用再利用第一场景信息对虚拟形象信息进行更新，在虚拟形象信息的基础上进行教师穿着打扮的丰富，得到虚拟形象的图像。将教室场景中的讲台位置确定为融合位置，再将虚拟形象的图像置入讲台位置，实现虚拟形象的图像与目标场景图像的融合生成目标图像，并在目标应用的页面上显示该目标图像。通过该方法可以实现目标对象的各种职业场景的体验，例如，医生、教师、工程师等等。

作为本公开实施例的另一个具体应用实例，电子设备为移动终端，在移动终端上安装有目标应用。当用户需要生成虚拟形象时，通过与移动终端的交互，触发目标应用的启动。在目标应用的页面上显示有图像上传控件，用户通过选择该图像上传控件，读取移动终端中的相册，用户通过与相册的交互，选择出一张图像作为待处理图像。相应地，目标应用获得待处理图像，并基于该待处理图像生成虚拟形象信息。当前用户处于产品介绍环境中，桌面上摆放有目标品牌的物品，例如，包括目标品牌的手机。相应地，通过对待处理图像中的场景进行识别，得到第一场景信息为目标品牌+手机；目标应用获取到的输入时间为节假日，即第二场景信息为节日大促；将第一场景信息与第二场景信息进行融合，得到的场景信息为目标品牌+手机+节日大促，基于该场景信息生成的目标场景图像为产品的展示与介绍。目标应用再利用第一场景信息对虚拟形象信息进行丰富，为虚拟形象信息添加符合产品展示与介绍的打扮得到目标虚拟形象信息，例如，为虚拟形象信息增加目标品牌的标识等等。将产品的展示与介绍的中间位置确定为融合位置，再将目标虚拟形象信息置入融合位置，确定出目标图像，并在目标应用的页面上显示该目标图像。同时，目标应用还提供有导出功能，将生成的目标图像导出，实现目标图像的循环利用。通过该方法可以实现各种产品的展示与介绍，从而节约人力成本。

在本实施例中还提供了一种图像生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种图像生成装置，如图5所示，包括：

响应模块41，用于响应于包括目标对象的待处理图像的输入操作，以确定所述目标对象的虚拟形象信息；

确定模块42，用于对所述待处理图像进行场景理解，确定所述待处理图像的场景信息，以生成目标场景图像；

生成模块43，用于基于所述虚拟形象信息以及所述目标场景图像，生成目标图像。

在一些实施方式中，响应模块41包括：

显示单元，用于显示虚拟形象的基本组成部分；

第一响应单元，用于响应于对所述基本组成部分的选择和/或编辑操作，确定所述目标对象的虚拟形象信息。

在一些实施方式中，响应模块41包括：

第二响应单元，用于响应于所述目标对象的虚拟形象信息是否已创建的确认操作；

第三响应单元，用于当确认所述目标对象的虚拟形象信息已创建时，响应于对调取已创建的虚拟形象信息的确认操作，以确定所述目标对象的虚拟形象信息。

在一些实施方式中，确定模块42包括：

分析单元，用于对所述待处理图像中的场景进行分析，确定第一场景信息；

第一获取单元，用于获取所述待处理图像的输入信息，确定第二场景信息；

第一确定单元，用于基于所述第一场景信息与所述第二场景信息，确定所述待处理图像的场景信息；

第一生成单元，用于基于所述场景信息生成所述目标场景图像。

在一些实施方式中，生成模块43包括：

更新单元，用于基于所述场景信息对所述虚拟形象信息进行更新，确定目标虚拟形象信息；

第二生成单元，用于基于所述目标虚拟形象信息以及所述目标场景图像，生成所述目标图像。

在一些实施方式中，更新单元包括：

第二获取单元，用于获取所述场景信息中的第一场景信息，所述第一场景信息为所述待处理图像中的场景；

第二确定单元，用于基于所述虚拟形象信息与所述第一场景信息，确定所述目标虚拟形象信息。

在一些实施方式中，第二确定单元包括：

第一确定子单元，用于基于所述虚拟形象信息确定第一特征向量；

第二确定子单元，用于基于所述第一场景信息确定第二特征向量；

第三确定子单元，用于基于所述第一特征向量与所述第二特征向量的组合，确定所述目标虚拟形象信息。

在一些实施方式中，生成模块43包括：

第三获取单元，用于获取所述目标场景图像中的融合位置；

融合单元，用于基于所述融合位置将所述目标虚拟形象信息与所述目标场景图像进行融合，生成所述目标图像。

本实施例中的图像生成装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本公开实施例还提供一种电子设备，具有上述图5所示的图像生成装置。

请参阅图6，图6是本公开可选实施例提供的一种电子设备的结构示意图，如图6所示，该电子设备可以包括：至少一个处理器51，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口53，存储器54，至少一个通信总线52。其中，通信总线52用于实现这些组件之间的连接通信。其中，通信接口53可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口53还可以包括标准的有线接口、无线接口。存储器54可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器54可选的还可以是至少一个位于远离前述处理器51的存储装置。其中处理器51可以结合图5所描述的装置，存储器54中存储应用程序，且处理器51调用存储器54中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线52可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线52可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器54可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器54还可以包括上述种类的存储器的组合。

其中，处理器51可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器51还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器54还用于存储程序指令。处理器51可以调用程序指令，实现如本申请任一实施例中所示的图像生成方法。

本公开实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的图像生成方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法实施例而言，由于其基本相似于设备及系统实施例，所以描述的比较简单，相关之处参见设备及系统实施例的部分说明即可。

可以理解的是，在使用本公开各施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其他满足相关法律法规的方式也可应用于本公开的实现方式中。

虽然结合附图描述了本公开的实施例，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于包括目标对象的待处理图像的输入操作，以确定目标对象的虚拟形象信息，包括：

显示虚拟形象的基本组成部分；

响应于对所述基本组成部分的选择和/或编辑操作，确定所述目标对象的虚拟形象信息。

3.根据权利要求1所述的方法，其特征在于，所述响应于包括目标对象的待处理图像的输入操作，以确定目标对象的虚拟形象信息，包括：

响应于所述目标对象的虚拟形象信息是否已创建的确认操作；

当确认所述目标对象的虚拟形象信息已创建时，响应于对调取已创建的虚拟形象信息的确认操作，以确定所述目标对象的虚拟形象信息。

4.根据权利要求1所述的方法，其特征在于，所述对所述待处理图像进行场景理解，确定所述待处理图像的场景信息，以生成目标场景图像，包括：

对所述待处理图像中的场景进行分析，确定第一场景信息；

获取所述待处理图像的输入信息，确定第二场景信息；

基于所述第一场景信息以及所述第二场景信息，确定所述待处理图像的场景信息；

基于所述场景信息生成所述目标场景图像。

5.根据权利要求1所述的方法，其特征在于，所述基于所述虚拟形象信息以及所述目标场景图像，生成目标图像，包括：

基于所述场景信息对所述虚拟形象信息进行更新，确定目标虚拟形象信息；

基于所述目标虚拟形象信息以及所述目标场景图像，生成所述目标图像。

6.根据权利要求5所述的方法，其特征在于，所述基于所述场景信息对所述虚拟形象信息进行更新，确定目标虚拟形象信息，包括：

获取所述场景信息中的第一场景信息，所述第一场景信息为所述待处理图像中的场景；

基于所述虚拟形象信息以及所述第一场景信息，确定所述目标虚拟形象信息。

7.根据权利要求6所述的方法，其特征在于，所述基于所述虚拟形象信息以及所述第一场景信息，确定所述目标虚拟形象信息，包括：

基于所述虚拟形象信息确定第一特征向量；

基于所述第一场景信息确定第二特征向量；

基于所述第一特征向量与所述第二特征向量的组合，确定所述目标虚拟形象信息。

8.根据权利要求1所述的方法，其特征在于，所述基于所述虚拟形象信息以及所述目标场景图像，生成目标图像，包括：

获取所述目标场景图像中的融合位置；

基于所述融合位置将所述目标虚拟形象信息与所述目标场景图像进行融合，生成所述目标图像。

9.一种图像生成装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-8中任一项所述的图像生成方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-8中任一项所述的图像生成方法。