CN110136216A

CN110136216A - 图像生成的方法及终端设备

Info

Publication number: CN110136216A
Application number: CN201810132928.3A
Authority: CN
Inventors: 王�华; 张卫华; 罗振波; 王长威; 王晋夫; 宋先松
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2019-08-16

Abstract

本发明提供了一种图像生成的方法，该方法包括：获取与待生成图像相对应的描述信息，然后根据所述描述信息，生成与所述描述信息相对应的图像。本发明提供的图像生成的方法及终端设备适用于根据获取到的图像描述信息生成对应的图像。

Description

图像生成的方法及终端设备

技术领域

本发明涉及图像处理技术领域，具体而言，本发明涉及图像生成的方法及终端设备。

背景技术

图像的表现形式和表达方式比较生动直观，人们经常通过图像来表达自身想法。例如商业会议报告中的各种图表、产品设计中的设计画稿、路线导航时绘制的导航图等。

现有技术中，用户在绘制图像时，通常需要用户具备较丰富的绘画经验，对于绘画经验不足的用户，很难得到能够准确反映自身想法的图像。

因此如何得到能够准确表达用户想法的图像是现有技术亟需解决的问题。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的实施例根据一个方面，提供了一种图像生成的方法，包括：

获取与待生成图像相对应的描述信息；

根据所述描述信息，生成与所述描述信息相对应的图像。

本发明的实施例根据另一个方面，还提供了一种终端设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，指令在由处理器执行时，使得处理器执行图像生成的方法。

本发明的实施例根据又一个方面，还提供了一种图像生成的装置，其特征在于，包括：

获取模块，用于获取与待生成图像相对应的描述信息；

生成模块，用于根据所述获取模块获取的所述描述信息，生成与所述描述信息相对应的图像。

本发明提供了图像生成的方法及终端设备，与现有技术相比，本发明通过获取与待生成图像相对应的描述信息，然后根据描述信息，生成与描述信息相对应的图像，即本发明能够直接根据图像的描述信息，生成与描述信息相对应直观的图像，因此用户即使不具备丰富的绘画经验，也可以通过输入描述信息来得到能够准确表达其自身想法的图像，极大的提高了用户的体验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一的系统框图；

图2为本发明实施例的一种图像生成的方法流程图；

图3为实施例一中图像生成的方法流程图；

图4为多GAN模型的融合示意图；

图5为本发明实施例中应用增强学习形成用户相关的图像生成策略、加速创作过程示意图；

图6为本发明实施例中权重适配器模块的处理流程图；

图7为本发明实施例中调整权重适配器的过程示意图；

图8为本发明实施例二系统框图；

图9为实施例二中图像生成的方法流程图；

图10为本发明实施例中基于图像对用户进行艺术定位的示意图；

图11为本发明实施例中图像分解模型示意图；

图12为本发明实施例中基于布局对图像进行分解的示意图；

图13为本发明实施例中用户所在社交群艺术定位的示意图；

图14为本发明实施例中基于用户属性信息生成的图像示意图；

图15(a)为本发明实施例中对角线构图方式的示意图；

图15(b)为本发明实施例中九宫格构图方式的示意图；

图15(c)为本发明实施例中居中构图方式的示意图；

图15(d)为本发明实施例中等比分布构图方式的示意图；

图16为本发明实施例中基于九宫格的布局方式，生成图像的示意图；

图17为本发明实施例中基于不同着色方式生成图像的示意图；

图18为本发明实施例中基于不同的图像风格，生成图像的示意图；

图19为本发明实施例中基于图像内容生成图像的示意图；

图20为本发明实施例中图像评价系统的示意图；

图21为实施例三中图像生成的方法流程图；

图22为本发明实施例中基于图像描述信息生成由多个图层构成的图像的示意图；

图23为本发明实施例中将元素分组至不同图层的过程示意图；

图24为实施例三中图像生成的方法流程图；

图25(a)为本发明实施例在AR导航中绘制辅助信息的示意图；

图25(b)为本发明实施例在商业会议报告中生成各种描述性图表的示意图；

图25(c)为本发明实施例在产品设计中生成或者调整设计画稿的示意图；

图25(d)为本发明实施例生成符合用户描述的绘画作品的示意图；

图26为本发明实施例中一种图像生成的装置结构示意图；

图27为本发明实施例中终端设备的结构示意图；

图28为本发明实施例中终端设备的计算系统的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

图像是描述艺术作品和客观事物的自然形式，文字是最基本的信息传递方式，但有时和图像相比不够直观。在很多情况下，人们希望把文字转化为更加直观的图像，例如：在商业会议报告中将会议内容直接转化为各种描述性图表；在产品设计中将产品设计描述直接转化为设计画稿；在增强现实(AR，Augmented Reality)导航中根据位置或路线相关描述直接绘制导航图；将用户的描述直接转化为绘画作品。

因此如何将用户的相关描述准确地转化为能够反映用户自身想法的图像成为一个亟需解决的问题。

为了解决现有技术中的技术问题，本发明实施例提供一种图像生成的方式，具体详见下文：

本发明实施例提出了一种图像生成的方法，主要包括如何根据用户输入的描述信息生成高质量的图像以及如何缩短用户获得满意图像所需的交互迭代过程。

那么，如何根据用户输入的描述信息生成高质量的图像包括：

首先用户想创作一幅图像时，可以对理想中图像的内容进行文本描述或语音描述，例如，通过文本描述或者语音描述来描述图像中包含的对象及其属性、图像的布局、图像的色调、图像的材质等，结合用户输入的文本描述或语音描述以及用户属性信息等，可以实时生成一幅符合用户语义的图像(即能够反映用户自身想法的图像)，使用户可以用最为自然便捷的方式快速地得到自己想要的图像，用户即使没有绘画基础也可以创作出自己独特风格的画作。

用户还可以对系统生成的图像补充文本描述或补充语音描述，系统根据用户的补充的描述对图像进行调整，系统也可以给用户一些针对待生成图像的指导信息(也可以称为提示信息)，例如给用户一些布局、颜色等方面的艺术指导，使用户得到的图像更加具有艺术价值或个人特色。

系统在生成图像时，可以生成多图层的图像，将图像根据布局、对象等信息分成多层，便于系统后续调整，也方便用户导入专业绘画软件进行修改。

进一步地，如何缩短用户获得满意图像所需的交互迭代过程包括：

在用户交互迭代的过程中，可以根据用户对生成图像的反馈，改进系统模型，使系统能以较少的用户交互生成满足用户需要的图像；

系统还可以获取个人信息(如通过用户输入的描述信息获取个人信息)，并建立用户个人档案，根据图像评价模型对用户及其常在的社交群体进行艺术定位，生成更加符合用户个人喜好且受欢迎度较高的图像，以缩短用户的交互迭代过程。

本发明实施例中，系统的框架图如图1所示，结合多生成对抗网络(英文全称：Generative Adversarial Networks，英文缩写：GAN)模型和知识库，系统将用户输入的描述生成高质量的图像，并对图像进行评估，结合用户对生成图像所做的补充描述对图像进行调整，生成最终让用户满意的图像。

本发明实施例中，图像的生成和评价主要从布局、颜色、风格、内容等方面进行，以保证生成符合用户描述的高质量的图像，GAN模型库包含了这四个方面的子GAN模型，分别控制这些方面的生成规则；系统的知识库包括用户属性信息(如用户个人档案、社交群体艺术定位等)以及常规图像特征(如常识信息)。

本发明实施例中，用户可以输入语音、文本或图像作为描述信息，其中，用户可以通过语音助手应用输入语音、通过手写或键盘输入文字、或者通过复制粘贴等方式输入文本或图像。系统收到用户输入的描述信息后，可以确定描述信息对应的文本，如果用户输入的描述信息包含语音和/或图像，则系统可以通过语音识别将输入的语音转换为文本，通过图像识别将输入的图像转换为文本。

用户可以通过点击按钮、语音命令等方式，启动文本到图像的生成过程。其中，描述信息对应的文本由自然语言理解模块进行自然语言理解，转化为GAN模型可以理解的语意，通过文本到图像生成器生成对应图像。描述信息对应的文本可以包含对图像内容及特点的描述(包括但不限于风格，颜色，布局，内容等方面)。例如，在本发明实施例中采用了多GAN模型融合技术，从布局、颜色、绘画风格和内容四个方面对图像进行分解和组合，并结合了知识库中的内容，由文本生成高质量的图像。

在生成高质量的图像之后，需要结合知识库中的内容以及GAN模型库对生成的高质量的图像进行评价，并且进行评价之后，若用户对生成的图像需要进行补充描述，则用户通过输入语音、文本或者图像作为补充描述信息，并将补充描述信息对应的文本信息通过自然语言理解模块进行自然语言理解，转化为GAN模型可以理解的语意，通过文本到图像优化器，对已生成的图像进行调整，生成最终让用户满意的图像。例如，在本发明实施例中，在对已生成的图像进行调整的过程中，也需要采用多GAN模型融合技术，从布局、颜色、绘画风格和内容等四个方面对图像进行分解和融合，结合知识库中的内容，并根据补充文本对已生成的图像进行调整，生成最终让用户满意的图像。

其中，知识库中的内容包括：用户个人档案(例如用户画像)、社交群体艺术定位(例如群体智慧)以及常识信息。

此外，还建立了图像的评价系统模型分析生成的图像，进行智能优化和建议。生成的图像可带有多层信息，便于用户导入专业绘图软件进行修改。

本发明实施例提供了一种图像生成的方法，如图2所示，包括：

步骤201、获取与待生成图像相对应的描述信息。

具体地，描述信息包括以下至少一项：文本描述信息，语音描述信息，图像描述信息。

步骤202、根据描述信息，生成与描述信息相对应的图像。

本发明实施例提供了一种图像生成的方法，与现有技术相比，本发明实施例通过获取与待生成图像相对应的描述信息，然后根据描述信息，生成与描述信息相对应的图像，即本发明能够直接根据图像的描述信息，生成与描述信息相对应直观的图像，因此用户即使不具备丰富的绘画经验，也可以通过输入描述信息来得到能够准确表达其自身想法的图像，极大的提高了用户的体验。

具体地，步骤202包括步骤2021a(图中未标注)以及步骤2021b(图中未标注)，其中，

步骤2021a、根据获取的描述信息，确定至少两个图像特征分别对应的图像数据。

具体地，步骤2021a包括步骤2021a1(图中未标注)，其中，

步骤2021a1、根据获取的描述信息以及下述至少一项信息，确定至少两个图像特征分别对应的图像数据：

用户属性信息；描述信息对应的常规图像特征；用户所处环境信息；用户针对已生成图像的反馈信息。

具体地，确定至少两个图像特征分别对应的图像数据，包括：步骤b1(图中未标注)以及步骤c1(图中未标注)，其中，

步骤b1、确定各个图像特征分别对应的权重信息。

步骤c1、根据获取到的描述信息，并基于各个图像特征分别对应的权重信息，确定至少两个图像特征分别对应的图像数据。

具体地，确定至少两个图像特征分别对应的图像数据，包括：步骤d1(图中未标注)，其中，

步骤d1、针对各个图像特征分别对应的图像生成模型，生成设定的至少两个图像特征分别对应的图像数据。

进一步地，图像生成模型包括GAN模型。

步骤2021b、将确定的图像数据进行融合，得到与描述信息相对应的图像。

进一步地，基于以下至少一项，调整各个图像特征分别对应的权重信息：

与待生成图像相对应的描述信息；用户属性信息；描述信息对应的常规图像特征；用户所处环境信息；用户针对已生成图像的反馈信息。

进一步地，步骤202包括步骤2022(图中未标注)，其中，

步骤2022、根据获取的描述信息以及下述至少一项信息，生成与描述信息相对应的图像：

进一步地，该方法还包括：确定获取的描述信息与下述至少一项信息的匹配度：用户属性信息、描述信息对应的常规图像特征、用户所处环境信息、用户针对已生成图像的反馈信息；当已确定的匹配度小于预设阈值时，生成提示信息和/或图像调整建议。

其中，图像特征包括下述至少一项：

图像颜色特征；图像风格特征；图像布局特征；图像内容特征。

进一步地，步骤202包括步骤2023a(图中未标注)以及步骤2023b(图中未标注)，其中，

步骤2023a、从描述信息中提取与待生成图像相关的图像元素，和/或各个图像元素分别对应的位置信息。

其中，各个图像元素分别对应的位置信息包括以下至少一项：各个图像元素之间的相对位置关系；各个图像元素分别对应的深度信息。

步骤2023b、基于与待生成图像相关的图像元素，和/或各个图像元素分别对应的位置信息，生成与描述信息相对应的图像。

进一步地，步骤202具体包括步骤2024(图中未标注)，其中，

步骤2024、根据描述信息，生成由多个图层构成的图像。

进一步地，在生成由多个图层构成的图像时，生成用于描述图层元素间关系的辅助信息。

进一步地，当接收到图像调整信息时，基于接收到的图像调整信息以及用于描述图层元素间关系的辅助信息，对生成的图像进行调整，得到调整后的图像；

其中，用于描述图层元素间关系的辅助信息包括以下至少一项：

各个元素分别所在图层信息；

各个元素的相对位置关系；

各个元素分别所占区域；

各个元素在图像中的深度信息。

进一步地，该方法还包括：获取补充描述信息；根据获取的补充描述信息，对生成的图像进行调整，得到调整后的图像。

具体地，步骤202具体包括步骤2025a(图中未标注)以及步骤2025b(图中未标注)，其中

步骤2025a、获取描述信息对应的多媒体信息。

步骤2025b、在描述信息对应的多媒体信息中，添加描述信息对应的行车辅助信息，生成包含行车辅助信息的图像。

下面通过不同的应用场景下图像生成的方法以及具体的应用实例，来详细说明本发明实施例提供的图像生成的方案。

下面详细介绍了不同应用场景下的图像生成的方法，详见实施例一至实施例三，其中包括：应用场景一、应用场景二以及应用场景三，分别对应实施例一、实施例二以及实施例三，应用场景一为通过多个图像数据进行融合生成与描述信息相对应的图像；应用场景二为生成与描述信息相对应的个性化的图像；应用场景三为生成由多个图层构成的图像，其中应用场景一、应用场景二、以及应用场景三中任一场景能够单独实现图像生成的方案，也可以至少两个场景相互结合同时实现图像生成的方案；具体详见下文：

其中，实施例一主要包括：结合多个GAN模型生成高质量的图像：

其中，GAN模型是生成对抗网络模型的简称，是文本生成图像的主要实现技术，并且主要包括以下三个部分：

1、多GAN模型集合生成目标图像；

2、对GAN模型库中的各个GAN模型设置各自的权重；

3、通过增强学习修改各自GAN权重改进模型。

实施例二主要包括：基于上下文的智能优化和推荐，并且具体包括以下至少两个方面：

1、上下文信息是指系统中建立的知识库，包括用户个人档案信息、艺术定位(个人艺术定位以及用户所在社交群体的艺术定位)以及常识三个方面；其中，

1)用户个人档案信息作为系统生成或修改图像的上下文约束，并根据用户输入实时更新，包括：国籍、种族、性别、年龄等信息；

2)从每个艺术层面建立图像分解模型，对用户满意的图像进行艺术评价，获取用户的个人艺术定位信息，以生成更加符合个人喜好的图像；

3)对用户及其所在的社交群体进行艺术定位，并根据用户活跃的社交网络实时更新，以生成用户所在社交群体中受欢迎度更高的图像。

2、智能优化和建议

1)系统在对用户输入的文本描述进行处理的时候，自动将上下文作为附加信息约束生成的图像，缩短达到用户满意结果所需的交互迭代过程；

2)GAN模型库根据图像评价结果对用户进行指导和建议，以达到更加符合用户个人风格、受所在社交群体欢迎度更高并且更具有艺术性的图像。

实施例三主要包括：生成多图层的图像，其中至少包括以下三个方面；其中，

1、可以根据用户的需求生成多个图层；

2、生成一些附加的信息，如深度信息，以辅助放置不同层的元素；

3、每个图层都可以独立或联合地调整，生成最终图像。

本发明实施例中，图像生成为通过语音识别、用户手写或键盘文字进行输入或者复制粘贴等方式进行文本输入，并且通过用户点击按钮，语音命令等方式，启动文本到图像的生成过程。输入的文本由自然语言理解模块转化为图像生成模型(GAN模型)可以理解的语意。因此用户输入的描述信息需要包含对图像内容及特点的描述(包括但不限于风格，色彩，布局，内容)。采用了多GAN模型融合技术，从布局、颜色、绘画种类和内容四个方面对图像进行分解和组合，并结合了知识库中的上下文信息，由文本描述生成高质量的图像，并建立图像的评价系统模型分析图像，进行智能优化和建议，生成的图像可带有多层信息，便于用户导入专业绘图软件进行修改。

实施例一

本发明实施例一详细介绍应用场景一下，图像生成的方法流程如图3所示：

步骤301、获取与待生成图像相对应的描述信息。

用户可以输入语音、文本或图像作为描述信息，其中，用户可以通过语音助手应用输入语音、通过手写或键盘输入文字、或者通过复制粘贴等方式输入文本或图像。系统收到用户输入的描述信息后，可以确定描述信息对应的文本，如果用户输入的描述信息包含语音和/或图像，则系统可以通过语音识别将输入的语音转换为文本，通过图像识别将输入的图像转换为文本。

用户输入的描述信息需要包含对待生成的图像的图像内容及特点的描述(包括但不限于风格，颜色，布局，内容等方面)。

步骤302、根据获取的描述信息，确定至少两个图像特征分别对应的图像数据。

具体地，所述图像特征包括下述至少一项：图像颜色特征；图像风格特征；图像布局特征；图像内容特征。

图像布局特征为图像中各个事物(也可以称为对象)之间的位置与大小关系，图像中常用的构图方式有对角线、九宫格、居中、等比分布等。布局会很大程度上影响绘画作品的表现力，从而影响图像作品的品质。

图像颜色特征对应着绘画过程中的着色方式，着色方式是生成图像中的重要特征，不同的着色方式会带来很大的视觉差异，着色相关的信息包括色调、饱和度和明度等，用户通常会有自己偏好的着色风格。

像风格特征包括但不限于水彩、油画、漫画、速写、素描、国画、简笔画等类型。

图像内容特征是指在一幅图像中图像内容的常用搭配，例如，图像内容中大海可以搭配帆船，山川可以搭配植物等，具体来说包括但不限于人物、海景、街景、动物、植物、建筑、山川、河流等。

具体地，步骤302包括：步骤3021(图中未标注)：

步骤3021、根据获取的描述信息以及下述至少一项信息，确定至少两个图像特征分别对应的图像数据：

用户属性信息；

描述信息对应的常规图像特征；

用户所处环境信息；

用户针对已生成图像的反馈信息。

系统中可以创建知识库，用于存储用户属性信息和常规图像特征，其中，用户属性信息可以包括：用户个人档案、社交群体艺术定位等。

其中，用户个人档案包括从用户输入的描述信息中提取到的用户个人信息或通过其他方式获取到的用户个人信息(如通过设定的社交软件获取用户个人信息)，用户个人信息包含用户的年龄、性别、职业等信息。用户个人档案中还包括对用户做出的艺术定位，使用户在创作中保留自己的个人风格，其中可以通过用户输入的描述信息或者图像评价体系中确定出用户所喜好的图像的布局、图像的颜色、图像绘画种类以及图像内容，从而对用户做出艺术定位；社交群体艺术定位是系统对用户长期活跃的社交网络进行艺术分析，并对其社交人群进行艺术定位，使用户创作出的图像在其社交网络中受欢迎度更高。

艺术定位，是指建立图像评价体系，依据图像评价结果给出用户的个人艺术偏好，从而给出用户的个人艺术定位。本发明提出了一种新的图像评价体系，从多个艺术层面对图像进行分解，得到图像在各个艺术层面上的分解模型，艺术层面包括但不限于布局、颜色、绘画风格和内容等。

常规的图像特征也可以称为常识信息，为在生成图像的过程中可能用到的常规的图像特征，例如，图像内容特征的常规搭配，图像的常规布局、图像的常规颜色以及图像的常规绘画种类。进一步地，图像内容特征的常规搭配，如，图像中海面搭配帆船；图像的常规布局，如，某些图像的图像的常规布局为居中布局；图像的常规颜色，例如，琉璃瓦的常规颜色为金黄色；图像的常规绘画种类，如，绘制动漫中的人物所采用的常规绘画种类为漫画。

对于本发明实施例，例如图像特征包括：图像的布局特征、图像的颜色特征、图像的风格特征以及图像的内容特征。

在本发明实施例中，根据获取的描述信息以及用户属性信息，确定至少两个图像特征分别对应的图像数据，由于用户属性信息包括用户个人档案、社交群体艺术定位等，因此根据获取的描述信息以及用户个人档案和/或社交群体艺术定位，确定(图像的布局特征、图像的颜色特征、图像的风格特征以及图像的内容特征)中至少两个图像特征分别对应的图像数据，例如，获取到的描述信息为“绘制一个院子”，用户个人档案中记载该用户为中国人，则可以确定出图像的内容特征对应的图像数据为一个四合院，图像的风格特征对应的图像数据为国画风格；获取到的描述信息为“绘制一个院子”，社交群体艺术定位中图像的风格特征为油画，用户个人档案记载该用户为中国人，则可以确定出图像的内容特征对应的图像数据为一个四合院，图像的风格特征对应的图像数据为油画。

对于本发明实施例，根据获取的描述信息以及描述信息对应的常规图像特征，确定至少两个图像特征分别对应的图像数据，例如，获取的描述信息为“绘制海滩”，描述信息对应的常规图像内容特征为海滩加帆船，描述信息对应的常规图像的风格特征为油画，则可以确定出图像的内容特征对应的图像数据为“海滩+帆船”，图像的风格特征对应的图像数据为油画。

对于本发明实施例，用户所处环境信息为用户当前所处的环境，例如，用户当前所处于环境中存在的物体，当前所处的环境中物体的颜色等等。进一步地根据获取的描述信息以及用户所处环境信息，确定至少两个图像特征分别对应的图像数据，例如获取到的用户输入的描述信息为“落日、大海”，并且此时终端检测到用户当前所处环境为沙滩，并且大海中还有帆船，并且终端可以检测到用户当前所处环境中大海、沙滩、落日以及帆船的颜色，例如，大海为蓝色、落日为红黄色、帆船为白色以及沙滩为黄色，因此根据获取的描述信息以及用户所处环境信息，确定图像内容特征对应的图像数据为“大海+落日+沙滩+帆船”，图像颜色特征对应的图像数据为例如，大海为蓝色、落日为红黄色、帆船为白色以及沙滩为黄色。

对于本发明实施例，根据获取的描述信息以及用户针对已生成图像的反馈信息，确定至少两个图像特征分别对应的图像数据，其中用户针对已生成图像的反馈信息可以包括：用户针对生成的图像的评价信息以及用户的补充描述信息，并且基于用户针对生成图像的评价信息可以确定用户所喜欢的图像内容特征、图像风格特征、图像布局特征以及图像颜色特征，因此根据获取的描述信息以及上述用户所喜欢的图像特征，确定出至少两个图像特征分别对应的图像数据，例如，基于用户针对生成的图像的评价信息确定出用户所喜欢的图像风格为漫画风格，用户所喜欢的图像布局为九宫格布局，获取到的描述信息为“绘制一个房子”则基于用户针对已生成图像的反馈信息确定图像风格特征对应的数据为漫画风格的房子，图像布局特征对应的图像数据为九宫格布局的房子。

具体地，步骤302或者步骤3021中“确定至少两个图像特征分别对应的图像数据”，包括：步骤A(图中未标注)，其中，

步骤A、针对各个图像特征分别对应的图像生成模型，生成设定的至少两个图像特征分别对应的图像数据。

其中，图像生成模型包括GAN模型。

对于本发明实施例，系统可以创建多个GAN模型。其中每个GAN模型对应至少一个图像特征。

GAN模型是生成对抗网络模型的简称，是文本生成图像的主要实现技术，结合多个GAN模型生成高质量的图像。

其中，图像颜色特征对应的GAN模型(可以简称颜色GAN)用于监督生成不同着色风格的图像；图像风格特征对应的GAN(可以简称风格GAN)用于监督生成不同风格的图像；图像布局特征对应的GAN(可以简称布局GAN)用于监督生成不同布局风格的图像；图像内容对应的GAN(可以简称内容GAN)用于监督生成不同内容对应的图像。

本发明实施例提出多个GAN模型融合的方法，根据用户的描述信息生成高质量图像，本发明实施例提出，可以从布局、颜色、绘制风格和内容等每个艺术要素出发建立多个GAN模型，每个GAN模型都专注于单一美学因素的监督任务，再将这些GAN模型生成的图像特征融合到一起，兼顾多个方面的艺术要素，最大限度地提升绘画作品的品质。

具体地，步骤302或者步骤3021中“确定至少两个图像特征分别对应的图像数据”，包括：步骤B(图中未标注)以及步骤C(图中未标注)，其中，

步骤B、确定各个图像特征分别对应的权重信息。

步骤C、根据获取到的描述信息，并基于各个图像特征分别对应的权重信息，确定至少两个图像特征分别对应的图像数据。

对于本发明实施例，系统可以根据用户输入的描述信息和知识库来设置各图像特征分别对应的权重，从而使生成的图像有差异性的同时，也更接近用户的要求。

例如，有的用户的创作偏重于卡通画风(图像风格特征)，而不注重图像颜色特征和图像布局特征，而有些用户则更偏重于画特定的内容(图像内容特征)，而不局限于特定的画风(图像风格特征)，这些需求都可以通过针对特定用户来调节各个艺术要素所对应的图像特征的权重来实现。一整套权重数据就可以决定一个默认的用户相关的图像生成策略，应用这个图像生成策略，可以让用户得到更贴近其创作习惯和风格的输出结果。

与待生成图像相对应的描述信息；

用户属性信息；

描述信息对应的常规图像特征；

用户所处环境信息；

用户针对已生成图像的反馈信息。

对于本发明实施例，基于与待生成图像对应的描述信息，调整各个图像分别对应的权重信息，例如，待生成图像相对应的描述信息为“绘制一个中式的四合院，国画风格”，即该用户比较偏重于图像的内容以及图像的风格，则调整各个图像特征分别对应的权重信息为增加图像内容特征以及图像风格特征分别对应的权重。

对于本发明实施例，用户属性信息包括用户个人档案以及社交群体艺术定位，例如，用户社交群体艺术定位中该用户所在社交群体比较偏重九宫格布局，对于图像的内容特征、图像的颜色特征以及图像的风格特征没有特别的要求，则调整各个图像特征分别对应的权重信息为增加图像布局特征对应的权重信息。

对于本发明实施例，基于描述信息对应的常规图像特征，调整各个图像特征分别对应的权重信息，例如，描述信息中包括“海滩”，而“海滩”对应的常规图像内容特征为“海滩+帆船”，对应的常规图像风格特征为漫画风格，则调整各个图像特征分别对应的权重信息为增加图像内容特征以及图像风格特征分别对应的权重信息。

对于本发明实施例，基于用户所处环境信息，调整各个图像特征分别对应的权重信息，例如描述信息中包括“大海+沙滩”，而检测到用户所处环境为“大海中还有帆船”，则调整各个图像特征分别对应的权重信息为增加图像内容特征对应的权重信息。

对于本发明实施例，基于用户针对已生成图像的反馈信息，调整各个图像特征分别对应的权重信息，其中用户针对生成的图像的评价信息包括：用户针对生成的图像的评价信息，例如，用户针对生成的图像中布局为对角线布局、图像颜色为暖色的图像的评价较高，则调整各个图像特征分别对应的权重信息为增加图像布局特征以及图像颜色特征分别对应的权重信息。

对于本发明实施例，系统包含增强学习神经网络，记录与待生成图像相对应的描述信息、用户属性信息、描述信息对应的常规图像特征、用户所处环境信息、和/或用户针对已生成图像的反馈信息，权重适配器模块用学习到的用户相关的图像生成策略修改各个图像特征的权重信息，从而生成更加接近特定用户创作习惯的图像。在本发明实施例中，由于每个图像特征对应一个GAN模型，因此调整各个图像特征分别对应的权重信息即为调整每个GAN模型分别对应的权重信息。

例如，用户通常需要生成具有多个艺术要素的高质量图像，通过与系统多次的交互与反馈，并最终输出满意图像的过程中，可以形成用户相关的图像生成策略。这个策略作为该用户的默认策略，在之后进行创作的过程中，系统会自动应用这个默认的策略来产生输出的图像，这样可以让用户应用很少的输入来得到满意的结果，加速创作的过程，而且这个输出就是具有用户习惯和风格的作品，因此更加接近用户的要求。

步骤303、将确定的图像数据进行融合，得到与描述信息相对应的图像。

对于本发明实施例，当确定的图像数据进行融合即为将各个GAN模型对应的图像数据进行融合(可以称为GAN融合)，得到与描述信息相对应的图像，如图4所示。

在调整各个图像特征分别对应的权重信息之后，通过调整后的各个图像分别对应的权重信息，确定各个图像特征分别对应的图像数据，将各个图像数据进行融合，生成与描述信息相对应的图像。

例如，用户的多次输入依次包含“落日，海滩”、“油画，帆船，远山”、“饱和度更高，亮度更低”等关键字，最终用户得到满意的输出作品，即如图5所示的输出图像；这个过程中通过增强学习，系统会通过权重适配器调整各个图像特征分别对应的权重信息来迎合用户的需求，下次在系统得到用户的“落日，海滩”输入的时候，直接自动将“落日，沙滩”、“油画，帆船，远山”、“饱和度更高，亮度更低”等作为关键字输入，直接得到与图5的输出图像具有相近品质的，兼顾图像颜色特征、图像风格特征、图像布局特征以及图像内容特征的图像，而在生成图像的过程中不需要用户再多次输入“落日，沙滩”、“油画，帆船，远山”、“饱和度更高，亮度更低”等关键字。

对于本发明实施例，系统中除了包括多个GAN模型，还包括权重适配器以及评价器，其中，权重适配器将多个GAN模型组合在一起，每个GAN模型均包括生成器以及判别器。GAN判别器会动态的对产生的图像进行评估，并在满足用户需求或得到用户反馈时调整不同GAN模型的权重。

对于本发明实施例，将用户输入的描述信息，通过自然语言理解，转化为计算机系统能够理解的信息，并通过GAN融合调用其它模块，来生成与描述信息相符的图像。在本发明实施例中，每个GAN模型的生成器会在权重适配器的驱动下生成当前这个迭代中输出的图像，每个GAN模型的判别器会动态地对该GAN模型的生成器生成的图像进行评判，并在满足用户需求并得到用户反馈时调整不同GAN的权重，二者在训练中共同完善各自的功能。比如调整颜色的GAN生成器应用户的要求调整颜色产生图像，对应的判别器判断新生成的图像质量是否接近真实图像；权重适配器通过输出参数调整GAN融合满足用户描述信息以及知识库中的信息；评价器针对用户的描述信息结合权重识别器的定义配置以及GAN判别器的输出，对当前生成的图像各个方面(例如风格、布局、颜色、内容)进行评价，进一步地，评价器在对当前生成的图像进行评价的过程中，也可以结合知识库中的信息进行评价。在本发明实施例中，如果评判结果超过当前权重设置的多GAN融合模型的预设分数阈值，则输出这个结果，否则再进行下一次迭代，直到符合要求为止，如图6所示。这个过程不但可以保证多个要素的组合，而且可以保证图像的质量。

对于本发明实施例，系统中还设置有一个应用增强学习网络，能够记录与待生成图像相对应的描述信息、用户属性信息、描述信息对应的常规图像特征、用户所处环境信息以及用户针对已生成图像的反馈信息；并能够在获得较好的图像之后，权重适配器模块将会学习到最优化的图像生成策略，反复的增强学习过程可以使系统的性能实现逐渐地优化。

增强神经网络会将每次用户状态和反馈输入到一个增强学习模型中的，这个增强学习模型会对特定用户的多GAN权重参数进行学习，通过反复的学习，针对于特定用户，增强学习模型将生成一套针对该特定用户的权重参数配置策略，以调整各个图像特征对应的权重信息；根据该配置策略生成的图像能更好的满足用户的要求，也更加贴近用户的创作习惯，会提高创作的效率。图7为通过不断地增强学习迭代，完善权重适配器的过程。具体的，设置一个增强学习神经网络的智能体评价模型；输入t时刻的权重适配器输出状态S_t和用户交互的反馈的奖励R_t到智能体评价模型，智能体评价模型根据t时刻的状态S_t和反馈的奖励R_t，产生增强之后的行动A_t，A_t指导权重适配器来配合文本到图像生成器以及优化器产生t+1时刻的输出状态S_t+1和反馈的奖励R_t+1。重复执行上述流程，在若干用户交互操作之后可以获得的最佳结果，权重适配器模块将会学习到最优化的图像生成策略，反复的增强学习过程使权重适配器的性能实现逐渐地优化。

当通过步骤301-步骤303生成图像之后，若需要对已生成的图像进行调整补充，则可以根据用户输入的补充描述信息，对已生成的图像进行调整，具体详见步骤304(图中未标注)以及步骤305(图中未标注)，其中，

步骤304、获取补充描述信息。

对于本发明实施例，补充描述信息可以为与图像颜色特征相对应的补充描述信息，可以为与图像风格特征相对应的补充描述信息，可以为与图像布局特征相对应的补充描述信息，也可以为与图像内容相对应的补充描述信息。本发明实施例中不做限定。

步骤305、根据获取的补充描述信息，对生成的图像进行调整，得到调整后的图像。

例如，用户初次使用本系统生成图像时，输入描述信息包括：“落日”+“海面”+“油画类型”，系统根据用户的描述信息生成一幅海面落日的油画，用户发现画面比较单一，缺少一种动态美，就对图像进行补充描述“加一艘帆船”，系统根据补充描述生成一幅落日下的海面上孤帆远影的场景，作为调整后的图像。

本发明实施例提出，若采用一般GAN模型实现由用户的描述生成图像，可能无法兼顾多个艺术要素对于图像的影响，因此产生出来的图像质量不高。应用多GAN融合的技术，可以实现在生成图像的过程中兼顾多个艺术要素，得到高质量的图像输出。每个用户的图像创作有各自的特点，对于每一个艺术要素都有一定的倾向性，通过对在用户与系统交互创作的过程中的反馈进行增强学习，可以配置出有用户个性化特点和个人习惯的图像生成策略，满足用户个性化的需求。

实施例二

本发明实施例二详细介绍应用场景二下，图像生成的方法流程：

不同的用户对同一个场景的描述往往不同，或用户的描述相同但想获取的图像效果却不同，现有技术中没有考虑到用户的个体差异，只能以统一规则生成系统认为与描述信息相对应的图像，这就需要用户每次创作时都必须尽量详细地描述自己的针对待生成图像的描述信息，才能最终得到满意的图像。

为了解决上述技术问题，本发明实施例中提出了一种图像生成的方法，应用于如图8所示的系统，该系统自动在知识库中记录用户个人档案(如通过输入的文本获得用户个人档案)、社区的群体智慧(例如社交群体艺术定位等)和常识信息(例如地理文化常识)等。知识库输出的信息被作为附加约束信息，作用于文本到图像生成器/文本到图像优化器，并结合图像评价结果(如评分)，进行智能优化，并适当给出建议。图8中，文本到图像生成器和优化器依赖于GAN模型库。文本到图像生成器在处理用户输入的文本过程中，考虑了知识库中用户个人档案(例如民族，种族，年龄，色彩偏好，风格)，并结合用户匹配的社区的群体智慧(例如和用户喜好有相关性的艺术风格)和常识信息(比如种族，地域的事物特征)。在初步生成图像后，结合评价和用户的后续输入的文本，文本到图像优化器同样利用GAN模型库和知识库输入的约束继续优化图像。

例如，用户使用本系统生成图像时，输入描述信息包括：“落日”+“海面”+“油画类型”，系统根据用户的描述信息生成一幅海面落日的油画，用户发现画面比较单一，缺少一种动态美，就对图像进行补充描述“加一艘帆船”，系统根据补充描述生成一幅落日下的海面上孤帆远影的场景，作为调整后的图像。终端设备可以根据用户输入的描述和补充描述，优化知识库，当用户后续输入“落日”+“海面”时，终端设备根据优化后的知识库，可以自动加入帆船，得到优质的输出结果。

本发明实施例中具体的图像生成方法的流程图详见图9，其中，

步骤901、获取与待生成图像相对应的描述信息。

其中，描述信息包括以下至少一项：文本描述信息，语音描述信息，图像描述信息。

具体详见步骤301，在此不再赘述。

步骤902、根据获取的描述信息以及下述至少一项信息，生成与描述信息相对应的图像：

用户属性信息；

描述信息对应的常规图像特征；

用户所处环境信息；

用户针对已生成图像的反馈信息。

本发明实施例中，系统中建立的知识库包括用户属性信息和常规图像特征(如常识信息)，用户属性信息包括用户个人档案、社交群体艺术定位。

其中，用户个人档案包括了从用户的描述信息中提取到的用户个人信息，以及对用户做出的艺术定位(即用户喜欢的图像颜色特征、图像风格特征、图像布局特征以及图像内容特征)，使用户在创作中保留自己的个人风格。在本发明实施例中，对用户做出的艺术定位，是指建立图像评价体系，依据图像评价结果给出用户的个人艺术偏好，从而给出用户的个人艺术定位。本发明实施例提出了一种新的图像评价体系，从多个艺术层面对图像进行分解，得到图像在各个艺术层面上的分解模型，艺术层面包括但不限于布局、颜色、风格和内容等。

其中，社交群体艺术定位是系统对用户长期活跃的社交网络进行艺术分析，并对其社交人群进行艺术定位(即该用户所在的社交人群所喜欢的图像颜色特征、图像风格特征、图像布局特征以及图像内容特征)，使用户创作出的图像在其社交群体中受欢迎度更高。

对于本发明实施例，根据获取的描述信息以及用户属性信息，生成与描述信息相对应的图像，例如，获取的描述信息为“绘制一个院子”用户属性信息中记载该用户为中国人，社交群体艺术定位为该用户所在社交群体所喜欢的图像风格为“国画风格”，则根据获取的描述信息以及用户属性信息，直接生成一个图像内容特征为“四合院”、图像风格特征为“国画风格”的图像。

对于本发明实施例，根据获取的描述信息以及常规图像特征，直接生成与描述信息相对应的图像，例如，获取到的描述信息为“绘制海滩，油画风格”，常规图像内容特征为“海滩+帆船”，则直接生成的与描述信息相对应的图像为包含“包含海滩以及帆船，油画风格”的图像。

对于本发明实施例，根据获取的描述信息，以及用户所处环境信息，生成与描述信息相对应的图像，例如，获取到的描述信息为“绘制海滩”，终端检测到用户所处环境信息为“用户当前处于海滩，并且海滩上还有椰子树”，则生成与描述信息相对应的图像中包含“海滩+椰子树”。

对于本发明实施例，根据获取的描述信息，以及用户针对已生成图像的反馈信息，生成与描述信息相对应的图像，即根据用户针对之前已生成图像的反馈信息，获知用户对于图像特征(图像颜色特征、图像内容特征、图像布局特征以及图像风格特征)的偏好，当再次获取到用户针对图像的描述信息时，直接将获取到的描述信息与用户针对已生成图像的反馈信息，生成与描述信息相对应的图像，例如，用户针对生成的图像中布局为对角线布局、图像颜色为暖色的图像的评价较高，则用户再输入图像的描述信息时，则基于用户输入的描述信息，生成对角线布局以及暖色，并且与描述信息相对应的图像。

在执行步骤902中，根据获取的描述信息以及用户属性信息，生成与描述信息相对应的图像之前，创建用户属性信息。

具体地，创建用户属性信息具体包括创建用户的个人档案信息、对用户作出的艺术定位以及用户所在社交群体的艺术定位分别对应的知识库，具体详见(1)、2)、3))下文：

1)创建用户的个人档案信息：

当用户初次使用系统生成图像时，系统会为用户建立一个默认个人档案信息，用户的个人档案信息中记录了用户的个人信息，包括但不限于国籍、种族、年龄、性别等。

系统每次接收到用户输入的描述信息后，根据解析出的语义提取相应的个人信息，若该信息是初次获取，则记录下来，若已有该信息且两次输入不同，则根据最新信息进行更新已建立的个人档案信息。

用户也可以手动创建或修改个人档案，添加个人信息，制定个性化标签等，来完善用户的个人档案信息。

2)创建用户个人的艺术定位

当用户多次与系统进行交互后获得满意的图像时，系统自动对最终图像进行评价，基于GAN模型库对用户进行艺术定位，并记录到系统的知识库中，如图10所示，在生成高质量的图像之后，需要结合知识库中的内容以及GAN模型库对生成的高质量的图像进行评价，并且进行评价之后，若用户对生成的图像需要进行补充描述，则用户输入补充描述信息，并将补充描述信息对应的文本信息通过自然语言理解模块进行自然语言理解，转化为GAN模型可以理解的语意，通过文本到图像优化器，对已生成的图像进行调整，生成最终让用户满意的图像。当用户再次创作时，系统则根据用户的艺术定位生成更加接近用户个人风格的图像，从而减少用户再次交互迭代的过程。

系统根据GAN模型库中的子GAN模型的类型，确定图像分解的艺术层面，包括但不限于布局、颜色、风格和内容，系统基于GAN模型对每次用户得到满意的图像进行评价，从几个艺术层面对其分解，得到图像在各个艺术层面的分解模型，如图11所示，GAN模型库中的某个子GAN模型依据其所对应艺术层面中的n个主流类型，将图像进行分解，得到图像在这n个类型的相应占比为m₁，m₂，…，m_n，即图像在该艺术层面的分解模型，从而系统可以根据此分解模型得到用户的个人喜好。

以在布局方面上对图像建立分解模型为例，系统对图像的布局进行分解，得到图像中存在的主要布局类型为：M1,M2,M3,…，且相应的占比为m1,m2,m3,…，则完成了用户在布局的艺术层面上的定位，如图12所示，系统对图像的构图进行分解，得到图像的布局类型为对角线与九宫格的组合。

当用户再次利用该系统生成图像时，系统在生成或修改图像时，若没有在布局方面进行相关的描述，则生成的图像优先与用户在布局的艺术层面上的定位保持相同，这样用户得到的图像就在风格方面较大程度上保留了自己的风格。若用户想改变图像的布局可以再通过文本补充描述，对系统生成的图像进行修改，系统根据用户每次输入中的布局信息更新用户在布局方面的艺术定位，从而方便用户在以后的创作过程中保留自己的风格喜好。

3)创建用户所在社交群体的艺术定位

其中，用户所在社交群体包括用户所在社交应用的用户群体等。在本发明实施例中不做限定。

用户常在的社交群体通常在某种程度上也反映了用户的喜好，对用户常活跃的社交群体进行艺术定位，使用户创作的图像更加符合其所在社交群体的艺术定位，则用户创作的图像受欢迎度也会更高。

系统获取用户所在的社交群体，并获取到该群体中的成员的艺术定位。如图13所示，系统可以获取社交群i(i＝1,2,…,n)中各用户j(j＝1,2,…,m)的艺术定位E_j,i：

其中K₁＝{k_1k},K₂＝{k_2k},K4＝{k_4k}(k＝1,…,p)，分别对应四个艺术分解层面的分解结果，p为在各艺术层面可分解的类型分量个数。

系统根据E_ji可以得到社交群i的艺术定位

系统根据用户j所在社交群的艺术定位将用户所在的所有社交群的艺术定位取平均值，得到用户所在的社交群体的艺术定位E_j：

其中，N为用户所在社交群的个数。

进一步地，步骤902可以为：根据获取的描述信息以及已创建的用户属性信息，生成与描述信息相对应的图像。

系统在接收到用户输入的描述信息之后，自动将系统中创建的用户属性信息、描述信息对应的常规图像特征、用户所处环境信息以及用户针已生成图像的反馈信息作为约束，辅助图像生成/修改模块完成图像优化。

进一步地，用户在输入与待生成图像相对应的描述信息时，可能不会将待生成图像对应的布局、颜色、风格以及内容完全输入，但是用户属性信息一般情况下变化不大，因此系统可以根据已创建的用户属性信息与用户输入的描述信息相结合，生成与用户个人属性相符的图像。

下面首先分别通过将描述信息与用户个人档案信息相结合，生成与描述信息相对应的图像，例如，用户想画一幅代表中国传统特色的四合院的图像，那么用户可能输入的描述信息为“一个院子”，此时，系统会根据用户个人档案信息中记录的该用户为中国人，喜欢中国传统建筑，则系统在生成与描述信息相对应的图像时直接生成一幅四合院的图像，如图14所示。

再者，还可以将描述信息与用户个人的艺术定位和/或用户所在群体的艺术定位相结合，生成与描述信息相对应的图像，下面分别从图像布局、图像颜色、图像风格、图像内容等四个方面进行介绍：

1)图像布局

图像中常用的布局方式包括：对角线(图15a)、九宫格(图15b)、居中(图15c)、等比分布(图15d)等。对角线布局中图像是延对角线分布；九宫格构图的图像主题表现在九宫格的交接点上；居中构图一般用于绘制任务设定，主题在画面的正中间；等比分布中画面存在明显分割，多用于绘制场景，有时也用于绘制任务，一般采用三等分。

本发明实施例中提出，本系统中的图像生成/优化模块中的布局GAN模型根据常用构图方式的特点生成图像的布局，图像评价系统中对图像布局进行分解的GAN模型也根据图像的布局方式分解出图像的布局方式，从而提取出用户对布局上的偏好。

如图16所示，若用户在输入的描述信息中未被特别的布局要求，而系统的个人属性信息中记录着用户的个人艺术定位为九宫格的布局方式或者用户所在的社交群体中九宫格的布局方式比较受到欢迎，那么，系统在优化图像时的布局就默认采用九宫格的布局方式。

若系统中记录的个人属性信息中，用户对几种布局方式的采纳程度几乎相同，或者根据用户的描述信息中采用用户常用的布局方式不合适，则系统则会根据用户当前对场景的描述推荐一种构图方式。比如，若场景中有一个人物主体，并且用户并没有描述具体布局方式，而系统中记录的用户属性信息中用户并没有特别偏好的布局方式或者是其所在的社交群体中居中构图更加受欢迎，则系统在优化的时候就会自动将其进行居中构图，使图像更加合理；若系统中记录的是用户喜欢九宫格构图，则系统将在优化的时候给出建议，提示用户居中构图更加合适。

2)图像颜色

着色是生成图像的重要环节，如图17所示，不同的着色方式会带来很大的视觉差异，用户通常会有自己偏好的着色风格，本发明实施例提出，本系统中记录用户常用的色调、饱和度和透明度等颜色信息，作为图像生成/优化模块中的颜色GAN模型生成图像颜色体系的依据，图像评价系统中对图像颜色信息进行分解的GAN模型也根据图像的色调、饱和度和明度分解出图像的颜色定位，从而提取出用户在颜色上的偏好。

本发明实施例提出，图像颜色信息也与用户的一些个人信息相关，比如年龄、性别等，系统根据记录的个人档案信息智能地制定着色方案。另外，用户属性信息中用户所在社交群体中对颜色方面的艺术定位，也会作为系统的推荐依据向用户给出建议。

3)图像风格

图像风格包括但不限于水彩、油画、漫画、速写、素描、国画、简笔画等类型，本发明实施例中提出，系统记录用户经常采用的绘画种类，作为图像生成/优化模块中的图像风格GAN模型生成图像绘画类型的依据，图像评价系统中对图像的绘画类型信息进行分解的GAN模型也根据图像的分类分解出图像的绘画风格定位，从而提取出用户喜欢的图像风格，如图18所示。系统根据用户喜欢的图像风格，生成与用户喜欢的图像风格相对应的图像。

4)图像内容

本发明实施例提出，系统记录用户对图像内容的常用搭配，作为图像生成/优化模块中的绘画种类GAN模型生成图像内容的依据，图像评价系统中对图像内容信息进行分解的GAN模型也根据图像的组成对象分解出图像的定位，从而提取出用户在图像内容组成上的偏好。如图19所示，若用户描述一幅“海面的落日”的场景时，系统根据用户所处环境信息，分析场景过于单调，在落日的方向增加一艘帆船更能体现出场景的广阔，并为图像增加一种动态的美感，则系统在优化的时候就会智能地增加“帆船”这个内容；或者，系统中的个人属性信息中记录用户在描述海面的落日时，经常会搭配一艘帆船来增加场景的美感，则系统在下次获取用户对相似场景进行描述时，即使用户未在描述信息中指出海面上有帆船，系统在生成图像时会自动加上帆船，或者生产建议信息：为给用户建议增加帆船。

对于本发明实施例，通过根据用户属性信息、描述信息对应的常规图像特征、用户所处环境信息以及用户针对已生成图像的反馈信息中的至少一项以及获取到的描述信息，生成与描述信息相对应的图像时，不需要用户的个人档案信息不需要再次输入，也不需要对个人喜欢的风格方面进行过多的描述，只需要描述待生成图像的内容及其它一些特殊的要求，这样用户的输入就可以简化很多，交互迭代的过程也大大缩短，用户也可以根据系统给出的建议对图像进行修改，获得更加符合个人风格、受欢迎度高并且更加具有艺术性的图像。

在通过实施例二，生成与描述信息相对应的图像时，也可以结合实施例一的GAN模型，具体详见实施例一，在此不再赘述。

由于在根据描述信息，生成与描述信息相对应的图像时，生成的图像可能与用户属性信息、描述信息对应的常规图像特征、用户所处环境特征以及用户针对已生成图像的反馈信息不相符，则执行步骤903以及步骤904，其中，

步骤903、确定获取的描述信息与下述至少一项信息的匹配度：用户属性信息、描述信息对应的常规图像特征、用户所处环境信息、用户针对已生成图像的反馈信息。

步骤904、当已确定的匹配度小于预设阈值时，生成提示信息和/或图像调整建议。

对于本发明实施例，系统在基于描述信息，生成与描述信息相对应的图像时，自动将记录的用户个人属性信息、常规图像特征、用户所处环境信息以及用户针对已生成图像的反馈信息，作为附加信息输入图像生成/修改模块，并结合图像评价结果，进行智能优化，生成提示信息和/或图像调整建议。

下述以用户属性信息为例，详细介绍步骤903以及步骤904，其中，在确定获取的描述信息与用户属性信息、描述信息对应的常规图像特征、用户所处环境信息、用户针对已生成图像的反馈信息中至少一项的匹配度是依据图像评价系统给出评价结果。系统通过将与用户描述信息相对应的图像进行分解，得到图像的艺术定位，根据用户属性信息对图像各个特征的分解结果进行综合评估，得到结论，以确定是否生成提示信息和/或图像调整建议。

如图20所示，图像评价系统通过多GAN模型库中各个子GAN，对图像的布局特征、颜色特征、图像风格特征以及图像内容特征进行分析，建立分解模型M_i，并获得各分解模型中各类型分量的比例m_ij，其中i(i＝1,2,…,4)为分解层面，j(j＝1,2,…,n)为在i层面分解的各个类型分量，系统根据用户所在的社交群体的艺术定位得到该用户的个人艺术定位，从而设置针对该用户的打分系数K＝{k_ij(i＝1,2,…,4；j＝1,2,…,n)}，使用户得分符合其所在社交群体的艺术定位，并将该打分系数K存入知识库以备后续系统为用户进行打分。

根据知识库记录中用户的打分系数K对系统生成的图像进行打分，得到生成的图像与用户个人艺术定位的符合度：

当打分结果偏低时，即当前生成的图像与用户的个人艺术定位不太相符，系统此时就会给用户进行提示，并给出修改建议；同样，根据知识库中记录的用户所在社交群体的艺术定位进行打分，当打分结果偏低时，即当前生成的图像与用户所在社交群体中的艺术定位不太相符，可能受欢迎度不高，系统此时就会给用户进行提示，并给出修改建议。

在通过步骤902生成与描述信息相对应的图像之后，用户可能需要对已生成的图像中图像颜色特征、图像风格特征、图像布局特征以及图像内容特征进行调整，则可以根据用户输入的补充描述信息，对已生成的图像进行调整，具体详见步骤905(图中未标注)以及步骤906(图中未标注)，其中，

步骤905、获取补充描述信息。

步骤906、根据获取的补充描述信息，对生成的图像进行调整，得到调整后的图像。

具体实施例详见步骤304以及步骤305，在此不再赘述。

实施例三

本发明实施例三详细介绍应用场景三下，图像生成的方法流程：

在现有的图像生成的技术中，在生成系统中以用户的文本描述信息、语音描述信息和/或图像描述信息作为输入，生成一幅单层的集合所有输入元素图像。而在单层图像中修改其中元素，往往会影响图像中其他部分。

比如在绘图或图像处理中，用户如果需要对已生成图像中单个元素或几个元素进行修改时，往往需要把相应的元素作为独立的图层进行独立处理，然后在改动之后可以将多层重新整合为最后的输出图像。又比如在用现有图像生成后，用自动处理方法在单层图像中修改元素往往需要复杂的处理，比如移动物体位置，则在移动物体位置之前需要检测和分割图像，并且在移动物体后需要进行背景填充，复杂度较高。

为了解决现有技术中的技术问题，需要对用户输入的描述信息进行分析，生成由多个图层构成的图像，如图21所示，详见下文：

步骤2101、获取与待生成图像相对应的描述信息。

对于本发明实施例中，该描述信息可以为用户通过文本输入的描述信息，还可以为通过语音输入的描述信息，还可以为图像。

步骤2102、从描述信息中提取与待生成图像相关的图像元素，和/或各个图像元素分别对应的位置信息。

其中，各个图像元素分别对应的位置信息包括：各个图像元素之间的相对位置关系；各个图像元素分别对应的深度信息。相对位置决定元素在平面上的坐标，深度信息决定图像中元素的立体位置关系。

例如，用户输入的描述信息为一张照片和下述语音描述“生成一幅包含这个照片中的家庭的图像，图像的背景有城堡和森林，有飞机在空中飞翔”，根据该描述信息提取到的元素为人物、城堡(建筑)、飞机以及森林，以及各个元素分别对应的平面位置和深度信息，创造以人物为前景，城堡、森林、飞机作为背景的有立体效果的图像。

步骤2103、基于与待生成图像相关的图像元素，和/或各个图像元素分别对应的位置信息，生成由多个图层构成的图像。

例如，根据该描述信息提取到的元素为人物、城堡、飞机以及森林，以及各个元素分别对应的位置信息，生成如图22所示的图像。在图22生成的图像包括多个图层：图层0(描述各个元素所占的区域的布局图)、图层1(包含森林等背景)，图层2(包含城堡等建筑)，图层3(人物)，图层4(飞机)。

需要说明的是，生成由多个图层构成的图像时，还可以通过步骤D(图中未标注)以及步骤E(图中未标注)，其中，

步骤D、获取与待生成图像相对应的描述信息。

步骤E、根据描述信息，生成由多个图层构成的图像。

对于本发明实施例，在生成由多个图层构成的图像时，通过语言处理，提取自然语言输入中的不同的图像元素以及各个图像元素分别对应的位置信息，结合辅助输入，并按照用户定义的粒度或者用户习惯的图像生成模型，将提取到的图像元素生成到相应的图层中。

例如，如图23所示，用户输入的描述信息为一张照片和下述语音描述“生成一幅包含这个照片中的家庭的图像，图像的背景有城堡和森林，有飞机在空中飞翔”，根据该描述信息提取到的元素为人物、城堡、飞机以及森林；并且通过自然语言理解，系统生成各个元素分别对应的位置信息，设置人物为前景，城堡、森林、飞机为背景，根据各个元素之间的相互关系，将上述一个或者多个元素放置在相应的图层，生成由多个图层构成的图像。这样使得用户可以更加方便地对生成的多层图像进行专业的编辑，或者通过系统提供的其它自动处理功能，提出进一步地需求，由系统对单个图层，或者联合多个图层进行其它优化的调整以及修改，进而可以提升用户的体验。

需要说明的是，通过步骤2101、步骤2102以及步骤2103、基于与待生成图像相关的图像元素，和/或各个图像元素分别对应的位置信息，还可以生成单图层图像。

在通过上述方式，生成由多个图层构成的图像时，还可以执行步骤2104，其中步骤2104、生成用于描述图层元素间关系的辅助信息。

各个元素分别所在图层信息；

各个元素的相对位置关系；

各个元素分别所占区域；

各个元素在图像中的深度信息。

其中，各个元素分别所在图层信息为一幅图像中包含的各个元素分别所处的图层，例如，输入的描述信息为一张照片和下述语音描述“生成一幅包含这个照片中的家庭的图像，图像的背景有城堡和森林，有飞机在空中飞翔”，根据该描述信息提取到的元素为人物、城堡、飞机以及森林，其中，森林位于图层1，城堡位于图层2，人物位于图层3，飞机位于图层4。

其中，各个元素的相对位置关系为一幅图像中各个元素之间的相对位置，可以为同一图层上各个元素之间的相对位置，例如，飞机可以作为人物的背景。

其中，各个元素分别所占的区域，即包括各个元素的位置，也包括各个元素的大小，例如，布局图中，飞机占区域1，森林占区域2，人物占区域3，城堡占区域4。

其中，各个元素在图像中的深度信息，决定了组合不同元素的立体透视效果。

在通过实施例三生成单图层图像或者由多个图层构成的图像时，可以结合GAN模型、用户属性信息、描述信息对应的常规图像特征、用户所处环境信息、用户针对已生成图像的反馈信息中的至少一项。具体详见实施例一以及实施例二，在此不再赘述。

在生成图像之后，可能需要对图像中的某个元素进行调整，即当检测到针对已生成图像的调整信息时，还可以执行步骤2105，其中，

步骤2105、当接收到图像调整信息时，基于接收到的图像调整信息以及用于描述图层元素间关系的辅助信息，对生成的图像进行调整，得到调整后的图像。

对于本发明实施例，对生成的图像进行调整包括但不限于对光照、构图以及元素大小等进行调整。在本发明实施例中，若用户需要调整已生成的多图层图像中的元素，可以在该元素所在的独立图层中进行调整，也可以联合其它图层进行调整，已产生调整后的图像。

在生成图像之后，用户可能需要对已生成的图像中图像颜色特征、图像风格特征、图像布局特征以及图像内容特征进行调整，则可以根据用户输入的补充描述信息，对已生成的图像进行调整，具体详见步骤2106以及步骤2107，其中，

步骤2106、获取补充描述信息。

步骤2107、根据获取的补充描述信息，对生成的图像进行调整，得到调整后的图像。

具体实施例详见步骤305以及步骤306，在此不再赘述。

实施例四

本实施例具体介绍一个实例，将根据描述信息，生成对应的图像应用于不同的领域，其中，步骤2401以及步骤2402以行车导航领域为例介绍，如图24所示，其中，

步骤2401、获取与待生成图像相对应的描述信息。

步骤2402、获取描述信息对应的多媒体信息。

对于本发明实施例，从获取到的描述信息中获取相应的关键字信息，基于关键字信息，确定该描述信息对应的多媒体信息。

例如，如图25(a)所示，用户A要驾驶汽车行驶到用户B所在的位置，用户B通过通话或即时通信应用等方式将自己当前所在位置通知给用户A，用户A的终端设备自动根据用户B的位置描述，生成行车辅助信息(例如位置指示、路线指示、方向指示等)。具体的，用户A的终端设备可以通过通话或即时通信等应用获取用户B输入的位置描述信息，例如用户A的终端设备通过通话应用获取到用户B的位置描述信息为“我在一个中式钟鼓楼的东脚，一个三岔路口的北面”。用户A的终端设备从用户B输入的位置描述信息中提取相应的关键字信息，提取的关键字信息可以为“中式钟鼓楼”、“东脚”、“三岔路口”、“北面”，其中提取的关键字信息可以但不限于包括建筑物描述、地点描述、方向描述、环境描述等。用户A的终端设备从AR导航应用实时采集到的多媒体信息中，匹配出该描述信息对应的多媒体信息，如匹配出包含“中式钟鼓楼”和“三岔路口”的图像，如图25(a)所示。

步骤2403、在描述信息对应的多媒体信息中，添加描述信息对应的行车辅助信息，生成包含行车辅助信息的图像。

本发明实施例中的行车辅助信息可以包括位置指示、路线指示、方向指示中的至少一种。

例如，详见图25(a)，用户A的终端设备根据提取的上述关键字信息“中式钟鼓楼”、“东脚”、“三岔路口”、“北面”，在描述信息对应的多媒体信息中，确定出用户B当前所处的位置，将用户B的位置指示作为行车辅助信息添加至步骤2802中确定出的多媒体信息中，生成包含行车辅助信息的图像，即通过AR的方式实时显示用户B的位置。

或者，用户A的终端设备根据提取的上述关键字信息“中式钟鼓楼”、“东脚”、“三岔路口”、“北面”，确定出用户B当前所处的位置，并进一步确定出到达用户B当前所在位置的方向指示和/或路线指示，将到达用户B当前所在位置的方向指示和/或路线指示作为行车辅助信息，添加至步骤2402中确定出的多媒体信息中，生成包含行车辅助信息的图像。

进一步地，根据描述信息，生成与描述信息对应的图像，还可以应用于其它领域，例如，根据输入的描述信息，在商业会议报告中将会议内容直接转化为各种描述性图表，例如饼状图、柱状图、散点图，具体如图25(b)所示；例如，根据输入的与产品设计相关的描述信息，生成或者调整产品设计画稿，如图25(c)所示；根据用户输入的描述信息，生成绘画作品，例如，用户输入的描述信息为“一家人在平静的海面上划船，海鸥在歌唱。使用美式卡通风格，在海滩上加上沙子城堡。”，生成对应的美式卡通风格的绘画作品，如图25(d)。

在生成包含行车辅助信息的图像之后，用户可能需要对已生成的图像中图像颜色特征、图像风格特征、图像布局特征以及图像内容特征进行调整，则可以根据用户输入的补充描述信息，对已生成的图像进行调整，具体详见步骤2404(图中未标注)以及步骤2405(图中未标注)，其中，

步骤2404、获取补充描述信息。

步骤2405、根据获取的补充描述信息，对生成的图像进行调整，得到调整后的图像。

本发明实施例提供了一种图像生成的装置，如图26所示，该装置包括获取模块2601、生成模块2602，其中，

获取模块2601，用于获取与待生成图像相对应的描述信息；

生成模块2602，用于根据获取模块2601获取的描述信息，生成与描述信息相对应的图像。

本发明实施例提供了图像生成的装置，与现有技术相比，本发明实施例通过获取与待生成图像相对应的描述信息，然后根据描述信息，生成与描述信息相对应的图像，即本发明实施例能够直接根据图像的描述信息，生成与描述信息相对应直观的图像，因此用户即使不具备丰富的绘画经验，也可以通过输入描述信息来得到能够准确表达其自身想法的图像，极大的提高了用户的体验。

本发明实施例提供的图像生成的装置，适用于上述方法实施例，在此不再赘述。

基于上述图像生成的方法，本发明实施例还对应提供了终端设备，如图27所示，包括：处理器2701；以及存储器2702，配置用于存储机器可读指令，上述指令在由上述处理器执行时，使得上述处理器执行上述方法。

图28示意性示出了根据本公开实施例的可用于实现本公开的第二终端设备的计算系统的框图。如图28所示，计算系统2800包括处理器2810、计算机可读存储介质2820、输出接口2830、以及输入接口2840。该计算系统2800可以执行上面参考图2、图3、图9、图21以及图24描述的方法，以实现根据描述信息，生成与描述信息相对应的图像。

具体地，处理器2810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器2810还可以包括用于缓存用途的板载存储器。处理器2810可以是用于执行参考图2、图3、图9、图21以及图24描述的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质2820，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质2820可以包括计算机程序2821，该计算机程序2821可以包括代码/计算机可执行指令，其在由处理器2810执行时使得处理器2810执行例如上面结合图2、图3、图9、图21以及图24所描述的方法流程及其任何变形。计算机程序2821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序2821中的代码可以包括一个或多个程序模块，例如包括2821A、模块2821B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器2810执行时，使得处理器2810可以执行例如上面结合图2、图3、图9、图21以及图24所描述的方法流程及其任何变形。

根据本公开的实施例，处理器2810可以使用输出接口2830和输入接口2840来执行上面结合图2、图3、图9、图21以及图24所描述的方法流程及其任何变形。

本发明实施例提供了终端设备，与现有技术相比，本发明实施例通过获取与待生成图像相对应的描述信息，然后根据描述信息，生成与描述信息相对应的图像，即本发明实施例能够直接根据图像的描述信息，生成与描述信息相对应直观的图像，因此用户即使不具备丰富的绘画经验，也可以通过输入描述信息来得到能够准确表达其自身想法的图像，极大的提高了用户的体验。

本发明实施例提供的终端设备，适用于上述方法实施例，在此不再赘述。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像生成的方法，其特征在于，包括：

获取与待生成图像相对应的描述信息；

根据所述描述信息，生成与所述描述信息相对应的图像。

2.根据权利要求1所述的方法，其特征在于，根据所述描述信息，生成与所述描述信息相对应的图像，包括：

根据获取的描述信息，确定至少两个图像特征分别对应的图像数据；

将确定的图像数据进行融合，得到与所述描述信息相对应的图像。

3.根据权利要求2所述的方法，其特征在于，根据获取的描述信息，确定至少两个图像特征分别对应的图像数据，包括：

根据获取的描述信息以及下述至少一项信息，确定至少两个图像特征分别对应的图像数据：

用户属性信息；

描述信息对应的常规图像特征；

用户所处环境信息；

用户针对已生成图像的反馈信息。

4.根据权利要求2或3所述的方法，其特征在于，确定至少两个图像特征分别对应的图像数据，包括：

确定各个图像特征分别对应的权重信息；

根据获取到的描述信息，并基于所述各个图像特征分别对应的权重信息，确定至少两个图像特征分别对应的图像数据。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于以下至少一项，调整各个图像特征分别对应的权重信息：

与待生成图像相对应的描述信息；

用户属性信息；

描述信息对应的常规图像特征；

用户所处环境信息；

用户针对已生成图像的反馈信息。

6.根据权利要求2-5任一项所述的方法，其特征在于，确定至少两个图像特征分别对应的图像数据，包括：

针对各个图像特征分别对应的图像生成模型，生成设定的至少两个图像特征分别对应的图像数据。

7.根据权利要求6所述的方法，其特征在于，所述图像生成模型包括生成对抗网络GAN模型。

8.根据权利要求1所述的方法，其特征在于，根据所述描述信息，生成与所述描述信息相对应的图像，包括：

根据获取的描述信息以及下述至少一项信息，生成与所述描述信息相对应的图像：

用户属性信息；

描述信息对应的常规图像特征；

用户所处环境信息；

用户针对已生成图像的反馈信息。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

确定获取的描述信息与下述至少一项信息的匹配度：用户属性信息、描述信息对应的常规图像特征、用户所处环境信息、用户针对已生成图像的反馈信息；

当已确定的匹配度小于预设阈值时，生成提示信息和/或图像调整建议。

10.根据权利要求2-9任一项所述的方法，其特征在于，所述图像特征包括下述至少一项：

11.根据权利要求1所述的方法，其特征在于，根据所述描述信息，生成与所述描述信息相对应的图像，包括：

从所述描述信息中提取与待生成图像相关的图像元素，和/或各个图像元素分别对应的位置信息；

基于与待生成图像相关的图像元素，和/或各个图像元素分别对应的位置信息，生成与所述描述信息相对应的图像。

12.根据权利要求11所述的方法，其特征在于，所述各个图像元素分别对应的位置信息包括以下至少一项：各个图像元素之间的相对位置关系；各个图像元素分别对应的深度信息。

13.根据权利要求1所述的方法，其特征在于，根据所述描述信息，生成与所述描述信息相对应的图像，包括：

根据所述描述信息，生成由多个图层构成的图像。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

生成用于描述图层元素间关系的辅助信息；

当接收到图像调整信息时，基于接收到的图像调整信息以及用于描述图层元素间关系的辅助信息，对生成的图像进行调整，得到调整后的图像；

其中，所述用于描述图层元素间关系的辅助信息包括以下至少一项：

各个元素分别所在图层信息；

各个元素的相对位置关系；

各个元素分别所占区域；

各个元素在图像中的深度信息。

15.根据权利要求1-14任一项所述的方法，其特征在于，所述方法还包括：

获取补充描述信息；

根据获取的补充描述信息，对生成的图像进行调整，得到调整后的图像。

16.根据权利要求1所述的方法，其特征在于，根据所述描述信息，生成与所述描述信息相对应的图像，包括：

获取描述信息对应的多媒体信息；

在描述信息对应的多媒体信息中，添加所述描述信息对应的行车辅助信息，生成包含行车辅助信息的图像。

17.根据权利要求1-16任一项所述的方法，其特征在于，所述描述信息包括以下至少一项：文本描述信息，语音描述信息，图像描述信息。

18.一种终端设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行权利要求1～17中任一项所述的方法。