CN114880441A

CN114880441A - 视觉内容生成方法、装置、系统、设备和介质

Info

Publication number: CN114880441A
Application number: CN202210788120.7A
Authority: CN
Inventors: 吴甜; 李彦宏; 牛国成; 佘俏俏; 肖欣延; 赵慧斌; 朱宏; 苏文嗣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-08-09
Anticipated expiration: 2042-07-06
Also published as: CN114880441B

Abstract

本公开提供了一种视觉内容生成方法、装置、系统、设备和介质，涉及人工智能领域，具体涉及计算机视觉、自然语言处理、深度学习等技术领域，尤其涉及人机交互、智能创作等场景。实现方案为：基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容；确定用于表征第一视觉内容的第一特征向量；获取用于表征用户的偏好的用户特征向量；以及基于第一特征向量和用户特征向量，调整所述深度学习网络模型以获取与自然语言指令对应的第二视觉内容，其中，用于表征第二视觉内容的第二特征向量与用户特征向量之间的相似度大于第一特征向量与用户特征向量之间的相似度。

Description

视觉内容生成方法、装置、系统、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、自然语言处理、深度学习等技术领域，尤其涉及人机交互、智能创作等场景，特别涉及一种视觉内容生成方法、一种视觉内容创作方法、一种视觉内容生成装置、一种视觉内容创作系统、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

当下，设计师群体规模庞大，覆盖视觉设计、交互设计、平面设计、界面/UI设计等不同类别。设计从业者典型的设计步骤是设计从业者需要从素材网站浏览和搜索素材，然后基于自己的技能和灵感、结合成熟的设计编辑工具去改造素材，从而形成最终的成品。这种方法存在效率低下、产能不足、创造力瓶颈等诸多弊端。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种视觉内容生成方法、一种视觉内容创作方法、一种视觉内容生成装置、一种视觉内容创作系统、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种视觉内容生成方法，包括：基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容；确定用于表征第一视觉内容的第一特征向量；获取用于表征用户的偏好的用户特征向量；以及基于第一特征向量和用户特征向量，调整深度学习网络模型以获取与自然语言指令对应的第二视觉内容，其中，用于表征第二视觉内容的第二特征向量与用户特征向量之间的相似度大于第一特征向量与用户特征向量之间的相似度。

根据本公开的另一方面，提供了一种视觉内容创作方法，包括：获取用户的自然语言指令；以及响应于用户的自然语言指令，利用上述视觉内容生成方法生成视觉内容。

根据本公开的另一方面，提供了一种视觉内容生成装置，包括：第一获取单元，被配置为基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容；确定单元，被配置为确定用于表征第一视觉内容的第一特征向量；第二获取单元，被配置为获取用于表征用户的偏好的用户特征向量；以及第一调整单元，被配置为基于第一特征向量和用户特征向量，调整深度学习网络模型以获取与自然语言指令对应的第二视觉内容，其中，用于表征第二视觉内容的第二特征向量与用户特征向量之间的相似度大于第一特征向量与用户特征向量之间的相似度。

根据本公开的另一方面，提供了一种视觉内容创作系统，包括：指令获取单元，被配置为获取用户的自然语言指令；以及交互式创作核心模块，包括上述视觉内容生成装置。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，这些指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述方法。

根据本公开的一个或多个实施例，通过基于用户的自然语言指令生成初步的第一视觉内容，进而根据表征用户的个人风格偏好的用户特征向量对深度学习网络模型进行调整，以使得模型能够生成既满足指令要求，又和用户风格接近的第二视觉内容。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1A示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图1B示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的面向专业艺术设计的新型交互式创作系统的示意图；

图1C示出了根据本公开的实施例的用于视觉内容生成的神经网络模型的结构框图；

图2示出了根据本公开的实施例的视觉内容生成方法的流程图；

图3示出了根据本公开的实施例的获取用于表征用户的偏好的用户特征向量的流程图；

图4示出了根据本公开的实施例的视觉内容生成方法的流程图；

图5示出了根据本公开的实施例的视觉内容生成装置的结构框图；

图6示出了根据本公开的实施例的视觉内容生成装置的结构框图；以及

图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个要素与另一要素区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

目前市场上对于设计师、艺术家、画家等专业人群的主流设计工具如下：

（1）素材收集类：多数设计师在进行设计作品构思和创作前，都会在素材收集网站浏览或者进行关键词搜索，以启发灵感或者基于现有素材做后续编辑。

（2）素材编辑类：这一类型工具主要用于图片编辑工作。设计师大量的工作是基于自己脑海里的编辑意图和想法，结合对于工具掌握的编辑技巧，不断调整输出内容，形成最终作品。

（3）作品版权保护类：设计师群体在完成素材创作后，部分会选择在一些网站进行作品上传，打上用户水印，起到一定的版权保护作用。其他用户购买该作品则需要付费。

总体来讲，目前的现有创作模式是创意收集、素材编辑、版权保护的流程，每个流程则依赖传统工具或者站点。这种传统的设计过程存在以下几个问题：

（1）大量的创意和素材均通过人工思考制作和收集，制作周期较长；

（2）由于生产力的桎梏，稀少的创意数量无法满足不同用户的兴趣，高质量设计作品产能不足；

（3）素材缺乏和同质化严重，难以催生独特性的创意和艺术输出；

（4）对设计师技能积累有一定挑战，如油画艺术家想去尝试漫画画法，需要学习一定的技法和领域背景，否则技能挑战较大；

（5）在设计不同的内容类型时需要在不同种类的设计之间频繁更换设计工具，如在进行图像设计和视频设计上，需要进行不同设计工具的切换，并有学习成本和管理成本；

（6）设计作品离线创作和版权保护分离开来，其中被广泛采用的水印技术并不安全。

此外，现有技术中的相关技术能够实现基于人工智能AI能力的视觉素材生成，但生成的方式固定，生成的素材单一，无法很好地满足用户的需求。

为解决上述问题，本公开通过基于用户的自然语言指令生成初步的第一视觉内容，进而根据表征用户的个人风格偏好的用户特征向量对深度学习网络模型进行调整，以使得模型能够生成既满足指令要求，又和用户风格接近的第二视觉内容。

下面将结合附图详细描述本公开的实施例。

图1A示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1A，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行生成数字人的方法和/或场景划分模型的训练方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供其他服务或软件应用，这些服务或软件应用可以包括非虚拟环境和虚拟环境。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务（SaaS）模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1A所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1A是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来输入指示生成视觉内容或编辑视觉内容的自然语言指令。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息，例如，向用户输出生成或编辑后的视觉素材结果。尽管图1A仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备，例如便携式手持设备、通用计算机（诸如个人计算机和膝上型计算机）、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统，例如MICROSOFT Windows、APPLE iOS、类UNIX操作系统、Linux或类Linux操作系统（例如GOOGLE Chrome OS）；或包括各种移动操作系统，例如MICROSOFT WindowsMobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理（PDA）等。可穿戴设备可以包括头戴式显示器（诸如智能眼镜）和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序（例如电子邮件应用程序）、短消息服务（SMS）应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种（包括但不限于TCP/IP、SNA、IPX等）来支持数据通信。仅作为示例，一个或多个网络110可以是局域网（LAN）、基于以太网的网络、令牌环、广域网（WAN）、因特网、虚拟网络、虚拟专用网络（VPN）、内部网、外部网、区块链网络、公共交换电话网（PSTN）、红外网络、无线网络（例如蓝牙、WIFI）和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机（例如PC（个人计算机）服务器、UNIX服务器、中端服务器）、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构（例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池）。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和/或106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和/或106的一个或多个显示设备来显示数据馈送和/或实时事件。

在一些实施方式中，服务器120可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPS，Virtual Private Server）服务中存在的管理难度大、业务扩展性弱的缺陷。

系统100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据库130可以驻留在各种位置。例如，由服务器120使用的数据库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库130可以是不同的类型。在某些实施例中，由服务器120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1A的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

图1B示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的面向专业艺术设计的新型交互式创作系统的示意图。如图1B所示，新型交互式创作系统140包括多个功能模块，其中，交互式创作工具核心功能150包括基于自然语言指令的创意素材生成152、基于自然语言指令的多轮素材编辑154、设计师风格定制156。交互式创作工具辅助功能160包括Feed推荐流162、素材搜索164、素材分享与协同编辑166。交互式创作系统140还包括用于生成和编辑素材的跨模态生成大模型172、用于计算文本和视觉内容之间的相似度的跨模态检索大模型174（也可以称为跨模态匹配大模型）、区块链版权保护178、以及自然语言处理（NLP）、计算机视觉（CV）、语音、推荐技术模型组件176。这些组件的具体功能将在下文中进行介绍。

根据本公开的一方面，提供了一种视觉内容生成方法。如图2所示，该方法包括：步骤S201、基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容；步骤S202、确定用于表征第一视觉内容的第一特征向量；步骤S203、获取用于表征用户的偏好的用户特征向量；以及步骤S204、基于第一特征向量和用户特征向量，调整深度学习网络模型以获取与自然语言指令对应的第二视觉内容，其中，用于表征第二视觉内容的第二特征向量与用户特征向量之间的相似度大于第一特征向量与用户特征向量之间的相似度。

由此，通过基于用户的自然语言指令生成初步的第一视觉内容，进而根据表征用户的个人风格偏好的用户特征向量对深度学习网络模型进行调整，以使得模型能够生成既满足指令要求，又和用户风格接近的第二视觉内容。

根据一些实施例，用户的自然语言指令可以包括文本指令（文本query）和/或语音指令（语音query）。系统提供文本输入框和语音输入两种接口，用户可灵活选用。由此，实现了设计师需求的表达方式从鼠标入口向语音文字入口的转变。在一些实施例中，可以使用语音组件176对用户输入的语音指令进行识别。

在一些实施例中，自然语言指令可以包括用户希望获取的视觉内容的主题信息。在一个示例性实施例中，用户的自然语言指令“生成一个牛油果形状的椅子”中包括用户希望获取的视觉内容中的主题内容，即牛油果形状的椅子。通过预训练的深度学习网络模型具有自然语言理解能力以及从自然语言到视觉内容的跨模态生成能力，因此，在接收到包括主题内容的自然语言指令后，模型可以基于该自然语言指令，生成符合该主题内容的视觉内容。

在接收到自然语言指令后，系统会基于知识图谱、用户历史、语义联想等进行语义联想，智能扩充query，从而丰富用户的意图、实现最终生成结果的多样性。

根据一些实施例，步骤S201、基于用户的自然语言指令，利用预训练的第一深度学习网络模型获取第一视觉内容可以包括：基于知识图谱和/或用户的用户简档，对自然语言指令进行语义扩展，以获得经扩展的指令；以及，基于经扩展的指令，利用预训练的深度学习网络模型获取第一视觉内容。

在一些实施例中，可以使用自然语言处理组件176进行语义扩展，例如对自然语言指令进行语义理解、智能联想、改写、泛化，或采用其他方式进行语义扩展。用户简档例如可以为用户进行浏览、生成、检索、编辑等而生成的用户历史。经扩展的指令例如可以是一个指令，也可以是多个指令，在此不作限定。

由此，系统通过使用自然语言处理技术对自然语言指令进行语义扩展，使得能够向用户展示出更加丰富且更符合用户的潜在需求的视觉内容素材。

根据一些实施例，预训练的深度学习网络模型可以包括：生成对抗网络。典型代表是DeepMind BigGan模型，生成器和判别器在对抗过程中同时训练，从而能够生成以假乱真的图像。

根据一些实施例，预训练的深度学习网络模型可以包括：变分自编码器。通过编码低维潜在空间然后将其解码回来的网络重建原始输入，一旦拥有了这样的潜在空间，可以从中采样，并通过将他们映射到图像空间，生成从未见过的图像。

根据一些实施例，预训练的深度学习网络模型可以包括：基于序列生成的模型。典型代表是基于Transformer的自回归模型OpenAI DALL.E，归功于庞大参数量和视觉离散化序列建模的能力，该算法可以创建逼真和清晰的图像。

根据一些实施例，预训练的深度学习网络模型可以包括：基于流的生成模型（Flow-based models）。代表模型有NICE、RealNVP、Glow等，通过顺序的可逆函数变换，将简单分布逐步还原复杂的真实数据分布的归一化流程。

根据一些实施例，预训练的深度学习网络模型可以包括：扩散模型。定义一个扩散步骤的马尔可夫链，逐渐向数据添加随机噪声，然后学习逆扩散过程，进一步提升了图像真实性、多样性和分辨率。典型代表是OpenAI GLIDE和DALL.E2模型。

根据一些实施例，预训练的深度学习网络模型可以包括：融合模型。上述几种模型也经常结合起来共同解决具体的文本生成图像的问题，比如VQGAN技术同时结合了生成对抗网络和变分自编码器两种类型的优势。

可以理解的是，本公开的交互式创作系统不严格依赖于其中任意一种特定的网络模型或算法，同时本公开的系统会依据每种网络模型或算法的特点、性能和效果动态选择。随着技术的发展，也逐渐会有更先进新的网络模型或算法衍生出来，持续加入到上述候选列表中。

在一些实施例中，在步骤S201，可以生成一个第一视觉内容，也可以生成多个第一视觉内容，在此不作限定。根据一些实施例，视觉内容可以包括图像和/或视频，图像可以是静态图像，也可以是动态图像。

在一些实施例中，预训练的深度学习网络模型包括第二编码子模型。第二编码子模型可以用于基于视觉内容，生成对应的视觉内容特征向量。在一些实施例中，第二编码子模型还可以是跨模态匹配大模型的一部分。跨模态匹配大模型可以包括文本编码器（即第一编码子模型）和视觉编码器（即第二编码子模型）。跨模态检索大模型可以将一组文本和视觉内容分别进行编码，以得到文本特征向量和视觉内容特征向量，进而对文本向量和视觉向量进行相似度计算，以得到指示文本和视觉内容是否相关的匹配结果。跨模态匹配大模型可以使用大规模的文本-视觉内容匹配数据进行训练，也可以采用其他方式进行训练。可以理解的是，跨模态匹配大模型中的文本编码器和视觉编码器也可以单独使用，以用于得到文本模态的文本特征向量和视觉模态的视觉内容特征向量。

在一些实施例中，文本风格向量（以及构成文本风格向量的第一用户特征子向量、第二用户特征子向量、第三用户特征子向量等）可以是利用第一编码子模型获取的。第一特征向量、第二特征向量、以及视觉风格向量（以及构成视觉风格向量的第四用户特征子向量）可以是利用第二编码子模型获取的。

在一些实施例中，预训练的深度学习网络模型是通过以下方式训练得到的：获取第一样本文本、第一样本视觉内容、以及第一样本文本和第一样本视觉内容之间的真实相似度；将第一样本文本输入第一编码子模型，以得到对应的第一样本文本特征向量；将第一样本视觉内容输入第二编码子模型，以得到对应的第一样本视觉内容特征向量；基于第一样本文本特征向量和第一样本视觉内容特征向量，确定第一样本文本和第一样本视觉内容之间的预测相似度；以及基于真实相似度和预测相似度，同时训练第一编码子模型和第二编码子模型。可以理解的是，当第一样本视觉内容和第一样本文本是一组文本-视觉内容匹配数据（例如，第一样本文本是对第一样本视觉内容的描述文本），第一样本视觉内容和第一样本文本构成正样本，则两者间的真实相似度可以为1；当第一样本视觉内容和第一样本文本不匹配时，第一样本视觉内容和第一样本文本构成负样本，则两者间的真实相似度可以为-1。

可以理解的是，以上仅为一种利用文本-视觉内容匹配数据训练第一编码子模型和第二编码子模型的示例，在实施本公开的方案时还可以采用其他方式利用文本-视觉内容匹配数据训练第一编码子模型和第二编码子模型，在此不作限定。

在一些实施例中，可以使用统一模态网络模型作为第一编码子模型和第二编码子模型，从而使得得到的文本特征向量和视觉内容特征向量能够具有更好的跨模态特性。

统一模态网络模型（例如，UNIMO网络），也可以称为统一模态神经网络，可以是对多种模态输入进行统一处理的神经网络模型，可以用于完成文本分类（关键词提取）、文本信息提取、文本和图像或视频的相关度计算、基于文本的图像或视频生成等任务。统一模态神经网络的主体部分由多个Transformer层构成，并且可以根据下游任务的不同在多层Transformer之后耦接其他网络结构。统一模态神经网络可以接收文本、视觉内容（例如，图像）、或文本-视觉内容匹配数据等输入，并对这些输入进行嵌入以得到相应的文本特征或视觉特征用以输入到多层Transformer，从而得到多层Transformer输出的综合语义表示。

在一些实施例中，文本-视觉内容匹配数据可以为文本内容和视觉内容对齐的数据。例如，视觉内容A和对该视觉内容进行描述的文本B。统一模态神经网络可以接收视觉内容A和文本B，并输出基于这两者的跨模态结果，例如，两者之间的相似度。

具体地，对于文本输入W，首先通过词切分转化为词序列W = {[CLS], w ₁, … ,w _n, [SEP]}，然后通过多层Transformer获得上下文相关的语义表示；对于视觉输入V，则通过将视觉内容划分为多个图像块，然后将图像块进行向量化，形成图像输入序列V = {[IMG], v ₁, … , v _t}，类似地通过多层Transformer获得视觉的语义表示。最后，对于文本-视觉内容对的输入（V，W），则将文本和视觉部分的输入序列进行拼接，形成V, W = {[IMG], v ₁, … , v _t, [CLS], w ₁, … , w _n, [SEP]}，同样通过多层Transformer，获得跨模态的语义表示。

上述[CLS]、[IMG]、[SEP]等为输入基于Transformer的神经网络的特殊符号。[CLS]和[IMG]分别可以用于提取文本序列和视觉序列的整体语义表示，[SEP]可以用于作为多个输入之间的分割指示。

根据一些实施例，通过使用训练好的统一模态神经网络执行基于文本获取文本特征向量、基于视觉内容获取视觉特征向量等多个任务，使得在这些任务中所使用的文本特征和视觉特征均位于同一个语义空间中，从而在这些任务之间建立了关联关系，进而使得神经网络输出的文本特征向量和视觉特征向量更加贴合视觉内容生成和相似度计算的应用场景，并且提升了得到的视觉内容和相关度准确性。

在一些实施例中，可以使用多种方式对统一模态神经网络进行训练，例如，可以使用大量异构数据进行跨模态对比学习、图像掩码预测、语言掩码预测等，以实现对统一模态神经网络的预训练。也可以将统一模态神经网络嵌入到跨模态生成大模型中，并进行端到端训练，在此不作限定。通过这样的训练，可以使得统一模态神经网络初步具有跨模态、多模态信息。在下文中将对如何训练统一模态神经网络以及如何训练跨模态生成大模型进行详细描述。

步骤S202、确定用于表征第一视觉内容的第一特征向量例如可以为由跨模态匹配大模型中的视觉编码器对第一视觉内容进行编码，以得到第一特征向量。

由于每个设计师都有自己独特的艺术审美和偏好，基于AI大模型的交互式系统的优势之一即为系统更加智能化，能够依据设计师用户的个人信息和行为，比如用户填写的个人风格偏好、对某一副作品的浏览时长、对于某些种类作品的喜欢程度、历史上的检索行为、历史上的交互式指令行为等等建立设计师画像，从而对通用AI大模型系统进行针对该设计师的调整，使得生成的艺术作品都可以选择带有其自己的风格，具有很强的辨识度。

根据一些实施例，用户特征向量可以包括用户的文本风格向量。用户的文本风格向量可以是由跨模态匹配大模型中的文本编码器（即第一编码子模型，例如，UNIMO）对各类能够反映用户的偏好的文本进行编码而得到的。

根据一些实施例，用户的偏好可以包括能够表征用户的创作风格的文本内容。文本内容例如可以是用户注册时填写的描述职业和风格偏好的文本，例如“服装设计师，偏好嬉皮风格，偏好个性化的表达方式，喜欢冷色调”。通过利用第一编码子模型对这样文本内容进行编码，可以得到对应的第一用户特征子向量。如图3所示，步骤S203、获取用于表征用户的偏好的用户特征向量可以包括：步骤S301、基于文本内容，获取第一用户特征子向量；以及步骤S302、基于第一用户特征子向量，获取文本风格向量。可以理解的是，文本内容还可以是其他形式或通过其他方式获取的与用户偏好的创作风格相关的文本，并且可以通过各种方式基于文本内容得到第一用户特征子向量，在此不作限定。

根据一些实施例，用户的偏好包括用户的自然语言指令的历史记录。历史记录例如可以包括用户历史搜索过的query。此外，可以通过拼接、关键词抽取等方式对单条或多条历史记录进行处理，并利用第一编码子模型进行编码，以得到对应的第二用户特征特征向量。如图3所示，步骤S203、获取用于表征用户的偏好的用户特征向量还可以包括：步骤S303、基于历史记录，获取第二用户特征子向量；以及步骤S304、基于第二用户特征子向量，获取文本风格向量。可以理解的是，历史记录还可以是其他形式或通过其他方式获取的用户历史数据，并且可以通过各种方式基于历史记录得到第二用户特征子向量，在此不作限定。

根据一些实施例，用户的偏好包括用户浏览过的视觉内容集中的相应视觉内容的标签信息。视觉内容集中的内容例如可以包括所有用户浏览过的内容，也可以包括用户点击过的内容，还可以包括用户长时间停留的内容，或其他与用户产生过交互的内容，在此不作限定。标签信息例如可以为这些视觉内容的tag信息。通过利用第一编码子模型对这样标签信息进行编码，可以得到对应的第三用户特征子向量。如图3所示，步骤S203、获取用于表征用户的偏好的用户特征向量可以包括：步骤S305、基于标签信息，获取第三用户特征子向量；以及步骤S306、基于第三用户特征子向量，获取文本风格向量。可以理解的是，标签信息还可以是其他形式或通过其他方式获取的视觉内容对应的标签信息，并且可以通过各种方式基于标签信息得到第三用户特征子向量，在此不作限定。

在一些实施例中，用户的偏好还可以包括其他能够以文本形式表现的内容。可以采用各种方式对这样的内容进行编码，以得到对应的文本模态的用户特征子向量。进而，可以基于该用户特征子向量获取文本风格向量。

在一些实施例中，可以采用各种方式基于第一用户特征子向量、第二用户特征子向量、第三用户特征子向量（以及更多的文本模态的用户特征子向量）得到文本风格向量。例如，可以将这些用户特征子向量进行直接拼接、相加、或采用其他方式进行处理，以得到文本风格向量。

根据一些实施例，用户特征向量还可以包括用户的视觉风格向量。用户的视觉风格向量可以是由跨模态匹配大模型中的视觉编码器（即第二生成子模型，例如，UNIMO）对各类与用户产生过交互的视觉内容进行编码而得到的。

根据一些实施例，用户的偏好包括用户浏览过的视觉内容集。该视觉内容集可以包括用户浏览过的内容，也可以包括用户点击过的内容，还可以包括用户长时间停留的内容，或其他与用户产生过交互的内容，在此不作限定。通过利用第二编码子模型对这些视觉内容进行编码，可以得到对应的第四用户特征子向量。如图3所示，步骤S203、获取用于表征用户的偏好的用户特征向量可以包括：步骤S307、基于视觉内容集，获取第四用户特征子向量；以及步骤S308、基于第四用户特征子向量，获取视觉风格向量。可以理解的是，还可以通过各种方式基于视觉内容得到第四用户特征子向量，在此不作限定。

进而，可以基于第五用户特征子向量获取视觉风格向量。在一些实施例中，用户的偏好还可以包括其他能够以视觉形式表现的内容，例如，用户生成过的视觉内容集。可以采用各种方式对这样的内容进行编码，以得到对应的视觉模态的用户特征子向量。进而，可以基于该用户特征子向量获取视觉风格向量。

在一些实施例中，可以采用各种方式基于第四用户特征子向量（以及其他的视觉模态的用户特征子向量）得到视觉风格向量。例如，可以将第四用户特征子向量直接作为视觉风格向量，也可以将这些用户特征子向量进行直接拼接、相加、或采用其他方式进行处理，以得到视觉风格向量。

在得到表征用户的偏好的用户特征向量（例如，文本风格向量和/或视觉风格向量）之后，可以基于初始生成的第一视觉内容的第一特征向量和用户特征向量对深度学习网络模型进行调整，以获取第二视觉内容。

在一些实施例中，深度学习网络模型例如可以是上述跨模态生成大模型172。可以构建关于第一视觉内容的第一特征向量和用户特征向量的损失函数，并利用推理过程中产生的损失值反向优化跨模态生成大模型172，直至优化后的模型生成的视觉内容的特征向量和用户特征向量接近或迭代中止条件被满足，从而使得模型能够学习到用户的偏好信息。

根据一些实施例，步骤S204、基于第一特征向量和用户特征向量，调整预训练的深度学习网络模型以获取与自然语言指令对应的第二视觉内容可以包括：基于第一特征向量和用户特征向量之间的相似度，确定损失值；基于损失值，调整预训练的深度学习网络模型，以得到目标深度学习网络；以及利用目标深度学习网络模型获取第二视觉内容。

在一些实施例中，可以采用各类方式对第一特征向量和用户特征向量的相似度构建损失函数，并基于该损失函数调整深度学习模型中的子模型的参数。

在一些实施例中，可以对深度学习网络模型进行多轮参数调整，直至第二视觉内容对应的第二特征向量和用户特征向量之间的相似度大于预设阈值。通过这样的方式，可以进一步确保模型生成的视觉内容能够具有明显的用户的风格特色。可以理解的是，在用户特征向量包括文本风格向量和视觉风格向量时，可以构建关于第一特征向量和文本风格向量的第一损失函数，以及第一特征向量和视觉风格向量的第二损失函数，并基于第一损失函数和第二损失函数两者调整模型。

根据一些实施例，基于第一特征向量和用户特征向量，确定损失值可以包括：基于第一特征向量和文本风格向量，确定第一损失值；基于第一特征向量和视觉风格向量，确定第二损失值；以及基于第一损失值和第二损失值，确定损失值。

在一些实施例中，在调整深度学习网络模型时，可以仅对跨模态生成大模型172中的一部分进行优化。跨模态生成大模型172可以包括基于自然语言指令生成中间特征的第一编码子模型（即，文本编码器）以及基于中间特征生成视觉内容的第一生成子模型（例如，扩散模型、视觉解码器）。在利用第一特征向量和用户特征向量优化跨模态生成大模型时，可以保留第一编码子模型参数，而仅调整第一生成子模型的参数。通过这样的方式，可以降低模型优化过程的代价，并且可以保留模型中的其他模块已经学到的与生成过程无关的信息，避免产生干扰。

在一个示例性实施例中，跨模态生成大模型（例如，DALL-E 2）还可以包括第一编码子模型和第一生成子模型之间的先验模型（例如，扩散模型）。第一编码模块子模型可以基于文本生成第一中间特征，即文本特征向量；先验模型可以基于第一中间特征生成第二中间特征，即视觉特征向量；第一生成子模型再基于第二中间特征生成相应的视觉内容。此外，第一编码子模型和第二编码子模型可以构成CLIP模型，并可以通过大量图文匹配数据进行训练，使得第一编码子网络生成的文本特征向量和第二编码子模型生成的视觉特征向量位于同一语义空间。因此，DALL-E 2模型能够生成丰富的视觉内容。

可以理解的是，利用第一生成子模型将先验模型生成的视觉特征向量a生成为视觉内容后，再利用第二编码子模型对该视觉内容进行编码以得到的视觉特征向量b与视觉特征向量a并不一定相同，其原因是在进行编码/解码/扩散的过程中，可能会丢失一些信息/额外增加一些信息。类似地，将利用第二编码子模型对视觉内容A进行编码后，再使用第一生成子模型对得到的视觉特征向量进行生成而得到的视觉内容B与视觉内容A并不一定相同。

在一个示例性实施例中，跨模态生成大模型（例如，Imagen）的第一生成子模型可以是基于中间特征生成尺寸为64×64的视觉内容的扩散模型。而在第一生成子模型之后，跨模态生成大模型还可以包括多个超分辨率子模型，用于提升第一生成子模型所生成的视觉内容的尺寸。此外，第一编码子模型是冻结了参数的文本编码器，因此Imagen模型相比于DALL-E 2模型具有较强的文本理解能力。冻结参数的含义是在后续的微调、训练等环节中，不对被冻结参数的子模型中的参数进行调整，而调整网络模型中的其他部分的参数。这样的好处在于能够实现对网络中的某些部分进行单独训练，并且能够避免后续的训练任务对一些模型（尤其是预训练大模型）中已学到的信息造成干扰。

在一个示例性实施例中，跨模态生成大模型可以包括直接相连的第一编码子模型（例如，统一模态网络模型UNIMO）和第一生成子模型。由于统一模态网络模型模型可以使用大量异构的多模态、跨模态数据进行训练的，并且可以使用各种下游任务进行训练，因此，模型所构建出的跨模态语义空间能够更好地将文本信息和视觉内容信息进行结合，从而得到准确地跨模态相似度计算结果，并且能够更好地用于视觉内容生成场景，从而生成更高质量的视觉内容。

针对上述三种不同的跨模态生成大模型示例，在基于与第一特征向量和用户特征向量的相似度对应的损失值优化模型时，均可以仅对第一生成子模型进行调参，以在提升优化效率的同时避免干扰到其他与视觉内容生成不直接相关的子模型已经学到的信息（例如，第一编码子模型中的与文本编码相关的信息）。

可以理解的是，以上仅为一种调整深度学习网络模型以使得模型能够生成带有用户偏好的视觉内容方式，在实施本公开的方法时，还可以采用其他方式基于第一特征向量和用户特征向量调整模型，在此不作限定。

在一些实施例中，在接收到用户希望获取另一主题的视觉内容的自然语言指令后，深度学习网络模型可以对模型进行进一步调整，也可以对原始模型（即，针对上一个自然语言指令进行调整之前的模型）进行调整，以使得模型能够输出满足该自然语言指令并且和用户风格接近的视觉内容。

需要注意的是，上述对深度学习网络模型训练的目的是让模型学习样本数据中的信息，以使得模型具有处理某种任务的一般化能力，但上述调整过程的目的是为了生成与用户的当前自然语言指令对应的特定视觉数据，而并非使模型具有一般化能力，不同于一般意义上的模型训练。

在一个示例性实施例中，基于第一指令对应的视觉内容调整后的模型在处理不同于第一指令的第二指令时，可能仍无法生成具有用户风格的视觉内容，因而需要基于第二指令进行进一步调整。而当进一步调整后的模型能够输出符合第二指令的内容并且和用户风格接近的视觉内容后，利用进一步调整后的模型基于第一指令生成的视觉内容可能反而不具备用户风格。这是因为在对模型进行上述调整时，模型在多轮优化时使用的是同样的输入，因此模型会向一个固定的方向调整，最终找到对于当前的自然语言指令而言最合适的位置。而如果模型根据不同的输入进行优化（例如，使用大量样本进行训练），则这些样本之间可能会产生干扰，使得模型无法收敛。换句话说，针对不同的自然语言指令，模型的最优参数可能并不同或者差别较大，因此需要针对每一个自然语言指令单独对模型进行优化，以实现在视觉内容中对用户风格进行体现。

此外，在训练阶段中，如果仅使用同一个样本调整模型，会产生过拟合现象。而在本公开的场景中，由于调整模型的目的是为了生成与自然语言指令对应并且具有用户风格的视觉内容，因此无需担心模型对其他指令进行处理时可能会产生的问题。

在通过上述方法生成了带有用户风格的一幅或多幅视觉内容后，用户可以对生成的视觉内容进行筛选，选择最符合自己预期的一副或者多幅作品进行下一轮或多轮的精修，形成新的视觉内容。

根据一些实施例，如图4所示，视觉内容生成方法还可以包括：步骤S405、响应于用户的编辑指令，调整第二视觉内容以获取第三视觉内容。由此，实现了用户对视觉内容的多轮交互编辑。

在一些实施例中，用户可以对第二视觉内容的风格、情感、元素、视角、色块等粒度进行多轮描述，以生成相应的编辑指令，而系统会针对每个描述做出相应的视觉修改，直到用户满意为止。

在一些实施例中，系统还可以支持基于多张图的交互式编辑。在这样的交互场景中，用户可以指定多张候选图，并提出希望借鉴多张图各自特点的要求进行组合，例如“请AI生成一个风格是素材1，色彩构成用素材2，内容元素是素材3的作品”。系统可以基于该编辑指令对多个视觉内容进行处理，以得到符合用户要求的视觉内容。

在一些实施例中，除了对基于AI生成/编辑的视觉内容进行进一步细化外，用户仍然可以基于外部网络公开的外部图像进行编辑处理。此外，上述多种交互方式还可以进一步地融合、组合。

在上述实施例的基础上，系统还可以支持更丰富的交互方式。通过对视觉内容的生成和编辑过程进行解释，以及实现和用户的深度交流，从而进一步提升生成/编辑后的视觉内容的质量和用户满意度。

根据一些实施例，如图4所示，视觉内容生成方法还可以包括：步骤S406、响应于获取到相应的视觉内容，利用深度学习网络模型获取用于向用户反馈的关于相应的视觉内容的解释性文本。现有技术中，素材生成方法仅生成相应的视觉内容，而本公开的方法在生成视觉内容之后，还可以生成对于这幅画的理解和发挥的解释性文本。用户也可以继续通过对话交互的方式和AI探讨画作的细节，表达主观感情和进一步完善意见等等。

根据一些实施例，跨模态生成大模型还包括第二生成子模型，被配置为基于中间特征，生成解释性文本。如前文所描述的，统一模态网络模型具有很好的处理多模态、跨模态任务的能力，其输出的中间结果不仅能够包括与待生成的视觉内容相关的视觉信息，还可以包括与相应的解释性文本对应的文本信息。因此，可以利用第一生成子模型（视觉内容解码）和第二生成子模型（文本解码）分别对中间特征进行解码，以得到相应的视觉内容和解释性文本。

在一些实施例中，为了更好地对中间特征进行解码，在统一模态网络模型之后，还可以使用与视觉模态对应的全连接层或多层感知机对中间特征进行处理，以得到视觉中间特征，并使用与文本模态对应的全连接层或多层感知机对中间特征进行处理以得到文本中间特征。进而，再利用第一生成子模型（视觉内容解码）和第二生成子模型（文本解码）分别对视觉中间特征和文本中间特征进行解码，以得到相应的结果。

由于模型不一定每次都需要同时输出视觉内容和解释性文本，因此可以通过各种方式确定本次需要输出的内容。例如，可以基于统一模态网络模型输出的中间特征进行预测，也可以基于文本模态和视觉模态各自对应的中间特征进行预测，也可以根据第一生成子模型和第二生成子模型最终生成的结果确定是否需要输出该结果，在此不作限定。

在一个示例性实施例中，在跨模态生成大模型输出了视觉内容后，用户可以输入新一轮的编辑指令（例如，“请把头部再缩小一点”）或询问指令（例如，“这个树我之前没有明确要求，AI你自己发挥出来了这种奇幻的感觉，能问下你是怎么理解这里的深意的么

”）。除上述指令外，之前已生成的的多轮文本对话和/或多轮的交互式生成结果均可以输入到模型中，从而使得模型能够得出更合理、更全面的解释性文本。基于这些内容，模型可以输出图像和/或文本，取决于用户下发了何种指令或者提出了何种问题。例如，如果用户仅输入了关于画作内容的探讨，则模型可以仅输出文字；如果用户需要模型对视觉内容进行修改，则模型可以输出图像；如果用户需要进行修改并且需要模型提供理解，则模型可以同时输出图像和文本。

可以理解的是，以上仅为一种用户与模型进行交互的示例。除上述方式外，用户和模型之间还可以采用其他方式进行交互，在此不作限定。

根据一些实施例，如图4所示，视觉内容生成方法还可以包括：步骤S407、响应于用户的询问指令，利用深度学习网络模型基于以下至少一项获取用于向用户反馈的解释性文本和/或视觉内容：利用深度学习网络模型获取的至少一个视觉内容；获取的至少一个交互信息，至少一个交互信息至少包括解释性文本和自然语言指令；以及询问指令。由此，模型可以基于在先的一轮或多轮交互信息和已生成的视觉内容以得到更全面/更合理的解释性文本和/或视觉内容。

根据一些实施例，可以向大模型输入至少一个交互信息和询问指令，也可以向大模型输入至少一个视觉内容和询问指令，还可以向大模型输入至少一个交互信息、至少一个视觉内容和询问指令三者，以获取模型输出的解释性文本和/或视觉内容，在此不作限定。

在一些实施例中，第一编码子模型为统一模态网络模型，则可以将询问指令/自然语言指令和至少一个交互信息进行嵌入，以得到对应的文本特征，并将至少一个视觉内容进行分块后提取视觉特征，进而可以将上述文本特征和图像特征进行拼接，以得到统一模态网络模型的输入。可以理解的是，在实施本公开的方法时，可以采用各种文本嵌入方法和图像特征提取模型进行文本特征的提取和视觉特征提取，在此不作限定。

根据一些实施例，询问指令可以与第二视觉内容和/或第三视觉内容相关，至少一个视觉内容可以包括第二视觉内容和/或第三视觉内容，解释性文本可以包括关于第二视觉内容和/或第三视觉内容的解释性文本。由此，可以将输入模型的信息的范围限定到与本次视觉内容生成相关的解释性文本和已生成的视觉内容，以避免用户历史中的信息对本轮的视觉内容和/或解释性文本的生成产生干扰。

根据一些实施例，预训练的深度学习网络模型可以是通过以下方式训练得到的：获取内容一致的第二样本文本和第二样本视觉内容（即，文本-视觉内容匹配数据）；将第二样本文本输入预训练的深度学习网络模型，以得到生成的第四视觉内容；以及基于第二样本视觉内容和第四视觉内容，调整预训练的深度学习网络模型中的第一生成子模型的参数。通过这样的方式，使得第一生成子模型具备视觉内容生成能力，而通过在训练过程中冻结第一编码子模型的参数并调整第一生成子模型的参数，可以加快对模型整体的训练速度，特别是在第一编码子模型为统一模态网络模型等大规模预训练模型的情况下。在一些实施例中，也可以不冻结第一编码子模型的参数，而对大模型整体进行端到端训练。

根据一些实施例，深度学习网络模型还可以包括第三编码子模型和第四编码子模型。第三编码子模型可以被配置为对至少一个视觉内容进行序列编码，以得到对应的视觉内容序列特征向量，第四编码子模型可以被配置为对至少一个交互信息进行序列编码，以得到对应的交互信息序列特征向量，第一编码子模型可以被配置为基于询问指令、视觉内容序列特征向量、以及交互信息序列特征向量中的至少一项，生成对应的中间特征。由此，通过将至少一个视觉内容和至少一个交互信息进行序列编码，使得得到的视觉内容序列特征向量和交互信息序列特征向量能够更好地体现出序列中的先后关系，从而能够进一步提升模型生成的视觉内容和解释性文本的质量。

在一些实施例中，第三编码子模型和第四编码子模型可以基于各种序列模型，例如，循环神经网络（Recursive Neural Network，RNN）、长短期记忆网络（Long Short-TermMemory，LSTM），也可以基于其他的能够处理序列信息的模型，例如各类基于Transformer的文本模型、视觉模型、以及跨模态模型，在此不作限定。

在进行视觉内容生成和编辑时，模型也可以利用已生成的交互信息和/或已生成的视觉内容进行指导。在一些实施例中，在基于用户的自然语言指令进行视觉内容生成时，可以将历史交互信息和历史生成的视觉内容输入到第三编码子模型和第四编码子模型中，以使得大模型能够基于更丰富的输入内容进行视觉内容生成。在一些实施例中，在基于用户的自然语言指令对已有的视觉内容进行修改时，可以将待修改的视觉内容直接输入到第一编码子模型中，也可以输入到第三编码子模型中。

根据一些实施例，预训练的深度学习网络模型可以是通过以下方式训练得到的：获取样本交互信息序列、样本视觉内容序列、样本询问指令、以及对应的真实解释性文本；将样本交互信息序列、样本视觉内容序列、以及样本询问指令输入预训练的深度学习网络模型，以得到预测解释性文本，包括：将样本交互信息序列输入第三编码子模型；将样本视觉内容序列输入第四编码子模型；将样本询问指令输入第一编码子模型；以及获取第二生成子模型生成的预测解释性文本；基于真实解释性文本和预测解释性文本，调整预训练的深度学习网络模型的参数。

在一些实施例中，第三编码子模型、第四编码子模型、第二生成子模型也可以是单独训练的，或可以在经过了预训练之后再执行上述训练。

在一些实施例中，现有技术仅收集大量的图文匹配数据对模型进行训练，因此模型仅能实现文到图的生成等简单任务。为了实现本公开提出的交互式生成方式，除图文匹配数据外，还可以收集和标注大量绘图讲解视频、文本对话数据、或其他相关的视觉内容解释数据对模型进行训练，从而使得模型能够针对视觉内容的生成细节做出解释。在一个示例性实施例中，可以将视觉内容解释数据中的视觉内容输入统一模态网络模型，并获取第二生成子模型输出的预测解释性文本，再基于预测解释性文本和视觉内容解释数据中与上述输入的视觉内容对应的真实解释性文本调整统一模态网络模型的参数，使得统一模态网络模型能够学习到关于对视觉内容进行解释的知识。

在一些实施例中，交互式创作系统140还可以包括多种交互式创作工具辅助功能160。具体包括如下内容。

设计作品Feed推荐流162：为了进一步营造AI生成作品的艺术氛围和高效率生产和消费环境，本公开的创作系统具备设计作品Feed流浏览、收藏以及系统推荐功能。用户作为生产者时，借助AI创作力工具核心功能，生成AI作品，同时发布到作品信息平台。用户作为消费者时，借助AI创作力工具辅助功能，可以浏览其他用户和评论其他用户的作品，这两种角色都是在本系统中同时完成的，从而使得整个系统实现生产、消费的闭环。此外，在用户进行浏览、评论等系统交互行为时，这些交互行为均会被记录为用户的历史信息，并可以用于生成用户简档。

素材搜索164：推荐是被动接受素材，搜索则是主动寻找素材来源。基于跨模态检索大模型，用户可以主动搜索到别的设计师创作的作品，从而提供了另外一种寻找素材的方式。

多用户素材分享与协同编辑166：系统提供多个用户共同编辑的功能，每一个用户在多轮交互中所使用的语言指令和生成的图像都会被保留下来，并且能够分享出去供其他组成员看到进行协同编辑。

在一些实施例中，交互式创作系统140还可以包括区块链版权保护178。区块链的优势是去中心化、安全可信、开放共享，非常适合进行数字作品的版权保护。再经过用户同意后，所生产的作品都会接入区块链。

由此，本公开提出的上述视觉内容生成方法和交互式创作系统140可以实现以下优势：

（1）与传统基于成熟的图像处理技术和网站技术不同，本专利提出的方案完全是基于先进的跨模态大模型生成技术来构建和驱动的，充分释放AI大模型技术在图像内容生产效率和能力上的独特优势。集提供素材、寻找灵感、多样性生成、交互式修复多项AI功能为一体，同时也会带来从鼠标到文本语音的需求入口的巨大转变。

（2）目前市场上对于设计师、艺术家、画家等专业人群的AI设计工具非常稀缺，本专利面向这一人群设计一款产品。可在静态图、动态图、视频生成等设计范畴提供AI创作底图和灵感帮助，并可依据自然语言指令进行多轮交互调整，可填补市场产品空白。

（3）可依据用户行为自动调整生成作品的风格，独具一格，辨识度极高。

（4）可向用户解释AI创作的思路，并通过多轮互动的方式使得生成的作品更贴合用户的本意。

（5）创作过程和版权保护一体化，直接接区块链超级链，有更安全方便的完整的版权保护机制。

（6）用户生成创作过程和消费浏览评价等消费过程统一在一起，灵活切换角色，利于培养用户粘性，促进行业良性发展。

根据一些实施例，视觉内容可以是利用跨模态生成大模型生成的。跨模态生成大模型为预训练的深度学习网络模型。

根据一些实施例，视觉内容创作方法还可以包括：响应于用户的搜索指令，利用跨模态检索大模型从数据库获取与搜索指令所包括的查询文本的相似度最高的一个或多个视觉内容。跨模态检索大模型包括：文本编码器，被配置为基于查询文本生成对应的查询文本特征向量；视觉编码器，被配置为基于数据库中的候选视觉内容生成对应的候选视觉特征向量；以及相似度计算单元，被配置为基于查询文本特征向量和候选视觉特征向量，确定查询文本和候选视觉内容之间的相似度。

根据一些实施例，视觉内容创作方法还可以包括：基于用户的用户简档，确定视觉内容推送条目，视觉内容推送条目可以包括其他用户生成的视觉内容；以及将用户利用上述视觉内容生成方法的视觉内容和自然语言指令发送至其他用户，以供其他用户对该视觉内容进行处理。

根据一些实施例，视觉内容创作方法还可以包括：响应于用户的区块链保护指令，将生成的视觉内容接入区块链。

根据本公开的另一方面，提供了一种用于视觉内容生成的神经网络模型。如图1C所示，神经网络模型180包括：第一编码子模型182，被配置用于接收用户的各类指令188（例如，自然语言指令）、至少一个视觉内容190、以及至少一个交互信息192，以生成中间特征；第一生成子模型184a，被配置为基于中间特征，生成对应的视觉内容198a；第二生成子模型184b，被配置为基于中间特征，生成对应的文本内容198b。

在一些实施例中，第一编码子模型182可以是前文描述的统一模态神经网络，第一生成子模型184a和第二生成子模型184b可以采用解码器的结构。

在一些实施例中，神经网络模型180还可以包括：第一全连接层186a，被配置为基于中间特征生成视觉中间特征；第二全连接层186b，被配置为基于中间特征生成文本中间特征。第一生成子模型184a，被进一步配置为基于视觉中间特征，生成对应的视觉内容198a；第二生成子模型184b，被进一步配置为基于文本中间特征，生成对应的文本内容198b。

在一些实施例中，神经网络模型180还可以包括：第三编码子模型194，被配置为基于至少一个视觉内容190生成视觉内容序列特征向量；第四编码子模型196，被配置为基于至少一个交互信息192生成交互信息序列特征向量。

根据本公开的另一方面，提供了一种用于视觉内容生成的神经网络模型的训练方法。神经网络可以包括：第一编码子模型182，被配置用于接收用户的各类指令、至少一个视觉内容、以及至少一个交互信息，以生成中间特征；第一生成子模型184a，被配置为基于中间特征，生成对应的视觉内容；第二生成子模型184b，被配置为基于中间特征，生成对应的文本内容。训练方法包括：步骤A01、获取内容一致的第二样本文本和第二样本视觉内容；步骤A02、将第二样本文本输入预训练的深度学习网络模型，以得到生成的第四视觉内容；以及步骤A03、基于第二样本视觉内容和第四视觉内容，调整预训练的深度学习网络模型中的第一生成子模型182的参数。由此，使得经过调整后的深度学习网络模型具备了视觉内容生成能力。

在一些实施例中，第一编码子模型182可以是统一模态网络模型。在进行执行上述步骤前，可以先利用大量单模态、多模态异构数据单独对第一编码子模型182进行预训练，以使其学习到跨模态、多模态的相关信息。例如可以使用前文提到的跨模态对比学习、图像掩码预测、语言掩码预测等预训练任务对第一编码子模型182进行预训练。

在一些实施例中，可以采用如下方法进行对第一编码子模型182进行预训练：利用第一编码子模型182提取与样本文本和样本视觉内容对应的样本文本特征和样本视觉内容特征（可以是将样本文本和样本视频内容一并输入到模型中，并获取模型同时输出的样本文本特征和样本视觉内容特征，也可以是依次将样本文本和样本视频内容输入到模型中，并获取模型依次输出的两个特征），并计算两个特征之间的相似度，进而利用样本文本和样本视觉内容的真实相似度和计算得到的预测相似度，调整第一编码子模型182的参数。

在一些实施例中，可以采用如下方法进行对第一编码子模型182进行预训练：将样本文本嵌入得到的文本嵌入特征和样本视觉内容进行嵌入得到的视觉内容嵌入特征共同输入第一编码子模型182，以得到对应的融合特征，再使用一个小型网络（例如，全连接层、多层感知机）基于融合特征输出样本文本和样本视觉内容之间的相似度。进而，可以利用利用样本文本和样本视觉内容的真实相似度和小型网络输出的预测相似度，调整第一编码子模型182的参数。

在一些实施例中，在步骤A03，可以冻结第一编码子模型182的参数，从而仅调整第一生成子模型184a的参数。在一些实施例中，也可以不冻结第一编码子模型182的参数，并对整个预训练深度学习网络模型进行端到端训练。

在一些实施例中，神经网络模型180还可以包括：第一全连接层186a，被配置为基于中间特征生成视觉中间特征；第二全连接层186b，被配置为基于中间特征生成文本中间特征。第一生成子模型184a，被进一步配置为基于视觉中间特征，生成对应的视觉内容198a；第二生成子模型184b，被进一步配置为基于文本中间特征，生成对应的文本内容198b。在步骤A03还可以调整第一全连接层186a的参数。

在一些实施例中，可以将视觉内容解释数据中的视觉内容输入第一编码子模型182，并获取第二生成子模型184b输出的预测解释性文本，再基于预测解释性文本和视觉内容解释数据中与上述输入的视觉内容对应的真实解释性文本调整第一编码子模型182和/或第二生成子模型184b的参数，使得统一模态网络模型能够学习到关于对视觉内容进行解释的知识。

在一些实施例中，训练方法还可以包括：步骤B01、获取样本交互信息序列、样本视觉内容序列、样本询问指令、以及对应的真实解释性文本；步骤B02、将样本交互信息序列、样本视觉内容序列、以及样本询问指令输入预训练的深度学习网络模型，以得到预测解释性文本，包括：步骤B021、将样本交互信息序列输入第三编码子模型194；步骤B022、将样本视觉内容序列输入第四编码子模型196；步骤B023、将样本询问指令输入第一编码子模型192；以及步骤B024、获取第二生成子模型184b生成的预测解释性文本；以及步骤B03、基于真实解释性文本和预测解释性文本，调整预训练的深度学习网络模型的参数。

在一些实施例中，在步骤B03，可以调整全部第三编码子模型194、第四编码子模型196、第一编码子模型192、以及第二生成子模型184b四个子模型的参数，也可以调整其中的部分子模型的参数，在此不作限定。

在一些实施例中，第三编码子模型194、第四编码子模型196、第二生成子模型184b也可以是单独训练的，或者可以在经过了预训练之后再执行上述训练。

在一些实施例中，在步骤B03，还可以调整第二全连接层186b的参数。

在一些实施例中，在步骤B03，可以冻结第一编码子模型182的参数，从而主要调整第二生成子模型184b的参数。在一些实施例中，也可以不冻结第一编码子模型182的参数，并对整个预训练深度学习网络模型进行端到端训练。

通过上述训练方式，可以使得训练后的神经网络模型兼具视觉内容生成能力和对生成的视觉内容进行解释的能力。

根据本公开的另一方面，提供了一种视觉内容生成装置。如图5所示，装置500包括：第一获取单元510，被配置为基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容；确定单元520，被配置为确定用于表征第一视觉内容的第一特征向量；第二获取单元530，被配置为获取用于表征用户的偏好的用户特征向量；以及第一调整单元540，被配置为基于第一特征向量和用户特征向量，调整深度学习网络模型以获取与自然语言指令对应的第二视觉内容，其中，用于表征第二视觉内容的第二特征向量与用户特征向量之间的相似度大于第一特征向量与用户特征向量之间的相似度。可以理解的是，装置500中的单元510-单元540的操作分别和图2中的步骤S201-步骤S204的操作类似，在此不作赘述。

根据一些实施例，自然语言指令可以包括用户希望获取的视觉内容的主题信息。第一调整单元可以包括：第一确定子单元，被配置为基于第一特征向量和用户特征向量之间的相似度，确定损失值；调整子单元，被配置为基于损失值，调整深度学习网络模型，以得到目标深度学习网络模型；以及第一获取子单元，被配置为利用目标深度学习网络模型获取第二视觉内容。

根据一些实施例，预训练的深度学习网络模型可以包括第一编码子模型和第一生成子模型，第一编码子模型可以被配置为基于自然语言指令，生成对应的中间特征，第一生成子模型可以被配置为基于中间特征，生成第一视觉内容。调整子单元可以被进一步配置为基于损失值，调整第一生成子模型。

根据一些实施例，第一获取单元可以包括：第二获取子单元，被配置为基于知识图谱和/或用户的用户简档，对自然语言指令进行语义扩展，以获得经扩展的指令；以及，第三获取子单元，被配置为基于经扩展的指令，利用预训练的深度学习网络模型获取第一视觉内容。

根据一些实施例，语义扩展可以包括语义理解、改写、泛化或智能联想中的至少一个。

根据一些实施例，自然语言指令可以包括文本指令或语音指令中的至少一个。

根据一些实施例，用户特征向量包括用户的文本风格向量。

根据一些实施例，用户的偏好可以包括能够表征用户的创作风格的文本内容。第二获取单元可以包括：第四获取子单元，被配置为基于文本内容，获取第一用户特征子向量；以及第五获取子单元，被配置为基于第一用户特征子向量，获取文本风格向量。

根据一些实施例，用户的偏好可以包括用户的自然语言指令的历史记录。第二获取单元可以包括：第六获取子单元，被配置为基于历史记录，获取第二用户特征子向量；以及第七获取子单元，被配置为基于第二用户特征子向量，获取文本风格向量。

根据一些实施例，用户的偏好可以包括用户浏览过的视觉内容集中的相应视觉内容的标签信息。第二获取单元可以包括：第八获取子单元，被配置为基于标签信息，获取第三用户特征子向量；以及第九获取子单元，被配置为基于第三用户特征子向量，获取文本风格向量。

根据一些实施例，用户特征向量还可以包括用户的视觉风格向量。

根据一些实施例，用户的偏好可以包括用户浏览过的视觉内容集。第二获取单元可以包括：第十获取子单元，被配置为基于视觉内容集，获取第四用户特征子向量；以及第十一获取子单元，被配置为基于第四用户特征子向量，获取视觉风格向量。

根据一些实施例，第一确定子单元可以包括：第二确定子单元，被配置为基于第一特征向量和文本风格向量，确定第一损失值；第三确定子单元，被配置为基于第一特征向量和视觉风格向量，确定第二损失值；以及第四确定子单元，被配置为基于第一损失值和第二损失值，确定损失值。

根据一些实施例，预训练的深度学习网络模型可以包括第二编码子模型。文本风格向量可以是利用第一编码子模型获取的。第一特征向量、第二特征向量、以及视觉风格向量可以是利用第二编码子模型获取的。预训练的深度学习网络模型可以是通过以下方式训练得到的：获取第一样本文本、第一样本视觉内容、以及第一样本文本和第一样本视觉内容之间的真实相似度；将第一样本文本输入第一编码子模型，以得到对应的第一样本文本特征向量；将第一样本视觉内容输入第二编码子模型，以得到对应的第一样本视觉内容特征向量；基于第一样本文本特征向量和第一样本视觉内容特征向量，确定第一样本文本和第一样本视觉内容之间的预测相似度；以及基于真实相似度和预测相似度，同时训练第一编码子模型和第二编码子模型。

根据一些实施例，第一编码子模型为预训练的统一模态网络模型。

根据一些实施例，如图6所示，视觉内容生成装置600还可以包括：第二调整单元650，被配置为响应于用户的编辑指令，调整第二视觉内容以获取第三视觉内容。可以理解的是，装置600中的单元610-单元640的操作和装置500中的单元510-单元540的操作类似，在此不作赘述。

根据一些实施例，如图6所示，装置600还可以包括：第三获取单元660，被配置为响应于获取到相应的视觉内容，利用预训练的深度学习网络模型获取用于向用户反馈的关于相应的视觉内容的解释性文本。

根据一些实施例，预训练的深度学习网络模型还可以包括第二生成子模型，被配置为基于中间特征，生成解释性文本。

根据一些实施例，如图6所示，视觉内容生成装置600还可以包括：第四获取单元670，被配置为响应于用户的询问指令，利用预训练的深度学习网络模型基于以下多项获取用于向用户反馈的解释性文本和/或视觉内容：利用预训练的深度学习网络模型获取的至少一个视觉内容；获取的至少一个交互信息，至少一个交互信息至少包括解释性文本和自然语言指令；以及询问指令。

根据一些实施例，询问指令可以与第二视觉内容和/或第三视觉内容相关。至少一个视觉内容可以包括第二视觉内容和/或第三视觉内容，解释性文本可以包括关于第二视觉内容和/或第三视觉内容的解释性文本。

根据一些实施例，预训练的深度学习网络模型可以是通过以下方式训练得到的：获取内容一致的第二样本文本和第二样本视觉内容；将第二样本文本输入预训练的深度学习网络模型，以得到生成的第四视觉内容；以及基于第二样本视觉内容和第四视觉内容，调整预训练的深度学习网络模型中的第一生成子模型的参数。

根据一些实施例，预训练的深度学习网络模型还可以包括第三编码子模型和第四编码子模型。第三编码子模型可以被配置为对至少一个视觉内容进行序列编码，以得到对应的视觉内容序列特征向量。第四编码子模型可以被配置为对至少一个交互信息进行序列编码，以得到对应的交互信息序列特征向量。第一编码子模型被配置为基于询问指令、视觉内容序列特征向量、以及交互信息序列特征向量中的至少一项，生成对应的中间特征。

根据一些实施例，预训练的深度学习网络模型可以包括下列网络模型组中的一者：生成对抗网络；变分自编码器；基于序列生成的模型；基于流的生成模型；扩散模型；和融合模型。

根据一些实施例，视觉内容可以包括图像和/或视频。

根据本公开的另一方面，提供了一种视觉内容创作系统。该系统包括：指令获取单元，被配置为获取用户的自然语言指令；以及交互式创作核心模块，包括上述装置500或装置600。

根据一些实施例，该系统还可以包括：跨模态生成大模型，其中，跨模态生成大模型为预训练的深度学习网络模型，并且其中，交互式创作核心模块被配置为利用跨模态生成大模型获取视觉内容。

根据一些实施例，该系统还可以包括：交互式创作辅助模块，包括：素材搜索单元，被配置为响应于用户的搜索指令，利用跨模态检索大模型从数据库获取与搜索指令所包括的查询文本的相似度最高的一个或多个视觉内容；以及跨模态检索大模型，包括：文本编码器，被配置为基于查询文本生成对应的查询文本特征向量；视觉编码器，被配置为基于数据库中的候选视觉内容生成对应的候选视觉特征向量；以及相似度计算单元，被配置为基于查询文本特征向量和候选视觉特征向量，确定查询文本和候选视觉内容之间的相似度。

根据一些实施例，交互式创作辅助模块还可以包括：推荐流单元，被配置为基于用户的用户简档，确定视觉内容推送条目，其中，视觉内容推送条目包括其他用户生成的视觉内容；以及素材分享与协同编辑单元，被配置为将用户利用交互式创作核心模块生成的视觉内容和对应的自然语言指令发送至其他用户，以供其他用户对该视觉内容进行处理。

根据一些实施例，该系统还可以包括：区块链保护模块，被配置为响应于用户的区块链保护指令，将交互式创作核心模块生成的视觉内容接入区块链。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如视觉内容生成方法。例如，在一些实施例中，视觉内容生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的视觉内容生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行视觉内容生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种视觉内容生成方法，其特征在于，所述方法包括：

基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容；

确定用于表征所述第一视觉内容的第一特征向量；

获取用于表征所述用户的偏好的用户特征向量；以及

基于所述第一特征向量和所述用户特征向量，调整所述深度学习网络模型以获取与所述自然语言指令对应的第二视觉内容，其中，用于表征所述第二视觉内容的第二特征向量与所述用户特征向量之间的相似度大于所述第一特征向量与所述用户特征向量之间的相似度。

2.根据权利要求1所述的方法，其特征在于，所述自然语言指令包括所述用户预获取的视觉内容的主题信息，其中，基于所述第一特征向量和所述用户特征向量，调整所述预训练的深度学习网络模型以获取第二视觉内容，包括：

基于所述第一特征向量和所述用户特征向量之间的相似度，确定损失值；

基于所述损失值，调整所述预训练的深度学习网络模型，以得到目标深度学习网络模型；以及

利用所述目标深度学习网络模型获取所述第二视觉内容。

3.根据权利要求2所述的方法，其特征在于，所述预训练的深度学习网络模型包括第一编码子模型和第一生成子模型，所述第一编码子模型被配置为基于所述自然语言指令，生成对应的中间特征，所述第一生成子模型被配置为基于所述中间特征，生成所述第一视觉内容，其中，基于所述损失值，调整所述预训练的深度学习网络模型，包括：

基于所述损失值，调整所述第一生成子模型。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容，包括：

基于知识图谱和/或所述用户的用户简档，对所述自然语言指令进行语义扩展，以获得经扩展的指令；以及，

基于所述经扩展的指令，利用所述预训练的深度学习网络模型获取所述第一视觉内容。

5.根据权利要求4所述的方法，其特征在于，所述语义扩展包括语义理解、改写、泛化或智能联想中的至少一个。

6.根据权利要求4所述的方法，其特征在于，所述自然语言指令包括文本指令或语音指令中的至少一个。

7.根据权利要求3所述的方法，其特征在于，所述用户特征向量包括所述用户的文本风格向量。

8.根据权利要求7所述的方法，其特征在于，所述用户的偏好包括能够表征所述用户的创作风格的文本内容，并且其中，获取用于表征所述用户的偏好的用户特征向量，包括：

基于所述文本内容，获取第一用户特征子向量；以及

基于所述第一用户特征子向量，获取所述文本风格向量。

9. 根据权利要求7所述的方法，其特征在于，所述用户的偏好包括所述用户的自然语言指令的历史记录，并且其中，获取用于表征所述用户的偏好的用户特征向量，包括：

基于所述历史记录，获取第二用户特征子向量；以及

基于所述第二用户特征子向量，获取所述文本风格向量。

10. 根据权利要求7所述的方法，其特征在于，所述用户的偏好包括所述用户浏览过的视觉内容集中的相应视觉内容的标签信息，并且其中，获取用于表征所述用户的偏好的用户特征向量，包括：

基于所述标签信息，获取第三用户特征子向量；以及

基于所述第三用户特征子向量，获取所述文本风格向量。

11.根据权利要求7所述的方法，其特征在于，所述用户特征向量还包括所述用户的视觉风格向量。

12. 根据权利要求11所述的方法，其特征在于，所述用户的偏好包括所述用户浏览过的视觉内容集，并且其中，获取用于表征所述用户的偏好的用户特征向量，包括：

基于所述视觉内容集，获取第四用户特征子向量；以及

基于所述第四用户特征子向量，获取所述视觉风格向量。

13.根据权利要求11所述的方法，其特征在于，基于所述第一特征向量和所述用户特征向量，确定损失值，包括：

基于所述第一特征向量和所述文本风格向量，确定第一损失值；

基于所述第一特征向量和所述视觉风格向量，确定第二损失值；以及

基于所述第一损失值和所述第二损失值，确定所述损失值。

14.根据权利要求11所述的方法，其特征在于，所述预训练的深度学习网络模型包括第二编码子模型，其中，所述文本风格向量是利用所述第一编码子模型获取的，其中，所述第一特征向量、所述第二特征向量、以及所述视觉风格向量是利用所述第二编码子模型获取的，

其中，所述预训练的深度学习网络模型是通过以下方式训练得到的：

获取第一样本文本、第一样本视觉内容、以及所述第一样本文本和所述第一样本视觉内容之间的真实相似度；

将所述第一样本文本输入所述第一编码子模型，以得到对应的第一样本文本特征向量；

将所述第一样本视觉内容输入所述第二编码子模型，以得到对应的第一样本视觉内容特征向量；

基于所述第一样本文本特征向量和所述第一样本视觉内容特征向量，确定所述第一样本文本和所述第一样本视觉内容之间的预测相似度；以及

基于所述真实相似度和所述预测相似度，同时训练所述第一编码子模型和所述第二编码子模型。

15.根据权利要求3所述的方法，其特征在于，所述第一编码子模型为预训练的统一模态网络模型。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

响应于所述用户的编辑指令，调整所述第二视觉内容以获取第三视觉内容。

17.根据权利要求16所述的方法，其特征在于，所述方法还包括：

响应于获取到相应的视觉内容，利用所述预训练的深度学习网络模型获取用于向所述用户反馈的关于所述相应的视觉内容的解释性文本。

18.根据权利要求17所述的方法，其特征在于，所述预训练的深度学习网络模型还包括第二生成子模型，被配置为基于所述中间特征，生成所述解释性文本。

19.根据权利要求18所述的方法，其特征在于，所述方法还包括：

响应于所述用户的询问指令，利用所述预训练的深度学习网络模型基于以下至少一项获取用于向所述用户反馈的解释性文本和/或视觉内容：

利用所述预训练的深度学习网络模型获取的至少一个视觉内容；

获取的至少一个交互信息，所述至少一个交互信息至少包括所述解释性文本和所述自然语言指令；以及

所述询问指令。

20.根据权利要求19所述的方法，其特征在于，所述询问指令与所述第二视觉内容和/或所述第三视觉内容相关，其中，所述至少一个视觉内容包括所述第二视觉内容和/或所述第三视觉内容，所述解释性文本包括关于所述第二视觉内容和/或所述第三视觉内容的解释性文本。

21.根据权利要求15所述的方法，其特征在于，所述预训练的深度学习网络模型是通过以下方式训练得到的：

获取内容一致的第二样本文本和第二样本视觉内容；

将所述第二样本文本输入所述预训练的深度学习网络模型，以得到生成的第四视觉内容；以及

基于所述第二样本视觉内容和所述第四视觉内容，调整所述预训练的深度学习网络模型中的所述第一生成子模型的参数，其中，所述第一编码子模型的参数被冻结。

22.根据权利要求19所述的方法，其特征在于，所述预训练的深度学习网络模型还包括第三编码子模型和第四编码子模型，所述第三编码子模型被配置为对所述至少一个视觉内容进行序列编码，以得到对应的视觉内容序列特征向量，所述第四编码子模型被配置为对所述至少一个交互信息进行序列编码，以得到对应的交互信息序列特征向量，其中，所述第一编码子模型被配置为基于所述询问指令、所述视觉内容序列特征向量、以及所述交互信息序列特征向量中的至少一项，生成对应的中间特征。

23.根据权利要求22所述的方法，其特征在于，所述预训练的深度学习网络模型是通过以下方式训练得到的：

获取样本交互信息序列、样本视觉内容序列、样本询问指令、以及对应的真实解释性文本；

将所述样本交互信息序列、所述样本视觉内容序列、以及所述样本询问指令输入所述预训练的深度学习网络模型，以得到预测解释性文本，包括：

将所述样本交互信息序列输入所述第三编码子模型；

将所述样本视觉内容序列输入所述第四编码子模型；

将所述样本询问指令输入所述第一编码子模型；以及

获取所述第二生成子模型生成的所述预测解释性文本；以及

基于所述真实解释性文本和所述预测解释性文本，调整所述预训练的深度学习网络模型的参数。

24.根据权利要求1至3中任一项所述的方法，其特征在于，所述预训练的深度学习网络模型包括下列网络模型组中的一者：

生成对抗网络；

变分自编码器；

基于序列生成的模型；

基于流的生成模型；

扩散模型；或

融合模型。

25.根据权利要求1至3中任一项所述的方法，其特征在于，所述视觉内容包括图像和/或视频。

26.一种视觉内容创作方法，其特征在于，包括：

获取用户的自然语言指令；以及

响应于所述用户的自然语言指令，利用根据权利要求1-25中任一项所述的方法生成视觉内容。

27.根据权利要求26所述的方法，其特征在于，所述视觉内容是利用跨模态生成大模型生成的，所述跨模态生成大模型为预训练的深度学习网络模型。

28.根据权利要求26或27所述的方法，其特征在于，所述方法还包括：

响应于所述用户的搜索指令，利用跨模态检索大模型从数据库获取与所述搜索指令所包括的查询文本的相似度最高的一个或多个视觉内容，

其中，所述跨模态检索大模型包括：

文本编码器，被配置为基于所述查询文本生成对应的查询文本特征向量；

视觉编码器，被配置为基于所述数据库中的候选视觉内容生成对应的候选视觉特征向量；以及

相似度计算单元，被配置为基于所述查询文本特征向量和所述候选视觉特征向量，确定所述查询文本和所述候选视觉内容之间的相似度。

29. 根据权利要求28所述的方法，其特征在于，所述方法还包括：

基于所述用户的用户简档，确定视觉内容推送条目；以及

将所述视觉内容和所述自然语言指令发送至其他用户，以供其他用户对该视觉内容进行处理。

30.根据权利要求26或27所述的方法，其特征在于，所述方法还包括：

响应于所述用户的区块链保护指令，将生成的视觉内容接入区块链。

31.一种视觉内容生成装置，其特征在于，所述装置包括：

第一获取单元，被配置为基于用户的自然语言指令，利用预训练的深度学习网络模型获取第一视觉内容；

确定单元，被配置为确定用于表征所述第一视觉内容的第一特征向量；

第二获取单元，被配置为获取用于表征所述用户的偏好的用户特征向量；以及

第一调整单元，被配置为基于所述第一特征向量和所述用户特征向量，调整所述深度学习网络模型以获取与所述自然语言指令对应的第二视觉内容，其中，用于表征所述第二视觉内容的第二特征向量与所述用户特征向量之间的相似度大于所述第一特征向量与所述用户特征向量之间的相似度。

32.根据权利要求31所述的装置，其特征在于，所述自然语言指令包括所述用户希望获取的视觉内容的主题信息，其中，所述第一调整单元包括：

第一确定子单元，被配置为基于所述第一特征向量和所述用户特征向量之间的相似度，确定损失值；

调整子单元，被配置为基于所述损失值，调整所述预训练的深度学习网络模型，以得到目标深度学习网络模型；以及

第一获取子单元，被配置为利用所述目标深度学习网络模型获取所述第二视觉内容。

33.根据权利要求32所述的装置，其特征在于，所述预训练的深度学习网络模型包括第一编码子模型和第一生成子模型，所述第一编码子模型被配置为基于所述自然语言指令，生成对应的中间特征，所述第一生成子模型被配置为基于所述中间特征，生成所述第一视觉内容，其中，所述调整子单元被进一步配置为基于所述损失值，调整所述第一生成子模型。

34.根据权利要求31至33中任一项所述的装置，其特征在于，所述第一获取单元包括：

第二获取子单元，被配置为基于知识图谱和/或所述用户的用户简档，对所述自然语言指令进行语义扩展，以获得经扩展的指令；以及，

第三获取子单元，被配置为基于所述经扩展的指令，利用所述预训练的深度学习网络模型获取所述第一视觉内容。

35.根据权利要求34所述的装置，其特征在于，所述语义扩展包括语义理解、改写、泛化或智能联想中的至少一个。

36.根据权利要求34所述的装置，其特征在于，所述自然语言指令包括文本指令或语音指令中的至少一个。

37.根据权利要求33所述的装置，其特征在于，所述用户特征向量包括所述用户的文本风格向量。

38.根据权利要求37所述的装置，其特征在于，所述用户的偏好包括能够表征所述用户的创作风格的文本内容，并且其中，所述第二获取单元包括：

第四获取子单元，被配置为基于所述文本内容，获取第一用户特征子向量；以及

第五获取子单元，被配置为基于所述第一用户特征子向量，获取所述文本风格向量。

39. 根据权利要求37所述的装置，其特征在于，所述用户的偏好包括所述用户的自然语言指令的历史记录，并且其中，所述第二获取单元包括：

第六获取子单元，被配置为基于所述历史记录，获取第二用户特征子向量；以及

第七获取子单元，被配置为基于所述第二用户特征子向量，获取所述文本风格向量。

40. 根据权利要求37所述的装置，其特征在于，所述用户的偏好包括所述用户浏览过的视觉内容集中的相应视觉内容的标签信息，并且其中，所述第二获取单元包括：

第八获取子单元，被配置为基于所述标签信息，获取第三用户特征子向量；以及

第九获取子单元，被配置为基于所述第三用户特征子向量，获取所述文本风格向量。

41.根据权利要求37所述的装置，其特征在于，所述用户特征向量还包括所述用户的视觉风格向量。

42.根据权利要求41所述的装置，其特征在于，所述用户的偏好包括所述用户浏览过的视觉内容集，并且其中，所述第二获取单元包括：

第十获取子单元，被配置为基于所述视觉内容集，获取第四用户特征子向量；以及

第十一获取子单元，被配置为基于所述第四用户特征子向量，获取所述视觉风格向量。

43.根据权利要求41所述的装置，其特征在于，所述第一确定子单元包括：

第二确定子单元，被配置为基于所述第一特征向量和所述文本风格向量，确定第一损失值；

第三确定子单元，被配置为基于所述第一特征向量和所述视觉风格向量，确定第二损失值；以及

第四确定子单元，被配置为基于所述第一损失值和所述第二损失值，确定所述损失值。

44.根据权利要求41所述的装置，其特征在于，所述预训练的深度学习网络模型包括第二编码子模型，其中，所述文本风格向量是利用所述第一编码子模型获取的，其中，所述第一特征向量、所述第二特征向量、以及所述视觉风格向量是利用所述第二编码子模型获取的，

45.根据权利要求33所述的装置，其特征在于，所述第一编码子模型为预训练的统一模态网络模型。

46.根据权利要求45所述的装置，其特征在于，所述装置还包括：

第二调整单元，被配置为响应于所述用户的编辑指令，调整所述第二视觉内容以获取第三视觉内容。

47.根据权利要求46所述的装置，其特征在于，所述装置还包括：

第三获取单元，被配置为响应于获取到相应的视觉内容，利用所述预训练的深度学习网络模型获取用于向所述用户反馈的关于所述相应的视觉内容的解释性文本。

48.根据权利要求47所述的装置，其特征在于，所述预训练的深度学习网络模型还包括第二生成子模型，被配置为基于所述中间特征，生成所述解释性文本。

49.根据权利要求48所述的装置，其特征在于，所述装置还包括：

第四获取单元，被配置为响应于所述用户的询问指令，利用所述预训练的深度学习网络模型基于以下至少一项获取用于向所述用户反馈的解释性文本和/或视觉内容：

所述询问指令。

50.根据权利要求49所述的装置，其特征在于，所述询问指令与所述第二视觉内容和/或所述第三视觉内容相关，其中，所述至少一个视觉内容包括所述第二视觉内容和/或所述第三视觉内容，所述解释性文本包括关于所述第二视觉内容和/或所述第三视觉内容的解释性文本。

51.根据权利要求45所述的装置，其特征在于，所述预训练的深度学习网络模型是通过以下方式训练得到的：

获取内容一致的第二样本文本和第二样本视觉内容；

52.根据权利要求49所述的装置，其特征在于，所述预训练的深度学习网络模型还包括第三编码子模型和第四编码子模型，所述第三编码子模型被配置为对所述至少一个视觉内容进行序列编码，以得到对应的视觉内容序列特征向量，所述第四编码子模型被配置为对所述至少一个交互信息进行序列编码，以得到对应的交互信息序列特征向量，其中，所述第一编码子模型被配置为基于所述询问指令、所述视觉内容序列特征向量、以及所述交互信息序列特征向量中的至少一项，生成对应的中间特征。

53.根据权利要求52所述的装置，其特征在于，所述预训练的深度学习网络模型是通过以下方式训练得到的：

将所述样本交互信息序列输入所述第三编码子模型；

将所述样本视觉内容序列输入所述第四编码子模型；

将所述样本询问指令输入所述第一编码子模型；以及

获取所述第二生成子模型生成的所述预测解释性文本；以及

54.根据权利要求31至33中任一项所述的装置，其特征在于，所述预训练的深度学习网络模型包括下列网络模型组中的一者：

生成对抗网络；

变分自编码器；

基于序列生成的模型；

基于流的生成模型；

扩散模型；或

融合模型。

55.根据权利要求31至33中任一项所述的装置，其特征在于，所述视觉内容包括图像和/或视频。

56. 一种视觉内容创作系统，其特征在于，所述系统包括：

指令获取单元，被配置为获取用户的自然语言指令；以及

交互式创作核心模块，包括根据权利要求31-55中任一项所述的装置。

57.根据权利要求56所述的系统，其特征在于，所述系统还包括：

跨模态生成大模型，其中，所述跨模态生成大模型为预训练的深度学习网络模型，并且其中，所述交互式创作核心模块被配置为利用所述跨模态生成大模型获取视觉内容。

58.根据权利要求56或57所述的系统，其特征在于，所述系统还包括：

交互式创作辅助模块，包括：

素材搜索单元，被配置为响应于所述用户的搜索指令，利用跨模态检索大模型从数据库获取与所述搜索指令所包括的查询文本的相似度最高的一个或多个视觉内容；以及

所述跨模态检索大模型，包括：

59. 根据权利要求58所述的系统，其特征在于，所述交互式创作辅助模块还包括：

推荐流单元，被配置为基于所述用户的用户简档，确定视觉内容推送条目；以及

素材分享与协同编辑单元，被配置为将所述交互式创作核心模块基于所述自然语言指令生成的视觉内容和所述自然语言指令发送至其他用户，以供其他用户该视觉内容进行处理。

60.根据权利要求56或57所述的系统，其特征在于，所述系统还包括：

区块链保护模块，被配置为响应于所述用户的区块链保护指令，将所述交互式创作核心模块生成的视觉内容接入区块链。

61. 一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-30中任一项所述的方法。

62.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-30中任一项所述的方法。