CN120448564B

CN120448564B - 多媒体资源的生成方法、装置、电子设备及存储介质

Info

Publication number: CN120448564B
Application number: CN202510941836.XA
Authority: CN
Inventors: 王骥超; 施侃乐; 张迪; 盖坤
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2025-07-09
Filing date: 2025-07-09
Publication date: 2025-10-31
Anticipated expiration: 2045-07-09
Also published as: CN120448564A

Abstract

本公开提供了一种多媒体资源的生成方法、装置、电子设备及存储介质，属于多媒体技术领域。方法包括：获取输入的参考图像和文本提示词；通过图像处理模型对参考图像进行图像识别，得到参考图像的图像描述信息和主体形态信息，图像描述信息包括参考图像中至少一个主体对象的类别，主体形态信息用于指示至少一个主体对象在参考图像中的位置；基于图像描述信息、主体形态信息、参考图像以及文本提示词，生成多媒体资源，多媒体资源包括至少一个主体对象和特效，且多媒体资源中特效的位置与至少一个主体对象的位置不同。上述方法能够避免生成的特效遮挡参考图像中的主体对象等关键内容，提高了多媒体资源的质量。

Description

多媒体资源的生成方法、装置、电子设备及存储介质

技术领域

本公开涉及多媒体技术领域，特别涉及一种多媒体资源的生成方法、装置、电子设备及存储介质。

背景技术

随着多媒体技术的不断发展，文本到图像（Text-to-Image）生成技术和图像到图像（Image -to-Image）生成技术已成为人们惯用的图像生成方法，如何生成高质量的图像是本领域所研究的重点。

相关技术中，通常采用的方式是：向图像生成模型中输入用户提供的参考图像和文本提示词，通过图像生成模型在参考图像中添加文本提示词所指示的特效，以生成新的图像。

但是，上述技术方案中仅仅是在参考图像中直接添加特效，未考虑参考图像中的具体内容，导致生成的图像中特效会遮挡参考图像的关键内容，导致生成的图像的质量依旧较低。比如参考图像是“人坐在椅子上”，提示词是“生长出鲜花”，而生成的图像中鲜花位于人的面部，且遮挡住人像，形成人像变成一朵花的效果，令人不适。

发明内容

本公开提供一种多媒体资源的生成方法、装置、电子设备及存储介质，能够避免生成的特效遮挡参考图像中的主体对象等关键内容，提高了多媒体资源的质量。本公开的技术方案如下。

根据本公开实施例的一方面，提供一种多媒体资源的生成方法，包括：

获取输入的参考图像和文本提示词，所述参考图像用于为多媒体资源的生成提供主体对象，所述文本提示词用于指示所述多媒体资源中所要生成的特效；

通过图像处理模型对所述参考图像进行图像识别，得到所述参考图像的图像描述信息和主体形态信息，所述图像描述信息包括所述参考图像中至少一个主体对象的类别，所述主体形态信息用于指示所述至少一个主体对象在所述参考图像中的位置；

基于所述图像描述信息、所述主体形态信息、所述参考图像以及所述文本提示词，生成所述多媒体资源，所述多媒体资源包括所述至少一个主体对象和所述特效，且所述多媒体资源中所述特效的位置与所述至少一个主体对象的位置不同，所述多媒体资源为图像或者视频。

根据本公开实施例的另一方面，提供一种多媒体资源的生成装置，包括：

第一获取单元，被配置为执行获取输入的参考图像和文本提示词，所述参考图像用于为多媒体资源的生成提供主体对象，所述文本提示词用于指示所述多媒体资源中所要生成的特效；

识别单元，被配置为执行通过图像处理模型对所述参考图像进行图像识别，得到所述参考图像的图像描述信息和主体形态信息，所述图像描述信息包括所述参考图像中至少一个主体对象的类别，所述主体形态信息用于指示所述至少一个主体对象在所述参考图像中的位置；

生成单元，被配置为执行基于所述图像描述信息、所述主体形态信息、所述参考图像以及所述文本提示词，生成所述多媒体资源，所述多媒体资源包括所述至少一个主体对象和所述特效，且所述多媒体资源中所述特效的位置与所述至少一个主体对象的位置不同，所述多媒体资源为图像或者视频。

在一些实施例中，所述生成单元，包括：

第一生成子单元，被配置为执行基于所述图像描述信息、所述主体形态信息以及所述文本提示词，生成资源描述信息，所述资源描述信息用于指示所述特效与所述至少一个主体对象之间所要满足的位置关系；

第二生成子单元，被配置为执行基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源。

在一些实施例中，所述第一生成子单元，被配置为执行通过文本融合模型，对所述图像描述信息、所述主体形态信息以及所述文本提示词进行处理，得到所述资源描述信息；

所述第二生成子单元，被配置为执行基于资源生成模型，对所述资源描述信息、所述参考图像以及所述主体形态信息进行处理，得到所述多媒体资源。

在一些实施例中，所述装置还包括：

第二获取单元，被配置为执行获取资源提示信息，所述资源提示信息用于指示所述多媒体资源所要满足的条件；

所述第一生成子单元，被配置为执行基于文本融合模型，对所述图像描述信息、所述主体形态信息、所述文本提示词以及所述资源提示信息进行处理，得到所述资源描述信息。

在一些实施例中，所述第二获取单元，被配置为执行下述任一项：

基于所述参考图像和所述文本提示词，确定所述资源提示信息；

基于所述多媒体资源的风格，确定所述资源提示信息；

响应于提示应用指令，获取所述提示应用指令对应的已输入的所述资源提示信息。

在一些实施例中，所述第二获取单元，被配置为执行基于所述参考图像中所述至少一个主体对象的类别和所述文本提示词所指示的特效的类别，确定所述资源提示信息。

在一些实施例中，所述装置还包括：

输出单元，被配置为执行输出所述资源描述信息；

所述第二生成子单元，被配置为执行响应于所述资源描述信息的应用指令，基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源。

在一些实施例中，所述资源描述信息有多项，不同资源描述信息中所述特效与所述至少一个主体对象之间位置关系不同；

所述输出单元，被配置为执行输出多项资源描述信息；

所述第二生成子单元，被配置为执行响应于所述多项资源描述信息中任一项资源描述信息的应用指令，基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源。

根据本公开实施例的另一方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述多媒体资源的生成方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述多媒体资源的生成方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述多媒体资源的生成方法。

本公开实施例提供的方案，在基于参考图像和文本提示词生成多媒体资源的过程中，会先对参考图像进行图像识别，确定参考图像的图像描述信息和主体形态信息，然后，通过图像描述信息所指示的主体对象的类别、主体形态信息所指示的主体对象在参考图像中的位置、参考图像以及文本提示词，来生成多媒体资源，能够在生成多媒体资源的过程中避开主体对象所在的位置，将文本提示词所指的特效生成在主体对象之外的其他位置，避免了生成的特效遮挡参考图像中的主体对象等关键内容，能够提高生成的多媒体资源的质量；并且，用户无需自身输入用于指示特效位置的描述文本，只需提供简单的文本提示词来指示特效即可，就能够生成高质量的多媒体资源，操作简单，利于提高多媒体资源的生成效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多媒体资源的生成方法的实施环境示意图。

图2是根据一示例性实施例示出的一种多媒体资源的生成方法的流程图。

图3是根据一示例性实施例示出的另一种多媒体资源的生成方法的流程图。

图4是根据一示例性实施例示出的生成多媒体资源的框架图。

图5是根据一示例性实施例示出的一种多媒体资源的生成装置的框图。

图6是根据一示例性实施例示出的一种终端的框图。

图7是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开中涉及到的参考图像和文本提示词都是在充分授权的情况下获取的。

图1是根据一示例性实施例示出的一种多媒体资源的生成方法的实施环境示意图。以电子设备被提供为服务器为例，参见图1，该实施环境具体包括：终端101和服务器102。

终端101为智能手机、智能手表、台式电脑、手提电脑、MP3播放器、MP4播放器和膝上型便携计算机等设备中的至少一种。终端101上运行有支持多媒体资源生成的应用程序。该应用程序可以是剪辑类应用程序、多媒体类应用程序或者AI（ArtificialIntelligence，人工智能）助手应用程序等，本公开实施例对此不加以限定。用户能够通过终端101登录该应用程序来获取该应用程序提供的服务。用户能够在该应用程序中上传参考图像和文本提示词，利用该应用程序中提供的服务生成与该参考图像和文本提示词相匹配的多媒体资源。该多媒体资源可以是图像或者视频，本公开实施例对此不加以限定。其中，终端101能够通过无线网络或有线网络与服务器102相连，进而能够将参考图像和文本提示词发送给服务器102，由服务器102来生成多媒体资源。

终端101泛指多个终端中的一个，本实施例以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。

服务器102为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102能够通过无线网络或有线网络与终端101和其他终端相连，服务器102能够接收终端101发送的参考图像和文本提示词，对参考图像和文本提示词进行处理，生成与该参考图像和文本提示词相匹配的多媒体资源，然后将该多媒体资源发送给终端101，由终端101将生成的多媒体资源展示给用户观看。在一些实施例中，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还包括其他功能服务器，以便提供更全面且多样化的服务。

图2是根据一示例性实施例示出的一种多媒体资源的生成方法的流程图，参见图2，该多媒体资源的生成方法应用于服务器中，包括以下步骤。

在步骤201中，服务器获取输入的参考图像和文本提示词，参考图像用于为多媒体资源的生成提供主体对象，文本提示词用于指示多媒体资源中所要生成的特效。

在本公开实施例中，参考图像和文本提示词均由用户输入。参考图像中包括至少一个主体对象。主体对象可以是人物、动物、植物或者任一物体（比如建筑、桌子）等，本公开实施例对此不加以限定。文本提示词能够反映后续用户所需的特效，比如文本提示词是“开花”，后续生成的多媒体资源相比于参考图像而言，会出现盛开的鲜花。简而言之，参考图像和文本提示词用于指示用户所需的多媒体资源的样式，本公开实施例对参考图像的样式和文本提示词的具体内容均不加以限定。服务器接收终端发送的参考图像和文本提示词。

在步骤202中，服务器通过图像处理模型对参考图像进行图像识别，得到参考图像的图像描述信息和主体形态信息，图像描述信息包括参考图像中至少一个主体对象的类别，主体形态信息用于指示至少一个主体对象在参考图像中的位置。

在本公开实施例中，服务器中部署有图像处理模型，本公开实施例对图像处理模型的架构不加以限定。图像处理模型用于识别图像内容。在接收到参考图像之后，服务器将参考图像输入到图像处理模型，通过图像处理模型对参考图像进行识别，得到参考图像的图像描述信息和主体形态信息。

其中，图像描述信息用于描述参考图像的画面内容。图像描述信息中包括参考图像中各个主体对象的类别。主体对象的类别可以包括人、猫、狗、树、花、建筑等多种，本公开实施例对此不加以限定。主体形态信息用于描述各个主体对象在参考图像中的位置。主体形态信息可以是主体对象的掩码图像，也可以是形态描述文本（比如“对象1位于参考图像中的左侧”）等，本公开实施例对主体形态信息的形式不加以限定。

在步骤203中，服务器基于图像描述信息、主体形态信息、参考图像以及文本提示词，生成多媒体资源，多媒体资源包括至少一个主体对象和特效，且多媒体资源中特效的位置与至少一个主体对象的位置不同，多媒体资源为图像或者视频。

在本公开实施例中，服务器对图像描述信息、主体形态信息、参考图像以及文本提示词进行处理，得到多媒体资源。该多媒体资源可以是图像或者视频。多媒体资源中的主体对象为参考图像中的主体对象。多媒体资源中的特效为文本提示词所指示的特效。在多媒体资源中特效所占的区域与主体对象所占的区域不重叠。也即是，多媒体资源中的特效不会遮挡主体对象的显示。

本公开实施例提供了一种多媒体资源的生成方法，在基于参考图像和文本提示词生成多媒体资源的过程中，会先对参考图像进行图像识别，确定参考图像的图像描述信息和主体形态信息，然后，通过图像描述信息所指示的主体对象的类别、主体形态信息所指示的主体对象在参考图像中的位置、参考图像以及文本提示词，来生成多媒体资源，能够在生成多媒体资源的过程中避开主体对象所在的位置，将文本提示词所指的特效生成在主体对象之外的其他位置，避免了生成的特效遮挡参考图像中的主体对象等关键内容，能够提高生成的多媒体资源的质量；并且，用户无需自身输入用于指示特效位置的描述文本，只需提供简单的文本提示词来指示特效即可，就能够生成高质量的多媒体资源，操作简单，利于提高多媒体资源的生成效率。

在一些实施例中，基于图像描述信息、主体形态信息、参考图像以及文本提示词，生成多媒体资源，包括：

基于图像描述信息、主体形态信息以及文本提示词，生成资源描述信息，资源描述信息用于指示特效与至少一个主体对象之间所要满足的位置关系；

基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。

本公开实施例提供的方案，先对图像描述信息、主体形态信息以及文本提示词进行综合分析，来生成资源描述信息，以确定后续生成的多媒体资源中特效与主体对象之间的位置关系，然后再根据资源描述信息参考图像以及主体形态信息来生成多媒体资源，能够在生成多媒体资源的过程中避开主体对象所在的位置，将文本提示词所指的特效生成在主体对象之外的其他位置，避免了生成的特效遮挡参考图像中的主体对象等关键内容，能够提高生成的多媒体资源的质量。

在一些实施例中，基于图像描述信息、主体形态信息以及文本提示词，生成资源描述信息，包括：

通过文本融合模型，对图像描述信息、主体形态信息以及文本提示词进行处理，得到资源描述信息；

基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源，包括：

基于资源生成模型，对资源描述信息、参考图像以及主体形态信息进行处理，得到多媒体资源。

本公开实施例提供的方案，通过文本融合模型对图像描述信息、主体形态信息以及文本提示词进行分析和处理，来生成资源描述信息，保障了资源描述信息的准确性，即资源描述信息所指示的主体对象与特效之间在显示位置方面的合理性，然后，通过资源生成模型对资源描述信息、参考图像以及主体形态信息进行分析和处理，能够在生成多媒体资源的过程中避开主体对象所在的位置，将文本提示词所指的特效生成在主体对象之外的其他位置，避免了生成的特效遮挡参考图像中的主体对象等关键内容，能够提高生成的多媒体资源的质量；并且，本方案中的参考图像的内容识别、资源描述信息的整合以及多媒体资源的生成都采用各自的模型来进行处理，利于保障各个模型输出的准确性，从而保障最终生成的多媒体资源的质量。

在一些实施例中，方法还包括：

获取资源提示信息，资源提示信息用于指示多媒体资源所要满足的条件；

通过文本融合模型，对图像描述信息、主体形态信息以及文本提示词进行处理，得到资源描述信息，包括：

基于文本融合模型，对图像描述信息、主体形态信息、文本提示词以及资源提示信息进行处理，得到资源描述信息。

本公开实施例提供的方案，在生成多媒体资源之前，除了图像描述信息、主体形态信息以及文本提示词之外，还会额外获取资源提示信息，以便提示后续生成的多媒体资源所要满足的条件，能够保障资源描述信息的准确性，即资源描述信息能够准确描述多媒体资源的样式，从而利于提高多媒体资源的质量，满足用户的资源需求。

在一些实施例中，获取资源提示信息，包括下述任一项：

基于参考图像和文本提示词，确定资源提示信息；

基于多媒体资源的风格，确定资源提示信息；

响应于提示应用指令，获取提示应用指令对应的已输入的资源提示信息。

本公开实施例提供的方案，可以根据参考图像和文本提示词来确定资源提示信息，使得资源提示信息与参考图像和文本提示词相匹配，由于参考图像和文本提示词是用户主动输入的信息，能够在一定程度上反映用户对多媒体资源的需求，该方法不仅能够保障资源提示信息符合用户的资源需求，还能够保障多媒体资源所展示的画面内容符合主体对象和特效的特性，即能够保障多媒体资源中的画面更加自然、合理，利于提高多媒体资源的质量。

或者，还可以根据多媒体资源的风格确定资源提示信息，使得资源提示信息与多媒体资源的风格相匹配，即能够保障后续生成的多媒体资源的画面内容符合指定的风格，利于提高多媒体资源的质量和准确性。

或者，资源提示信息也可以由用户主动输入，利于保障后续生成的多媒体资源符合用户的资源需求，能够提高多媒体资源的质量和准确性。

在一些实施例中，基于参考图像和文本提示词，确定资源提示信息，包括：

基于参考图像中至少一个主体对象的类别和文本提示词所指示的特效的类别，确定资源提示信息。

本公开实施例提供的方案，能够根据参考图像中主体对象的类别和文本提示词所指示的特效的类别，确定资源提示信息，使得资源提示信息与主体对象和特效相匹配，由于参考图像和文本提示词是用户主动输入的信息，能够在一定程度上反映用户对多媒体资源的需求，该方法不仅能够保障资源提示信息符合用户的资源需求，还能够保障多媒体资源所展示的画面内容符合主体对象的类别和特效的类别等特性，即能够保障多媒体资源中的画面更加自然、合理，利于提高多媒体资源的质量。

在一些实施例中，方法还包括：

输出资源描述信息；

响应于资源描述信息的应用指令，基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。

本公开实施例提供的方案，在生成多媒体资源之前，能够向用户输出资源描述信息，以便能够在一定程度上预先让用户获知后续生成的多媒体资源的画面内容，在确认用户应用该资源描述信息的情况下，再基于资源描述信息生成多媒体资源，保障了多媒体资源符合用户的资源需求，能够提高多媒体资源的准确性和质量。

在一些实施例中，资源描述信息有多项，不同资源描述信息中特效与至少一个主体对象之间位置关系不同；

输出资源描述信息，包括：

输出多项资源描述信息；

响应于资源描述信息的应用指令，基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源，包括：

响应于多项资源描述信息中任一项资源描述信息的应用指令，基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。

本公开实施例提供的方案，在生成多媒体资源之前，能够一次性向用户输出多项资源描述信息，以便用户能够自身需求选择一项资源描述信息来生成多媒体资源，不仅能够保障多媒体资源符合用户的资源需求，提高多媒体资源的准确性和质量，而且提高了用户对多媒体资源生成的可操控性，从而利于提高本方案的使用率。

上述图2所示仅为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的另一种多媒体资源的生成方法的流程图。以电子设备被提供为服务器为例，参见图3，该方法包括以下步骤。

在步骤301中，服务器获取输入的参考图像和文本提示词，参考图像用于为多媒体资源的生成提供主体对象，文本提示词用于指示多媒体资源中所要生成的特效。

在本公开实施例中，在生成多媒体资源之前，用户能够在终端输入用于生成多媒体资源的参考图像和文本提示词。然后，终端向服务器发送资源生成指令。资源生成指令中包括参考图像、文本提示词以及所要生成的多媒体资源的类型（视频或者图像）。服务器能够从资源生成指令中确定参考图像和文本提示词。在后续生成多媒体资源的过程中，服务器基于参考图像中的主体对象和文本提示词所指示的特效，来生成多媒体资源。

在步骤302中，服务器通过图像处理模型对参考图像进行图像识别，得到参考图像的图像描述信息和主体形态信息，图像描述信息包括参考图像中至少一个主体对象的类别，主体形态信息用于指示至少一个主体对象在参考图像中的位置。

在本公开实施例中，在获取到参考图像之后，服务器向图像处理模型输入参考图像，通过图像处理模型对参考图像进行处理，以识别参考图像的图像描述信息和主体形态信息。该图像处理模型可以是任一架构的大语言模型，也可以是其他支持图像识别的中、小架构模型等，本公开实施例对此不加以限定。

其中，图像描述信息可以包括参考图像中各个主体对象的类别、行为以及状态（比如装饰）以及场景等画面内容，本公开实施例对此不加以限定。主体形态信息可以是参考图像中主体对象的掩码图像（mask），也可以是形态描述文本等，本公开实施例对此不加以限定。参考图像的每个主体对象均可以对应有一个掩码图像，或者参考图像中所有主体对象的位置均位于同一个掩码图像中，本公开实施例对此不加以限定。

例如，图4是根据一示例性实施例示出的生成多媒体资源的框架图。参见图4，服务器将用户输入的参考图像输入到图像处理模型，通过图像处理模型对参考图像进行识别，输出参考图像的图像描述信息和主体形态信息。

在步骤303中，服务器基于图像描述信息、主体形态信息以及文本提示词，生成资源描述信息，资源描述信息用于指示特效与至少一个主体对象之间所要满足的位置关系。

在本公开实施例中，服务器对图像描述信息、主体形态信息以及文本提示词进行融合，得到资源描述信息，以确定后续生成的多媒体资源中特效与主体对象之间的位置关系。也即是，服务器能够将图像描述信息、主体形态信息以及文本提示词整合成一段资源描述更加详细的信息，来指示后续多媒体资源的生成。

例如，图像描述信息包括人（主体类别）、小孩（主体对象）、戴发卡（主体状态）；主体形态信息包括小孩的位置、发卡的位置；文本提示词是开花；则服务器生成的资源描述信息可以是“小孩的头上的发卡两端长出几朵真实的小花，符合童年小孩饰品的风格，小孩周围的地面上（主体对象所在范围之外）长出很多高大的鲜花，铺满整个地面”。

其中，服务器能够根据图像描述信息中主体对象的特征、主体形态信息中主体对象的位置以及文本提示词所指示的特效的特征，生成资源描述信息。该资源描述信息所指示的位置关系符合主体对象与特效的特征，利于后续生成自然、合理的多媒体资源。

在一些实施例中，资源描述信息可以由模型生成。相应地，服务器通过文本融合模型，对图像描述信息、主体形态信息以及文本提示词进行处理，得到资源描述信息。文本融合模型可以是任一架构的大语言模型，也可以是其他支持图像识别的中、小架构模型等，本公开实施例对此不加以限定。本公开实施例提供的方案，通过文本融合模型对图像描述信息、主体形态信息以及文本提示词进行分析和处理，来生成资源描述信息，保障了资源描述信息的准确性，即资源描述信息所指示的主体对象与特效之间在显示位置方面的合理性。

例如，继续参见图4，对于图像处理模型输出的图像描述信息和主体形态信息，服务器将图像描述信息和主体形态信息以及用户输入的文本提示词，一并输入到文本融合模型中，通过文本融合模型来进行处理，输出资源描述信息。

在一些实施例中，服务器还能够获取资源提示信息。资源提示信息用于指示多媒体资源所要满足的条件。在通过模型生成资源描述信息的过程中，服务器基于文本融合模型，对图像描述信息、主体形态信息、文本提示词以及资源提示信息进行处理，得到资源描述信息。其中，资源提示信息可以用于是指导资源描述信息中文字撰写的侧重点。比如，资源提示信息是“重点关注人物和输入词的结合点，比如装扮配饰上，不要把尝试改变人的五官长相”。由此可见，多媒体资源的要求是照搬参考图像中的主体对象，不能改变主体对象的面貌。本公开实施例对资源提示信息的具体内容不加以限定。

例如，继续参见图4，文本融合模型的输入包括图像描述信息、主体形态信息、文本提示词以及资源提示信息；文本融合模型的输出是资源描述信息。

本公开实施例对上述资源提示信息的获取方式不加以限定。下面示例性地介绍三种获取方式，但绝不限于此。

第一种方式，服务器基于参考图像和文本提示词，确定资源提示信息。本公开实施例提供的方案，可以根据参考图像和文本提示词来确定资源提示信息，使得资源提示信息与参考图像和文本提示词相匹配，由于参考图像和文本提示词是用户主动输入的信息，能够在一定程度上反映用户对多媒体资源的需求，该方法不仅能够保障资源提示信息符合用户的资源需求，还能够保障多媒体资源所展示的画面内容符合主体对象和特效的特性，即能够保障多媒体资源中的画面更加自然、合理，利于提高多媒体资源的质量。

其中，服务器可以根据参考图像的画面内容、风格、主体对象的类别、主体对象的状态、场景（或背景）中的至少一项以及文本提示词所指示的特效，来确定资源提示信息，本公开实施例对此不加以限定。

可选地，服务器基于参考图像中至少一个主体对象的类别和文本提示词所指示的特效的类别，确定资源提示信息。本公开实施例提供的方案，能够根据参考图像中主体对象的类别和文本提示词所指示的特效的类别，确定资源提示信息，使得资源提示信息与主体对象和特效相匹配，由于参考图像和文本提示词是用户主动输入的信息，能够在一定程度上反映用户对多媒体资源的需求，该方法不仅能够保障资源提示信息符合用户的资源需求，还能够保障多媒体资源所展示的画面内容符合主体对象的类别和特效的类别等特性，即能够保障多媒体资源中的画面更加自然、合理，利于提高多媒体资源的质量。

第二种方式，服务器基于多媒体资源的风格，确定资源提示信息。该多媒体资源的风格可以由用户指定，也可以根据用户提供的参考图像和文本提示词中的至少一项来确定，本公开实施例对此不加以限定。本公开实施例提供的方案，还可以根据多媒体资源的风格确定资源提示信息，使得资源提示信息与多媒体资源的风格相匹配，即能够保障后续生成的多媒体资源的画面内容符合指定的风格，利于提高多媒体资源的质量和准确性。

第三种方式，服务器响应于提示应用指令，获取提示应用指令对应的已输入的资源提示信息。其中，本方案除了为用户提供参考图像的上传入口和文本提示的上传入口之外，还能够向用户提供资源提示信息的上传入口，以便用户可以在输入参考图像和文本提示词的同时，主动输入资源提示信息。然后，在用户确认使用资源提示信息的情况下，服务器获取资源提示信息来指示后续多媒体资源的生成。本公开实施例提供的方案，资源提示信息也可以由用户主动输入，利于保障后续生成的多媒体资源符合用户的资源需求，能够提高多媒体资源的质量和准确性。

上述资源提示信息可以是实时生成的，也可以是从预先设置好的多个候选提示信息中选择得到的，比如，服务器基于参考图像和文本提示词，从多个候选提示信息中确定资源提示信息，本公开实施例对此不加以限定。

在步骤304中，服务器基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。

在本公开实施例中，服务器先对图像描述信息、主体形态信息以及文本提示词进行综合分析，来生成资源描述信息，以确定后续生成的多媒体资源中特效与主体对象之间的位关系，然后再根据资源描述信息参考图像以及主体形态信息来生成多媒体资源，能够在生成多媒体资源的过程中避开主体对象所在的位置，将文本提示词所指的特效生成在主体对象之外的其他位置，避免了生成的特效遮挡参考图像中的主体对象等关键内容，能够提高生成的多媒体资源的质量。

例如，继续参见图4，服务器将图像处理模型输出的主体形态信息、文本融合模型输出的资源描述信息以及用户提供的参考图像，输入到资源生成模型，通过资源生成模型进行处理，输出多媒体资源。

在一些实施例中，多媒体资源可以由模型生成。相应地，服务器基于资源生成模型，对资源描述信息、参考图像以及主体形态信息进行处理，得到多媒体资源。该资源生成模型可以是任一架构的大语言模型，也可以是其他支持图像识别的中、小架构模型等，本公开实施例对此不加以限定。本公开实施例提供的方案，通过资源生成模型对资源描述信息、参考图像以及主体形态信息进行分析和处理，能够在生成多媒体资源的过程中避开主体对象所在的位置，将文本提示词所指的特效生成在主体对象之外的其他位置，避免了生成的特效遮挡参考图像中的主体对象等关键内容，能够提高生成的多媒体资源的质量；并且，本方案中的参考图像的内容识别、资源描述信息的整合以及多媒体资源的生成都采用各自的模型来进行处理，利于保障各个模型输出的准确性，从而保障最终生成的多媒体资源的质量。

在一些实施例中，服务器输出资源描述信息。也即是，服务器向终端发送资源描述信息。然后，响应于资源描述信息的应用指令，服务器基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。本公开实施例提供的方案，在生成多媒体资源之前，能够一次性向用户输出多项资源描述信息，以便用户能够自身需求选择一项资源描述信息来生成多媒体资源，不仅能够保障多媒体资源符合用户的资源需求，提高多媒体资源的准确性和质量，而且提高了用户对多媒体资源生成的可操控性，从而利于提高本方案的使用率。

其中，资源描述信息可以有多项，不同资源描述信息中特效与至少一个主体对象之间位置关系不同。相应地，服务器输出多项资源描述信息。然后，响应于多项资源描述信息中任一项资源描述信息的应用指令，服务器基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。本公开实施例提供的方案，在生成多媒体资源之前，能够一次性向用户输出多项资源描述信息，以便用户能够自身需求选择一项资源描述信息来生成多媒体资源，不仅能够保障多媒体资源符合用户的资源需求，提高多媒体资源的准确性和质量，而且提高了用户对多媒体资源生成的可操控性，从而利于提高本方案的使用率。

或者，服务器还可以先基于多项资源描述信息，分别生成对应的多媒体资源，并将生成的多个多媒体资源发送至终端，以供用户选择。

在用户输入多个参考图像的情况下，服务器可以对每个参考图像以及对应的文本提示词，采用上述方法生成对应的多媒体资源，实现多媒体资源的批量生成。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图5是根据一示例性实施例示出的一种多媒体资源的生成装置的框图。参见图5，该装置包括：第一获取单元501、识别单元502以及生成单元503。

第一获取单元501，被配置为执行获取输入的参考图像和文本提示词，参考图像用于为多媒体资源的生成提供主体对象，文本提示词用于指示多媒体资源中所要生成的特效；

识别单元502，被配置为执行通过图像处理模型对参考图像进行图像识别，得到参考图像的图像描述信息和主体形态信息，图像描述信息包括参考图像中至少一个主体对象的类别，主体形态信息用于指示至少一个主体对象在参考图像中的位置；

生成单元503，被配置为执行基于图像描述信息、主体形态信息、参考图像以及文本提示词，生成多媒体资源，多媒体资源包括至少一个主体对象和特效，且多媒体资源中特效的位置与至少一个主体对象的位置不同，多媒体资源为图像或者视频。

在一些实施例中，生成单元503，包括：

第一生成子单元，被配置为执行基于图像描述信息、主体形态信息以及文本提示词，生成资源描述信息，资源描述信息用于指示特效与至少一个主体对象之间所要满足的位置关系；

第二生成子单元，被配置为执行基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。

在一些实施例中，第一生成子单元，被配置为执行通过文本融合模型，对图像描述信息、主体形态信息以及文本提示词进行处理，得到资源描述信息；

第二生成子单元，被配置为执行基于资源生成模型，对资源描述信息、参考图像以及主体形态信息进行处理，得到多媒体资源。

在一些实施例中，装置还包括：

第二获取单元，被配置为执行获取资源提示信息，资源提示信息用于指示多媒体资源所要满足的条件；

第一生成子单元，被配置为执行基于文本融合模型，对图像描述信息、主体形态信息、文本提示词以及资源提示信息进行处理，得到资源描述信息。

在一些实施例中，第二获取单元，被配置为执行下述任一项：

基于参考图像和文本提示词，确定资源提示信息；

基于多媒体资源的风格，确定资源提示信息；

在一些实施例中，第二获取单元，被配置为执行基于参考图像中至少一个主体对象的类别和文本提示词所指示的特效的类别，确定资源提示信息。

在一些实施例中，装置还包括：

输出单元，被配置为执行输出资源描述信息；

第二生成子单元，被配置为执行响应于资源描述信息的应用指令，基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。

输出单元，被配置为执行输出多项资源描述信息；

第二生成子单元，被配置为执行响应于多项资源描述信息中任一项资源描述信息的应用指令，基于资源描述信息、参考图像以及主体形态信息，生成多媒体资源。

本公开实施例提供了一种多媒体资源的生成装置，在基于参考图像和文本提示词生成多媒体资源的过程中，会先对参考图像进行图像识别，确定参考图像的图像描述信息和主体形态信息，然后，通过图像描述信息所指示的主体对象的类别、主体形态信息所指示的主体对象在参考图像中的位置、参考图像以及文本提示词，来生成多媒体资源，能够在生成多媒体资源的过程中避开主体对象所在的位置，将文本提示词所指的特效生成在主体对象之外的其他位置，避免了生成的特效遮挡参考图像中的主体对象等关键内容，能够提高生成的多媒体资源的质量；并且，用户无需自身输入用于指示特效位置的描述文本，只需提供简单的文本提示词来指示特效即可，就能够生成高质量的多媒体资源，操作简单，利于提高多媒体资源的生成效率。

需要说明的是，上述实施例提供的多媒体资源的生成装置在生成多媒体资源时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将电子设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体资源的生成装置与多媒体资源的生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

电子设备被提供为终端时，图6是根据一示例性实施例示出的一种终端600的框图。该终端图6示出了本公开一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器601所执行以实现本申请中方法实施例提供的多媒体资源的生成方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607和电源608中的至少一种。

外围设备接口603可被用于将I/O（Input/Output，输入/输出）相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路604还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏605用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-Emitting Diode，有机发光二极管）等材质制备。

摄像头组件606用于采集图像或视频。在一些实施例中，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

电源608用于为终端600中的各个组件进行供电。电源608可以是交流电、直流电、一次性电池或可充电电池。当电源608包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

电子设备被提供为服务器时，图7是根据一示例性实施例示出的一种服务器700的框图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central Processing Units，CPU）701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条程序代码，该至少一条程序代码由该处理器701加载并执行以实现上述各个方法实施例提供的多媒体资源的生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器602或者存储器702，上述指令可由终端600的处理器601或者服务器700的处理器701执行以完成上述多媒体资源的生成方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述多媒体资源的生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体资源的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多媒体资源的生成方法，其特征在于，所述基于所述图像描述信息、所述主体形态信息、所述参考图像以及所述文本提示词，生成所述多媒体资源，包括：

基于所述图像描述信息、所述主体形态信息以及所述文本提示词，生成资源描述信息，所述资源描述信息用于指示所述特效与所述至少一个主体对象之间所要满足的位置关系；

基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源。

3.根据权利要求2所述的多媒体资源的生成方法，其特征在于，所述基于所述图像描述信息、所述主体形态信息以及所述文本提示词，生成资源描述信息，包括：

通过文本融合模型，对所述图像描述信息、所述主体形态信息以及所述文本提示词进行处理，得到所述资源描述信息；

所述基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源，包括：

基于资源生成模型，对所述资源描述信息、所述参考图像以及所述主体形态信息进行处理，得到所述多媒体资源。

4.根据权利要求3所述的多媒体资源的生成方法，其特征在于，所述方法还包括：

获取资源提示信息，所述资源提示信息用于指示所述多媒体资源所要满足的条件；

所述通过文本融合模型，对所述图像描述信息、所述主体形态信息以及所述文本提示词进行处理，得到所述资源描述信息，包括：

基于文本融合模型，对所述图像描述信息、所述主体形态信息、所述文本提示词以及所述资源提示信息进行处理，得到所述资源描述信息。

5.根据权利要求4所述的多媒体资源的生成方法，其特征在于，所述获取资源提示信息，包括下述任一项：

基于所述多媒体资源的风格，确定所述资源提示信息；

6.根据权利要求5所述的多媒体资源的生成方法，其特征在于，所述基于所述参考图像和所述文本提示词，确定所述资源提示信息，包括：

基于所述参考图像中所述至少一个主体对象的类别和所述文本提示词所指示的特效的类别，确定所述资源提示信息。

7.根据权利要求2所述的多媒体资源的生成方法，其特征在于，所述方法还包括：

输出所述资源描述信息；

响应于所述资源描述信息的应用指令，基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源。

8.根据权利要求7所述的多媒体资源的生成方法，其特征在于，所述资源描述信息有多项，不同资源描述信息中所述特效与所述至少一个主体对象之间位置关系不同；

所述输出所述资源描述信息，包括：

输出多项资源描述信息；

所述响应于所述资源描述信息的应用指令，基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源，包括：

响应于所述多项资源描述信息中任一项资源描述信息的应用指令，基于所述资源描述信息、所述参考图像以及所述主体形态信息，生成所述多媒体资源。

9.一种多媒体资源的生成装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至8任一项所述的多媒体资源的生成方法。

11.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8任一项所述的多媒体资源的生成方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的多媒体资源的生成方法。