CN117789680A

CN117789680A - 基于大模型的多媒体资源的生成方法、装置及存储介质

Info

Publication number: CN117789680A
Application number: CN202410200353.XA
Authority: CN
Inventors: 邓邱伟; 田云龙; 郭义合; 尹飞; 王睿; 牛丽
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2024-02-23
Filing date: 2024-02-23
Publication date: 2024-03-29
Anticipated expiration: 2044-02-23
Also published as: CN117789680B

Abstract

本申请公开了一种基于大模型的多媒体资源的生成方法、装置及存储介质，涉及语音处理技术领域，该方法包括：对目标对象的输入数据进行解析，得到至少包括文本提示信息和多媒体提示信息的提示信息；将基于文本提示信息生成的文本提示模板输入至大模型，得到大模型输出的多媒体描述信息，对多媒体提示信息进行编码，得到多媒体提示信息的编码信号，将编码信号量化为多媒体特征向量；将多媒体描述信息对应的信息特征向量和多媒体特征向量发送至特征融合模型，得到特征融合模型输出的融合向量；对融合向量进行解码，以生成融合向量对应的多媒体资源，解决了如何使用大模型生成更符合用户需求的多媒体资源的技术问题，生成更符合用户需求的多媒体资源。

Description

基于大模型的多媒体资源的生成方法、装置及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种基于大模型的多媒体资源的生成方法、装置及存储介质。

背景技术

目前，随着AI（Artificial Intelligence，人工智能）技术的不断发展，已经可以基于AI自动生成音视频等多媒体资源，不过传统的生成方式往往依赖于使用者的专业知识的储备量。以音频为例，传统的音频生成模型解码方式简单，不能充分的提取音频特征，处理复杂序列时会出现生成不稳定的问题，也就是说，这些模型可能只能识别简单的音乐参数指令，而无法准确理解用户的模糊描述。那么缺乏专业的乐理知识的用户在使用这些模型来生成音频时，通常会由于无法提供专业的描述，使得音乐生成模型无法理解用户需求，只能生成低质量的音乐。

可见，相关技术中，传统的多媒体资源生成模型在理解用户复杂需求方面仍有较大的限制。因此，相关技术中，存在如何使用大模型生成更符合用户需求的多媒体资源的技术问题。

针对相关技术中，如何使用大模型生成更符合用户需求的多媒体资源的技术问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于大模型的多媒体资源的生成方法、装置及存储介质，以至少解决相关技术中，如何使用大模型生成更符合用户需求的多媒体资源的技术问题。

根据本申请实施例的一个实施例，提供了一种基于大模型的多媒体资源的生成方法，包括：对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

在一个示例性实施例中，在将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息之前，所述方法还包括：确定出初始文本提示模板，其中，所述初始文本提示模板至少包括提示语区域，上下文信息区域；基于所述目标对象的所在位置，所述目标对象的对象类型和所述目标对象的偏好信息生成所述文本提示信息对应的环境上下文信息；将所述文本提示信息输入至所述提示语区域，以及将所述环境上下文信息输入至所述上下文信息区域，以生成所述文本提示模板。

在一个示例性实施例中，所述方法还包括：根据语言类型对获取到的训练数据进行分类，得到多组第一训练样本，其中，每一组第一训练样本对应一种语言类型；以所述每一组第一训练样本包含的提示样本为输入，以所述每一组第一训练样本包含的多媒体描述样本为输出，对初始模型进行训练，得到训练后的第一中间模型，将所述第一中间模型确定为所述大模型；或者，根据预设描述维度对获取到的训练数据进行分类，得到多组第二训练样本，其中，每一组第二训练样本对应一种描述维度，所述预设描述维度至少包括以下之一：多媒体资源类型，多媒体资源所反映的情绪，多媒体资源所对应的作品类型，多媒体资源所对应的播放工具；以所述每一组第二训练样本包含的提示样本为输入，以所述每一组第二训练样本包含的多媒体描述样本为输出对初始模型进行训练，得到训练后的第二中间模型，将所述第二中间模型确定为所述大模型。

在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：使用特征向量损失函数对所述信息特征向量和所述多媒体特征向量进行计算，得到特征向量损失值；其中，所述特征向量损失函数表示如下：

，

N表示样本数量，P(i)表示与第i个样本匹配的正样本集合，N(i)表示与第i个样本匹配的负样本集合，所述正样本集合表示属于同一描述维度的所述信息特征向量和所述多媒体特征向量，所述负样本集合表示属于不同描述维度的所述信息特征向量和所述多媒体特征向量，表示第i个信息特征向量，/>表示第p个多媒体特征向量，/>表示第n个多媒体特征向量，/>和/>为权重参数，/>表示第i个样本对应的动态温度参数，用于控制相似度函数的缩放程度，/>表示/>的范数，/>表示/>的范数，/>表示/>的范数，i，p，n，N为正整数；基于所述特征向量损失值将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，根据矢量量化操作将所述编码信号量化为多媒体特征向量，包括：使用残差矢量量化操作将所述编码信号分解为残差向量序列；对所述残差向量序列包含的残差向量进行量化处理，得到处理结果；其中，所述处理结果包含多层残差向量，第一层残差向量包含的代码本的个数在所述多层残差向量包含的代码本的个数中占据的比例高于预设比例；基于所述多层残差向量确定出所述多媒体特征向量。

在一个示例性实施例中，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量之前，所述方法还包括：将所述多媒体特征向量按照多层残差向量包含的代码本的个数进行分组，得到多组特征向量，其中，所述多组特征向量用于存储不同特征信息；其中，所述多层残差向量是在对所述编码信号进行矢量量化操作时所生成的；将每一组特征向量分别输入至自回归模型，得到所述自回归模型输出的所述每一组特征向量对应的子特征向量，以得到多组子特征向量，其中，所述每一组特征向量对应的子特征向量对应一种特征颗粒度；按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量。

在一个示例性实施例中，按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量，包括：对所述多层残差向量包含的代码本的序列编号进行排序，得到排序结果，其中，所述排序结果至少包括所述多组子特征向量的融合顺序；根据所述融合顺序将所述多组子特征向量进行顺次拼接，得到所述融合后的多媒体特征向量。

在一个示例性实施例中，针对所述每一组特征向量，通过以下公式确定出所述自回归模型输出的所述每一组特征向量对应的子特征向量：，其中，/>表示所述自回归模型，/>表示所述每一组特征向量对应的子特征向量，/>表示所述每一组特征向量，/>表示所有先于时间步t的输出，t为自然数，/>表示所述自回归模型的模型参数。

在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：为所述多媒体特征向量生成基于差分隐私的高斯噪声，其中，所述高斯噪声对应有噪声特征向量；在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度相同的情况下，对所述噪声特征向量和所述多媒体特征向量进行逐位向量相加，得到相加后的多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述相加后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，在为所述多媒体特征向量生成基于差分隐私的高斯噪声之后，所述方法还包括：在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述噪声特征向量进行线性转换，得到线性转换后的噪声特征向量，其中，所述线性转换后的噪声特征向量的向量维度与所述第二向量维度相同；对所述线性转换后的噪声特征向量和所述多媒体特征向量进行向量拼接，得到向量拼接后的第一多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述向量拼接后的第一多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，在为所述多媒体特征向量生成基于差分隐私的高斯噪声之后，所述方法还包括：在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述多媒体特征向量进行线性转换，得到线性转换后的第一多媒体特征向量，其中，所述线性转换后的第一多媒体特征向量的向量维度与所述第一向量维度相同；对所述噪声特征向量和所述线性转换后的第一多媒体特征向量进行向量拼接，得到向量拼接后的第二多媒体特征向量；对所述向量拼接后的第二多媒体特征向量进行线性转换，得到线性转换后的第二多媒体特征向量，其中，所述线性转换后的第二多媒体特征向量的向量维度与所述第二向量维度相同；将所述多媒体描述信息对应的信息特征向量和所述线性转换后的第二多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：解析所述多媒体描述信息，得到所述多媒体描述信息的描述词元；使用预设对应关系确定出所述描述词元对应的多媒体词元，其中，所述预设对应关系为预先训练的所述描述词元与所述多媒体词元之间的对应关系；将所述多媒体词元输入至音频解码器，得到所述音频解码器生成的模拟音频，其中，所述音频解码器存储有所述多媒体词元对应的音频信号；对所述模拟音频进行量化编码，得到所述模拟音频对应的模拟音频特征向量，其中，所述模拟音频特征向量的向量维度与所述多媒体特征向量对应的第二向量维度相同；将所述模拟音频特征向量与所述多媒体特征向量进行向量融合，得到向量融合后的多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述向量融合后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：向所述目标对象播放所述模拟音频，并接收所述目标对象基于所述模拟音频发送的情感描述信息；将基于所述情感描述信息生成的其他提示模板输入至所述大模型，得到所述大模型输出的其他多媒体描述信息；对所述多媒体描述信息对应的信息特征向量和所述其他多媒体描述信息对应的信息特征向量进行向量融合，得到目标信息特征向量；将所述目标信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的过程中，通过以下方式确定所述特征融合模型输出的融合向量：对所述多媒体特征向量进行分解，得到分解结果，其中，所述分解结果至少包括所述多媒体特征向量对应的第一向量矩阵；对所述信息特征向量进行不同投影变换，分别得到所述信息特征向量对应的第二向量矩阵和第三向量矩阵/>；分别获取对所述第一向量矩阵进行权重更新后得到的第四向量矩阵/>，对所述第二向量矩阵进行权重更新后得到的第五向量矩阵/>，以及对所述第三向量矩阵进行权重更新后得到的第六向量矩阵/>，其中，，/>，/>，/>表示权重矩阵，k为自然数；基于所述第四向量矩阵/>和所述第五向量矩阵/>计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值/>；获取对所述矩阵分值/>的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量。

在一个示例性实施例中，基于所述第四向量矩阵和所述第五向量矩阵/>计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值/>，包括：获取所述第五向量矩阵/>的转置矩阵/>，并根据所述转置矩阵/>和所述第四向量矩阵/>之间的乘积确定出所述矩阵分值/>；所述方法还包括：通过以下公式使用调节函数对所述矩阵分值/>进行特征调整，得到特征调整后的矩阵分值/>：；其中，/>表示调节函数，表示用于对所述信息特征向量进行调整的关键词特征向量。

在一个示例性实施例中，获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量，包括：通过以下公式使用预设词向量维度对所述特征调整后的矩阵分值/>进行归一化，得到所述归一化结果，其中，所述预设词向量维度的向量维度与所述信息特征向量的向量维度相同：，其中，/>为所述归一化结果，/>表示归一化函数，/>表示预设词向量维度；计算所述归一化结果对应的矩阵加权结果/>，并将多个矩阵加权结果进行合并，得到所述合并结果；其中，/>，/>表示第h个矩阵加权结果，h为正整数，/>，表示所述多个矩阵加权结果，H为正整数，/>为用于进行矩阵变换的参数。

在一个示例性实施例中，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量之后，所述方法还包括：将所述融合向量输入至A层自注意力机制模型，根据所述A层自注意力机制模型的输出结果生成所述多媒体资源；其中，所述A层自注意力机制模型的输出结果表示如下：，/>表示所有先于时间步t的输出，/>表示所述A层自注意力机制模型，θ表示所述A层自注意力机制模型的模型参数。

在一个示例性实施例中，根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源，包括：获取根据矢量量化操作将所述编码信号量化为多媒体特征向量时所使用的编解码代码本；根据所述编解码代码本所提供的向量与向量索引之间的对应关系确定出所述融合向量对应的目标向量索引；对所述目标向量索引所指示的多媒体信息进行重构，生成所述多媒体资源。

根据本申请实施例的另一方面，还提供了一种基于大模型的多媒体资源的生成装置，包括：数据解析模块，用于对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；信号量化模块，用于将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；向量得到模块，用于将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；资源生成模块，用于根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于大模型的多媒体资源的生成方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的基于大模型的多媒体资源的生成方法。

根据本申请实施例的又一方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请各个实施例中基于大模型的多媒体资源的生成方法的步骤。

在本申请实施例中，对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源；采用上述技术方案，解决了如何使用大模型生成更符合用户需求的多媒体资源的技术问题，进而可以生成更符合用户需求的多媒体资源，提高用户的使用体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种基于大模型的多媒体资源的生成方法的硬件环境示意图；

图2是根据本申请实施例的基于大模型的多媒体资源的生成方法的流程图；

图3是根据本申请实施例的特征融合模型的原理示意图（一）；

图4是根据本申请实施例的特征融合模型的原理示意图（二）；

图5是根据本申请实施例的自回归模型的原理示意图；

图6是根据本申请实施例的基于大模型的多媒体资源的生成方法的原理示意图；

图7是根据本申请实施例的一种基于大模型的多媒体资源的生成装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种基于大模型的多媒体资源的生成方法。该基于大模型的多媒体资源的生成方法广泛应用于智慧家庭（Smart Home）、智能家居、智能家用设备生态、智慧住宅（Intelligence House）生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述基于大模型的多媒体资源的生成方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务（如应用服务等），可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI（Wireless Fidelity，无线保真），蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

在本实施例中提供了一种基于大模型的多媒体资源的生成方法，应用于上述终端设备，图2是根据本申请实施例的基于大模型的多媒体资源的生成方法的流程图，该流程包括如下步骤：

步骤S202，对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；

步骤S204，将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；

其中，上述大模型可以理解为在大规模语料库上进行预训练的通用自然语言处理模型，例如为预训练大语言模型，或者预训练自然语言模型。这些通用自然语言处理模型一般采用自监督学习或者无监督学习的方法进行训练，例如由openAI研发的GPT（GenerativePre-trained Transformer）系列模型，由国外研发的ELMO（Embedding from LanguageModels），BERT (Bidirectional Encoder Representations from Transformers)， GPT(Generative Pre-trained Transformer)，XLNet，T5 (Text-to-Text TransferTransformer)，RoBERTa， ALBERT， ELECTRA， BART (Bidirectional and Auto-Regressive Transformers)等模型。

步骤S206，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；

其中，特征融合模型表示一种利用多个不同来源或类型的特征来进行预测或分类的机器学习模型。例如基于注意力机制的跨注意力模型，可以处理多个输入特征的融合和注意力分配。这种模型通常包括多个子网络，每个子网络负责处理一个特征，然后将不同特征的表示进行融合和注意力分配。在跨注意力模型中，还可以使用注意力机制来动态地给不同输入特征分配权重。可选的，除了注意力机制外，还可以使用其他方法来对不同特征进行融合，比如简单的加权求和、拼接或者级联等。这些方法都可以用来将不同特征的表示进行融合，以便模型更好地利用多个输入特征。在实际应用中，选择合适的融合方式通常需要根据具体任务和数据情况进行调整和选择。

步骤S208，根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

需要说明的是，上述矢量量化操作是将连续的变量转换为离散的变量的过程，可以用于数据压缩、特征选择和模式识别等领域。矢量量化例如可以包括残差矢量量化（RVQ，Residual Vector Quantization）。残差矢量量化一般是对残差矢量进行压缩（编码）和解压缩（解码）。在编码过程中，残差矢量量化可以将高维残差矢量映射到低维符号集合中。在解码过程中，通过解压缩，可以恢复原始的残差矢量，从而实现数据的恢复和重建。因此通过残差矢量量化可以实现视频编解码、语音编解码等方案。

通过上述步骤，通过对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源，解决了相关技术中，如何使用大模型生成更符合用户需求的多媒体资源的技术问题，进而可以生成更符合用户需求的多媒体资源，提高用户的使用体验。

其中，需要说明的是，对于多媒体资源，可以理解为以不同形式呈现信息的资源，包括音频资源，视频资源，图像视频等。这些资源可以通过不同的媒介进行传播和展示，比如互联网、电视、广播等。多媒体资源能够丰富信息的表达方式，使得信息更具吸引力和生动性，是获取信息、娱乐和交流的重要方式。

在一个示例性实施例中，在执行步骤S204中将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息的技术之前，还包括以下用于生成文本提示模板的步骤：步骤S11，确定出初始文本提示模板，其中，所述初始文本提示模板至少包括提示语区域，上下文信息区域；步骤S12，基于所述目标对象的所在位置，所述目标对象的对象类型和所述目标对象的偏好信息生成所述文本提示信息对应的环境上下文信息；步骤S13，将所述文本提示信息输入至所述提示语区域，以及将所述环境上下文信息输入至所述上下文信息区域，以生成所述文本提示模板。

其中，对于生成所述文本提示模板的过程，可以理解为，在确定初始文本提示模板的提示语区域和上下文信息区域中的信息均为空的情况下，直接将所述文本提示信息输入至所述初始文本提示模板的提示语区域，以及将所述环境上下文信息输入至所述初始文本提示模板的上下文信息区域，将输入信息后的初始文本提示模板确定为文本提示模板，即通过填充初始文本提示模板的提示语区域和上下文信息区域得到文本提示模板。

或者，也可以理解为在确定初始文本提示模板的提示语区域和上下文信息区域中任一区域的信息为空的情况下，通过填充提示语区域和上下文信息区域中信息为空的区域得到文本提示模板。

需要说明的是，初始文本提示模板还可以参考本领域内生成通用提示模板的方法来生成，在初始文本提示模板中，除了提示语区域和上下文信息区域，还可以包括其他辅助信息区域，本申请对初始文本提示模板不作限制。

可选的，在本实施例中，提示语区域例如可以包括用户输入的提示指令，用户输入的多媒体描述语句等。以“messages”为文本提示模板为例，则对于messages ={"messages": [

{"role": "user",

"content":'''你是一名音乐制作人，分析输入，从以下描述维度：'Genre,mood, theme, instrumentation, key, bpm'用英文生成一首五十词以内的音乐描述。请只以{"description":你的描述}这样的json格式输出结果，不要有其它输出。'''

+"输入:"+ chinese_prompt}]}。

其中，chinese_prompt对应的输入区域即为提示语区域，而content对应的输入区域即为上下文信息区域。

在一个示例性实施例中，还提出了其他技术方案，具体步骤包括：步骤S21，根据语言类型对获取到的训练数据进行分类，得到多组第一训练样本，其中，每一组第一训练样本对应一种语言类型；步骤S22，以所述每一组第一训练样本包含的提示样本为输入，以所述每一组第一训练样本包含的多媒体描述样本为输出，对初始模型进行训练，得到训练后的第一中间模型，将所述第一中间模型确定为所述大模型。

或者，在本实施例中，还可以包括：步骤S23，根据预设描述维度对获取到的训练数据进行分类，得到多组第二训练样本，其中，每一组第二训练样本对应一种描述维度，所述预设描述维度至少包括以下之一：多媒体资源类型，多媒体资源所反映的情绪，多媒体资源所对应的作品类型，多媒体资源所对应的播放工具；以所述每一组第二训练样本包含的提示样本为输入，以所述每一组第二训练样本包含的多媒体描述样本为输出对初始模型进行训练，得到训练后的第二中间模型，将所述第二中间模型确定为所述大模型。

其中，以音频资源为多媒体资源为例，则多媒体资源类型例如可以为音乐流派，多媒体资源所反映的情绪例如可以表示快乐，悲伤，多媒体资源所对应的作品类型，例如可以为爱情，自然等音频作品的作品思想，多媒体资源所对应的播放工具例如可以为乐器类型，进一步的，针对不同播放类型，例如可以对应具有音频调性，音频节拍频率等。

可选的，还可以将多组第二训练样本包含的提示样本为输入，以所述多组第二训练样本包含的多媒体描述样本为输出对初始模型进行训练，得到训练后的第二中间模型，则训练后的第二中间模型可以输出含有不同描述维度的数据。

或者，在本实施例中，在执行步骤S22和步骤S23之后，进一步包括：步骤S24，以所述每一组第二训练样本包含的提示样本为输入，以所述每一组第二训练样本包含的多媒体描述样本为输出对所述第一中间模型进行训练，得到训练后的第三中间模型，将所述第三中间模型确定为所述大模型。

在一个示例性实施例中，为了更好的对上述步骤S208中将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的过程进行说明，还可以实现以下过程，具体包括：使用特征向量损失函数对所述信息特征向量和所述多媒体特征向量进行计算，得到特征向量损失值；其中，所述特征向量损失函数表示如下：

，N表示样本数量，P(i)表示与第i个样本匹配的正样本集合，N(i)表示与第i个样本匹配的负样本集合，所述正样本集合表示属于同一描述维度的所述信息特征向量和所述多媒体特征向量，所述负样本集合表示属于不同描述维度的所述信息特征向量和所述多媒体特征向量，表示第i个信息特征向量，/>表示第p个多媒体特征向量，/>表示第n个多媒体特征向量，/>和/>为权重参数，/>表示第i个样本对应的动态温度参数，用于控制相似度函数的缩放程度，/>表示/>的范数，/>表示/>的范数，/>表示/>的范数，i，p，n，N为正整数。基于所述特征向量损失值将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，得到所述特征融合模型输出的融合向量。

对于基于所述特征向量损失值将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型的实现过程，可以理解为使用根据所述特征向量损失值与预设特征向量损失值进行比较的结果确定是否将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型。具体的，在确定所述特征向量损失值小于预设特征向量损失值的情况下，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，得到所述特征融合模型输出的融合向量。在确定所述特征向量损大于或等于预设特征向量损失值的情况下，继续使用特征向量损失函数进行优化计算，更新模型参数以最小化这个特征向量损失值，直至特征向量损失函数计算得到的特征向量损失值小于预设特征向量损失值。

其中，表示对应于正样本的权重参数，/>为表示对应于负样本的权重参数。

在本实施例中，以上相似度函数用于表征信息特征向量和多媒体特征向量之间的相似程度，可以表示为，具体可以使用点积相似度函数或余弦相似度函数。

在以上过程中，可以使用特征向量损失函数衡量多媒体描述信息对应的信息特征向量和多媒体特征向量之间的差异，上述特征向量损失值以量化方式表征差异程度。通过特征向量损失函数不断优化，梯度下降，模型参数会被更新以最小化这个特征向量损失值。在特征向量损失值降低并满足特定的收敛标准或达到某个阈值时，可以认为模型已经学习到了有效的特征表示，即训练完成。

此时将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，特征融合模型输出的融合向量表示已经捕捉了信息特征向量和多媒体特征向量的共同特征和关联信息的向量。

进一步，可以通过最小化损失函数训练得到的预训练模型，使用此预训练模型可以将输入的文本转换为文本向量特征。由于该模型训练时结合了音频特征和对应的文本特征，所以训练完成后通过此预训练模型提取的文本特征可以具有音频特征的信息。

在一个示例性实施例中，对于上述步骤S204中根据矢量量化操作将所述编码信号量化为多媒体特征向量的实现过程，可以包括：步骤S31，使用残差矢量量化操作将所述编码信号分解为残差向量序列；步骤S32，对所述残差向量序列包含的残差向量进行量化处理，得到处理结果；其中，所述处理结果包含多层残差向量，第一层残差向量包含的代码本的个数在所述多层残差向量包含的代码本的个数中占据的比例高于预设比例；步骤S33，基于所述多层残差向量确定出所述多媒体特征向量。

在一个示例性实施例中，在执行上述步骤S206将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量之前，进一步的，还可以将所述多媒体特征向量按照多层残差向量包含的代码本的个数进行分组，得到多组特征向量，其中，所述多组特征向量用于存储不同特征信息；其中，所述多层残差向量是在对所述编码信号进行矢量量化操作时所生成的；将每一组特征向量分别输入至自回归模型，得到所述自回归模型输出的所述每一组特征向量对应的子特征向量，以得到多组子特征向量，其中，所述每一组特征向量对应的子特征向量对应一种特征颗粒度；按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量。

进一步的，可以将所述多媒体描述信息对应的信息特征向量和融合后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

需要说明的是，对于本实施例中多层残差向量的生成过程，可以参考以上实施例中的实现方案，本申请在此不再赘述。

在一个示例性实施例中，对于按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量的实现方案，可以包括：步骤S41，对所述多层残差向量包含的代码本的序列编号进行排序，得到排序结果，其中，所述排序结果至少包括所述多组子特征向量的融合顺序；步骤S42，根据所述融合顺序将所述多组子特征向量进行顺次拼接，得到所述融合后的多媒体特征向量。

其中，需要说明的是，每一个代码本都对应于一组多组子特征向量，通过对代码本排序可以得到每组子特征向量的排序顺序，则可以继而按照代码本序号对多组子特征向量进行顺次拼接，得到所述融合后的多媒体特征向量。

在一个示例性实施例中，针对所述每一组特征向量，还可以通过以下公式确定出所述自回归模型输出的所述每一组特征向量对应的子特征向量：，其中，/>表示所述自回归模型，/>表示所述每一组特征向量对应的子特征向量，/>表示所述每一组特征向量，/>表示所有先于时间步t的输出，t为自然数，/>表示所述自回归模型的模型参数。

在一个示例性实施例中，对于上述步骤S206中将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的技术方案，可以进而包括：步骤S51，为所述多媒体特征向量生成基于差分隐私的高斯噪声，其中，所述高斯噪声对应有噪声特征向量；步骤S52，在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度相同的情况下，对所述噪声特征向量和所述多媒体特征向量进行逐位向量相加，得到相加后的多媒体特征向量；步骤S53，将所述多媒体描述信息对应的信息特征向量和所述相加后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

其中，需要说明的是，对于基于差分隐私的高斯噪声，可以理解为对于每个原始数据点，向其添加一个来自正态分布的随机噪声值。具体来说，对于每个原始数据点x，通过向其添加高斯噪声得到扰动后的数据点x'，x' = x + N(0, σ^2)。其中N(0, σ^2)表示均值为0，方差为σ^2的高斯分布。通过调整σ的取值，可以控制添加的噪声大小，从而平衡隐私保护和数据可用性之间的关系。因此，基于差分隐私的高斯噪声能够在一定程度上保护数据隐私，同时可以通过合适的噪声参数设置来保持数据的统计特性，使得数据分析和挖掘依然具有一定的可用性，进而提高上述向量融合过程的安全性。

在本实施例中，对向量进行逐位向量相加，例如可以表示为针对向量A=[1,2,3]和向量B[2,3,4]，有A+B=[1,2,3]+ [2,3,4]= [3,5,7]。

在一个示例性实施例中，进一步的，在执行步骤S51为所述多媒体特征向量生成基于差分隐私的高斯噪声之后，还可以执行：步骤S54，在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述噪声特征向量进行线性转换，得到线性转换后的噪声特征向量，其中，所述线性转换后的噪声特征向量的向量维度与所述第二向量维度相同；步骤S55，对所述线性转换后的噪声特征向量和所述多媒体特征向量进行向量拼接，得到向量拼接后的第一多媒体特征向量；步骤S56，将所述多媒体描述信息对应的信息特征向量和所述向量拼接后的第一多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在本实施例中，对向量进行向量拼接，例如可以表示为针对向量A=[1,2,3]和向量B[2,3,4]，有对A和B进行拼接得到[1,2,3,2,3,4]。

在一个示例性实施例中，可选的，在执行以上步骤S54-步骤S56的同时或之后，还可以执行：步骤S57，在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述多媒体特征向量进行线性转换，得到线性转换后的第一多媒体特征向量，其中，所述线性转换后的第一多媒体特征向量的向量维度与所述第一向量维度相同；步骤S58，对所述噪声特征向量和所述线性转换后的第一多媒体特征向量进行向量拼接，得到向量拼接后的第二多媒体特征向量；步骤S59，对所述向量拼接后的第二多媒体特征向量进行线性转换，得到线性转换后的第二多媒体特征向量，其中，所述线性转换后的第二多媒体特征向量的向量维度与所述第二向量维度相同；步骤S60，将所述多媒体描述信息对应的信息特征向量和所述线性转换后的第二多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，对于上述步骤S206中将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的过程，可以通过以下步骤进行说明：步骤S71，解析所述多媒体描述信息，得到所述多媒体描述信息的描述词元；步骤S72，使用预设对应关系确定出所述描述词元对应的多媒体词元，其中，所述预设对应关系为预先训练的所述描述词元与所述多媒体词元之间的对应关系；步骤S73，将所述多媒体词元输入至音频解码器，得到所述音频解码器生成的模拟音频，其中，所述音频解码器存储有所述多媒体词元对应的音频信号；步骤S74，对所述模拟音频进行量化编码，得到所述模拟音频对应的模拟音频特征向量，其中，所述模拟音频特征向量的向量维度与所述多媒体特征向量对应的第二向量维度相同；步骤S75，将所述模拟音频特征向量与所述多媒体特征向量进行向量融合，得到向量融合后的多媒体特征向量；步骤S76，将所述多媒体描述信息对应的信息特征向量和所述向量融合后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

其中，对于上述步骤S75将所述模拟音频特征向量与所述多媒体特征向量进行向量融合的过程，可以参考以上实施例，本申请在此不再赘述。

在一个示例性实施例中，基于以上步骤，进一步提出了其他实现将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的技术方案，具体包括：步骤S81，向所述目标对象播放所述模拟音频，并接收所述目标对象基于所述模拟音频发送的情感描述信息；步骤S82，将基于所述情感描述信息生成的其他提示模板输入至所述大模型，得到所述大模型输出的其他多媒体描述信息；步骤S83，对所述多媒体描述信息对应的信息特征向量和所述其他多媒体描述信息对应的信息特征向量进行向量融合，得到目标信息特征向量；步骤S84，将所述目标信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的过程中，可以通过以下方式确定所述特征融合模型输出的融合向量：对所述多媒体特征向量进行分解，得到分解结果，其中，所述分解结果至少包括所述多媒体特征向量对应的第一向量矩阵；对所述信息特征向量进行不同投影变换，分别得到所述信息特征向量对应的第二向量矩阵/>和第三向量矩阵/>；分别获取对所述第一向量矩阵进行权重更新后得到的第四向量矩阵/>，对所述第二向量矩阵进行权重更新后得到的第五向量矩阵/>，以及对所述第三向量矩阵进行权重更新后得到的第六向量矩阵/>，其中，/>，/>，/>，/>表示权重矩阵，k为自然数；基于所述第四向量矩阵/>和所述第五向量矩阵/>计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值/>；获取对所述矩阵分值/>的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量。

需要说明的是，上述投影变换可以理解为对向量进行线性计算，即使用向量矩阵对原始向量进行线性变换。

另外，对于第一向量矩阵进行权重更新或第二向量矩阵进行权重更新的过程，可以理解为使用权重矩阵与第一向量矩阵或第二向量矩阵进行相乘实现的。

在一个示例性实施例中，对于基于所述第四向量矩阵和所述第五向量矩阵/>计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值/>可以理解为获取所述第五向量矩阵/>的转置矩阵/>，并根据所述转置矩阵/>和所述第四向量矩阵/>之间的乘积确定出所述矩阵分值/>。

进一步的，在本实施例中，还可以通过以下公式使用调节函数对所述矩阵分值进行特征调整，得到特征调整后的矩阵分值/>：；其中，/>表示调节函数，表示用于对所述信息特征向量进行调整的关键词特征向量。

其中，调节函数例如可以为用于在神经网络的每一层中引入非线性变换的前馈神经网络的调节函数，常见的调节函数包括Sigmoid函数、ReLU函数、Tanh函数等。通过调节函数，可以引入非线性变换，使得神经网络能够学习复杂的非线性关系，从而提高表达能力和泛化能力。

在一个示例性实施例中，可以通过以下过程对获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量进行说明：通过以下公式使用预设词向量维度对所述特征调整后的矩阵分值/>进行归一化，得到所述归一化结果，其中，所述预设词向量维度的向量维度与所述信息特征向量的向量维度相同：/>，其中，为所述归一化结果，/>表示归一化函数，/>表示预设词向量维度；计算所述归一化结果对应的矩阵加权结果/>，并将多个矩阵加权结果进行合并，得到所述合并结果/>；其中，，/>表示第h个矩阵加权结果，h为正整数，/>，/>表示所述多个矩阵加权结果，H为正整数，/>为用于进行矩阵变换的参数，可以改变矩阵维度。

在一个示例性实施例中，在执行上述步骤S206中将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的过程之后，可以进一步将所述融合向量输入至A层自注意力机制模型，根据所述A层自注意力机制模型的输出结果生成所述多媒体资源；其中，所述A层自注意力机制模型的输出结果表示如下：，/>表示所有先于时间步t的输出，/>表示所述A层自注意力机制模型，θ表示所述A层自注意力机制模型的模型参数。

在本实施例中，对于根据所述A层自注意力机制模型的输出结果生成所述多媒体资源可以理解为基由A层自注意力机制模型生成融合向量对应的多媒体资源向量序列（例如音频序列），并继而使用音频编解码器对所述多媒体资源序列进行解码，生成多媒体资源。

在一个示例性实施例中，对于步骤S208中根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源的过程，具体通过以下步骤进行说明：获取根据矢量量化操作将所述编码信号量化为多媒体特征向量时所使用的编解码代码本；根据所述编解码代码本所提供的向量与向量索引之间的对应关系确定出所述融合向量对应的目标向量索引；对所述目标向量索引所指示的多媒体信息进行重构，生成所述多媒体资源。

为了更好的理解上述基于大模型的多媒体资源的生成方法的过程，以下再结合可选实施例对上述基于大模型的多媒体资源的生成的实现方法流程进行说明，但不用于限定本申请实施例的技术方案。

进一步的，结合图3和图4对特征融合模型的工作原理进行说明，如图3所示，以音频为多媒体资源为例，在CLAP（Contrastive Language-Image Pre-training Model，对比语言-图像预训练模型）中，针对文本和音频两类信息，使用两个独立的编码器分别将文本映射到文本向量（即上述信息特征向量），将音频映射到/>音频向量（即上述多媒体特征向量）。

然后通过CLAP提供的对比学习训练策略来拉近文本向量与对应的音频向量之间的相似性。例如对于属于吉他的文本向量和音频向量，彼此的相似度会增加，而属于吉他的音频向量和属于钢琴的音频向量，彼此的相似度会减少。具体来说，可以通过以下特征向量的损失函数L进行可控对比学习：

，N表示样本数量，P(i)表示与第i个样本匹配的正样本集合，N(i)表示与第i个样本匹配的负样本集合，所述正样本集合表示属于同一描述维度的所述信息特征向量和所述多媒体特征向量，所述负样本集合表示属于不同描述维度的所述信息特征向量和所述多媒体特征向量，/>表示第i个信息特征向量，/>表示第p个多媒体特征向量，/>表示第n个多媒体特征向量，/>和/>为权重参数，/>表示第i个样本对应的动态温度参数，用于控制相似度函数的缩放程度，/>表示/>的范数，/>表示/>的范数，/>表示/>的范数，i，p，n，N为正整数；基于所述特征向量损失值将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，得到所述特征融合模型输出的融合向量。

其中，在描述维度为播放工具时，则例如播放工具包括吉他和钢琴，则上述正样本集合例如可以表示属于吉他的所述信息特征向量和所述多媒体特征向量，所述负样本集合表示属于吉他的所述信息特征向量和属于钢琴的所述多媒体特征向量，或者，所述负样本集合也可以表示属于吉他的所述信息特征向量和属于钢琴的所述信息特征向量。

如图4所示，可以调整相似度函数的缩放程度。在本实施例中，以上相似度函数用于表征信息特征向量和多媒体特征向量之间的相似程度，可以表示为，具体可以使用点积相似度函数或余弦相似度函数。

基于以上特征向量损失函数，可以增加正样本对的相似度（例如吉他文本和吉他音色），同时减少与负样本对（例如吉他文本和钢琴音色）的相似度。可见每个样本对（即一组信息特征向量和多媒体特征向量）与正样本和负样本均进行比较，而且每个样本对都有自己的权重（和/>），这可以基于样本的特性或在训练过程中的表现来调整。此外，动态调整的温度参数 />允许模型更灵活地调整不同样本对的相似度缩放程度，从而能够适应不同阶段的学习需求或样本特性的变化。

CLAP预训练模型通过学习如何将文本描述与音频内容相关联，可以在音频和语言模态之间建立联系，习得对不同类型数据的理解和处理能力，相较于BERT以及T5等基于纯文本任务进行seq2seq的建模训练的预训练语言模型，CLAP具有针对音乐音频的特化版本，可以基于音频描述信息生成词嵌入向量，继而生成符合用户预期的高质量音乐作品。例如针对guitar这个单词，CLAP模型会将guitar转换为一个高维特征[1,1,0,1,1,...]，这一特征不仅包含了guitar的语义信息，还包含了吉他的音色信息。而Bert和T5只能提供guitar的语义信息。

进一步的，在一个实施例中，以音频为多媒体资源为例，对使用自回归模型进行多媒体特征向量的过程进行说明。一般而言，自回归模型的输入为一个离散的随机序列，S为序列长度。设置音频序列/>，3000为参考音乐序列的长度，使用/>表示，生成的音乐长度用/>表示，则/>。4表示代码本的数量。

如图5所示，使用一个确定性的特殊标记T0（图5中的<START>）表示序列开始以及处理后的参考音乐特征（即上述多媒体特征向量）。

首先将参考音乐特征输入“prefix self attention block”（前缀自注意力模块），其中，公式定义如下：，/>表示所述自回归模型，/>表示所述每一组特征向量对应的子特征向量，/>表示整个参考音乐的输入序列（即每一组特征向量），表示所有先于时间步t的输出，t为自然数，/>表示所述自回归模型的模型参数。

在图5中，将四个码本（即编解码代码本）产生的特征分别送入四个不同的prefixself attention模块中进行运算，提取不同颗粒度的音频特征，其中，四个码本存储的特征信息不同。

在prefix self attention模块中，可以对固定的前缀部分（参考音乐X）进行双向的注意力机制运算，充分的提取到参考音乐特征的上下文信息，并将上下文信息融入到后续的生成音乐Y当中。其中，prefix self attention block输出的X和Y分别表示为和。表示第一个代码本对应的prefix self attention block输出的X。

通过上述实施例，使用Prefix self attention block提供的双向注意力机制，能够同时考虑参考音乐特征中每个时间节点的前向和后向上下文。这意味着每个时间步的参考音乐表示都包含了整个参考音乐序列的信息，无论是之前的还是之后的。这样有利于更好的捕捉参考音乐中音强、节奏等特征的变化。

并且在处理前缀时，双向机制使得decoder能够适应不同的上下文场景和变化，将前缀（即参考音乐）的元素融入整个序列的上下文。从而能够根据前缀的具体内容和特征灵活地调整其行为。在生成音乐等序列生成任务中，充分了解和利用前缀的上下文信息对于生成连贯、相关且高质量的内容至关重要。而Prefix decoder使得提取的特征更加丰富和全面，反映了序列内的复杂关系和动态变化，可以使生成的音乐能够更好地与参考音乐的风格、节奏和其他特征保持一致。

进一步的，如图6所示，以音频为多媒体资源为例，通过以下步骤对本申请中基于大模型的多媒体资源的生成过程进行说明：

步骤1，根据用户输入的提示词（即上述文本提示信息）生成prompt（即上述文本提示模板）。

prompt例如为“给我生成一首节奏欢快的摇滚乐”。将prompt输入HomeGPT进行解析，得到HomeGPT生成专业描述信息（即多媒体描述信息）。例如：“bpm：120-140，instrumentation：guitar and bass”。

其中，针对多媒体描述信息，可以为中文，也可以为其他语言。针对当前基于端到端技术且不支持中文形式的prompt的音乐生成模型，本步骤生成的prompt可以更好的理解用户需求，为不同国家的居民都提供了可行的生成模型。

在本步骤中，对于HomeGPT prompt模板示例如下：

“messages = {"messages": [

{"role": "user", "content":'''你是一名音乐制作人，分析输入，从这六个描述维度（可以理解为上述预设维度）：'Genre, mood, theme, instrumentation, key,bpm'用英文生成一首五十词以内的音乐描述。请只以{"description":你的描述}这样的json格式输出结果，不要有其它输出。'''+"输入:"+ chinese_prompt}]}。

其中，对于genre，mood，theme，instrumentation，key，bpm等描述维度是事先基于专家经验以及实际检验过后的得到的。

Genre表示音乐流派，例如摇滚，爵士。

Mood表示情绪，例如快乐，悲伤。

Theme表示指音乐作品的中心思想或概念，例如爱情，自然。

Instrumentation表示乐器编排，例如弦乐四重奏，吉他等。

Key表示调性，例如C大调，A小调。

BPM表示每分钟节拍数，例如60BPM(较慢)，120BPM（中等速度）。

需要说明的是，描述维度可以根据实际情况去进行调整以满足用户需求。

在本实施例中，基于大量的“英文描述+音乐”训练集训练模型，则输出结果以英文形式的描述信息为例。

训练数据集的数据示例如下：

文本：A country song with acoustic guitars。

音乐：对一首完整音乐进行切分得到的30s的音乐片段。

通过以上步骤，可以根据用户的输入数据准确解析出音乐的风格(genre)，情绪(mood)，主题(theme)，乐器编排(instrumentation)，调式(key)和节拍(bpm)，进而生成满足用户需求的描述信息。

步骤2，使用CLAP预训练模型对以上描述信息进行线性转换，得到图6所示的向量矩阵K和向量矩阵V。

步骤3，基于GRVQ codec编码方式量化音乐得到音乐特征向量Q（即多媒体特征向量）。

此步骤支持用户同步上传参考音乐，采用GRVQ codec编码方式对参考音乐进行编码（可以理解为根据矢量量化操作将所述编码信号量化为多媒体特征向量），生成与参考音乐类似的音乐。基于GRVQ技术使用编码器生成数据向量X对应的特征向量（）然后将/>分解为一系列较小的向量（残差向量），最后对这些较小的向量进行量化处理，建立N个codebook（代码本）/>，其中i∈1,2,...,N。一般第一层的码本会保留大多数的信息，后面的码本将保留更细节的其他信息。

其中，GRVQ技术用于对高维数据进行聚类和分类，可以基于向量量化将数据映射到一个低维空间中，以便进行更有效的分析和理解。在音乐生成任务中，采用量化后的音乐特征可以实现数据的压缩，提高模型处理效率以及降低模型复杂度。

以X为30S时长，采样率为32kHZ的音频为例，原始X的特征表示为X=[30×32000]，X为连续数值。可以采用320的Down sample times（降采样倍数）、2层，每层2个码本，每个码本1024个entries（条目）结构的GRVQ encodec对X进行编码，编码后的音乐特征转换为（/>向量为离散的onehot向量）。在这个编码过程中，原始的连续特征空间被编码为有限的离散集合，这种离散集合在后续的模型处理过程中更高效而且也提高了模型的泛化能力。

步骤4，基于prefix self attention （即自回归模型）对音乐片段进行融合。

步骤5，使用self adaptive cross attention block（跨注意力模块）对参考音乐特征和文本特征进行融合，得到融合向量。

步骤6，将融合向量送入A层的casual self attention block。Casual selfattention在生成合成的音乐序列时，每次只考虑之前的输出。换句话说，就是当前时间步的输出值依赖于先前时间步的输出。公式定义如下：

，/>表示所有先于时间步t的输出，/>表示所述A层自注意力机制模型，θ表示所述A层自注意力机制模型的模型参数。

需要说明的是，以上步骤3-步骤6为可选步骤，即基于上述步骤可以限定仅使用信息特征向量生成多媒体资源的方案，也可以限定使用信息特征向量和多媒体特征向量生成多媒体资源的方案。对于使用信息特征向量和多媒体特征向量生成多媒体资源的方案，图6中的Q特征将不带有参考音乐特征。而无论采用哪种方案，都是使用GRVQ decodec生成音乐。

步骤6，采用GRVQ的 decodec重构自回归模型输出的casual self attentionblock音乐特征向量，从而生成音频。其中，步骤3与步骤6分别对应于音频编码和音频解码，互为镜像过程。

具体的，针对，得到/>。

其中，表示重构后的音乐特征向量的隐层特征数据（即上述编解码代码本所提供的向量），/>是第i个代码本中被选中的向量，/>是在编码过程中选择的该代码本的索引（即向量索引）。Y表示最终生成的音频。

通过以上实施例，通过采用Homegpt等大语言预训练模型解析用户指令，生成专业描述信息，可以解决在训练时中文数据不足的问题。通过使用prefix self attentionblock和casual self attention block结合的模型结构，基于prefix self attention的双向注意力机制提取参考音乐特征，并在音乐生成部分，使用casual self attention机制以自回归的方式进行音乐生成。这种结合使用可以使模型在理解全局上下文和细节生成上都表现良好，特别是在处理长序列时。进而在音乐生成时，采用并联的4个prefix selfattention机制可以帮助模型从不同颗粒度上更好的理解参考音乐的特征，后面采用casual self attention机制进行新音乐的合成可以保证生成音频的完整流畅性，而且防止过度对参考音乐的模仿。还使用基于CLAP的预训练语言模型提取音频特征，最后基于GRVQ codec技术重构音乐，在降低了模型的复杂度的同时又可以提升模型的鲁棒性防止噪声的输出。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

图7是根据本申请实施例的一种基于大模型的多媒体资源的生成装置的结构框图，如图7所示，包括：

数据解析模块702，用于对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；

信号量化模块704，用于将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；

向量得到模块706，用于将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；

资源生成模块708，用于根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

通过上述装置，对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源，解决了相关技术中，如何使用大模型生成更符合用户需求的多媒体资源的技术问题，进而可以生成更符合用户需求的多媒体资源，提高用户的使用体验。

在一个示例性实施例中，上述信号量化模块704，还用于在将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息的技术之前，执行以下用于生成文本提示模板的步骤：步骤S11，确定出初始文本提示模板，其中，所述初始文本提示模板至少包括提示语区域，上下文信息区域；步骤S12，基于所述目标对象的所在位置，所述目标对象的对象类型和所述目标对象的偏好信息生成所述文本提示信息对应的环境上下文信息；步骤S13，将所述文本提示信息输入至所述提示语区域，以及将所述环境上下文信息输入至所述上下文信息区域，以生成所述文本提示模板。

在一个示例性实施例中，上述信号量化模块704，还用于执行：步骤S21，根据语言类型对获取到的训练数据进行分类，得到多组第一训练样本，其中，每一组第一训练样本对应一种语言类型；步骤S22，以所述每一组第一训练样本包含的提示样本为输入，以所述每一组第一训练样本包含的多媒体描述样本为输出，对初始模型进行训练，得到训练后的第一中间模型，将所述第一中间模型确定为所述大模型。

或者，在本实施例中，上述信号量化模块704，还用于进一步执行：步骤S23，根据预设描述维度对获取到的训练数据进行分类，得到多组第二训练样本，其中，每一组第二训练样本对应一种描述维度，所述预设描述维度至少包括以下之一：多媒体资源类型，多媒体资源所反映的情绪，多媒体资源所对应的作品类型，多媒体资源所对应的播放工具；以所述每一组第二训练样本包含的提示样本为输入，以所述每一组第二训练样本包含的多媒体描述样本为输出对初始模型进行训练，得到训练后的第二中间模型，将所述第二中间模型确定为所述大模型。

或者，在本实施例中，上述信号量化模块704，还用于在执行步骤S22和步骤S23之后，进一步执行：步骤S24，以所述每一组第二训练样本包含的提示样本为输入，以所述每一组第二训练样本包含的多媒体描述样本为输出对所述第一中间模型进行训练，得到训练后的第三中间模型，将所述第三中间模型确定为所述大模型。

在一个示例性实施例中，上述向量得到模块706，还用于实现以下过程：使用特征向量损失函数对所述信息特征向量和所述多媒体特征向量进行计算，得到特征向量损失值；其中，所述特征向量损失函数表示如下：

，N表示样本数量，P(i)表示与第i个样本匹配的正样本集合，N(i)表示与第i个样本匹配的负样本集合，所述正样本集合表示属于同一描述维度的所述信息特征向量和所述多媒体特征向量，所述负样本集合表示属于不同描述维度的所述信息特征向量和所述多媒体特征向量，表示第i个信息特征向量，/>表示第p个多媒体特征向量，/>表示第n个多媒体特征向量，/>和/>为权重参数，/>表示第i个样本对应的动态温度参数，用于控制相似度函数的缩放程度，/>表示/>的范数，/>表示/>的范数，/>表示/>的范数，i，p，n，N为正整数；基于所述特征向量损失值将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，上述信号量化模块704，还用于执行：步骤S31，使用残差矢量量化操作将所述编码信号分解为残差向量序列；步骤S32，对所述残差向量序列包含的残差向量进行量化处理，得到处理结果；其中，所述处理结果包含多层残差向量，第一层残差向量包含的代码本的个数在所述多层残差向量包含的代码本的个数中占据的比例高于预设比例；步骤S33，基于所述多层残差向量确定出所述多媒体特征向量。

在一个示例性实施例中，上述向量得到模块706，还用于：进一步的，将所述多媒体特征向量按照多层残差向量包含的代码本的个数进行分组，得到多组特征向量，其中，所述多组特征向量用于存储不同特征信息；其中，所述多层残差向量是在对所述编码信号进行矢量量化操作时所生成的；将每一组特征向量分别输入至自回归模型，得到所述自回归模型输出的所述每一组特征向量对应的子特征向量，以得到多组子特征向量，其中，所述每一组特征向量对应的子特征向量对应一种特征颗粒度；按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量。

在一个示例性实施例中，上述向量得到模块706，还用于执行：步骤S41，对所述多层残差向量包含的代码本的序列编号进行排序，得到排序结果，其中，所述排序结果至少包括所述多组子特征向量的融合顺序；步骤S42，根据所述融合顺序将所述多组子特征向量进行顺次拼接，得到所述融合后的多媒体特征向量。

在一个示例性实施例中，上述向量得到模块706，还用于针对所述每一组特征向量，可以通过以下公式确定出所述自回归模型输出的所述每一组特征向量对应的子特征向量：，其中，/>表示所述自回归模型，/>表示所述每一组特征向量对应的子特征向量，/>表示所述每一组特征向量，/>表示所有先于时间步t的输出，t为自然数，/>表示所述自回归模型的模型参数。

在一个示例性实施例中，上述向量得到模块706，还用于执行：步骤S51，为所述多媒体特征向量生成基于差分隐私的高斯噪声，其中，所述高斯噪声对应有噪声特征向量；步骤S52，在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度相同的情况下，对所述噪声特征向量和所述多媒体特征向量进行逐位向量相加，得到相加后的多媒体特征向量；步骤S53，将所述多媒体描述信息对应的信息特征向量和所述相加后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，进一步的，上述向量得到模块706，还用于执行：步骤S54，在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述噪声特征向量进行线性转换，得到线性转换后的噪声特征向量，其中，所述线性转换后的噪声特征向量的向量维度与所述第二向量维度相同；步骤S55，对所述线性转换后的噪声特征向量和所述多媒体特征向量进行向量拼接，得到向量拼接后的第一多媒体特征向量；步骤S56，将所述多媒体描述信息对应的信息特征向量和所述向量拼接后的第一多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，可选的，上述向量得到模块706，还用于执行：步骤S57，在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述多媒体特征向量进行线性转换，得到线性转换后的第一多媒体特征向量，其中，所述线性转换后的第一多媒体特征向量的向量维度与所述第一向量维度相同；步骤S58，对所述噪声特征向量和所述线性转换后的第一多媒体特征向量进行向量拼接，得到向量拼接后的第二多媒体特征向量；步骤S59，对所述向量拼接后的第二多媒体特征向量进行线性转换，得到线性转换后的第二多媒体特征向量，其中，所述线性转换后的第二多媒体特征向量的向量维度与所述第二向量维度相同；步骤S60，将所述多媒体描述信息对应的信息特征向量和所述线性转换后的第二多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，上述向量得到模块706，还用于通过以下步骤进行说明：步骤S71，解析所述多媒体描述信息，得到所述多媒体描述信息的描述词元；步骤S72，使用预设对应关系确定出所述描述词元对应的多媒体词元，其中，所述预设对应关系为预先训练的所述描述词元与所述多媒体词元之间的对应关系；步骤S73，将所述多媒体词元输入至音频解码器，得到所述音频解码器生成的模拟音频，其中，所述音频解码器存储有所述多媒体词元对应的音频信号；步骤S74，对所述模拟音频进行量化编码，得到所述模拟音频对应的模拟音频特征向量，其中，所述模拟音频特征向量的向量维度与所述多媒体特征向量对应的第二向量维度相同；步骤S75，将所述模拟音频特征向量与所述多媒体特征向量进行向量融合，得到向量融合后的多媒体特征向量；步骤S76，将所述多媒体描述信息对应的信息特征向量和所述向量融合后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，基于以上步骤，上述向量得到模块706，还用于进一步执行：步骤S81，向所述目标对象播放所述模拟音频，并接收所述目标对象基于所述模拟音频发送的情感描述信息；步骤S82，将基于所述情感描述信息生成的其他提示模板输入至所述大模型，得到所述大模型输出的其他多媒体描述信息；步骤S83，对所述多媒体描述信息对应的信息特征向量和所述其他多媒体描述信息对应的信息特征向量进行向量融合，得到目标信息特征向量；步骤S84，将所述目标信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

在一个示例性实施例中，上述向量得到模块706，还用于通过以下方式确定所述特征融合模型输出的融合向量：对所述多媒体特征向量进行分解，得到分解结果，其中，所述分解结果至少包括所述多媒体特征向量对应的第一向量矩阵；对所述信息特征向量进行不同投影变换，分别得到所述信息特征向量对应的第二向量矩阵/>和第三向量矩阵/>；分别获取对所述第一向量矩阵进行权重更新后得到的第四向量矩阵/>，对所述第二向量矩阵进行权重更新后得到的第五向量矩阵/>，以及对所述第三向量矩阵进行权重更新后得到的第六向量矩阵/>，其中，/>，/>，/>，/>表示权重矩阵，k为自然数；基于所述第四向量矩阵/>和所述第五向量矩阵/>计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值/>；获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量。

在一个示例性实施例中，上述向量得到模块706，还用于获取所述第五向量矩阵的转置矩阵/>，并根据所述转置矩阵/>和所述第四向量矩阵/>之间的乘积确定出所述矩阵分值/>。

进一步的，在本实施例中，上述向量得到模块706，还用于通过以下公式使用调节函数对所述矩阵分值进行特征调整，得到特征调整后的矩阵分值：/>；其中，/>表示调节函数，/>表示用于对所述信息特征向量进行调整的关键词特征向量。

在一个示例性实施例中，上述向量得到模块706，还用于通过以下过程对获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量进行说明：通过以下公式使用预设词向量维度对所述特征调整后的矩阵分值进行归一化，得到所述归一化结果，其中，所述预设词向量维度的向量维度与所述信息特征向量的向量维度相同：

，

其中，为所述归一化结果，/>表示归一化函数，/>表示预设词向量维度；计算所述归一化结果对应的矩阵加权结果/>，并将多个矩阵加权结果进行合并，得到所述合并结果/>；其中，，/>表示第h个矩阵加权结果，h为正整数，，/>表示所述多个矩阵加权结果，H为正整数，/>为用于进行矩阵变换的参数。

在一个示例性实施例中，上述向量得到模块706，还用于：进一步将所述融合向量输入至A层自注意力机制模型，根据所述A层自注意力机制模型的输出结果生成所述多媒体资源；其中，所述A层自注意力机制模型的输出结果表示如下：，/>表示所有先于时间步t的输出，/>表示所述A层自注意力机制模型，θ表示所述A层自注意力机制模型的模型参数。

在一个示例性实施例中，上述资源生成模块708，还用于执行以下步骤：获取根据矢量量化操作将所述编码信号量化为多媒体特征向量时所使用的编解码代码本；根据所述编解码代码本所提供的向量与向量索引之间的对应关系确定出所述融合向量对应的目标向量索引；对所述目标向量索引所指示的多媒体信息进行重构，生成所述多媒体资源。

本申请的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；

S2，将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；

S3，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；

S4，根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于大模型的多媒体资源的生成方法，其特征在于，包括：

对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；

将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；

将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；

根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

2.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，在将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息之前，所述方法还包括：

确定出初始文本提示模板，其中，所述初始文本提示模板至少包括提示语区域，上下文信息区域；

基于所述目标对象的所在位置，所述目标对象的对象类型和所述目标对象的偏好信息生成所述文本提示信息对应的环境上下文信息；

将所述文本提示信息输入至所述提示语区域，以及将所述环境上下文信息输入至所述上下文信息区域，以生成所述文本提示模板。

3.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，所述方法还包括：

根据语言类型对获取到的训练数据进行分类，得到多组第一训练样本，其中，每一组第一训练样本对应一种语言类型；

以所述每一组第一训练样本包含的提示样本为输入，以所述每一组第一训练样本包含的多媒体描述样本为输出，对初始模型进行训练，得到训练后的第一中间模型，将所述第一中间模型确定为所述大模型；

或者，根据预设描述维度对获取到的训练数据进行分类，得到多组第二训练样本，其中，每一组第二训练样本对应一种描述维度，所述预设描述维度至少包括以下之一：多媒体资源类型，多媒体资源所反映的情绪，多媒体资源所对应的作品类型，多媒体资源所对应的播放工具；

以所述每一组第二训练样本包含的提示样本为输入，以所述每一组第二训练样本包含的多媒体描述样本为输出对初始模型进行训练，得到训练后的第二中间模型，将所述第二中间模型确定为所述大模型。

4.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：

使用特征向量损失函数对所述信息特征向量和所述多媒体特征向量进行计算，得到特征向量损失值；

其中，所述特征向量损失函数表示如下：

，

N表示样本数量，P(i)表示与第i个样本匹配的正样本集合，N(i)表示与第i个样本匹配的负样本集合，所述正样本集合表示属于同一描述维度的所述信息特征向量和所述多媒体特征向量，所述负样本集合表示属于不同描述维度的所述信息特征向量和所述多媒体特征向量，表示第i个信息特征向量，/>表示第p个多媒体特征向量，/>表示第n个多媒体特征向量，/>和/>为权重参数，/>表示第i个样本对应的动态温度参数，用于控制相似度函数的缩放程度，/>表示/>的范数，/>表示/>的范数，/>表示/>的范数，i，p，n，N为正整数；

基于所述特征向量损失值将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，得到所述特征融合模型输出的融合向量。

5.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，根据矢量量化操作将所述编码信号量化为多媒体特征向量，包括：

使用残差矢量量化操作将所述编码信号分解为残差向量序列；

对所述残差向量序列包含的残差向量进行量化处理，得到处理结果；

其中，所述处理结果包含多层残差向量，第一层残差向量包含的代码本的个数在所述多层残差向量包含的代码本的个数中占据的比例高于预设比例；

基于所述多层残差向量确定出所述多媒体特征向量。

6.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量之前，所述方法还包括：

将所述多媒体特征向量按照多层残差向量包含的代码本的个数进行分组，得到多组特征向量，其中，所述多组特征向量用于存储不同特征信息；

其中，所述多层残差向量是在对所述编码信号进行矢量量化操作时所生成的；

将每一组特征向量分别输入至自回归模型，得到所述自回归模型输出的所述每一组特征向量对应的子特征向量，以得到多组子特征向量，其中，所述每一组特征向量对应的子特征向量对应一种特征颗粒度；

按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量。

7.根据权利要求6所述的基于大模型的多媒体资源的生成方法，其特征在于，按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量，包括：

对所述多层残差向量包含的代码本的序列编号进行排序，得到排序结果，其中，所述排序结果至少包括所述多组子特征向量的融合顺序；

根据所述融合顺序将所述多组子特征向量进行顺次拼接，得到所述融合后的多媒体特征向量。

8.根据权利要求7所述的基于大模型的多媒体资源的生成方法，其特征在于，针对所述每一组特征向量，通过以下公式确定出所述自回归模型输出的所述每一组特征向量对应的子特征向量：

，

其中，表示所述自回归模型，/>表示所述每一组特征向量对应的子特征向量，/>表示所述每一组特征向量，/>表示所有先于时间步t的输出，t为自然数，/>表示所述自回归模型的模型参数。

9.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：

为所述多媒体特征向量生成基于差分隐私的高斯噪声，其中，所述高斯噪声对应有噪声特征向量；

在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度相同的情况下，对所述噪声特征向量和所述多媒体特征向量进行逐位向量相加，得到相加后的多媒体特征向量；

将所述多媒体描述信息对应的信息特征向量和所述相加后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

10.根据权利要求9所述的基于大模型的多媒体资源的生成方法，其特征在于，在为所述多媒体特征向量生成基于差分隐私的高斯噪声之后，所述方法还包括：

在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述噪声特征向量进行线性转换，得到线性转换后的噪声特征向量，其中，所述线性转换后的噪声特征向量的向量维度与所述第二向量维度相同；

对所述线性转换后的噪声特征向量和所述多媒体特征向量进行向量拼接，得到向量拼接后的第一多媒体特征向量；

将所述多媒体描述信息对应的信息特征向量和所述向量拼接后的第一多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

11.根据权利要求9所述的基于大模型的多媒体资源的生成方法，其特征在于，在为所述多媒体特征向量生成基于差分隐私的高斯噪声之后，所述方法还包括：

在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述多媒体特征向量进行线性转换，得到线性转换后的第一多媒体特征向量，其中，所述线性转换后的第一多媒体特征向量的向量维度与所述第一向量维度相同；

对所述噪声特征向量和所述线性转换后的第一多媒体特征向量进行向量拼接，得到向量拼接后的第二多媒体特征向量；

对所述向量拼接后的第二多媒体特征向量进行线性转换，得到线性转换后的第二多媒体特征向量，其中，所述线性转换后的第二多媒体特征向量的向量维度与所述第二向量维度相同；

将所述多媒体描述信息对应的信息特征向量和所述线性转换后的第二多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

12.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：

解析所述多媒体描述信息，得到所述多媒体描述信息的描述词元；

使用预设对应关系确定出所述描述词元对应的多媒体词元，其中，所述预设对应关系为预先训练的所述描述词元与所述多媒体词元之间的对应关系；

将所述多媒体词元输入至音频解码器，得到所述音频解码器生成的模拟音频，其中，所述音频解码器存储有所述多媒体词元对应的音频信号；

对所述模拟音频进行量化编码，得到所述模拟音频对应的模拟音频特征向量，其中，所述模拟音频特征向量的向量维度与所述多媒体特征向量对应的第二向量维度相同；

将所述模拟音频特征向量与所述多媒体特征向量进行向量融合，得到向量融合后的多媒体特征向量；

将所述多媒体描述信息对应的信息特征向量和所述向量融合后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

13.根据权利要求12所述的基于大模型的多媒体资源的生成方法，其特征在于，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：

向所述目标对象播放所述模拟音频，并接收所述目标对象基于所述模拟音频发送的情感描述信息；

将基于所述情感描述信息生成的其他提示模板输入至所述大模型，得到所述大模型输出的其他多媒体描述信息；

对所述多媒体描述信息对应的信息特征向量和所述其他多媒体描述信息对应的信息特征向量进行向量融合，得到目标信息特征向量；

将所述目标信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

14.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的过程中，通过以下方式确定所述特征融合模型输出的融合向量：

对所述多媒体特征向量进行分解，得到分解结果，其中，所述分解结果至少包括所述多媒体特征向量对应的第一向量矩阵；

对所述信息特征向量进行不同投影变换，分别得到所述信息特征向量对应的第二向量矩阵和第三向量矩阵/>；

分别获取对所述第一向量矩阵进行权重更新后得到的第四向量矩阵，对所述第二向量矩阵进行权重更新后得到的第五向量矩阵/>，以及对所述第三向量矩阵进行权重更新后得到的第六向量矩阵/>，

其中，，/>，/>，/>表示权重矩阵，k为自然数；

基于所述第四向量矩阵和所述第五向量矩阵/>计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值/>；

获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量。

15.根据权利要求14所述的基于大模型的多媒体资源的生成方法，其特征在于，基于所述第四向量矩阵和所述第五向量矩阵/>计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值/>，包括：

获取所述第五向量矩阵的转置矩阵/>，并根据所述转置矩阵/>和所述第四向量矩阵/>之间的乘积确定出所述矩阵分值/>；

所述方法还包括：

通过以下公式使用调节函数对所述矩阵分值进行特征调整，得到特征调整后的矩阵分值/>：

；

其中，表示调节函数，/>表示用于对所述信息特征向量进行调整的关键词特征向量。

16.根据权利要求15所述的基于大模型的多媒体资源的生成方法，其特征在于，获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量，包括：

通过以下公式使用预设词向量维度对所述特征调整后的矩阵分值进行归一化，得到所述归一化结果，其中，所述预设词向量维度的向量维度与所述信息特征向量的向量维度相同：

，

其中，为所述归一化结果，/>表示归一化函数，/>表示预设词向量维度；

计算所述归一化结果对应的矩阵加权结果，并将多个矩阵加权结果进行合并，得到所述合并结果/>；

其中，，/>表示第h个矩阵加权结果，h为正整数，/>，表示所述多个矩阵加权结果，H为正整数，/>为用于进行矩阵变换的参数。

17.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量之后，所述方法还包括：

将所述融合向量输入至A层自注意力机制模型，根据所述A层自注意力机制模型的输出结果生成所述多媒体资源；

其中，所述A层自注意力机制模型的输出结果表示如下：

18.根据权利要求1所述的基于大模型的多媒体资源的生成方法，其特征在于，根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源，包括：

获取根据矢量量化操作将所述编码信号量化为多媒体特征向量时所使用的编解码代码本；

根据所述编解码代码本所提供的向量与向量索引之间的对应关系确定出所述融合向量对应的目标向量索引；

对所述目标向量索引所指示的多媒体信息进行重构，生成所述多媒体资源。

19.一种基于大模型的多媒体资源的生成装置，其特征在于，包括：

数据解析模块，用于对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；

信号量化模块，用于将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；

向量得到模块，用于将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；

资源生成模块，用于根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

20.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至18任一项中所述的方法。