CN116524898A

CN116524898A - 有声视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN116524898A
Application number: CN202310295030.9A
Authority: CN
Inventors: 刘静; 王卫宁; 刘佳伟
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-08-01

Abstract

本发明提供一种有声视频生成方法、装置、电子设备及存储介质，属于计算机技术领域，包括：对待推理文本进行预处理，得到待推理文本对应的文本标识序列；将文本标识序列输入至有声视频生成模型，生成待推理文本对应的有声视频；其中，有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。本发明通过有声视频生成模型生成有声视频，能够实现同时生成视频信号及音频信号，进而根据视频信号及音频信号合成与待推理文本语义相匹配的、泛化性较好的有声视频，能够有效关注到音频模态信息，为人工智能研究提供重要的数据，有效满足用户的使用需求。

Description

有声视频生成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种有声视频生成方法、装置、电子设备及存储介质。

背景技术

从文本到有声视频的生成是一项需要跨越多个领域，涉及多种模态信息的研究，该研究对人工智能研究具有重要意义。

然而现有的视频生成方法往往仅关注视频图像的生成,即往往仅关注从文本模态到视频模态的生成方式。

因此，如何实现文本到有声视频的生成已经成为业界亟待解决的问题。

发明内容

本发明提供一种有声视频生成方法、装置、电子设备及存储介质，用以解决现有技术中实现文本到有声视频的生成的技术需求。

第一方面，本发明提供一种有声视频生成，包括：对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。

根据本发明提供的一种有声视频生成方法，所述将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频，包括：步骤21，将所述文本标识序列输入至所述自回归音视频序列生成模型，生成所述文本标识序列对应的视频图像帧离散标识序列以及音频频谱离散标识序列；步骤22，将所述视频图像帧离散标识序列和音频频谱离散标识序列输入至所述音视频向量量化自编码器的解码器，生成视频图像帧以及音频梅尔频谱；步骤23，将所述生成视频图像帧输入至所述视频插帧模型，合成无声视频；步骤24，将所述音频梅尔频谱输入至所述音频转换模型，合成音频信号；所述无声视频的时长与所述音频信号的时长相匹配；步骤25，将所述无声视频和所述音频信号输入至所述音视频处理工具，生成所述有声视频。

根据本发明提供的一种有声视频生成方法，所述自回归音视频序列生成模型为自回归式三模态联合Transformer神经网络Decoder模型；和/或，所述音视频向量量化自编码器为SVG-VQGAN模型；和/或，所述音频转换模型为HiFiGAN解码器；和/或，所述音视频处理工具为ffmpeg多媒体处理工具；和/或，所述视频插帧模型是基于帧插值神经网络模型构建的。

根据本发明提供的一种有声视频生成方法，所述音频转换模型，是采用以下步骤训练得到的：步骤101，对每一文本样本对应的音视频样本进行预处理，获取各音视频样本对应的音频信号样本以及视频图像帧样本，并获取各音频信号样本对应的音频梅尔频谱样本；步骤102，将任一所述音频梅尔频谱样本作为待训练音频转换模型的输入，将与所述任一所述音频梅尔频谱样本对应的所述音频信号样本，作为所述待训练音频转换模型的输出标签，对所述待训练音频转换模型进行预训练；迭代执行步骤102，直至完成对所述待训练音频转换模型的预训练，获取训练好的所述音频转换模型。

根据本发明提供的一种有声视频生成方法，所述步骤101，具体包括：采用预设的采样帧率，对所述音视频样本进行稀疏采样，随机选取多个连续的视频帧构成视频片段，作为所述视频图像帧样本；采用预设的音频采样率，对所述音视频样本进行采样，获取所述音频信号样本；获取所述音频信号样本对应的梅尔频谱；对所述梅尔频谱进行归一化处理，根据所述随机选取多个连续的视频帧的时间戳信息，截取所述梅尔频谱，得到与所述随机选取多个连续的视频帧时间对齐的梅尔频谱片段，构建所述音频梅尔频谱样本。

根据本发明提供的一种有声视频生成方法，所述音视频向量量化自编码器的编码器包括视觉编码器和音频编码器，所述音视频向量量化自编码器的解码器包括视觉解码器和音频解码器；

所述音视频向量量化自编码器，是采用以下步骤训练得到的：步骤201，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本；步骤202，将所述音频梅尔频谱样本输入至所述音频编码器，获取音频量化编码；将所述音频量化编码输入至所述音频解码器，获取音频梅尔频谱重构样本；步骤203，将所述视频图像帧样本输入至所述视觉编码器，获取视觉量化编码；将所述视觉量化编码输入至所述视觉解码器，获取视频图像帧重构样本；步骤204，利用所述音频梅尔频谱重构样本与所述音频梅尔频谱样本、所述视频图像帧重构样本与所述视频图像帧样本之间的损失，对所述音视频向量量化自编码器进行预训练；迭代执行步骤201至步骤204，直至完成对所述音视频向量量化自编码器的预训练，获取训练好的所述音视频向量量化自编码器；所述损失包括重构损失、量化编码损失、感知损失、对抗损失。

根据本发明提供的一种有声视频生成方法，在获取所述音频量化编码和获取所述视觉量化编码之前，还包括：获取由所述视觉编码器提取的视觉特征以及由所述音频编码器提取的音频特征；通过跨模态注意力模块关联所述视觉特征和所述音频特征，获取视频图像帧全局特征和音频频谱帧全局特征；利用所述视频图像帧全局特征与所述视觉特征、所述音频频谱帧全局特征与所述音频特征之间的混合对比学习损失，训练所述视觉编码器和所述音频编码器。

根据本发明提供的一种有声视频生成方法，所述自回归音视频序列生成模型，是采用以下步骤训练得到的：步骤301，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本，并获取所述任一文本样本对应的文本标识序列样本；步骤302，将所述音频梅尔频谱样本和所述视频图像帧样本输入至所述音视频向量量化自编码器，获取视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本；步骤303，由所述文本标识序列样本、所述视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本，构建一个三模态联合训练样本；步骤304，利用所述三模态联合训练样本对所述自回归音视频序列生成模型进行自回归训练；迭代执行步骤301至步骤304，直至完成对所述自回归音视频序列生成模型的预训练，获取训练好的所述自回归音视频序列生成模型。

根据本发明提供的一种有声视频生成方法，所述步骤303，具体包括：按照时间顺序，对所述视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本，进行按帧拼接处理，得到拼接后的双模态标识序列；将所文本标识序列样本和所述双模态标识序列，进行拼接处理，得到拼接后的三模态标识序列；基于所述拼接后的三模态标识序列和预设序列长度，获取所述三模态联合训练样本。

根据本发明提供的一种有声视频生成方法，所述对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列，具体包括：基于字节对编码方法，对所述对待推理文本进行编码，得到所述对待推理文本对应的文本标识序列。

第二方面，本发明还提供一种有声视频生成装置，包括：文本处理模块，用于对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；视频生成模块，用于将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述有声视频生成方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述有声视频生成方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述任一种所述有声视频生成方法的步骤。

本发明提供的有声视频生成方法、装置、电子设备及存储介质，通过有声视频生成模型生成有声视频，能够实现同时生成视频信号及音频信号，进而根据视频信号及音频信号合成与待推理文本语义相匹配的、泛化性较好的有声视频，能够有效关注到音频模态信息，为人工智能研究提供重要的数据，有效满足用户的使用需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的有声视频生成方法的流程示意图；

图2是本发明提供的有声视频生成模型的原理示意图；

图3是本发明提供的有声视频生成模型的结构示意图；

图4是本发明提供的音视频向量量化自编码器预训练的流程示意图；

图5是本发明提供的自回归音视频序列生成模型的预训练的流程示意图；

图6是本发明提供的有声视频生成装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明中的术语“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合图1-图7描述本发明实施例所提供的有声视频生成方法、装置、电子设备及存储介质。

需要说明的是，本发明所描述的从文本到有声视频生成是指通用开放域文本到有声视频生成，依托于大规模数据集预训练的通用有声视频生成模型，可以完成根据不限内容种类的输入文本合成与文本语义对应的有声视频的跨模态生成任务，尤其说明本发明的有声视频生成，指采用一个统一的模型实现视频图像信号和音频信号的同时建模。

通过文本信息指导视频生成有广泛的应用前景，例如演示视频生成，数据增强，虚拟现实等等。近年来随着对基于向量量化自编码器(Vector Quantized VariationalAuto-encoder，VQVAE)离散编码和Transformer序列生成的二阶段生成方法的研究和大规模多模态预训练技术的应用，文本到视频生成取得了巨大进展。

经研究发现，目前的视频生成方法仍然有一个重要的局限性，即视频是一个视觉和听觉联合的多模态数据形式，然而现有的视频生成方法只关注视频图像的生成却忽视了音频这一重要模态。

有鉴于此，本发明提出一种有声视频生成方法、装置、电子设备及存储介质，将视频图像信号和音频信号的生成统一到一个框架当中，首次实现了从文本到有声视频的生成。

从文本到有声视频的生成要求输入的文本、生成的视频图像以及生成的音频三者之间满足语义一致关系，因此在编解码各个环节考虑音视频之间的跨模态关系建模是十分重要的。

经进一步研究发现，视觉与音频之间存在共现一致性关系，即具有相同语义的视频内容和音频内容通常共同出现。根据这一发现本发明提出了在编码阶段通过在音视频双流向量量化自编码器中加入跨模态注意力机制以及混合对比学习损失以提升音视频双流向量量化自编码器的编码能力，在Transformer生成阶段提出模态交替的序列模式实现跨模态关联的构建。

图1是本发明提供的有声视频生成方法的流程示意图，如图1所示，包括但不限于以下步骤：

步骤11：对待推理文本进行预处理，得待推理文本对应的文本标识序列。

具体地，本发明所描述的待推理文本指的是用于进行有声视频生成的文本信息，该文本信息可以使用一句或多句自然语言对所需生成的有声视频进行语义描述。

进一步地，待推理文本对应的文本标识序列可以是经过对待推理文本进行编码后，得到的离散化元素标识序列。

可选地，可以首先构建一个词表，针对待推理文本中的文本语句，拆分为构建的词表中的各个词汇，并取各个词汇在词表中的位置标号作为其标识表示，从而可以将待处理文本原来的文本字符串信息转化标识序列，进而得到待推理文本对应的文本标识序列。

步骤12：将文本标识序列输入至有声视频生成模型，生成待推理文本对应的有声视频。

其中，有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。

具体地，当得到待推理文本的文本标识序列后，可以将文本标识序列输入至有声视频生成模型，从而生成与待推理文本的语义相对应的有声视频。

进一步地，自回归音视频序列生成模型可以用于对用户输入的待推理文本对应的文本标识序列进行识别，通过文本语义理解、跨模态联系生成视觉标识序列以及音频标识序列。其中，跨模态联系指的是多模态信息之间的关联关系，其中，多模态信息包括文本信息、视频图像信息和音频信息。

音视频向量量化自编码器可以用于将视觉标识序列以及音频标识序列还原为视觉图像帧以及音频梅尔频谱，基于视觉与音频之间存在的共现一致性关系实现视觉与音频的同时建模。其中，视频图像帧指的是按照固定帧率稀疏采样出的RGB图像，即每隔设定的固定时长取一帧图像，音频梅尔频谱指的是与视频图像帧时序对齐长度的音频所对应的梅尔频谱。

视频插帧模型与音频转换模型再进一步将视觉图像帧以及音频梅尔频谱处理生成无声视频以及音频信号，并通过音视频处理工具将无声视频以及音频信号合成处理以生成有声视频。

可选地，上述有声视频生成模型可以采用人工标注文本描述的AudioSet-Cap数据集进行预训练，也可根据需求使用特定领域的数据集。

本发明提供的有声视频生成方法，通过有声视频生成模型生成有声视频，能够实现同时生成视频信号及音频信号，进而根据视频信号及音频信号合成与待推理文本语义相匹配的、泛化性较好的有声视频，能够有效关注到音频模态信息，为人工智能研究提供重要的数据，有效满足用户的使用需求。

基于上述实施例的内容，作为一种可选实施例，将文本标识序列输入至有声视频生成模型，生成待推理文本对应的有声视频，包括：

步骤21，将文本标识序列输入至自回归音视频序列生成模型，生成文本标识序列对应的视频图像帧离散标识序列以及音频频谱离散标识序列。

步骤22，将视频图像帧离散标识序列和音频频谱离散标识序列输入至音视频向量量化自编码器的解码器，生成视频图像帧以及音频梅尔频谱。

步骤23，将生成视频图像帧输入至视频插帧模型，合成无声视频。

步骤24，将音频梅尔频谱输入至音频转换模型，合成音频信号；无声视频的时长与音频信号的时长相匹配。

步骤25，将无声视频和音频信号输入至音视频处理工具，生成有声视频。

图2是本发明提供的有声视频生成模型的原理示意图，如图2所示，包括但不限于以下步骤：

首先，通过字节对编码方法对待推理文本进行预处理，以得到待推理文本对应的文本标识序列。

然后，将待推理文本对应的文本标识序列输入至有声视频生成模型中的自回归音视频序列生成模型，以生成与文本标识序列对应的视频图像帧离散标识序列以及音频频谱离散标识序列。

再将视频图像帧离散标识序列以及音频频谱离散标识序列输入至音视频向量量化自编码器的解码器，以生成视频图像帧以及音频梅尔频谱。

进一步地，将视频图像帧输入至视频插帧模型，以合成无声视频。

同时，还将音频梅尔频谱输入至音频转换模型，以合成音频信号。其中，无声视频的时长与音频信号的时长相匹配，以确保能满足语义一致的关系。

最后，将无声视频以及音频信号输入至音视频处理工具，以生成有声视频。

作为一种可选的实施例，自回归音视频序列生成模型为自回归式三模态联合Transformer神经网络Decoder模型。

其中，三模态是指文本、视频、音频三个模态，自回归式三模态联合Transformer神经网络Decoder模型具有较好的序列建模能力。

作为一种可选的实施例，本发明中的音视频向量量化自编码器可以为SVG-VQGAN模型。其中，SVG是指有声视频生成模型(Sounding Video Generator，SVG)，SVG-VQGAN模型是指音视频向量量化自编码器。

作为一种可选的实施例，本发明中的音频转换模型可以为HiFiGAN解码器，HiFiGAN模型能够将频谱转换为高质量的音频，具有良好的收敛速度。

作为一种可选的实施例，本发明中的音视频处理工具可以为ffmpeg多媒体处理工具，ffmpeg多媒体处理工具支持对视频、音频的各种操作(例如视频采集、视频格式转换)，配备了免费、强大、海量的命令库。

作为一种可选的实施例，本发明中的视频插帧模型是基于帧插值神经网络模型构建的，例如可以通过开源的FILM模型进行构建。

可选地，图3是本发明提供的有声视频生成模型的结构示意图，如图3所示，[TXT]为文本起始位标识符，文本标识序列为{[TXT],t[1],…,t[L]}，长度为L，输入到自回归式三模态联合Transformer神经网络Decoder模型，[V1]和[A1]分别为第一帧视频图像帧离散标识序列的起始位标识符和第一帧音频频谱离散标识序列的起始位标识符，从[V1]开始生成第一帧视觉标识序列{[V1],v1[1],…,v1[M]}，长度为M，即每帧视频图像帧离散标识序列由M个视觉标识组成，生成方式为自回归式地预测下一个标识，即当生成第一个标识v1[1]时，将自回归调用v1[1]以预测生成v1[2]，然后再自回归调用v1[2]以预测生成v1[3]，迭代上述步骤，从而生成第一帧视频图像帧离散标识序列。

同理，从[A1]开始生成第一帧音频频谱离散标识序列{[A1],a1[1],…,a1[N]}，长度为N，即每帧音频频谱离散标识序列由N个音频标识组成，生成方式也为自回归式地预测下一个标识，即当生成第一个标识a1[1]时，将自回归调用a1[1]以预测生成a1[2]，迭代上述步骤，从而生成第一帧音频频谱离散标识序列，最终通过重复上述步骤，完成总共K帧有声视频序列的生成。

其中，有声视频序列由视频图像帧离散标识序列以及音频频谱离散标识序列组成。

通过上述步骤，可以获取到与文本标识序列对应的视频图像帧离散标识序列以及音频频谱离散标识序列，并输入至音视频向量量化自编码器的编码器中。其中，将视频图像帧离散标识序列输入至视觉解码器以生成视频图像帧，将音频频谱离散标识序列输入至音频解码器以生成音频梅尔频谱。

进一步地，将视频图像帧输入至视频插帧模型以合成无声视频，将音频梅尔频谱输入至HiFiGAN解码器以合成音频信号。

其中，无声视频的时长与音频信号的时长相匹配。

最后，将无声视频与音频信号通过ffmpeg多媒体处理工具整合生成为有声视频。

本发明提供的有声视频生成方法，通过自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具，能够有效实现基于文本信息生成有声视频，能够有效关注到音频模态信息，满足用户的使用需求。

基于上述实施例的内容，作为一种可选实施例，音频转换模型，是采用以下步骤训练得到的：

步骤101，对每一文本样本对应的音视频样本进行预处理，获取各音视频样本对应的音频信号样本以及视频图像帧样本，并获取各音频信号样本对应的音频梅尔频谱样本。

步骤102，将任一音频梅尔频谱样本作为待训练音频转换模型的输入，将与任一音频梅尔频谱样本对应的音频信号样本，作为待训练音频转换模型的输出标签，对待训练音频转换模型进行预训练。

迭代执行步骤102，直至完成对待训练音频转换模型的预训练，获取训练好的音频转换模型。

具体地，在本实施例中可以通过在带有人工标注文本描述的AudioSet-Cap数据集中选择多个文本样本，并对获取到的多个文本样本中与每一文本样本对应的音视频样本进行预处理，以获取与各音视频样本对应的音频信号样本以及视频图像帧样本，例如可以通过预设的截取音视频样本的前一半部分作为音频信号样本以及视频图像帧样本。

进一步地，上述获取各音频信号样本对应的音频梅尔频谱样本的实施方式，可以通过对音频信号样本进行快速傅里叶变换以获取音频信号样本的线性频谱图，再通过带有梅尔频率刻度的滤波器组将音频信号样本的线性频谱图转换成对应的音频梅尔频谱样本。

然后将任一音频梅尔频谱样本作为待训练音频转换模型的输入，将与任一音频梅尔频谱样本对应的音频信号样本作为待训练音频转换模型的输出标签，以对待训练音频转换模型进行预训练。

进一步地，迭代执行上述对待训练音频转换模型进行预训练的步骤，直至完成对待训练音频转换模型的预训练，从而获取到训练好的音频转换模型。其中，可以通过预设训练条件来判断是否完成对待训练音频转换模型的预训练，例如可以预先设定好待训练音频转换模型的预训练次数为100次，则当迭代执行上述对待训练音频转换模型进行预训练的步骤100次后，则可以认为已完成对待训练音频转换模型的预训练。

本发明提供的有声视频生成方法，通过对音频转换模型进行预训练，提高音频转换模型的转换精度，从而提高生成的音频信号的精度，以便于后续合成与文本语义匹配性更好的有声视频。

基于上述实施例的内容，作为一种可选实施例，步骤101对每一文本样本对应的音视频样本进行预处理，获取各音视频样本对应的音频信号样本以及视频图像帧样本，并获取各音频信号样本对应的音频梅尔频谱样本，具体包括：

采用预设的采样帧率，对音视频样本进行稀疏采样，随机选取多个连续的视频帧构成视频片段，作为视频图像帧样本。

采用预设的音频采样率，对音视频样本进行采样，获取音频信号样本。

获取音频信号样本对应的梅尔频谱。

对梅尔频谱进行归一化处理，根据随机选取多个连续的视频帧的时间戳信息，截取梅尔频谱，得到与随机选取多个连续的视频帧时间对齐的梅尔频谱片段，构建音频梅尔频谱样本。

具体地，可以通过预设的采样帧率，对音视频样本进行稀疏采样，随机选取多个连续的视频帧构成视频片段，作为视频图像帧样本。其中，预设的采样帧率可以根据具体场景使用需求预先设定好，例如设定为8帧。

需要说明的是由于通过稀疏采样获取视频图像帧样本，具有计算收敛速度较快的优点。此外，可以通过视频插帧模型获得帧率更高的连续性无声视频。

进一步地，可通过预设的音频采样率，对音视频样本进行采样，获取音频信号样本。其中，预设的音频采样率可以根据具体场景使用需求预先设定好。

当获取到音频信号样本后，便可通过快速傅里叶变换得到音频信号样本的线性频谱图，再通过带有梅尔频率刻度的滤波器组将音频信号样本的线性频谱图转换成对应的梅尔频谱。

最后，基于获取到的音频信号样本对应的梅尔频谱，进行归一化处理，并根据随机选取多个连续的视频帧的时间戳信息，截取音频信号样本对应的梅尔频谱，从而得到与随机选取多个连续的视频帧时间对齐的梅尔频谱片段，并构建音频梅尔频谱样本，以确保视频图像与音频之间满足语义一致的关系。

本发明提供的有声视频生成方法，通过对音视频样本进行预处理以获得语义保持一致的视频图像帧样本以及音频梅尔频谱样本，以便于后续对音频转换模型的预训练，提高音频转换模型的性能。

基于上述实施例的内容，作为一种可选实施例，音视频向量量化自编码器的编码器包括视觉编码器和音频编码器，音视频向量量化自编码器的解码器包括视觉解码器和音频解码器；

音视频向量量化自编码器，是采用以下步骤训练得到的：

步骤201，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本。

步骤202，将音频梅尔频谱样本输入至音频编码器，获取音频量化编码；将音频量化编码输入至音频解码器，获取音频梅尔频谱重构样本。

步骤203，将视频图像帧样本输入至视觉编码器，获取视觉量化编码；将视觉量化编码输入至视觉解码器，获取视频图像帧重构样本。

步骤204，利用音频梅尔频谱重构样本与音频梅尔频谱样本、视频图像帧重构样本与视频图像帧样本之间的损失，对音视频向量量化自编码器进行预训练。

迭代执行步骤201至步骤204，直至完成对音视频向量量化自编码器的预训练，获取训练好的音视频向量量化自编码器。

其中，损失包括重构损失、量化编码损失、感知损失、对抗损失。

图4是本发明提供的音视频向量量化自编码器预训练的流程示意图，如图4所示，主要包括：

首先，通过对与任一文本样本对应的音视频样本进行预处理，以获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本。

然后，将音频梅尔频谱样本输入至音视频向量量化自编码器的音频编码器，获取到音频量化编码。其中，音频量化编码包括量化特征以及与量化特征对应的音频梅尔频谱样本离散标识序列。然后再将音频量化编码输入至音视频向量量化自编码器的音频解码器，获取音频梅尔频谱重构样本。

同理，将视频图像帧样本输入至音视频向量量化自编码器的视觉编码器，获取到视觉量化编码。其中视觉量化编码包括量化特征以及与量化特征对应的视频图像帧样本离散标识序列。然后再将视觉量化编码输入至音视频向量量化自编码器的视觉解码器，获取视频图像帧重构样本。

最后，通过音频梅尔频谱重构样本与音频梅尔频谱样本、视频图像帧重构样本与视频图像帧样本之间的损失，对音视频向量量化自编码器进行预训练。其中，损失包括重构损失、量化编码损失、感知损失、对抗损失。

通过迭代执行上述预训练步骤，直至完成对音视频向量量化自编码器的预训练，获取训练好的音视频向量量化自编码器。

其中，可以通过预设训练条件来判断是否完成对音视频向量量化自编码器的预训练。例如，可以预先设定训练目标为当视频图像帧重构样本与视频图像帧样本之间，以及音频梅尔频谱重构样本与音频梅尔频谱样本之间的重构损失最小化，音视频向量量化自编码器的编码器进行量化编码时的量化编码损失最小化、生成对抗式训练中生成器损失最大化以及判别器损失最小化时，则视为完成对音视频向量量化自编码器的预训练。

可选地，上述损失可以通过以下公式(1)以及公式(2)计算得到：

其中，为视频图像帧重构样本与视频图像帧样本之间的音视频向量量化自编码器的损失；/>为音频梅尔频谱重构样本与音频梅尔频谱样本之间的音视频向量量化自编码器的损失；v_i:j为第i帧到第j帧视频图像帧样本；/>为第i帧到第j帧视频图像帧重构样本；m_i:j为第i帧到第j帧音频梅尔频谱样本；/>为第i帧到第j帧音频梅尔频谱重构样本；sg为停止梯度操作；CNN为图像分类器特征提取模块；β为预设常数，可以通过实验预先获得；D^v为生成对抗式训练中的视觉判别器；D^a为生成对抗式训练中的音频判别器。

基于音频梅尔频谱重构样本与音频梅尔频谱样本、视频图像帧重构样本与视频图像帧样本，通过公式(1)和公式(2)可以计算出音视频向量量化自编码器的损失，并在达到预设的训练目标后，即可认为完成对音视频向量量化自编码器的预训练。

本发明提供的有声视频生成方法，通过判断在预训练过程中的音视频向量量化自编码器的损失是否满足预设的训练目标，从而确定是否完成对音视频向量量化自编码器的预训练，能够有效提高音视频向量量化自编码器的性能，以便于后续合成与文本语义匹配性更好的有声视频。

基于上述实施例的内容，作为一种可选实施例，在获取音频量化编码和获取视觉量化编码之前，还包括：

获取由视觉编码器提取的视觉特征以及由音频编码器提取的音频特征。

通过跨模态注意力模块关联视觉特征和音频特征，获取视频图像帧全局特征和音频频谱帧全局特征。

利用视频图像帧全局特征与视觉特征、音频频谱帧全局特征与音频特征之间的混合对比学习损失，训练视觉编码器和音频编码器。

另外，经研究发现只采用基本的和/>损失的话，在量化编码阶段缺乏跨模态关联，而跨模态关联在音视频量化编码中是十分重要的，否则容易出现视觉相似的视频图像帧样本被量化编码为相同的视频图像帧样本离散标识序列，而其对应的音频梅尔频谱样本差异较大时会得到不同的音频梅尔频谱样本离散标识序列，从而限制了单模态的量化编码和重构能力，也会在后续训练中引入噪声。

有鉴于此，如图4所示，本发明实施例提出在获取音频量化编码和获取视觉量化编码之前，通过跨模态注意力模块关联由视觉编码器提取的视觉特征以及由音频编码器提取的音频特征，以获取视频图像帧全局特征和音频频谱帧全局特征。

进一步地，本发明还结合混合对比学习，包括模态内对比学习和模态间对比学习，以提高音视频向量量化自编码器的量化编码性能。

其中，模态间对比学习用于构建跨模态关联，并提出基本的正负样本选择规则用于确定如何选择正负样本，进而根据正负样本完成模态间对比学习。例如，同一视频图像帧样本中的不同模态特征构成正样本，不同视频图像帧样本中的不同模态的特征构成负样本，利用不同模态的信息作为锚点实现不同语义的特征推远，相同语义的特征拉进。

为了防止特征偏离原模态，本发明额外引入模态内对比学习作为正则项。例如，统一视频图像帧样本中同模态的特征作为正样本，不同视频图像帧样本中的同模态特征为负样本。

可选地，视觉编码器提取视频图像帧样本中第i帧到第j帧的视觉特征其中，/>为第k帧的视觉特征，视频图像帧样本按帧进行量化编码。其中，d_v为视觉特征维度，/>和/>为视觉特征图的大小，H和W为原始图像帧大小，ds_v为视觉编码器的下采样数。例如，当H＝W＝128，ds_v＝16，即h＝w＝8，则每帧视觉特征离散标识序列长度为M＝64。

同理，音频编码器按片段提取音频梅尔频谱样本中的音频特征即视频图像帧样本中第i帧到第j帧对应的音频梅尔频谱片段。其中，/>d_a为音频特征维度，f×[(j-i)*t]为音频特征图大小，对应每帧大小为f×t，/>为频率维度的大小，ds_a为音频编码器下采样数，F为原始梅尔频谱划分的频段数，/>为每帧音频帧在时间维度上的特征图大小，T为视频图像帧样本时长，K为帧数。

例如，当ds_a＝8，f＝t＝5，则每帧音频标识离散标识序列长度为N＝25，相应地，视频图像帧样本总时长取K＝10帧，按音频采样率22500Hz的对应总时长T约为9.259秒，每帧音频帧对应一帧视觉图像帧，得视觉图像帧稀疏采样帧率为1.08fps。

需要说明的是，视觉特征和音频特征/>可以进一步通过音视频向量量化自编码器的视觉编码器以及音频编码器量化编码成离散标识序列和量化特征。

进一步地，跨模态注意力模块可以用于构建局部注意力关系，输入视觉编码器以及音频编码器提取的视觉特征和音频特征/>映射到一个公共语义空间得到/>和/>并进一步通过注意力层得到每一帧的视频图像帧全局特征和音频频谱帧全局特征。/>

其中，跨模态注意力层由音频到视觉注意力层和视觉到音频注意力层构成，每个注意力层可以通过公式(3)计算得到：

其中，输入的查询、键、值的特征分别为e^q、e^k和e^v；Q、K、V为线性层；d为隐藏层的维度；h为输出的注意力结果。

在音频到视觉注意力层中，以时间维度池化的音频特征作为查询，视觉特征/>作为键和值，从而得到每个频率对应的发声位置，得到的结果进一步在所有频率上平均值池化，得到音频相关的视频图像帧全局特征/>在视觉到音频注意力层中，以视觉全局特征/>作为查询，公共语义空间中的音频特征/>为键和值，可以得到视觉相关的音频频谱帧全局特征/>

进一步地，当获取每一帧的视频图像帧全局特征和音频频谱帧全局特征后，便可通过混合对比学习优化视觉编码器和音频编码器参数，其中，混合对比学习损失可以通过公式(4)计算得到：

其中，为混合对比学习损失；/>为对比损失函数；H^v为一次预训练过程中所有视频图像帧全局特征/>的集合；H^a为一次预训练过程中所有音频频谱帧全局特征/>的集合。

需要说明的是，本发明提出三项正负样本筛选精细化策略，包括基于视觉-音频相似度的跨模态正样本筛选、基于文本语义的负样本筛选和基于时间窗的正样本筛选。

经研究还发现，并非所有的视频的视觉内容和声音内容是相关的，即并非所有相同视频图像帧样本的视觉模态和声音模态可以构成正样本，故本发明所提供的实施例，采用音频类别词构成的句子和视觉图像帧之间的CLIP相似度作为是否构成跨模态正样本的判断依据。

此外，并非所有不同视频图像帧样本中的特征会构成负样本，因为不同视频图像帧样本的内容可能是相似甚至相同，故本发明所提供的实施例，采用文本描述的BERT相似度作为是否构成负样本的判断依据。

最后，并非同一视频中的所有时间位置的特征构成正样本，因为视频内容可能随着时间发生变换，故本发明所提供的实施例，将正样本的选取维持在一个固定大小的时间窗中。

基于上述正负样本筛选精细化策略，本发明提供的对比损失函数可以表达为：/>

其中，H₁与H₂为一次预训练过程中所有视频图像帧全局特征的集合或所有音频频谱帧全局特征/>的集合；/>为指示函数，当判定h_l所在的视频图像帧样本的视觉声音相似度太低时，/>否则为1；/>为指示函数，当判定h_l,h_n所在的视频图像帧样本文本内容相似度过高时，/>否则为1；/>为指示函数，当判定h_l,h_m所在的时间戳位置相距大于设定的时间窗大小时，否则为1；/>为正样本部分；/>为负样本部分；ζ用于平衡不同负样本数带来的数值浮动；τ为混合对比损失学习中的超参数，可以设定取值为0.07。

因此，当获取到混合对比学习损失后，便可进一步计算出音视频向量量化自编码器的损失，具体可由以下公式(5)计算得到：

其中，为音视频向量量化自编码器的损失；α为混合对比学习损失系数，可以取值为1.0。

因此，预设的训练目标可以在当视频图像帧重构样本与视频图像帧样本之间，以及音频梅尔频谱重构样本与音频梅尔频谱样本之间的重构损失最小化，音视频向量量化自编码器的编码器进行量化编码时的量化编码损失最小化、生成对抗式训练中生成器损失最大化以及判别器损失最小化时，则视为完成对音视频向量量化自编码器的预训练的基础上，还需要满足混合对比学习损失最小化。

本发明提供的有声视频生成方法，通过加入混合对比学习方法的音视频向量量化自编码器，实现有效利用多模态信息增强视觉编码器和音频编码器的量化编码能力，在重构效果和生成效果上都得到了提升。

基于上述实施例的内容，作为一种可选实施例，所述自回归音视频序列生成模型，是采用以下步骤训练得到的：

步骤301，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本，并获取所述任一文本样本对应的文本标识序列样本。

步骤302，将所述音频梅尔频谱样本和所述视频图像帧样本输入至所述音视频向量量化自编码器，获取视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本。

步骤303，由所述文本标识序列样本、所述视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本，构建一个三模态联合训练样本。

步骤304，利用所述三模态联合训练样本对所述自回归音视频序列生成模型进行自回归训练。

迭代执行步骤301至步骤304，直至完成对所述自回归音视频序列生成模型的预训练，获取训练好的所述自回归音视频序列生成模型。

图5是本发明提供的自回归音视频序列生成模型的预训练的流程示意图，如图5所示，主要包括：

首先，获取任一文本样本，以及与该文本样本对应的音频梅尔频谱样本以及视频图像帧样本，并可以通过字节对(Byte Pair Encoder，BPE)编码方法获取与文本样本对应的文本标识序列样本X^T＝[TXT],t[1]…,t[L]}。

再将视频图像帧样本输入至音视频向量量化自编码器，通过视觉编码器获取视频图像帧离散标识序列样本，其中，第k帧视频图像帧离散标识序列样本表示为

同理，将音频梅尔频谱样本输入至音视频向量量化自编码器，通过音频编码器获取音频频谱离散标识序列样本，其中，第k帧音频频谱离散标识序列样本表示为

然后，将文本标识序列样本、视频图像帧离散标识序列样本和音频频谱离散标识序列样本构建成一个三模态联合训练样本。

最后通过三模态联合训练样本对自回归音视频序列生成模型进行自回归训练。

例如，如图5所示，长度为L的文本标识序列样本、每帧长度为M的总共K帧的视频图像帧离散标识序列样本、每帧长度为N的总共K帧的音频频谱离散标识序列样本，构建成一个三模态联合训练样本，同时输入至自回归式三模态联合Transformer神经网络Decoder模型，并行处理所有输入的标识，并采用自回归式预训练，即通过输入一个已知标识的情况预测输出下一个标识的训练方式，例如输入为文本标识序列样本中的t[1]时，期望的输出结果为下一个标识t[2]。

当并行处理所有输入的标识序列后，基于输出的标识序列计算自回归损失。

迭代执行上述步骤，直至完成对自回归音视频序列生成模型的预训练，获取训练好的所述自回归音视频序列生成模型。其中，可以通过预设训练目标来判断是否完成对自回归音视频序列生成模型的预训练。例如，可以通过判断自回归损失是否最小化来判断是否完成自回归音视频序列生成模型的预训练。

可选地，自回归损失的计算过程可以表示为：

/>

其中，为文本标识序列样本的自回归损失；/>为视频图像帧离散标识序列样本的自回归损失；/>为音频频谱离散标识序列样本的自回归损失；γ^t、γ^v、γ^a分别为文本标识序列样本的自回归损失、视频图像帧离散标识序列样本的自回归损失、音频频谱离散标识序列样本的自回归损失的损失权重；/>分别为文本、视频和音频标识的指示函数；X_i为标识序列样本X中的第i个标识；S为标识序列样本X的长度；为按损失权重加权后的自回归损失。

本发明提供的有声视频生成方法，通过对自回归音视频序列生成模型进行自回归训练，并通过计算自回归损失判断是否完成对自回归音视频序列生成模型的预训练，能够有效提高自回归音视频序列生成模型的性能，以便于后续合成与文本语义匹配性更好的有声视频。

基于上述实施例的内容，作为一种可选实施例，步骤303由文本标识序列样本、视频图像帧离散标识序列样本和音频频谱离散标识序列样本，构建一个三模态联合训练样本，具体包括：

按照时间顺序，对视频图像帧离散标识序列样本和音频频谱离散标识序列样本，进行按帧拼接处理，得到拼接后的双模态标识序列；

将所文本标识序列样本和双模态标识序列，进行拼接处理，得到拼接后的三模态标识序列；

基于拼接后的三模态标识序列和预设序列长度，获取三模态联合训练样本。

具体地，当获取到视频图像帧离散标识序列样本以及音频频谱离散标识序列样本后，可以进行按帧拼接处理，得到拼接后的双模态标识序列。

例如，第k帧视频图像帧离散标识序列样本为第k帧音频频谱离散标识序列样本为/>则将第k帧视频图像帧离散标识序列样本与第k帧音频频谱离散标识序列样本拼接处理为第k帧双模态标识序列/>同理可以将第k+1帧视频图像帧离散标识序列样本以及第k+1帧视频图像帧离散标识序列样本/>拼接处理为第k+1帧双模态标识序列/>

进一步地，将文本标识序列样本和双模态标识序列，进行拼接处理，得到拼接后的三模态标识序列；

例如，获取到的文本标识序列样本X^T与双模态标识序列进行拼接后构成三模态标识序列

最后，基于拼接后的三模态标识序列和预设序列长度，获取三模态联合训练样本。其中，预设序列长度可以根据具体场景使用需求预先设定好，例如设定为50帧。

需要说明的是，按照这种模态交替的序列格式生成三模态联合训练样本，从第一帧开始就始终关注到三个模态的信息，不仅可以保持时序上的对齐，还可以通过多模态信息提升离散标识序列的生成质量，以便于后续合成与文本语义匹配性更好的有声视频。

本发明提供的有声视频生成方法，通过结合三个模态的信息构建三模态联合训练样本，能够始终关注到多模态信息，不仅可以保持时序上的对齐，还可以通过多模态信息提升离散标识序列的生成质量，以便于后续合成与文本语义匹配性更好的有声视频。

基于上述实施例的内容，作为一种可选实施例，对待推理文本进行预处理，得到待推理文本对应的文本标识序列，具体包括：

基于字节对编码方法，对对待推理文本进行编码，得到对待推理文本对应的文本标识序列。

具体地，字节对编码BPE方法是一种常见的数据压缩形式的编码方法，可以通过构建词表，将将待推理文本中文本语句的字、词组等进行离散化编码，确定各个字、词组等元素标识，从而得到待推理文本的文本标识序列。

本发明提供的有声视频生成方法，通过字节对编码方法，能够有效识别待推理文本的语义，进而生成与语义匹配性更好的文本标识序列。

图6是本发明提供的有声视频生成装置的结构示意图，如图6所示，主要包括：文本处理模块601和视频生成模块602，其中：

文本处理模块601，用于对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列。

视频生成模块602，用于将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频。

需要说明的是，本发明实施例提供的有声视频生成装置，在具体运行时，可以执行上述任一实施例所述的有声视频生成方法，对此本实施例不作赘述。

本发明提供的有声视频生成装置，通过有声视频生成模型生成有声视频，能够实现同时生成视频信号及音频信号，进而根据视频信号及音频信号合成与待推理文本语义相匹配的、泛化性较好的有声视频，能够有效关注到音频模态信息，为人工智能研究提供重要的数据，有效满足用户的使用需求。

图7是本发明提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行有声视频生成方法，该方法包括：对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所提供的有声视频生成方法，该方法包括：对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的有声视频生成方法，该方法包括：对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种有声视频生成方法，其特征在于，包括：

对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；

将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；

其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。

2.根据权利要求1所述的有声视频生成方法，其特征在于，所述将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频，包括：

步骤21，将所述文本标识序列输入至所述自回归音视频序列生成模型，生成所述文本标识序列对应的视频图像帧离散标识序列以及音频频谱离散标识序列；

步骤22，将所述视频图像帧离散标识序列和音频频谱离散标识序列输入至所述音视频向量量化自编码器的解码器，生成视频图像帧以及音频梅尔频谱；

步骤23，将所述生成视频图像帧输入至所述视频插帧模型，合成无声视频；

步骤24，将所述音频梅尔频谱输入至所述音频转换模型，合成音频信号；所述无声视频的时长与所述音频信号的时长相匹配；

步骤25，将所述无声视频和所述音频信号输入至所述音视频处理工具，生成所述有声视频。

3.根据权利要求1所述的有声视频生成方法，其特征在于，所述自回归音视频序列生成模型为自回归式三模态联合Transformer神经网络Decoder模型；

和/或，所述音视频向量量化自编码器为SVG-VQGAN模型；

和/或，所述音频转换模型为HiFiGAN解码器；

和/或，所述音视频处理工具为ffmpeg多媒体处理工具；

和/或，所述视频插帧模型是基于帧插值神经网络模型构建的。

4.根据权利要求2所述的有声视频生成方法，其特征在于，所述音频转换模型，是采用以下步骤训练得到的：

步骤101，对每一文本样本对应的音视频样本进行预处理，获取各音视频样本对应的音频信号样本以及视频图像帧样本，并获取各音频信号样本对应的音频梅尔频谱样本；

步骤102，将任一所述音频梅尔频谱样本作为待训练音频转换模型的输入，将与所述任一所述音频梅尔频谱样本对应的所述音频信号样本，作为所述待训练音频转换模型的输出标签，对所述待训练音频转换模型进行预训练；

迭代执行步骤102，直至完成对所述待训练音频转换模型的预训练，获取训练好的所述音频转换模型。

5.根据权利要求4所述的有声视频生成方法，其特征在于，所述步骤101，具体包括：

采用预设的采样帧率，对所述音视频样本进行稀疏采样，随机选取多个连续的视频帧构成视频片段，作为所述视频图像帧样本；

采用预设的音频采样率，对所述音视频样本进行采样，获取所述音频信号样本；

获取所述音频信号样本对应的梅尔频谱；

对所述梅尔频谱进行归一化处理，根据所述随机选取多个连续的视频帧的时间戳信息，截取所述梅尔频谱，得到与所述随机选取多个连续的视频帧时间对齐的梅尔频谱片段，构建所述音频梅尔频谱样本。

6.根据权利要求4所述的有声视频生成方法，其特征在于，所述音视频向量量化自编码器的编码器包括视觉编码器和音频编码器，所述音视频向量量化自编码器的解码器包括视觉解码器和音频解码器；

所述音视频向量量化自编码器，是采用以下步骤训练得到的：

步骤201，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本；

步骤202，将所述音频梅尔频谱样本输入至所述音频编码器，获取音频量化编码；将所述音频量化编码输入至所述音频解码器，获取音频梅尔频谱重构样本；

步骤203，将所述视频图像帧样本输入至所述视觉编码器，获取视觉量化编码；将所述视觉量化编码输入至所述视觉解码器，获取视频图像帧重构样本；

步骤204，利用所述音频梅尔频谱重构样本与所述音频梅尔频谱样本、所述视频图像帧重构样本与所述视频图像帧样本之间的损失，对所述音视频向量量化自编码器进行预训练；

迭代执行步骤201至步骤204，直至完成对所述音视频向量量化自编码器的预训练，获取训练好的所述音视频向量量化自编码器；

所述损失包括重构损失、量化编码损失、感知损失、对抗损失。

7.根据权利要求6所述的有声视频生成方法，其特征在于，在获取所述音频量化编码和获取所述视觉量化编码之前，还包括：

获取由所述视觉编码器提取的视觉特征以及由所述音频编码器提取的音频特征；

通过跨模态注意力模块关联所述视觉特征和所述音频特征，获取视频图像帧全局特征和音频频谱帧全局特征；

利用所述视频图像帧全局特征与所述视觉特征、所述音频频谱帧全局特征与所述音频特征之间的混合对比学习损失，训练所述视觉编码器和所述音频编码器。

8.根据权利要求4-7任一项所述的有声视频生成方法，其特征在于，所述自回归音视频序列生成模型，是采用以下步骤训练得到的：

步骤301，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本，并获取所述任一文本样本对应的文本标识序列样本；

步骤302，将所述音频梅尔频谱样本和所述视频图像帧样本输入至所述音视频向量量化自编码器，获取视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本；

步骤303，由所述文本标识序列样本、所述视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本，构建一个三模态联合训练样本；

步骤304，利用所述三模态联合训练样本对所述自回归音视频序列生成模型进行自回归训练；

9.根据权利要求8所述的有声视频生成方法，其特征在于，所述步骤303，具体包括：

按照时间顺序，对所述视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本，进行按帧拼接处理，得到拼接后的双模态标识序列；

将所文本标识序列样本和所述双模态标识序列，进行拼接处理，得到拼接后的三模态标识序列；

基于所述拼接后的三模态标识序列和预设序列长度，获取所述三模态联合训练样本。

10.根据权利要求1所述的有声视频生成方法，其特征在于，所述对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列，具体包括：

基于字节对编码方法，对所述对待推理文本进行编码，得到所述对待推理文本对应的文本标识序列。

11.一种有声视频生成装置，其特征在于，包括：

文本处理模块，用于对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；

视频生成模块，用于将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；

12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述有声视频生成方法。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述有声视频生成方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述有声视频生成方法。