CN117690415A

CN117690415A - 音频描述信息生成方法、装置、电子设备及存储介质

Info

Publication number: CN117690415A
Application number: CN202410143148.4A
Authority: CN
Inventors: 汪伟飞; 唐帅; 吴凌翔; 王金桥
Original assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Current assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-03-12
Anticipated expiration: 2044-02-01

Abstract

本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质，属于信息处理技术领域，所述方法包括：获取文本信息转化的音频数据以及所述音频数据的元数据；基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息；所述第一提示信息是基于所述元数据确定的。本发明可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联，使得生成的描述信息更具表现力和音频元素的表达能力，大大提升了生成音频描述信息的质量，比人工标注效率更高，可以很好地适用于大规模数据集的应用场景。

Description

音频描述信息生成方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种音频描述信息生成方法、装置、电子设备及存储介质。

背景技术

文生音乐是一种前沿的音频生成任务，旨在将文本描述转化为音乐。这种任务对于创造性音频内容的生成提出了更高的要求，需要更准确、语义更丰富的描述（Caption）。

传统生成音频描述的方法主要是通过人工标注的形式，采用标注规范，通过定义一系列标准化的音频描述规则，借助人工对音频进行标注。然而，上述传统方法受制于人力，不仅费时费力，而且标注质量难以保障，特别是在大规模数据集上的应用场景中存在明显的局限性。

发明内容

本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质，用以解决传统方法受制于人力，不仅费时费力，而且标注质量难以保障，特别是在大规模数据集上的应用场景中存在明显的局限性的缺陷。

本发明提供一种音频描述信息生成方法，包括：

获取文本信息转化的音频数据以及所述音频数据的元数据；

基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息；所述第一提示信息是基于所述元数据确定的。

根据本发明提供的一种音频描述信息生成方法，所述基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息，包括：

至少两次将所述音频数据重复输入至预设的音频描述生成模型，得到所述音频描述生成模型每次生成的第一伪描述信息，以获取多个所述第一伪描述信息；

将所述元数据和所述第一提示信息输入至预设的大语言模型，得到所述大语言模型输出的第二伪描述信息；

基于多个所述第一伪描述信息和所述第二伪描述信息，生成所述音频数据的描述信息。

根据本发明提供的一种音频描述信息生成方法，所述基于多个所述第一伪描述信息和所述第二伪描述信息，生成所述音频数据的描述信息，包括：

基于多个所述第一伪描述信息和所述第二伪描述信息，配置第二提示信息；

将多个所述第一伪描述信息、所述第二伪描述信息和所述第二提示信息输入至所述大语言模型，得到所述大语言模型输出的所述音频数据的描述信息。

根据本发明提供的一种音频描述信息生成方法，所述元数据包括标签、文件名和原始描述中的至少两类数据；在所述基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息之前，所述方法还包括：

根据所述标签、所述文件名和所述原始描述中的至少两类数据，配置所述第一提示信息。

根据本发明提供的一种音频描述信息生成方法，所述音频数据的描述信息为外文描述信息；在所述基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息之后，所述方法还包括：

对所述音频数据对应的外文描述信息进行翻译处理，得到所述音频数据对应的目标语言下的描述信息。

根据本发明提供的一种音频描述信息生成方法，在所述获取文本信息转化的音频数据以及所述音频数据的元数据之后，所述方法还包括：

将所述元数据翻译为目标语言下的元数据，并基于所述音频数据的元数据，配置所述目标语言下的第三提示信息；

将所述目标语言下的元数据和所述目标语言下的第三提示信息输入至预设的大语言模型，得到所述大语言模型输出的所述音频数据对应的目标语言下的描述信息。

本发明还提供一种音频描述信息生成装置，包括：

获取模块，用于获取文本信息转化的音频数据以及所述音频数据的元数据；

生成模块，用于基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息；所述第一提示信息是基于所述元数据确定的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述音频描述信息生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述音频描述信息生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述音频描述信息生成方法。

本发明提供的音频描述信息生成方法、装置、电子设备及存储介质，通过充分利用音频本身的多模态信息，包括文本信息转化的音频数据本身以及音频数据的元数据，根据音频数据的元数据设计提示信息，以引导后续语言模型的准确输出，进而利用音频数据本身、元数据和设计好的提示信息智能生成音频数据的描述信息，可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联，使得生成的描述信息更具表现力和音频元素的表达能力，大大提升了生成音频描述信息的质量，比人工标注效率更高，可以很好地适用于大规模数据集的应用场景。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的音频描述信息生成方法的流程示意图；

图2是本发明提供的音频描述信息生成装置的结构示意图；

图3是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合图1-图3描述本发明的音频描述信息生成方法、装置、电子设备及存储介质。

图1是本发明提供的音频描述信息生成方法的流程示意图，如图1所示，包括：

步骤110，获取文本信息转化的音频数据以及音频数据的元数据；

步骤120，基于音频数据、元数据和第一提示信息，生成音频数据的描述信息；第一提示信息是基于元数据确定的。

具体地，本发明实施例所描述的音频数据指的是通过文本信息转化得到的音频数据，其具体可以是音乐形式的音频数据，或语音形式的音频数据等。

本发明实施例所描述的音频数据的元数据（Metadata）主要包括音频文件的文件名、标签信息和原始描述信息，其中，标签信息可以包括格式、时长、采样率、比特率等信息，原始描述信息包括对音频内容的简略介绍等原始信息。

其中，文件名和格式是最基本的元数据信息，可以用于识别和播放音频文件；时长和采样率等信息则可以用于判断音频质量和适用场景；比特率则表示音频文件的数据压缩程度，可以影响音频文件的质量和大小。

现有模型训练方法依赖于庞大的数据集，但公开数据有限，导致模型性能不足，并且这个过程中忽略了音频的元数据信息，导致生成的描述信息质量难以保证。

本发明实施例所描述的第一提示（Prompt）信息指的是根据音频数据的元数据进行设计的提示信息。

其中，提示信息用于创建提示或指导语言模型的输出过程，它允许用户控制语言模型的输出并生成符合特定需求的文本信息。

现有技术中还存在语言模型生成音频描述信息的方法，但是其主要关注音频的原始描述，对音频数据本身的特征未能充分利用，导致生成结果的语义准确性不足。

在本发明的实施例中，步骤110中，通过常用文生音频模型可以将用户需要处理的文本信息转化成对应的音频数据，获取该音频数据，并获取生成的音频数据本身的元数据，充分利用音频数据本身的特征。

基于上述实施例的内容，作为一种可选的实施例，元数据包括标签、文件名和原始描述中的至少两类数据；在步骤120，基于音频数据、元数据和第一提示信息，生成音频数据的描述信息之前，该方法还包括：

根据标签、文件名和原始描述中的至少两类数据，配置第一提示信息。

具体地，在本发明的实施例中，充分利用音频数据本身的特征数据，根据标签（tag）、文件名（filename）和原始描述（raw description）中的至少两类数据，配置第一提示信息。

可选地，在本发明的实施例中，采用标签、文件名和原始描述三类数据来配置第一提示信息。

对于不同类型的元数据信息，提示要进行相应的修改。

在本发明的一个具体实施例中，语言模型采用GPT-4模型，其是OpenAI为聊天机器人Chat GPT发布的一款语言模型。由于GPT-4模型处理英文的效果要好于中文，因此，将提示的配置信息用英文来表示，具体表示如下表1所示。

本发明实施例的方法，通过充分利用音频数据的元数据信息，利用不同类型的元数据设计语言模型的提示，更准确地提示及引导语言模型的输出，帮助模型更好地理解和完成任务，有利于提升生成的音频数据描述信息的质量。

表1

进一步地，在本发明的实施例中，步骤120中，可以利用音频到文本的神经网络模型，如Transformer模型等，以及语言模型，如大语言模型（Large Language Model，LLM），基于音频数据、元数据和第一提示信息进行特征提取及数据处理，最终生成音频数据的描述信息。

本发明实施例的音频描述信息生成方法，通过充分利用音频本身的多模态信息，包括文本信息转化的音频数据本身以及音频数据的元数据，根据音频数据的元数据设计提示信息，以引导后续语言模型的准确输出，进而利用音频数据本身、元数据和设计好的提示信息智能生成音频数据的描述信息，可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联，使得生成的描述信息更具表现力和音频元素的表达能力，大大提升了生成音频描述信息的质量，比人工标注效率更高，可以很好地适用于大规模数据集的应用场景。

基于上述实施例的内容，作为一种可选的实施例，步骤120，基于音频数据、元数据和第一提示信息，生成音频数据的描述信息，包括：

至少两次将音频数据重复输入至预设的音频描述生成模型，得到音频描述生成模型每次生成的第一伪描述信息，以获取多个第一伪描述信息；

将元数据和第一提示信息输入至预设的大语言模型，得到大语言模型输出的第二伪描述信息；

基于多个第一伪描述信息和第二伪描述信息，生成音频数据的描述信息。

具体地，本发明实施例所描述的音频描述生成模型指的是支持自动音频描述（Automatic Audio Captioning，AAC）生成任务的模型，如基于编解码（Encoder-Decoder）架构，或Transformer网络等构建的常规AAC任务模型。

本发明实施例所描述的第一伪描述（Pseudo Caption）信息指的是基于音频描述生成模型对音频数据本身进行描述信息提取所生成的描述信息。

本发明实施例所描述的第二伪描述信息指的是基于大语言模型对元数据和第一提示信息进行文本信息处理所得到的描述信息。

需要说明的是，在本发明的实施例中，大语言模型可以采用GPT系列的语言模型，如GPT-3.5、GPT-4等，也可以采用国产大语言模型GLM模型等。

在本发明的实施例中，至少两次将音频数据重复输入至预设的音频描述生成模型中，得到音频描述生成模型每次生成的第一伪描述信息，从而可以获取多个第一伪描述信息。

需要说明的是，至少两次将音频数据重复输入至音频描述生成模型，也就是说，对于音频数据输入音频描述生成模型，可以重复输入2次、3次、4次，或者更多次，由此，每次可以通过模型生成一个第一伪描述信息，获取到多个第一伪描述信息。

进一步地，在本发明的实施例中，将音频数据的元数据，如音频数据的标签、文件名和原始描述，以及第一提示信息输入至大语言模型进行自然语言语义语法的处理，得到大语言模型输出的第二伪描述信息。利用得到的多个第一伪描述信息和第二伪描述信息进行描述信息的优化，生成音频数据的描述信息。

本发明实施例的方法，通过利用音频描述生成模型多次生成同一音频数据的伪描述信息，保证生成描述信息的多样性，提高了音频数据描述信息生成的可靠性和语义准确性，有效避免了单一生成结果的局限性。

基于上述实施例的内容，作为一种可选的实施例，基于多个第一伪描述信息和第二伪描述信息，生成音频数据的描述信息，包括：

基于多个第一伪描述信息和第二伪描述信息，配置第二提示信息；

将多个第一伪描述信息、第二伪描述信息和第二提示信息输入至大语言模型，得到大语言模型输出的音频数据的描述信息。

具体地，本发明实施例所描述的第二提示信息指的是根据多个第一伪描述信息和第二伪描述信息进行设计的提示信息。

进一步地，在本发明的实施例中，将多个第一伪描述信息、第二伪描述信息和第二提示信息输入至大语言模型进行自然语言语义语法的处理，最终可以得到音频数据的描述信息。

可选地，在本发明的一个具体实施例中，对于同一条音频数据，输入音频描述生成模型，重复调用模型4次，即重复将该音频数据重复输入至音频描述生成模型4次，可以生成4个伪描述信息。基于音频数据的元数据信息设计提示，将元数据信息和提示输入至GPT-4模型中，生成1个伪描述信息。最后，将上述生成的5个伪描述信息，再次设计对应的提示，将5个伪描述信息和对应的提示信息再输入至GPT-4模型中，最终可以在最大程度上节省计算资源的同时，生成高质量的音频数据描述信息。

其中，根据5个伪描述信息设计的提示可以表示如下：

“我将给你五个声音描述，你的目标是生成一个单句音频描述，总结这些描述的声音事件。

{输入5 个声音描述}

输出格式示例: {"描述": "生成的描述"}”。

本发明实施例的方法，通过利用不同模型生成多个伪描述，根据这些伪描述进一步设计提示，可以有效地对生成的音频描述信息进行优化，提高了生成的音频描述信息的可靠性，提升音频描述信息的生成质量。

基于上述实施例的内容，作为一种可选的实施例，音频数据的描述信息为外文描述信息；在基于音频数据、元数据和第一提示信息，生成音频数据的描述信息之后，该方法还包括：

对音频数据对应的外文描述信息进行翻译处理，得到音频数据对应的目标语言下的描述信息。

现有技术生成的描述主要以英文为主，未能满足多语言应用需求，尤其是中文领域的应用。

具体地，本发明实施例所描述的音频数据的外文描述信息主要指的是英文描述信息。

本发明实施例中，采用性能优异的大语言模型GPT-4，其处理英文的效果要好于中文，因此，过程中生成的描述信息均为英文，以及的设计的提示也是英文。

本发明实施例所描述的目标语言指的是用户所需生成的描述信息的语言表示，可以包括除英文以外的其他语言，如中文、俄文、法文等等语言，其具体可以根据用户的需要进行设定。

在本发明的实施例中，在得到音频数据的描述信息之后，进一步采用翻译软件，对音频数据对应的外文描述信息进行翻译处理，得到音频数据对应的目标语言下的描述信息，如中文版本的描述信息，满足不同用户的需求。

本发明实施例的方法，通过充分利用音频数据自身的数据特征生成相应的描述，同时进行优化，最后将描述翻译成中文，使其更符合中文语境，更精准地反映音频数据的内容，可以提升生成音频数据描述信息的适用性。

基于上述实施例的内容，作为一种可选的实施例，在获取文本信息转化的音频数据以及音频数据的元数据之后，该方法还包括：

将元数据翻译为目标语言下的元数据，并基于音频数据的元数据，配置目标语言下的第三提示信息；

将目标语言下的元数据和目标语言下的第三提示信息输入至预设的大语言模型，得到大语言模型输出的音频数据对应的目标语言下的描述信息。

具体地，本发明实施例所描述的第三提示信息指的是根据音频数据的元数据所设计的目标语言下的提示信息，如中文提示信息。

进一步地，在本发明的实施例中，可以直接将音频数据的元数据翻译为目标语言下的元数据来表示，并可以根据音频数据的元数据直接设计为目标语言下的提示信息。

进一步地，在本发明的实施例中，将目标语言下的元数据和目标语言下的第三提示信息输入至预设的大语言模型进行自然语言语义语法的处理，快捷地得到大语言模型输出的音频数据对应的目标语言下的描述信息。

本发明实施例的方法，通过利用目标语言下的元数据，直接设计目标语言的提示信息，引导模型按照目标语言进行描述信息的生成，可以快速获取到满足用户需求的目标语言下的音频描述信息，提高音频描述信息生成的效率，提升用户体验。

下面对本发明提供的音频描述信息生成装置进行描述，下文描述的音频描述信息生成装置与上文描述的音频描述信息生成方法可相互对应参照。

图2是本发明提供的音频描述信息生成装置的结构示意图，如图2所示，包括：依次连接的获取模块210和生成模块220。

其中，获取模块210，用于获取文本信息转化的音频数据以及音频数据的元数据；

生成模块220，用于基于音频数据、元数据和第一提示信息，生成音频数据的描述信息；第一提示信息是基于元数据确定的。

本实施例所述的音频描述信息生成装置可以用于执行上述音频描述信息生成方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例的音频描述信息生成装置，通过充分利用音频本身的多模态信息，包括文本信息转化的音频数据本身以及音频数据的元数据，根据音频数据的元数据设计提示信息，以引导后续语言模型的准确输出，进而利用音频数据本身、元数据和设计好的提示信息智能生成音频数据的描述信息，可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联，使得生成的描述信息更具表现力和音频元素的表达能力，大大提升了生成音频描述信息的质量，比人工标注效率更高，可以很好地适用于大规模数据集的应用场景。

基于上述实施例的内容，作为一种可选的实施例，生成模块220具体包括：

第一生成子模块，用于至少两次将音频数据重复输入至预设的音频描述生成模型，得到音频描述生成模型每次生成的第一伪描述信息，以获取多个第一伪描述信息；

第一输出子模块，用于将元数据和第一提示信息输入至预设的大语言模型，得到大语言模型输出的第二伪描述信息；

第二生成子模块，用于基于多个第一伪描述信息和第二伪描述信息，生成音频数据的描述信息。

基于上述实施例的内容，作为一种可选的实施例，第二生成子模块具体用于：

基于上述实施例的内容，作为一种可选的实施例，元数据包括标签、文件名和原始描述中的至少两类数据；该装置具体还用于：

基于上述实施例的内容，作为一种可选的实施例，该装置具体还用于：

图3是本发明提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器（processor）310、通信接口（Communications Interface）320、存储器（memory）330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行上述各方法所提供的音频描述信息生成方法，该方法包括：获取文本信息转化的音频数据以及所述音频数据的元数据；基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息；所述第一提示信息是基于所述元数据确定的。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的音频描述信息生成方法，该方法包括：获取文本信息转化的音频数据以及所述音频数据的元数据；基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息；所述第一提示信息是基于所述元数据确定的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的音频描述信息生成方法，该方法包括：获取文本信息转化的音频数据以及所述音频数据的元数据；基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息；所述第一提示信息是基于所述元数据确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频描述信息生成方法，其特征在于，包括：

获取文本信息转化的音频数据以及所述音频数据的元数据；

2.根据权利要求1所述的音频描述信息生成方法，其特征在于，所述基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息，包括：

3.根据权利要求1所述的音频描述信息生成方法，其特征在于，所述元数据包括标签、文件名和原始描述中的至少两类数据；在所述基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息之前，所述方法还包括：

4.根据权利要求1-3任一项所述的音频描述信息生成方法，其特征在于，所述音频数据的描述信息为外文描述信息；在所述基于所述音频数据、所述元数据和第一提示信息，生成所述音频数据的描述信息之后，所述方法还包括：

5.根据权利要求1-3任一项所述的音频描述信息生成方法，其特征在于，在所述获取文本信息转化的音频数据以及所述音频数据的元数据之后，所述方法还包括：

6.一种音频描述信息生成装置，其特征在于，包括：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述音频描述信息生成方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述音频描述信息生成方法。