CN117690415A - 音频描述信息生成方法、装置、电子设备及存储介质 - Google Patents

音频描述信息生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117690415A
CN117690415A CN202410143148.4A CN202410143148A CN117690415A CN 117690415 A CN117690415 A CN 117690415A CN 202410143148 A CN202410143148 A CN 202410143148A CN 117690415 A CN117690415 A CN 117690415A
Authority
CN
China
Prior art keywords
audio data
description information
information
audio
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410143148.4A
Other languages
English (en)
Other versions
CN117690415B (zh
Inventor
汪伟飞
唐帅
吴凌翔
王金桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Artificial Intelligence Research Institute
Institute of Automation of Chinese Academy of Science
Original Assignee
Wuhan Artificial Intelligence Research Institute
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Artificial Intelligence Research Institute, Institute of Automation of Chinese Academy of Science filed Critical Wuhan Artificial Intelligence Research Institute
Priority to CN202410143148.4A priority Critical patent/CN117690415B/zh
Priority claimed from CN202410143148.4A external-priority patent/CN117690415B/zh
Publication of CN117690415A publication Critical patent/CN117690415A/zh
Application granted granted Critical
Publication of CN117690415B publication Critical patent/CN117690415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质,属于信息处理技术领域,所述方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。本发明可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。

Description

音频描述信息生成方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种音频描述信息生成方法、装置、电子设备及存储介质。
背景技术
文生音乐是一种前沿的音频生成任务,旨在将文本描述转化为音乐。这种任务对于创造性音频内容的生成提出了更高的要求,需要更准确、语义更丰富的描述(Caption)。
传统生成音频描述的方法主要是通过人工标注的形式,采用标注规范,通过定义一系列标准化的音频描述规则,借助人工对音频进行标注。然而,上述传统方法受制于人力,不仅费时费力,而且标注质量难以保障,特别是在大规模数据集上的应用场景中存在明显的局限性。
发明内容
本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质,用以解决传统方法受制于人力,不仅费时费力,而且标注质量难以保障,特别是在大规模数据集上的应用场景中存在明显的局限性的缺陷。
本发明提供一种音频描述信息生成方法,包括:
获取文本信息转化的音频数据以及所述音频数据的元数据;
基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。
根据本发明提供的一种音频描述信息生成方法,所述基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息,包括:
至少两次将所述音频数据重复输入至预设的音频描述生成模型,得到所述音频描述生成模型每次生成的第一伪描述信息,以获取多个所述第一伪描述信息;
将所述元数据和所述第一提示信息输入至预设的大语言模型,得到所述大语言模型输出的第二伪描述信息;
基于多个所述第一伪描述信息和所述第二伪描述信息,生成所述音频数据的描述信息。
根据本发明提供的一种音频描述信息生成方法,所述基于多个所述第一伪描述信息和所述第二伪描述信息,生成所述音频数据的描述信息,包括:
基于多个所述第一伪描述信息和所述第二伪描述信息,配置第二提示信息;
将多个所述第一伪描述信息、所述第二伪描述信息和所述第二提示信息输入至所述大语言模型,得到所述大语言模型输出的所述音频数据的描述信息。
根据本发明提供的一种音频描述信息生成方法,所述元数据包括标签、文件名和原始描述中的至少两类数据;在所述基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息之前,所述方法还包括:
根据所述标签、所述文件名和所述原始描述中的至少两类数据,配置所述第一提示信息。
根据本发明提供的一种音频描述信息生成方法,所述音频数据的描述信息为外文描述信息;在所述基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息之后,所述方法还包括:
对所述音频数据对应的外文描述信息进行翻译处理,得到所述音频数据对应的目标语言下的描述信息。
根据本发明提供的一种音频描述信息生成方法,在所述获取文本信息转化的音频数据以及所述音频数据的元数据之后,所述方法还包括:
将所述元数据翻译为目标语言下的元数据,并基于所述音频数据的元数据,配置所述目标语言下的第三提示信息;
将所述目标语言下的元数据和所述目标语言下的第三提示信息输入至预设的大语言模型,得到所述大语言模型输出的所述音频数据对应的目标语言下的描述信息。
本发明还提供一种音频描述信息生成装置,包括:
获取模块,用于获取文本信息转化的音频数据以及所述音频数据的元数据;
生成模块,用于基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述音频描述信息生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述音频描述信息生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述音频描述信息生成方法。
本发明提供的音频描述信息生成方法、装置、电子设备及存储介质,通过充分利用音频本身的多模态信息,包括文本信息转化的音频数据本身以及音频数据的元数据,根据音频数据的元数据设计提示信息,以引导后续语言模型的准确输出,进而利用音频数据本身、元数据和设计好的提示信息智能生成音频数据的描述信息,可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的音频描述信息生成方法的流程示意图;
图2是本发明提供的音频描述信息生成装置的结构示意图;
图3是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合图1-图3描述本发明的音频描述信息生成方法、装置、电子设备及存储介质。
图1是本发明提供的音频描述信息生成方法的流程示意图,如图1所示,包括:
步骤110,获取文本信息转化的音频数据以及音频数据的元数据;
步骤120,基于音频数据、元数据和第一提示信息,生成音频数据的描述信息;第一提示信息是基于元数据确定的。
具体地,本发明实施例所描述的音频数据指的是通过文本信息转化得到的音频数据,其具体可以是音乐形式的音频数据,或语音形式的音频数据等。
本发明实施例所描述的音频数据的元数据(Metadata)主要包括音频文件的文件名、标签信息和原始描述信息,其中,标签信息可以包括格式、时长、采样率、比特率等信息,原始描述信息包括对音频内容的简略介绍等原始信息。
其中,文件名和格式是最基本的元数据信息,可以用于识别和播放音频文件;时长和采样率等信息则可以用于判断音频质量和适用场景;比特率则表示音频文件的数据压缩程度,可以影响音频文件的质量和大小。
现有模型训练方法依赖于庞大的数据集,但公开数据有限,导致模型性能不足,并且这个过程中忽略了音频的元数据信息,导致生成的描述信息质量难以保证。
本发明实施例所描述的第一提示(Prompt)信息指的是根据音频数据的元数据进行设计的提示信息。
其中,提示信息用于创建提示或指导语言模型的输出过程,它允许用户控制语言模型的输出并生成符合特定需求的文本信息。
现有技术中还存在语言模型生成音频描述信息的方法,但是其主要关注音频的原始描述,对音频数据本身的特征未能充分利用,导致生成结果的语义准确性不足。
在本发明的实施例中,步骤110中,通过常用文生音频模型可以将用户需要处理的文本信息转化成对应的音频数据,获取该音频数据,并获取生成的音频数据本身的元数据,充分利用音频数据本身的特征。
基于上述实施例的内容,作为一种可选的实施例,元数据包括标签、文件名和原始描述中的至少两类数据;在步骤120,基于音频数据、元数据和第一提示信息,生成音频数据的描述信息之前,该方法还包括:
根据标签、文件名和原始描述中的至少两类数据,配置第一提示信息。
具体地,在本发明的实施例中,充分利用音频数据本身的特征数据,根据标签(tag)、文件名(filename)和原始描述(raw description)中的至少两类数据,配置第一提示信息。
可选地,在本发明的实施例中,采用标签、文件名和原始描述三类数据来配置第一提示信息。
对于不同类型的元数据信息,提示要进行相应的修改。
在本发明的一个具体实施例中,语言模型采用GPT-4模型,其是OpenAI为聊天机器人Chat GPT发布的一款语言模型。由于GPT-4模型处理英文的效果要好于中文,因此,将提示的配置信息用英文来表示,具体表示如下表1所示。
本发明实施例的方法,通过充分利用音频数据的元数据信息,利用不同类型的元数据设计语言模型的提示,更准确地提示及引导语言模型的输出,帮助模型更好地理解和完成任务,有利于提升生成的音频数据描述信息的质量。
表1
进一步地,在本发明的实施例中,步骤120中,可以利用音频到文本的神经网络模型,如Transformer模型等,以及语言模型,如大语言模型(Large Language Model,LLM),基于音频数据、元数据和第一提示信息进行特征提取及数据处理,最终生成音频数据的描述信息。
本发明实施例的音频描述信息生成方法,通过充分利用音频本身的多模态信息,包括文本信息转化的音频数据本身以及音频数据的元数据,根据音频数据的元数据设计提示信息,以引导后续语言模型的准确输出,进而利用音频数据本身、元数据和设计好的提示信息智能生成音频数据的描述信息,可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。
基于上述实施例的内容,作为一种可选的实施例,步骤120,基于音频数据、元数据和第一提示信息,生成音频数据的描述信息,包括:
至少两次将音频数据重复输入至预设的音频描述生成模型,得到音频描述生成模型每次生成的第一伪描述信息,以获取多个第一伪描述信息;
将元数据和第一提示信息输入至预设的大语言模型,得到大语言模型输出的第二伪描述信息;
基于多个第一伪描述信息和第二伪描述信息,生成音频数据的描述信息。
具体地,本发明实施例所描述的音频描述生成模型指的是支持自动音频描述(Automatic Audio Captioning,AAC)生成任务的模型,如基于编解码(Encoder-Decoder)架构,或Transformer网络等构建的常规AAC任务模型。
本发明实施例所描述的第一伪描述(Pseudo Caption)信息指的是基于音频描述生成模型对音频数据本身进行描述信息提取所生成的描述信息。
本发明实施例所描述的第二伪描述信息指的是基于大语言模型对元数据和第一提示信息进行文本信息处理所得到的描述信息。
需要说明的是,在本发明的实施例中,大语言模型可以采用GPT系列的语言模型,如GPT-3.5、GPT-4等,也可以采用国产大语言模型GLM模型等。
在本发明的实施例中,至少两次将音频数据重复输入至预设的音频描述生成模型中,得到音频描述生成模型每次生成的第一伪描述信息,从而可以获取多个第一伪描述信息。
需要说明的是,至少两次将音频数据重复输入至音频描述生成模型,也就是说,对于音频数据输入音频描述生成模型,可以重复输入2次、3次、4次,或者更多次,由此,每次可以通过模型生成一个第一伪描述信息,获取到多个第一伪描述信息。
进一步地,在本发明的实施例中,将音频数据的元数据,如音频数据的标签、文件名和原始描述,以及第一提示信息输入至大语言模型进行自然语言语义语法的处理,得到大语言模型输出的第二伪描述信息。利用得到的多个第一伪描述信息和第二伪描述信息进行描述信息的优化,生成音频数据的描述信息。
本发明实施例的方法,通过利用音频描述生成模型多次生成同一音频数据的伪描述信息,保证生成描述信息的多样性,提高了音频数据描述信息生成的可靠性和语义准确性,有效避免了单一生成结果的局限性。
基于上述实施例的内容,作为一种可选的实施例,基于多个第一伪描述信息和第二伪描述信息,生成音频数据的描述信息,包括:
基于多个第一伪描述信息和第二伪描述信息,配置第二提示信息;
将多个第一伪描述信息、第二伪描述信息和第二提示信息输入至大语言模型,得到大语言模型输出的音频数据的描述信息。
具体地,本发明实施例所描述的第二提示信息指的是根据多个第一伪描述信息和第二伪描述信息进行设计的提示信息。
进一步地,在本发明的实施例中,将多个第一伪描述信息、第二伪描述信息和第二提示信息输入至大语言模型进行自然语言语义语法的处理,最终可以得到音频数据的描述信息。
可选地,在本发明的一个具体实施例中,对于同一条音频数据,输入音频描述生成模型,重复调用模型4次,即重复将该音频数据重复输入至音频描述生成模型4次,可以生成4个伪描述信息。基于音频数据的元数据信息设计提示,将元数据信息和提示输入至GPT-4模型中,生成1个伪描述信息。最后,将上述生成的5个伪描述信息,再次设计对应的提示,将5个伪描述信息和对应的提示信息再输入至GPT-4模型中,最终可以在最大程度上节省计算资源的同时,生成高质量的音频数据描述信息。
其中,根据5个伪描述信息设计的提示可以表示如下:
“我将给你五个声音描述,你的目标是生成一个单句音频描述,总结这些描述的声音事件。
{输入5 个声音描述}
输出格式示例: {"描述": "生成的描述"}”。
本发明实施例的方法,通过利用不同模型生成多个伪描述,根据这些伪描述进一步设计提示,可以有效地对生成的音频描述信息进行优化,提高了生成的音频描述信息的可靠性,提升音频描述信息的生成质量。
基于上述实施例的内容,作为一种可选的实施例,音频数据的描述信息为外文描述信息;在基于音频数据、元数据和第一提示信息,生成音频数据的描述信息之后,该方法还包括:
对音频数据对应的外文描述信息进行翻译处理,得到音频数据对应的目标语言下的描述信息。
现有技术生成的描述主要以英文为主,未能满足多语言应用需求,尤其是中文领域的应用。
具体地,本发明实施例所描述的音频数据的外文描述信息主要指的是英文描述信息。
本发明实施例中,采用性能优异的大语言模型GPT-4,其处理英文的效果要好于中文,因此,过程中生成的描述信息均为英文,以及的设计的提示也是英文。
本发明实施例所描述的目标语言指的是用户所需生成的描述信息的语言表示,可以包括除英文以外的其他语言,如中文、俄文、法文等等语言,其具体可以根据用户的需要进行设定。
在本发明的实施例中,在得到音频数据的描述信息之后,进一步采用翻译软件,对音频数据对应的外文描述信息进行翻译处理,得到音频数据对应的目标语言下的描述信息,如中文版本的描述信息,满足不同用户的需求。
本发明实施例的方法,通过充分利用音频数据自身的数据特征生成相应的描述,同时进行优化,最后将描述翻译成中文,使其更符合中文语境,更精准地反映音频数据的内容,可以提升生成音频数据描述信息的适用性。
基于上述实施例的内容,作为一种可选的实施例,在获取文本信息转化的音频数据以及音频数据的元数据之后,该方法还包括:
将元数据翻译为目标语言下的元数据,并基于音频数据的元数据,配置目标语言下的第三提示信息;
将目标语言下的元数据和目标语言下的第三提示信息输入至预设的大语言模型,得到大语言模型输出的音频数据对应的目标语言下的描述信息。
具体地,本发明实施例所描述的第三提示信息指的是根据音频数据的元数据所设计的目标语言下的提示信息,如中文提示信息。
进一步地,在本发明的实施例中,可以直接将音频数据的元数据翻译为目标语言下的元数据来表示,并可以根据音频数据的元数据直接设计为目标语言下的提示信息。
进一步地,在本发明的实施例中,将目标语言下的元数据和目标语言下的第三提示信息输入至预设的大语言模型进行自然语言语义语法的处理,快捷地得到大语言模型输出的音频数据对应的目标语言下的描述信息。
本发明实施例的方法,通过利用目标语言下的元数据,直接设计目标语言的提示信息,引导模型按照目标语言进行描述信息的生成,可以快速获取到满足用户需求的目标语言下的音频描述信息,提高音频描述信息生成的效率,提升用户体验。
下面对本发明提供的音频描述信息生成装置进行描述,下文描述的音频描述信息生成装置与上文描述的音频描述信息生成方法可相互对应参照。
图2是本发明提供的音频描述信息生成装置的结构示意图,如图2所示,包括:依次连接的获取模块210和生成模块220。
其中,获取模块210,用于获取文本信息转化的音频数据以及音频数据的元数据;
生成模块220,用于基于音频数据、元数据和第一提示信息,生成音频数据的描述信息;第一提示信息是基于元数据确定的。
本实施例所述的音频描述信息生成装置可以用于执行上述音频描述信息生成方法实施例,其原理和技术效果类似,此处不再赘述。
本发明实施例的音频描述信息生成装置,通过充分利用音频本身的多模态信息,包括文本信息转化的音频数据本身以及音频数据的元数据,根据音频数据的元数据设计提示信息,以引导后续语言模型的准确输出,进而利用音频数据本身、元数据和设计好的提示信息智能生成音频数据的描述信息,可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。
基于上述实施例的内容,作为一种可选的实施例,生成模块220具体包括:
第一生成子模块,用于至少两次将音频数据重复输入至预设的音频描述生成模型,得到音频描述生成模型每次生成的第一伪描述信息,以获取多个第一伪描述信息;
第一输出子模块,用于将元数据和第一提示信息输入至预设的大语言模型,得到大语言模型输出的第二伪描述信息;
第二生成子模块,用于基于多个第一伪描述信息和第二伪描述信息,生成音频数据的描述信息。
基于上述实施例的内容,作为一种可选的实施例,第二生成子模块具体用于:
基于多个第一伪描述信息和第二伪描述信息,配置第二提示信息;
将多个第一伪描述信息、第二伪描述信息和第二提示信息输入至大语言模型,得到大语言模型输出的音频数据的描述信息。
基于上述实施例的内容,作为一种可选的实施例,元数据包括标签、文件名和原始描述中的至少两类数据;该装置具体还用于:
根据标签、文件名和原始描述中的至少两类数据,配置第一提示信息。
基于上述实施例的内容,作为一种可选的实施例,该装置具体还用于:
对音频数据对应的外文描述信息进行翻译处理,得到音频数据对应的目标语言下的描述信息。
基于上述实施例的内容,作为一种可选的实施例,该装置具体还用于:
将元数据翻译为目标语言下的元数据,并基于音频数据的元数据,配置目标语言下的第三提示信息;
将目标语言下的元数据和目标语言下的第三提示信息输入至预设的大语言模型,得到大语言模型输出的音频数据对应的目标语言下的描述信息。
图3是本发明提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行上述各方法所提供的音频描述信息生成方法,该方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的音频描述信息生成方法,该方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的音频描述信息生成方法,该方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种音频描述信息生成方法,其特征在于,包括:
获取文本信息转化的音频数据以及所述音频数据的元数据;
基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。
2.根据权利要求1所述的音频描述信息生成方法,其特征在于,所述基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息,包括:
至少两次将所述音频数据重复输入至预设的音频描述生成模型,得到所述音频描述生成模型每次生成的第一伪描述信息,以获取多个所述第一伪描述信息;
将所述元数据和所述第一提示信息输入至预设的大语言模型,得到所述大语言模型输出的第二伪描述信息;
基于多个所述第一伪描述信息和所述第二伪描述信息,生成所述音频数据的描述信息。
3.根据权利要求1所述的音频描述信息生成方法,其特征在于,所述元数据包括标签、文件名和原始描述中的至少两类数据;在所述基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息之前,所述方法还包括:
根据所述标签、所述文件名和所述原始描述中的至少两类数据,配置所述第一提示信息。
4.根据权利要求1-3任一项所述的音频描述信息生成方法,其特征在于,所述音频数据的描述信息为外文描述信息;在所述基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息之后,所述方法还包括:
对所述音频数据对应的外文描述信息进行翻译处理,得到所述音频数据对应的目标语言下的描述信息。
5.根据权利要求1-3任一项所述的音频描述信息生成方法,其特征在于,在所述获取文本信息转化的音频数据以及所述音频数据的元数据之后,所述方法还包括:
将所述元数据翻译为目标语言下的元数据,并基于所述音频数据的元数据,配置所述目标语言下的第三提示信息;
将所述目标语言下的元数据和所述目标语言下的第三提示信息输入至预设的大语言模型,得到所述大语言模型输出的所述音频数据对应的目标语言下的描述信息。
6.一种音频描述信息生成装置,其特征在于,包括:
获取模块,用于获取文本信息转化的音频数据以及所述音频数据的元数据;
生成模块,用于基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述音频描述信息生成方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述音频描述信息生成方法。
CN202410143148.4A 2024-02-01 音频描述信息生成方法、装置、电子设备及存储介质 Active CN117690415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410143148.4A CN117690415B (zh) 2024-02-01 音频描述信息生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410143148.4A CN117690415B (zh) 2024-02-01 音频描述信息生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117690415A true CN117690415A (zh) 2024-03-12
CN117690415B CN117690415B (zh) 2024-04-30

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008080006A2 (en) * 2006-12-22 2008-07-03 Apple Inc. Tagging media assets, locations, and advertisements
US20180358052A1 (en) * 2017-06-13 2018-12-13 3Play Media, Inc. Efficient audio description systems and methods
WO2020002941A1 (en) * 2018-06-28 2020-01-02 Queen Mary University Of London Generation of audio data
WO2022016994A1 (zh) * 2020-07-23 2022-01-27 平安科技(深圳)有限公司 基于ai识别的会议纪要生成方法、装置、设备及介质
US20220392428A1 (en) * 2021-06-07 2022-12-08 Meta Platforms, Inc. User self-personalized text-to-speech voice generation
CN116645950A (zh) * 2023-05-12 2023-08-25 安徽苇渡控股有限公司 音频生成方法、装置、电子设备及存储介质
CN116959393A (zh) * 2023-09-18 2023-10-27 腾讯科技(深圳)有限公司 音乐生成模型的训练数据生成方法、装置、设备及介质
US20230419950A1 (en) * 2022-06-27 2023-12-28 International Business Machines Corporation Artificial intelligence factsheet generation for speech recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008080006A2 (en) * 2006-12-22 2008-07-03 Apple Inc. Tagging media assets, locations, and advertisements
US20180358052A1 (en) * 2017-06-13 2018-12-13 3Play Media, Inc. Efficient audio description systems and methods
WO2020002941A1 (en) * 2018-06-28 2020-01-02 Queen Mary University Of London Generation of audio data
WO2022016994A1 (zh) * 2020-07-23 2022-01-27 平安科技(深圳)有限公司 基于ai识别的会议纪要生成方法、装置、设备及介质
US20220392428A1 (en) * 2021-06-07 2022-12-08 Meta Platforms, Inc. User self-personalized text-to-speech voice generation
US20230419950A1 (en) * 2022-06-27 2023-12-28 International Business Machines Corporation Artificial intelligence factsheet generation for speech recognition
CN116645950A (zh) * 2023-05-12 2023-08-25 安徽苇渡控股有限公司 音频生成方法、装置、电子设备及存储介质
CN116959393A (zh) * 2023-09-18 2023-10-27 腾讯科技(深圳)有限公司 音乐生成模型的训练数据生成方法、装置、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MANCO I 等: "Muscaps: Generating captions for music audio", 2021 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, 22 July 2021 (2021-07-22), pages 1 - 6 *
ZHIHUAN KUANG 等: "Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings", ARXIV, 8 May 2023 (2023-05-08), pages 1 - 7 *
刘雁兵 等: "基于多模态信息融合的卷烟销量预测方法", 江西师范大学学报, 30 September 2023 (2023-09-30), pages 497 - 499 *
吴志强 等: "CSpace机构知识库影音资源支持能力扩展研究与实践", 数据分析与知识发现, 31 December 2017 (2017-12-31), pages 90 - 95 *

Similar Documents

Publication Publication Date Title
CN110543644B (zh) 包含术语翻译的机器翻译方法、装置与电子设备
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
CN111477216B (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
CN110675854B (zh) 一种中英文混合语音识别方法及装置
CN111128126A (zh) 多语种智能语音对话的方法及系统
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN109241330A (zh) 用于识别音频中的关键短语的方法、装置、设备和介质
KR101131278B1 (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN111341293B (zh) 一种文本语音的前端转换方法、装置、设备和存储介质
CN110705254B (zh) 文本断句方法、装置、电子设备和存储介质
CN111883137A (zh) 基于语音识别的文本处理方法及装置
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN110705317A (zh) 翻译方法及相关装置
CN113268989A (zh) 多音字处理方法及装置
CN117690415B (zh) 音频描述信息生成方法、装置、电子设备及存储介质
CN117690415A (zh) 音频描述信息生成方法、装置、电子设备及存储介质
CN114121010A (zh) 模型训练、语音生成、语音交互方法、设备以及存储介质
БАРКОВСЬКА Performance study of the text analysis module in the proposed model of automatic speaker’s speech annotation
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant