CN117727301A

CN117727301A - 音频分析方法和装置、存储介质及电子设备

Info

Publication number: CN117727301A
Application number: CN202311778303.1A
Authority: CN
Inventors: 陈虹洁; 康健; 李�杰
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-19

Abstract

本申请公开了一种音频分析方法和装置、存储介质及电子设备，其中，上述方法包括：获取待分析音频中局部平稳的音频特征，通过音频编码器提取音频特征在不同层次的音频特征序列；通过查询变换器模型提取音频特征序列的多尺度语义特征；将多尺度语义特征输入至大语言模型，得到待分析音频的分析结果。采用上述技术方案，解决了大语言模型仅能基于单一尺度分析音频的问题。

Description

音频分析方法和装置、存储介质及电子设备

技术领域

本申请涉及语言模型领域，具体而言，涉及一种音频分析方法和装置、存储介质及电子设备。

背景技术

目前，针对音频模态的大语言模型适配技术主要通过使用神经网络模型以及Transformer模型等模型对音频表征序列进行变换分析，大语言模型的各项语音处理功能例如语音识别、情感分析等功能所需要分析的音频特征尺度是不同的，而现有技术通常仅提取音频的局部表征或仅提取全局表征，因此仅能基于单一尺度分析音频特征，从而导致大语言模型缺乏同时处理多项任务的能力。

针对相关技术中，大语言模型仅能基于单一尺度分析音频的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种音频分析方法和装置、存储介质及电子设备，以至少解决相关技术中，大语言模型仅能基于单一尺度分析音频的问题。

根据本申请实施例的一个实施例，提供了一种音频分析方法，包括：获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；通过查询变换器模型提取所述音频特征序列的多尺度语义特征；将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

在一个示例性实施例中，通过音频编码器提取所述音频特征在不同层次的音频特征序列之前，所述方法还包括：确定所述音频编码器的类型；根据所述音频编码器的类型确定所述音频编码器的训练尺度大小；选择与所述训练尺度大小对应的训练任务对所述音频编码器进行训练。

在一个示例性实施例中，通过音频编码器提取所述音频特征在不同层次的音频特征序列，包括：确定所述音频编码器待提取的音频特征的目标层次，其中，所述目标层次包括：至少三个不同的层次；提取所述音频特征在所述至少三个不同的层次的隐层特征；将所述音频特征在所述至少三个不同的层次的隐层特征确定为所述音频特征序列。

在一个示例性实施例中，通过查询变换器模型提取所述音频特征序列的多尺度语义特征，包括：确定所述查询变换器模型需要从所述音频特征序列中提取的语义特征对应的尺度大小；根据所述尺度大小对所述查询变换器模型的模型参数进行配置；通过配置模型参数后的查询变换器模型提取所述音频特征序列的多尺度语义特征。

在一个示例性实施例中，根据所述尺度大小对所述查询变换器模型的模型参数进行配置，包括：在确定从所述音频特征序列中提取第一尺度的语义特征的情况下，将第一查询令牌数确定为所述模型参数包括的查询令牌数，将第一编码层数确定为所述模型参数包括的编码层数，将第一输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的低层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第二尺度的语义特征的情况下，将第二查询令牌数确定为所述模型参数包括的查询令牌数，将第二编码层数确定为所述模型参数包括的编码层数，将第二输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的中层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第三尺度的语义特征的情况下，将第三查询令牌数确定为所述模型参数包括的查询令牌数，将第三编码层数确定为所述模型参数包括的编码层数，将第三输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的高层特征确定为所述模型参数包括的输入特征，其中，所述第二尺度大于所述第一尺度且小于所述第三尺度，所述第二查询令牌数大于所述第一查询令牌数且小于所述第三查询令牌数，所述第二编码层数大于所述第一编码层数且小于所述第三编码层数，所述第二输入窗长大于所述第一输入窗长且小于所述第三输入窗长。

在一个示例性实施例中，将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果，包括：确定所述大语言模型的模型输入内容对应的输入格式，其中，所述模型输入内容至少包括语义特征和任务指令；将所述多尺度语义特征中每一种尺度下的语义特征拼接成语义特征序列；根据所述输入格式将所述语义特征序列与任务指令进行拼接得到所述模型输入内容；将所述模型输入内容输入所述大语言模型，得到所述待分析音频的分析结果。

在一个示例性实施例中，获取待分析音频中局部平稳的音频特征，包括：将所述待分析音频分割为多个短时音频片段；针对所述多个短时音频片段中的每一个短时音频片段进行傅里叶变换得到所述每一个短时音频片段的频谱信息；在所述频谱信息符合预设频谱信息的情况下，获取所述频谱信息对应的短时音频片段的音频特征。

根据本申请实施例的另一个实施例，还提供了一种音频分析装置，包括：音频特征提取模块，用于获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；语义特征提取模块，用于通过查询变换器模型提取所述音频特征序列的多尺度语义特征；分析结果获取模块，用于将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

在一个示例性实施例中，上述音频特征提取模块还用于：确定所述音频编码器的类型；根据所述音频编码器的类型确定所述音频编码器的训练尺度大小；选择与所述训练尺度大小对应的训练任务对所述音频编码器进行训练。

在一个示例性实施例中，上述音频特征提取模块还用于：确定所述音频编码器待提取的音频特征的目标层次，其中，所述目标层次包括：至少三个不同的层次；提取所述音频特征在所述至少三个不同的层次的隐层特征；将所述音频特征在所述至少三个不同的层次的隐层特征确定为所述音频特征序列。

在一个示例性实施例中，上述语义特征提取模块还包括：确定单元，用于确定所述查询变换器模型需要从所述音频特征序列中提取的语义特征对应的尺度大小；配置单元，用于根据所述尺度大小对所述查询变换器模型的模型参数进行配置；提取单元，用于通过配置模型参数后的查询变换器模型提取所述音频特征序列的多尺度语义特征。

在一个示例性实施例中，上述配置单元还用于：在确定从所述音频特征序列中提取第一尺度的语义特征的情况下，将第一查询令牌数确定为所述模型参数包括的查询令牌数，将第一编码层数确定为所述模型参数包括的编码层数，将第一输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的低层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第二尺度的语义特征的情况下，将第二查询令牌数确定为所述模型参数包括的查询令牌数，将第二编码层数确定为所述模型参数包括的编码层数，将第二输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的中层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第三尺度的语义特征的情况下，将第三查询令牌数确定为所述模型参数包括的查询令牌数，将第三编码层数确定为所述模型参数包括的编码层数，将第三输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的高层特征确定为所述模型参数包括的输入特征，其中，所述第二尺度大于所述第一尺度且小于所述第三尺度，所述第二查询令牌数大于所述第一查询令牌数且小于所述第三查询令牌数，所述第二编码层数大于所述第一编码层数且小于所述第三编码层数，所述第二输入窗长大于所述第一输入窗长且小于所述第三输入窗长。

在一个示例性实施例中，上述分析结果获取模块还用于：确定所述大语言模型的模型输入内容对应的输入格式，其中，所述模型输入内容至少包括语义特征和任务指令；将所述多尺度语义特征中每一种尺度下的语义特征拼接成语义特征序列；根据所述输入格式将所述语义特征序列与任务指令进行拼接得到所述模型输入内容；将所述模型输入内容输入所述大语言模型，得到所述待分析音频的分析结果。

在一个示例性实施例中，上述音频特征提取模块还用于：将所述待分析音频分割为多个短时音频片段；针对所述多个短时音频片段中的每一个短时音频片段进行傅里叶变换得到所述每一个短时音频片段的频谱信息；在所述频谱信息符合预设频谱信息的情况下，获取所述频谱信息对应的短时音频片段的音频特征。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频分析方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的音频分析方法。

在本申请实施例中，通过音频编码器提取待分析音频在不同层次的音频特征，进而通过查询变换器模型从音频特征中提取不同尺度语义特征，将不同尺度语义特征和任务指令输入大语言模型得到音频分析结果。采用上述技术方案，解决了大语言模型仅能基于单一尺度分析音频的问题，进而实现了提升大语言模型音频分析能力的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种音频分析方法的硬件环境示意图；

图2是根据本申请实施例的音频分析方法的流程图；

图3是根据本申请实施例的音频分析方法的示意图；

图4是根据本申请实施例的音频特征提取示意图；

图5是根据本申请实施例的一种音频分析装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、子系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种音频分析方法。该音频分析方法广泛应用于软件系统运行等场景。可选地，在本实施例中，上述音频分析方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑等智能设备，以及电机等工程设备。

在本实施例中提供了一种音频分析方法，应用于上述服务器，图2是根据本申请实施例的音频分析方法的流程图，该流程包括如下步骤：

步骤S202，获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；

步骤S204，通过查询变换器模型提取所述音频特征序列的多尺度语义特征；

步骤S206，将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

通过上述步骤，获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；通过查询变换器模型提取所述音频特征序列的多尺度语义特征；将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。采用上述技术方案，解决了大语言模型仅能基于单一尺度分析音频的问题，进而实现了提升大语言模型音频分析能力的效果。

可选的，在上述实施例中，例如确定音频编码器用于音频翻译训练，则选择与音频翻译训练所需要的尺度的特征对音频编码器进行训练。

可选的，在上述实施例中，可以使用经过音频识别、音频翻译等多任务训练的36层Conformer模型，分别提取第2层、18层、36层的隐层特征作为音频特征序列。

可选的，在上述实施例中，查询变换器模型可以使用Q-former模型，Q-former模型由查询令牌(Query Token)和BERT编码器(一种基于双向编码和自注意力机制的语言模型)构成，通过配置Q-former模型的查询令牌，BERT编码层数，输入窗长可以提取音频特征序列中不同尺度的语义特征。

具体的，在本实施例中设计了小尺度、中尺度、大尺度三个尺度的Q-former模型，其配置如表1：

表1

尺度	查询令牌数	BERT编码层数	输入窗长(帧)	输入特征
					小尺度	1	2	4	低层特征
中尺度	4	4	16	中层特征
					大尺度	8	6	256	高层特征

其中，将音频编码器的低层特征输入小尺度Q-former模型中，用于提取音频内如枪声、汽笛等短脉冲类小粒度的声学语义特征，将音频编码器的中层特征输入中尺度Q-former模型中，用于提取音频内如字、词、短语等中粒度的语义特征，将音频编码器的高层特征输入中尺度Q-former模型中，用于提取音频内的场景、情感等较长时间跨度的大粒度语义特征。

通过上述实施例，可以实现对同一音频的不同尺度的语义特征进行提取，为大语言模型提供了可查询的多尺度语义信息。

显然，上述所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。为了更好的理解上述音频分析方法，以下结合实施例对上述过程进行说明，但不用于限定本申请实施例的技术方案，具体地：

在一个可选的实施例中，以ChatGLM2-6B模型和语音翻译任务为例简要说明语义特征和任务指令的拼接方式，如图3所示，设任务指令提示文本为“请将这段语音翻译成英语文字。”，音频经过FBank特征提取器提取出特征序列为：

X＝[x₁，x₂，...，x_T]，

其中x_i为80维特征向量，输入音频内容为“帮我打开空调吧”，答案为“TheEnglish translation of the speech is:‘Please turn on the air-conditioner.’”。FBank特征提取器经过Conformer模型及多尺度的Q-former模型分别提取出低、中、高层次音频声学语义特征序列：

E_L＝[e_L1.e_L2，...，e_Ln]，E_M＝[e_M1.e_M2，...，e_Mn]，E_H＝[e_H1.e_H2，...，e_Hn]，

将E_L、E_M、E_H拼接成多层次声学语义特征序列

E＝[E_L，E_M，E_H]＝[e_L1，e_L2，...，e_Ln，e_M1，e_M2，...，e_Mn，e_H1，e_H2，...，e_Hn]，

任务指令提示文本和答案文本分别经过ChatGLM2-6B的分词器分为N个词和编码器生成文本特征序列：

T＝[t₁，t₂，...，t_M]，A＝[a₁，a₂，...，a_M]，

最后将E、T、A按“[gMASK]sop E T A</s>”的方式拼接作为ChatGLM2-6B的输入表征，将“[IGNORE]...[IGNORE]A</s>”作为ChatGLM2-6B的响应目标，其中[gMASK]，sop，</s>为ChatGLM2-6B中的特殊字符表征，[IGNORE]表示计算损失时不计数该位置的损失分数。

在一个可选的实施例中，图4是根据本申请实施例的多尺度音频特征提取过程示意图，具体如图4所示，本实施例中设计了小尺度、中尺度、大尺度三个尺度的Q-former模型，不同的Q-former模型配置的的查询令牌，BERT编码层数，输入窗长不同，输入窗长越长，所提取的音频特征尺度就越大，通过不同配置Q-former模型提取音频在多个尺度上的特征后，然后由不同层数的BERT编码器进行编码并进行仿射变换，最后将仿射变换后的音频特征进行融合得到多尺度音频序列。

通过上述实施例，解决了大语言模型仅能基于单一尺度分析音频的问题，进而实现了提升大语言模型音频分析能力的效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

图5是根据本申请实施例的一种音频分析装置的结构框图；如图5所示，包括：

音频特征提取模块52，用于获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；

语义特征提取模块54，用于通过查询变换器模型提取所述音频特征序列的多尺度语义特征；

分析结果获取模块56，用于将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

通过上述装置，获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；通过查询变换器模型提取所述音频特征序列的多尺度语义特征；将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。采用上述技术方案，解决了大语言模型仅能基于单一尺度分析音频的问题，进而实现了提升大语言模型音频分析能力的效果。

在一个示例性实施例中，上述音频特征提取模块52还用于：确定所述音频编码器的类型；根据所述音频编码器的类型确定所述音频编码器的训练尺度大小；选择与所述训练尺度大小对应的训练任务对所述音频编码器进行训练。

在一个示例性实施例中，上述音频特征提取模块52还用于：确定所述音频编码器待提取的音频特征的目标层次，其中，所述目标层次包括：至少三个不同的层次；提取所述音频特征在所述至少三个不同的层次的隐层特征；将所述音频特征在所述至少三个不同的层次的隐层特征确定为所述音频特征序列。

在一个示例性实施例中，上述语义特征提取模块54还包括：确定单元，用于确定所述查询变换器模型需要从所述音频特征序列中提取的语义特征对应的尺度大小；配置单元，用于根据所述尺度大小对所述查询变换器模型的模型参数进行配置；提取单元，用于通过配置模型参数后的查询变换器模型提取所述音频特征序列的多尺度语义特征。

在一个示例性实施例中，上述分析结果获取模块56还用于：确定所述大语言模型的模型输入内容对应的输入格式，其中，所述模型输入内容至少包括语义特征和任务指令；将所述多尺度语义特征中每一种尺度下的语义特征拼接成语义特征序列；根据所述输入格式将所述语义特征序列与任务指令进行拼接得到所述模型输入内容；将所述模型输入内容输入所述大语言模型，得到所述待分析音频的分析结果。

在一个示例性实施例中，上述音频特征提取模块52还用于：将所述待分析音频分割为多个短时音频片段；针对所述多个短时音频片段中的每一个短时音频片段进行傅里叶变换得到所述每一个短时音频片段的频谱信息；在所述频谱信息符合预设频谱信息的情况下，获取所述频谱信息对应的短时音频片段的音频特征。

本申请的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；

S2，通过查询变换器模型提取所述音频特征序列的多尺度语义特征；

S3，将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种音频分析方法，其特征在于，包括：

获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；

通过查询变换器模型提取所述音频特征序列的多尺度语义特征；

将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

2.根据权利要求1所述的音频分析方法，其特征在于，通过音频编码器提取所述音频特征在不同层次的音频特征序列之前，所述方法还包括：

确定所述音频编码器的类型；

根据所述音频编码器的类型确定所述音频编码器的训练尺度大小；

选择与所述训练尺度大小对应的训练任务对所述音频编码器进行训练。

3.根据权利要求1所述的音频分析方法，其特征在于，通过音频编码器提取所述音频特征在不同层次的音频特征序列，包括：

确定所述音频编码器待提取的音频特征的目标层次，其中，所述目标层次包括：至少三个不同的层次；

提取所述音频特征在所述至少三个不同的层次的隐层特征；

将所述音频特征在所述至少三个不同的层次的隐层特征确定为所述音频特征序列。

4.根据权利要求1所述的音频分析方法，其特征在于，通过查询变换器模型提取所述音频特征序列的多尺度语义特征，包括：

确定所述查询变换器模型需要从所述音频特征序列中提取的语义特征对应的尺度大小；

根据所述尺度大小对所述查询变换器模型的模型参数进行配置；

通过配置模型参数后的查询变换器模型提取所述音频特征序列的多尺度语义特征。

5.根据权利要求4所述的音频分析方法，其特征在于，根据所述尺度大小对所述查询变换器模型的模型参数进行配置，包括：

在确定从所述音频特征序列中提取第一尺度的语义特征的情况下，将第一查询令牌数确定为所述模型参数包括的查询令牌数，将第一编码层数确定为所述模型参数包括的编码层数，将第一输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的低层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第二尺度的语义特征的情况下，将第二查询令牌数确定为所述模型参数包括的查询令牌数，将第二编码层数确定为所述模型参数包括的编码层数，将第二输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的中层特征确定为所述模型参数包括的输入特征；在确定从所述音频特征序列中提取第三尺度的语义特征的情况下，将第三查询令牌数确定为所述模型参数包括的查询令牌数，将第三编码层数确定为所述模型参数包括的编码层数，将第三输入窗长确定为所述模型参数包括的输入窗长，将所述音频特征序列中的高层特征确定为所述模型参数包括的输入特征，其中，所述第二尺度大于所述第一尺度且小于所述第三尺度，所述第二查询令牌数大于所述第一查询令牌数且小于所述第三查询令牌数，所述第二编码层数大于所述第一编码层数且小于所述第三编码层数，所述第二输入窗长大于所述第一输入窗长且小于所述第三输入窗长。

6.根据权利要求1所述的音频分析方法，其特征在于，将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果，包括：

确定所述大语言模型的模型输入内容对应的输入格式，其中，所述模型输入内容至少包括语义特征和任务指令；

将所述多尺度语义特征中每一种尺度下的语义特征拼接成语义特征序列；根据所述输入格式将所述语义特征序列与任务指令进行拼接得到所述模型输入内容；

将所述模型输入内容输入所述大语言模型，得到所述待分析音频的分析结果。

7.根据权利要求1所述的音频分析方法，其特征在于，获取待分析音频中局部平稳的音频特征，包括：

将所述待分析音频分割为多个短时音频片段；

针对所述多个短时音频片段中的每一个短时音频片段进行傅里叶变换得到所述每一个短时音频片段的频谱信息；

在所述频谱信息符合预设频谱信息的情况下，获取所述频谱信息对应的短时音频片段的音频特征。

8.一种音频分析装置，其特征在于，包括：

音频特征提取模块，用于获取待分析音频中局部平稳的音频特征，通过音频编码器提取所述音频特征在不同层次的音频特征序列；

语义特征提取模块，用于通过查询变换器模型提取所述音频特征序列的多尺度语义特征；

分析结果获取模块，用于将所述多尺度语义特征输入至大语言模型，得到所述待分析音频的分析结果。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。