CN117594060A

CN117594060A - 音频信号内容分析方法、装置、设备及存储介质

Info

Publication number: CN117594060A
Application number: CN202311435217.0A
Authority: CN
Inventors: 马占宇; 张益铭; 杜若一; 梁孔明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-02-23

Abstract

本申请提出一种音频信号内容分析方法、设备及存储介质，该方法包括：获取待处理的目标音频信号的目标音频特征；基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布，目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征；基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征；基于多个时间步的目标词潜在特征和目标音频特征，生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。

Description

音频信号内容分析方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种音频信号内容分析方法、装置、设备及存储介质。

背景技术

目前，音频信号能在日常生活中给提供给我们丰富的信息。而音频信号内容分析是一项让机器能够像人一样准确感受音频信号内容的任务，也是通向通用人工智能的关键一步，使机器具有像人一样的听觉感知能力。在日常生活中，有着极大的应用前景，例如，可以帮助残障人士更加自然的融入社会、作为生活助手提醒用户等。

目前，可以基于深度学习模型通过编码器来封装多模态信号，并使用解码器来生成有关该信号的语句。

由于音频信号的模糊性和语言表征的复杂性，人们对音频内容的描述更加多样化，目前的音频信号内容分析方法虽然可以生成比较准确的语句，但生成的语句比较单一。

发明内容

本申请提出一种音频信号内容分析方法、装置、设备及存储介质，能够解决当前基于音频信号生成的文字语句比较单一的技术问题。

本申请第一方面实施例提出了一种音频信号内容分析方法，包括：

获取待处理的目标音频信号的目标音频特征；

基于目标嵌入特征和所述目标音频特征，确定当前时间步的特征概率分布，所述目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者所述目标音频信号的预设词嵌入特征；

基于所述特征概率分布从所述特征概率分布中通过重采样操作选取所述当前时间步的目标潜在特征；

基于多个时间步的目标潜在特征和所述目标音频特征，生成所述目标音频信号对应的目标描述信息。

本申请第二方面的实施例提供了一种音频信号内容分析装置，包括：

获取模块，用于获取待处理的目标音频信号的目标音频特征；

确定模块，用于基于目标嵌入特征和所述目标音频特征，确定当前时间步的特征概率分布，所述目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者所述目标音频信号的预设词嵌入特征；

选取模块，用于基于所述特征概率分布从所述特征概率分布中通过重采样操作选取所述当前时间步的目标潜在特征；

生成模块，用于基于多个时间步的目标潜在特征和所述目标音频特征，生成所述目标音频信号对应的目标描述信息。

本申请第三方面的实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述第一方面所述的方法。

本申请第四方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述第一方面所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，首先获取待处理的目标音频信号的目标音频特征，进一步通过目标嵌入特征与目标音频特征与目标音频特征，得到当前时间步的特征概率分布，目标嵌入特征为上一时间步的原始词嵌入特征或者样本音频信号的预设词嵌入特征，由于在确定特征概率分布的过程中加入目标嵌入特征，可以有效提高特征概率分布的准确性，并且由于每一次的文字生成过程都会基于特征概率分布从特征概率分布中重新采样出当前时间步的目标潜在特征，可以实现不会每次音频信号内容分析过程中的同一时间步均基于同一目标潜在特征生成对应的描述词，从而在保证生成目标描述信息准确性的前提下，可以基于同一音频信号生成不同的目标描述信息。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1示出了本申请一实施例所提供的一种音频信号内容分析方法流程图；

图2示出了本申请一实施例所提供的后验概率分布生成的流程图；

图3示出了本申请一实施例所提供的先验概率分布生成的流程图；

图4示出了本申请一实施例所提供的描述词生成过程的流程图；

图5示出了本申请一实施例所提供的另一种音频信号内容分析方法流程图；

图6示出了本申请一实施例所提供的一种音频信号内容分析装置的结构示意图；

图7示出了本申请一实施例所提供的一种电子设备的结构示意图；

图8示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

本申请的音频信号内容分析方法可以由计算设备执行，计算设备可以是服务器，例如一台服务器、多台服务器、服务器集群、云计算平台等等，可选地，计算设备还可以是终端设备，例如手机、平板电脑、游戏机、便携式计算机、台式机、广告机、一体机等等，本申请对计算设备的设备类型和设备数量均不加以限定

目前，基于深度学习的音频字幕生成方法已经取得了很大的进步，通过编码器来封装音频的多模态信号，并使用解码器来生成有关该信号的目标描述信息。

在一个实施例中，生成音频信号对应的目标描述信息可以被看作是一个序列到序列(Sequence-to-Sequence,Seq2Seq)的问题，其中输入序列是音频信号，输出序列是相应的字幕文本。为了解决这个问题，可以使用编码器-解码器模型来生成字幕文本。

编码器-解码器模型最初用于机器翻译任务，但它同样适用于文本生成任务。该模型包含两个核心组件：编码器和解码器。编码器处理输入序列，并将其转换为定长的表示形式；而解码器则从该表示中生成输出序列。

在音频对应字幕的场景中，编码器可以是一个语音识别模型，它将音频信号作为输入，并生成一组高级别特征，例如音素、单词或句子。这些特征被传递给解码器，解码器根据这些特征生成对应的字幕文本。

具体而言，编码器可以是一个循环神经网络(Recurrent Neural Network,RNN)，它将音频信号逐帧输入，并输出一个定长向量作为表示。解码器也可以是一个RNN，它以表示和之前生成的文本作为输入，通过自回归的方式逐步生成输出序列。

整个编码器-解码器模型可以使用端到端的方式进行训练，以最大化生成的字幕文本的概率。在推理阶段，给定一个新的音频输入，编码器生成对应的表示，然后解码器根据该表示生成文本序列。

虽然上述方式可以保证生成目标描述信息的准确定性，但是对于同一段音频信号的输出的目标描述信息是唯一的，而由于音频信号的模糊性和语言表征的复杂性，人们对音频内容的描述更加多样化，如果音频信号可以对应于多种理解方式，仅仅单一的输出一种理解方式的目标描述信息，可能会导致看到目标描述信息的人无法理解。因此，当前需要丰富对于同一段音频信号的目标描述信息。

为了解决上述问题，本申请实施例提供了一种音频信号内容分析方法、装置、设备及存储介质，在本申请实施例中，首先获取待处理的目标音频信号的目标音频特征，进一步通过目标嵌入特征与目标音频特征与目标音频特征，得到当前时间步的特征概率分布，目标嵌入特征为上一时间步的原始词嵌入特征或者样本音频信号的预设词嵌入特征，由于在确定特征概率分布的过程中加入例如目标嵌入特征，可以有效提高特征概率分布的准确性，并且由于每一次的文字生成过程都会基于特征概率分布从特征概率分布中重新采样出当前时间步的目标潜在特征，可以实现不会每次音频信号内容分析过程中的同一时间步均基于同一目标潜在特征生成对应的描述词，从而在保证生成目标描述信息准确性的前提下，可以基于同一音频信号生成不同的目标描述信息。

假设音频信号可以对应于多种理解方式，首次输出一种理解方式的目标描述信息，用户没有看懂，可以接收用户输入的重新生成语句的操作，输出另一种理解方式的目标描述信息，直到输出的目标描述信息可以让用户理解。

本申请的各实施例中均以一个待处理的目标音频信号的音频信号内容分析方法为例进行说明。且对于执行主体，本申请各实施例中均以计算设备为例进行说明。

下面结合附图来描述根据本申请实施例提出的一种音频信号内容分析方法、装置、设备及存储介质。

参见图1，该方法具体包括以下步骤：

S101、获取待处理的目标音频信号的目标音频特征。

其中，目标音频信号可以是语音、歌曲、背景音等音频。

从目标音频信号提取出目标音频特征的方式可以包括：短时傅立叶变换、梅尔频率倒谱系数、线性预测编码系数、倒谱系数、频域特征、时域特征、感知相关特征、色度频率倒谱系数、短时振幅包络或者通过开源的大规模预训练音频神经网络(Pretrained AudioNeural Networks，简称PANN)从目标音频信号中提取目标音频特征。

S102、基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布。

目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征。

需要说明的是，为了生成更加多样性的目标描述信息，在生成目标描述信息的过程中，可以依次生成每个时间步的特征概率分布。

其中，时间步用于表示描述词在目标描述信息中的描述位置。比如，目标描述信息为“我是中国人”，第一时间步为“我”所在的描述位置。第二时间步为“是”所在的描述位置，以此类推。

基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布可以基于深度学习的方式实现。

比如，隐马尔可夫模型、长短时记忆网络(Long Short-Term Memory，简称LSTM)、卷积神经网络(Convolutional Neural Network，简称CNN)或者转换器模型等等。

上述多种模型均可以实现为一先验模型，从而可以将目标嵌入特征和目标音频特征输入该先验模型，得到当前时间步的特征概率分布。

基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布可以基于非深度学习的方法实现。

比如，高斯混合模型(Gaussian Mixture Model，简称GMM)、支持向量机(SupportVector Machine，简称SVM)、随机森林、隐马尔可夫模型(Hidden Markov Model，简称HMM)等等方式。

其中，特征概率分布可以是当前时间步各个词嵌入特征的概率，比如，上述目标描述信息为“我是中国人”中第二时间步为“是”的概率为40％、为“爱”的概率为40％，为“叫”的概率为20％。

特征概率分布可以是均匀分布、正态分布、指数分布、贝塔分布或者狄利克雷分布等等，可以根据具体情况灵活设定特征概率分布的种类。

S103、基于特征概率分布从特征概率分布中通过重采样操作选取当前时间步的目标潜在特征。

由于特征概率分布是时间步的各个词的概率，因此，可以从特征概率分布中确定出各个词的词嵌入特征，比如，上述目标描述信息为“我是中国人”中第二时间步的多个词嵌入特征为“是”、“爱”和“叫”各自对应的词嵌入特征。

其中，重采样操作可以是在确定出多个词嵌入特征之后，可以按照特征概率分布所表示的各个词嵌入特征各自对应的概率，从多个词嵌入特征中选取当前时间步的目标潜在特征。

承接上述假设，那么目标潜在特征为“是”的词嵌入特征的概率为40％、为“爱”的词嵌入特征的概率为40％，为“叫”的词嵌入特征的概率为20％。

如果进行多次语句的生成过程，那么第一次目标潜在特征可能为“是”的词嵌入特征，第二次目标潜在特征可能为“爱”的词嵌入特征，第三次目标潜在特征可能为“叫”的词嵌入特征，实现了在每次音频信号内容分析过程中的同一时间步可以生成不同的词嵌入特征，而每个目标描述信息均是由不同时间步的词嵌入特征生成的，从而可以在不同的音频信号内容分析过程中生成不同的目标描述信息。

S104、基于多个时间步的目标潜在特征和目标音频特征，生成目标音频信号对应的目标描述信息。

其中，目标描述信息可以是视频，音频，文字或者图片等等。

一些实施例中，在确定出当前时间步的目标潜在特征之后，可以通过循环神经网络或者转换器模型等生成目标潜在特征对应的描述词，进一步，获取多个时间步的目标潜在特征，逐步生成多个时间步各自对应的描述词，以便将多个时间步各自对应的描述词进行拼接，生成目标音频信号对应的目标描述信息。

本申请实施例提供了一种音频信号内容分析方法，在本申请实施例中，首先获取待处理的目标音频信号的目标音频特征，进一步通过目标嵌入特征与目标音频特征与目标音频特征，得到当前时间步的特征概率分布，目标嵌入特征为上一时间步的原始词嵌入特征或者样本音频信号的预设词嵌入特征，由于在确定特征概率分布的过程中加入例如目标嵌入特征，可以有效提高特征概率分布的准确性，并且由于每一次的文字生成过程都会基于特征概率分布从特征概率分布中重新采样出当前时间步的目标潜在特征，可以实现不会每次音频信号内容分析过程中的同一时间步均基于同一词目标潜在特征生成对应的描述词，从而在保证生成文字准确性的前提下，可以基于同一音频信号生成不同的目标描述信息。

一些实施例中，由于待处理的数据中没有目标音频对应的标签目标描述信息，因此，可以基于先验模型的方式确定当前时间步特征概率分布，上述S102、基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布，包括：

将目标嵌入特征和目标音频特征输入音频信号内容分析模型的先验模型，确定当前时间步的先验概率分布。

一些实施例中，可以初始化先验模型的参数，并获取目标音频特征以及目标嵌入特征。

由于先验模型一般采取自回归的方式生成多个时间步的特征概率分布，在生成当前时间步的特征概率分布之前，可以获取基于上一时间步的特征概率分布生成的描述词，因此，可以获取该描述词的词嵌入特征。

如果当前时间步为目标音频信号对应的目标描述信息的第一时间步，那么可以获取目标音频信号的预设词嵌入特征，一般情况下，预设词嵌入特征为表示开始字符的词嵌入特征。

进一步的，可以将上一时间步的描述词的词嵌入特征与目标音频特征进行拼接，或者将预设词嵌入特征进行拼接，得到拼接词嵌入特征，并将该拼接词嵌入特征输入至先验模型，得到当前时间步的特征概率分布。

将目标嵌入特征和目标音频特征输入音频信号内容分析模型的先验模型，得到当前时间步的先验概率分布，包括：

若存在前一时间步的描述词的原始词嵌入特征，则将原始词嵌入特征和目标音频特征输入先验模型，得到当前时间步的先验概率分布；

若不存在原始词嵌入特征，则将预设词嵌入特征和目标音频特征输入先验模型，得到当前时间步的先验概率分布。

将目标嵌入特征和目标音频特征输入先验模型，得到当前时间步的分布参数，分布参数包括以下至少一种：均值和方差；

基于分布参数绘制出样本音频信号的当前时间步的高斯分布图。

一些实施例中，音频信号内容分析模型还包括：语言解码模型和文字编排模型，基于多个时间步的目标潜在特征和目标音频特征，生成目标音频信号对应的目标描述信息，包括：将任一时间步的词先验嵌入特征和目标音频特征输入语言解码模型，确定时间步的描述词；将多个时间步的描述词输入文字编排模型，确定目标音频信号对应的目标描述信息。

通过在特征概率分布选取任一时间步的目标嵌入特征之后，可以将目标音频特征和目标嵌入特征进行拼接，并将拼接后的拼接特征输入语言解码模型，从而得到该时间步的描述词。

进一步通过自回归的方式得到多个时间步的描述词，并将多个时间步的描述词输入文字编排模型，得到目标音频信号对应的目标描述信息。

一些实施例中，音频信号内容分析模型预先通过训练得到，音频信号内容分析模型的训练过程包括：

对样本数据进行预处理，确定样本音频信号的样本音频特征以及标签语句的多个标签词嵌入特征，样本数据包括样本音频信号和标签语句；

将样本音频特征和多个标签词嵌入特征输入初始音频信号内容分析模型的后验模型以及将样本嵌入特征和样本音频特征输入初始音频信号内容分析模型初始先验模型，计算得到第一损失函数值；

基于将样本音频特征和多个标签词入特征输入后验模型得到的第一输出结果和初始音频信号内容分析模型的初始语言解码模型，计算得到第二损失函数值；

基于将第一结果输入初始语言解码模型的第二输出结果和初始音频信号内容分析模型的文字编排模型，计算得到第三损失函数值；

基于第一损失函数值、第二损失函数值和第三损失函数值，调整音频信号内容分析模型的模型参数，得到继续训练，直至满足预设的第四训练完成条件，得到训练好的音频信号内容分析模型。

其中，音频信号内容分析模型可以实现为一变分自编码器，可以获取初始先验模型的第一损失函数值、初始语言解码模型的第二损失函数值、初始文字编排模型的第三损失函数值、第一损失函数的第一权重系数、第二损失函数的第二权重系数和第三损失函数的第三权重系数。

其中，第一权重系数、第二权重系数和第三权重系数可以基于实际情况灵活设定。

在一个实施例中，可以基于初始先验模型的第一损失函数值、初始语言解码模型的第二损失函数值、初始文字编排模型的第三损失函数值、第一损失函数的第一权重系数、第二损失函数的第二权重系数和第三损失函数的第三权重系数确定音频信号内容分析模型的总损失函数值，并基于总损失函数值调整音频信号内容分析模型的模型参数，得到继续训练，直至满足预设的第四训练完成条件，得到训练好的音频信号内容分析模型。

在一个实施例中，总损失函数值可以基于以下公式确定：

L_total＝αL_kl+βL_ce+γL_global (1)

其中，L_total为总损失函数，α为第一权重系数，L_kl为第一损失函数，β为第二权重系数，L_ce为第二损失函数，γ为第三权重系数，L_global为第三损失函数，在确定出第一目标损失函数值、第二目标损失函数值和第三目标损失函数值之后，可以调整第一权重系数、第二权重系数和第三权重系数中的至少一个权重系数。

其中，第四训练完成条件可以是第四损失函数值小于对应的阈值，或者训练的迭代次数达到预设次数。

其中，预处理操作可以是通过上述S101中的方式从样本音频信号中提取出样本音频特征，并对标签语句进行分词操作，得到标签语句的多个词或者多个字，如果标签语句为中文，那么可以通过分词操作得到标签语句的多个字，如果标签语句为英文，可以通过分词操作得到标签语句的多个词，进一步对多个词或者多个字进行编码，得到多个词或者多个字的词嵌入特征。

一些实施例中，将样本音频特征和多个标签词嵌入特征输入初始音频信号内容分析模型后验模型以及将样本嵌入特征和样本音频特征输入初始音频信号内容分析模型初始先验模型，计算得到第一损失函数值，包括：

将样本音频特征和多个标签词嵌入特征输入后验模型，确定当前时间步的样本后验概率分布；

将样本嵌入特征和样本音频特征输入初始先验模型，确定当前时间步的样本先验概率分布，样本嵌入特征为前一时间步的描述词的标签词嵌入特征或者预设词嵌入特征；

基于样本后验概率分布和样本先验概率分布，计算第一损失函数值。

将样本音频特征和多个样本词嵌入特征输入后验模型，得到多个时间步各自对应的样本后验概率分布，并从多个时间步各自对应的样本后验概率分布获取当前时间步的样本后验概率分布。

由于后验概率分布是基于标签音频信号内容分析的，且该标签语句为目标音频信号对应的目标描述信息，因此，后验概率分布是准确的，因此可以将后验概率分布作为标签训练先验模型。

在给定了观测数据的情况下，可以基于观测数据确定出当前时间步的后验概率分布，其中，后验概率分布可以通过如下公式计算：

q(Z^post|X,A)为每个时间步t的后验概率分布，Z^post为潜在变量，X,A分别代表观测数据和辅助变量，其中X为多个样本词嵌入特征，X＝(x₁,…,x_T)，A为样本音频特征，该公式是将时间步t从1到T的后验分布的概率密度函数进行乘积。这意味着我们将每个时间步的后验分布一起考虑，以获得整个时间序列的后验概率分布。

进一步的，可以从整个时间序列的后验概率分布获取当前时间步的后验概率分布。

先验概率分布可以通过如下公式计算：

为每个时间步t的先验概率分布，/>是一组已生成单词的样本嵌入特征的元组，A为样本音频特征，/>表示截止到时间步t的观测数据的估计值，具体来说，该公式是将时间步t从1到T的先验分布的概率密度函数进行乘积。这意味着我们将每个时间步之前的观测数据估计值与辅助变量一起考虑，来获得整个时间序列的先验概率分布。

第一损失函数值可以通过如下公式计算：

其中L_kl为第一损失函数，L_kl表示通过计算后验分布q(Z|X,A)与先验分布之间的KL散度来度量它们之间的差异q(Z|X,A)表示后验分布，/>表示先验分布，这个KL散度可以理解为在给定观测数据和辅助变量的情况下，后验分布与先验分布之间的信息差异。如果L_kl越小，说明后验分布与先验分布越接近；反之，L_kl越大，则表示两个分布之间的差异越大。

为了详细说明后验概率分布的生成过程，图2示出了本申请实施例提供的一种后验概率分布生成的流程图，假设后验概率分布为高斯分布，如图2所示，将样本音频特征和多个样本词嵌入特征输入后验模型，通过后验模型中的两个线性层分别得到多个时间步的后验分布均值以及多个时间步的后验分布方差。进一步可以基于每个时间步的后验分布均值和后验分布方差构建每个时间步的高斯分布图。

为了详细说明先验概率分布的生成过程，图3示出了本申请实施例提供的一种先验概率分布生成的流程图，假设先验概率分布为高斯分布，如图3所示，将样本嵌入特征和样本音频特征输入初始先验模型，通过初始先验模型中的两个现行层分别得到当前时间步的先验分布均值和当前时间步的先验分布方差。进一步可以基于当前时间步的先验分布均值和先验分布方差构建当前时间步的高斯分布图。

一些实施例中，第一输出结果为当前时间步的样本后验概率分布，基于将样本音频特征和多个标签词入特征输入初始先验模型得到的第一输出结果和初始音频信号内容分析模型的初始语言解码模型，计算得到第二损失函数值，包括：

基于样本后验概率分布从样本后验概率分布通过重采样操作选取当前时间步的目标潜在特征；

获取目标潜在特征经过初始语言解码模型确定的当前时间步的样本描述词；

生成样本描述词对应的标签描述词；

基于标签描述词与样本描述词，计算第二损失函数值。

其中，可以获取后延模型输出的当前时间步的样本后验概率分布；

基于样本后验概率分布从样本后验概率分布的多个样本词嵌入特征中选取目标样本词嵌入特征。

在确定出当前时间步的样本后验概率分布的情况下，可以从样本后验概率分布的多个潜在特征中选取目标潜在特征，将目标潜在特征与目标音频特征进行拼接。

需要说明的是，在本申请的所有实施例中，拼接的方式可以根据实际情况灵活设定，比如可以是线性拼接、简单拼接或者多层拼接等等。

当前时间步的样本描述词可以通过以下公式确定：

其中，为样本描述词，Z,A分别为目标样本词嵌入特征和样本音频特征，/>为时间步t的样本描述词，z_t为时间步t的目标样本词嵌入特征。

在给定每个时间步的目标样本词嵌入特征和样本音频特征的情况下，可以根据式子(4)得到每个时间步的样本描述词。

在获取任一时间步的描述词之后，可以通过预设方式生成样本描述词对应的标签描述词，其中预设方式可以是最大似然估计法或者负对数似然优化法等等。

第二损失函数值可以基于以下公式确定：

其中，L_ce为第二损失函数，为期望，Z为样本描述词。X为标签描述词，A为样本音频特征。

表示在给定标签描述词X和样本音频特征A的情况下，对样本描述词Z进行的变分推断，即通过近似方法得到后验分布q(Z|X,A)。

logp(X|Z,A)表示给定样本描述词Z和音频特征A的情况下，模型生成标签描述词X的概率的对数。

通过最小化L_ce，我们可以使得模型在给定标签描述词X和样本音频特征量A的情况下，生成输出标签描述词X的概率最大化，从而提高模型的性能。

为了详细说明每个时间步的描述词的生成过程，图4示出了本申请实施例提供的一种描述词生成过程的流程图。

如图4所示：

首先判断当前过程是否为训练过程，若是训练过程，获取后验模型输出的当前时间步的样本后验概率分布，基于样本后验概率分布从样本后验概率分布的多个样本词嵌入特征中选取目标样本词嵌入特征；获取目标样本词嵌入特征经过初始语言解码模型确定的当前时间步的样本描述词。

若不是训练过程，获取训练好的先验模型输出的当前时间步的先验概率分布，基于先验概率分布从先验概率分布的多个潜在特征中选取目标潜在特征；获取目标样本词嵌入特征经过初始语言解码模型确定的当前时间步的样本描述词。

第二输出结果为当前时间步的样本描述词，基于将第一结果输入初始语言解码模型的第二输出结果和初始音频信号内容分析模型的文字编排模型，计算得到第三损失函数值，包括：

获取样本音频信号通过初始文字编排模型，确定的样本音频信号对应的样本描述信息；

基于标签语句和样本描述信息，计算第三损失函数值。

其中标签语句可以从训练的样本数据中获取，在获取到多个时间步各自对应的样本描述词之后，将多个样本描述词输入初始文字编排模型，确定样本描述信息，其中，样本描述词为基于未训练好的语言解码模型得到的。

基于样本描述信息和标签语句，计算第三损失函数值可以是获取样本描述信息的第一全局信息和标签语句的第二全局信息，通过第一全局信息和第二全局信息的差异值确定第三损失函数值。

第三损失函数值可以基于以下公式确定：

L_global＝cos(e_pre,e_gt) (6)

其中，L_global为第三损失函数，cos(·)为余弦损失函数，e_pre为第一全局信息，e_gt为第二全局信息。

为了详细说明基于音频信号内容分析模型的训练过程，图5示出了本申请实施例提供的一种训练过程的流程图。

如图5所示：

首先对样本数据中的样本音频信号和标签语句进行预处理，比如，基于PANN音频预训练模型提取样本音频信号的样本音频特征，以及对标签语句进行分词以及词嵌入特征编码操作，获取标签语句的多个样本词嵌入特征。

将音频信号特征和上一时间步的样本嵌入特征输入初始先验模型，获取初始先验模型输出的当前时间步的样本先验概率分布；同时将样本音频特征和多个样本词嵌入特征输入后验模型，获取后验模型输出的当前时间步的样本后验概率分布；

基于样本后验概率分布和样本先验概率分布，计算第一损失函数值

获取后验模型输出的当前时间步的样本后验概率分布；

基于样本后验概率分布从样本后验概率分布的多个样本潜在特征中选取目标潜在特征。

获取目标样本词嵌入特征经过初始语言解码模型确定的当前时间步的样本描述词；生成样本描述词对应的样本描述词；基于标签描述词与样本描述词，计算第二损失函数值。

获取样本音频信号对应的标签语句；获取样本音频信号通过后验模型以及初始语言解码模型，确定的多个时间步各自对应的样本描述词；将多个样本描述词输入初始文字编排模型，确定标签语句；基于标签语句和标签语句，计算第三损失函数值。

基于初始先验模型的第一损失函数值、初始语言解码模型的第二损失函数值、初始文字编排模型的第三损失函数值、第一损失函数的第一权重系数、第二损失函数的第二权重系数和第三损失函数的第三权重系数确定音频信号内容分析模型的总损失函数值，并基于总损失函数值调整音频信号内容分析模型的模型参数，得到继续训练，直至满足预设的第四训练完成条件，得到训练好的音频信号内容分析模型。

本申请实施例还提供一种音频信号内容分析装置，该装置用于执行上述任一实施例提供的音频信号内容分析方法。如图6所示，该装置包括：

获取模块601，用于获取待处理的目标音频信号的目标音频特征；

确定模块602，用于基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布，目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征；

选取模块603，用于基于特征概率分布从特征概率分布中通过重采样操作选取当前时间步的目标潜在特征；

生成模块604，用于基于多个时间步的目标潜在特征和目标音频特征，生成目标音频信号对应的目标描述信息。

本申请实施例提供了一种音频信号内容分析装置，在本申请实施例中，首先获取待处理的目标音频信号的目标音频特征，进一步通过目标嵌入特征与目标音频特征与目标音频特征，得到当前时间步的特征概率分布，目标嵌入特征为上一时间步的原始词嵌入特征或者样本音频信号的预设词嵌入特征，由于在确定特征概率分布的过程中加入例如目标嵌入特征，可以有效提高特征概率分布的准确性，并且由于每一次的文字生成过程都会基于特征概率分布从特征概率分布中重新采样出当前时间步的目标潜在特征，可以实现不会每次音频信号内容分析过程中的同一时间步均基于同一词目标潜在特征生成对应的描述词，从而在保证生成目标描述信息准确性的前提下，可以基于同一音频信号生成不同的目标描述信息。

一些实施例中，确定模块602，具体用于：

一些实施例中，音频信号内容分析模型还包括：语言解码模型和文字编排模型，生成模块604，具体用于：

将任一时间步的词先验嵌入特征和目标音频特征输入语言解码模型，确定时间步的描述词；

将多个时间步的描述词输入文字编排模型，确定目标音频信号对应的目标描述信息。

一些实施例中，计算模块，用于：

一些实施例中，第一输出结果为当前时间步的样本后验概率分布，计算模块，还用于：

生成样本描述词对应的标签描述词；

基于标签描述词与样本描述词，计算第二损失函数值。

一些实施例中，第二输出结果为当前时间步的样本描述词，计算模块，还用于：

基于标签语句和样本描述信息，计算第三损失函数值。

本申请实施例提供的音频信号内容分析装置与本申请实施例提供的音频信号内容分析方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种电子设备，以执行上述音频信号内容分析方法。请参考图7其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图7所示，电子设备7包括：处理器700，存储器701，总线702和通信接口703，处理器700、通信接口703和存储器701通过总线702连接；存储器701中存储有可在处理器700上运行的计算机程序，处理器700运行计算机程序时执行本申请前述任一实施方式所提供的音频信号内容分析方法。

其中，存储器701可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口703(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线702可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器701用于存储程序，处理器700在接收到执行指令后，执行程序，前述本申请实施例任一实施方式揭示的音频信号内容分析方法可以应用于处理器700中，或者由处理器700实现。

处理器700可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器700中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器700可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器701，处理器700读取存储器701中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的音频信号内容分析方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的音频信号内容分析方法对应的计算机可读存储介质，请参考图8，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，计算机程序在被处理器运行时，会执行前述任意实施方式所提供的音频信号内容分析方法。

需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的音频信号内容分析方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下示意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频信号内容分析方法，其特征在于，包括：

获取待处理的目标音频信号的目标音频特征；

2.根据权利要求1所述的方法，其特征在于，所述基于目标嵌入特征和所述目标音频特征，确定当前时间步的特征概率分布，包括：

将目标嵌入特征和所述目标音频特征输入音频信号内容分析模型的先验模型，确定当前时间步的先验概率分布。

3.根据权利要求2所述的方法，其特征在于，所述音频信号内容分析模型还包括：语言解码模型和文字编排模型，所述基于多个时间步的目标词潜在特征和所述目标音频特征，生成所述目标音频信号对应的目标描述信息，包括：

将任一时间步的目标潜在特征和所述目标音频特征输入所述语言解码模型，确定所述时间步的描述词；

将多个时间步的描述词输入所述文字编排模型，确定所述目标音频信号对应的目标描述信息。

4.根据权利要求2所述的方法，其特征在于，所述音频信号内容分析模型预先通过训练得到，所述音频信号内容分析模型的训练过程包括：

对样本数据进行预处理，确定样本音频信号的样本音频特征以及标签语句的多个标签词嵌入特征，所述样本数据包括所述样本音频信号和所述标签语句；

将所述样本音频特征和所述多个标签词嵌入特征输入初始音频信号内容分析模型的后验模型以及将样本嵌入特征和所述样本音频特征输入所述初始音频信号内容分析模型初始先验模型，计算得到第一损失函数值；

基于将所述样本音频特征和所述多个标签词入特征输入所述后验模型得到的第一输出结果和所述初始音频信号内容分析模型的初始语言解码模型，计算得到第二损失函数值；

基于将所述第一结果输入所述初始语言解码模型的第二输出结果和所述初始音频信号内容分析模型的文字编排模型，计算得到第三损失函数值；

基于所述第一损失函数值、所述第二损失函数值和所述第三损失函数值，调整所述音频信号内容分析模型的模型参数，得到继续训练，直至满足预设的第四训练完成条件，得到训练好的音频信号内容分析模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述样本音频特征和所述多个标签词嵌入特征输入所述初始音频信号内容分析模型后验模型以及将样本嵌入特征和所述样本音频特征输入所述初始音频信号内容分析模型初始先验模型，计算得到第一损失函数值，包括：

将所述样本音频特征和所述多个标签词嵌入特征输入所述后验模型，确定当前时间步的样本后验概率分布；

将样本嵌入特征和所述样本音频特征输入初始先验模型，确定当前时间步的样本先验概率分布，所述样本嵌入特征为前一时间步的描述词的标签词嵌入特征或者所述预设词嵌入特征；

基于所述样本后验概率分布和所述样本先验概率分布，计算第一损失函数值。

6.根据权利要求5所述的方法，其特征在于，所述第一输出结果为当前时间步的样本后验概率分布，所述基于将所述样本音频特征和所述多个标签词入特征输入所述初始先验模型得到的第一输出结果和所述初始音频信号内容分析模型的初始语言解码模型，计算得到第二损失函数值，包括：

基于所述样本后验概率分布从所述样本后验概率分布通过重采样操作选取所述当前时间步的目标潜在特征；

获取所述目标潜在特征经过初始语言解码模型确定的当前时间步的样本描述词；

生成所述样本描述词对应的标签描述词；

基于所述标签描述词与所述样本描述词，计算第二损失函数值。

7.根据权利要求6所述的方法，其特征在于，所述第二输出结果为当前时间步的样本描述词，所述基于将所述第一结果输入所述初始语言解码模型的第二输出结果和所述初始音频信号内容分析模型的文字编排模型，计算得到第三损失函数值，包括：

获取所述样本音频信号通过所述初始文字编排模型，确定的所述样本音频信号对应的样本描述信息；

基于所述标签语句和所述样本描述信息，计算第三损失函数值。

8.一种音频信号内容分析装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。