CN116935889B

CN116935889B - 一种音频类别的确定方法、装置、电子设备及存储介质

Info

Publication number: CN116935889B
Application number: CN202311182243.7A
Authority: CN
Inventors: 张德俊; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-11-24
Anticipated expiration: 2043-09-14
Also published as: CN116935889A

Abstract

本申请提供了一种音频类别的确定方法、装置、电子设备及存储介质，确定方法包括：对待检测音频进行处理，对傅里叶变换处理后的待检测音频进行音频特征提取；将音频特征输入至音频类别检测模型的扩散网络层之中，确定出待检测音频的音频特征相对应的视频特征；将视频特征以及音频特征输入至分类网络层之中，对视频特征以及音频特征进行特征融合，并确定出融合后的特征，并对融合后的特征进行分类，输出待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。

Description

一种音频类别的确定方法、装置、电子设备及存储介质

技术领域

本申请涉及音频识别技术领域，尤其是涉及一种音频类别的确定方法、装置、电子设备及存储介质。

背景技术

音频类别的确定在音乐识别、环境音识别和说话者识别等多种场景下应用广泛，声音作为人类感知周围环境和认知世界的一个重要途径备受关注。音频类别的识别主要有基于k近邻等的机器学习方法，虽然该种方法简单有效，但是当数据集规模变大时，计算复杂度会显著增大，此外该方法对不平衡的数据集不友好，较易受异常值影响；或者是基于马尔科夫模型的数学建模方法、基于HMM-GMM算法，该算法将HMM作为时间序列建模的框架，使用GMM对每个状态的观测概率建模，但是该算法的特征表征能力有限，由于GMM只对每个状态的观测概率建模，它对于捕捉更高级别的语义信息可能有限。这种限制可能导致在一些复杂的语音识别任务中性能不如其他更高级别的模型会导致音频类别的识别不准确的问题。所以，如何提高音频类别确定的准确性成为了不容小觑的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种音频类别的确定方法、装置、电子设备及存储介质，通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。

本申请实施例提供了一种音频类别的确定方法，所述确定方法包括：

对待检测音频进行音频处理，对处理后的所述待检测音频进行音频特征提取；

将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征；

将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。

在一种可能的实施方式之中，所述将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征，包括：

在所述扩散网络层依次对所述音频特征进行前向扩散处理、反向去噪处理以及采样生成处理，确定出所述音频特征相对应的视频特征。

在一种可能的实施方式之中，将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息，包括：

所述分类网络层对所述视频特征以及所述音频特征进行融合，确定出融合后的特征；

所述分类网络层对所述融合后的特征进行分类，确定出所述融合后的特征相对应的音频类别得分值，基于多个所述音频类别得分值输出所述待检测音频的音频类别信息。

在一种可能的实施方式之中，所述分类网络层对所述视频特征以及所述音频特征进行融合，确定出融合后的特征，包括：

在所述分类网络层之中确定出所述视频特征以及所述音频特征之间的相似度分值；

基于所述相似度分值，确定出所述视频特征以及所述音频特征之间的注意力得分值；

基于所述注意力得分值对所述视频特征以及所述音频特征进行加权融合，确定出融合后的特征。

在一种可能的实施方式之中，所述分类网络层对所述融合后的特征进行分类，确定出所述融合后的特征相对应的音频类别得分值，基于多个所述音频类别得分值输出所述待检测音频的音频类别信息，包括：

在所述分类网络层中基于归一化指数函数确定出所述融合后的特征相对应的各个音频类别得分值；

在多个所述音频类别得分值之中筛选出最大的音频类别得分值，将所述最大的音频类别得分值相对应的音频类别信息确定为所述待检测音频的音频类别信息。

在一种可能的实施方式之中，通过以下步骤对所述音频类别检测模型进行训练：

获取多个样本音频特征、每个所述样本音频特征相对应的样本视频特征以及每个所述样本音频特征相对应的标签信息；

基于多个所述样本音频特征以及多个所述样本视频特征对深度学习网络层进行迭代训练，确定出所述扩散网络层；

基于多个所述样本音频特征、多个所述样本音频特征以及多个所述标签信息对神经网络层进行迭代训练，确定出所述分类网络层；

基于所述扩散网络层以及所述分类网络层，确定出所述音频类别检测模型。

在一种可能的实施方式之中，所述基于多个所述样本音频特征、多个所述样本音频特征以及多个所述标签信息对神经网络层进行迭代训练，确定出所述分类网络层，包括：

对所述样本音频特征以及相对应的样本视频特征进行融合，确定出融合后的样本特征；

基于所述融合后的样本特征，预测出所述融合后的样本特征相对应的所述样本音频特征的预测音频类别得分值；

确定出所述样本音频特征的预测音频类别得分值以及所述样本音频特征相对应的所述标签信息中的样本音频类别得分值之间的损失值；

基于所述损失值对所述神经网络层的网络参数进行调整，确定出所述分类网络层。

本申请实施例还提供了一种音频类别的确定装置，所述确定装置包括：

特征提取模块，用于对待检测音频进行音频处理，对处理后的所述待检测音频进行音频特征提取；

扩散模块，用于将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征；

分类模块，用于将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的音频类别的确定方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的音频类别的确定方法的步骤。

本申请实施例提供的一种音频类别的确定方法、装置、电子设备及存储介质，所述确定方法包括：对待检测音频进行处理，对处理后的所述待检测音频进行音频特征提取；将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征；将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种音频类别的确定方法的流程图；

图2为本申请实施例所提供的一种音频类别的确定方法的示意图；

图3为本申请实施例所提供的一种音频类别的确定装置的结构示意图之一；

图4为本申请实施例所提供的一种音频类别的确定装置的结构示意图之二；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“对音频的类别进行确定”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于音频识别的技术领域。

经研究发现，音频类别的确定在音乐识别、环境音识别和说话者识别等多种场景下应用广泛，声音作为人类感知周围环境和认知世界的一个重要途径备受关注。音频类别的识别主要有基于k近邻等的机器学习方法，虽然该种方法简单有效，但是当数据集规模变大时，计算复杂度会显著增大，此外该方法对不平衡的数据集不友好，较易受异常值影响；或者是基于马尔科夫模型的数学建模方法、基于HMM-GMM算法，该算法将HMM作为时间序列建模的框架，使用GMM对每个状态的观测概率建模，但是该算法的特征表征能力有限，由于GMM只对每个状态的观测概率建模，它对于捕捉更高级别的语义信息可能有限。这种限制可能导致在一些复杂的语音识别任务中性能不如其他更高级别的模型会导致音频类别的识别不准确的问题。所以，如何提高音频类别确定的准确性成为了不容小觑的技术问题。

基于此，本申请实施例提供了一种音频类别的确定方法，通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。

请参阅图1，图1为本申请实施例所提供的一种音频类别的确定方法的流程图。如图1中所示，本申请实施例提供的确定方法，包括：

S101：对待检测音频进行音频处理，对处理后的所述待检测音频进行音频特征提取。

该步骤中，对待检测音频进行音频处理，对处理后的待检测音频进行音频特征提取。

这里，音频处理可包括音视频数据清洗、音视频数据降噪等步骤，音视频数据经过预处理之后具有鲁棒性更强的特征，为后续特征提取提供更精确的信息。

其中，音频特征为mfcc特征。

这里，在音频分类任务中最常用的特征是mfcc特征，mfcc特征需要通过预加重滤波器，然后被分割成帧，并对每个帧应用一个窗口函数；然后，对每一帧进行短时傅里叶变换并计算功率谱，为了获得mfcc特征，需对滤波器组应用离散余弦变换（DCT）。首先，预加重滤波器主要为了放大高频，消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰，使用一个高通滤波器实现；语音信号是短时平稳信号，所以通常是对短时帧窗口内进行特征提取操作。同时为了避免连续帧差别太大，取相邻两帧之间会有重叠部分。预加重后，需要将信号分割为短时间帧。在将信号分割成帧后，对每一帧应用一个窗口函数，如汉明窗口。对每个帧根据N-point FFT来计算频谱计算Mel滤波器组，将功率谱通过一组Mel刻度的三角滤波器来提取频带。对于FFT得到的幅度谱，分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在该滤波器对应频段的能量值。将得到的能量值代入到离散余弦变换公式之中得到mfcc特征。

S102：将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征。

该步骤中，将音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对音频特征进行特征处理确定出待检测音频的音频特征相对应的视频特征。

这里，在扩散网络层之中可以根据音频特征扩散出该音频特征相对应的视频特征。

这里，在扩散网络层依次对音频特征进行前向扩散处理、反向去噪处理以及采样生成处理，确定出音频特征相对应的视频特征。

特征处理包括前向扩散处理、反向去噪处理以及采样生成处理。

其中，关于前向扩散处理、反向去噪处理以及采样生成处理为现有的任意一种技术手段均可实现，此部分不再进行赘述。

S103：将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。

该步骤中，将视频特征以及音频特征输入至音频类别检测模型的分类网络层之中，对视频特征以及音频特征进行特征融合，并确定出融合后的特征，并对融合后的特征进行分类，输出待检测音频的音频类别信息。

这里，音频类别信息包括人声类别信息、音乐类别信息、动物声类别信息等其他类别信息。

A：所述分类网络层对所述视频特征以及所述音频特征进行融合，确定出融合后的特征。

这里，在分类网络层中对视频特征以及音频特征进行融合，确定出融合后的特征。

a：在所述分类网络层之中确定出所述视频特征以及所述音频特征之间的相似度分值。

这里，通过以下公式确定出视频特征与音频特征之间的相似度分值：

；

其中，是视频特征/>和音频特征/>之间的相似度分值。

b：基于所述相似度分值，确定出所述视频特征以及所述音频特征之间的注意力得分值。

这里，根据相似度分值，确定出视频特征以及音频特征之间的注意力得分值。

这里，通过以下公式计算出注意力得分值：

；

其中，是通过softmax函数输出的注意力得分值，/>是相似度分值，n是特征数量。

c：基于所述注意力得分值对所述视频特征以及所述音频特征进行加权融合，确定出融合后的特征。

这里，根据注意力得分值对视频特征以及音频特征进行加权融合，确定出融合后的特征，从而获得一个更丰富和全面的特征表示。

其中，基于注意力机制的融合为通过学习注意力权重来对不同模态的信息进行加权融合，以提高重要信息的影响。基于生成式对抗网络（GAN）的融合，通过训练生成式对抗网络，将不同模态的信息融合到一个生成器中，生成器可用于特定任务的输出。

B：所述分类网络层对所述融合后的特征进行分类，确定出所述融合后的特征相对应的音频类别得分值，基于多个所述音频类别得分值输出所述待检测音频的音频类别信息。

这里，分类网络层对融合后的特征进行分类，确定出融合后的特征相对应的音频类别得分值，根据多个音频类别得分值输出待检测音频的音频类别信息。

（1）：在所述分类网络层中基于归一化指数函数确定出所述融合后的特征相对应的各个音频类别得分值。

这里，在分类网络层中根据归一化指数函数确定出融合后的特征相对应的各个音频类别得分值。

其中，通过以下公式确定出音频类别得分值：

；

其中，为音频类别得分值，K是音频类别的数量，z为融合后的特征，/>和/>是分类网络层的网络参数和偏置参数，T为矩阵的转置操作。

（2）：在多个所述音频类别得分值之中筛选出最大的音频类别得分值，将所述最大的音频类别得分值相对应的音频类别信息确定为所述待检测音频的音频类别信息。

这里，在多个音频类别得分值之中筛选出最大的音频类别得分值，将最大的音频类别得分值相对应的音频类别信息确定为待检测音频的音频类别信息。

I：获取多个样本音频特征、每个所述样本音频特征相对应的样本视频特征以及每个所述样本音频特征相对应的标签信息。

这里，获取多个样本音频特征、每个样本音频特征相对应的样本视频特征以及每个样本音频特征相对应的标签信息。

这里，样本视频特征的处理过程与上述音频特征的处理过程相一致，此部分不再进行赘述。

其中，在样本视频特征选择上，由于视频是多个一帧的图像组成的，每一帧的图像具有独特的空间信息，而所有帧的图像构成的视频流具有时间信息，为了充分利用空间信息和时间信息，本方案首先对每一帧图像特征利用InceptionV3网络，提取最后一层全连接层的特征向量作为图像的空间特征，每一帧图像的空间特征包含了视频中的与对象有关的信息，然后按照视频的间隔，使用LSTM提取视频特征，该视频特征在上述提取的空间信息基础上叠加了视频的时间信息，空间和时间相互作用，共同组成了本方案中的样本视频特征。

II：基于多个所述样本音频特征以及多个所述样本视频特征对深度学习网络层进行迭代训练，确定出所述扩散网络层。

这里，根据多个样本音频特征以及多个样本视频特征对深度学习网络层进行迭代训练，确定出扩散网络层。

其中，对音频类别的确定任务，一般情况下推理阶段只有音频模态的数据可供使用，视频数据较难获取，因此如何设计一种系统来建模音频信息和视频信息的关系成为重点。在现实生活中，音频和视频通常是一起发生的，因此可以认为音频模态的特征和视频模态的特征具有耦合的内部联系，考虑通过音频信息生成视频信息具有可能。扩散网络层受非平衡热力学的启发，通过定义一个扩散步骤的马尔可夫链，逐渐向数据添加随机噪声，然后学习逆扩散过程，从噪声中构建所需的数据样本，在生成式任务中具有广泛应用。扩散网络层是一种潜变量模型，使用固定的马尔科夫链映射到潜空间中，可以通过扩散过程从音频特征生成对应的视频特征。本方案中通过扩散网络层建立音频特征和视频特征的关系，达到从音频特征生成对应的视频特征的目的。扩散网络层的基本思路是从一个简单分布的随机噪声，经过一系列变换，转变为目标的数据分布，包括前向扩散、反向去噪和采样生成三个阶段。

其中，关于扩散网络层的训练过程现有的任意一种技术手段均可实现，此部分不再进行赘述。

III：基于多个所述样本音频特征、多个所述样本音频特征以及多个所述标签信息对神经网络层进行迭代训练，确定出所述分类网络层。

这里，根据多个样本音频特征、多个样本音频特征以及多个标签信息对神经网络层进行迭代训练，确定出分类网络层。

i：对所述样本音频特征以及相对应的样本视频特征进行融合，确定出融合后的样本特征。

这里，对样本音频特征以及相对应的样本视频特征进行融合，确定出融合后的样本特征。

ii：基于所述融合后的样本特征，预测出所述融合后的样本特征相对应的所述样本音频特征的预测音频类别得分值。

这里，根据融合后的样本特征，预测出融合后的样本特征相对应的样本音频特征的预测音频类别得分值。

这里，预测音频类别得分值的确定过程与上述音频类别得分值的确定过程相一致，此部分不再进行赘述。

iii：确定出所述样本音频特征的预测音频类别得分值以及所述样本音频特征相对应的所述标签信息中的样本音频类别得分值之间的损失值。

这里，通过以下公式确定出损失值：

其中，L为损失值，是样本的数量，/>是样本音频特征/>的标签信息，/>是样本中类别/>的预测音频类别得分值。

iv：基于所述损失值对所述神经网络层的网络参数进行调整，确定出所述分类网络层。

这里，根据损失值对神经网络层的网络参数进行调整，确定出分类网络层。具体的，若损失值小于预设阈值，则无需对神经网络层的网络参数进行调整，若损失值大于预设阈值，则需对神经网络层的网络参数进行调整。

IV：基于所述扩散网络层以及所述分类网络层，确定出所述音频类别检测模型。

这里，根据扩散网络层以及分类网络层进行构建，确定出音频类别检测模型。

关于，根据扩散网络层以及分类网络层进行构建的过程现有的任意一种技术手段均可实现，此部分不再进行赘述。

其中，本方案提出的音频类别检测模型中的分类网络层为一个多模态神经网络层，在训练过程中其输入是样本音频特征和样本视频特征，多模态神经网络层通常是多个单模式神经网络的组合，一个模态网络层用于处理样本音频特征，另一个模态网络层处理样本视频特征。这些单模态神经网络通常分别处理它们的输入。这个过程被称为编码。在进行单模态编码之后，必须将从每个模型中提取的特征融合在一起。多模态数据融合过程是最重要的成功因素之一。融合发生后，根据融合的编码信息使用自监督算法预训练的神经网络层，不断调整优化参数，训练得到分类网络层。

在具体实施例之中，提取样本音频特征，由于视频的相邻帧具有大量重复的冗余信息，提取每一帧的信息造成大量的计算负担和存储负担，因此使用跳帧的方式用inceptionV3网络提取每一个选择帧的图像特征，然后使用LSTM网络将图像特征映射到一个隐空间中，该隐空间同时具有图像的空间信息和视频的时间信息；训练一个样本音频特征到样本视频特征的扩散网络层，该扩散网络层的输入是音频特征，输出是对应的视频特征；在深度学习网络层采用交叉注意力机制对样本音频特征以及样本视频特征进行归一化，将样本音频特征和样本视频特征融合为一个更具鲁棒性和丰富性的特征；融合后的特征使用自监督方法预训练深度学习网络层，使用交叉熵损失函数对深度学习网络层进行训练得到分类网络层，根据扩散网络层以及分类网络层，确定出音频类别检测模型。

进一步的，请参阅图2，图2为本申请实施例所提供的一种音频类别的确定方法的示意图。如图2所示，提取待检测音频的音频特征，将音频特征输入到音频类别检测模型的扩散网络层，通过扩散网络层生成待检测音频的视频特征，将视频特征映射到隐空间中，将视频特征以及音频特征输入至音频类别检测模型的分类网络层之中，使用注意力机制对音频特征和视频特征进行融合，对融合后的特征进行处理，输出待检测音频的音频类别信息。

本申请实施例提供的一种音频类别的确定方法，所述确定方法包括：对待检测音频进行音频处理，对处理后的所述待检测音频进行音频特征提取；将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征；将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。

请参阅图3、图4，图3为本申请实施例所提供的一种音频类别的确定装置的结构示意图之一；图4为本申请实施例所提供的一种音频类别的确定装置的结构示意图之二。如图3中所示，所述确定装置300包括：

特征提取模块310，用于对待检测音频进行音频处理，对处理后的所述待检测音频进行音频特征提取；

扩散模块320，用于将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征；

分类模块330，用于将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。

进一步的，扩散模块320在用于所述将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征时，扩散模块320具体用于：

进一步的，所述将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，确定出所述待检测音频的所述音频特征相对应的视频特征，包括：

进一步的，分类模块330在用于将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息时，分类模块330具体用于：

进一步的，分类模块330在用于所述分类网络层对所述视频特征以及所述音频特征进行融合，确定出融合后的特征时，分类模块330具体用于：

进一步的，分类模块330在用于所述分类网络层对所述融合后的特征进行分类，确定出所述融合后的特征相对应的音频类别得分值，基于多个所述音频类别得分值输出所述待检测音频的音频类别信息时，分类模块330具体用于：

进一步的，如图4所示，确定装置300还包括训练模块340，所述训练模块340通过以下步骤对所述音频类别检测模型进行训练：

进一步的，训练模块340在用于所述基于多个所述样本音频特征、多个所述样本音频特征以及多个所述标签信息对神经网络层进行迭代训练，确定出所述分类网络层时，训练模块340具体用于：

本申请实施例提供的一种音频类别的确定装置，所述确定装置包括：特征提取模块，用于对待检测音频进行音频处理，对处理后的所述待检测音频进行音频特征提取；扩散模块，用于将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征；分类模块，用于将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1以及图2所示方法实施例中的一种音频类别的确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的一种音频类别的确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频类别的确定方法，其特征在于，所述确定方法包括：

2.根据权利要求1所述的确定方法，其特征在于，所述将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征，包括：

3.根据权利要求1所述的确定方法，其特征在于，将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息，包括：

4.根据权利要求3所述的确定方法，其特征在于，所述分类网络层对所述视频特征以及所述音频特征进行融合，确定出融合后的特征，包括：

5.根据权利要求3所述的确定方法，其特征在于，所述分类网络层对所述融合后的特征进行分类，确定出所述融合后的特征相对应的音频类别得分值，基于多个所述音频类别得分值输出所述待检测音频的音频类别信息，包括：

6.根据权利要求1所述的确定方法，其特征在于，通过以下步骤对所述音频类别检测模型进行训练：

7.根据权利要求6所述的确定方法，其特征在于，所述基于多个所述样本音频特征、多个所述样本音频特征以及多个所述标签信息对神经网络层进行迭代训练，确定出所述分类网络层，包括：

8.一种音频类别的确定装置，其特征在于，所述确定装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的音频类别的确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的音频类别的确定方法的步骤。