CN112446242A

CN112446242A - 声学场景分类方法、装置及相应设备

Info

Publication number: CN112446242A
Application number: CN201910810000.0A
Authority: CN
Inventors: 祝厚伟; 王立众; 杨磊
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2021-03-05

Abstract

提供了一种声学场景分类方法、装置及相应设备，所述方法包括：获取音频对应的第一音频特征信号；将第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号；使用第四音频特征信号进行声学场景分类以获得所述音频所属场景类别。

Description

声学场景分类方法、装置及相应设备

技术领域

本申请涉及声学技术领域，更具体地，涉及一种声学场景分类方法、装置及相应设备。

背景技术

声学场景分类是通过一段音频识别出音频属于哪种场景，通常在给定的固定种类的声学场景(例如，“机场”、“购物中心”、“地铁站”、“大街人行道”、“广场”、“有少量交通的大街”、“电车”，“巴士”、“地铁”、“公园”等)中识别音频是在哪个场景中。声学场景分类能够为基于内容的多媒体分析、语音增强、语音识别等提供很好的帮助，也能够为电视、手机、智能机器人、智能音箱等家庭娱乐、智能设备提供音频信号处理的辅助。

声学场景分类的目的是通过分析音频信号的特征，识别出特定的声音事件或语义内容，进而判断该音频信号所属于的场景。相比于基于图像的场景识别，声学场景分类具有以下优点：图像信息容易受损或丢失，而音频信息不易受损或丢失；处理音频信息的计算量较小，能够减轻设备的负担；音频信号的采集更加容易，占空间小。因此，声学场景分类越来越成为一个快速发展的研究领域，开发相应的信号处理方法以自动提取场景信息在很多应用(例如，智能移动设备、机器人以及智能监控系统等)中具有巨大潜力。

目前，利用深度学习算法实现声学场景分类问题已经取得了较为广泛的研究，并已经提出了应用于音频事件分类的门控卷积神经网络和基于注意力的时序定位方法。然而，当涉及未知场景的声学场景分类任务时，正确率呈下降趋势，其中，对于已知场景类准确性略有下降，并且对于未知场景类几乎无法将其与已知场景类进行区分。

发明内容

根据本发明的一方面，提供了一种声学场景分类方法，包括：(a)获取音频对应的第一音频特征信号；(b)将第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号；(c)使用第四音频特征信号进行声学场景分类以获得所述音频所属场景类别。

将第一音频特征信号输入卷积神经网络以获得第二音频特征信号的步骤可包括：在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作。

所述预定丢弃率可取值为0.2至0.3之间。

在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作的步骤可包括：在卷积神经网络的每两个卷积块之后进行基于预定丢弃率的随机失活操作。

将第一音频特征信号输入卷积神经网络以获得第二音频特征信号的步骤可包括：在卷积神经网络的设定卷积层之后，进行仅针对频率轴的池化操作。

卷积神经网络最后一个卷积层后的池化操作的池化大小，可以和其他预定卷积层后的池化操作的池化大小不同。

所述池化操作可以为最大池化操作。

使用第四音频特征信号进行声学场景分类的步骤可包括：将第四音频特征信号输入自注意力网络包括的位置嵌入层以将第四音频特征信号的各向量与各向量对应位置的顺序信息相加，以获得第五音频特征信号；将第五音频特征信号输入自注意力网络包括的自注意力层以获得第六音频特征信号。

使用第四音频特征信号进行声学场景分类的步骤还可包括：将第六音频特征信号输入到第一全连接层以获得所述音频针对各预定场景的二分类概率，以及将第六音频特征信号输入到第二全连接层以获得所述音频针对各预定场景的多分类概率；针对各预定场景，将所述音频针对各预定场景的二分类概率和多分类概率进行融合，以获得所述音频针对各预定场景的概率；根据所述音频针对各预定场景的概率，获得所述音频所属场景类别。

所述循环神经网络可以为双向循环神经网络。

使用第四音频特征信号进行声学场景分类的步骤可包括：根据第四音频特征信号确定所述音频针对各预定场景的概率；当针对各预定场景的概率中的最大概率小于预定阈值时，将所述音频确定为未知场景，当所述最大概率不小于预定阈值时将所述音频确定为与所述最大概率对应的预定场景。

所述预定阈值可以为0.4。

声学场景分类方法还可包括：将第一音频特征信号针对预定数量的卷积神经网络和循环神经网络进行步骤(b)以获得所述预定数量的所述音频针对各预定场景的概率，对所述预定数量的所述音频针对各预定场景的概率求平均值以用于获得所述音频所属场景类别。

所述融合处理可包括下述至少一项：拼接处理、相加处理、相减处理或相乘处理。

根据本发明的另一方面，提供了一种声学场景分类装置，包括：预处理单元，获取音频对应的第一音频特征信号；并行神经网络单元，将输入到包括卷积神经网络和循环神经网络的所述并行神经网络单元的第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号；分类单元，使用第四音频特征信号进行声学场景分类计算以获得所述音频所属场景类别。

并行神经网络单元可在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作。

所述预定丢弃率可取值为0.2至0.3之间。

并行神经网络单元可在卷积神经网络的每两个卷积块之后进行基于预定丢弃率的随机失活操作。

并行神经网络单元可在卷积神经网络的设定卷积层之后，进行仅针对频率轴的池化操作。

所述池化操作可以为最大池化操作。

分类单元可将第四音频特征信号输入自注意力网络包括的位置嵌入层以将第四音频特征信号的各向量与各向量对应位置的顺序信息相加，以获得第五音频特征信号；将第五音频特征信号输入自注意力网络包括的自注意力层以获得第六音频特征信号。

分类单元可将第六音频特征信号输入到第一全连接层以获得所述音频针对各预定场景的二分类概率，以及将第六音频特征信号输入到第二全连接层以获得所述音频针对各预定场景的多分类概率；针对各预定场景，将所述音频针对各预定场景的二分类概率和多分类概率进行融合，以获得所述音频针对各预定场景的概率；根据所述音频针对各预定场景的概率，获得所述音频所属场景类别。

所述循环神经网络可以为双向循环神经网络。

分类单元可根据第四音频特征信号确定所述音频针对各预定场景的概率；当针对各预定场景的概率中的最大概率小于预定阈值时，将所述音频确定为未知场景，当所述最大概率不小于预定阈值时，将所述音频确定为与所述最大概率对应的预定场景。

所述预定阈值可以为0.4。

所述声学场景分类装置还可将第一音频特征信号针对预定数量的并行神经网络单元进行操作以获得所述预定数量的所述音频针对各预定场景的概率，对所述预定数量的所述音频针对各预定场景的概率求平均值以用于获得所述音频所属场景类别。

根据本发明的另一方面，提供了一种电子设备，包括存储器和处理器，存储器上存储有计算机可执行指令，当所述指令由处理器执行时，执行前述的方法。

根据本发明的另一方面，提供了一种计算机可读介质，其上存储有计算机可执行指令，当执行所述指令时，执行前述的方法。

根据本发明的示例性实施例，通过卷积神经网络与循环神经网络的联合输出融合了两种网络的学习效果，既保留了卷积神经网络提取的高级特征表示，又能够对该高级特征表示进行更深的学习，利用循环神经网络学习到的特征信息更符合音频时序信号的特征；为了解决循环神经网络无法并行的问题，通过自注意力机制对输出的进一步学习，将输入序列在不同时域位置上的信息联系起来，更快速的捕捉到全局信息，并提高了整个系统对所有场景类别的识别准确率；通过模型平均处理，能够综合各模型学习的结果，提高了整个分类系统的抗过拟合能力。此外，根据本发明的示例性实施例，能够同时提高已知场景类和未知场景类的识别正确率，即，在显著提高针对已知场景类的识别准确率的同时，通过增加针对未知场景类的阈值判断，还能够显著提高该未知场景类的识别准确率，从而进一步提高整体分类结果。

将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体构思的实施而得知。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的和特点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的声学场景分类方法的示意图；

图2是示出根据本发明示例性实施例的声学场景分类方法的流程图；

图3是示出根据本发明示例性实施例的对原始音频进行预处理的流程图；

图4是示出根据本发明示例性实施例的基于并行神经网络的分类系统结构示意图；

图5是示出根据本发明示例性实施例的将第一音频特征信号输入并行神经网络的流程图；

图6是示出根据本发明示例性实施例的模型平均操作的示图；

图7是示出根据本发明示例性实施例的阈值判断的示图；

图8是示出根据本发明示例性实施例的声学场景分类装置的框图；

图9是示出根据本发明示例性实施例的用户设备的框图。

具体实施方式

现将详细参照本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

声学场景和事件的检测和分类(DCASE)的一系列挑战通过提供一组具有相应数据集，指标和评估框架的任务，为开发和比较最先进的声学场景分类方法提供了很好的机会。仅作为示例，本发明可以采用DCASE2019TASK1中子任务3提供的数据集，其中，该数据集提供了在10个城市录制的10个已知场景类和1个未知场景类音频数据集，每个已知场景类含1440个音频段，未知场景类由四个区别于已知场景类的场景共同组成，该类共含1450个音频段。所有音频段持续时间均为10秒，且为单声道。应该理解，本发明还可采用其它数据集。根据本发明，首先可将原始音频处理为适合包括卷积神经网络和循环神经网络的并行神经网络分类系统的输入，然后将输入经过并行神经网络分类系统进行处理，得到在线预测的初步分类结果，该初步分类结果为概率形式，比如原始音频的初步分类结果为：[0，0.1，0，0.2，0，0，0.2，0.3，0.2，0，0]，这11个数值是该音频分类为10个已知类和1个未知类的概率。随后，通过阈值判断对初步的概率结果进行阈值判断，如果输入音频的初步分类结果中的最大概率值小于预定阈值，则可将该音频的初步分类结果重新确定为未知场景类，如果最大概率值不小于所述预定阈值，则可将该音频的初步分类结果确定为最终分类结果，完成对未知场景类的二次识别，以此得到最终分类结果。本发明除了数据增强部分可在离线训练部分做，其它部分在线预测和离线训练步骤一样，都使用了同样的数据预处理、特征提取方法和同样的并行神经网络，并且添加了额外的多轮平均预测，和阈值判定方法。在现有技术的声学场景分类方法中使用的分类系统为卷积神经网络和双向循环神经网络的单行网络，即先通过卷积神经网络进行处理，以提取到高级特征，提取到的高级特征经过双向循环神经网络获取时域的上下文信息，双向循环神经网络的输出结果作为上述单行网络的输出结果，再通过前馈神经网络(Feedforward Neural Network，FNN)层预测每个音频类在每帧上的后验概率。由于经过双向循环神经网络的处理，上述高级特征会发生衰减，因此使得输入到FNN层的信息并不能完全反映高级特征所包含的详细信息，无法确定该单行网络在更进一步学习高级特征的同时是否将某些有用信息作为冗余而忽视，并且也不能很好地学习全局的结构信息。

具体的：

1)现有技术方案中使用的网络为单行网络，FNN层的输入仅是双向循环神经网络的输出，而双向循环神经网络对卷积神经网络层提取的高级特征进行了更深层次的映射，这使得输入到FNN层的信息并不能完全反映高级特征所包含的详细信息，无法确定双向循环神经网络在更进一步学习高级特征的同时是否也将某些有用信息作为冗余而忽视。此外，循环神经网络有一个明显缺点是无法并行，且对于全局的结构信息不能很好地学习。

2)现有技术方案应用场景为声学事件检测，由于应用场景的不同，当将该方法迁移到涉及未知场景类的声学场景分类任务中时，正确率呈下降趋势。其中，对于已知场景类，该方法准确性略有下降；但在识别未知场景类时，几乎无法将其与已知类进行区分，而包含未知场景类的声学场景分类任务的结果评判很大程度上取决于未知类的识别率；

针对上述问题1)，本申请给出了一种并行的网络结果，该网络联合循环神经网络与卷积神经网络的输出，既保留了卷积神经网络提取的高级特征表示，又能够对该高级特征表示进行更深的学习。同时，为了解决循环神经网络无法并行的问题，希望能够更方便的获取全局信息，本申请实施例在联合循环神经网络与卷积神经网络输出后将其并联输入到自注意力机制层，将输入序列在不同时域位置上的信息联系起来，更快速的捕捉到全局信息。

针对上述问题2)，考虑到基于未知场景类的声学场景分类，未知场景类的识别十分重要，未知场景类有别于其他已知场景类，无法得知其中包含多少种场景及特定信息，属于识别困难类，为提高未知场景类的准确率，本申请实施例提出了通过阈值判断的操作，该阈值判断的操作在原有结果上进行二次判别，重新划分未知场景类，提高了正确率。

图1是示出根据本发明示例性实施例的声学场景分类方法的示意图。

如图1所示，根据本发明示例性实施例的声学场景分类方法可包括系统输入、并行神经网络分类、阈值判断和输出结果。下面将参照图2详细描述根据本发明示例性实施例的声学场景分类方法。图2是示出根据本发明示例性实施例的声学场景分类方法的流程图。

参照图2，在步骤S210，可获取音频对应的第一音频特征信号。后面将参照图3对该步骤进行详细描述。

在步骤S220，可将第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号，并使用第四音频特征信号进行声学场景分类以获得所述音频所属场景类别。这里，为方便起见将上述由卷积神经网络和循环神经网络构成的特定结构的神经网络称为并行神经网络。这里，循环神经网络优选地为双向循环神经网络，但应注意本发明还可采用其他类型的循环神经网络，诸如，单向循环神经网络。后面将参照图5对该步骤进行详细描述。

此外，在完成上述步骤之后，为了提高未知类的识别准确率，根据本发明示例性实施例的声学场景分类方法还可可选地包括步骤S230，根据第四音频特征信号确定所述音频针对各预定场景的概率，当针对各预定场景的概率中的最大概率小于预定阈值时，可将音频确定为未知场景，当所述最大概率不小于预定阈值时可将音频确定为与所述最大概率对应的预定场景。

步骤S210中获取音频对应的第一音频特征信号的处理，可以认为是对音频进行预处理，图3是示出根据本发明示例性实施例的对音频进行预处理的流程图。

参照图3，预处理可包括预加重、特征提取和数据增强。

更具体地，在步骤S310，可对音频进行预加重。更具体地，可将音频通过高通滤波器，通过对音频高频部分进行加重处理以提升高频部分。这里，仅作为示例，高通滤波器的传递函数H(z)＝1-az^-1，其中，a为预加重系数，0.9≤a≤1，z为输入信号。

在步骤S320，可对预加重后的音频特征信号进行特征提取。这里，考虑到人类的听觉系统对不同频率的信号产生的非线性效应，为更好地对临界带宽进行划分，仅作为示例，可对预加重后的音频信号进行对数梅尔谱(LogMel-spectrogram)特征提取。更具体地，考虑到具有短时平稳性，因此可将预加重后的长时音频信号通过分帧得到短时信号，帧长可取例如40ms，帧叠可取例如25ms，再将每帧音频信号与预定窗函数相乘使帧两端平滑地衰减到零，以获得更高质量的频谱。这里，仅作为示例，预定窗函数可以为汉明窗，该汉明窗函数可表示如下：

其中，n为离散信号抽样点，N为快速傅里叶变换(FFT)点数并且可以取值2048。

通过上述分帧、加窗操作后，再进行快速傅里叶变换(FFT，FastFourierTransform)即可获得频谱上的能量分布。为了获得合适大小的音频特征信号，可将FFT后获得的声谱通过梅尔标度的滤波器组变换到梅尔频率，普通频率与梅尔频率转换关系可表示如下：

其中，f为普通频率，mel(f)为对应的梅尔频率。为了能够对音频特征信号的动态范围进行压缩，并利用动态变换将卷积运算变为线性关系实现对噪声的分离，可在通过梅尔标度的滤波器组之后进行对数操作以获得对数梅尔音频特征信号，从而完成特征提取操作。

在步骤S330，可对特征提取后的音频特征信号进行数据增强。更具体地，仅作为示例，可采取与数据无关的数据增强方式Mixup，Mixup是以线性插值的方式来构建新的样本和标签，对样本与标签的处理可表示如下：

其中，(x_i，y_i)和(x_j，y_j)是从特征提取后的音频特征信号中随机抽取的两个样本特征(向量)和对应的样本标签，且λ∈[0，1]，λ是一个服从B分布的参数，λ～Beta(α，α)，其中，超参数α∈[0，+∞]，α用于控制特征-目标向量之间插值的强度，

和

分别为数据增强后的样本特征和样本标签。最终，数据增强后得到的音频特征信号将作为并行神经网络的输入。图4是示出根据本发明示例性实施例的基于并行神经网络的分类系统结构示意图。如图4所示，该系统由两部分组成，上半部分是一个或多个并行神经网络分类模型(图中仅示出了一个并行神经网络分类模型，仅作为示例而非限制，也可以为多个并行神经网络分类模型)，下半部分是平均多轮分类模型预测的结果(对应图中的模型平均)得到初步结果。在上半部分中，首先将输入的音频输入到卷积神经网络中，学习高级特征表示，该高级特征表示作为循环神经网络(图中以双向循环神经网络为例)的输入，然后将高级特征表示与双向循环神经网络的输出进行联合，联合后输入到自注意力机制层(也可以称为自注意力网络)，以探究输入和输出之间的关系，将该层学习到的参数输入到全连接层然后经过权重平均得到初步分类结果。

本申请实施例基于声学场景分类任务，设计了并行神经网络系统和阈值判断，前者中卷积神经网络与循环神经网络的联合输出融合了两层网络的学习效果，学习到的特征信息更具多样性，通过自注意力机制对该输出的进一步学习，提高了整个系统对所有场景类别的识别准确率，包括已知场景类和未知场景类；模型平均的处理，能够综合各模型学习的结果，提高了整个分类系统的抗过拟合能力；阈值判断主要针对场景分类中的未知场景类，由于未知场景类的复杂性(训练集和测试集中未知场景类内包含的场景类别及场景数目均不同)，分类系统对该类的识别准确率远低于已知场景类，可以认为属于困难类，增加针对未知场景类的阈值判断后，显著提高了该类的识别准确率，从而进一步提高整体分类结果。通过本申请实施例的方案，分类结果的正确率有了较大提升，且未知场景类达到了较高的识别正确率。

下面将对在图4中涉及的过程进行详细介绍。

图5是示出根据本发明示例性实施例的将第一音频特征信号输入并行神经网络的流程图。

参照图5，在步骤S510，将在步骤S210中获得的第一音频特征信号输入卷积神经网络以获得第二音频特征信号。更具体地，卷积神经网络可以为多层卷积神经网络，并包括特定数量的卷积块，第一音频特征信号依次经过这些卷积块以获得高级特征表示。为防止过拟合，可在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活(Dropout)操作。这里，仅作为示例而非限制，所述预定丢弃率取值可以为0.2至0.3之间，即，大于等于0.2并小于等于0.3。这里，仅作为示例为非限制，可在卷积神经网络的每两个卷积块之后进行基于预定丢弃率的随机失活操作，并且所述预定丢弃率取值可取值0.25。卷积神经网络的除了最后一个卷积块之外的其余卷积块结构相同，可采用3*3的卷积核，128个滤波器，步进为1。在经过卷积块之后，可进行批量标准化(Batch Normalization，BN)操作，从而达到正则化效果并加速训练过程。最后，可在卷积神经网络的设定卷积层之后，进行仅针对频率轴的池化操作。这里，仅作为示例为非限制，池化操作可以为最大池化操作。此外，卷积神经网络最后一个卷积层后的池化操作的池化大小，和其他预定卷积层后的池化操作的池化大小可以不同。这里，仅作为示例而非限制，最后一个卷积层后的池化操作的池化大小可以为4，其他预定卷积层后的池化操作的池化大小可以为2，并且可在每个卷积块之后都进行最大池化操作。

在步骤S520，将第二音频特征信号输入循环神经网络以获得第三音频特征信号。这里，仅作为示例而非限制，循环神经网络可以为门限循环单元网络(Gated RecurrentUnit，GRU)，输出空间维度可以为128×2。

在步骤S530，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号。仅作为示例而非限制，所述融合可包括拼接、相加、相减或相乘等。

这里，卷积神经网络更关注局部信息(即特征细节)，关注输入音频的某一小段信息，无法关注全局信息。循环神经网络更关注时间轴上的全局信息，但是可能忽略了整段声音中一小段很明显的信号。比如“少量交通工具的大街”场景中，某个汽车的经过短暂突发的声音，卷积神经网络能够更好的获取这个信息。而对于持续存在的声音，比如“地铁”场景中持续存在的地铁的背景声音，循环神经网络能够更好的获取这个信息。本申请实施例提出，通过将卷积神经网络和循环神经网络进行并联，并将两者输出在通道数上进行合并拼接并作为一个输入整体进行随后的自注意力机制层的处理。自注意力机制层可分为两层，即，位置嵌入层和自注意力层。

在步骤S540，将第四音频特征信号输入自注意力网络的位置嵌入层以将第四音频特征信号的各向量与各向量对应位置的顺序信息相加，以获得第五音频特征信号。更具体地，为了能够识别各个场景时间点上的信息，引入了输入序列(这里为第四音频特征信号)的顺序信息(也可以称为位置信息)，顺序信息的输出空间维度与输入序列的输出空间维度相同，从而可将输入序列的每个向量与各自对应位置的顺序信息相加。仅作为示例，顺序信息可表示如下：

其中，pos表示输入序列的每个向量的不同位置，i表示输出空间维度，d_model在后面给出。

在步骤S550，将第五音频特征信号输入自注意力网络的自注意力层以获得第六音频特征信号。这里，由于自注意力机制之前的神经网络操作本质上可看作特征抽取的过程，所以第二层自注意力层的目的是自动找出上述合并输出中哪个时刻的输出是强标识特征。这里，仅作为示例，自注意力函数可表示如下：

其中，P为位置嵌入层的输出，P^T为P的转置矩阵，d_p为输出空间维度。softmax表示归一化指数函数，是逻辑函数的一种推广，它能将一个含任意实数的K维向量Z“压缩”到另一个K(K为正整数)维实向量σ(z)中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1，该函数可表示如下：

其中，j＝1，…，K

根据本发明的示例性实施例，可将自注意力函数并行线性映射h(其中，h为正整数)次，这样的多头自注意力(multi-head self-attention)函数可表示如下：

MultiHead(P，P，P)＝Concat(head₁，...，head_h)W^o

head_i＝Self Attention(PW_i ^P，PW_i ^P，PW_i ^P)

其中，Concat表示拼接函数，用于拼接1至h个MultiHead向量，i∈h，

并且为与P对应的权重矩阵(其中，

表示d_model×d_p维度的空间向量)，

并且为自注意力函数并行线性映射h次后对应的权重矩阵(其中，

表示hd_p×d_model维度的空间向量)，d_model＝h×d_p。这里，仅作为示例，h可以为16，d_p可以为256。

在步骤S560，将第六音频特征信号输入到第一全连接层以获得所述音频针对各预定场景的二分类概率，以及将第六音频特征信号输入到第二全连接层以获得所述音频针对各预定场景的多分类概率，针对各预定场景，将所述音频针对各预定场景的二分类概率和多分类概率进行融合，以获得所述音频针对各预定场景的概率，根据所述音频针对各预定场景的概率，获得所述音频所属场景类别。

这里，仅作为示例而非限制，第一全连接层可以为激活函数为sigmoid的全连接层，第二全连接层可以为激活函数为softmax的全连接层，以分别获得所述音频针对各预定场景的二分类概率Z_soft(t)和所述音频针对各预定场景的多分类Z_sigm(t)并将这两个概率进行如下所示的权重平均以获得所述音频针对各预定场景的概率O：

其中，⊙为逐元素积，T为总帧长，t表示帧特征。

为了提高分类准确率，在上述并行神经网络得到初步结果后，还进行了模型平均操作，可将第一音频特征信号针对预定数量的并行神经网络进行操作以获得所述预定数量的所述音频针对各预定场景的概率，对所述预定数量的所述音频针对各预定场景的概率求平均值以用于获得所述音频所属场景类别，其中，所述预定数量的并行神经网络在离线训练中被获得。这里，仅作为示例而非限制，所述预定数量的并行神经网络可以是在离线训练中获得的过拟合之前的预定数量的并行神经网络，所述预定数量可以为10个。此外，还可进一步将上面获得的平均概率进行划分为预定数量的时段数的整形操作，然后对划分为预定数量的时段数的平均概率再取平均值，以获得上述平均操作后的所述音频针对各预定场景的概率。更具体地，如图6所示，可将预定数量的所述音频(对应图中的输入)针对各预定场景的概率求平均值以获得(Num_sample×n，Num_class)，将(Num_sample×n，Num_class)进行按照划分时段n来对(Num_sample×n，Num_class)进行划分的整形操作以获得(Num_sample，n，Num_class)，对n所在的轴求平均值以获得(Num_sample，1，Num_class)，并将(Num_sample，1，Num_class)重新整形以获得上述平均操作后的所述音频针对各预定场景的概率(Num_sample，Num_class)，其中，Num_sample表示音频的训练样本数，n表示划分时段数(仅作为示例，如果将提取的特征按时间帧划分为10段，则n＝10)，Num_class表示场景类别数，根据得到的概率中的最大值来确定分类结果，得到图中的输出。

返回可选步骤S230，仅作为示例而非限制，可将预定阈值设置为0.4。本申请实施例中，为了提高未知场景类的识别准确率，本申请根据概率进行二次判别，从而确定出音频所属的具体已知场景类别或者未知场景类别，具体地，当最大概率低于0.4时，可认为音频样本属于未知类，通过观察未进行阈值判断的场景分类结果，大部分难分类音频样本概率集中在0.4以下，而这些难分类音频样本多为未知类，若将0.4的阈值调大，未知类的正确率会稍有增加，但远无法抵消预定数量的已知类正确率的下降，同理，0.4的阈值调小，预定数量的已知类的正确率会稍有增加，但远无法抵消未知类正确率的下降，故可将预定阈值设置为0.4。因此，在通过步骤S230阈值判断过程之后可获得声学场景分类的最终结果。通过增加针对未知场景类的阈值判断，还能够显著提高该未知场景类的识别准确率，从而进一步提高整体分类结果。

图7是示出根据本发明示例性实施例的阈值判断的示图。如图7所示，声学场景分类的初步结果为将音频样本判断为每个场景的最大概率及最大概率的对应场景，如果这个最大概率小于0.4，例如，音频样本2对应的最大概率为0.3，则可将该样本重新分类为“未知”作为最终结果。

本申请实施例公开了一种应用于声学场景分类的方法，对输入的音频数据进行预处理，然后提取其对数梅尔谱作为特征，对特征进行数据增强得到输入音频对应的音频特征；将提取的特征输入到卷积神经网络得到高级特征输出，将得到的高级特征输入到双向循环神经网络，将卷积神经网络得到的高级特征与循环神经网络的输出联合送入自注意力机制层，然后把输出送入基于权重平均的全连接层，得到最大概率形式的输出结果，对结果进行阈值判断，将最大概率小于预定阈值的场景重新判定为未知类，得到最终分类结果。本申请应用到声学场景分类任务中，得到了优于现有技术的分类性能。图8是示出根据本发明示例性实施例的声学场景分类装置的框图。

参照图8，声学场景分类装置800可包括预处理单元810、并行神经网络单元820和分类单元830。

预处理单元810可获取音频对应的第一音频特征信号。

并行神经网络单元820可将输入到包括卷积神经网络和循环神经网络的所述并行神经网络单元820的第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号。所述融合处理可包括下述至少一项：拼接处理、相加处理、相减处理或相乘处理。此外，并行神经网络单元820还可在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作。所述预定丢弃率可取值为0.2至0.3之间。并行神经网络单元820还可在卷积神经网络的每两个卷积块之后进行基于预定丢弃率的随机失活操作，并可在卷积神经网络的设定卷积层之后，进行仅针对频率轴的池化操作。卷积神经网络最后一个卷积层后的池化操作的池化大小，可以和其他预定卷积层后的池化操作的池化大小不同。所述池化操作可以为最大池化操作。

分类单元830可使用第四音频特征信号进行声学场景分类计算以获得所述音频所属场景类别。更具体地，分类单元830可将第四音频特征信号输入自注意力网络包括的位置嵌入层以将第四音频特征信号的各向量与各向量对应位置的顺序信息相加，以获得第五音频特征信号；将第五音频特征信号输入自注意力网络包括的自注意力层以获得第六音频特征信号。分类单元830还可将第六音频特征信号输入到第一全连接层以获得所述音频针对各预定场景的二分类概率，以及将第六音频特征信号输入到第二全连接层以获得所述音频针对各预定场景的多分类概率；针对各预定场景，将所述音频针对各预定场景的二分类概率和多分类概率进行融合，以获得所述音频针对各预定场景的概率；根据所述音频针对各预定场景的概率，获得所述音频所属场景类别。

所述声学场景分类装置800还可将第一音频特征信号针对预定数量的并行神经网络单元820进行操作以获得所述预定数量的所述音频针对各预定场景的概率，对所述预定数量的所述音频针对各预定场景的概率求平均值以用于获得所述音频所属场景类别，其中，所述预定数量的并行神经网络单元820在离线训练中被获得。

此外，为了提高未知类的识别准确率，分类单元830还可选择地根据第四音频特征信号确定所述音频针对各预定场景的概率；当针对各预定场景的概率中的最大概率小于预定阈值时，将所述音频确定为未知场景，当所述最大概率不小于预定阈值时将所述音频确定为与所述最大概率对应的预定场景。所述预定阈值可以为0.4。

图9是示出根据本发明示例性实施例的电子设备的框图。

如图9所示，根据本发明示例性实施例的电子设备900可包括存储器910和处理器920，存储器上存储有计算机可执行指令，当所述指令由处理器执行时，执行以下方法：获取音频对应的第一音频特征信号；将第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号；使用第四音频特征信号进行声学场景分类以获得所述音频所属场景类别。

此外，本发明还可实施为一种计算机可读介质，其上存储有计算机可执行指令，当执行所述指令时，执行参照图2所述的方法。

根据本发明的示例性实施例，通过卷积神经网络与循环神经网络的联合输出融合了两层网络的学习效果，既保留了卷积神经网络提取的高级特征表示，又能够对该高级特征表示进行更深的学习，学习到的特征信息更具多样性；为了解决循环神经网络无法并行的问题，通过自注意力机制对输出的进一步学习，将输入序列在不同时域位置上的信息联系起来，更快速的捕捉到全局信息，并提高了整个系统对所有场景类别的识别准确率；通过模型平均处理，能够综合各模型学习的结果，提高了整个分类系统的抗过拟合能力。此外，根据本发明的示例性实施例，能够同时提高已知场景类和未知场景类的识别正确率，即，在显著提高针对已知场景类的识别准确率的同时，通过增加针对未知场景类的阈值判断，还能够显著提高该未知场景类的识别准确率，从而进一步提高整体分类结果。

虽然已经参照特定示例性实施例示出和描述了本发明，但是本领域的技术人员将理解，在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。

Claims

1.一种声学场景分类方法，包括：

(a)获取音频对应的第一音频特征信号；

(b)将第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号；

(c)使用第四音频特征信号进行声学场景分类以获得所述音频所属场景类别。

2.如权利要求1所述的声学场景分类方法，其中，将第一音频特征信号输入卷积神经网络以获得第二音频特征信号的步骤包括：

在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作。

3.如权利要求2所述的声学场景分类方法，其中，所述预定丢弃率取值为0.2至0.3之间。

4.如权利要求2或3所述的声学场景分类方法，在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作的步骤包括：

在卷积神经网络的每两个卷积块之后进行基于预定丢弃率的随机失活操作。

5.如权利要求1所述的声学场景分类方法，其中，将第一音频特征信号输入卷积神经网络以获得第二音频特征信号的步骤包括：

在卷积神经网络的设定卷积层之后，进行仅针对频率轴的池化操作。

6.如权利要求5所述的声学场景分类方法，其中，卷积神经网络最后一个卷积层后的池化操作的池化大小，和其他预定卷积层后的池化操作的池化大小不同。

7.如权利要求5或6所述的声学场景分类方法，其中，所述池化操作为最大池化操作。

8.如权利要求1所述的声学场景分类方法，其中，使用第四音频特征信号进行声学场景分类的步骤包括：

将第四音频特征信号输入自注意力网络包括的位置嵌入层以将第四音频特征信号的各向量与各向量对应位置的顺序信息相加，以获得第五音频特征信号；

将第五音频特征信号输入自注意力网络包括的自注意力层以获得第六音频特征信号。

9.如权利要求8所述的声学场景分类方法，其中，使用第四音频特征信号进行声学场景分类的步骤还包括：

将第六音频特征信号输入到第一全连接层以获得所述音频针对各预定场景的二分类概率，以及将第六音频特征信号输入到第二全连接层以获得所述音频针对各预定场景的多分类概率；

针对各预定场景，将所述音频针对各预定场景的二分类概率和多分类概率进行融合，以获得所述音频针对各预定场景的概率；

根据所述音频针对各预定场景的概率，获得所述音频所属场景类别。

10.如权利要求1至9中任一项所述的声学场景分类方法，其中，所述循环神经网络为双向循环神经网络。

11.如权利要求1至10中任一项所述的声学场景分类方法，使用第四音频特征信号进行声学场景分类的步骤包括：

根据第四音频特征信号确定所述音频针对各预定场景的概率；

当针对各预定场景的概率中的最大概率小于预定阈值时，将所述音频确定为未知场景，当所述最大概率不小于预定阈值时，将所述音频确定为与所述最大概率对应的预定场景。

12.如权利要求11所述的声学场景分类方法，其中，所述预定阈值为0.4。

13.如权利要求12或13所述的声学场景分类方法，还包括：

将第一音频特征信号针对预定数量的卷积神经网络和循环神经网络进行步骤(b)以获得所述预定数量的所述音频针对各预定场景的概率，对所述预定数量的所述音频针对各预定场景的概率求平均值以用于获得所述音频所属场景类别。

14.如权利要求1至13中任一项所述的声学场景分类方法，其中，所述融合处理包括下述至少一项：拼接处理、相加处理、相减处理或相乘处理。

15.一种声学场景分类装置，包括：

预处理单元，获取音频对应的第一音频特征信号；

并行神经网络单元，将输入到包括卷积神经网络和循环神经网络的所述并行神经网络单元的第一音频特征信号输入卷积神经网络以获得第二音频特征信号，将第二音频特征信号输入循环神经网络以获得第三音频特征信号，将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号；

分类单元，使用第四音频特征信号进行声学场景分类以获得所述音频所属场景类别。

16.一种电子设备，包括存储器和处理器，存储器上存储有计算机可执行指令，当所述指令由处理器执行时，执行前述权利要求1～14中任一项所述的方法。

17.一种计算机可读介质，其上存储有计算机可执行指令，当执行所述指令时，执行前述权利要求1～14中任一项所述的方法。