CN114299986A

CN114299986A - 一种基于跨域迁移学习的小样本声音识别方法及系统

Info

Publication number: CN114299986A
Application number: CN202111632403.4A
Authority: CN
Inventors: 孙剑; 赵泽辰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-08

Abstract

本发明公开了一种基于跨域迁移学习的小样本声音识别方法及系统，方法包括采集原始的声音信号；对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图；利用大量没有标注的梅尔语谱图和大量有标注的自然图像预训练神经网络模型，跨域地将模型针对自然图像的特征提取能力迁移到梅尔语谱图上；用一部分有标注的梅尔语谱图的时频多空间特征来进一步地训练第二步预训练得到的神经网络模型，建立声音识别模型；模型的跨域双阶段预训练使得模型逐渐适应声音数据的语谱图，提高鲁棒性和特征提取能力，增强泛化性以及判别能力；基于时频多空间特征提取的声音识别模型包括深度卷积网络和循环神经网络两部分，能提升识别的精确性和模型的稳定性。

Description

一种基于跨域迁移学习的小样本声音识别方法及系统

技术领域

本发明属于声音信号处理领域，具体涉及一种基于跨域迁移学习的小样本声音识别方法及系统。

背景技术

精确的声音信号识别在军事和民事方面都有着重要的应用价值，在军事方面，声音信号目标识别是实现装备与武器系统智能化的关键技术，除了军事场景外，声音信号的目标识在海上交通管理、捕鱼和保护海洋环境等民事问题中也起着很重要的作用。现有的音频识别方法大都依赖大量的有标注数据，在一些声音数据获取困难(如船舶的水面噪声等等)的小样本场景中，现有方法的精确度和稳定性都会大大退化，设计高精度的小样本音频识别算法有着很强的挑战性和现实意义。现有的方法主要分为传统的特征提取与分类算法以及利用深度网络进行特征提取与分类的方法，下面分别介绍这两种声音信号识别的方法。

1、传统的声音信号特征提取与识别方法

传统的声音信号识别方法主要分为特征提取和特征分类两个阶段。在特征提取阶段，针对原始的声音信号数据提取各类手工设计的特征；在特征分类阶段，利用一些统计分类模型针对特征提取阶段提取出的特征进行识别分类。

在特征提取阶段，有多种手工设计的统计特征。例如，在文献Zak A.Shipsclassification basing on acoustic signatures.WSEAS Trans Signal Process 2008；4(4):137–49中，特征提取是直接使用离散傅里叶变换(DFT)的，而在文献Zak A.Ship’shydroacoustics signatures classification using neural networks.In:MwasiagiJI,editor.Self Organizing Maps–applications and novel algorithmsdesign.INTECH；2011.p.209–32和Wang S,Zeng X.Robust underwater noise targetsclassification using auditory inspired time–frequency analysis.Appl Acoust2014；78:68–76中，特征提取则分别使用梅尔-频率倒谱系数(MFCCs)和Hilbert-Huang变换。

离散傅里叶变换通过把信号从时间域变换到频率域，进而提取信号的频谱特征。设时间域的数据为f_n,n＝0,2,…,N-1，则经过离散傅里叶变换得到频域特征F_m,m＝0,…,N-1。变换公式为：

其中i为虚数单位。

梅尔-频率倒谱系数是构成梅尔倒谱的系数，其提取过程如下：

1)先对声音信号进行预加重、分帧和加窗；

2)对每一个短时窗，通过快速傅里叶变换(FFT)得到对应的频谱；

3)将得到的频谱通过梅尔滤波器组得到梅尔频谱；

4)在梅尔频谱上面进行倒谱分析(取对数，做逆变换)，获得Mel频率倒谱系数MFCC。

Hilbert-Huang变换是一种经验模态分解方法，其主要包含两部分，第一部分为经验模态分解(Empirical Mode Decomposition，简称EMD)；第二部分为Hilbert谱分析(Hilbert Spectrum Analysis，简称HSA)。HHT处理非平稳信号的基本过程是：首先利用EMD方法将给定的信号分解为若干固有模态函数(以Intrinsic Mode Function或IMF表示，也称作本征模态函数)，这些IMF是满足一定条件的分量；然后，对每一个IMF进行Hilbert变换，得到相应的Hilbert谱，即将每个IMF表示在联合的时频域中；最后，汇总所有IMF的Hilbert谱就会得到原始信号的Hilbert谱。

而在特征分类阶段会使用主流的统计机器方法对提取出的特征进行分类和识别，例如文献Das A,Borisov N,Caesar M.Fingerprinting smart devices throughembedded acoustic components arXiv preprint 2014Available from:arXiv:1403.3366中利用隐马尔可夫模型，而文献Wang S,Zeng X.Robust underwater noisetargets classification using auditory inspired time–frequency analysis.ApplAcoust 2014；78:68–76和Zak A.Ship’s hydroacoustics signatures classificationusing neural networks.In:Mwasiagi JI,editor.Self Organizing Maps–applicationsand novel algorithms design.INTECH；2011.p.209–32分别利用支持向量机和神经网络进行特征的识别。

在传统的方法中，特征提取方法和特征分类方法和根据不同数据的特征进行各种组合。不同的组合方式可能对于某种场景下的数据有着不错的效果，但是并没有一种广泛适用的方法对不同场景下的声音信号都有着很好的识别效果，不能保证模型的泛化性和鲁棒性；同时，传统的特征提取方式大都只利用声音信号某一个域的特征(时域、频域或者时频域)，而忽略了其他域的特征。

2、基于深度学习的声音信号识别

近年来，深度学习技术在声音信号识别领域得到了广泛研究应用，并取得了显著的成果。主要分为基于卷积神经网络(CNN)和基于循环神经网络(RNN)的两类方法。

基于卷积神经网络的声音信号识别方法分为两大类：一种是直接将原始的一维声音信号作为网络的输入，通过一维卷积来提取特征和分类。例如，文献Lee J,Park J,Kim KL,et al.Sample-level deep convolutional neural networks for music auto-tagging using raw waveforms[J].arXiv preprint arXiv,2017:1703.01789中Lee等人以原始音频波形信号为输入，比较了不同卷积层数和卷积核大小情况下的识别效果；文献Dieleman S,Schrauwen B.End-to-end learning for music audio[A].2014IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP)[C].2014:6964-6968中Dieleman等人设计一种新的网络结构，并且比较了将梅尔声谱和原始声音信号分别作为输入时的识别效果；第二种方式是将二维的语谱图作为网络输入，使用二维卷积提取特征和分类。例如，文献Zhang P,Zheng X,Zhang W,et al.A deep neuralnetwork for modeling music[A].Proceedings of the 5th ACM on InternationalConference on Multimedia Retrieval[C].2015:379-386中Zhang等人在CNN的基础上提出k-max池化结构，充分提取语谱图中的信息；文献Choi K,Fazekas G,SandlerM.Automatic tagging using deep convolutional neural networks[J].arXivpreprint arXiv,2016:1606.00298中Choi等人使用梅尔声谱作为网络的输入，采用不同大小的卷积和池化层来提取不同层次的特征。

基于循环网络的方法将原始时域信号看作时间序列作为网络的输入。文献姚晓梅.基于LSTM模型的音乐流派分类方法研究[D].河南科技大学,2019中姚晓梅使用长短期记忆模型(LSTM)学习声音信号连续帧特征,用于音频识别；文献Huaping Liu.MusicEmotion Recognition Using a Variant of Recurrent Neural Network[A].Scienceand Engineering Research Center.Proceedings of 2018International Conferenceon Mathematics,Modeling,Simulation and Statistics Application(MMSSA2018)[C].2018:22-25中Liu等人将音乐的色度图谱作为双向LSTM网络的输入，提取与情感相关的高层特征。

虽然深度学习在声音识别邻域取得了很大的成功，但上述的方法依赖大量的有标签数据来训练模型。对于例如海洋船舶噪声这样的小样本声音信号数据，如何针对音频本身的物理特点设计更有针对性的深度特征学习与识别网络结构和算法还是亟待解决的问题。

发明内容

针对小样本声音信号的特点，本发明的目的在于提出一种基于跨域迁移学习的小样本声音识别方法。该方法主要关注深度学习模型的鲁棒性与泛化性，通过模型跨域双阶段预训练的方式解决小样本训练数据导致的模型不稳定问题、通过声音信号时频多空间特征提取的方式进一步地提升模型，最终只利用少量的有标签声音信号数据训练出一个高精度的识别模型。将小样本学习和声音信号识别模型进行有机的结合，即使只有少量的有标签数据仍能得到一个高精度的识别模型。

本发明采用如下技术方案来实现的：一种基于跨域迁移学习的小样本声音识别方法，包括以下步骤：

对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图，将所述梅尔语谱图输入所建立的声音识别模型，基于声音识别模型提取出梅尔语谱图的时频域、时域和频域的特征，对所述语谱图时频域、时域和频域的特征进行拼接送入一个全连接层得到最后的声音信号识别结果；

所述声音识别模型训练包括以下步骤：

采集原始的声音信号，并对其中一部分数据进行标注；对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图，同时收集大量有标注的自然图像数据；

利用所采集没有标注的梅尔语谱图和有标注的自然图像预训练深度神经网络，基于迁移学习和对比学习算法实现跨域地将模型针对自然图像的特征提取能力迁移到梅尔语谱图上，得到预训练后的深度神经网络；

基于时频多空间特征提取的声音识别模型提取出有标注的梅尔语谱图的时频多空间特征来进一步地训练预训练得到的深度神经网络，得到最终的声音识别模型；所述声音识别模型包括深度卷积网络和循环神经网络。

所述梅尔语谱图的提取包括以下步骤：

对原始声音信号进行分帧、加窗，并对每个窗口做傅里叶变换，得到每个窗口的频率域特征，把频率域特征按照窗口的时间顺序进行堆叠得到一个二维时频信号；

利用梅尔滤波器组对所述二维时频信号进行滤波，得到梅尔语谱图。

所述自然图像数据选用公开的自然图像数据库。

基于双阶段预训练方法实现模型的跨域适应，双阶段预训练包括以下步骤：

利用有标注自然图像数据集有监督地预训练深度神经网络；

利用无标注声音信号的语谱图使用自监督的对比学习算法进一步预训练深度神经网络。

利用无标注声音信号的语谱图使用自监督的对比学习算法进一步预训练深度神经网络时，将对比学习算法与声音信号进行结合，对每一个输入数据进行两次随机扰动，得到两个随机扰动数据，然后经过深度卷积神经网络分别提取两个数随机扰动据的特征进行对比学习的训练。

数据增强具体为：对所述输入数据依次进行增加噪音、改变音调、时间拉伸和时移。

对于双阶段预训练得到的深度神经网络，使用基于时频多空间特征提取进一步训练深度神经网络得到声音识别模型，其数学表达如下：

其中I为有标注声音信号的梅尔语谱图，f₁(θ)为深度卷积网络，用于提取声音语谱图的时频空间特征z₁，f₂(θ)和f₃(θ)为循环神经网络，分别用于提取语谱图的时间空间特征z₂和频率空间特征z₃，

为向量的拼接操作，f₄(θ)为全连接网络，用于生成最后的分类结果P，I为声音信号的语谱图，P＝{p₁,p₂,…,p_n}为一维向量，其中p_i为该音频属于第i类的概率值；f₁(θ)采用用于图像特征提取的ResNet或DenseNet，f₂(θ)和f₃(θ)采用循环神经网络结构，LSTM或GRU，θ为深度网络的参数。

另一方面，本发明提供一种基于跨域迁移学习的小样本声音识别系统，包括数据获取模块和识别模块，数据获取模块用于对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图，将所述梅尔语谱图输入所建立的声音识别模型；

识别模块用于基于声音识别模型提取出梅尔语谱图的时频域、时域和频域的特征，对所述语谱图时频域、时域和频域的特征进行拼接送入一个全连接层得到最后的声音信号识别结果；其中，所述声音识别模型通过以下步骤得到：

所述声音识别模型训练包括以下步骤：

另外，本发明还可以提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，处理器执行计算可执行程序时能实现本发明所述基于跨域迁移学习的小样本声音识别方法。

同时提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于跨域迁移学习的小样本声音识别方法。

与现有技术相比，本发明至少具有如下有益的技术效果：

本发明提供的一种基于跨域迁移学习的小样本声音识别方法，该方法在只有少量有标签声音信号的情况下，可以得到一个稳定性强且识别精度高的模型。该方法主要包括模型的跨域双阶段预训练和基于时频多空间特征提取的声音识别两个步骤；模型的跨域双阶段预训练主要应用迁移学习和对比学习的方式，让在自然图像上预训练的模型逐渐适应声音数据的语谱图，保证模型的鲁棒性和特征提取能力，并且使得模型针对声音数据的语谱图有了更强的泛化性以及判别能力；基于时频多空间特征提取的声音识别模型包括深度卷积网络和循环神经网络两部分，深度卷积网络可以是当前流行的图像分割网络结构，用声音信号的多空间特征进行识别，可以提升识别的精确性和模型的稳定性；

综上所述，本发明提供了一种基于跨域迁移学习的小样本声音识别方法。该方法只利用少量有标签的声音信号数据训练得到一个高精度的识别模型，在军事、海上交通管理、捕鱼和保护海洋环境等问题中有着很重要的应用价值。

附图说明

图1是本发明的具体流程框架图；

图2是声音信号识别模型的整体网络构架图；

图3是声音信号数据对比学习的算法流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清新，下结合附图及具体实例，对本发明做进一步的详细说明。这些实例仅仅说明性的，而并非对本发明的限制。

如图1所示，本发明提供的一种基于跨域迁移学习的小样本声音识别方法，包括：

一、构造基于跨域迁移学习的小样本声音识别方法的框架

构造小样本声音信号识别系统框架。如图1所示，首先对要用的所有数据进行预处理和特征提取，之后对模型进行从自然图像到声音的语谱图的跨域双阶段预训练，最后，在此基础上用模型提取声音信号的时频多空间特征，并输出声音信号的识别类型。

二、基于小样本学习的模型跨域双阶段预训练

对于小样本的声音信号识别问题，由于有标签的训练样本过少，直接用小样本数据训练得到的模型有不鲁棒，且精度不高的问题。因此，本发明提出了模型的跨域双阶段预训练方法来解决小样本训练的问题。首先在数据获取比较容易的自然图像数据集上训练模型，再逐步让模型适应声音信号的语谱图。

具体来说，首先在大量有标签的自然图像数据集ImageNet上有监督地预训练深度神经网络，大量的训练数据会使得深度神经网络有着很强的鲁棒性和判别能力；

接下来，为了使模型适应声音信号的语谱图这一类图像，将对比学习算法与声音信号进行有机的结合，所述对比学习算法流程如图3所示，其核心是对每一个输入数据进行两次随机扰动，得到两个随机扰动数据，然后经过深度卷积神经网络分别提取两个随机扰动数据的特征，控制同一数据的两个扰动数据提取到的特征尽量接近，而不同数据的扰动数据提取到的特征尽量可分。具体来说，本发明在使用对比学习算法时先对声音信号在时域进行两次随机数据增强，数据增强的方式包括：Noise addition(增加噪音)、Pitchshifting(改变音调)、Time stretching(时间拉伸)和Shift/Time shifting(时移)，再把得到两个扰动的时域信号转变为梅尔语谱图作为神经网络的输入提取特征进行对比学习的训练。在时域进行数据增强可以保证增强是有实际意义且微小的，不至于改变信号的判别性。该对比学习算法可以让模型进一步适应于声音信号的语谱图，让模型有更好的泛化性和特征提取能力。

本发明提出的模型跨域双阶段预训练方法通过迁移学习和对比学习两步来解决小样本音频识别模型不稳定的问题。迁移学习可以提升模型的鲁棒性和判别能力，与声音信号有机结合的对比学习可以让模型对声音信号的语谱图有更强的特征提取能力和泛化性。

三、基于时频多空间特征的声音信号识别模型

声音信号的语谱图的横轴为时间轴，纵轴为频率轴，包含着丰富的声音信号的信息。具体的，整个图像的不同位置反应了不同(时间，频率)组合的时频域信息；横轴反应了频率域随着时间的序列信息；纵轴反应了时间域随着频率的序列信息。本发明设计一种时频多空间特征模型，分别提取语谱图时频域、时域和频域的特征，结合三个域的特征给出最后的识别结果。

基于时频多空间特征的声音信号识别的数学建模如下：

其中f₁(θ)为深度卷积网络，用于提取音频的时频域特征z₁∈R^512×1，f₂(θ)和f₃(θ)为循环神经网络，分别用于提取时域特征z₂∈R^512×1和频域特征z₃∈R^512×1，

为向量的拼接操作，f₄(θ)为全连接网络，用于生成最后的分类结果P；I为声音信号的语谱图，P＝{p₁,p₂,…,p_n}为一维向量，其中p_i为该音频属于第i类的概率值。

f₁(θ)可以是当前流行的用于图像特征提取的网络结构，例如ResNet、DenseNet等，f₂(θ)和f₃(θ)可以是任意的循环神经网络结构，如LSTM、GRU等。θ为深度网络的参数。如图2所示，表示本发明选用的一种模型框架，使用34层ResNet模型提取语谱图的时频域特征，使用两个LSTM模型分别提取语谱图的时域和频域特征，再把时频域特征、时域和频域特征进行拼接送入一个全连接层得到最后的声音信号识别结果。

本发明设计的基于时频多空间特征的声音信号识别模型可以充分提取声音信号在时频域、时域和频域的特征，丰富的特征可以提升模型的识别精度。

基于跨域迁移学习的小样本声音识别系统，包括数据获取模块和识别模块，数据获取模块用于对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图，将所述梅尔语谱图输入所建立的声音识别模型；

所述声音识别模型训练包括以下步骤：

另外，本发明还可以提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述基于跨域迁移学习的小样本声音识别方法。

另一方面，本发明提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于跨域迁移学习的小样本声音识别方法。

所述计算机设备可以采用笔记本电脑、桌面型计算机或工作站。

处理器可以是中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是笔记本电脑、桌面型计算机或工作站的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

四、模型有效性的验证

水面的船舶声音信号识别是一类典型的小样本声音信号识别问题。将本发明方法在公开的Shipsear水面船舶声音数据集上进行了消融实验，结果如表1所示。直接在小样本数据上训练的原始的模型识别精度为69.23％；对模型使用跨域双阶段预训练后的识别精度为84.62％；同时使用模型的跨域双阶段预训练和多空间特征特征识别方法，识别精度可以达到88.46％。该实验也充分验证了本发明基于跨域迁移学习的小样本声音识别方法的有效性，只依赖少量有标签的声音信号数据就可以得到一个鲁棒性强且精确度高的模型。

表1是模型在Shipsear数据集上的消融实验结果

虽然已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于跨域迁移学习的小样本声音识别方法，其特征在于，包括以下步骤：

所述声音识别模型训练包括以下步骤：

2.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法，其特征在于，所述梅尔语谱图的提取包括以下步骤：

3.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法，其特征在于，所述自然图像数据选用公开的自然图像数据库。

4.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法，其特征在于，基于双阶段预训练方法实现模型的跨域适应，双阶段预训练包括以下步骤：

利用有标注自然图像数据集有监督地预训练深度神经网络；

5.根据权利要求4所述的基于跨域迁移学习的小样本声音识别方法，其特征在于，利用无标注声音信号的语谱图使用自监督的对比学习算法进一步预训练深度神经网络时，将对比学习算法与声音信号进行结合，对每一个输入数据进行两次随机扰动，得到两个随机扰动数据，然后经过深度卷积神经网络分别提取两个数随机扰动据的特征进行对比学习的训练。

6.根据权利要求5所述的基于跨域迁移学习的小样本声音识别方法，其特征在于，数据增强具体为：对所述输入数据依次进行增加噪音、改变音调、时间拉伸和时移。

7.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法，其特征在于，对于双阶段预训练得到的深度神经网络，使用基于时频多空间特征提取进一步训练深度神经网络得到声音识别模型，其数学表达如下：

8.基于跨域迁移学习的小样本声音识别系统，其特征在于，包括数据获取模块和识别模块，数据获取模块用于对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图，将所述梅尔语谱图输入所建立的声音识别模型；

所述声音识别模型训练包括以下步骤：

9.一种计算机设备，其特征在于，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，处理器执行计算可执行程序时能实现权利要求1～7中任一项所述基于跨域迁移学习的小样本声音识别方法。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现如权利要求1～7中任一项所述的基于跨域迁移学习的小样本声音识别方法。