CN109616104B

CN109616104B - 基于关键点编码和多脉冲学习的环境声音识别方法

Info

Publication number: CN109616104B
Application number: CN201910101670.5A
Authority: CN
Inventors: 于强; 姚艳丽; 王龙标; 党建武
Original assignee: Tianjin University
Current assignee: Huiyan Technology Tianjin Co ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2022-12-30
Anticipated expiration: 2039-01-31
Also published as: CN109616104A

Abstract

本发明公开一种基于关键点编码和多脉冲学习的环境声音识别方法,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,使用RWCP数据库作为处理对象，整个系统包括以下三个部分：数据预处理、特征提取和分类器分类。本发明提出了一种基于稀疏关键点编码结合脉冲神经网络的方法，利用离散的脉冲进行声音的识别。为了充分利用整个时间窗内的有效信息，本发明采用多脉冲输出的学习算法，使用特定区间的脉冲数来引导神经元学习。

Description

基于关键点编码和多脉冲学习的环境声音识别方法

技术领域

本发明属于新一代信息技术中的类脑计算、声音识别技术领域，尤其是涉及一种基于关键点编码和多脉冲学习的环境声音识别方法。

背景技术

环境声音识别是个人从周围环境中快速掌握有用信息的重要能力，其成功识别可以在潜在危险发生之前迅速采取行动，以避免突发事件产生。鉴于其重要性，越来越多的研究者开始关注鲁棒的环境声音识别任务。与语音或音乐识别等任务类似，声音识别旨在从环境中自动识别特定声音。不同的是，声音信号是非结构的，而且环境声音中往往伴随着背景噪声，如何在真实的噪声环境下准确地识别一个突发声音是一个具有挑战性的任务。

模式识别任务的一般方法可以用于声音识别，主要分为信号预处理、特征提取和分类器分类三个部分。传统的声音识别方法，例如基于帧的梅尔频率倒谱系数(MFCC)作为特征提取器，隐马尔科夫模型(HMM)作为分类器的方法，这种方法很容易受到噪声的干扰，在噪声增加时识别性能会迅速下降。为了提高声音识别的鲁棒性，又有研究者提出了更加复杂的特征提取方法(例如语谱图图像特征spectrogram image features和匹配追踪matching pursuit方法)结合比较先进的机器学习方法(例如深度神经网络deep neuralnetwork(DNN)和卷积神经网络convolutional neural network(CNN))。然而以上方法的生物置信度比较低，和人脑的信息处理方式相差甚远。

发明内容

为了解决以上问题，本发明提出了一种更加接近于生物神经系统处理方式的方法，利用离散的脉冲进行信息传递与学习。以前的方法采用Tempotron学习算法，在鲁棒性的声音识别任务中取得了比较出色的识别率。但是，Tempotron学习算法仅仅通过整合利用有限的局部时空信息，来通过发放脉冲或保持静默这两种状态输出二值决策，并不能有效充分利用脉冲神经元的时间信息维度。生物神经元往往是在时间维度上连续不断地接受信息并发放脉冲信号。一旦神经元达到发放条件，其就会输出一个脉冲，因而神经元展现出多脉冲发放的状态。为了充分利用脉冲神经网络中的时间信息，本发明提出了一种基于关键点编码和多脉冲学习的环境声音识别方法。

本发明提出一种基于关键点编码和多脉冲学习的环境声音识别方法，技术方案是通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,使用RWCP数据库作为处理对象，整个系统包括以下三个部分：数据预处理、特征提取和分类器分类。为了应用脉冲神经网络进行环境声音识别，声音编码和脉冲学习算法是两个主要需要解决的问题。具体的技术方案如下：

步骤一，音频数据预处理。首先将环境声音信号进行分帧、加窗、短时傅里叶变换、归一化，得到归一化的能量语谱图S’(t,f)，之后通过log(S'(t,f)+∈)-log(∈)(∈表示调控基准参数)计算对数能量语谱图，最后将对数能量语谱图进行归一化，用S(t,f)来表示音频数据预处理得到的归一化的对数能量语谱图。

步骤二，稀疏关键点编码：

对预处理得到的语谱图S(t,f)的局部时域和频域分别提取关键点，关键点通过以下公式(1)表示：

其中，d_t和d_f分别表示时域和频域的局部区域大小。

为了得到稀疏的关键点编码，本发明利用了两种掩码机制：基于相对值的掩码方法和基于绝对值的掩码方法。

1)基于相对值的掩码机制：本发明将每个关键点和其对应局部区域的平均能量值做对比，如果P(t,f)*β_r<mean(S(t±d_t,f±d_f))，则此关键点被视为背景噪声删除掉。

2)基于绝对值的掩码机制：如果P(t,f)<β_a，则该关键点被视为不重要的信息删除掉。

其中β_r和β_a是两个超参数，通过对其数值的不同设定可调控编码的稀疏程度。

将通过两种掩码机制之后得到的关键点信息做映射处理，得到稀疏的时空脉冲图，完成稀疏关键点编码。

步骤三，多脉冲学习算法：

基于包括Tempotron学习算法在内的当前一些学习算法的不足，本发明充分利用脉冲神经网络的时间处理优势，设计多脉冲学习算法，充分结合整个时间窗内的有效信息，通过神经元发放脉冲的数量对环境声音做出鲁棒性决策。

1)神经元模型

本发明采用简单易处理的基于电流的泄露整合激活神经元模型(leakyintegrate-and-fire neuron model)。在神经元模型中，每当有输出脉冲产生，神经元都会发生相应的复位动态响应。神经元的膜电位V(t)是通过整合来自N个传入神经元的突触电流得到的：

其中，

是到达突触i的第j个脉冲时间，

代表第j个输出脉冲的时间，θ表示神经元激活阈值。每一个传入脉冲都对突触后电位做出贡献，其峰值振幅和形状分别由突触权重w_i和归一化核函数K决定。核函数K定义为：

在这里，τ_m表示膜电位的时间常数，τ_s表示突触电流的时间常数。V₀是一个常数因子。

神经元以事件驱动的方式连续整合输入脉冲。当没有输入脉冲的时候，神经元的膜电位会逐渐衰减至静息电位。当膜电位超过阈值的时候就会发放输出脉冲，膜电位再根据公式(2)的最后一部分复位。

2)学习规则

神经元输出脉冲的数量与其阈值之间的关系由脉冲阈值表面spike-threshold-surface(STS)表征。因此可以导出学习规则以修改突触权重，使得新的STS可以得到期望数量的脉冲。本发明采用TDP1(阈值驱动可塑性学习算法)作为多脉冲学习规则，临界阈值

相对于权重w_i的梯度表示为：

其中，m表示在临界阈值的时间t^*出现之前输出脉冲的数量。

定义目标输出脉冲个数为d，实际输出脉冲个数为o，通过在每一个错误步骤之后根据单个临界阈值

改变权重来训练的原则，相对学习规则如下：

η>0为学习率来控制每次更新的步长。如果神经元激活脉冲的个数少于目标个数，则增加输出脉冲的个数，否则减少输出脉冲的个数。

有益效果

针对传统声音识别的方法缺乏生物可塑性的问题，提出了一种基于稀疏关键点编码结合脉冲神经网络的方法，利用离散的脉冲进行声音的识别。

为了充分利用整个时间窗内的有效信息，本发明采用多脉冲输出的学习算法，使用特定区间的脉冲数来引导神经元学习。

本发明仿脑信息处理机制提出了一个基于脉冲神经网络的鲁棒环境声音识别系统。该系统简化了关键点编码方法，使得编码更加高效、简便、稀疏，充分利用了脉冲神经网络的时域信息处理优势，采用了多脉冲学习算法，该方法提高了环境声音识别的鲁棒性。

附图说明

图1是本发明提出的基于稀疏关键点编码和脉冲神经网络的系统框架图；(a)为信息处理流程框图；(b)-(e)为各部分信息处理示例图；(b)和(c)分别对应语谱图信息；(d)为脉冲编码图；(e)为脉冲神经元动态响应图。

图2是本系统分别在干净(a-d)和信噪比为0dB的背景噪声(e-h)下演示神经元对不同声音样本(所示三种：buzzer，horn和ring声音示例)的响应图:

(a)和(e)为音频图；

(b)和(f)为相应的时频语谱图；

(c)和(g)为神经元在单脉冲学习算法训练下的识别示例图；

(d)和(h)为神经元在多脉冲学习算法训练下的识别示例图，即本发明所提出的方法。

具体实施方式

下面结合附图及具体实验对本发明做进一步详细地描述。

如图1所示，本发明所涉及的基于稀疏关键点编码和脉冲神经网络的系统框架图，主要包含以下步骤：

步骤一，RWCP数据库预处理：从RWCP数据库中选取10类不同的声音进行识别，分别为铃声(bells5)、瓶子声(bottle1)、蜂鸣器声音(buzzer)、大镲声(cymbals)、喇叭声(horn)、卡拉(kara)、金属(metal15)；所有音频采样频率为16KHz，每一段音频样本时长约0.5-3秒。每一类选取前80个文件作为实验的数据库，其中在每一类的80个文件中随机选取40个作为训练集，另外40个作为测试集。另外，从NOISEX’92数据库中选取“speech babble”噪声用来评估系统的鲁棒性。如表1和表2所示，系统分别在干净条件下和带噪条件下进行训练，训练之后分别在干净以及20dB、10dB、0dB、-5dB的信噪比条件下进行测试。

每一个音频信号经过分帧、加窗、短时傅里叶变换、归一化，FFT点数设为256，窗长设为256，窗移设为96，得到归一化的能量语谱图，接下来对语谱图取对数操作，参数∈设置为10^-5。再通过归一化操作得到预处理的归一化对数语谱图。

步骤二，稀疏关键点编码：

在预处理得到的语谱图的局部区域提取关键点，其中d_t和d_f都设置为4。采用掩码机制得到更加稀疏的关键点，其中β_r设置为0.85，β_a设置为0.15。最终通过映射将关键点映射成稀疏的时空脉冲图。

步骤三，多脉冲学习：

在通过关键点编码得到稀疏时空脉冲图之后，运用多脉冲学习算法，通过调整权重使其产生指定数量范围的脉冲个数来训练模型。对应于本系统中每个类别的神经元进行训练，使其至少发射20个脉冲来响应它们的各自所对应的目标类别并对其它类别保持静默。最终决策是由输出脉冲数量最多的神经元投票决定的。图2展示了本系统分别在干净(a-d)和信噪比为0dB的背景噪声(e-h)条件下演示神经元对不同声音样本的输出响应图。

表1列出了在没有噪声条件下训练，然后分别在干净以及信噪比20dB、10dB、0dB、-5dB带噪条件下测试的不匹配情况下的评估结果。从表1中可以看出，传统的机器学习方法在干净环境下可以得到超过99％的准确率，但是，随着噪声的增加，其识别性能迅速下降，其平均准确率分别为47.3％(MFCC-HMM)、68.74％(SPEC-DNN)、88.07％(SPEC-CNN)。

表1在不匹配条件下的实验评估准确率

表2在带噪条件下训练，不同测试条件下实验的评估准确率

值得注意的是，当关键点编码结合卷积神经网络(CNN)时，其识别性能有所提升，这反应了本系统中稀疏关键点编码的有效性。另一方面，基于生物置信度高的脉冲方法架构下的方法中，除了SOM-SNN之外，其它的基于脉冲神经网络的方法都得到了平均准确率超过90％的结果。本系统采用多脉冲的学习算法，其性能明显优于其它的方法，得到了98.68％的平均准确率，即使在信噪比为-5dB的强噪声情况下，也得到了97.13％的识别准确率。

带噪训练可以有效地进一步提升每个系统的识别性能。本系统随机选择干净以及加20dB、10dB噪声的声音数据来训练，之后在不同实验条件下测。表2列出了不同方法在带噪条件下训练，不同噪声环境下测试的实验结果。结果显示，本系统提出的方法在信噪比为-5dB时准确率达到98.95％，优于其他的方法。

Claims

1.基于关键点编码和多脉冲学习的环境声音识别方法，其特征在于,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,其使用RWCP数据库作为处理对象，整个系统包括以下三个部分：数据预处理、特征提取和分类器分类,具体的步骤如下：

步骤一，音频数据预处理:

首先将环境声音信号进行分帧、加窗、短时傅里叶变换、归一化，得到归一化的能量语谱图S’(t,f)，之后通过log(S’(t,f)+∈)-log(∈)，∈表示调控基准参数，计算对数能量语谱图，最后将对数能量语谱图进行归一化，用S(t,f)来表示音频数据预处理得到的归一化的对数能量语谱图；

步骤二，稀疏关键点编码：

(1)对预处理得到的语谱图S(t,f)的局部时域和频域分别提取关键点，关键点通过以下公式(1)表示：

其中，d_t和d_f分别表示时域和频域的局部区域大小；

(2)利用基于相对值的掩码方法和基于绝对值的掩码方法，得到稀疏的关键点编码：通过两种掩码机制之后得到的关键点信息做映射处理，得到稀疏的时空脉冲图，完成稀疏关键点编码；

步骤三，多脉冲学习算法：利用脉冲神经网络的时间处理优势，设计多脉冲学习算法，充分结合整个时间窗内的有效信息，通过神经元发放脉冲的数量对环境声音做出鲁棒性决策；

所述步骤二中基于相对值的掩码机制，将每个关键点和其对应局部区域的平均能量值做对比，如果P(t,f)*β_r<mean(S(t±d_t,f±d_f))，则此关键点被视为背景噪声删除掉；

基于绝对值的掩码机制：如果P(t,f)<β_α，则该关键点被视为不重要的信息删除掉；

其中β_r和β_α是两个超参数，通过对其数值的不同设定可调控编码的稀疏程度；所述步骤三具体包括：

(1)神经元模型

采用简单易处理的基于电流的泄露整合激活神经元模型；

在神经元模型中，每当有输出脉冲产生，神经元都会发生相应的复位动态响应；

神经元的膜电位V(t)是通过整合来自N个传入神经元的突触电流得到的：

其中，

是到达突触i的第j个脉冲时间，

代表第j个输出脉冲的时间，θ表示神经元激活阈值；每一个传入脉冲都对突触后电位做出贡献，其峰值振幅和形状分别由突触权重w_i和归一化核函数K决定；

核函数K定义为：

在这里，τ_m表示膜电位的时间常数，τ_s表示突触电流的时间常数,V₀是一个常数因子；

神经元以事件驱动的方式连续整合输入脉冲；当没有输入脉冲的时候，神经元的膜电位会逐渐衰减至静息电位；当膜电位超过阈值的时候就会发放输出脉冲，膜电位再根据公式(2)的最后一部分复位；

(2)学习规则

采用TDP1作为多脉冲学习规则，临界阈值

相对于权重w_i的梯度表示为：

其中，m表示在临界阈值的时间t^*出现之前输出脉冲的数量；

改变权重来训练的原则，相对学习规则如下：

η>0为学习率来控制每次更新的步长。

2.根据权利要求1所述的基于关键点编码和多脉冲学习的环境声音识别方法，其特征在于,如果神经元激活脉冲的个数少于目标个数，则增加输出脉冲的个数，否则减少输出脉冲的个数。