CN110610722B

CN110610722B - 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法

Info

Publication number: CN110610722B
Application number: CN201910914499.XA
Authority: CN
Inventors: 贾懋珅; 赵文兵
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-02-08
Anticipated expiration: 2039-09-26
Also published as: CN110610722A

Abstract

本发明属于智能应用型声场判别领域，具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。该方法具体包括危险声场景声音库的建立、构建音频时频复合特征参数、引入改进型矢量量化模型对音频特征参数训练；在危险声场景匹配阶段利用欧式距离测度算法进行失真度匹配，找到最小平均误差失真度作为最佳匹配进而达到识别效果。

Description

短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法

技术领域

本发明属于智能应用型声场判别领域，具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。

背景技术

现实声场景中包含丰富的有用信息,当一个环境中存在着针对而言的潜在危险时，可通过对场景中声音的关键特征进行识别来达到对危险声环境检测的效果。当前，儿童的安全问题引起了社会及广大家长的高度重视。众所周知，在儿童活动生活的环境中，当出现一些非常规的声音时，意味着这个环境中存在潜在的危险。此时，如果能及时提醒儿童及家长，可有效避免针对儿童的危险事件发生。但当前电池发展遭遇瓶颈，现有佩戴式电子设备中电池容量较小、续航时间相对短，这给嵌入此类设备中的算法提出了更高的要求，希望嵌入的异常声音识别算法要简单、计算复杂度要低。然而，现有的声场识别算法复杂度都比较高，识别时间较长不能满足便携式电子设备的要求。

发明内容

针对低功耗便携式声场监控设备的要求，本发明主要研究低复杂度的危险声场景判决方法，应用于低供电量的便携式/佩戴式设备。本发明提供一种基于短时能量及梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)联合矢量量化的低复杂度危险声场景判别方法，该方法包括目标声音库的建立、基于时域的背景声音强度实时更新方法、基于频域的异常声音片段均值滤波MFCC参数提取方法、引入改进型矢量量化模型训练及异常声音匹配检测方法。

本发明的发明点在于构建了新的音频特征，即将帧能量E(m)替代MFCC的第一维系数组成新的梅尔频率倒谱系数矢量E-MFCC，由于现实声场中异常声音的特点大多比较尖锐、短促(如尖叫、爆炸声、哭泣声等)即，短时能量比较大，因此，可将音频的短时能量作为检测异常声音的一个特征，将时域的短时能量特征放到梅尔频率倒谱系的第一维中可一次性检测音频的能量与声学特征，简化了音频特征检测的步骤，降低了算法的复杂度；此外本发明通过对每段原始音频构建最佳码书，利用欧式距离测度算法进行失真度匹配，找到最小平均误差失真度即为最佳匹配进而达到识别效果。相比传统矢量量化，本发明方法灵活性更强，可同时识别多类音频。

本发明的技术方案用于解决实际场景中对目标声源进行精确感知重放困难的问题，通过检测实际场景中目标声源的类型来判断用户是否处于危险环境，主要分为以下几个步骤：

步骤1，构建声音特征与危险场景间映射关系

步骤2，训练阶段，建立异常声音模板库

步骤3，识别阶段，提取待检测声音的特征矢量与模板进行匹配，最终输出最优匹配结果。

有益效果

1、复杂度低且灵活性更强

2、便于嵌入到低耗能的设备中

3、经过改进的矢量量化可检测多类声音类型

4、经过复合的E-MFCC参数鲁棒性更高

该方法复杂度低、实时性高，解决了在低供电量的小型设备对危险声场景进行实时检测的问题，最重要的是本方法通过选用小样本量数据进行声信号特征空间分类，更易于实际操作。

附图说明

图1.声音类型与场景间映射关系

图2.危险声场景识别流程图。

具体实施方式

步骤1，构建声音特征与危险场景间映射关系

根据儿童所处环境声环境特点，将常见声音分为若干类，当出现孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛等声音时意味着出现潜在危险；当出现常规语音、街道声、办公室声、上下课铃声等时意味着此时所处环境基本安全。这几类声音分别映射两种场景:危险环境和非危险环境(本设计原始声音样本选取比较灵活，用户可以根据自身需求添加目标音频构造危险场景映射关系)。如图1.所示：

步骤2，训练阶段，建立异常声音模板库

选取孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛和常规语音、街道声、办公室声、上下课铃声这几类数据作为原始训练数据。提取原始音频特征进行矢量量化建立模板库。具体流程为：

Step2.1：声音预处理

在数据特征提取前，先做预处理操作。预处理包括：带通滤波、预加重、分帧。

(1)选取8kHz采样音频信号作为处理对象进行带通滤波处理，为提取人耳感知最重要的频率成分，选用通带范围为20Hz-4000Hz的带通滤波器对信号进行处理。本设计中带通滤波选用有限冲击响应(Finite Impulse Filter,FIR)滤波器，滤波过程为：

其中，N为处理信号的采样点数，h(l)为FIR滤波器系数，s_input()为输入信号，为s_in(n)为带通滤波后信号。

(2)对带通滤波后信号s_in(n)进行预加重处理，本设计选用具有6dB/倍频程的数字滤波器实现，用以提升预处理后信号的高频特性，使得信号频谱变得相对平坦，同时使语音信号在从低频到高频的整个频带中，能用同样的信噪比求频谱。

预加重处理如下式所示：

s(n)＝s_in(n)-μ*s_in(n-1)

其中，μ为预加重系数，其取值为0.96，s(n)为预加重处理后信号。

(3)对预加重后的信号进行加窗分帧处理。以帧长为0.064秒对音频进行分帧，帧与帧之间保持75％的重叠率，每一帧用相同长度的汉宁窗进行加权。

Step2.2：提取音频组合特征

本技术联合时域的短时能量和梅尔频率倒谱系数联合构成一个20维的特征参数矢量，此矢量第一维为音频信号帧能量，后19维为抽选的梅尔频率倒谱系数。本技术选用此特征矢量进行危险场景分类。特征求取分为两步：帧能量求取和梅尔频率倒谱系数求取。

(1)计算音频信号的帧能量，假定当前为音频信号的第m帧信号数据，则该帧音频信号的平均能量可由下式表示：

其中，S_m(n)是经预处理后的第m帧音频信号，N为帧长，本设计中选取N为512，E(m)为第m帧音频信号的平均帧能量。E(m)可作为能量开关，当某一帧信号的E(m)出现阶跃式突变时，可认定声音信号从无声变化为有声或从有声变为无声。即，场景状况发生了变化，此情况可作为情景变化的判别准则之一。

(2)计算音频信号每一帧的线性频谱，当前第m帧音频信号进行离散傅立叶变换后得到线性频谱X_m(k)的具体公式如下：

其中，X_m(k)为频域信号，S_m(n)为时域信号，k为频率索引，N为离散傅里叶变换的样点长度。

(3)计算音频每帧频谱对数能量，将上述频谱X_m(k)通过梅尔频率滤波器组，得到梅尔频谱，通过计算梅尔频谱的对数能量，得到对数能量频谱S(q)，其中，当前第m帧音频信号的第q个频谱对数能量频谱S_m(q)计算公式如下：

式中，H_q(k)是梅尔滤波器组，q为梅尔滤波器编号，M滤波器总数，此处为20。

(4)计算梅尔频率倒谱系数：将上述对数能量谱经离散余弦变换得到MFCC系数，其中，当前第m帧音频信号的第q个维MFCC系数计算公式如下：

式中，M为梅尔滤波器总数，也为MFCC的维数，此处为20

(5)将音频信号的帧能量E(m)替代MFCC的第一维系数，组合成新的梅尔频率倒谱系数矢量E-MFCC

Step2.3：特征参数的新型矢量量化

根据原矢量量化的特点每段音频的特征经过矢量量化只能生成一个胞腔且只能进行二分类判别不能满足本发明需求，故将原本矢量量化中的阈值判别改为匹配判别，然后在后续的步骤中用欧式距离测度算法进行失真度匹配，找到最小平均误差失真度即为最佳匹配进而达到识别效果。经改进的矢量量化可以进行多类判别且灵活性很高、复杂度更低。

构建样本音频矢量量化器，为方便表述，将上述所求样本音频库中的某段异常声音的特征矢量E-MFCC,记为X＝{X₁,X₂,…X_m,…,X_Q}

其中，X在M维欧几里得空间R^M中，Q为一段音频的总帧数，第m帧的特征矢量可记为X_m＝{x₁,x₂,…,x_M}，m＝1,2,…,Q

将M维欧几里得空间R^M无遗漏地划分成J个互不相交的子空间R₁,R₂,…,R_J,这些子空间R_j(j＝1,2,…,J)称为胞腔，在每一个子空间R_j找一个代表矢量Y_j，则J个代表矢量可以组成矢量集为Y＝{Y₁,Y₂,…,Y_j,…,Y_J}

这样，Y就组成了一个矢量量化器，被称为码书；Y_j称为码字；Y内的矢量个数J称为码书长度或码书尺寸。不同的划分或不同的代表矢量选取方法就可以构成不同的矢量量化器；也就是说每段音频经过矢量量化可组成一个矢量量化器。

选取欧式距离测度，设待测M维特征矢量

与码书中某个M维码字Y比较，x_q与y_q分别表示

与Y的同一维分量(q＝1,2,…,M)，则其欧式距离测度可表示为

构建样本音频特征矢量最佳码书，由于不同码字的选取会构成不同的码书，因此，若能找到最合适的码字组成码书，此码书就为最佳码书(训练用的特征矢量X与该矢量训练出的码字Y之间的畸变最小)，最佳码书构建过程如下：

(1)设定码书和迭代训练参数：设全部输入训练矢量X的集合为Z，设置码书的尺寸为J，迭代算法的最大迭代次数为G，畸变最小阈值为σ

(2)设定码字初始化值，设置J个码字的初始值为

畸变初值D⁽⁰⁾＝∞，迭代次数初值g＝1

(3)根据最近邻近准则将Z分成了J个子集

即当

时，下式应成立：

(4)计算总畸变D^(g)

(5)计算畸变改进量ΔD^(g)的相对值

(6)计算新码书的码字

其中T是矢量集合Z所包含矢量X的个数

(7)判断σ^(g)是否小于σ，若是，转为(9)执行；否则，转入(8)执行。

(8)判断g是否小于G，若否，转为(9)执行；否则，令g＝g+1转入(3)执行。

(9)迭代终止；输出

作为训练成的最佳码书的码字，并且输出总畸变D^(g)。

把上述提取的异常声音特征矢量E-MFCC经新型矢量量化处理生成最佳码书存入模板数据库中留待与被分类样本进行匹配。

步骤3，识别阶段，提取待检测声音的特征矢量与模板进行匹配

本技术采用新型矢量量化分类器将待测音频经上述预处理、特征参数提取处理，输入新型矢量量化分类器经与模板最优匹配输出检测结果。危险声场景识别流程图如图2.所示，具体流程为：

(1)选取一段待测音频经上述预处理、特征参数提取处理得序列

(2)将模板库中的每个模板依次对特征矢量序列进行矢量量化，计算各自的平均量化误差

式中，

是模板库中第p个码书中的第j个码字矢量；而

是待测矢量

和码字矢量

之间的失真测度。

(3)选取平均量化误差最小的码书所对应声音库中的声音类型作为系统的最优匹配结果，若匹配的声音类型为孩子哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛，则把结果定为用户处于危险场景。若匹配的声音类型为常规语音、街道声、办公室声、上下课铃声，则把结果定为用户处于非危险场景。

Claims

1.短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法，其特征在于包括以下步骤：

步骤1，构建声音特征与危险场景间映射关系，即根据儿童所处环境声环境特点，将声音映射为危险场景或非危险场景；

步骤2，训练阶段：选取儿童所处环境声环境中的常见声音作为原始样本，经处理后建立异常声音模板库，具体包括：

Step2.1：对原始样本音频预处理，预处理包括：带通滤波、预加重、加窗分帧；

Step2.2：按帧提取预处理后的所有原始样本的音频组合特征，音频组合特征由音频信号的平均能量E(m)和MFCC梅尔频率倒谱系数C(q)构成，特征在于，将音频信号的平均能量E(m)替代MFCC的第一维系数，组合成新的梅尔频率倒谱系数矢量E-MFCC；

Step2.3：根据所有原始样本的音频组合特征构建初步样本音频矢量量化器Y，即码书，表示为Y＝{Y₁,Y₂,…,Y_j,…,Y_J}，其中，Y_j称为码字，Y内的矢量个数J称为码书长度或码书尺寸，码字用于表示所有原始样本可被划分的类别，Y_j的确定方法如下：

为方便表述，将上述矢量E-MFCC,记为

X＝{X₁,X₂,…X_m,…,X_Q}

其中，X在M维欧几里得空间R^M中，Q为一段音频的总帧数，第m帧的特征矢量可记为X_m＝{x₁,x₂,…,x_M}，m＝1,2,…,Q，

将M维欧几里得空间R^M无遗漏地划分成J个互不相交的子空间R₁,R₂,…,R_J,这些子空间R_j(j＝1,2,…,J)称为胞腔，Y_j即为第j个胞腔的中心矢量；

Step2.4：对初步构建的样本音频矢量量化器Y进行优化，构建样本音频特征矢量最佳码书，具体为：

(1)根据最近邻准则将全部训练矢量X的集合Z分成J个子集，表示为

具体划分条件为：

当

时，满足以下条件：

其中，

表示第g-1迭代的码字Y_j，初步构建样本音频矢量量化器Y作为码字迭代的初始值，

表示X与

的欧氏距离；

(2)计算总畸变D^(g)

(3)计算畸变改进量ΔD^(g)的相对值

(4)计算新码书的码字

其中T是矢量集合Z所包含矢量X的个数；

(5)判断σ^(g)是否小于畸变最小阈值σ，若是，转为(7)执行；否则，转入(6)执行；

(6)判断当前迭代次数g是否小于最大迭代次数G，若否，转为(7)执行；否则，令g＝g+1，转入(1)继续迭代；

(7)迭代终止，输出

作为训练成的最佳码书的码字，并且输出总畸变D^(g)；

原始样本中每段音频都对应一个最佳码书，把上述提取的异常声音特征矢量E-MFCC经新型矢量量化处理生成最佳码书存入模板数据库中留待与待分类样本进行匹配；

(1)选取一段待测音频经上述Step2.1、Step2.2处理得到待测音频特征矢量

式中，

是模板库中第p个最佳码书中的第j个码字矢量；而

是待测矢量

和码字矢量

之间的欧氏距离；

(3)选取平均量化误差最小的最佳码书所对应声音库中的声音类型作为系统的最优匹配结果。

2.根据权利要求1所述的短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法，其特征在于：Step2.2进一步包括以下步骤：

(1)计算音频信号的帧能量，其中，当前第m帧音频信号的平均能量E(m)计算公式如下：

其中，S_m(n)是经预处理后的第m帧音频信号，N为帧长；

(2)计算音频信号每一帧的线性频谱，其中，当前第m帧音频信号进行离散傅立叶变换后得到线性频谱X_m(k)的具体公式如下：

其中，X_m(k)为频域信号，S_m(n)是经预处理后的第m帧音频信号，k为频率索引；

(3)计算音频每帧频谱对数能量：将上述频谱X_m(k)通过梅尔频率滤波器组，得到梅尔频谱，通过计算梅尔频谱的对数能量，得到对数能量频谱S(q)，其中，当前第m帧音频信号的第q个频谱对数能量频谱S_m(q)计算公式如下：

式中，H_q(k)是梅尔滤波器组，q为梅尔滤波器编号，M滤波器总数，此处为20；

(4)计算梅尔频率倒谱系数C(q)：将上述对数能量谱经离散余弦变换得到MFCC系数，其中，当前第m帧音频信号的第q个维MFCC系数计算公式如下：

式中，M为梅尔滤波器总数，也为MFCC的维数，此处为20；

(5)将音频信号的平均能量E(m)替代MFCC的第一维系数，组合成新的梅尔频率倒谱系数矢量E-MFCC。