CN109903749B - 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 - Google Patents
基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 Download PDFInfo
- Publication number
- CN109903749B CN109903749B CN201910143499.4A CN201910143499A CN109903749B CN 109903749 B CN109903749 B CN 109903749B CN 201910143499 A CN201910143499 A CN 201910143499A CN 109903749 B CN109903749 B CN 109903749B
- Authority
- CN
- China
- Prior art keywords
- log
- key point
- time
- local
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
生物证据表明局部时频信息能够有效处理带有噪声的信号,而且卷积神经网络广泛被应用到听觉处理领域。本发明提出了一种新的声音识别的方法,基于关键点编码和卷积神经网络进行鲁棒的声音识别方法,采用关键点编码的方法来提取局部时频信息,用卷积神经网络对声音进行识别分类。本发明使用RWCP数据库来评估系统性能。结果表明本发明提出的系统在噪声环境下可以有效地对声音进行分类。
Description
技术领域
本发明涉及声音识别、类脑计算领域,尤其是涉及如何设计优化合适的编码方法更接近于生物神经系统的处理方式进行鲁棒的声音识别。
背景技术
近几年来,声音识别受到了研究者们越来越多的关注,并被广泛应用到多媒体、房间和公共交通中的安全监控、野生动物区域的入侵者检测以及老年人监控等领域。特定声音往往与偶发重要事件或过程相关,有效及时的将这些声音探测识别出来,对于后续地采取处理行动至关重要。考虑到现实环境的动态复杂性,如何有效鲁棒地探测及识别声音逐渐成为了一个关键的热点科研及应用问题。
声音识别最开始是基于语音识别应用开展起来的。和语音识别相似,鲁棒性的声音识别主要依赖于不同的特征和分类器的选择。传统的声音识别通常借鉴语音识别的方法,例如采用梅尔频率倒谱系数(MFCC)提取特征,隐马尔科夫模型(HMM)进行分类。但是这种方法在噪声增加时,其识别性能会迅速变得很差。其中主要的原因是MFCC是在广泛的频率范围内去提取的特征,不能有效地抵抗噪声干扰。
和语音信号不同,声音信号具有更广泛的频率和振幅范围,实验表明,声音的这些独特的时频特性可以通过人类的听觉系统在低信噪比的情况下有效地处理听觉信息。基于这些独特特性,提出了各种提取声音特征的方法,例如语谱图图像特征。随着深度学习的发展,深度神经网络和卷积神经网络也应用到鲁棒性的声音识别上。但是,这种提取特征的方法比较复杂,而且是基于全局的语谱图提取的。但生物证据表明声音信息是通过局部的时频信息来表示的。
为了克服现有复杂特征表示的局限性,本发明提出一种更加简单、且更加具有生物可塑性的关键点编码的方法提取局部的时频信息,并结合性能比较好的卷积神经网络来对声音进行识别。
发明内容
本发明为克服现有技术的不足,提出一种有效的针对鲁棒性的声音识别的系统评估的方法。技术方案以RWCP音频数据库为处理对象,整个系统主要由数据预处理、特征提取和分类器分类三个部分组成。1)在数据预处理阶段,首先将声音信号通过分帧、加窗、短时傅里叶变换转换成语谱图,再对语谱图进行归一化和取对数操作,得到归一化之后的对数能量语谱图。2)在特征提取阶段,采用关键点(KP)编码来提取局部的频谱特征。3)在分类器分类阶段,采用卷积神经网络(CNN)对编码得到的特征图进行识别分类。
从RWCP音频数据库中选取了10类不同的声音。每类声音选择40个声音文件作为训练集,另外40个作为测试集。噪声数据是从NOISEX’92中选择的“speechbabble”噪声。
1)数据预处理部分
在数据预处理阶段,首先声音信号通过分帧、加窗、短时傅里叶变换得到二维的语谱图Sabs(t,f),之后对语谱图进行归一化和取对数的操作,得到归一化的对数能量语谱图Slog(f,t)。取对数操作如下:
Slog(f,t)=log(Sabs(t,f)+∈)-log(∈) (1)
其中,∈表示学习率。由于本发明所使用的数据库中不同的声音信号具有不同的时间长度,而CNN要求输入的大小是固定的,因此,采用填充零的方法得到固定尺寸的语谱图。
2)关键点编码
对于每一张固定的语谱图Slog(f,t),分别从局部的时间域和频率域采用一维的最大值滤波器提取关键点,来提取局部的时频信息。局部时域和频域区域定义如下:
Qf(y)=Slog(f±d,t),d∈{0,1,…,D} (2)
Qt(y)=Slog(f,t±d)
其中,Qf表示局部纵向频域,Qt表示局部横向时域。D设置为4表示局部区域的大小。
分别从时域和频域提取关键点信息。关键点定义如下:
提取的第i个关键点信息保存为Ki={fi,ti,si},fi,ti,si分别表示第i个点多对应的频率、时间以及对数能量值。
为了进一步提升关键点的稀疏性,去除可能属于背景噪声的一些不重要的信息,本发明采用两种掩码机制,分别是基于绝对值的掩码方法和基于相对值的掩码方法。在基于绝对值的掩码方法中,本发明采用一种宏观过滤机制,在关键点的值小于超参数βa时,将会视其为背景噪声去除掉,βa用来控制去除关键点的数目。在相对的对比度掩码方法中,本发明根据以下规则去除关键点:
P(si)=βr×si-mean{Slog(f±d,t±d)} (4)
其中,βr是另一个调整系数。如果P(si)>0则保留关键点,否则将其视为背景噪声删除掉。最后,提取出更加稀疏的关键点信息。
将提取的关键点信息映射到二维的脉冲时空图上,完成编码阶段。
3)分类器
CNN是一个多层神经网络,主要有卷积层、池化层和全连接层组成。CNN的这种分层结构使得其在图像处理中有很多优势,关键点图也可看成一张具有时频信息的图像,而且CNN具有时移不变性的特性,使得CNN更加适合于声音识别任务。因此,本发明使用CNN处理编码的关键点图,进行鲁棒性声音的识别。
有益效果
本发明的鲁棒声音识别首次将关键点编码方法和卷积神经网络结合起来,并在编码时分别采用绝对和相对的掩码机制来提升关键点编码的鲁棒性和稀疏性,和传统的声音识别方法相比得到了比较好的识别性能。
附图说明
图1是基于KP和CNN的系统架构图;
图2显示了一个关键点编码的详细步骤框图。
具体实施方式
下面结合附图和附表对本发明中的作用和效果进行展示。
本示例以RWCP数据库为例来给出发明的实施方式。整个系统流程如图1所示,包括RWCP数据集输入预处理、数据特征的关键点编码、CNN训练进行分类这三个步骤。
1)RWCP数据集预处理
从RWCP数据库中选取10类不同的声音进行分类,分别是:铃声、瓶子声、蜂鸣器声音、大镲声、喇叭声、卡拉、金属。每一类声音文件随机选取40个作为训练集,另外40个作为测试集,总共400个训练样本,400个测试样本。为了评估在不匹配情况下的识别性能,从NOISEX’92中选取“speech babble”噪声。
为了证明系统的鲁棒性,分别采用了干净以及20dB、10dB、0dB和-5dB的信噪比的声音数据,这些声音数据首先通过分帧、加窗、短时傅里叶变换转换为语谱图,再经过归一化和取对数操作对语谱图进行预处理得到归一化的对数能量语谱图。对每个声音信号提取语谱图时,窗长设置为16ms,窗移设置为8ms,窗函数使用的是汉明窗。
2)关键点编码
运用关键点编码方法结合掩码机制进行特征提取,采用一维的最大值滤波器进行局部时频信息的提取,局部区域长度设置为4,提取到的关键点信息经过映射得到稀疏的脉冲时空图,图2显示了得到数据编码的脉冲图的细节步骤框图。
3)CNN分类
在获取声音数据的脉冲序列之后,运用CNN训练分类,通过调整权重来训练模型。CNN的结构采用4层卷积层和一个全连接层组成,另外除了输入层和输出层之外,每一层都是用ReLU作为激活函数,并使用batch normalization防止过拟合。输出层采用softmax进行分类。
表1在干净环境下训练,不同信噪比下测试各方法声音分类的准确率
方法 | MFCC-HMM | SPEC-CNN | KP-CNN |
Clean | 99.0% | 99.83% | 99.88% |
20dB | 62.1% | 99.88% | 99.85% |
10dB | 34.4% | 98.93% | 99.68% |
0dB | 21.8% | 83.65% | 94.43% |
-5dB | 19.5% | 58.08% | 84.80% |
平均 | 47.3% | 88.07% | 95.73% |
表1列出了在没有噪声训练,不同信噪比下测试,不匹配条件下不同实验方法的实验结果,其中MFCC-HMM是传统的方法,SPEC-CNN是直接用语谱图作为CNN输入的方法,KP-CNN是在SPEC-CNN基础上增加关键点编码的方法,通过表1可以看出KP-CNN的方法在有噪声的情况下可以得到更加鲁棒的分类效果。
表1是在没有噪声的训练,不同信噪比下测试时不同方法声音分类的准确率;
表2是在带噪条件下训练,不同的信噪比下测试使用不同方法得到的声音分类的准确率。
表2在带噪条件下训练,不同信噪比下测试声音分类的准确率
方法 | SPEC-CNN | KP-CNN |
Clean | 99.89% | 99.93% |
20dB | 99.89% | 99.93% |
10dB | 99.89% | 99.73% |
0dB | 99.11% | 98.13% |
-5dB | 91.17% | 94.75% |
平均 | 98.04% | 98.49% |
为了进一步提升声音分类的鲁棒性,表2列出了在带噪条件下训练,不同信噪比下测试的结果,表2的实验结果表明,采用带噪训练,可以进一步提升声音分类的鲁棒性。
Claims (1)
1.基于关键点编码和卷积神经网络进行鲁棒的声音识别方法,其特征在于,包括如下步骤:
1)数据预处理
在数据预处理阶段,首先声音信号通过分帧、加窗、短时傅里叶变换得到二维的语谱图Sabs(t,f),之后对语谱图进行归一化和取对数的操作,得到归一化的对数能量语谱图Slog(f,t),取对数操作如下:
Slog(f,t)=log(Sabs(t,f)+∈)-log(∈) (1)
其中,∈表示学习率,由于本发明所使用的数据库中不同的声音信号具有不同的时间长度,而CNN要求输入的大小是固定的;
2)关键点编码
对于每一张固定的语谱图Slog(f,t),分别从局部的时间域和频率域采用一维的最大值滤波器提取关键点,来提取局部的时频信息;
局部时域和频域区域定义如下:
Qf(y)=Slog(f±d,t),d∈{0,1,…,D} (2)
Qt(y)=Slog(f,t±d)
其中,Qf表示局部纵向频域,Qt表示局部横向时域,D设置为4表示局部区域的大;
分别从时域和频域提取关键点信息,关键点定义如下:
提取的第i个关键点信息保存为Ki={fi,ti,si},fi,ti,si分别表示第i个点多对应的频率、时间以及能量值;
3)分类器分类:使用CNN处理编码的关键点图,进行鲁棒性声音的识别;
提升所述步骤2)中关键点的稀疏性,采用两种掩码机制,分别是基于绝对值的掩码方法和基于相对值的掩码方法;
在基于绝对值的掩码方法中,采用一种宏观过滤机制,在关键点的值小于超参数βa时,将会视其为背景噪声去除掉,βa用来控制去除关键点的数目,在相对的对比度掩码方法中,根据以下规则去除关键点:
P(si)=βr×si-mean{Slog(f±d,t±d)} (4)
其中,βr是另一个调整系数,如果P(ai)>0则保留关键点,否则将其视为背景噪声删除掉;
最后,提取出更加稀疏的关键点信息;
将提取的关键点信息映射到二维的脉冲时空图上,完成编码阶段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143499.4A CN109903749B (zh) | 2019-02-26 | 2019-02-26 | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143499.4A CN109903749B (zh) | 2019-02-26 | 2019-02-26 | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109903749A CN109903749A (zh) | 2019-06-18 |
CN109903749B true CN109903749B (zh) | 2021-04-02 |
Family
ID=66945670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910143499.4A Active CN109903749B (zh) | 2019-02-26 | 2019-02-26 | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109903749B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540346A (zh) * | 2020-05-13 | 2020-08-14 | 慧言科技(天津)有限公司 | 一种远场声音分类方法和装置 |
CN112419258B (zh) * | 2020-11-18 | 2024-05-14 | 西北工业大学 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
CN115187819B (zh) * | 2022-08-23 | 2023-05-16 | 北京医准智能科技有限公司 | 图像分类模型的训练方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447495A (zh) * | 2018-03-28 | 2018-08-24 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130063556A1 (en) * | 2011-09-08 | 2013-03-14 | Prism Skylabs, Inc. | Extracting depth information from video from a single camera |
CN105047194B (zh) * | 2015-07-28 | 2018-08-28 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
CN108537203B (zh) * | 2018-04-22 | 2020-04-21 | 广州麦仑信息科技有限公司 | 一种基于卷积神经网络的手掌关键点定位方法 |
CN108831485B (zh) * | 2018-06-11 | 2021-04-23 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN109036382B (zh) * | 2018-08-15 | 2020-06-09 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
-
2019
- 2019-02-26 CN CN201910143499.4A patent/CN109903749B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447495A (zh) * | 2018-03-28 | 2018-08-24 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109903749A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharan et al. | An overview of applications and advancements in automatic sound recognition | |
CN109285538B (zh) | 一种基于常q变换域的加性噪声环境下手机来源识别方法 | |
CN109903749B (zh) | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 | |
CN109616104B (zh) | 基于关键点编码和多脉冲学习的环境声音识别方法 | |
Zhang et al. | Automatic bird vocalization identification based on fusion of spectral pattern and texture features | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
Kong et al. | Joint detection and classification convolutional neural network on weakly labelled bird audio detection | |
CN103474072A (zh) | 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法 | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
CN115424620A (zh) | 一种基于自适应触发器的声纹识别后门样本生成方法 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Sharan | Spoken digit recognition using wavelet scalogram and convolutional neural networks | |
CN110246509A (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 | |
Arumugam et al. | An efficient approach for segmentation, feature extraction and classification of audio signals | |
Bang et al. | Evaluation of various feature sets and feature selection towards automatic recognition of bird species | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
Nicolson et al. | Sum-product networks for robust automatic speaker identification | |
Mihalache et al. | Deep Neural Networks for Voice Activity Detection | |
Budiga et al. | CNN trained speaker recognition system in electric vehicles | |
Sheela et al. | Linear discriminant analysis F-Ratio for optimization of TESPAR & MFCC features for speaker recognition. | |
CN112908344A (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 | |
GS et al. | Synthetic speech classification using bidirectional LSTM Networks | |
Xie | Acoustic classification of Australian frogs for ecosystem survey | |
Grama et al. | Averaged binary sparsogram for wildlife intruder detection | |
Yan et al. | Sound event recognition based in feature combination with low snr |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |