CN115223589A - 一种低算力的人工耳蜗自动声音场景分类方法 - Google Patents
一种低算力的人工耳蜗自动声音场景分类方法 Download PDFInfo
- Publication number
- CN115223589A CN115223589A CN202210664991.8A CN202210664991A CN115223589A CN 115223589 A CN115223589 A CN 115223589A CN 202210664991 A CN202210664991 A CN 202210664991A CN 115223589 A CN115223589 A CN 115223589A
- Authority
- CN
- China
- Prior art keywords
- model
- scene
- mfcc
- sample
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000007943 implant Substances 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000010606 normalization Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000002759 z-score normalization Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005316 response function Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 6
- 238000009795 derivation Methods 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 abstract 2
- 238000010276 construction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000013145 classification model Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010011891 Deafness neurosensory Diseases 0.000 description 1
- 208000009966 Sensorineural Hearing Loss Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 208000023573 sensorineural hearing loss disease Diseases 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种低算力的人工耳蜗自动声音场景分类方法,包括模拟仿真和DSP实现,模拟仿真包括数据库构建、样本MFCC特征向量提取、特征值归一化、模型训练、模型预测及结果输出;DSP实现包括DSP的场景预测实现、模型的预测与推导和综合决策并输出。本发明特征提取方便,运算量低,易于实现在人工耳蜗等低算力计算设备,且效果较好。
Description
技术领域
本发明属于信号处理领域,特别涉及一种低算力的人工耳蜗自动声音场景分类方法。
背景技术
场景声音信息中包含丰富的声学信息,可用于场景分类、事件判定和目标定位等。声音的场景分类(Acoustic Scene Classification,ASC)即从环境的声音信息中提取声学特征,并根据这些特征判定声音来源的环境属于哪个场景分类。ASC技术在人机交互、智能家居、安防监控、机器人等领域发挥重要的作用,因此成为一个热门研究领域。一般而言,ASC系统主要包括两部分-声音特征提取模块和分类模型判定模块,前者从声音信号提取声音特征,这个过程可以通过人工特征工程法或者人工神经网络自动提取,后者将声音特征输入分类模型进行场景判定。目前存在的不同自动声音场景识别方案均在这两个模块的实现上存在或多或少的差异。人工特征工程中提取的声音特征主要包括短时过零率、短时平均幅度、短时平均能量等时域特征,子带能量占比、谱熵、谱通量等频域特征,语谱图、梅尔谱图等时频域特征,以及倒谱域特征如梅尔倒谱系数(MFCC,Mel-Frequency CepstralCoefficients)等,各个特征根据需要可筛选组合。目前ASC中较为流行使用的特征一般基于梅尔频率测度,如梅尔谱图、对数梅尔谱图,这主要因为使用这些特征,较使用原始语谱图,特征维度较低、且能够获得近似的频谱特征表达和足够的类间差异用于各分类模型的判别。传统的分类模型包括支持向量机(SVM,Supported Vector Machine)、随机森林、决策树、高斯混合模型、K近邻分类器等,较新的技术采用人工神经网络模型,包括多层感知机(MLP,Multilayer Perceptron)、卷积神经网络(CNN,Convolutional Neural Networks)、循环神经网络(GRU:门控循环单元,Gated Recurrent Unit、RNN:循环神经网络,RecurrentNeural Network、LSTM:长短期记忆网络,Long Short-Term Memory等)、残差网络(ResNet,Residual Networks)等。目前ASC中较为常用的分类模型为基于CNN的深度学习方法,此法一般结合语谱图、梅尔谱图或常数Q变化等时频特征使用,预测效果较好,然而所需运算量较大,模型较为复杂。
人工耳蜗能将声音信号转化成脉冲电信号直接刺激患者的残余听神经纤维,让患者恢复听觉,适用于重度或极重度感音神经性耳聋患者。目前人工耳蜗产品基本都能做到让用户在安静的环境里听清、听懂和交流,然而,如何在日常复杂多变的声音场景下依旧能够做到这点却仍是难题,这也成为衡量各人工耳蜗有效性和实用性的重要指标。良好的听声效果依赖于优异的声音处理算法,但是没有哪种算法能适用于所有场景,因此根据场景选择合适的处理策略尤为重要。在智能化声音管理系统出现之前,一般的做法是在体外机处理器的程序中设定若干个听声程序,如‘日常’,‘噪音’等,每个听声程序搭配一定的声音处理策略,而用户需要通过远程助手或者体外机按键手动选择某个程序。然而,对于大部分用户来说,手动选择听声程序较为麻烦、困难甚至是不可能,即便是经验较为丰富的用户也并不总是能够正确选择最适合当前场景的听声程序。声音场景分类技术的出现解决了这一难题,搭配自动化的声音处理策略配置,能够主动根据识别的声音场景选择合适的听声程序,让用户获得技术上所能达到的最佳听声效果。
声音的场景分类是智能辅听系统的基础,直接关系到声音处理策略的配置进而影响到用户的听声效果,识别错误很可能会损害到用户言语可懂度或者听声舒适度,因此十分重要。值得注意的是人工耳蜗设备的实时性和低功耗要求一定程度上限制了较复杂的声音场景分类算法的应用,如ASC中较常用的提取语谱图或梅尔谱图特征利用深度CNN网络模型分类场景,其运算量相对较大,尽管可能分类效果较佳,但难以实际应用到人工耳蜗处理器中。在人工耳蜗中,ASC技术只占DSP运算资源的一小部分,其存在目的是为了后续对各种声音处理策略(如单麦克风降噪算法、双麦克风降噪算法、风噪识别和去除算法等)进行场景适应性的智能化配置,因此,分类算法所需的操作数不可过高。此外,为减少频繁切换程序给用户带来负面的听声感受,一般会在模型判断场景分类后增加一个综合决策模块,令场景切换能够平滑过渡。本发明目的在于实现一种运算量较低但预测准确度相对较高的可实现于人工耳蜗等低算力终端设备的自动声音场景分类方法。基于此目的,我们前期在特征提取和筛选以及分类模型选用上做了大量研究。依据我们的研究经验,在相同的模型训练数据集下,特征提取和筛选的重要度要高于模型筛选的重要度,也即如果筛选出合适的特征组合,选择何种分类器从最终可以获得的最佳预测准确度上来说差异并不是很大,最终选择哪种分类模型主要还是基于计算量和DSP上实现的难易程度角度考虑。我们的研究结果表明单纯使用MFCC特征结合双隐含层全连接网络模型可以在准确度和运算量的平衡上达到相对最优状态。基于梅尔频率的倒谱系数MFCC在语音和音乐类音频的处理中被广泛采用,其分析基于人的听觉机理,以期模拟人的听觉处理过程而获取更好的声学特征。
发明内容
有鉴于此,本发明的目的在于提供一种低算力的人工耳蜗自动声音场景分类方法,运算量较低、预测准确度相对较高的可实现于人工耳蜗等低算力终端设备的自动声音场景分类方法。
为达到上述目的,本发明提供了一种低算力的人工耳蜗自动声音场景分类方法,包括以下步骤:
S10,模拟仿真;
S20,DSP实现;
其中,S10包括以下步骤:
S101,数据库构建,将网络下载、实地采集和后期合成的音频均处理为单声道16kHz采样率的.wav格式,每个样本裁切成1s的时长,将数据库中的样本至少分类为语音、噪音、带噪语音和音乐,将每个类别中80%作为训练集、20%作为测试集;
S102,样本MFCC特征向量提取;
S103,特征值归一化,将训练集所有样本的MFCC特征向量进行归一化处理,得到归一化的样本特征集,用于模型训练,同时,保存归一化的尺度,用于测试集样本特征向量的归一化;
S104,模型训练,所用的模型为双隐含层的全连接神经网络,选取训练集中的20%作为验证集,用以模型调参以及评估模型训练过程中是否发生过拟合需要提前停止训练,保留在验证集上预测准确度最高的模型作为优选模型,用于后面在测试集上的预测性能评估;
S105,在测试集上使用优选模型进行预测,统计预测结果,作为对该模型预测性能的评估;
S106,对模型的性能评估通过10次五折交叉验证;
S20包括以下步骤:
S201,DSP的场景预测实现,采样频率为16kHz,帧长16ms,帧移16ms,梅尔滤波器个数设置为10个,每1s输出一次场景识别结果;
S202,模型的预测与推导,包括隐含层1的输出:out1=relu(input*W1+B1);
隐含层2的输出:out2=relu(out1*W2+B2);
输出层:out3=softmax(out2*W3+B3);
分类判定:class=argmax(out3);
其中,*代表对应元素相乘;W1,W2,W3表示各层权重;B1,B2,B3表示各层偏置;out1,out2,out3分别表示各层经激活函数作用后的输出;class为模型判定的场景分类结果;relu为线性整流函数;softmax为归一化指数函数;
S203,综合决策并输出,平滑模型的场景分类预测结果。
优选地,所述S102,样本MFCC特征向量提取,具体包括以下步骤:
S1021,对样本信号进行预加重,补偿高频分量的损失,将时域信号通过一个一阶高通滤波器H(z)=1-μz-1,μ为0.9-1常数;
S1022,对信号进行分帧,由于语音信号为一准稳态信号,利用其短时不变性,将样本信号分成一帧一帧进行处理,;
S1023,对分帧后的信号加窗,即将每一帧信号与一个窗口函数如汉明窗或海宁窗相乘;
S1024,对加窗后的时域信号进行傅里叶变换,转换到频域,变换公式如下:
其中,x(n)为时域信号,X(k)为频域信号,n表示离散信号中的抽样点,N表示FFT点数;
S1025,计算频域信号的谱线能量,计算能量谱或幅度谱;
S1026,将谱线能量过梅尔三角滤波器组,获得过梅尔滤波器的能量输出,即相当于把每帧的能量谱E(i,k)与梅尔滤波器的频域响应函数Hm(k)进行对应相乘并相加,获得第m个滤波器的能量输出;
S1027,计算滤波器组每个滤波器输出能量的对数log[S(i,m)];
S1028,进行离散余弦变换求得每帧MFCC系数;
S1029,对样本所有帧的MFCC系数求均值和方差,获得样本的MFCC特征向量,用于模型的输入。
优选地,所述S1022中帧长设置为16ms,帧移设置为16ms,1s的样本分成62个帧进行处理。
优选地,所述S1025中采用能量谱计算,将离散傅里叶变换后的信号求模值再平方,获得能量谱|X(k)|2。
优选地,所述S1026中公式包括:
其中,i表示第i帧,k表示频域中第k条谱线,m表示第m个梅尔滤波器,N为FFT点数;
一个具有M个带通滤波器的三角滤波器组的频率响应为:
0≤m<M,在梅尔频域,这些滤波器是等带宽的;f(m)为滤波器的中心频率,定义为:
其中,b是以梅尔Mel为单位的感知频率。
优选地,所述S1028,进行离散余弦变换求得每帧MFCC系数,具体公式为:
其中,i表示第i帧;n表示第n条谱线;m为第m个滤波器,共计M个。
优选地,所述S1029,对样本所有帧的MFCC系数求均值和方差,获得样本的MFCC特征向量,用于模型的输入中,
Features=[m(1),std(1),m(2),std(2),…,m(i),std(i),…,m(10),std(10)],
其中,m(i)表示对样本所有帧的第i个MFCC系数求均值,std(i)表示对样本所有帧的第i个MFCC系数求标准差或平均绝对偏差。
优选地,所述S103中归一化采用min-max标准化或z-score标准化。
优选地,所述S201具体包括以下步骤:
S2011,对每16ms的音频输入提取MFCC系数,输出特征向量大小为1*10,将结果放入特征矩阵F中;
S2012,重复S2011,将后续每16ms音频帧提取的MFCC系数值均放入F,直到F的大小为10*62;
S2013,对F中每个MFCC系数求均值和方差,输出MFCC样本特征向量,大小为1*20;
S2014,利用训练集中生成的归一化尺度,归一化S2013中的MFCC样本特征向量,清空特征矩阵F;
S2015,将S2014中归一化处理后的特征向量输入训练所得的优选模型,由模型进行场景类别判别。
优选地,所述S203具体包括以下步骤:
S2031,设置一个1*4的积分矩阵,初始化为0,分别代表每个场景分类,即语音、噪音、带噪语音和音乐的累积积分;
S2032,假定模型判别结果为噪音,则将噪音类的积分加1,若当前模型预测分类结果跟前一个模型预测结果不同,其余类别的积分减去1;若当前模型预测分类结果跟前一个模型预测结果相同,则其余类别的积分减去2;若某个分类积分超过15,则设置该类积分等于15;若某个分类积分小于0,则设置该类积分为0;
S2033,若积分矩阵中某个分类对应的积分值达到10,则综合决策后的输出结果即为该类;
S2034,为避免出现场景预测不稳定导致累积积分值达不到设定的阈值而超过15s不出场景结果的情况,在开启后的15s后,若达不到场景判定的累积阈值,则使用最近10s中最频繁出现的场景作为结果输出。
本发明的有益效果在于:解决了现有技术中存在的特征提取不便,运算量较大,难以实际应用在人工耳蜗处理器中的问题,本发明单纯使用MFCC系数(仅使用10个滤波器)作为模型判定的输入,无需提取其他时域频域等特征,极大简化了特征提取的流程,缩减了DSP中特征提取所需的计算量;选用的全连接网络模型只包含两个10节点的隐含层,模型架构简单,参数量少,推导的计算量低;综上,无论是特征提取模块还是模型识别模块都易于和适合在人工耳蜗DSP上实现,且在如此低算力前提下,分类的准确度仍较佳。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法步骤流程图;
图2为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法的S102步骤流程图;
图3为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法的S102中梅尔滤波器响应图;
图4为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法的S104中网络架构示意图;
图5为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法的S20步骤流程图;
图6为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法的S106中混淆矩阵示意图;
图7为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法的S20实验环境示意图;
图8为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法的场景预测准确度及切换次数示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
参见图1,所示为本发明实施例的一种低算力的人工耳蜗自动声音场景分类方法,包括以下步骤:
S10,模拟仿真;
S20,DSP实现;
其中,S10包括以下步骤:
S101,数据库构建:用于声音场景识别模型训练的音频样本主要来源于网络下载和实地采集,前者通过在网上公开的声音样本库下载我们所需的声音样本,后者通过录音设备进行实地场景的音频录制,搜集到的声音样本进行正确的人工分类和筛选。带噪语音样本来源于实地采集和后期合成(合成的信噪比设置为-10~15dB)。由于来源渠道不一,各个样本音频的保存格式和采样率并不一致,均统一预处理成单声道16kHz采样率的.wav格式,每个样本裁切成1s的时长,并设置合适的阈值线删去声压级较低的样本。表1显示了数据库每个类别的样本数,为平衡模型训练时的分类数,随机选取每个类别39000个样本(10.8h)构建建模用的数据集,其中,每个类别选取80%作为训练集,20%作为测试集。
表1 样本库的分类及对应的样本数
注:随机选择39000个样本每个分类用于后续模型建模使用。
S102,样本MFCC特征向量提取过程:
参见图2,具体包括以下步骤:
S1021,对样本信号进行预加重,补偿高频分量的损失,相当于将时域信号通过一个一阶高通滤波器:H(z)=1-μz-1,μ为常数,值一般取0.9-1范围,本发明具体实施例中取值0.98;
S1022,对信号进行分帧,由于语音信号为一准稳态信号,利用其短时不变性,将样本信号分成一帧一帧进行处理,本发明中帧长设置为16ms,帧移设置为16ms,则1s的样本可以分成62个帧进行处理;
S1023,对分帧后的信号加窗,即将每一帧信号与一个窗口函数如汉明窗或海宁窗相乘,以减少频谱泄露,本发明具体实施例中使用海宁窗;
S1024,对加窗后的时域信号进行傅里叶变换,转换到频域,变换公式如下:
其中,x(n)为时域信号,X(k)为频域信号,n表示离散信号中的抽样点,N表示FFT点数,本发明具体实施例中N=256;
S1025,计算频域信号的谱线能量,可以计算能量谱或幅度谱,本发明具体实施例中采用能量谱计算,具体做法是将离散傅里叶变换后的信号求模值再平方,获得能量谱|X(k)|2;
S1026,将谱线能量过梅尔三角滤波器组,获得过梅尔滤波器的能量输出,即相当于把每帧的能量谱E(i,k)与梅尔滤波器的频域响应函数Hm(k)进行对应相乘并相加,获得第m个滤波器的能量输出,具体公式如下:
其中,i表示第i帧,k表示频域中第k条谱线,m表示第m个梅尔滤波器,N为FFT点数。
一个具有M个带通滤波器的三角滤波器组的频率响应如下:
0≤m<M,在梅尔频域,这些滤波器是等带宽的。
f(m)为滤波器的中心频率,定义如下:
其中,b是以梅尔(Mel)为单位的感知频率。
本发明具体实施例中,为尽可能减少运算量,M取值=10,各梅尔滤波器的响应参见图3;
S1027,计算滤波器组每个滤波器输出能量的对数log[S(i,m)];
S1028,进行离散余弦变换(DCT)求得每帧MFCC系数,具体公式如下:
其中,i表示第i帧,n表示第n条谱线,m为第m个滤波器(共计M个);
S1029,对样本所有帧的MFCC系数求均值和方差,获得样本的MFCC特征向量,用于模型的输入,本发明中的具体实施如下:
Features=[m(1),std(1),m(2),std(2),…,m(i),std(i),…,m(10),std(10)],其中,m(i)表示对样本所有帧的第i个MFCC系数求均值,std(i)表示对样本所有帧的第i个MFCC系数求标准差,本发明中梅尔滤波器的个数设置为10,则输出的特征向量长度为20。这里求标准差也可以用求平均绝对偏差来替代。样本特征值的排列顺序可以更换,如先放入各个系数的均值,再放入各个系数的标准差。
S103,特征值归一化:将训练集所有样本的MFCC特征向量进行归一化处理,得到归一化的样本特征集,用于模型训练,同时,保存下归一化的尺度,用于测试集样本特征向量的归一化。归一化的方法可以采用min-max标准化,z-score标准化等,本发明采用z-score标准化方式,归一化的尺度包括样本特征集各个特征的均值向量MN和方差向量STD,其中,MN=[M(1),M(2),…,M(i),…M(20)],M(i)代表第i个MFCC系数的样本训练特征集的均值;STD=[STD(1),STD(2),…,STD(i),…STD(20)],STD(i)代表第i个MFCC系数的样本训练特征集的标准差,如果设置的梅尔滤波器个数不等于10,或者样本的MFCC特征向量排布与本发明不同,则相应的的归一化尺度也需要调整。
S104,模型训练:本发明中所用的模型为双隐含层的全连接神经网络,网络架构参见图4,其输入层包含20个节点,对应20个归一化处理后的输入特征,两个隐含层分别包含10个节点,激活函数为relu,输出层包含4个节点,对应4个分类场景(语音、噪音、带噪语音、音乐),使用激活函数softmax将输出映射到0-1区间,概率值最大的节点对应的标签即为模型判定的场景分类结果。当然,网络模型架构可以更改甚至换用其他的分类器如SVM,随机森林等,在提取相同的特征前提下,选用不同的分类器进行训练,预测结果整体相差并不大。模型训练中选取训练集中的20%作为验证集,用以模型调参以及评估模型训练过程中是否发生过拟合需要提前停止训练,保留在验证集上预测准确度最高的模型作为优选模型,用于后面在测试集上的预测性能评估。
优选模型的预测性能评估:在测试集上使用优选模型进行预测,统计预测结果,作为对该模型预测性能的评估。S105,测试集的样本输入特征需要先根据上文所述的归一化尺度(MN和STD向量)进行归一化处理,本发明中具体的做法如下:
Norm_features=(features-MN)/STD,其中,features为原始提取的测试集样本MFCC特征向量,Norm_features为归一化处理后的特征向量。如果选用了其他归一化处理方式如min-max,则进行相应调整。
S106,模型的性能评估通过10次五折交叉验证的方法,在表1所述的较大数据集上,将数据集分成5份,轮流用其中4份做训练集剩余1份做测试集,记录在测试集上的识别结果,上述结果重复10次,取50个预测结果的均值作为对模型预测性能的评价,图6为模型在测试集上某次测试结果的混淆矩阵示例。统计模型的识别准确度,整体识别准确度(均值±标准差)为0.90±0.005,其中语音0.98±0.003,噪音0.92±0.008,音乐0.81±0.01,带噪语音0.88±0.02。可见,本发明的实现方案中,模型预测语音的准确度最高,其次是噪音,两者预测准确度都达到90%以上,然后是带噪语音,最后是音乐类。
参见图5,S20,DSP实现阶段包括以下步骤:
S201,DSP的场景预测系统实现:DSP中的实现以本发明的实现为例,采样频率为16kHz,帧长16ms,帧移16ms,梅尔滤波器个数设置为10个,每1s输出一次场景识别结果,具体包括以下步骤:
S2011,对每16ms的音频输入提取MFCC系数,输出特征向量大小为1*10,将结果放入特征矩阵F中;
S2012,重复S2011,将后续每16ms音频帧提取的MFCC系数值均放入F,直到F的大小为10*62;
S2013,对F中每个MFCC系数求均值和方差,输出MFCC样本特征向量,大小为1*20;
S2014,利用训练集中生成的归一化尺度,归一化S2013中的MFCC样本特征向量,清空特征矩阵F;
S2015,将S2014中归一化处理后的特征向量输入训练所得的优选模型,由模型进行场景类别判别.
S202,模型的预测推导过程包括:
隐含层1的输出:out1=relu(input*W1+B1);
隐含层2的输出:out2=relu(out1*W2+B2);
输出层:out3=softmax(out2*W3+B3);
分类判定:class=argmax(out3);
上述式子中,*代表对应元素相乘;W1,W2,W3表示各层权重;B1,B2,B3表示各层偏置;out1,out2,out3分别表示各层经激活函数作用后的输出;class为模型判定的场景分类结果;relu为线性整流函数,函数表达式为relu(zi)=max(0,zi);softmax为归一化指数函数,其表达式为
其中,C为场景分类类别数,i为第i个输出节点;argmax为求输入中最大值所在的下标位置;
再将S2015中的结果输入综合决策模块,结合历史模型历史判定结果和人工规则设定,获得最终的场景判定结果。
S203,综合决策:为减少频繁的场景切换给用户带来不良的听声体验,在模型预测后加入了一个场景综合决策模块,该模块存在是为了平滑模型的场景分类预测结果,可以有其他不同的实现方式。
本发明具体实现如下:
S2031,设置一个1*4的积分矩阵,初始化为0,分别代表每个场景分类(语音、带噪语音、噪音、音乐)的累积积分;
S2032,假定模型判别结果为噪音,则将噪音类的积分加1,其余类别的积分减去1(若当前模型预测分类结果跟前一个模型预测结果不同)或者2(若当前模型预测分类结果跟前一个模型预测结果相同),若某个分类积分超过15,则设置该类积分等于15,若某个分类积分小于0,则设置该类积分为0;
S2033,若积分矩阵中某个分类对应的积分值达到10,则综合决策后的输出结果即为该类;
S2034,为避免出现场景预测不稳定导致累积积分值达不到设定的阈值而长时间(超过15s)不出场景结果的情况,在实时场景识别系统开启后的15s后,若达不到场景判定的累积阈值,则使用最近10s中最频繁出现的场景作为结果输出。
本发明DSP场景分类系统的实时预测性能评估(实验环境示意见图7)将上述包括综合决策在内的整个分类方法在人工耳蜗体外言语处理器DSP上实现后,利用手机端app界面显示实时场景识别结果。为评估预测准确度和稳定性,我们随机挑选了一些不在训练库中的测试声音样本,拼接成5min一个文件,每个场景下测试文件为7-10个。用大音箱(Edifier R1600TIII)播放测试文件,用人工耳蜗麦克风接收音频(人工耳蜗距离大音箱0.5m),调节大音箱音量旋钮使得在人工耳蜗麦克风处的声压级达到75dB(播放白噪音情况下),人工记录整个文件测试过程中手机端每次场景变化时的音频播放时间以及切换到哪个场景。分析场景识别结果,统计每个文件的场景切换次数以及预测准确度,预测准确度以界面显示对应测试文件场景类型的时间占比来估算。结果显示各个场景下的识别准确度分别为语音0.99±0.04(n=9),噪音0.96±0.09(n=8),带噪语音0.94±0.12(n=8),纯音乐0.94±0.15(n=7),带人声音乐0.92±0.13(n=6)(图8,左);5min内的场景切换次数分别为语音1.1±0.3,噪音1.4±0.7,带噪语音1.3±0.5,纯音乐1.4±0.8,带人声音乐1.3±0.5(图8,右)。可见,本发明所述声音场景分类系统在实际应用中的场景识别准确度较高,同时场景切换也较为稳定。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (10)
1.一种低算力的人工耳蜗自动声音场景分类方法,其特征在于,包括以下步骤:
S10,模拟仿真;
S20,DSP实现;
其中,S10包括以下步骤:
S101,数据库构建,将网络下载、实地采集和后期合成的音频均处理为单声道16kHz采样率的.wav格式,每个样本裁切成1s的时长,将数据库中的样本至少分类为语音、噪音、带噪语音和音乐,将每个类别中80%作为训练集、20%作为测试集;
S102,样本MFCC特征向量提取;
S103,特征值归一化,将训练集所有样本的MFCC特征向量进行归一化处理,得到归一化的样本特征集,用于模型训练,同时,保存归一化的尺度,用于测试集样本特征向量的归一化;
S104,模型训练,所用的模型为双隐含层的全连接神经网络,选取训练集中的20%作为验证集,用以模型调参以及评估模型训练过程中是否发生过拟合需要提前停止训练,保留在验证集上预测准确度最高的模型作为优选模型,用于后面在测试集上的预测性能评估;
S105,在测试集上使用优选模型进行预测,统计预测结果,作为对该模型预测性能的评估;
S106,对模型的性能评估通过10次五折交叉验证;
S20包括以下步骤:
S201,DSP的场景预测实现,采样频率为16kHz,帧长16ms,帧移16ms,梅尔滤波器个数设置为10个,每1s输出一次场景识别结果;
S202,模型的预测与推导,包括隐含层1的输出:out1=relu(input*W1+B1);
隐含层2的输出:out2=relu(out1*W2+B2);
输出层:out3=softmax(out2*W3+B3);
分类判定:class=argmax(out3);
其中,*代表对应元素相乘;W1,W2,W3表示各层权重;B1,B2,B3表示各层偏置;out1,out2,out3分别表示各层经激活函数作用后的输出;class为模型判定的场景分类结果;relu为线性整流函数;softmax为归一化指数函数;
S203,综合决策并输出,平滑模型的场景分类预测结果。
2.根据权利要求1所述的低算力的人工耳蜗自动声音场景分类方法,其特征在于,所述S102,样本MFCC特征向量提取,具体包括以下步骤:
S1021,对样本信号进行预加重,补偿高频分量的损失,将时域信号通过一个一阶高通滤波器H(z)=1-μz-1,μ为0.9-1常数;
S1022,对信号进行分帧,由于语音信号为一准稳态信号,利用其短时不变性,将样本信号分成一帧一帧进行处理,;
S1023,对分帧后的信号加窗,即将每一帧信号与一个窗口函数如汉明窗或海宁窗相乘;
S1024,对加窗后的时域信号进行傅里叶变换,转换到频域,变换公式如下:
其中,x(n)为时域信号,X(k)为频域信号,n表示离散信号中的抽样点,N表示FFT点数;
S1025,计算频域信号的谱线能量,计算能量谱或幅度谱;
S1026,将谱线能量过梅尔三角滤波器组,获得过梅尔滤波器的能量输出,即相当于把每帧的能量谱E(i,k)与梅尔滤波器的频域响应函数Hm(k)进行对应相乘并相加,获得第m个滤波器的能量输出;
S1027,计算滤波器组每个滤波器输出能量的对数log[S(i,m)];
S1028,进行离散余弦变换求得每帧MFCC系数;
S1029,对样本所有帧的MFCC系数求均值和方差,获得样本的MFCC特征向量,用于模型的输入。
3.根据权利要求2所述的低算力的人工耳蜗自动声音场景分类方法,其特征在于,所述S1022中帧长设置为16ms,帧移设置为16ms,1s的样本分成62个帧进行处理。
4.根据权利要求2所述的低算力的人工耳蜗自动声音场景分类方法,其特征在于,所述S1025中采用能量谱计算,将离散傅里叶变换后的信号求模值再平方,获得能量谱|X(k)|2。
7.根据权利要求2所述的低算力的人工耳蜗自动声音场景分类方法,其特征在于,所述S1029,对样本所有帧的MFCC系数求均值和方差,获得样本的MFCC特征向量,用于模型的输入中,
Features=[m(1),std(1),m(2),std(2),…,m(i),std(i),…,m(10),std(10)],
其中,m(i)表示对样本所有帧的第i个MFCC系数求均值,std(i)表示对样本所有帧的第i个MFCC系数求标准差或平均绝对偏差。
8.根据权利要求1所述的低算力的人工耳蜗自动声音场景分类方法,其特征在于,所述S103中归一化采用min-max标准化或z-score标准化。
9.根据权利要求1所述的低算力的人工耳蜗自动声音场景分类方法,其特征在于,所述S201具体包括以下步骤:
S2011,对每16ms的音频输入提取MFCC系数,输出特征向量大小为1*10,将结果放入特征矩阵F中;
S2012,重复S2011,将后续每16ms音频帧提取的MFCC系数值均放入F,直到F的大小为10*62;
S2013,对F中每个MFCC系数求均值和方差,输出MFCC样本特征向量,大小为1*20;
S2014,利用训练集中生成的归一化尺度,归一化S2013中的MFCC样本特征向量,清空特征矩阵F;
S2015,将S2014中归一化处理后的特征向量输入训练所得的优选模型,由模型进行场景类别判别。
10.根据权利要求1所述的低算力的人工耳蜗自动声音场景分类方法,其特征在于,所述S203具体包括以下步骤:
S2031,设置一个1*4的积分矩阵,初始化为0,分别代表每个场景分类,即语音、噪音、带噪语音和音乐的累积积分;
S2032,假定模型判别结果为噪音,则将噪音类的积分加1,若当前模型预测分类结果跟前一个模型预测结果不同,其余类别的积分减去1;若当前模型预测分类结果跟前一个模型预测结果相同,则其余类别的积分减去2;若某个分类积分超过15,则设置该类积分等于15;若某个分类积分小于0,则设置该类积分为0;
S2033,若积分矩阵中某个分类对应的积分值达到10,则综合决策后的输出结果即为该类;
S2034,为避免出现场景预测不稳定导致累积积分值达不到设定的阈值而超过15s不出场景结果的情况,在开启后的15s后,若达不到场景判定的累积阈值,则使用最近10s中最频繁出现的场景作为结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664991.8A CN115223589A (zh) | 2022-06-13 | 2022-06-13 | 一种低算力的人工耳蜗自动声音场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664991.8A CN115223589A (zh) | 2022-06-13 | 2022-06-13 | 一种低算力的人工耳蜗自动声音场景分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115223589A true CN115223589A (zh) | 2022-10-21 |
Family
ID=83607178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210664991.8A Pending CN115223589A (zh) | 2022-06-13 | 2022-06-13 | 一种低算力的人工耳蜗自动声音场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115223589A (zh) |
-
2022
- 2022-06-13 CN CN202210664991.8A patent/CN115223589A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agrawal et al. | Novel TEO-based Gammatone features for environmental sound classification | |
Büchler et al. | Sound classification in hearing aids inspired by auditory scene analysis | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
US5715372A (en) | Method and apparatus for characterizing an input signal | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
CN115346561A (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
CN112863517B (zh) | 基于感知谱收敛率的语音识别方法 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
CN115223589A (zh) | 一种低算力的人工耳蜗自动声音场景分类方法 | |
Singh et al. | A novel algorithm using MFCC and ERB gammatone filters in speech recognition | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Flynn et al. | A comparative study of auditory-based front-ends for robust speech recognition using the Aurora 2 database | |
Donai et al. | Classification of indexical and segmental features of human speech using low-and high-frequency energy | |
Pohjalainen | Methods of automatic audio content classification | |
Gao et al. | DNN Speech Separation Algorithm Based on Improved Segmented Masking Target | |
Wu et al. | Robust underwater target recognition using auditory cepstral coefficients | |
Yang et al. | The research of voiceprint recognition based on genetic optimized RBF neural networks | |
Cohen | Forensic Applications of Automatic Speaker Verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |