CN112382301A - 基于轻量级神经网络的含噪语音性别识别方法及系统 - Google Patents
基于轻量级神经网络的含噪语音性别识别方法及系统 Download PDFInfo
- Publication number
- CN112382301A CN112382301A CN202110032437.3A CN202110032437A CN112382301A CN 112382301 A CN112382301 A CN 112382301A CN 202110032437 A CN202110032437 A CN 202110032437A CN 112382301 A CN112382301 A CN 112382301A
- Authority
- CN
- China
- Prior art keywords
- voice
- branch
- noise
- audio
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000009467 reduction Effects 0.000 claims abstract description 71
- 230000000694 effects Effects 0.000 claims abstract description 55
- 238000003062 neural network model Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 239000013598 vector Substances 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于轻量级神经网络的含噪语音性别识别方法及系统,包括基于纯净男女语音音频和纯噪声音频合成含噪语音;提取含噪语音的音频特征;音频特征仅包括多个BFCC特征以及部分BFCC特征的一阶时间导数和二阶时间导数,基音增益值,基频周期值,语音短时过零率;基于音频特征构建轻量级神经网络模型并进行训练;轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;基于轻量级神经网络模型进行含噪语音性别预测;该方法在延时30ms的时间范围内搭建了含有降噪分支和男女声分类分支的轻量级神经网络模型,具有高的准确率,适用于含有未知噪声的实际应用场景。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于轻量级神经网络的含噪语音性别识别方法及系统。
背景技术
好听的声音在日常沟通中会给倾听者莫名的感染力,曾任四届英国首相的格莱斯顿说:“声音是交流中最有力的乐器”,某些特殊职业和场合对声音的要求更高,比如主持、广播、直播和游戏语音聊天等,但并不是每个人都有好听的嗓音,所以需要进行男女声精细化调节。
男女声精细化调节的第一步是实现实时语音性别识别,这是一个经典的二分类问题,现有技术中对语音性别识别的方法分两种,一种是传统的机器学习方法,对语音进行特征提取实现数据降维,输入到高斯混合模型或者SVM模型中训练得到模型参数,传统机器学习方法模型小,但是其严重依赖于音频特征提取的准确性,在未知噪声的环境下,现有特征提取方法很难提取到期望的音频特征,比如音高pitch的提取,因此在噪声环境下,传统机器学习对男女声识别准确度并不高,在实际应用时通常会在性别分类前添加前置降噪算法,降噪通常会在音频质量和降噪幅度之间取舍,而且降噪后还是会有部分噪声保留下来,此外降噪算法也会引入延时,当降噪算法与性别分类算法串联连接时,其时延不低于二者的叠加;另一种是基于深度学习神经网络的方法,提取语音声学特征,搭建神经网络模型,再用softmax进行分类,相比于传统机器学习的方法,神经网络的方式能避免对输入模型的音频特征准确性的依赖,声学特征可以是高维的初级特征,在含有一定噪声的情况下得到更高的识别准确度,但是基于深度学习神经网络的方法由于输入网络的音频片段时长通常为1s~4s,这样虽然获得了高的准确性,但是牺牲了实时性,而且神经网络的输入通常是时频谱STFT或者MFCC等高维特征,存在网络训练参数多、模型大的问题,将其实际应用到嵌入式设备存在一定难度。
发明内容
针对上述问题,本发明的一个目的是提供一种基于轻量级神经网络的含噪语音性别识别方法,该方法充分挖掘语音特征提取、语音降噪和男女声分类之间的关系,构建了一个轻量级神经网络(555kb大小),适用于含有未知噪声的实际应用场景;该方法在延时30ms的时间范围内搭建了含有降噪分支和男女声分类分支的神经网络模型,并具有较高的准确率。
本发明的第二个目的是提供一种基于轻量级神经网络的含噪语音性别识别系统。
本发明所采用的第一个技术方案是:一种基于轻量级神经网络的含噪语音性别识别方法,包括以下步骤:
S100:基于纯净男女语音音频和纯噪声音频合成含噪语音;
S200:提取所述含噪语音的音频特征;所述音频特征仅包括:多个BFCC特征以及部分BFCC特征的一阶时间导数和二阶时间导数,基音增益值,基频周期值,语音短时过零率;
S300:基于所述音频特征构建轻量级神经网络模型并进行训练;所述轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;
S400:基于所述轻量级神经网络模型进行含噪语音性别预测。
优选地,所述步骤S200包括以下子步骤:
S210:基于FFT求得含噪语音的频谱;
S220:对所述频谱求BFCC得到多个BFCC特征,作为第一音频特征;分别计算所述BFCC特征的一阶时间导数和二阶时间导数,分别以所述一阶时间导数和二阶时间导数的前6个值作为第二音频特征;
S230:对频谱采用梳状滤波器滤除原始音频语音谐波之间的噪声,计算频带上基音相关度的DCT倒谱,取前6个系数代表基音增益值,作为第三音频特征;
S240:计算基频周期值和语音短时过零率,作为第四音频特征。
优选地,所述语音活度分支包括GRU层、第一层全连接层和第二层全连接层;
所述降噪分支包含第一层GRU、第二层GRU和全连接层;
所述性别分类分支包含GRU层和全连接层。
优选地,所述语音活度分支第一层全连接层的输入为含噪语音的音频特征,依次经过第一层全连接层、GRU层和第二层全连接层处理后输出语音活度值。
优选地,所述降噪分支第一层GRU的输入为所述语音活度分支第一层全连接层的输出和含噪语音的音频特征;
所述降噪分支第二层GRU的输入为所述降噪分支第一层GRU的输出、语音活度分支GRU层的输出和含噪语音的音频特征;
所述降噪分支全连接层的输入为所述降噪分支第二层GRU的输出。
优选地,所述性别分类分支GRU层的输入为所述语音活度分支GRU层的输出、降噪分支第二层GRU的输出和含噪语音的音频特征;
所述性别分类分支全连接层的输入为所述性别分类分支GRU层的输出。
优选地,所述性别分类分支的全连接层采用softmax激活函数,所述语音活度分支中的GRU层和全连接层、所述降噪分支中的GRU层和全连接层以及所述性别分类分支中的GRU层均采用ReLU激活函数。
优选地,所述步骤S400包括以下子步骤:
S410:采集音频信号;
S420:将所述音频信号输入训练好的轻量级神经网络模型进行性别预测。
优选地,所述步骤S400中还包括在性别预测后建立缓冲帧;具体为:
记录前M个历史帧的分类结果,当判别出的M+1帧的分类结果与前M个历史帧的分类结果不同时,先保持M+1帧的分类结果不变,如果M+2帧的分类结果与M+1帧的分类结果相同,则保持M+1帧和M+2帧的分类结果,如果M+2帧的分类结果与记录的前M个历史帧的分类结果相同,则将M+1帧的分类结果修改为前M个历史帧的分类结果。
本发明所采用的第二个技术方案是:一种基于轻量级神经网络的含噪语音性别识别系统,包括含噪语音合成模块、音频特征提取模块、轻量级神经网络模型构建及训练模块和性别预测模块;
所述含噪语音合成模块用于将纯净男女语音音频和纯噪声音频进行混合合成含噪语音;
所述音频特征提取模块用于提取所述含噪语音的音频特征;所述音频特征仅包括:多个BFCC特征以及部分BFCC特征的一阶导数和二阶导数,基音增益值,基频周期值,语音短时过零率;
所述轻量级神经网络模型构建及训练模块用于基于所述音频特征构建轻量级神经网络模型并进行训练;所述轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;
所述性别预测模块用于基于所述轻量级神经网络模型进行含噪语音性别预测。
上述技术方案有益效果:
(1)本发明充分挖掘语音特征提取、语音降噪和男女声分类之间的关系,构建了一个轻量级神经网络(555kb大小),适用于含有未知噪声的实际应用场景。
(2)本发明在延时30ms的时间范围内搭建了含有降噪分支和男女声分类分支的神经网络模型,时效性高并具有较高的准确率。
(3)本发明充分利用语音活度和男女声识别的共性,即降低音频特征中的噪声成分;将降噪网络中间层的输出作为性别分类的输入,同时为了避免在语音活度分支中丢失原始音频特征和男声女声相关的信息,也将原始音频特征同时作为输入,降低含噪语音特征提取不准确带来的负面影响,进而提高在噪声环境下男女声分类的准确性。
(4)本发明将语音活度、降噪、性别分类整合在同一个网络中,而不是传统的降噪和性别分类算法的串联,通过将语音活度、降噪、性别分类整合在同一个网络中可以简化算法,避免算法串联时时延的叠加。
(5)本发明采用神经网络做分类时,特征提取通常会选用mfcc、stft等包含详细频谱信息的高维矩阵,高位矩阵输入神经网络会使得网络训练参数数量指数上升;本发明在数据提取阶段仅提取了42维声学特征,神经网络的可训练参数量就大大减少,为了保证特征的准确性,一方面是在特征提取前使用梳状滤波器可以降低谐波间噪声,提高声学特征的可靠性,另一方面,通过语音活度分支和降噪分支的监督学习,原始42维特征在每层GRU网络变换后,和噪声相关的投影分量越来越小,网络中间层输出得到了包含更多纯净语音的特征向量,将这些特征向量再和原始42维特征组合作为性别分类分支的输入,准确度会高于传统的只将原始特征作为输入的网络模型;因此,本发明中使用的模型的小型化看似使用的音频特征少,实则是借助了语音活度分支和降噪分支网络中间层输出的包含更多纯净语音的特征向量作为男女声分类的输入特征,反而会提高分类的准确性。
(6)本发明使用的轻量级神经网络模型共计包含可训练参数11.8万,模型占用存储空间仅为555kb,方便在各种嵌入式设备上使用。
附图说明
图1为本发明一种基于轻量级神经网络的含噪语音性别识别方法的流程框图;
图2为本发明一种基于轻量级神经网络的含噪语音性别识别方法的流程示意图;
图3为本发明信噪比为0、10和20的音频对比示例的示意图;
图4为本发明轻量级神经网络模型的结构示意图;
图5为ReLU激活函数的图形表示;
图6为降噪模块和性别分类模块串联模式的延时示意图;
图7为降噪、性别分类一体模式的延时示意图;
图8为本发明一个实施例提供的平稳噪声下的性别识别处理结果示意图;
图9为本发明一个实施例提供的突发噪声下的性别识别处理结果示意图;
图10为本发明一种基于轻量级神经网络的含噪语音性别识别系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理,但不能用来限制本发明的范围,即本发明不限于所描述的优选实施例,本发明的范围由权利要求书限定。
在本发明的描述中,需要说明的是,除非另有说明,“多个”的含义是两个或两个以上;术语“上”“下”“内”“外”等指示的方位或位置关系仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。下述描述中出现的方位词均为图中示出的方向,并不是对本发明的具体结构进行限定。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应做广义理解,对于本领域的普通技术人员而言,可视具体情况理解上述术语在本发明中的具体含义。
实施例1
如图1和图2所示,本发明提供一种基于轻量级神经网络的含噪语音性别识别方法,该方法包括以下步骤:
S100:将纯净男女语音音频和纯噪声音频进行混合合成含噪语音。
S110:搜集纯净男女语音音频;使用TIMIT开源语料库和Librivox免费有声书音频预料库中的纯净男女语音数据,纯净男女语音样本数量1:1,采样率自定,只需待预测音频的采样率和此处训练样本采样率一致即可,例如采用样本均为16kHz的采样率(但并不限于此);
S120:完成纯净语音对应的语音活度标注和男女类别标注;由于是纯净语音,采用数据窗长为30ms语音有效值来判断是否为语音段,当语音窗有效值大于0.03时,判定为语音,语音活度标注方式是将非语音段标记为0,将语音段标记为1;男女类别标注是根据语料库对男女声的分类,将非语音标记为0,将语音中的男声标记为1,将语音中的女声标记为2;
S130:搜集纯噪声音频;纯噪声文件主要来源于Audioset中部分噪声数据,纯噪声文件包含平稳噪声和突发噪声等,纯噪声文件尽可能涵盖生活中可能遇到的所有噪声类型,例如机器运行声、敲击声、动物叫声等;
S140:合成含噪语音;将纯净男女语音音频和纯噪声音频按照不同的信噪比混合,信噪比通过以下公式得到:
SNR(dB)=10log10(Psignal/Pnoise)=20log10(Asignal/Anoise) (1)
式中,SNR(dB)为信噪比;Psignal和Pnoise分别表示纯净男女语音和纯噪声的有效功率;Asignal和Anoise分别表示纯净男女语音和纯噪声的有效幅值。
图3是信噪比SNR=0,SNR=10,SNR=20的音频示例;本发明采用的训练样本信噪比分布在0dB~20dB范围内。
S200:提取含噪语音的音频特征;音频特征仅包括:多个BFCC特征以及部分BFCC特征的一阶时间导数和二阶时间导数,基音增益值,基频周期值,语音短时过零率;
以16kHz的含噪语音为例,对30ms的含噪语音进行时域/频域的转换,在时域转换到频域之前要先做加窗处理,音频数据窗长为30ms,相邻两个窗口重叠率为50%,采用Vorbis窗函数进行加窗处理,Vorbis窗函数通过以下公式表达:
用快速傅立叶变换(FFT)求得音频频谱,对音频频谱求BFCC得到22维BFCC特征,即22个特征值;此外分别计算BFCC的一阶时间导数和二阶时间导数的前6个值,共计12个特征值;对频谱采用梳状滤波器滤除原始音频语音谐波之间的噪声,计算整个频带上基音相关度的DCT(离散预先变换)倒谱,取其前6个系数作为音频特征,即6个特征值,用于表示基音增益;基频周期值作为1个输入特征;语音的短时过零率作为1个输入特征;以上共计42个音频特征值作为神经网络的输入。
语音的短时过零率是统计语音信号在单位时间内通过0点的次数,语音信号波形主要是由基因周期决定的,所以短时过零率值较小,而噪声音频通常是杂乱无章的,如白噪声等,其短时过零率值较大。
本发明在数据提取阶段仅提取了42维声学特征,神经网络的可训练参数量相对较少,为了保证特征的准确性,在一些特征提取前使用梳状滤波器可以降低谐波间噪声,提高声学特征的可靠性。
S300:基于音频特征构建轻量级神经网络模型并进行训练;轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;
轻量级神经网络是指需要参数数量较少和计算代价较小的神经网络模型;常见的用STFT或MFCC等高维音频特征作为神经网络输入的模型而导致模型参数量太大(通常百万级甚至千万级以上参数量),本发明公开的神经网络输入是音频提取的42维声学特征,参数量共计11.8万,模型存储空间仅为555kb,属于网络参数较少的轻量级神经网络,实现通过轻量级神经网络对含噪语音进行实时分类。
如图4所示,轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;采用神经网络的方法将上述提取的音频特征作为输入进行监督学习(训练),设计神经网络内部包含降噪分支网络,将该降噪分支网络的中间输出层和含噪语音的音频特征结合作为性别分类分支网络的输入,这样首先用降噪网络对含噪语音的音频特征进行降噪修正,添加含噪语音的音频特征作为性别分类网络输入是为了防止降噪网络可能造成音频特征某些信息的丢失,最终实现用一个轻量级神经网络对含噪语音实时分类的效果;在同一个网络中实现语音的降噪和语音性别分类,且满足实时性要求。
(1)语音活度分支包括1个GRU层和两个全连接层;第一层全连接层包含N个神经元,GRU层包含N个神经元;语音活度分支输入的是含噪语音的音频特征(含噪语音提取的42维声学特征),音频特征依次经过第一层全连接层、GRU网络层和第二层全连接层后输出语音活度值,语音活度值的取值范围为[0~1];语音活度分支在整个轻量级神经网络模型中的作用是将该网络分支的第一层全连接层输出结果和GRU层输出结果分别传递给降噪分支和性别分类分支,作为它们的输入;
(2)降噪分支包含2个GRU层和一个全连接层;第一层GRU层包含2N个神经元,输入的是语音活度分支第一层全连接层网络输出和含噪语音的音频特征,第二层GRU包含4N个神经元,输入的是降噪分支第一层GRU网络输出、语音活度分支GRU层输出和含噪语音的音频特征;降噪分支的第二层GRU网络输出再通过一层全连接层后输出22个频段增益值,频段增益值通过以下公式得到:
式中,gk为频段增益值,k=1,2,3…,22;Ek,signal和Ek,noisy分别为第k个频段纯净语音信号和含噪语音的能量。
(3)性别分类分支包含一个GRU层和一个全连接层;GRU层包含2N个神经元,输入的是语音活度分支的GRU层输出的24维特征、降噪分支的第二层GRU网络输出的96维特征和含噪语音的42维音频特征,共计162维特征作为输入,性别分类分支的全连接层输出的分类结果为非语音、男声和女声三类。
本发明充分利用语音活度和男女声识别的共性,即降低音频特征中的噪声成分;将降噪分支网络中间层的输出作为性别分类的输入,同时为了避免在语音活度分支中丢失原始音频特征和男声女声相关的信息,也将原始音频特征同时作为输入,降低含噪语音特征提取不准确带来的负面影响,进而提高在噪声环境下男女声分类的准确性。
上述轻量级神经网络中,除了性别分类分支的全连接层使用softmax做激活函数外,其他网络(语音活度分支中的GRU层和全连接层、降噪分支中的GRU层和全连接层以及性别分类分支中的GRU层)均使用ReLU激活函数;softmax激活函数适用于多类别分类问题,且待测试样本只属于其中一类的情况,softmax激活函数通过以下公式表达:
softmax的作用就是将输入向量属于某个类别的评分值转化为概率值,概率最大的类别就判定为向量所属类别。
ReLU激活函数的图形见图5;ReLU激活函数通过以下公式表达:
式中,x为神经元的输出。
使用ReLU激活函数遵从仿生物学原理,能使得神经元具有技术激活特性,避免了梯度爆炸和梯度消失问题,让梯度下降以及反向传播更加高效。
本发明将语音活度、降噪、性别分类整合在同一个网络中,而不是传统的降噪和性别分类算法的串联,通过将语音活度、降噪、性别分类整合在同一个网络中可以简化算法,避免算法串联时时延的叠加,如图6和图7所示,串联模式的不仅使得男女声分类数据依赖于降噪的准确性,而且延时不低于降噪模块和男女声分类模块的总和t1+t2,而降噪分类一体化网络模型只有一次延时t,一次延时t远小于t1+t2的总和。
而且本发明采用神经网络做分类时,特征提取通常会选用mfcc、stft等包含详细频谱信息的高维矩阵,高位矩阵输入神经网络会使得网络训练参数数量指数上升;本发明在数据提取阶段仅提取了42维声学特征,神经网络的可训练参数量就大大减少,为了保证特征的准确性,一方面是在特征提取前使用梳状滤波器可以降低谐波间噪声,提高声学特征的可靠性,另一方面,通过语音活度分支和降噪分支的监督学习,原始42维特征在每层GRU网络变换后,和噪声相关的投影分量越来越小,网络中间层输出得到了包含更多纯净语音的特征向量,将这些特征向量再和原始42维特征组合作为性别分类分支的输入,准确度会高于传统的只将原始特征作为输入的网络模型;因此,本发明中使用的模型的小型化看似使用的音频特征少,实则是借助了语音活度分支和降噪分支网络中间层输出的包含更多纯净语音的特征向量作为男女声分类的输入特征,反而会提高分类的准确性。
本发明充分挖掘语音特征提取、语音降噪和男女声分类之间的关系,在延时30ms的时间范围内搭建了含有降噪分支和男女声分类分支的轻量级神经网络(555kb大小),适用于含有未知噪声的实际应用场景以及各种嵌入式设备上,并且具有较高的准确率。
S400:基于轻量级神经网络模型进行含噪语音性别预测。
S410:采集音频信号;
音频信号的采集是指利用拾音器对所需检测环境进行录音,拾音器例如为手机麦克风或者其他任何麦克风产品;此处音频采集设备的采样率与步骤S100中训练样本采样率一致;如果音频采集设备的采样率与训练样本采样率不一致,需要做采样率转换,否则测试结果错误。
S420:将音频信号输入训练好的轻量级神经网络模型进行性别预测;
训练好的轻量级神经网络模型中的语音活度分支输出的浮点型vad数据的范围是[0~1],vad值越接近于1,表示输入的音频片段属于语音的概率越大,反之属于非语音的概率更大,由于vad的取值分布在[0~1]连续区间,所以实际使用时需要根据经验设置阈值,根据经验阈值设为0.7,即vad>0.7时,判定此时是人声,vad<0.7时,判定此时是非人声;
训练好的轻量级神经网络模型中的降噪分支生成22个子带能量的增益是每个子带纯净语音能量和含噪语音能量的比值,将预测的22个增益作用于原音频片段,通过反向快速傅里叶变换(IFFT)生成降噪后的语音;
训练好的轻量级神经网络模型中的性别识别分支输出的为性别分类结果,其用一个整数标识,非人声为0,男声为1,女声为2。
进一步的,在一个实施例中,通过建立缓冲帧提高最终分类结果的准确度。
由于每个音频片段只有30ms,而噪声可能是任意未知噪声,在噪声样本不能全覆盖的情况下,可能会对某些噪声降噪不够,会被误识别为男声或者女声,但是经过反复验证,都是30ms或者60ms长的小片段可能发生误识别,因此使用基于规则的方法过滤掉,本发明中使用的是建立缓冲帧的方式,即记录前M个历史帧的分类结果,前M个历史帧的分类结果相同,当判别出的M+1帧的分类结果与前M个历史帧的分类结果不同时,先保持M+1帧的分类结果不变,如果M+2帧的分类结果与M+1帧的分类结果相同,则保持M+1帧和M+2帧的分类结果,如果M+2帧的分类结果与记录的前M个历史帧的分类结果相同,则将M+1帧的分类结果修改为前M个历史帧的分类结果;M值根据具体情况进行设定,例如M值可以设定为5,当分类类型突然变化时,先保持原分类结果不变,如果下一帧分类仍然与前一帧相同,那么改变分类类别,如果又回到记录的前5个历史帧的分类类别,则记录真实的分类结果;例如,前5个历史帧的分类类型为非人声,训练好的轻量级神经网络模型预测当前帧的分类类型为男声,就保持当前帧仍为非人声,下一帧的判断为男声,那么下一帧就是男声,如果下一帧预测分类为非人声,那就保持非人声;这种方法可以有效过滤可能会出现的某一帧的误判,提高最终分类结果的准确度。
下面结合具体场景分析本发明的实际效果:
(1)对于含有平稳噪声语音的处理效果
用男声音频和相对平稳的机器工作噪声以信噪比为0进行混合,混合后的音频处理结果见图8;机器的工作噪声同时包含了宽频噪声和窄带噪声,通过图8的含噪语音频谱图可以看出语音的pitch和共振峰被噪声淹没,很难提取出准确稳定的语音特征,而通过本发明的神经网络降噪,滤除了绝大多数噪声,并准确识别出说话人性别。
(2)对于含有突发型噪声语音的处理效果
使用普通耳机的麦克风实时录音,录制过程中通过敲击物体、击掌和剐蹭桌面等方式产生突发型噪声,同时伴有女声,从图9的含噪语音波形可以看出,不同突发型噪声的波形区别,其噪声幅值接近满幅值,如图9所示,通过本发明公开的轻量级神经网络输出的结果其性别分类正确且噪声部分被衰减到很小的幅值。
综上,本发明的公开的轻量级神经网络算法对含噪语音的性别(男女声)分类及音频降噪有良好的效果,并且满足实时性的要求。
实施例2
如图10所示,本发明提供一种基于轻量级神经网络的含噪语音性别识别系统,包括含噪语音合成模块、音频特征提取模块、轻量级神经网络模型构建及训练模块和性别预测模块;
含噪语音合成模块用于将纯净男女语音音频和纯噪声音频进行混合合成含噪语音;
音频特征提取模块用于提取所述含噪语音的音频特征;音频特征仅包括:多个BFCC特征以及部分BFCC特征的一阶导数和二阶导数,基音增益值,基频周期值,语音短时过零率;
轻量级神经网络模型构建及训练模块用于基于音频特征构建轻量级神经网络模型并进行训练;轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;
性别预测模块用于基于轻量级神经网络模型进行含噪语音性别预测。
该系统能实现针对不同性别人声的差异性调节,实现用两种不同的调音模式进行音频处理,比如分别将女声调节的更加甜美清澈,将男声调节的更加低沉浑厚;而目前市面上虽然有带有声音美化功能的麦克风、费用高昂的调音台以及种类繁多的声音美化软件,其音频处理通常分语音降噪和人声调优美化,人声的美化是提前预设音频处理模式,最常用的是添加混响、剪切人声频率范围外的高低频段等,但其存在不能针对不同性别人声的差异性调节,不能用两种不同的调音模式进行音频处理的问题。
虽然已经参考优选实施例对本发明进行了描述,但在不脱离本发明范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例,而是包括落入权利要求范围内的所有技术方案。
Claims (10)
1.一种基于轻量级神经网络的含噪语音性别识别方法,其特征在于,包括以下步骤:
S100:基于纯净男女语音音频和纯噪声音频合成含噪语音;
S200:提取所述含噪语音的音频特征;所述音频特征仅包括:多个BFCC特征以及部分BFCC特征的一阶时间导数和二阶时间导数,基音增益值,基频周期值,语音短时过零率;
S300:基于所述音频特征构建轻量级神经网络模型并进行训练;所述轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;
S400:基于所述轻量级神经网络模型进行含噪语音性别预测。
2.根据权利要求1所述的含噪语音性别识别方法,其特征在于,所述步骤S200包括以下子步骤:
S210:基于FFT求得含噪语音的频谱;
S220:对所述频谱求BFCC得到多个BFCC特征,作为第一音频特征;分别计算所述BFCC特征的一阶时间导数和二阶时间导数,分别以所述一阶时间导数和二阶时间导数的前6个值作为第二音频特征;
S230:对频谱采用梳状滤波器滤除原始音频语音谐波之间的噪声,计算频带上基音相关度的DCT倒谱,取前6个系数代表基音增益值,作为第三音频特征;
S240:计算基频周期值和语音短时过零率,作为第四音频特征。
3.根据权利要求1所述的含噪语音性别识别方法,其特征在于,
所述语音活度分支包括GRU层、第一层全连接层和第二层全连接层;
所述降噪分支包含第一层GRU、第二层GRU和全连接层;
所述性别分类分支包含GRU层和全连接层。
4.根据权利要求3所述的含噪语音性别识别方法,其特征在于,所述语音活度分支第一层全连接层的输入为含噪语音的音频特征,依次经过第一层全连接层、GRU层和第二层全连接层处理后输出语音活度值。
5.根据权利要求3所述的含噪语音性别识别方法,其特征在于,
所述降噪分支第一层GRU的输入为所述语音活度分支第一层全连接层的输出和含噪语音的音频特征;
所述降噪分支第二层GRU的输入为所述降噪分支第一层GRU的输出、语音活度分支GRU层的输出和含噪语音的音频特征;
所述降噪分支全连接层的输入为所述降噪分支第二层GRU的输出。
6.根据权利要求3所述的含噪语音性别识别方法,其特征在于,
所述性别分类分支GRU层的输入为所述语音活度分支GRU层的输出、降噪分支第二层GRU的输出和含噪语音的音频特征;
所述性别分类分支全连接层的输入为所述性别分类分支GRU层的输出。
7.根据权利要求3所述的含噪语音性别识别方法,其特征在于,所述性别分类分支的全连接层采用softmax激活函数,所述语音活度分支中的GRU层和全连接层、所述降噪分支中的GRU层和全连接层以及所述性别分类分支中的GRU层均采用ReLU激活函数。
8.根据权利要求1所述的含噪语音性别识别方法,其特征在于,所述步骤S400包括以下子步骤:
S410:采集音频信号;
S420:将所述音频信号输入训练好的轻量级神经网络模型进行性别预测。
9.根据权利要求8所述的含噪语音性别识别方法,其特征在于,所述步骤S400中还包括在性别预测后建立缓冲帧;具体为:
记录前M个历史帧的分类结果,当判别出的M+1帧的分类结果与前M个历史帧的分类结果不同时,先保持M+1帧的分类结果不变,如果M+2帧的分类结果与M+1帧的分类结果相同,则保持M+1帧和M+2帧的分类结果,如果M+2帧的分类结果与记录的前M个历史帧的分类结果相同,则将M+1帧的分类结果修改为前M个历史帧的分类结果。
10.一种基于轻量级神经网络的含噪语音性别识别系统,其特征在于,包括含噪语音合成模块、音频特征提取模块、轻量级神经网络模型构建及训练模块和性别预测模块;
所述含噪语音合成模块用于将纯净男女语音音频和纯噪声音频进行混合合成含噪语音;
所述音频特征提取模块用于提取所述含噪语音的音频特征;所述音频特征仅包括:多个BFCC特征以及部分BFCC特征的一阶导数和二阶导数,基音增益值,基频周期值,语音短时过零率;
所述轻量级神经网络模型构建及训练模块用于基于所述音频特征构建轻量级神经网络模型并进行训练;所述轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支;
所述性别预测模块用于基于所述轻量级神经网络模型进行含噪语音性别预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110032437.3A CN112382301B (zh) | 2021-01-12 | 2021-01-12 | 基于轻量级神经网络的含噪语音性别识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110032437.3A CN112382301B (zh) | 2021-01-12 | 2021-01-12 | 基于轻量级神经网络的含噪语音性别识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112382301A true CN112382301A (zh) | 2021-02-19 |
CN112382301B CN112382301B (zh) | 2021-05-14 |
Family
ID=74591061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110032437.3A Active CN112382301B (zh) | 2021-01-12 | 2021-01-12 | 基于轻量级神经网络的含噪语音性别识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112382301B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096679A (zh) * | 2021-04-02 | 2021-07-09 | 北京字节跳动网络技术有限公司 | 音频数据处理方法和装置 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
CN113259826A (zh) * | 2021-06-23 | 2021-08-13 | 央广新媒体文化传媒(北京)有限公司 | 在电子终端中实现助听的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070131095A1 (en) * | 2005-12-10 | 2007-06-14 | Samsung Electronics Co., Ltd. | Method of classifying music file and system therefor |
CN110428843A (zh) * | 2019-03-11 | 2019-11-08 | 杭州雄迈信息技术有限公司 | 一种语音性别识别深度学习方法 |
CN111261183A (zh) * | 2018-12-03 | 2020-06-09 | 珠海格力电器股份有限公司 | 一种语音去噪的方法及装置 |
CN111462755A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
CN111916060A (zh) * | 2020-08-12 | 2020-11-10 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
-
2021
- 2021-01-12 CN CN202110032437.3A patent/CN112382301B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070131095A1 (en) * | 2005-12-10 | 2007-06-14 | Samsung Electronics Co., Ltd. | Method of classifying music file and system therefor |
CN111261183A (zh) * | 2018-12-03 | 2020-06-09 | 珠海格力电器股份有限公司 | 一种语音去噪的方法及装置 |
CN110428843A (zh) * | 2019-03-11 | 2019-11-08 | 杭州雄迈信息技术有限公司 | 一种语音性别识别深度学习方法 |
CN111462755A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
CN111916060A (zh) * | 2020-08-12 | 2020-11-10 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096679A (zh) * | 2021-04-02 | 2021-07-09 | 北京字节跳动网络技术有限公司 | 音频数据处理方法和装置 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
CN113205803B (zh) * | 2021-04-22 | 2024-05-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
CN113259826A (zh) * | 2021-06-23 | 2021-08-13 | 央广新媒体文化传媒(北京)有限公司 | 在电子终端中实现助听的方法和装置 |
CN113259826B (zh) * | 2021-06-23 | 2021-10-01 | 央广新媒体文化传媒(北京)有限公司 | 在电子终端中实现助听的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112382301B (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
CN111223493B (zh) | 语音信号降噪处理方法、传声器和电子设备 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110120227B (zh) | 一种深度堆叠残差网络的语音分离方法 | |
Giri et al. | Improving speech recognition in reverberation using a room-aware deep neural network and multi-task learning | |
CN111128214B (zh) | 音频降噪方法、装置、电子设备及介质 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN110503976A (zh) | 音频分离方法、装置、电子设备及存储介质 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
CN107464563B (zh) | 一种语音交互玩具 | |
Parmar et al. | Effectiveness of cross-domain architectures for whisper-to-normal speech conversion | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
CN109300470A (zh) | 混音分离方法和混音分离装置 | |
Hagen | Robust speech recognition based on multi-stream processing | |
Gadasin et al. | Using Formants for Human Speech Recognition by Artificial Intelligence | |
Li et al. | Generative adversarial networks for single channel separation of convolutive mixed speech signals | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
Li et al. | An auditory system-based feature for robust speech recognition | |
Rodomagoulakis et al. | Improved frequency modulation features for multichannel distant speech recognition | |
Azam et al. | Urdu spoken digits recognition using classified MFCC and backpropgation neural network | |
Wang et al. | Speech enhancement based on noise classification and deep neural network | |
Wang et al. | An ideal Wiener filter correction-based cIRM speech enhancement method using deep neural networks with skip connections | |
Singh et al. | A novel algorithm using MFCC and ERB gammatone filters in speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |