CN107886967B - 一种深度双向门递归神经网络的骨导语音增强方法 - Google Patents
一种深度双向门递归神经网络的骨导语音增强方法 Download PDFInfo
- Publication number
- CN107886967B CN107886967B CN201711150864.1A CN201711150864A CN107886967B CN 107886967 B CN107886967 B CN 107886967B CN 201711150864 A CN201711150864 A CN 201711150864A CN 107886967 B CN107886967 B CN 107886967B
- Authority
- CN
- China
- Prior art keywords
- neural network
- bone conduction
- voice
- recurrent neural
- bidirectional gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000000988 bone and bone Anatomy 0.000 title claims abstract description 67
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 42
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims description 58
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000002708 enhancing effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 239000004568 cement Substances 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 239000004744 fabric Substances 0.000 claims 1
- 210000004218 nerve net Anatomy 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000013507 mapping Methods 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提出了一种深度双向门递归神经网络的骨导语音增强方法,利用双向门递归神经网络模型训练骨导到气导语音特征,并利用训练好的双向门递归神经网络模型增强骨导语音。本发明利用深度学习强大的非线性映射性能实现骨导语音特征到气导语音特征的转换,使用的门递归神经网络是长短时记忆递归神经网络的一种变形,可有效对语音的长时依赖进行建模,并且参数更少训练更快,同时本发明从两个方向上对语音特征的上下文进行建模,更能有效恢复骨导语音中缺失信息,并能够有效提升骨导语音的清晰度与可懂度,改善骨导语音质量,达到良好的增强效果。
Description
技术领域
本发明属于语音信号处理技术领域,特别是一种深度双向门递归神经网络的骨导语音增强方法。
背景技术
骨导(Bone Conduction,BC)麦克风是利用人体骨头或组织振动形成电信号的语音采集设备,此类麦克风可有效避免背景噪声干扰,具有很强抗噪性能,在军事和民事上均已得到应用。例如,飞行员利用喉头骨麦克风与地面人员通信,避免机舱内强噪声干扰;伐木工人利用头骨麦克风通信极大减少了大型作业工具的噪声。但是,由于人体信号传导的低通性以及振动信号的固有特点,骨导语音呈现高频部分缺失、中频部分厚重、气流音、鼻腔音缺失等现象,语音听起来沉闷、不清晰,严重影响了人们的听觉感受。骨导语音增强,就是利用技术手段提高骨导语音的可懂度与清晰度,从而提高语音质量。
目前,骨导语音的增强方法主要分为均衡法、频带扩展法、分析合成法三大类。均衡法(Shimamura T,Tamiya T.A reconstruction filter for bone-conducted speech[C],2005.Kondo K,Fujita T,Nakagawa K.On Equalization of Bone Conducted Speechfor Improved Speech Quality[C],2006.)通过寻找BC与AC(气导,Air Conduction)语音特征的比例系数即均衡系数实现BC语音增强。该方法在训练过程中使用成对的AC与BC特征计算均衡系数,实际使用时基于计算好的系数来均衡BC语音,特征通常为频谱幅度大小。该方法可增加BC语音的高频成分,语音清晰度有所提升,但是目前的均衡法均是假设特征线性相关,虽然算法复杂度低实现简便,但是并不能符合BC与AC语音特征实际的非线性相关关系,增强后存在语音不连续、失真感明显等问题。频带扩展法(Bouserhal R E,Falk T H,Voix J.In-ear microphone speech quality enhancement via adaptive filteringand artificial bandwidth extension.[J].Journal of the Acoustical Society ofAmerica.2017.)认为BC和AC语音信号在低频段(0~2kHz)具有很强相关性,可利用人工频谱扩展技术(Valin,J.M.and R.Lefebvre.Bandwidth extension of narrowband speechfor low bit-rate wideband coding.in Speech Coding[J],2000.Bernd,I.andS.Gerhard,Bandwidth Extension of Telephony Speech[J],2008.)直接将BC语音由低频段扩展到高频段(2~4kHz)从而达到增强的目的。这种扩频方法运算快易于硬件实现,但是该方法需要同时获得AC语音,并且BC与AC的低频段并非完全相同,在一定程度上影响了增强效果。分析合成法(PhungNghiaTrung,M.Unoki and M.Akagi,A Study on Restorationof Bone-Conducted Speech in Noisy Environments with LP-based Model andGaussian Mixture Model[J],2012.Turan,M.A.T.and E.Erzin,Source and FilterEstimation for Throat-Microphone Speech Enhancement[J],2016.Mohammadi,S.H.andA.Kain,An overview of voice conversion systems[J],2017.)将BC语音增强问题看成BC到AC特征的非线性转化问题。该方法首先使用语音分析合成模型,例如预测编码(LPC,Linear predictive coding)模型和STRAIGHT(Speech Transformation andRepresentation using Adaptive Interpolation of Weighted spectrum)模型,将成对的AC与BC语音信号分解,在训练阶段利用GMM或者简单神经网络映射LPC、LSF或者STRAIGHT谱等特征,得到BC到AC相关参数的映射模型,测试阶段通过转化BC相关参数实现增强。但是BC语音除了高频缺失外,AC语音的气流音、口腔音、鼻音等对应于BC语音无声段,目前所采用的GMM或者简单神经网络映射模型直接从BC语音无声段中恢复出正确的语音信息显得能力不足。
发明内容
本发明的目的在于提供一种深度双向门递归神经网络的骨导语音增强方法,该方法以数据为驱动,通过训练获取模型参数,再利用训练好的模型增强骨导语音,提升了骨导语音的可懂度及清晰度,改善了骨导语音质量。
实现本发明目的的技术解决方案为:一种基于深度双向门递归神经网络的骨导语音增强方法,包括如下步骤:
步骤一:提取气导和骨导语音特征,并对提取的语音特征进行数据预处理以符合神经网络的输入需求,然后进入步骤二进行训练;
步骤二:训练时,以骨导语音特征作为训练输入,以气导语音特征作为训练目标,采用时间反向传播算法训练深度双向门递归神经网络模型,并存储训练好的深度双向门递归神经网络模型;
步骤三:提取待增强的骨导语音特征,并根据步骤一所获得的语音特征数据统计特征进行数据归一化,然后进入步骤四进行骨导语音增强;
步骤四:增强时,利用步骤二训练好的双向门递归神经网络对步骤三提取的骨导语音特征进行增强,再对神经网络的输出进行反归一化和特征逆变换,最终得到增强后的骨导时域语音。
本发明与现有技术相比,其显著优点:将深度双向门递归神经网络应用到骨导语音增强任务中,以数据为驱动,通过训练得到网络模型参数,利用训练好的模型可有效提高骨导语音的可懂度与清晰度,即:(1)有效利用了深度门递归神经网络建模骨导语音到气导语音特征之间复杂的非线性关系,相比于传统的神经网络,门递归神经网络通过引入精心设计的控制变量,可有效学习序列长时依赖关系,并且相比于与其有相同功能的长短时记忆神经网络,参数更少更容易训。(2)将门递归神经网络从原来的单方向学习建模为从两个方向上共同学习,更为有效地学习了骨导语音上下文关系,有助于骨导语音中丢失信息的推断与恢复。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明一种深度双向门递归神经网络的骨导语音增强方法示意图。
图2(a)是训练阶段特征抽取过程示意图。
图2(b)是增强阶段特征抽取过程示意图。
图3是训练阶段数据预处理示意图。
图4是增强阶段数据反归一化以及逆变换处理示意图。
图5是门递归单元(GRU)示意图。
图6是双向递归神经网络(BRNN)的隐层处理过程示意图
图7是本发明骨导语音增强实例图。
具体实施方式
结合图1,本发明深度双向门递归神经网络的骨导语音增强方法共分为两个阶段,训练阶段和增强阶段,训练阶段包含步骤一、步骤二,增强阶段包含步骤三、步骤四。训练阶段和增强阶段语音数据不重复,即没有说话内容相同的语句。
第一个阶段,训练阶段:通过训练数据对神经网络模型进行训练。
步骤一:提取气导(AC,Air Conduction)和骨导(BC,Bone Conduction)语音特征,并对提取的语音特征进行数据预处理以符合神经网络的输入需求,然后进入步骤二进行训练,具体如下:
第一步,分别提取AC、BC语音的特征,如图2(a)所示,包括以下步骤:
①语音数据是由同一个人同时佩戴AC与BC麦克风设备录制的AC与BC语音对,AC语音可表示为A,BC语音可表示为B,利用短时傅里叶变换分别将AC与BC语音时域信号y(A)、y(B)分别变换到时频域,具体步骤为:
(1)对语音时域信号y(A)、y(B)分别进行分帧加窗处理,窗函数为汉明窗,帧长为N,N取为2的整数次幂,帧间移动长度为H;
(2)对分帧后的语音帧进行K点离散傅里叶变换,获得语音的时频谱YA(k,t)、YB(k,t),计算公式如下:
这里,k=0,1,…,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数,K=N,t=0,1,…,T-1表示帧序号,T为分帧的总帧数,h(n)为汉明窗函数;
②对频谱Y(k,t)取绝对值,计算得到幅度谱MA、MB,计算公式如下:
M(k,t)=|Y(k,t)|
③对幅度谱M(k,t)取以e为底的对数,得到对数幅度谱LA、LB,计算公式如下:
L(k,t)=ln M(k,t)
第二步,对获得的AC、BC语音对数幅度谱特征进行数据预处理,如图3所示,包括如下步骤:
①由于录制设备原因,AC、BC语音对具有相同的说话内容,但语音时长可能不一致,利用动态时间规整(Dynamic Time Warping,DTW)算法实现对数幅度谱LA、LB的对齐,具体操作是利用以欧式距离为度量的DTW算法,得到对齐后的对数幅度谱LQA和LQB;
②分析对齐后的对数幅度谱LQA、LQB,分别得到两者的均值和方差向量和然后分别归一化到均值0方差1,得到特征数据LQ'A、LQ'B。
计算公式如下:
步骤二:训练时,以骨导语音对齐后的对数幅度谱特征作为训练输入,以气导对齐后的对数幅度谱特征作为训练目标,采用时间反向传播算法(Back Propagation ThroughTime,BPTT)训练深度双向门递归神经网络模型,并存储训练好的深度双向门递归神经网络,神经网络结构以及训练如下:
①门递归神经网络(Gated Recurrent Networks)模型是长短时记忆(LongShort-Term Memory)模型的一种变形,通过引入了记忆单元和一些控制变量,能够对序列数据的长时依赖进行建模,并且参数更少,其组成部件门递归单元(Gated RecurrentUnit,GRU)如图5所示,可用以下式子表示:
这里,与分别表示前一时刻隐层信息与当前时刻隐层的候补信息(candidate information),z、r分别是更新门与重置门,用于更新和重置记忆单元信息,δ是隐层激活函数,x是输入向量,W是权重矩阵(例如Wxz表示输入层与更新门之间的连接权重),b是偏置值(例如br是重置门的偏置值),⊙表示矩阵点乘;
②通过双向递归神经网络模型(BRNNs,Bidirectional Recurrent NeuralNetworks)从两个方向共同学习骨导语音的上下文关系:双向递归神经网络模型相比于单向递归神经网络,双向递归网络可从两个方向上建模上下文关系,从而更有利于恢复骨导语音中缺失的信息,双向递归网络模型示意图如图6表示,可用以下式子表达:
BRNN每一层实际有两个分离的隐层,其从时间t=1到T计算前向隐层序列从时间t=T到1计算反向隐层序列yt是输出序列;
③深度双向门递归神经网络结构的设置:双向门递归神经网络结构的设置有n个隐层(例如n设为2-5),每个隐层神经元个数为m(例如m设为256-512),隐层神经元激活函数为tanh,输入、输出层为线性激活函数,设置的最大递归帧数是r帧(例如r设为20-40);
④深度双向门递归神经网络的训练:为提高模型的鲁棒性,将丢弃正则化(dropout regularization)技术应用于神经网络中除了输出层外的所有层,该技术是通过削减神经单元数,从而达到提高泛化能力的作用。设置丢弃比率为p(例如,0.1-0.5),丢弃正则化公式为:
其中,表示第l层的第j个神经元的存在概率,Bernoulli(p)指概率为p的伯努利分布,该分布是以概率p出现1,以概率1-p出现0,是第l层的第j个神经元的输出值,是乘以后的值,即该值等于或0,是网络权值,是偏置,f表示激活单元,是经过激活函数的神经元输出。
⑤深度双向门递归神经网络训练:c%(例如c为百分数,可以设为10-20)的训练数据作为验证集数据,训练损失目标函数是网络输出值与对应AC语音对数幅度谱的均方差,网络随机初始权值[-0.1,0.1],如具体采用的是随机梯度下降算法(Stochastic GradientDescent,SGD)的一种变形均方根传播算法(Root Mean Square Propagation,RMSProp),学习率初始值设为lr(例如lr设为0.01-0.05),当验证集损失函数值未下降时,学习率乘以因子ratio(例如ratio设为0.1-0.5),动量为momentum(例如momentum设为0.7-1.2),当验证集损失函数值连续i(例如i设为3-6)个训练回合未下降时停止训练,保存验证集的损失函数值最小的神经网络模型参数,记为S。
第二个阶段,增强阶段:利用训练好的双向门递归网络模型,对待增强的BC语音进行增强。
步骤三:提取待增强的骨导语音特征,并根据步骤一所获得的对齐后的对数幅度谱LQB的数据统计特征,包括均值和方差进行数据归一化,然后进入步骤四进行骨导语音增强:
第一步,对待增强BC语音数据BE,采用傅里叶变换将语音时域波形变换到时频域具体的傅里叶变换过程已在第一个阶段步骤一的第一步中叙述。提取待增强的BC语音特征的过程如图2(b)所示,相比于步骤一中的特征提取,该步骤多了相位提取步骤,即在得到时域语音频谱后,不仅需要计算幅度谱,还需要计算相位,根据时频谱计算得到其幅度谱和相位计算公式为:
第二步,根据幅度谱计算得到对数幅度谱计算过程已在第一阶段步骤一的第一步中叙述。根据训练阶段得到的BC语音对数幅度谱的均值和方差对计算得到的对数幅度谱进行归一化,,计算公式如下:
步骤四:增强时,利用步骤二训练好的双向门递归神经网络对步骤三提取的骨导语音特征进行转化,再对神经网络的输出进行反归一化和特征逆变换,最终得到增强后的骨导时域语音。
第一步,将归一化后的输入到训练好的双向门递归神经网络模型S中,计算得到网络输出,即增强后的特征
第二步,将增强后的特征进行反归一化以及逆变换,最终得到增强后的骨导时域语音,其过程如图4所示,包括步骤如下:
①根据训练阶段AC语音对数幅度谱的均值和方差将双向门递归神经网络得到的输出进行反归一化,得到对数幅度谱计算公式如下:
②将对数幅度谱进行指数运算,得到幅度谱计算公式如下:
③利用幅度谱以及相位信息计算得到时频谱计算公式如下:
④利用傅里叶逆变换以及语音分帧后去重叠加公式,将频谱转化到时域,最终得到增强后的骨导时域语音y(BE)。
实施例
图7为本发明较佳的实施例图,实例语音长度约为4s,语音采样频率为8kHz,设置语音帧长32ms,帧移10ms,对每帧进行离散傅里叶变换,频点数K=256,得到的对数幅度谱维度是129维。图7(a)为骨导语句的时频谱图,(b)为对应的气导语句时频谱图,(c)为增强后的骨导语句时频谱图。可明显看出,增强后骨导语音的高频信号和缺失的气音、摩擦音等信号均得到了恢复,并且计算得出PESQ值由1.5560提升到2.3075,提升了0.7515,STOI由0.5259提升到0.7281,提升了0.2022,同时主观测试试听结果表明本发明能够取得良好的骨导语音增强效果。
Claims (8)
1.一种深度双向门递归神经网络的骨导语音增强方法,其特征在于如下步骤:
步骤一:提取气导AC和骨导BC语音特征,并对提取的语音特征进行数据预处理以符合神经网络的输入需求,然后进入步骤二进行训练;
步骤二:训练时,以骨导语音特征作为训练输入,以气导语音特征作为训练目标,采用时间反向传播算法训练深度双向门递归神经网络模型,并存储训练好的深度双向门递归神经网络模型;
步骤三:提取待增强的骨导语音特征,并根据步骤一所获得的语音特征数据统计特征进行数据归一化,然后进入步骤四进行骨导语音增强;
步骤四:增强时,利用步骤二训练好的双向门递归神经网络对步骤三提取的骨导语音特征进行增强,再对神经网络的输出进行反归一化和特征逆变换,最终得到增强后的骨导时域语音;
所述步骤一的语音特征提取过程:
①语音数据是由同一个人同时佩戴AC与BC麦克风设备录制的AC与BC语音数据对,AC语音可表示为A,BC语音可表示为B,利用短时傅里叶变换将AC与BC语音时域信号y(A)、y(B)分别变换到时频域,具体步骤为:
(1)对语音时域信号y(A)、y(B)分别进行分帧加窗处理,窗函数为汉明窗,帧长为N,N取为2的整数次幂,帧间移动长度为H;
(2)对分帧后的语音帧进行K点离散傅里叶变换,获得语音的时频谱YA(k,t)、YB(k,t),具体计算公式如下:
这里,k=0,1,···,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数,K=N,t=0,1,···,T-1表示帧序号,T为分帧的总帧数,h(n)为汉明窗函数;
②对频谱Y(k,t)取绝对值,计算得到幅度谱MA、MB,计算公式如下:
M(k,t)=|Y(k,t)|
③对幅度谱M(k,t)取以e为底的对数,得到对数幅度谱LA、LB,计算公式如 下:
L(k,t)=lnM(k,t)
所述步骤四中利用训练好的神经网络模型实现BC语音特征增强,将归一化后的数据作为输入特征送入网络中,计算得到网络输出,即增强后的特征
所述数据反归一化以及逆变换过程,最终得到增强后的骨导时域语音的步骤如下:
①根据训练阶段AC语音对数幅度谱的均值和方差将双向门递归神经网络得到的输出进行反归一化,得到对数幅度谱计算公式如下:
②将对数幅度谱进行指数运算,得到幅度谱计算公式如下:
③利用幅度谱以及相位信息计算得到时频谱计算公式如下:
④利用傅里叶逆变换以及语音分帧后去重叠加公式,将频谱转化到时域,最终得到增强后的时域语音y(BE)。
2.根据权利要求1所述的深度双向门递归神经网络的骨导语音增强方法,其特征在于步骤一的数据预处理过程:
①由于录制设备原因,AC、BC语音数据对具有相同的说话内容,但语音时长可能不一致,利用动态时间规整DTW算法实现对数幅度谱LA、LB的对齐,具体操作是利用以欧式距离为度量的DTW算法,得到对齐后的对数幅度谱LQA和LQB;
②分析对齐后的对数幅度谱LQA、LQB,分别得到两者的数据统计特征,包括均值和方差和然后分别归一化到均值0方差1,得到 特征数据LQ'A、LQ'B,计算公式如下:
。
3.根据权利要求1所述的深度双向门递归神经网络的骨导语音增强方法,其特征在于步骤二的门递归神经网络模型是长短时记忆模型的一种变形,通过引入了记忆单元和一些控制变量,能够对序列数据的长时依赖进行建模,并且参数更少,其组成部件门递归单元GRU可用以下式子表示:
这里与分别表示前一时刻隐层信息与当前时刻隐层的候补信息,z、r分别是更新门与重置门,用于更新和重置记忆单元信息,δ是隐层激活函数,x是输入向量,W是权重矩阵,b是偏置值,⊙表示矩阵点乘。
4.根据权利要求1所述的深度双向门递归神经网络的骨导语音增强方法,其特征在于步骤二使用的是双向递归神经网络模型BRNN从两个方向上建模上下文关系,可用以下式子表示:
BRNN每一层实际有两个分离的隐层,其从时间t=1到T计算前向隐层序列 从时间t=T到1计算反向隐层序列yt是输出序列。
5.根据权利要求1所述的深度双向门递归神经网络的骨导语音增强方法,其特征在于步骤二的深度双向门递归神经网络结构的设置:设置的双向门递归神经网络结构的设置有n个隐层,每个隐层神经元个数为m,隐层神经元激活函数 为tanh,输入、输出层为线性激活函数,设置的最大递归帧数是r帧。
6.根据权利要求1所述的深度双向门递归神经网络的骨导语音增强方法,其特征在于步骤二中深度双向门递归神经网络的训练:将丢弃正则化技术应用于神经网络中除了输出层外的所有层,设置丢弃比率为p,丢弃正则化公式为:
其中,表示第l层的第j个神经元的存在概率,Bernoulli(p)指概率为p的伯努利分布,该分布是以概率p出现1,以概率1-p出现0,是第l层的第j个神经元的输出值,是乘以后的值,即该值等于或0,是网络权值,是偏置,f表示激活单元,是经过激活函数的神经元输出。
7.根据权利要求1所述的深度双向门递归神经网络的骨导语音增强方法,其特征在于步骤二的深度双向门递归神经网络训练:c%的训练数据作为验证集数据,训练损失目标函数是网络输出值与对应AC语音对数幅度谱的均方差,网络随机初始权值[-0.1,0.1],如具体采用的是随机梯度下降算法SGD的一种改进算法均方根传播算法RMSProp,学习率初始值设为lr,当验证集损失函数值未下降时,学习率乘以因子ratio,动量为momentum,当验证集损失函数值连续i个训练回合未下降时停止训练,保存验证集的损失函数值最小的神经网络参数,记为S。
8.根据权利要求1所述的深度双向门递归神经网络的骨导语音增强方法,其特征在于步骤三中待增强的骨导语音特征提取的过程:
①对待增强BC语音数据BE,采用傅里叶变换将语音时域波形变换到时频域
②根据时频谱计算得到其幅度谱和相位计算公式如下
③根据幅度谱计算得到对数幅度谱
④根据训练阶段得到的BC语音对数幅度谱的均值和方差将对数幅度谱归一化,计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711150864.1A CN107886967B (zh) | 2017-11-18 | 2017-11-18 | 一种深度双向门递归神经网络的骨导语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711150864.1A CN107886967B (zh) | 2017-11-18 | 2017-11-18 | 一种深度双向门递归神经网络的骨导语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107886967A CN107886967A (zh) | 2018-04-06 |
CN107886967B true CN107886967B (zh) | 2018-11-13 |
Family
ID=61777455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711150864.1A Active CN107886967B (zh) | 2017-11-18 | 2017-11-18 | 一种深度双向门递归神经网络的骨导语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886967B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596330B (zh) * | 2018-05-16 | 2022-03-15 | 中国人民解放军陆军工程大学 | 一种并行特征全卷积神经网络装置及其构建方法 |
CN113450811B (zh) * | 2018-06-05 | 2024-02-06 | 安克创新科技股份有限公司 | 对音乐进行通透处理的方法及设备 |
CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
CN108986834B (zh) * | 2018-08-22 | 2023-04-07 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110164465B (zh) * | 2019-05-15 | 2021-06-29 | 上海大学 | 一种基于深层循环神经网络的语音增强方法及装置 |
CN110147788B (zh) * | 2019-05-27 | 2021-09-21 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110648684B (zh) * | 2019-07-02 | 2022-02-18 | 中国人民解放军陆军工程大学 | 一种基于WaveNet的骨导语音增强波形生成方法 |
CN110390945B (zh) * | 2019-07-25 | 2021-09-21 | 华南理工大学 | 一种双传感器语音增强方法及实现装置 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
CN111901267B (zh) * | 2020-07-27 | 2021-07-02 | 重庆大学 | 基于短时傅里叶变换时频分析的多天线盲调制识别方法 |
CN112599145A (zh) * | 2020-12-07 | 2021-04-02 | 天津大学 | 基于生成对抗网络的骨传导语音增强方法 |
CN112767963B (zh) * | 2021-01-28 | 2022-11-25 | 歌尔科技有限公司 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
CN113687719A (zh) * | 2021-08-23 | 2021-11-23 | 广东电网有限责任公司 | 一种适用于语音信息的智能交互方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2974655B1 (fr) * | 2011-04-26 | 2013-12-20 | Parrot | Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres". |
CN103531205B (zh) * | 2013-10-09 | 2016-08-31 | 常州工学院 | 基于深层神经网络特征映射的非对称语音转换方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105023580B (zh) * | 2015-06-25 | 2018-11-13 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
CN110070880B (zh) * | 2016-01-14 | 2023-07-28 | 深圳市韶音科技有限公司 | 用于分类的联合统计模型的建立方法及应用方法 |
CN106128455A (zh) * | 2016-08-31 | 2016-11-16 | 上海鹰觉科技有限公司 | 基于骨传导高噪声环境下的语音识别系统 |
-
2017
- 2017-11-18 CN CN201711150864.1A patent/CN107886967B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107886967A (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107886967B (zh) | 一种深度双向门递归神经网络的骨导语音增强方法 | |
CN108986834B (zh) | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 | |
Soni et al. | Time-frequency masking-based speech enhancement using generative adversarial network | |
Wang et al. | On training targets for supervised speech separation | |
Lu et al. | Estimators of the magnitude-squared spectrum and methods for incorporating SNR uncertainty | |
CN106816158B (zh) | 一种语音质量评估方法、装置及设备 | |
CN105741849A (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
Lavrynenko et al. | Method of voice control functions of the UAV | |
Shah et al. | Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion | |
Jia et al. | Combining adaptive sparse NMF feature extraction and soft mask to optimize DNN for speech enhancement | |
Yang et al. | RS-CAE-based AR-Wiener filtering and harmonic recovery for speech enhancement | |
Gandhiraj et al. | Auditory-based wavelet packet filterbank for speech recognition using neural network | |
CN109215635A (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
Zheng et al. | Throat microphone speech enhancement via progressive learning of spectral mapping based on lstm-rnn | |
Sivapatham et al. | Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions | |
Shi et al. | Auditory mask estimation by RPCA for monaural speech enhancement | |
Shi et al. | Deep neural network based monaural speech enhancement with sparse and low-rank decomposition | |
Tanaka et al. | An inter-speaker evaluation through simulation of electrolarynx control based on statistical F 0 prediction | |
Shareef et al. | Comparison between features extraction techniques for impairments arabic speech | |
Han et al. | Perceptual improvement of deep neural networks for monaural speech enhancement | |
Ram et al. | The Use of Deep Learning in Speech Enhancement. | |
Zhang et al. | A speech recognition method of isolated words based on modified LPC cepstrum | |
Thomsen et al. | Speech enhancement and noise-robust automatic speech recognition | |
He et al. | Multiplicative update of AR gains in codebook-driven speech enhancement | |
Wang et al. | Noisy speech enhancement based on long term harmonic model to improve speech intelligibility for hearing impaired listeners |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |