CN110148420A - 一种适用于噪声环境下的语音识别方法 - Google Patents
一种适用于噪声环境下的语音识别方法 Download PDFInfo
- Publication number
- CN110148420A CN110148420A CN201910581762.8A CN201910581762A CN110148420A CN 110148420 A CN110148420 A CN 110148420A CN 201910581762 A CN201910581762 A CN 201910581762A CN 110148420 A CN110148420 A CN 110148420A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- noise
- spectrum
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000004044 response Effects 0.000 claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000002493 microarray Methods 0.000 claims description 12
- 238000005303 weighing Methods 0.000 claims description 9
- 238000006467 substitution reaction Methods 0.000 claims description 7
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000007630 basic procedure Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 239000011248 coating agent Substances 0.000 claims description 3
- 238000000576 coating method Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 241000209140 Triticum Species 0.000 claims 1
- 235000021307 Triticum Nutrition 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 claims 1
- 230000021615 conjugation Effects 0.000 claims 1
- 239000012467 final product Substances 0.000 claims 1
- 239000007787 solid Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种适用于噪声环境下的语音识别方法,该方法对经双微麦克风阵列采集的含噪语音信号构建综合了最小方差无畸变响应波束形成与对角加载的波束形成器,并利用递归矩阵求逆的方法减少计算复杂度,得到进行波束形成后初步去噪的语音信号;再后置调制域谱减法对初步去噪后的语音信号做进一步处理,去除残留的噪声并减少语音畸变,得到最终去噪处理后的语音信号;另外本发明方法采用卷积神经网络进行语音模型的训练,提取语音深层次的特征。该发明方法解决了噪声环境下语音识别率下降的问题,具有较好的稳健性,可应用在家居机器人,智能音箱以及噪声环境下工作的语音设备等方面。
Description
技术领域
本发明涉及语音识别技术领域,具体是一种适用于噪声环境下的语音识别方法。
背景技术
21世纪以来,我国的语音识别研究发展迅速,并涌现出相当一部分优秀企业,在一些领域达到了世界领先水平,并生产了市场占有率很高的产品,如科大讯飞公司的翻译机在出国旅游人群中得到了广泛的应用。目前,基于深度神经网络的声学模型已经显著提高了语音识别的性能,特别是在近场条件下。然而,在实际应用中,远场和混响语音识别仍然是一个具有挑战性的问题。
在实际应用环境中,稳健性语音识别是信号处理和语音识别领域人们共同关心的问题,这是一个最近几十年来最具有挑战性的任务之一。一个主要原因是目标语音混杂有各种背景噪音。语音信号处理方法能够从受到干扰的语音数据中提取所需的源信号,以此来提高语音识别的精度。为此,多通道技术由于其相比于单通道技术不仅在时频域而且还可以在空间域利用信息,因此得到广泛的应用。
多通道线性滤波,也称为波束形成器,已经得到了充分的研究,但在语音识别领域中得到广泛应用的方法还不是很多。有研究者在语音识别应用领域探索了更广泛的波束形成实现方法,例如,有研究使用基于时频掩蔽的波束形成方法应用到语音识别任务中,有效抑制了噪声干扰并提高了语音识别率。
发明内容
本发明的目的在于针对现有噪声环境下识别率急剧下降的问题,而提供一种适用于噪声环境下的语音识别方法,该方法能够有效去除实际环境下含噪语音信号中的噪声成分,通过采用卷积神经网络从原始语音数据中提取高维隐含的特征,有力地处理数据的可变性和丰富性,减少了神经网络训练的参数。
实现本发明目的的技术方案是:
一种适用于噪声环境下的语音识别方法,包括如下步骤:
1)双微麦克风阵列语音信号,并对采集的语音信号建立如下形式模型:
ym(t)=xm(t)+nm(t) m=1,2,...,M (1)
上述公式(1)中,M表示麦克风数量,xm(t)表示纯净语音信号,nm(t)表示加性的噪声和干扰信号,ym(t)表示含噪语音信号;
2)对步骤1)采集到的含噪语音信号进行傅里叶变换,得到频域,频域表达式为:
Y(l,k)=X(l,k)+N(l,k) (2)
上述公式(2)中,Y(l,k)是含噪语音信号频谱,X(l,k)是原始纯净语音信号频谱,N(l,k)是噪声信号频谱,l是时间索引,k是频率索引;
3)构建综合最小方差无畸变响应波束形成与对角加载的双微阵列语音波束形成器,并利用递归矩阵求逆的方法减少了原先大量矩阵求逆运算导致的计算复杂度,求得波束形成器的复数加权系数,将步骤2)中的麦克风阵列信号的矢量系数与波束形成器求得的复数加权系数相乘,得到麦克风阵列初步去噪的语音信号;
4)在构建的双微阵列语音波束形成器之后,后置调制域谱减法,对步骤3)得到的经麦克风阵列初步去噪的语音信号的目标声源方向进行处理,进一步去除噪声残留及语音畸变,提高语音的可懂度,得到最终去噪后的语音信号;
5)对步骤4)得到的最终去噪后的语音信号,提取梅尔频率倒谱系数及其一阶、二阶导数共39维,作为特征参数,并输入到通过卷积神经网络模型训练的语音识别系统中进行识别。
所述的步骤3),具体包括如下步骤:
3-1)最小方差无畸变响应(MVDR)满足以下约束优化问题:
上述公式(3)中,Rn是噪声协方差矩阵,w是波束形成器的加权系数,wH是加权系数的共轭转置,D(k)是期望语音信号导向矢量,采用Lagrange乘子法,定义函数:
上述公式(4)中,λ≥0,是Lagrange乘子,Rn是噪声协方差矩阵;
3-2)将3-1)中的函数对w求导,并令该导数为0,得到:
进行求解得到加权向量的值为:
3-3)将3-2)中求得的W代入步骤3-1)的约束条件中,求得:
上述公式(7)中,上式的D(k)表示期望信号导向矢量,DH(k)表示期望信号导向矢量的共轭转置,为噪声信号协方差矩阵的逆矩阵,进而可求出最优加权向量为
3-4)将步骤3-3)中的麦克风阵列信号的矢量系数与求得的最优加权向量WMVDR相乘,可得到麦克风阵列初步去噪的语音信号;
3-5)引入对角加载的方法,抑制步骤3-3)中的协方差矩阵Rn中小特征值扰动造成偏差的输出性能的影响:
上述公式(8)中,为对角加载后协方差矩阵,ε为对角加载量,Rn为进行对角加载前的噪声信号的协方差矩阵,I为单位矩阵,将协方差矩阵对角加载抑制非相关噪声,其中的协方差矩阵为:
得到对角加载后的权向量为:
3-6)为了减少MVDR波束形成器中的加权向量,通过对协方差矩阵进行求逆运算导致的计算复杂度较高的问题,采用递推算法,减少矩阵求逆运算量,假设在空域滤波结构中,噪声与语音信号相互独立,含噪语音信号的功率谱密度为Φy=E(YYH),且满足有Φy=Φx+Φn;
3-7)对功率谱密度在时间上求平均进行估计:
上述公式(11)中,Φn为噪声的功率谱密度,Φx+n为含噪语音的功率谱密度;αn和αx为一固定常数,通过以下步骤3-8)求得;
3-8)αn和αx表达式为:
对含噪语音端点检测,当检测到语音帧时μx=1,噪声帧时μx=0,其中
根据矩阵求逆引理,相关矩阵求逆运算后可表示为:
3-9)对步骤3-8)进一步简化,令最后递推得到MVDR波束形成器的加权向量为:
3-10)将求得的递归矩阵求逆的MVDR的权值矢量系数与含噪双微阵列语音信号的频谱相乘即得到进行波束形成去噪后的语音信号为:
经过上述步骤,可以得到麦克风阵列初步去噪的语音信号。
步骤3-6)中的递推算法,基本流程为:
3-6-1)计算初始噪声的相关矩阵即功率谱密度进行求逆运算,得到初始化权值;
3-6-2)开始对初始噪声段进行Woodbury更新;
3-6-3)进入语音段处理,前一帧的求逆相关矩阵替代当前帧的相关矩阵;
3-6-4)进入噪声段处理,对3-6-2)中的相关矩阵进行Woodbury更新;
3-6-5)递推完成整个信号长度的运算。
所述的步骤4),具体包括如下步骤:
4-1)对步骤3-10)求得的语音信号的频谱估计使用极坐标表示形式,表示为 表示语音幅度谱,表示语音相位谱,对再次进行傅里叶变换,从频域进入调制域,则的表达式为:
上述公式(16)、(17)中,l表示调制帧,u表示调制频率,表示调制域幅度谱,表示调制域相位谱,P(l,k,u)表示噪声调制谱,是调制域谱减法处理后估计的语音信号;
4-2)在调制域采用谱减法的方法,得到调制域幅度谱为:
上述公式(18)中,η是过减因子,λ是增益补偿因子,是估计的调制噪声谱,由下式得到:
上述公式(19)中,γ为平滑系数,将得到的语音调制域幅度谱,再结合含噪语音调制域相位谱进行傅里叶逆变换,得估计的最终纯净语音信号频域幅度谱为:
4-3)对步骤4-2)得到的语音幅度谱,再结合含噪语音的相位谱进行傅里叶逆变换即得到最终消噪后的信号为:
所述的步骤5),具体包括如下步骤:
5-1)采用的语音特征参数为13维的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)及其一阶差分、二阶差分共同组成39维的特征向量,然后拼接当前帧结合前后各5帧的共11帧参数,不足5帧的进行补零,组合好的MFCC参数特征共429维;
5-2)采用卷积神经网络进行语音模型的训练,卷积神经网络模型结构包含卷积层1、池化层1、卷积层2、池化层2、全连接层1、全连接层2;
5-3)步骤5-2)中卷积神经网络的参数设置为:
第一个卷积层采用5*5的卷积核采样窗口,步长为1,32个卷积核抽取特征,把输入和权值向量进行卷积,再加上偏置值,然后输入到激活函数为Leaky_relu函数的激活层;池化层采用2×2大小的最大池化,步长为2,提取对应窗口的最大值;第二个卷积层采用5*5的卷积核采样窗口,64个卷积核抽取特征,同样进行最大池化;最后把池化层2的输出扁平化为1维,有序连接成一个向量作为第一个全连接层的输入,同时,为了防止过拟合引入dropout机制,在不同的训练过程中随机丢弃一部分神经元,提升模型的泛化能力,全连接层的节点数为1024个节点,初始权值系数和偏置系数均采用截断正态分布随机数truncated_normal,该函数具有截断功能,可以生成相对比较温和的初始值,优化函数使用Adam,使用交叉熵损失函数,初始学习率为0.0001,语音标签信息采用one-hot编码,训练时一次取10条数据训练。
本发明提供的一种适用于噪声环境下的语音识别方法,在噪声环境下具有较强的稳健性,能够达到较好的去噪效果,对噪声环境下的语音识别率得到了明显的提升,相对于未经处理的含噪语音,经麦克风阵列算法处理后,在卷积神经网络模型上,语音识别率得到了明显的改善,说明本发明方法在语音识别系统前端使用双微阵列的结构进行消噪处理,来提高语音识别率的方法是切实可行的能够减少去噪过程中对目标语音产生的畸变,将其应用在语音识别系统的前端,能够对带噪语音信号进行前端处理,提高其在语音识别系统中的识别率。
附图说明
图1为本发明方法的语音识别流程图;
图2为本方法采用的双微阵列模型结构;
图3为对一段含噪声语音信号,噪声为Noise-92噪声库中的F16噪声,信噪比为0dB;
图4为实施例中的采用本发明方法对图3所示含噪语音进行实验得到的语音时域波形仿真图;
图5为本发明方法采用的卷积神经网络结构;
图6为在不同信噪比babble噪声环境下使用本发明方法后的语音识别准确率。
具体实施方式
下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。
实施例:
如图1所示,一种适用于噪声环境下的语音识别方法,包括如下步骤:
1)通过如图2所示的双微麦克风阵列模型采集语音信号,并对采集的语音信号建立如下形式模型:
ym(t)=xm(t)+nm(t) m=1,2,...,M (1)
上述公式(1)中,M表示麦克风数量,xm(t)表示纯净语音信号,nm(t)表示加性的噪声和干扰信号,ym(t)表示含噪语音信号;
2)对步骤1)采集到的含噪语音信号进行傅里叶变换,得到频域,频域表达式为:
Y(l,k)=X(l,k)+N(l,k) (2)
上述公式(2)中,Y(l,k)是含噪语音信号频谱,X(l,k)是原始纯净语音信号频谱,N(l,k)是噪声信号频谱,l是时间索引,k是频率索引;
3)构建综合最小方差无畸变响应波束形成与对角加载的双微阵列语音波束形成器,并利用递归矩阵求逆的方法减少了原先大量矩阵求逆运算导致的计算复杂度,求得波束形成器的复数加权系数,将步骤2)中的麦克风阵列信号的矢量系数与波束形成器求得的复数加权系数相乘,得到麦克风阵列初步去噪的语音信号;
4)在构建的双微阵列语音波束形成器之后,后置调制域谱减法,对步骤3)得到的经麦克风阵列初步去噪的语音信号的目标声源方向进行处理,进一步去除噪声残留及语音畸变,提高语音的可懂度,得到最终去噪后的语音信号;
5)对步骤4)得到的最终去噪后的语音信号,提取梅尔频率倒谱系数及其一阶、二阶导数共39维,作为特征参数,并输入到通过卷积神经网络模型训练的语音识别系统中进行识别。
所述的步骤3),具体包括如下步骤:
3-1)最小方差无畸变响应(MVDR)满足以下约束优化问题:
上述公式(3)中,Rn是噪声协方差矩阵,w是波束形成器的加权系数,wH是加权系数的共轭转置,D(k)是期望语音信号导向矢量,,采用Lagrange算子,定义函数:
上述公式(4)中,λ≥0,是Lagrange乘子,Rn是噪声协方差矩阵。
3-2)将3-1)中的函数对w求导,并令该导数为0,得到:
进行求解得到加权向量的值为:
3-3)将3-2)中求得的W代入步骤3-1)的约束条件中,求得:
上述公式(7)中,D(k)表示期望语音信号导向矢量,DH(k)表示期望语音信号导向矢量的共轭转置,为噪声信号协方差矩阵的逆矩阵,进而可求出最优加权向量为
3-4)将步骤3-3)中的麦克风阵列信号的矢量系数与求得的最优加权向量WMVDR相乘,可得到麦克风阵列初步去噪的语音信号;
3-5)引入对角加载的方法,抑制步骤3-3)中的协方差矩阵Rn中小特征值扰动造成偏差的输出性能的影响:
上述公式(8)中,为对角加载后协方差矩阵,ε为对角加载量,Rn为进行对角加载前的噪声信号的协方差矩阵,本实施例中ε取0.01,I为单位矩阵,将协方差矩阵对角加载抑制非相关噪声,其中的协方差矩阵为:
得到对角加载后的权向量为:
3-6)为了减少MVDR波束形成器中的加权向量,通过对协方差矩阵进行求逆运算导致的计算复杂度较高的问题,采用递推算法,减少矩阵求逆运算量,假设在空域滤波结构中,噪声与语音信号相互独立,含噪语音信号的功率谱密度为Φy=E(YYH),且满足有Φy=Φx+Φn;
步骤3-6)中的递推算法,基本流程为:
3-6-1)计算初始噪声的相关矩阵即功率谱密度进行求逆运算,得到初始化权值;
3-6-2)开始对初始噪声段进行Woodbury更新;
3-6-3)进入语音段处理,前一帧的求逆相关矩阵替代当前帧的相关矩阵;
3-6-4)进入噪声段处理,对3-6-2)中的相关矩阵进行Woodbury更新;
3-6-5)递推完成整个信号长度的运算。
3-7)对功率谱密度在时间上求平均进行估计:
上述公式(11)中,Φn为噪声的功率谱密度,Φx+n为含噪语音的功率谱密度;αn和αx为一固定常数,通过以下步骤3-8)求得;
3-8)αn和αx表达式为:
对含噪语音端点检测,当检测到语音帧时μx=1,噪声帧时μx=0;其中 本实施例中取固定常数0.95;
根据矩阵求逆引理,相关矩阵求逆运算后可表示为:
3-9)对步骤3-8)进一步简化,令最后递推得到MVDR波束形成器的加权向量为:
3-10)将求得的递归矩阵求逆的MVDR的权值矢量系数与含噪双微阵列语音信号的频谱相乘即得到进行波束形成去噪后的语音信号为:
经过上述步骤,可以得到麦克风阵列初步去噪的语音信号。
步骤3-6)中的递推算法,基本流程为:
3-6-1)计算初始噪声的相关矩阵即功率谱密度进行求逆运算,得到初始化权值;
3-6-2)开始对初始噪声段进行Woodbury更新;
3-6-3)进入语音段处理,前一帧的求逆相关矩阵替代当前帧的相关矩阵;
3-6-4)进入噪声段处理,对3-6-2)中的相关矩阵进行Woodbury更新;
3-6-5)递推完成整个信号长度的运算。
所述的步骤4),具体包括如下步骤:
4-1)对步骤3-10)求得的语音信号的频谱估计使用极坐标表示形式,表示为 表示语音幅度谱,表示语音相位谱,对再次进行傅里叶变换,从频域进入调制域,则的表达式为:
上述公式(16)、(17)中,l表示调制帧,u表示调制频率,表示调制域幅度谱,表示调制域相位谱,P(l,k,u)表示噪声调制谱,
是调制域谱减法处理后估计的语音信号;
4-2)在调制域采用谱减法的方法,得到调制域幅度谱为:
上述公式(18)中,η是过减因子,λ是增益补偿因子,是估计的调制噪声谱,由下式得到:
上述公式(19)中,γ为平滑系数,将得到的语音调制域幅度谱,再结合含噪语音调制域相位谱进行傅里叶逆变换,得估计的最终纯净语音信号频域幅度谱为:
4-3)对步骤4-2)得到的语音幅度谱,再结合含噪语音的相位谱进行傅里叶逆变换即得到最终消噪后的信号为:
为验证本实施例以上去噪方法的具体效果,如图3所示为一段含噪声语音信号,噪声为Noise噪声库中的F16噪声,信噪比为0dB;如图4所示,为采用本发明方法对含噪语音去噪后得到的语音时域波形仿真图;
所述的步骤5),具体包括如下步骤:
5-1)采用的语音特征参数为13维的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)及其一阶差分、二阶差分共同组成39维的特征向量,然后拼接当前帧结合前后各5帧的共11帧参数,不足5帧的进行补零,组合好的MFCC参数特征共429维;
5-2)采用卷积神经网络进行语音模型的训练,其中卷积层和池化层是其核心也是优势所在,相比其他神经网络的优势在于可以大大减少参数的数量,如图5所示,卷积神经网络模型结构包含卷积层1、池化层1、卷积层2、池化层2、全连接层1、全连接层2;
5-3)步骤5-2)中卷积神经网络的参数设置为:
第一个卷积层采用5*5的卷积核采样窗口,步长为1,32个卷积核抽取特征,把输入和权值向量进行卷积,再加上偏置值,然后输入到激活函数为Leaky_relu函数的激活层;池化层采用2×2大小的最大池化,步长为2,提取对应窗口的最大值;第二个卷积层采用5*5的卷积核采样窗口,64个卷积核抽取特征,同样进行最大池化;最后把池化层2的输出扁平化为1维,有序连接成一个向量作为第一个全连接层的输入,同时,为了防止过拟合引入dropout机制,在不同的训练过程中随机丢弃一部分神经元,提升模型的泛化能力,全连接层的节点数为1024个节点,初始权值系数和偏置系数均采用截断正态分布随机数truncated_normal,该函数具有截断功能,可以生成相对比较温和的初始值,优化函数使用Adam,使用交叉熵损失函数,初始学习率为0.0001,语音标签信息采用one-hot编码,训练时一次取10条数据训练。
为验证本发明方法的效果,采用双微阵列结构采集语音数据共1500条语音数据,利用本发明方法处理不同信噪比下的语音数据。图6所示为在babble噪声环境,信噪比分别为-5dB、0dB、5dB、10dB的语音经本发明方法处理后的语音识别率。可以看出采用本发明方法处理含噪语音后,babble噪声环境下的语音识别率相对于未做处理的噪声语音得到了较大提升。
Claims (5)
1.一种适用于噪声环境下的语音识别方法,其特征在于,包括如下步骤:
1)采集双微麦克风阵列语音信号,并对采集的语音信号建立如下形式模型:
ym(t)=xm(t)+nm(t) m= 1,2,...,M (1)
上述公式(1)中,M表示麦克风数量,xm(t)表示纯净语音信号,nm(t)表示加性的噪声和干扰信号,ym(t)表示含噪语音信号;
2)对步骤1)采集到的含噪语音信号进行傅里叶变换,得到频域,频域表达式为:
Y(l,k)=X(l,k)+N(l,k) (2)
上述公式(2)中,X(l,k)表示原始纯净语音信号频谱,N(l,k)表示噪声信号频谱,Y(l,k)表示含噪语音信号,l是时间索引,k是频率索引;
3)构建综合最小方差无畸变响应波束形成与对角加载的双微阵列语音波束形成器,并利用递归矩阵求逆的方法减少了原先大量矩阵求逆运算导致的计算复杂度,求得波束形成器的复数加权系数,将步骤2)中的麦克风阵列信号的矢量系数与波束形成器求得的复数加权系数相乘,得到麦克风阵列初步去噪的语音信号;
4)在构建的双微阵列语音波束形成器之后,后置调制域谱减法,对步骤3)得到的经麦克风阵列初步去噪的语音信号的目标声源方向进行处理,进一步去除噪声残留及语音畸变,提高语音的可懂度,得到最终去噪后的语音信号;
5)对步骤4)得到的最终去噪后的语音信号,提取梅尔频率倒谱系数及其一阶、二阶导数共39维,作为特征参数,并输入到通过卷积神经网络模型训练的语音识别系统中进行识别。
2.根据权利要求1所述的一种适用于噪声环境下语音识别方法,其特征在于,所述的步骤3),具体包括如下步骤:
3-1)最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)满足以下约束优化问题:
上述公式(3),Rn是噪声协方差矩阵,w是波束形成器的加权系数,wH是加权系数的共轭转置,D(k)是期望语音信号导向矢量,采用Lagrange乘子法,定义函数:
上述公式(4)中,λ≥0,是Lagrange乘子,Rn是噪声协方差矩阵;
3-2)将3-1)中的函数对w求导,并令该导数为0,得到:
进行求解得到加权向量的值为:
3-3)将3-2)中求得的W代入步骤3-1)的约束条件中,求得:
其中,上式的D(k)表示期望信号导向矢量,DH(k)表示期望信号导向矢量的共轭转置,为噪声信号协方差矩阵的逆矩阵,进而可求出最优加权向量为
3-4)将步骤3-3)中的麦克风阵列信号的矢量系数与求得的最优加权向量WMVDR相乘,可得到麦克风阵列初步去噪的语音信号;
3-5)引入对角加载的方法,抑制步骤3-3)中的协方差矩阵Rn中小特征值扰动造成偏差的输出性能的影响:
上述公式(8)中,为对角加载后噪声信号的协方差矩阵,ε为对角加载量,Rn为进行对角加载前的噪声信号的协方差矩阵,I为单位矩阵,将协方差矩阵进行对角加载抑制非相关噪声,其中的协方差矩阵为:
得到对角加载后的权向量为:
3-6)为了减少MVDR波束形成器中的加权向量,通过对协方差矩阵进行求逆运算导致的计算复杂度较高的问题,采用递推算法,减少矩阵求逆运算量,假设在空域滤波结构中,噪声与语音信号相互独立,含噪语音信号的功率谱密度为Φy=E(YYH),且满足有Φy=Φx+Φn;
3-7)对功率谱密度在时间上求平均进行估计:
上述公式(11)中,Φn为噪声的功率谱密度,Φx+n为含噪语音的功率谱密度;αn和αx为固定常数,通过以下步骤3-8)求得;
3-8)αn和αx表达式为:
对含噪语音端点检测,当检测到语音帧时μx=1,噪声帧时μx=0,其中 根据矩阵求逆引理,相关矩阵求逆运算后可表示为:
3-9)对步骤3-8)进一步简化,令最后递推得到MVDR波束形成器的加权向量为:
3-10)将求得的递归矩阵求逆的MVDR的权值矢量系数与含噪双微阵列语音信号的频谱相乘即得到进行波束形成去噪后的语音信号为:
经过上述步骤,可以得到麦克风阵列初步去噪的语音信号。
3.根据权利要求2所述的一种适用于噪声环境下语音识别方法,其特征在于,步骤3-6)中的递推算法,基本流程为:
3-6-1)计算初始噪声的相关矩阵即功率谱密度进行求逆运算,得到初始化权值;
3-6-2)开始对初始噪声段进行Woodbury更新;
3-6-3)进入语音段处理,前一帧的求逆相关矩阵替代当前帧的相关矩阵;
3-6-4)进入噪声段处理,对3-6-2)中的相关矩阵进行Woodbury更新;
3-6-5)递推完成整个信号长度的运算。
4.根据权利要求1所述的一种适用于噪声环境下语音识别方法,其特征在于,所述的步骤4),具体包括如下步骤:
4-1)对步骤3-10)求得的语音信号的频谱估计使用极坐标表示形式,表示为 表示语音幅度谱,表示语音相位谱,对再次进行傅里叶变换,从频域进入调制域,则的表达式为:
上述公式(16)、(17)中,l表示调制帧,u表示调制频率,表示调制域幅度谱,表示调制域相位谱,P(l,k,u)表示噪声调制谱,是调制域谱减法处理后估计的语音信号;
4-2)在调制域采用谱减法的方法,得到调制域幅度谱为:
上述公式(18)中,η是过减因子,λ是增益补偿因子,是估计的调制噪声谱,由下式得到:
上述公式(19)中,γ为平滑系数,将得到的语音调制域幅度谱,再结合含噪语音调制域相位谱进行傅里叶逆变换,得估计的最终纯净语音信号频域幅度谱为:
4-3)对步骤4-2)得到的语音幅度谱,再结合含噪语音的相位谱进行傅里叶逆变换即得到最终消噪后的信号为:
5.根据权利要求1所述的一种适用于噪声环境下语音识别方法,其特征在于,所述的步骤5),具体包括如下步骤:
5-1)采用的语音特征参数为13维的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)及其一阶差分、二阶差分共同组成39维的特征向量,然后拼接当前帧结合前后各5帧的共11帧参数,不足5帧的进行补零,组合好的MFCC参数特征共429维;
5-2)采用卷积神经网络进行语音模型的训练,卷积神经网络模型结构包含卷积层1、池化层1、卷积层2、池化层2、全连接层1、全连接层2;
5-3)步骤5-2)中卷积神经网络的参数设置为:
第一个卷积层采用5*5的卷积核采样窗口,步长为1,32个卷积核抽取特征,把输入和权值向量进行卷积,再加上偏置值,然后输入到激活函数为Leaky_relu函数的激活层;池化层采用2×2大小的最大池化,步长为2,提取对应窗口的最大值;第二个卷积层采用5*5的卷积核采样窗口,64个卷积核抽取特征,同样进行最大池化;最后把池化层2的输出扁平化为1维,有序连接成一个向量作为第一个全连接层的输入,同时,为了防止过拟合引入dropout机制,在不同的训练过程中随机丢弃一部分神经元,提升模型的泛化能力,全连接层的节点数为1024个节点,初始权值系数和偏置系数均采用截断正态分布随机数truncated_normal,该函数具有截断功能,可以生成相对比较温和的初始值,优化函数使用Adam,使用交叉熵损失函数,初始学习率为0.0001,语音标签信息采用one-hot编码,训练时一次取10条数据训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910581762.8A CN110148420A (zh) | 2019-06-30 | 2019-06-30 | 一种适用于噪声环境下的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910581762.8A CN110148420A (zh) | 2019-06-30 | 2019-06-30 | 一种适用于噪声环境下的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110148420A true CN110148420A (zh) | 2019-08-20 |
Family
ID=67596890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910581762.8A Pending CN110148420A (zh) | 2019-06-30 | 2019-06-30 | 一种适用于噪声环境下的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110148420A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110806640A (zh) * | 2019-10-28 | 2020-02-18 | 西北工业大学 | 光子集成视觉特征成像芯片 |
CN110931007A (zh) * | 2019-12-04 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN111696567A (zh) * | 2020-06-12 | 2020-09-22 | 苏州思必驰信息科技有限公司 | 用于远场通话的噪声估计方法及系统 |
CN111817767A (zh) * | 2020-06-30 | 2020-10-23 | 山西省信息产业技术研究院有限公司 | 一种基于动态优化策略的mvdr波束成形方法 |
CN111916060A (zh) * | 2020-08-12 | 2020-11-10 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
CN112086085A (zh) * | 2020-08-18 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音频信号的和声处理方法、装置、电子设备和存储介质 |
CN112259113A (zh) * | 2020-09-30 | 2021-01-22 | 清华大学苏州汽车研究院(相城) | 一种提高车内语音识别准确率的前处理系统及其控制方法 |
CN112447184A (zh) * | 2020-11-10 | 2021-03-05 | 北京小米松果电子有限公司 | 语音信号处理方法及装置、电子设备、存储介质 |
CN112533120A (zh) * | 2020-11-23 | 2021-03-19 | 北京声加科技有限公司 | 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置 |
CN112614500A (zh) * | 2019-09-18 | 2021-04-06 | 北京声智科技有限公司 | 回声消除方法、装置、设备及计算机存储介质 |
CN113077798A (zh) * | 2021-04-01 | 2021-07-06 | 山西云芯新一代信息技术研究院有限公司 | 一种居家老人呼救设备 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
CN113644947A (zh) * | 2021-10-14 | 2021-11-12 | 西南交通大学 | 一种自适应波束形成方法、装置、设备及可读存储介质 |
CN113689870A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
CN113689869A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN115622626A (zh) * | 2022-12-20 | 2023-01-17 | 山东省科学院激光研究所 | 一种分布式声波传感语音信息识别系统及方法 |
CN117392979A (zh) * | 2023-10-23 | 2024-01-12 | 深圳市茂捷智能科技有限公司 | 一种智慧语音led/lcd时钟及语音处理方法 |
CN118155608A (zh) * | 2024-05-11 | 2024-06-07 | 米烁网络科技(广州)有限公司 | 一种用于多噪音环境的微型麦克风语音识别系统 |
CN118314870A (zh) * | 2024-06-11 | 2024-07-09 | 山东鑫林纸制品有限公司 | 纸制品生产过程中的噪音控制系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106093920A (zh) * | 2016-07-09 | 2016-11-09 | 西北工业大学 | 一种基于对角加载的自适应波束形成算法 |
CN108597532A (zh) * | 2017-03-19 | 2018-09-28 | 临境声学科技江苏有限公司 | 基于mvdr的隐声方法 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
-
2019
- 2019-06-30 CN CN201910581762.8A patent/CN110148420A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106093920A (zh) * | 2016-07-09 | 2016-11-09 | 西北工业大学 | 一种基于对角加载的自适应波束形成算法 |
CN108597532A (zh) * | 2017-03-19 | 2018-09-28 | 临境声学科技江苏有限公司 | 基于mvdr的隐声方法 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
Non-Patent Citations (5)
Title |
---|
SALVATI, D: "Joint Identification and Localization of a Speaker in Adverse Conditions Using a Microphone Array", 《EUROPEAN SIGNAL PROCESSING CONFERENCE》 * |
徐望: "噪声环境下的语音识别特征提取算法研究", 《第一届建立和谐人机环境联合学术会议(HHME2005)论文集》 * |
施荣华: "一种基于对角载入的鲁棒MVDR波束形成算法", 《湖南大学学报(自然科学版)》 * |
毛维: "双微阵列语音增强算法在说话人识别中的应用", 《声学技术》 * |
王群: "低信噪比下语音端点检测算法的改进研究", 《科学技术与工程》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614500A (zh) * | 2019-09-18 | 2021-04-06 | 北京声智科技有限公司 | 回声消除方法、装置、设备及计算机存储介质 |
CN110806640A (zh) * | 2019-10-28 | 2020-02-18 | 西北工业大学 | 光子集成视觉特征成像芯片 |
CN110931007B (zh) * | 2019-12-04 | 2022-07-12 | 思必驰科技股份有限公司 | 语音识别方法及系统 |
CN110931007A (zh) * | 2019-12-04 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN111696567A (zh) * | 2020-06-12 | 2020-09-22 | 苏州思必驰信息科技有限公司 | 用于远场通话的噪声估计方法及系统 |
CN111696567B (zh) * | 2020-06-12 | 2022-04-01 | 思必驰科技股份有限公司 | 用于远场通话的噪声估计方法及系统 |
CN111817767A (zh) * | 2020-06-30 | 2020-10-23 | 山西省信息产业技术研究院有限公司 | 一种基于动态优化策略的mvdr波束成形方法 |
CN111817767B (zh) * | 2020-06-30 | 2022-07-26 | 山西省信息产业技术研究院有限公司 | 一种基于动态优化策略的mvdr波束成形方法 |
CN111916060A (zh) * | 2020-08-12 | 2020-11-10 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
CN111916060B (zh) * | 2020-08-12 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
CN112086085B (zh) * | 2020-08-18 | 2024-02-20 | 珠海市杰理科技股份有限公司 | 音频信号的和声处理方法、装置、电子设备和存储介质 |
CN112086085A (zh) * | 2020-08-18 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音频信号的和声处理方法、装置、电子设备和存储介质 |
CN112259113A (zh) * | 2020-09-30 | 2021-01-22 | 清华大学苏州汽车研究院(相城) | 一种提高车内语音识别准确率的前处理系统及其控制方法 |
CN112447184A (zh) * | 2020-11-10 | 2021-03-05 | 北京小米松果电子有限公司 | 语音信号处理方法及装置、电子设备、存储介质 |
CN112533120A (zh) * | 2020-11-23 | 2021-03-19 | 北京声加科技有限公司 | 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置 |
CN112533120B (zh) * | 2020-11-23 | 2022-04-22 | 北京声加科技有限公司 | 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN113077798A (zh) * | 2021-04-01 | 2021-07-06 | 山西云芯新一代信息技术研究院有限公司 | 一种居家老人呼救设备 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
CN113689869A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
CN113689870A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
CN113644947A (zh) * | 2021-10-14 | 2021-11-12 | 西南交通大学 | 一种自适应波束形成方法、装置、设备及可读存储介质 |
CN115622626A (zh) * | 2022-12-20 | 2023-01-17 | 山东省科学院激光研究所 | 一种分布式声波传感语音信息识别系统及方法 |
CN117392979A (zh) * | 2023-10-23 | 2024-01-12 | 深圳市茂捷智能科技有限公司 | 一种智慧语音led/lcd时钟及语音处理方法 |
CN117392979B (zh) * | 2023-10-23 | 2024-07-19 | 深圳市茂捷智能科技有限公司 | 一种智慧语音led/lcd时钟及语音处理方法 |
CN118155608A (zh) * | 2024-05-11 | 2024-06-07 | 米烁网络科技(广州)有限公司 | 一种用于多噪音环境的微型麦克风语音识别系统 |
CN118155608B (zh) * | 2024-05-11 | 2024-07-19 | 米烁网络科技(广州)有限公司 | 一种用于多噪音环境的微型麦克风语音识别系统 |
CN118314870A (zh) * | 2024-06-11 | 2024-07-09 | 山东鑫林纸制品有限公司 | 纸制品生产过程中的噪音控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN108831495B (zh) | 一种应用于噪声环境下语音识别的语音增强方法 | |
Kim et al. | SE-Conformer: Time-Domain Speech Enhancement Using Conformer. | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
DE112015004785B4 (de) | Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal | |
CN108682418B (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
CN107993670B (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
Drude et al. | Integrating Neural Network Based Beamforming and Weighted Prediction Error Dereverberation. | |
CN111653288A (zh) | 基于条件变分自编码器的目标人语音增强方法 | |
Zhao et al. | Late reverberation suppression using recurrent neural networks with long short-term memory | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN110534127A (zh) | 应用于室内环境中的麦克风阵列语音增强方法及装置 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN111816200B (zh) | 一种基于时频域二值掩膜的多通道语音增强方法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN112712818A (zh) | 语音增强方法、装置、设备 | |
Takeuchi et al. | Data-driven design of perfect reconstruction filterbank for DNN-based sound source enhancement | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190820 |
|
RJ01 | Rejection of invention patent application after publication |