CN114078481A - 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 - Google Patents
基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 Download PDFInfo
- Publication number
- CN114078481A CN114078481A CN202010840475.7A CN202010840475A CN114078481A CN 114078481 A CN114078481 A CN 114078481A CN 202010840475 A CN202010840475 A CN 202010840475A CN 114078481 A CN114078481 A CN 114078481A
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- mask
- time
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 67
- 230000000873 masking effect Effects 0.000 title claims abstract description 34
- 230000003044 adaptive effect Effects 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 44
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 230000002401 inhibitory effect Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 29
- 230000000694 effects Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 6
- 206010011878 Deafness Diseases 0.000 description 5
- 230000010370 hearing loss Effects 0.000 description 5
- 231100000888 hearing loss Toxicity 0.000 description 5
- 208000016354 hearing loss disease Diseases 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 244000186140 Asperula odorata Species 0.000 description 1
- 235000008526 Galium odoratum Nutrition 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 235000008790 seltzer Nutrition 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及助听语音增强技术领域,具体涉及一种基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备,其方法包括在噪声和混响条件下使用两个麦克风接收语音信号,将接收到的每路麦克风信号通过训练好的单通道神经网络进行初步语音增强,去除与目标语音同方向的噪声;与盲目依靠信号能量的传统定位不同,自适应比率掩模提供了目标信号的视图,能精确识别每个麦克风通道上的语音主导时频单元,将时频单元用于声源定位,在噪声和混响条件下保证获得较高的定位精度;通过计算的权重输入WPD波束形成器去除与目标语音不同方向的带噪语音并抑制房间混响,得到语音质量好,可懂度高的增强语音。
Description
技术领域
本发明涉及助听语音增强技术领域,具体涉及一种基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备。
背景技术
听力损失患者由于听觉器官受损,其言语辨识能力下降,使得他们在噪声环境中的语音理解力远低于听力正常者。听力丧失会给生活造成极大的不便。根据国家健康调查显示,随着人们更多的接触便携音乐播放器,暂时性和永久性的听力损失现象变得年轻化。佩戴助听器是解决听力损失问题最安全、最有效的方式之一,对于改善听力有损人群的听力方面具有不能取代的作用。噪声环境中听力损失患者的语音理解度是影响助听器使用的关键因素之一,因此语音增强技术是助听器中的一种核心技术,它能有效消除背景噪声,改善语音质量,从而提高患者在噪声环境中的语音理解度。
常见的助听器语音增强算法,根据接收端麦克风数量的不同,可以划分为单通道语音增强和麦克风阵列语音增强两类。单通道语音增强包括谱减法、维纳滤波法、单通道神经网络语音增强等,利用语音或噪声的统计信息进行去噪,只需要单个麦克风就能实现,成本较低;但由于单通道语音增强算法只能获取较少的语音信息量,且无法利用声音的空间信息,性能受到了限制。数字助听器一般采用基于麦克风阵列的语音增强算法,不仅利用了语音的时频信息还考虑了声源的空间信息,能够有效提取出某一空间范围内的声音信号,使助听器可以在高信噪比背景下提供良好的语音理解;然而,在低信噪比环境下的听觉体验并不像预期的那样令人满意。
近年来,提出了几种有效的多通道助听器语音增强算法。C.Knapp和G.Carter提出了基于相位变换的广义互相关矩阵(Generalized Cross Correlation with PhaseTransform,GCC-PHAT),算法能降低噪声,但GCC-PHAT系数总和在有干扰源或混响环境中显示虚假峰值导致估计的到达方向(Direction of Arrival,DOA)不准确,降噪性能差。R.Schmidt等人提出多重信号分类算法,使用基于不合理假设的开始帧或语音活动检测预测的静默帧来估计噪声的协方差矩阵,降噪性能受麦克风数量限制。M.L.Seltzer提出后滤波算法,通过相位信息进行空间滤波,能有效去除噪声,但在混响多源环境下往往无法实现高质量的语音降噪。
随着深度学习的发展,提出了基于深度学习的麦克风阵列语音增强算法,有效提升了增强语音的质量。J.Woodruff利用耳间时间做为空间特征输入神经网络训练,重构语音清晰度得到显著改善。Martin Raspaud等人输入耳间时间差、通道间相位差和语音频谱来训练深度自动编码器进行增强。然而,这些算法均假设目标语音来自正前方,因此当目标语音来自其他方向时增强效果较差。并且由于数字助听器的硬件条件限制,只能使用两到三个低复杂度的麦克风阵列进行初步语音增强,得到的重构语音可懂度低。
另外,传统基于WPD的卷积波束形成器的助听器语音增强的方法,通过GCC-PHAT等方法计算到达时间差,再结合麦克风阵列的几何假设,估计方向矢量;但上述传统方法不能精确计算对波束形成至关重要的噪声和语音的统计值。在存在噪声、混响等干扰条件下,阵列无法对期望信号准确形成波束,在干扰方向上形成零陷。噪声是千变万化的,现有的方法只能去除与目标语音不同方向的噪声,有的在去除噪声的同时又带来新的噪声,有的去除噪声后会对语音带来不可逆的损伤,因此在实际中增强语音效果差,有大量残余噪声,语音可懂度低。波束形成算法的增强效果很大程度上依赖于麦克风阵列的数量和几何形状,数字助听器由于硬件条件限制,只能使用两到三个麦克风,限制了算法性能。
发明内容
鉴于现有技术中存在的技术缺陷和技术弊端,本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备,解决了现有助听器语音增强算法在噪声环境下性能急剧下降,抑制方向性噪声能力差以及没有同时考虑房间混响导致增强语音可懂度低的问题。
作为本发明实施例的一个方面,提供了一种基于双通道神经网络时频掩蔽的语音增强方法,所述方法包括:
训练神经网络估计自适应比率掩模,对每路麦克风信号进行单耳语音增强,去除与目标语音相同方向的背景噪声;
通过所述自适应比率掩模识别目标语音时频单元与噪声时频单元,计算表示时频单元对DOA估计重要性的掩模权重;
结合空间协方差矩阵,由目标语音时频单元的掩模权重计算语音协方差矩阵,由噪声时频单元的掩模权重计算噪声协方差矩阵,通过语音协方差矩阵计算WPD波束形成器的方向矢量,定位目标语音。
结合噪声协方差矩阵和由语音协方差矩阵估计的方向矢量,计算WPD波束形成器的权重,通过波束形成器去除与目标语音不同方向的噪声并抑制混响,得到最终的增强语音。
进一步地,所述“训练单通道神经网络估计自适应比率掩模”的方法包括:
用信噪比构建比例因子,建立根据时频单元的信噪比自适应调节理想二进制掩模和理想比率掩模之间比重的自适应比率掩模;以直接语音信号为目标,其余分量为噪声,单独计算每路麦克风信号的掩模值。
进一步地,所述自适应比率掩模为:
AMi(t,f)=(1-α(t,f))·IBMi(t,f)+α(t,f)·IRMi(t,f)
其中:IBM表示理想二进制掩模,IRM表示理想比率掩模;
其中:Ed(t,f)表示第i路麦克风直接信号的能量,Eh(t,f)+En(t,f)表示第i路麦克风噪声的能量;SNR(t,f)表示时频单元的信噪比,S2(t,f)、N2(t,f)分别代表语音和噪声的能量;λ、β用来调整指数函数的形状;通过实验验证,设其值为-5和2。
进一步地,所述“神经网络”的训练方法包括:
以最小化均方误差函数为目标,提取训练集的语音多分辨率听觉倒谱系数特征和自适应比率掩模作为模型的输入,输入和输出均进行均值方差归一化处理,训练得到神经网络模型并进行保存;
所述多分辨率听觉倒谱系数特征包括四个不同分辨率的耳蜗表示,并使用符合人耳听觉感知的非线性幂函数压缩信号能量,离散余弦变换去相关。
进一步地,所述神经网络模型包括4层结构,其中包含两个隐层,每个隐层设有1024个节点,输出层设有64个节点,隐层使用线性整流激活函数,输出层使用Sigmoid激活函数。
进一步地,所述方法还包括:
利用每路麦克风信号的自适应比率掩模,计算表示每个时频单元对DOA估计重要性的掩模权重η(t,f)和ξ(t,f);其中:
i表示第i路麦克风信号,D表示总共麦克风信号数量,D=2;
结合自适应比率掩模和具有预测延迟的幂归一化空间协方差矩阵R,得到比率掩模加权的噪声协方差矩阵τ和语音协方差矩阵α;
式中P{g}表示计算主特征向量;
在给定信号所需的时变功率和方向矢量的条件下,计算WPD波束形成器的权重ω,
进一步地,所述方法还包括:
用双麦克风接收含噪声和混响的语音信号,并对其进行短时傅里叶变换得到带噪语音频谱,所述带噪语音频谱包括幅度谱和相位谱;
将每路麦克风信号的幅度谱输入到单通道神经网络进行估计自适应比率掩模和初步语音增强;
将每路麦克风信号的自适应比率掩模相乘,计算表示每个时频单元对DOA估计重要性的掩模权重;
结合所述掩模权重和具有预测延迟的幂归一化的语音信号空间协方差矩阵,得到比率掩模加权的噪声协方差矩阵和语音协方差矩阵;
通过语音协方差矩阵计算方向矢量的估计值;
利用所述噪声协方矩阵和方向矢量的估计值计算WPD波束形成器的权重,与幅度谱相乘,得到增强语音的幅度谱;
结合带噪语音的相位谱和增强语音的幅度谱得到最终的增强语音。
作为本发明实施例的又一方面,提供了一种基于双通道神经网络时频掩蔽的语音增强装置,所述装置包括:
初步增强模块:用于训练神经网络估计自适应比率掩模,对每路麦克风信号进行单耳语音增强,去除与目标语音相同方向的背景噪声;
目标定位模块:用于通过所述自适应比率掩模识别目标语音时频单元与噪声时频单元,计算表示时频单元对DOA估计重要性的掩模权重;结合空间协方差矩阵,由目标语音时频单元的掩模权重计算语音协方差矩阵,由噪声时频单元的掩模权重计算噪声协方差矩阵,并通过语音协方差矩阵估计波束形成器所需的方向矢量,定位目标语音;
语音增强模块,用于结合噪声协方差矩阵和估计的方向矢量,通过WPD波束形成器进行去除与目标语音不同方向的噪声并抑制混响,得到最终的增强语音。作为本发明实施例的再一方面,提供了一种助听设备,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器执行所述计算机指令时,所述助听设备执行上述任一所述的基于双通道神经网络时频掩蔽的语音增强方法。
作为本发明实施例的另一方面,提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被终端设备的处理器执行时,使所述处理器执行上述任一所述的基于双通道神经网络时频掩蔽的语音增强方法。
本发明实施例至少实现了如下技术效果:
本发明实施例提供的一种融合声源定位、语音去噪、去混响的基于双通道神经网络时频掩蔽的助听器语音增强器;结合单麦克风和多麦克风处理进行语音增强,解决了传统助听器由于硬件条件限制导致增强效果差的问题。在单麦克风处理中,神经网络模型初步增强每路麦克风信号并估计自适应比率掩模。神经网络由于其强大的非线性映射能力,较好抑制背景噪声,能够去除与目标语音同方向的噪声,学习目标自适应掩模结合二进制掩模和软掩模的优点,更加精确的识别出语音主导的时频单元,重构语音可懂度高。
另外,传统基于方向矢量定位的波束形成器,通过DOA估计和麦克风阵列的几何形状估计方向矢量;当信噪比较低时,很难获得准确的DOA估计。不同于传统方法,本发明实施例结合自适应比率掩模,从语音协方差矩阵主特征向量中估计的方向矢量的定位方法,自适应掩模对方向矢量定位方法进行指导,只利用语音主导的时频单元进行定位,精确计算语音和噪声的协方差矩阵,抑制干扰和混响对定位的影响,对目标语音方向形成精确波束。与其他算法对比,该算法在不同信噪比下的增强语音效果显著改善,同时语音可懂度也有了明显提升。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所记载的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例的基于双通道神经网络时频掩蔽的语音增强方法流程图;
图2为本发明一实施例的神经网络训练及测试流程示意图;
图3为本发明一实施例的矢量定位方法示意图;
图4为本发明一实施例的双通道神经网络语音增强方法示意图;
图5为本发明一实施例利用基于双通道神经网络时频掩蔽的语音增强方法进行语音增强的流程示意图;
图6为本发明一实施例测试环境示意图;
图7为本发明一实施例测试的理想的IRM和估计的IRM的可视化图;
图8为本发明一实施例测试的理想的AM和估计的AM的可视化图;
图9为本发明一实施例测试的增强效果平均值对比图;
图10为本发明一实施例测试的增强效果对比的时域波形图;
图11为本发明一实施例测试的增强效果对比的语谱图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
附图和以下说明描述了本发明的可选实施方式以教导本领域技术人员如何实施和再现本发明。为了教导本发明技术方案,已简化或省略了一些常规方面。本领域技术人员应该理解源自这些实施方式的变型或替换将落在本发明的保护范围内。本领域技术人员应该理解下述特征能够以各种方式组合以形成本发明的多个变型。由此,本发明并不局限于下述可选实施方式,而仅由权利要求和它们的等同物限定。
在一个实施例中,提供了一种基于双通道神经网络时频掩蔽的语音增强方法,如图1、图2、图3及图4所示,所述方法包括:
S11训练神经网络估计自适应比率掩模,对每路麦克风信号进行单耳语音增强,去除与目标语音相同方向的背景噪声;
S12通过所述自适应比率掩模识别目标语音时频单元与噪声时频单元,计算表示时频单元对DOA估计重要性的掩模权重;
S13结合空间协方差矩阵,由目标语音时频单元的掩模权重计算语音协方差矩阵,由噪声时频单元的掩模权重计算噪声协方差矩阵,通过语音协方差矩阵计算WPD波束形成器的方向矢量,定位目标语音。
S14结合噪声协方差矩阵和由语音协方差矩阵估计的方向矢量,计算WPD波束形成器的权重,去除与目标语音不同方向的噪声并抑制混响,得到最终的增强语音。
在本实施例中,首先通过训练一个神经网络估计纯净语音的自适应比率掩模,对每路麦克风信号进行初步单耳语音增强,去除与目标语音同方向噪声,提高语音清晰度;再基于自适应比率掩模的方向矢量定位方法,利用比率掩模在带噪混响环境下估计到达方向的潜力,识别包含相对纯净相位的语音主导时频单元进行到达方向估计,定位目标声源;最后,输入初步增强的麦克风信号和估计的方向矢量到加权功率最小化无失真响应(Weighted Power Minimization Distortionless Response,WPD)卷积波束形成器中进一步去除与目标语音不同方向的噪声并抑制混响,得到语音可懂度高的助听器语音增强器。
在本实施中,可以先通过单通道神经网络,通过估计自适应比率掩模进行语音增强,去除与目标语音相同方向的背景噪声。然后利用估计的自适应比率掩模,精确识别每个时频单元是由目标语音或噪声主导,从语音主导时频单元计算语音的协方差矩阵,从噪声主导的时频单元计算噪声的协方差矩阵,对目标语音形成精确波束,去除与目标语音不同方向的噪声。相比传统的助听器语音增强算法,本实施例方法既消除了与语音相同方向的背景噪声也消除了与语音不同方向的噪声干扰,得到了语音可懂度和清晰度都较高的增强语音。
在一个实施例中,所述“训练单通道神经网络估计自适应比率掩模”的方法包括:
用信噪比构建比例因子,建立根据时频单元的信噪比自适应调节理想二进制掩模和理想比率掩模之间比重的自适应比率掩模;以直接语音信号为目标,其余分量为噪声,单独计算每路麦克风信号的掩模值。
在本实施例中,提出一种新的时频掩模,即自适应比率掩模,掩模结合传统理想比率掩模(Ideal Ratio Mask,IRM)和理想二进制掩模(Ideal Binary Mask,IBM)的优点,能够更加精确的定位语音主导的时频单元。并训练神经网络模型估计自适应掩模,将其用于初步增强未处理的信号和精确估计波束形成所需的方向矢量。AM利用信噪比构建比例因子,根据时频单元的信噪比自适应调节传统理想二进制掩模(Ideal Binary Mask,IBM)和理想比率掩模(Ideal Ratio Mask,IRM)之间比重,发挥两种掩模各自的优势。在低信噪比时,AM掩模值接近IRM,能够避免IBM消除干扰的同时也屏蔽了有效信号,在高信噪比时,AM掩模更接近IBM,良好保持语音信号结构,更加精确的识别每个时频单元由语音或噪声主导,提高重构语音质量。定义自适应掩模时,以直接语音信号为目标,其余分量为噪声,单独计算每路麦克风信号的掩模值。
进一步地,所述自适应比率掩模为:
AMi(t,f)=(1-α(t,f))·IBMi(t,f)+α(t,f)·IRMi(t,f)
其中:IBM表示理想二进制掩模,IRM表示理想比率掩模;
其中:Ed(t,f)表示第i路麦克风直接信号的能量,Eh(t,f)+En(t,f)表示第i路麦克风噪声的能量;SNR(t,f)表示时频单元的信噪比,S2(t,f)、N2(t,f)分别代表语音和噪声的能量;λ、β用来调整指数函数的形状;通过实验验证,设其值为-5和2。
通过本实施例中的自适应比率掩模能够对单麦克风和多麦克风进行不同处理,在单麦克风处理中,神经网络模型初步增强每路麦克风信号并估计自适应比率掩模。在多麦克风处理中,利用自适应比率掩模加权协方差矩阵估计方向矢量,识别每路麦克风通道上的用于定位的语音主导的时频(Time-Frequency,T-F)单元,使其在强噪声和混响环境下仍得到准确的DOA估计。最后通过基于改进的WPD优化准则的卷积波束形成器进行语音增强,使去噪抑制混响效果同时达到最优,改善助听器在噪声环境下的性能。
在一个实施例中,所述“神经网络”的训练方法包括:
以最小化均方误差函数为目标,提取训练集的语音多分辨率听觉倒谱系数特征和自适应比率掩模作为模型的输入,输入和输出均进行均值方差归一化处理,训练得到神经网络模型并进行保存;
所述多分辨率听觉倒谱系数特征包括四个不同分辨率的耳蜗表示,并使用符合人耳听觉感知的非线性幂函数压缩信号能量,离散余弦变换去相关。
在本实施例中,单通道神经网络具有强大的非线性映射能力和对非平稳噪声较好的抑制能力,本实施例使用更符合人耳听觉感知的非线性幂函数压缩信号能量,离散余弦变换(Discrete Cosine Transform,DCT)去相关,减小计算量。后续对MRACC特征求一阶二阶差分导数,捕捉语音瞬变信息,动静结合全面表示语音的非线性结构,提高重构语音的质量。学习目标AM,结合IBM和IRM的优势,根据时频单元的信噪比自适应调节掩模值,改善带噪语音的感知度;而且,通过均值方差归一化处理保持训练过程的稳定。
在一个实施例中,所述神经网络模型包括4层结构,其中包含两个隐层,每个隐层设有1024个节点,输出层设有64个节点,隐层使用线性整流激活函数,输出层使用Sigmoid激活函数。
在本实施例中,提供最优的神经网络,运算速度快,且网络鲁棒性高,在测试阶段,提取测试样本集的归一化处理后的MRACC特征输入到训练好的神经网络模型中预测AM,最后结合带噪语音的相位重构语音,输出得到最佳增强结果。
在一个实施例中,所述方法还包括:
利用每路麦克风信号的自适应比率掩模,计算表示每个时频单元对DOA估计重要性的掩模权重η(t,f)和ξ(t,f);其中:
i表示第i路麦克风信号,D表示总共麦克风信号数量,D=2;
结合自适应比率掩模和具有预测延迟的幂归一化空间协方差矩阵R,得到比率掩模加权的噪声协方差矩阵τ和语音协方差矩阵α;
式中P{g}表示计算主特征向量;
在给定信号所需的时变功率和方向矢量的条件下,计算WPD波束形成器的权重ω,
在本实施例中,提出一种基于自适应掩模方向矢量定位方法,其主要思想是利用神经网络估计的自适应掩模来识别语音和噪声主导的时频T-F单元,从语音主导的T-F单元计算语音协方差矩阵,从噪声主导的T-F单元计算噪声协方差矩阵,精确计算对波束形成至关重要的空间协方差矩阵和方向矢量。目标语音主导的时频单元携带更加清晰的定位信息,自适应掩模为目标语音单元赋予了更多的权重,使方向矢量包含关于目标语音方向足够的信息。
在一个实施例中,图5所示,所述方法还包括:
S21用双麦克风接收含噪声和混响的语音信号,并对其进行短时傅里叶变换得到带噪语音频谱,所述带噪语音频谱包括幅度谱和相位谱;
S22将每路麦克风信号的幅度谱输入到单通道神经网络进行估计自适应比率掩模和初步语音增强;
S23将每路麦克风信号的自适应比率掩模相乘,计算表示每个时频单元对DOA估计重要性的掩模权重;
S24结合所述掩模权重和具有预测延迟的幂归一化的语音信号空间协方差矩阵,得到比率掩模加权的噪声协方差矩阵和语音协方差矩阵;
S25通过语音协方差矩阵计算方向矢量的估计值;
S26利用所述噪声协方矩阵和方向矢量的估计值计算WPD波束形成器的权重,与幅度谱相乘,得到增强语音的幅度谱;
S27结合带噪语音的相位谱和增强语音的幅度谱得到最终的增强语音。
在实施例中,在噪声和混响条件下使用两个麦克风接收语音信号,将接收到的每路麦克风信号通过训练好的单通道神经网络进行初步语音增强,去除与目标语音同方向的噪声。神经网络预测的自适应掩模用于后续方向矢量估计,与盲目依靠信号能量的传统定位不同,AM提供了目标信号的视图,能精确识别每个麦克风通道上的语音主导时频单元(即T-F单元),并只将这些T-F单元用于声源定位,这样在噪声和混响条件下也能获得较高的定位精度,使用掩模加权协方差矩阵估计的方向矢量可以直接应用于不同几何形状不同数量的麦克风阵列,最后将计算的权重输入WPD波束形成器,去除与目标语音不同方向的带噪语音并抑制房间混响,得到语音质量好,可懂度高的增强语音。
本实施例改进的WPD卷积波束形成器将接收到的每路麦克风信号通过单通道神经网络进行初步语音增强,去除与目标语音同方向的噪声,而后通过神经网络预测的自适应掩模用于后续方向矢量估计,掩模能识别每个麦克风通道上的语音主导的T-F单元,并只将这些T-F单元用于声源定位,这样在噪声和混响条件下也能获得较高的定位精度,并且使用掩模加权估计的方向矢量可以直接应用于不同几何形状不同数量的麦克风阵列;即本实施例结合单通道多通道信号处理,改善传统助听器语音增强由于硬件条件导致增强效果差的问题,得到的增强语音可懂度高、语音质量好。
基于同一发明构思,本发明实施例还提供了一种基于双通道神经网络时频掩蔽的语音增强装置,由于本实施一种基于双通道神经网络时频掩蔽的语音增强装置所解决问题的原理与前述实施例的一种基于双通道神经网络时频掩蔽的语音增强方法相似,因此一种基于双通道神经网络时频掩蔽的语音增强装置的实施可以参见前述一种基于双通道神经网络时频掩蔽的语音增强方法的实施例,重复之处不再赘述。
在一个实施例中提供了一种基于双通道神经网络时频掩蔽的语音增强装置,所述装置包括:
初步增强模块:用于训练神经网络估计自适应比率掩模,对每路麦克风信号进行单耳语音增强,去除与目标语音相同方向的背景噪声;
目标定位模块:用于通过所述自适应比率掩模识别目标语音时频单元与噪声时频单元,计算表示时频单元对DOA估计重要性的掩模权重;结合空间协方差矩阵,由目标语音时频单元的掩模权重计算语音协方差矩阵,由噪声时频单元的掩模权重计算噪声协方差矩阵,并通过语音协方差矩阵估计波束形成器所需的方向矢量,定位目标语音;
语音增强模块:用于结合噪声协方差矩阵和通过语音协方差矩阵估计的方向矢量计算WPD波束形成器的权重,通过波束形成器去除与目标语音不同方向的噪声并抑制混响,得到最终的增强语音。
基于同一发明构思,本发明实施例还提供了助听设备、存储介质,由于助听设备、存储介质的实施例所解决问题的原理与前述实施例的一种基于双通道神经网络时频掩蔽的语音增强方法相似,因此助听设备、存储介质的实施可以参见前述一种基于双通道神经网络时频掩蔽的语音增强方法的实施例,重复之处不再赘述。
作为本发明实施例的再一方面,提供了一种助听设备,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器执行所述计算机指令时,所述助听设备执行上述任一所述的基于双通道神经网络时频掩蔽的语音增强方法。
作为本发明实施例的另一方面,提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被终端设备的处理器执行时,使所述处理器执行上述任一所述的基于双通道神经网络时频掩蔽的语音增强方法。
使用双麦克风装置对所本实施例方法进行评估,在具有扩散噪声的混响环境中进行语音增强。MATLAB仿真环境如图6所示,利用基于图像方法的房间脉冲响应(RoomImpulse Response,RIR)发生器生成RIRs。在-90度到90度,间隔为45度的范围内,设置一个目标语音扬声器,一个干扰扬声器,位置随机在5个方向中的任意两个。每个扬声器到阵列中心的距离为1.5m,房间大小为8x8x3m,两个麦克风放置在房间中央。两个麦克风之间的距离为0.2米,高度均设置为1.5米。每种混合物的混响时间(Reverberation time,T60)都是从0.0到1.0随机选取,间隔为0.2秒。选用IEEE语音库,NOISE-92噪声库进行实验。训练神经网络使用50条纯净语音在White、Babble和F16噪声下创建信噪比为-5dB、0dB和5dB的450条训练集。算法测试阶段,选用10组语音在相同的条件下创建90条测试集。
参见图7、图8,对比两幅图可知,IRM抑制噪声的同时引入一些新的噪声且不能很好的保持语音结构。AM的语音频谱结构保持完整,且残余噪声较小。验证了本发明实施例中的掩模AM不仅能有效识别语音或噪声主导的时频单元且保证了语音质量。
通过以下三组算法的对比分析,验证了本发明实施例中的基于双通道神经网络时频掩蔽的语音增强算法的有效性及优势。
算法1:采用WPD波束形成算法直接进行双通道语音增强。
算法2:采用双通道神经网络和AM加权GCC-PHAT的语音增强算法。
算法3:采用本文提出的基于双通道神经网络时频掩蔽的语音增强算法。
其中,传统基于WPD的卷积波束形成器的助听器语音增强的方法,通过GCC-PHAT等方法计算到达时间差,再结合麦克风阵列的几何假设,估计方向矢量。假设只有一个目标语音,在噪声和混响环境下双麦克风阵列接收到信号的物理模型为:
y(t,f)=v(f)s(t,f)+h(t,f)+n(t,f),式中s(t,f)表示目标语音在时间t、频率f处的短时傅里叶变换,v(f)表示麦克风阵列的方向矢量,v(f)s(t,f)和h(t,f)表示直接语音信号和目标语音的早期、晚期回声,y(t,f)和n(t,f)表示麦克风接收到的混合信号和带回声的噪声信号。具体方法如下:
计算具有预测延迟的幂归一化空间协方差矩阵R。
式中σt 2表示信号的时变功率,y(t,f)表示麦克风信号。
计算WPD波束形成器的权重ω。
基于统一的WPD准则优化的卷积波束形成器。
其中,三种算法下的SegSNR对比如表1,三种算法下的STOI对比如表2,三种算法下的PESQ比如表3。
表1 SegSNR对比
表2 STOI对比
表3 PESQ对比
图9所示为不同背景噪声下三种算法增强效果的平均值对比。为了直观显示所提算法的有效性,以混响时间为0.3s,采样频率为16000HZ,帧长为256,帧重叠为64,被Babble噪声污染的语音为例,分别给出了三种实验下的增强语音。混响时间0.3秒,Babble噪声下三种算法增强效果对比的时域波形图如图10所示;混响时间0.3秒,Babble噪声下三种算法增强效果的语谱图如图11所示。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于双通道神经网络时频掩蔽的语音增强方法,其特征在于,所述方法包括:
训练神经网络估计自适应比率掩模,对每路麦克风信号进行单耳语音增强,去除与目标语音相同方向的背景噪声;
通过所述自适应比率掩模识别目标语音时频单元与噪声时频单元,计算表示时频单元对DOA估计重要性的掩模权重;
结合空间协方差矩阵,由目标语音时频单元的掩模权重计算语音协方差矩阵,由噪声时频单元的掩模权重计算噪声协方差矩阵,通过语音协方差矩阵计算WPD波束形成器的方向矢量,定位目标语音;
结合噪声协方差矩阵和语音协方差矩阵估计的方向矢量,计算WPD波束形成器的权重,去除与目标语音不同方向的噪声并抑制混响,得到最终的增强语音。
2.如权利要求1所述的基于双通道神经网络时频掩蔽的语音增强方法,其特征在于,所述“训练单通道神经网络估计自适应比率掩模”的方法包括:
用信噪比构建比例因子,建立根据时频单元的信噪比自适应调节理想二进制掩模和理想比率掩模之间比重的自适应比率掩模;以直接语音信号为目标,其余分量为噪声,单独计算每路麦克风信号的掩模值。
4.如权利要求1所述的基于双通道神经网络时频掩蔽的语音增强方法,其特征在于,所述“神经网络”的训练方法包括:
以最小化均方误差函数为目标,提取训练集的语音多分辨率听觉倒谱系数特征和自适应比率掩模作为模型的输入,输入和输出均进行均值方差归一化处理,训练得到神经网络模型并进行保存;
所述多分辨率听觉倒谱系数特征包括四个不同分辨率的耳蜗表示,并使用符合人耳听觉感知的非线性幂函数压缩信号能量,离散余弦变换去相关。
5.如权利要求4所述的基于双通道神经网络时频掩蔽的语音增强方法,其特征在于,所述神经网络模型包括4层结构,其中包含两个隐层,每个隐层设有1024个节点,输出层设有64个节点,隐层使用线性整流激活函数,输出层使用Sigmoid激活函数。
7.如权利要求6所述的基于双通道神经网络时频掩蔽的语音增强方法,其特征在于,所述方法还包括:
用双麦克风接收含噪声和混响的语音信号,并对其进行短时傅里叶变换得到带噪语音频谱,所述带噪语音频谱包括幅度谱和相位谱;
将每路麦克风信号的幅度谱输入到单通道神经网络进行估计自适应比率掩模和初步语音增强;
将每路麦克风信号的自适应比率掩模相乘,计算表示每个时频单元对DOA估计重要性的掩模权重;
结合所述掩模权重和具有预测延迟的幂归一化的语音信号空间协方差矩阵,得到比率掩模加权的噪声协方差矩阵和语音协方差矩阵;
通过语音协方差矩阵计算方向矢量的估计值;
利用所述噪声协方矩阵和方向矢量的估计值计算WPD波束形成器的权重,与幅度谱相乘,得到增强语音的幅度谱;
结合带噪语音的相位谱和增强语音的幅度谱得到最终的增强语音。
8.一种基于双通道神经网络时频掩蔽的语音增强装置,其特征在于,所述装置包括:
初步增强模块:用于训练神经网络估计自适应比率掩模,对每路麦克风信号进行单耳语音增强,去除与目标语音相同方向的背景噪声;
目标定位模块:用于通过所述自适应比率掩模识别目标语音时频单元与噪声时频单元,计算表示时频单元对DOA估计重要性的掩模权重;结合空间协方差矩阵,由目标语音时频单元的掩模权重计算语音协方差矩阵,由噪声时频单元的掩模权重计算噪声协方差矩阵,并通过语音协方差矩阵估计波束形成器所需的方向矢量,定位目标语音;
语音增强模块,结合噪声协方差矩阵和通过语音协方差矩阵估计的方向矢量计算WPD波束形成器的权重,通过波束形成器去除与目标语音不同方向的噪声并抑制混响,得到最终的增强语音。
9.一种助听设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器执行所述计算机指令时,所述助听设备执行如权利要求1至7中任一项所述的基于双通道神经网络时频掩蔽的语音增强方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被终端设备的处理器执行时,使所述处理器执行权利要求1至7中任意一项所述的基于双通道神经网络时频掩蔽的语音增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010840475.7A CN114078481A (zh) | 2020-08-20 | 2020-08-20 | 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010840475.7A CN114078481A (zh) | 2020-08-20 | 2020-08-20 | 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114078481A true CN114078481A (zh) | 2022-02-22 |
Family
ID=80282900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010840475.7A Pending CN114078481A (zh) | 2020-08-20 | 2020-08-20 | 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114078481A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974277A (zh) * | 2022-03-07 | 2022-08-30 | 云知声智能科技股份有限公司 | 语音降噪模型的训练方法、语音降噪方法及装置 |
CN115424609A (zh) * | 2022-08-16 | 2022-12-02 | 青岛大学 | 一种自动语音识别方法、系统、介质、设备及终端 |
CN115457971A (zh) * | 2022-03-22 | 2022-12-09 | 钉钉(中国)信息技术有限公司 | 一种降噪方法、电子设备及存储介质 |
-
2020
- 2020-08-20 CN CN202010840475.7A patent/CN114078481A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974277A (zh) * | 2022-03-07 | 2022-08-30 | 云知声智能科技股份有限公司 | 语音降噪模型的训练方法、语音降噪方法及装置 |
CN115457971A (zh) * | 2022-03-22 | 2022-12-09 | 钉钉(中国)信息技术有限公司 | 一种降噪方法、电子设备及存储介质 |
CN115424609A (zh) * | 2022-08-16 | 2022-12-02 | 青岛大学 | 一种自动语音识别方法、系统、介质、设备及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pedersen et al. | Two-microphone separation of speech mixtures | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
Hadad et al. | The binaural LCMV beamformer and its performance analysis | |
Tan et al. | Neural spectrospatial filtering | |
Kuklasiński et al. | Maximum likelihood PSD estimation for speech enhancement in reverberation and noise | |
CN114078481A (zh) | 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 | |
Koldovský et al. | Spatial source subtraction based on incomplete measurements of relative transfer function | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
Yousefian et al. | A coherence-based noise reduction algorithm for binaural hearing aids | |
Liu et al. | Inplace gated convolutional recurrent neural network for dual-channel speech enhancement | |
CN115359804B (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
CN114041185A (zh) | 用于确定深度过滤器的方法和装置 | |
Zhang et al. | Weighted magnitude-phase loss for speech dereverberation | |
Tammen et al. | Deep multi-frame MVDR filtering for binaural noise reduction | |
Saruwatari et al. | Musical noise controllable algorithm of channelwise spectral subtraction and adaptive beamforming based on higher order statistics | |
Aroudi et al. | Cognitive-driven convolutional beamforming using EEG-based auditory attention decoding | |
Ji et al. | Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment. | |
Ali et al. | Completing the RTF vector for an MVDR beamformer as applied to a local microphone array and an external microphone | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
Han et al. | Multi-channel speech denoising for machine ears | |
Youssef et al. | From monaural to binaural speaker recognition for humanoid robots | |
Li et al. | Beamformed feature for learning-based dual-channel speech separation | |
Corey et al. | Nonstationary source separation for underdetermined speech mixtures | |
Bagekar et al. | Dual channel coherence based speech enhancement with wavelet denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |