CN110931034A - 一种送话拾音麦克风内置型耳机的拾音降噪方法 - Google Patents
一种送话拾音麦克风内置型耳机的拾音降噪方法 Download PDFInfo
- Publication number
- CN110931034A CN110931034A CN201911183784.5A CN201911183784A CN110931034A CN 110931034 A CN110931034 A CN 110931034A CN 201911183784 A CN201911183784 A CN 201911183784A CN 110931034 A CN110931034 A CN 110931034A
- Authority
- CN
- China
- Prior art keywords
- voice
- frequency
- microphone
- noise reduction
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000009467 reduction Effects 0.000 title claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 59
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 230000006835 compression Effects 0.000 claims abstract description 13
- 238000007906 compression Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 230000008030 elimination Effects 0.000 claims abstract description 11
- 238000003379 elimination reaction Methods 0.000 claims abstract description 11
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 230000005540 biological transmission Effects 0.000 claims abstract description 5
- 238000007789 sealing Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000013461 design Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000002829 reductive effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims description 6
- 230000002401 inhibitory effect Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 210000004704 glottis Anatomy 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000008033 biological extinction Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 210000005069 ears Anatomy 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000002238 attenuated effect Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 108010082340 Arginine deiminase Proteins 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 101710167296 Arginine deiminase 2 Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种送话拾音麦克风内置型耳机的拾音降噪方法,属于耳机技术领域。所述送话拾音麦克风内置型耳机将送话拾音麦克风设置于耳机内壁的独立密封腔体内,所述的拾音降噪方法,具体包括以下步骤:(1)对语音信号的预处理:包括反混叠、A/D转换、预加重和中心消波过程;(2)信道映射处理:包括基于LPC的特征提取、信道映射、语音合成、去加重的四个阶段;(3)语音聚焦增强处理:所述语音聚焦增强步骤包括功率谱估计和幅值衰减的处理、语音居中、高通滤波、高频增强、动态压缩,及后期增强的处理,实现拾音降噪。本发明的拾音降噪方法,使语音送话在全频段上的清晰度和可懂度等都得到显著增强;且结构简单,成本低。
Description
技术领域
本发明属于耳机技术领域,尤其涉及一种送话拾音麦克风内置型耳机的拾音降噪方法。
背景技术
现行具有麦克风送话降噪功能的耳机,已有多种方案。主流的如基于ADI公司的sigma DSP芯片,装配全向型麦克风、采用beamforming(波束形成)算法的语音降噪耳机,对侧面噪声有一定的抑制作用;BOSE的某些型号耳机采用了4阵元的麦克风阵列结构,亦采用beamforming算法,对信号方向的选择性明显增强,对除语音外的其他方向噪声都有很好的抑制作用;CSR的CVC降噪耳机,采用双麦克风单声道的CVC算法软件消噪方案,提供了一个低成本且相对高端的降噪方案。
上述几款主流的送话降噪耳机,算法各有侧重点,也存在独有的和共性的缺点。ADI公司的2颗拾音麦克风方案,对除侧面噪声外的其他方向噪声抑制不够;BOSE的4阵元方案,方向图的方向选择性较好,但成本较高,且对与语音同向的噪声抑制不够;CSR的CVC降噪方案,有一定的降噪效果且成本低,但单声道的通话设置,语音通话质量和可靠性降低,对于一些特殊场合难以满足要求。以上几种主流的降噪方案,其共同点都是将送话麦克风安装在耳机外部,对SNR(SIGNAL NOISE RATIO,信噪比)大都比较敏感,特别是对风噪抑制不够。
发明内容
本发明实施例提供一种送话拾音麦克风内置型耳机的拾音降噪方法,旨在解决麦克风送话拾音降噪的问题,本发明将送话拾音麦克风设置于耳机内壁的独立腔体内,采用接触式封闭式设计,对外界噪声和耳机内喇叭产生的声音信号起到很好的隔离衰减作用,通过信道映射及数字滤波等算法实现送话语音增强的耳机。
本发明所述送话拾音麦克风内置耳机通过将麦克风安装在耳机内部的独立腔体内,大幅降低了周围环境噪声对通话语音的影响。语音信号因此形成两个信道:第一信道为外部信道,即正常情况下的声门、声道、口唇辐射形成的原始语音信道;这路信号与外界噪声混合后经耳机壳体衰减后被拾音麦克风采集。第二信道为内部信道,即信号经声门、声道、鼻腔、头部腔体,最后由耳廓传导至送话拾音麦克风的内部语音信道;第二信道的信号因为有耳机壳体隔离,对外部噪声信号起到很好衰减作用,信噪比显著增强,对中高频的外部噪音有较深的降噪效果,对风噪也有很好的抑制作用。
进入内部语音信道的语音信号是本发明重点处理和最终输出的语音信号。由于外部信道的语音信号经耳机壳体衰减后仍会有部分残留,这部分语音信号与内部信道频谱相同,有不同的时延,会形成相干干扰。同时由于拾音麦克风为独立密封腔体设计,会产生一定强度的混响,影响语音的清晰度。这些噪声在预处理阶段需加以抑制,以便对语音信号后续的处理。同时,由于内部信道与外部信道结构上存在很大差别,其语音特征,如共振峰、音调的轮廓等同原始语音信道相比有所改变。这一差别会影响到语音的听觉感受,使语音听起来不那么“自然”,也会使语音的各段频响与原始信道产生差别,如低频能量过大,高频能量相对较低,同样会影响到听觉感受。所以内部信道的语音在输出之前须做相应处理,以恢复到原始语音信道的自然状态。本发明针对上述内部信道特点,通过语音信号的预处理(包括反混叠、预加重、中心削波)、信道映射、语音聚焦、后期处理(去加重)的算法,实现语音增强的要求。
本发明所述的技术方案通过以下方式实现:
一种送话拾音麦克风内置型耳机的拾音降噪方法,所述送话拾音麦克风内置型耳机将送话拾音麦克风设置于耳机内壁的独立密封腔体内,对外界噪声和耳机内喇叭产生的声音信号起到很好的隔离衰减作用;所述的拾音降噪方法,具体包括以下步骤:
(1)对语音信号的预处理:通过反混叠滤波器实现反混叠后,由A/D转换电路实现A/D转换,通过IIR参数型shelving拓扑滤波器实现预加重,提升语音高频成分,使信号频谱平坦化并提高高频部分的信噪比;通过中心削波降噪方法对进入到送话拾音麦克风的非相关的噪声信号进行抑制降噪;
(2)信道映射处理:通过基于LPC(线性预测编码)的特征提取,提取共振峰的频率、带宽及幅度的谱特性;基于共振峰修正的信道映射;采用多阶的AR参数模型进行语音合成;去加重还原语音的原始特性;
(3)语音聚焦增强处理:所述语音聚焦增强步骤包括功率谱估计和幅值衰减的处理、语音居中、高通滤波、高频增强、动态压缩,及后期增强的处理,实现拾音降噪。
其中:
步骤(1)中所述的对语音信号的预处理的目的是使相关语音频段的信噪比达到一定水平,便于后期处理。
步骤(1)中所述的反混叠中语音信号采样频率设定为22KHz,12bit量化;这样在预期语音带宽9KHz至11KHz之间的噪声信号则有可能反射到9KHz以下的语音频带中,形成干扰;
步骤(1)中所述反混叠滤波器优选为RC模拟滤波器,位于A/D转换电路的前级,阻带频率11KHz,衰减深度-60dB。
在语音信号传递过程中,语音高频部分能量在内部信道中被多次吸收,其频谱跌落明显;步骤(1)中所述预加重的目的是提升高频成分,使信号频谱尽量平坦化,并有助与提高高频部分的信噪比;
本发明中,步骤(1)中所述预加重中采用的一阶传递函数如式1表示:
H(Z)=1-μZ-1
式1;
式中,z指频域,μ是系数,且μ<1。
步骤(1)中所述中心削波降噪,主要针对通过原始语音信道进入到送话拾音麦克风的残余信号,以及拾音麦克风腔体内产生的混响信号;该两种噪声信号与内部信道的语音信号高度相关,所以应采用非线性的中心消波降噪方法;所述中心消波降噪方法对进入到送话拾音麦克风的非相关的噪声信号同样有抑制作用;为避免在降噪过程中把低幅度的语音同时消去,该算法在频域内进行;所述中心削波降噪方法具体包括STFT(短时傅里叶变换)、中心削波、IDFT(逆傅里叶变换)三步,具体如下:先按帧进行STFT(短时傅里叶变换),使带噪声的语音信号变换到频域;然后遵循式2所示的频域的中心消波函数实现中心消波(中心消波由一组滤波器实现);最后再经IDFT(逆傅里叶变换)变换到时域,进而实现语音增强。
所述频域的中心消波函数如式2所示:
其中,A(w)为语音信号的频率响应幅值,A′(w)为削波后的频响幅值,CL为欲减小的功率谱密度,其设定要考虑噪声功率谱的平均功率,本发明设定CL为最大语音功率谱的-15dB,考虑拾音麦克风的降噪设计,这一阈值可使噪声得到充分抑制。
其中:
步骤(2)中所述基于LPC的特征提取;采用LPC进行语音提取,提取共振峰的频率、带宽及幅度的谱特性;其中语音采样频率22KHz,使用20ms的短时信号组成一帧,采用滑动的hamming窗截取语音信号进行STFT变换,窗间隔10ms;内部信道的语音信号可以简化成声门激励与内部传输通道的卷积如式3所示;
其中:x(n)为n时刻内部信道输出的语音信号,x1(n)为n时刻声门激励信号,包含基波周期特征;x2(n)为n时刻内部通道冲击响应,包含有语音共振峰的特征。这些特征如果直接从上式中提取较为复杂,可以从语音信号的外特性即系统函数入手求解相关参数,并作为后期语音合成的依据。
式3为内部信道产生的语音信号的时域模型。同原始信道一样,可以认为内部信道在短时其信号是线性稳定的,满足线性差分方程的线性表式。所以其频域的系统函数,可以作如下表示:
式中:G,表示滤波器增益;
ak,表示线性常系数差分方程的系数,其中k表示离散时间系统的第k时刻。
P,表示系统的阶数。
如果考虑高频衰减的通道阻抗:
R(z)=1-λz-1
式5;
式中,z表示频域,λ为系数,且λ<1。
系统模型可以表示为:
H(z)=R(z)V(z)
式6;
对于R(z),在步骤(1)中预处理阶段通过预加重对高频衰减已作补偿,近似认为R(z)=1,所以系统函数可以简化为:
本发明采用逆滤波法和LMSE(最小均方差)准则建立线性预测方程组,并基于自相关法和Levinson-Durbin算法,对G、{ak}进行递推计算;求解过程可由如图4所示。
步骤(2)中所述基于共振峰修正的信道映射,具体包括以下步骤:
1.按ISO Octave(8度音程)音频分区标准,将语音频谱分成9个分区,具体见表1;
表1基于Octave的语音频谱分段
考虑前述采样频率和一帧的采样点数,可得频谱分辨率为50Hz,所以将低频合理合并,中高频每个频带设两个bin,共计15个关于频率空间的bin,以变量fk表示;
2.建立映射向量;选定fk,Δfc,Δfw,ΔA的4个特征,作为内部语音信道向原始语音信道频率空间映射的变量,映射向量为M(fk,Δfc,Δfw,ΔA);
其中:
fk,表示频率空间,计15个元素;
Δfc表示共振峰中心频率的变化量,区分正负,取值为+1和-1,计2个元素;
Δfw表示共振峰Q值的变化量,区分正负,值域[-4,4],每0.25为一个梯度,计32个元素;
ΔA表示共振峰功率的变化量,区分正负。每2dB确定一个元素;设最大值与最小值相差30dB,计15个元素;
综上所述,映射向量M(fk,Δfc,Δfw,ΔA),为4维,共14400个特征描述子;
3.基于LPC法,推算共振峰位置;
4.统计分析,在同一条件下,比较内部信道与外部信道相邻共振峰的位置、形状,并以映射向量M(fk,Δfc,Δfw,ΔA),对差值做定量统计,每次测量及对比的结果落入相应的描述子;多次对比测试的结果作为训练样本集;
5.用统计结果对内部信道的共振峰及波形进行修正,并进行插值计算,对语音频谱曲线作修正;
6.作IFFT逆变换恢复时域信号输出,并根据需要可计算线性差分方程系数ak,和系统增益Gn,进行LPC编码。
步骤(2)中所述的语音合成,利用特征提取的线性差分方程系数ak,和系统增益Gn,采用多阶AR参数模型合成语音信号,具体步骤如下:
1].由提取的p阶的{ak}和En构造单帧的基于AR参数模型的语音功率谱,如下式8所示:
式中,n表示第n帧语音信号;l表示语音信号的第l个频点,k表示第k时刻;M表示一帧语音信号的样本数。
2].利用STFT(短时傅里叶变换)计算每一个对应l值的分母项,最终获得一帧的语音功率谱;
3].由IFFT(逆傅里叶变换)计算语音时域信号,完成语音合成的过程。
步骤(2)中所述去加重,主要用于去除在预处理阶段对高频的加重处理,具体为在高频段加上-6dB/倍频程下降的频率特性,以还原为原始特性;本发明中采用IIR型shelving拓扑结构进行该滤波器设计。
其中,步骤(3)中所述语音聚焦增强步骤模拟人耳的“鸡尾酒会效应”,即选择性的频谱掩蔽能力;本发明中采用级联滤波器,对合成后的语音进行音效处理,一方面使残余非相干噪声进一步衰减,另一方面使语音更符合人耳的听觉习惯。
步骤(3)中所述功率谱估计和幅值衰减的处理:包括功率谱估计、幅值衰减2个过程;该步骤均在频域进行,首先用STFT按帧进行时频变换,即功率谱估计,STFT变换的具体方法同步骤(2)中基于LPC的特征提取;所述幅值衰减,是将全频谱电平衰减6dB,防止后面处理中增益超过一定限度出现削峰;采用数字全通滤波器实现语音电平衰减,最后再经IFFT变换到时域输出;为反映人耳对声音频谱的敏感特性,本发明参照ISO标准,对处理的语音频谱基于Octave(8度音程音程),将要处理的语音音频区分成9段(22Hz-9KHz),作为相关滤波器设计的依据,如表1所示;
其中:步骤(3)中:
所述的语音居中:将左右声道交叉混合,再分两个通道输出;
所述的高通滤波:频谱响应在400Hz形成拐点,对低频信号进行抑制;主要目的是对低频残余噪声和过重的低频语音起到衰减作用;发明中采用IIR参数型数字滤波器设计;
所述的高频增强:对损失较大的高频语音进行补偿,为3dB/Octave;
所述的动态压缩:为防止突变噪声和语音稳定,进行了动态压缩设计;20:1的动态压缩比率,-6dB门限;采用数字滤波器设计。
所述的后期增强:对预处理阶段的幅值衰减进行补偿,增益全频谱增加4dB,恢复自然状态;采用全通型IIR参数型数字滤波器设计。
本发明中应用的是ADI公司的DSP芯片和STM32系列的MCU;DSP芯片是算法实现的核心,MCU实现对DSP芯片的启动和控制,工程文件加载在MCU内部的FLASH内。
本发明与现有技术相比,具有以下的优点和有益效果:
1、本发明所述送话拾音麦克风内置型耳机将送话拾音麦克风设置于耳机内壁的独立腔体内,对外界噪声和耳机内喇叭产生的声音信号起到很好的隔离衰减作用;通过对语音信号的预处理、信道映射、语音聚焦等主要算法,使语音送话在全频段上的清晰度和可懂度等都得到显著增强。且结构简单,成本低。
2、采用基于特征统计的信道映射,在内部信道与原始信道间建立映射模型,实现对内部信道的修正。
3、采用基于人耳听觉掩蔽效应的数字滤波算法,对语音实现进一步增强。
附图说明
图1为本发明实施例1所述的送话拾音麦克风内置装配示意图。
图2为本发明实施例1所述基于送话拾音麦克风内置的送话语音增强的算法流程示意图。
图3为本发明实施例1所述的中心削波过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本发明实施例提供一种送话拾音麦克风内置型耳机的拾音降噪方法,旨在解决麦克风送话降噪功能的问题,将送话拾音麦克风安装在耳机内部,采用接触式封闭式设计,通过信道映射及数字滤波等算法实现送话语音增强的耳机。
如图1所示,本发明提供了一种送话拾音麦克风内置型耳机的拾音降噪方法,将送话拾音麦克风安装在耳机内部(所述送话拾音麦克风采用指向型麦克风),所述送话拾音麦克风采用接触式封闭式结构,通过机器学习及数字滤波等算法实现送话语音增强的耳机。
本发明所述送话拾音麦克风内置耳机通过将麦克风安装在耳机内部的独立腔体内,大幅降低了周围环境噪声对通话语音的影响。如图1所示,图中的①和②是内置型麦克风的装配位置,与耳机内壁接触式设计;每个送话拾音麦克风设置于耳机内壁的独立的腔体内,对外界噪声和耳机内喇叭产生的声音信号起到很好的隔离衰减作用。语音信号因此形成两个信道:第一信道为外部信道,即正常情况下的声门、声道、口唇辐射形成的原始语音信道;这路信号与外界噪声混合后经耳机壳体衰减后被拾音麦克风采集。第二信道为内部信道,即信号经声门、声道、鼻腔、头部腔体,最后由耳廓传导至送话拾音麦克风的内部语音信道;第二信道的信号因为有耳机壳体隔离,对外部噪声信号起到很好衰减作用,信噪比显著增强,对中高频的外部噪音有较深的降噪效果,对风噪也有很好的抑制作用。
进入内部语音信道的语音信号是本发明重点处理和最终输出的语音信号。由于外部信道的语音信号经耳机壳体衰减后仍会有部分残留,这部分语音信号与内部信道频谱相同,有不同的时延,会形成相干干扰。同时由于拾音麦克风为独立密封腔体设计,会产生一定强度的混响,影响语音的清晰度。这些噪声在预处理阶段需加以抑制,以便对语音信号后续的处理。同时,由于内部信道与外部信道结构上存在很大差别,其语音特征,如共振峰、音调的轮廓等同原始语音信道相比有所改变。这一差别会影响到语音的听觉感受,使语音听起来不那么“自然”,也会使语音的各段频响与原始信道产生差别,如低频能量过大,高频能量相对较低,同样会影响到听觉感受。所以内部信道的语音在输出之前须做相应处理,以恢复到原始语音信道的自然状态。本发明针对上述内部信道特点,通过语音信号的预处理(包括反混叠、预加重、中心削波)、信道映射、语音聚焦、后期处理(去加重)的算法,实现语音增强的要求。
如图2所示,本发明在结构设计和声学设计的基础上,通过信道映射、语音聚焦的核心算法,使语音送话在全频段上的清晰度和可懂度等都得到显著增强。本发明中应用的是ADI公司的DSP芯片和STM32系列的MCU;DSP芯片是算法实现的核心,MCU实现对DSP芯片的启动和控制,工程文件加载在MCU内部的FLASH内。
上述送话拾音麦克风内置型耳机的拾音降噪方法,其中所述的送话拾音麦克风内置型耳机将送话拾音麦克风设置于耳机内壁的独立密封腔体内,所述的拾音降噪方法,具体包括以下步骤:
步骤1:对语音信号的预处理
预处理的目的是使相关语音频段的信噪比达到一定水平,便于后期处理;主要包括反混叠、A/D转换、预加重和中心消波过程,具体包括包括以下内容:
所述反混叠:本发明中语音信号采样频率设定为22KHz,12bit量化;这样在预期语音带宽9KHz至11KHz之间的噪声信号则有可能反射到9KHz以下的语音频带中,形成干扰;为此引入反混叠滤波器;本发明采用RC模拟滤波器实现反混叠,位于A/D转换电路的前级,阻带频率11KHz,衰减深度-60dB左右;
所述预加重:语音高频部分能量在内部信道中被多次吸收,其频谱跌落明显;预加重的目的是提升高频成分,使信号频谱尽量平坦化,并有助与提高高频部分的信噪比;本发明中用有提升高频特性的预加重数字滤波器实现;用一阶的传递函数表示:
H(Z)=1-μZ-1
式中,z指频域,μ是系数,且μ<1。
预加重在A/D转换后进行,由数字滤波器完成,本发明中利用IIR参数型shelving拓扑滤波器实现预加重功能。
所述中心削波:针对通过原始语音信道进入到送话拾音麦克风的残余信号,以及拾音麦克风腔体内产生的混响信号;该两种噪声信号与内部信道的语音信号高度相关,所以应采用非线性方法处理,本发明中采用了中心消波方法;所述中心消波方法对进入到送话拾音麦克风的非相关的噪声信号同样有抑制作用;所述中心削波降噪过程见图3,具体步骤如下:
为避免把低幅度的语音同时消去,该算法在频域内进行;即先按帧进行STFT(短时傅里叶变换),使带噪声的语音信号变换到频域;
中心消波由一组滤波器实现,即中心消波函数完成;下式是频域的中心消波函数;
其中,A(w)为语音信号的频率响应幅值,A′(w)为削波后的频响幅值,CL为欲减小的功率谱密度幅值,其设定要考虑噪声功率谱的平均功率,本发明设定CL为最大语音功率谱的-15dB左右,考虑拾音麦克风的降噪设计,这一阈值可使噪声得到充分抑制;最后再经IDFT(逆傅里叶变换)变换到时域,进而实现语音增强。
步骤2:信道映射处理
所述信道映射处理包括基于LPC(线性预测编码)的特征提取、信道映射、语音合成、去加重的四个阶段:
阶段一:基于LPC的特征提取
本发明运用LPC进行语音提取和后期的语音合成输出,是因为LPC几乎可提取除基音周期外,包括共振峰的频率、带宽及幅度等全部谱特性,而且提供了由单词连接产生声音所需的总的音调轮廓,及语音的韵律特性。
语音信号是非平稳信号,但在短时(20ms-40ms)语音特征变化缓慢,可以认为在这期间声门周期、声道形状及其转移函数近似不变的;所以本发明中涉及的特征提取、信道映射和语音合成等过程,都是基于短时帧逐帧操作的;本发明中语音采样频率22KHz,使用20ms的短时信号组成一帧,采用滑动的hamming窗截取语音信号进行STFT变换,窗间隔10ms;
与原始语音信道类似,内部信道的语音信号可以简化成声门激励与内部传输通道的卷积;
即:
x(n)为n时刻内部信道输出的语音信号,x1(n)为n时刻声门激励信号,包含基波周期特征;x2(n)为n时刻内部通道冲击响应,包含有语音共振峰等特征。这些特征如果直接从上式中提取较为复杂,可以从语音信号的外特性即系统函数等入手求解相关参数,并作为后期语音合成的依据。
上式为内部信道产生的语音信号的时域模型。同原始信道一样,可以认为内部信道在短时其信号是线性稳定的,满足线性差分方程的线性表式。所以其频域的系统函数,可以作如下表示:
式中:G,表示滤波器增益;
ak,表示线性常系数差分方程的系数,其中k表示离散时间系统的第k时刻。
P,表示系统的阶数。
考虑高频衰减的通道阻抗:
R(z)=1-λz-1
式中,z表示频域,λ为系数,且λ<1。
系统模型可以表示为:
H(z)=R(z)V(z)
对于R(z),由于在预处理阶段通过预加重对高频衰减已作补偿。这里近似人为R(z)=1。所以内部通道的系统函数可以表示为:
本发明采用逆滤波法和LMSE(最小均方差)准则建立线性预测方程组,并基于自相关法和Levinson-Durbin算法,对G、{ak}进行递推计算。求解过程可由如图4所示,其中:式中n表示第n帧,为ak的估计。
阶段二:信道映射
本发明中的信道映射采用基于共振峰修正的信道映射方法。
主要有以下过程:
1.按ISO Octave(8度音程)音频分区标准,将语音频谱分成9个分区,具体见表1;
表1基于Octave的语音频谱分段
考虑前述采样频率和一帧的采样点数,可得频谱分辨率为50Hz,所以将低频合理合并,中高频每个频带设两个bin,共计15个关于频率空间的bin,以变量fk表示;
2.建立映射向量。选定fk,Δfc,Δfw,ΔA的4个特征,作为内部语音信道向原始语音信道频率空间映射的变量,映射向量为M(fk,Δfc,Δfw,ΔA);
其中:
fk,表示频率空间,计15个元素;
Δfc表示共振峰中心频率的变化量,区分正负,取值为+1和-1,计2个元素;
Δfw表示共振峰Q值的变化量,区分正负,值域[-4,4],每0.25为一个梯度,计32个元素;
ΔA表示共振峰功率的变化量,区分正负。每2dB确定一个元素;设最大值与最小值相差30dB,计15个元素;
综上所述,映射向量M(fk,Δfc,Δfw,ΔA),为4维,共14400个特征描述子;
3.基于LPC法,估计共振峰位置;
4.统计分析,在同一条件下,比较内部信道与外部信道相邻共振峰的位置、形状,并以映射向量M(fk,Δfc,Δfw,ΔA),对差值做定量统计,每次测量及对比的结果落入相应的描述子;多次对比测试的结果作为训练样本集;
5.用统计结果对内部信道的共振峰及波形进行修正,并进行插值计算,对语音频谱曲线作修正;
6.作IFFT逆变换恢复时域信号输出,并根据需要可计算线性差分方程系数ak,和系统增益Gn,进行LPC编码。
阶段三:语音合成
上面提到,基于LPC的语音合成方法简单实用;本发明利用特征提取的预测误差和滤波器系数,采用多阶的AR参数模型合成语音信号,方法简单,在不需要其他参量参与的情况下,即可获得与原语音信号很好的匹配;采用AR参数模型合成语音信号的过程如下:
1].由提取的p阶的{ak}和En构造单帧的基于AR参数模型的语音功率谱,如下式:
式中,n表示第n帧语音信号;l表示语音信号的第l个频点,k表示第k时刻;M表示一帧语音信号的样本数。
2].利用STFT(短时傅里叶变换)计算每一个对应l值的分母项,最终获得一帧的语音功率谱;
3].由IFFT(逆傅里叶变换)计算语音时域信号,完成语音合成的过程。
阶段四:去加重
在预处理阶段对高频有加重处理,在语音合成后,需去加重,即在高频段加上-6dB/倍频程下降的频率特性,以还原为原始特性;本发明中采用IIR型shelving拓扑结构进行该滤波器设计。
步骤三,语音聚焦增强处理
所述语音聚焦增强步骤模拟人耳的“鸡尾酒会效应”,即选择性的频谱掩蔽能力;本发明中采用级联滤波器,对合成后的语音进行音效处理,一方面使残余非相干噪声进一步衰减,另一方面使语音更符合人耳的听觉习惯。
所述语音聚焦增强步骤包括功率谱估计和幅值衰减的预处理、语音居中、高通滤波、高频增强、动态压缩,及后期增强6个阶段。
所述功率谱估计和幅值衰减的预处理:包括功率谱估计、幅值衰减2个过程;该步骤均在频域进行,首先用STFT按帧进行时频变换,即功率谱估计,STFT变换的具体方法同步骤2中基于LPC的特征提取;所述幅值衰减,是将全频谱电平衰减6dB,防止后面处理中增益超过一定限度出现削峰;采用数字全通滤波器实现语音电平衰减,最后再经IFFT变换到时域输出;
为反映人耳对声音频谱的敏感特性,本发明参照ISO标准,对处理的语音频谱基于Octave(8度音程音程),将要处理的语音音频区分成9段(22Hz-9KHz),作为相关滤波器设计的依据,如表1所示;
语音居中:将左右声道交叉混合,再分两个通道输出;
高通滤波:频谱响应在400Hz左右形成拐点,对低频信号进行抑制;主要目的是对低频残余噪声和过重的低频语音起到衰减作用;发明中采用IIR参数型数字滤波器设计;
高频增强:对损失较大的高频语音进行补偿,约3dB/Octave;
动态压缩:为防止突变噪声和语音稳定,进行了动态压缩设计;20:1的动态压缩比率,-6dB门限;采用数字滤波器设计。
后期增强:对预处理阶段的幅值衰减进行补偿,增益全频谱增加4dB,恢复自然状态;采用全通型IIR参数型数字滤波器设计。
本发明与现有技术相比,具有以下的优点和有益效果:
1、本发明所述送话拾音麦克风内置型耳机将送话拾音麦克风设置于耳机内壁的独立腔体内,对外界噪声和耳机内喇叭产生的声音信号起到很好的隔离衰减作用;通过对语音信号的预处理、信道映射、语音聚焦等主要算法,使语音送话在全频段上的清晰度和可懂度等都得到显著增强。且结构简单,成本低。
2、采用基于特征统计的信道映射,在内部信道与原始信道间建立映射模型,实现对内部信道的修正。
3、采用基于人耳听觉掩蔽效应的数字滤波算法,对语音实现进一步增强。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:所述送话拾音麦克风内置型耳机将送话拾音麦克风设置于耳机内壁的独立密封腔体内,所述的拾音降噪方法,具体包括以下步骤:
(1)对语音信号的预处理:通过反混叠滤波器实现反混叠后,由A/D转换电路实现A/D转换,通过IIR参数型shelving拓扑滤波器实现预加重,提升语音高频成分,使信号频谱平坦化并提高高频部分的信噪比;通过中心削波降噪方法对进入到送话拾音麦克风的非相关的噪声信号进行抑制降噪;
(2)信道映射处理:通过基于LPC的特征提取,提取共振峰的频率、带宽及幅度的谱特性;基于共振峰修正的信道映射;采用多阶的AR参数模型进行语音合成;去加重还原语音的原始特性;
(3)语音聚焦增强处理:所述语音聚焦增强步骤包括功率谱估计和幅值衰减的处理、语音居中、高通滤波、高频增强、动态压缩,及后期增强的处理,实现拾音降噪。
2.根据权利要求1所述的送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:步骤(1)中所述的反混叠中语音信号采样频率设定为22KHz,12bit量化;所述反混叠滤波器为RC模拟滤波器,位于A/D转换电路的前级,阻带频率11KHz,衰减深度-60dB。
3.根据权利要求1所述的送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:步骤(1)中所述预加重中采用的一阶传递函数方式,如式1表示:
H(Z)=1-μZ-1
式1;
式中,z指频域,μ是系数,且μ<1。
5.根据权利要求1所述的送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:步骤(2)中所述基于LPC的特征提取,其中语音采样频率22KHz,使用20ms的短时信号组成一帧,采用滑动的hamming窗截取语音信号进行STFT变换,窗间隔10ms;内部信道的语音信号简化成声门激励与内部传输通道的卷积如式3所示;
其中:x(n)为n时刻内部信道输出的语音信号,x1(n)为n时刻声门激励信号,包含基波周期特征;x2(n)为n时刻内部通道冲击响应,包含有语音共振峰的特征;
系统模型的频域表示如式7所示:
式中:
G,表示滤波器增益;
ak,表示线性常系数差分方程的系数,其中的k表示离散时间系统的第k时刻;
P,表示系统的阶数;
其中,采用逆滤波法和LMSE准则建立线性预测方程组,并基于自相关法和Levinson-Durbin算法,对G、{ak}进行递推计算。
6.根据权利要求1所述的送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:步骤(2)中所述基于共振峰修正的信道映射,具体包括以下步骤:
1)按ISO Octave音频分区标准,将语音频谱分成9个分区,其中,频率下限分为22Hz、44Hz、88Hz、177Hz、355Hz、710Hz、1420Hz、2480Hz、5680Hz;
几何平均中心频率分为31.5Hz、63Hz、125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz、8000Hz;
频率上限分为44Hz、88Hz、177Hz、355Hz、710Hz、1420Hz、2840Hz、5680Hz、9000Hz;
考虑前述采样频率和一帧的采样点数,可得频谱分辨率为50Hz,所以将低频合并,中高频每个频带设两个bin,共计15个关于频率空间的bin,以变量fk表示;
2)建立映射向量;选定fk,Δfc,Δfw,ΔA的4个特征,作为内部语音信道向原始语音信道频率空间映射的变量,映射向量为M(fk,Δfc,Δfw,ΔA);
其中:fk,表示频率空间,计15个元素;
Δfc表示共振峰中心频率的变化量,区分正负,取值为+1和-1,计2个元素;
Δfw表示共振峰Q值的变化量,区分正负,值域[-4,4],每0.25为一个梯度,计32个元素;
ΔA表示共振峰功率的变化量,区分正负;每2dB确定一个元素;设最大值与最小值相差30dB,计15个元素;
综上所述,映射向量M(fk,Δfc,Δfw,ΔA),为4维,共14400个特征描述子;
3)基于LPC法,推算共振峰位置;
4)统计分析,在同一条件下,比较内部信道与外部信道相邻共振峰的位置、形状,并以映射向量M(fk,Δfc,Δfw,ΔA),对差值做定量统计,每次测量及对比的结果落入相应的描述子;多次对比测试的结果作为训练样本集;
5)用统计结果对内部信道的共振峰及波形进行修正,并进行插值计算,对语音频谱曲线作修正;
6)作IFFT逆变换恢复时域信号输出,并根据需要可计算ak,Gn(其定义同式7),进行LPC编码。
8.根据权利要求1所述的送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:步骤(2)中所述去加重,主要用于去除在预处理阶段对高频的加重处理,具体为在高频段加上-6dB/倍频程下降的频率特性,以还原为原始特性;具体采用IIR型shelving拓扑结构进行滤波器设计。
9.根据权利要求1所述的送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:步骤(3)中所述功率谱估计和幅值衰减的处理:包括功率谱估计、幅值衰减2个过程;2个过程均在频域进行,首先用STFT按帧进行时频变换,即功率谱估计,STFT变换的具体方法同步骤(2)中基于LPC的特征提取;所述幅值衰减,是将全频谱电平衰减6dB,防止后面处理中增益超过一定限度出现削峰;采用数字全通滤波器实现语音电平衰减,最后再经IFFT变换到时域输出。
10.根据权利要求1所述的送话拾音麦克风内置型耳机的拾音降噪方法,其特征在于:
步骤(3)中:
所述的语音居中:将左右声道交叉混合,再分两个通道输出;
所述的高通滤波:频谱响应在400Hz形成拐点,对低频信号进行抑制;
所述的高频增强:对损失较大的高频语音进行补偿,为3dB/Octave;
所述的动态压缩:为防止突变噪声和语音稳定,进行了动态压缩设计;20:1的动态压缩比率,-6dB门限;
所述的后期增强:对预处理阶段的幅值衰减进行补偿,增益全频谱增加4dB,恢复自然状态;采用全通型IIR参数型数字滤波器设计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183784.5A CN110931034B (zh) | 2019-11-27 | 2019-11-27 | 一种送话拾音麦克风内置型耳机的拾音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183784.5A CN110931034B (zh) | 2019-11-27 | 2019-11-27 | 一种送话拾音麦克风内置型耳机的拾音降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110931034A true CN110931034A (zh) | 2020-03-27 |
CN110931034B CN110931034B (zh) | 2022-05-24 |
Family
ID=69847480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911183784.5A Active CN110931034B (zh) | 2019-11-27 | 2019-11-27 | 一种送话拾音麦克风内置型耳机的拾音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110931034B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240696A (zh) * | 2022-07-26 | 2022-10-25 | 深圳市迪斯声学有限公司 | 一种语音识别方法及可读存储介质 |
CN116962934A (zh) * | 2023-09-19 | 2023-10-27 | 九音科技(南京)有限公司 | 一种拾音降噪方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001018789A1 (en) * | 1999-09-03 | 2001-03-15 | Microsoft Corporation | Formant tracking in speech signal with probability models |
EP1104222A2 (en) * | 1999-11-26 | 2001-05-30 | Shoei Co., Ltd. | Hearing aid |
US20120215519A1 (en) * | 2011-02-23 | 2012-08-23 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
CN108053829A (zh) * | 2017-12-29 | 2018-05-18 | 华中科技大学 | 一种基于耳蜗听觉非线性动力学机理的电子耳蜗编码方法 |
CN109712638A (zh) * | 2019-02-27 | 2019-05-03 | 南京师范大学 | 基于改进的Mel频率尺度和相位修正的耳语音增强算法 |
CN109822587A (zh) * | 2019-03-05 | 2019-05-31 | 哈尔滨理工大学 | 一种用于厂矿医院的语音导诊机器人头颈部装置及控制 |
US20190206420A1 (en) * | 2017-12-29 | 2019-07-04 | Harman Becker Automotive Systems Gmbh | Dynamic noise suppression and operations for noisy speech signals |
-
2019
- 2019-11-27 CN CN201911183784.5A patent/CN110931034B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001018789A1 (en) * | 1999-09-03 | 2001-03-15 | Microsoft Corporation | Formant tracking in speech signal with probability models |
EP1104222A2 (en) * | 1999-11-26 | 2001-05-30 | Shoei Co., Ltd. | Hearing aid |
US20120215519A1 (en) * | 2011-02-23 | 2012-08-23 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
CN108053829A (zh) * | 2017-12-29 | 2018-05-18 | 华中科技大学 | 一种基于耳蜗听觉非线性动力学机理的电子耳蜗编码方法 |
US20190206420A1 (en) * | 2017-12-29 | 2019-07-04 | Harman Becker Automotive Systems Gmbh | Dynamic noise suppression and operations for noisy speech signals |
CN109712638A (zh) * | 2019-02-27 | 2019-05-03 | 南京师范大学 | 基于改进的Mel频率尺度和相位修正的耳语音增强算法 |
CN109822587A (zh) * | 2019-03-05 | 2019-05-31 | 哈尔滨理工大学 | 一种用于厂矿医院的语音导诊机器人头颈部装置及控制 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240696A (zh) * | 2022-07-26 | 2022-10-25 | 深圳市迪斯声学有限公司 | 一种语音识别方法及可读存储介质 |
CN115240696B (zh) * | 2022-07-26 | 2023-10-03 | 北京集智数字科技有限公司 | 一种语音识别方法及可读存储介质 |
CN116962934A (zh) * | 2023-09-19 | 2023-10-27 | 九音科技(南京)有限公司 | 一种拾音降噪方法及系统 |
CN116962934B (zh) * | 2023-09-19 | 2024-01-09 | 九音科技(南京)有限公司 | 一种拾音降噪方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110931034B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN111833896B (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
CN106782590B (zh) | 基于混响环境下麦克风阵列波束形成方法 | |
JP4764995B2 (ja) | 雑音を含む音響信号の高品質化 | |
CN103874002B (zh) | 包括非自然信号减少的音频处理装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
EP2643981B1 (en) | A device comprising a plurality of audio sensors and a method of operating the same | |
CN111128214B (zh) | 音频降噪方法、装置、电子设备及介质 | |
US20060206320A1 (en) | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers | |
EP1580882A1 (en) | Audio enhancement system and method | |
JP2007011330A (ja) | スピーチ信号の適合する強化のためのシステム | |
Löllmann et al. | Low delay noise reduction and dereverberation for hearing aids | |
CN110931034B (zh) | 一种送话拾音麦克风内置型耳机的拾音降噪方法 | |
Itoh et al. | Environmental noise reduction based on speech/non-speech identification for hearing aids | |
CN114141268A (zh) | 语音处理方法、系统、存储介质及终端语音设备 | |
JP5443547B2 (ja) | 信号処理装置 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN115579016B (zh) | 一种声学回声消除的方法和系统 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
CN110691296B (zh) | 一种麦克风内置耳机的信道映射方法 | |
JP2002064617A (ja) | 反響抑圧方法・反響抑圧装置 | |
Naithani et al. | Subjective evaluation of deep neural network based speech enhancement systems in real-world conditions | |
CN110610724A (zh) | 基于非均匀子带分离方差的语音端点检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |