CN101802910A - 利用话音清晰性的语音增强 - Google Patents
利用话音清晰性的语音增强 Download PDFInfo
- Publication number
- CN101802910A CN101802910A CN200880106534A CN200880106534A CN101802910A CN 101802910 A CN101802910 A CN 101802910A CN 200880106534 A CN200880106534 A CN 200880106534A CN 200880106534 A CN200880106534 A CN 200880106534A CN 101802910 A CN101802910 A CN 101802910A
- Authority
- CN
- China
- Prior art keywords
- subband
- sound signal
- gain
- processing
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000004044 response Effects 0.000 claims description 34
- 230000000694 effects Effects 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 27
- 238000009499 grossing Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 abstract description 7
- 239000000654 additive Substances 0.000 abstract 1
- 230000000996 additive effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000005405 multipole Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241000819038 Chichester Species 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
一种用于增强由语音成分和噪声成分组成的音频信号的语音成分的方法对该语音信号的子带进行处理,该处理包括:控制音频信号在子带中的多个子带内的增益,其中,至少通过用于传送增益上的加性/减性的差或增益的相乘的比率的处理来控制子带内的增益,以随着在子带内噪声成分的电平相对于语音成分的电平增大而减小子带内的增益,以及当在音频信号的各子带内存在语音成分时增大子带内的增益,这些处理均响应于音频信号的子带并彼此独立地控制增益,以提供经处理的子带音频信号。
Description
技术领域
本发明涉及音频信号处理。更具体地,本发明涉及一种用于带噪音频语音信号(noisy audio speech signal)的语音增强和清晰性的处理方法或处理器。本发明还涉及用于实现这类方法或者控制这类设备的计算机程序。
所结合的参考文件
以下公开文件均通过引用的方式整体结合于此。
[1]S.F.Boll,“Suppression of acoustic noise in speech using spectralsubtraction,”IEEE Trans.Acoust.,Speech,Signal Processing,vol.27,pp.113-120,Apr.1979.
[2]Y.Ephraim,H.Lev-Ari和W.J.J.Roberts,“A brief survey of SpeechEnhancement,”The Electronic Handbook,CRC Press,April 2005.
[3]Y.Ephraim和D.Malah,“Speech enhancement using a minimummean square error short time spectral amplitude estimator,”IEEE Trans.Acoust.Speech,Signal processing,vol.32,pp.1109-1121,Dec.1984.
[4]Thomas,I.和Niederjohn,R.,“Preprocessing of Speech for AddedIntelligibility in High Ambient Noise”,34th Audio Engineering SocietyConvention,March 1968.
[5]Villchur,E.,“Signal Processing to Improve Speech Intelligibility forthe Hearing Impired”,99th Audio Engineering Society Convention,September 1995.
[6]N.Virag,“Single channel speech enhancement based on maskingproperties of the human auditory system”,IEEE Tran.Speech and AudioProcessing,vol.7,pp.126-137,Mar.1999.
[7]R.Martin,“Spectral subtraction based on minimum statistics”,in Proc.EUSIPCO,1994,pp.1182-1185.
[8]P.J.Wolfe和S.J.Godsill,“Efficient alternatives to Ephraim andMalah suppression rule for audio signal enhancement”,EURASIP Journalon Applied Signal Processing,vol.2003,Issue 10,Pages 1043-1051,2003.
[9]B.Widrow和S.D.Stearns,Adaptive Signal Processing.EnglewoodCliffs,NJ:Prentice Hall,1985.
[10]Y Ephraim和D.Malah,“Speech enhancement using a minimummean square error Log-spectral amplitude estimator”,IEEE Trans.Acoust.,Speech,Signal Processing,vol.33,pp.443-445,Dec.1985.
[11]E.Terhardt,“Calculating Virtual Pitch”,Hearing Research,pp.155-182,1,1979.
[12]ISO/IEC JTC1/SC29/WG11,Information technology-Coding ofmoving pictures and associated audio for digital storage media at up to about1.5Mbit/s-Part3:Audio,IS 11172-3,1992.
[13]J.Johuston,“Transform coding of audio signals using perceptualnoise criteria”,IEEE.J Select.Areas Commun.,vol.6,pp.314-323,Feb.1998.
[14]S.Gustfsson,P.Jax,P Vary,“A novel psychoacoustically motivatedaudio enhancement algorithm preserving background noisecharacteristics”,Proceedings of the 1998 IEEE International Conferenceon Acoustics,Speech,and Signal Processing,1998.ICASSP’98.
[15]Yi Hu和P.C.Loizou,“Incorporating a psychoacoustic model infrequency domain speech enhancement”,IEEE Signal Processing Letter,pp.270-273,vol.11,no.2,Feb.2004.
[16]L.Lin,W.H.Holmes,和E.Ambikairajah,“Speech denoising usingperceptual modification of Wiener filtering”,Electronics Letter,pp1486-1487,vol.38,Nov,2002.
[17]A.M.Kondoz,“Digital Speech:Coding for Low Bit RateCommunication System”,John Wiley&Sons,Ltd.,2nd Edition,2004,Chichester,England,Chapter 10:Voice Activity Detection,pp.357-377.
发明内容
根据本发明的第一方面,对由语音成分和噪声成分组成的音频信号的语音成分进行增强。将音频信号从时域改变为频域内的多个子带。随后,对音频信号的子带进行处理。该处理包括:控制音频信号在所述子带中的多个子带内的增益,其中,至少通过用于传送(convey)增益上的加性/减性的差或增益的相乘比率的处理来控制子带内的增益,以(1)随着在子带内噪声成分的电平相对于语音成分的电平增大而减小子带内的增益,以及(2)当在音频信号的子带内存在语音成分时增大子带内的增益。这些处理均响应于音频信号的子带并彼此独立地控制增益,以提供经处理的子带音频信号。将经处理的子带音频信号从频域改变为时域,以提供增强了语音成分的音频信号。
这些处理可以包括语音增强处理,语音增强处理响应于音频信号的子带,以随着在这些子带内的噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。
这些处理可以包括话音清晰性处理,话音清晰性处理响应于音频信号的子带,以当在音频信号的子带内存在语音成分时增大子带中的多个子带内的增益。当从存在语音成分转变为不存在语音成分时,可以根据时间平滑减小增益增量。
这些处理还可以包括话音活动检测处理,话音活动检测处理响应于音频信号的子带,以确定何时在带噪语音信号内存在语音,话音清晰性处理还响应于所述话音活动检测处理。
当这些处理包括响应于音频信号的子带以确定何时在带噪语音信号内存在语音的话音活动检测处理时,所述语音增强处理和话音清晰性处理中的每一个还可以响应于话音活动检测处理。
根据本发明的另一方面,对由语音成分和噪声成分组成的音频信号的语音成分进行增强。将音频信号从时域改变为频域内的多个子带。随后,对音频信号的子带进行处理。该处理包括:当在音频信号的子带内存在语音成分时增大子带内的增益,以提供经处理的子带音频信号。对经处理的子带音频信号的子带进行处理,该处理包括控制经处理的子带音频信号在所述子带的多个子带内的增益,其中,随着在子带内噪声成分的电平相对于语音成分的电平增大而减小子带内的增益,以提供经进一步处理的子带音频信号。将该经进一步处理的子带音频信号从频域改变为时域,以提供增强了语音成分的音频信号。
处理可以包括语音增强处理,语音增强处理响应于音频信号中经处理的子带,以随着在这些子带内噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。
进一步处理可以包括话音清晰性处理,话音清晰性处理响应于音频信号的子带,以当在音频信号的子带内存在语音成分时增大子带中的多个子带内的增益。当从存在语音成分转变为不存在语音成分时,可以根据时间平滑减小增益增量。
处理和/或进一步处理可以包括话音活动检测处理,话音活动检测处理响应于音频信号的子带,以确定何时在带噪语音信号内存在语音,话音清晰性处理还响应于话音活动检测处理。
处理和/或进一步处理可以包括话音活动检测处理,话音活动检测处理响应于音频信号的子带,以确定何时在带噪语音信号内存在语音,所述语音增强处理和所述话音清晰性处理中的每一个还响应于话音活动检测处理。
处理可以包括语音活动检测处理,其响应于音频信号的子带,以确定何时在带噪语音信号内存在语音,所述语音增强处理和话音清晰性处理中的每一个还响应于所述话音活动检测处理。
附图说明
图1是示出本发明的示例性实施例的功能框图。
图2是示出本发明的可选示例性实施例的功能框图。
图3是示出作为Ek(m)/Emax(m)的函数的GVCk(m)的值的曲线图。
图4是与图1的示例性实施例有关的流程图。
图5是与图2的示例性实施例有关的流程图。
具体实施方式
图1示出根据第一拓扑功能配置的本发明的各方面的示例性实施例。通过对既包括干净语音又包括噪声的模拟语音信号进行数字化来生成输入。然后,将未改变的音频信号y(n)(“带噪语音”)(其中,n=0,1,...是时间指数)发送至解析滤波器组装置或功能(“解析滤波器组”)2,从而产生K多个子带信号Yk(m),k=1,...,K,m=0,1,...,∞,其中,k是子带号,m是每个子带信号的时间指数。解析滤波器组2将该音频信号从时域改变为频域中的多个子带。
将子带信号应用于噪声降低装置或功能(“语音增强”)4、话音活动检测器或检测功能(“VAD”)6和话音清晰性改善器或者改善功能(“话音清晰性”)8。
响应于所输入的子带信号并且可选地响应于VAD 6,语音增强4控制用于对子带信号的幅度进行定标(scale)的增益定标因数GNRk(m)。这种增益定标因数向子带信号的应用由乘法器符号10象征性地示出。为了表示清楚,附图示出了生成增益定标因数并将该增益定标因数应用于多个子带信号(k)中的仅一个子带信号的详情。
通过语音增强4来控制增益定标因数GNRk(m)的值,从而大大地抑制噪声成分(低信噪(“SNR”))占支配地位的子带,而保留受语音(高SNR)支配的子带。GNRk(m)的值在信噪比(SNR)减小的频率区域内减小(较强抑制),反之亦然。
响应于所输入的子带信号,VAD 6确定何时在带噪语音信号y(n)内存在语音,例如,假设存在语音时VAD=1输出,而不存在语音时VAD=0输出。
响应于所输入的子带信号并响应于VAD 6,话音清晰性8控制用于对子带信号的幅度进行定标的增益定标因数GVC’k(m)。这种将增益定标因数应用于子带信号由乘法器符号12象征性地示出。通过话音清晰性8来控制增益定标因数GVC’k(m)的值,以加强对语音的可懂度(intelligibility)重要的子带。通过VAD 6来控制话音清晰性8,从而增益因数GVC’k(m)提供存在语音时的话音频谱的至少一部分内的加强。如下文进一步说明的,当在没有语音的情况下切断加强时,可以应用平滑以使可听伪像(audible artifact)的引入最小化。
点符号(“·”)表示乘法。可以将增益定标因数GNRk(m)和GVC’k(m)以任一顺序应用于未增强的输入的子带信号Yk(m)——语音增强4和语音清晰性8彼此去耦合并且对子带信号独立地进行运算。
然后,可以通过使用产生增强的语音信号的合成滤波器组装置或处理(“合成滤波器组”)14,来将经处理的子带信号转换到时域。合成滤波器组将经处理的音频信号从频域改变到时域。图4的流程图示出了基于图1的示例性实施例的处理。最后的步骤表示接着将时间指数m加一(“m←m+1”)并重复图4的处理。
子带音频装置和处理可以使用模拟技术或数字技术,或者这两种技术的混合。子带滤波器组可以通过一组数字带通滤波器或者通过一组模拟带通滤波器来实现。对于数字带通滤波器,在滤波之前对输入信号进行采样。使样本通过数字滤波器组,然后,对样本进行下采样以获得子带信号。每个子带信号包括代表输入信号谱的一部分的样本。对于模拟带通滤波器,将输入信号划分为几个模拟信号,其中,每一个模拟信号均具有对应于滤波器组带通滤波器带宽的带宽。子带模拟信号可以保持为模拟形式或者通过采样并量化而转换成数字形式。
可以使用实现几个时域到频域变换中的任一个的变换编码器(其起到一组数字带通滤波器的作用)来获得子带音频信号。在滤波之前将采样后的输入信号分割成“信号样本块”。可以将一个或多个相邻的变换系数或面元(bin)组合在一起,以限定具有作为各个变换系数带宽的总和的有效带宽的“子带”。
尽管可以使用模拟或数字技术或者甚至这些技术的混合配置来实现本发明,但是使用数字技术更方便地实现了本发明,并且本文中所公开的优选实施例是数字实施方式。因此,解析滤波器组2和合成滤波器组14可以分别通过任何适合的滤波器组和逆滤波器组或者变换或逆变换来实现。
图2示出根据可选的拓扑功能配置的本发明的示例性实施例。与图2中的装置和功能相对应的装置和功能采用相同的参考标号。
图2与图1不同之处在于,语音增强4和话音清晰性8彼此没有去耦合,并且没有对子带信号单独进行运算。首先,将子带信号应用于话音清晰性8和VAD 6。将话音清晰性增益定标因数GVC’k(m)应用于乘法器12。如图1的拓扑结构,通过VAD 6来控制语音清晰性8,从而当存在语音时,增益因数GVC’k(m)选择性地提供加强。不同于图1的拓扑结构,语音增强4接收在乘法器12的输出端处的经语音清晰性处理后的子带信号并对该子带信号进行运算,而不是未增强的子带信号Yk(m)。这可以表示为:
点符号(“·”)表示乘法。
图1的拓扑结构和图2的拓扑结构都允许使用噪声抑制和信号加强语音增强,而不是取消了噪声抑制的信号加强。
尽管在图1和图2中示出了用乘法控制子带幅度的增益定标因数,但是本领域的普通技术人员可以明了可以采用等价的加法/减法配置。
图6的流程图示出基于图2的示例性实施例的处理。如图5的流程图,最后的步骤表示接着将时间指数m加一(“m←m+1”)并重复图6的处理。
语音增强4
在本发明的实际实施例中,可以将各种谱增强装置和功能用于实现语音增强4。在这些谱增强装置和功能之中,有采用基于VAD的噪声电平估计器的装置和功能以及采用基于统计的噪声电平估计器的装置和功能。这些有用的谱增强装置和功能可以包括在上文所列出的参考文件1、2、3、6和7中以及在下列的四份美国临时专利申请中所述的装置和功能:
(1)Rongshan Yu的“Noise Variance Estimator for SpeechEnhancement”,S.N.60/918,964,于2007年3月19日提交;
(2)Rongshan Yu的“Speech Enhancement Employing a PerceptualModel”,S.N.60/918,986,于2007年3月19日提交;以及
(3)Rongshan Yu的“Speech Enhancement with Noise LevelEstimation Adjustment”,S.N.60/993,548,于2007年9月12日提交。
(4)C.Philip Brown的“Speech Enhancement”,S.N.60/993,601,于2007年9月12日提交。
可以将语音增强增益因数GNRk(m)称为“抑制增益”,这是因为其目的是抑制噪声。一种控制抑制增益的方式被称为“谱减法”(参考文件[1]、[2]和[7]),其中,应用于子带信号Yk(m)的抑制增益GNRk(m)可以表示为:
其中,|Yk(m)|是子带信号Yk(m)的幅度,λk(m)是子带k内的噪声能量,以及a>1是被选择用来确保应用了足够的抑制增益的“过减法”因数。在参考文件[7]的第2页和参考文件6的第127页进一步说明了“过减法”。
为了确定抑制增益的适当量,对输入信号内的子带进行噪声能量的精确估计是重要的。然而,当在输入信号中噪声信号与语音信号混合在一起时,这样做并不是平常的任务。解决这个问题的一种方式是使用基于话音活动检测的噪声电平估计器(其使用独立的话音活动检测器(VAD)),以确定在输入信号中是否存在语音信号。在不存在语音(VAD=0)的时段期间更新噪声能量。例如,参见参考文件[3]。在这种噪声估计器中,关于时间m的噪声能量估计λk(m)可以通过下式给出:
噪声能量估计λk(-1)的初始值可以被设定为零,或者设定为在该处理的初始化阶段期间所测量出的噪声能量。参数β是具有值0<<β<1的平滑因数。当不存在语音(VAD=0)时,可以通过对输入信号Yk(m)的功率进行第一阶时间平滑器操作(有时称为“漏积分器”),来获得噪声能量的估计。平滑因数β可以是比一略小的正值。通常,对于固定的输入信号,接近于一的β值会导致更精确的估计。另一方面,值β不应太接近于一,以避免当输入变为不固定时损失追踪噪声能量的变化的能力。在本发明的实际实施例中,已经找到值β=0.98,用来提供令人满意的结果。然而,该值不是关键的。还可以通过使用可以是非线性或线性的更复杂的时间平滑器(诸如,多极低通滤波器)来估计噪声能量。
如在任何数字系统中,每个m的时间段是由子带的采样率来确定的。所以,其可以随着输入信号的采样率和所使用的滤波器组而变化。在实际的实施方式中,在具有8kHz语音信号并且滤波器组具有32的下采样因数的情况下,关于每个m的时间段是1(s)/8000*32=4ms。
话音活动检测器(VAD)6
已知多种话音活动检测器和检测器功能。在参考文件[17]的第10章及其目录中描述了适合的这类装置或功能。
话音清晰性6
在本发明的实际实施例中,各种话音清晰性装置和功能可以用于实现话音清晰性8。
语音由在感知时所使用的多个不同的提示(cue)组成。随着从肺中排出空气,声带振动。随着空气逸出,喉、嘴和鼻调节(modify)声能以产生各种各样的声音。“元音”具有强谐波能量的区域,并且利用未受阻碍的气流而生成。“辅音”(包括“无擦通音”、“摩擦音”和“塞音(stop)”)是通过增加的限制性的气流来生成的,并且具有比元音更高的频率含量(但具有更弱的能量)。长久以来就知道语音的辅音极大地有助于可懂度;并且尽管元音通常具有更强的能量,但是元音对于可懂度的贡献相对小。基于该事实,话音清晰性装置和功能通常使用诸如参考文件[4]中的均衡器、高通斜率滤波器(shelving filter)或高通滤波器来加强频率范围,在这些频率范围内,弱辅音通常存在于语音的更高频率,以便改善可懂度。如在参考文件[5]中,类似技术还在用于听力损伤听者(他们难以感知语音信号的高频成分)的助听器应用中使用。谱拉平方法诸如以下所描述的,于2007年9月12日提交的美国临时专利申请“,”C.Phillip Brown,序列号60/993,601。话音清晰性增益定标因数增大了语音信号中的相对弱成分的电平,使得它们被人类听者更好地感知。任何特定的话音清晰性装置或功能的选择对于本发明并不是关键的。
可以通过话音清晰性处理或装置来产生话音清晰性增益GVC’k(m),如下:
GVCk(m)是当输入为语音时的话音清晰性增益,0<κ<1是平滑因数。κ的值控制话音清晰性增益的速度,从而在语音的暂停期间减小至一(不加强)。可以通过实验来设定其最佳值。在本发明的实际实施例中,已找到κ=0.9的值,用来提供良好的结果。然而,该值不是关键的。因此,当存在语音成分时,话音清晰性处理使增益增大,其中,一旦从存在语音成分转变为不存在语音成分,增益随着时间平滑而减小。
具有增益因数GVCk(m)的目的是加强所选择的频率区域相对于其他频率区域的电平,从而改善语音信号的可懂度。在本发明的一种有用实施方式中,可以将GVCk(m)计算为Gmax或具有最高能量的子带内的能量与其他子带中的每一个内的能量的成比例的比率中的较小值:
其中
Ek(m)=αEk(m)+(1-α)|Yk(m)|2,(7)
0<γ<1是预先选择的定标因数,0<<α<1是平滑因数,Gmax是预先选择的最大增益。可以将初始值Ek(-1)设定为零。在进行处理后,值γ决定语音中的弱成分的能量与强成分的能量之比。例如,如果γ=0.5,则不管子带能量Ek(m)比Emax(m)小多少,都利用它们的差的一半来加强该子带能量——实际上用作针对该子带的2-1压缩器。Gmax的值控制话音清晰性算法的最大可允许的加强量。值γ和Gmax控制话音清晰性处理的积极性,这是因为它们共同地决定语音中的弱成分的加强量。它们的最佳值随着在处理的信号的特性、目标应用的听觉环境和用户偏好而变化。代替加强到固定幅度,可选地,加强可以面向取决于频率的幅度,诸如由高通倾斜响应所限定的幅度。
作为实例,图3示出作为Ek(m)/Emax(m)的函数的GVCk(m)的值。在该实例中,γ=1和Gmax=20dB。如关于上述的平滑因数,平滑因数α可以通过诸如单极低通滤波器(有时称为“漏积分器”)的第一阶时间平滑器或者可以非线性或线性(诸如,多极低通滤波器)的较复杂的时间平滑器来实现。
实施方式
本发明可以以硬件或软件、或者两者的结合(例如,可编程的逻辑阵列)来实现。除非另外指定,否则所包括的作为本发明的一部分的处理本质上并不与任何特定的计算机或其他设备相关。特别地,各种通用机器可以与根据本文中的教导所写的程序一起使用,或者其对于构造专用设备(例如,集成电路)以进行所需的方法步骤可以更加方便。因此,本发明可以以在一个或多个可编程计算机系统上运行的一个或多个计算机程序实现,其中,每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口以及至少一个输出装置或端口。程序代码应用于输入数据,以执行本文中所述的功能并生成输出信息。以已知的方式将输出信息应用于一个或多个输出装置。
每个这样的程序可以以任何期望的计算机语言(包括机器语言、汇编语言、或高级过程语言、逻辑语言、或面向对象的编程语言)实现,以与计算机系统进行通信。在任何情况下,语言可以是编译或解释语言。
应理解,在本文的各个实例中所示出和描述的各种装置、功能和处理可以以不同于本文的附图所示的方式的方式来组合或单独示出。例如,当由计算机软件指令序列实现时,可以通过在合适的数字信号处理硬件中运行的多线程软件指令序列来实现功能,在这种情况下,附图所示的实例中的各种装置和功能可以对应于软件指令的一部分。
优选地,将每个这种计算机程序存储在或下载到可由通用或专用的可编程计算机读取的存储介质或装置(例如,固态存储器或介质,或者磁性或光学介质),以当通过计算机系统读取存储介质或装置时对计算机进行配置和操作,以执行本文中所描述的过程。还可以将本发明的系统作为配置有计算机程序的计算机可读存储介质来实现,其中,这样配置的存储介质使计算机系统以特定且预先限定的方式来操作,以执行本文中所述的功能。
已描述了本发明的多个实施例。然而,应该理解,在不背离本发明的精神和范围的情况下,可以进行各种修改。例如,本文中所述的一些步骤可以是顺序独立的,因此,可以以与所述的顺序不同的顺序来执行这些步骤。
Claims (14)
1.一种用于增强由语音成分和噪声成分组成的音频信号的语音成分的方法,包括:
将所述音频信号从时域改变为频域内的多个子带,
对所述音频信号的子带进行处理,所述处理包括控制所述音频信号在所述子带中的一些子带内的增益,其中,至少通过用于传送增益上的加性/减性差或增益的相乘比率的处理来控制子带内的增益,以:
随着在子带内的噪声成分的电平相对于语音成分的电平增大而减小该子带内的增益,以及
当在所述音频信号的子带内存在语音成分时增大子带内的增益,
所述处理均响应于所述音频信号的子带并彼此独立地控制增益,以提供经处理的子带音频信号,以及
将所述经处理的子带音频信号从频域改变为时域,以提供增强了语音成分的音频信号。
2.根据权利要求1所述的方法,其中,所述处理包括语音增强处理,所述语音增强处理响应于所述音频信号的子带,以随着在这些子带内的噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。
3.根据权利要求1或权利要求2所述的方法,其中,所述处理包括话音清晰性处理,所述话音清晰性处理响应于所述音频信号的子带,以当在所述音频信号的子带内存在语音成分时增大所述多个子带中的一些子带内的增益。
4.根据权利要求3所述的方法,其中,所述处理包括话音活动检测处理,所述话音活动检测处理响应于所述音频信号的子带,以确定何时在带噪语音信号内存在语音,所述话音清晰性处理还响应于所述话音活动检测处理。
5.根据权利要求2或权利要求3所述的方法,其中,所述处理包括话音活动检测处理,所述话音活动检测处理响应于所述音频信号的子带,以确定何时在带噪语音信号内存在语音,所述语音增强处理和所述话音处理中的每一个还响应于所述话音活动检测处理。
6.根据权利要求4或5所述的方法,其中,当语音成分存在时,所述话音清晰性处理增大增益,当从存在语音成分转变为不存在语音成分时,所述增益根据时间平滑而减小。
7.一种用于增强由语音成分和噪声成分组成的音频信号的语音成分的方法,包括:
将所述音频信号从时域改变为频域内的多个子带,
对所述音频信号的子带进行处理,所述处理包括当在所述音频信号的子带内存在语音成分时增大子带内的增益,以提供经处理的子带音频信号,
对所述经处理的子带音频信号的子带进行处理,所述对经处理的子带音频信号的子带进行处理包括控制所述经处理的子带音频信号在所述子带的一些子带内的增益,其中,随着在子带内噪声成分的电平相对于语音成分的电平增大而减小该子带内的增益,以提供经进一步处理的子带音频信号,以及
将所述经进一步处理的音频信号从频域改变为时域,以提供增强了语音成分的音频信号。
8.根据权利要求7所述的方法,其中,所述处理包括语音增强处理,所述语音增强处理响应于所述音频信号经处理的子带,以随着在这些子带内噪声成分的电平相对于语音成分的电平增大而减小这些子带内的增益。
9.根据权利要求7或权利要求8所述的方法,其中,所述进一步处理包括话音清晰性处理,所述话音清晰性处理响应于所述音频信号的子带,以当在所述音频信号的子带内存在语音成分时增大所述子带中的一些子带内的增益。
10.根据权利要求9所述的方法,其中,所述处理和/或所述进一步处理包括话音活动检测处理,所述话音活动检测处理响应于所述音频信号的子带,以确定何时在带噪语音信号内存在语音,所述话音清晰性处理还响应于所述话音活动检测处理。
11.根据权利要求8或权利要求9所述的方法,其中,所述处理和/或所述进一步处理包括话音活动检测处理,所述话音活动检测处理响应于所述音频信号的子带,以确定何时在带噪语音信号内存在语音,所述语音增强处理和所述话音清晰性处理中的每一个还响应于所述话音活动检测处理。
12.根据权利要求10或11所述的方法,其中,所述话音清晰性处理在语音成分存在时增大增益,当从存在语音成分转变为不存在语音成分时,所述增益根据时间平滑而减小。
13.一种用于执行权利要求1至12中的任一项所述的方法的设备。
14.一种存储在计算机可读介质上的计算机程序,用于使计算机执行权利要求1至12中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US99369107P | 2007-09-12 | 2007-09-12 | |
US60/993,691 | 2007-09-12 | ||
PCT/US2008/010590 WO2009035614A1 (en) | 2007-09-12 | 2008-09-10 | Speech enhancement with voice clarity |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101802910A true CN101802910A (zh) | 2010-08-11 |
CN101802910B CN101802910B (zh) | 2012-11-07 |
Family
ID=40076697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008801065345A Active CN101802910B (zh) | 2007-09-12 | 2008-09-10 | 利用话音清晰性的语音增强 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8583426B2 (zh) |
EP (1) | EP2191466B1 (zh) |
JP (1) | JP5302968B2 (zh) |
CN (1) | CN101802910B (zh) |
BR (1) | BRPI0816792B1 (zh) |
RU (1) | RU2469423C2 (zh) |
WO (1) | WO2009035614A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559887A (zh) * | 2013-11-04 | 2014-02-05 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
CN105679325A (zh) * | 2010-11-09 | 2016-06-15 | 索尼公司 | 解码设备、解码方法以及音频处理设备 |
CN106328159A (zh) * | 2016-09-12 | 2017-01-11 | 合网络技术(北京)有限公司 | 一种音频流的处理方法及装置 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US9185500B2 (en) | 2008-06-02 | 2015-11-10 | Starkey Laboratories, Inc. | Compression of spaced sources for hearing assistance devices |
US9485589B2 (en) | 2008-06-02 | 2016-11-01 | Starkey Laboratories, Inc. | Enhanced dynamics processing of streaming audio by source separation and remixing |
US8705751B2 (en) * | 2008-06-02 | 2014-04-22 | Starkey Laboratories, Inc. | Compression and mixing for hearing assistance devices |
US8983832B2 (en) * | 2008-07-03 | 2015-03-17 | The Board Of Trustees Of The University Of Illinois | Systems and methods for identifying speech sound features |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
GB2484969B (en) * | 2010-10-29 | 2013-11-20 | Canon Kk | Improved reference frame for video encoding and decoding |
WO2013142723A1 (en) | 2012-03-23 | 2013-09-26 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
CN103325383A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 音频处理方法和音频处理设备 |
JP6135106B2 (ja) | 2012-11-29 | 2017-05-31 | 富士通株式会社 | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム |
CN105453594B (zh) | 2013-07-22 | 2020-03-03 | 哈曼贝克自动系统股份有限公司 | 自动音色控制 |
EP3025516B1 (en) * | 2013-07-22 | 2020-11-04 | Harman Becker Automotive Systems GmbH | Automatic timbre, loudness and equalization control |
EP3103204B1 (en) * | 2014-02-27 | 2019-11-13 | Nuance Communications, Inc. | Adaptive gain control in a communication system |
US9953661B2 (en) | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
RU2589298C1 (ru) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |
RU2676022C1 (ru) * | 2016-07-13 | 2018-12-25 | Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" | Способ повышения разборчивости речи |
EP3312838A1 (en) | 2016-10-18 | 2018-04-25 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for processing an audio signal |
US20210089887A1 (en) * | 2019-09-24 | 2021-03-25 | Apple Inc. | Variance-Based Learning Rate Control For Training Machine-Learning Models |
RU2726326C1 (ru) * | 2019-11-26 | 2020-07-13 | Акционерное общество "ЗАСЛОН" | Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
CN1121684C (zh) | 1995-09-14 | 2003-09-17 | 艾利森公司 | 用于选择性地改变一帧数字信号的方法和装置 |
JP3454403B2 (ja) * | 1997-03-14 | 2003-10-06 | 日本電信電話株式会社 | 帯域分割型雑音低減方法及び装置 |
FR2768547B1 (fr) | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de debruitage d'un signal de parole numerique |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US6088668A (en) * | 1998-06-22 | 2000-07-11 | D.S.P.C. Technologies Ltd. | Noise suppressor having weighted gain smoothing |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US6289309B1 (en) | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6604071B1 (en) | 1999-02-09 | 2003-08-05 | At&T Corp. | Speech enhancement with gain limitations based on speech activity |
US6732073B1 (en) | 1999-09-10 | 2004-05-04 | Wisconsin Alumni Research Foundation | Spectral enhancement of acoustic signals to provide improved recognition of speech |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US6366880B1 (en) | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
US6760435B1 (en) | 2000-02-08 | 2004-07-06 | Lucent Technologies Inc. | Method and apparatus for network speech enhancement |
JP2002149200A (ja) | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
JP2002169599A (ja) * | 2000-11-30 | 2002-06-14 | Toshiba Corp | ノイズ抑制方法及び電子機器 |
US20030023429A1 (en) | 2000-12-20 | 2003-01-30 | Octiv, Inc. | Digital signal processing techniques for improving audio clarity and intelligibility |
EP1376539B8 (en) * | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
US20030028386A1 (en) | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
CA2354755A1 (en) | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
EP1522206B1 (en) * | 2002-07-12 | 2007-10-03 | Widex A/S | Hearing aid and a method for enhancing speech intelligibility |
JP2005037650A (ja) * | 2003-07-14 | 2005-02-10 | Asahi Kasei Corp | 雑音低減装置 |
CN1322488C (zh) * | 2004-04-14 | 2007-06-20 | 华为技术有限公司 | 一种语音增强的方法 |
US7492889B2 (en) | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
US20060206320A1 (en) | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
EP1760696B1 (en) | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
-
2008
- 2008-09-10 CN CN2008801065345A patent/CN101802910B/zh active Active
- 2008-09-10 RU RU2010114272/08A patent/RU2469423C2/ru active
- 2008-09-10 EP EP08830357.3A patent/EP2191466B1/en active Active
- 2008-09-10 WO PCT/US2008/010590 patent/WO2009035614A1/en active Application Filing
- 2008-09-10 JP JP2010524854A patent/JP5302968B2/ja active Active
- 2008-09-10 US US12/677,086 patent/US8583426B2/en active Active
- 2008-09-10 BR BRPI0816792A patent/BRPI0816792B1/pt active IP Right Grant
Non-Patent Citations (1)
Title |
---|
NATHALIE VIRAG: "SINGLE CHANNEL SPEECH ENHANCEMENT BASED ON MASKING PROPERTIES OF THE HUMAN AUDITORY SYSTEM", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679325A (zh) * | 2010-11-09 | 2016-06-15 | 索尼公司 | 解码设备、解码方法以及音频处理设备 |
CN105679325B (zh) * | 2010-11-09 | 2020-02-21 | 索尼公司 | 解码设备以及解码方法 |
CN103559887A (zh) * | 2013-11-04 | 2014-02-05 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
CN103559887B (zh) * | 2013-11-04 | 2016-08-17 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
CN106328159A (zh) * | 2016-09-12 | 2017-01-11 | 合网络技术(北京)有限公司 | 一种音频流的处理方法及装置 |
CN106328159B (zh) * | 2016-09-12 | 2021-07-09 | 优酷网络技术(北京)有限公司 | 一种音频流的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2191466B1 (en) | 2013-05-22 |
JP2010539539A (ja) | 2010-12-16 |
WO2009035614A1 (en) | 2009-03-19 |
BRPI0816792A2 (pt) | 2015-09-01 |
RU2469423C2 (ru) | 2012-12-10 |
EP2191466A1 (en) | 2010-06-02 |
BRPI0816792B1 (pt) | 2020-01-28 |
JP5302968B2 (ja) | 2013-10-02 |
RU2010114272A (ru) | 2011-10-20 |
US20100211388A1 (en) | 2010-08-19 |
CN101802910B (zh) | 2012-11-07 |
US8583426B2 (en) | 2013-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101802910B (zh) | 利用话音清晰性的语音增强 | |
CN103827965B (zh) | 自适应语音可理解性处理器 | |
US8275611B2 (en) | Adaptive noise suppression for digital speech signals | |
CN101802909B (zh) | 通过噪声水平估计调整进行的语音增强 | |
ES2347760T3 (es) | Procedimiento y dispositivo de reduccion de ruido. | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
CN101636648B (zh) | 采用感知模型的语音增强 | |
US7454332B2 (en) | Gain constrained noise suppression | |
US20100198588A1 (en) | Signal bandwidth extending apparatus | |
EP1271472A2 (en) | Frequency domain postfiltering for quality enhancement of coded speech | |
US20170040027A1 (en) | Frequency domain noise attenuation utilizing two transducers | |
CN103238183A (zh) | 噪音抑制装置 | |
CN104637491A (zh) | 用于内部mmse计算的基于外部估计的snr的修改器 | |
JP2023536104A (ja) | 機械学習を用いたノイズ削減 | |
CN104637493A (zh) | 改进噪声抑制性能的语音概率存在修改器 | |
Jokinen et al. | Signal-to-noise ratio adaptive post-filtering method for intelligibility enhancement of telephone speech | |
Bao et al. | A novel speech enhancement method using power spectra smooth in wiener filtering | |
EP2006841A1 (en) | Signal processing method and device and training method and device | |
Lu et al. | Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition | |
Upadhyay et al. | Single-Channel Speech Enhancement Using Critical-Band Rate Scale Based Improved Multi-Band Spectral Subtraction | |
Hirsch et al. | Robust Speech Recognition by Combining a Robust Feature Extraction with an Adaptation of HMMs. | |
Petrick et al. | Robust front end processing for speech recognition in reverberant environments: Utilization of speech characteristics | |
Lan et al. | Speech Enhancement Algorithm Combining Cochlear Features and Deep Neural Network with Skip Connections | |
Wiesener et al. | Adaptive Noise Reduction for Real-time Applications | |
Suhadi et al. | A novel environment-dependent speech enhancement method with optimized memory footprint. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |