CN103827967B - 语音信号复原装置以及语音信号复原方法 - Google Patents
语音信号复原装置以及语音信号复原方法 Download PDFInfo
- Publication number
- CN103827967B CN103827967B CN201180073679.1A CN201180073679A CN103827967B CN 103827967 B CN103827967 B CN 103827967B CN 201180073679 A CN201180073679 A CN 201180073679A CN 103827967 B CN103827967 B CN 103827967B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- signal
- voice signal
- band
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims abstract description 104
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims description 15
- 238000007493 shaping process Methods 0.000 claims description 15
- 230000001629 suppression Effects 0.000 claims description 13
- 239000000654 additive Substances 0.000 claims description 9
- 230000000996 additive effect Effects 0.000 claims description 9
- 230000033228 biological regulation Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 20
- 230000000694 effects Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000011084 recovery Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000006378 damage Effects 0.000 description 6
- 230000008676 import Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000003584 silencer Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Noise Elimination (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
音源生成部(101)根据未进行噪声抑制处理的窄频带语音信号生成包括所复原的频带的微细构造的音源信号。另一方面,噪声抑制部(102)对窄频带语音信号进行噪声抑制,谱包络推测部(103)推测所复原的频带的谱包络。信号合成部(104)合成音源信号和谱包络来生成虚拟语音信号,带通滤波器部(105)使所复原的频带的虚拟语音信号通过,信号加法部(106)对窄频带语音信号相加所复原的频带的虚拟语音信号而生成宽频带的语音复原信号。
Description
技术领域
本发明涉及语音信号复原装置以及语音信号复原方法,该语音信号复原装置以及语音信号复原方法从由于经由电话线路等传送路等而频率频带被限制为窄频带的语音信号向宽频带的语音信号扩展、或者对由于噪声抑制处理以及语音压缩处理等而劣化以及缺损了的频带的语音信号进行复原。
背景技术
在模拟电话中,通过电话线路发送的语音的频率频带被限制得较窄、例如300~3400Hz。因此,无法说以往的电话线路的音质非常良好。另外,在便携电话等数字语音通信中,由于比特率的限制,与模拟线路同样地频带宽度被限制,所以即使在该情况下,也无法说音质良好。
针对上述课题,有在接收侧根据窄频带语音信号虚拟地生成或者复原宽频带语音信号的语音信号复原技术。但是,该语音信号复原技术本来是作为应用于音频或者固定电话的技术而发展起来的,以在成为复原对象的窄频带语音信号中未混入噪声、或者仅混入少量的噪声的环境为前提的情况较多。
另一方面,作为在成为复原对象的窄频带语音信号中混入了噪声的情况下的、虚拟的宽频带语音信号的复原技术,提出了例如专利文献1的语音频带扩展装置。
在该专利文献1中,作为语音信号复原的预处理,导入了将窄频带语音信号分离为噪声去除信号(语音分量)和提取噪声信号(噪声分量)的分量分离部。该分量分离部由噪声去除部、差分处理部以及周期分量去除部构成,分离为由噪声去除部提取出的语音分量、和由差分处理部以及周期分量去除部提取出的噪声分量。然后,在分量分离部的后级,针对各个分量进行语音信号复原,从而即使在成为输入的窄频带语音信号中混入了噪声,令人不悦的噪声降低,所输出的宽频带的语音复原信号的清晰度提高。
专利文献1:日本特开2011-75728号公报
发明内容
在上述以往方法中,存在以下叙述的课题。
在上述专利文献1公开的语音信号复原技术中,在成为输入的窄频带语音信号中以低SN比(Signal to Noise ratio:信噪比)混入了噪声的情况下,噪声去除部的噪声推测未顺利地动作,噪声量将被过剩地推测。于是,根据被过剩地推测的噪声量进行噪声抑制,所以存在不仅是窄频带语音信号的噪声分量、而且语音分量也被抑制,且所分离出的语音分量的谐波构造破坏这样的课题。
进而,还存在如果使用谐波构造破坏了的窄频带语音信号来生成包括扩展频带的微细构造的音源信号,则反而变为清晰度低的语音这样的课题。其原因为,由于使用窄频带语音信号的谐波构造的信息来生成包括扩展频带的微细构造的音源信号,所以易于受到谐波构造的破坏的影响的缘故。
本发明是为了解决上述课题而完成的,其目的在于提供一种语音信号复原装置以及语音信号复原方法,即使在成为输入的窄频带语音信号中以低SN比混入了噪声的情况下,也能够防止窄频带语音信号的谐波构造的破坏,生成清晰度高的语音复原信号。
本发明提供一种语音信号复原装置,其特征在于,具备:音源生成部,根据第1频率频带的语音信号生成包含该第1频率频带的第2频率频带的音源信号;噪声抑制部,抑制第1频率频带的语音信号中包含的噪声分量;谱包络推测部,根据由噪声抑制部抑制了噪声的第1频率频带的语音信号,推测第2频率频带的谱包络;以及信号合成部,合成音源生成部生成的第2频率频带的音源信号以及谱包络推测部推测出的第2频率频带的谱包络,生成第2频率频带的语音信号。
本发明提供一种语音信号复原方法,其特征在于,具备:音源生成步骤,根据第1频率频带的语音信号生成包含该第1频率频带的第2频率频带的音源信号;噪声抑制步骤,抑制第1频率频带的语音信号中包含的噪声分量;谱包络推测步骤,根据在噪声抑制步骤中抑制了噪声的第1频率频带的语音信号,推测第2频率频带的谱包络;以及信号合成步骤,合成在音源生成步骤中生成的第2频率频带的音源信号以及在谱包络推测步骤中推测出的第2频率频带的谱包络,生成第2频率频带的语音信号。
根据本发明,设为根据未进行噪声抑制处理的第1频率频带的语音信号生成音源信号,所以能够防止该语音信号的谐波构造的破坏。因此,即使在以低SN比混入了噪声的情况下,也能够使用语音信号本来具有的谐波构造的信息来生成音源信号,作为结果,能够生成清晰度高的语音复原信号。
附图说明
图1是示出本发明的实施方式1的语音信号复原装置的结构的框图。
图2是实施方式1的语音信号复原装置进行的频带扩展处理的影像图。
图3是示出本发明的实施方式2的语音信号复原装置的结构的框图。
图4是示出本发明的实施方式3的语音信号复原装置的结构的框图。
图5是示出本发明的实施方式4的语音信号复原装置的结构的框图。
图6是本发明的实施方式5的语音信号复原装置进行的语音复原处理的影像图。
图7是示出使用了本发明的实施方式6的语音信号复原装置的免提语音通话系统的结构的框图。
符号说明
100:语音信号复原装置;101:音源生成部;102:噪声抑制部;103:谱包络推测部;104:信号合成部;105:带通滤波器部(第1带通滤波器部);106、106a:信号加法部;107:弱噪声抑制部;108:谱整形部;200:免提语音通话系统;201:外部通信部;202:外部输入输出部;203:回波消除器部;204:噪声抑制器部。
具体实施方式
以下,为了更详细地说明本发明,依照附图,说明具体实施方式。
实施方式1.
图1是示出本实施方式1的语音信号复原装置100的结构的框图。
该语音信号复原装置100是如下装置:将对宽频带的语音信号(以下称作宽频带语音信号)进行频带限制而得到的窄频带的语音信号(以下称作窄频带语音信号)作为输入,生成该受限制了的频带(以下称作扩展频带)的信号并与窄频带语音信号合成,生成宽频带的语音复原信号。
在图1中,音源生成部101将窄频带语音信号作为输入,生成包括扩展频带的细微构造的音源信号,并输出到信号合成部104。噪声抑制部102将窄频带语音信号作为输入,进行噪声抑制,将抑制了噪声的窄频带语音信号输出到谱包络推测部103。谱包络推测部103将抑制了噪声的窄频带语音信号作为输入,推测扩展频带的谱包络,并输出到信号合成部104。信号合成部104将音源信号和谱包络作为输入,生成包括扩展频带的虚拟语音信号,并输出到带通滤波器部105。带通滤波器部(第1带通滤波器部)105将虚拟语音信号作为输入,提取窄频带语音信号的频带以外的频率分量而输出到信号加法部106。信号加法部106将窄频带语音信号和频带被带通滤波器部105限制了的虚拟语音信号作为输入,对该2个信号进行加法运算,从而生成宽频带的语音复原信号,并输出到装置外。
在本实施方式1中,为了防止破坏成为输入的窄频带语音信号的谐波构造,在音源生成部101的前级不导入噪声抑制部。由此,在音源生成部101中,即使在窄频带语音信号中混入了噪声的情况下,也能够根据本来的语音具有的谐波构造来生成包括扩展频带的微细构造的音源信号。因此,即使在成为输入的窄频带语音信号中以低SN比混入了噪声的情况下,也能够生成清晰度高的宽频带的语音复原信号。
以下,说明语音信号复原装置100的动作。
首先,在对通过麦克风(未图示)等取入的语音以及音乐等进行了A/D(模拟/数字)变换之后,按照规定的采样频率(例如8000Hz)采样并且按照帧单位(例如10ms)进行分割,进而作为频带受限制了的窄频带语音信号(例如300~3400Hz)而输入到本实施方式1的语音信号复原装置100。
另外,在该说明中,将扩展频带设为50~300Hz以及3400~7000Hz、将最终得到的宽频带的语音复原信号的频率频带设为50~7000Hz。
图2是本实施方式1的语音信号复原装置100进行的频带扩展处理的影像图,图2的(a)示出成为输入的窄频带语音信号,图2的(b)示出成为输出的宽频带的语音复原信号。语音信号复原装置100针对被限制为频带I的窄频带语音信号,推测并赋予本来应没有的低频II以及高频II’,来生成扩展到频带II、I、II’的宽频带的语音复原信号。
另外,频带I相当于第1频率频带,频带II、I、II’相当于第2频率频带。
音源生成部101通过对窄频带语音信号进行非线性处理,生成包括扩展频带II、II’的微细构造的音源信号。作为生成扩展频带II、II’的谐波构造的非线性处理,例如,既可以使用平方处理、全波整流、半波整流,也可以进行这些以外的处理。
噪声抑制部102对窄频带语音信号进行噪声抑制,将抑制了噪声的窄频带语音信号输出到谱包络推测部103。
另外,在噪声抑制部102中使用的噪声抑制处理的算法采用一般的算法即可,例如,能够应用谱减(Spectral Subtraction)法(S.F.Boll,“Suppression of acoustic noise in speech using spectral subtraction”,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP-27,No.2,pp.113-120,1979)、维纳滤波(Wiener Filter)法(J.S.Lim,A.V.Oppenheim,“Enhancement and bandwidthcompression of noisy speech”,Proc.IEEE,vol.67,No.12,pp.1586-1604,1979)、以及最大似然推测法(R.J.McAulay,M.L.Malpass,“Speech enhancement using a soft-decision noisesuppression filter”,IEEE Trans.on Acoustics,Speech,and SignalProcessing,vol.ASSP-28,No.2,pp.137-145,1980)等。
谱包络推测部103如后所述,仅使用抑制了噪声的窄频带语音信号的振幅谱值的信息而推测了扩展频带II、II’的振幅谱值。在这样的使用振幅谱值的信息来推测谱包络的手法中,如果在窄频带语音信号中噪声分量残留,则所推测的扩展频带的振幅谱值将被过剩地推测,最终,宽频带的语音复原信号的清晰度将降低。因此,作为谱包络推测部103的预处理,通过噪声抑制部102进行噪声抑制。
另外,即使这样进行噪声抑制,如上所述,由于谱包络推测部103仅使用振幅谱值的信息,而不使用谐波构造的信息,所以相比于音源生成部101,不易受到窄频带语音信号的语音分量的、噪声抑制所致的谐波构造的破坏的影响。
谱包络推测部103计算由噪声抑制部102抑制了噪声的窄频带语音信号的振幅谱的平均值(以下称作平均振幅谱值),根据该平均振幅谱值,使用预先准备好的学习模型来推测扩展频带II、II’的谱包络,并输出到信号合成部104。
此处,作为例子,叙述根据窄频带语音信号的平均振幅谱值来推测扩展频带的平均振幅谱值的方法,但只要不使用谐波构造的信息而能够推测谱包络,也可以是这以外的方法。
另外,关于在谱包络推测部103中用于推测的学习模型,通过一般的算法学习即可,既可以使用例如线性回归预测、神经网络(NeuralNetwork)等,也可以是这些以外的学习模型。
另外,即使由于仅进行只使用了这样的平均振幅谱值的大致的推测而在成为输入的窄频带语音信号中以低SN比混入噪声、在扩展频带的平均振幅谱值上产生少量的推测误差,也成为宽频带的语音复原信号的音质不会劣化的、针对噪声健壮的谱包络推测。
另外,谱包络推测部103也可以分成几个子带来求出成为输入的窄频带语音信号的平均振幅谱值、所推测的扩展频带的平均振幅谱值。由此,具有能够更高精度地推测扩展频带的谱包络的效果。
此时,谱包络推测部103也可以进行每个子带的噪声量推测,仅使用推测噪声量少的子带来求出扩展频带的平均振幅谱值。由此,具有抑制由于在成为输入的窄频带语音信号中混入噪声的影响而扩展频带的平均振幅谱值被过剩地推测的效果。
另外,也可以对所推测的扩展频带的平均振幅谱值设置规定的上限值。由此,具有防止在成为输入的窄频带语音信号中混入噪声,扩展频带的平均振幅谱值与理想的宽频带语音信号相比被过剩地推测的效果。此处所称的“理想的宽频带语音信号”是指频带被限制之前的语音信号。
该上限值既可以是固定值,也可以根据成为输入的窄频带语音信号的平均振幅谱值针对每个帧动态地变更。
另外,谱的样式根据音韵而不同,所以也可以根据音韵特征而切换该上限值。例如,已知无声摩擦音部的谱的振幅谱值随着成为高频而变大,所以在无声摩擦音部增大上限值。由此,能够期待得到清晰度更高的宽频带的语音复原信号的效果。
另外,在本实施方式1中,作为谱包络推测部103在推测中使用的尺度,以振幅谱值为例子进行了说明,但不限于此,也可以将功率谱等用作尺度。
信号合成部104将由音源生成部101生成的包括扩展频带II、II’的微细构造的音源信号、和由谱包络推测部103推测的扩展频带II、II’的谱包络作为输入并将该2个合成,从而生成频带II、I、II’的虚拟语音信号。
带通滤波器部105将由信号合成部104生成的虚拟语音信号作为输入,从该虚拟语音信号仅提取窄频带语音信号的频带I以外的频率分量,作为频带受限制了的虚拟语音信号(频带II、II’)输出到信号加法部106。在本实施方式1中,提取300Hz以下的低频分量和3400Hz以上的高频分量。
另外,带通滤波器部105相当于第1带通滤波器部,频带II、II’相当于第3频率频带。
该带通滤波器部105在低频分量以及高频分量的提取中,使用FIR(Finite Impulse response:有限冲激响应)滤波器、IIR(InfiniteImpulse Response:无限冲激响应)滤波器等即可。
信号加法部106将窄频带语音信号(频带I)、和由带通滤波器部105限制了频带的虚拟语音信号(频带II、II’)作为输入并对该2个信号进行加法运算,从而生成频带II、I、II’的宽频带的语音复原信号。
以上,根据实施方式1,语音信号复原装置100构成为具备:音源生成部101,根据被限制为频带I的窄频带语音信号生成频带II、I、II’的音源信号;噪声抑制部102,抑制窄频带语音信号中包含的噪声分量;谱包络推测部103,根据由噪声抑制部102抑制了噪声的窄频带语音信号,推测频带II、II’的谱包络;以及信号合成部104,合成音源生成部101生成的频带II、I、II’的音源信号、以及谱包络推测部103推测出的频带II、II’的谱包络来生成频带II、I、II’的虚拟语音信号,所以成为根据未进行噪声抑制处理的窄频带语音信号生成音源信号,能够防止音源信号的谐波构造的破坏。因此,即使在以低SN比混入了噪声的情况下,也能够使用窄频带语音信号本来具有的谐波构造的信息来生成音源信号,作为结果,能够复原清晰度高的宽频带的语音复原信号。
另外,根据实施方式1,语音信号复原装置100构成为具备:带通滤波器部105,从信号合成部104合成了的频带II、I、II’的虚拟语音信号提取频带II、II’的虚拟语音信号;以及信号加法部106,对由带通滤波器部105提取出的频带II、II’的虚拟语音信号以及窄频带语音信号进行加法运算。因此,能够使用根据窄频带语音信号本来具有的谐波构造生成的虚拟语音信号来扩展频带,能够复原清晰度高的宽频带的语音复原信号。
另外,根据实施方式1,谱包络推测部103构成为根据依据由噪声抑制部102抑制了噪声的窄频带语音信号求出的平均振幅谱值,推测频带II、II’的平均振幅谱值来作为谱包络。因此,在推测谱包络时不使用谐波构造的信息而不易受到噪声抑制的影响,能够生成清晰度高的宽频带的语音复原信号。
另外,在上述实施方式1中,说明了实施低频II和高频II’这两方的频带复原的结构,但也可以构成为根据需要实施仅低频II或者仅高频II’的频带复原。
实施方式2.
图3是示出本实施方式2的语音信号复原装置100的结构的框图,对与图1相同或者相当的部分附加同一符号而省略说明。
本实施方式2的语音信号复原装置100是上述实施方式1的变形例,作为音源生成部101的预处理导入了弱噪声抑制部107。
如之前说明的那样,在以往的语音信号复原技术中,在相对成为输入的窄频带语音信号以低SN比混入了噪声的情况下,存在噪声推测不能顺利地动作,噪声量被过剩地推测这样的课题。在该情况下,根据被过剩地推测出的噪声量进行噪声抑制,所以不仅窄频带语音信号的噪声分量而且语音分量也被抑制,有时将破坏窄频带语音信号的语音分量的谐波构造。成为输入的窄频带语音信号的语音分量的谐波构造的破坏特别在音源信号生成中是很严重的。
因此,在本实施方式2中,在弱噪声抑制部107中,对噪声抑制量设置规定的上限值,并根据该上限值以下的噪声抑制量进行噪声抑制,以不会由于噪声抑制而破坏窄频带语音信号的语音分量的谐波构造。
另外,噪声抑制量的上限值既可以是固定值,也可以检测成为输入的窄频带语音信号的振幅的最大值并根据该值而针对每个帧动态地变更。
另外,在弱噪声抑制部107中使用的算法既可以与噪声抑制部102的算法相同,也可以不同。
以上,根据实施方式2,构成为语音信号复原装置100具备在将噪声抑制量限制在规定的上限值内的同时抑制窄频带语音信号中包含的噪声分量的弱噪声抑制部107,音源生成部101根据由弱噪声抑制部107抑制了噪声的窄频带语音信号生成频带II、I、II’的音源信号。因此,作为振幅谱值推测的预处理,能够在抑制谐波构造的破坏的影响的同时进行噪声抑制,具有即使在成为输入的窄频带语音信号中以低SN比混入噪声的情况下,也生成清晰度高的宽频带的语音复原信号的效果。
实施方式3.
图4是示出本实施方式3的语音信号复原装置100的结构的框图,对与图1相同或者相当的部分附加同一符号而省略说明。
本实施方式3的语音信号复原装置100是上述实施方式1的变形例,将向信号加法部106a的输入变更为由噪声抑制部102抑制了噪声的窄频带语音信号,来代替窄频带语音信号。
该信号加法部106a将由噪声抑制部102抑制了噪声的窄频带语音信号(例如图2所示的频带I)、和由带通滤波器部105限制了频带的虚拟语音信号(例如图2所示的频带II、II’)作为输入并对该2个信号进行加法运算,从而生成宽频带的语音复原信号。
以上,根据实施方式3,信号加法部106a构成为对由带通滤波器部105提取出的频带II、II’的虚拟语音信号、以及由噪声抑制部102抑制了噪声的窄频带语音信号进行加法运算。因此,成为最终的输出的宽频带的语音复原信号的窄频带语音信号部分的频带I被置换为抑制了噪声的信号。其结果,具有即使在成为输入的窄频带语音信号中以低SN比混入噪声的情况下,也生成清晰度比上述实施方式1更高的宽频带的语音复原信号的效果。
实施方式4.
图5是示出本实施方式4的语音信号复原装置100的结构的框图,对与图3相同或者相当的部分附加同一符号而省略说明。
本实施方式4的语音信号复原装置100是上述实施方式2的变形例,作为信号加法部106的后处理导入了谱整形部108。
关于由语音信号复原装置100生成的宽频带的语音复原信号,如果与理想的宽频带语音信号相比较,则存在谐波构造的极大值变大、相反地极小值变小的倾向。其原因为,在谱包络推测中存在少量的推测误差。而且,由于混入噪声,扩展频带的谱包络的推测精度相比于仅语音时降低了,所以该倾向在根据混入了噪声的窄频带语音信号生成扩展频带并生成了宽频带的语音复原信号的情况下显著。这样的与理想的宽频带语音信号的差异成为使清晰度降低的主要原因之一。
因此,在本实施方式4中,导入谱整形部108,对在上述中叙述的谐波构造的破坏进行整形而设为接近理想的宽频带语音信号的谐波构造,从而提高宽频带的语音复原信号的音质。
该谱整形部108将由信号加法部106生成的宽频带的语音复原信号作为输入,对该宽频带的语音复原信号的谱包络进行整形而输出。
作为谱整形的具体的处理,可以例举出峰值强调处理或者谷值强调处理、滤波器的卷积处理等,但只要是使信号接近理想的宽频带语音信号那样的处理,也可以是这些以外的处理。
例如,在峰值强调处理中,谱整形部108求出宽频带的语音复原信号中的扩展频带的振幅谱值的平均值,在该平均值与扩展频带的谐波构造的极大值之差低于规定的阈值的情况下,进行增大该极大值处的振幅谱值的处理。
另外,该阈值既可以是固定值,也可以根据成为输入的窄频带语音的平均振幅谱值自适应地变更。另外,振幅谱值的强调程度也既可以是固定值,也可以根据成为输入的窄频带语音的平均振幅谱值自适应地变更。
另外,例如,在谷值强调处理中,谱整形部108求出宽频带的语音复原信号中的扩展频带的振幅谱值的平均值,在该平均值与扩展频带的谐波构造的极小值之差高于规定的阈值的情况下,进行减小该极小值处的振幅谱值的处理。
另外,与峰值强调处理同样地,阈值以及强调程度既可以是固定值,也可以根据成为输入的窄频带语音的平均振幅谱值自适应地变更。
另外,例如,在滤波器的卷积处理中,考虑谱整形部108提取窄频带语音信号的基本频率,根据所提取处的基本频率,对强调其高次谐波那样的滤波器进行卷积的方法。或者,也可以不提取基本频率,而预先依照人的声音的一般的基本频率的范围(100~200Hz)设定滤波系数。
以上,根据实施方式4,语音信号复原装置100构成为具备对信号加法部106生成的宽频带的语音复原信号的谱进行整形的谱整形部108,所以具有生成清晰度更高的宽频带的语音复原信号的效果。
另外,在上述实施方式1~4中,作为一个例子说明了窄频带语音信号是电话语音的情况,根据频带被限制为300~3400Hz的语音信号生成了30~7000Hz的宽频带的语音复原信号,但窄频带语音信号以及宽频带的语音复原信号的频率频带不限于这些值。例如,还能够在25~14000Hz等更宽的频带内实施宽频带的语音复原信号。
实施方式5.
上述实施方式1~4是如图2的影像图所示地推测本来应没有的低频II以及高频II’,并赋予给被限制为频带I的窄频带语音信号,从而生成将频带宽度扩展到II、I、II’的清晰度高的宽频带的语音复原信号的结构。
相对于此,在本实施方式5中,成为输入的窄频带语音信号和成为输出的语音复原信号的频带宽度不变,但对窄频带语音信号的频带中的损失了的频带的信号分量进行复原的结构。
图6是本实施方式5的语音信号复原装置100进行的语音复原处理的影像图,图6的(a)示出成为输入的窄频带语音信号,图6的(b)示出成为输出的语音复原信号。关于成为输入的窄频带语音信号,频带I、II、I’中的频带II的语音信号由于噪声抑制处理以及语音压缩处理等而劣化或者缺损。语音信号复原装置100推测该劣化或者缺损了的频带II并赋予给窄频带语音信号,生成复原为频带I、II、I’的语音复原信号。
另外,频带I、II、I’相当于第1频率频带以及第2频率频带。
本实施方式5的语音信号复原装置100是与图1~图5所示的上述实施方式1~4的语音信号复原装置100相同的结构。
但是,在从窄频带语音信号去除劣化了的频带II的情况下,需要在图1、图3、图5的语音信号复原装置中,在窄频带语音信号的输入侧与信号加法部106之间导入使频带II以外的频带通过的带通滤波器部(相当于第2带通滤波器部)。另外,在图4的语音信号复原装置中,需要在噪声抑制部102与信号加法部106a之间导入使频带II以外的频带通过的带通滤波器部(相当于第2带通滤波器部)。
另外,由未图示的上述带通滤波器部提取出的频带I、I’相当于第4频率频带。
以上,根据实施方式5,语音信号复原装置100具备:带通滤波器部105,从信号加法部106合成了的频带I、II、I’的虚拟语音信号提取频带II的虚拟语音信号;以及未图示的带通滤波器部,从频带I、II、I’的窄频带语音信号提取频带I、I’的窄频带语音信号,信号加法部106构成为对由带通滤波器部105提取出的频带II的虚拟语音信号以及由未图示的带通滤波器部提取出的频带I、I’的窄频带语音信号进行加法运算。因此,能够期待对由于噪声抑制等而损失的频带II进行复原,生成清晰度更高的语音复原信号的效果。
实施方式6.
图7是示出使用了本实施方式6的语音信号复原装置100的、车辆导航装置的免提语音通话系统200的结构的框图。作为该语音信号复原装置100应用上述实施方式1~5的语音信号复原装置100中的某一个。
外部通信部201与处于车内的用户的便携电话通过Bluetooth(注册商标)等进行通信,在与便携电话之间交换语音信号(通话对方目的地的受话语音以及用户的语音)。语音信号复原装置100将从外部通信部201输出的通话对方目的地的语音信号(即窄频带语音信号)作为输入,进行在上述实施方式1~5中叙述的语音复原,并输出到外部输入输出部202。外部输入输出部202具备未图示的扬声器以及麦克风,起到与用户的接口的作用。即,由语音信号复原装置100再生复原了语音的语音信号(即宽频带语音信号)、或者对用户的发声进行集音而输出为语音信号。
回波消除器部203将由语音信号复原装置100复原了语音的宽频带语音信号、和用麦克风对通过外部输入输出部202的扬声器再生了的宽频带语音信号进行集音而得到的信号作为输入,抑制由于麦克风拾取来自扬声器的输出语音而产生的回波。噪声抑制器部204将回波消除器部203输出的用户的语音信号作为输入,抑制在该语音信号中包含的、在车辆的行驶中等产生的噪声,将抑制了噪声的语音信号输出到外部通信部201。
以上,根据实施方式6,在免提语音通话系统200中导入语音信号复原装置100,从而即使在通话对方处于噪音环境下那样的情况下,也能够提供清晰度高的受话语音。
在上述实施方式6中,构成为将语音信号复原装置100应用于车辆导航装置的免提语音通话系统200,但不限于此,例如,能够应用于导入了语音通信、语音积蓄、语音识别系统的车辆导航或者便携电话等语音通信系统、免提通话系统、TV会议系统、监视系统等,具有能够实现这些系统的音质改善以及提高语音识别率的效果。
另外,本发明能够在该发明的范围内,实现各实施方式的自由的组合、或者各实施方式的任意的构成要素的变形、或者在各实施方式中省略任意的构成要素。
产业上的可利用性
如以上那样,本发明的语音信号复原装置即使在以低SN比混入噪声的情况下也能够实现清晰度高的语音复原,所以适用于车辆搭载的免提通话系统等。
Claims (8)
1.一种语音信号复原装置,具备:
音源生成部,根据第1频率频带的语音信号生成包含该第1频率频带的第2频率频带的音源信号;
噪声抑制部,抑制所述第1频率频带的语音信号中包含的噪声分量;
谱包络推测部,根据由所述噪声抑制部抑制了噪声的所述第1频率频带的语音信号,推测所述第2频率频带的谱包络;以及
信号合成部,合成所述音源生成部生成的所述第2频率频带的音源信号以及所述谱包络推测部推测出的所述第2频率频带的谱包络,生成所述第2频率频带的语音信号。
2.根据权利要求1所述的语音信号复原装置,其特征在于,
具备弱噪声抑制部,该弱噪声抑制部在将噪声抑制量限制在规定的上限值内的同时,抑制所述第1频率频带的语音信号中包含的噪声分量,
所述音源生成部根据由所述弱噪声抑制部抑制了噪声的所述第1频率频带的语音信号,生成所述第2频率频带的音源信号。
3.根据权利要求1所述的语音信号复原装置,其特征在于,
在所述谱包络推测部中,根据依据由所述噪声抑制部抑制了噪声的所述第1频率频带的语音信号求出的振幅谱的平均值,推测所述第2频率频带的振幅谱的平均值作为所述谱包络。
4.根据权利要求1所述的语音信号复原装置,其特征在于,具备:
第1带通滤波器部,从所述信号合成部合成了的所述第2频率频带的语音信号提取所述第2频率频带内的任意的第3频率频带的语音信号;以及
信号加法部,对由所述第1带通滤波器部提取出的所述第3频率频带的语音信号、以及所述第1频率频带的语音信号进行加法运算。
5.根据权利要求1所述的语音信号复原装置,其特征在于,具备:
第1带通滤波器部,从所述信号合成部合成了的所述第2频率频带的语音信号提取所述第2频率频带内的任意的第3频率频带的语音信号;
第2带通滤波器部,该第2带通滤波器部从所述第1频率频带的语音信号,提取在所述第1频率频带内且不包含所述第3频率频带的任意的第4频率频带的语音信号;以及
信号加法部,对由所述第1带通滤波器部提取出的所述第3频率频带的语音信号、以及由所述第2带通滤波器部提取出的所述第4频率频带的语音信号进行加法运算。
6.根据权利要求1所述的语音信号复原装置,其特征在于,具备:
第1带通滤波器部,从所述信号合成部合成了的所述第2频率频带的语音信号提取所述第2频率频带内的任意的第3频率频带的语音信号;以及
信号加法部,对由所述第1带通滤波器部提取出的所述第3频率频带的语音信号、以及由所述噪声抑制部抑制了噪声的所述第1频率频带的语音信号进行加法运算。
7.根据权利要求4所述的语音信号复原装置,其特征在于,
具备谱整形部,该谱整形部对所述信号加法部所生成的语音信号的谱进行整形。
8.一种语音信号复原方法,包括:
音源生成步骤,根据第1频率频带的语音信号生成包含该第1频率频带的第2频率频带的音源信号;
噪声抑制步骤,抑制所述第1频率频带的语音信号中包含的噪声分量;
谱包络推测步骤,根据在所述噪声抑制步骤中抑制了噪声的所述第1频率频带的语音信号,推测所述第2频率频带的谱包络;以及
信号合成步骤,合成在所述音源生成步骤中生成的所述第2频率频带的音源信号、以及在所述谱包络推测步骤中推测出的所述第2频率频带的谱包络,生成所述第2频率频带的语音信号。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/007311 WO2013098885A1 (ja) | 2011-12-27 | 2011-12-27 | 音声信号復元装置および音声信号復元方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103827967A CN103827967A (zh) | 2014-05-28 |
CN103827967B true CN103827967B (zh) | 2016-08-17 |
Family
ID=48696459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180073679.1A Expired - Fee Related CN103827967B (zh) | 2011-12-27 | 2011-12-27 | 语音信号复原装置以及语音信号复原方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9390718B2 (zh) |
JP (1) | JP5595605B2 (zh) |
CN (1) | CN103827967B (zh) |
DE (1) | DE112011106045B4 (zh) |
WO (1) | WO2013098885A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9564147B2 (en) * | 2013-04-30 | 2017-02-07 | Rakuten, Inc. | Audio communication system, audio communication method, audio communication purpose program, audio transmission terminal, and audio transmission terminal purpose program |
JP6282925B2 (ja) * | 2014-05-13 | 2018-02-21 | 日本電信電話株式会社 | 音声強調装置、音声強調方法及びプログラム |
US9536537B2 (en) | 2015-02-27 | 2017-01-03 | Qualcomm Incorporated | Systems and methods for speech restoration |
CN106558298A (zh) * | 2015-09-29 | 2017-04-05 | 广州酷狗计算机科技有限公司 | 一种音效模拟方法和装置及系统 |
BR112020008216A2 (pt) | 2017-10-27 | 2020-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho e seu método para gerar um sinal de áudio intensificado, sistema para processar um sinal de áudio |
US11017787B2 (en) * | 2018-02-09 | 2021-05-25 | Board Of Regents, The University Of Texas System | Self-adjusting fundamental frequency accentuation subsystem for natural ear device |
US10950253B2 (en) | 2018-02-09 | 2021-03-16 | Board Of Regents, The University Of Texas System | Vocal feedback device and method of use |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1988565A (zh) * | 2005-12-23 | 2007-06-27 | Qnx软件操作系统(威美科)有限公司 | 窄带语音的带宽扩展 |
CN101236745A (zh) * | 2007-01-12 | 2008-08-06 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
CN102034482A (zh) * | 2009-09-29 | 2011-04-27 | 冲电气工业株式会社 | 语音频带扩展装置和语音频带扩展方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4262826B2 (ja) * | 1998-04-28 | 2009-05-13 | 古河スカイ株式会社 | キャンボディ用アルミニウム合金ラミネート被覆材およびその製造方法 |
JP2000206995A (ja) | 1999-01-11 | 2000-07-28 | Sony Corp | 受信装置及び方法、通信装置及び方法 |
WO2003003350A1 (en) * | 2001-06-28 | 2003-01-09 | Koninklijke Philips Electronics N.V. | Wideband signal transmission system |
US6895375B2 (en) | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US20080300866A1 (en) | 2006-05-31 | 2008-12-04 | Motorola, Inc. | Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice |
CN101483042B (zh) * | 2008-03-20 | 2011-03-30 | 华为技术有限公司 | 一种噪声生成方法以及噪声生成装置 |
JP5203077B2 (ja) | 2008-07-14 | 2013-06-05 | 株式会社エヌ・ティ・ティ・ドコモ | 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法 |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
CN102652336B (zh) * | 2009-12-28 | 2015-02-18 | 三菱电机株式会社 | 声音信号复原装置以及声音信号复原方法 |
US20130024191A1 (en) * | 2010-04-12 | 2013-01-24 | Freescale Semiconductor, Inc. | Audio communication device, method for outputting an audio signal, and communication system |
US9245538B1 (en) * | 2010-05-20 | 2016-01-26 | Audience, Inc. | Bandwidth enhancement of speech signals assisted by noise reduction |
-
2011
- 2011-12-27 WO PCT/JP2011/007311 patent/WO2013098885A1/ja active Application Filing
- 2011-12-27 CN CN201180073679.1A patent/CN103827967B/zh not_active Expired - Fee Related
- 2011-12-27 JP JP2013551031A patent/JP5595605B2/ja active Active
- 2011-12-27 US US14/237,623 patent/US9390718B2/en not_active Expired - Fee Related
- 2011-12-27 DE DE112011106045.9T patent/DE112011106045B4/de not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1988565A (zh) * | 2005-12-23 | 2007-06-27 | Qnx软件操作系统(威美科)有限公司 | 窄带语音的带宽扩展 |
CN101236745A (zh) * | 2007-01-12 | 2008-08-06 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
CN102034482A (zh) * | 2009-09-29 | 2011-04-27 | 冲电气工业株式会社 | 语音频带扩展装置和语音频带扩展方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2013098885A1 (ja) | 2015-04-30 |
WO2013098885A1 (ja) | 2013-07-04 |
DE112011106045T5 (de) | 2014-10-09 |
DE112011106045B4 (de) | 2019-10-02 |
JP5595605B2 (ja) | 2014-09-24 |
US20140207443A1 (en) | 2014-07-24 |
US9390718B2 (en) | 2016-07-12 |
CN103827967A (zh) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103827967B (zh) | 语音信号复原装置以及语音信号复原方法 | |
CN101976566B (zh) | 语音增强方法及应用该方法的装置 | |
US8010355B2 (en) | Low complexity noise reduction method | |
US6097820A (en) | System and method for suppressing noise in digitally represented voice signals | |
Bae et al. | Voice recognition based on adaptive MFCC and deep learning | |
CN112767963B (zh) | 一种语音增强方法、装置、系统及计算机可读存储介质 | |
CN102074246B (zh) | 基于双麦克风语音增强装置及方法 | |
JP5535241B2 (ja) | 音声信号復元装置および音声信号復元方法 | |
Chen et al. | Speech enhancement using perceptual wavelet packet decomposition and teager energy operator | |
CN106463106B (zh) | 用于音频接收的风噪声降低 | |
US6754623B2 (en) | Methods and apparatus for ambient noise removal in speech recognition | |
US5878389A (en) | Method and system for generating an estimated clean speech signal from a noisy speech signal | |
RU2004138291A (ru) | Способ и устройство для частотно-избирательного выделения основного тона синтезированной речи | |
CN105390142A (zh) | 一种数字助听器语音噪声消除方法 | |
JP2001092491A (ja) | 単一マイクロフォンを使用するノイズ減少のためのシステムおよび方法 | |
WO2001031631A1 (en) | Mel-frequency domain based audible noise filter and method | |
US20080219457A1 (en) | Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise | |
Itoh et al. | Environmental noise reduction based on speech/non-speech identification for hearing aids | |
JP2007251354A (ja) | マイクロホン、音声生成方法 | |
Lei et al. | Speech enhancement for nonstationary noises by wavelet packet transform and adaptive noise estimation | |
KR20110024969A (ko) | 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법 | |
US6314394B1 (en) | Adaptive signal separation system and method | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
CN113450818B (zh) | 提高人声品质方法以及装置 | |
Shao et al. | A Kalman filter based on wavelet filter-bank and psychoacoustic modeling for speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160817 Termination date: 20191227 |