JP4445460B2 - 音声処理装置及び音声処理方法 - Google Patents

音声処理装置及び音声処理方法 Download PDF

Info

Publication number
JP4445460B2
JP4445460B2 JP2005351249A JP2005351249A JP4445460B2 JP 4445460 B2 JP4445460 B2 JP 4445460B2 JP 2005351249 A JP2005351249 A JP 2005351249A JP 2005351249 A JP2005351249 A JP 2005351249A JP 4445460 B2 JP4445460 B2 JP 4445460B2
Authority
JP
Japan
Prior art keywords
speech
spectrum
voice
noise
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2005351249A
Other languages
English (en)
Other versions
JP2006126859A (ja
JP2006126859A5 (ja
Inventor
幼華 王
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2005351249A priority Critical patent/JP4445460B2/ja
Publication of JP2006126859A publication Critical patent/JP2006126859A/ja
Publication of JP2006126859A5 publication Critical patent/JP2006126859A5/ja
Application granted granted Critical
Publication of JP4445460B2 publication Critical patent/JP4445460B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、雑音を抑圧する音声処理装置及び音声処理方法に関し、特に通信システムにおける音声処理装置及び音声処理方法に関する。
従来の音声符号化技術では、雑音のない音声に対しては高品質な音声で通話することができるが、雑音等が含まれた音声に対してはデジタル通話特有の耳障りな雑音が生じ、音質が劣化する問題があった。
このような雑音を抑圧する音声強調技術としてスペクトルサブトラクション法、コムフィルタ法がある。
スペクトルサブトラクション法は、雑音情報に着目して無音区間で雑音の性質を推定して雑音を含む音声信号の短時間パワースペクトルから雑音の短時間パワースペクトルを減算する、または減衰係数を乗算することにより音声信号のパワースペクトルを推定して雑音を抑圧する方法である。スペクトルサブトラクション法は、例えば、文献 (S.Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-27, pp.113-120, 1979)、文献 (R.J.McAulay, M.L.Malpass, Speech enhancement using a soft-decision noise suppression filter, IEEE. Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-28, pp.137-145. 1980)、特許第2714656号と、特願平9−518820号に記載されているものがある。
一方、コムフィルタ法は、音声情報に着目し、音声スペクトルのピッチにコムフィルタをかけることにより雑音減衰を行う。コムフィルタ法に関する文献として、例えば、文献(J.S.Lim etc., Evaluation of an adaptive comb filtering method for enhancing speech degraded by white noise addition, IEEE Trans. Acoustics, Speech, and Signal Processing,vol.ASSP26,pp.354-358,1978)がある。
コムフィルタとは、周波数領域単位で入力された信号を所定の比率で減衰させ、または減衰させずに信号を出力するフィルタであり、櫛状の減衰特性をもつ。デジタルデータ処理でコムフィルタ法を実現する場合、コムフィルタの減衰特性を周波数領域毎に減衰特性のデータを作成し、周波数毎に音声スペクトルを乗算することにより雑音を抑圧できる。
図28は、従来のコムフィルタ法を用いた音声処理装置の例を示す図である。図28において、切り替え器11は、入力信号に準周期性を持たない音声成分(例えば子音)が含まれている場合、入力信号をそのまま出力し、入力信号に準周期性を持つ音声成分が含まれている場合、入力信号をコムフィルタ12に出力する。コムフィルタ12は、ピッチ周期の情報に基づいた減衰特性で入力信号に対して周波数領域で雑音部分に減衰を行って出力する。
図29は、コムフィルタの減衰特性を示す図である。縦軸は信号の減衰特性を示し、横軸は周波数を示す。図29においてコムフィルタには、周波数領域毎に信号を減衰させる領域と信号を減衰させない領域が存在する。
コムフィルタ法では、入力された信号にコムフィルタをかけることにより、入力信号の中で音声成分の存在する周波数領域を減衰せず、音声成分の存在しない周波数領域を減衰することにより雑音を抑圧して音声を強調する。
しかしながら、このような従来の音声処理方法には次のような解決すべき課題があった。まず、文献1に示したSS法は、ノイズ情報のみに着目し、短時間のノイズ特性を定常と見なして、音声とノイズを区別せず、一律にノイズベース(推定されたノイズのスペクトル特性)を差し引く方法である。音声の情報(例えば、音声のピッチ)は利用されていない。実際には、ノイズの特性は定常でないため、差し引かれた後の残留ノイズ、特にピッチ調波間の残留ノイズは処理方法によって、いわゆる「ミュジカルノイズ」と呼ばれる不自然な歪のある雑音を生じる原因と考えられる。
その改善法として、音声パワー対ノイズパワー比(SNR)に基づき、減衰係数を乗じてノイズを減衰する方法、例えば、特許第2714656号と、特願平9−518820号に示したものが提案された。音声の大きい帯域(SNRは大きい)とノイズの大きい帯域(SNRは小さい)を区別して異なる減衰係数を用いるため、ミュジカルノイズを抑制し、音質を向上させた。しかし、特許第2714656号と、特願平9−518820号に示した方法は、音声情報の一部(SNR)が利用されているものの、処理する周波数チャネル数(16チャネル)は十分でないので、ピッチ調波情報を雑音から分離し抽出することは困難であり、また、音声とノイズ両方の帯域に減衰係数を用いるため、互いに影響を及ぼし合う結果、減衰係数は大きくすることができない。つまり、減衰係数を大きくすると、SNR推定の誤りによって、音声の歪みを生じる可能性がある。結果として、ノイズの減衰は不十分である。
また、従来のコムフィルタ法では、基本周波数であるピッチに推定誤差があると、その高調波では誤差分が拡大し、本来の高調波成分がその通過帯域からはずれる可能性がより大きくなる。また、準周期性を持つ音声とそうでない音声を判別する必要があるため、実現性に問題がある。
本発明は、かかる点に鑑みてなされたものであり、音声の歪みが少なくかつノイズを十分に除去することができる音声処理装置及び音声処理方法を提供することを目的とする。
本発明の音声処理装置は、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルから、前記分割音声スペクトルに含まれる雑音成分のスペクトルであるノイズベースを推定するノイズベース推定手段と、前記分割音声スペクトルと前記ノイズベースとに基づいて前記分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、前記音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手段と、音声ピッチ周波数を推定するピッチ周波数推定手段と、前記音声ピッチ周波数及び前記分割音声スペクトルに基づいて前記コムフィルタのピッチ調波の幅を修正するピッチ修正手段と、前記ピッチ調波の幅が修正されたコムフィルタを用いて前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備する構成を採る。
本発明の音声処理装置は、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルから、前記分割音声スペクトルに含まれる雑音成分のスペクトルであるノイズベースを推定するノイズベース推定手段と、前記分割音声スペクトルと前記ノイズベースとに基づいて前記分割音声スペクトルに音声成分が含まれているか否か識別する第一音声/非音声識別手段と、前記第一音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成する第一コムフィルタ生成手段と、前記分割音声スペクトルと前記ノイズベースとに基づいて前記第一音声/非音声識別手段と異なる条件で前記分割音声スペクトルに音声成分が含まれているか否か識別する第二音声/非音声識別手段と、前記第二音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第二コムフィルタを生成する第二コムフィルタ生成手段と、前記分割音声スペクトルから入力音声信号のピッチ周波数を推定する音声ピッチ推定手段と、前記音声ピッチ推定手段において推定されたピッチ周波数に基づいて前記第二コムフィルタのピッチ調波の幅を修復してピッチ修復コムフィルタを生成する音声ピッチ修復手段と、前記ピッチ修復コムフィルタに基づいて前記第一コムフィルタの修正を行い、修正コムフィルタを生成するコムフィルタ修正手段と、前記修正コムフィルタの値に基づき、またその値が阻止領域を示す場合は周波数に応じて、前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備する構成を採る。
本発明の音声処理方法は、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルから、前記分割音声スペクトルに含まれる雑音成分のスペクトルであるノイズベースを推定するノイズベース推定工程と、前記分割音声スペクトルと前記ノイズベースとに基づいて前記分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別工程と、音声成分の含まれる周波数領域を強調するピッチ調波構造を生成するピッチ調波構造生成工程と、音声ピッチ周波数を推定するピッチ周波数推定工程と、前記音声ピッチ周波数及び前記分割音声スペクトルに基づいて前記ピッチ調波構造のピッチ調波の幅を修正するピッチ修正工程と、前記ピッチ調波の幅が修正されたピッチ調波構造を用いて前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備する方法を採る。
本発明によれば、音声スペクトルを周波数領域単位で音声成分のある領域と音声成分のない領域に識別して、この識別情報から得られる精度の高いピッチ周期に基づいて雑音を抑圧して、音声の歪みが少なくかつノイズを十分に除去することができる。
本発明の骨子は、音声スペクトルを周波数領域単位で音声成分のある領域と音声成分のない領域に識別して、この識別情報から得られる精度の高いピッチ周期に基づいて音声情報のみを強調するコムフィルタを周波数領域で生成して雑音を抑圧することである。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声処理装置の構成を示すブロック図である。図1において、音声処理装置は、時間分割部101と、窓掛け部102と、FFT部103と、周波数分割部104と、ノイズベース推定部105と、音声非音声識別部106と、コムフィルタ生成部107と、減衰係数計算部108と、乗算部109と、周波数合成部110と、IFFT部111と、から主に構成される。
時間分割部101は、入力された音声信号から所定時間単位で区切られたフレームを構成し、窓掛け部102に出力する。窓掛け部102は、時間分割部101から出力されたフレームにハニングウインドウを利用したウインドウ処理を行ってFFT部103に出力する。FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトル信号を周波数分割部104に出力する。
周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数領域単位の周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109とに出力する。なお、周波数成分は、所定の周波数単位で分割された音声スペクトルを示すものである。
ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを音声非音声識別部106に出力する。また、ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
具体的には、式(1)を用いて各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
Figure 0004445460
ここで、nは処理を行うフレームを特定する番号、kは周波数成分を特定する番号、τは遅延時間を示す。また、S2 f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、α(k)は移動平均係数を示す。
音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを減衰係数計算部108に出力する。具体的には、コムフィルタ生成部107は、コムフィルタの有音部分の周波数成分をオン、無音部分の周波数成分をオフにする。
減衰係数計算部108は、コムフィルタ生成部107において生成されたコムフィルタの値に基づき、またコムフィルタの値が無音部分を示す場合には周波数に応じて、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
例えば、以下の式(2)から減衰係数gain(k)を算出して入力信号に乗算することもできる。
Figure 0004445460
ここでgcは定数、kはビンを特定する変数、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数である。
乗算部109は、周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
周波数合成部110は、乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、周波数合成部110から出力された音声スペクトルにIFFT(Inverse Fast Fourier Transform)を行って音声信号に変換した信号を出力する。
次に、上記構成を有する音声処理装置の動作について図2に示すフロー図を用いて説明する。図2において、ステップ(以下「ST」という)201では、入力信号に前処理を行う。この場合、前処理とは、入力信号から所定の時間単位のフレームを構成して窓かけ処理を行い、音声スペクトルに高速フーリエ変換を行うことである。
ST202では、周波数分割部104が音声スペクトルを周波数成分に分割する。ST203では、ノイズベース推定部105が、α(k)=0であるか否か、つまりノイズベース更新を停止するか否かを判断して、α(k)=0の場合、ST205に進み、α(k)=0でない場合、ST204に進む。
ST204では、ノイズベース推定部105が音声成分の含まれていない音声スペクトルからノイズベースを更新し、その後ST205に進む。ST205では、音声非音声識別部106が、Sf 2(n,k)>Qup・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より大きいか否かを判断し、Sf 2(n,k)>Qup・Pbase(n,k)である場合、ST206に進み、Sf 2(n,k)>Qup・Pbase(n,k)でない場合、ST208に進む。
ST206では、音声非音声識別部106が、ノイズベース更新停止を示すα(k)=0を設定する。ST207では、コムフィルタ生成部107が、音声スペクトルを減衰せずに出力することを示すSP_SWITCH(k)=ONを設定して、ST211に進む。ST208では、音声非音声識別部106が、Sf 2(n,k)<Qdown・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より小さいか否かを判断し、Sf 2(n,k)<Qdown・Pbase(n,k)である場合、ST209に進み、Sf 2(n,k)<Qdown・Pbase(n,k)でない場合、ST211に進む。
ST209では、音声非音声識別部106が、ノイズベース更新を示すα(k)=SLOWを設定する。ここで、SLOWは所定の定数である。ST210では、コムフィルタ生成部107が音声スペクトルを減衰して出力することを示すSP_SWITCH(k)=OFFを設定して、ST211に進む。
ST211では、減衰係数計算部108が、音声スペクトルを減衰しないか減衰か、つまりSP_SWITCH(k)=ONであるか否かを判断する。ST211においてSP_SWITCH(k)=ONである場合、ST212では、減衰係数計算部108が減衰係数を1に設定し、ST214に進む。ST211においてSP_SWITCH(k)=ONでない場合、ST213では、減衰係数計算部108が周波数に応じた減衰係数を計算して設定し、ST214に進む。
ST214では、乗算部109が周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。ST215では、周波数合成部110が乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成する。ST216では、IFFT部111が、周波数合成部110から出力された音声スペクトルにIFFTを行って雑音を抑圧した信号を出力する。
次に、本実施の形態の音声処理装置で用いるコムフィルタについて説明する。図3は、本実施の形態にかかる音声処理装置で作成されるコムフィルタの例を示す図である。図3において、縦軸はスペクトルのパワ及び、フィルタの減衰度を示し、横軸は周波数を示す。
コムフィルタは、S1に示す減衰特性を持ち、減衰特性は、周波数成分毎に設定される。コムフィルタ生成部107は、音声成分を含まない周波数領域の信号を減衰し、音声信号を含む周波数領域の信号を減衰しない減衰特性のコムフィルタを作成する。
雑音成分を含む音声スペクトルS2は、S1の減衰特性を持つコムフィルタをかけることにより、雑音成分を含む周波数領域の信号が減衰されてパワが小さくなり、音声信号を含む部分は減衰されずパワが変化しない。得られた音声スペクトルは、雑音成分の周波数領域がより低くなりピークが失われずに強調されたスペクトル形状となり、ピッチ調波情報が失われない雑音を抑圧した音声スペクトルS3が出力される。
このように、本発明の実施の形態1に係る音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。
また、音声識別において2つの閾値を設けることにより、精度の高い音声非音声を判別することができる。
なお、減衰係数計算部108において、雑音の周波数特性に応じた減衰係数の計算を行うことにより、高い周波数にある子音を損なわずに音声強調を行うこともできる。
また、各周波数成分において入力信号の減衰を二値で行い、音声と判別する場合、減衰を行わず、雑音と判別する場合、減衰を行うこともできる。この場合、強い雑音抑圧を行っても音声のある周波数成分は減衰されないので音声の歪の少ない音声強調を行うことができる。
(実施の形態2)
図4は、実施の形態2にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図4の音声処理装置は、ノイズ区間判別部401とノイズベース追跡部402と、を具備してフレーム単位で信号の音声非音声判別を行い、ノイズレベルの急激な変化を検出して、速やかにノイズベースを推定して更新する点が図1と異なる。
図4において、FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトルを周波数分割部104とノイズ区間判別部401に出力する。
ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別する。
具体的には、ノイズ区間判別部401は、以下の式(3)及び式(4)を用いて入力信号のパワーの変化率を算出する。
Figure 0004445460
Figure 0004445460
ここで、P(n)は、1フレームの信号パワー、S2 f(n,k)は、入力信号パワースペクトル、Ratioは、過去に処理を行ったフレームと処理を行うフレームの信号パワー比、τは遅延時間である。
ノイズ区間判別部401は、Ratioがあらかじめ設定した閾値を一定時間連続して超えた場合、入力信号を音声信号と判断し、連続して超えない場合をノイズ区間と判断する。
ノイズベース追跡部402は、音声区間からノイズ区間に移ったと判断した場合、所定のフレーム数の処理を行う間、ノイズベースの更新における処理フレームからノイズベースの推定する影響の度合いを大きくする。
具体的には式(1)においてα(k)=FAST、(0<SLOW<FAST<1)に設定する。α(k)の値が大きいほど、移動平均値が入力された音声信号の影響を受けやすくなり、ノイズベースの急激な変化に対応することができる。
ノイズベース推定部105は、音声非音声識別部106又はノイズベース追跡部402からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、これらの値から各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
このように、本発明の実施の形態2に係る音声処理装置によれば、入力された信号から推定した雑音スペクトルの値を大きく反映させてノイズベースの更新を行うことにより、ノイズレベルの急激な変化に対応したノイズベースの更新を行うことができ、音声歪の少ない音声強調を行うことができる。
(実施の形態3)
図5は、実施の形態3にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図5の音声処理装置は、ミュジカルノイズ抑制部501とコムフィルタ修正部502を具備してフレームに突発性ノイズが含まれる場合に、生成されたコムフィルタを修正して突発性ノイズに起因するミュジカルノイズの発生を抑圧する点が、図1と異なる。
図5において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成してミュジカルノイズ抑制部501、及びコムフィルタ修正部502に出力する。
ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果をコムフィルタ修正部502に出力する。
例えば、以下の式(5)を用いてコムフィルタCOMB_ON(n,k)でオンになっている周波数成分の数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
Figure 0004445460
コムフィルタ修正部502は、ミュジカルノイズ抑制部501からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。
具体的には、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを減衰係数計算部108に出力する。
減衰係数計算部108は、コムフィルタ修正部502から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
このように、本発明の実施の形態3に係る音声処理装置によれば、コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。
なお、実施の形態3は、実施の形態2と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。
(実施の形態4)
図6は、実施の形態4にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図6の音声処理装置は、平均値計算部601を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1と異なる。
図6において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
平均値計算部601は、周波数分割部104から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値をノイズベース推定部105と音声非音声識別部106に出力する。
具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。
Figure 0004445460
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、平均値計算部601から出力された音声スペクトルの平均値の周波数成分毎に短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
このように、本発明の実施の形態4に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、より正確なコムフィルタを構成することができる。
なお、実施の形態4は、実施の形態2あるいは実施の形態3と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図6の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
(実施の形態5)
図7は、実施の形態5にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図7の音声処理装置は、区間判別部701とコムフィルタリセット部702を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1と異なる。
図7において、FFT部103は、窓掛け部102から出力された音声信号にFFTを行い、音声スペクトル信号を周波数分割部104と区間判別部701に出力する。
区間判別部701は、FFT部103から出力された音声スペクトルが音声を含むか否か判断して判断結果をコムフィルタリセット部702に出力する。
コムフィルタリセット部702は、区間判別部701から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ生成部107にすべての周波数成分のコムフィルタをオフにする指示を出力する。
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して減衰係数計算部108に出力する。また、コムフィルタ生成部107は、コムフィルタリセット部702の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにしたコムフィルタを生成して減衰係数計算部108に出力する。
このように、本発明の実施の形態5に係る音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。
なお、実施の形態5は、実施の形態2あるいは実施の形態3と組み合わせることができる。
すなわち、図7の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図7の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
また、実施の形態5は、実施の形態4と組み合わせることができる。すなわち、図7の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
(実施の形態6)
図8は、実施の形態6にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図8の音声処理装置は、音声ピッチ周期推定部801と音声ピッチ修復部802を具備し、音声とノイズの判定が難しい周波数領域でノイズと判断されて失われるピッチ調波情報を補う点が、図1と異なる。
図8において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109と、音声ピッチ周期推定部801と、音声ピッチ修復部802に出力する。
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して音声ピッチ周期推定部801、及び音声ピッチ修復部802に出力する。
音声ピッチ周期推定部801は、コムフィルタ生成部107から出力されたコムフィルタと周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部802に出力する。
例えば、生成されたコムフィルタの中でオンの状態が連続せずに一つの周波数成分をオフにする。次に、コムフィルタの中でパワーの大きい周波数成分を二本抽出したピッチ周期推定用コムフィルタを生成して、以下に示す自己相関関数の式(7)からピッチ周期を求める。
Figure 0004445460
ここで、PITCH(k)は、ピッチ周期推定用コムフィルタの状態を表し、k1は周波数の上限、τはピッチの周期を表し、τは、0からピッチの最大周期であるτ1までの値をとる。
式(7)のγ(τ)が最大値をとるτをピッチ周期として求める。実際には、高周波数領域において周波数ピッチの形状は、不明確になりやすいのでk1に中間の周波数の値を用いる。例えば、k1=2kHzと設定する。また、PITCH(k)の取りうる値を0と1にすることにより式(7)の計算を簡単に行うこともできる。
音声ピッチ修復部802は、音声ピッチ周期推定部801から出力された推定結果に基づいてコムフィルタの修正を行い、減衰係数計算部108に出力する。具体的には、推定されたピッチ周期情報に基づいて一定の周波数成分毎にピッチを補う、又はピッチ周期毎に存在するコムフィルタがオンになった周波数成分の連続である櫛状の帯域の幅を広げるなどの処理を行い、ピッチ調波構造の修復を行う。
減衰係数計算部108は、音声ピッチ修復部802から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
図9に、本実施の形態にかかる音声処理装置におけるコムフィルタの修復の例を示す。図9において、縦軸は減衰度を示し、横軸は、周波数成分を示す。具体的には、横軸には、256の周波数成分があり、0kHzから4kHzの領域を示す。
C1は生成されたコムフィルタを、C2はコムフィルタC1にピッチの修復を行ったコムフィルタを、C3は、コムフィルタC2にピッチの幅を修正したコムフィルタを示す。
コムフィルタC1は、100から140までの周波数成分でピッチ情報が失われている。音声ピッチ修復部802は、音声ピッチ周期推定部801において推定されたピッチ周期情報に基づいてコムフィルタC1の100から140までの周波数成分にあるピッチ情報を補う。これによりコムフィルタC2が得られる。
次に、音声ピッチ修復部802は、周波数分割部104から出力された音声スペクトルに基づいてコムフィルタC2のピッチ調波の幅を修正する。これによりコムフィルタC3が得られる。
このように、本発明の実施の形態6に係る音声処理装置によれば、ピッチ周期情報を推定して、ノイズと判別されて失われたピッチ調波情報を補うことにより、原音声に近い音声の状態で、かつ音声歪の少ない音声強調を行うことができる。
なお、実施の形態6は、実施の形態2あるいは実施の形態5と組み合わせることができる。
すなわち、図8の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図8の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができる。
また、実施の形態6は、実施の形態3と組み合わせることができる。すなわち、図8の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
この場合、ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果を音声ピッチ周期推定部801に出力する。
コムフィルタ修正部502は、音声ピッチ修復部802からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。
また、実施の形態6は、実施の形態4と組み合わせることができる。すなわち、図8の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
(実施の形態7)
図10は、実施の形態7にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図4と共通する構成については図1及び図4と同一番号を付し、詳しい説明を省略する。図10の音声処理装置は、閾値自動調整部1001を具備し、ノイズの種類に応じて音声識別の閾値を調整する点が、図1又は図4と異なる。
図10において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して閾値自動調整部1001に出力する。
ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別し、判別結果を閾値自動調整部1001に出力する。
閾値自動調整部1001は、ノイズ区間判別部401から出力された判別結果からフレームに音声信号が含まれていない場合、コムフィルタ生成部107から出力されたコムフィルタに基づいて音声非音声識別部106の閾値を変更する。
具体的には、以下の式(8)を用いて生成されたコムフィルタCOMB_ON(n,k)のオンの状態である周波数成分kの数の総和COMB_SUMを算出する。
Figure 0004445460
この総和が所定の上限値より大きくなった場合、音声非音声識別部106の閾値を大きくする指示を、この総和が所定の下限値より小さくなった場合、音声非音声識別部106の閾値を小さくする指示を音声非音声識別部106に出力する。
ここで、n1は、過去に処理を行ったフレームを特定する番号であり、n2は処理を行うフレームを特定する番号である。
例えば、フレームに振幅のばらつきの小さいノイズが含まれる場合、音声非音声識別の閾値を低く設定し、フレームに振幅のばらつきの大きいノイズが含まれる場合、音声非音声識別の閾値を高く設定する。
このように、本発明の実施の形態に係る音声処理装置によれば、音声を含まないフレームの中で音声が含まれると誤って判断される周波数成分の数に基づいて、音声スペクトルの音声非音声識別に用いる閾値の変更を行うことにより、ノイズの種類に対応した音声の判別を行い、音声歪の少ない音声強調を行うことができる。
なお、実施の形態7は、実施の形態2あるいは実施の形態3と組み合わせることができる。
すなわち、図10の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図10の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
また、実施の形態7は、実施の形態4と組み合わせることができる。すなわち、図10の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
また、実施の形態7は、実施の形態5あるいは実施の形態6と組み合わせることができる。すなわち、図10の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができ、図10の音声処理装置に音声ピッチ周期推定部801及び音声ピッチ修復部802を追加することにより実施の形態6の効果も得ることができる。
(実施の形態8)
図11は、実施の形態8にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図11の音声処理装置は、ノイズベース推定部1101と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、音声ピッチ推定部1104と、第一コムフィルタ生成部1105と、第二コムフィルタ生成部1106と、音声ピッチ修復部1107と、コムフィルタ修正部1108と、音声分離係数計算部1109とを具備し、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造の修復に用いるノイズベースをそれぞれ異なる条件で生成する点が、図1の音声処理装置と異なる。
図11において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、及び音声ピッチ推定部1104に出力する。
ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。
また、ノイズベース推定部1101は、第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
具体的には、ノイズベース推定部1101は、式(9)または式(10)を用いて各周波数成分におけるノイズベースを推定して第一音声非音声識別部1102または第二音声非音声識別部1103に出力する。
Figure 0004445460
Figure 0004445460
ここで、nは処理を行うフレームを特定する番号、kは周波数成分を特定する番号、τは遅延時間を示す。また、S2 f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、αは移動平均係数を示す。
第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれていない判定結果が出力された場合、ノイズベース推定部1101は、式(9)より得られたノイズベースを出力する。また、第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、ノイズベース推定部1101は、式(10)より得られたノイズベースを出力する。
第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。
第一音声非音声識別部1102では、第一コムフィルタ生成部1105がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。
具体的には、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値θ low と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(11)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のフィルタの値を「1」とする。
Figure 0004445460
また、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値θ low と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(12)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のコムフィルタの値を「0」とする。
Figure 0004445460
ここで、kは、周波数成分を特定する番号であり、以下に示す式(13)の値を満たす。HBは、音声信号に高速フーリエ変換を行う場合のデータ点数を示す。
Figure 0004445460
第二コムフィルタ生成部1106は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して音声ピッチ修復部1107に出力する。
具体的には、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値θ high と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(11−2)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「1」とする。
Figure 0004445460
また、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値θ high と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(12−2)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「0」とする。
Figure 0004445460
音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。
例えば、音声ピッチ推定部1104は、生成されたコムフィルタの通過域における音声スペクトルパワに以下に示す自己相関関数の式(14)を用いてピッチ周期を求める。
Figure 0004445460
ここで、COMB_low(k)は、第一コムフィルタ生成部1105において生成された第一コムフィルタを示す。k1は、周波数の上限値を示す。また、τは、ピッチの周期を示し、「0」からピッチの最大周期までの値をとる。
そして、音声ピッチ推定部1104は、γ(τ)が、最大値をとるτを音声ピッチ周期として求める。実際の処理では、高周波数領域においてピッチ調波の形状は不明確になることが多いので、k1に中間の周波数の値を用い、音声信号の周波数領域のうち、低周波数側半分についてピッチ周期の推定を行う。例えば、音声ピッチ推定部1104は、k1=2kHzに設定して音声ピッチ周期の推定を行う。
音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
以下、図を用いて音声ピッチ修復部1107の具体的な動作について説明する。図12、図13、図14、及び図15は、コムフィルタの一例を示す図である。
音声ピッチ修復部1107は、第二コムフィルタの通過領域のピークを抽出し、ピッチ基準コムフィルタを生成する。図12のコムフィルタは、第二コムフィルタ生成部1106において生成された第二コムフィルタの一例である。また、図13のコムフィルタは、ピッチ基準コムフィルタの一例である。図13のコムフィルタでは、図12のコムフィルタからピークの情報のみを抽出し、通過領域の幅の情報がなくなっている。
そして、音声ピッチ修復部1107は、ピッチ基準コムフィルタのピークとピークの間隔を算出し、ピークとピークの間隔が、所定の閾値を超えた場合、音声ピッチ推定部1104のピッチの推定結果から欠落したピッチの挿入を行い、ピッチ挿入コムフィルタを生成する。図14のコムフィルタは、ピッチ挿入コムフィルタの一例である。図14のコムフィルタでは、周波数成分番号50から100付近及び200から250にピークが挿入されている。
そして、音声ピッチ修復部1107は、ピッチの値に応じてピッチ挿入コムフィルタの通過領域のピークの幅を広げてピッチ修復コムフィルタを生成し、コムフィルタ修正部1108に出力する。図15のコムフィルタは、ピッチ修復コムフィルタの一例である。図15のコムフィルタでは、図14のピッチ挿入コムフィルタに通過領域の幅の情報が付加されている。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
具体的には、コムフィルタ修正部1108は、ピッチ修復コムフィルタと第一コムフィルタの通過領域を比較して両方のコムフィルタにおいて通過領域となっている部分を通過領域とし、この通過領域以外を、信号を減衰する阻止領域としてコムフィルタを生成する。
以下、コムフィルタ修正の一例を示す。図16、図17、及び図18は、コムフィルタの一例を示す図である。図16のコムフィルタは、第一コムフィルタ生成部1105において生成された第一コムフィルタである。また、図17のコムフィルタは、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタである。図18は、コムフィルタ修正部1108において修正されたコムフィルタの一例である。
音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタの値に基づき、またその値が阻止領域を示す場合は周波数に応じて、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。
例えば、音声分離係数計算部1109は、ある周波数成分を特定する番号kにおいて、コムフィルタ修正部1108において修正されたコムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、分離係数seps(k)を1とする。また、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(15)から分離係数seps(k)を算出する。
Figure 0004445460
ここで、gcは定数、kは周波数成分を特定する番号、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数を示す。
乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
このように、本実施の形態の音声処理装置によれば、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造修復に用いるノイズベースをそれぞれ異なる条件で生成することにより、音声情報を多く抽出し、かつ雑音情報の影響を受け難いコムフィルタを生成して正確なピッチ調波構造の修復を行うことができる。
具体的には、本実施の音声処理装置によれば、音声と判断する条件を厳しくした第二コムフィルタを基準にしたピッチ周期の推定結果を反映させて欠落したと推測されるピッチを挿入してコムフィルタのピッチ調波構造を修復することにより、ピッチ調波の欠落による音声歪を減少することができる。
また、本実施の形態の音声処理装置によれば、コムフィルタのピッチ幅をピッチ周期の推定結果から調整することにより正確にピッチ調波構造を修復することができる。音声と厳しく判断して作成したコムフィルタのピッチ調波構造を修復したコムフィルタの通過領域と音声と緩く判断して作成したコムフィルタの通過領域の重複部分を通過領域とし、この重複する通過領域以外を阻止領域とするコムフィルタを作成することにより、ピッチ周期の推定の誤差による影響を低減することができ、正確なピッチ調波構造の修復ができる。
なお、本実施の形態の音声処理装置は、コムフィルタの阻止領域の音声分離係数を、音声スペクトルに分離係数を乗算して算出し、コムフィルタの通過領域の音声分離係数を、音声スペクトルからノイズベースを減算して算出することもできる。
例えば、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(16)から分散係数seps(k)を算出する。
Figure 0004445460
ここで、Pmax(n)は、所定の範囲の周波数成分kでのPbase(n、k)の最大値を示す。式(16)では、フレーム毎にノイズベース推定値の正規化を行い、その逆数を用いて分離係数とする。
そして、コムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、以下の式(17)から分離係数seps(k)を算出する。
Figure 0004445460
ここで、γは、ノイズベースを差し引く量を示す係数である。
このように、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの阻止領域にノイズベースの情報から算出した分離係数を乗算することにより、異なるノイズ特性に対しても最適な分離係数を算出することができ、ノイズ特性に対応した音声強調を行うことができる。また、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの通過領域に音声スペクトルからノイズベースを減算して算出した分離係数を乗算することにより、音声歪みの少ない音声強調を行うことができる。
また、本実施の形態は、実施の形態2と組み合わせることもできる。すなわち、図11の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。
(実施の形態9)
図19は、実施の形態9にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。
図19の音声処理装置は、SNR計算部1901と、音声雑音フレーム検出部1902とを具備し、音声信号のSNR(Signal Noise Ratio)を計算し、SNRからフレーム単位で音声信号から音声フレームまたは雑音フレームを区別して検出し、音声フレームのみピッチ周期の推定を行う点が、図1又は図11と異なる。
図19において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、乗算部109と、SNR計算部1901に出力する。
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108とSNR計算部1901に出力する。
SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第一コムフィルタ生成部1105から出力された第一コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。例えば、SNR計算部1901は、以下の式(18)を用いてSNRを計算する。
Figure 0004445460
ここで、COMB_low(k)は、第一コムフィルタを示す。また、kは周波数成分を示し、0以上かつ音声信号に高速フーリエ変換を行う場合のデータ点数の半数より小さい値をとる。
音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1903に出力する。具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
図20に、上記音声雑音フレーム検出部1902の音声/雑音判断の動作をプログラムで表現した例を示す。図20は、本実施の形態の音声処理装置の音声雑音判断プログラムの一例を示す図である。図20のプログラムでは、SNRが所定の閾値以下であるフレームが10以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
音声ピッチ推定部1903は、音声雑音フレーム検出部1902が音声フレームと判断する場合、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。ピッチ周期推定の動作は、実施の形態8の音声ピッチ推定部1104と同様の動作を行う。
音声ピッチ修復部1107は、音声ピッチ推定部1903から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
このように、本実施の形態の音声処理装置によれば、コムフィルタの通過領域に対応する音声スペクトルのパワの和と、コムフィルタの阻止領域に対応する音声スペクトルのパワの和との比を求めてSNRとし、このSNRが所定の閾値以上であるフレームのみを用いてピッチ周期を推定することにより、雑音によるピッチ周期推定の誤りを低減することができ、音声歪の少ない音声強調を行うことができる。
なお、本実施の形態の音声処理装置は、第一コムフィルタからSNRを計算しているが、第二コムフィルタを用いてSNRを計算してもよい。この場合、第二コムフィルタ生成部1106は、作成した第二コムフィルタをSNR計算部1901に出力する。そして、SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第二コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。
(実施の形態10)
図21は、実施の形態10にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図21の音声処理装置は、第一コムフィルタ生成部2101と、第一ミュジカルノイズ抑圧部2102と、第二コムフィルタ生成部2103と、第二ミュジカルノイズ抑圧部2104とを具備し、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断する点が、図1又は図11と異なる。
図21において、第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。
第一音声非音声識別部1102では、第一コムフィルタ生成部2101がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部2101に出力する。
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部2103に出力する。
第一コムフィルタ生成部2101は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成して第一ミュジカルノイズ抑圧部2102に出力する。第一コムフィルタ生成の具体的な動作は、実施の形態8の第一コムフィルタ生成部1105と同様の動作を行う。そして、第一コムフィルタ生成部2101は、第一ミュジカルノイズ抑圧部2102において修正された第一コムフィルタをコムフィルタ修正部1108に出力する。
第一ミュジカルノイズ抑圧部2102は、第一コムフィルタCOMB_SUM_low(k)の各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。例えば、以下の式(5−2)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM_lowがある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
Figure 0004445460
そして、第一ミュジカルノイズ抑圧部2102は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第一コムフィルタ生成部2101に出力する。
第二コムフィルタ生成部2103は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して第二ミュジカルノイズ抑圧部2104に出力する。第二コムフィルタ生成の具体的な動作は、実施の形態8の第二コムフィルタ生成部1106と同様の動作を行う。そして、第二コムフィルタ生成部2103は、第二ミュジカルノイズ抑圧部2104において修正された第二コムフィルタを音声ピッチ修復部1107に出力する。
第二ミュジカルノイズ抑圧部2104は、第二コムフィルタCOMB_SUM_high(k)の各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。
例えば、以下の式(5−3)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM_highがある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
Figure 0004445460
そして、第二ミュジカルノイズ抑圧部2104は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第二コムフィルタ生成部2103に出力する。
音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタ生成部2103から出力された第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部2101において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
このように、本実施の形態の音声処理装置によれば、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。
(実施の形態11)
図22は、実施の形態11にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図22の音声処理装置は、平均値計算部2201を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1又は図11と異なる。
図22において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101と、第一音声非音声識別部1102と、乗算部109と、平均値計算部2201に出力する。
平均値計算部2201は、周波数分割部104から出力された音声スペクトルのパワーについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を第二音声非音声識別部1103に出力する。
具体的には、以下に示す式(19)を用いて音声スペクトルの平均値を算出する。
Figure 0004445460
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
第二音声非音声識別部1103は、平均値計算部2201から出力された音声スペクトル信号の平均値とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
このように、本発明の実施の形態11に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、音声情報のみをとりだす第二コムフィルタをより正確に生成することができる。
(実施の形態12)
図23は、実施の形態12にかかる音声処理装置の構成の例を示すブロック図である。但し、図1、図11及び図19と共通する構成については図1、図11及び図19と同一番号を付し、詳しい説明を省略する。図23の音声処理装置は、コムフィルタリセット部2301を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1、図11又は図19と異なる。
図23において、音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1104に出力する。
具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。そして、音声雑音フレーム検出部1902は、判断結果を、音声ピッチ推定部1104とコムフィルタリセット部2301に出力する。
コムフィルタリセット部2301は、音声雑音フレーム検出部1902から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ修正部1108にすべての周波数成分のコムフィルタをオフにする指示を出力する。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
また、コムフィルタ修正部1108は、コムフィルタリセット部2301の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにした第一コムフィルタを生成して音声分離係数計算部1109に出力する。
このように、本実施の形態の音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。
(実施の形態13)
図24は、実施の形態13にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
図24の音声処理装置は、雑音分離コムフィルタ生成部2401と、雑音分離係数計算部2402と、乗算部2403と、雑音周波数合成部2404とを具備し、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行い、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成して雑音の特性を抽出する点が、図1の音声処理装置と異なる。
音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105と雑音分離コムフィルタ生成部2401に出力する。
雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。
具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のフィルタの値を「1」とする。
Figure 0004445460
また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θnosは、雑音分離に用いる閾値である。
Figure 0004445460
雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。具体的には、雑音分離係数計算部2402は、コムフィルタCOMB_nos(k)の値が0、すなわち阻止領域である場合、雑音分離係数sepn(k)=1とする。
そして、コムフィルタCOMB_nos(k)の値が1、すなわち通過領域である場合、以下の式(22)から雑音分離係数sepn(k)を算出する。
Figure 0004445460
ここで、r(i)は、ランダム関数で均一分布の乱数で構成される。また、kはビンを特定する変数であり、kのとりうる範囲は0以上、FFT変換長つまり高速フーリエ変換を行うデータ数の半数未満である。
乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。
雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。
このように、本実施の形態の音声処理装置は、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成でき、雑音の特性を抽出することができる。また、コムフィルタの阻止域において雑音成分を減衰せず、コムフィルタの通過域において雑音成分をノイズベースの推定値と乱数を乗算して再構成することにより良好な雑音分離特性を得ることができる。
(実施の形態14)
図25は、実施の形態14にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。
図25の音声処理装置は、SNR計算部2501と、音声雑音フレーム検出部2502と、雑音コムフィルタリセット部2503と、雑音分離コムフィルタ生成部2504とを具備し、入力音声信号において音声成分を含まないフレームに対する雑音分離コムフィルタの周波数通過域を全て阻止域とする点が、図1及び図24の音声処理装置と異なる。
SNR計算部2501は、周波数分割部104から出力された音声スペクトルから出力された第一コムフィルタから音声信号のSNRを計算し、計算結果を音声雑音フレーム検出部2502に出力する。
音声雑音フレーム検出部2502は、SNR計算部2501から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を雑音コムフィルタリセット部2503に出力する。具体的には、音声雑音フレーム検出部2502は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
雑音コムフィルタリセット部2503は、音声雑音フレーム検出部2502における判定結果が、入力音声信号のフレームに音声成分が含まれず雑音成分のみである判定結果である場合、雑音分離コムフィルタ生成部2504にコムフィルタの全ての周波数通過域を阻止域に変換する指示を出力する。
雑音分離コムフィルタ生成部2504は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。
具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のフィルタの値を「1」とする。
Figure 0004445460
また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θnosは、雑音分離に用いる閾値である。
Figure 0004445460
また、雑音分離コムフィルタ生成部2504は、雑音コムフィルタリセット部2503からコムフィルタの全ての周波数通過域を阻止域に変換する指示を受け取った場合、指示に従いコムフィルタの全ての周波数通過域を阻止域に変換する。
このように、本実施の形態の音声処理装置によれば、入力音声信号のフレームが音声を含まず、雑音成分のみと判断した場合、コムフィルタの全ての周波数通過域を阻止域に変換することにより、音声を含まない信号区間でノイズを全帯域でカットすることができ、良好な雑音分離特性が得られる。
(実施の形態15)
図26は、実施の形態15にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。図26の音声処理装置は、平均値計算部2601を具備し、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求める点が、図1及び図24の音声処理装置と異なる。
平均値計算部2601は、乗算部2403から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を雑音周波数合成部2404に出力する。具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。
Figure 0004445460
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
このように、本発明の実施の形態15に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなる。
(実施の形態16)
図27は、実施の形態16にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図27の音声処理装置は、図11の音声処理装置と図24の音声処理装置を組み合わせて、音声強調と雑音抽出とを行う例である。
図27において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、音声ピッチ推定部1104、乗算部2403、及び第三音声非音声識別部2701に出力する。
ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。同様に、ノイズベース推定部1101は、第三音声非音声識別部2701からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第三音声非音声識別部2701に出力する。
また、ノイズベース推定部1101は、第一音声非音声識別部1102、第二音声非音声識別部1103、または第三音声非音声識別部2701からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。第一音声非音声識別部1102では、第一コムフィルタ生成部1105が音声ピッチ情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。
そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。
音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルから音声ピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタに周波数特性に基づいた分離係数を乗算し、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
第三音声非音声識別部2701は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第三音声非音声識別部2701は、判定結果をノイズベース推定部1101と雑音分離コムフィルタ生成部2401に出力する。
雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいて音声ピッチを強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。
乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部2702に出力する。
IFFT部2702は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。
このように、本実施の形態の音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。また、同時に雑音抽出を行うこともできる。
なお、本発明の音声処理装置は、実施の形態16の音声処理装置の例に限らず、上記各実施の形態は、それぞれ組み合わせて適用することができる。
また、上記いずれかの実施の形態に係る音声強調及び雑音抽出は、音声処理装置として説明しているが、この音声強調及び雑音抽出をソフトウェアにより実現することもできる。例えば、上記音声強調及び雑音抽出を行うプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作するようにしてもよい。
また、上記音声強調及び雑音抽出を行うプログラムをコンピュータ読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access Memory)に記録して、コンピュータをそのプログラムに従って実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。
また、上記音声強調を行うプログラムをサーバに格納し、サーバに格納されたプログラムをクライアントに転送して、クライアント上でそのプログラムを実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。
また、上記いずれかの実施の形態に係る音声処理装置は、無線通信装置、通信端末、基地局装置等に搭載することもできる。この結果、通信時の音声を音声強調または雑音抽出できる。
本発明の実施の形態1に係る音声処理装置の構成を示すブロック図 上記実施の形態における音声処理装置の動作を示すフロー図 上記実施の形態における音声処理装置で作成されるコムフィルタの例を示す図 実施の形態2にかかる音声処理装置の構成の例を示すブロック図 実施の形態3にかかる音声処理装置の構成の例を示すブロック図 実施の形態4にかかる音声処理装置の構成の例を示すブロック図 実施の形態5にかかる音声処理装置の構成の例を示すブロック図 実施の形態6にかかる音声処理装置の構成の例を示すブロック図 上記実施の形態における音声処理装置におけるコムフィルタの修復の例を示す図 実施の形態7にかかる音声処理装置の構成の例を示すブロック図 実施の形態8にかかる音声処理装置の構成の例を示すブロック図 コムフィルタの一例を示す図 コムフィルタの一例を示す図 コムフィルタの一例を示す図 コムフィルタの一例を示す図 コムフィルタの一例を示す図 コムフィルタの一例を示す図 コムフィルタの一例を示す図 実施の形態9にかかる音声処理装置の構成の例を示すブロック図 本実施の形態の音声処理装置の音声雑音判断プログラムの一例を示す図 実施の形態10にかかる音声処理装置の構成の例を示すブロック図 実施の形態11にかかる音声処理装置の構成の例を示すブロック図 実施の形態12にかかる音声処理装置の構成の例を示すブロック図 実施の形態13にかかる音声処理装置の構成の例を示すブロック図 実施の形態14にかかる音声処理装置の構成の例を示すブロック図 実施の形態15にかかる音声処理装置の構成の例を示すブロック図 実施の形態16にかかる音声処理装置の構成の例を示すブロック図 従来のコムフィルタ法を用いた音声処理装置の例を示す図 コムフィルタの減衰特性を示す図
符号の説明
104 周波数分割部
105、1101 ノイズベース推定部
106 音声非音声識別部
107 コムフィルタ生成部
108 減衰係数計算部
109、2403 乗算部
110 周波数合成部
401 ノイズ区間判別部
402 ノイズベース追跡部
501 ミュジカルノイズ抑制部
502、1108 コムフィルタ修正部
601、2201、2601 平均値計算部
701 区間判別部
702、2301 コムフィルタリセット部
801 音声ピッチ周期推定部
802、1107 音声ピッチ修復部
1001 閾値自動調整部
1102 第一音声非音声識別部
1103 第二音声非音声識別部
1104、1903 音声ピッチ推定部
1105、2101 第一コムフィルタ生成部
1106、2103 第二コムフィルタ生成部
1109 音声分離係数計算部
1901、2501 SNR計算部
1902、2502 音声雑音フレーム検出部
2102 第一ミュジカルノイズ抑圧部
2104 第二ミュジカルノイズ抑圧部
2401 雑音分離コムフィルタ生成部
2402 雑音分離係数計算部
2404 雑音周波数合成部
2503 雑音コムフィルタリセット部
2504 雑音分離コムフィルタ生成部
2701 第三音声非音声識別部

Claims (17)

  1. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
    前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルから、前記分割音声スペクトルに含まれる雑音成分のスペクトルであるノイズベースを推定するノイズベース推定手段と、
    前記分割音声スペクトルと前記ノイズベースとに基づいて前記分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、
    前記音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手段と、
    音声ピッチ周波数を推定するピッチ周波数推定手段と、
    前記音声ピッチ周波数及び前記分割音声スペクトルに基づいて前記コムフィルタのピッチ調波の幅を修正するピッチ修正手段と、
    前記ピッチ調波の幅が修正されたコムフィルタを用いて前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、
    前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備する音声処理装置。
  2. 前記音声/非音声識別手段は、前記分割音声スペクトルのパワと前記ノイズベースのパワとの差分値が所定の閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断する請求項1に記載の音声処理装置。
  3. 前記分割音声スペクトルのパワの平均値をとる平均値計算手段を具備し、音声/非音声識別手段は、前記分割音声スペクトルのパワの平均値と雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断する請求項2に記載の音声処理装置。
  4. 音声成分の含まれない周波数領域のノイズベースを、過去に推定したノイズベースの平均値と前記分割音声スペクトルのパワを加重平均した平均値に基づいて更新するノイズベース推定手段を具備する請求項1から請求項3のいずれかに記載の音声処理装置。
  5. 雑音抑圧手段は、前記コムフィルタの阻止域における前記分割音声スペクトルに対して減衰を行う請求項1から請求項4のいずれかに記載の音声処理装置。
  6. 前記コムフィルタの通過域における周波数成分の数が所定の数より大きい場合には前記閾値を大きくし、前記コムフィルタの通過域における周波数成分の数が前記所定の数以下の場合には前記閾値を小さくする閾値調整手段を具備する請求項2又は請求項3記載の音声処理装置。
  7. 前記コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記コムフィルタを全て阻止域にするミュジカルノイズ抑圧手段を具備する請求項1から請求項6のいずれかに記載の音声処理装置。
  8. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
    前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルから、前記分割音声スペクトルに含まれる雑音成分のスペクトルであるノイズベースを推定するノイズベース推定手段と、
    前記分割音声スペクトルと前記ノイズベースとに基づいて前記分割音声スペクトルに音声成分が含まれているか否か識別する第一音声/非音声識別手段と、
    前記第一音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成する第一コムフィルタ生成手段と、
    前記分割音声スペクトルと前記ノイズベースとに基づいて前記第一音声/非音声識別手段と異なる条件で前記分割音声スペクトルに音声成分が含まれているか否か識別する第二音声/非音声識別手段と、
    前記第二音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第二コムフィルタを生成する第二コムフィルタ生成手段と、
    前記分割音声スペクトルから入力音声信号のピッチ周波数を推定する音声ピッチ推定手段と、
    前記音声ピッチ推定手段において推定されたピッチ周波数に基づいて前記第二コムフィルタのピッチ調波の幅を修復してピッチ修復コムフィルタを生成する音声ピッチ修復手段と、
    前記ピッチ修復コムフィルタに基づいて前記第一コムフィルタの修正を行い、修正コムフィルタを生成するコムフィルタ修正手段と、
    前記修正コムフィルタの値に基づき、またその値が阻止領域を示す場合は周波数に応じて、前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、
    前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備する音声処理装置。
  9. 前記第一音声/非音声識別手段は、前記分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の第一閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第一閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断し、
    前記第二音声/非音声識別手段は、前記分割音声スペクトルのパワとノイズベースのパワとの差分値が前記第一閾値より大きい第二閾値より大きい場合に音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第二閾値以下の場合に音声スペクトルに音声成分が含まれていないと判断する請求項8に記載の音声処理装置。
  10. 前記分割音声スペクトルのパワの平均値をとる平均値計算手段を具備し、前記第二音声/非音声識別手段は、前記分割音声スペクトルのパワの平均値と雑音成分のスペクトルであるノイズベースのパワとの差分値が前記第二閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第二閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断する請求項9に記載の音声処理装置。
  11. 前記分割音声スペクトルのパワと前記第一または第二コムフィルタとから音声対雑音の比を算出するSNR算出手段と、前記音声対雑音の比に基づいて音声フレームか雑音フレームかを検出する音声/雑音フレーム検出手段と、を具備し、音声ピッチ推定手段は、前記音声/雑音フレーム検出手段において音声フレームと判定された場合、前記ピッチ周波数を推定する請求項8から請求項10のいずれかに記載の音声処理装置。
  12. 前記音声/雑音フレーム検出手段において雑音フレームと判定された場合、前記修正コムフィルタを全て阻止域にするコムフィルタリセット手段を具備する請求項11記載の音声処理装置。
  13. コムフィルタ修正手段は、前記第一コムフィルタの通過域の周波数成分の中で前記ピッチ修復コムフィルタの通過域の周波数成分と重複している周波数成分を前記修正コムフィルタの通過域とし、この通過域以外の周波数領域を前記修正コムフィルタの阻止域とする請求項8から請求項12のいずれかに記載の音声処理装置。
  14. 前記第一コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記第一コムフィルタを全て阻止域にする第一ミュジカルノイズ抑圧手段と、
    前記第二コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記第二コムフィルタを全て阻止域とする第二ミュジカルノイズ抑圧手段と、を具備する請求項8から請求項13のいずれかに記載の音声処理装置。
  15. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、
    前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルから、前記分割音声スペクトルに含まれる雑音成分のスペクトルであるノイズベースを推定するノイズベース推定工程と、
    前記分割音声スペクトルと前記ノイズベースとに基づいて前記分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別工程と、
    音声成分の含まれる周波数領域を強調するピッチ調波構造を生成するピッチ調波構造生成工程と、
    音声ピッチ周波数を推定するピッチ周波数推定工程と、
    前記音声ピッチ周波数及び前記分割音声スペクトルに基づいて前記ピッチ調波構造のピッチ調波の幅を修正するピッチ修正工程と、
    前記ピッチ調波の幅が修正されたピッチ調波構造を用いて前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、
    前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、
    前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備する音声処理方法。
  16. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、
    前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルから、前記分割音声スペクトルに含まれる雑音成分のスペクトルであるノイズベースを推定するノイズベース推定工程と、
    前記分割音声スペクトルと前記ノイズベースとに基づいて前記分割音声スペクトルに音声成分が含まれているか否か識別する第一音声/非音声識別工程と、
    前記第一音声/非音声識別工程の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成する第一コムフィルタ生成工程と、
    前記分割音声スペクトルと前記ノイズベースとに基づいて前記第一音声/非音声識別工程と異なる条件で前記分割音声スペクトルに音声成分が含まれているか否か識別する第二音声/非音声識別工程と、
    前記第二音声/非音声識別工程の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第二コムフィルタを生成する第二コムフィルタ生成工程と、
    前記分割音声スペクトルから入力音声信号のピッチ周波数を推定する音声ピッチ推定工程と、
    前記音声ピッチ推定工程において推定されたピッチ周波数に基づいて前記第二コムフィルタのピッチ調波の幅を修復してピッチ修復コムフィルタを生成する音声ピッチ修復工程と、
    前記ピッチ修復コムフィルタに基づいて前記第一コムフィルタの修正を行い、修正コムフィルタを生成するコムフィルタ修正工程と、
    前記修正コムフィルタの値に基づき、またその値が阻止領域を示す場合は周波数に応じて、前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、
    前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備する音声処理方法。
  17. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、
    前記周波数分割された音声スペクトルである分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値を算出する差分値算出工程と、
    前記差分値が所定の第一閾値より大きい分割音声スペクトルに音声成分が含まれていると識別する第一音声/非音声識別工程と、
    前記第一音声/非音声識別工程にて音声成分が含まれると識別された周波数領域を強調する第一ピッチ調波構造を生成する第一ピッチ調波構造生成工程と、
    前記差分値が前記第一閾値より大きい第二閾値より大きい分割音声スペクトルに音声成分が含まれていると識別する第二音声/非音声識別工程と、
    前記第二音声/非音声識別工程にて音声成分が含まれると識別された周波数領域を強調する第二ピッチ調波構造を生成する第二ピッチ調波構造生成工程と、
    前記分割音声スペクトルから入力音声信号のピッチ周波数を推定するピッチ周波数推定工程と、
    前記第二ピッチ調波構造からピークの情報のみを抽出した第三ピッチ調波構造を生成する第三ピッチ調波構造生成工程と、
    前記第三ピッチ調波構造の前記推定されたピッチ周波数に対応する部分にピークを挿入した第四ピッチ調波構造を生成する第四ピッチ調波構造生成工程と、
    前記ピッチの値に応じて前記第四ピッチ調波構造のピークの幅を広げた第五ピッチ調波構造を生成する第五ピッチ調波構造生成工程と、
    前記第一ピッチ調波構造と前記第五ピッチ調波構造の両方において強調される周波数領域のみを強調する第六ピッチ調波構造を生成する第六ピッチ調波構造生成工程と、
    周波数特性に基づいた減衰係数を前記第六ピッチ調波構造に乗算することにより前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、
    前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、
    前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備する音声処理方法。
JP2005351249A 2000-08-31 2005-12-05 音声処理装置及び音声処理方法 Expired - Lifetime JP4445460B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005351249A JP4445460B2 (ja) 2000-08-31 2005-12-05 音声処理装置及び音声処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000264197 2000-08-31
JP2005351249A JP4445460B2 (ja) 2000-08-31 2005-12-05 音声処理装置及び音声処理方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001259473A Division JP2002149200A (ja) 2000-08-31 2001-08-29 音声処理装置及び音声処理方法

Publications (3)

Publication Number Publication Date
JP2006126859A JP2006126859A (ja) 2006-05-18
JP2006126859A5 JP2006126859A5 (ja) 2007-02-15
JP4445460B2 true JP4445460B2 (ja) 2010-04-07

Family

ID=36721589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005351249A Expired - Lifetime JP4445460B2 (ja) 2000-08-31 2005-12-05 音声処理装置及び音声処理方法

Country Status (1)

Country Link
JP (1) JP4445460B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013065088A1 (ja) * 2011-11-02 2015-04-02 三菱電機株式会社 雑音抑圧装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1973101B1 (en) * 2007-03-23 2010-02-24 Honda Research Institute Europe GmbH Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
JP5071346B2 (ja) 2008-10-24 2012-11-14 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP6447357B2 (ja) 2015-05-18 2019-01-09 株式会社Jvcケンウッド オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
CN108806707B (zh) * 2018-06-11 2020-05-12 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013065088A1 (ja) * 2011-11-02 2015-04-02 三菱電機株式会社 雑音抑圧装置
US9368097B2 (en) 2011-11-02 2016-06-14 Mitsubishi Electric Corporation Noise suppression device

Also Published As

Publication number Publication date
JP2006126859A (ja) 2006-05-18

Similar Documents

Publication Publication Date Title
JP2002149200A (ja) 音声処理装置及び音声処理方法
JP4440937B2 (ja) 暗騒音存在時の音声を改善するための方法および装置
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
US8612222B2 (en) Signature noise removal
JP3591068B2 (ja) 音声信号の雑音低減方法
JP4173641B2 (ja) 音声活動に基づくゲイン制限による音声強化
JP6423420B2 (ja) 帯域幅拡張方法および装置
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
US8326621B2 (en) Repetitive transient noise removal
JP3960834B2 (ja) 音声強調装置及び音声強調方法
US20140177853A1 (en) Sound processing device, sound processing method, and program
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
JP6896881B2 (ja) 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
JP4445460B2 (ja) 音声処理装置及び音声処理方法
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP2006126859A5 (ja)
JP2004272292A (ja) 音信号加工方法
JP4006770B2 (ja) ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法
JP5377167B2 (ja) 悲鳴検出装置および悲鳴検出方法
Jebara A perceptual approach to reduce musical noise phenomenon with wiener denoising technique
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
JP2002258899A (ja) 雑音抑圧方法および雑音抑圧装置
CN116057628A (zh) 用于语音和音乐录音的嗡嗡噪声检测和去除
JP2020190606A (ja) 音声雑音除去装置及びプログラム
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100115

R150 Certificate of patent or registration of utility model

Ref document number: 4445460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term