JP2010539539A

JP2010539539A - 音声明瞭化を伴うスピーチ改善

Info

Publication number: JP2010539539A
Application number: JP2010524854A
Authority: JP
Inventors: ユー、ロンシャン; ブラウン、シー・フィリップ
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-09-12
Filing date: 2008-09-10
Publication date: 2010-12-16
Anticipated expiration: 2028-09-10
Also published as: RU2010114272A; EP2191466B1; US20100211388A1; US8583426B2; EP2191466A1; BRPI0816792B1; CN101802910B; RU2469423C2; JP5302968B2; WO2009035614A1; BRPI0816792A2; CN101802910A

Abstract

スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分を改善する方法により、オーディオ信号のサブ帯域を処理が処理され、該処理には、いくつかの前記サブ帯域中のオーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、少なくとも、サブ帯域中のスピーチ成分のレベルに対してノイズ成分のレベルが増大するにつれてサブ帯域のゲインを減少させるため、及び、オーディオ信号のサブ帯域中にスピーチ成分が存在するとき、サブ帯域中のゲインを増大させるために、ゲイン中の差異を加算／減算するか、又はゲインの比を乗算する処理により制御され、該処理は、それぞれオーディオ信号のサブ帯域に応答し、ゲインを独立に制御して、処理されたサブ帯域オーディオ信号を出力することを特徴とする。

Description

本発明は、オーディオ信号処理に関する。さらに詳細には、ノイズの多いオーディオスピーチ信号のスピーチ改善及び明瞭化のための処理装置又は処理方法に関する。また本発明は、そのような方法を実行するため、又は、そのような装置を制御するためのコンピュータプログラムに関する。

［参照としての編入］
以下の刊行物は参照としてそのすべてを本明細書に編入する。

（文献１）S. F. Bollによる、IEEE Trans. Acoust., Speech, Signal Processing, vol. 27, pp. 113-120, Apr. 1979、「Suppression of acoustic noise in speech using spectral subtraction」
（文献２）Y. Ephraim, H. Lev-Ari and W. J. J. Robertsによる、The Electronic Handbook, CRC Press, April 2005、「A brief survey of Speech Enhancement」
（文献３）Y. Ephraim及びD. Malahによる、IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109‐1121, Dec. 1984、「Speech enhancement using a minimum mean square error short time spectral amplitude estimator」
（文献４）Thomas，I．及びNiederjohn，R.による、34th Audio Engineerin Society Convention, March 1968、「Preprocessing of Speech for Added Intelligibility in High Ambient Noise」
（文献５）Villchur, E.による、99th Audio Engineering Society Convention, September 1995、「Signal Processing to Improve Speech Intelligibility for the Hearing Impaired」
（文献６）N. Viragによる、IEEE Tran. Speech and Audio Processing, vol. 7, pp. 126‐137, Mar. 1999、「Single channel speech enhancement based on masking properties of the human auditory system」
（文献７）R. Martinによる、Proc. EUSIPCO, 1994, pp. 1182‐1185、「Spectral subtraction based on minimum statistics」
（文献８）P. J. Wolfe及びS. J. Godsillによる、EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043‐1051, 2003、「Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement」
（文献９）B. Widrow及びS. D. Stearnsによる、Englewood Cliffs, NJ: Prentice Hall, 1985、「Adaptive Signal Processing」
（文献１０）Y. Ephraim及びD. Malahによる、EEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443-445, Dec. 1985、「Speech enhancement using a minimum mean square error Log-spectral amplitude estimator」
（文献１１）E. Terhardtによる、Hearing Research, pp. 155-182, 1, 1979、「Calculating Virtual Pitch」
（文献１２）ISO/IEC JTC1/SC29/WG11の、IS 11172-3, 1992、「Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s − Part3 Audio」
（文献１３）J. Johnstonによる、EEEJ. Select. Areas Commun., vol. 6, pp. 314-323, Feb. 1988、「Transform coding of audio signals using perceptual noise criteria」
（文献１４）S. Gustafsson, P. Jax, P Varyによる、Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1998. ICASSP '98、「A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics」
（文献１５）Yi Hu及びP. C. Loizouによる、EEE Signal Processing Letter, pp. 270 - 273, vol.11 , no. 2, Feb. 2004、「Incorporating a psychoacoustic model in frequency domain speech enhancement」
（文献１６）L. Lin, W. H. Holmes及びE. Ambikairajahによる、Electronics Letter, pp 1486-1487, vol. 38, Nov, 2002、「Speech denoising using perceptual modification of Wiener filtering」
（文献１７）A.M. Kondozによる、John Wiley & Sons, Ltd., 2nd Edition, 2004, Chichester, England, Chapter 10: Voice Activity Detection, pp. 357-377、「Digital Speech: Coding for Low Bit Rate Communication Systems」

本発明の第１の特徴によれば、スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分が改善される。オーディオ信号は時間領域から周波数領域の複数のサブ帯域に変換される。オーディオ信号のサブ帯域がその後処理される。この処理には前記いくつかのサブ帯域中のオーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、少なくとも、（１）サブ帯域中のスピーチ成分のレベルに対してノイズ成分のレベルが増大するにつれてサブ帯域のゲインを減少させるため、及び（２）オーディオ信号のサブ帯域中にスピーチ成分が存在するとき、サブ帯域中のゲインを増大させるために、ゲイン中の差異を加算／減算するか、又はゲインの比を乗算する処理により制御される。この処理は、それぞれオーディオ信号のサブ帯域に応答し、ゲインを独立に制御して、処理されたサブ帯域オーディオ信号を出力する。処理されたサブ帯域オーディオ信号は、周波数領域から時間領域に変換され、スピーチ成分を増強したオーディオ信号を出力する。

この処理には、サブ帯域におけるスピーチ成分のレベルに関してノイズ成分のレベルが増大するにつれてそのようなサブ帯域のゲインを減少させるように、オーディオ信号のサブ帯域に応答するスピーチ改善処理を含むことができる。

この処理には、オーディオ信号のサブ帯域にスピーチ成分が存在するときにサブ帯域中のゲインを増大させるように、オーディオ信号のサブ帯域に応答する音声明瞭化処理を含むことができる。スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、ゲインの増大を低減させてもよい。

この処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、音声明瞭化処理はこの音声活動検出処理にも応答する。

この処理に、ノイズの多いスピーチ信号中にスピーチが存在するときを判断するために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれるとき、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することができる。

本発明の他の特徴によれば、スピーチ成分とノイズ成分とからなるオーディオ信号のスピーチ成分が改善される。オーディオ信号は時間領域から周波数領域の複数のサブ帯域に変換される。オーディオ信号のサブ帯域がその後処理される。この処理には、オーディオ信号のサブ帯域にスピーチ成分が存在するときにサブ帯域中のゲインを増大させ、処理されたサブ帯域オーディオ信号を出力する処理が含まれる。処理されたサブ帯域オーディオ信号のサブ帯域が処理され、この処理には、いくつかのサブ帯域の処理されたサブ帯域オーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、サブ帯域中のスピーチ成分に関してノイズ成分のレベルが増大するにつれて減少し、さらなる処理を受けたサブ帯域オーディオ信号を出力する。この、さらなる処理を受けたサブ帯域オーディオ信号は、周波数領域から時間領域に変換され、スピーチ成分が増強されたオーディオ信号を出力する。

この処理には、サブ帯域におけるスピーチ成分のレベルに関して、ノイズ成分のレベルが増大するにつれて、そのようなサブ帯域におけるゲインを減少させるために、オーディオ信号の処理されたサブ帯域に応答するスピーチ改善処理を含むことができる。

前記さらなる処理には、オーディオ信号のサブ帯域にスピーチ成分が存在するときに、いくつかのサブ帯域中のゲインを増大させるために、オーディオ信号のサブ帯域に応答する音声明瞭化処理を含むことができる。スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、ゲインの増大を低減させてもよい。

この処理、及び／又は、このさらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときを判断するために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、音声明瞭化処理はこの音声活動検出処理にも応答する。

この処理、及び／又は、このさらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することができる。

この処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することができる。

本発明の典型的な実施形態を示す機能ブロック図である。本発明の別の典型的な実施形態を示す機能ブロック図である。Ｅ_ｋ（ｍ）／Ｅ_ｍａｘの関数としてのＧＶＣ_ｋ（ｍ）の値を示すグラフである。図１の典型的な実施形態に関するフローチャートである。図２の典型的な実施形態に関するフローチャートである。

［発明を実施するための最良の形態］
図１は、トポロジカルな機能構成による、本発明の特徴の典型的な実施形態を示す。入力は、混じりけのないスピーチとノイズの両方を含むアナログスピーチ信号をディジタル化することにより作られる。この改変されていないオーディオ信号ｙ（ｎ）（ノイズの多いスピーチ）は、ここで、ｎ＝０，１，．．．．は時間指標であるが、フィルターバンク装置又はフィルターバンク機能（分析フィルターバンク）２に送られ、ｋ個のサブ帯域信号Ｙ_ｋ（ｍ）、ここでｋ＝ｌ，．．．，Ｋ、ｍ＝０，ｌ，．．．，∞、が作られ、ｋはサブ帯域番号であり、ｍは各サブ帯域信号における時間指標である。分析フィルターバンク２は、オーディオ信号を時間領域から周波数領域における複数のサブ帯域に変換する。

サブ帯域信号は、ノイズ削減装置又はノイズ削減機能（スピーチ改善）４、音声活動検出装置又は音声活動検出機能（ＶＡＤ）６、及び、音声明瞭度改善装置又は音声明瞭度改善機能（音声明瞭化）８に適用される。この入力サブ帯域信号、及び、任意的にＶＡＤ６に応答して、スピーチ改善４は、サブ帯域信号の強さを縮小拡大するゲインスケールファクターＧＮＲ_ｋ（ｍ）を制御する。このようなゲインスケールファクターのサブ帯域信号への適用については、乗算記号１０により示されている。表示を明確にするために、図では、複数のサブ帯域信号（ｋ）の内の１つだけにゲインスケールファクターを作り適用するように示されている。

ゲインスケールファクターＧＮＲ_ｋ（ｍ）の値は、スピーチ（高ＳＮＲ）により支配されるサブ帯域が保持される一方、ノイズ成分（低信号対ノイズ（ＳＮＲ））により支配されるサブ帯域が強く抑制されるように、スピーチ改善４により制御される。信号対ノイズ比（ＳＮＲ）が減少する周波数領域（サブ帯域）で、ＧＮＲ_ｋ（ｍ）の値は減少し（強く抑制され）、その逆もまた同様である。

入力サブ帯域信号に応答して、ＶＡＤ６はスピーチがノイズの多いスピーチ信号ｙ（ｎ）内に存在するときを判断し、例えば、スピーチが存在するときＶＡＤ＝１が出力され、スピーチが存在しないときＶＡＤ＝０が出力される。

入力サブ帯域信号に応答し、ＶＡＤ６に応答し、音声明瞭化８は、サブ帯域信号の強さを縮小拡大するゲインスケールファクターＧＶＣ_ｋ’（ｍ）を制御する。このようなサブ帯域信号に対するゲインスケールファクターの適用について、乗算記号１２により示されている。ゲインスケールファクターＧＶＣ_ｋ’（ｍ）の値は、スピーチの明瞭化のために重要なサブ帯域を押し上げるために、音声明瞭化８により制御される。音声明瞭化８は、スピーチが存在するとき、ゲインスケールファクターＧＶＣ_ｋ’（ｍ）に音声周波数スペクトルの少なくとも一部を押し上げさせるために、ＶＡＤ６により制御される。さらに以下に説明するように、スピーチのない場合に押し上げ動作が行われないとき、可聴アーティファクトが生じるのを最小限にするために平滑化を適用することができる。

ドット記号（・）は、乗算を表す。ゲインスケールファクターＧＮＲ_ｋ（ｍ）及びＧＶＣ_ｋ’（ｍ）は、改善前の入力サブ帯域信号Ｙ_ｋ（ｍ）に、との順序でも適用することができ、スピーチ改善４と音声明瞭化８とはお互いに切り離され、サブ帯域信号に対して独立に作用する。

合成フィルターバンクは、処理されたオーディオ信号を周波数領域から時間領域へ変換する。図４のフローチャートは、図１の典型的な実施形態の基礎となる処理を示す。最後のステップでは、次に、時間指標ｍが１だけ進められ（ｍ←ｍ＋１）図４の処理が繰り返されることを示している。

サブ帯域オーディオ装置及びサブ帯域オーディオ処理は、アナログ技術又はディジタル技術又はこの２つの技術を複合させた技術のいずれを用いることもできる。サブ帯域フィルターバンクは、ディジタル帯域通過フィルターのバンク又はアナログ帯域通過フィルターのバンクにより実施することができる。ディジタル帯域通過フィルターに対して、入力信号は、フィルターする前にサンプル化する必要がある。サンプルはディジタルフィルターバンクを通過した後、ダウンサンプルされサブ帯域信号を得る。各サブ帯域信号は、入力信号スペクトルの部分を表すサンプルからなる。アナログ帯域通過フィルターに対して、入力信号は、それぞれがフィルターバンク帯域通過フィルター帯域幅に対応する帯域幅を持ついくつかのアナログ信号に分割される。サブ帯域アナログ信号は、アナログの形態を保持することも、サンプリングと量子化とを行いディジタルの形態に変換することも可能である。

サブ帯域オーディオ信号は、ディジタル帯域通過フィルターのバンクとして機能する、時間領域から周波数領域へのいくつかの変換のうちのどれを組み込んだ変換コーダを用いて導き出すこともできる。サンプル化された入力信号は、フィルター処理する前に「信号サンプルブロック」にセグメント化される。１つ以上の隣り合う変換係数又は変換ビンは、個々の変換係数の帯域幅の合計である有効帯域幅を持つ「サブ帯域」を定めるためにグループ化される。

本発明は、アナログ技術又はディジタル技術又はこのような技術を複合させた構成のいずれを用いても実施することができるが、本発明は、ディジタル技術を用いて好都合に実行することができるので、ここに開示する好ましい実施の形態では、ディジタル技術による実施形態である。従って、分析フィルターバンク２及び合成フィルターバンク１４は、それぞれ、適切なフィルターバンク及び逆フィルターバンク、又は、適切な変換及び逆変換により、実施することができる。

図２は、代替的なトポロジカルな機能構成による、本発明の典型的な実施形態を示す。図２において、対応する装置及び機能は、同じ参照番号を用いている。

図２は、サブ帯域信号に対して、スピーチ改善４及び音声明瞭化８が、お互いに切り離されてはいないこと、及び、独立に動作しない点で図１とは異なる。サブ帯域信号は最初に音声明瞭化８及びＶＡＤ６に適用される。音声明瞭化ゲインスケールファクターＧＶＣ_ｋ’（ｍ）が、乗算器１２に適用される。図１のトポロジーに示すように、音声明瞭化８は、スピーチが存在するときに、ゲインファクターＧＶＣ_ｋ’（ｍ）が選択的に押し上げ機能を出力するようにＶＡＤ６により制御される。

ドット記号（・）は、乗算を表す。

図１及び図２のトポロジーは両方とも、ノイズ削減することなく信号押し上げを行うのではなく、ノイズ削減と信号押し上げによるスピーチ改善を可能とする。図１及び図２において、ゲインスケールファクターは乗算によりサブ帯域の強さをコントロールすることが示されているが、当業者であれば等価な加算／減算構成を採用することができることは明らかであろう。

図６のフローチャートは、図２の典型的な実施形態の基礎となる処理を示す。図５のフローチャートに示すとおり、最後のステップは、時間指標ｍが、次に、１だけ進められ（ｍ←ｍ＋１）図６の処理が繰り返されることを示している。

種々のスペクトル改善装置及びスペクトル改善機能は、本発明の実際の実施の形態におけるスピーチ改善４を実施するうえで有用である。このような、スペクトル改善装置及びスペクトル改善機能は、ＶＡＤベースのノイズレベル推定器を採用するものと、統計ベースのノイズレベル推定器を採用するものとがある。このような有用な改善装置及び改善機能には、先に挙げた文献１、２、３、及び７に記載されたもの、及び、以下の米国暫定特許出願に記載されたものが含まれる。

（１）Rongshan Yuによる、２００７年３月１９日出願、Ｓ．Ｎ．６０／９１８，９６４、「Noise Variance Estimator for Speech Enhancement」
（２）Rongshan Yuによる、２００７年３月１９日出願、Ｓ．Ｎ．６０／９１８，９８６「Speech Enhancement Employing a Perceptual Model」
（３）Rongshan Yuによる、２００７年９月１２日出願、Ｓ．Ｎ．６０／９９３，５４８「Speech Enhancement with Noise Level Estimation Adjustment」
（４）C. Philip Brownによる、２００７年９月１２日出願、Ｓ．Ｎ．６０／９９３，６０１「Speech Enhancement」
スピーチ改善ゲインファクターＧＮＲ_ｋ（ｍ）は、ノイズを削減することを目的とするため、「ゲイン削減」と称することができる。ゲイン削減を制御する１つの方法は、「スペクトル減算法」として知られており、サブ帯域信号Ｙ_ｋ（ｍ）に適用されるゲイン削減ＧＮＲ_ｋ（ｍ）は、以下のように表すことができる。

ここで、｜Ｙ_ｋ（ｍ）｜は、サブ帯域信号Ｙ_ｋ（ｍ）の強さであり、λ_ｋ（ｗ）は、サブ帯域ｋにおけるノイズエネルギーであり、ａ＞１は、適切なゲイン削減を適用するために選択した「過剰減算」係数である。「過剰減算」は、文献７の２ページ及び文献６の１２７ページにさらに詳述されている。

適切な量のゲイン削減の量を決定するために、入力信号におけるサブ帯域のノイズエネルギーを正確に推定することが重要である。しかし、入力信号にノイズ信号がスピーチ信号と混じり合っている時に、これを行うことは簡単ではない。この問題を解決する１つの方法は、入ってくる信号にスピーチ信号が存在するかどうかを判断する、単独の音声活動検出装置（ＶＡＤ）を用いた音声活動検出装置に基づくノイズレベル推定装置を用いることである。スピーチ信号が存在しない（ＶＡＤ＝０）期間に、ノイズエネルギーを更新する。例えば文献３を参照のこと。このようなノイズレベル推定装置では、時刻ｍにおける、ノイズエネルギーの推定値λ_ｋ（ｍ）は、以下のように表すことができる。

ノイズエネルギーの初期推定値λ_ｋ（−１）はゼロ、又は、処理の最初の段階で測定したノイズエネルギーに設定することができる。パラメータβは、０≪β＜１の値を持つ平滑係数である。スピーチ信号が存在しない（ＶＡＤ＝０）とき、ノイズエネルギーの推定値は、入力信号Ｙ_ｋ（ｍ）の指数に一次の平滑演算（しばしば「リーク積分器」と呼ばれる）を施すことにより得られる。平滑係数βは、１より少し小さい正の値とすることができる。通常、変化のない入力信号では、１に近いβの値により、より正確な推定値が得られる。一方、入力が変化するとき、ノイズエネルギーの変化に追従する能力を失わないようにするために、βの値は１に近づけすぎないようにすべきである。本発明の実際の実施の形態では、β＝０．９８の値で、満足できる結果をもたらすことが分かった。しかしこの値でなくてはならないということではない。（多極ローパスフィルターのような）非線形又は線形となる複雑な時間平滑器を用いてノイズエネルギーを推定することも可能である。

各時間指標ｍは、どんなディジタルシステムでもそうであるように、サブ帯域のサンプリングレートにより定まる。したがって、入力信号及び用いられるフィルターバンクのサンプリングレートに応じて変化する。現実的な実施形態において、各ｍの時間間隔は、８ｋＨｚのスピーチ信号、及び、３２のダウンサンプリングファクターを有する、ｌ（ｓ）／８０００＊３２＝４ｍｓとなっている。

［音声活動検出装置（ＶＡＤ）６］
音声活動検出装置及び音声活動検出機能は公知である。適切なそのような装置又は機能は、文献１７の第１０章及びその文献目録に記載されている。特定の音声活動検出装置を用いることが本発明にとって必須条件とはならない。

［音声明瞭化８］
本発明の現実的な実施形態において、種々の音声明瞭化装置及び音声明瞭化機能が有用である。

スピーチは、知覚させるために用いられる多くの異なったキューから成る。空気が肺から吐き出されるとき、声帯が振動する。空気が抜けるとき、喉頭、口、及び鼻が音響エネルギーを加減して種々のサウンドを生じさせる。「母音」は強い調和振動エネルギーを持ち、妨げるもののないエアフローにより作られる。「近接音」を含む「子音」、「摩擦音」及び「閉鎖音」は、エアフローを徐々に制限することにより作られ、母音より高い（しかしエネルギーの弱い）周波数成分を有している。スピーチの子音が明瞭度に大きく寄与し、母音は普通強いエネルギーを有するものの比較的寄与度が小さいと以前から知られている。この事実に基づき、音声明瞭化装置及び音声明瞭化機能は、通常、文献４にあるような、イコライザー、ハイパスシェルビングフィルター、又は、ハイパスフィルターを用い、明瞭度を改善するために、通常、スピーチの高い周波数で弱い子音が存在する周波数範囲を増大する。同様の技術が、文献５にあるように、スピーチ信号の高周波成分の知覚が困難な聴力障害のあるリスナーに対する補聴器に適用するために使われている。以下に記載するような、及び、２００７年９月１２日のC. Phillip Brownによる米国暫定特許出願Ｓ．Ｎ．６０／９９３６０１に記載されているような、スペクトル平滑化手法がある。音声明瞭化ゲインスケールファクターは、スピーチ信号中の比較的弱い成分のレベルを増大させ、人間のリスナーがよく聞き取れるようにする。特定の音声明瞭化装置又は音声明瞭化機能を選ぶことが本発明にとって必須条件とはならない。

音声明瞭化ゲインＧＶＣ_ｋ’（ｍ）は、以下のような音声明瞭化処理又は音声明瞭化装置により生成することができる。

ＧＶＣ_ｋ（ｍ）は、入力がスピーチの時の音声明瞭化ゲインであり、０＜ｋ＜１は平滑化計数である。ｋは、音声明瞭化ゲインのスピードを制御し、経験から最適な値を設定するよう、スピーチの休止期間にゲインを減少させる（増大させない）。本発明の実際の実施形態では、値はｋ＝０．９の場合がよい結果が得られることがわかっている。しかしこの値が必須条件ではない。従って、スピーチ成分が存在するとき音声明瞭化処理によりゲインが増大し、スピーチ成分が存在する状態からスピーチ成分が存在しない状態へ移行するときに、時間平滑化に従いゲインが減少する。

ゲインファクターＧＶＣ_ｋ（ｍ）を有する理由は、スピーチ信号の聞き取りやすさを改善するために、選択した周波数領域のレベルを他に比べて押し上げるためである。本発明の１つの有用な実施形態において、ＧＶＣ_ｋ（ｍ）は、Ｇ_ｍａｘの小さい方として、又は他のサブ帯域のそれぞれのエネルギーと比べて最も高いエネルギーを有するサブ帯域のエネルギーの縮小拡大比として計算することができる。すなわち、

ここで、

０＜γ＜１は、あらかじめ選定したスケールファクターであり、０≪α＜１は、平滑化係数であり、Ｇ_ｍａｘはあらかじめ選定した最大ゲインである。初期値Ｅｋ（−１）はゼロとすることができる。γの値により、処理後の、スピーチにおける強い成分のエネルギー比に対する弱い成分のエネルギー比が定まる。例えば、γ＝０．５なら、どれだけサブ帯域エネルギーＥ_ｋ（ｍ）がＥ_ｍａｘ（ｍ）より下回ろうとも、事実上サブ帯域に対して２−１コンプレッサとしての役割を果たし、その差の半分により押し上げられる。Ｇ_ｍａｘの値により、音声明瞭化アルゴリズムの最大許容押し上げ量が制御される。γとＧ_ｍａｘの値は、一緒になってスピーチ中の弱い成分の押し上げ量を決定するので、音声明瞭化処理の積極性を制御する。これらの最適値は、処理される信号の特性、目的とするアプリケーションの音響環境、及び、ユーザの好みにより変化する。固定の大きさに向かって押し上げる代わりに、代替的に、ハイパスシェルビング応答で定義されるような、周波数に依存する大きさに押し上げることもできる。

一例として、図３は、Ｅ_ｋ（ｍ）／Ｅ_ｍａｘの関数としてのＧＶＣ_ｋ（ｍ）の値を示す。この例において、γ＝１及びＧ_ｍａｘ＝２０ｄＢである。上述の平滑化係数に関して、平滑化係数αは、単極のローパスフィルター（しばしば「「リーク積分器」と呼ばれる）のような一次の時間平滑器、又は、より複雑な非線形又は線形の（多極ローパスフィルターのような）１以上の時間平滑器に組み込むことができる。

［実施形態］
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの（例えば、プログラマブルロジックアレー）で実施することができる。特に記載がない限り、本発明の一部として含まれている処理は本質的に、特定のコンピュータや他の装置と関連付けられるものではない。特に、種々の汎用機をこの記載に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置（例えば、集積回路）を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも１つのプロセッサ、少なくとも１つの記憶システム（揮発性及び非揮発性メモリー及び／又は記憶素子を含む）、少なくとも１つの入力装置又は入力ポート、及び少なくとも１つの出力装置又は出力ポートを具備する、１つ以上のプログラマブルコンピュータシステム上で実行される１つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、１以上の出力装置に適用される。

このようなプログラムの各々は、コンピュータシステムとの通信のために、必要とされるどんなコンピュータ言語（機械語、アセンブリ、又は、高級な、手続言語、論理型言語、又は、オブジェクト指向言語を含む）ででも実現することができる。いずれにせよ、言語はコンパイル言語であってもインタープリタ言語であってもよい。

当然のことながら、ここに様々な例として例示し記載した装置、機能、及び、処理は、図示したものとは異なった方法で結合したり分割して示すことができる。例えば、コンピュータソフトウェアの一連の命令として実行する場合、機能は、適切なディジタル信号処理ハードウェアで走るマルチスレッドのソフトウェアの一連の命令として実行することができ、この場合、図に例示した種々の装置及び機能は、ソフトウェアによる命令のそれぞれの部分に対応する。

このようなコンピュータプログラムの各々は、ここに記載の手順を実行するために、コンピュータにより記憶媒体又は記憶装置を読み込んだとき、コンピュータを設定し動作させるための、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより、読み込み可能な記憶媒体又は記憶装置（例えば、半導体メモリー又は半導体媒体、又は磁気又は光学媒体）に保存又はダウンロードすることが好ましい。本発明のシステムはまた、コンピュータプログラムにより構成されるコンピュータにより読み込み可能な記憶媒体として実行することを考えることもできる。ここで、この記憶媒体は、コンピュータシステムを、ここに記載した機能を実行するために、具体的にあらかじめ定めた方法で動作させる。

本発明の多くの実施の形態について記載した。しかしながら、本発明の精神と技術範囲を逸脱することなく多くの修正を加えることができることは明らかであろう。例えば、ここに記載したステップのいくつかの順序は独立であり、従って、記載とは異なる順序で実行することができる。

Claims

オーディオ信号を時間領域から周波数領域の複数のサブ帯域に変換するステップと、
オーディオ信号のサブ帯域を処理するステップであって、該処理には、いくつかの前記サブ帯域中のオーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、少なくとも、
サブ帯域中のスピーチ成分のレベルに対してノイズ成分のレベルが増大するにつれてサブ帯域のゲインを減少させるため、及び
オーディオ信号のサブ帯域中にスピーチ成分が存在するとき、サブ帯域中のゲインを増大させるために、
ゲイン中の差異を加算／減算するか、又はゲインの比を乗算する処理により制御され、
該処理は、それぞれオーディオ信号のサブ帯域に応答し、ゲインを独立に制御して、処理されたサブ帯域オーディオ信号を出力することを特徴とする、オーディオ信号のサブ帯域を処理するステップと、
処理されたサブ帯域オーディオ信号を周波数領域から時間領域に変換し、スピーチ成分を増強したオーディオ信号を出力するステップと、
を具備することを特徴とする、スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分を改善する方法。
前記処理には、サブ帯域におけるスピーチ成分のレベルに関してノイズ成分のレベルが増大するにつれて該サブ帯域のゲインを減少させるように、オーディオ信号のサブ帯域に応答するスピーチ改善処理が含まれることを特徴とする、請求項１に記載の方法。
前記処理には、前記オーディオ信号のサブ帯域にスピーチ成分が存在するときに該サブ帯域中のゲインを増大させるように、オーディオ信号のサブ帯域に応答する音声明瞭化処理が含まれることを特徴とする、請求項１又は請求項２に記載の方法。
前記処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、音声明瞭化処理はこの音声活動検出処理にも応答することを特徴とする、請求項３に記載の方法。
前記処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することを特徴とする、請求項２又は請求項３に記載の方法。
前記音声明瞭化処理は、スピーチが存在するとき、スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、該ゲインが減少することを特徴とする、請求項４又は請求項５に記載の方法。
オーディオ信号を時間領域から周波数領域の複数のサブ帯域に変換するステップと、
オーディオ信号のサブ帯域を処理するステップであって、該処理には、前記オーディオ信号のサブ帯域にスピーチ成分が存在するときに該サブ帯域中のゲインを増大させて処理されたサブ帯域オーディオ信号を出力する処理が含まれることを特徴とする、オーディオ信号のサブ帯域を処理するステップと、
前記処理されたサブ帯域オーディオ信号を処理するステップであって、該処理されたサブ帯域オーディオ信号の処理には、いくつかのサブ帯域の処理されたサブ帯域オーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、サブ帯域中のスピーチ成分に関してノイズ成分のレベルが増大するにつれて減少し、さらなる処理を受けたサブ帯域オーディオ信号を出力することを特徴とする、処理されたサブ帯域オーディオ信号を処理するステップと、
前記さらなる処理を受けたサブ帯域オーディオ信号を周波数領域から時間領域に変換し、スピーチ成分を増強したオーディオ信号を出力するステップと、
を具備することを特徴とする、スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分を改善する方法。
前記処理には、サブ帯域におけるスピーチ成分のレベルに関してノイズ成分のレベルが増大するにつれて該サブ帯域のゲインを減少させるように、オーディオ信号のサブ帯域に応答するスピーチ改善処理が含まれることを特徴とする、請求項７に記載の方法。
前記さらなる処理には、前記オーディオ信号のサブ帯域にスピーチ成分が存在するときに該サブ帯域中のゲインを増大させるように、オーディオ信号のサブ帯域に応答する音声明瞭化処理が含まれることを特徴とする、請求項７又は請求項８に記載の方法。
前記処理、及び／又は、前記さらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、音声明瞭化処理はこの音声活動検出処理にも応答することを特徴とする、請求項９に記載の方法。
前記処理、及び／又は、前記さらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することを特徴とする、請求項８又は請求項９に記載の方法。
前記音声明瞭化処理は、スピーチが存在するとき、スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、該ゲインが減少することを特徴とする、請求項１０又は請求項１１に記載の方法。
請求項１乃至請求項１２のいずれか１項に記載の方法を実施するための装置。
請求項１乃至請求項１２のいずれか１項に記載の方法をコンピュータに実行させるためのコンピュータ読取可能な媒体に記憶させたコンピュータプログラム。