JP2010539539A - 音声明瞭化を伴うスピーチ改善 - Google Patents

音声明瞭化を伴うスピーチ改善 Download PDF

Info

Publication number
JP2010539539A
JP2010539539A JP2010524854A JP2010524854A JP2010539539A JP 2010539539 A JP2010539539 A JP 2010539539A JP 2010524854 A JP2010524854 A JP 2010524854A JP 2010524854 A JP2010524854 A JP 2010524854A JP 2010539539 A JP2010539539 A JP 2010539539A
Authority
JP
Japan
Prior art keywords
speech
audio signal
sub
processing
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010524854A
Other languages
English (en)
Other versions
JP5302968B2 (ja
Inventor
ユー、ロンシャン
ブラウン、シー・フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40076697&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2010539539(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2010539539A publication Critical patent/JP2010539539A/ja
Application granted granted Critical
Publication of JP5302968B2 publication Critical patent/JP5302968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分を改善する方法により、オーディオ信号のサブ帯域を処理が処理され、該処理には、いくつかの前記サブ帯域中のオーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、少なくとも、サブ帯域中のスピーチ成分のレベルに対してノイズ成分のレベルが増大するにつれてサブ帯域のゲインを減少させるため、及び、オーディオ信号のサブ帯域中にスピーチ成分が存在するとき、サブ帯域中のゲインを増大させるために、ゲイン中の差異を加算/減算するか、又はゲインの比を乗算する処理により制御され、該処理は、それぞれオーディオ信号のサブ帯域に応答し、ゲインを独立に制御して、処理されたサブ帯域オーディオ信号を出力することを特徴とする。

Description

本発明は、オーディオ信号処理に関する。さらに詳細には、ノイズの多いオーディオスピーチ信号のスピーチ改善及び明瞭化のための処理装置又は処理方法に関する。また本発明は、そのような方法を実行するため、又は、そのような装置を制御するためのコンピュータプログラムに関する。
[参照としての編入]
以下の刊行物は参照としてそのすべてを本明細書に編入する。
(文献1)S. F. Bollによる、IEEE Trans. Acoust., Speech, Signal Processing, vol. 27, pp. 113-120, Apr. 1979、「Suppression of acoustic noise in speech using spectral subtraction」
(文献2)Y. Ephraim, H. Lev-Ari and W. J. J. Robertsによる、The Electronic Handbook, CRC Press, April 2005、「A brief survey of Speech Enhancement」
(文献3)Y. Ephraim及びD. Malahによる、IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109‐1121, Dec. 1984、「Speech enhancement using a minimum mean square error short time spectral amplitude estimator」
(文献4)Thomas,I.及びNiederjohn,R.による、34th Audio Engineerin Society Convention, March 1968、「Preprocessing of Speech for Added Intelligibility in High Ambient Noise」
(文献5)Villchur, E.による、99th Audio Engineering Society Convention, September 1995、「Signal Processing to Improve Speech Intelligibility for the Hearing Impaired」
(文献6)N. Viragによる、IEEE Tran. Speech and Audio Processing, vol. 7, pp. 126‐137, Mar. 1999、「Single channel speech enhancement based on masking properties of the human auditory system」
(文献7)R. Martinによる、Proc. EUSIPCO, 1994, pp. 1182‐1185、「Spectral subtraction based on minimum statistics」
(文献8)P. J. Wolfe及びS. J. Godsillによる、EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043‐1051, 2003、「Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement」
(文献9)B. Widrow及びS. D. Stearnsによる、Englewood Cliffs, NJ: Prentice Hall, 1985、「Adaptive Signal Processing」
(文献10)Y. Ephraim及びD. Malahによる、EEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443-445, Dec. 1985、「Speech enhancement using a minimum mean square error Log-spectral amplitude estimator」
(文献11)E. Terhardtによる、Hearing Research, pp. 155-182, 1, 1979、「Calculating Virtual Pitch」
(文献12)ISO/IEC JTC1/SC29/WG11の、IS 11172-3, 1992、「Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s − Part3 Audio」
(文献13)J. Johnstonによる、EEEJ. Select. Areas Commun., vol. 6, pp. 314-323, Feb. 1988、「Transform coding of audio signals using perceptual noise criteria」
(文献14)S. Gustafsson, P. Jax, P Varyによる、Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1998. ICASSP '98、「A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics」
(文献15)Yi Hu及びP. C. Loizouによる、EEE Signal Processing Letter, pp. 270 - 273, vol.11 , no. 2, Feb. 2004、「Incorporating a psychoacoustic model in frequency domain speech enhancement」
(文献16)L. Lin, W. H. Holmes及びE. Ambikairajahによる、Electronics Letter, pp 1486-1487, vol. 38, Nov, 2002、「Speech denoising using perceptual modification of Wiener filtering」
(文献17)A.M. Kondozによる、John Wiley & Sons, Ltd., 2nd Edition, 2004, Chichester, England, Chapter 10: Voice Activity Detection, pp. 357-377、「Digital Speech: Coding for Low Bit Rate Communication Systems」
本発明の第1の特徴によれば、スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分が改善される。オーディオ信号は時間領域から周波数領域の複数のサブ帯域に変換される。オーディオ信号のサブ帯域がその後処理される。この処理には前記いくつかのサブ帯域中のオーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、少なくとも、(1)サブ帯域中のスピーチ成分のレベルに対してノイズ成分のレベルが増大するにつれてサブ帯域のゲインを減少させるため、及び(2)オーディオ信号のサブ帯域中にスピーチ成分が存在するとき、サブ帯域中のゲインを増大させるために、ゲイン中の差異を加算/減算するか、又はゲインの比を乗算する処理により制御される。この処理は、それぞれオーディオ信号のサブ帯域に応答し、ゲインを独立に制御して、処理されたサブ帯域オーディオ信号を出力する。処理されたサブ帯域オーディオ信号は、周波数領域から時間領域に変換され、スピーチ成分を増強したオーディオ信号を出力する。
この処理には、サブ帯域におけるスピーチ成分のレベルに関してノイズ成分のレベルが増大するにつれてそのようなサブ帯域のゲインを減少させるように、オーディオ信号のサブ帯域に応答するスピーチ改善処理を含むことができる。
この処理には、オーディオ信号のサブ帯域にスピーチ成分が存在するときにサブ帯域中のゲインを増大させるように、オーディオ信号のサブ帯域に応答する音声明瞭化処理を含むことができる。スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、ゲインの増大を低減させてもよい。
この処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、音声明瞭化処理はこの音声活動検出処理にも応答する。
この処理に、ノイズの多いスピーチ信号中にスピーチが存在するときを判断するために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれるとき、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することができる。
本発明の他の特徴によれば、スピーチ成分とノイズ成分とからなるオーディオ信号のスピーチ成分が改善される。オーディオ信号は時間領域から周波数領域の複数のサブ帯域に変換される。オーディオ信号のサブ帯域がその後処理される。この処理には、オーディオ信号のサブ帯域にスピーチ成分が存在するときにサブ帯域中のゲインを増大させ、処理されたサブ帯域オーディオ信号を出力する処理が含まれる。処理されたサブ帯域オーディオ信号のサブ帯域が処理され、この処理には、いくつかのサブ帯域の処理されたサブ帯域オーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、サブ帯域中のスピーチ成分に関してノイズ成分のレベルが増大するにつれて減少し、さらなる処理を受けたサブ帯域オーディオ信号を出力する。この、さらなる処理を受けたサブ帯域オーディオ信号は、周波数領域から時間領域に変換され、スピーチ成分が増強されたオーディオ信号を出力する。
この処理には、サブ帯域におけるスピーチ成分のレベルに関して、ノイズ成分のレベルが増大するにつれて、そのようなサブ帯域におけるゲインを減少させるために、オーディオ信号の処理されたサブ帯域に応答するスピーチ改善処理を含むことができる。
前記さらなる処理には、オーディオ信号のサブ帯域にスピーチ成分が存在するときに、いくつかのサブ帯域中のゲインを増大させるために、オーディオ信号のサブ帯域に応答する音声明瞭化処理を含むことができる。スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、ゲインの増大を低減させてもよい。
この処理、及び/又は、このさらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときを判断するために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、音声明瞭化処理はこの音声活動検出処理にも応答する。
この処理、及び/又は、このさらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することができる。
この処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理を含むことができ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することができる。
本発明の典型的な実施形態を示す機能ブロック図である。 本発明の別の典型的な実施形態を示す機能ブロック図である。 (m)/Emaxの関数としてのGVC(m)の値を示すグラフである。 図1の典型的な実施形態に関するフローチャートである。 図2の典型的な実施形態に関するフローチャートである。
[発明を実施するための最良の形態]
図1は、トポロジカルな機能構成による、本発明の特徴の典型的な実施形態を示す。入力は、混じりけのないスピーチとノイズの両方を含むアナログスピーチ信号をディジタル化することにより作られる。この改変されていないオーディオ信号y(n)(ノイズの多いスピーチ)は、ここで、n=0,1,....は時間指標であるが、フィルターバンク装置又はフィルターバンク機能(分析フィルターバンク)2に送られ、k個のサブ帯域信号Y(m)、ここでk=l,...,K、m=0,l,...,∞、が作られ、kはサブ帯域番号であり、mは各サブ帯域信号における時間指標である。分析フィルターバンク2は、オーディオ信号を時間領域から周波数領域における複数のサブ帯域に変換する。
サブ帯域信号は、ノイズ削減装置又はノイズ削減機能(スピーチ改善)4、音声活動検出装置又は音声活動検出機能(VAD)6、及び、音声明瞭度改善装置又は音声明瞭度改善機能(音声明瞭化)8に適用される。この入力サブ帯域信号、及び、任意的にVAD6に応答して、スピーチ改善4は、サブ帯域信号の強さを縮小拡大するゲインスケールファクターGNR(m)を制御する。このようなゲインスケールファクターのサブ帯域信号への適用については、乗算記号10により示されている。表示を明確にするために、図では、複数のサブ帯域信号(k)の内の1つだけにゲインスケールファクターを作り適用するように示されている。
ゲインスケールファクターGNR(m)の値は、スピーチ(高SNR)により支配されるサブ帯域が保持される一方、ノイズ成分(低信号対ノイズ(SNR))により支配されるサブ帯域が強く抑制されるように、スピーチ改善4により制御される。信号対ノイズ比(SNR)が減少する周波数領域(サブ帯域)で、GNR(m)の値は減少し(強く抑制され)、その逆もまた同様である。
入力サブ帯域信号に応答して、VAD6はスピーチがノイズの多いスピーチ信号y(n)内に存在するときを判断し、例えば、スピーチが存在するときVAD=1が出力され、スピーチが存在しないときVAD=0が出力される。
入力サブ帯域信号に応答し、VAD6に応答し、音声明瞭化8は、サブ帯域信号の強さを縮小拡大するゲインスケールファクターGVC’(m)を制御する。このようなサブ帯域信号に対するゲインスケールファクターの適用について、乗算記号12により示されている。ゲインスケールファクターGVC’(m)の値は、スピーチの明瞭化のために重要なサブ帯域を押し上げるために、音声明瞭化8により制御される。音声明瞭化8は、スピーチが存在するとき、ゲインスケールファクターGVC’(m)に音声周波数スペクトルの少なくとも一部を押し上げさせるために、VAD6により制御される。さらに以下に説明するように、スピーチのない場合に押し上げ動作が行われないとき、可聴アーティファクトが生じるのを最小限にするために平滑化を適用することができる。
Figure 2010539539
Figure 2010539539
ドット記号(・)は、乗算を表す。ゲインスケールファクターGNR(m)及びGVC’(m)は、改善前の入力サブ帯域信号Y(m)に、との順序でも適用することができ、スピーチ改善4と音声明瞭化8とはお互いに切り離され、サブ帯域信号に対して独立に作用する。
Figure 2010539539
合成フィルターバンクは、処理されたオーディオ信号を周波数領域から時間領域へ変換する。図4のフローチャートは、図1の典型的な実施形態の基礎となる処理を示す。最後のステップでは、次に、時間指標mが1だけ進められ(m←m+1)図4の処理が繰り返されることを示している。
サブ帯域オーディオ装置及びサブ帯域オーディオ処理は、アナログ技術又はディジタル技術又はこの2つの技術を複合させた技術のいずれを用いることもできる。サブ帯域フィルターバンクは、ディジタル帯域通過フィルターのバンク又はアナログ帯域通過フィルターのバンクにより実施することができる。ディジタル帯域通過フィルターに対して、入力信号は、フィルターする前にサンプル化する必要がある。サンプルはディジタルフィルターバンクを通過した後、ダウンサンプルされサブ帯域信号を得る。各サブ帯域信号は、入力信号スペクトルの部分を表すサンプルからなる。アナログ帯域通過フィルターに対して、入力信号は、それぞれがフィルターバンク帯域通過フィルター帯域幅に対応する帯域幅を持ついくつかのアナログ信号に分割される。サブ帯域アナログ信号は、アナログの形態を保持することも、サンプリングと量子化とを行いディジタルの形態に変換することも可能である。
サブ帯域オーディオ信号は、ディジタル帯域通過フィルターのバンクとして機能する、時間領域から周波数領域へのいくつかの変換のうちのどれを組み込んだ変換コーダを用いて導き出すこともできる。サンプル化された入力信号は、フィルター処理する前に「信号サンプルブロック」にセグメント化される。1つ以上の隣り合う変換係数又は変換ビンは、個々の変換係数の帯域幅の合計である有効帯域幅を持つ「サブ帯域」を定めるためにグループ化される。
本発明は、アナログ技術又はディジタル技術又はこのような技術を複合させた構成のいずれを用いても実施することができるが、本発明は、ディジタル技術を用いて好都合に実行することができるので、ここに開示する好ましい実施の形態では、ディジタル技術による実施形態である。従って、分析フィルターバンク2及び合成フィルターバンク14は、それぞれ、適切なフィルターバンク及び逆フィルターバンク、又は、適切な変換及び逆変換により、実施することができる。
図2は、代替的なトポロジカルな機能構成による、本発明の典型的な実施形態を示す。図2において、対応する装置及び機能は、同じ参照番号を用いている。
図2は、サブ帯域信号に対して、スピーチ改善4及び音声明瞭化8が、お互いに切り離されてはいないこと、及び、独立に動作しない点で図1とは異なる。サブ帯域信号は最初に音声明瞭化8及びVAD6に適用される。音声明瞭化ゲインスケールファクターGVC’(m)が、乗算器12に適用される。図1のトポロジーに示すように、音声明瞭化8は、スピーチが存在するときに、ゲインファクターGVC’(m)が選択的に押し上げ機能を出力するようにVAD6により制御される。
Figure 2010539539
Figure 2010539539
ドット記号(・)は、乗算を表す。
図1及び図2のトポロジーは両方とも、ノイズ削減することなく信号押し上げを行うのではなく、ノイズ削減と信号押し上げによるスピーチ改善を可能とする。図1及び図2において、ゲインスケールファクターは乗算によりサブ帯域の強さをコントロールすることが示されているが、当業者であれば等価な加算/減算構成を採用することができることは明らかであろう。
図6のフローチャートは、図2の典型的な実施形態の基礎となる処理を示す。図5のフローチャートに示すとおり、最後のステップは、時間指標mが、次に、1だけ進められ(m←m+1)図6の処理が繰り返されることを示している。
種々のスペクトル改善装置及びスペクトル改善機能は、本発明の実際の実施の形態におけるスピーチ改善4を実施するうえで有用である。このような、スペクトル改善装置及びスペクトル改善機能は、VADベースのノイズレベル推定器を採用するものと、統計ベースのノイズレベル推定器を採用するものとがある。このような有用な改善装置及び改善機能には、先に挙げた文献1、2、3、及び7に記載されたもの、及び、以下の米国暫定特許出願に記載されたものが含まれる。
(1)Rongshan Yuによる、2007年3月19日出願、S.N.60/918,964、「Noise Variance Estimator for Speech Enhancement」
(2)Rongshan Yuによる、2007年3月19日出願、S.N.60/918,986「Speech Enhancement Employing a Perceptual Model」
(3)Rongshan Yuによる、2007年9月12日出願、S.N.60/993,548「Speech Enhancement with Noise Level Estimation Adjustment」
(4)C. Philip Brownによる、2007年9月12日出願、S.N.60/993,601「Speech Enhancement」
スピーチ改善ゲインファクターGNR(m)は、ノイズを削減することを目的とするため、「ゲイン削減」と称することができる。ゲイン削減を制御する1つの方法は、「スペクトル減算法」として知られており、サブ帯域信号Y(m)に適用されるゲイン削減GNR(m)は、以下のように表すことができる。
Figure 2010539539
ここで、|Y(m)|は、サブ帯域信号Y(m)の強さであり、λ(w)は、サブ帯域kにおけるノイズエネルギーであり、a>1は、適切なゲイン削減を適用するために選択した「過剰減算」係数である。「過剰減算」は、文献7の2ページ及び文献6の127ページにさらに詳述されている。
適切な量のゲイン削減の量を決定するために、入力信号におけるサブ帯域のノイズエネルギーを正確に推定することが重要である。しかし、入力信号にノイズ信号がスピーチ信号と混じり合っている時に、これを行うことは簡単ではない。この問題を解決する1つの方法は、入ってくる信号にスピーチ信号が存在するかどうかを判断する、単独の音声活動検出装置(VAD)を用いた音声活動検出装置に基づくノイズレベル推定装置を用いることである。スピーチ信号が存在しない(VAD=0)期間に、ノイズエネルギーを更新する。例えば文献3を参照のこと。このようなノイズレベル推定装置では、時刻mにおける、ノイズエネルギーの推定値λ(m)は、以下のように表すことができる。
Figure 2010539539
ノイズエネルギーの初期推定値λ(−1)はゼロ、又は、処理の最初の段階で測定したノイズエネルギーに設定することができる。パラメータβは、0≪β<1の値を持つ平滑係数である。スピーチ信号が存在しない(VAD=0)とき、ノイズエネルギーの推定値は、入力信号Y(m)の指数に一次の平滑演算(しばしば「リーク積分器」と呼ばれる)を施すことにより得られる。平滑係数βは、1より少し小さい正の値とすることができる。通常、変化のない入力信号では、1に近いβの値により、より正確な推定値が得られる。一方、入力が変化するとき、ノイズエネルギーの変化に追従する能力を失わないようにするために、βの値は1に近づけすぎないようにすべきである。本発明の実際の実施の形態では、β=0.98の値で、満足できる結果をもたらすことが分かった。しかしこの値でなくてはならないということではない。(多極ローパスフィルターのような)非線形又は線形となる複雑な時間平滑器を用いてノイズエネルギーを推定することも可能である。
各時間指標mは、どんなディジタルシステムでもそうであるように、サブ帯域のサンプリングレートにより定まる。したがって、入力信号及び用いられるフィルターバンクのサンプリングレートに応じて変化する。現実的な実施形態において、各mの時間間隔は、8kHzのスピーチ信号、及び、32のダウンサンプリングファクターを有する、l(s)/8000*32=4msとなっている。
[音声活動検出装置(VAD)6]
音声活動検出装置及び音声活動検出機能は公知である。適切なそのような装置又は機能は、文献17の第10章及びその文献目録に記載されている。特定の音声活動検出装置を用いることが本発明にとって必須条件とはならない。
[音声明瞭化8]
本発明の現実的な実施形態において、種々の音声明瞭化装置及び音声明瞭化機能が有用である。
スピーチは、知覚させるために用いられる多くの異なったキューから成る。空気が肺から吐き出されるとき、声帯が振動する。空気が抜けるとき、喉頭、口、及び鼻が音響エネルギーを加減して種々のサウンドを生じさせる。「母音」は強い調和振動エネルギーを持ち、妨げるもののないエアフローにより作られる。「近接音」を含む「子音」、「摩擦音」及び「閉鎖音」は、エアフローを徐々に制限することにより作られ、母音より高い(しかしエネルギーの弱い)周波数成分を有している。スピーチの子音が明瞭度に大きく寄与し、母音は普通強いエネルギーを有するものの比較的寄与度が小さいと以前から知られている。この事実に基づき、音声明瞭化装置及び音声明瞭化機能は、通常、文献4にあるような、イコライザー、ハイパスシェルビングフィルター、又は、ハイパスフィルターを用い、明瞭度を改善するために、通常、スピーチの高い周波数で弱い子音が存在する周波数範囲を増大する。同様の技術が、文献5にあるように、スピーチ信号の高周波成分の知覚が困難な聴力障害のあるリスナーに対する補聴器に適用するために使われている。以下に記載するような、及び、2007年9月12日のC. Phillip Brownによる米国暫定特許出願S.N.60/993601に記載されているような、スペクトル平滑化手法がある。音声明瞭化ゲインスケールファクターは、スピーチ信号中の比較的弱い成分のレベルを増大させ、人間のリスナーがよく聞き取れるようにする。特定の音声明瞭化装置又は音声明瞭化機能を選ぶことが本発明にとって必須条件とはならない。
音声明瞭化ゲインGVC’(m)は、以下のような音声明瞭化処理又は音声明瞭化装置により生成することができる。
Figure 2010539539
GVC(m)は、入力がスピーチの時の音声明瞭化ゲインであり、0<k<1は平滑化計数である。kは、音声明瞭化ゲインのスピードを制御し、経験から最適な値を設定するよう、スピーチの休止期間にゲインを減少させる(増大させない)。本発明の実際の実施形態では、値はk=0.9の場合がよい結果が得られることがわかっている。しかしこの値が必須条件ではない。従って、スピーチ成分が存在するとき音声明瞭化処理によりゲインが増大し、スピーチ成分が存在する状態からスピーチ成分が存在しない状態へ移行するときに、時間平滑化に従いゲインが減少する。
ゲインファクターGVC(m)を有する理由は、スピーチ信号の聞き取りやすさを改善するために、選択した周波数領域のレベルを他に比べて押し上げるためである。本発明の1つの有用な実施形態において、GVC(m)は、Gmaxの小さい方として、又は他のサブ帯域のそれぞれのエネルギーと比べて最も高いエネルギーを有するサブ帯域のエネルギーの縮小拡大比として計算することができる。すなわち、
Figure 2010539539
ここで、
Figure 2010539539
0<γ<1は、あらかじめ選定したスケールファクターであり、0≪α<1は、平滑化係数であり、Gmaxはあらかじめ選定した最大ゲインである。初期値Ek(−1)はゼロとすることができる。γの値により、処理後の、スピーチにおける強い成分のエネルギー比に対する弱い成分のエネルギー比が定まる。例えば、γ=0.5なら、どれだけサブ帯域エネルギーE(m)がEmax(m)より下回ろうとも、事実上サブ帯域に対して2−1コンプレッサとしての役割を果たし、その差の半分により押し上げられる。Gmaxの値により、音声明瞭化アルゴリズムの最大許容押し上げ量が制御される。γとGmaxの値は、一緒になってスピーチ中の弱い成分の押し上げ量を決定するので、音声明瞭化処理の積極性を制御する。これらの最適値は、処理される信号の特性、目的とするアプリケーションの音響環境、及び、ユーザの好みにより変化する。固定の大きさに向かって押し上げる代わりに、代替的に、ハイパスシェルビング応答で定義されるような、周波数に依存する大きさに押し上げることもできる。
一例として、図3は、E(m)/Emaxの関数としてのGVC(m)の値を示す。この例において、γ=1及びGmax=20dBである。上述の平滑化係数に関して、平滑化係数αは、単極のローパスフィルター(しばしば「「リーク積分器」と呼ばれる)のような一次の時間平滑器、又は、より複雑な非線形又は線形の(多極ローパスフィルターのような)1以上の時間平滑器に組み込むことができる。
[実施形態]
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの(例えば、プログラマブルロジックアレー)で実施することができる。特に記載がない限り、本発明の一部として含まれている処理は本質的に、特定のコンピュータや他の装置と関連付けられるものではない。特に、種々の汎用機をこの記載に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置(例えば、集積回路)を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも1つのプロセッサ、少なくとも1つの記憶システム(揮発性及び非揮発性メモリー及び/又は記憶素子を含む)、少なくとも1つの入力装置又は入力ポート、及び少なくとも1つの出力装置又は出力ポートを具備する、1つ以上のプログラマブルコンピュータシステム上で実行される1つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、1以上の出力装置に適用される。
このようなプログラムの各々は、コンピュータシステムとの通信のために、必要とされるどんなコンピュータ言語(機械語、アセンブリ、又は、高級な、手続言語、論理型言語、又は、オブジェクト指向言語を含む)ででも実現することができる。いずれにせよ、言語はコンパイル言語であってもインタープリタ言語であってもよい。
当然のことながら、ここに様々な例として例示し記載した装置、機能、及び、処理は、図示したものとは異なった方法で結合したり分割して示すことができる。例えば、コンピュータソフトウェアの一連の命令として実行する場合、機能は、適切なディジタル信号処理ハードウェアで走るマルチスレッドのソフトウェアの一連の命令として実行することができ、この場合、図に例示した種々の装置及び機能は、ソフトウェアによる命令のそれぞれの部分に対応する。
このようなコンピュータプログラムの各々は、ここに記載の手順を実行するために、コンピュータにより記憶媒体又は記憶装置を読み込んだとき、コンピュータを設定し動作させるための、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより、読み込み可能な記憶媒体又は記憶装置(例えば、半導体メモリー又は半導体媒体、又は磁気又は光学媒体)に保存又はダウンロードすることが好ましい。本発明のシステムはまた、コンピュータプログラムにより構成されるコンピュータにより読み込み可能な記憶媒体として実行することを考えることもできる。ここで、この記憶媒体は、コンピュータシステムを、ここに記載した機能を実行するために、具体的にあらかじめ定めた方法で動作させる。
本発明の多くの実施の形態について記載した。しかしながら、本発明の精神と技術範囲を逸脱することなく多くの修正を加えることができることは明らかであろう。例えば、ここに記載したステップのいくつかの順序は独立であり、従って、記載とは異なる順序で実行することができる。

Claims (14)

  1. オーディオ信号を時間領域から周波数領域の複数のサブ帯域に変換するステップと、
    オーディオ信号のサブ帯域を処理するステップであって、該処理には、いくつかの前記サブ帯域中のオーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、少なくとも、
    サブ帯域中のスピーチ成分のレベルに対してノイズ成分のレベルが増大するにつれてサブ帯域のゲインを減少させるため、及び
    オーディオ信号のサブ帯域中にスピーチ成分が存在するとき、サブ帯域中のゲインを増大させるために、
    ゲイン中の差異を加算/減算するか、又はゲインの比を乗算する処理により制御され、
    該処理は、それぞれオーディオ信号のサブ帯域に応答し、ゲインを独立に制御して、処理されたサブ帯域オーディオ信号を出力することを特徴とする、オーディオ信号のサブ帯域を処理するステップと、
    処理されたサブ帯域オーディオ信号を周波数領域から時間領域に変換し、スピーチ成分を増強したオーディオ信号を出力するステップと、
    を具備することを特徴とする、スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分を改善する方法。
  2. 前記処理には、サブ帯域におけるスピーチ成分のレベルに関してノイズ成分のレベルが増大するにつれて該サブ帯域のゲインを減少させるように、オーディオ信号のサブ帯域に応答するスピーチ改善処理が含まれることを特徴とする、請求項1に記載の方法。
  3. 前記処理には、前記オーディオ信号のサブ帯域にスピーチ成分が存在するときに該サブ帯域中のゲインを増大させるように、オーディオ信号のサブ帯域に応答する音声明瞭化処理が含まれることを特徴とする、請求項1又は請求項2に記載の方法。
  4. 前記処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、音声明瞭化処理はこの音声活動検出処理にも応答することを特徴とする、請求項3に記載の方法。
  5. 前記処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することを特徴とする、請求項2又は請求項3に記載の方法。
  6. 前記音声明瞭化処理は、スピーチが存在するとき、スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、該ゲインが減少することを特徴とする、請求項4又は請求項5に記載の方法。
  7. オーディオ信号を時間領域から周波数領域の複数のサブ帯域に変換するステップと、
    オーディオ信号のサブ帯域を処理するステップであって、該処理には、前記オーディオ信号のサブ帯域にスピーチ成分が存在するときに該サブ帯域中のゲインを増大させて処理されたサブ帯域オーディオ信号を出力する処理が含まれることを特徴とする、オーディオ信号のサブ帯域を処理するステップと、
    前記処理されたサブ帯域オーディオ信号を処理するステップであって、該処理されたサブ帯域オーディオ信号の処理には、いくつかのサブ帯域の処理されたサブ帯域オーディオ信号のゲインを制御することが含まれ、サブ帯域のゲインは、サブ帯域中のスピーチ成分に関してノイズ成分のレベルが増大するにつれて減少し、さらなる処理を受けたサブ帯域オーディオ信号を出力することを特徴とする、処理されたサブ帯域オーディオ信号を処理するステップと、
    前記さらなる処理を受けたサブ帯域オーディオ信号を周波数領域から時間領域に変換し、スピーチ成分を増強したオーディオ信号を出力するステップと、
    を具備することを特徴とする、スピーチ成分とノイズ成分からなるオーディオ信号のスピーチ成分を改善する方法。
  8. 前記処理には、サブ帯域におけるスピーチ成分のレベルに関してノイズ成分のレベルが増大するにつれて該サブ帯域のゲインを減少させるように、オーディオ信号のサブ帯域に応答するスピーチ改善処理が含まれることを特徴とする、請求項7に記載の方法。
  9. 前記さらなる処理には、前記オーディオ信号のサブ帯域にスピーチ成分が存在するときに該サブ帯域中のゲインを増大させるように、オーディオ信号のサブ帯域に応答する音声明瞭化処理が含まれることを特徴とする、請求項7又は請求項8に記載の方法。
  10. 前記処理、及び/又は、前記さらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、音声明瞭化処理はこの音声活動検出処理にも応答することを特徴とする、請求項9に記載の方法。
  11. 前記処理、及び/又は、前記さらなる処理には、ノイズの多いスピーチ信号中にスピーチが存在するときに判断を行うために、オーディオ信号のサブ帯域に応答する音声活動検出処理が含まれ、スピーチ改善処理及び音声明瞭化処理の各々は、音声活動検出処理にも応答することを特徴とする、請求項8又は請求項9に記載の方法。
  12. 前記音声明瞭化処理は、スピーチが存在するとき、スピーチ成分が存在する状態からスピーチ成分が存在しない状態への移行における時間平滑化に伴い、該ゲインが減少することを特徴とする、請求項10又は請求項11に記載の方法。
  13. 請求項1乃至請求項12のいずれか1項に記載の方法を実施するための装置。
  14. 請求項1乃至請求項12のいずれか1項に記載の方法をコンピュータに実行させるためのコンピュータ読取可能な媒体に記憶させたコンピュータプログラム。
JP2010524854A 2007-09-12 2008-09-10 音声明瞭化を伴うスピーチ改善 Active JP5302968B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US99369107P 2007-09-12 2007-09-12
US60/993,691 2007-09-12
PCT/US2008/010590 WO2009035614A1 (en) 2007-09-12 2008-09-10 Speech enhancement with voice clarity

Publications (2)

Publication Number Publication Date
JP2010539539A true JP2010539539A (ja) 2010-12-16
JP5302968B2 JP5302968B2 (ja) 2013-10-02

Family

ID=40076697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010524854A Active JP5302968B2 (ja) 2007-09-12 2008-09-10 音声明瞭化を伴うスピーチ改善

Country Status (7)

Country Link
US (1) US8583426B2 (ja)
EP (1) EP2191466B1 (ja)
JP (1) JP5302968B2 (ja)
CN (1) CN101802910B (ja)
BR (1) BRPI0816792B1 (ja)
RU (1) RU2469423C2 (ja)
WO (1) WO2009035614A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US9185500B2 (en) 2008-06-02 2015-11-10 Starkey Laboratories, Inc. Compression of spaced sources for hearing assistance devices
US8705751B2 (en) * 2008-06-02 2014-04-22 Starkey Laboratories, Inc. Compression and mixing for hearing assistance devices
US9485589B2 (en) 2008-06-02 2016-11-01 Starkey Laboratories, Inc. Enhanced dynamics processing of streaming audio by source separation and remixing
WO2010003068A1 (en) * 2008-07-03 2010-01-07 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
GB2484969B (en) * 2010-10-29 2013-11-20 Canon Kk Improved reference frame for video encoding and decoding
JP2012103395A (ja) * 2010-11-09 2012-05-31 Sony Corp 符号化装置、符号化方法、およびプログラム
WO2013142723A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
CN103325383A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 音频处理方法和音频处理设备
JP6135106B2 (ja) 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
WO2015010865A1 (en) 2013-07-22 2015-01-29 Harman Becker Automotive Systems Gmbh Automatic timbre control
EP3025516B1 (en) * 2013-07-22 2020-11-04 Harman Becker Automotive Systems GmbH Automatic timbre, loudness and equalization control
CN103559887B (zh) * 2013-11-04 2016-08-17 深港产学研基地 用于语音增强系统的背景噪声估计方法
EP3103204B1 (en) * 2014-02-27 2019-11-13 Nuance Communications, Inc. Adaptive gain control in a communication system
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
RU2676022C1 (ru) * 2016-07-13 2018-12-25 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" Способ повышения разборчивости речи
CN106328159B (zh) * 2016-09-12 2021-07-09 优酷网络技术(北京)有限公司 一种音频流的处理方法及装置
EP3312838A1 (en) * 2016-10-18 2018-04-25 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal
US20210089887A1 (en) * 2019-09-24 2021-03-25 Apple Inc. Variance-Based Learning Rate Control For Training Machine-Learning Models
RU2726326C1 (ru) * 2019-11-26 2020-07-13 Акционерное общество "ЗАСЛОН" Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208395A (ja) * 1992-10-30 1994-07-26 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho ホルマント検出装置及び音声加工装置
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
JP2002519719A (ja) * 1998-06-22 2002-07-02 ディーエスピーシー・テクノロジーズ・リミテッド 重み付け利得平滑化手段を含むノイズサプレッサ
JP2005037650A (ja) * 2003-07-14 2005-02-10 Asahi Kasei Corp 雑音低減装置
JP2005537702A (ja) * 2002-07-12 2005-12-08 ヴェーデクス・アクティーセルスカプ 補聴器および音声の明瞭さを高める方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9610290A (pt) * 1995-09-14 1999-03-16 Ericsson Ge Mobile Inc Processo para aumentar a inteligibilidade de voz em sinais de áudio aparelho para reduzir ruído em quadros recebidos de sinais de áudio digitalizados e sistema de telecomunicações
FR2768547B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
US6732073B1 (en) 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6760435B1 (en) 2000-02-08 2004-07-06 Lucent Technologies Inc. Method and apparatus for network speech enhancement
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US20030023429A1 (en) 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
EP2239733B1 (en) * 2001-03-28 2019-08-21 Mitsubishi Denki Kabushiki Kaisha Noise suppression method
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US20060206320A1 (en) 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208395A (ja) * 1992-10-30 1994-07-26 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho ホルマント検出装置及び音声加工装置
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置
JP2002519719A (ja) * 1998-06-22 2002-07-02 ディーエスピーシー・テクノロジーズ・リミテッド 重み付け利得平滑化手段を含むノイズサプレッサ
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
JP2005537702A (ja) * 2002-07-12 2005-12-08 ヴェーデクス・アクティーセルスカプ 補聴器および音声の明瞭さを高める方法
JP2005037650A (ja) * 2003-07-14 2005-02-10 Asahi Kasei Corp 雑音低減装置

Also Published As

Publication number Publication date
RU2010114272A (ru) 2011-10-20
EP2191466B1 (en) 2013-05-22
US20100211388A1 (en) 2010-08-19
US8583426B2 (en) 2013-11-12
EP2191466A1 (en) 2010-06-02
BRPI0816792B1 (pt) 2020-01-28
CN101802910B (zh) 2012-11-07
RU2469423C2 (ru) 2012-12-10
JP5302968B2 (ja) 2013-10-02
WO2009035614A1 (en) 2009-03-19
BRPI0816792A2 (pt) 2015-09-01
CN101802910A (zh) 2010-08-11

Similar Documents

Publication Publication Date Title
JP5302968B2 (ja) 音声明瞭化を伴うスピーチ改善
JP4970596B2 (ja) 雑音レベル推定値の調節を備えたスピーチ強調
JP5260561B2 (ja) 知覚モデルを使用した音声の強調
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
KR101120679B1 (ko) 이득-제한된 잡음 억제
US9805738B2 (en) Formant dependent speech signal enhancement
WO2008101324A1 (en) High-frequency bandwidth extension in the time domain
Shao et al. A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system
Meshram et al. Denoising of speech signal by classification into voiced, unvoiced and silence regoin
Abd Almisreb et al. Noise reduction approach for Arabic phonemes articulated by Malay speakers
EP2760022B1 (en) Audio bandwidth dependent noise suppression
Krishnamoorthy et al. Processing noisy speech for enhancement
CN116057626A (zh) 使用机器学习的降噪
Narayanam Perceptual Wavelet packet transform based Wavelet Filter Banks Modeling of Human Auditory system for improving the intelligibility of voiced and unvoiced speech: A Case Study of a system development
Keshwani Wavelet-based speech enhancement system using smart thresholding
Shao et al. A generalized time–frequency subtraction method for
Harvilla Compensation for Nonlinear Distortion in Noise for Robust Speech Recognition

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120829

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130621

R150 Certificate of patent or registration of utility model

Ref document number: 5302968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250