JP2010539538A - 雑音レベル推定値の調節を備えたスピーチ強調 - Google Patents

雑音レベル推定値の調節を備えたスピーチ強調 Download PDF

Info

Publication number
JP2010539538A
JP2010539538A JP2010524853A JP2010524853A JP2010539538A JP 2010539538 A JP2010539538 A JP 2010539538A JP 2010524853 A JP2010524853 A JP 2010524853A JP 2010524853 A JP2010524853 A JP 2010524853A JP 2010539538 A JP2010539538 A JP 2010539538A
Authority
JP
Japan
Prior art keywords
level
subband
audio signal
speech
estimated noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010524853A
Other languages
English (en)
Other versions
JP4970596B2 (ja
Inventor
ユー、ロンシャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2010539538A publication Critical patent/JP2010539538A/ja
Application granted granted Critical
Publication of JP4970596B2 publication Critical patent/JP4970596B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Machine Translation (AREA)

Abstract

スピーチ成分と雑音成分から構成されるオーディオ信号のスピーチ成分を強調する方法であって、サブバンド中のオーディオ信号の利得を制御することを含み、ここでスピーチ成分のレベルに対して推定された雑音成分のレベルが増加する場合に、サブバンドにおける利得は低減され、推定された雑音成分のレベルの少なくとも一部分が以下の場合に決定される;
(1)サブバンド中の入力信号レベルが、定められた時間を越えて、ある限度だけサブバンド中の推定された雑音成分を超過する場合に、推定された雑音成分のレベルをサブバンド中の前記オーディオ信号のレベルと比較すると共に、予め定められた量によってサブバンド中の推定された雑音成分のレベルを増加する、
(2)サブバンド中の信号対雑音比が、定められた時間を越えて、ある限度を越える場合に、サブバンド中の信号対雑音比を監視して得ると共に、予め定められた量によってサブバンド中の推定された雑音成分のレベルを増加する。
【選択図】図1

Description

本発明はオーディオ信号処理に関する。特に、本発明は、雑音のあるオーディオ音声信号のスピーチ強調に関する。また、本発明は、そのような方法の実施、又はそのような装置の制御のためのコンピュータプログラムに関する。
以下の刊行物は、それらの各々の全体が、参照によってここに組み入れられる。
[1] エス・エフ・ボル(S. F. Boll)著、「スペクトルの減法を使用するスピーチの音響雑音の抑制(Suppression of acoustic noise in speech using spectral subtraction)」、(米国)、米国電気電子学会(IEEE)、音響スピーチ信号処理トランザクション(Trans. Acoust., Speech, Signal Processing)、第27巻、p. 113-120、1979年4月 [2] ワイ・エフライム、エッチ・レフ−アリ、ダブリュー・ジェイ・ジェイ・ロバーツ(Y. Εphraim, H. Lev-Ari and W. J. J. Roberts)著、「スピーチ強調に関する簡潔な調査(A brief survey of Speech Enhancement)」、(米国)、電子ハンドブック(The Electronic Handbook)、シーアールシー出版(CRC Press)、2005年4月 [3] ワイ・エフライム、ディー・マーラー(Y. Ephraim and D. Malah)著、「最小二乗平均誤差の短時間スペクトル振幅推定器を使用するスピーチ強調(Speech enhancement using a minimum mean square error short time spectral amplitude estimator)」、(米国)、米国電気電子学会(IEEE)、音響スピーチ信号処理トランザクション(Trans. Acoust., Speech, Signal Processing)、第32巻、p. 1109-1121、1984年12月 [4] トーマス・アイ、ニーダージョン・アール(Thomas, I. and Niederjohn, R.)著、「大きな周辺騒音での付加的された明瞭度のためのスピーチの前処理(Preprocessing of Speech for Added Intelligibility in High Ambient Noise)」、(米国)、第34回オーディオ技術学会会議(34th Audio Engineering Society Convention)、1968年3月 [5] ビルキューレ・イー(Villchur, E.)著、「聴覚障害に関してスピーチ明瞭度を改善する信号処理(Signal Processing to Improve Speech Intelligibility for the Hearing Impaired)」、(米国)、第99回オーディオ技術学会会議(99th Audio Engineering Society Convention)、1995年9月 [6] エヌ・ビラグ(N. Virag)著、「人間聴覚系の特性を隠蔽することに基づいた単独チャネルスピーチ強調(Single channel speech enhancement based on masking properties of the human auditory system)」、(米国)、米国電気電子学会(IEEE)、スピーチ・オーディオ処理トランザクション(Tran. Speech and Audio Processing)、第7巻、p. 126-137、1999年3月 [7] アール・マーチン(R. Martin)著、「最小値統計に基づくスペクトルの減法(Spectral subtraction based on minimum statistics)」、(スイス)、欧州信号処理会議プロシーディング(Proc. EUSIPCO)、p. 1182-1185、1994年 [8] ピー・ジェイ・ウォルフ、エス・ジェイ・ゴッドシル(P. J. Wolfe and S. J. Godsill)著、「オーディオ信号強調のためのエフライムとマーラー圧縮ルールの効率的な代替案(Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement)」、(米国)、応用信号処理ユーラシップ・ジャーナル(EURASIP Journal on Applied Signal Processing), 第2003巻、公報10(Issue 10)、p. 1043-1051、2003年、(http://www.hindawi.com/journals/asp/) [9] ビー・ウィドロー、エス・ディー・スターンズ(B. Widrow and S. D. Stearns)著、「適応信号処理(Adaptive Signal Processing」、(米国)、イーグルウッド・ニュージャージー(Englewood Cliffs, NJ)、プレンティスホール(Prentice Hall)、1985年 [10] ワイ・エフライム、ディー・マーラー(Y. Ephraim and D. Malah)著、「最小二乗平均誤差のログ・スペクトル振幅推定量を使用するスピーチ強調(Speech enhancement using a minimum mean square error Log-spectral amplitude estimator)」、(米国)、米国電気電子学会(IEEE)、音響スピーチ信号処理トランザクション(Trans. Acoust., Speech, Signal Processing)、第33巻、p. 443-445、1985年12月 [11] イー・テーハード(Ε. Terhardt)著、「仮想ピッチの計算(Calculating Virtual Pitch)」、(米国)、ヒアリング・リサーチ(Hearing Research)、p. 155-182、1979年1号 [12] アイエスオー・アイイーシー合同会議(ISO/IΕC JTC)、第1第29セクション・ワーキンググループ11(1 /SC29/WG 11)、「情報技術−約1.5[メガビット/秒]までのデジタル記憶媒体に関して動画と関連するオーディオの符号化−第3部オーディオ(Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s - Part 3: Audio)、IS 11172-3、1992年 [13] ジェー・ジョンストン(J. Johnston)著、「知覚騒音規準を使用してのオーディオ信号の変換符号化(Transform coding of audio signals using perceptual noise criteria)」、(米国)、米国電気電子学会(IEEE)、通信分野セレクションジャーナル(J. Select. Areas Commun)、第6巻、p. 314-323、1988年2月 [14] エス・グスタファソン、ピー・ジャックス、ピー・バリー(S. Gustafsson, P. Jax, P Vary)著、「暗騒音特性を保存する新規な心理音響的に動機づけられたオーディオ強調アルゴリズム(A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics)」、(米国)、米国電気電子学会(IEEE)、1998年音響スピーチ信号処理国際会議プロシーディング(Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing)、1998年、ICASSP '98. [15] イー・フー、ピー・シー・ロイゾウ(Yi Hu, and P. C. Loizou)著、「周波数領域スピーチ強調に音響心理学のモデルを組み入れること(Incorporating a psychoacoustic model in frequency domain speech enhancement)」、(米国)、米国電気電子学会(IEEE)、信号処理レター(Signal Processing Letter)、第11巻、第2号、p. 270 - 273、2004年2月 [16] エル・リン、ダブリュー・エッチ・ホルムズ、イー・アムビカイラジャ(L. Lin, W. H. Holmes, and Ε. Ambikairajah)著、「ウィーナーフィルタリングの知覚変更を使用するスピーチ脱ノイズ化(Speech denoising using perceptual modification of Wiener filtering)」、(米国)、エレクトロニクス・レター(Electronics Letter)、第38巻、p. 1486-1487、2002年11月 [17] エー・エム・コンゾー(A.M. Kondoz)著、「デジタルスピーチ:低ビットレート通信システム用の符号化(Digital Speech: Coding for Low Bit Rate Communication Systems)」、ジョン・ワイリー・アンド・サンズ株式会社(John Wiley & Sons, Ltd.), 第二版、2004年、チチェスター、英国(Chichester, England)、第10章:音声活動検出(Voice Activity Detection)、p. 357-377
本発明の第1の態様によれば、スピーチ成分と雑音成分から構成されるオーディオ信号のスピーチ成分が強調される。オーディオ信号は時間領域から周波数領域内の複数のサブバンドに変換される。オーディオ信号のサブバンドは、その次に処理される。本処理には、前記サブバンドの少数の(in ones of)オーディオ信号の利得を制御することが含まれている。ここで、推定された雑音成分のレベルがスピーチ成分のレベルに対して増加する場合に、サブバンドの利得が低減される。また、そこでは、サブバンド中の入力信号レベルが、定められた時間を越えて、ある限度だけサブバンド中で推定された雑音成分のレベルを超過する場合、推定された雑音成分のレベルをサブバンド中のオーディオ信号のレベルと比較すると共に、予め定められた量によってサブバンド中の推定された雑音成分のレベルを増加することにより、推定された雑音成分のレベルは少なくとも一部分が決定される。スピーチ成分が強調されたオーディオ信号を提供するために、処理されたサブバンドオーディオ信号は、周波数領域から時間領域へ変換される。推定された雑音成分は、音声活動検出器に基づく雑音レベル推定装置あるいは処理によって決定される。その代わりに、推定された雑音成分は、統計的に基づく雑音レベル推定装置あるいは処理によって決定されてもよい。
発明の別の態様によれば、スピーチ成分と雑音成分から構成されるオーディオ信号のスピーチ成分が強調される。オーディオ信号は時間領域から周波数領域内の複数のサブバンドに変換される。オーディオ信号のサブバンドは、その次に処理される。本処理には、前記サブバンドの少数の(in ones of)オーディオ信号の利得を制御することが含まれている。ここで、推定された雑音成分のレベルがスピーチ成分のレベルに対して増加する場合に、サブバンドの利得が低減される。また、そこでは、サブバンド中の信号対雑音比が、定められた時間を越えて、ある限度を超過する場合、サブバンド中の信号対雑音比を得ること並びにモニターすると共に、予め定められた量によってサブバンド中の推定された雑音成分のレベルを増加することにより、推定された雑音成分のレベルは少なくとも一部分が決定される。スピーチ成分が強調されたオーディオ信号を提供するために、処理されたサブバンドオーディオ信号は、周波数領域から時間領域へ変換される。推定された雑音成分は、音声活動検出器に基づく雑音レベル推定装置あるいは処理によって決定される。その代わりに、推定された雑音成分は、統計的に基づく雑音レベル推定装置あるいは処理によって決定されてもよい。
図1は本発明の典型的な実施例を示す機能ブロックダイヤグラムである。 図2は第1の実施例用の推定された雑音レベルに対する実際の雑音レベルの理想化された仮説のプロットである。 図3は第2の実施例用の推定された雑音レベルに対する実際の雑音レベルの理想化された仮説のプロットである。 図4は第3の実施例用の推定された雑音レベルに対する実際の雑音レベルの理想化された仮説のプロットである。 図5は図1の典型的な実施例に関するフローチャートである。
図1は、本発明の態様の典型的な実施例を示す機能ブロックダイヤグラムである。入力は、雑音と同様に明瞭なスピーチの両方を含んでいるアナログ音声信号のデジタル化により生成される。この変換がないオーディオ信号y(n)(「雑音のあるスピーチ」)は、次に、解析フィルタバンク装置あるいは機能(「解析フィルタバンク」)2に送られて、K個の複数のサブバンド信号、Y(m)、k=1、…、K、m=0、1、…、∞、を生成する。ここで、n=0、1、…は時間インデックスであり、kはサブバンド数であり、mは各サブバンド信号の時間インデックスである。解析フィルタバンク2はオーディオ信号を時間領域から周波数領域の複数のサブバンドに変換する。
サブバンド信号は、ノイズ削減装置か機能(「スピーチ強調器」)4、雑音レベル推定器か推定機能(「雑音レベル推定器」)6、および雑音レベル推定器調節器か調節機能(「雑音レベル調節器」)(「NLA」)8に適用される。
入力サブバンド信号、および雑音レベル調節器8の調整された推定雑音レベル出力に応じて、スピーチ強調器4は、サブバンド信号の振幅を増減する利得スケール係数GNR(m)を制御する。サブバンド信号への利得スケール係数のそのような適用は、乗算器記号10によって象徴的に示される。プレゼンテーションでの明快さのために、多数のサブバンド信号(k)のうちのただ1個について利得スケール係数を生成することと適用することを示す。
スピーチが優勢をふるっているサブバンドが保護されていると同時に、雑音成分が優勢をふるっているサブバンドが強く抑圧されるように、利得スケール係数の値GNR(m)はスピーチ強調器4によって制御される。スピーチ強調器4は、サブバンド信号Y(m)と雑音レベル調節器8からの調整された推定雑音レベル出力に応じて利得スケール係数GNR(m)を生成する「抑圧ルール」装置又は機能12を有すると考えられてもよい。
スピーチ強調器4は、入力サブバンド信号に応じて、スピーチが雑音のある音声信号y(n)の中にあるかどうか判断する、音声活動検出器か検出機能(VAD)(図示せず)を有している。例えば、スピーチが存在する場合、VAD=1の出力を供給し、スピーチが存在しない場合、VAD=0出力を供給する。スピーチ強調器4がVADベースの装置か機能である場合、VADが必要である。他の場合には、VADは必要ではない。
強調されたサブバンド音声信号Y(m)は、強調されていない入力サブバンドY(m)に対して利得スケール係数GNR(m)を適用することにより提供される。これは次のように表わされる:
Figure 2010539538
ここで、ドット記号(『・』)は乗算を表示する。
次に、処理されたサブバンド信号
Figure 2010539538
は、強調された音声信号
Figure 2010539538
を生成する合成フィルタバンク装置あるいは処理(「合成フィルタバンク」)14の使用により、時間領域に変換される。合成フィルタバンクは、処理されたオーディオ信号を周波数領域から時間領域に変換する。
ここに示され、様々な例に記述された様々な装置、機能および処理が、図1と図5に示された以外の方法で組み合わせられ、又は分離されてもよいことが認識される。例えば、スピーチ強調器4、雑音レベル推定器6および雑音レベル調節器8は、別々の装置あるいは機能として示されるが、それらは実際上様々な方法で組み合わせられてもよい。また、例えば、コンピューターソフトウェア命令シーケンスによって実施される時、機能は適切なデジタル信号処理ハードウェア中で運転するマルチスレッドのソフトウェア命令シーケンスによって実施される。その場合には、図に示される例における、様々な装置および機能は、ソフトウェア命令の部分に相当する。
サブバンドオーディオ装置および処理は、アナログ技術かデジタル技術、あるいは2つの技術のハイブリッドのいずれかを使用してもよい。サブバンドフィルタバンクは、デジタル帯域フィルターのバンク、あるいはアナログ帯域フィルターのバンクによって実施する。デジタル帯域フィルターに関しては、入力信号がフィルタリングに先立ってサンプリングされる。サンプルはディジタルフィルタバンクを通過させられて、そして次に、サブバンド信号を得るためにダウンサンプリング(downsampled)された。各サブバンド信号は、入力信号スペクトルの一部を表わすサンプルを含む。アナログ帯域フィルターに関しては、入力信号が、フィルタバンク帯域フィルターの帯域幅に対応する帯域幅でいくつかのアナログ信号各々へ分割される。サブバンドアナログ信号はアナログ方式を維持してもよく、またサンプリングと量子化によりデジタル形式に変換することもできる。
サブバンドオーディオ信号も、デジタル帯域フィルターのバンクとしての機能として、いくつかの時間領域の任意の1つを周波数領域に変換することを実施する変換符号器を使用して、引き出される。サンプリングされた入力信号は、フィルタリングに先立って「信号サンプルブロック」へ分けられる。1つ以上の隣接した変換係数あるいはビンは、個々の変換係数帯域幅の和である有効バンド幅を有する「サブバンド」を定義するために一まとめにできる。
アナログかデジタル技術、又はこれら技術のハイブリッド配置を使用して、本発明は実施されるが、本発明はデジタル技術を使用して、より好適に実施される。また、ここに開示された好ましい実施例はデジタル実施である。このように、解析フィルタバンク2と合成フィルタバンク14は、任意の適切なフィルタバンクと逆フィルタバンク、又は変換と逆変換によってそれぞれ実施されてもよい。
利得スケール係数GNR(m)にはサブバンド幅を乗算的に制御するものを示しているが、等価な付加的な/減法的な配置が使用されてもよいことは技術における通常の熟練を有するものに明らかである。
スピーチ強調器4
様々なスペクトルの強調装置および機能は、本発明の実用的な実施例中のスピーチ強調器4を実施するのに有益である。そのようなスペクトル強調装置および機能の中には、VADベースの雑音レベル推定器を採用するもの、および統計に基づいた雑音レベル推定器を採用するものがある。そのような有用なスペクトルの強調装置および機能は、上にリストされた非特許文献1、2、3、6及び7、並びに以下の2件のアメリカ仮特許出願に記述されたものを含む:
(1)「スピーチ強調のための音変動推定器(Noise Variance Estimator for Speech Enhancement)」、ロンサン・ユー(Rongshan Yu)、米国特許出願番号60/918,964、2007年3月19日申請
(2)「知覚モデルを使用するスピーチ強調(Speech Enhancement Employing a Perceptual Model)」、ロンサン・ユー(Rongshan Yu)、米国特許出願番号60/918,986、2007年3月19日申請
別のスペクトルの強調装置および機能もまた有用である。任意の特別のスペクトルの強調装置や機能の選択は、本発明にとって重大ではない。
その目的が雑音を抑圧することなので、スピーチ強調利得係数GNR(m)は「抑圧利得」と呼ばれる。抑圧利得を制御する1つの手法は、「スペクトルの減法」(非特許文献[1]、[2]及び[7])として知られている。これにおいて、サブバンド信号Y(m)に適用された抑圧利得GNR(m)は、次のように表現される:
Figure 2010539538
ここで、lY(m)lはサブバンド信号Y(m)の振幅である。λ(m)はサブバンドkのノイズエネルギである。また、α>1は、十分な抑圧利得が適用されることを確保するように選ばれた「超過減法(over subtraction)」係数である。「超過減法」は、非特許文献7の第2ページと、非特許文献6の第127ページでさらに説明される。
抑圧利得の適正量を決定するために、入力する信号のサブバンドに対するノイズエネルギの正確な推定を有することは重要である。しかし、それは、入力する信号中の音声信号と一緒にノイズ信号が混ぜられる場合には、取るに足らないタスクではない。この問題を解決する1つの手法は、入力する信号の中に音声信号があるかどうか判断するために、スタンドアロンの音声活動検出器(VAD)を使用する音声活動検出器ベースの雑音レベル推定器を使用することである。多くの音声活動検出器および検出器機能が知られている。適切な装置や機能は非特許文献[17]の10章およびその参考文献一覧に記述される。任意の特別の音声活動検出器の使用は本発明にとって重大ではない。ノイズエネルギはスピーチが存在しない(VAD=0)期間に更新される。例えば、非特許文献[3]を参照されたい。そのような雑音推定器では、時間mでのノイズエネルギ推定値λ(m)は次式で与えられる:
Figure 2010539538
ノイズエネルギ推定値の初期値λ(−1)は0にセットされるか、あるいは処理の初期設定段階で測定されたノイズエネルギにセットされる。変数βは、値0≪β<1を有する平滑化係数である。スピーチが存在しない場合(VAD=0)、ノイズエネルギの推定は、入力信号Y(m)のべき乗(この例においては2乗)で一次の時間平滑化演算 (時々「漏洩積分器」と呼ばれる)を行なうことにより得られる。平滑化係数βは1よりも僅かに小さい正の値である。通常、定常の入力信号に関しては、1に近いβ値はより正確な推定に結びつく。他方では、入力が定常でない場合にノイズエネルギの変化を追跡する性能を失わないようにするために、値βは1に過度に近づくべきでない。本発明の実用的な実施例では、β=0.98の値は、満足な結果を提供することが判明した。しかしながら、この値は重大ではない。また、(多重極ローパスフィルタのような)非線形、又は線形のより複雑な時間平滑器の使用により、ノイズエネルギを推定することは可能である。
VADベースの雑音レベル推定器が雑音レベルを過小評価する傾向がある。図2は、VADベースの雑音レベル推定器用の雑音レベルの過小評価問題の理想化された具体例である。プレゼンテーションの簡潔さのために、この図および関連する図3と図4では、雑音が一定レベルで示される。図2では、実際の雑音レベルは時間m0でλ0からλ1まで増加する。しかしながら、スピーチがm=0の時にスタートして、図2に示される期間の全体にわたって存在するので(VAD=1)、実際の雑音レベルが時間m0で増加する場合でも、VADベースの雑音推定器は雑音レベル推定値を更新しない。したがって、雑音レベルはm>m0について過小評価される。そのような雑音レベルの過小評価は、課題に取り組まれていない場合、入って来るノイズ信号中で雑音成分の抑圧が不十分な量に留まる結果になる。その結果、強い残留雑音が強調された音声信号の中にあり、それは聴取者を悩ますことになる。
例えば非特許文献[7]の最小値の統計処理のような、異なる雑音レベル推定処理の使用により、ある程度まで雑音レベルの過小評価問題を改善することは可能である。原則として、最小値の統計処理は、各サブバンドのために歴史的なサンプルの記録をとり、この記録から最小値信号レベルのサンプルに基づいた雑音レベルを推定する。このアプローチを支持する論理的根拠は、一般に音声信号がオン/オフ処理で、当然休止がある点である。さらに、音声信号が存在する場合、信号レベルは一般に、はるかに高い。したがって、この記録が十分に長い場合、記録からの最小値信号レベルのサンプルはスピーチ休止節からと推定され、また、雑音レベルは、そのようなサンプルから確実に推定できる。最小値統計方法は明示的なVAD検出に依存しないので、上述された雑音レベルの過小評価問題に対してそれほど影響を受けない。図2に示される例に戻ると共に、図3から判る様な最小値統計処理がその記録中にW個のサンプルの記録をとると見なす場合を考える。図3では、最小値統計処理に関する雑音レベルの過小評価問題の解を示しており、m>m0+Wより後では、時間m<m0からのすべてのサンプルは、記録の外側に移される。したがって、ノイズ推定は、全てm≧m0からのサンプルに基づくから、より正確な雑音レベル推定値が得られる。このように、最小値統計処理の使用によって、雑音レベルの過小評価の問題に対してある程度の改良が提供される。
本発明の態様に従って、推定された雑音レベルに対する適切な調整は雑音レベルの過小評価の問題を克服するために行われる。そのような調整では、図1の具体例での雑音レベル調整装置あるいは処理8によって提供されるものとして、VADベース、又は最小値統計形式の雑音レベル推定器又は推定機能の何れかを採用する、スピーチ強調装置および処理のいずれかが採用される。
図1を再び参照して、複数のサブバンドの各エネルギーレベルが、各々の対応するサブバンド中の推定されたノイズエネルギレベルよりも大きい時間を、雑音レベル調節器8は監視する。次に、雑音レベル調節器8は、期間が前もって定めた最大値より長い場合、雑音レベルが過小評価されていると決定し、3dBのような小さな予め定められた調整ステップサイズによってノイズエネルギの推定レベルを増加させる。測定された期間がもはや最大の期間を超過しなくなるまで、雑音レベル調節器8は反復して推定された雑音レベルを増加する。この結果、ほとんどの場合、調整ステップサイズと比べて少しも大きくない程度の、実際の雑音レベルより大きい雑音レベル推定値に帰着する。
雑音レベル調節器8は、入力信号のエネルギーη(m)を以下のように測定する:
Figure 2010539538
ここで、κは、値0≪κ<1を有する平滑化係数である。入力信号η(−1)の初期値は0にセットされる。変数κは方程式(3)での変数βと同じ役割を果たす。しかしながら、スピーチが存在する場合入力信号のエネルギーが通常素早く変わるので、κはβよりわずかに小さい値にセットされる。κの値は本発明にとって重大ではないが、κ=0.9が満足した結果を与えることが分かった。
変数dは、入力する信号がサブバンドkに対して推定された雑音レベルを超過するレベルを有する時間を表示する。各時間mでは、それは、方程式(5)に示すように更新される。各mの期間は、任意のディジタルシステムでのように、サブバンドのサンプリングレートによって決定される。したがって、それは入力信号のサンプリングレートや使用されるフィルタバンクに依存して、変わる。実用的な実施では、各mの期間はl[秒]/8000*32=4ミリ秒である。ここでは、8000kHzの音声信号とダウンサンプリング係数が32のフィルタバンクである。
Figure 2010539538
ここで、μは予め定められた定数である。また、dは処理の初期設定段階で0にセットされる。ここで、hは、処理のロバスト性を改善するために導入されたハンドオフカウンタである。それは次のようなすべての時間インデックスmで計算される:
Figure 2010539538
ここで、hmaxは前もって定義した整数である。また、hも処理初期設定段階で0にセットされる。いかなる誤認警報の可能性を回避するために、入力する信号のレベルと比較している場合に推定された雑音レベルを増加させるように、変数μは1より大きな定数である。ここで、誤認警報とは、入力する信号のレベルが、信号変動のために少量にだけ推定された雑音レベルを一時的に超過する場合をいう。実用的な実施例では、μ=2が有用な値であると判明した。変数μの値は本発明にとって重大ではない。同様に、入力する信号のレベルが信号変動のために推定された雑音より下に一時的に低下する時、カウンタdのリセットを回避したいので、ハンドオフカウンタが導入される。実用的な実施例では、hmax=5あるいは20ミリ秒の最大ハンドオフ時間が、有用な値であると分かった。変数hmaxの値は本発明にとって重大ではない。
があらかじめ選択された最大期間Dより大きいことを雑音レベル調節器8が検知する場合、サブバンドkの雑音レベルが過小評価されていると決定する。ここで、最大期間Dは通常正常なスピーチの音素の最大の可能な期間より大きなある値である。発明の実用的な実施例では、D=150あるいは600ミリ秒の値は、有用な値であると分かった。変数Dの値は本発明にとって重大ではない。その場合、雑音レベル調節器8は、次のサブバンドkに対する推定された雑音レベルを更新する:
Figure 2010539538
ここで、α>1は予め定められた調整ステップサイズで、カウンタdを0にリセットする。他の場合には、不変のλ (m)の値を維持する。雑音レベルの過小評価が検知される場合、αの値は、調整後の雑音レベル推定値の精度と調整の速度との間のトレードオフを決定する。発明の実用的な実施例では、α=2dB又は3dBの値は、有用な値であると分かった。変数αの値は本発明にとって重大ではない。図5には、雑音レベル調節器8の使用にふさわしい処理の一例を示すフローチャートが示される。図5のフローチャートは、図1の典型的な実施例の基礎となる処理を示す。最終ステップでは、そのとき時間インデックスmが1個進められ「m←m+1」、図5の処理が繰り返されることを示す。もし条件η(m)>μλ (m)がξ>1+μと取り替えられる場合には、本フローチャートは、また発明の代替実施例にも当てはまる。
雑音レベルの過小評価が生じる場合、dがDより小さな値を持つまで、雑音レベル調節器8は推定された雑音レベルを増加させ続ける。その場合に、推定された雑音レベル値λ (m)は次の値を持つ:
Figure 2010539538
ここで、λは入力する信号中の実際の雑音のレベルである。λ (m)がλより大きな値を有するや否や、雑音レベル調節器8が推定された雑音レベルを増加させることをやめるという事実から、上記の第2の不等式が導かれる。
代替実施として、多くのスピーチ強調処理が各サブバンドの信号対雑音比(SNR)ξkを実際に推定するという事実を利用する。各サブバンドの推定された信号対雑音比が長い期間にわたって大きな値を持続性で有している場合、それは、また雑音レベルの過小評価のよい徴候を与える。したがって、上記の処理での条件η(m)>μλ (m)がξ>1+μと取り替えることができ、処理の残りは変わらない。
最後に、本発明が雑音レベルの過小評価の問題にどのように取り組むか図示するために、図2と図3でのような同じ例を使用する。図4に示されるように、実際の雑音レベルが時刻m0でλ0からλ1に増加するので、雑音レベル調節器8は時刻m0の後に入力する信号が推定された雑音レベルより持続的に高いレベルを有することを検知する。その結果、雑音レベル調節器8は、時刻m0+kD(ここで、k=1、2、...)で推定された雑音レベルを、推定された雑音レベル推定値が実際の雑音のレベルλ1に十分に接近するまで、増加させる。特にこの例において、推定された雑音レベルが、λ1よりわずかに大きな値であるαλ’を有する場合、時刻m>m0+3Dでこれは生じる。図2と図3での比較によって、本発明がより正確なノイズ推定を提供することは理解され、それにより、改善された強調されたスピーチ出力を提供する。
実施
本発明は、ハードウェア、ソフトウェア、あるいは両方の組合せ(例えばプログラマブルロジックアレイ)で実行される。別段の定めがない限り、本発明の一部分を含む処理は、いかなる特別のコンピュータあるいは別の装置とも本質的に無関係である。特に、様々な汎用機械は、ここでの教示に従って記述されたプログラムと共に使用される。あるいは、必要な方法ステップを行なうために、より多くの専門の装置(例えば集積回路)を構成するほうが好都合なものでもよい。このように、本発明は、各々が少なくとも1個のプロセッサ、少なくとも1つのデータ記憶システム (揮発性と不揮発性のメモリ及び/又は記憶素子を含む)、少なくとも1つの入力装置あるいはポート、並びに少なくとも1つの出力装置あるいはポートを含む、1台以上のプログラム可能な計算機装置上で実行する1つ以上のコンピュータプログラム中で実施される。ここに記述された機能を行ない、かつ出力情報を生成するために、プログラムコードは、入力データに適用される。出力情報は既知の方法で1つ以上の出力装置に適用される。
そのような各プログラムは、計算機装置と情報をやり取りするために、任意の希望のコンピュータ言語(機械語、アセンブリ言語、あるいはハイレベルな手続き的、論理的、またはオブジェクト指向プログラミング言語を含む)で実施される。いかなる場合も、言語はコンパイル言語やインタープリター言語でもよい。
そのような各コンピュータプログラムは、一般的なコンピュータか特別目的のプログラム可能なコンピュータによって判読可能な記憶媒体か装置(例えばソリッドステートのメモリやメディア、あるいは磁気的媒体や光学的媒体)に好ましくは格納されるか、ダウンロードされる。その目的は、これら記憶媒体か装置がここに記述された処置を行なうために計算機装置によって読まれる場合に、コンピュータを構成し動かすためである。また、発明されたシステムは、コンピュータプログラムで構成されて、コンピュータ可読記憶媒体として実施されると考えられる。ここで、記憶メディアは、ここに記述された機能を行なう特定であらかじめ定められたやり方で計算機装置を作動させるように構成されている。
本発明の多くの実施例が記述された。しかしながら、様々な変形実施例が本発明の趣旨および特許請求の範囲から外れずになされることは理解される。例えば、ここに記述されたステップのうちのいくつかは独立した順番であり、従ってここで記述された順序と異なる順序で行なうことができる。

Claims (8)

  1. スピーチ成分と雑音成分から構成されるオーディオ信号のスピーチ成分を強調する方法であって;
    前記オーディオ信号を時間領域から周波数領域の複数のサブバンドへ変換し;
    前記オーディオ信号のサブバンドを処理することであって、前記処理には前記サブバンドの少数の(in ones of)前記オーディオ信号の利得を制御することを含み、
    ここで、前記スピーチ成分のレベルに対して推定された雑音成分のレベルが増加する場合に、サブバンドの前記利得は低減され、
    前記サブバンド中の入力信号レベルが、定められた時間を越えて、ある限度だけ前記サブバンド中の前記推定された雑音成分を超過する場合に、前記推定された雑音成分のレベルを前記サブバンド中の前記オーディオ信号のレベルと比較すると共に、予め定められた量によって前記サブバンド中の前記推定された雑音成分のレベルを増加することにより、前記推定された雑音成分のレベルの少なくとも一部分が決定され;
    スピーチ成分が強調されたオーディオ信号を提供するために、前記処理されたオーディオ信号を前記周波数領域から前記時間領域へ変換する;
    工程を含む方法。
  2. 請求項1に記載の方法において、
    推定された雑音成分が、音声活動検出器に基づいた雑音レベル推定装置あるいは処理によって決定されることを特徴とする方法。
  3. 請求項1に記載の方法において、
    推定された雑音成分が、統計的に基づいた雑音レベル推定装置あるいは処理によって決定されることを特徴とする方法。
  4. スピーチ成分と雑音成分から構成されるオーディオ信号のスピーチ成分を強調する方法であって;
    前記オーディオ信号を時間領域から周波数領域の複数のサブバンドへ変換し;
    前記オーディオ信号のサブバンドを処理することであって、前記処理には前記サブバンドの少数の(in ones of)前記オーディオ信号の利得を制御することを含み、
    ここで、前記スピーチ成分のレベルに対して推定された雑音成分のレベルが増加する場合に、サブバンドの前記利得は低減され、
    前記サブバンド中の信号対雑音比が、定められた時間を越えて、ある限度を越える場合に、前記サブバンド中の前記信号対雑音比を監視して得ると共に、予め定められた量によって前記サブバンド中の前記推定された雑音成分のレベルを増加することにより、前記推定された雑音成分のレベルの少なくとも一部分が決定され;
    スピーチ成分が強調されたオーディオ信号を提供するために、前記処理されたオーディオ信号を前記周波数領域から前記時間領域へ変換する;
    工程を含む方法。
  5. 請求項4に記載の方法において、
    推定された雑音成分が、音声活動検出器に基づいた雑音レベル推定装置あるいは処理によって決定されることを特徴とする方法。
  6. 請求項4に記載の方法において、
    推定された雑音成分が、統計的に基づいた雑音レベル推定装置あるいは処理によって決定されることを特徴とする方法。
  7. 請求項1乃至請求項6の何れか1項に記載の方法を行なうように適応した装置。
  8. コンピュータに請求項1乃至請求項6の何れか1項に記載の方法を行なわせるためにコンピュータ判読可能な媒体上に記録されたコンピュータプログラム。
JP2010524853A 2007-09-12 2008-09-10 雑音レベル推定値の調節を備えたスピーチ強調 Active JP4970596B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US99354807P 2007-09-12 2007-09-12
US60/993,548 2007-09-12
PCT/US2008/010589 WO2009035613A1 (en) 2007-09-12 2008-09-10 Speech enhancement with noise level estimation adjustment

Publications (2)

Publication Number Publication Date
JP2010539538A true JP2010539538A (ja) 2010-12-16
JP4970596B2 JP4970596B2 (ja) 2012-07-11

Family

ID=40028506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010524853A Active JP4970596B2 (ja) 2007-09-12 2008-09-10 雑音レベル推定値の調節を備えたスピーチ強調

Country Status (7)

Country Link
US (1) US8538763B2 (ja)
EP (1) EP2191465B1 (ja)
JP (1) JP4970596B2 (ja)
CN (1) CN101802909B (ja)
AT (1) ATE501506T1 (ja)
DE (1) DE602008005477D1 (ja)
WO (1) WO2009035613A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI420509B (zh) * 2007-03-19 2013-12-21 Dolby Lab Licensing Corp 語音增強用雜訊變異量估計器
JP5071346B2 (ja) * 2008-10-24 2012-11-14 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8761410B1 (en) * 2010-08-12 2014-06-24 Audience, Inc. Systems and methods for multi-channel dereverberation
US8804977B2 (en) 2011-03-18 2014-08-12 Dolby Laboratories Licensing Corporation Nonlinear reference signal processing for echo suppression
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
WO2013142723A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
US9449610B2 (en) 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449615B2 (en) 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449609B2 (en) 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
GB201401689D0 (en) 2014-01-31 2014-03-19 Microsoft Corp Audio signal processing
EP3103204B1 (en) * 2014-02-27 2019-11-13 Nuance Communications, Inc. Adaptive gain control in a communication system
JP6361271B2 (ja) * 2014-05-09 2018-07-25 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US10020002B2 (en) * 2015-04-05 2018-07-10 Qualcomm Incorporated Gain parameter estimation based on energy saturation and signal scaling
CN106920559B (zh) * 2017-03-02 2020-10-30 奇酷互联网络科技(深圳)有限公司 通话音的优化方法、装置及通话终端
CN108922523B (zh) * 2018-06-19 2021-06-15 Oppo广东移动通信有限公司 位置提示方法、装置、存储介质及电子设备
US11605392B2 (en) * 2020-03-16 2023-03-14 Google Llc Automatic gain control based on machine learning level estimation of the desired signal
CN112102818B (zh) * 2020-11-19 2021-01-26 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230798A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 雑音予測装置
JPH10133689A (ja) * 1996-10-30 1998-05-22 Kyocera Corp 雑音除去装置
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2002527785A (ja) * 1998-10-13 2002-08-27 エヌシーティー グループ インコーポレーテッド 情報信号にある休止期間の間にノイズ推定値を更新する方法とシステム
WO2002080148A1 (fr) * 2001-03-28 2002-10-10 Mitsubishi Denki Kabushiki Kaisha Dispositif eliminateur de bruit
JP2003507764A (ja) * 1999-08-16 2003-02-25 ウェーブメーカーズ・インコーポレーテッド 雑音を含む音響信号を高品質化するための方法
WO2006082636A1 (ja) * 2005-02-02 2006-08-10 Fujitsu Limited 信号処理方法および信号処理装置
JP2007212704A (ja) * 2006-02-09 2007-08-23 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP2008065090A (ja) * 2006-09-07 2008-03-21 Toshiba Corp ノイズサプレス装置
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2009020472A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音処理装置およびプログラム
JP2009075536A (ja) * 2007-08-28 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
JP2010532879A (ja) * 2007-07-06 2010-10-14 オーディエンス,インコーポレイテッド アダプティブ・インテリジェント・ノイズ抑制システム及び方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
FR2768547B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6732073B1 (en) 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6760435B1 (en) 2000-02-08 2004-07-06 Lucent Technologies Inc. Method and apparatus for network speech enhancement
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
US20030023429A1 (en) 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7146316B2 (en) 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
CN100517298C (zh) * 2003-09-29 2009-07-22 新加坡科技研究局 将数字信号从时域变换到频域及其反向变换的方法
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US20060206320A1 (en) 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230798A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 雑音予測装置
JPH10133689A (ja) * 1996-10-30 1998-05-22 Kyocera Corp 雑音除去装置
JP2002527785A (ja) * 1998-10-13 2002-08-27 エヌシーティー グループ インコーポレーテッド 情報信号にある休止期間の間にノイズ推定値を更新する方法とシステム
JP2003507764A (ja) * 1999-08-16 2003-02-25 ウェーブメーカーズ・インコーポレーテッド 雑音を含む音響信号を高品質化するための方法
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
WO2002080148A1 (fr) * 2001-03-28 2002-10-10 Mitsubishi Denki Kabushiki Kaisha Dispositif eliminateur de bruit
WO2006082636A1 (ja) * 2005-02-02 2006-08-10 Fujitsu Limited 信号処理方法および信号処理装置
JP2007212704A (ja) * 2006-02-09 2007-08-23 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP2008065090A (ja) * 2006-09-07 2008-03-21 Toshiba Corp ノイズサプレス装置
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2010532879A (ja) * 2007-07-06 2010-10-14 オーディエンス,インコーポレイテッド アダプティブ・インテリジェント・ノイズ抑制システム及び方法
JP2009020472A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音処理装置およびプログラム
JP2009075536A (ja) * 2007-08-28 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
DE602008005477D1 (de) 2011-04-21
JP4970596B2 (ja) 2012-07-11
EP2191465A1 (en) 2010-06-02
WO2009035613A1 (en) 2009-03-19
CN101802909B (zh) 2013-07-10
CN101802909A (zh) 2010-08-11
US20100198593A1 (en) 2010-08-05
ATE501506T1 (de) 2011-03-15
EP2191465B1 (en) 2011-03-09
US8538763B2 (en) 2013-09-17

Similar Documents

Publication Publication Date Title
JP4970596B2 (ja) 雑音レベル推定値の調節を備えたスピーチ強調
JP5302968B2 (ja) 音声明瞭化を伴うスピーチ改善
JP5260561B2 (ja) 知覚モデルを使用した音声の強調
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
JP5186510B2 (ja) スピーチ明瞭度強化方法と装置
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP2006003899A (ja) ゲイン制約ノイズ抑圧
Hansen et al. Speech enhancement based on generalized minimum mean square error estimators and masking properties of the auditory system
Shao et al. A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system
US7885810B1 (en) Acoustic signal enhancement method and apparatus
WO2016028254A1 (en) Methods and apparatus for speech segmentation using multiple metadata
Upadhyay et al. The spectral subtractive-type algorithms for enhancing speech in noisy environments
Singh et al. A wavelet-based transform method for quality improvement in noisy speech patterns of Arabic language
Rahali et al. Enhancement of noise-suppressed speech by spectral processing implemented in a digital signal processor
Seyedtabaee et al. Improved Noise Minimum Statistics Estimation Algorithm for using in a speech-passing noise-rejecting headset
EP2760022B1 (en) Audio bandwidth dependent noise suppression
da Silva et al. Speech enhancement using a frame adaptive gain function for Wiener filtering
Shao et al. A generalized time–frequency subtraction method for

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4970596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250