JP2007011330A - スピーチ信号の適合する強化のためのシステム - Google Patents

スピーチ信号の適合する強化のためのシステム Download PDF

Info

Publication number
JP2007011330A
JP2007011330A JP2006164641A JP2006164641A JP2007011330A JP 2007011330 A JP2007011330 A JP 2007011330A JP 2006164641 A JP2006164641 A JP 2006164641A JP 2006164641 A JP2006164641 A JP 2006164641A JP 2007011330 A JP2007011330 A JP 2007011330A
Authority
JP
Japan
Prior art keywords
spectral shape
speech
spectrum
speech signal
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006164641A
Other languages
English (en)
Inventor
David Giesbrecht
ジェスブレシュト デイビッド
Phillip Hetherington
ヘザーリントン フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QNX Software Systems Wavemakers Inc
Harman Becker Automotive Systems GmbH
Original Assignee
Harman Becker Automotive Systems Wavemakers Inc
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems Wavemakers Inc, Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems Wavemakers Inc
Publication of JP2007011330A publication Critical patent/JP2007011330A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】スピーチ信号のスペクトルを理想のスペクトル形状により忠実に従うように調整可能な方法を提供する。
【解決手段】スピーチ信号の周波数応答を強化するための方法が提供される。平均スピーチスペクトル形状推定は、入力スピーチ信号に基づき時間を経て計算される。平均スピーチスペクトル形状推定は、ボイスパスの音響特性における変化またはシステムの周波数応答を影響し得る電気音声パスにおける任意の変化に時間を経て適合する(108)。スペクトル補正要素は、平均スピーチスペクトル形状推定を所望の標的スペクトル形状と比較することによって、決定され得る(114)。スペクトル補正要素は、入力スピーチ信号のスペクトルを強化または所望のスペクトル形状に向かって調整し、強化されたスピーチ信号が補正されたスペクトルから再合成される(118)ために入力スピーチ信号のスペクトルに加算され得る。
【選択図】図2

Description

本発明は、スピーチ信号の周波数応答をリアルタイムにおいて、適合的に強化する(adaptively enhancing)ためのシステムに関する。
マイクロホンにおいて受信され、音声アプリケーションに入力されるスピーチ信号は、音響環境もしくは電気音声パスのゆっくり変化するまたは時間に独立な音響または電気特性によって不利益に影響され得る。例えば、自動車のハンズフリー電話システムに対して、車の内部に取り付けられた音響またはマイクロホン特性は、リモート加入者(remote party)に送信されるスピーチ信号の音質または明瞭度に重要な、有害な影響を与え得る。
受信されるスピーチ信号のスペクトル形状を調整することは、スピーチ信号の品質を有意に改良し得る。例えば、スピーチ信号のスペクトル形状は、過度の背景ノイズを補うように調整され得る。背景ノイズが支配する周波数範囲における信号を減衰させる一方、スピーチコンテンツが流布している周波数範囲における信号をブーストすることによって、信号の全体的な音質または明瞭度が有意に改良され得る。他のアプリケーションにおいては、異なる周波数範囲をブーストさせ、他のものを減衰されることが望まれ得る。例えば、ハンズフリー電話システムのための理想のスペクトル形状と、スピーチ認識システムのための理想のスペクトル形状との間には著しい差があり得る。第1に、音質および明瞭度の両方を改良することが望ましく、第2に、実際の音質に少しだけ関与しまたは関与せずにスピーチ信号の明瞭度を改良することは、より望まれ得る。
図1は、2つの異なるアプリケーションに対して望ましい周波数の2つの実施例を示す。第1の周波数応答カーブ10は、高い信号−ノイズ比(SNR)の環境における最適なスピーチ品質を提供することを意図するスペクトル形状を示す。第2の周波数応答カーブ12は、低い信号−ノイズ環境における最適なスピーチ明瞭度を提供することを意図するスペクトル形状を示す。更に、図1は、ハンズフリー電話システムにおける周波数応答に対するVDA(Verband der Automobilindustrie)およびITU(国際電気通信連合)スペクトル上限および下限14、16を示す。一部の場合において、受信されるスピーチ信号のスペクトル形状を、スピーチ周波数応答に対するVDAおよびITU制限に従うように調整することも望まれ得る。
一般に、マイクロホンによって記録され、音声アプリケーションに入力されるスピーチ信号は、アプリケーションの理想のスペクトル形状と著しい差がある実際のスペクトル形状を有する。したがって、スピーチ信号のスペクトルを理想のスペクトル形状により忠実に従うように調整することが望ましい。そのような調整または正規化を実行するためのシステムおよび方法は、スピーチ信号が記録される環境の音響伝達関数特性および電気音声パスの周波数応答を考慮に入れることが可能であるべきでる。更に、そのようなシステムおよび方法は、システムにおいて生じ得る音響および電気変更も考慮に入れるべきである。
スピーチ信号を適合的に強化するためのシステムが提供される。本発明のシステムおよび方法は、入力スピーチ信号のスペクトルを標的スペクトル形状または理想の周波数応答に対して、影響的に正規化する。標的スペクトル形状は、スピーチ信号が意図されているためのアプリケーションに基づいて、選択され得る。例えば、自動車におけるハンズフリー電話を介して送信されるように前もって定められたスピーチ信号の所望されるスペクトル形状は、スピーチ認識システムに入力されるスピーチ信号の所望されるスペクトル形状とは著しい差があり得る。
本発明にしたがって、平均スピーチスペクトル形状推定は、時間を経て受信されるスピーチ信号に基づいて、計算される。平均スピーチスペクトル形状推定は、一次IIRフィルタリングまたは「リーキーインテグレータ(leaky integrator)」を用いて計算され得る。したがって、平均スピーチスペクトル形状推定は、ボイスパスの音響特性における変化またはシステムの周波数応答に影響し得る電気音声パスにおける任意の変化に時間を経て適合する。
スペクトル補正要素(spectral correction factor)は、平均スピーチスペクトル形状推定を、所望されるまたは標的スペクトル形状と比較することによって決定され得る。スペクトル補正要素は、受信されるスピーチ信号と所望される周波数応答の時間平均されたスペクトルエネルギーとの間の違いを平均して示す。スペクトル補正要素は、入力スピーチ信号のスペクトルを所望されるスペクトル形状に対して正規化または調整するために、入力スピーチ信号のスペクトルに加えられ得る。
したがって、スピーチ信号を正規化する方法の一実施形態は、入力スピーチ平均スペクトル形状を決定することを含む。方法は、入力スピーチ平均スペクトル形状を標的スペクトル形状と比較することを更に含む。時間を経て受信されたスピーチ平均スペクトル形状と標的スペクトル形状との間の違いは、入力スピーチ信号のスペクトルを補正するために使用され得る。スピーチ信号の補正されたスペクトルは、スピーチ信号が意図している特定のアプリケーションに対する所望されたスペクトル形状を、より近くに一致させる。
他の実施形態にしたがって、スピーチ信号の周波数応答は、リアルタイムにおいて強化される。周波数サブバンド分析は、入力スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファにおいて実行される。ウィンドウ化された連続的な各々のバッファの周波数サブバンド分析の結果は、平均スピーチスペクトル形状推定を計算するために使用され得る。平均スピーチスペクトル形状推定は、所望された標的スペクトル形状から減算される。標的スペクトル形状と平均スピーチスペクトル形状との間の違いは、スペクトル形状補正要素を形成する。スペクトル形状補正要素は、次に、入力スピーチ信号のウィンドウ化されたバッファに対応するスペクトルに加算され得る。ウィンドウ化された連続的な各バッファからの補正されたスペクトルは、次に、強化または正規化されたボイス信号に再合成され得る。
他の実施形態は、受信されたスピーチ信号の背景ノイズスペクトル形状を調整することによって、スピーチ信号の周波数応答を強化する。この実施形態は、スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファにおいて周波数サブバンド分析を実行することを含む。背景ノイズ推定は、受信された信号に基づいて生成される。次に、背景ノイズスペクトル形状補正要素は、標的背景ノイズスペクトル形状から背景ノイズ推定を減算することによって計算される。次に、背景ノイズスペクトル形状補正要素は、オーバーラップするウィンドウ化された連続的なバッファの一つに対応するスペクトルに加算される。
他の実施形態は、受信されたスピーチ信号の平均スピーチスペクトル形状および受信された信号の背景ノイズスペクトル形状のうちの一つまたは両方を調整することによって、受信されたスピーチ信号の質および明瞭度を強化する。この実施形態にしたがって、スピーチ信号の周波数応答を強化する方法は、スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファにおける周波数サブバンド分析を実行することも含む。平均スピーチスペクトル形状推定は、オーバーラップするウィンドウ化された連続的なバッファの周波数サブバンド分析に基づいて計算される。スピーチスペクトル形状補正要素は、平均なスピーチスペクトル形状推定と標的スピーチスペクトル形状との間の違いにしたがって計算される。更に、受信された信号に含まれる背景ノイズは推定され、背景ノイズスペクトル形状補正要素は、背景ノイズ推定と標的背景ノイズスペクトル形状との間の違いに対応して計算される。スピーチスペクトル形状補正要素および背景ノイズスペクトル形状補正要素は、全体的なスペクトル形状補正要素を形成するために結合される。次に、全体的なスペクトル形状補正要素は、受信されたスピーチ信号のオーバーラップするウィンドウ化された連続的なバッファの一つに対応するスペクトルに適用される。
最後に、スピーチ信号の周波数応答を強化するためのシステムは、スピーチ信号を受信するためにマイクロホンを含む。A/D変換器は、スピーチ信号を、プロセッサに入力されるデジタル音声信号に変換する。プロセッサは、マイクロホンによって記録されるスピーチの平均スピーチスペクトル形状推定を決定するように適合されている。プロセッサは、平均スピーチスペクトル形状推定を、標的スペクトル形状と比較する。次に、プロセッサは、平均スピーチスペクトル形状推定と標的スペクトル形状との間の違いに基づいて、入力スピーチ信号のスペクトル形状を調整する。プロセッサは、スピーチ信号が意図されているための特定のアプリケーションに対する理想の周波数応答に近い、強化された周波数応答を有する正規化されたスピーチ信号を出力する。
プロセッサは、受信された信号の背景ノイズスペクトル形状推定を決定するようにも適合され得る。プロセッサは、次に、背景ノイズスペクトル形状推定を、標的背景ノイズスペクトル形状と比較し得る。プロセッサは、次に、背景ノイズスペクトル形状推定と標的背景ノイズスペクトル形状との間の違いに基づいて、入力スピーチ信号のスペクトル形状を調整し得る。プロセッサは、次に、所望される背景ノイズスペクトル形状に近い背景ノイズスペクトル形状を有する、強化された周波数応答を有する正規化されたスピーチ信号を、出力し得る。
本発明は、さらに以下の手段を提供する。
(項目1)
スピーチ信号を正規化する方法であって、該方法は、
入力スピーチ信号の平均スペクトル形状を決定するステップと、
該入力スピーチ信号の平均スペクトル形状を標的スペクトル形状と比較するステップと、
該標的スペクトル形状と該平均スペクトル形状との間の違いにしたがって、該スピーチ信号のスペクトルを補正するステップと
を包含する、方法。
(項目2)
上記スピーチ信号のオーバーラップする連続的な部分を示すdBスペクトルを生成するステップをさらに包含する、項目1に記載の方法。
(項目3)
平均スペクトル形状を決定するステップが、上記スピーチ信号の各々のオーバーラップする部分に対応する上記dBスペクトルの各々の周波数サブバンドを、適合する(adaptive)平均化技術に適用するステップを包含する、項目2に記載の方法。
(項目4)
上記適合する平均化技術が、一次IIRフィルタまたはリーキーインテグレータである、項目3に記載の方法。
(項目5)
上記入力スピーチ信号のオーバーラップする部分を示す各々のdBスペクトルに対して背景ノイズ推定を適合するステップと、該dBスペクトルのどの周波数サブバンドが高いSNRを有し、どの周波数サブバンドがスピーチを含む見込み(likely to contain)があるかどうかを決定するステップとを、さらに包含する、項目2に記載の方法。
(項目6)
平均スペクトル形状を決定するステップが、上記入力スピーチ信号の各々のオーバーラップする部分の上記dBスペクトルの、高いSNRを有しスピーチを含む見込みがある上記周波数サブバンドを、一次IIRフィルタに適用するステップを包含する、項目5に記載の方法。
(項目7)
上記平均スペクトル形状を標的スペクトル形状と比較するステップが、該標的スペクトル形状から該平均スペクトル形状を減算するステップによって、スペクトル形状補正要素を計算するステップを包含し、上記スピーチ信号の上記スペクトルを補正するステップが、該スペクトル形状補正要素を該スピーチ信号の該スペクトルに加算するステップを包含する、項目1に記載の方法。
(項目8)
上記標的スペクトル形状が、電話システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、項目1に記載の方法。
(項目9)
上記標的スペクトル形状が、スピーチ認識システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、項目1に記載の方法。
(項目10)
スピーチ信号の周波数応答をリアルタイムにおいて強化する方法であって、該方法は、
該スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファに、周波数サブバンド分析を実行するステップと、
該オーバーラップするウィンドウ化された連続的なバッファの該周波数サブバンド分析に基づいて、平均スピーチスペクトル形状推定を計算するステップと、
標的スペクトル形状から該平均スピーチスペクトル形状推定を減算するステップであって、該標的スペクトル形状と該平均スピーチスペクトル形状推定との間の違いが、スペクトル形状補正要素を含む、ステップと、
該スペクトル形状補正要素を、該オーバーラップするウィンドウ化された連続的なバッファのうちの一つに対応するスペクトルに加算するステップと
を包含する、方法。
(項目11)
上記オーバーラップするウィンドウ化された連続的なバッファが、ハニングウィンドウを備える、項目10に記載の方法。
(項目12)
オーバーラップするウィンドウ化された連続的なバッファに、周波数サブバンド分析を実行するステップが、各々のオーバーラップするウィンドウ化された連続的なバッファに対して、上記スピーチ信号の圧縮されたdBスペクトルを生成するステップを含む、項目10に記載の方法。
(項目13)
各々のオーバーラップするウィンドウ化された連続的なバッファに対して、背景ノイズ推定を適合するステップをさらに包含する、項目12に記載の方法。
(項目14)
各々のオーバーラップするウィンドウ化された連続的なバッファの上記圧縮されたdBスペクトルの各々の周波数サブバンドに対する信号パワーが、上記背景ノイズ推定をしきい値量の分だけ超えるかどうかを決定するステップと、
各々のオーバーラップするウィンドウ化された連続的なバッファの該圧縮されたdBスペクトルの各々のサブバンドが、スピーチを含む見込みがあるかどうかを決定するステップと、
該信号パワーが該背景ノイズ推定をしきい値量を超え、スピーチを含む見込みがある各々の周波数サブバンドに対して、上記平均スピーチスペクトル形状推定をアップデートするステップと
をさらに包含する、項目13に記載の方法。
(項目15)
上記平均スピーチスペクトル形状推定が、一次IIRフィルタ(すなわち、リーキーインテグレータ)を用いて計算される、項目14に記載の方法。
(項目16)
上記平均スピーチスペクトル形状推定が、一次IIRフィルタを用いて計算される、項目10に記載の方法。
(項目17)
各々のオーバーラップするウィンドウ化された連続的なバッファに対応する補正されたスペクトルから、スピーチ信号を再合成するステップをさらに包含する、項目10に記載の方法。
(項目18)
上記標的スペクトル形状が、電話システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、項目10に記載の方法。
(項目19)
上記標的スペクトル形状が、スピーチ認識システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、項目10に記載の方法。
(項目20)
スピーチ信号の周波数応答を強化するためのシステムであって、該システムは、
スピーチ信号をキャプチャするマイクロホンと、
該スピーチ信号をデジタルスピーチ信号に変換するA/D変換器と、
該マイクロホンにおいて受信される平均スペクトル形状を決定し、受信されるスピーチ該平均スペクトル形状を標的スペクトル形状と比較し、入力スピーチの該平均スペクトル形状と該標的スペクトル形状との間の違いに基づいて、受信されるスピーチスペクトルを調整するように適合された、プロセッサと
を備える、システム。
(項目21)
強化された周波数応答を有する上記スピーチ信号を使用するために構成されているアプリケーションをさらに備える、項目20に記載のシステム。
(項目22)
上記アプリケーションが、ハンズフリー電話システムである、項目21に記載のシステム。
(項目23)
上記アプリケーションが、スピーチ認識システムである、項目21に記載のシステム。
(項目24)
スピーチ信号の周波数応答を強化する方法であって、該方法は、
該スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファに周波数サブバンド分析を実行するステップと、
背景ノイズ推定を生成するステップと、
標的背景ノイズスペクトル形状から該背景ノイズ推定を減算するステップによって、背景ノイズスペクトル形状補正要素を生成するステップと、
該背景ノイズスペクトル形状補正要素を、該オーバーラップするウィンドウ化された連続的なバッファの一つに対応するスペクトルに加算するステップと
を包含する、方法。
(項目25)
上記オーバーラップするウィンドウ化された連続的なバッファが、ハニングウィンドウを備える、項目24に記載の方法。
(項目26)
オーバーラップするウィンドウ化された連続的なバッファに周波数サブバンド分析を実行するステップが、各々のオーバーラップするウィンドウ化された連続的なバッファに対して、上記スピーチ信号の圧縮されたdBスペクトルを生成するステップを含む、項目24に記載の方法。
(項目27)
各々のオーバーラップするウィンドウ化された連続的なバッファに対応する補正されたスペクトルから、スピーチ信号を再合成するステップをさらに包含する、項目24に記載の方法。
(項目28)
上記標的背景ノイズスペクトル形状が、スムースなブロードバンド背景ノイズに対応する、項目24に記載の方法。
(項目29)
スピーチ信号の周波数応答を強化する方法であって、該方法は、
該スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファに周波数サブバンド分析を実行するステップと、
オーバーラップするウィンドウ化された連続的なバッファの周波数サブバンド分析に基づいて、平均スピーチスペクトル形状推定を計算するステップと、
該平均スピーチスペクトル形状推定と標的スピーチスペクトル形状との間の違いに対応するスピーチスペクトル形状補正要素を、計算するステップと、
背景ノイズ推定を生成するステップと、
該背景ノイズ推定と標的背景ノイズスペクトル形状との間の違いに対応する背景ノイズスペクトル形状補正要素を、計算するステップと、
該スピーチスペクトル形状補正要素および該背景ノイズスペクトル形状補正要素に基づいて、全体的なスペクトル形状補正要素を計算するステップと、
該全体的なスペクトル形状補正要素を、該オーバーラップするウィンドウ化された連続的なバッファの一つに対応するスペクトルに加算するステップと
を包含する、方法。
(項目30)
全体的なスペクトル補正要素を計算するステップが、長期間SNR推定にしたがって、上記スピーチスペクトル形状補正要素および上記背景ノイズスペクトル形状補正要素を逆に重み付けするステップを包含する、項目29に記載の方法。
(摘要)
スピーチ信号の周波数応答を強化するためのシステムが提供される。平均スピーチスペクトル形状推定は、入力スピーチ信号に基づき時間を経て計算される。平均スピーチスペクトル形状推定は、一次IIRフィルタリングまたは「リーキーインテグレータ」を使用し、周波数ドメインにおいて計算され得る。したがって、平均スピーチスペクトル形状推定は、ボイスパスの音響特性における変化またはシステムの周波数応答を影響し得る電気音声パスにおける任意の変化に時間を経て適合する。スペクトル補正要素は、平均スピーチスペクトル形状推定を所望の標的スペクトル形状と比較することによって、決定され得る。スペクトル補正要素は、入力スピーチ信号のスペクトルを強化または所望のスペクトル形状に向けて調整し、強化されたスピーチ信号が補正されたスペクトルから再合成されるために入力スピーチ信号のスペクトルに加算され得る(dBの単位において)。
本発明の他の局面、特徴および利点は、以下の図面および詳細な説明の考察によって、当業者に明白になるであろう。この説明において含まれる全てのそのような追加の局面、特徴および利点が、本発明の範囲において含まれ、添付の特許請求の範囲によって保護されることが意図される。
リアルタイムにおけるスピーチ信号の周波数応答を適合的に強化するためのシステムおよび方法が提供される。そのシステムおよび方法は、音声的および電気的な経路の任意のゆっくりと変化する、または時間に対して一定である、音響および電気的特性のスペクトル影響を補償する。ここにおいて、それらのスペクトル影響とは、例えば、室内音響、マイクロフォン周波数応答、および、背景ノイズ等の他の要因を含む。システムおよび方法は、入力スピーチ信号を受信、平均tスピーチスペクトル形状の推定および背景ノイズ推定の計算、標的スピーチスペクトル形状に適合するように平均スピーチスペクトル形状を調整する補正要素、または背景ノイズのスペクトル形状を調整する補正要素の計算、および、特定のアプリケーションに特別に適合された所望の標的周波数応答において到達するために、入力スピーチ信号のウィンドウ化された連続的なバッファへのその補正要素の適用、に対する対策を含む。ウィンドウ化された連続的なバッファに対応する補正されたスペクトルは、強化されたスピーチ信号へ再合成され得、それによって、そのスピーチ信号が意図されるアプリケーションに対してより適したものになる。
図2は、本発明に従う、スピーチ信号の周波数応答を適合的に強化するための方法のフローチャート100を示す。入力スピーチ信号が102において受信される。その信号は、スピーチ内容を含み得、または含み得ない。周波数サブバンド分析が104において入力信号に対して行われる。周波数サブバンド分析は、入力信号の圧縮dBスペクトルを生じさせる。圧縮dBスペクトルは、平均スピーチスペクトル形状の推定を作成するために使用され、同様に、その平均スピーチスペクトル形状の推定は、スピーチスペクトル形状補正要素を計算するために使用される。スピーチスペクトル形状補正要素は、ほぼ、所望のスペクトル形状を有する強化されたスピーチ信号を生成するために入力信号のスペクトルに足され得る。
次に、サブバンド分析104によって生成された圧縮dBスペクトルは、SNR推定およびボイス検出106に適用される。SNR推定およびボイス検出106は、入力信号の圧縮dBスペクトルのどの周波数値域がスピーチ内容を含むかを識別しようとする。高SNRを有し、スピーチ内容を含むとされる周波数帯のdB値は、108において平均スピーチスペクトル形状推定を更新するのに用いられる。平均スピーチスペクトル形状推定は、時間を経て受信されたスピーチのスペクトル形状の現在の平均である。平均スピーチスペクトル形状が現在の平均であるため、ゆっくりと適合され、受信された入力信号のスピーチ内容のスペクトル形状に対する適度に正確な推定を提供する。システムのゆっくりと変化する、または時間に対して一定の周波数応答特性は、平均スピーチスペクトル形状に起因し、それらの特性は、環境の音響伝達関数特性、マイクロフォンの電気音響特性等を含む。
平均スピーチスペクトル形状推定は、112において提供される標的スピーチスペクトル形状と比較される。標的スピーチスペクトル形状は、ハンズフリー電話システムまたはボイス認識システムのような特定のアプリケーションに対する理想的な周波数応答を表し得る。平均スピーチスペクトル形状推定と標的スピーチスペクトル形状との相違は、所望のスペクトル形状を達成するために、入力スピーチ信号の平均スペクトルがどの程度調整されなければならないかの量を表す。114において、スピーチスペクトル形状補正要素は、標的スピーチスペクトル形状から平均スピーチスペクトル形状を引くことによって決定される。そして、スピーチスペクトル形状補正要素は、102において受信されたオリジナル信号の圧縮dBスペクトルに加えられ得る。背景ノイズ抑制110が、望まれるのであれば、補正要素の付け加えの前において、圧縮dBスペクトルに任意的に適用される。そうでない場合は、スピーチスペクトル形状補正要素は、116において圧縮dBスペクトルに直接適用される。補正された信号または強化された信号は、118において再合成され、120において出力される。
図3は、図2において概説された方法に従い強化された11kHzの時間領域におけるスピーチ信号130を示す。周波数サブバンド分析は、オーバーラップするウィンドウ化された連続的なバッファに対して行われる。ウィンドウ化されたバッファは、50%のオーバーラップを有する、256ポイントのHanningウィンドウを用いて計算される。他のウィンドウ化機能、ウィンドウ長、またはオーバーラップのパーセント値もまた用いられ得る。図3は、オーバーラップが50%のHanningウィンドウ132、134、136、138、140、および142を示す。周波数サブバンド分析は、ウィンドウ化された連続的な各バッファに対して行われる。ウィンドウ化された各バッファの周波数サブバンド分析の結果は、平均スピーチスペクトル形状推定に用いられる。本記載の目的のために、ウィンドウ化された単一のバッファ134の分析が記載されるが、同様な形式において、全ての他のウィンドウ化されたバッファが処理されることは理解される。
周波数スペクトルが、ウィンドウ化されたバッファ134内において、信号130の一部に対して得られる。周波数スペクトル情報は、高速フーリエ変換(FFT)、ウェーブレットフィルタバンク、多相(polyphase)フィルタバンク、および他の周知のアルゴリズムのような様々な方法によって得られ得る。例えば、複素スペクトルは、256ポイントFFTを用いて得られ得る。複素スペクトルは、複素スペクトルの絶対値を2乗することによって、パワースペクトルに変換され得る。
Power_Spec(f)=|Complex_Spec(f)| (1)
ここにおいて、Power_Specはパワースペクトルであり、Complex_Specは複素スペクトルであり、fは周波数値域インデックスである。
パワースペクトルが次に、dBに変換され得る。図4は、ウィンドウ化されたバッファ134内に含まれる入力信号の一部のdBスペクトル144を示す。dBスペクトル144は、256ポイントFFTの結果である。
dBスペクトル144は、ボイスのスピーチ分節の高調波成分(例えば、母音の音)に起因して、多数のはっきりしたピークおよび谷を含む。スペクトルエンベロープの全体的な形は、粗い周波数分解能を有するスペクトルにdBスペクトル144を圧縮することによって分析され得る。周波数圧縮は、所定の周波数領域における加重平均を計算することによって達成され得る。圧縮スペクトルは線形周波数スケールを有し得、または、圧縮スペクトルは、適用される圧縮技術によって、Bark、Mel、または他の非線形スケール等の非線形周波数スケールを有し得る。圧縮スペクトルの周波数サブバンドは、例えば、圧縮サブバンド当たりに86から172Hzの周波数分解能を示し得る。これは、11kHz入力信号および256ポイントFFTに対して、それぞれ2つから4つの非圧縮周波数値域毎に渡る非圧縮スペクトルの平均パワーを計算することに対応する。
図4の非圧縮スペクトル144に基づく圧縮スペクトル156は図5において示される。示されるように、圧縮スペクトル156は、非圧縮スペクトル144の全体的な形を維持する。圧縮スペクトル156は、周波数サブバンド分析104の出力を示す。個々の圧縮スペクトルは、オーバラップするウィンドウ化された連続的な各バッファに対して生成される。その各々は、スピーチスペクトル形状推定の計算に用いられる。ウィンドウ化された連続的な各バッファの周波数サブバンド分析によって更新された平均スピーチスペクトル形状推定は、対応するウィンドウ化されたバッファのスペクトルに対するスピーチスペクトル形状補正要素を計算するために使用される。補正要素は、スペクトルを所望の標的スペクトル形状に対して正規化するために、対応するウィンドウ化されたバッファの圧縮dBスペクトルに加えられる。
周波数サブバンド分析の間に生成された圧縮dBスペクトルは、SNR推定およびボイス検出106に入力される。SNR推定およびボイス検出106の目的は、圧縮dB信号のどの周波数帯が、高い信号−ノイズ比率(SNR)を有し、スピーチをおそらく含んでいるのかを決定することである。高SNRを有し、およびスピーチをおそらく含んでいるであろうとされる圧縮dB信号のそれらの周波数サブバンドのみが、平均スピーチスペクトル形状推定を更新するために用いられる。低SNRを有する周波数帯、またはスピーチをおそらく含まないであろうとされる周波数帯は、平均スピーチスペクトル形状推定の計算に役立たない。
SNR推定は、多数の標準的な方法に従い行われ得る。図5は例えば、最低統計技術を用いて導かれた背景ノイズ推定158を含む。各周波数サブバンドにおけるSNRの推定は、圧縮dBスペクトル156から背景ノイズ推定158を引くことによって得られ得る。図6は、図5の圧縮dBスペクトル156からノイズ推定158を引くことにより得られたSNR160を示す。
ノイズ推定158は、実際の背景ノイズではないことは、留意されなければならない。圧縮dBスペクトル156におそらく含まれるであろうとされるノイズの推定である。任意の所定の周波数サブバンドにおける実際のノイズは、背景ノイズ推定158において示されるレベルよりも高くもあり得、低くもあり得る。従って、ノイズ推定付近の信号レベルは、信頼性に若干欠ける。従って、しきい値の値は、ノイズ推定よりも少なくともしきい値の値よりも高い信号レベルを有する周波数サブバンドのみが、平均スピーチスペクトル形状推定に役立つように、確立され得る。そのようなしきい値は図6において示される。10dBのしきい値162は、背景ノイズ推定158よりも10dB高い信号レベルを示す。圧縮dBスペクトル160が背景ノイズ推定158よりも高くある入力信号スペクトルの部分を示すために、しきい値162よりも10dB高い圧縮dBスペクトル160の部分は、背景ノイズ推定158よりも10dB高いオリジナル圧縮dBスペクトル156の部分を示す。圧縮dBスペクトル160が10dBのしきい値よりも高い周波数サブバンドのみが、平均スピーチスペクトル形状推定に役立つ。
10dB以外のしきい値の値が用いられ得る。好ましくは、しきい値の値は、5と15dBとの間の範囲にある。追加的に、しきい値は一定である必要はない。しきい値の値は、システムの予測されるノイズ特性により、1つの周波数サブバンドから次の周波数サブバンドにおいて変化し得る。例えば、自動車のアプリケーションにおいて、しきい値は、著しい背景ノイズのエネルギーが存在する低周波数サブバンドに対してはより高く設定されても良い。
平均スピーチスペクトル形状推定は、圧縮スペクトルの各周波数サブバンドに対して作られる。オーバラップするウィンドウ化された連続的な各バッファの圧縮スペクトルは、平均スピーチスペクトル形状推定の計算に役立つ。しかし、上に留意されるように、各自の周波数サブバンドに対する平均スピーチスペクトル形状推定は、各周波数サブバンドが高SNRを有し、かつスピーチを含む場合においてのみ、更新される。平均スピーチスペクトル形状推定を適合する以前において、以下の式に従って、現在の圧縮dBスペクトルの全体的なレベルを正規化することが有用であり得る。
ここにおいて、Spec_Currは現在のdB圧縮スペクトルであり、Spec_Curr_nは、周波数サブバンドに渡る全体的なレベル正規化の後の現在のdB圧縮スペクトルである。式(2)による正規化は、平均スピーチスペクトルの適合が、スピーチ信号の全体的な振幅によって偏らないことを確実にする。加重平均、周波数依存平均、SNR依存平均、または他の正規化技術のような他のレベル正規化技術もまた用いられ得る。
平均スピーチスペクトル形状は、リーキーインテグレータアルゴリズム、一次IIRフィルタ、または、他の適合的なフィルタリングまたは加重平均アルゴリズムに従い適合され得る。本発明の実施形態に従い、平均スピーチスペクトル形状推定を更新するための式は、
Spec_Avgは平均スピーチスペクトル形状推定である。Adapt_Rateは適合のスピードを制御するパラメータである。Adapt_Rateは>1でなければならない。AdaptTimeConstantの適切な値は、約2と6秒の間である。
平均スピーチスペクトル形状推定は、時間を経てのシステムへのスピーチ入力のスペクトルに対する推定を提供する。平均スピーチスペクトル形状推定が生成される形式は、ゆっくりと変化する、または時間に対して一定である環境の音響特性、マイクロフォンの周波数応答、発話者に対するマイクロフォンの位置、および、システムの周波数応答に影響する他の要因を考慮する。
平均スピーチスペクトル形状推定を与えられ、各周波数サブバンドに対する補正要素を決定することが可能である。ここにおいて、その補正要素は、所望の標的スペクトル形状に平均スピーチスペクトル形状推定を正規化するために、平均スピーチスペクトル形状推定に加えられ得る。これらの同一する補正要素は、次に、入力スピーチ信号を強化するためにウィンドウ化された連続的な各バッファの各スペクトルに適用され得る。補正要素は、ウィンドウ化された各バッファの圧縮dBスペクトル(例えば、図5のスペクトル156)に直接に適用され得、または、補正要素は推定され得、そして、ウィンドウ化されたバッファの非圧縮dBスペクトル(例えば、図4のスペクトル144)に適用され得る。
平均スピーチスペクトル形状推定166が図7において示される。標的スペクトル形状168もまた示される。標的スペクトル形状は、自動車のハンズフリー電話システムの最適な周波数応答に相当し得、または、標的スペクトル形状は、スピーチ認識システムに明瞭度の高いスピーチ信号を提供するための、または他のアプリケーションのための、最適な周波数応答を示し得る。いずれの場合においても、標的スペクトル形状は、最適な周波数応答を示し、その周波数応答に対して、実際の入力信号のdBスペクトル166が調整される。平均スピーチスペクトル形状推定166の各サブバンドに対するスペクトル補正要素は、平均スピーチスペクトル形状推定166から標的スペクトル形状168を引くことによって計算され得る。この差は、平均スピーチスペクトル形状推定166に加えられる量、またはそれから引かれる量を示し、そうすることによって、平均スピーチスペクトル形状推定166の形が標的スピーチスペクトル形状168に正確に一致する。スペクトル補正要素を決定する計算は、以下のように表される。
ここにおいて、Spec_Targetは標的スピーチスペクトル形状であり、Spec_CorrはdBスペクトル補正要素である。
また、スペクトル補正値の全体的なレベルは、以下の式に従い、正規化され得る。
これは、スピーチ信号の全体的な振幅またはラウドネスを大幅に修正することなく、スピーチスペクトル形状の補正を可能にする。加重平均または周波数依存平均のような他の正規化技術、または他の技術が使用され得る。
さらに、スペクトル補正値は、アルゴリズムのエラー強さを改善するために、および、スピーチ信号を強化することによって予期されない結果を生じさせないこと、または、スピーチ信号を極端に修正しないことを確実にするために、制限され得る。最大補正要素は、
として確立され得る。Corr_dB_Limitの典型的な値は、5と15dBとの間の範囲にあり得る。
図8は、式(6)において示されるように、標的スペクトル形状168から平均スピーチスペクトル形状166を引くことによって計算された補正要素(correction factor)170、および式(7)に従うレベル正規化を示す。本発明は、バッファ化された各ウィンドウに対応する入力スピーチ信号の実際のスペクトルが、平均スピーチスペクトル形状推定を調整するのに必要な補正と類似する補正を必要とすることを想定する。従って、補正要素170が、入力スピーチ信号のウィンドウ化された連続的な各バッファのスペクトルに適用され得る。上において決定された補正値は、圧縮平均スピーチスペクトル形状推定スペクトルの各周波数サブバンドに対して決定される。現在のウィンドウ化されたバッファに対応するスペクトル、つまり、ウィンドウ化されたバッファ134に対応するスペクトルに適用される以前において、補正値は、非圧縮FFTdBスペクトルの全周波数値域に対する補正値を推測して作成され得る。これは、単純な線形補間、3次スプライン補間、または他のアルゴリズムを用いて行われ得る。対応するウィンドウ化されたバッファ134のスペクトルはそして、そのウィンドウ化されたバッファ134に対応する入力信号の非圧縮スペクトルに拡大された補正値(単位はdB)を加えることによって補正され得る。ウィンドウ化されたバッファ134に対応する補正されたスペクトル172は、オリジナルスペクトル144と共に図9において示される。
ウィンドウ化されたバッファのスペクトルが補正されると、時間領域に変換され直され得る。これは、振幅スペクトルへ補正されたdBスペクトル176を変換し、256ポイント逆FFTを行って時間領域へその振幅スペクトルを変換し直すこと、または他の逆変換による周波数領域から時間領域へその振幅スペクトル変換し直すことを必要とする。逆FFTまたは他の変換から生ずる時間領域信号は、ウィンドウ化されたバッファ134に対応する強化されたスピーチ信号を構成する。その強化されたスピーチ信号は、標的スペクトル形状により近似する平均スペクトル形状を有する。強化されたスピーチ信号は、ウィンドウ化された各バッファに対して再合成され、オーバーラップされ、時間領域において全てが合算される。結果は、所望されるスペクトル形状を時間を経て実質的に維持される再合成時間領域スピーチ信号であり、システムの伝達関数のゆっくりと変化する特性が考慮されるものとなる。その結果は、スピーチ認識システム、ハンズフリー電話システム、または他のアプリケーションであり得る、意図とされる特定のアプリケーションにより良く役立つ強化されたボイス信号である。
図10および11は、先ほど記載された方法の適合性質を示すスペクトログラムのプロットを示す。両方の図は、周波数(縦軸)対時間(横軸)対dB(グレースケール)のプロットを表す。図10のプロット180は、補正なしのオリジナルスピーチ信号を示す。図11のプロット182は、当該方法を用いて、時間を経ての平均スピーチスペクトル形状推定の適合を示す。入力信号の始めの約2秒程の間において、図11において目で見て区別のつくスペクトルパターンが存在しないことは留意されたい。しかし、時間が経ち、大きなスピーチエネルギーが生じると(つまり、図10においてTime=2秒の後)、パターンか図11において現れる。大きなスペクトルエネルギーは、約500Hzと1,000Hzとの間、1,800Hzと2,000Hzとの間、および2,300Hzと3,000Hzとの間において現れ始める。低平均スペクトルエネルギーは、500Hzより下、1,000Hzと1,800Hz台との間、および3,000Hzより上において見られる。図11におけるこれらのスペクトル特性のゆるやかな現れは、平均スピーチスペクトル形状推定が、入力スピーチ信号のゆっくりと変化する、または時間に対して一定のスペクトル特性にどのように時間を経て適合するのかを示す。
一部のケースにおいて、スピーチ信号周波数応答ではなく、背景ノイズ周波数応答を形成することがより望まれ得る。例えば、高SNRの状況において、背景ノイズは、それ程重要な問題ではなく、スピーチ信号スペクトル形状を強化することが、最も適切である。しかしながら、低SNR状況においては、背景ノイズスペクトル形状を標的にすることがより望ましいことであり得る。例えば、トーナル(tonal)な性質を有する背景ノイズが、広帯域のノイズよりもリスナーにとってより不快であると思われている。従って、一部のケースにおいて、特定の周波数におけるピークを除去するために、背景ノイズスペクトルを平滑にすることが有益であり得、それをしないと、リスナーにとっていらいらさせると証明され得る。
従って、他の実施形態において、スピーチ信号の質および明瞭度は、スピーチ構成要素そのもののスペクトルを強化するのとは反対に、受信されたスピーチ信号の背景ノイズスペクトルを標的にし、形成することによって強化される。この代替法を具体化するフローチャート300は、図12において示される。図12のフローチャート300は、図2に示されるフローチャート100との多くの類似点を有する。実際に、フローチャート100に具体化されるスピーチ信号の周波数応答を適合的に強化するための方法は、フローチャート300において実質的に繰り返される。図2のフローチャート100にある受信入力信号102、周波数サブバンド分析104、SNR推定およびボイス検出106、平均スピーチスペクトル形状推定の更新108、標的スピーチスペクトル形状112、およびスピーチスペクトル形状補正要素114の全てが、図12の受信入力信号302、周波数サブバンド分析304、SNR推定およびボイス検出306、平均スピーチスペクトル形状推定308、背景ノイズ抑制310、標的スピーチスペクトル形状312、およびスピーチスペクトル形状補正要素の決定314と的確に合った系である。同様に、図2のスピーチスペクトル形状補正要素の適用116および信号再合成118は、図12において類似する。つまり、それらは、スペクトル補正要素の適用316および信号再合成318である。しかし、詳細にわたり後述されるように、スペクトル形状補正要素の適用316機能および信号再合成318機能は、前述の実施形態における対応するものと同一の機能を実質的に行うが、多少異なった入力に対してこれらの機能は行われる。
入力信号302、周波数サブバンド分析304、SNR推定およびボイス検出306、平均スピーチスペクトル形状推定308、背景ノイズ抑制310、標的スピーチスペクトル形状312、およびスピーチスペクトル形状補正要素の決定314の機能は、図2に関して上記された実質的に同一の様式において行われ、これらの機能の更なる記載はここにおいて省略される。スピーチスペクトル形状補正要素の決定314の出力が、入力信号302のスペクトル形状を補正、または正規化するために、入力信号302のスペクトルに加えられるスピーチスペクトル形状補正要素であり、それは、フローチャート100のスピーチスペクトル形状補正要素の決定機能114の出力とほぼ類似することを留意することは十分である。しかし、フローチャート100において具体化される方法において、スピーチスペクトル形状補正要素が、入力信号のスペクトルに直接に適用される(任意的には、入力スピーチ信号スペクトルへの背景ノイズ抑制の適用後において)一方、図14のフローチャート300において具体化される方法において、314において決定されるスピーチスペクトル形状補正要素は、最終的なスペクトル補正要素の決定328に入力される。最終的なスペクトル補正要素の決定328はまた、背景ノイズスペクトル形状補正要素の決定326からの入力も受信する。従って、この実施形態に従うと、最終的なスペクトル補正要素は、スピーチスペクトル形状補正要素および背景ノイズスペクトル形状補正要素の両方に基いて決定される。
スピーチスペクトル形状補正要素の決定が、図2のフローチャート100に関連してすでに記載されたため、背景ノイズスペクトル形状補正要素の決定の記載のみが残る。記載されたように、入力スピーチ信号は302において受信される。その入力スピーチ信号は背景ノイズを含み得る。入力スピーチ信号は304の周波数サブバンド分析の下にある。周波数サブバンド分析の結果は、入力スピーチ信号を示す圧縮dBスケールスペクトルである。圧縮dBスピーチ信号スペクトルは、SNR推定およびボイス検出306に入力される。SNR推定およびボイス検出306は、背景ノイズスペクトル形状補正要素326を決定するために入力される背景ノイズ推定322を生成する。背景ノイズ推定322は、入力スピーチ信号302の圧縮dBスペクトルの各周波数値域に渡る背景ノイズの推定(単位はdB)を提供する。背景ノイズ推定322は、スピーチ信号の音声および明瞭度に対して不利益である様々な周波数における望まれないピークまたは他の特性を含み得る。従って、背景ノイズ推定を平滑にすることが望ましく、そうでない場合は、所望の標的背景ノイズスペクトル形状324に一致させるように背景ノイズ推定を形付けることが望ましい。標的背景ノイズスペクトル形状は、背景ノイズスペクトル形状補正要素を決定する(326)ために入力される。
背景ノイズ推定322と標的背景ノイズスペクトル形状との相違は、標的背景ノイズスペクトル形状の形に一致するために、背景ノイズ推定がどの程度調整されなければならないかの量を示す。スピーチスペクトル形状補正要素の決定314のように、背景ノイズスペクトル補正要素の決定326は、入力信号の圧縮dBスペクトルに全周波数値域に渡る背景ノイズ推定から標的スピーチスペクトル形状を引くことによって背景ノイズスペクトル補正要素を計算する。スピーチスペクトル形状補正要素のように、背景ノイズスペクトル形状補正要素もまた、入力スピーチ信号302に含まれる背景ノイズの周波数スペクトルを形付けるために、入力スピーチ信号302の圧縮dBスペクトルに直接に加えられ得る。しかし、フローチャート300において示される実施形態において、スピーチスペクトル補正要素および背景ノイズスペクトル形状補正要素の両方は、最終的なスペクトル形状補正要素に役立つ。その最終的なスペクトル形状補正要素はそして、入力スピーチ信号302の圧縮dBスペクトルに加えられる。
スピーチスペクトル補正要素の決定314の出力、および、背景ノイズスペクトル形状補正要素の決定326からの出力の両方は、最終的なスペクトル形状補正要素の決定328に入力される。実施形態に従い、スピーチスペクトル形状補正要素および背景ノイズスペクトル形状補正要素は、以下の式に従う反比例的な様式において最終的なスペクトル形状補正要素に役立つ。
従って、高SNR状況において、スピーチスペクトル形状補正要素(Speech_Corr(f))が支配し、低SNR状況において、背景ノイズスペクトル形状補正要素(Noise_Corr(f))が支配する。最終的なスペクトル形状補正要素が決定されると、316において、入力スピーチ信号のスペクトルに適用される。図2に示される実施形態のように、最終的なスペクトル形状補正要素は、周波数サブバンド分析304から出力された受信スピーチ信号のdBスペクトルに加えられる。最終的な補正された、または強化されたスペクトルはそして、318において再合成される。再合成の処理は、図2に示された実施形態に関連して上記されたものと実質的に同一である。最終的に強化された信号は320において出力される。
上記された強化されたスピーチ信号を提供する方法に加え、本発明は、そのようなスピーチ信号強化方法を実行するためのシステムにもさらに関連する。図13は、そのようなシステム200のブロック図である。そのシステムは、マイクロフォン202、A/D変換器204、および信号プロセッサ206を含む。マイクロフォン202は入力信号をキャプチャする。A/D変換器は、マイクロフォンからのアナログ信号のサンプルを取り、マイクロフォンによって受信されたスピーチおよび背景ノイズを示すデジタル信号を信号プロセッサ206に提供する。プロセッサ206は、マイクロフォン202によってキャプチャされた入力信号に対して上記の全ステップを行う命令を含む。従って、プロセッサは、入力信号に対して、周波数サブバンド分析、SNR推定およびボイス検出を行う。プロセッサは、入力スピーチ信号のウィンドウ化された各バッファに対して、平均スピーチスペクトル形状推定を作り、更新し、標的スピーチスペクトル形状を格納する。ウィンドウ化された各バッファに対して、プロセッサは、標的スピーチスペクトル形状に平均スピーチスペクトル形状推定を一致するためにスペクトル補正要素を計算する。プロセッサはまた、背景ノイズ推定および格納された標的背景ノイズスペクトル形状に基いて背景ノイズスペクトル形状を決定もし得る。プロセッサは、スピーチスペクトル形状補正要素または背景ノイズスペクトル補正要素のいずれかを、ウィンドウ化された各バッファのスペクトルに適用し得、または、プロセッサは、スピーチスペクトル形状補正要素と背景ノイズスペクトル形状補正要素との合成物を含む最終的な補正要素を適用し得る。そして、プロセッサは、スペクトルを時間領域に変換し直し、強化された出力信号208を再合成する。その出力信号208はそして、強化されたスピーチ信号を利用する他のシステムへの入力として適用される。
本発明の様々な実施形態が記載される一方、より多数の実施形態および実施が本発明の範囲内において可能であることは、当業者にとって明確である。従って、本発明は、添付の特許請求の範囲およびその均等物以外には限定されない。
二つの異なるアプリケーションに対する理想の周波数応答または標的スピーチスペクトル形状の二つの実施例を示すdB v.周波数プロットである。 スピーチ信号の周波数応答を強化するための方法を示すフローチャートである。 時間領域スピーチ信号および複数のオーバラップするウィンドウ化されたバッファを示す。 ウィンドウ化されたバッファの1つに対応する、図3のスピーチ信号のスペクトルのdB v.周波数プロットである。 背景ノイズ推定に加えて、図4に示されるスペクトルの周波数圧縮バージョンのdB v.周波数プロットである。 背景ノイズが減算され(すなわち、SNR)、しきい値が背景ノイズより10dB上の信号レベルを示すことを含めて、図5の圧縮スペクトルのdB v.周波数プロットである。 平均スピーチスペクトル形状推定および標的スペクトル形状のdB v.周波数プロットである。 図7の平均スピーチスペクトル形状推定を、更に図7に示される標的スペクトル形状から減算することによって引き出される、スペクトル補正要素のdB v.周波数プロットである。 ウィンドウ化されたバッファの1つに対応する、スピーチ信号のオリジナルスペクトル(すなわち、図4から)およびスピーチ信号の強化または正規化されたスペクトルの両方を示すdB v.周波数プロットである。 入力スピーチ信号の時間v.周波数v.dB(濃淡のレベルにおける)のスペクトログラムである。 平均スピーチスペクトル形状推定の時間を経ての適合性を示すスペクトログラムである。 スピーチ信号の周波数応答を強化する方法の代替の実施形態を示すフローチャートである。 本発明に従って、スピーチ信号の周波数応答を強化するためのシステムのブロック図である。
符号の説明
200 システム
202 マイクロフォン
204 A/D変換器
206 プロセッサ
208 強化された出力(スピーチ)信号

Claims (30)

  1. スピーチ信号を正規化する方法であって、該方法は、
    入力スピーチ信号の平均スペクトル形状を決定するステップと、
    該入力スピーチ信号の平均スペクトル形状を標的スペクトル形状と比較するステップと、
    該標的スペクトル形状と該平均スペクトル形状との間の違いにしたがって、該スピーチ信号のスペクトルを補正するステップと
    を包含する、方法。
  2. 前記スピーチ信号のオーバーラップする連続的な部分を示すdBスペクトルを生成するステップをさらに包含する、請求項1に記載の方法。
  3. 平均スペクトル形状を決定するステップが、前記スピーチ信号の各々のオーバーラップする部分に対応する前記dBスペクトルの各々の周波数サブバンドを、適合する平均化技術に適用するステップを包含する、請求項2に記載の方法。
  4. 前記適合する平均化技術が、一次IIRフィルタまたはリーキーインテグレータである、請求項3に記載の方法。
  5. 前記入力スピーチ信号のオーバーラップする部分を示す各々のdBスペクトルに対して背景ノイズ推定を適合するステップと、該dBスペクトルのどの周波数サブバンドが高いSNRを有し、どの周波数サブバンドがスピーチを含む見込みがあるかどうかを決定するステップとを、さらに包含する、請求項2に記載の方法。
  6. 平均スペクトル形状を決定するステップが、前記入力スピーチ信号の各々のオーバーラップする部分の前記dBスペクトルの、高いSNRを有しスピーチを含む見込みがある前記周波数サブバンドを、一次IIRフィルタに適用するステップを包含する、請求項5に記載の方法。
  7. 前記平均スペクトル形状を標的スペクトル形状と比較するステップが、該標的スペクトル形状から該平均スペクトル形状を減算するステップによって、スペクトル形状補正要素を計算するステップを包含し、前記スピーチ信号の前記スペクトルを補正するステップが、該スペクトル形状補正要素を該スピーチ信号の該スペクトルに加算するステップを包含する、請求項1に記載の方法。
  8. 前記標的スペクトル形状が、電話システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、請求項1に記載の方法。
  9. 前記標的スペクトル形状が、スピーチ認識システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、請求項1に記載の方法。
  10. スピーチ信号の周波数応答をリアルタイムにおいて強化する方法であって、該方法は、
    該スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファに、周波数サブバンド分析を実行するステップと、
    該オーバーラップするウィンドウ化された連続的なバッファの該周波数サブバンド分析に基づいて、平均スピーチスペクトル形状推定を計算するステップと、
    標的スペクトル形状から該平均スピーチスペクトル形状推定を減算するステップであって、該標的スペクトル形状と該平均スピーチスペクトル形状推定との間の違いが、スペクトル形状補正要素を含む、ステップと、
    該スペクトル形状補正要素を、該オーバーラップするウィンドウ化された連続的なバッファのうちの一つに対応するスペクトルに加算するステップと
    を包含する、方法。
  11. 前記オーバーラップするウィンドウ化された連続的なバッファが、ハニングウィンドウを備える、請求項10に記載の方法。
  12. オーバーラップするウィンドウ化された連続的なバッファに、周波数サブバンド分析を実行するステップが、各々のオーバーラップするウィンドウ化された連続的なバッファに対して、前記スピーチ信号の圧縮されたdBスペクトルを生成するステップを含む、請求項10に記載の方法。
  13. 各々のオーバーラップするウィンドウ化された連続的なバッファに対して、背景ノイズ推定を適合するステップをさらに包含する、請求項12に記載の方法。
  14. 各々のオーバーラップするウィンドウ化された連続的なバッファの前記圧縮されたdBスペクトルの各々の周波数サブバンドに対する信号パワーが、前記背景ノイズ推定をしきい値量の分だけ超えるかどうかを決定するステップと、
    各々のオーバーラップするウィンドウ化された連続的なバッファの該圧縮されたdBスペクトルの各々のサブバンドが、スピーチを含む見込みがあるかどうかを決定するステップと、
    該信号パワーが該背景ノイズ推定をしきい値量を超え、スピーチを含む見込みがある各々の周波数サブバンドに対して、前記平均スピーチスペクトル形状推定をアップデートするステップと
    をさらに包含する、請求項13に記載の方法。
  15. 前記平均スピーチスペクトル形状推定が、一次IIRフィルタ(すなわち、リーキーインテグレータ)を用いて計算される、請求項14に記載の方法。
  16. 前記平均スピーチスペクトル形状推定が、一次IIRフィルタを用いて計算される、請求項10に記載の方法。
  17. 各々のオーバーラップするウィンドウ化された連続的なバッファに対応する補正されたスペクトルから、スピーチ信号を再合成するステップをさらに包含する、請求項10に記載の方法。
  18. 前記標的スペクトル形状が、電話システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、請求項10に記載の方法。
  19. 前記標的スペクトル形状が、スピーチ認識システムへ入力されたスピーチ信号の理想のスペクトル形状に対応する、請求項10に記載の方法。
  20. スピーチ信号の周波数応答を強化するためのシステムであって、該システムは、
    スピーチ信号をキャプチャするマイクロホンと、
    該スピーチ信号をデジタルスピーチ信号に変換するA/D変換器と、
    該マイクロホンにおいて受信される平均スペクトル形状を決定し、受信されるスピーチ該平均スペクトル形状を標的スペクトル形状と比較し、入力スピーチの該平均スペクトル形状と該標的スペクトル形状との間の違いに基づいて、受信されるスピーチスペクトルを調整するように適合された、プロセッサと
    を備える、システム。
  21. 強化された周波数応答を有する前記スピーチ信号を使用するために構成されているアプリケーションをさらに備える、請求項20に記載のシステム。
  22. 前記アプリケーションが、ハンズフリー電話システムである、請求項21に記載のシステム。
  23. 前記アプリケーションが、スピーチ認識システムである、請求項21に記載のシステム。
  24. スピーチ信号の周波数応答を強化する方法であって、該方法は、
    該スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファに周波数サブバンド分析を実行するステップと、
    背景ノイズ推定を生成するステップと、
    標的背景ノイズスペクトル形状から該背景ノイズ推定を減算するステップによって、背景ノイズスペクトル形状補正要素を生成するステップと、
    該背景ノイズスペクトル形状補正要素を、該オーバーラップするウィンドウ化された連続的なバッファの一つに対応するスペクトルに加算するステップと
    を包含する、方法。
  25. 前記オーバーラップするウィンドウ化された連続的なバッファが、ハニングウィンドウを備える、請求項24に記載の方法。
  26. オーバーラップするウィンドウ化された連続的なバッファに周波数サブバンド分析を実行するステップが、各々のオーバーラップするウィンドウ化された連続的なバッファに対して、前記スピーチ信号の圧縮されたdBスペクトルを生成するステップを含む、請求項24に記載の方法。
  27. 各々のオーバーラップするウィンドウ化された連続的なバッファに対応する補正されたスペクトルから、スピーチ信号を再合成するステップをさらに包含する、請求項24に記載の方法。
  28. 前記標的背景ノイズスペクトル形状が、スムースなブロードバンド背景ノイズに対応する、請求項24に記載の方法。
  29. スピーチ信号の周波数応答を強化する方法であって、該方法は、
    該スピーチ信号のオーバーラップするウィンドウ化された連続的なバッファに周波数サブバンド分析を実行するステップと、
    オーバーラップするウィンドウ化された連続的なバッファの周波数サブバンド分析に基づいて、平均スピーチスペクトル形状推定を計算するステップと、
    該平均スピーチスペクトル形状推定と標的スピーチスペクトル形状との間の違いに対応するスピーチスペクトル形状補正要素を、計算するステップと、
    背景ノイズ推定を生成するステップと、
    該背景ノイズ推定と標的背景ノイズスペクトル形状との間の違いに対応する背景ノイズスペクトル形状補正要素を、計算するステップと、
    該スピーチスペクトル形状補正要素および該背景ノイズスペクトル形状補正要素に基づいて、全体的なスペクトル形状補正要素を計算するステップと、
    該全体的なスペクトル形状補正要素を、該オーバーラップするウィンドウ化された連続的なバッファの一つに対応するスペクトルに加算するステップと
    を包含する、方法。
  30. 全体的なスペクトル補正要素を計算するステップが、長期間SNR推定にしたがって、前記スピーチスペクトル形状補正要素および前記背景ノイズスペクトル形状補正要素を逆に重み付けするステップを包含する、請求項29に記載の方法。
JP2006164641A 2005-06-28 2006-06-14 スピーチ信号の適合する強化のためのシステム Withdrawn JP2007011330A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/167,955 US8566086B2 (en) 2005-06-28 2005-06-28 System for adaptive enhancement of speech signals

Publications (1)

Publication Number Publication Date
JP2007011330A true JP2007011330A (ja) 2007-01-18

Family

ID=37067632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006164641A Withdrawn JP2007011330A (ja) 2005-06-28 2006-06-14 スピーチ信号の適合する強化のためのシステム

Country Status (6)

Country Link
US (1) US8566086B2 (ja)
EP (1) EP1739657B1 (ja)
JP (1) JP2007011330A (ja)
KR (1) KR20070000987A (ja)
CN (1) CN1971711B (ja)
CA (1) CA2549744C (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010521706A (ja) * 2007-06-19 2010-06-24 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトル修飾によるラウドネス測定
GB2489083A (en) * 2011-03-14 2012-09-19 Adobe Systems Inc Automatic equalization of colouration in speech recordings
JP2013527491A (ja) * 2010-04-09 2013-06-27 ディーティーエス・インコーポレイテッド オーディオ再生のための適応的環境ノイズ補償
WO2014017371A1 (ja) * 2012-07-25 2014-01-30 株式会社ニコン 信号処理装置、撮像装置、及び、プログラム
JP2014164039A (ja) * 2013-02-22 2014-09-08 Dainippon Printing Co Ltd 録音音声の明瞭化装置
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
ES2391228T3 (es) 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
US8625659B2 (en) * 2008-01-10 2014-01-07 Viasat, Inc. Receiver-based frequency response estimation
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
WO2010121657A1 (en) * 2009-04-22 2010-10-28 Nokia Siemens Networks Oy Selective interference rejection combining
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US20110015922A1 (en) * 2009-07-20 2011-01-20 Larry Joseph Kirn Speech Intelligibility Improvement Method and Apparatus
CN102549669B (zh) * 2009-09-15 2014-11-19 惠普发展公司,有限责任合伙企业 用于修改音频信号的系统和方法
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
JP2012133205A (ja) * 2010-12-22 2012-07-12 Sony Corp ノイズ低減装置および方法、並びにプログラム
JP5278477B2 (ja) * 2011-03-30 2013-09-04 株式会社ニコン 信号処理装置、撮像装置、および、信号処理プログラム
KR101335859B1 (ko) * 2011-10-07 2013-12-02 주식회사 팬택 통신 기기의 음성 통화 품질 최적화 시스템
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US8843367B2 (en) * 2012-05-04 2014-09-23 8758271 Canada Inc. Adaptive equalization system
EP2760221A1 (en) * 2013-01-29 2014-07-30 QNX Software Systems Limited Microphone hiss mitigation
US9210507B2 (en) 2013-01-29 2015-12-08 2236008 Ontartio Inc. Microphone hiss mitigation
EP3537437B1 (en) * 2013-03-04 2021-04-14 VoiceAge EVS LLC Device and method for reducing quantization noise in a time-domain decoder
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
KR101610161B1 (ko) * 2014-11-26 2016-04-08 현대자동차 주식회사 음성인식 시스템 및 그 방법
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
CN105913854B (zh) 2016-04-15 2020-10-23 腾讯科技(深圳)有限公司 语音信号级联处理方法和装置
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN106448696A (zh) * 2016-12-20 2017-02-22 成都启英泰伦科技有限公司 一种基于背景噪声估计自适应高通滤波语音降噪方法
US10504538B2 (en) 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
CN108318883B (zh) * 2018-01-16 2020-04-03 中国科学院声学研究所 一种基于全频谱换能器自然加权的距离向计算方法
CN109741760B (zh) * 2018-12-18 2020-12-22 科大讯飞股份有限公司 噪声估计方法及系统
CN109979469B (zh) * 2019-04-03 2021-04-23 北京小米智能科技有限公司 信号处理方法、设备及存储介质
CN110191396B (zh) * 2019-05-24 2022-05-27 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、终端及计算机可读存储介质
EP3944237A1 (en) * 2020-07-21 2022-01-26 EPOS Group A/S A loudspeaker system provided with dynamic speech equalization
CN113112990A (zh) * 2021-03-04 2021-07-13 昆明理工大学 一种基于频谱包络图的可变时长语音的语种识别方法
CN113259825B (zh) * 2021-06-03 2021-10-08 南京天悦电子科技有限公司 一种面向数字助听器的低复杂度幅频响应的后期修正方法
CN114112006A (zh) * 2021-11-26 2022-03-01 中科传启(苏州)科技有限公司 一种噪声监测方法、装置及电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4454609A (en) * 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
JPH10105191A (ja) * 1996-09-30 1998-04-24 Toshiba Corp 音声認識装置及びマイクロホン周波数特性変換方法
CA2281746A1 (en) * 1997-03-25 1998-10-01 Robert William Series Speech analysis system
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
US6275798B1 (en) * 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
US8724822B2 (en) * 2003-05-09 2014-05-13 Nuance Communications, Inc. Noisy environment communication enhancement system
US20050075866A1 (en) * 2003-10-06 2005-04-07 Bernard Widrow Speech enhancement in the presence of background noise
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
US7680652B2 (en) * 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010521706A (ja) * 2007-06-19 2010-06-24 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトル修飾によるラウドネス測定
JP2013527491A (ja) * 2010-04-09 2013-06-27 ディーティーエス・インコーポレイテッド オーディオ再生のための適応的環境ノイズ補償
GB2489083A (en) * 2011-03-14 2012-09-19 Adobe Systems Inc Automatic equalization of colouration in speech recordings
GB2489083B (en) * 2011-03-14 2014-11-19 Adobe Systems Inc Automatic equalization of coloration in speech recordings
WO2014017371A1 (ja) * 2012-07-25 2014-01-30 株式会社ニコン 信号処理装置、撮像装置、及び、プログラム
JP2014164039A (ja) * 2013-02-22 2014-09-08 Dainippon Printing Co Ltd 録音音声の明瞭化装置
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Also Published As

Publication number Publication date
US8566086B2 (en) 2013-10-22
KR20070000987A (ko) 2007-01-03
US20060293882A1 (en) 2006-12-28
CA2549744C (en) 2014-04-01
CN1971711A (zh) 2007-05-30
EP1739657A3 (en) 2007-03-07
CN1971711B (zh) 2012-07-18
EP1739657A2 (en) 2007-01-03
CA2549744A1 (en) 2006-12-28
EP1739657B1 (en) 2013-01-09

Similar Documents

Publication Publication Date Title
JP2007011330A (ja) スピーチ信号の適合する強化のためのシステム
US8521530B1 (en) System and method for enhancing a monaural audio signal
US8219389B2 (en) System for improving speech intelligibility through high frequency compression
US8296136B2 (en) Dynamic controller for improving speech intelligibility
US8249861B2 (en) High frequency compression integration
KR100860805B1 (ko) 음성 강화 시스템
US7792680B2 (en) Method for extending the spectral bandwidth of a speech signal
AU771444B2 (en) Noise reduction apparatus and method
JP4764995B2 (ja) 雑音を含む音響信号の高品質化
JP6243536B2 (ja) エコー打ち消し
US8565415B2 (en) Gain and spectral shape adjustment in audio signal processing
US8538052B2 (en) Generation of probe noise in a feedback cancellation system
US20140363020A1 (en) Sound correcting apparatus and sound correcting method
JP2007522706A (ja) オーディオ信号処理システム
JP2008519553A (ja) バーク帯域ワイナ・フィルタと線形減衰とを用いたノイズ低減及びコンフォート・ノイズ・ゲイン制御
WO2006001960A1 (en) Comfort noise generator using modified doblinger noise estimate
JPWO2006046293A1 (ja) 雑音抑圧装置
US6931292B1 (en) Noise reduction method and apparatus
EP3830823B1 (en) Forced gap insertion for pervasive listening
US20060089836A1 (en) System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
Siljeholm et al. Increasing Sound Quality using Digital Signal Processing in a Surveillance System
Johnsson Henningsson et al. Increasing Sound Quality using Digital Signal Processing in a Surveillance System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090605

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20101001

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20101005