JP2014518404A - 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 - Google Patents

雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 Download PDF

Info

Publication number
JP2014518404A
JP2014518404A JP2014518528A JP2014518528A JP2014518404A JP 2014518404 A JP2014518404 A JP 2014518404A JP 2014518528 A JP2014518528 A JP 2014518528A JP 2014518528 A JP2014518528 A JP 2014518528A JP 2014518404 A JP2014518404 A JP 2014518404A
Authority
JP
Japan
Prior art keywords
interference
signal
filter
identified
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014518528A
Other languages
English (en)
Other versions
JP5752324B2 (ja
Inventor
トービアス ヴォルフ,
クリスティアーン ホフマン,
Original Assignee
ニュアンス コミュニケーションズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ, インコーポレイテッド filed Critical ニュアンス コミュニケーションズ, インコーポレイテッド
Publication of JP2014518404A publication Critical patent/JP2014518404A/ja
Application granted granted Critical
Publication of JP5752324B2 publication Critical patent/JP5752324B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

信号中のインパルス性干渉を低減させる方法および装置は、必ずしも信号中のピッチ周波数を確認することなしに、周波数に沿って相関し、非常に低い周波数から、可能性として、約数kHzまで及ぶ、大きな時間導関数に対して高エネルギー成分のスペクトルを検索することによって、インパルス性干渉の発生を検出する。インパルス性干渉のエネルギーが、推定され、これらの推定値は、インパルス性干渉を抑制するために使用される。随意に、所望の音声信号が、インパルス性干渉の抑制の結果として破損されることを防止するための技法が、採用される。

Description

本発明は、信号処理に関し、より具体的には、雑音の入った音声信号中のインパルス性干渉の抑制に関する。
インパルス性干渉は、その振幅、持続時間、および発生時間が、ランダムである、1つ以上の短パルスのバーストによって特徴付けられる、プロセスである。自動車等の雑音環境において使用される、自動音声認識(ASR)システム等のヒト音声信号を処理するシステムは、道路上の段差または開放した窓から直撃する風等による、インパルス性干渉を被り得る。風のある環境または戦闘地域において使用されるモバイル通信デバイスおよび他のマイクロホンベースのシステムは、インパルス性干渉を被るシステムの他の実施例を提供する。
従来の単一チャネル雑音抑制アルゴリズムは、典型的には、車のエンジン雑音等の定常、すなわち、継続的雑音を抑制可能であるが、これは、これらの定常雑音は、比較的に容易に、音声信号から区別されることができるからである。しかしながら、多くのインパルス性干渉は、音声信号に酷似する、高度に非定常である特性を呈し、したがって、標準的な単一チャネル雑音低減アルゴリズムを使用して抑制することはできない。実際、インパルス性干渉が存在するとき、標準的単一チャネル雑音低減アルゴリズムを適用することは、多くの場合、音声認識性能および使用の容易性を低減させる。
風の雑音は、特に、問題となり得る。例えば、風雑音は、直接、マイクロホンのカプセル内において等、静かな周囲環境においてさえ、生じ得る。したがって、マイクロホンのユーザは、問題を認識さえしていない場合があり、したがって、より大きく話すこと等によって、雑音を補償しない場合がある。多重マイクロホンシステムは、ある場合には、マイクロホンのうちの1つ内で生成された風雑音を抑制することができる。しかしながら、多くの重要な用途は、単一マイクロホンのみ要求し、したがって、多重マイクロホンの解決策を受けることができない。
非定常雑音低減のためのいくつかの時間ドメインアプローチが、存在する。過渡信号を除去することによって、古い記録を復元するために、いわゆる、テンプレートまたはプロトタイプが、提案されている(例えば、[2]、[3])。Vaseghi[2]は、それぞれのテンプレートに対して、整合フィルタを含み、補間器を用いた除去が続く、検出のための方法を提案している。しかしながら、古い記録を復元することは、リアルタイムで行なわれる必要はない。したがって、前述で検討された用途と異なり、これらの状況では、非一時的フィルタリングを採用することができる。Godsillは、2つの互いに独立で同一の分布に従う(i.i.d.)変数によって引き起こされる、2つの自動音声認識プロセスとして、統計的アプローチならびにモデル信号および干渉を使用する。ガウス過程[3]では、除去は、前述のモデルを使用して、カルマンフィルタの所望の信号成分の軌道をトレースすることによって行なわれる。
特に、風雑音の除去に専念したこの話題に関するより最近の刊行物は、[4]KingおよびAtlasによるものである。提案される概念は、[5]に提案されるように、計算コストが高い、最小二乗高調波(LSH)ピッチ推定値に完全に依拠する。(「ピッチ」または「ピッチ周波数」は、本明細書では、信号の基本または他の単一周波数成分を意味する。例えば、発話された母音の音声信号は、ピッチ周波数と、典型的には、ピッチ周波数に調和的に関連するいくつかの他の周波数とを含む。ピッチ周波数は、発話の開始と終了との間で変動し得る。)LSH音声モデルの不整合は、エネルギー制約と一緒に、干渉検出のために使用される証拠を提供する。有声音声が不在の場合、約4kHzにおける単純高域通過が、全ての風雑音を遮断するために適用される。有声音声の存在下では、風雑音は、ベースバンドに復調されたサブバンド信号に適用される低次コムフィルタによって除去される。その後、有声音声のセグメントは、再合成される。十分に良好な基本周波数(ピッチ)の推定値が、利用可能である場合、コムフィルタリングは、風雑音を含む、高調波音声スペクトルのギャップ内のいかなるタイプのブロードバンド雑音も効果的に低減させることができる。しかしながら、音声強調のためのピッチ適応フィルタリングは、周知の手段である[1]。実を言うと、正確かつロバストなピッチ推定値を雑音の入った音声信号から得ることは、実際は、困難なタスクである。
2009年、Nemer、および、Leblanc(Broadcom Corp.)は、線形予測[7]に基づいて、風雑音を検出することを提案している。彼らは、風が、それに対して高調波構造が存在しないため、低次予測子を使用して、良好にモデル化され得ることを見出した。しかしながら、音声の場合、より高い予測子次数が、必要である。これは、音声を風雑音と区別するために使用することができ、故に、抑制フィルタを設定することができる。例えば、特許文献1を参照されたい。
Kotta Manohar,他は、Elsevier in Speech Communication 48((2006)96−109)によって出版された「Speech enhancement in nonstationary noise environments using noise properties」において、短時間スペクトル減衰(STSA)音声強調アルゴリズムに適用されるべき事後処理方式について論じている。
T.A.Mahmound,他は、Hindawi Publishing Corporation in EURASIP Journal on Image and Video Processing(Volume 2008, Article ID 970353)によって出版された「Edge−Detected Guided Morphological Filter for Image Sharpening」において、デジタル画像を鮮鋭化するためのエッジ誘導によるモルフォロジーフィルタについて説明している。
Petros Maragosは、Elsevier Academic Press(2005,pp.135−156)によって出版されたA.C.Bovik編の第2版である、「The Image and Video Processing Handbook」と題された書籍の第3.3章において、画像強調および特徴検出のためのモルフォロジーフィルタリングについて論じている。
Hetherington,他は、Research In Motion Ltd.の子会社である、Wavemakers division of QNX Sofware SystemsGmbH & Co.KGから利用可能である、風の直撃の抑制のための別のアプローチを提案している。例えば、特許文献2〜5を参照されたい。そのアプローチの核となる考えは、風のための割に単純なスペクトルモデルである。特に、風のモデルは、スペクトルエネルギーが背景雑音によって支配される点まで、低周波数において負勾配を伴う、対数スペクトルにおける直線を構成する。モデルと信号フレームとの間の種々の類似性評価基準が、風、風および音声、または風のみとして、入力フレームを分類するために使用される。さらに、モデルは、雑音抑制のために、モデルのスペクトル形状の使用を可能にする。無声フレームからのモデルの瞬間推定値にわたって平均化することによる、長期推定値の生成も、提案されている。
利用される線形モデルに加え、信号スペクトル中のピッチ周波数依存リップルが、最初に、検出され、次いで、干渉低減によって抑制されることから保護される。この機構の実践的実装は、振幅スペクトルにおけるピークを検出し、各ピークの幅を測定する。スペクトル的に狭く、かつ時間的にゆっくりと変化するピークは、有声音声を示す一方、スペクトル的に広く、かつ急に変化するものは、風を示す。
さらに、周波数軸に沿ったピーク間の高調波関係は、離散コサイン変換(DCT)[6]を使用して測定される。これは、DCTが、対数スペクトルに適用される場合、直接、ケプストラムベースのピッチ推定値に変換する。そのようなピッチ追跡方法は、1960年代後半に提案されている。
この方法は、したがって、単純スペクトルモデルと一緒に、ピッチ周波数の仮定される知識に基づいて構築される。所望の信号に属することが分かっていない信号成分は、抑制される。抑制は、短時間フーリエ変換ドメインにおけるスペクトル重み付けを用いて実装される。風雑音抑制は、したがって、通常の雑音低減とともに使用され得る。
残念ながら、インパルス性干渉を低減させるためのこれらの先行技術方法は、1つ以上の不利点を被る。例えば、Hetheringtonによって説明される方法は、いくつかの方法において、音声信号のピッチを考慮することを要求する。
米国特許出願公開第2010/0223054号明細書 米国特許第7,895,036号明細書 米国特許第7,885,420号明細書 米国特許出願公開第2011/0026734号明細書 欧州特許出願公開第1450354号明細書
本発明の実施形態は、信号中のインパルス性干渉を低減させる方法を提供する。本方法は、自動的に、信号の高エネルギー成分を識別することを含むいくつかの演算を行なう。高エネルギー成分は、識別された高エネルギー成分の各々のエネルギーが、所定の閾値を超えるように識別される。識別された高エネルギー成分の時間導関数が、識別される。識別された時間導関数は、モルフォロジー的にフィルタリングされる。識別された時間導関数をモルフォロジー的にフィルタリングすることは、インパルス性干渉の発生を検出し、信号中の干渉エネルギーを推定することを含む。検出および推定は、少なくとも部分的に、識別された時間導関数に基づく。信号の一部は、推定された干渉エネルギーに基づいて、抑制される。
高エネルギー成分を識別することは、閾値が、信号のスペクトルエンベロープを下回るように、閾値を決定することを含み得る。随意に、または代替として、閾値は、少なくとも部分的に、信号のスペクトルエンベロープ、および少なくとも部分的に、信号中の定常雑音のパワースペクトル密度に基づいて、決定され得る。第1の条件下では、閾値は、信号のスペクトルエンベロープを下回る計算された値であり得、第2の条件下では、閾値は、定常雑音のパワースペクトル密度を上回る計算された値であり得る。
識別された時間導関数の各々は、周波数範囲に関連付けられ得る。識別された時間導関数に関連付けられた周波数範囲は、集合的に、約100Hzまたは約200Hz等の所定の周波数を下回って開始する、周波数の連続的範囲を形成し得る。ギャップが、周波数の連続的範囲内に許され得る。その場合、各ギャップは、所定のサイズ未満である。
時間導関数を識別することは、識別された高エネルギー成分のスペクトル内の近接する時間導関数の領域を識別することを含み得る。すなわち、時間導関数はそれぞれ、周波数または周波数範囲の観点から、時間導関数の別のものと隣接するか、またはその近傍にあり得る。
複数の時間導関数を識別することは、所定の値を超える時間導関数を識別することを含み得る。
識別された複数の時間導関数をモルフォロジー的にフィルタリングすることは、2次元画像フィルタを識別された時間導関数に適用することを含み得る。
本方法は、識別された複数の時間導関数を2値化する、すなわち、各時間導関数を0および1等の2つの2進値のうちの1つに変換することを含み得る。
干渉エネルギーを推定することは、最初に、少なくとも、所定の時間期間の間、信号のパワースペクトル密度に基づいて、干渉エネルギーを推定し、その後、推定された干渉エネルギーに時間単調減衰を課すことを含み得る。
識別された時間導関数をモルフォロジー的にフィルタリングすることは、少なくとも部分的に、推定された干渉エネルギーに基づいて、干渉ビンに対する値を計算することを含み得る。インパルス性干渉の発生を検出することは、少なくとも部分的に、前の時間フレームの干渉ビンの計算された値に基づいて、インパルス性干渉の発生を検出することを含み得る。
本方法は、事後処理演算を含み得、その場合、開始周波数が、決定され、推定された干渉エネルギーが、決定された開始周波数から開始して、徐々により高い周波数に対して、徐々により小さい推定された干渉エネルギーを強制するように、自動的に、修正される。
随意に、信号対干渉比(SIR)および/または総干渉対雑音比(INR)が、計算され得る。推定された干渉エネルギーが修正される方法に影響を及ぼす演算パラメータは、計算されたSIRおよび/またはINRに基づいて、調節され得る。
本方法は、自動的に、信号対干渉比(SIR)および/または総干渉対雑音比(INR)を計算することを含み得る。開始周波数は、計算されたSIRおよび/またはINRに基づいて、調節され得る。
本発明の別の実施形態は、信号中のインパルス性干渉を低減させるためのフィルタを提供する。フィルタは、高エネルギー成分識別器と、成分識別器に連結された時間微分器と、時間微分器に連結されたモルフォロジーフィルタと、モルフォロジーフィルタに連結された雑音低減フィルタとを含む。高エネルギー成分識別器は、識別された高エネルギー成分の各々のエネルギーが、所定の閾値を超えるように、信号の高エネルギー成分を識別するように構成される。時間微分器は、識別された高エネルギー成分の時間導関数を識別するように構成される。モルフォロジーフィルタは、インパルス性干渉の発生を検出し、少なくとも部分的に、識別された時間導関数に基づいて、信号中の干渉エネルギーを推定するように構成される。雑音低減フィルタは、推定された干渉エネルギーに基づいて、信号の一部を抑制するように構成される。
所定の閾値は、信号のスペクトルエンベロープを下回り得る。随意に、または代替として、所定の閾値は、少なくとも部分的に、信号のスペクトルエンベロープに、および少なくとも部分的に、信号中の定常雑音のパワースペクトル密度に基づき得る。第1の条件下では、閾値は、信号のスペクトルエンベロープを下回る計算された値であり得、第2の条件下では、閾値は、定常雑音のパワースペクトル密度を上回る計算された値であり得る。
識別された時間導関数の各々は、周波数範囲に関連付けられ得る。識別された時間導関数に関連付けられた周波数範囲は、集合的に、約100Hzまたは約200Hz等の所定の周波数を下回って開始する、周波数の連続的範囲を形成し得る。周波数の連続的範囲は、所定のサイズ未満の少なくとも1つのギャップを含み得る。時間微分器は、識別された高エネルギー成分のスペクトル内の近接する時間導関数の領域を識別することによって、時間導関数を識別するように構成され得る。すなわち、時間導関数はそれぞれ、周波数または周波数範囲の観点から、時間導関数の別のものに隣接する、またはその近傍にあり得る。
時間微分器は、識別された時間導関数の各々が所定の値を超えるように、時間導関数を識別するように構成され得る。
モルフォロジーフィルタは、2次元画像フィルタを識別された時間導関数に適用するように構成され得る。
モルフォロジーフィルタは、識別された時間導関数を2値化、すなわち、各時間導関数を0および1等の2つの2進数値のうちの1つに変換するように構成され得る。
モルフォロジーフィルタは、最初に、少なくとも、所定の時間期間の間、信号のパワースペクトル密度に基づいて、干渉エネルギーを推定し、その後、推定された干渉エネルギーに時間単調減衰を課すことによって、干渉エネルギーを推定するように構成され得る。
モルフォロジーフィルタは、少なくとも部分的に、推定された干渉エネルギーに基づいて、干渉ビンに対する値を計算するように構成され得る。モルフォロジーフィルタは、少なくとも部分的に、前の時間フレームの干渉ビンに対して計算された値に基づいて、発生を検出するように構成され得る。
随意に、フィルタは、自動的に、開始周波数を決定し、決定された開始周波数から開始して、徐々により高い周波数に対して、徐々により小さい推定された干渉エネルギーを強制するように、推定された干渉エネルギーを修正するように構成される、ポストプロセッサを含み得る。
随意に、フィルタは、ポストプロセッサに連結されたポストプロセッサコントローラを含み得る。ポストプロセッサコントローラは、自動的に、信号対干渉比(SIR)および/または総干渉対雑音比(INR)を計算するように構成され得る。ポストプロセッサコントローラはさらに、自動的に、ポストプロセッサが複数の推定された干渉エネルギーを修正する方法に影響を及ぼす演算パラメータを調節するように構成され得る。ポストプロセッサコントローラはさらに、自動的に、開始周波数を調節するように構成され得る。いずれの場合も、自動調節は、計算されたSIRおよび/またはINRに基づき得る。
本発明のさらに別の実施形態は、信号中のインパルス性干渉を低減させるためのコンピュータプログラム製品を提供する。コンピュータプログラム製品は、非一過性コンピュータ読み取り可能な媒体を含む。コンピュータ読み取り可能なプログラムコードは、コンピュータ読み取り可能な媒体上に記憶される。コンピュータ読み取り可能なプログラムコードは、信号の高エネルギー成分を識別するためのプログラムコードを含む。各識別された高エネルギー成分のエネルギーは、所定の閾値を超える。コンピュータ読み取り可能なプログラムコードもまた、識別された高エネルギー成分の時間導関数を識別するためのプログラムコードを含む。コンピュータ読み取り可能なプログラムコードはまた、インパルス性干渉の発生を検出し、少なくとも部分的に、識別された時間導関数に基づいて、信号中の干渉エネルギーを推定することを含む、識別された時間導関数をモルフォロジー的にフィルタリングするためのプログラムコードを含む。コンピュータ読み取り可能なプログラムコードはまた、推定された干渉エネルギーに基づいて、信号の一部を抑制するためのプログラムコードを含む。
本発明の他の実施形態は、総干渉対雑音比(INR)を計算し、少なくとも部分的に、計算されたINRに基づいて、干渉を検出するための方法および装置を提供する。本発明のさらに他の実施形態は、信号対干渉比(SIR)を計算し、少なくとも部分的に、計算されたSIRに基づいて、音声を検出するための方法および装置を提供する。
本発明は、図面と併せて、以下の発明を実施するための形態を参照することによって、より完全に理解されるであろう。
図1は、仮想信号中の仮想インパルス性干渉の発生を図示する。 図2は、時々の風の直撃を伴う、音声信号の実際のスペクトログラムである。 図3は、本発明のある実施形態による、図2のスペクトログラム内の高エネルギー成分を識別する実際の結果である。 図4は、図3に示される結果のサブセットである。 図5は、本発明のある実施形態による、図4の信号の時間導関数を描写する。 図6は、図4の信号のスペクトル導関数を描写する。 図7は、本発明のある実施形態による、信号中のインパルス性干渉を低減させるためのシステムの概略ブロック図である。 図8は、本発明のある実施形態による、図7のモルフォロジー干渉推定器内の連続発生検出および干渉推定の概略ブロック図である。 図9は、本発明の別の実施形態による、図7のモルフォロジー干渉推定器内のフィードバックループの概略ブロック図である。 図10は、本発明のある実施形態による、図5の時間導関数が閾値処理された後に検出された発生を描写する。 図11は、本発明のある実施形態による、モルフォロジーフィルタリング後の図10の発生を描写する。 図12は、本発明のある実施形態による、再帰的モルフォロジーフィルタリングのために使用される、近隣セル(ピクセル)の概略ブロック図である。 図13は、本発明のある実施形態による、再帰的干渉エネルギー推定のために使用される、近隣セル(ピクセル)の概略ブロック図である。 図14は、図5の時間導関数のモルフォロジーフィルタリング後の発生を図示する。 図15は、本発明のある実施形態による、図9の再帰的モルフォロジーフィルタを使用する、図14の結果からもたらされる干渉推定値を図示する。 図16は、図15に示される結果を生成する間にもたらされる干渉ビンを図示する。 図17は、本発明のある実施形態による、事後処理前の予備干渉推定値を示す。 図18は、本発明のある実施形態による、事後処理後の干渉推定値を示す。 図19は、時々の風の直撃を伴う、音声信号の実際のスペクトログラムである。 図20は、本発明の実施形態による、図19のスペクトログラムに対する、干渉および音声の存在を検出するために使用され得る、種々の比率を図示する。 図21は、本発明のいくつかの実施形態および代替の演算を図示する、概略流れ図である。
本発明の好ましい実施形態によると、必ずしも、信号中のピッチ周波数を確認することなしに、信号中のインパルス性干渉を低減させる方法および装置が、開示される。我々は、インパルス性干渉のエネルギーを推定し、次いで、インパルス性干渉によって影響されたことが分かった、信号中の周波数のエネルギーを低減させることによって、インパルス性干渉を抑制する。随意に、我々は、所望の音声信号が、インパルス性干渉の抑制の結果として破損されることを防止するための技法を採用する。すなわち、我々は、音声信号が、インパルス性干渉と間違えられる、または偶発的に劣化される程度を低減させる。
(概要)
音声信号等の信号は、周波数成分から成る。各周波数成分は、エネルギーレベルを有する。単語または音素の発話の過程の間等、経時的に、信号において見出される周波数および各周波数成分のエネルギーレベルは、変動し得る。我々は、多くのインパルス性干渉の開始が、ある一定の組の周波数成分(本明細書では、一組の周波数成分または一組の周波数と称される)のエネルギーにおける大きくかつ突然の変化によって特徴付けられることを発見した。我々は、経時的変化を「時間導関数」と称し、我々は、これらのエネルギーにおける大きくかつ突然の変化の開始を「発生」と称する。図1は、破線100と103との間で境界される、仮想信号106中のインパルス性干渉の仮想発生を図示する、単一周波数ビンに対するエネルギー−時間のグラフである。発生は、インパルス性干渉より遥かに短いものであり得ることに留意されたい。干渉発生における特徴的な組の周波数成分は、非常に低い周波数から、可能性として、約数kHzまで及ぶ、比較的に高エネルギーレベルかつ連続的またはほぼ連続的な周波数(集合的に、本明細書では、連続的周波数、近接周波数、接続周波数または接続領域と称される)によって特徴付けられる。したがって、我々は、多くのインパルス性干渉が、周波数に沿って相関し、非常に低い周波数から、可能性として、約数kHzまで及ぶ、大きな時間導関数に対して、高エネルギー成分のスペクトルを検索することによって、検出されることができると考える。
図2は、時々の風の直撃を伴う、音声信号の実際のスペクトログラムである。x軸は、時間フレーム指数(図2では、各時間フレーム指数は、約11.6mSec.を表すが、他の値が、使用され得る)として表現される時間を表し、y軸は、任意に番号付与された周波数バンド(ビン)を表す。灰色の影は、エネルギーレベルを表し、白色は、無エネルギーを表し、黒色は、最大エネルギーを表す。例示的風の直撃200および例示的音声203が、概略されるが、図2に表されるデータは、他の風の直撃および他の音声も含む。風の直撃200は、連続的またはほぼ連続的な組の周波数を含むが、音声203は、空間によって分離されたいくつかの調和的に関連する周波数成分を含むことに留意されたい。図3は、図2の信号の高エネルギー成分を描写する。図4は、図3に表されるデータのサブセット(y軸における周波数ビン0〜60のみ)を含む。図5は、図3の信号の時間導関数を描写する。図5における灰色の影は、導関数の値を表し、中間灰色は、0を表し、黒色は、大きな正値を表し、白色は、大きな負値を表す。x軸は、図2−5において同一である。風の発生は、円で囲まれた垂直接続領域500によって識別される。
記載されるように、インパルス性干渉は、一組の連続的またはほぼ連続的な周波数を含む傾向がある。対照的に、音声信号は、ピッチ周波数に加え、ピッチ周波数に調和的に関連するいくつかの他の周波数を含み、調和的に関連する周波数の間の周波数において、無または比較的に低レベルのエネルギーを伴う傾向がある。例えば、一組の調和的に関連する周波数は、図2および3に示される例示的音声203において明白である。したがって、経時的ではなく、周波数にわたって、音声信号のエネルギーレベルの変化を計算しようとした場合、典型的に音声信号中に見出される周波数の範囲にわたっていくつかの大きな変化(「周波数導関数」)を見出すであろう。我々の方法および装置は、音声信号が、連続的またはほぼ連続的な組の周波数に対する我々の要件を満たさない傾向があるので、音声信号をインパルス性干渉と間違えない傾向がある。記載されるように、我々の方法および装置は、信号中のピッチ周波数を確認することを要求しない。
図7は、本明細書に説明される一般的原理のいくつかを図示する、本発明の実施形態700の概略ブロック図である。入力信号χ(κ)は、定期的時間間隔(「時間フレーム」)において採取された一連のサンプルから成り、式中、「κ」は、時間フレーム指数である。入力信号χ(κ)の各サンプルは、周波数バンドに分割され、パワースペクトル密度(PSD)をもたらす。すなわち、各時間フレームkにおいて、入力信号χ(κ)は、各周波数バンド中のエネルギーの量を含む。PSDは、Φχχ(κ,μ)によって表され、式中、Φχχは、エネルギーの量を示し、κは、離散時間フレーム指数を示し、μは、離散周波数バンド(「ビン」)を示す。図7に示される実施形態は、PSDをもたらすために、一組のフィルタ703を含むが、PSDを推定するための任意の好適な機構または方法が、容認可能であろう。いくつかのそのような機構および方法は、フィルタバンクを使用し、他のものは、使用しない。エネルギーレベルは、実際のエネルギーレベルの対数によって表され得る。したがって、PSDは、対数スペクトルと称され得る。
エネルギー閾値検出器706は、高エネルギー成分、すなわち、そのエネルギーが閾値を超える周波数バンド(ビン)を識別する。時間導関数計算器709は、エネルギーが急上昇する、スペクトログラム内の領域を識別する。モルフォロジー干渉推定器712は、非常に低い周波数から、可能性として、約数kHzまで及ぶ、連続的またはほぼ連続的な組の周波数または周波数バンドが全て、急上昇エネルギーを経験するかどうかを確認する。その場合、急上昇エネルギーの開始(時間的に)は、風の直撃等のインパルス性干渉の発生と見なされる。モルフォロジー干渉推定器712は、インパルス性干渉の持続時間の間、周波数バンド(ビン)の各々のエネルギーの量を推定する。インパルス性干渉内のエネルギーの推定された量は、
Figure 2014518404
によって表される。
いくつかの実施形態では、モルフォロジー干渉推定器712は、時間導関数計算器709の出力を2次元画像として取り扱い、時間指数(κ)は、一方の次元を表し、周波数バンド(ビン)(μ)は、画像の他の次元を表す。モルフォロジー干渉推定器712は、次いで、画像処理技法を使用して、インパルス性干渉としての前述の周波数特性(非常に低い周波数から、可能性として、約数kHzまで及ぶ、殆どまたは全くギャップを伴わない)を有する、時間導関数「画像」内の接続領域を識別し得る。
干渉エネルギーが、推定されると、推定値は、スペクトル重み付けフレームワークにおいて使用され、干渉を抑制し、それによって、音声を強調し得る。すなわち、推定されたエネルギーは、信号から減算され、インパルス性干渉抑制(「強調」)信号をもたらし得る。しかしながら、我々は、音声信号が歪曲されることを防止するための追加の手段を講じることを提案する。我々は、したがって、ポストプロセッサ715を含むことを提案する。ポストプロセッサ715は、インパルス性干渉エネルギー推定値を修正し、Φii(κ,μ)によって表される修正された推定値は、雑音低減フィルタ718にフィードされる。雑音低減フィルタ718は、修正された推定値を入力信号χ(κ)から減算し、強調された信号をもたらす。随意に、ポストプロセッサ715は、音声、風、および/または他の信号または干渉情報の存在に関する情報等、外部情報に基づいて、コントローラ721によって制御され得る。いずれの場合も、事後処理は、随意である。
図式的に図8に図示されるように、所与の時間フレームに対する発生検出800および干渉推定803は、前述のように、連続的に行なわれ得る。しかしながら、我々は、図9に描写されるように、モルフォロジー干渉推定器にフィードバックループを含むことを提案する。発生検出900および干渉推定903に加え、フィードバックループでは、「干渉ビン」が、決定され906、記憶され909、次いで、以下により詳細に論じられるように、続く時間フレームの間、発生検出900中に使用される。
(高エネルギー成分検出)
我々は、インパルス性干渉から生じる時間−周波数画像において、接続領域を構成する発生を見出すことを所望し、音声がそのような発生に間違えられることを所望しないので、高エネルギー成分に焦点を当てる。高SNRが存在するとき、有声音の間等、いくつかの音声発生が、接続領域を含むように見える場合があり、これらの見かけの接続領域は、インパルス性干渉の発生と間違えられる場合がある。音声発生は、一般に使用される図7におけるフィルタ703等の分析フィルタバンクが、通常、そのバンドパスフィルタの有限選択性に起因して、近隣周波数バンドからの成分の何らかのエイリアシングを呈するため、接続領域を含むように見える場合がある。したがって、エネルギーが、音声の調和的に関連する周波数間のギャップに漏出し、それによって、音声が接続領域を含むように見られ得る。
音声は、高エネルギー成分を含み得る。しかしながら、音声の調和的に関連する成分間の空間は、図2に示される例示的音声203において明白であるように、ほとんどエネルギーを含まない。その結果、高エネルギー成分のみ、考慮されるとき、調和的に関連する音声成分間の空間は、高調波成分とより強く対比し、高調波成分が、連続的な組の周波数として識別されることを防止する。したがって、高エネルギー成分に焦点を当てることによって、我々は、概して、音声による混乱を回避する。
一方、風の直撃および他のインパルス性干渉は、連続的な組の周波数を含む傾向があり、したがって、除外されない。その結果、我々は、最初に、入力信号中の高エネルギー成分を識別することによって、インパルス性干渉の発生を識別することを提案する。
本発明の実施形態において使用される基本量Ψhe(κ,μ)は、比較的に高エネルギーを伴う信号成分を含む、対数スペクトルである。ここでは、κは、時間フレームの離散指数を示し、μは、スペクトルサブバンド指数である。本文脈における「高エネルギー」は、入力信号Φχχ(κ,μ)のPSDが閾値Tを超えることを意味する。一実施形態では、閾値は、入力信号のスペクトルエンベロープHenv(κ,μ)を下回る、約20dB等の値に設定される。スペクトルエンベロープは、当然ながら、経時的に変化し得るが、この変動は、インパルス性干渉の長さに対して、ゆっくりである。他の閾値またはより複雑な閾値も、以下に説明されるように、使用され得る。いくつかの実施形態によると、対数スペクトルは、式(1)に従って計算される。
Figure 2014518404
ここで、Φnn(κ,μ)は、定常雑音のPSDを示し、βは、過大推定係数である。高信号対雑音パワー比(SNR)が存在する場合、Ψhe(κ,μ)は、定常雑音成分が、比較的に小さいので、Φnn(κ,μ)に依存せず、したがって、項max[T・Henv(κ,μ),β・Φnn(κ,μ)]は、T・Henv(κ,μ)を返す。Φχχ(κ,μ)中の大きなピークのみ、T・Henv(κ,μ)を超え、したがって、対数項は、これらの大きなピークに対してのみ、0を超える。低SNR状況では、すなわち、定常雑音が、比較的に高いとき、項max[T・Henv(κ,μ),β・Φnn(κ,μ)]は、β・Φnn(κ,μ)を返し、したがって、Ψhe(κ,μ)は、係数βだけ、雑音PSDΦnn(κ,μ)を超える信号成分を含む。定常雑音の間、式(1)は、Ψhe(κ,μ)に対して、0を返すはずである。
(時間およびスペクトル導関数)
記載されるように、高エネルギー成分の時間導関数は、発生を識別するために算出される。原則として、また、周波数軸に沿って、導関数を算出し得る。これは、しかしながら、本明細書に開示される方法および装置に必須ではない。それでも、スペクトル導関数を算出後、風の直撃が現れる程度を考慮することは、有益であり得る。いくつかの演算子の任意のものは、導関数を算出するために採用され得る。例えば、Sobel、Canny、およびPrewittは、画像処理において使用される公知の演算子である。他の演算子もまた、使用され得る。演算子は、そのフィルタカーネルDによって定義され得る。フィルタリングされた画像は、式(2)および(3)に従って、離散2D−畳み込みによって得られる。
Figure 2014518404
Figure 2014518404
Sobel演算子の場合、時間導関数(Dκ)およびスペクトル導関数(Dμ)に対するフィルタカーネルは、式(4)に与えられる。
Figure 2014518404
これらのカーネルは、1フレーム遅延を導入するが、良好な結果をもたらす。過去値と一緒に、現在の時間フレームのみを使用する他のカーネルは、低待ち時間アルゴリズムを提供し得る。そのようなカーネルの使用は、しかしながら、結果として生じるシステムの性能を劣化させ得る。記載されるように、図4は、図3に表されるデータのサブセット(周波数ビン0〜60のみ)を含む。図5は、Sobel演算子を使用して生成される図4の信号の時間導関数を描写し、図6は、同様にSobel演算子を使用して生成された図4の信号のスペクトル導関数を描写する。記載されるように、スペクトル導関数は、開示される方法および装置に対して計算される必要はない。
(モルフォロジー干渉推定)
集合的に、我々は、発生検出および干渉推定をモルフォロジー干渉推定と称する。記載されるように、発生検出および干渉推定は、図8に関連して論じられるように、連続的に行なわれ得、随意に、フィードバックループが、図9に関連して論じられるように、これらの演算間で採用され得る。
(発生検出)
発生検出は、いくつかの段階を伴い得る。我々は、閾値関数を高エネルギー成分の時間導関数Gκ(κ,μ)に適用することによって開始することを提案する。閾値関数は、式(5)によって定義される2進数画像Gbin(κ,μ)をもたらす。
Figure 2014518404
この2進数画像における1は、Tbinを上回る勾配を有する時間導関数の部分を示し、0は、閾値以下の部分を示す。我々は、約1dBのTbinが十分であることを見出した。有意により高い値は、干渉の一部を逸失させ得る。図10は、閾値関数を図5の時間導関数に適用する結果を図示する。2進数画像Gbin(κ,μ)は、1および0のみを含む。図10における画像では、黒色は、1を表し、白色は、0を表す。
モルフォロジーフィルタリングが、次いで、使用され、我々がインパルス性干渉と考える、接続領域を抽出し得る。例えば、膨脹、収縮、開放、および閉鎖等の古典的モルフォロジー演算が、強調のために採用され得る。すなわち、本質的に、2進数画像内の所望の構造(接続領域)中のエッジを見出し、および/またはそのコントラストを増加させる。
我々は、式(6)によって定義されるフィルタ等の再帰的モルフォロジーフィルタを前述で計算された2進数画像Gbin(κ,μ)に適用することを提案する。
Figure 2014518404
このフィルタのカーネルは、式(7)によって定義される。
Figure 2014518404
再帰的モルフォロジーフィルタは、現在の2進数画像セル(ピクセル)Gbin(κ,μ)のみを考慮するのではなく、また、近隣セルも考慮し、近隣は、図12に図示されるように、周波数(μ)および/または時間(κ)方向に、現在のセルからずらされ得る。図12におけるセルコンテンツを式(6)における項と比較されたい。
我々は、Tmorph=2が、良好な結果を提供することを見出したが、しかしながら、他の値が、使用され得る。式(7)のカーネルおよびTmorph=2の場合、モルフォロジーフィルタが、所与のビンGbin(κ,μ)における発生を検出するために、そのビンおよびその近隣のうちの少なくとも1つは、1に等しくなければならず、またはビンは、0であり得るが、その近隣の全3つは、1に等しくなければならない。カーネルも、挙動を修正するために、異なるように選定され得る。
式(6)によって定義されるフィルタリングは、表1に示される基準等に従って、有効および無効にされ得る。
Figure 2014518404
図11は、モルフォロジーフィルタリング後の図10の発生を描写する。
(干渉推定)
記載されるように、インパルス性干渉のエネルギーの推定が、必要とされ、したがって、それぞれの信号成分は、適切なフィルタリング手段を使用して抑制することができる。干渉の発生が決定されると、干渉エネルギーが、前述の発生検出に基づいて、推定される。本質的に、発生は、干渉エネルギー推定プロセスをトリガするために使用される。干渉エネルギーPSDは、各時間フレームに対して推定される。
インパルス性干渉の開始時、入力信号中のスペクトルエネルギーは、典型的には、干渉の信号エネルギーが、短時間の間平坦域に達するか、または直ちに、減少し始めるまで、少なくとも比較的に短い時間の間、急上昇する。インパルス性干渉は、比較的に短命であり、したがって、干渉に帰する信号エネルギーは、図1に示される仮想信号106の部分109におけるように、干渉の発生後、すぐに減少し始めるであろうことに留意されたい。部分112の間等、信号エネルギーが増加している間、発生が検出されると、我々は、入力信号全体がインパルス性干渉の結果であると仮定し、入力信号のスペクトルエネルギー全体に等しい干渉エネルギー推定値を生成する。しかしながら、部分112の間等、発生が通過し、入力信号エネルギーが増加しなくなると、我々は、入力信号エネルギーのいかなる減少も、インパルス性干渉の減少に帰すると仮定し、推定された干渉エネルギーを適宜減少させる。
そうしなければ干渉エネルギーの除去とともに除去されるであろう音声を入力信号が含む可能性を考慮するために、入力信号エネルギーが増加しなくなると、我々は、単調減衰を推定された干渉エネルギーに課し、推定値が、完全に減衰されてしまうまで(すなわち、推定値が、0またはその時の定常雑音レベル等、所定または計算された値まで低減されるまで)、推定値が、再び上昇することを防止する。
したがって、発生の持続時間の間、我々は、干渉エネルギー
Figure 2014518404
を入力信号PSDΦχχ(κ,μ)に等しいとして推定する。発生が通過した後、我々は、いくつか(好ましくは、2つ)の時間フレームの間、入力信号PSDΦχχ(κ,μ)を追跡する。この時間の間、推定された干渉エネルギーは、入力信号PSDに等しいままである。Sobel演算子が採用される場合、Sobelカーネルが、2つのフレームにわたる導関数を測定するので、追跡のために、少なくとも2つのフレームを使用することは、合理的である。追跡期間後、エネルギー推定値
Figure 2014518404
は、減少することのみ可能にされ、完全に減衰されるまで、再び、増加されない。減衰は、式(8)に従って、実装され得る。
Figure 2014518404
ここで、αは、減衰率を制御するために使用される、1より小さい正の定数である。max演算子は、
Figure 2014518404
が、定常雑音PDS
Figure 2014518404
を下回ることを防止する。
(再帰的モルフォロジー干渉推定)
前述の2つの演算(発生検出および干渉推定)は、別個の演算(図8に関連して論じられるように)として、連続して行なわれ得、または、記載されるように、フィードバックループを用いて、相互接続され得る(図9に関連して論じられるように)。そのようなフィードバックループが使用される場合、所与の時間フレームに対する計算は、1つ以上の前の時間フレームからのデータを使用し、それによって、再帰の要素を導入し得る。我々は、そのような再帰が、発生検出および干渉推定を有意に改善することができることを見出した。例えば、我々は、直前の時間フレームが、干渉を含んでいた場合、時間フレームが、干渉を含む可能性がより高いと考える。特に、我々は、後述されるように、フィードバックループ内側の「干渉ビン」と呼ばれるものを算出することが有用であることを見出した。
インパルス性干渉は、短いが、有限である時間量の間続く。したがって、単一干渉は、いくつかの連続的時間フレームに及び、したがって、その間、検出され得る。ビンから構成される時間−周波数平面では、干渉ビンは、干渉が、干渉ビンの時間フレームまで存在すると仮定され得るビンである。干渉ビンは、形式W(κ,μ)の2進数マスクによって表され、このマスクの値は、再帰的手順において決定される。すなわち、ある時間フレームの干渉ビンの値は、W(κ−1,μ)等の過去の時間フレーム内の少なくとも1つの干渉ビンに依存する。一実施形態によると、干渉ビンは、式(9)に従って計算され得る。
Figure 2014518404
したがって、干渉ビンは、以下のうちの1つ以上を考慮することによって、計算され得る:干渉推定(現在の時間フレーム内において、少なくとも、推定がこれまで計算された範囲まで)、高エネルギー成分に関する情報、現在の発生、および干渉推定が背景雑音を超える範囲。当然ながら、他の要因も、干渉ビン計算に含まれ得る。しかしながら、我々は、式(9)が、良好な結果を提供することを見出した。
接続発生領域の周波数方向における比較的に小さいギャップは、干渉内においてさえ、生じ得る。そのようなギャップは、十分に小さい限り、すなわち、所定のサイズ(限界)より小さい限り、充填され得る。しかしながら、ギャップサイズがサイズ限界を超える場合、ギャップを上回る(すなわち、ギャップより高い)周波数における全ての干渉ビンは、0に設定されるべきである。なぜなら、大きなギャップを上回るビンは、干渉に属さず、大きなギャップを上回るビンは、現在検出されている干渉以外の信号成分によって生じたとみなすことが可能であるからである。ギャップを充填する方法の1つは、W(κ,μ)=1を設定することによるものである。
記載されるように、再帰は、前の時間フレームからの情報を使用して、現在の時間フレームに対する値を計算する。一実施形態によると、再帰は、式(6)を修正することによって、モルフォロジー干渉推定器内に実装することができる。式(6)におけるGbin(κ−1,μ)を干渉ビンW(κ−1,μ)と置換することによって、式(10)をもたらす。
Figure 2014518404
式(10)によって定義されるフィルタの項は、現在の2進数画像セル(ピクセル)Gbin(κ,μ)および近隣セルを含み、近隣は、図13に図示されるように、周波数(μ)および/または時間(κ)方向に、現在のセルからずらされ得る。
式(6)のように、式(10)は、4つの項の線形組み合わせであり、その結果は、閾値と比較される。式(6)同様に、我々は、Tmorph=2が、良好な結果を提供することを見出した。図14は、前述の再帰的干渉推定プロセスを使用する、図5の時間導関数のモルフォロジーフィルタリング後の発生Gon(κ,μ)を図示する。図14(再帰的モルフォロジーフィルタリング)と図10(非再帰的モルフォロジーフィルタリング)の比較は、再帰的モルフォロジーフィルタリングが、多くの場合、発生を識別することにおいてより優れていることを明らかにする。図15は、再帰的モルフォロジーフィルタを使用する、図14の結果からもたらされた干渉推定
Figure 2014518404
を図示する。図16は、図15に示される結果を生成する間、もたらされる干渉ビンW(κ,μ)を図示する。
(事後処理)
干渉推定は、入力信号中の周波数を弱めるために使用されるであろうことに留意されたい。事後処理演算の目標は、非修正干渉推定が、所望の音声信号に及ぼし得る負の影響を低減させるように、これまで計算された干渉推定
Figure 2014518404
を修正することである。例えば、事後処理は、存在し得るいかなる音声信号にも課される歪曲の量を制御するように、行なわれるインパルス性干渉低減の量を制御し得る。干渉推定に関して前述のものに類似する考慮およびプロセスも、事後処理に適用される。例えば、インパルス性干渉において、特定の周波数バンド内のエネルギーの量は、図1に関する前述のように、経時的に減少することが予期される。しかしながら、音声では、特定の周波数バンド内のエネルギーの量は、経時的に非常に増加し得る(特に、音声が、発話された母音の開始等、新しいピッチ周波数を含む場合)。したがって、我々は、周波数が弱められ得る量において、経時的に減衰を強制することを提案する。さらに、風の直撃およびいくつかの他のインパルス性干渉は、徐々により高い周波数において、徐々に少ないスペクトルエネルギーを呈する。インパルス性干渉のこの特性は、事後処理演算に利用することができる。
上で計算された干渉推定値
Figure 2014518404
は、それを上回ると推定された干渉エネルギーが周波数増加に伴って単調に減少する(これは、前述の風雑音の特性に一致する)周波数指数μを決定するために、分析され得る。我々は、μを事後処理のための「開始ビン」と呼ぶ。なぜなら、事後処理のいくつかの側面が、音声が干渉とともに抑制されることを防止するために、開始ビンから開始する干渉推定を改変するからである。すなわち、我々は、
Figure 2014518404
を最大限にし、μを上回るμの値に対して、干渉推定値
Figure 2014518404
が、単調に減少するように、μを選定する。強制されるスペクトル減衰の量は、式(8)によって示される時間減衰と同様に制御される。我々は、式11に示されるように、干渉推定を修正することを提案する。
Figure 2014518404
正の係数αは、スペクトル減衰の量を制御する。式(8)と同様に、
Figure 2014518404
は、max(・)演算子を用いて、定常雑音のレベルを下回って降下することから防止される。スペクトル減衰を強制することは、風雑音が、そのスペクトルピーク後、降下する傾向があるので、音声歪曲を低減させるのに役立つ。故に、信号が、エネルギーが周波数の増加によって上昇する成分を含む場合、これらの成分は、音声によるものである可能性が高い。
最終干渉推定は、式12に示されるように、「積極性」係数γを使用してもたらされる。
Figure 2014518404
この係数は、実際に行なわれるインパルス性干渉低減の量を制御する方法を導入する。図17および18は、図5の時間導関数の事後処理を通して得ることができる差異を図示する。図17は、予備干渉推定
Figure 2014518404
を示し、図18は、事後処理によって修正された干渉推定Φii(κ,μ)を示す。
(干渉抑制)
推定された干渉を抑制するために、Wienerフィルタ[8]または古典的スペクトル減算[10][9]等の任意の好適な雑音抑制フィルタが、使用され得、Φii(κ,μ)が、Φnn(κ,μ)の代わりに使用される。雑音抑制技法の概要は、[11]に提供される。Weinerフィルタと同様の特性を伴うフィルタの場合、フィルタ重みは、式(13)に示されるようになるであろう。
Figure 2014518404
minは、減衰に対する限界を導入する。これは、最大減衰をもたらし、楽音に対処可能等の利点を提供し得る。しかしながら、これらのフィルタ重み付けは、全可聴風雑音を抑制しない場合がある。したがって、我々は、干渉をより徹底して除去するために、別の係数を含むことを提案する。係数は、フィルタの出力における残留雑音が、PSDとして、Φnn(κ,μ)・H minを呈するように選定される。そのような係数は、式(14)に示される。
Figure 2014518404
強調された出力スペクトルは、式(15)を使用して、スペクトル重み付けを通して、得られ得る。
Figure 2014518404
時間ドメイン出力信号は、次いで、それぞれのサブバンドドメイン処理フレームワークに応じて、例えば、重畳加算または別の適切な方法を使用して、合成され得る。
(インパルス性干渉のブロードバンド検出)
事後処理段階を制御するために、我々は、モルフォロジー干渉推定から利用可能なブロードバンド情報を使用する。総干渉対雑音比(INR)を使用して、干渉の存在を検出することができ、信号対干渉比(SIR)を採用して、干渉の存在下でも、音声を検出することができる。
図19は、時々の風の直撃を伴う、音声信号の実際のスペクトログラムを図示する。図20は、干渉および音声の存在を検出するために使用され得る、種々の比率を図示する。
干渉PSD
Figure 2014518404
の予備推定を使用して、式(10)に従って、推定された総干渉対雑音比(INR)を算出し得る。
Figure 2014518404
ここで、Nは、サブバンドμの数を示す。随意に、対数および総和は、交換され得る。推定器
Figure 2014518404
は、いくつかの推定誤差を含む。それでも、和は、図19および20における実施例が実証するように、インパルス性干渉の存在を検出するために好適である。INRは、より長い時間スケール基づいて機能する干渉検出器を構築するための良好な情報源である。例えば、「風の直撃/分」等の測定値を算出するために使用され得る。さらに、過去10秒程度にわたって得られた平均INRは、干渉のエネルギーの評価基準を提供し得る。
干渉の存在は、前述のように、事後処理を制御するために重要である。しかしながら、また、所望の信号成分の存在に関する情報を得ることも重要である。この目的を達成するために、我々は、入力PSDおよび推定された干渉PSDの比を積算し、式(17)に示されるように、信号対干渉比を得る。
Figure 2014518404
前述のように、対数および総和は、交換され得る。実数値関数U(κ,μ)は、和の各部に重みを割り当てる。式(17)から得られる量は、インパルス性干渉の存在から独立した音声信号の存在を検出するために使用することができる。インパルス性干渉のない場合、SIR(κ)は、
Figure 2014518404
が、したがって、Φnn(κ,μ)と等しいので、「信号対雑音比」(SNR)に変わる。
U(κ,μ)は、干渉のスペクトル近傍において生じる成分の強調を促進し、したがって、特別な予防措置が講じられない限り、歪曲される可能性がより高い。言い換えると、U(κ,μ)は、式(17)において提案された評価基準を推定された干渉からスペクトル的に分離された成分に対して鈍感にするために使用することができる。これが該当する場合、事後処理は、例えば、高域周波数に所望の成分が存在する場合でも、干渉を除去するように制御することができる。任意の好適なコスト関数を使用して、重みU(μ)を導出することができる。図20は、重みU(μ)を伴う場合と伴わない場合のSIRの実施例を図示する。
事後処理の多くの側面は、SIRおよび/またはINRに基づいて、制御され得る。3つのそのような側面が、以下に論じられる。スペクトル減衰係数αは、前述のように、音声信号を保護する手段を提供する。高速減衰が強制される場合、μを上回る音声成分は、事後処理によって保護される。これは、典型的には、フレーム毎に行なわれる。式(17)に従って重み付けされたSIRが、これが所望の信号を抑制する危険を示す場合、採用されることができる。
それを上回ると、推定された干渉エネルギーにおけるスペクトル減衰が強制される、開始ビンμを低減させることができる。μビンの低減は、μが、ピッチ周波数を含むビンと偶然一致する場合、特に、役立ち得る。言い換えると、予備干渉推定
Figure 2014518404
に従って、開始ビンμが、ピッチ周波数等の音声成分を含むことが偶然に決定される場合、対応する音声エネルギーは、偶発的に、干渉エネルギーの一部と見なされ、抑制されるであろう。我々は、より低い開始ビンμを選択することが、この問題を軽減または緩和し得ることを見出した。決定された開始ビンμは、最大エネルギーを有する周波数を表すので、より低い番号が付与された開始ビンは、最大未満のエネルギーを有する周波数を表す。したがって、より低い番号が付与された開始ビンを使用することによって、干渉推定におけるロールオフは、より低いエネルギーレベルから開始する。効果的に、我々は、音声エネルギーの少なくとも一部を推定された干渉エネルギーから除去する。したがって、我々は、音声エネルギーの少なくとも一部が抑制されることを防止する。より低い番号が付与された開始ビンを選択することは、あらゆる場合において適切ではない場合がある。例えば、より低い番号が付与された開始ビンを選択するかどうかの決定は、音声を抑制する危険が高いと見なされるとき等、重み付けされたSIRに基づき得る。
積極性係数γは、干渉抑制の全体的量を低減させるために制御することができる。これは、主に、干渉が比較的に長い時間スケールに基づいて検出された場合、干渉抑制をオンにするための「スイッチ」として使用され得る。この目的のために、前述の「過去数秒間の平均INR」等の評価基準が、好ましくは、基礎として使用される。積極性を制御するために、我々は、
Figure 2014518404
ではなく、
Figure 2014518404
に基づいて、INRを算出することを推奨する。これが行なわれる場合、積極性の制御は、前述の事後処理ステップ(式(11))から恩恵を受ける。
図21は、本発明のいくつかの実施形態および代替の演算を図示する、概略流れ図である。2100では、入力信号の高エネルギー成分が、識別される。2103では、高エネルギー成分の時間導関数が、識別される。2106では、時間導関数は、モルフォロジー的にフィルタリングされる。モルフォロジーフィルタリングは、2109において、インパルス性干渉の発生を検出し、2112において、干渉エネルギーを推定することを含み得る。2115では、推定された干渉エネルギーは、μを上回る周波数増加に伴って、推定された干渉エネルギーのロールオフを強制するように修正される。演算2115は、事後処理の実施例である。
図21はまた、本発明のいくつかの実施形態の随意の演算の概略流れ図を含む。2118では、信号対干渉比(SIR)が、自動的に、計算され、2121において、所定の周波数μが、自動的に、計算されたSIRに基づいて、調節される。2124では、信号対干渉比(SIR)が、自動的に、計算され、2127において、音声が、少なくとも部分的に、計算されたSIRに基づいて、検出される。2130では、総干渉対雑音比(INR)が、自動的に、計算され、2133において、干渉が、少なくとも部分的に、計算されたINRに基づいて、検出される。
本明細書に説明される、信号中のインパルス性干渉を低減させる方法および装置は、自動車用音声認識システム、携帯電話、軍事通信機器および他の状況における、風の直撃および他のインパルス性干渉の抑制に利するために使用され得る。開示される発明による、システムおよび方法は、例えば、これらのシステムおよび方法が、処理中の信号中のピッチ周波数を確認する必要がないので、先行技術に優る利点を提供する。さらに、これらのシステムおよび方法は、Hetheringtonの提案のように、風雑音のモデルに依拠しない。加えて、いずれの先行技術も、我々が知る限り、本明細書に開示されるように、事後処理またはフィードバックループ処理を伴わない。
本明細書に開示される方法および装置はまた、ハードウェア、ファームウェア、および/またはそれらの組み合わせ内に実装され得る。例えば、図7−9に示される構成要素、ならびに図12、13、および21を参照して説明される演算は、メモリ内に記憶される命令を実装するプロセッサによって実装され得る。インパルス性干渉を低減させる方法および装置は、メモリ内に記憶された命令によって制御されるプロセッサを含むように説明された。メモリは、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、フラッシュメモリ、または任意の他のメモリ、あるいは制御ソフトウェアまたは他の命令およびデータを記憶するために好適なそれらの組み合わせであり得る。本方法および装置によって行なわれる関数のいくつかが、流れ図および/またはブロック図を参照して説明された。当業者は、流れ図またはブロック図の各ブロックの全部あるいは一部、もしくはブロックの組み合わせの関数、演算、決定等が、コンピュータプログラム命令、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組み合わせとして実装され得ることを容易に理解するはずである。当業者はまた、本発明の関数を定義する命令またはプログラムが、限定されないが、書込不可能記憶媒体(例えば、ROM等のコンピュータ内の読取専用メモリデバイス、あるいはCD−ROMまたはDVDディスク等のコンピュータI/O接続によって読取可能なデバイス)上に恒久的に記憶された情報、書込可能記憶媒体(例えば、フロッピー(登録商標)ディスク、可撤性フラッシュメモリ、再書込可能光ディスク、およびハードドライブ)上に改変可能に記憶された情報、あるいは有線または無線コンピュータネットワークを含む、通信媒体を通して、コンピュータに伝送される情報を含む、多くの形態において、プロセッサに配信され得ることを容易に理解するはずである。加えて、本発明は、ソフトウェア内に具現化され得るが、本発明を実装するために必要な関数は、随意に、または代替として、組み合わせ論理、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGAS)または他のハードウェア、あるいはハードウェア、ソフトウェア、および/またはファームウェア構成要素のいくつかの組み合わせ等、ファームウェアおよび/またはハードウェア構成要素を使用して、部分的または全体的に具現化され得る。
本発明は、前述の例示的実施形態を通して説明されるが、図示される実施形態に対する修正およびその変形例が、本明細書に開示される本発明の概念から逸脱することなく、行なわれ得ることは、当業者によって理解されるであろう。例えば、方法および装置のいくつかの側面が、流れ図を参照して説明されたが、当業者は、任意の流れ図の各ブロックまたは組み合わせブロックの全部あるいは一部の関数、演算、決定等が、組み合わせられる、別個の演算に分離される、または他の順序で行なわれ得ることを容易に理解するはずである。同様に、方法および装置のいくつかの側面が、ブロック図を参照して説明されたが、当業者は、任意のブロック図の各ブロックまたはブロックの組み合わせの全部あるいは一部の関数、演算、決定等が、組み合わせられる、別個の演算に分離される、または他の順序で行なわれ得ることを容易に理解するはずである。さらに、開示される側面またはこれらの側面の一部は、前述されていない方法で組み合わせられ得る。故に、本発明は、開示される実施形態に限定されるものと見なされるべきではない。
(参考文献)
[1]E.Hansler,G.Schmidt:Acoustic Echo and Noise Control:A Practical Approach.Wiley IEEE Press,New York,NY(USA),2004.
[2]S.V.Vaseghi、および、P.J.W.Rayner:A new application of adaptive filters for restoration of archived gramophone recordings,Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing (ICASSP),1988.
[3]S.J.Godsill、および、C.H.Tan:Removal of low frequency transient noise from old recordings using model−based signal separation techniques,IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics,1997.
[4]B.King、および、L.Atlas:Coherent modulation comb filtering for enhancing speech in wind noise,11th International Workshop on Acoustic Echo and Noise Control(IWAENC),2008.
[5]N.Abu−Shikhah、および、M.Deriche:A robust technique for harmonic analysis of speech,Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),2001.
[6]N.Ahmed,T.Natarajan、および、K.R.Rao:Discrete cosine transfom,IEEE Transactions on Computers,Vol.100,No.23,1974.
[7]E.Nemer、および、W.Leblanc:Single−Microphone wind noise reduction by adaptive post−filtering,IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2009.
[8]E.Hansler:Statistische Signale.Springer Verlag,Berlin(Germany),2001.
[9]Y.Ephraim,D.Malah:Speech Enhancement Using a Minimum Mean−Square Error Short−Time Spectral Amplitude Estimator.IEEE Transactions On Acoustics,Speech,And Signal Processing,Vol.ASSP−32,No.6,December 1984.
[10]S.F.Boll:Suppression of Acoustic Noise in Speech Using Spectral Subtraction.IEEE Trans.Acoust.Speech Signal Process,Vol.27,No.2,pp:113−120,1979.
[11]G.Schmidt:Single−Channel Noise Suppression Based on Spectral Weighting − An Overview.Eurasip Newsletter,Vol.15,No.1,pp.9−24,March 2004.

Claims (37)

  1. 信号中のインパルス性干渉を低減させる方法であって、前記方法は、
    前記信号の複数の高エネルギー成分を自動的に識別することであって、前記複数の識別された高エネルギー成分の各々のエネルギーは、所定の閾値を超えている、ことと、
    前記複数の識別された高エネルギー成分の複数の時間導関数を自動的に識別することと、
    前記識別された複数の時間導関数を自動的にモルフォロジー的にフィルタリングすることであって、前記モルフォロジー的にフィルタリングすることは、少なくとも部分的に前記複数の識別された時間導関数に基づいて、前記インパルス性干渉の発生を検出することと、前記信号中の複数の干渉エネルギーを推定することとを含む、ことと、
    前記複数の推定された干渉エネルギーに基づいて、前記信号の一部を自動的に抑制することと
    を含む、方法。
  2. 前記複数の高エネルギー成分を識別することは、前記閾値が、前記信号のスペクトルエンベロープを下回るように、前記閾値を決定することを含む、請求項1に記載の方法。
  3. 前記複数の高エネルギー成分を識別することは、少なくとも部分的に前記信号のスペクトルエンベロープに基づき、および、少なくとも部分的に前記信号中の定常雑音のパワースペクトル密度に基づいて、前記閾値を決定することを含む、請求項1に記載の方法。
  4. 前記閾値を決定することは、
    第1の条件下で、前記閾値が、前記信号のスペクトルエンベロープを下回る計算された値であり、
    第2の条件下で、前記閾値が、前記定常雑音のパワースペクトル密度を上回る計算された値であるように、
    前記閾値を決定することを含む、請求項3に記載の方法。
  5. 前記複数の識別された時間導関数の各々は、周波数範囲に関連付けられ、
    前記複数の識別された時間導関数に関連付けられた周波数範囲は、集合的に、所定の周波数を下回って開始する周波数の連続的範囲を形成する、
    請求項1に記載の方法。
  6. 前記所定の周波数は、約200Hzである、請求項5に記載の方法。
  7. 前記所定の周波数は、約100Hzである、請求項5に記載の方法。
  8. 前記周波数の連続的範囲内のギャップを自動的に考慮することをさらに含み、各ギャップは、所定のサイズ未満である、請求項5に記載の方法。
  9. 前記複数の時間導関数を識別することは、所定の値を超える時間導関数を識別することを含む、請求項1に記載の方法。
  10. 前記複数の時間導関数を識別することは、前記複数の識別された高エネルギー成分のスペクトル内の近接する時間導関数の領域を識別することを含む、請求項1に記載の方法。
  11. 前記識別された複数の時間導関数をモルフォロジー的にフィルタリングすることは、2次元画像フィルタを前記複数の識別された時間導関数に適用することを含む、請求項1に記載の方法。
  12. 前記複数の識別された時間導関数を2値化することをさらに含む、請求項1に記載の方法。
  13. 前記複数の干渉エネルギーを推定することは、最初に、少なくとも所定の時間期間の間、前記信号のパワースペクトル密度に基づいて、前記干渉エネルギーを推定し、その後、前記推定された干渉エネルギーに時間単調減衰を課すことを含む、請求項1に記載の方法。
  14. 前記識別された複数の時間導関数をモルフォロジー的にフィルタリングすることは、少なくとも部分的に前記複数の推定された干渉エネルギーに基づいて、複数の干渉ビンに対する値を計算することを含む、請求項1に記載の方法。
  15. 前記インパルス性干渉の発生を検出することは、少なくとも部分的に前の時間フレームの複数の干渉ビンに対して計算された値に基づいて、前記インパルス性干渉の発生を検出することを含む、請求項14に記載の方法。
  16. 開始周波数を自動的に決定することと、
    前記決定された開始周波数から開始して、徐々により高い周波数に対して、徐々により小さい推定された干渉エネルギーを強制するように、前記複数の推定された干渉エネルギーを自動的に修正することと
    をさらに含む、請求項1に記載の方法。
  17. 信号対干渉比(SIR)および総干渉対雑音比(INR)のうちの少なくとも1つを自動的に計算することと、
    前記計算されたSIRおよびINRのうちの少なくとも1つに基づいて、前記複数の推定された干渉エネルギーが修正される方法に影響を及ぼす演算パラメータを自動的に調節することと
    をさらに含む、請求項16に記載の方法。
  18. 信号対干渉比(SIR)および総干渉対雑音比(INR)のうちの少なくとも1つを自動的に計算することと、
    前記計算されたSIRおよびINRのうちの少なくとも1つに基づいて、前記開始周波数を自動的に調節することと
    をさらに含む、請求項16に記載の方法。
  19. 信号中のインパルス性干渉を低減させるためのフィルタであって、前記フィルタは、
    前記信号の複数の高エネルギー成分を識別するように構成されている成分識別器であって、前記複数の識別された高エネルギー成分の各々のエネルギーは、所定の閾値を超えている、成分識別器と、
    前記成分識別器に連結され、前記複数の識別された高エネルギー成分の複数の時間導関数を識別するように構成されている時間微分器と、
    前記時間微分器に連結され、少なくとも部分的に前記複数の識別された時間導関数に基づいて、前記インパルス性干渉の発生を検出し、前記信号中の複数の干渉エネルギーを推定するように構成されているモルフォロジーフィルタと、
    前記モルフォロジーフィルタに連結され、前記複数の推定された干渉エネルギーに基づいて、前記信号の一部を抑制するように構成されている雑音低減フィルタと
    を備えている、フィルタ。
  20. 前記所定の閾値は、前記信号のスペクトルエンベロープを下回る、請求項19に記載のフィルタ。
  21. 前記所定の閾値は、少なくとも部分的に前記信号のスペクトルエンベロープに基づき、および、少なくとも部分的に前記信号中の定常雑音のパワースペクトル密度に基づく、請求項19に記載のフィルタ。
  22. 第1の条件下で、前記閾値は、前記信号のスペクトルエンベロープを下回る計算された値であり、
    第2の条件下で、前記閾値は、前記定常雑音のパワースペクトル密度を上回る計算された値である、
    請求項21に記載のフィルタ。
  23. 前記複数の識別された時間導関数の各々は、周波数範囲に関連付けられ、
    前記複数の識別された時間導関数に関連付けられた周波数範囲は、集合的に、所定の周波数を下回って開始する周波数の連続的範囲を形成する、
    請求項19に記載のフィルタ。
  24. 前記所定の周波数は、約200Hzである、請求項23に記載のフィルタ。
  25. 前記所定の周波数は、約100Hzである、請求項23に記載のフィルタ。
  26. 前記周波数の連続的範囲は、所定のサイズ未満の少なくとも1つのギャップを含む、請求項23に記載のフィルタ。
  27. 前記時間微分器は、前記複数の識別された時間導関数の各々が所定の値を超えるように、前記複数の時間導関数を識別するように構成されている、請求項19に記載のフィルタ。
  28. 前記時間微分器は、前記複数の識別された高エネルギー成分のスペクトル内の近接する時間導関数の領域を識別することによって、前記複数の時間導関数を識別するように構成されている、請求項19に記載のフィルタ。
  29. 前記モルフォロジーフィルタは、2次元画像フィルタを前記複数の識別された時間導関数に適用するように構成されている、請求項19に記載のフィルタ。
  30. 前記モルフォロジーフィルタは、前記複数の識別された時間導関数を2値化するように構成されている、請求項19に記載のフィルタ。
  31. 前記モルフォロジーフィルタは、最初に、少なくとも所定の時間期間の間、前記信号のパワースペクトル密度に基づいて、前記干渉エネルギーを推定し、その後、前記推定された干渉エネルギーに時間単調減衰を課すことによって、前記複数の干渉エネルギーを推定するように構成されている、請求項19に記載のフィルタ。
  32. 前記モルフォロジーフィルタは、少なくとも部分的に前記複数の推定された干渉エネルギーに基づいて、複数の干渉ビンに対する値を計算するように構成されている、請求項19に記載のフィルタ。
  33. 前記モルフォロジーフィルタは、少なくとも部分的に前の時間フレームの複数の干渉ビンに対して計算された値に基づいて、発生を検出するように構成されている、請求項32に記載のフィルタ。
  34. ポストプロセッサをさらに備え、前記ポストプロセッサは、
    開始周波数を自動的に決定し、
    前記所定の開始周波数から開始して、徐々により高い周波数に対して、徐々により小さい推定された干渉エネルギーを強制するように、前記複数の推定された干渉エネルギーを自動的に修正する
    ように構成されている、請求項19に記載のフィルタ。
  35. 前記ポストプロセッサに連結されているポストプロセッサコントローラをさらに備え、前記ポストプロセッサコントローラは、
    信号対干渉比(SIR)および総干渉対雑音比(INR)のうちの少なくとも1つを自動的に計算し、
    前記計算されたSIRおよびINRのうちの少なくとも1つに基づいて、前記ポストプロセッサが、前記複数の推定された干渉エネルギーを修正する方法に影響を及ぼす演算パラメータを自動的に調節する
    ように構成されている、請求項34に記載のフィルタ。
  36. 前記ポストプロセッサに連結されているポストプロセッサコントローラをさらに備え、前記ポストプロセッサコントローラは、
    信号対干渉比(SIR)および総干渉対雑音比(INR)のうちの少なくとも1つを自動的に計算し、
    前記計算されたSIRおよびINRのうちの少なくとも1つに基づいて、前記開始周波数を自動的に調節する
    ように構成されている、請求項34に記載のフィルタ。
  37. 信号中のインパルス性干渉を低減させるためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータ読み取り可能なプログラムコードを記憶している非一過性コンピュータ読み取り可能な媒体を備え、前記コンピュータ読み取り可能なプログラムは、
    前記信号の複数の高エネルギー成分を識別するためのプログラムコードであって、前記複数の識別された高エネルギー成分の各々のエネルギーは、所定の閾値を超えている、プログラムコードと、
    前記複数の識別された高エネルギー成分の複数の時間導関数を識別するためのプログラムコードと、
    前記識別された複数の時間導関数をモルフォロジー的にフィルタリングするためのプログラムコードであって、前記モルフォロジー的にフィルタリングすることは、少なくとも部分的に前記複数の識別された時間導関数に基づいて、前記インパルス性干渉の発生を検出することと、前記信号中の複数の干渉エネルギーを推定することとを含む、プログラムコードと、
    前記複数の推定された干渉エネルギーに基づいて、前記信号の一部を抑制するためのプログラムコードと
    を含む、コンピュータプログラム製品。
JP2014518528A 2011-07-07 2011-07-07 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 Active JP5752324B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/043145 WO2013006175A1 (en) 2011-07-07 2011-07-07 Single channel suppression of impulsive interferences in noisy speech signals

Publications (2)

Publication Number Publication Date
JP2014518404A true JP2014518404A (ja) 2014-07-28
JP5752324B2 JP5752324B2 (ja) 2015-07-22

Family

ID=44317645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014518528A Active JP5752324B2 (ja) 2011-07-07 2011-07-07 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制

Country Status (5)

Country Link
US (1) US9858942B2 (ja)
EP (1) EP2724340B1 (ja)
JP (1) JP5752324B2 (ja)
CN (1) CN103765511B (ja)
WO (1) WO2013006175A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5752324B2 (ja) * 2011-07-07 2015-07-22 ニュアンス コミュニケーションズ, インコーポレイテッド 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
EP2980800A1 (en) * 2014-07-30 2016-02-03 Dolby Laboratories Licensing Corporation Noise level estimation
EP3152756B1 (en) 2014-06-09 2019-10-23 Dolby Laboratories Licensing Corporation Noise level estimation
KR20160102815A (ko) * 2015-02-23 2016-08-31 한국전자통신연구원 잡음에 강인한 오디오 신호 처리 장치 및 방법
US10366710B2 (en) * 2017-06-09 2019-07-30 Nxp B.V. Acoustic meaningful signal detection in wind noise
US11133023B1 (en) * 2021-03-10 2021-09-28 V5 Systems, Inc. Robust detection of impulsive acoustic event onsets in an audio stream
US11127273B1 (en) 2021-03-15 2021-09-21 V5 Systems, Inc. Acoustic event detection using coordinated data dissemination, retrieval, and fusion for a distributed array of sensors
CN114124626B (zh) * 2021-10-15 2023-02-17 西南交通大学 信号的降噪方法、装置、终端设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001124621A (ja) * 1999-10-28 2001-05-11 Matsushita Electric Ind Co Ltd 風雑音低減可能な騒音計測装置
JP2004254322A (ja) * 2003-02-21 2004-09-09 Herman Becker Automotive Systems-Wavemakers Inc ウィンドノイズを抑制するシステム
JP2004254329A (ja) * 2003-02-21 2004-09-09 Herman Becker Automotive Systems-Wavemakers Inc ウィンドノイズを抑圧するシステム
JP2006163417A (ja) * 2004-12-08 2006-06-22 Herman Becker Automotive Systems-Wavemakers Inc 雨ノイズを抑制するためのシステム
JP2007114774A (ja) * 2005-10-17 2007-05-10 Qnx Software Systems (Wavemakers) Inc 音声信号における一過性ノイズの最小化
JP2011248296A (ja) * 2010-05-31 2011-12-08 Kanto Auto Works Ltd 音信号区間抽出装置及び音信号区間抽出方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771472A (en) * 1987-04-14 1988-09-13 Hughes Aircraft Company Method and apparatus for improving voice intelligibility in high noise environments
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
JP3186892B2 (ja) 1993-03-16 2001-07-11 ソニー株式会社 風雑音低減装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US5946649A (en) * 1997-04-16 1999-08-31 Technology Research Association Of Medical Welfare Apparatus Esophageal speech injection noise detection and rejection
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US20020071573A1 (en) 1997-09-11 2002-06-13 Finn Brian M. DVE system with customized equalization
US7028899B2 (en) * 1999-06-07 2006-04-18 Metrologic Instruments, Inc. Method of speckle-noise pattern reduction and apparatus therefore based on reducing the temporal-coherence of the planar laser illumination beam before it illuminates the target object by applying temporal phase modulation techniques during the transmission of the plib towards the target
US6209094B1 (en) * 1998-10-14 2001-03-27 Liquid Audio Inc. Robust watermark method and apparatus for digital signals
US6205422B1 (en) * 1998-11-30 2001-03-20 Microsoft Corporation Morphological pure speech detection using valley percentage
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
DE10017646A1 (de) 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
EP1310099B1 (en) * 2000-08-16 2005-11-02 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
AU2003274617A1 (en) * 2002-11-29 2004-06-23 Koninklijke Philips Electronics N.V. Audio coding
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
IL155955A0 (en) * 2003-05-15 2003-12-23 Widemed Ltd Adaptive prediction of changes of physiological/pathological states using processing of biomedical signal
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
WO2006035776A1 (ja) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. 音場測定方法および音場測定装置
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
US20070011001A1 (en) * 2005-07-11 2007-01-11 Samsung Electronics Co., Ltd. Apparatus for predicting the spectral information of voice signals and a method therefor
JP2009524101A (ja) * 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
PT2165328T (pt) * 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
US8352274B2 (en) 2007-09-11 2013-01-08 Panasonic Corporation Sound determination device, sound detection device, and sound determination method for determining frequency signals of a to-be-extracted sound included in a mixed sound
US8131543B1 (en) * 2008-04-14 2012-03-06 Google Inc. Speech detection
US9253568B2 (en) 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
EP2159593B1 (en) * 2008-08-26 2012-05-02 Nuance Communications, Inc. Method and device for locating a sound source
EP2321978A4 (en) * 2008-08-29 2013-01-23 Dev Audio Pty Ltd MICROPHONE NETWORK SYSTEM AND METHOD FOR ACQUIRING SOUNDS
JP5262614B2 (ja) 2008-11-20 2013-08-14 株式会社リコー 無線通信装置
US8275148B2 (en) * 2009-07-28 2012-09-25 Fortemedia, Inc. Audio processing apparatus and method
ES2656815T3 (es) * 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
US9578159B2 (en) * 2011-06-20 2017-02-21 Prasad Muthukumar Fisheye lens based proactive user interface for mobile devices
JP5752324B2 (ja) * 2011-07-07 2015-07-22 ニュアンス コミュニケーションズ, インコーポレイテッド 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001124621A (ja) * 1999-10-28 2001-05-11 Matsushita Electric Ind Co Ltd 風雑音低減可能な騒音計測装置
JP2004254322A (ja) * 2003-02-21 2004-09-09 Herman Becker Automotive Systems-Wavemakers Inc ウィンドノイズを抑制するシステム
JP2004254329A (ja) * 2003-02-21 2004-09-09 Herman Becker Automotive Systems-Wavemakers Inc ウィンドノイズを抑圧するシステム
JP2006163417A (ja) * 2004-12-08 2006-06-22 Herman Becker Automotive Systems-Wavemakers Inc 雨ノイズを抑制するためのシステム
JP2007114774A (ja) * 2005-10-17 2007-05-10 Qnx Software Systems (Wavemakers) Inc 音声信号における一過性ノイズの最小化
JP2011248296A (ja) * 2010-05-31 2011-12-08 Kanto Auto Works Ltd 音信号区間抽出装置及び音信号区間抽出方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CSNG200600972251; 山口亮他: '"雑音抑圧信号処理におけるミュージカルノイズ改善の検討"' 日本音響学会2004年春季研究発表会講演論文集-I- , 200403, pp.619-620 *
CSNG200700786003; 林寛晃他: '"モルフォロジ成分分析による突発性雑音除去"' 電子情報通信学会技術研究報告 Vol.107,No.64, 200705, pp.13-18 *
CSNG200800004008; 林寛晃他: '"DFTを用いたモルフォロジ成分分析による音声からのインパクト雑音除去"' 電子情報通信学会技術研究報告 Vol.107,No.374, 200712, pp.47-52 *
JPN6015001632; 山口亮他: '"雑音抑圧信号処理におけるミュージカルノイズ改善の検討"' 日本音響学会2004年春季研究発表会講演論文集-I- , 200403, pp.619-620 *
JPN6015001636; Bing WANG, et al.: '"An improved CANNY edge detection algorithm"' Proceedings of the 2nd International Workshop on Computer Science and Engineering(WCSE 2009) , 200910, pp.497-500, IEEE *
JPN6015001639; 林寛晃他: '"モルフォロジ成分分析による突発性雑音除去"' 電子情報通信学会技術研究報告 Vol.107,No.64, 200705, pp.13-18 *
JPN6015001641; 林寛晃他: '"DFTを用いたモルフォロジ成分分析による音声からのインパクト雑音除去"' 電子情報通信学会技術研究報告 Vol.107,No.374, 200712, pp.47-52 *

Also Published As

Publication number Publication date
US9858942B2 (en) 2018-01-02
CN103765511B (zh) 2016-01-20
US20140095156A1 (en) 2014-04-03
WO2013006175A1 (en) 2013-01-10
JP5752324B2 (ja) 2015-07-22
CN103765511A (zh) 2014-04-30
EP2724340B1 (en) 2019-05-15
EP2724340A1 (en) 2014-04-30

Similar Documents

Publication Publication Date Title
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
US8352257B2 (en) Spectro-temporal varying approach for speech enhancement
JP4965891B2 (ja) 信号処理装置およびその方法
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
US11183172B2 (en) Detection of fricatives in speech signals
JP2006126859A (ja) 音声処理装置及び音声処理方法
Evans et al. Noise estimation without explicit speech, non-speech detection: A comparison of mean, modal and median based approaches
EP1635331A1 (en) Method for estimating a signal to noise ratio
Kato et al. A wind-noise suppressor based on wind-onset detection and spectral gain modification
Xia et al. A modified spectral subtraction method for speech enhancement based on masking property of human auditory system
Yong et al. Real time noise suppression in social settings comprising a mixture of non-stationary anc transient noise
Zavarehei et al. Speech enhancement using Kalman filters for restoration of short-time DFT trajectories
Ma et al. A perceptual kalman filtering-based approach for speech enhancement
Erkelens et al. A general optimization procedure for spectral speech enhancement methods
Hendriks et al. Adaptive time segmentation of noisy speech for improved speech enhancement
Indumathi et al. Noise estimation using standard deviation of the frequency magnitude spectrum for mixed non-stationary noise
Singh et al. Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement
Brookes et al. Enhancement
PHANEENDRA et al. Speech Enhancement using Combination of Digital Audio Effects with Kalman Filter
JPH0844390A (ja) 音声認識装置
Alam et al. Speech enhancement based on a hybrid a priori signal-to-noise ratio (SNR) estimator and a self-adaptive Lagrange multiplier
Li et al. LONG-TERM TEMPORAL MODULATION FEATURE FOR ROBUST SPEECH RECOGNITION IN UNKNOWN NOISE
Alam et al. A new perceptual post-filter for single channel speech enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150519

R150 Certificate of patent or registration of utility model

Ref document number: 5752324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250