JP6134078B1 - ノイズ抑制 - Google Patents

ノイズ抑制 Download PDF

Info

Publication number
JP6134078B1
JP6134078B1 JP2016557303A JP2016557303A JP6134078B1 JP 6134078 B1 JP6134078 B1 JP 6134078B1 JP 2016557303 A JP2016557303 A JP 2016557303A JP 2016557303 A JP2016557303 A JP 2016557303A JP 6134078 B1 JP6134078 B1 JP 6134078B1
Authority
JP
Japan
Prior art keywords
tile
frequency
noise
time
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016557303A
Other languages
English (en)
Other versions
JP2017516126A (ja
Inventor
ピーテル ヤンセ,コルネリス
ピーテル ヤンセ,コルネリス
スタイフェンブルフ,レオナルデュス コルネリス アントニウス ファン
スタイフェンブルフ,レオナルデュス コルネリス アントニウス ファン
ケヒヒアン,パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Application granted granted Critical
Publication of JP6134078B1 publication Critical patent/JP6134078B1/ja
Publication of JP2017516126A publication Critical patent/JP2017516126A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

ノイズ抑制器が、第一および第二のマイクロフォン信号の周波数変換から第一および第二の周波数領域信号を生成する第一(401)および第二の変換器(403)を有する。利得ユニット(405、407、409)が、前記第一の周波数領域信号の絶対値時間周波数タイル値と前記第二の周波数領域信号の絶対値時間周波数タイル値についての差分指標に応答して時間周波数タイル利得を決定する。スケーラー(411)が前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって第三の周波数領域信号を生成する。結果として得られる信号は第三の変換器(413)によって時間領域に変換される。指定器(405、407、415)が、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定し、前記利得ユニット(409)は、時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応じて前記利得を決定する。

Description

本発明は、ノイズ抑制に関し、特に、排他的にではないが、二つのマイクロフォンから捕捉された信号に基づく非定常拡散ノイズの抑制に関する。
オーディオ、特に発話の捕捉はここ数十年でますます重要になった。実際、発話の捕捉は、遠隔通信、遠隔会議、ゲームなどを含む多様な用途のためにますます重要になった。しかしながら、多くのシナリオおよび用途における問題は、所望される発話源が典型的には環境における唯一のオーディオ源ではないということである。むしろ、典型的なオーディオ環境では、マイクロフォンによって捕捉される他の多くのオーディオ/ノイズ源がある。多くの発話捕捉アプリケーションに呈される枢要な問題の一つは、ノイズのある環境においてどのように発話を抽出するのが最善かという問題である。この問題に対処するために、ノイズ抑制のためのいくつかの異なるアプローチが提案されてきた。
発話向上における最も難しいタスクの一つは、非定常的な拡散ノイズの抑制である。拡散ノイズはたとえば、ノイズがあらゆる方向から到来する部屋における音響(ノイズ)音場である。典型的な例は、室内にわたって分布した多くのノイズ源があるたとえばカフェテリアやレストランにおける、いわゆる「ざわめき」ノイズ("babble" noise[バブル・ノイズ])である。
マイクロフォンまたはマイクロフォン・アレイを用いて室内の所望される話者を記録するとき、所望される発話は、背景ノイズに加えて捕捉される。所望される発話ができるだけ影響を受けない一方で背景ノイズが低減されるようマイクロフォン信号を修正しようとして、発話向上が使用されることができる。ノイズが拡散性のときは、一つの提案されたアプローチは、背景ノイズのスペクトル振幅を推定し、結果として得られる向上された信号のスペクトル振幅ができるだけ所望される発話信号のスペクトル振幅に似ているよう、スペクトル振幅を修正しようとすることである。このアプローチでは、捕捉された信号の位相は変更されない。
図1は、従来技術に基づくノイズ抑制システムの例を示している。この例では、入力信号が二つのマイクロフォンから受領される。一方のマイクロフォンは参照マイクロフォンであると考えられ、他方は所望されるオーディオ源を捕捉する、特に発話を捕捉する主マイクロフォンである。このように、参照マイクロフォン信号x(n)および主要マイクロフォン信号が受領される。これらの信号は変換器101、103において周波数領域に変換され、個々の時間周波数タイルにおける絶対値が絶対値ユニット105、107によって生成される。結果として得られる絶対値が利得を計算するためにユニット109に入力される。結果として得られる利得は乗算器111において主要信号の周波数領域値に乗算され、それにより周波数スペクトル補償された出力信号を生成し、それがもう一つの変換ユニット113において時間領域に変換される。
このアプローチは、周波数領域において最もよく考えることができる。まず、時間領域信号のたとえば重なり合うハニング窓掛けされたブロックの短時間フーリエ変換(STFT)を計算することによって、周波数領域信号が生成される。STFTは一般に、時間および周波数両方の関数であり、二つの引数tkおよびωlによって表わされる。ここで、tk=kBは離散時間であり、kはフレーム・インデックスであり、Bはフレーム・シフトであり、ωl=lω0は(離散)周波数であり、lは周波数インデックスであり、ω0は基本周波数間隔を表わす。
Z(tkl)が向上されるべき(複素)マイクロフォン信号であるとする。これは所望される発話信号Zs(tkl)およびノイズ信号Zn(tkl)からなる:
Z(tkl)=Zs(tkl)+Zn(tkl)
このマイクロフォン信号は後処理器に入力される。後処理器は、位相を不変のままにしつつ、入力信号のスペクトル振幅を修正することによってノイズ抑制を実行する。後処理器の動作は、利得関数によって記述できる。利得関数は、スペクトル振幅減算の場合、典型的には次の形をもつ:
Figure 0006134078
ここで、|・|は絶対値演算である。出力信号は、
Q(tkl)=Z(tkl)*G(tkl)
として計算される。時間領域に変換し戻されたのち、もとの時間信号が窓掛けされて時間重複された(重複加算手順が実行された)ことを考慮に入れて、現在および前のフレームを組み合わせることによって時間領域信号が再構成される。
利得関数は次のように一般化できる:
Figure 0006134078
=1については、これは、スペクトル振幅減算のための利得関数を記述する。α=2については、これはやはりしばしば使われるスペクトルパワーのための利得関数を記述する。以下の記述は、スペクトル振幅減算に焦点を当てるが、与えられる理屈は特にスペクトルパワー減算にも適用できることは理解されるであろう。
|Zn(tkl)|におけるノイズの振幅スペクトルは一般には未知である。よって、その代わりに推定値
Figure 0006134078
〔^付きの|Zn(tkl)|〕を使う必要がある。その推定値は常に正確とは限らないので、ノイズについての過剰減算因子γnが使用される(すなわち、ノイズが1より大きな因子でスケーリングされる)。しかしながら、これは
Figure 0006134078
についての負の値につながることもあり、望ましくない。その理由により、利得関数は0またはある小さな正の値に制限される。
上記の利得関数について、これは次のような結果になる:
Figure 0006134078
定常ノイズについては、|Zn(tkl)|は、無音の間の振幅スペクトル|Z(tkl)|を測定し、平均することによって推定できる。
しかしながら、非定常ノイズについては、|Zn(tkl)|の推定値はそのようなアプローチからは導出できない。特性が時間とともに変化するからである。これは、正確な推定値が単一のマイクロフォン信号から生成されることを妨げる傾向がある。代わりに、|Zn(tkl)|を推定できるよう追加のマイクロフォンを使うことが提案されている。具体例として、室内に二つのマイクロフォンがあり、一方のマイクロフォンは所望される話者の近くに位置され(主要マイクロフォン)、他方のマイクロフォンは話者からさらに遠くにある(参照マイクロフォン)シナリオを考えることができる。このシナリオでは、主要マイクロフォンが所望される発話成分およびノイズ成分を含むと想定されることができ、参照マイクロフォン信号は発話を全く含まず、参照マイクロフォンの位置において記録されたノイズ信号のみを含むと想定されることができる。それらのマイクロフォン信号は、主要マイクロフォンおよび参照マイクロフォンについてそれぞれ:
Z(tkl)=Zs(tkl)+Zn(tkl)
X(tkl)=Xn(tkl)
によって表わせる。
マイクロフォン信号におけるノイズ成分を関係付けるために、いわゆるコヒーレンス項を次のようにして定義する。
Figure 0006134078
ここで、E{・}は期待値演算子である。コヒーレンス項は、主要マイクロフォン信号におけるノイズ成分の振幅と参照マイクロフォン信号の振幅との間の平均相関の指標である。
C(tkl)はマイクロフォンにおける瞬時オーディオに依存するのではなく、ノイズ音場の空間特性に依存するので、時間の関数としてのC(tkl)の変動はZnおよびXnの時間変動よりずっと少ない。
結果として、C(tkl)は、zに発話が存在しない期間中に時間的に|Zn(tkl)|および|Xn(tkl)|を平均することによって比較的正確に推定できる。そのようにするアプローチが特許文献1に開示されている。同文献は特に、C(tkl)を決定するために明示的な発話検出が必要とされない方法を記載している。
定常ノイズの場合と同様に、二つのマイクロフォンについての利得関数についての式が次のように導出できる。
Figure 0006134078
Xは発話を含まないので、Xの絶対値にコヒーレンス項C(tkl)を乗算したものは、主要マイクロフォン信号におけるノイズ成分の推定値を与えるものと考えられる。結果として、上記で与えた式は、周波数領域信号をスケーリングすることによって、すなわち
Q(tkl)=Z(tkl)*G(tkl)
によって、(推定された)発話成分に対応するよう第一のマイクロフォン信号のスペクトルを整形するために使用できる。
しかしながら、記載されたアプローチは多くのシナリオにおいて有利な性能を提供しうるものの、いくつかのシナリオでは最適でない性能を与えることがある。特に、いくつかのシナリオでは、ノイズ抑制が最適ではないことがある。特に、拡散性のノイズについては、信号対雑音比(SNR)の改善は制限されることがあり、しばしばいわゆるSNR改善(SNRI)は実際上、6〜9dB程度に制限される。これは用途によっては受け入れ可能であることもあるが、多くのシナリオでは、有意なノイズ成分が残って知覚される発話品質を劣化させる結果となる傾向がある。さらに、他のノイズ抑制技法が使用できるものの、これらも最適でない傾向があり、たとえば複雑である、柔軟性に欠く、実際的でない、計算要求が高い、複雑なハードウェア(たとえば多数のマイクロフォン)を要求するおよび/または最適でないノイズ抑制を提供する傾向がある。
よって、改善されたノイズ抑制が有利であろう。特に、複雑さを低減する、柔軟性を増す、実装を容易にする、コストを低減する(たとえば多数のマイクロフォンを要求しない)、ノイズ抑制を改善するおよび/または性能を改善することを許容するノイズ抑制が有利であろう。
米国特許第7602926号 米国特許第7146012号
よって、本発明は、単独でまたは任意の組み合わせにおいて上述した欠点の一つまたは複数を好ましくは緩和、軽減または解消しようとする。
本発明のある側面によれば、第一のマイクロフォン信号におけるノイズを抑制するためのノイズ抑制器が提供される。本ノイズ抑制器は:第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する第一の変換器であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、第一の変換器と;第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する第二の変換器であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、第二の変換器と;前記第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数と前記第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数との間の差を示す差分指標の負でない単調関数として時間周波数タイル利得を決定する利得ユニットと;前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成するためのスケーラーとを有する。本ノイズ抑制器はさらに、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する指定器を有しており、前記利得ユニットは、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、時間周波数タイルの時間周波数タイル利得について、前記時間周波数タイルがノイズ・タイルとして指定されるときは、前記時間周波数タイルが発話タイルとして指定されるときよりも、低い利得値が決定されるよう、時間周波数タイル利得を決定するよう構成されている。
本発明は、多くの実施形態において、改善されたおよび/または容易にされたノイズ抑制を提供しうる。特に、本発明は、非定常なおよび/または拡散性のノイズの改善された抑制を許容しうる。増大した信号もしくは発話対雑音比がしばしば達成できる。特に、本アプローチは、実際上、潜在的なSNR改善に対する上限を増大させうる。実際、多くの実際的なシナリオにおいて、本発明は、ノイズ抑制された信号のSNRを約6〜8dBから20dB超に改善することを許容しうる。
本アプローチは、典型的には改善されたノイズ抑制を提供でき、特に、対応する発話抑制なしにノイズの改善された抑制を許容しうる。抑制された信号の改善された信号対雑音比がしばしば達成されうる。
利得ユニットは、少なくとも二つの時間周波数タイルについて異なる時間周波数タイル利得を別個に決定するよう構成される。多くの実施形態において、諸時間周波数タイルは時間周波数タイルの複数の集合に分割されてもよく、利得ユニットは、時間周波数タイルの各集合について独立しておよび/または別個に利得を決定するよう構成されていてもよい。多くの実施形態において、時間周波数タイルの一つの集合の諸時間周波数タイルについての利得は、時間周波数タイルのその集合に属する諸時間周波数タイル内の前記第一の周波数領域信号および前記第二の周波数領域信号のみの属性に依存してもよい。
利得ユニットは、時間周波数タイルについて、これが発話タイルとして指定されている場合には、これがノイズ・タイルとして指定されている場合とは異なる利得を決定しうる。利得ユニットは特に、時間周波数タイルについての利得を、該時間周波数タイルの前記指定に依存する関数を評価することによって、計算するよう構成されていてもよい。いくつかの実施形態では、利得ユニットは、時間周波数タイルについての利得を、該時間周波数タイルが発話タイルとして指定されているときは、ノイズ・タイルとして指定されている場合とは異なる関数を評価することによって、計算するよう構成されていてもよい。時間周波数タイル利得を決定することにおいて使われる関数、式、アルゴリズムおよび/またはパラメータは、時間周波数タイルが発話タイルとして指定されているときは、ノイズ・タイルとして指定されている場合とは異なっていてもよい。
時間周波数タイルは特に、一つの時間セグメント/フレームにおける周波数変換の一つのビンに対応してもよい。特に、前記第一および第二の変換器は、前記第一および第二の信号の連続する諸セグメントを変換するブロック処理を使ってもよい。時間周波数タイルは、一つのセグメント/フレーム内の変換ビンの集合(典型的には一つ)に対応してもよい。
発話またはノイズ(時間周波数)タイルとしての指定は、いくつかの実施形態では、各時間周波数タイルについて実行されてもよい。しかしながら、しばしば、指定は、一群の時間周波数タイルに適用されてもよい。特に、指定は、ある時間セグメントにおけるすべての時間周波数タイルに適用されてもよい。このように、いくつかの実施形態では、第一のマイクロフォン信号は、個々に周波数領域に変換される時間セグメント/フレームにセグメント分割されてもよく、時間周波数タイルの発話またはノイズ・タイルとしての指定は、一つのセグメント/フレームのすべての時間周波数タイルについて共通であってもよい。
いくつかの実施形態では、ノイズ抑制器はさらに、出力周波数領域信号の周波数から時間への変換から、出力信号を生成するための第三の変換器をさらに有していてもよい。他の実施形態では、出力周波数領域信号が直接使われてもよい。たとえば、発話認識または発話向上が周波数領域で実行されてもよく、よって時間領域への変換を必要とすることなく、出力周波数領域信号を直接使ってもよい。
本発明の任意的な特徴によれば、利得ユニットは、時間周波数タイルの時間周波数タイル利得についての利得値を、その時間周波数タイルの前記差分指標の関数として決定するよう構成されている。
これは、効率的なノイズ抑制および/または容易にされた実装を提供しうる。特に、多くの実施形態において、信号特性に効率的に適応し、それでいて高い計算負荷や極端に複雑な処理を必要とすることなく実装されうる、効率的なノイズ抑制につながりうる。
前記関数は、特に、前記差分指標の単調関数であってもよく、前記利得値は特に、前記差分値に比例していてもよい。
本発明の任意的な特徴によれば、前記第一の単調関数および前記第二の単調関数の少なくとも一方は、前記時間周波数タイルが発話タイルまたはノイズ・タイルのどちらとして指定されているかに依存する。
これは、効率的なノイズ抑制および/または容易にされた実装を提供しうる。特に、多くの実施形態において、信号特性に効率的に適応し、それでいて高い計算負荷や極端に複雑な処理を必要とすることなく実装されうる、効率的なノイズ抑制につながりうる。
前記第一の単調関数および前記第二の単調関数の前記少なくとも一つは、時間周波数タイルについてのそれぞれ前記第一または第二の周波数領域信号の同じ絶対値の時間周波数タイル値について、時間周波数タイルが発話タイルとして指定されているときは、ノイズ・タイルとして指定されているときとは異なる出力値を提供する。
本発明の任意的な特徴によれば、前記第二の単調関数は、時間周波数タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されているかに依存するスケール値を用いた、時間周波数タイルについての前記第二の周波数領域信号の絶対値時間周波数タイル値のスケーリングを含む。
これは、効率的なノイズ抑制および/または容易にされた実装を提供しうる。特に、多くの実施形態において、信号特性に効率的に適応し、それでいて高い計算負荷や極端に複雑な処理を必要とすることなく実装されうる、効率的なノイズ抑制につながりうる。
本発明の任意的な特徴によれば、利得ユニットは、前記第二のマイクロフォン信号の振幅と前記第一のマイクロフォン信号のノイズ成分の振幅との間の相関を示すノイズ・コヒーレンス推定値を生成するよう構成されており、前記第一の単調関数および前記第二の単調関数の少なくとも一方は前記ノイズ・コヒーレンス推定値に依存する。
これは、効率的なノイズ抑制および/または容易にされた実装を提供しうる。ノイズ・コヒーレンス推定値は特に、発話がないときの、すなわち発話源が非アクティブであるときの、前記第一のマイクロフォン信号の振幅と前記第二のマイクロフォン信号の振幅との間の相関の推定値であってもよい。ノイズ・コヒーレンス推定値は、いくつかの実施形態では、前記第一および第二のマイクロフォン信号および/または前記第一および第二の周波数領域信号に基づいて決定されてもよい。いくつかの実施形態では、ノイズ相関推定値は、別個の較正または測定プロセスに基づいて生成されてもよい。
本発明の任意的な特徴によれば、前記第一の単調関数および前記第二の単調関数は、前記第一のマイクロフォン信号および前記第二のマイクロフォン信号の間の振幅関係がノイズ・コヒーレンス推定値に対応し、かつ、時間周波数タイルがノイズ・タイルとして指定されている場合に、前記差分指標の期待値が負であるようなものである。
本発明の任意的な特徴によれば、利得ユニットは、前記第一の単調関数および前記第二の単調関数の少なくとも一方を、ノイズ・コヒーレンス推定値に対応する前記第一のマイクロフォン信号と前記第二のマイクロフォン信号の間の振幅関係についての前記差分指標の期待値が、ノイズ・タイルとして指定される時間周波数タイルについては、発話タイルとして指定される時間周波数タイルについてとは異なるよう変えるよう構成されている。
本発明の任意的な特徴によれば、発話タイルおよびノイズ・タイルとして指定されている時間周波数タイルについての利得差は:前記第一のマイクロフォン信号の信号レベル;前記第二のマイクロフォン信号の信号レベル;および前記第一のマイクロフォン信号についての信号対ノイズ推定値からなる群からの少なくとも一つの値に依存する。
これは、効率的なノイズ抑制および/または容易にされた実装を提供しうる。特に、多くの実施形態において、信号特性に効率的に適応し、それでいて高い計算負荷や極端に複雑な処理を必要とすることなく実装されうる、効率的なノイズ抑制につながりうる。
本発明の任意的な特徴によれば、時間周波数タイルについての前記差分指標は、その時間周波数タイルがノイズ・タイルまたは発話タイルのどちらとして指定されているかに依存する。
これは、効率的なノイズ抑制および/または容易にされた実装を提供しうる。
本発明の任意的な特徴によれば、前記指定器は、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定することを、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値に対するノイズ・タイルについての前記差分指標に応答して生成される差の値に応答して、行なうよう構成されている。
これは、特に有利な指定を許容しうる。特に、同時に低減された複雑さを許容しつつ、信頼できる指定が達成されうる。特に、タイルの指定と利得決定の両方について、対応する、または典型的には同じ機能が使用されることを許容しうる。
多くの実施形態において、前記指定器は、前記差の値が閾値未満である場合に、時間周波数タイルをノイズ・タイルとして指定するよう構成される。
本発明の任意的な特徴によれば、前記指定器は、複数の時間周波数タイルにわたって差の値をフィルタリングするよう構成される。フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。
これは、多くのシナリオおよび用途において、時間周波数タイルの改善された指定を提供し、結果として改善されたノイズ抑制を提供する。
本発明の任意的な特徴によれば、利得ユニットは、複数の時間周波数タイルにわたって利得値をフィルタリングするよう構成される。フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。
これは実質的に改善された性能を提供でき、典型的には、実質的に改善された信号対雑音比を許容しうる。本アプローチは、時間周波数タイルについて利得値にフィルタリングを適用することによってノイズ抑制を改善しうる。ここで、フィルタリングは周波数および時間両方のフィルタリングである。
本発明の任意的な特徴によれば、利得ユニットは、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値の少なくとも一方をフィルタリングするよう構成される。フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。
これは実質的に改善された性能を提供でき、典型的には、実質的に改善された信号対雑音比を許容しうる。本アプローチは、時間周波数タイルについて信号値にフィルタリングを適用することによってノイズ抑制を改善しうる。ここで、フィルタリングは周波数および時間両方のフィルタリングである。
多くの実施形態において、利得ユニットは、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値両方をフィルタリングするよう構成される。ここで、フィルタリングは時間および周波数両方において異なる時間周波数タイルを含む。
本発明の任意的な特徴によれば、本ノイズ抑制器はさらに、前記第一のマイクロフォン信号および前記第二のマイクロフォン信号をマイクロフォン・アレイからの信号から生成するよう構成されたオーディオ・ビームフォーマーを有する。
これは、性能を改善でき、抑制された信号の改善された信号対雑音比を許容しうる。特に、本アプローチは、所望される源からの低減された寄与をもつ参照信号がアルゴリズムによって処理されて、改善された指定および/またはノイズ抑制を提供することを許容しうる。
本発明の任意的な特徴によれば、本ノイズ抑制器はさらに、前記第二のマイクロフォン信号と相関した前記第一のマイクロフォン信号の信号成分を、前記第一のマイクロフォン信号から打ち消すための適応打ち消し器を有する。
これは、性能を改善でき、抑制された信号の改善された信号対雑音比を許容しうる。特に、本アプローチは、所望される源からの低減された寄与をもつ参照信号がアルゴリズムによって処理されて、改善された指定および/またはノイズ抑制を提供することを許容しうる。
本発明の任意的な特徴によれば、前記差分指標は、前記第一の周波数領域信号の絶対値時間周波数タイル値の単調関数として与えられる第一の値と、前記第二の周波数領域信号の絶対値時間周波数タイル値の単調関数として与えられる第二の値との間の差として決定される。
本発明のある側面によれば、第一のマイクロフォン信号におけるノイズを抑制する方法であって:第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する段階であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、段階と;第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する段階であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、段階と;前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値についての差分指標に応答して時間周波数タイル利得を決定する段階と;前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成する段階とを含み、当該方法はさらに:前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する段階を含み、前記時間周波数タイル利得は、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、決定される、方法が提供される。
いくつかの実施形態では、本方法はさらに、前記出力周波数領域信号の周波数から時間への変換から、出力信号を生成する段階を含んでいてもよい。
本発明のこれらおよび他の側面、特徴および利点は、以下に記載される実施形態から明白となり、これを参照することで明快にされるであろう。
本発明の実施形態は、単に例として、図面を参照して記述される。
従来技術に基づくノイズ抑制器の例を示す図である。 従来技術のノイズ抑制器についてのノイズ抑制性能の例を示す図である。 従来技術のノイズ抑制器についてのノイズ抑制性能の例を示す図である。 本発明のいくつかの実施形態に基づくノイズ抑制器の例を示す図である。 本発明のいくつかの実施形態に基づくノイズ抑制器構成の例を示す図である。 時間領域から周波数領域への変換器の例を示す図である。 周波数領域から時間領域への変換器の例を示す図である。 本発明のいくつかの実施形態に基づくノイズ抑制器の要素の例を示す図である。 本発明のいくつかの実施形態に基づくノイズ抑制器の要素の例を示す図である。 本発明のいくつかの実施形態に基づくノイズ抑制器構成の例を示す図である。 本発明のいくつかの実施形態に基づくノイズ抑制器構成の例を示す図である。
本願の発明者は、図1の従来技術のアプローチの性能は、非定常的な/拡散性のノイズについては最適でない性能を与えることを認識するとともに、非定常的な/拡散性のノイズについて図1のシステムによって経験される性能に対する制約を緩和または解消することができる具体的な概念を導入することによって改善が可能であることを認識するに至った。
具体的には、発明者は、拡散性のノイズについての図1のアプローチは、限られた信号対雑音比改善(SNRI)レンジをもつことを認識するに至った。具体的には、発明者は、先に記述したような従来の関数における過剰減算因子γnを増すとき、他の不都合な効果が導入されうること、特に発話の間の発話減衰の増大が帰結しうることを認識するに至った。
これは、理想的な球面等方的な拡散ノイズ場の特性を見ることによって理解できる。二つのマイクロフォンがそのような場において距離d離れて配置されて、それぞれマイクロフォン信号X1(tkl)およびX2(tkl)を提供するとき、波数k=ω/c(cは音速)ならびにガウス分布しているX1(tkl)およびX2(tkl)の実部および虚部の分散σ2を用いて、次式が成り立つ。
Figure 0006134078
X1(tkl)とX2(tkl)の間のコヒーレンス関数は次式によって与えられる。
Figure 0006134078
このコヒーレンス関数から、より高い周波数および大きな距離についてはX1(tkl)およびX2(tkl)は無相関であることになる。たとえば距離が3メートルより大きければ、200Hzより上の周波数について、X1(tkl)およびX2(tkl)は実質的に無相関である。
これらの特性を使うと、C(tkl)=1となり、利得関数は次に帰着する。
Figure 0006134078
発話がない、すなわちZ(tkl)=Zn(tkl)であるとし、分子を見ると、|Z(tkl)|および|X(tkl)|はレイリー分布になる。実部および虚部がガウス分布であり独立だからである。γn=1かつθ=0とする。変数
d=|Z(tkl)|−|X(tkl)|
を考える。
二つの確率変数の差の平均は、平均の差に等しい:
E{d}=0。
二つの確率信号の差の分散は、個々の分散の和に等しい:
var(d)=(4−π)σ2
dを0に制限する(すなわち、負の値は0にされる)と、dの分布は0のまわりに対称的なので、dのパワーはdの分散の値の半分である:
E{d2}=(4−π)σ2/2。
ここで残差信号のパワーを入力信号のパワー(2σ2)と比べると、後処理器に起因する抑制について次が得られる:
A=−10log10(1−π/4)=6.68dB。
このように、減衰は背景ノイズのみが存在する場合については、7dB未満という比較的低い値に制限される。
γnを増すことによってノイズ抑制を増すことを望み、制限された(bounded)変数
db=MAX((|Z(tkl)|−γn|X(tkl)|),0)
を考えるとすると、後処理器の減衰について、
A=−10log10{(γn/2)(−π+(2/γn)+2arctan(γn))}
を導出できる。
減衰は、過剰減算因子γnの関数であり、こうしていくつかの例示的な値は次のようになりうる。
Figure 0006134078
見て取れるように、たとえば10dB以上のノイズ抑制に達するためには、大きな過剰減衰因子が必要とされる。
次に、残りの発話振幅に対するノイズ減算の影響を考えると、
|Z(tkl)|≦|Zs(tkl)|+|Zn(tkl)|
である。
よって、|Z(tkl)|からのノイズ成分の減算は、1くらい小さなγnについてでさえ、容易に過剰減算につながる。
|Z(tkl)|および(|Z(tkl)|−|Zs(tkl)|)のパワーは、発話振幅v=|Zs(tkl)|およびノイズ・パワー(2σ2)の関数として、計算されうる(またはシミュレーションもしくは数値解析によって決定されうる)。図2は2σ2=1の場合の結果を示している。
図2から見て取れるように、大きなvについては、|Z(tkl)|および|Zs(tkl)|のパワーは互いに接近する。結果として、ノイズ推定値|X(tkl)|の減算は過剰減算につながる。
発話減衰を
Figure 0006134078
と定義すると、v>2について、発話減衰は約2dBである。より小さなv、特にv<1については、ds=|Z(tkl)|−|X(tkl)|の大きな分散のため、すべてのノイズが抑制されることにはならない。それらの値については、dsは負になることがあり、ノイズのみの場合のように、それらの値はθ≧0となるようクリッピングされる。より大きなvについては、dsは負にならず、0に制限することは性能に影響しない。
過剰減算因子γnを増大させるなら、発話減衰は図3に示されるように増大する。図3は図1に対応するが、それぞれγn=1およびγn=1.8についてE{(|Z(tkl)|−γn|X(tkl)|)2}が与えられて、所望される出力と比較されている。
v>2については、4から5dBの範囲の発話歪みの増大が見られる。v<2については、出力はγn=1.8について増大する。これは、先に論じたように0に制限することによって防止できる。
γn=1からγn=1.8に移るときのノイズ抑制の4dBの利得は、2ないし3dB大きい発話減衰によって打ち消され、よってたった1ないし2dB程度のSNR改善につながる。これは拡散様ノイズ場について典型的である。全SNR改善は約12dBに限られる。
こうして、本アプローチは、改善されたSNRに、実際に効果的なノイズ抑制につながりうるが、この抑制はいまだ実際上は、10dBよりあまり大きくない比較的控えめなSNR改善に制約される。
図4は、本発明のいくつかの実施形態に基づくノイズ抑制器の例を示している。図4のノイズ抑制器は、図1のシステムで典型的に可能であるよりも、拡散性のノイズについて実質的に高いSNR改善を提供しうる。実際、シミュレーションおよび実際的な試験により、20〜30dBを超えるSNR改善が典型的に可能であることが示された。
ノイズ抑制器は、マイクロフォン(図示せず)から第一のマイクロフォン信号を受領する第一の変換器401を有する。第一のマイクロフォン信号は、従来技術において既知なように捕捉、フィルタリング、増幅などされうる。さらに、第一のマイクロフォン信号は、アナログ信号をサンプリングすることによって生成されたデジタル時間領域信号であってもよい。
第一の変換器401は、第一のマイクロフォン信号に周波数変換を適用することによって第一の周波数領域信号を生成するよう構成される。特に、第一のマイクロフォン信号は時間セグメント/区間に分割される。各時間セグメント/区間は、一群のサンプルを含み、それらはたとえばFFTによって一群の周波数領域サンプルに変換される。こうして、第一の周波数領域信号は周波数領域サンプルによって表わされ、各周波数領域サンプルは特定の時間区間および特定の周波数区間に対応する。そのような各周波数区間および時間区間は当分野において典型的には時間周波数タイルとして知られている。このように、第一の周波数領域信号は、複数の時間周波数タイルのそれぞれについての値によって、すなわち時間周波数タイル値によって、表わされる。
ノイズ抑制器はさらに、マイクロフォン(図示せず)から第二のマイクロフォン信号を受領する第二の変換器403を有する。第二のマイクロフォン信号は、従来技術において既知なように捕捉、フィルタリング、増幅などされうる。さらに、第二のマイクロフォン信号は、アナログ信号をサンプリングすることによって生成されたデジタル時間領域信号であってもよい。
第二の変換器403は、第二のマイクロフォン信号に周波数変換を適用することによって第二の周波数領域信号を生成するよう構成される。特に、第二のマイクロフォン信号は時間セグメント/区間に分割される。各時間セグメント/区間は、一群のサンプルを含み、それらはたとえばFFTによって一群の周波数領域サンプルに変換される。こうして、第二の周波数領域信号は、複数の時間周波数タイルのそれぞれについての値によって、すなわち時間周波数タイル値によって、表わされる。
第一および第二のマイクロフォン信号は以下ではそれぞれz(n)およびx(n)として参照され、第一および第二の周波数領域信号はベクトル
Figure 0006134078
によって参照される。(各ベクトルは、所与の処理/変換時間セグメント/フレームについてのすべてのM個の周波数タイル値を含む。)
使用中、z(n)はノイズおよび発話を含むものと想定され、一方、x(n)はノイズのみを含むと想定される。さらに、z(n)およびx(n)のノイズ成分は無相関であると想定される。(これらの成分は時間的に無相関であると想定される。しかしながら、典型的には、平均振幅の間に関係があると想定され、この関係はコヒーレンス項によって表わされる。)
そのような想定は、第一のマイクロフォン(z(n)を捕捉するもの)が話者のすぐ近くに位置され、一方、第二のマイクロフォンが話者からいくらかの距離に位置され、ノイズがたとえば室内に分散しているシナリオでは有効である傾向がある。そのようなシナリオは、図5に例示されており、そこではノイズ抑制器はSUPPユニットとして描かれている。
周波数領域への変換に続いて、時間周波数値の実成分および虚成分がガウス分布していると想定される。この想定は、たとえばノイズが拡散性の音場から発するシナリオについて、センサー・ノイズについておよび多くの実際上のシナリオにおいて経験されるいくつかの他のノイズ源については、典型的には正確である。
図6は、第一および第二の変換ユニット401、403の可能な実装の機能要素の具体例を示している。この例では、シリアルからパラレルへの変換器が2B個のサンプルの重なり合うブロック(フレーム)を生成し、それらのブロックが次いでハニング窓掛けされ、高速フーリエ変換(FFT)によって周波数領域に変換される。
第一の変換器401は、第一の絶対値ユニット405に結合される。第一の絶対値ユニット405は時間周波数タイル値の絶対値を決定し、それにより第一の周波数領域信号について絶対値時間周波数タイル値を生成する。
同様に、第二の変換器403は、第二の絶対値ユニット407に結合される。第二の絶対値ユニット407は時間周波数タイル値の絶対値を決定し、それにより第二の周波数領域信号について絶対値時間周波数タイル値を生成する。
第一および第二の絶対値ユニット405、407は利得ユニット409にフィードされる。利得ユニット409は、第一の周波数領域信号の絶対値時間周波数タイル値および第二の周波数領域信号の絶対値時間周波数タイル値に基づいて時間周波数タイルについての利得を決定するよう構成されている。利得ユニット409はこのようにして、以下でベクトル
Figure 0006134078
によって参照される時間周波数タイル利得を計算する。
利得ユニット409は具体的には、第一の周波数領域信号の時間周波数タイル値と、第二の周波数領域信号の時間周波数タイル値から生成された第一の周波数領域信号の予測された時間周波数タイル値との間の差を示す差分指標を決定する。このように、差分指標は予測差分指標であってもよい。いくつかの実施形態では、予測は単に、第二の周波数領域信号の時間周波数タイル値が、第一の周波数領域信号の時間周波数タイル値の直接的な予測であるというものであってもよい。
次いで、利得が、差分指標の関数として決定される。具体的には、各時間周波数タイルについて差分指標が決定されてもよく、利得は、差分指標が高いほど(すなわち差の指示が強いほど)利得が高いように設定されてもよい。こうして、利得は、距離指標の単調増加関数として決定されてもよい。
結果として、時間周波数タイル利得が決定されるが、利得は、差分指標が比較的低い時間周波数タイルについて、すなわち第一の周波数領域信号の値が第二の周波数領域信号の値から比較的正確に予測できる時間周波数タイルについては、差分指標が比較的低い時間周波数タイルについて、すなわち第一の周波数領域信号の値が第二の周波数領域信号の値から効果的に予測できない時間周波数タイルについてより、低い。よって、第一の周波数領域信号が有意な発話成分を含んでいる高い確率がある時間周波数タイルについての利得は、第一の周波数領域信号が有意な発話成分を含んでいる低い確率がある時間周波数タイルについての利得よりも高く決定される。生成された時間周波数タイル利得は今の例ではスカラー値である。
利得ユニット409は、スケーラー411に結合されており、スケーラー411は前記利得を入力され、第一の周波数領域信号の時間周波数タイル値を、これらの時間周波数タイル利得だけスケーリングすることに進む。特に、スケーラー411では、信号ベクトル
Figure 0006134078
は利得ベクトル
Figure 0006134078
を要素ごとに乗算されて、結果的な信号ベクトル
Figure 0006134078
を与える。
スケーラー411はこうして、出力周波数領域信号とも称される第三の周波数領域信号を生成する。これは第一の周波数領域信号に対応するが、期待される発話成分に対応するスペクトル整形をもつ。利得値はスカラー値なので、第一の周波数領域信号の個々の時間周波数タイル値は振幅においてスケーリングされうるが、第三の周波数領域信号の時間周波数タイル値は第一の周波数領域信号の対応する値と同じ位相をもつ。
利得ユニット409は、第三の周波数領域信号を入力される任意的な第三の変換器413に結合される。第三の変換器413は、第三の周波数領域信号の周波数から時間への変換から出力信号を生成するよう構成される。具体的には、第三の変換器413は、第一の変換器401による第一の周波数領域信号の変換の逆変換を実行してもよい。いくつかの実施形態では、第三の(出力)周波数領域信号は、たとえば周波数領域の発話認識や発話向上によって、直接使用されてもよい。そのような実施形態では、第三の変換器413の必要はない。
具体的には、図7に示されるように、第三の周波数領域信号
Figure 0006134078
は時間領域に変換し戻されてもよく、次いで、第一の変換器401による第一のマイクロフォン信号の重複および窓掛けのため、現在の(最新の)フレーム(変換セグメント)の最初のB個のサンプルに直前のフレームの最後のB個のサンプルを加えることによって、時間領域信号が再構成されてもよい。最後に、結果として得られるブロック
Figure 0006134078
が、パラレルからシリアルへの変換器によって、連続的な出力信号ストリームq(n)に変換されることができる。
しかしながら、図4のノイズ抑制器は、時間周波数タイル利得の計算を、差分指標のみに基づいて行なうのではない。むしろ、ノイズ抑制器は、時間周波数タイルを発話(時間周波数)タイルであるまたはノイズ(時間周波数タイル)であるとして指定し、前記利得を、前記指定の指定に依存して決定するよう構成されている。具体的には、所与の時間周波数タイルについての利得を差分指標の関数として決定するための関数が、時間周波数タイルが発話フレームに属すると指定されている場合には、ノイズ・フレームに属すると指定されている場合とは異なる。
図4のノイズ抑制器は特に、第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定するよう構成されている指定器415を有する。
信号成分が発話に対応するか否かを判定するために多くの異なる手法および技法が存在することは理解されるであろう。さらに、そのようないかなる手法が適切であるとして使われてもよいことは理解されるであろう。たとえば、ある信号部分に属する時間周波数タイルは、その信号部分が発話成分を含むと推定される場合に発話時間周波数タイルとして指定され、そうでない場合にノイズとして指定されてもよい。
このように、多くの実施形態において、時間周波数タイルの指定は発話および非発話タイルへの指定である。実際、ノイズ・タイルは、非発話タイルと等価と考えられてもよい(実際、所望される信号成分は発話成分なので、すべての非発話はノイズであると考えることができる)。
多くの実施形態において、時間周波数タイルの発話またはノイズ(時間周波数)タイルとしての指定は、第一および第二のマイクロフォン信号の比較および/または第一および第二の周波数領域信号の比較に基づいていてもよい。特に、信号の振幅間の相関が緊密であるほど、第一のマイクロフォン信号が有意な発話成分を含む可能性が少なくなる。
時間周波数タイルの発話またはノイズ・タイル(ここで、各カテゴリーはいくつかの実施形態では、サブカテゴリーへのさらなる細分を含んでいてもよい)としての指定は、いくつかの実施形態では、各時間周波数タイルについて個々に実行されてもよいが、多くの実施形態では、時間周波数タイルのグループにおいて実行されてもよい。
特に、図4の例では、指定器415は、各時間セグメント/変換ブロックについて一つの指定を生成するよう構成されている。こうして、各時間セグメントについて、第一のマイクロフォン信号が有意な発話成分を含むか否かが推定されてもよい。もし含んでいれば、その時間セグメントのすべての時間周波数タイルが発話時間周波数タイルとして指定され、含んでいなければ、ノイズ時間周波数タイルとして指定される。
図4の具体例では、指定器415は第一および第二の絶対値ユニット405、407に結合され、第一および第二の周波数領域信号の絶対値に基づいて時間周波数タイルを指定するよう構成される。しかしながら、多くの実施形態では、指定は代替的または追加的にたとえば第一および第二のマイクロフォン信号および/または第一および第二の周波数領域信号に基づいていてもよいことは理解されるであろう。
指定器415は、利得ユニット409に結合される。利得ユニット409は、時間周波数タイルの指定を入力される。すなわち、利得ユニット409は、どの時間周波数タイルが発話タイルとして指定されており、どの時間周波数タイルがノイズ・タイルとして指定されているかについての情報を受領する。
利得ユニット409は、第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、時間周波数タイル利得を計算するよう構成される。
こうして、利得計算は前記指定に依存し、結果として得られる利得は、発話タイルとして指定された時間周波数タイルについては、ノイズ・タイルとして指定された時間周波数タイルについてとは異なる。この差または依存性は、たとえば、利得ユニット409が差分指標から利得値を計算するための二つの代替的なアルゴリズムもしくは関数をもち、前記指定に基づいて時間周波数タイルについてこれら二つの関数の間で選択するよう構成されていることによって、利得ユニット409によって実装されてもよい。代替的または追加的に、利得ユニット409は、単一の関数について異なるパラメータ値を使い、該パラメータ値が前記指定に依存するのでもよい。
利得ユニット409は、対応する時間周波数タイルがノイズ・タイルとして指定されるときは、発話タイルとして指定されるときよりも、時間周波数タイル利得について低い利得値を決定するよう構成される。こうして、利得を決定するために使われる他のすべてのパラメータが不変であれば、利得ユニット409は、発話タイルについてよりもノイズ・タイルについて、より低い利得値を計算する。
図4の具体例では、指定はセグメント/フレーム・ベースである。すなわち、同じ指定が時間セグメント/フレームのすべての時間周波数タイルに適用される。よって、十分な発話を含むと推定される時間セグメント/フレームについての利得は、十分な発話を含まないと推定される時間セグメントについてよりも高く設定される(他のすべてのパラメータが等しいとして)。
多くの実施形態において、ある時間周波数タイルについての差の値は、時間周波数タイルがノイズ・タイルまたは発話タイルのどちらとして指定されるかに依存してもよい。こうして、いくつかの実施形態では、同じ関数が差分指標から利得を計算するために使用されてもよいが、差分指標の計算自身が時間周波数タイルの指定に依存してもよい。
多くの実施形態において、差分指標は、第一および第二の周波数領域信号それぞれの絶対値時間周波数タイル値の関数として決定されてもよい。
実際、多くの実施形態において、差分指標は、第一および第二の値の間の差として決定されてもよい。ここで、第一の値は第一の周波数領域信号の少なくとも一つの時間周波数タイル値の関数として生成され、第二の値は第二の周波数領域信号の少なくとも一つの時間周波数タイル値の関数として生成される。しかしながら、第一の値は、第二の周波数領域信号の前記少なくとも一つの時間周波数タイル値に依存しなくてもよく、第二の値は、第一の周波数領域信号の前記少なくとも一つの時間周波数タイル値に依存しなくてもよい。
第一の時間周波数タイルについての第一の値は特に、第一の時間周波数タイルにおける第一の周波数領域信号の絶対値時間周波数タイル値の単調増加関数として生成されてもよい。同様に、第一の時間周波数タイルについての第二の値は特に、第二の時間周波数タイルにおける第二の周波数領域信号の絶対値時間周波数タイル値の単調増加関数として生成されてもよい。
第一および第二の値を計算するための関数の少なくとも一つは、時間周波数タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されているかに依存してもよい。たとえば、第一の値は、時間周波数タイルが発話タイルである場合には、ノイズ・タイルである場合よりも高くてもよい。代替的または追加的に、第二の値は、時間周波数タイルが発話タイルである場合には、ノイズ・タイルである場合よりも低くてもよい。
利得関数を計算するための関数の具体例は、特に次の関数であってもよい。
Figure 0006134078
ここで、αは1より小さい因子であり、C(tkl)は、第一の周波数領域信号の振幅と第二の周波数領域信号の振幅との間の相関を表わす推定されたコヒーレンス項であり、過剰減算因子γnは設計パラメータである。いくつかの用途については、C(tkl)は1として近似できる。過剰減算因子γnは典型的には1ないし2の範囲内である。
典型的には、利得関数は正の値に制限され、典型的には最小利得値が設定される。こうして、上記の関数は
Figure 0006134078
として決定されてもよい。
これにより、ノイズ抑制の最大減衰は、0以上でなければならないθによって設定されることができる。たとえば最小利得値がθ=0.1に設定される場合、最大減衰は20dBである。制限されない利得関数はより低いであろう(実際上は30から40dBの間)から、この結果、より自然に聞こえる背景ノイズが得られる。これは、通信用途について特に高く評価される。
今の例では、利得はこうして、差分指標である分子の関数として決定される。さらに、差分指標は、二つの項(値)の間の差として決定される。第一の項/値は第一の周波数領域信号の時間周波数タイル値の絶対値の関数である。第二の項/値は第二の周波数領域信号の時間周波数タイル値の絶対値の関数である。さらに、第二の値を計算するための関数はさらに、時間周波数タイルがノイズまたは発話時間周波数タイルのどちらとして指定されるかに依存する(すなわち、時間周波数タイルがノイズまたは発話フレームのどちらの一部であるかに依存する)。
今の例では、利得ユニット409は、第二のマイクロフォン信号の振幅と第一のマイクロフォン信号の振幅との間の相関を示すノイズ・コヒーレンス推定値C(tkl)を決定するよう構成される。第二の値(または場合によっては第一の値)を決定するための関数は、この場合、ノイズ・コヒーレンス推定値に依存する。これにより、適切な利得値のより適切な決定ができる。第二の値が第一の周波数領域信号において期待されるまたは推定されるノイズ成分をより正確に反映するからである。
ノイズ・コヒーレンス推定値C(tkl)を決定するためのいかなる好適な手法が使われてもよいことは理解されるであろう。たとえば、実行されうるある計算では、話者が話さないよう指示されて、第一および第二の周波数領域信号が比較され、各時間周波数タイルについてのノイズ相関推定値C(tkl)は単に、第一の周波数領域信号および第二の周波数領域信号の時間周波数タイル値の比の平均として決定されてもよい。
多くの実施形態では、時間周波数タイルが発話タイルとして指定されるかノイズ・タイルとして指定されるかへの利得の依存性は、一定値ではなく、それ自身、一つまたは複数のパラメータに依存する。たとえば、因子αはいくつかの実施形態では一定ではなくてもよく、むしろ受信信号の特性(直接的な特性であれ派生的な特性であれ)の関数であってもよい。
特に、利得差は、第一のマイクロフォン信号の信号レベル;第二のマイクロフォン信号の信号レベル;および第一のマイクロフォン信号についての信号対ノイズ推定値のうちの少なくとも一つに依存してもよい。これらの値は、複数の時間周波数タイルにわたる、特に複数の周波数値および複数のセグメントにわたる平均値であってもよい。これらは特に、全体としての信号についての(比較的長期の)指標であってもよい。
いくつかの実施形態では、因子αは
α=f(−v2/2σ2)
として与えられてもよい。ここで、vは第一のマイクロフォン信号の振幅であり、σ2は第二のマイクロフォン信号のエネルギー/分散である。こうして、この例では、αは第一のマイクロフォン信号についての信号対雑音比に依存する。これは、改善された知覚されるノイズ抑制を提供しうる。特に、低い信号対雑音比について、強いノイズ抑制が実行され、それにより結果として得られる信号の例えば了解性を改善する。しかしながら、より高い信号対雑音比については、効果は低減され、それにより歪みを低減する。
このように、関数f(−v2/2σ2)は、発話信号についての利得の計算を適応させるために決定され、使用されることができる。関数は(−v2/2σ2)に依存するが、これはSNR、すなわちノイズ・エネルギー2σ2に対する発話信号のエネルギーv2に対応する。
第一および第二のマイクロフォン信号の絶対値の間の差と、発話またはノイズとしてのタイルの指定とに基づいて利得を決定するための種々の関数および手法が種々の実施形態において使用されうることは理解されるであろう。
実際、先述した個別的な手法は多くの実施形態において特に有利な性能を提供しうる一方、他の実施形態では、用途の特定の特性に依存して他の多くの関数および手法が使用されてもよい。
差分指標は:
d(tkl)=f1(|Z(tkl)|)−f2(|X(tkl)|)
として計算されてもよい。ここで、f1(x)およびf2(x)は、個々の実施形態の個別的な選好および要求に適合する任意の単調関数であるよう選択されることができる。典型的には、関数f1(x)およびf2(x)は単調増加関数である。
こうして、差分指標は、第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数f1(x)と第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数f1(x)との間の差を示す。いくつかの実施形態では、第一および第二の単調関数は同一の関数であってもよい。しかしながら、たいていの実施形態では、二つの関数は異なる。
さらに、関数f1(x)およびf2(x)の一方または両方は、たとえばマイクロフォン信号の全体的な平均されたパワー・レベル、周波数など、さまざまな他のパラメータおよび指標に依存してもよい。
多くの実施形態において、関数f1(x)およびf2(x)の一方または両方は、他の周波数タイルについての信号値に依存してもよい。これはたとえばZ(tkl)、|Z(tkl)|、f1(|Z(tkl)|)、X(tkl)、|X(tkl)|またはf2(|X(tkl)|)の一つまたは複数の平均(すなわち、kおよび/またはlのさまざまなインデックスについての値の平均)による。多くの実施形態では、時間および周波数次元両方に延びる近傍にわたる平均が実行されてもよい。先に与えた特定の差分指標の式に基づく具体例は後述するが、対応する手法は、差分指標を決定する他のアルゴリズムまたは関数に適用されてもよいことは理解されるであろう。
差分指標を決定するための可能な関数の例は、たとえば:
d(tkl)=|Z(tkl)|α−γ・|X(tkl)|β
を含む。ここで、αおよびβは設計パラメータであり、典型的には次のようにα=βである。
Figure 0006134078
ここで、σ(ωl)はノイズ抑制の所望されるスペクトル特性を与えるために使われる好適な重み付け関数である。(たとえば、これは、たとえば比較的多量のノイズ・エネルギーを含むが比較的少量の発話エネルギーを含む可能性が高いより高い周波数についてはノイズ抑制を増大させ、比較的多量の発話エネルギーを含むが可能性としては比較的少量のノイズ・エネルギーを含む可能性が高い中域周波数についてのノイズ抑制を低減するために使われてもよい。)特に、σ(ωl)は、発話のスペクトル整形を低レベルに保ちつつ、ノイズ抑制の所望されるスペクトル特性を提供するために使われてもよい。
これらの関数が単に例示的であり、二つのマイクロフォン信号の絶対値の間の差を示す距離指標を計算するための多くの他の式およびアルゴリズムが構想できることは理解されるであろう。
上記の式において、因子γは、負の値に向けて差分指標にバイアスをかけるために導入される因子を表わす。これらの具体例はこのバイアスを第二のマイクロフォン信号の時間周波数タイルに適用される単純なスケール因子として導入しているが、他の多くの手法が可能であることは理解されるであろう。
実際、少なくともノイズ・タイルについて負の値に向けたバイアスを提供するために第一および第二の関数f1(x)およびf2(x)を構成するいかなる好適な方法が使用されてもよい。バイアスは特に、先の諸例のように、発話がない場合に負である前記差分指標の期待値を生成するバイアスである。実際、第一および第二のマイクロフォン信号の両方がランダム・ノイズのみを含む場合(たとえば、サンプル値は平均値のまわりに対称的かつランダムに分布していてもよい)、差分指標の期待値は0ではなく負になる。先の具体例では、これは、発話がないときに負の値の結果につながる過剰減算因子γによって達成された。
発話が存在するときに第一および第二のマイクロフォン信号の信号レベルの差を補償するために、利得ユニットは、先述したように、第二のマイクロフォン信号の振幅と第一のマイクロフォン信号のノイズ成分の振幅との間の相関を示すノイズ・コヒーレンス推定値を決定してもよい。ノイズ・コヒーレンス推定値は、たとえば、第一のマイクロフォン信号と第二のマイクロフォン信号の振幅の間の比の推定値として生成されてもよい。ノイズ・コヒーレンス推定値は、個々の周波数帯域について決定されてもよく、特に、各時間周波数タイルについて決定されてもよい。二つのマイクロフォン信号の間の振幅/絶対値関係を推定するためのさまざまな技法が当業者に知られており、さらに詳細に述べることはしない。たとえば、異なる周波数帯域についての平均振幅推定値が、(たとえば専用の手動測定によりまたは発話ポーズの自動検出により)発話がない時間区間の間に、決定されてもよい。
本システムでは、第一および第二の単調関数f1(x)およびf2(x)の少なくとも一方は、振幅差を補償してもよい。先の例では、第二の単調関数が、第二のマイクロフォン信号の絶対値を値C(tkl)によってスケーリングすることによって、振幅差を補償していた。他の実施形態では、補償は代替的または追加的に、第一の単調関数によって、たとえば第一のマイクロフォン信号の絶対値を1/C(tkl)によってスケーリングすることによって実行されてもよい。
さらに、たいていの実施形態では、第一の単調関数および第二の単調関数は、第一のマイクロフォン信号と第二のマイクロフォン信号との間の振幅関係が推定された相関に対応する場合および時間周波数タイルがノイズ・タイルとして指定される場合に、差分指標についての負の期待値が生成されるようなものである。
具体的には、ノイズ・コヒーレンス推定値は、第一のマイクロフォン信号と第二のマイクロフォン信号との間の(特に特定の周波数帯域についての)推定されるまたは期待される絶対値差が、C(tkl)によって与えられる比に対応することを示してもよい。そのような場合、第一の単調関数および第二の単調関数は、対応する時間周波数タイル値がC(tkl)に等しい絶対値をもつ場合(そして時間周波数タイルがノイズ・タイルと指定される場合)、生成される差分指標が負になるように選択される。
たとえば、ノイズ・コヒーレンス推定値は
Figure 0006134078
として決定されてもよい。(実際上、値は、たとえば異なる時間フレームにおける好適な数の値を平均することによって生成されてもよい。)
そのような場合、第一および第二の単調関数f1(x)およびf2(x)は
Figure 0006134078
であれば、差分指標d(tkl)が負の値をもつという属性をもつよう選択される。すなわち、第一および第二の単調関数f1(x)およびf2(x)は、ノイズ・タイルについて、
Figure 0006134078
となるよう選択される。
先の具体例では、これは差分指標
d(tkl)=|Z(tkl)|−γnC(tkl)|X(tkl)|
が1より大きい値をもつ過剰減算因子γnをもつことによって達成されていた。
この具体例では、f1(x)=xおよびf2(x)=γnC(tkl)xであるが、無限の他の単調関数が存在し、代わりに使用されうることは理解されるであろう。さらに、この例では、第一および第二のマイクロフォン信号の間のノイズ・レベル差についての補償および負の差分指標値に向けてのバイアスは、第二の単調関数f2(x)に補償因子を含めることによって達成される。しかしながら、他の実施形態では、これは代替的または追加的に、第一の単調関数f1(x)に補償因子を含めることによって達成されてもよいことは理解されるであろう。
さらに、記載された手法では、利得は時間周波数タイルが発話またはノイズ・タイルのどちらとして指定されるかに依存する。多くの実施形態において、これは、差分指標が、時間周波数タイルが発話またはノイズ・タイルのどちらとして指定されるかに依存することによって達成されてもよい。
具体的には、利得ユニットは、時間周波数タイル絶対値が実際にノイズ・コヒーレンス推定値に対応する場合の差分指標の期待値が、時間周波数タイルが発話タイルとして指定されるかノイズ・タイルとして指定されるかに依存して異なるよう、第一の単調関数および第二の単調関数の少なくとも一方を変えるよう構成されていてもよい。
一例として、二つのマイクロフォン信号の間の相対的なノイズ・レベルが、ノイズ・コヒーレンス推定値に従って期待されるとおりであるときの差分指標についての期待値は、当該タイルがノイズ・タイルとして指定されている場合には負の値になりうるが、当該タイルが発話タイルとして指定されている場合には0でありうる。
多くの実施形態において、期待値は発話およびノイズ・タイルの両方について負であってもよいが、発話タイルについてよりもノイズ・タイルについてのほうがより大きく負である(すなわち、より大きさ/絶対値が大きい)。
多くの実施形態において、第一および第二の単調関数f1(x)およびf2(x)は、タイルが発話タイルかノイズ・タイルかに依存して変更されるバイアス値を含んでいてもよい。具体例として、先の具体例は、
|Z(tkl)|−γnC(tkl)|X(tkl)| ノイズ・フレームについて
|Z(tkl)|−γs・α・C(tkl)|X(tkl)| 発話フレームについて
ここで、γn>γs
によって与えられる差分指標を使っていた。
あるいはまた、差分指標はこの例では、
d(tkl)=|Z(tkl)|−γ(D(tkl))・C(tkl)|X(tkl)|
と表わされてもよい。ここで、D(tkl)は、タイルがノイズ・タイルであるか発話タイルであるかを示す値である。
完全のため、計算される差分指標が入力信号値の特定の値/属性について特定の属性をもつという要件は、使用される実際の関数についての客観的な基準を提供し、この基準はいかなる実際の信号値にも処理される実際の信号にも依存しないことを注意しておく。特に、
Figure 0006134078
という要件は、使用される関数についての制限する基準を提供する。
差分指標に基づいて利得を決定するための多くの異なる関数および手法が使用されうることは理解されるであろう。位相反転および関連する劣化を避けるために、利得は一般に負でない値に制約される。多くの実施形態において、利得をある最小利得を下回らないよう制約する(それによりどの特定の周波数帯域/タイルも完全に減衰されないことを保証する)ことが有利でありうる。
たとえば、多くの実施形態において、利得は単に、たとえば
G(tkl)=MAX(φ・d(tkl),θ)
のように、利得がある最小利得(これは具体的には利得が負でないことを保証するよう0であってもよい)より上に保たれることを保証しつつ、差分指標をスケーリングすることによって決定されてもよい。ここで、φは(たとえば試行錯誤によって決定される)特定の実施形態についての好適な選択されたスケール因子であり、θは負でない値である。
多くの実施形態では、利得は他のパラメータの関数であってもよい。たとえば、多くの実施形態では、利得は、第一および第二のマイクロフォン信号の少なくとも一方の属性に依存してもよい。特に、スケール因子は、差分指標を正規化するために使われてもよい。具体例として、利得は、
Figure 0006134078
として決定されてもよい。すなわち、
φ(tkl)=1/|Z(tkl)|
としている。たとえば、
d(tkl)=|Z(tkl)|−γ(D(tkl))・C(tkl)|X(tkl)|
(これは
d(tkl)=|Z(tkl)|−γnC(tkl)|X(tkl)| ノイズ・フレームについて
d(tkl)=|Z(tkl)|−γs・α・C(tkl)|X(tkl)| 発話フレームについて
と置くことによって先の具体例に対応する)。
このように、利得計算は正規化を含んでいてもよい。
他の実施形態では、より複雑な関数が使われてもよい。たとえば、利得を差分指標の関数として決定するための非線形関数、たとえば
G(tkl)=MAX(δ・log d(tkl),θ)
が使われてもよい。ここで、δは定数であってもよい。
一般に、利得は、差分指標の負でない関数:
G(tkl)=f3(d(tkl))
として決定されうる。
典型的には、利得は差分指標の単調関数として、特に単調増加関数として決定されうる。よって、典型的には、差分指標が第一および第二のマイクロフォン信号の間のより大きな差を示し、それにより時間周波数タイルが多量の発話(これは主として話者の近くに位置された第一のマイクロフォン信号によって捕捉される)を含む増大した確率を反映するときは、より高い利得が生じる。
差分指標を決定するためのアルゴリズムまたは関数と同様に、利得を決定するための関数はさらに、他のパラメータまたは特性に依存してもよい。実際、多くの実施形態において、利得関数は第一および第二のマイクロフォン信号の一方または両方の特性に依存してもよい。たとえば、先述したように、関数は第一のマイクロフォン信号の絶対値に基づく正規化を含んでいてもよい。
差分指標から利得を計算するための可能な関数の他の例は、
Figure 0006134078
を含んでいてもよい。ここで、σ(ωl)は好適な重み付け関数である。
時間周波数タイル値および発話もしくはノイズ・タイルとしての指定に依存して利得を決定するための厳密な手法は、特定の実施形態および用途のための所望される動作特性および性能を提供するために選択されてもよいことは理解されるであろう。
よって、利得は、
G(tkl)=f4(α(tkl),d(tkl))
として決定されてもよい。ここで、α(tkl)はタイルが発話タイルまたはノイズ・タイルのどちらとして指定されるかを反映しており、f4は第一および第二のマイクロフォン信号についての時間周波数タイル値の絶対値の間の差を反映する構成要素を含むいかなる好適な関数またはアルゴリズムであってもよい。
このように、時間周波数タイルについての利得値は、タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されるかに依存する。実際、ある時間周波数タイルについて、該時間周波数タイルがノイズ・タイルとして指定されるときには該時間周波数タイルが発話タイルとして指定されるときよりも低い利得値が決定されるよう、利得が決定される。
利得値は、まず差分指標を決定し、次いで該差分指標から利得値を決定することによって決定されてもよい。ノイズ/発話指定への依存性は、差分指標の決定に、差分指標からの利得の決定に、あるいは差分指標および利得両方の決定に含められてもよい。
このように、多くの実施形態において、差分指標は、時間周波数タイルがノイズ周波数タイルまたは発話周波数タイルのどちらとして指定されるかに依存してもよい。たとえば、上記の関数f1(x)およびf2(x)の一方または両方が、時間周波数タイルがノイズまたは発話のどちらとして指定されるかを示す値に依存してもよい。依存性は、(同じマイクロフォン信号値について)時間周波数タイルが発話タイルとして指定されるときは、ノイズ・タイルとして指定されるときよりも大きな差分指標が計算されるというものであってもよい。
たとえば、利得G(tkl)の計算のために先に与えた具体例では、分子が差分指標と考えられてもよく、よって差分指標は、タイルが発話タイルとして指定されるかノイズ・タイルとして指定されるかに依存して異なる。
より一般には、差分指標は
d(tkl)=f5(α(tkl),f1(|Z(tkl)|)−f2(|X(tkl)|))
によって示されてもよい。ここで、α(tkl)はタイルが発話タイルまたはノイズ・タイルのどちらとして指定されるかに依存し、f5は、αがタイルが発話タイルであることを示すときはノイズ・タイルであるときよりも差分指標が大きくなるようαに依存する。
代替的または追加的に、差分指標から利得値を決定するための関数が発話/ノイズ指定に依存してもよい。具体的には、次の関数が使用されてもよい:
G(tkl)=f6(d(tkl),α(tkl))
ここで、α(tkl)はタイルが発話タイルまたはノイズ・タイルのどちらとして指定されるかに依存し、f6は、αがタイルが発話タイルであることを示すときはノイズ・タイルであるときよりも利得が大きくなるようαに依存する。先述したように、時間周波数タイルを発話タイルまたはノイズ・タイルとして指定するために、いかなる好適な手法が使われてもよい。しかしながら、いくつかの実施形態では、指定は、有利には、時間周波数タイルがノイズ・タイルであるとの想定のもとに差分指標を計算することによって決定される差の値に基づいていてもよい。こうして、ノイズ時間周波数タイルについての差分指標関数が計算できる。この差分指標が十分低ければ、そのことは第一の周波数領域信号の時間周波数タイル値が第二の周波数領域信号の時間周波数タイル値から予測可能であることを示す。これは、典型的には、第一の周波数領域信号が有意な発話成分を含まない場合に成り立つ。よって、いくつかの実施形態では、タイルは、ノイズ・タイル計算を使って計算された差分指標が閾値未満である場合にノイズ・タイルとして指定される。そうでない場合にはタイルは発話タイルとして指定される。
そのような手法の例が図8に示されている。図のように、図4の指定器415は、時間周波数タイルが実際にノイズ・タイルであると想定して距離指標を評価することによって時間周波数タイルについての差の値を計算する差分ユニット801を有していてもよい。結果として得られる差の値は、タイル指定器803に入力される。タイル指定器803は、距離の値が所与の閾値未満である場合にそのタイルをノイズ・タイルであるとして指定し、そうでない場合には発話タイルとして指定することに進む。
この手法は、発話またはノイズ・タイルとしてのタイルの非常に効率的かつ正確な検出および指定を提供する。さらに、利得を計算するための機能を指定器の一部として再利用することによって、容易にされた実装および動作が達成される。たとえば、ノイズ・タイルとして指定されるすべての時間周波数タイルについて、計算された差分指標は、利得を決定するために直接使用されることができる。差分指標の再計算は、発話タイルとして指定される時間周波数タイルについて、利得ユニット409によって必要とされるだけである。
いくつかの実施形態では、低域通過フィルタリング/平滑化(/平均)が、差の値に基づく指定に含められてもよい。フィルタリングは特に、周波数領域および時間領域の両方における異なる時間周波数タイルを横断してであってもよい。こうして、フィルタリングは、異なる(近隣の)時間セグメント/フレームに属する時間周波数タイルの差の値にわたるとともに前記時間セグメントの少なくとも一つにおける複数の時間周波数タイルにわたって実行されてもよい。発明者は、そのようなフィルタリングは、実質的な性能改善および実質的に改善された指定を提供でき、よって実質的に改善されたノイズ抑制を提供できることを認識するに至った。
いくつかの実施形態では、低域通過フィルタリング/平滑化(/平均)が利得計算に含められてもよい。フィルタリングは特に、周波数領域および時間領域の両方における異なる時間周波数タイルを横断してであってもよい。こうして、フィルタリングは、異なる(近隣の)時間セグメント/フレームに属する時間周波数タイル値にわたるとともに前記時間セグメントの少なくとも一つにおける複数の時間周波数タイルにわたって実行されてもよい。発明者は、そのようなフィルタリングは、実質的な性能改善および実質的に改善された知覚されるノイズ抑制を提供できることを認識するに至った。
平滑化(すなわち、低域通過フィルタリング)は特に、計算された利得値に適用されてもよい。代替的または追加的に、フィルタリングは、利得計算に先立って第一および第二の周波数領域信号に適用されてもよい。いくつかの実施形態では、フィルタリングは、利得計算のパラメータに、たとえば差分指標に適用されてもよい。
具体的には、いくつかの実施形態では、利得ユニット409は、複数の時間周波数タイルにわたって利得値をフィルタリングするよう構成されていてもよい。ここで、フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。
具体的には、前記出力値は、クリッピングされていない利得の平均/平滑化されたバージョンを使って計算されてもよい:
Figure 0006134078
いくつかの実施形態では、利得の平均後に、利得下限が決定されてもよい。これはたとえば、前記出力値を
Figure 0006134078
として計算することによる。ここで、G(tkl)は差分指標の単調関数として計算されるが、負でない値に制約されない。実際、クリッピングされてない利得は、負である差分指標については、負の値をもつことがある。
いくつかの実施形態では、利得ユニットは、第一の周波数領域信号の絶対値時間周波数タイル値および第二の周波数領域信号の絶対値時間周波数タイル値の少なくとも一方を、これらが利得値を計算するために使われる前に、フィルタリングするよう構成されていてもよい。こうして、事実上、この例では、フィルタリングは、出力においてではなく、利得計算への入力に対して実行される。
この手法の例が図9に示されている。この例は図8の例に対応するが、第一および第二の周波数領域信号の時間周波数タイル値の絶対値の低域通過フィルタリングを実行する低域通過フィルタ901が追加されている。この例では、絶対値時間周波数タイル値
Figure 0006134078
はフィルタリングされて、平滑化されたベクトル
Figure 0006134078
(図では
Figure 0006134078
として表わされている)を与える。
この例では、利得値を決定するための先述した関数が、それぞれノイズおよび発話タイルについて、
Figure 0006134078
によって置き換えられてもよい。ここで、 ̄は(t,ω)平面における近隣の値にわたる平滑化(平均)を意味する。
フィルタリングは特に、時間および周波数における長方形窓のような一様な窓または人間の聴覚の特性に基づく窓を使ってもよい。後者の場合、フィルタリングは特に、いわゆる臨界帯域に従ってであってもよい。臨界帯域とは、蝸牛によって作り出される「聴覚フィルタ」の周波数帯域幅を指す。たとえば、オクターブ帯域またはバーク尺度臨界帯域が使用されうる。
フィルタリングは周波数依存であってもよい。特に、低周波数では、平均は、たった数個の周波数ビンにわたってであってもよい。一方、より高い周波数ではより多くの周波数ビンが使われてもよい。
平滑化/フィルタリングは、近隣の値にわたって平均することによって実行されてもよい。たとえば:
Figure 0006134078
ここで、たとえばN=1であり、W(m,n)は1/9ずつの重みをもつ3かける3行列である。Nも臨界帯域に依存することができ、その場合、周波数インデックスlに依存することができる。より高い周波数については、Nは典型的にはより低い周波数についてよりも大きくなる。
いくつかの実施形態では、フィルタリングは、差分指標をフィルタリングすることによって、たとえば差分指標を
Figure 0006134078
として計算することによってであってもよい。
下記で述べるように、フィルタリング/平滑化は、実質的な性能改善を提供しうる。
具体的には、(tkl)平面においてフィルタリングするとき、特に|Z(tkl)|および|X(tkl)|におけるノイズ成分の分散が実質的に低減される。
発話がない、すなわち|Z(tkl)|=|Zn(tkl)|であり、C(tkl)=1と想定する場合、
Figure 0006134078
となる。ここで、|Z(tkl)|および|X(tkl)|はL個の独立な値にわたって平滑化される。
平滑化は平均を変えない。よって
Figure 0006134078
である。
二つの確率的な信号の差の分散は個々の分散の和に等しい:
Figure 0006134078
 ̄d〔バー付きのd〕を0に制限すると、 ̄dの分布は0のまわりに対称的なので、 ̄dのパワーは ̄dの分散の値の半分である:
Figure 0006134078
ここで残差信号のパワーを入力信号のパワー(2σ2)と比べると、後処理器に起因するノイズ抑制について次が得られる:
A=−10log10((4−π)/4L)=6.68+10log10L dB。
例として、9個の独立な値にわたって平均する場合、追加的な9.5dBの抑制が得られる。
平滑化と組み合わせた過剰減衰は、減衰をさらに増す。変数
Figure 0006134078
を考える場合、平滑化は、平滑化されない値と比較したとき、
Figure 0006134078
の分散の低下を引き起こし、
Figure 0006134078
の分布は期待値のまわりにより集中することになる。期待値は負であり、
Figure 0006134078
によって与えられる。
独立なレイリー・ランダム変数の和(または差)についての閉じた形の式は≧3については得られない。しかしながら、さまざまな平滑化因子Lおよび過剰減算因子γnについてのdBでの減衰についてのシミュレーション結果を下記の表に呈示する。ここで、第一列が平滑化なしに対応する。この表において、行は種々の過剰減算因子(その値は第一列に与えられている)を示し、列は種々の平均領域(平均されるタイル数は第一行に呈示されている)を示す。
Figure 0006134078
見て取れるように、非常に高い減衰が達成される。
発話については、フィルタリング/平滑化の効果はノイズについてとは非常に異なる。
まず、|X(tkl)|には発話情報はなく、よって ̄dは「負」の発話寄与を含まないとする。さらに、(tkl)平面における近隣の時間周波数タイルにおける発話成分は独立ではないであろう。結果として、平滑化は ̄dにおける発話エネルギーに対してはそれほどの効果をもたないであろう。よって、フィルタリングはノイズについては実質的に低下した分散をもたらすが発話成分に対する影響はずっと少なくなるので、平滑化の全体的な効果はSNRの増大である。これは、先述したような利得値の決定および/または時間周波数タイルの指定のために使用されうる。
例として、多くの実施形態において、差分指標は
Figure 0006134078
として決定されてもよい。ここで、faおよびfbは単調関数であり、K1ないしK8は時間周波数タイルについての平均近傍を定義する整数値である。典型的には、値K1ないしK8または少なくとも各和において合計される時間周波数タイル値の総数は、同一であってもよい。しかしながら、値の数が二つの和について異なる例では、対応する関数fa(x)およびfb(x)は、値の数の相違に対する補償を含んでいてもよい。
関数fa(x)およびfb(x)はいくつかの実施形態では、和の中の値の重み付けを含んでいてもよい。すなわち、和のインデックスに依存してもよい。同じことだが、
Figure 0006134078
このように、この例では、第一および第二の周波数領域信号両方の時間周波数タイル値が、現在のタイルの近傍にわたって平均/フィルタリングされる。
関数の具体例は、先に与えた例示的な関数を含む。多くの実施形態において、f1(x)またはf2(x)はさらに、第一のマイクロフォン信号と第二のマイクロフォン信号のノイズ・レベルの間の平均差を示すノイズ・コヒーレンス推定値に依存してもよい。関数f1(x)またはf2(x)の一方または両方は、特に、第一および第二のマイクロフォン信号の間の推定された平均ノイズ・レベル差を反映するスケール因子によるスケーリングを含んでいてもよい。関数f1(x)またはf2(x)の一方または両方は特に、先述したコヒーレンス項C(tkl)に依存してもよい。
先に述べたように、差分指標は、第一のマイクロフォン信号についての時間周波数タイル値の絶対値の単調関数として生成される第一の値と、第二のマイクロフォン信号についての時間周波数タイルの絶対値の単調関数との間の差として、すなわち
d(tkl)=f1(|Z(tkl)|)−f2(|X(tkl)|)
として計算される。ここで、f1(x)およびf2(x)は、xの単調関数(典型的には単調増加関数)である。多くの実施形態において、関数f1(x)およびf2(x)は単に絶対値のスケーリングであってもよい。
そのような手法の格別な利点は、絶対値に基づく減算に基づく差分指標が、ノイズのみが存在するときに、正の値および負の値の両方を取れるということである。これは、平均/平滑化/フィルタリングのために特に好適である。その場合、たとえば0平均のまわりの変動が互いに打ち消し合う傾向がある。しかしながら、発話が存在するときは、これは主として第一のマイクロフォン信号においてのみであり、すなわち、主として|Z(tkl)|に存在する。よって、たとえば近隣の時間周波数タイルにわたる平滑化またはフィルタリングは、差分指標におけるノイズ寄与を低減するが発話成分は低減しない傾向がある。このように、平均と差分絶対値ベースの差分指標のと組み合わせによって、特に有利な相乗効果が達成できる。
上記の記述は、マイクロフォンの一つだけが発話を捕捉し、一方、他のマイクロフォンは発話成分のない拡散性ノイズのみを捕捉するというシナリオ(たとえば、図5に例示されるように、一つのマイクロフォンに比較的近い話者がいて、参照マイクロフォンでは(ほとんど)ピックアップがない状況に対応)に焦点を当ててきた。
このように、この例では、参照マイクロフォン信号x(n)にはほとんど発話がなく、z(n)およびx(n)におけるノイズ成分は拡散性の音場に由来すると想定されている。マイクロフォンの間の距離は比較的大きく、複数のマイクロフォンのノイズ成分間のコヒーレンスはほぼ0である。
しかしながら、実際上、マイクロフォンはしばしばずっと近接して配置され、結果として、二つの効果がより有意になりうる。つまり、両方のマイクロフォンが所望される発話の要素を捕捉しはじめることがあるということ、低周波数におけるマイクロフォン信号間のコヒーレンスが無視できないことである。
いくつかの実施形態では、ノイズ抑制器はさらに、マイクロフォン・アレイからの信号から第一のマイクロフォン信号および第二のマイクロフォン信号を生成するよう構成されたオーディオ・ビームフォーマーを有していてもよい。この例は図10に示されている。
マイクロフォン・アレイはいくつかの実施形態では、たった二つのマイクロフォンを有していてもよいが、典型的にはより多数を有する。BMFユニットとして描かれているビームフォーマーは、異なる方向に向けられた複数の異なるビームを生成してもよく、それら異なるビームはそれぞれ第一および第二のマイクロフォン信号の一方を生成してもよい。
ビームフォーマーは特に、一つのビームが好適な適応アルゴリズムを使って発話源のほうに向けられることができる適応ビームフォーマーであってもよい。同時に、発話源の方向にノッチ(または特にヌル)を生成するよう他のビームが適応されることができる。
たとえば、特許文献2および特許文献1は、発話に焦点を当てる適応ビームフォーマーの例を開示しているが、(ほとんど)発話を含まない参照信号をも提供する。そのような手法は、第一のマイクロフォン信号をビームフォーマーの主要出力として、第二のマイクロフォン信号をビームフォーマーの副次出力として生成するために使用されてもよい。
これは、システムの二つ以上のマイクロフォンにおける発話の存在の問題に対処しうる。ノイズ成分は両方のビームフォーマー信号において得られ、拡散性ノイズについてもガウス分布である。z(n)およびx(n)におけるノイズ成分間のコヒーレンス関数は先述したようにやはりsinc(kd)に依存する。すなわち、より高い周波数ではコヒーレンスはほぼ0になり、図4のノイズ抑制器が効果的に使用できる。
マイクロフォンの間のより小さな距離のため、sinc(kd)はより低い周波数については0にならず、結果として、z(n)とx(n)の間のコヒーレンスは0にならない。
いくつかの実施形態では、ノイズ抑制器はさらに、第一のマイクロフォン信号の、第二のマイクロフォン信号と相関している信号成分を、第一のマイクロフォン信号から打ち消すための適応打ち消し器を有していてもよい。
図4の抑制器、図10のビームフォーマーおよび適応打ち消し器の両方をもつノイズ抑制器の例が図11に示されている。
この例では、適応打ち消し器は、z(n)においてx(n)におけるノイズと相関しているノイズを除去する追加の適応的なノイズ打ち消しアルゴリズムを実装する。そのような手法については、(定義により)x(n)と残差信号r(n)の間のコヒーレンスは0である。
上記の記述は明確のために種々の機能回路、ユニットおよびプロセッサを参照して本発明の実施形態を記述してきたことが理解されるであろう。しかしながら、異なる機能回路、ユニットまたはプロセッサの間のいかなる好適な機能の分配も、本発明を損なうことなく、使用されうることは明白であろう。たとえば、別個のプロセッサまたはコントローラによって実行されるよう示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。よって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的な構造または編成を示すというよりは、記載される機能を提供する好適な手段に言及したものとしてのみ見るべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組み合わせを含むいかなる好適な形で実装されることもできる。本発明は任意的に、少なくとも部分的に、一つまたは複数のデータ・プロセッサおよび/またはデジタル信号プロセッサ上で走るコンピュータ・ソフトウェアとして実装されてもよい。本発明のある実施形態の要素およびコンポーネントは、物理的、機能的および論理的に、任意の好適な仕方で実装されてもよい。実際、機能は単一のユニットに、複数のユニットに、または他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットで実装されてもよいし、あるいは物理的および機能的に、異なるユニット、回路およびプロセッサの間で分散されていてもよい。
本発明はいくつかの実施形態との関連で述べてきたが、本稿に記載される特定の形に限定されることは意図されていない。むしろ、本発明の範囲は付属の請求項によってのみ限定される。さらに、ある特徴が特定の実施形態との関連で記載されているように見えることがありうるが、当業者は、記載される諸実施形態のさまざまな特徴が本発明に基づいて組み合わされてもよいことを認識するであろう。請求項において、有する/含むの語は他の要素またはステップの存在を排除するものではない。
さらに、個別に挙げられてはいても、複数の手段、要素、回路または方法ステップが、たとえば単一の回路、ユニットまたはプロセッサによって実装されてもよい。さらに、個々の特徴が異なる請求項に含まれていたとしても、それらは可能性としては有利に組み合わされうるのであって、異なる請求項に含まれていることが、特徴の組み合わせが実現可能でないおよび/または有利でないことを含意するものではない。また、ある特徴があるカテゴリーの請求項に含まれていることは、このカテゴリーへの限定を含意するのではなく、むしろ、その特徴が適宜他のカテゴリーの請求項にも等しく適用可能であることを示す。さらに、請求項における特徴の順序は、それらの特徴が作用しなければならないいかなる特定の順序をも含意しない。特に、方法請求項における個々のステップの順序はそれらのステップがその順序で実行されなければならないことを含意するものではない。むしろ、ステップは任意の好適な順序で実行されうる。さらに、単数形での言及は複数を排除するものではない。「ある」「第一の」「第二の」などの言及は複数を排除するものではない。請求項における参照符号は、単に明快にするための例として与えられているのであって、いかなる仕方であれ特許請求の範囲を限定するものと解釈してはならない。

Claims (15)

  1. 第一のマイクロフォン信号におけるノイズを抑制するためのノイズ抑制器であって、当該ノイズ抑制器は:
    第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する第一の変換器であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、第一の変換器と;
    第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する第二の変換器であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、第二の変換器と;
    前記第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数と前記第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数との間の差を示す差分指標の負でない単調関数として時間周波数タイル利得を決定する利得ユニットと;
    前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成するためのスケーラーとを有しており、
    当該ノイズ抑制器はさらに:
    前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する指定器を有しており、
    前記利得ユニットは、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、時間周波数タイルの時間周波数タイル利得について、前記時間周波数タイルがノイズ・タイルとして指定されるときは、前記時間周波数タイルが発話タイルとして指定されるときよりも、低い利得値が決定されるよう、時間周波数タイル利得を決定するよう構成されている、
    ノイズ抑制器。
  2. 前記利得ユニットは、時間周波数タイルの時間周波数タイル利得についての利得値を、その時間周波数タイルの前記差分指標の関数として決定するよう構成されている、請求項1記載のノイズ抑制器。
  3. 前記第一の単調関数および前記第二の単調関数の少なくとも一方は、前記時間周波数タイルが発話タイルまたはノイズ・タイルのどちらとして指定されているかに依存する、請求項2記載のノイズ抑制器。
  4. 前記第二の単調関数は、時間周波数タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されているかに依存するスケール値を用いた、時間周波数タイルについての前記第二の周波数領域信号の絶対値時間周波数タイル値のスケーリングを含む、請求項3記載のノイズ抑制器。
  5. 前記利得ユニットは、前記第二のマイクロフォン信号の振幅と前記第一のマイクロフォン信号のノイズ成分の振幅との間の相関を示すノイズ・コヒーレンス推定値を生成するよう構成されており、前記第一の単調関数および前記第二の単調関数の少なくとも一方は前記ノイズ・コヒーレンス推定値に依存する、請求項3記載のノイズ抑制器。
  6. 前記第一の単調関数および前記第二の単調関数は、前記第一のマイクロフォン信号および前記第二のマイクロフォン信号の間の振幅関係がノイズ・コヒーレンス推定値に対応し、かつ、時間周波数タイルがノイズ・タイルとして指定されている場合に、前記差分指標の期待値が負であるようなものである、請求項5記載のノイズ抑制器。
  7. 前記利得ユニットは、ノイズ・コヒーレンス推定値に対応する前記第一のマイクロフォン信号と前記第二のマイクロフォン信号の間の振幅関係についての前記差分指標の期待値が、ノイズ・タイルとして指定される時間周波数タイルについては、発話タイルとして指定される時間周波数タイルについてとは異なるよう、前記第一の単調関数および前記第二の単調関数の少なくとも一方を変えるよう構成されている、請求項6記載のノイズ抑制器。
  8. 前記指定器は、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定することを、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値に対するノイズ・タイルについての前記差分指標に応答して生成される差の値に応答して、行なうよう構成されている、請求項1記載のノイズ抑制器。
  9. 前記指定器は、複数の時間周波数タイルにわたって差の値をフィルタリングするよう構成されており、該フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む、請求項8記載のノイズ抑制器。
  10. 前記利得ユニットは、複数の時間周波数タイルにわたって利得値をフィルタリングするよう構成されており、該フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む、請求項1記載のノイズ抑制器。
  11. 前記利得ユニットは、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値の少なくとも一方をフィルタリングするよう構成されており、該フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む、請求項1記載のノイズ抑制器。
  12. 前記第一のマイクロフォン信号および前記第二のマイクロフォン信号をマイクロフォン・アレイからの信号から生成するよう構成されたオーディオ・ビームフォーマーをさらに有する、請求項1記載のノイズ抑制器。
  13. 前記第二のマイクロフォン信号と相関した前記第一のマイクロフォン信号の信号成分を、前記第一のマイクロフォン信号から打ち消すための適応打ち消し器をさらに有する、請求項1記載のノイズ抑制器。
  14. 第一のマイクロフォン信号におけるノイズを抑制する方法であって:
    第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する段階であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、段階と;
    第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する段階であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、段階と;
    前記第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数と前記第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数との間の差を示す差分指標の負でない単調関数として時間周波数タイル利得を決定する段階と;
    前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成する段階とを含み、
    当該方法はさらに:
    前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する段階を含み、前記時間周波数タイル利得は、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して決定され、時間周波数タイルの時間周波数タイル利得について、その時間周波数タイルがノイズ・タイルとして指定されているときはその時間周波数タイルが発話タイルとして指定されているときよりも、より低い利得値が決定される、
    方法。
  15. コンピュータに請求項14記載の方法を実行させるためのコンピュータ・プログラム。
JP2016557303A 2014-03-17 2015-03-02 ノイズ抑制 Active JP6134078B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14160242.5 2014-03-17
EP14160242 2014-03-17
PCT/EP2015/054228 WO2015139938A2 (en) 2014-03-17 2015-03-02 Noise suppression

Publications (2)

Publication Number Publication Date
JP6134078B1 true JP6134078B1 (ja) 2017-05-24
JP2017516126A JP2017516126A (ja) 2017-06-15

Family

ID=50280267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016557303A Active JP6134078B1 (ja) 2014-03-17 2015-03-02 ノイズ抑制

Country Status (6)

Country Link
US (1) US10026415B2 (ja)
EP (1) EP3120355B1 (ja)
JP (1) JP6134078B1 (ja)
CN (1) CN106068535B (ja)
TR (1) TR201815883T4 (ja)
WO (1) WO2015139938A2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332541B2 (en) * 2014-11-12 2019-06-25 Cirrus Logic, Inc. Determining noise and sound power level differences between primary and reference channels
CN106997768B (zh) * 2016-01-25 2019-12-10 电信科学技术研究院 一种语音出现概率的计算方法、装置及电子设备
GB2549922A (en) * 2016-01-27 2017-11-08 Nokia Technologies Oy Apparatus, methods and computer computer programs for encoding and decoding audio signals
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9906859B1 (en) * 2016-09-30 2018-02-27 Bose Corporation Noise estimation for dynamic sound adjustment
WO2018127447A1 (en) * 2017-01-03 2018-07-12 Koninklijke Philips N.V. Method and apparatus for audio capture using beamforming
BR112019013666A2 (pt) * 2017-01-03 2020-01-14 Koninklijke Philips Nv aparelho de captura de áudio formador de feixes, método de operação para um aparelho de captura de áudio formador de feixes, e produto de programa de computador
WO2018127450A1 (en) 2017-01-03 2018-07-12 Koninklijke Philips N.V. Audio capture using beamforming
WO2018127483A1 (en) 2017-01-03 2018-07-12 Koninklijke Philips N.V. Audio capture using beamforming
EP3606090A4 (en) * 2017-03-24 2021-01-06 Yamaha Corporation SOUND RECORDING DEVICE AND SOUND RECORDING METHOD
US10043531B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using MinMax follower to estimate noise
US10043530B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts
WO2020082217A1 (zh) * 2018-10-22 2020-04-30 深圳配天智能技术研究院有限公司 机器人故障诊断方法、系统及存储装置
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
US11195540B2 (en) * 2019-01-28 2021-12-07 Cirrus Logic, Inc. Methods and apparatus for an adaptive blocking matrix
CN111028841B (zh) * 2020-03-10 2020-07-07 深圳市友杰智新科技有限公司 唤醒系统调节参数的方法、装置、计算机设备和存储介质
EP4288961A1 (en) * 2021-02-04 2023-12-13 Neatframe Limited Audio processing
CN113160846B (zh) * 2021-04-22 2024-05-17 维沃移动通信有限公司 噪声抑制方法和电子设备
US11889261B2 (en) * 2021-10-06 2024-01-30 Bose Corporation Adaptive beamformer for enhanced far-field sound pickup

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005531969A (ja) * 2002-07-01 2005-10-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 静的スペクトルパワー依存型音響強調システム
JP2008295011A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US20120322511A1 (en) * 2011-06-20 2012-12-20 Parrot De-noising method for multi-microphone audio equipment, in particular for a "hands-free" telephony system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361724B2 (ja) * 1997-06-11 2003-01-07 沖電気工業株式会社 エコーキャンセラ装置
US7146012B1 (en) 1997-11-22 2006-12-05 Koninklijke Philips Electronics N.V. Audio processing arrangement with multiple sources
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US7587056B2 (en) 2006-09-14 2009-09-08 Fortemedia, Inc. Small array microphone apparatus and noise suppression methods thereof
US8126176B2 (en) * 2009-02-09 2012-02-28 Panasonic Corporation Hearing aid
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
US9666206B2 (en) * 2011-08-24 2017-05-30 Texas Instruments Incorporated Method, system and computer program product for attenuating noise in multiple time frames
US9173025B2 (en) * 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
EP3155618B1 (en) * 2014-06-13 2022-05-11 Oticon A/S Multi-band noise reduction system and methodology for digital audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005531969A (ja) * 2002-07-01 2005-10-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 静的スペクトルパワー依存型音響強調システム
JP2008295011A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US20120322511A1 (en) * 2011-06-20 2012-12-20 Parrot De-noising method for multi-microphone audio equipment, in particular for a "hands-free" telephony system

Also Published As

Publication number Publication date
EP3120355B1 (en) 2018-08-29
WO2015139938A2 (en) 2015-09-24
EP3120355A2 (en) 2017-01-25
CN106068535B (zh) 2019-11-05
CN106068535A (zh) 2016-11-02
WO2015139938A3 (en) 2015-11-26
JP2017516126A (ja) 2017-06-15
TR201815883T4 (tr) 2018-11-21
US20180122399A1 (en) 2018-05-03
US10026415B2 (en) 2018-07-17

Similar Documents

Publication Publication Date Title
JP6134078B1 (ja) ノイズ抑制
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
TWI738532B (zh) 具多麥克風之語音增強裝置及方法
JP7041156B2 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
Kodrasi et al. Joint dereverberation and noise reduction based on acoustic multi-channel equalization
JP7041157B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
RU2768514C2 (ru) Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией
US10262673B2 (en) Soft-talk audio capture for mobile devices
JPWO2006070560A1 (ja) 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体
CN112272848A (zh) 使用间隙置信度的背景噪声估计
JP2016054421A (ja) 残響抑制装置
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP6190373B2 (ja) オーディオ信号ノイズ減衰
JP6665353B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP2014194437A (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN111508512A (zh) 语音信号中的摩擦音检测
JP6729186B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
KR102718917B1 (ko) 음성 신호에서의 마찰음의 검출
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product
EP3531719B1 (en) Dereverberation device and hearing aid
Hu et al. Optimal smoothing for microphone array post-filtering under a combined deterministic-stochastic hybrid model
JP2017067951A (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170420

R150 Certificate of patent or registration of utility model

Ref document number: 6134078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250