JP6389259B2 - マイクロホンアレイを使用した残響音の抽出 - Google Patents

マイクロホンアレイを使用した残響音の抽出 Download PDF

Info

Publication number
JP6389259B2
JP6389259B2 JP2016534922A JP2016534922A JP6389259B2 JP 6389259 B2 JP6389259 B2 JP 6389259B2 JP 2016534922 A JP2016534922 A JP 2016534922A JP 2016534922 A JP2016534922 A JP 2016534922A JP 6389259 B2 JP6389259 B2 JP 6389259B2
Authority
JP
Japan
Prior art keywords
filter
microphone
sound
diffuse sound
diffuse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016534922A
Other languages
English (en)
Other versions
JP2017503388A5 (ja
JP2017503388A (ja
Inventor
ティエルガルト・オリヴァー
ハーベツ・エマニュエル
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2017503388A publication Critical patent/JP2017503388A/ja
Publication of JP2017503388A5 publication Critical patent/JP2017503388A5/ja
Application granted granted Critical
Publication of JP6389259B2 publication Critical patent/JP6389259B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10592Audio or video recording specifically adapted for recording or reproducing multichannel signals
    • G11B2020/10601Audio or video recording specifically adapted for recording or reproducing multichannel signals surround sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、音響分析、立体音響記録、マイクロホンアレイ信号処理、および空間フィルタリングの分野に関する。本発明のいくつかの実施形態は、拡散音フィルタ、すなわち、マイクロホンアレイによる記録から拡散音(残響音)を抽出するためのフィルタのフィルタ係数を決定するために使用することができる方法に関する。いくつかの実施形態は、対応するコンピュータプログラムに関する。いくつかの実施形態は、拡散音フィルタのフィルタ係数を決定するために使用することができる装置に関する。
残響環境におけるマイクロホンアレイによる音声取得は、一般的に、雑音および残響を減衰させながら、音源の直接音を捕捉することを目標とする。多くの用途について、直接音および雑音を抑制しながら残響音も抽出することが可能であることが有益である。たとえば、立体音響再生[Pulkki2007、Thiergart2013、Kowalczyk2013]において、記録側に存在する残響が、所望の空間的印象を再現するために再生側で再生される必要がある。その上、残響音のある推定値を所与として、様々な他の用途にとって極めて重要な情報を表す、信号対残響比または残響音パワーのようなパラメータを計算することができる。
直接音成分の推定(たとえば、音源分別、脱残響、または雑音低減を使用する)は引用文献においてよく対処されているが、残響音を抽出するための手法はわずかしか存在しない。通常、残響は(時間変動)拡散音場としてモデル化される。拡散音を抽出するために、最近では単一チャネルフィルタ(たとえば、[Pulkki2007、Thiergart2013])が使用されているが、これらのフィルタは、複数の音源がアクティブであるとき、または、過渡状信号に対しては性能に乏しい。マルチチャネルフィルタを用いれば、より良好な性能を達成することができる(たとえば、[Kowalczyk2013、Thiergart2013b])。不都合なことに、現在存在するマルチチャネルフィルタは、最適ではなく、拡散音を捕捉するための適切な指向性パターンをもたらさない。
それゆえ、拡散音抽出および/または直接音抑制について性能が改善された拡散音フィルタを提供することが望ましい。また、拡散音フィルタが、直接音成分が到来する方向を除いて、全指向性が高い指向性応答を有することも望ましい場合がある。拡散音はすべての方向からマイクロホンアレイに到来するため、全指向性の高い指向性応答が所望される。
拡散音フィルタのフィルタ係数に対する線形抑圧を規定することを含む方法が提供される。線形抑圧は、第1のマイクロホン信号内の第1の拡散音部分と、第2のマイクロホン信号内の第2の拡散音部分との間の空間コヒーレンスに基づく。第1のマイクロホン信号は、第1のマイクロホンによって捕捉され、第2のマイクロホン信号は、既知の様式で第1のマイクロホンから離間されている第2のマイクロホンによって捕捉される。方法はまた、少なくとも1つの直接音の到来する方向、第1のマイクロホン信号および第2のマイクロホン信号に関する信号統計、ならびに、第1のマイクロホン信号および第2のマイクロホン信号に関する雑音統計のうちの少なくとも1つを計算することも含む。方法は、フィルタ係数に対する線形抑圧を考慮しながら、少なくとも1つの直接音の到来する方向、信号統計および雑音統計の少なくとも1つに関する最適化問題を解くことによって、拡散音フィルタのフィルタ係数を決定することをさらに含む。
実施形態は、コンピュータ上で実行されているときに、上述した方法を実施するためのコンピュータプログラムを提供し、または、信号プロセッサが提供される。
さらなる実施形態は、拡散音フィルタのフィルタ係数に対する線形抑圧を規定するように構成されている線形抑圧計算器を備える装置を提供する。線形抑圧は、第1のマイクロホン信号内の第1の拡散音部分と、第2のマイクロホン信号内の第2の拡散音部分との間の空間コヒーレンスに基づく。第1のマイクロホン信号は、第1のマイクロホンによって捕捉されるかまたは捕捉されており、第2のマイクロホン信号は、既知の様式で第1のマイクロホンから離間されている第2のマイクロホンによって捕捉されるかまたは捕捉されている。装置はまた、少なくとも1つの直接音の到来する方向、第1のマイクロホン信号および第2のマイクロホン信号に関する信号統計、ならびに、第1のマイクロホン信号および第2のマイクロホン信号および第2のマイクロホン信号に関する雑音統計のうちの少なくとも1つを計算するように構成されている統計計算器も含む。装置は、フィルタ係数に対する線形抑圧を考慮しながら、少なくとも1つの直接音の到来する方向、信号統計および雑音統計の少なくとも1つに関する最適化問題を解くことによって、拡散音フィルタのフィルタ係数を決定するように構成されているフィルタ係数計算器をさらに備える。
実施形態は、マイクロホン信号の拡散音部分に関係する少なくとも1つの線形抑圧を考慮に入れながら、拡散音フィルタを決定することができるという洞察に基づく。
以下において、図面を参照して本発明の実施形態をより詳細に説明する。
単一チャネルフィルタを用いて拡散音を抽出するための手法の概略ブロック図である。 マルチチャネルフィルタを用いて拡散音を抽出するための手法の概略ブロック図である。 第1の実施例による提案されている本発明の概略ブロック図である。 第2の実施例による提案されている本発明の概略ブロック図である。 第3の実施例による提案されている本発明の概略ブロック図である。 図2によるフィルタを用いて拡散音を抽出するための手法からもたらされる集音パターンの一例を示す図である。 図4によるフィルタを用いて拡散音を抽出するための手法からもたらされる集音パターンの一例を示す図である。 マイクロホンアレイ、および、マイクロホンアレイによって取得される種々の音声信号を概略的に示す図である。
「直接音」および「拡散音」という用語は、以下のように定義される。
直接音:主に特定の突出した方向からマイクロホンに到来する音声。直接音は、たとえば、音源からマイクロホンへと直に進行する音声または特徴的な室内反射を表すことができる。直接音は、たとえば、特定の到来方向を有する平面波または球面波であり得る。直接音の到来方向が分かっているとき、マイクロホン配置が分かっていることを所与として、マイクロホン間の直接音の相対伝達関数を計算することができる。
拡散音:すべての方向からマイクロホンに到来する音声。拡散音は、たとえば、室内に存在する後の残響を表すことができる。一般的に、拡散音と関連付けることができる突出した到来方向はない(等方性音場)、すなわち、音声はすべての方向から等しい平均パワーで到来する。その上、マイクロホン間の拡散音の相対伝達関数は、ランダムで観測不可能であると仮定されなければならない。しかしながら、特定のマイクロホン設定および拡散場仮定について、マイクロホン間の拡散音の平均相対伝達関数は通常分かっているか、または、測定することができる。
以下のサブセクションにおいて、マイクロホン記録から拡散音(または残響音)を抽出するための既存の手法を要約する。以下において、Mは使用されるマイクロホンの数を示す。すべてのマイクロホン信号が時間周波数領域に変換されていると仮定し、kは周波数インデックスであり、nは時間インデックスである(フィルタは一般的に時間領域において適用することもできることに留意されたい)。マイクロホンは、拡散場において伝播するL個の平面波(直接音と称される)を捕捉する。l番目の平面波のDOAは、単位ノルムベクトルn(k,n)によって表される。時間周波数領域において、m番目の(全指向性)マイクロホンの信号は、以下のように記載することができる。
Figure 0006389259
ここで、X(k,n)はl番目の平面波の音圧であり、X(k,n,d)は拡散音であり、X(k,n,d)は定常雑音(たとえば、自己雑音または背景雑音)であり、dは所与の座標系における(m番目のマイクロホンの)マイクロホン位置を記述するベクトルである。
本発明の目的は、位置dにおけるX(k,n,d)を推定することである。
単一チャネルフィルタは、単一のマイクロホン信号から拡散音を抽出する(M=1)。そのようなフィルタは、たとえば、指向性オーディオコード化[Pulkki2007]または仮想マイクロホン[Thiergart2013]に使用される。
拡散音の推定値は、たとえば以下のように、マイクロホン信号の1つ、たとえば、第1のマイクロホンのマイクロホン信号X(k,n)に、フィルタH(k,n)を乗算することによって求められる。
Figure 0006389259
通常は、フィルタH(k,n)は以下によって与えられるウィーナーフィルタであり、
Figure 0006389259
式中、φは拡散音のパワーであり、φは平面波および定常雑音のパワーである。いくつかの用途において、ウィーナーフィルタの代わりに平方根ウィーナーフィルタ(すなわち、Hの平方根)が使用される。H(k,n)を計算するためには、パワーφおよびφを推定しなければならないことに留意されたい。この目的のために、たとえば、[Thiergart2012]において説明されているように推定することができる信号拡散比(SDR)を考慮することができる。代替的に、H(k,n)は、[Pulkki2007、Thiergart2013]に記載されているようないわゆる拡散性を推定することによって求めることができる。SDRまたは拡散性を推定するには、一般的に、2つ以上のマイクロホンが必要とされる。それにもかかわらず、拡散音は最終的に、単一のマイクロホン信号をフィルタリングすることによって得られる。
単一チャネルフィルタを用いて拡散音を抽出するための例示的なシステムが、図1に示されている。第1に、SDR(または代替的に拡散性)が、複数のマイクロホン信号から推定される。第2に、フィルタH(k,n)が、この情報から計算される。最後に、フィルタH(k,n)が単一のマイクロホン信号と乗算されて、拡散音推定値が得られる。
マルチチャネルフィルタはM>1個のマイクロホンを考慮する。そのようなフィルタは、たとえば、[Thiergart2013b、Kowalczyk2013]において使用されている。以下の導出において、M個のマイクロホン信号を、ベクトルx(k,n)=[X(k,n),X(k,n),...,X(k,n)]によって表すこととする。m番目のマイクロホンにおける拡散音は、M個のマイクロホン信号の線形結合、すなわち、以下によって推定され、
Figure 0006389259
式中、wは長さMの複素荷重ベクトルである。wの重みは、拡散音の正確な推定値が得られるように計算されなければならない。
適切なフィルタを求めるための単純な方法は、マイクロホン信号に含まれる定常雑音X(k,n,d)が最小限に抑えられながらL個の平面波が抑制されるように、重みwを計算することである。数学的に表現すると、フィルタ重みは、線形抑圧
Figure 0006389259
を受けて
Figure 0006389259
によって与えられる。
ここで、Φは、定常雑音のPSD行列(パワースペクトル密度行列)、すなわち、
Figure 0006389259
であり、これは、たとえば、拡散音または直接音が存在しないときに既知の手法を用いて推定することができる。その上、aはいわゆる伝搬ベクトルである。その要素は、m番目のマイクロホンから他のマイクロホンへの、l番目の平面波の相対伝達関数である。したがって、aは長さMの列ベクトルである(m番目のマイクロホンにおける拡散音のみが、M個のマイクロホン信号のw、すなわち、重み付き線形結合によって推定され、他のマイクロホンにおける拡散音は、これらの信号がm番目のマイクロホンから他のマイクロホンへの相対伝達関数を介して関係付けられ、必要とされる場合にこのように計算され得るため、実質的に冗長であることを想起されたい)。aの要素は、l番目の平面波のDOAに依存する。これは、aがl番目の平面波のDOAの関数である、すなわち、a=f(n)であることを意味する。aは直接音(すなわち、平面波)に依存するため、以下においては直接音抑圧と称される。この空間フィルタによって、実質的に、L個の平面波の方向に向かってゼロを有する集音パターンを有するビーム形成期が作成される。結果として、すべての平面波が抑制される。不都合なことに、上記最小化問題を解くことによって、ゼロ拘束しかなくなる、すなわち、拡散音を抽出することができないため、ゼロ重みwがもたらされる。
この問題を克服し、ゼロフィルタ重みを回避するために、[Thiergart2013b、Kowalczyk2013]は、同じであるが、
(数8)
(k,n)=1
によって与えられる追加の拘束を有するフィルタを使用することを提案しており、式中、aはそこから平面波が到来しない特定のDOA nに対応する伝搬ベクトルである。この拘束によって、ゼロフィルタ重みは回避されるが、依然として望ましくない直接音は捕捉されない。結果として、このフィルタによって、拡散音および何らかの雑音のみが捕捉され、すべての平面波が減衰される。[Thiergart2013b]において、ベクトルaが対応するDOA nは、平面波のすべてのDOA n(k,n)に対する最大の角距離を有する方向を選択することによって求められる。たとえば、単一の平面波が0度から到来する場合、n(k,n)は180度に対応する。不都合なことに、DOA nは、可能な限り小さい雑音を有する拡散音推定値が得られることを保証しない。その上、結果としてもたらされる集音パターンは、より高い周波数においては指向性が高くなるため、拡散音を捕捉するにはそれほど最適ではない。これは、すべての方向から拡散音を捕捉することを目標とすると、欠点である。
結果としてもたらされる集音パターンの一例が図6に示されている。ここで、2つの直接音が、方位51°および97°から到来する。この図は、5cmのマイクロホン間隔で16個のマイクロホンを有する均一な線形アレイを使用したときに、2.8kHzの周波数において結果としてもたらされる集音パターンを示している。この集音パターンは、まさに51°および97°についてゼロを保持し、180°について高い利得を保持し、これは方向nに対応する。その上、集音パターンは、ほぼすべての他の方向について、複数の他の空間的ゼロ値または低利得を有する。この集音パターンは、すべての方向から到来する拡散音を捕捉するのには適していない。ここでも、直接音抑圧が直接音のDOAに直に関係することに留意されたい。このサブセクションにおける空間フィルタでは達成することができない所望の集音パターンが、図7に示されている。この集音パターンは、直接音のDOAについて2つの空間的ゼロ値を有するが、他の態様ではほぼ全指向性である。この集音パターンは、図7に関連して下記に説明する、提案されているフィルタを使用することによって達成される。
上記拘束を所与としてフィルタ重みwを計算するための閉形式解を、[VanTrees2002]に見出すことができる。空間フィルタを計算するためには、L個の平面波のDOAを知らなければならない、すなわち、直接音抑圧およびaを計算しなければならない。このDOA情報は、Root MUSICまたはESPRITのような、既知の狭帯域DOA推定器を用いて決定することができる。aの要素は一般的に複素数であり、平面波のDOAは時間変動性が高いと仮定されなければならないため、aは一般的に、各kおよびnについて計算し直される必要があることにさらに留意されたい。変動の多いaは可聴アーティファクトをもたらす可能性がある。
提示されているマルチチャネルフィルタを用いて拡散音を抽出するための例示的なシステムが、図2に示されている。マイクロホン信号を時間周波数領域に変換した後、定常雑音およびL個の平面波のDOAを推定する。その後、DOA情報から、M+1個の線形直接音抑圧(aおよびa)が得られる。この情報に基づいて、フィルタ重みを計算することができる。これらの重みをマイクロホン信号に適用することによって、拡散音の所望の推定値がもたらされる。この記述から、得られるフィルタは直接音(すなわち、それぞれ、DOAおよびマイクロホン間の平面波の対応する相対伝達関数)にのみ依存し、拡散音には依存しないことが明らかである。これは、フィルタが、たとえ拡散音の推定に使用されるとしても、拡散音に関する利用可能である可能性がある情報を考慮しないことを意味する。
本発明において、上述したフィルタの制約を克服する、残響音を抽出するための新規のマルチチャネルフィルタを提案する。提案される空間フィルタは、空間的ゼロ値を呈する直接音の到来方向(DOA)を除き、全指向性パターンである傾向にある指向性パターンを特徴とする。これは、少ない歪みですべての方向から拡散音を捕捉するための、非常に所望されている特性を表す。
以下において、M>1個のマイクロホンを用いて、位置dにおける拡散音X(k,n,d)を推定するためのマルチチャネルフィルタを提案する。上述したマルチチャネルフィルタに関して、m番目のマイクロホンにおける拡散音圧は、マイクロホン信号の線形結合、すなわち、以下を実施することによって推定される。
Figure 0006389259
以下において提案される重みベクトルwmが、特定のコスト関数を最小限に抑え、上述したマルチチャネルフィルタと同様に線形抑圧される。
しかしながら、上述したマルチチャネルフィルタとは対照的に、本発明では、直接音(すなわち、L個の平面波)に依存しない線形抑圧を使用することを提案する。より正確には、提案される新規の拘束は、それぞれ、平面波のDOAの関数またはマイクロホン間の平面波の対応する相対伝達関数ではない。
対照的に、提案される新規の拘束は、拡散音に関する統計情報に依存する、すなわち、提案される新規の拘束は、マイクロホン間の拡散音の相対伝達関数に依存する。以下において、提案される新規の拘束がマイクロホン間の拡散音のコヒーレンスまたは相関の関数であることを示す。このコヒーレンスは、マイクロホン間の拡散音の平均相対伝達関数に対応する。
提案される空間フィルタは、拡散音に対する歪みのない拘束を満足しながら特定のコスト関数を最小限に抑えることによって得られる。この拘束は、マイクロホン間の拡散音の相対伝達関数に対応する。数学的に表現すると、フィルタは、線形抑圧
(数10)
(k,n)=1
を受けて
Figure 0006389259
として計算される。
ここで、Jはフィルタによって最小化されるべきコスト関数である。コスト関数は、たとえば、フィルタ出力における定常雑音パワー、フィルタ出力における干渉エネルギー、または、推定拡散音の二乗誤差であり得る。Jの例を、これらの実施形態において与える。抑圧ベクトルは、b(k,n)=[B1,m(k,n),B2,m(k,n),...,BM,m(k,n)]によって与えられる。m’番目の要素Bm’,mはマイクロホンmとm’との間の拡散音の相対伝達関数である。この相対伝達関数は以下によって与えられる。
Figure 0006389259
のm番目の要素は1に等しいことに留意されたい。この拘束によって、歪みなしに拡散音が捕捉される。事実、x(k,n)=[X(k,n,d),X(k,n,d),...,X(k,n,d)]を、記録される拡散音を含むベクトルとする。上記式を用いて、このベクトルは、
(数13)
(k,n)=b(k,n)X(k,n,d
と記載することができる。
フィルタの出力における拡散音はw(k,n)x(k,n)によって与えられ、w(k,n)=1であるため、X(k,n,d)と同一である。それゆえ、このフィルタは、歪みなしに拡散音を捕捉する。bにおける相対伝達関数は、基本的にランダムである、すなわち、各kおよびnについて伝達関数には異なる具現化があるため、一般的に実際には推定することができない。したがって、実際には、Bm’,mは、マイクロホンmとm’との間の平均相対伝達関数、すなわち、
(数14)
m’,m(k,n)=γm’,m(k,n)
として計算される。
これは、相対伝達関数γm’,mがマイクロホンmとm’との間の拡散音のいわゆる空間コヒーレンスに対応する。空間コヒーレンスは以下のように定義され、
Figure 0006389259
式中、(・)*は複素共役を示す。この空間コヒーレンスは、周波数領域におけるマイクロホンmとm’との間の拡散音の相関を記述する。このコヒーレンスは、特定の拡散音場に依存する。コヒーレンスは、所与の部屋について前もって測定することができる。代替的に、コヒーレンスは、特定の拡散音場の理論から分かる[Elko2001]。たとえば、実際に仮定され得ることが多い球状等方性拡散音場について、以下のようになり、
Figure 0006389259
式中、sincはシンク関数を示し、fは所与の周波数帯域kの音響周波数であり、cは音声の速度である。その上、γm’,mはマイクロホンmとm’との間の距離である。空間コヒーレンスを、マイクロホン間の拡散音の平均相対伝達関数を表す線形抑圧m’,mとして使用するとき、得られるフィルタは多くの線形抑圧される空間フィルタの合計と等価であり、これらのフィルタの各々が、歪みのないランダムな拡散音の異なる具現化を捕捉する。
上記で紹介した拡散音抑圧によって、すべての方向から等しく良好に拡散音を捕捉する空間フィルタが得られる。これは、主に1つの方向、すなわち、選択される伝搬ベクトルaが対応する方向から音声を捕捉する、上述したマルチチャネルフィルタとは対照的である。
拡散音抑圧は、直接音抑圧およびaとは概念的にかなり異なることに留意されたい。それゆえ、このセクションにおいて提案されている新規のフィルタは、上述したマルチチャネルフィルタと比較して、概念的にかなり異なる。
提案されている発明がブロック形式で図3に示されている。第1に、M個のマイクロホン信号がフィルタバンク(FB)を使用して時間周波数領域(または信号処理に適した別の領域)に変換される(101)。第2に、ブロック(102)において、線形拡散音抑圧ベクトルを計算する。拡散音抑圧ベクトルは、信号から推定されるか、または、たとえば、前述したような特定の仮定される拡散場の理論的空間コヒーレンスに対応するかのいずれかである。ブロック(104)において、マイクロホン信号から特定の統計(たとえば、雑音統計)を推定する。通常はPSD行列Φ(k,n)として表されるこの情報は、フィルタによって最小化されなければならないコスト関数Jを生成するために使用される。拡散音抑圧を受けてコスト関数を最小化するフィルタ重みがブロック(103)において計算される。最後に、重みがマイクロホン信号に適用されて、所望の拡散音推定値がもたらされる。本発明の特定の具現化を、以下の実施形態において提示する。
拡散音抑圧を満足する出力パワーの最小化
この実施形態では、拡散音抑圧を受けてフィルタの出力全体を最小化する空間フィルタを定義する。拡散音抑圧は、残りの信号部分(望ましくない定常雑音および平面波)が最小限に抑えられながら、拡散音が空間フィルタによって保持されることを保証する。フィルタ重みwは、線形抑圧
(数17)
(k,n)=1
を受けて
Figure 0006389259
として計算される。
このフィルタに対する閉形式解は、[VanTrees2002]によって与えられる。
Figure 0006389259
ここで、Φはマイクロホン信号のPSD行列であり、これは
(数20)
Φ(k,n)=E{x(k,n)x(k,n)}
として計算することができ、式中、x(k,n)はマイクロホン信号を含むベクトルである。実際には、この予測は、たとえば、時間平均によって近似される。その上、抑圧ベクトル(k,n)=[B1,m(k,n),B2,m(k,n),...,BM,m(k,n)]の要素は、マイクロホンmとm’との間の拡散音の空間コヒーレンス、すなわち、
(数21)
m’,m(k,n)=γm’,m(k,n)
に対応する。
実際、空間コヒーレンスは前もって推定することができるか、または、理論値を仮定することができるため、空間コヒーレンスBm’,mは時間に依存する(すなわち、Bm’,m(k,n)=Bm’,m(k))必要はない。空間コヒーレンスは、
Figure 0006389259
を使用して(拡散音のみが存在する期間の間に)マイクロホン信号から推定されるか、または、特定の拡散音場を仮定して事前情報として与えられるかのいずれかであり得る。後者の場合、たとえば、球状等方性拡散音場の空間コヒーレンス、すなわち、以下を使用する。
Figure 0006389259
このシンク関数は、仮定される音場に応じて他の関数に置き換えられる場合があることに留意されたい。種々の拡散音場に対して、事前に分かっている種々のコヒーレンス関数が存在する。例は[Elko2001]に見出され得る。
この実施形態は、図3にブロック形式で示されている。フィルタバンクを用いてマイクロホン信号を変換した後(101)、信号統計推定ブロック(104)において、信号PSD行列Φを計算する。その上、ブロック(102)において、この信号から、または、特定の拡散音場を仮定した事前情報を使用してのいずれかで、線形拡散音抑圧ベクトルを計算する。その後、ブロック(103)においてフィルタ重みが計算される。これらの重みをマイクロホン信号と乗算することによって、拡散音の所望の推定値がもたらされる。
この実施形態において計算されるフィルタは、他の空間フィルタ(たとえば、背景技術に記載されているフィルタ)と比較して、以下の利点を有する。
出力信号全体を最小化するため、フィルタは、L個の平面波の減衰と定常雑音との間の最適なトレードオフをもたらす。
必要とされる信号PSD行列Φ、したがってフィルタが、実践において容易に計算される。
L個の平面波のDOA情報が必要ない。
線形抑圧最小分散フィルタ
この実施形態は、図2に関連して上述したマルチチャネルフィルタの、新規の手法と現行の技術水準の手法との組み合わせを表す。この実施形態では、拡散拘束および追加の指向性拘束を受けてフィルタ出力における定常雑音を最小限に抑える線形抑圧空間フィルタを定義する。フィルタ重みwは、線形抑圧
(数24)
(k,n)=1
および
Figure 0006389259
を受けて
Figure 0006389259
として計算される。
明快に、フィルタは、出力において定常雑音のみを最小限に抑える。望ましくない平面波は、第2の線形抑圧(図2のマルチチャネルフィルタについて上記で説明したような)を用いて抑制される。図3による出力パワー最小化フィルタと比較して、これらの追加の拘束は、干渉平面波のさらにより強い抑制を保証する。結果としてもたらされるフィルタは、第1の線形抑圧に起因して依然として拡散音を保持する。実際に計算することができる、このフィルタに対する閉形式解は、以下によって与えられる。
Figure 0006389259
ここで、ベクトルC=[b,a,a,...,a]は、上記で定義された線形抑圧を含む拘束行列であり、g=[1,O](Oは長さLの0ベクトルである)が対応する応答である。図2に示すマルチチャネルフィルタについて、ベクトルaは、Lの平面波のDOAに依存し、引用文献[VanTrees2002]から既知であるように計算することができる、対照的に、bの要素は、マイクロホン間の拡散音の相関またはコヒーレンスを記述する。bの要素は、図3に関連して説明したように計算される。その上、Φは定常雑音のPSD行列である。このPSD行列は、たとえば、音声が中断している間に推定することができる。複数の異なるマイクロホンにおける定常雑音が相互に独立している場合、単純に、ΦをM×Mサイズの恒等行列に置き換えることができる。
この実施形態は、図4にブロック形式で示されている。フィルタバンクを用いてマイクロホン信号を変換した後(101)、雑音統計推定ブロック(104)において、定常雑音のPSD行列Φを計算する。その上、ブロック(102)において、この信号から、または、特定の拡散音場を仮定した事前情報を使用してのいずれかで、線形拡散音抑圧を計算する。ブロック(105)において、L個の平面波のDOAを推定する。この情報から、ブロック(106)において直接音抑圧を計算する。計算された情報はフィルタ計算ブロック(103)に供給され、フィルタ計算ブロックは、上記で提示した閉形式解を用いてフィルタ重みwを計算する。これらの重みをマイクロホン信号と乗算することによって、拡散音の所望の推定値がもたらされる。
このフィルタについて結果としてもたらされる集音パターンの一例が図7に示されている。ここで、2つの直接音が、方位51°および97°から到来する。この図は、5cmのマイクロホン間隔で16個のマイクロホンを有する均一な線形アレイを使用したときに、2.8kHzの周波数において結果としてもたらされる集音パターンを示している。この集音パターンは、まさに51°および97°についてゼロを保持する。それ以外について、これはほぼ全指向性である。これは、図6の空間フィルタをもたらす、図2に示す現行の技術水準の空間フィルタにまさる大きな利点である。
この実施形態において計算されるフィルタは、他の空間フィルタ(たとえば、背景技術に記載されているフィルタ)と比較して、以下の利点を有する。
直接音抑圧に起因して平面波が強く減衰する。
拡散音を捕捉するために所望される、ほぼ全指向性の集音パターン。
組み合わせ手法
図3および図4に示す空間フィルタは、一般的に、実践において良好な性能をもたらす。しかしながら、それらにはまた、特定の欠点もある。たとえば、図3のフィルタは一般的に、直接音を完全には抑制しない。直接音の残りのパワーが、立体音響再生中の望ましくない影響をもたらす可能性がある。対照的に、図4の空間フィルタは、低周波数において定常雑音に対するロバスト性が相対的に乏しい。以下において、図3および図4の空間フィルタを、欠点を軽減しながら両方の空間フィルタの利点を活かすために組み合わせる。結果として、良好な干渉抑制(直接音抑制)および定常雑音に対する高いロバスト性を特徴とする空間フィルタが得られる。
以下において提案される手法は、いわゆる最小平均二乗誤差(MMSE)空間フィルタと図3の空間フィルタとの間でスケーリングすることができる、いわゆるパラメトリックマルチチャネルウィーナーフィルタ(PMWF)を表す。加えて、図4の空間フィルタが、特定の必要とされる量を推定するために使用される。
提案されているPMWFの重みベクトルは、
Figure 0006389259
を受けて
Figure 0006389259
として計算され、式中、σは、推定される拡散音の最大二乗絶対誤差である。
この最適化問題を解くことによって、以下がもたらされる。
Figure 0006389259
式中、以下のように定義される。
Figure 0006389259
ここで、α∈[0,1]はユーザ定義の制御パラメータである。α=0について、推定される拡散音の平均二乗誤差を最小化するMMSE空間フィルタが得られる。α=1について、図3において提案されている空間フィルタが得られる。それらの間のα値について、これら2つの空間フィルタの間のスケーリングが得られる。αが小さくなるほど、より良好な雑音および干渉の抑制がもたらされ、一方で、αが高くなるほど、より歪みの少ない拡散音推定値がもたらされる。bの要素は、図3に関連して説明したように計算されることに留意されたい。拡散音のパワーφは、平面波の非常に良好な抑制をもたらす、図4において提案されている空間フィルタを用いて計算することができる。wが、第1のマイクロホンにおける拡散音を推定するための図4の空間フィルタを示すものとする。wを所与として、第1のマイクロホンにおける拡散音パワーは、たとえば、[Thiergart2013b]に記載されているように、すなわち、以下のように、
Figure 0006389259
または、[Kowalczyk2013]において説明されているような判定指向形手法を用いて得ることができる。先行する式において、Γは、拡散音のM×M空間コヒーレンス行列である。Γの(m,m’)番目の要素は、マイクロホンmとm’との間の空間コヒーレンスγm’,mである。この空間コヒーレンスγm’,mは、上記ですでに定義されている。
この実施形態は、図5にブロック形式で示されている。フィルタバンクを用いてマイクロホン信号を変換した後(101)、ブロック(104)において、マイクロホンPSD行列Φおよび雑音PSD行列Φを計算する。その上、ブロック(102)において、この信号から、または、特定の拡散音場を仮定した事前情報を使用してのいずれかで、線形拡散音抑圧を計算する。ブロック(105)において、L個の平面波のDOAを推定する。この情報から、ブロック(106)において直接音抑圧を計算する。これらの拘束が(107)においてΦとともに使用されて、重みwが計算される。拡散音φのパワーが、(108)においてwおよびΦから計算される。その後、空間フィルタの最終的な重みwを、(103)において、φ、Φ、およびbを使用して計算することができる。パラメータαを用いて、空間フィルタを、MMSEフィルタとPMWFとの間でスケーリングすることができる。重みwをマイクロホン信号と乗算することによって、拡散音の所望の推定値がもたらされる。
図8は、M個のマイクロホンを備えるマイクロホンアレイを概略的に示す。マイクロホンアレイは、直接音部分および拡散音部分を含む音場に晒される。直接音部分は、図8においてはL個の音源Xl=1〜Xl=Lとして表されており、これらの各々が、マイクロホンアレイの位置において実質的に平面波を生成すると仮定される。各平面波(マイクロホンアレイの位置にある)の伝播方向は、図8においてベクトルn〜nによって示されている。直接音部分は一般的に、位置dの関数である。拡散音X(k,n,d)は、たとえば、室内の残響をモデル化することができる。拡散音は、ランダムな位相、ランダムな振幅、およびランダムなDOAを有する平面波の無限和によって生成されると仮定される。これは、拡散音が、音響シーンにわたってランダムに分散している無限数の音源によって生成されることを意味する。これらの音源は、後の残響を生成する無限数の室内反射をモデル化する。
たとえば、m番目のマイクロホンの個々のマイクロホン信号X(k,n)は、L個の直接音部分Xl=1〜Xl=L,、拡散音部分X、および雑音Xの組み合わせであり、すなわち、以下のようになる。
Figure 0006389259
m番目のマイクロホンに対する他のマイクロホン間の拡散音の相対伝達関数B1,m,B2,m,...,Bm’,m,...,BM,mが、図8に概略的に示されている。m番目のマイクロホンからそれ自体への相対伝達関数Bm,m(図8には示されていない)は、一般的に1に等しい。
以下のリストは、上述した態様のいくつかの簡潔な通覧を与える。
少なくとも2つのマイクロホン信号を受信する。
マイクロホン信号を、時間周波数領域または別の適切な領域に変換する。
マイクロホン間の拡散音の相関またはコヒーレンスの関数としての線形拡散音抑圧を計算する。
信号統計および/または雑音統計を計算する。
いくつかの実施形態においては、直接音のDOAを推定し、マイクロホン間の直接音の相対伝達関数を表す直接音抑圧を計算する。
いくつかの実施形態においては、補助フィルタを計算し、拡散音のパワーを推定する。
拡散音抑圧を考慮することによって、得られた信号/雑音統計および任意選択の拡散音パワー情報を使用して拡散音を抽出するための空間フィルタの重みを計算する。
計算された空間フィルタの重みを使用してマイクロホン信号の線形結合を実施する。
いくつかの態様が装置の文脈において説明されているが、これらの態様は対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。
特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。実施態様は、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する(または協働することが可能である)、電子可読制御信号を記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実施することができる。
本発明によるいくつかの実施形態は、本明細書に記載されている方法の1つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有する持続性データキャリアを含む。
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動すると、方法の1つを実施するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
他の実施形態は、機械可読キャリア上に記憶されている、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを含む。
言い換えれば、本発明の方法の一実施形態は、それゆえ、コンピュータプログラムがコンピュータ上で作動すると、本明細書に記載されている方法の1つを実施するためのプログラムコードを有するコンピュータプログラムである。
それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを記録されて含むデータキャリア(またはデジタル記憶媒体、もしくはコンピュータ可読媒体)である。
それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続、たとえば、インターネット上を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載されている方法の1つを実施するように構成または適合されている処理手段、たとえば、コンピュータまたはプログラム可能論理デバイスを含む。
さらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。
いくつかの実施形態において、プログラム可能論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が、本明細書に記載されている方法の機能のいくつかまたはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法の1つを実施するためにマイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。
上述した実施形態は、本発明の原理の例示にすぎない。本明細書に記載されている構成および詳細の修正および変形が当業者には了解されることが理解される。それゆえ、本明細書において実施形態の記述および説明として提示されている特定の詳細によってではなく、添付の特許請求項の範囲にみによって限定されることが意図されている。
引用文献
[Pulkki2007] V.Pulkki,「Spatial sound reproduction with directional audio coding」,J.Audio Eng.Soc,Vol.55,No.6,pp.503−516,June 2007.
[Thiergart2013] O.Thiergart,G.Del Galdo,M.Taseska,and E.Habets,「Geometry−based spatial sound acquisition using distributed microphone arrays」,Audio,Speech,and Language Processing,IEEE Transactions on,Vol.21,No.12,pp.2583−2594,December 2013.
[Kowalczyk2013] K.Kowalczyk,O.Thiergart,A.Craciun,and E.A.P.Habets,「Sound acquisition in noisy and reverberant environments using virtual」,in Applications of Signal Processing to Audio and Acoustics (WASPAA),2013 IEEE Workshop on,October 2013.
[Thiergart2013b] O.Thiergart and E.A.P.Habets,「An informed LCMV filter based on multiple instantaneous direction−of−arrival estimates」,in Acoustics Speech and Signal Processing (ICASSP),2013 IEEE International Conference on,2013,pp.659−663.
[Thiergart2012] O.Thiergart,G.D.Galdo,and E.A.P.Habets,「On the spatial coherence in mixed sound fields and its application to signal−to−diffuse ratio estimation」,The Journal of the Acoustical Society of America,vol.132,no.4,pp.2337−2346,2012.
[VanTrees2002] H.L.Van Trees,Detection,Estimation,and Modulation Theory:Part IV:Array Processing.John Wiley & Sons,April 2002,vol.1.
[Elko2001] G.W.Elko,「Spatial coherence functions for differential micro−phones in isotropic noise fields」,in Microphone Arrays: Signal Processing Techniques and Applications,edited by M.Brandstein and D.Ward,chapter 4,61−85(Springer,Berlin)(2001).

Claims (15)

  1. 拡散音フィルタのためのフィルタ係数を取得する方法であって、
    第1のマイクロホンによって捕捉される第1のマイクロホン信号内の第1の拡散音部分と、既知の様式で前記第1のマイクロホンから離間されている第2のマイクロホンによって捕捉される第2のマイクロホン信号内の第2の拡散音部分との間の空間コヒーレンスに基づいて、前記拡散音フィルタの前記フィルタ係数に対する線形抑圧を規定することと、
    少なくとも1つの直接音の到来する方向、前記第1のマイクロホン信号および前記第2のマイクロホン信号に関する信号統計、ならびに、前記第1のマイクロホン信号および前記第2のマイクロホン信号に関する雑音統計のうちの少なくとも1つを計算することと、
    前記フィルタ係数に対する前記線形抑圧を考慮しながら、前記少なくとも1つの直接音の前記到来する方向、前記信号統計および前記雑音統計の前記少なくとも1つに関する最適化問題を解くことによって、前記拡散音フィルタの前記フィルタ係数を決定することと
    を含むことを特徴とする、拡散音フィルタのためのフィルタ係数を取得する方法。
  2. 前記第1のマイクロホンと前記第2のマイクロホンとの間の拡散音部分の相対伝達関数または相関に基づいて前記空間コヒーレンスを与えることをさらに含む、請求項1に記載の方法。
  3. 前記空間コヒーレンスは、所与の環境に直接音が存在しない期間の間の、前記環境の前記拡散音部分の相対伝達関数または相関の事前測定値に基づく、請求項に記載の方法。
  4. 前記空間コヒーレンスは、拡散音に関する理論的関係に基づき、対応する、仮定される拡散音場は、前記第1のマイクロホンと前記第2のマイクロホンとの間の前記拡散音部分の相関に関する、仮定される理論的特性を有する、請求項に記載の方法。
  5. 前記最適化問題は、前記線形抑圧
    (数1)
    (k,n)=1
    を受けて
    Figure 0006389259
    によって表され、式中、
    w(k,n)は前記拡散音フィルタの前記フィルタ係数のベクトルであり、
    (k,n)はm番目のマイクロホンにおけるマイクロホン信号の評価に基づく前記最適化問題の解であり、
    J(w)はコスト関数であり、
    (k,n)は推定空間コヒーレンスのベクトルであり、前記ベクトルのm’番目の要素は、前記m番目のマイクロホンとm’番目のマイクロホンとの間の拡散音部分の推定空間コヒーレンスであり、
    kは周波数領域インデックスであり、
    nは時間領域インデックスである、
    請求項1〜4のいずれか一項に記載の方法。
  6. 前記コスト関数J(w)は、雑音統計、雑音パワースペクトル密度(PSD)行列、信号統計、またはマイクロホンパワースペクトル密度(PSD)行列の1つに基づく、請求項5に記載の方法。
  7. 少なくとも1つの直接音の到来方向、または、前記第1のマイクロホンと前記第2のマイクロホンとの間の前記少なくとも1つの直接音の相対伝達関数の少なくとも1つを推定することと、
    前記少なくとも1つの直接音の前記到来方向または前記相対伝達関数を使用して少なくとも1つの直接音抑圧を計算することであって、前記少なくとも1つの直接音抑圧の結果として、前記少なくとも1つの直接音が抑制されることになる、計算することと
    をさらに含む、請求項1〜6のいずれか一項に記載の方法。
  8. 前記最適化問題に対する解は以下の通りであり、
    Figure 0006389259
    ここで、
    Figure 0006389259
    式中、
    (k,n)はm番目のマイクロホンにおけるマイクロホン信号の評価に基づく前記最適化問題の解であり、
    (k,n)は推定空間コヒーレンスのベクトルであり、前記ベクトルのm’番目の要素は、前記m番目のマイクロホンとm’番目のマイクロホンとの間の拡散音部分の推定空間コヒーレンスであり、
    α∈[0,1]は、それによって前記拡散音フィルタを、最小平均二乗誤差空間フィルタと、前記拡散音フィルタの前記フィルタ係数に対する線形抑圧を満足する出力パワーを最小化するフィルタとの間でスケーリングすることができる、ユーザ定義の制御パラメータであり、
    φは拡散音パワーであり、
    Φは前記マイクロホン信号のパワースペクトル行列である、
    請求項〜7のいずれか一項記載の方法。
  9. 補助拡散音フィルタに基づいて、前記拡散音パワーφを推定することをさらに含む、請求項8に記載の方法。
  10. 前記拡散音パワーφは以下に基づいて実施され、
    Figure 0006389259
    式中、
    Figure 0006389259
    は、前記拡散音パワーφの推定値を与える推定拡散音パワーであり、
    は前記補助拡散音フィルタのフィルタ係数のベクトルであり、
    Φは前記マイクロホン信号のパワースペクトル密度行列であり、
    Φは前記マイクロホン信号内の雑音のパワースペクトル密度行列であり、
    Γは前記拡散音部分の空間コヒーレンス行列であり、Γの(m,m’)番目の要素はマイクロホンmとm’との間の空間コヒーレンスγm’,mである、請求項9に記載の方法。
  11. 前記拡散音フィルタの前記フィルタ係数を使用して、前記第1のマイクロホン信号と前記第2のマイクロホン信号との線形結合を実施することをさらに含む、請求項1〜10のいずれか一項に記載の方法。
  12. コンピュータまたは信号プロセッサ上で実行されるときに、請求項1〜11のいずれか一項に記載の方法を実施するための、コンピュータプログラムが格納されたコンピュータ可読媒体。
  13. 拡散音フィルタのためのフィルタ係数を取得する装置であって、
    第1のマイクロホンによって捕捉される第1のマイクロホン信号内の第1の拡散音部分と、既知の様式で前記第1のマイクロホンから離間されている第2のマイクロホンによって捕捉される第2のマイクロホン信号内の第2の拡散音部分との間の空間コヒーレンスに基づいて、前記拡散音フィルタの前記フィルタ係数に対する線形抑圧を規定するように構成されている線形抑圧計算器と、
    少なくとも1つの直接音の到来する方向、前記第1のマイクロホン信号および前記第2のマイクロホン信号に関する信号統計、ならびに、前記第1のマイクロホン信号および前記第2のマイクロホン信号に関する雑音統計のうちの少なくとも1つを計算するように構成されている計算器と、
    前記フィルタ係数に対する前記線形抑圧を考慮しながら、前記少なくとも1つの直接音の前記到来する方向、前記信号統計および前記雑音統計の前記少なくとも1つに関する最適化問題を解くことによって、前記拡散音フィルタの前記フィルタ係数を決定するように構成されているフィルタ係数計算器と
    を備えることを特徴とする、拡散音フィルタのためのフィルタ係数を取得する装置。
  14. 前記空間コヒーレンスは、前記第1のマイクロホンと前記第2のマイクロホンとの間の拡散音部分の相対伝達関数に基づく、請求項13に記載の装置。
  15. 前記装置は、
    前記フィルタ係数計算器とは異なる、補助拡散音フィルタの補助フィルタ係数に対する線形抑圧を考慮しながら、異なる最適化問題を解くことによって、前記補助フィルタ係数を決定するように構成されている補助フィルタ係数計算器をさらに備え、
    前記補助拡散音フィルタは、推定拡散音パワーを推定するように構成されており、
    前記フィルタ係数計算器は、前記拡散音フィルタの前記フィルタ係数を決定するときに、前記推定拡散音パワーを考慮に入れるように構成されている、請求項13または14に記載の装置。
JP2016534922A 2013-12-11 2014-12-02 マイクロホンアレイを使用した残響音の抽出 Active JP6389259B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13196672 2013-12-11
EP13196672.3 2013-12-11
EP14156014.4A EP2884491A1 (en) 2013-12-11 2014-02-20 Extraction of reverberant sound using microphone arrays
EP14156014.4 2014-02-20
PCT/EP2014/076252 WO2015086377A1 (en) 2013-12-11 2014-12-02 Extraction of reverberant sound using microphone arrays

Publications (3)

Publication Number Publication Date
JP2017503388A JP2017503388A (ja) 2017-01-26
JP2017503388A5 JP2017503388A5 (ja) 2017-12-07
JP6389259B2 true JP6389259B2 (ja) 2018-09-12

Family

ID=50230835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016534922A Active JP6389259B2 (ja) 2013-12-11 2014-12-02 マイクロホンアレイを使用した残響音の抽出

Country Status (6)

Country Link
US (1) US9984702B2 (ja)
EP (2) EP2884491A1 (ja)
JP (1) JP6389259B2 (ja)
CN (1) CN105981404B (ja)
RU (1) RU2640742C1 (ja)
WO (1) WO2015086377A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
JP6225245B2 (ja) * 2014-02-28 2017-11-01 日本電信電話株式会社 信号処理装置、方法及びプログラム
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
CN112218211B (zh) 2016-03-15 2022-06-07 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
CN105869651B (zh) * 2016-03-23 2019-05-31 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
WO2018053050A1 (en) * 2016-09-13 2018-03-22 VisiSonics Corporation Audio signal processor and generator
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US11528556B2 (en) 2016-10-14 2022-12-13 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
US9813833B1 (en) * 2016-10-14 2017-11-07 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
US10056091B2 (en) * 2017-01-06 2018-08-21 Bose Corporation Microphone array beamforming
US10219098B2 (en) * 2017-03-03 2019-02-26 GM Global Technology Operations LLC Location estimation of active speaker
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
GB2562518A (en) 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
AR112451A1 (es) * 2017-07-14 2019-10-30 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción de campo de sonido multi-punto
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
JP7173356B2 (ja) * 2019-08-08 2022-11-16 日本電信電話株式会社 Psd最適化装置、psd最適化方法、プログラム
JP7173355B2 (ja) * 2019-08-08 2022-11-16 日本電信電話株式会社 Psd最適化装置、psd最適化方法、プログラム
CN112017684B (zh) * 2020-08-27 2022-06-24 北京计算机技术及应用研究所 一种基于麦克风阵列的密闭空间混响消除方法
CN113257270B (zh) * 2021-05-10 2022-07-15 中国科学技术大学 一种基于参考麦克风优化的多通道语音增强方法
CN115862665B (zh) * 2023-02-27 2023-06-16 广州市迪声音响有限公司 一种回声混响效果参数的可视化曲线界面系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
GB0321722D0 (en) * 2003-09-16 2003-10-15 Mitel Networks Corp A method for optimal microphone array design under uniform acoustic coupling constraints
GB0405455D0 (en) * 2004-03-11 2004-04-21 Mitel Networks Corp High precision beamsteerer based on fixed beamforming approach beampatterns
JP4177413B2 (ja) * 2004-07-20 2008-11-05 パイオニア株式会社 音響再生装置および音響再生システム
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
RU2343562C1 (ru) * 2007-04-23 2009-01-10 Федеральное государственное образовательное учреждение высшего профессионального образования "Санкт-Петербургский государственный университет кино и телевидения" "СПбГУКиТ" Способ и электронное устройство оптимизации времени реверберации при передаче звуковых сигналов
US8199942B2 (en) * 2008-04-07 2012-06-12 Sony Computer Entertainment Inc. Targeted sound detection and generation for audio headset
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
WO2011104146A1 (en) * 2010-02-24 2011-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
ES2656815T3 (es) * 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
WO2011129725A1 (en) * 2010-04-12 2011-10-20 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for noise cancellation in a speech encoder
US9100734B2 (en) * 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US9552840B2 (en) * 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2444967A1 (en) * 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
US9549277B2 (en) * 2011-05-11 2017-01-17 Sonicemotion Ag Method for efficient sound field control of a compact loudspeaker array
JP5817366B2 (ja) * 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP5897343B2 (ja) 2012-02-17 2016-03-30 株式会社日立製作所 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
JP5738218B2 (ja) * 2012-02-28 2015-06-17 日本電信電話株式会社 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme

Also Published As

Publication number Publication date
EP2884491A1 (en) 2015-06-17
RU2640742C1 (ru) 2018-01-11
EP3080806B1 (en) 2021-07-28
EP3080806A1 (en) 2016-10-19
US9984702B2 (en) 2018-05-29
US20160293179A1 (en) 2016-10-06
WO2015086377A1 (en) 2015-06-18
JP2017503388A (ja) 2017-01-26
CN105981404B (zh) 2019-06-04
CN105981404A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
JP6389259B2 (ja) マイクロホンアレイを使用した残響音の抽出
US10650796B2 (en) Single-channel, binaural and multi-channel dereverberation
EP2647222B1 (en) Sound acquisition via the extraction of geometrical information from direction of arrival estimates
TWI558228B (zh) 依據空間能量密度定位麥克風之設備及方法
EP3320692B1 (en) Spatial audio processing apparatus
JP6196320B2 (ja) 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法
KR101442377B1 (ko) 음향 입력 신호에 기초하여 공간적 파라미터를 제공하는 공간적 오디오 프로세서 및 방법
JP2017503388A5 (ja)
JP2014502108A (ja) 音響三角測量方式による空間的に選択的な音の取得のための装置および方法
JP4928382B2 (ja) 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
JPWO2018167921A1 (ja) 信号処理装置
BR112016013366B1 (pt) Extração de som reverberante utilizando redes de microfones
CA2772322A1 (en) Multichannel enhancement system for preserving spatial cues

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170421

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170718

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170919

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20171020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180816

R150 Certificate of patent or registration of utility model

Ref document number: 6389259

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250