JP2010233173A - 信号処理装置、および信号処理方法、並びにプログラム - Google Patents

信号処理装置、および信号処理方法、並びにプログラム Download PDF

Info

Publication number
JP2010233173A
JP2010233173A JP2009081379A JP2009081379A JP2010233173A JP 2010233173 A JP2010233173 A JP 2010233173A JP 2009081379 A JP2009081379 A JP 2009081379A JP 2009081379 A JP2009081379 A JP 2009081379A JP 2010233173 A JP2010233173 A JP 2010233173A
Authority
JP
Japan
Prior art keywords
signal
sound source
projection
microphone
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009081379A
Other languages
English (en)
Other versions
JP5229053B2 (ja
Inventor
Atsuo Hiroe
厚夫 廣江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009081379A priority Critical patent/JP5229053B2/ja
Priority to US12/661,635 priority patent/US8577054B2/en
Priority to CN2010101514521A priority patent/CN101852846B/zh
Priority to EP10157330.1A priority patent/EP2237272B1/en
Publication of JP2010233173A publication Critical patent/JP2010233173A/ja
Application granted granted Critical
Publication of JP5229053B2 publication Critical patent/JP5229053B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

【課題】音源分離用マイクとは異なる射影先マイクを設定して射影処理を行なう構成を提供する。
【解決手段】音源分離用マイクが取得した複数音源の混合信号に基づく観測信号に対して独立成分分析(ICA:Independent Component Analysis)を適用して混合信号の分離処理を行い、各音源対応の分離信号を生成する。次に、生成した分離信号と、音源分離用マイクとは異なる射影先マイクの観測信号を入力し、これらの入力信号を適用して射影先マイクが取得すると推定される各音源対応の分離信号である射影信号を生成する。さらに、射影信号による出力デバイスに対する音声データの出力、あるいは音源方向または位置の推定などを可能とした。
【選択図】図7

Description

本発明は、信号処理装置、および信号処理方法、並びにプログラムに関する。さらに、詳細には、複数の音の混合信号を独立成分分析(ICA:Independent Component Analysis)によって音源ごとに分離し、分離結果である分離信号を用いて任意の位置における音信号の解析、例えば任意位置に設置されたマイクロホンの集音信号の解析(マイクロホンへの射影)を行う信号処理装置、および信号処理方法、並びにプログラムに関する。
複数の音の混合信号に含まれる個々の音源信号を分離する技術として独立成分分析(ICA:Independent Component Analysis)が知られている。ICAは多変量分析の一種であり、信号の統計的な性質を利用して多次元信号を分離する手法である。ICA自体の詳細については、例えば非特許文献1[『入門・独立成分分析』(村田昇著、東京電機大学出版局)]などを参照されたい。
本発明は、複数の音が混合した信号を独立成分分析(ICA:Independent Component Analysis)によって音源ごとに分離し、その分離結果である分離信号を用いて、例えば任意の位置に設置されたマイクロホン(以降「マイク」)へ射影することを可能とする技術である。この技術によって、例えば以下のような処理が可能となる。
(1)指向性マイクで収録した音からICAを行ない、その分離結果である分離信号を無指向性マイクへ射影する。
(2)音源分離に適した配置のマイクで収録した音からICAを行ない、その分離結果である分離信号を、音源方向推定または音源位置推定に適した配置のマイクへ射影する。
図1を参照して、音信号のICA、特に時間周波数領域(time−frequency domain)のICAについて説明する。
図1に示すように、N個の音源から異なる音が鳴っていて、それらをn個のマイクで観測するという状況を考える。音源が発した音(原信号)がマイクに届くまでには、時間遅れや反射などがある。従って、マイクjで観測される信号(観測信号)は以下に示す式[1.1]のように、原信号と伝達関数(transfer function)との畳み込み演算(convolution)を全音源について総和した式として表わすことができる。この混合を以下では「畳み込み混合」(convolutive mixtures)と呼ぶ。
また、全てのマイクについての観測信号を一つの式で表わすと、以下に示す式[1.2]のように表わせる。
ただし、x(t),s(t)はそれぞれx(t),s(t)を要素とする列ベクトルであり、A[l]はakj(l)を要素とするn×Nの行列である。以降では、n=Nとする。
時間領域の畳み込み混合は、時間周波数領域では瞬時混合で表わされることが知られており、その特徴を利用したのが時間周波数領域のICAである。
時間周波数領域ICA自体については、非特許文献2[『詳解 独立成分分析』の「19.2.4.フーリエ変換法」]や、特許文献1(特開2006−238409『音声信号分離装置・雑音除去装置および方法』)などを参照されたい。
以下では、主に本発明と関係ある点を説明する。
上記の式[1.2]の両辺を短時間フーリエ変換すると、以下に示す式[2.1]が得られる。
上記式[2.1]において、
ωは周波数ビンの番号(ω=1〜M。Mは周波数ビンの総数)、
tはフレームの番号(t=1〜T。Tはフレームの総数)、
である。
ωを固定すると、この式は瞬時混合(時間遅れのない混合)と見なせる。そこで、観測信号を分離するには、分離結果である分離信号[Y]の算出式[2.5]を用意した上で、分離結果:Y(ω,t)の各成分が最も独立になるように分離行列W(ω)を決める。
従来の時間周波数領域ICAでは、パーミュテーション問題と呼ばれる、「どの成分がどのチャンネルに分離されるか」が周波数ビンごとに異なるという問題が発生していたが、本願と同一発明者による前の特許出願である特許文献1[特開2006−238409『音声信号分離装置・雑音除去装置および方法』]に示した構成によって、このパーミュテーション問題は、ほぼ解決することができた。本発明でもこの方法を用いるため、特許文献1[特開2006−238409]に開示したパーミュテーション問題の解決手法について簡単に説明する。
特許文献1[特開2006−238409]では、分離行列W(ω)を求めるために、以下に示す式[3.1]から式[3.3]までを分離行列W(ω)が収束するまで(または一定回数)繰り返し実行する。
この繰り返し実行を以降では「学習」と呼ぶ。ただし、式[3.1]〜式[3.3]は、全ての周波数ビンに対して行ない、さらに式[3.1]は、蓄積された観測信号の全てのフレームに対しても行なう。また、式[3.2]において、tはフレーム番号であり、<>はある区間内の全フレームについての平均を表わす。Y(ω,t)の右上に示すHはエルミート転置を示している。エルミート転置は、ベクトルや行列の転置を取ると共に、要素を共役複素数に変換する処理である。
分離結果である分離信号Y(t)は式[3.4]で表わされ、分離結果の全チャンネル・全周波数ビンの要素を並べたベクトルである。φω(Y(t))は、式[3.5]で表わされるベクトルである。このベクトルの各要素φω(Y(t))はスコア関数と呼ばれ、Y(t)の多次元(多変量)確率密度関数(PDF)の対数微分である(式[3.6])。多次元PDFとして、例えば式[3.7]で表わされる関数を用いることができ、その場合、スコア関数φω(Y(t))は式[3.9]のように表わせる。ただし、‖Y(t)‖はベクトルY(t)のL−2ノルム(全要素の2乗和を求め、さらに平方根をとったもの)である。L−2ノルムを一般化したL−mノルムは式[3.8]で定義される。式[3.7]および式[3.9]のγは、Y(ω,t)のスケールを調整するための項であり、例えばsqrt(M)(周波数ビン数の平方根)といった適切な正の定数を代入しておく。式[3.3]のηは学習率や学習係数と呼ばれる正の小さな値(例えば0.1程度)である。これは、式[3.2]で計算されたΔW(ω)を分離行列W(ω)に少しずつ反映させるために用いられる。
なお、式[3.1]は一つの周波数ビンにおける分離(図2(a)参照)を表わしているが、全周波数ビンの分離を一つの式で表わす(図2(b)参照)ことも可能である。
そのためには、上述した式[3.4]で表わされる全周波数ビンの分離結果Y(t)および、式[3.11]で表わされる観測信号X(t)、さらに式[3.10]で表わされる全周波数ビン分の分離行列を用いればよく、それらのベクトルと行列を用いることで、分離は式[3.12]のように表わすことができる。本発明の説明においては、必要に応じて式[3.1]と式[3.11]とを使い分ける。
なお、図2に示したX1〜XnおよびY1〜Ynの図はスペクトログラムと呼ばれ、短時間フーリエ変換(STFT)の結果を周波数ビン方向とフレーム方向とに並べたものである。縦方向が周波数ビン、横方向がフレームである。式[3.4]や式[3.11]では低い周波数を上に書いてあるが、スペクトログラムでは低い周波数を下に描いてある。
なお、時間周波数領域のICAにはスケーリングと呼ばれる問題も存在する。これは、分離結果のスケール(振幅)が周波数ビンごとに異なり、それらを適切に調整しない限り、波形に戻したときに周波数間のバランスが原信号とは異なってしまうという問題である。この問題を解決する方法として、次に説明する「マイクへの射影」が考案された。
[マイクへの射影]
ICAの分離結果をマイクに射影(projection back)するとは、ある位置に設定したマイクの集音信号を解析し、その集音信号から各原信号に由来する成分を求めることである。ある原信号に由来する成分とは、仮に音源が一つだけしか鳴っていないときにマイクで観測される信号に等しい。
例えば、信号の分離結果として得られる1つの分離信号Ykが、図1にに示す音源1であるとする。分離信号Ykを各マイク1〜nに射影するとは、仮に音源1だけが鳴っている場合に各マイクで観測される信号を推定することと等価である。なお。射影後の信号は、原信号に対して、位相遅れ・減衰・残響などの影響が含まれるため、射影先のマイクごとに異なる信号となる。
図1のような複数のマイク1〜nを設定した構成では、一つの分離結果に対して射影先が複数(n通り)ある。このように、1つの入力に対して複数の出力を得る信号をSingle Input, Multiple Outputs(SIMO)と呼ぶ。なお、例えば図1のような設定では、音源の数Nに応じて分離結果もn個あるため、射影後の信号は全部でN×n通り存在する。ただし、単にスケーリング問題の解消だけが目的の場合は、どれか一つのマイクへ射影するか、Y1〜Ynをそれぞれマイク1〜マイクnへ射影するだけで十分である。
このように、分離結果をマイクへ射影することで、原信号と似た周波数スケールを持つ信号を得ることができる。このように、分離結果のスケールを調整することをリスケーリング(re−scaling)と呼ぶ。
SIMO形式の信号は、リスケーリング以外の用途にも用いられている。たとえば特許文献2(特開2006−154314号公報)では、2つのマイクで観測した信号を2つのSIMO信号(2つのステレオ信号)へと分離することで、定位感を持った分離結果を得る構成を開示している。さらに、スレテオ信号の分離結果に対してバイナリマスクという別種の音源分離を適用することで、ICAの分離行列の更新間隔よりも短い頻度で音源の変化に追従することを可能にする構成を開示している。
次に、SIMO形式の分離結果を生成する方法について説明する。一つはICAのアルゴリズム自体を工夫し、SIMO形式の分離結果を直接生成するものである。これをSIMO ICAと呼び、特許文献2(特開2006−154314号公報)はこの形式の処理を開示している。
もう一つは、通常の分離結果Y1〜Ynをいったん求めた後、適切な係数を乗じることで各マイクへの射影結果を求めるものである。これを、射影SIMO(Projection−back SIMO)と呼ぶ。以下では、本発明と関連が深い後者の射影SIMO(Projection−back SIMO)について説明する。
なお、例えば以下の文献に、射影SIMO(Projection−back SIMO)についての説明が記載されている。
非特許文献3[Noboru Murata and Shiro Ikeda, "An on−line algorithm for blind source separation on speech signals." In Proceedings of 1998 International Symposium on Nonlinear Theory and its Applications (NOLTA’98), pp.923−926, Crans−Montana, Switzerland, September 1998
(http://www.ism.ac.jp/〜shiro/papers/conferences/nolta1998.pdf)]
非特許文献4[Murata他: "An approach to blind source separation based on temporal structure of speech signals", Neurocomputing, pp.1.24, 2001. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.43.8460&rep=rep1&type=pdf]
本発明と関連が深い後者の射影SIMO(Projection−back SIMO)について説明する。
分離結果Yk(ω,t)をマイクiへ射影した結果をYk[i](ω,t)と書く。分離結果Yk(ω,t)をn個のマイク1〜nへ射影した結果であるYk[1](ω,t)〜Yk[n](ω,t)からなるベクトルは、以下に示す式[4.1]で求めることができる。ただし、この式の右辺の第2項は、前記の式[2.6]のY(ω,t)に対してk番目以外の要素を0とすることで生成されるベクトルであり、「Yk(ω,t)に対応する音源だけが鳴っている状態」を表わしている。分離行列の逆行列は空間の伝達関数を表わすため、結果として式[4.1]は「Yk(ω,t)に対応する音源だけが鳴っている状態で、各マイクが観測する信号」を求める式になっている。
式[4.1]は、式[4.2]のように変形できる。ただしBik(ω)は、分離行列W(ω)の逆行列であるB(ω)の各要素である(式[4.3])。
また、
diag(・)
は、カッコ内の要素を対角要素とする対角行列を表わす。
一方、分離結果、Y1(ω,t)〜Yn(ω,t)をマイクkに射影する式は、式[4.4]である。すなわち、分離結果のベクトルY(ω,t)に射影の係数の行列diag(B1k(ω),...,Bnk(ω))を乗じることで、射影が行われるのである。
[従来技術の問題点]
しかしながら、上記の式[4.1]へ式[4.4]に従った射影処理は、ICAで使用しているマイクへの射影であり、ICAで使用していないマイクへは射影できない。そのため、ICAで使用しているマイクやその配置がその他の処理にとって最適ではない場合に、問題が発生する可能性がある。以下では、その例として次の2点について言及する。
(1)指向性マイクの使用
(2)音源方向推定や音源位置推定との併用
(1)指向性マイクの使用
ICAで複数のマイクを使用する理由は、複数音源の混合の度合いの異なる観測信号を複数、得るためである。その際、混合の度合いが各マイク間で大きく異なる方が、分離にも学習にも都合が良い。すなわち、分離結果における目的信号と消し残りの妨害音との比率(Signal−to−Interference Ratio:SIR)を高くすることができる上に、分離行列を求める学習処理も、少ない回数で収束する。
そのような、混合度合いが大きく異なる観測信号を得るために、指向性マイクを使う方法が提案されている。例えば、特許文献3(特開2007−295085号公報)に記載がある。すなわち、特定の方向の感度が高い(または低い)マイクを用いることで、混合度合いを異ならせる手法である。
しかし、指向性マイクで観測した信号に対してICAを行ない、その分離結果を指向性マイクへ射影すると、問題が生じる。それは、指向性マイクの指向性は周波数によって異なるため、分離結果の音が歪む(原信号の周波数バランスと異なったものになる)可能性があることである。この問題について、図3を用いて説明する。
図3は、簡単な指向性マイク300の構成例を示す図である。指向性マイク300は、2つの集音素子301,302が距離dほど離れて配置された構成を持つ。集音素子301,302各々で観測された信号中、一方の周音素子、図に示す例では周音素子302の観測信号に対して、所定の遅延(D)を発生させる遅延処理部303と、所定のゲイン(a)を作用させる混合ゲイン制御部304を通過させる。このような遅延信号と、集音素子301の観測信号を加算部305において混合すると、方向によって感度の異なる信号306を生成することができる。指向性マイク300は、例えばこのような構成によって、特定方向の音への感度を高めた、いわゆる指向性を実現している。
図3に示す指向性マイク300の構成において、遅延D=d/C(Cは音速)、混合ゲインa=−1とすると、マイクの右側から到来する音に対しては相殺される一方で、左側から到来する音に対しては強調されるような指向性が形成される。d=0.04[m]、C=340[m/s]として、指向性(到来方向と出力ゲインとの関係)を4つの周波数(100Hz,1000Hz,3000Hz,6000Hz)についてプロットした結果を図4に示す。ただしこの図では、左側から到来する音の出力ゲインがちょうど1となるように、周波数ごとにスケールを調整してある。また、図4に示す集音素子401,402は、図3に示す集音素子301,302と同一であるものとする。
この図4に示すように、2つの集音素子401,402の配列方向に相当する左側(指向性マイクの前方)から到来する音(音A)については、各周波数(100〜600Hz)で出力ゲインが1でそろっており、また、2つの集音素子401,402の配列方向に相当する右側(指向性マイクの後方)から到来する音(音B)については、出力ゲインが0でそろっている。しかし、それ以外の方向については、周波数が変化すると出力ゲインが異なる。
また、音の波長がマイク間隔:dの2倍より短い周波数の場合(d=0.04[m],C=340[m/s]の場合なら、4250[Hz]以上の周波数)では、空間エリアシングという現象が発生するため、右側以外にも感度の低い方向が形成される。例えば、図4において、6000Hzに対応した指向性のプロットを見ると、音Cのような斜め方向からの音に対して出力ゲインが0となる。このように、所定の方向以外にも、特定周波数の音の検出が不可能になる観測領域が発生する。
図14において右方向に死角が存在することは、次のような問題を発生させる。すなわち、図3で示される指向性マイク(2つの集音素子で1つのマイクと見なす)を複数用いて観測信号を取得し、それをICAで分離し、さらに分離結果をこの指向性マイクへ射影するという使い方を考えると、このマイクに対して右側に存在する音源(音B)に対応した分離結果については、射影結果はほぼ無音となってしまう。
また、音Cの方向のゲインが周波数によって大きく異なることは、次のような問題を発生させる。すなわち、音Cに対応する分離結果を図14の指向性マイクへ射影すると、3000Hzの成分は、100Hzや1000Hzの成分と比較して強調される一方、6000Hzの成分については抑圧された信号が生成されてしまう。
特許文献3(特開2007−295085号公報)に記載の構成は、前方指向性を持つマイクを放射状に配置し、各音源に最も近い方向を向いたマイクを事前に選択することで、結果として周波数成分の歪みの問題を回避している。しかし、歪みの影響を小さくすることと、混合度合いの大きく異なる観測信号を取得することとを両立させるためには、鋭い指向性を前方に持つマイクをできる限り多くの方向に向けて設置する必要がある。
(2)音源方向推定や音源位置推定との併用
音源方向推定とは、マイクに対して音がどの方向から到来するか(Direction of Arrival:DOA)を推定することである。また、方向だけでなく音源の位置も特定することを、音源位置推定と呼ぶ。方向推定や位置推定は、複数のマイクを用いるという点ではICAと共通点があるが、それらに最適なマイク配置は、ICAに最適なマイク配置と必ずしも一致しない。そのため、音源分離と方向推定(または位置推定)との両方を行なうシステムにおいては、マイクの配置にジレンマが発生する場合がある。
以下では、音源方向推定と位置推定の方法について説明した後、ICAと組み合わせた場合の問題点について述べる。
図5を参照して、ICAの分離結果を各マイクに射影してから音源方向を推定する方法について説明する。なお、この手法は、特許第3881367号に記載の方法と同一である。
2つのマイク502,503が間隔dで設置されている環境を考える。複数音源の混合信号からの分離処理によって得られた1つの音源の分離結果を、図5に示す分離結果Yk(ω,t)501とする。この分離結果Yk(ω,t)501を図5に示すマイクi502とマイクi'503へ射影した結果を、それぞれYk[i](ω,t),Yk[i'](ω,t)とする。マイク間距離dii'に比べて音源とマイク間の距離が十分大きい場合、音波は平面波であると近似できるため、音源Yk(ω,t)からマイクiまでの距離と同音源からマイクi'までの距離との差は、dii'cosθkii'と表すことができる。図5に示す経路差505である。ただし、θkii'は、音源の方向、すなわち、両マイクを結ぶ線分と、音源からマイク間中点への線分とがなす角度である。
音源方向θkii'を求めるためには、射影結果であるYk[i](ω,t)とYk[i'](ω,t)との位相差を求めれば良い。射影結果であるYk[i](ω,t)とYk[i'](ω,t)との関係は、以下に示す式[5.1]によって示される。位相差算出式は、以下に示す式[5.2]および式[5.3]によって示される。
ただし、
angle()は複素数の位相を表わし、
acos()はcos()の逆関数を表わす。
射影を先に説明した式[4.1]で行なう限り、この位相差はフレーム番号tには依らず、分離行列W(ω)にのみ依存した値となるため、音源方向θkii'を計算する式は、式[5.4]のように表わすことができる。
一方、本願と同一出願人の先の出願である特願2008−153483においては、逆行列を用いずに音源方向を計算する方法を説明している。観測信号X(ω,t)と分離結果Y(ω,t)との共分散行列ΣXY(ω)は、音源方向の算出においては分離行列の逆行列であるW(ω)−1と似た性質を持っている。したがって、共分散行列ΣXY(ω)を、以下に示す式[6.1]または式[6.2]で計算すると、音源方向θkii'を式[6.4]で計算することが可能となる。ただし、σik(ω)はΣXY(ω)の成分である。この式を用いることで、逆行列の計算が不要になるだけでなく、リアルタイムで動くシステムにおいては、ICAの分離行列よりも細かい間隔で(最小で1フレームごとに)音源方向を更新することが可能となる。
次に、音源方向から音源の位置を推定する方法について説明する。基本的な考えは、複数のマイクペアについて音源方向が求まれば、三角測量の要領で音源位置が求まるというものである。三角測量による音源位置推定については、たとえば特許文献4(特開2005−49153号公報)などを参照されたい。以下では、図6を用いて、簡単に説明する。
マイク602,603は、図5のマイク502,503と同一である。このマイクペア604に対して音源方向θkii'が求まったとする。そして、両マイクの中点を頂点とし、頂点の角度の半分がθkii'である円錐605を考えると、音源はその円錐の表面のどこかに存在する。マイクペアごとに同様の円錐605〜607を求め、それらの円錐の交点(または円錐の表面同士が最も接近する点)を求めると、そこが音源位置であると推定できる。この手法が三角測量による音源位置推定方法である。
ここで、ICAと、音源方向推定・位置推定とのマイク配置に関する問題点について説明する。大きく分けて、以下の3点である。
a) マイクの本数
b) マイクの間隔
c) 位置の変化するマイク
a)マイクの本数
音源方向推定や位置推定の計算量と、ICAの計算量とを比較すると、ICAの計算量の方がずっと大きい。また、ICAの計算量はマイク数nの2乗に比例するため、計算量の上限からマイクの本数が制限される場合もある。その結果、特に音源位置推定に必要な本数のマイクを確保できないこともありうる。たとえば、マイク数=2の場合、2音源までの分離は可能であり、さらに各音源が特定の円錐の表面に存在しているということまでは推定可能だが、音源の位置は特定できない。
b)マイクの間隔
音源位置推定において、位置を高い精度で推定するためには、マイクペア同士をある程度、例えば音源とマイク間の距離と同程度のオーダーで離すことが望ましい。また、逆に、マイクペアを構成する2つのマイクについては、平面波仮定が成立する程度に接近している方が望ましい。
しかし、ICAにとっては、間隔の離れたマイクを用いることが分離精度の点からは不利となる場合もある。以下は、その点について説明する。
時間周波数領域のICAでの分離は、妨害音の方向に死角(null beam:ゲインが0になる方向)を形成することによって実現されていることが知られている。たとえば、図1の環境において、音源1を分離・抽出する分離行列は、妨害音である音源2〜音源Nの方向に死角を形成することで、結果として、目的音である音源1の方向の信号のみを残している。
死角の個数は、低い周波数ではn−1まで形成可能(nはマイク数)であるが、C/(2d)(Cは音速、dはマイク間隔)を超える周波数においては、空間エリアシングと呼ばれる現象により、所定外の方向にも死角が形成される。例えば図4の6000Hzの指向性プロットを見ると、図4に示す集音素子配列方向の右側(指向性マイクの後方)の音(音B)以外に、(音C)のように斜め方向にも死角が形成されている。これと同様の現象が、分離行列に対しても発生する。マイク間隔dが大きくなるほど、低い周波数から空間エリアシングが発生し始めるようになり、また、高い周波数では所定外の死角が複数形成されるようになる。所定外の死角の方向がたまたま目的音の方向と一致した場合は、分離の精度が低下してしまう。
したがって、ICAで用いるマイクの間隔や配置は、どの程度の高さの周波数まで高精度に分離したいかによって決める必要があり、音源位置推定の精度を確保するための配置とは矛盾する場合もあり得る。
c)位置の変化するマイク
音源方向推定や位置推定では、少なくともマイク同士の相対的な位置関係の情報が既知である必要がある。さらに、位置推定において、マイクから音源への相対的な位置だけでなく、固定された原点(例えば、部屋の隅を原点とする)からの絶対座標も推定する場合は、マイク自体の絶対座標も必要となる。
一方、ICAの分離においては、マイクの位置情報は不要である。(マイク配置によって分離の精度は変わるが、分離や学習の式にマイクの位置情報が含まれているわけではない。)そのため、ICAで使用しているマイクが音源方向推定や位置推定で使用できない場合もあり得る。例えば、テレビに音源分離と音源位置推定の機能を組み込み、ユーザーの声を抽出したり位置を推定したりする場合を考える。その音源位置がテレビ匡体のある一点(例えば画面の中心)を原点とする座標で表現されるとすると、位置推定で使用する各マイクは、原点からの座標が既知である必要がある。例えば、匡体に固定されたマイクであれば、位置は既知である。
一方、音源分離の観点からは、マイクをできるかぎりユーザーに近づけた方が、分離しやすい観測信号が得られる。そのため、マイクはたとえばリモコン上に設置する方が、匡体に設置するよりも望ましい場合もある。しかし、リモコン上のマイクの絶対位置を取得することができない場合は、リモコン上のマイクに由来する分離結果から音源位置を求めることはできない。
上述したように、従来の音源分離処理として独立成分分析(ICA:Independent Component Analysis)を行う場合、ICAに最適なマイク配置の下で、複数の指向性マイクを利用した設定で行われることがある。
しかし、前述したように、指向性マイクを利用した処理結果として得られる分離結果を指向性マイクへ射影すると、図4を参照して説明したように指向性マイクの指向性が周波数によって異なるため、分離結果の音が歪むという問題が発生する。
また、ICAに最適なマイク配置は、音源分離には最適な配置であっても、音源方向推定や音源位置推定に不適切な配置となる場合もある。従って、複数のマイクを複数の位置に設定してICAと音源方向推定や音源位置推定処理を併せて行った場合、音源分離処理、または音源方向や位置推定処理のいずれかの処理の処理精度が低下してしまうという問題がある。
特開2006−238409号公報 特開2006−154314号公報 特開2007−295085号公報 特開2005−49153号公報
『入門・独立成分分析』(村田昇著、東京電機大学出版局) 『詳解 独立成分分析』の「19.2.4.フーリエ変換法」 [Noboru Murata and Shiro Ikeda, "An on−line algorithm for blind source separation on speech signals." In Proceedings of 1998 International Symposium on Nonlinear Theory and its Applications (NOLTA’98), pp.923−926, Crans−Montana, Switzerland, September 1998 (http://www.ism.ac.jp/〜shiro/papers/conferences/nolta1998.pdf)] [Murata他: "An approach to blind source separation based on temporal structure of speech signals", Neurocomputing, pp.1.24, 2001. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.43.8460&rep=rep1&type=pdf]
本発明は、例えば、音源分離処理を独立成分分析(Independent Component Analysis;ICA)に適したマイク設定でICAによる音源分離処理を実行し、かつ、その他の処理、例えばICAに適用したマイク位置以外の位置への射影処理や、音源方向推定や音源位置推定処理を高精度に行うことを可能とする信号処理装置、および信号処理方法、並びにプログラムを提供することを目的とする。
本発明は、例えばICAによる音源分離処理に最適な指向性マイクを用い、ICAに最適な配置でICA処理を行った場合においても、任意位置のマイクへの射影処理を高精度に実現する。さらに、ICAに最適な環境で音源方向推定や音源位置推定処理についても高精度に行うことを可能とする信号処理装置、および信号処理方法、並びにプログラムを提供することを目的とする。
本発明の第1の側面は、
音源分離用マイクが取得した複数音源の混合信号に基づいて生成される観測信号に対して、独立成分分析(ICA:Independent Component Analysis)を適用して前記混合信号の分離処理を行い、各音源対応の分離信号を生成する音源分離部と、
射影先マイクの観測信号と、前記音源分離部の生成した分離信号を入力し、前記射影先マイクが取得する前記各音源対応の分離信号である射影信号を生成する信号射影部を有し、
前記信号射影部は、前記音源分離用マイクとは異なる射影先マイクの観測信号を入力して前記射影信号を生成する信号処理装置にある。
さらに、本発明の信号処理装置の一実施態様において、前記音源分離部は、前記音源分離用マイクの取得信号を時間周波数領域に変換した観測信号に対して独立成分分析(ICA)を実行して時間周波数領域の各音源対応の分離信号を生成し、前記信号射影部は、時間周波数領域の分離信号に射影係数を乗じて算出する各音源対応の射影信号の総和と、前記射影先マイクの観測信号との誤差を最小にする射影係数を算出し、算出した射影係数を前記分離信号に乗じて射影信号を算出する。
さらに、本発明の信号処理装置の一実施態様において、前記信号射影部は、前記誤差を最小にする射影係数の算出処理に最小二乗近似を適用する。
さらに、本発明の信号処理装置の一実施態様において、前記音源分離部は、複数の指向性マイクによって構成された音源分離用マイクの取得信号を入力して、各音源対応の分離信号を生成する処理を実行し、前記信号射影部は、無指向性マイクである射影先マイクの観測信号と、前記音源分離部の生成した分離信号を入力し、無指向性マイクである射影先マイクに対する射影信号を生成する。
さらに、本発明の信号処理装置の一実施態様において、前記信号処理装置は、さらに、複数の無指向性マイクによって構成された音源分離用マイクの取得信号を入力し、2つの無指向性マイクによって構成されるマイクペアの一方のマイクの位相を、前記マイクペアのマイク間距離に応じて遅らせて仮想的な指向性マイクの出力信号を生成する指向性形成部を有し、前記音源分離部は、前記指向性形成部の生成した出力信号を入力して前記分離信号を生成する。
さらに、本発明の信号処理装置の一実施態様において、前記信号処理装置は、さらに、前記信号射影部において生成された射影信号を入力し、複数の異なる位置の射影先マイクの射影信号の位相差に基づいて音源方向の算出処理を行う音源方向推定部を有する。
さらに、本発明の信号処理装置の一実施態様において、前記信号処理装置は、さらに、前記信号射影部において生成された射影信号を入力し、複数の異なる位置の射影先マイクの射影信号の位相差に基づいて音源方向の算出処理を行い、さらに、複数の異なる位置の射影先マイクの射影信号によって算出された音源方向の組み合わせデータに基づいて音源位置を算出する音源位置推定部を有する。
さらに、本発明の信号処理装置の一実施態様において、前記信号処理装置は、さらに、前記信号射影部において生成された射影係数を入力して、該射影係数を適用した演算を実行して音源方向または音源位置の算出処理を行う音源方向推定部を有する。
さらに、本発明の信号処理装置の一実施態様において、前記信号処理装置は、さらに、前記射影先マイクに対応する位置に設定された出力デバイスと、前記出力デバイスの位置に対応する射影先マイクの射影信号を出力する制御を行う制御部を有する。
さらに、本発明の信号処理装置の一実施態様において、前記音源分離部は、少なくとも一部が異なる音源分離用マイクによって取得された信号を入力して分離信号を生成する複数の音源分離部によって構成され、前記信号射影部は、前記複数の音源分離部の生成した個別の分離信号と、射影先マイクの観測信号を入力して音源分離部対応の複数の射影信号を生成し、生成した複数の射影信号を合成して前記射影先マイクに対応する最終的な射影信号を生成する。
さらに、本発明の第2の側面は、
信号処理装置において実行する信号処理方法であり、
音源分離部が、音源分離用マイクが取得した複数音源の混合信号に基づいて生成される観測信号に対して、独立成分分析(ICA:Independent Component Analysis)を適用して前記混合信号の分離処理を行い、各音源対応の分離信号を生成する音源分離ステップと、
信号射影部が、射影先マイクの観測信号と、前記音源分離部の生成した分離信号を入力し、前記射影先マイクが取得する前記各音源対応の分離信号である射影信号を生成する信号射影ステップを有し、
前記信号射影ステップは、前記音源分離用マイクとは異なる射影先マイクの観測信号を入力して前記射影信号を生成する信号処理方法にある。
さらに、本発明の第3の側面は、
信号処理装置において信号処理を実行させるプログラムであり、
音源分離部に、音源分離用マイクが取得した複数音源の混合信号に基づいて生成される観測信号に対して、独立成分分析(ICA:Independent Component Analysis)を適用して前記混合信号の分離処理を行い、各音源対応の分離信号を生成させる音源分離ステップと、
信号射影部に、射影先マイクの観測信号と、前記音源分離部の生成した分離信号を入力し、前記射影先マイクが取得する前記各音源対応の分離信号である射影信号を生成させる信号射影ステップを有し、
前記信号射影ステップは、前記音源分離用マイクとは異なる射影先マイクの観測信号を入力して前記射影信号を生成させるステップであるプログラムにある。
なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な各種の情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体などによって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、各種の情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例によれば、音源分離用マイクが取得した複数音源の混合信号に基づく観測信号に対して独立成分分析(ICA:Independent Component Analysis)を適用して混合信号の分離処理を行い、各音源対応の分離信号を生成する。次に、生成した分離信号と、音源分離用マイクとは異なる射影先マイクの観測信号を入力し、これらの入力信号を適用して射影先マイクが取得すると推定される各音源対応の分離信号である射影信号を生成する。さらに、射影信号による出力デバイスに対する音声データの出力、あるいは音源方向または位置の推定などを可能とするものである。
N個の音源から異なる音が鳴っていて、それらをn個のマイクで観測するという状況について説明する図である。 周波数ビンにおける分離(図2(A))と、全周波数ビンの分離処理(図2(B))について説明する図である。 簡単な指向性マイクの構成例を示す図である。 指向性(到来方向と出力ゲインとの関係)を4つの周波数(100Hz,1000Hz,3000Hz,6000Hz)についてプロットした結果を示す図である。 ICAの分離結果を各マイクに射影してから音源方向を推定する方法について説明する図である。 三角測量による音源位置推定について説明する図である。 本発明の実施例1に係る信号処理装置の構成を示す図である。 図7に示す信号処理装置700の指向性マイク701と無指向性マイク702の配置例について説明する図である。 本発明の実施例2に係る信号処理装置の構成を示す図である。 図9に示す信号処理装置900の構成に対応したマイク配置の例と、マイクの指向性の形成方法について説明する図である。 本発明の実施例3に係る信号処理装置の構成を示す図である。 図11に示す信号処理装置1100の構成に対応したマイク配置の例について説明する図である。 図11に示す信号処理装置1100の構成に対応したマイク配置の例について説明する図である。 音源分離部の一構成例を示す図である。 信号射影部の構成例を示す図である。 信号射影部の構成例を示す図である。 音源分離用マイクの取得データに基づく分離結果を適用して射影先マイクへの射影処理を行う際の処理シーケンスを説明するフローチャートを示す図である。 分離結果の射影と音源方向推定(または位置推定)を併せて行う処理のシーケンスについて説明するフローチャートを示す図である。 音源分離処理のシーケンスについて説明するフローチャートを示す図である。 射影処理のシーケンスについて説明するフローチャートを示す図である。 本発明の信号処理装置の実施例4のマイクおよび出力デバイスの第1の配置例を示す図である。 本発明の信号処理装置の実施例4のマイクおよび出力デバイスの第2の配置例を示す図である。 複数の音源分離システムを有する信号処理装置構成を示す図である。 複数の音源分離システムを有する信号処理装置の処理例について説明する図である。
以下、図面を参照しながら本発明の信号処理装置、および信号処理方法、並びにプログラムの詳細について説明する。説明は、以下の項目に従って行う。
1.本発明の処理の概要
2.ICAの適用マイクとは異なるマイクへの射影処理とその原理について
3.ICAの適用マイクとは異なるマイクへの射影処理の処理例(実施例1)
4.無指向性マイクを複数用いて仮想的な指向性マイクを構成した実施例(実施例2)
5.音源分離処理の分離結果の射影処理と、音源方向推定または位置推定とを併せて行う処理例(実施例3)
6.本発明の信号処理装置を構成するモジュールの構成例について
7.信号処理装置の実行する処理シーケンスについて
8.本発明の信号処理装置のその他の実施例
8.1.信号射影部の射影係数行列P(ω)算出処理における逆行列演算を省略した実施例
8.2.音源分離処理による分離結果を、特定の配置のマイクへ射影する処理を行う実施例(実施例4)
8.3.複数の音源分離システムを適用した実施例(実施例5)
9.本発明の信号処理装置の特徴および効果についてのまとめ
[1.本発明の処理の概要]
前述したように、従来の音源分離処理として独立成分分析(ICA:Independent Component Analysis)を行う場合、ICAに最適なマイク配置の下で、複数の指向性マイクを利用した設定で行うことが好ましい。
しかし、
(1)指向性マイクを利用した処理結果として得られる分離結果である分離信号を指向性マイクへ射影すると、図4を参照して説明したように指向性マイクの指向性が周波数によって異なるため、分離結果の音が歪むという問題が発生する。また、
(2)ICAに最適なマイク配置は、音源分離には最適な配置であっても、音源方向推定や音源位置推定には不適切な配置となる場合も多い。
このように、ICAに最適なマイクと位置に設定したICA処理と、他の処理をいずれも構成度に行うことは困難となるという問題がある。
本発明は、ICAによって生成した音源分離結果を、ICAで使用していないマイクの位置へ射影することを可能として、上記の問題点を解決する。
すなわち、(1)の指向性マイクの問題については、指向性マイクに由来する分離結果を、無指向性マイクへ射影すればよい。また、(2)のICAと音源方向・位置推定とのマイク配置の矛盾も、ICAに適したマイク配置で分離結果を生成し、それを音源方向・位置推定に適した配置のマイク(または、位置の分かっているマイク)へ射影すれば解決する。
このように、本発明は、ICAの適用マイクとは異なるマイクへ射影することを可能とする構成を持つ。
[2.ICAの適用マイクとは異なるマイクへの射影処理とその原理について]
まず、ICAの適用マイクとは異なるマイクへ射影する処理とその原理について説明する。
ICAで使用するマイクで観測された信号を時間周波数領域に変換したデータをX(ω,t)、その分離結果(分離信号)をY(ω,t)とする。これらは、先に説明した数式[2.1]〜[2.7]で示される従来法と同一である。すなわち、
観測信号の時間周波数領域変換データ:X(ω,t)、
分離結果:Y(ω,t)
分離行列:W(ω)
とした場合、
Y(ω,t)=W(ω)X(ω,t)
の関係がある。なお、分離結果Y(ω,t)は、リスケーリング前のものでもリスケーリング後のものでも構わない。
次に、ICAの分離結果を利用して任意位置のマイクに射影する処理を行う。なお、前述したように、ICA分離結果をマイクに射影(projection back)する処理は、ある位置に設定したマイクの集音信号を解析し、その集音信号から各原信号に由来する成分を求める処理である。ある原信号に由来する成分とは、仮に音源が一つだけしか鳴っていないときにマイクで観測される信号に等しい。
射影処理は、射影先マイクの観測信号と、音源分離処理によって生成された分離結果(分離信号)を入力して、射影先マイクが取得する各音源対応の分離信号である射影信号(射影結果)を生成する処理として行われる。
射影先のマイクの一つで観測された観測信号(時間周波数領域版)をX'k(ω,t)とする。射影先のマイクの個数をmとし、各マイク1〜mの観測信号(時間周波数領域版)をX'1(ω,t)〜X'm(ω,t)を要素とするベクトルを、以下の式[7.1]に示すベクトル:X'(ω,t)とする。
ベクトル:X'(ω,t)の要素は、ICAで使用しないマイクだけから構成されていても良いし、ICAで使用するマイクが混在していても構わない。ただし、ICAで使用しないマイクを少なくとも一つ含む。なお、従来の処理法は、ICAで使用するマイクだけからX'(ω,t)が構成されている場合に相当する。
なお、ICAで指向性マイクを用いる場合、指向性マイクの出力は「ICAで使用するマイク」に含まれるが、指向性マイクを構成する各集音素子は「ICAで使用しないマイク」として扱うことができる。たとえば図3を参照して説明した指向性マイク300をICAにおいて利用する場合、指向性マイク300の出力306は、観測信号(時間周波数領域版)X(ω,t)の要素であるが、集音素子301または集音素子302各々において個別に観測された信号自体は、「ICAで使用しないマイク」の観測信号X'k(ω,t)として用いることができる。
分離結果Yk(ω,t)を、「ICAで使用しないマイク」(以降、マイクi)へ射影した結果、すなわち射影結果(射影信号)をYk[i](ω,t)と表記する。なお、マイクiの観測信号はX'i(ω,t)である。
ICAによる分離結果(分離信号)Yk(ω,t)のマイクiへの射影結果(射影信号)Yk[i](ω,t)は以下の手順で計算することができる。
ICAによる分離結果Yk(ω,t)からマイクiへの射影の係数をPjk(ω)とすると、射影は、前記の式[7.2]で表すことができる。ここで、係数Pjk(ω)を求めるには、最小二乗近似を行なえば良い。すなわち、各分離結果からマイクiへの射影結果を総和した信号を用意し(式[7.3])、それとマイクiの観測信号との平均二乗誤差(式[7.4])が最小になるように係数を決めれば良い。
前述したように、音源分離処理においては、音源分離用マイクの取得信号を時間周波数領域に変換した観測信号に対して独立成分分析(ICA)を実行して時間周波数領域の各音源対応の分離信号を生成している。信号射影処理では、この時間周波数領域の分離信号に射影係数を乗じて各音源対応の射影信号を算出することになる。
この射影係数Pjk(ω)は、各音源対応の射影信号の総和と、射影先マイクの観測信号との誤差を最小にする射影係数として算出する。この射影係数の算出処理には、例えば最小二乗近似を適用することができる。各分離結果からマイクiへの射影結果を総和した信号を用意し(式[7.3])、それとマイクiの観測信号との平均二乗誤差(式[7.4])が最小になるように係数を決めれば良い。算出した射影係数を分離信号に乗じることで射影結果(射影信号)を算出することができる。
具体的な処理について説明する。射影の係数からなる行列をP(ω)とする(式[7.5])。P(ω)は、式[7.6]で計算できる。または、先に説明した式[3.1]の関係を用いて変形した式[7.7]を用いてもよい。
jk(ω)が求まったため、式[7.2]を用いて射影結果を計算することができる。あるいは、式[7.8]または式[7.9]を用いてもよい。
式[7.8]は、分離結果の1チャンネル分を各マイクへ射影する式、
式[7.9]は、各分離結果を特定のマイクへ射影する式である。
さらに式[7.9]は、射影の係数を反映させた新たな分離行列W[k](ω)を用意することで(式[7.11])、式[7.10]のようにも表せる。すなわち、射影前の分離結果Y(ω,t)を生成することなく、射影後の分離結果Y'(ω,t)を観測信号X(ω,t)から直接生成することも可能である。
なお、式[7.7]において、
X'(ω,t)=X(ω,t)
とすると、すなわち、ICAで使用しているマイクのみへ射影すると、P(ω)はW(ω)−1と同一となる。つまり、従来法の射影SIMO(Projection−back SIMO)は、本発明で用いている方法の特別な場合に相当する。
ICAに適用したマイクからどの程度離れたマイクに射影できるかは、短時間フーリエ変換の1フレームに相当する時間に音がどれだけの距離を移動できるかによる。たとえば、16kHzでサンプリングした観測信号を512ポイントのフレームで短時間フーリエ変換した場合、1フレームは、
512/16000=0.032秒
である。
音速を音速C=340[m/s]とすると、この時間[0.032秒]で音は約10m移動する。従って、本発明の方法を用いれば、ICAに適用したマイクから約10m程度離れたマイクへの射影が可能となる。
なお、射影係数行列P(ω)(式[7.5])は、式[7.6]、または、式[7.7]を用いて計算することができるが、これらの式[7.6]、または、式[7.7]には逆行列が含まれ、計算量が大きくなる。この計算量の削減のために、以下の式[8.1]または式[8.2]を用いて射影係数行列P(ω)を算出する構成としてもよい。
なお、上記式[8.1]〜[8.4]用いた処理については、後段の[8.本発明の信号処理装置のその他の実施例]の項目において詳しく説明する。
[3.ICAの適用マイクとは異なるマイクへの射影処理の処理例(実施例1)]
次に、図7〜図10を参照して本発明の実施例1について説明する。
実施例1は、ICAの適用マイクとは異なるマイクへの射影処理を行う実施例である。
図7は、本発明の実施例1に係る信号処理装置の構成を示す図である。図7に示す信号処理装置700は独立成分分析(ICA:Independent Component Analysis)による音源分離処理に適用するマイクを指向性マイクとしている。指向性マイクで観測した信号で音源分離処理を行ない、その結果を無指向性マイクへ射影する処理を行う信号処理装置である。
マイクロホンは、音源分離の入力として用いる複数の指向性マイクロホン701と、射影先として用いる1以上の無指向性マイクロホン702からなる。マイクロホンの配置については後述する。各マイクロホンは、AD変換・STFT部73に接続され、そこでサンプリング(AD変換)と短時間フーリエ変換(Short−time Fourier Transform:STFT)とが行なわれる。
信号の射影には、各マイクで観測される信号の位相差が重要な意味を持つため、各AD変換・STFT部703において実行するAD変換は共通のクロックでサンプリングを行う必要がある。そのため、クロック供給部704でクロックを生成し、生成したクロック信号を、各マイクの入力信号の処理を行うそれぞれのAD変換・STFT部703へ入力し、それぞれのAD変換・STFT部703において実行するサンプリング処理の同期化を実行する。AD変換・STFT部703において短時間フーリエ変換(STFT)が行なわれた後の信号は、周波数領域の信号、すなわちスペクトログラムである。
音源分離処理に適用する音声信号を取得する複数の指向性マイクロホン701の観測信号は、AD変換・STFT部703a1〜703anに入力され、AD変換・STFT部703a1〜703anは入力信号に基づいて観測信号スペクトログラムを生成して音源分離部705に入力する。
音源分離部705では、ICAの技術を用いて、指向性マイクに由来する観測信号スペクトログラムから、各音源に対応した分離結果スペクトログラムと、そのような分離結果を生成する分離行列とを生成する。詳細は後述する。この段階の分離結果は、マイクへの射影が行なわれる前のものである。
一方、射影先として用いる1以上の無指向性マイクロホン702の観測信号はAD変換・STFT部703b1〜703bmに入力され、AD変換・STFT部703b1〜703bmは入力信号に基づいて観測信号スペクトログラムを生成し信号射影部706に入力する。
信号射影部706では、音源分離部705で生成された分離結果(または、観測信号と分離行列)と、射影先マイク702に対応した観測信号とを用いて、分離結果を無指向性マイク702へ射影する。詳細は後述する。
射影後の分離結果は、必要に応じて、後段の処理を行う後段処理部707へ送られたり、スピーカー等のデバイスから出力されたりする。後段処理部707の実行する後段の処理としては、例えば音声認識処理などがある。一方、スピーカー等のデバイスから出力する場合は、逆FT・DA変換部708によって逆フーリエ変換(FT)やDA変換を行ない、その結果である時間領域のアナログ信号を、スピーカーやヘッドホン等の出力デバイス709から出力する。
なお、各処理部の制御は、制御部710によって行われる。以降の構成図においては制御部についての記載は省略するが、以下において説明する処理は制御部による制御がなされるものとする。
図7に示す信号処理装置700の指向性マイク701と無指向性マイク702の配置例について、図8を参照して説明する。この図8に示す例は、4本の指向性マイク801(801a〜801d)の観測信号に基くICA処理によって得られる分離結果を、2つの無指向性マイク803(803p,803q)へ射影する例である。2つの無指向性マイク803p,803qを、ちょうど人間の両耳と同程度に離して設置すれば、バイノーラル(binaural:両耳で観測された音信号)に近い音源分離結果が得られる。
指向性マイク801(801a〜801d)は4本の指向性マイクであり、真上から見てそれぞれ上下左右の方向に感度の高い方向802を向けて設置してある。指向性マイクとしては、矢印と逆方向に死角を持つようなタイプ(例えば図4に示すような指向特性を持つマイク)のものでも構わない。
指向性マイクとは別に、射影先である無指向性マイク803(803p,803q)も用意する。このマイクの個数や位置によって、どのような射影結果が得られるかが異なる。図8に示すように、射影先である無指向性マイク803(803p,803q)を、左右の指向性マイク801a,801cの先端とほぼ同じ位置に設置した場合は、ちょうどその位置に人間の両耳があるのとほぼ等価なバイノーラル信号が得られる。
なお、図8では射影先の無指向性マイクの個数は2個のマイク803p,803qとしているが、射影先の無指向性マイクの個数は2個に限らない。単に周波数特性が平坦な分離結果を得るのが目的であれば、無指向性マイクは一つで良い。逆に、音源分離で使用するマイクよりも多くても構わない。射影先マイクを増やした例は、変形例で説明する。
[4.無指向性マイクを複数用いて仮想的な指向性マイクを構成した実施例(実施例2)]
図7に示す信号処理装置700の構成では、音源分離で使用する指向性マイク701と射影先である無指向性マイク702とを、それぞれ個別に設定した構成であるが、無指向性マイクを複数用いて仮想的な指向性マイクを構成するようにすれば、両マイクを共用することができる。そのような構成を図9および図10を参照して説明する。なお、以降の説明では、無指向性マイクを「集音素子」、複数の集音素子で形成される指向性を「(仮想的な)指向性マイク」と表現する。例えば、先に図3を参照して説明した指向性マイクは、2つの集音素子を用いて1つの仮想的な指向性マイクを形成している。
図9に示す信号処理装置900は、集音素子を複数使用した構成である。集音素子は、射影に使用される集音素子902と、射影には使用されない、すなわち音源分離のみに使用される集音素子901とに分類される。なお、図9に示す信号処理装置900も図7に示す装置と同様、各処理部の制御を行う制御部を有しているが、図では省略してある。
各集音素子901,902で観測された信号は、AD変換・STFT部903(903a1〜903an,903b1〜903bm)によって時間周波数領域の信号に変換される。図7を参照して説明した構成と同様、信号の射影には、各マイクで観測される信号の位相差が重要な意味を持つため、各AD変換・STFT部903において実行するAD変換は共通のクロックでサンプリングを行う必要がある。そのため、クロック供給部904でクロックを生成し、生成したクロック信号をAD変換・STFT部903へ入力してサンプリング処理の同期化を実行する。AD変換・STFT部903において短時間フーリエ変換(STFT)が行なわれ周波数領域の信号、すなわちスペクトログラムが生成される。
AD変換・STFT部903(903a1〜903an,903b1〜903bm)の生成する各集音素子の観測信号(STFT結果である時間周波数領域信号)からなるベクトルをO(ω,t)911とする。各集音素子901に由来する観測信号は、指向性形成部905によって、複数の仮想的な指向性マイクで観測された信号へ変換される。詳細は後述する。変換結果からなるベクトルを、X(ω,t)912とする。音源分離部906では、仮想的な指向性マイクによる観測信号X(ω,t)912から、各音源に対応した分離結果(射影前)および分離行列を生成する。
音源分離に使用され、かつ射影対象となる集音素子902に由来する観測信号は、AD変換・STFT部903(903b1〜903bm)から信号射影部907へも送られる。これらの集音素子902に由来する観測信号からなるベクトルを、X'(ω,t)913とする。信号射影部907では、音源分離部906からの分離結果(または観測信号X(ω,t)と分離行列)と、射影先集音素子902の観測信号X'(ω,t)913とを用いて、分離結果の射影を行なう。
信号射影部907、後段処理部908、逆FT・DA変換部909、出力デバイス910の処理および構成は、先に図7を参照して説明した処理および構成と同一であるため、説明を省略する。
次に、図9に示す信号処理装置900の構成に対応したマイク配置の例と、マイクの指向性の形成方法について、図10を用いて説明する。
図10に示すマイク配置構成では、集音素子1,1001〜集音素子5,1005の5個の集音素子が十字型に配置されている。これらはすべて、図9の信号処理装置900の音源分離処理に適用する集音素子に相当する。また、音源分離処理に適用するとともに、射影先としても使用される集音素子、すなわち、図9に示す集音素子902を集音素子2,1002と集音素子5,1005とする。
なお、中央に示す集音素子3,1003以外の周囲の4つの集音素子は、集音素子3,1003とペアで使用することで、各方向へ指向性を形成する。例えば、集音素子1,1001と集音素子3,1003とを用いて、この図において上方向へ指向性を持つ(下方向に死角を持つ)仮想的な指向性マイク1,1006を形成する。すなわち、5個の集音素子1,1001〜集音素子5,1005を用いて、4本の仮想的な指向性マイク1,1006〜4,1009で観測したのと等価な観測信号を生成するのである。指向性の形成方法は後述する。
また、射影先のマイクとして、集音素子2,1002と集音素子5,1005とを使用する。この2つは、図9の集音素子902に相当する。
ここで、図10に示す5つの集音素子1,1001〜集音素子5,1005から4つの指向性を形成する方法について、以下に示す式[9.1]〜[9.4]を参照して説明する。
各集音素子の観測信号(時間周波数領域)をO(ω,t)〜O(ω,t)とし、それらを要素とするベクトルをO(ω,t)とする(式[9.1])。
集音素子のペアから指向性を形成するには、図3と同じ方法を用いればよい。時間周波数領域で遅延を表わすには、式[9.3]で表わされるD(ω,dki)を観測信号の一方に乗じる。その結果、4つの仮想的な指向性マイクで観測される信号であるX(ω,t)は、式[9.2]で表すことができる。
式[9.3]で表わされるD(ω,dki)を観測信号の一方に乗じる処理は、集音素子のペアの集音素子間の距離に応じて位相を遅らせる処理に対応し、結果として、図3を参照して説明した指向性マイク300と同様の出力を算出することができる。図9に示す信号処理装置900の指向性形成部は、このようにして生成した信号を音源分離部906に出力する。
なお、射影先マイクの観測信号からなるベクトルX'(ω,t)は、集音素子2,1001と集音素子5,1005の観測信号であるため、式[9.4]で表せる。X(ω,t)とX'(ω,t)とが求まったため、以降は、X(ω,t)とX'(ω,t)とで別個のマイクを用いた場合と同様に、先に説明した式[7.1]〜式[7.11]を用いて射影を行なうことができる。
[5.音源分離処理の分離結果の射影処理と、音源方向推定または位置推定とを併せて行う処理例(実施例3)]
次に、図11〜図13を参照して本発明の実施例3について説明する。
実施例3は、音源分離処理の分離結果の射影処理と、音源方向推定または位置推定とを併せて行う処理例である。
本実施例の信号処理装置の構成例について図11を参照して説明する。この図11に示す信号処理装置1100の構成も、図7、図9を参照して説明した信号処理装置と同様、マイクは音源分離で使用する音源分離用マイク1101と、射影先専用として使用する射影先物専用マイク1102を用いる。設置位置の詳細は後述する。なお、図11に示す信号処理装置1100も図7に示す装置と同様、各処理部の制御を行う制御部を有しているが、図では省略してある。
音源分離で使用する音源分離用マイク1101の一部または全部を射影先マイクと兼用してもよいが、音源分離には使用されない、射影先専用のマイクを少なくとも1つは用意する。
AD変換・STFT部1103およびクロック供給部1104の機能は、図7、図9を参照して説明したAD変換・STFT部およびクロック供給部と同一である。
音源分離部1105および信号射影部1106の機能も、それぞれ、図7、図9を参照して説明した音源分離部および信号射影部と同一である。ただし、信号射影部1106へ入力する観測信号には、射影先専用マイク1102で観測されたものの他に、音源分離で使用するマイク1101の内で射影先も兼ねるものも含まれる。(具体例は後述する。)
信号射影部の処理結果を用いて、音源方向(または位置)推定部1108において、各音源に対応した方向または位置を推定する。処理の詳細は後述する。その結果、音源方向または音源位置1109が得られる。
信号統合部1110は省略可能なモジュールである。これは、音源方向(または位置)1109と、信号射影部で得られた射影結果1107とを統合し、「どの音がどの方向(または位置)から鳴っているか」という結果を生成する。
次に、図11に示す信号処理装置1100、すなわち、音源分離処理によって得られる分離結果を射影する処理と、音源方向推定または位置推定とを併せて行う信号処理装置1100のマイク配置例について図12を参照して説明する。
マイク配置は、音源方向推定または位置推定を可能とした設定とすることが必要である。具体的には、先に図6を参照して説明した三角測量による位置推定を可能にする配置である。
図12には8個のマイク1201〜1208を示している。マイク1,1201と、マイク2,1202は音源分離処理のみに使用する。マイク5,1205〜マイク8,1208は射影先とし、かつ位置推定処理に使用する。残るマイク3,1203、マイク4,1204は、音源分離処理および位置推定処理の両方で使用する。
すなわち、マイク1,1201〜マイク4,1204の4つのマイクによる観測信号で音源分離を行ない、その結果をマイク5,1205〜マイク8,1208へ射影する。
各マイク1,1201〜マイク8,1208各々の観測信号をO(ω,t)〜O(ω,t)とすると、音源分離用の観測信号X(ω,t)は、以下に示す式[10.2]で示される。また、射影用の観測信号X'(ω,t)は式[10.3]で表される。X(ω,t)とX'(ω,t)とが求まったため、以降は、X(ω,t)とX'(ω,t)とで別個のマイクを用いた場合と同様に、先に説明した式[7.1]〜式[7.11]を用いて射影を行なうことができる。
例えば、図12に示すマイクペア1,1212、マイマペア2,1213〜マイクペア3,1214、これらの3つのマイクペアを設定する。1つのマイクペアを構成する各マイクの射影結果としての音源分離結果(射影結果)を用いれば、先に図5を参照して説明した処理に従って、音源方向(角度)を求めることができる。
すなわち、隣接するマイク同士でペアを構成して、それぞれで音源の方向を求める。図11に示す音源方向(または位置)推定部1108は、信号射影部1106において生成された射影信号を入力し、複数の異なる位置の射影先マイクの射影信号の位相差に基づいて音源方向の算出処理を行う。
先に説明したように、音源方向θkii'を求めるためには、射影結果であるYk[i](ω,t)とYk[i'](ω,t)との位相差を求めれば良い。射影結果であるYk[i](ω,t)とYk[i'](ω,t)との関係は、先に説明した式[5.1]によって示される。位相差算出式は、先に説明した式[5.2]および式[5.3]によって示される。
さらに、音源方向(または位置)推定部1108は、複数の異なる位置の射影先マイクの射影信号によって算出された音源方向の組み合わせデータに基づいて音源位置を算出する。この処理は、先に図6を参照して説明したと同様の三角測量の原理による音源位置の特定処理である。
図12に示す設定では、3つのマイクペア、すなわちマイクペア1,1212、マイマペア2,1213〜マイクペア3,1214、これらの3つのマイクペアの各々、個別にそれぞれ音源方向(角度θ)を求めることができる。次に、先に図6を参照して説明したよううに、各マイクペアの中点を頂点とし、頂点の角度の半分を音源方向(角度θ)とした円錐を設定する。図12の例では3つのマイクペアに対応する3つの円錐が設定される。これ3つの円錐の交点を音源位置として求めることができる。
図13は、図11に示す信号処理装置、すなわち、音源分離処理と射影処理、および音源方向または音源位置推定処理を実行する信号処理装置におけるマイク配置の別の例である。これは、従来法の問題点で述べた「位置の変化するマイク」に対処するための配置である。
テレビ1301と、ユーザーの操作するリモコン1303にそれぞれマイクが設置されている。リモコン1303上のマイク1304は音源分離用として用いる。テレビ1301上のマイク1302は、射影先として用いるマイクである。
リモコン1303にマイク1304を設置することで、音声を発しているユーザーに近い位置で音を集音できる。しかし、リモコン上のマイクの正確な位置は未知である。一方、テレビ1301のフレームに設置されたマイク1302は、テレビ匡体の一点(例えば画面の中心)からの位置は既知である。その代わり、ユーザーからは距離が離れている可能性がある。
そこで、リモコン1303上のマイク1304の観測信号を利用して音源分離を行ない、分離結果をテレビ1301上のマイク1302へ射影すると、両者の利点をもった分離結果を得ることができる。テレビ1301上のマイク1302への射影結果は、音源方向または音源位置の推定に適用される。具体的には、音源としてリモコンを所持するユーザーの発話を想定すると、リモコンを所持したユーザーの位置や方向を推定することができる。
例えば、リモコン1303上の、位置が未知のマイク1304を使用しているにも関わらず、例えば音声コマンドを発話した、リモコン1303を所持するユーザーがテレビ1301の正面にいるか真横にいるかによって、テレビの応答を変化させる(正面から発話した場合のみ反応するなど)といったことも可能になる。
[6.本発明の信号処理装置を構成するモジュールの構成例について]
次に、各構成で共通している音源分離部と信号射影部の構成および処理の詳細について、図14〜図16を参照して説明する。
図14は音源分離部の一構成例を示す図である。基本的に、ICAの学習規則である先に説明した式[3.1]〜式[3.9]の演算に適用する変数や関数に対応したデータを格納したバッファー1402〜1405を持ち、それらの値を用いて学習演算部1401が演算を行なう。
観測信号バッファー1402は、時間周波数領域の所定区間の観測信号を格納する領域であり、先に説明した式[3.1]のX(ω,t)に対応するデータを格納する。
分離行列バッファー1403と分離結果バッファー1404は、それぞれ学習途中の分離行列と分離結果とを格納する領域であり、式[3.1]のW(ω)とY(ω,t)に対応するデータを格納する。
同様に、スコア関数バッファー1405と分離行列修正値バッファー1406は、式[3.2]のφω(Y(t))とΔW(ω)にそれぞれ対応するデータを格納する。
なお、図14に示す構成で用意されている各種バッファーは、観測信号バッファー1402を除き、学習のループが回っている間は常に値が変化する。

図15および図16は、信号射影部の構成例を示す図である。
図15は、射影係数行列P(ω)(式[7.5]参照)を算出する処理に際して、先に説明した式[7.6]を用いる構成、
図16は、射影係数行列P(ω)(式[7.5]参照)を算出する処理に式[7.7]を用いる構成である。
先に図15に示す信号射影部の構成例について説明する。この図15の信号射影部は、式[7.6]および式[7.8]〜式[7.9]の各変数に対応したバッファー1502〜1507を持ち、それらの値を用いて演算部1501が演算を行なう。
射影前分離結果バッファー1502は、音源分離部が出力した分離結果を格納する領域である。図14に示す音源分離部の分離結果バッファー1404と異なり、図15に示す信号射影部の射影前分離結果バッファー1502に格納される分離結果は、学習終了後の値である。
射影先観測信号バッファー1503は、射影先マイクで観測された信号を格納するバッファーである。
これら2つのバッファーを用いて、式[7.6]の2種類の共分散行列を計算する。
共分散行列バッファー1504は射影前分離結果自身の共分行列であり、これは式[7.6]の〈Y(ω,t)Y(ω,t)に相当するデータを格納する。
一方、相互共分散行列バッファー1505は射影先観測信号X'(ω,t)と射影前分離結果Y(ω,t)との共分散行列であり、式[7.6]の〈X'(ω,t)Y(ω,t)に相当するデータを格納する。なお、異なる変数間での共分散行列を「相互(cross−)共分散行列」と呼び、同一変数同士のものは単に「共分散行列」と呼ぶことにする。
射影係数バッファー1506は、式[7.6]で計算される射影係数P(ω)を格納する領域である。
射影結果バッファー1507は、式[7.8]または式[7.9]で計算される射影結果Yk[i](ω,t)を格納する。
なお、音源方向推定や位置推定については、射影係数が求まれば、射影結果自体は計算しなくても音源方向や音源位置を計算できる。そのため、本発明の実施例のうち、音源方向推定または位置推定と組み合わせた形態においては、射影結果バッファー1507を省略することができる。
次に、図16に示す信号射影部の構成例について説明する。この図16に示す構成は式[7.7]に対応した構成である。図15との違いは、Y(ω,t)=W(ω)X(ω,t)(式[2.5])の関係を用いて、分離結果Y(ω,t)に関するバッファーを省略し、代わりに分離行列W(ω)のバッファーを用意している点にある。
音源分離用観測信号バッファー1602は、音源分離用のマイクの観測信号を格納する領域である。これは、先に図14を参照して説明した音源分離部の観測信号バッファー1402と共通で良い。
分離行列バッファー1603は、音源分離部によって学習された分離行列を格納する。これは、先に図14を参照して説明した音源分離部の分離行列バッファー1403と異なり、学習終了後の分離行列の値を格納する。
射影先観測信号バッファー1604は、図15を参照して説明した射影先観測信号バッファー1503と同様、射影先マイクで観測された信号を格納するバッファーである。
これら2つのバッファーを用いて、式[7.7]の2種類の共分散行列を計算する。
共分散行列バッファー1605は音源分離用観測信号自身の共分行列であり、これは式[7.7]の〈X(ω,t)X(ω,t)に相当するデータを格納する。
一方、相互共分散行列バッファー1606は射影先観測信号X'(ω,t)と音源分離用観測信号X(ω,t)との共分散行列であり、式[7.7]の〈X'(ω,t)X(ω,t)に相当するデータを格納する。
射影係数バッファー1607は、式[7.7]で計算される射影係数P(ω)を格納する領域である。
射影結果バッファー1608は、図15を参照して説明した、射影結果バッファー1507と同様、式[7.8]または式[7.9]で計算される射影結果Yk[i](ω,t)を格納する。
[7.信号処理装置の実行する処理シーケンスについて]
次に、本発明の信号処理装置の実行する処理シーケンスについて、図17〜20に示すフローチャートを参照して説明する。
図17は、音源分離用マイクの取得データに基づく分離結果を適用して射影先マイクへの射影処理を行う際の処理シーケンスを説明するフローチャートである。例えば、指向性マイク(または仮想的な指向性マイク)由来の音源分離結果を無指向性マイクへ射影する装置(図7に示す信号処理装置700および図9に示す信号処理装置900に対応)の処理を説明するフローチャートである。
ステップS101において、各マイク(または集音素子)で集音した信号に対して、AD変換を行なう。次に、ステップS102において、各信号に対して短時間フーリエ変換を行ない、時間周波数領域の信号へ変換する。
次のステップS103の指向性形成処理は、先に図10を参照して説明したような、複数の無指向性マイクで仮想的な指向性を形成するという構成において必要となる処理である。例えば図10に示すように、複数の無指向性マイクを配置した構成の場合、先に説明した式[9.1]〜式[9.4]に従って、仮想的な指向性マイクの観測信号を生成する。ただし、図8に示したような、当初から指向性マイクを用いた構成では、ステップS103の指向性形成処理は省略できる。
ステップS104の音源分離処理は、指向性マイクで得られた時間周波数領域の観測信号に対して、ICAを適用して独立な分離結果を得る処理である。詳細は後述する。
ステップS105は、ステップS104で得られた分離結果に対して、所定のマイクへの射影を行なう処理である。詳細は後述する。
マイクへ射影した結果が得られたら、必要に応じて逆フーリエ変換(ステップS106)等を行ない、さらに後段の処理(ステップS107)を行なう。こうして、全処理を終了する。
次に、図18に示すフローチャートを参照して、分離結果の射影と音源方向推定(または位置推定)を併せて行う信号処理装置(図11に示す信号処理装置1100に対応)の処理シーケンスについて説明する。
ステップS201〜S203の処理は、図17に示すフローにおけるステップS101,S102,S104の処理と同様であるため、説明を省略する。
ステップS204の射影処理は、分離結果を射影対象とするマイクに射影する処理である。図17のフローのステップS105の射影処理と同様の処理であり、ステップS203で得られた分離結果に対して、所定のマイクへの射影を行なう処理である。
ただし、射影処理を行ってもよいが、射影係数(先に説明した式[7.6]、または式[7.7]、あるいは式[8.1]、式[8.2]に示す射影係数行列P(ω))を計算するだけにとどめ、分離結果の射影自体は省略してもよい。
ステップS205は、各マイクへ射影された分離結果から音源方向または音源位置を計算する処理である。計算方法自体は従来技術と同様であるため、以下では概略のみを説明する。
k番目の分離結果Yk(ω,t)について、マイクiとマイクi'との間で計算される音源方向をθkii'(ω)とする。ただし、iとi'は、音源分離用のマイクではなく、射影先のマイク(または集音素子)につけたインデックスである。角度θkii'(ω)は、以下に示す式[11.1]で計算される。
なお、上記式[11.1]は従来の処理として[背景技術]の欄において説明した式[5.3]と同一である。また、先に説明した式[7.8]を用いれば、射影後の分離結果Yk[i](ω,t)を生成することなく、射影係数P(ω)の要素から方向を直接計算することもできる。(式[11.2])。式[11.2]を用いる場合は、射影ステップ(S204)において分離結果の射影を省略し、射影係数P(ω)を求めるのみの処理とすることができる。
なお、マイクiとマイクi'との間で計算される音源方向を示す角度θkii'(ω)を算出する場合には、周波数ビンωやマイクペア(i,i'の組)単位で個別に角度θkii'(ω)を算出し、これらの複数の算出角度から平均を求め、平均値により最終的な音源方向を決定する構成としてもよい。一方、音源位置を求めるには、先に説明した図6のように三角測量を用いればよい。
ステップS205の処理の後、必要に応じて後段処理(S206)を行なう。
なお、図11の信号処理装置1100の音源方向(または位置)推定部1108は、式[11.2]を用いて音源方向や位置を算出することが可能である。すなわち、音源方向(または位置)推定部1108は、信号射影部1106において生成された射影係数を入力して、音源方向または音源位置の算出処理を行う。この場合は、信号射影部1106は射影係数の算出のみを行い射影結果(射影信号)を求める処理を省略することができる。
次に、図17に示すフロー中のステップS104、および図18に示すフロー中のステップS203において実行する音源分離処理の詳細について、図19に示すフローチャートを参照して説明する。
音源分離処理は、複数の音源からの信号の混合信号から、音源ごとの信号に分離する処理である。この処理には、様々なアルゴリズムが適用可能である。以下では、特開2006−238409号公報に記載された方法を適用した処理例について説明する。
以下に説明する音源分離処理は、バッチ処理(一定時間の観測信号を蓄積してから行なう処理)によって分離行列を求める処理である。先に式[2.5]等において説明したように、分離行列W(ω)と、観測信号X(ω,t)と分離結果Y(ω,t)との関係は以下の式によって表現される。
Y(ω,t)=W(ω)X(ω,t)
図19に示すフローに従って音源分離処理のシーケンスについて説明する。
まず、最初のステップS301において、一定時間の観測信号を蓄積する。ここでいう観測信号とは、音源分離用マイクで集音した信号に対して短時間フーリエ変換処理を施した信号である。また、一定時間の観測信号とは、一定数の連続するフレーム(例えば200フレーム)分からなるスペクトログラムと等価である。以降における「全フレームに対する処理」は、ここで蓄積した観測信号の全フレームに対しての処理である。
ステップS304〜ステップS309の学習のループに入る前に、ステップS302において、必要に応じて蓄積された観測信号に対して正規化(normalization)や無相関化(pre−whitening)などの処理を行なう。例えば正規化を行なう場合、フレームについて観測信号Xk(ω,t)の標準偏差を求め、標準偏差の逆数からなる対角行列をS(ω)として、
Z(ω,t)=S(ω)X(ω,t)
を計算する。
無相関化の場合は、
Z(ω,t)=S(ω)X(ω,t)、かつ、
<Z(ω,t)Z(ω,t)=I(Iは単位行列)を満たすZ(ω,t),S(ω)を求める。
なお、tはフレーム番号であり、<・>は全フレーム、あるいはサンプルフレームについての平均を表わす。
なお、以下の説明および式に示すX(t)やX(ω,t)は、上記の前処理によって算出されるZ(t)やZ(ω,t)に置き換え可能なものとする。
ステップS302の前処理の後、ステップS303では、分離行列Wに対して、初期値を代入する。初期値は単位行列でも良いが、前回の学習で求まった値が存在する場合は、それを今回の学習の初期値として用いてもよい。
ステップS304〜ステップS309は学習のループであり、これらの処理をWが収束するまで繰り返す。ステップS304の収束判定処理は、分離行列Wが収束したかどうかを判定する処理である。この収束判定方法としては、例えば分離行列の増分ΔWとゼロ行列との近さを判定し、所定の値よりも近ければ「収束した」と判別する処理を適用することができる。または予め学習ループの最大回数(例えば50回)を設定しておき、その最大回数に達した場合に「収束した」と判別する設定としてもよい。
分離行列Wが収束していない場合(またはループ回数が所定の値に達していない場合)は、ステップS304〜ステップS309の学習ループを繰り返し実行する。この学習ループは、先に説明した式[3.1]から式[3.3]までを分離行列W(ω)が収束するまで(または一定回数)繰り返し実行する処理である。
ステップS305では、前記の式[3.12]を用いて全フレーム分の分離結果Y(t)を求める。
ステップS306〜ステップS309は、周波数ビンωについてのループである。
ステップS307において式[3.2]によって分離行列の修正値であるΔW(ω)を計算し、ステップS308において式[3.3]によって分離行列W(ω)を更新する。この2つの処理を、全周波数ビンに対して行なう。
一方、ステップS304において分離行列Wが収束したと判定したら、ステップS310の後処理へ進む。ステップS310の後処理では、分離行列に対して、正規化前(無相関化前)の観測信号に対応させる処理を行なう。すなわち、ステップS302において正規化や無相関化を行なった場合、ステップS304〜S309で求まる分離行列Wは、正規化後(または無相関化後)の観測信号であるZ(t)を分離するものであり、正規化前(または無相関化前)の観測信号であるX(t)を分離するものではない。そこで、
W←SW
上記の補正を行なうことで、分離行列Wを、前処理以前の観測信号X(t)に対応させる。射影処理で使用される分離行列Wは、この補正後の分離行列である。
なお、時間周波数領域ICAのアルゴリズムの多くは、学習後にリスケーリング(分離結果のスケールを周波数ビンごとに適切なものへ調整する処理)を必要とする。しかし、本発明での構成では、分離結果を利用して実行する射影処理において分離結果のリスケーリング処理を実行する構成としているため、音源分離処理の中ではリスケーリングは不要である。
なお、音源分離処理としては、前述の特許文献1[特開2006−238409]に基づくバッチ処理の他にも、それをブロックバッチ処理によってリアルタイム化した特開2008−147920に記載された方式なども利用可能である。なお、ブロックバッチ処置とは、観測信号を一定時間のブロックへ分割し、ブロックごとにバッチ処理によって分離行列を学習する処理のことである。あるブロックにおいて分離行列が学習されたら、その分離行列を、次のブロックで分離行列が学習されるタイミングまでの間、適用し続けることで、分離結果Y(t)を途切れなく生成することが可能である。
次に、図17に示すフロー中のステップS105、および図18に示すフロー中のステップS204において実行する射影処理の詳細について、図20に示すフローチャートを参照して説明する。
なお、先に説明したように、ICAの分離結果をマイクに射影(projection back)するとは、ある位置に設定したマイクの集音信号を解析し、その集音信号から各原信号に由来する成分を求めることである。この射影処理には、音源分離処理によって算出した分離結果を適用する。図20に示すフローチャートの各ステップの処理について説明する。
ステップS401では、射影の係数からなる行列をP(ω)(式[7.5]参照)の計算に適用する2種類の共分散行列を計算する。
射影係数行列P(ω)は、先に説明したように、前述の式[7.6]で計算できる。または、先に説明した式[3.1]の関係を用いて変形した式[7.7]を用いて計算することもできる。
先に説明したように、信号射影部は、図15または図16に示す構成のいずれかによって構成される。図15は、射影係数行列P(ω)(式[7.5]参照)を算出する処理に際して、先に説明した式[7.6]を用いる信号射影部の構成であり、図16は、射影係数行列P(ω)を算出する処理に式[7.7]を用いる信号射影部の構成である。
従って、信号処理装置の持つ信号射影部が図15に示す構成である場合は、式[7.6]の適用によって射影係数行列P(ω)(式[7.5]参照)を算出することになり、ステップS401では、以下の2種類の共分散行列を計算する。
<X'(ω,t)Y(ω,t)>と、
<Y(ω,t)Y(ω,t)>
これらの共分散行列を計算する。
一方、信号処理装置の持つ信号射影部が図16に示す構成である場合は、式[7.7]の適用によって射影係数行列P(ω)(式[7.5]参照)を算出することになり、ステップS401では、以下の2種類の共分散行列を計算する。
<X'(ω,t)X(ω,t)>と、
<X(ω,t)X(ω,t)>
これらの共分散行列を計算する。
次に、ステップS402において、前述の式[7.6]、または式[7.7]を用いて、射影係数からなる行列P(ω)を求める。
次のステップS403のチャンネル選別処理は、分離結果のうち、目的に適うチャンネルを選び出す処理である。例えば、特定の音源に対応するチャンネルを一つだけ選択したり、どの音源にも対応しないチャンネルを除去したりする。「どの音源にも対応しないチャンネル」とは、音源分離で使用するマイクの数よりも音源の数の方が小さい場合に、分離結果Y1〜Ynの中にはどの音源にも対応しない出力チャンネルができてしまうことをいう。そのようなチャンネルに対して射影を行なったり、音源方向(位置)を求めることは無駄であるため、そのような出力チャンネルの除去を必要に応じて行なうのである。
選別の尺度としては、たとえば射影後分離結果のパワー(分散)が使用可能である。分離結果Yi(ω,t)をk番目のマイク(射影用)へ射影した結果をYi[k](ω,t)とすると、そのパワーは、以下に示す式[12.1]で計算できる。
式[12.1]で算出される分離結果の射影した結果のパワーの値が、予め設定した一定値を上回っていたら、「分離結果Yi(ω,t)は特定の音源に対応した分離結果」と判定し、一定値を下回っていたら「分離結果Yi(ω,t)はどの音源にも対応していない」と判定する。
なお、実際の計算においては、分離結果Yi(ω,t)をk番目のマイク(射影用)へ射影した結果データであるYi[k](ω,t)の算出処理を実行する必要はなく、この算出処理は省略してよい。なぜなら、式[7.9]のベクトルに対応した共分散行列は前記の式[12.2]で計算でき、この行列の対角要素を取り出すと射影結果の絶対値の二乗データである|Yi[k](ω,t)|と同じ値が得られるからである。
チャンネル選別が完了したら、ステップS404において射影結果の生成を行なう。選別後のチャンネルの分離結果を一つのマイクへ射影する場合は式[7.9]を用いる。逆に、一つのチャンネルの分離結果を全マイクへ射影する場合は式[7.8]を用いる。なお、この後の処理において、音源方向推定(または位置推定)処理を実行する場合は、ステップS404の射影結果の生成処理は省略することができる。
[8.本発明の信号処理装置のその他の実施例]
(8.1.信号射影部の射影係数行列P(ω)算出処理における逆行列演算を省略した実施例)
まず、信号射影部の射影係数行列P(ω)算出処理における逆行列演算を省略した実施例について説明する。
先に説明したように、図15、図16に示す信号射影部の処理は、図20のフローチャートに従った処理となる。図20に示すフローチャートのステップS401では、射影の係数からなる行列をP(ω)(式[7.5]参照)の計算に適用する2種類の共分散行列を計算する。
すなわち、信号射影部が図15の構成である場合は、式[7.6]の適用によって射影係数行列P(ω)(式[7.5]参照)を算出することになり、以下の2種類の共分散行列を計算する。
<X'(ω,t)Y(ω,t)>と、
<Y(ω,t)Y(ω,t)>
一方、信号射影部が図16に示す構成である場合は、式[7.7]の適用によって射影係数行列P(ω)(式[7.5]参照)を算出することになり、以下の2種類の共分散行列を計算する。
<X'(ω,t)X(ω,t)>と、
<X(ω,t)X(ω,t)>
これらの共分散行列を計算する。
射影係数行列P(ω)を求める式[7.6]および式[7.7]は、どちらも逆行列(厳密にはフル行列の逆行列)を含んでいる。しかし、逆行列を求める処理はそれなりの計算量を必要とする(あるいは、ハードウェアで逆行列を求める場合は回路規模が大きくなる)ため、逆行列を使わずに同等の処理が可能であるなら、その方が望ましい。
そこで、逆行列が不要な式を用いる方式について、変形例として説明する。
先に簡単に説明したが、以下に示す式[8.1]は、式[7.6]の代わりに使用可能な式である。
分離結果ベクトルY(ω,t)の各要素がお互いに独立である場合、すなわち分離が完全に行なわれている場合、
共分散行列<Y(ω,t)Y(ω,t)
は、対角行列に近い行列となる。従って、対角要素のみを抽出してもほぼ同じ行列となる。対角行列の逆行列は、単に対角要素を逆数に置き換えるだけで得られるため、フル行列の逆行列演算と比べて計算量は少ない。
同じく、上記の式[8.2]は、式[7.7]の代わりに使用可能な式である。ただし、この式のdiag(・)は、カッコ内の行列に対して対角以外の要素をゼロにする操作を表わす。この式においても、対角要素を逆数に置き換えるだけで、対角行列の逆行列が求まる。
さらに、射影後の分離結果または射影係数を音源方向推定(または位置推定)のみに用いる場合は、対角行列自体を省略した式[8.3](式[7.6]の代わり)や式[8.4](式[7.7]の代わり)も使用可能である。なぜなら、式[8.1]や式[8.2]に現れる対角行列は要素が全て実数であり、実数を乗じる限り、式[11.1]や式[11.2]で計算される音源方向には影響を与えないからである。
このように、上記の式[8.1]〜式[8.4]を前述した式[7.6]または式[7.7]の代わりに利用する構成とすることで、計算量の多いフル行列の逆行列算出処理を省略することが可能となり、効率的に射影係数行列P(ω)を求めることが可能となる。
(8.2.音源分離処理による分離結果を、特定の配置のマイクへ射影する処理を行う実施例(実施例4))
次に、音源分離処理による分離結果を、特定の配置のマイクへ射影する処理を行う実施例について説明する。
前述した実施例では、音源分離処理による分離結果を適用した射影処理の利用形態として、以下の3つの実施例について説明した。
[3.ICAの適用マイクとは異なるマイクへの射影処理の処理例(実施例1)]
[4.無指向性マイクを複数用いて仮想的な指向性マイクを構成した実施例(実施例2)]
[5.音源分離処理の分離結果の射影処理と、音源方向推定または位置推定とを併せて行う処理例(実施例3)]
これらの3つの実施例について説明した。
実施例1と実施例2は、指向性マイク由来の音源分離結果を無指向性マイクへ射影する処理、
実施例3は、音源分離に適した配置のマイクで集音し、その分離結果を、音源方向(位置)推定に適した配置のマイクへ射影する処理、
これらの処理例である。
以下、上記3つの実施例と異なる第4の実施例として、音源分離処理による分離結果を、特定の配置のマイクへ射影する処理を行う実施例について説明する。
本実施例4の信号処理装置は、実施例1において説明した図7に示す信号処理装置700を適用可能である。マイクロホンは、音源分離の入力として用いる複数のマイクロホン701と、射影先として用いる1以上の無指向性マイクロホン702を備える。
ただし、先に説明した実施例1では、音源分離の入力として用いるマイクロホン701は指向性マイクロホンとして説明したが、本実施例4では音源分離の入力として用いるマイクロホン701は指向性マイクロホンであってもよいし、無指向性マイクロホンであってもよい。マイクの具体的な配置については後述する。また、出力デバイス709の配置も重要な意味を持つが、これについても後述する。
以下、実施例4におけるマイクおよび出力デバイスの2つの配置例について、図21、図22を参照して説明する。
図21は、本実施例4におけるマイクおよび出力デバイスの第1の配置例を示している。この図21に示すマイクおよび出力デバイス配置例は、音源分離処理および射影処理により、ユーザーの両耳の位置に対応したバイノーラル信号を生成するためのマイクおよび出力デバイスの配置例である。
ヘッドホン2101は、図7に示す信号処理装置700に示す出力デバイス709に対応する。ヘッドホン2101の両耳に対応したスピーカー2110,2111の位置に射影先マイク2108,2109が装着されている。図21に示す音源分離用マイク2104は、図7に示す音源分離用マイク701に対応する。この音源分離用マイク2104は、無指向性マイクでも指向性マイクでも良く、その環境の音源を分離するのに適した配置で設置する。なお、図21に示す構成では音源が3個(音源1,2105〜音源3,2107)存在するため、音源分離用のマイクは少なくとも3個必要である。
図21に示す音源分離用マイク2104(=図7の音源分離用マイク701)と、射影先マイク2108,2109(=図7の射影先マイク702)をもつ信号処理装置の処理は、先に図17のフローチャートを参照して説明した処理シーケンスと同様の処理である。
すなわち、図17のフローチャートのステップS101において、音源分離用マイク2104での集音信号に対してAD変換を行なう。次に、ステップS102において、AD変換後の各信号に対して短時間フーリエ変換を行ない、時間周波数領域の信号へ変換する。次のステップS103の指向性形成処理は、先に図10を参照して説明したような、複数の無指向性マイクで仮想的な指向性を形成するという構成において必要となる処理である。例えば図10に示すように、複数の無指向性マイクを配置した構成の場合、先に説明した式[9.1]〜式[9.4]に従って、仮想的な指向性マイクの観測信号を生成する。ただし、図8に示したような、当初から指向性マイクを用いた構成では、ステップS103の指向性形成処理は省略できる。
ステップS104の音源分離処理においては、音源分離用マイク2104で得られた時間周波数領域の観測信号に対してICAを適用して独立な分離結果を得る。具体的には、図19に示すフローチャートに従った処理により、音源分離結果を得る。
ステップS105では、ステップS104で得られた分離結果に対して、所定のマイクへの射影を行なう。本例では、図21に示す射影先マイク2108,2109への射影を行う。射影処理の具体的シーケンスは、図20に示すフローチャートに従った処理となる。
なお、射影処理を行う際は、分離結果の内で特定の音源に対応したチャンネルを一つ選別し(図20のフローのステップS403に対応する処理)、それを射影先マイク2103へ射影した信号を生成する(図20のフローのステップS404に対応する処理)。
さらに、図17に示すフローのステップS106において、射影後の信号を逆フーリエ変換で波形に戻し、図17に示すフローのステップS107において、その波形をヘッドホン内のスピーカーから再生する。すなわち、このようにして、2つの射影先マイク2108,2109へ射影された分離結果は、ヘッドホン2101のスピーカー2110,2111からそれぞれ再生される。
なお、スピーカー2110,2111からの音声出力の制御は信号処理装置の制御部が実行する。すなわち、信号処理装置の制御部は、各出力デバイス(スピーカー)に対して、各出力デバイスの位置に設定された射影先マイクに対応する射影信号に相当する音声データを出力する制御を実行する。
例えば、射影前の分離結果のうち、音源1,2105に対応した分離結果を選別し、それを、射影先マイク2108,2109へ射影し、それをヘッドホン2101で再生すると、ヘッドホン2101を装着しているユーザーにとっては、3つの音源が同時に鳴っているにもかかわらず、あたかも音源1,2105のみが右方で鳴っているように聞こえる。言い換えると、音源分離用マイク2104にとって音源1,2105は左方に位置しているにもかかわらず、分離結果を射影先マイク2108,2109へ射影することで、音源1,2105が、ヘッドホン2101の右方に定位しているバイノーラル信号を生成することができるのである。しかも、射影のためには、ヘッドホン2101(または射影先マイク2108,2109)の位置情報は不要であり、射影先マイク2108,2109の観測信号だけがあればよい。
同様に、図20に示すフローチャートのステップS403において、音源2,2106、または音源3,2107に対応したチャンネルを一つ選択すれば、ユーザーにとっては、あたかもそれぞれの音源が一つだけその位置から鳴っているかのように聞こえる。また、ユーザーがヘッドホン2101を装着したまま場所を移動すると、それに従って分離結果の定位も変化する。
なお、従来の処理構成、すなわち音源分離の適用マイクと射影対象マイクを同一の設定とした構成も可能であるが、このような処理には問題がある。音源分離の適用マイクと射影対象マイクを同一の設定とした場合には、以下のような処理を行うことになる。図21に示す射影先マイク2108,2109自体を音源分離処理のための音源分利用マイクとして設定し、このマイクの集音結果を用いて音源分離処理を実行して、分離結果を用いて射影先マイク2108,2109へ射影するという処理を行うことになる。
しかし、このような処理を行うと、以下の2つの問題が発生する。
(1)図21に示す環境では音源が3つ(音源1,2105〜音源3,2107)あるため、マイクを2個しか使わないと、音源を完全には分離できない。
(2)図21に示す射影先マイク2108,2109はヘッドホン2101のスピーカー2110,2111と接近しているため、スピーカー2110,2111から出た音をマイク2108,2109が拾ってしまう可能性がある。その場合、音源の数が増え、しかも独立性の仮定が成立しないため、分離精度が低下する。
また、別の従来法として、図21に示す射影先マイク2108,2109を音源分離用マイクとして設定し、かつ、図21に示す音源分離用マイク2104も音源分離用マイクとして利用する構成も考えられる。この場合は、音源数(3つ)より多い音源分離用マイクが設定されることになるので音源分離処理の精度を高めることができる。例えば、計6個のマイクを使用したり、マイク2108,2109の2個と図21に示す音源分離用マイク2104の内の2個の計4個のマイクを使うといった構成である。
しかしその場合も、上記(2)の問題は解決できない。すなわち、図21に示す射影先マイク2108,2109がヘッドホン2101のスピーカー2110,2111の音を拾ってしまうと、分離精度が低下する。
また、ヘッドホン2101を装着したユーザーが移動する場合、ヘッドホンに装着されたマイク2108,2109とマイク2104とが大きく離れる場合もある。音源分離で使用するマイクの間隔が大きくなるほど、空間エリアシングが低い周波数でも発生しやすくなり、これも分離精度の低下に繋がる。また、6個のマイクを音源分離用に使う構成では、4個の構成と比べ、計算量が増大する。すなわち、
(4/6)=2.25倍となる。
このように計算コストが大きくなり、処理効率が低下するという問題がある。これに対して、本発明のように、射影先マイクと音源分離用マイクを別のマイクとして、音源分利用マイクで取得した信号に基づいて生成した分離結果を射影先マイクに射影するといった処理によって、上記の問題はすべて解決する。
次に、実施例4におけるもう1つのマイクと出力デバイスの配置例について、図22を参照して説明する。図22に示す構成は、射影によってサラウンド効果のある分離結果を生成するための配置例であり、射影先マイクと再生デバイスの位置に特徴がある。
図22(B)はスピーカー2210〜2214を設置された環境(再生環境)、図22(A)は音源1,2202〜音源3,2204およびマイク2201,2205〜2209が設置された環境(収録環境)である。両者は別の環境であり、(B)に示す再生環境のスピーカー2210〜2214から出力された音が(A)に示す収録環境のマイク2201,2205〜2209に入ることはない。
最初に、(B)再生環境について説明する。再生用スピーカー2210〜2214はサラウンド対応のスピーカーであり、それぞれを所定の位置に配置する。(B)再生環境は、5.1チャンネルサラウンド対応のスピーカーのうち、サブウーファー以外を設置した環境を表わしている。
次に、(A)収録環境について説明する。射影先マイク2205〜2209はそれぞれ、(B)再生環境の再生用スピーカー2210〜2214に対応する位置に設置する。音源分離用マイク2201については、図21に示す音源分離用マイク2104と同様であり、指向性マイクであっても無指向性マイクであってもよい。十分な分離性能を得るために音源数より多いマイク数とすることが好ましい。
処理自体は図21に示す構成と同様の処理であり、図17のフローに従って処理が行われる。音源分離処理は図19に示すフローに従って処理が実行され、射影処理は図20に示すフローに従った処理が行われる。図20に示すフローのステップS403のチャンネル選別処理では、分離結果のうちで特定の音源に対応するものを一つ選択する。ステップS404では、選択した分離音源を、図22(A)の射影先マイク2205〜2209へ射影する。
それぞれに射影された信号を、図22(B)再生環境の再生用スピーカー2210〜2214から再生することにより、試聴者2215はあたかも音源の一つだけが周囲で鳴っているかのようなサウンドを体験することができる。
(8.3.複数の音源分離システムを適用した実施例(実施例5))
ここまで説明してきた複数の実施例は、いずれも音源分離システムが1つの場合であったが、複数の音源分離システムが共通の射影先マイクを備えるという例も可能である。以下では、そのような方法の使い道として、異なるマイク配置を持つ複数の音源分離システムを持つ構成とした実施例について説明する。
図23は、複数の音源分離システムを有する信号処理装置構成を示している。音源分離システム1(高域用)2305と、音源分離システム2(低域用)2306の2つの音源分離システムを備えている。
音源分離システム1(高域用)2305と、音源分離システム2(低域用)2306の2つの音源分離システムは、それぞれ別の配置のマイクを備えている。
すなわち、音源分離用のマイクは2種類あり、狭い間隔で配置された音源分離用マイク(狭間隔)2301は音源分離システム1(高域用)2305に接続され、もう一方の広い間隔で設置された音源分離用マイク(広間隔)2302は音源分離システム2(低域用)2306に接続されている。
射影先マイクは、図に示すように、音源分離用のマイクの一部を射影先マイク(a)2303とする設定としてもよいし、別の独立した射影先マイク(b)2304を利用する構成としてもよい。
次に、図23に示す2つの音源分離システム2305,2306の分離結果を統合する方法について、図24を参照して説明する。高域用の音源分離システム1,2401(図23に示す音源分離システム1(高域用)2305に対応)によって生成された射影前の分離結果スペクトログラム2402に対して、低域と高域との分割を行ない、高域データ2403のみ、すなわち高域部分スペクトログラムを選択抽出する。
一方、低域用の音源分離システム2405(図23に示す音源分離システム2(低域用)2306に対応)の分離結果2406に対しても、低域と高域との分割を行ない、こちらは低域データ2407のみ、すなわち低域部分スペクトログラムを選択抽出する。
それぞれの部分スペクトログラムに対し、前述した本発明の各実施例において説明した方法で射影を行なう。射影後のスペクトログラム2404,2408を結合すると、再び全帯域のスペクトログラム2409が出来上がる。
図23、図24を参照して説明した信号処理装置は、音源分離部が少なくとも一部が異なる音源分離用マイクによって取得された信号を入力して分離信号を生成する複数の音源分離システムを有するものである。信号射影部は、複数の音源分離システムの生成した個別の分離信号と、射影先マイクの観測信号を入力して各音源分離システム対応の複数の射影信号(図24に示す射影信号2404,2408)を生成し、生成した複数の射影信号を合成して射影先マイクに対応する最終的な射影信号(図24に示す射影信号2409)を生成する。
このような処理において射影が必要となる理由について説明する。
複数の音源分離システムを有し、それぞれ異なるマイク配置を持つという構成は、従来技術が存在する。例えば特開2003−263189号公報には、低域は広い間隔に設定したマイクアレイとした複数のマイクが取得した音信号を利用して音源分離処理を行い、高域は狭いマイクアレイとした複数のマイクが取得した音信号を利用して音源分離処理を行い、最終的に両者の分離結果を結合するという方式を開示している。また、本願と同じ出願人の先の特許出願である特開2008−92363号公報は、そのような複数の分離システムを同時に動かす場合に、出力チャンネルの対応付けをとる(例えば、それぞれの分離システムの出力Y1に、同一の音源に由来する信号を出力させる)構成を開示している。
しかし、これらの従来技術は、分離結果に対するリスケーリングの方法として、音源分離で使用しているマイクへの射影が使用されていた。そのため、広い間隔のマイクに由来する低域の分離結果と、狭い間隔のマイクに由来する高域の分離結果との間に位相のギャップが存在していた。位相のギャップは、定位感をもった分離結果を生成するためには大きな問題となる。また、マイクのゲインにはたとえ同一機種でも個体差があるため、広間隔マイクと狭間隔マイクとの間で入力ゲインが異なる場合は、結合後の信号が音として不自然に聞こえる可能性もあった。
それに対して、図23、図24に示す本発明の実施例の構成は、複数の分離システムが、共通の射影先マイクに分離結果を射影し、その後で結合を行なう構成としている。例えば、図23に示すシステムでは、射影先マイク(a)2303、または射影先マイク(b)2304が射影先であり、これらは、複数の音源分離システム2304,2305に対して共通の射影先である。従って、位相ギャップの問題もゲインの個体差の問題も解決でき、定位感をもった分離結果を生成することが可能となる。
[9.本発明の信号処理装置の特徴および効果についてのまとめ]
以上、説明したように、本発明の信号処理装置は、音源分離用マイクと、射影先マイクを独立に設定している。すなわち、射影先マイクを音源分離用マイクと異なるマイクとして設定可能な構成としている。
音源分離用マイクで取得したデータに基づいて音源分離処理を実行して分離結果を得て、その分離結果を射影先マイクへ射影する。射影処理においては、射影先マイクで得た観測信号と分離結果との相互共分散行列および、分離結果自身の共分散行列を用いる構成としている。
本発明の信号処理装置は、例えば以下のような効果を奏するものである。
1.指向性マイク(または複数の無指向性マイクから形成される仮想的な指向性マイク)で観測された信号に対して音源分離を行ない、その結果を無指向性マイクへ射影することで、指向性マイクの持つ周波数依存性の問題を解決する。
2.音源分離に適した配置のマイクで観測した信号に対して音源分離を行ない、その結果を音源方向推定(または音源位置推定)に適した配置のマイクへ射影することで、音源分離と方向(位置)推定の間で発生するマイク配置のジレンマを解消する。
3.射影先マイクを再生用スピーカーと同様に配置し、分離結果をそのマイクへ射影することで、定位感のある分離結果が得られるとともに、射影先マイクを音源分離用マイクとして使用する場合の問題を解消する。
4.複数の分離システムの間で共通の射影先マイクを備え、分離結果をそのマイクへ射影することで、音源分離用マイクへ射影する際に発生していた位相差ギャップやゲインの個体差の問題を解消する。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、音源分離用マイクが取得した複数音源の混合信号に基づく観測信号に対して独立成分分析(ICA:Independent Component Analysis)を適用して混合信号の分離処理を行い、各音源対応の分離信号を生成する。次に、生成した分離信号と、音源分離用マイクとは異なる射影先マイクの観測信号を入力し、これらの入力信号を適用して射影先マイクが取得すると推定される各音源対応の分離信号である射影信号を生成する。さらに、射影信号による出力デバイスに対する音声データの出力、あるいは音源方向または位置の推定などを可能とした。
300 指向性マイク
301,302 集音素子
303 遅延処理部
304 混合ゲイン制御部
305 加算部
401,402 集音素子
501 音源
502,503 マイク
601 音源
602,603 マイク
604 マイクペア
700 信号処理装置
701 音源分利用マイク
702 射影先マイク
703 AD変換・STFT部
704 クロック供給部
705 音源分離部
706 信号射影部
707 後段処理部
708 逆FT・DA変換部
709 出力デバイス
710 制御部
801 指向性マイク
803 無指向性マイク
900 信号処理装置
901 集音素子
902 集音素子
903 AD変換・STFT部
904 クロック供給部
905 指向性形成部
906 音源分離部
907 信号射影部
908 後段処理部
909 逆FT・DA変換部
910 出力デバイス
1001〜1005 集音素子
1006〜1009 仮想指向性マイク
1100 信号処理装置
1101 音源分利用マイク
1102 射影先専用マイク
1103 AD変換・STFT部
1104 クロック供給部
1105 音源分離部
1106 信号射影部
1108 音源方向(または位置)推定部
1110 信号統合部
1201〜1208 マイク
1212〜1214 マイクペア
1301 テレビ
1302 射影先マイク
1303 リモコン
1304 音源分離用マイク
1401 学習演算部
1402 観測信号バッファー
1403 分離行列バッファー
1404 分離結果バッファー
1405 スコア関数バッファー
1406 分離行列修正値バッファー
1501 演算部
1502 射影前分離結果バッファー
1503 射影先観測信号バッファー
1504 共分散行列バッファー
1505 相互共分散行列バッファー
1506 射影係数バッファー
1507 射影結果バッファー
1601 演算部
1602 音源分離用観測信号バッファー
1603 分離行列バッファー
1604 射影先観測信号バッファー
1605 共分散行列バッファー
1606 相互共分散行列バッファー
1607 射影係数バッファー
1608 射影結果バッファー
2101 ヘッドホン
2104 音源分離用マイク
2105〜2107 音源
2108,2109 射影先マイク
2110,2111 スピーカー
2201 音源分離用マイク
2202〜2204 音源
2205〜2209 マイク
2210〜2214 スピーカー
2215 試聴者
2301 音源分離用マイク(狭間隔)
2302 音源分離用マイク(広間隔)
2303,2304 射影先マイク
2305 音源分離システム1(高域用)
2306 音源分離システム2(低域用)
2401 音源分離システム1(高域用)
2402,2406 分離結果スペクトログラム
2403 高域データ
2404 高域射影結果
2405 音源分離システム2(低域用)
2407 低域データ
2408 低域射影結果
2409 射影結合結果

Claims (12)

  1. 音源分離用マイクが取得した複数音源の混合信号に基づいて生成される観測信号に対して、独立成分分析(ICA:Independent Component Analysis)を適用して前記混合信号の分離処理を行い、各音源対応の分離信号を生成する音源分離部と、
    射影先マイクの観測信号と、前記音源分離部の生成した分離信号とを入力し、前記射影先マイクが取得する前記各音源対応の分離信号である射影信号を生成する信号射影部を有し、
    前記信号射影部は、前記音源分離用マイクとは異なる射影先マイクの観測信号を入力して前記射影信号を生成する信号処理装置。
  2. 前記音源分離部は、
    前記音源分離用マイクの取得信号を時間周波数領域に変換した観測信号に対して独立成分分析(ICA)を実行して時間周波数領域の各音源対応の分離信号を生成し、
    前記信号射影部は、
    時間周波数領域の分離信号に射影係数を乗じて算出する各音源対応の射影信号の総和と、前記射影先マイクの観測信号との誤差を最小にする射影係数を算出し、算出した射影係数を前記分離信号に乗じて射影信号を算出する請求項1に記載の信号処理装置。
  3. 前記信号射影部は、
    前記誤差を最小にする射影係数の算出処理に最小二乗近似を適用する請求項2に記載の信号処理装置。
  4. 前記音源分離部は、
    複数の指向性マイクによって構成された音源分離用マイクの取得信号を入力して、各音源対応の分離信号を生成する処理を実行し、
    前記信号射影部は、
    無指向性マイクである射影先マイクの観測信号と、前記音源分離部の生成した分離信号を入力し、無指向性マイクである射影先マイクに対する射影信号を生成する請求項1に記載の信号処理装置。
  5. 前記信号処理装置は、さらに、
    複数の無指向性マイクによって構成された音源分離用マイクの取得信号を入力し、2つの無指向性マイクによって構成されるマイクペアの一方のマイクの位相を、前記マイクペアのマイク間距離に応じて遅らせて仮想的な指向性マイクの出力信号を生成する指向性形成部を有し、
    前記音源分離部は、前記指向性形成部の生成した出力信号を入力して前記分離信号を生成する請求項1に記載の信号処理装置。
  6. 前記信号処理装置は、さらに、
    前記信号射影部において生成された射影信号を入力し、複数の異なる位置の射影先マイクの射影信号の位相差に基づいて音源方向の算出処理を行う音源方向推定部を有する請求項1に記載の信号処理装置。
  7. 前記信号処理装置は、さらに、
    前記信号射影部において生成された射影信号を入力し、複数の異なる位置の射影先マイクの射影信号の位相差に基づいて音源方向の算出処理を行い、さらに、複数の異なる位置の射影先マイクの射影信号によって算出された音源方向の組み合わせデータに基づいて音源位置を算出する音源位置推定部を有する請求項1に記載の信号処理装置。
  8. 前記信号処理装置は、さらに、
    前記信号射影部において生成された射影係数を入力して、該射影係数を適用した演算を実行して音源方向または音源位置の算出処理を行う音源方向推定部を有する請求項2に記載の信号処理装置。
  9. 前記信号処理装置は、さらに、
    前記射影先マイクに対応する位置に設定された出力デバイスと、
    前記出力デバイスの位置に対応する射影先マイクの射影信号を出力する制御を行う制御部を有する請求項1に記載の信号処理装置。
  10. 前記音源分離部は、少なくとも一部が異なる音源分離用マイクによって取得された信号を入力して分離信号を生成する複数の音源分離部によって構成され、
    前記信号射影部は、前記複数の音源分離部の生成した個別の分離信号と、射影先マイクの観測信号を入力して音源分離部対応の複数の射影信号を生成し、生成した複数の射影信号を合成して前記射影先マイクに対応する最終的な射影信号を生成する請求項1に記載の信号処理装置。
  11. 信号処理装置において実行する信号処理方法であり、
    音源分離部が、音源分離用マイクが取得した複数音源の混合信号に基づいて生成される観測信号に対して、独立成分分析(ICA:Independent Component Analysis)を適用して前記混合信号の分離処理を行い、各音源対応の分離信号を生成する音源分離ステップと、
    信号射影部が、射影先マイクの観測信号と、前記音源分離部の生成した分離信号を入力し、前記射影先マイクが取得する前記各音源対応の分離信号である射影信号を生成する信号射影ステップを有し、
    前記信号射影ステップは、前記音源分離用マイクとは異なる射影先マイクの観測信号を入力して前記射影信号を生成する信号処理方法。
  12. 信号処理装置において信号処理を実行させるプログラムであり、
    音源分離部に、音源分離用マイクが取得した複数音源の混合信号に基づいて生成される観測信号に対して、独立成分分析(ICA:Independent Component Analysis)を適用して前記混合信号の分離処理を行い、各音源対応の分離信号を生成させる音源分離ステップと、
    信号射影部に、射影先マイクの観測信号と、前記音源分離部の生成した分離信号を入力し、前記射影先マイクが取得する前記各音源対応の分離信号である射影信号を生成させる信号射影ステップを有し、
    前記信号射影ステップは、前記音源分離用マイクとは異なる射影先マイクの観測信号を入力して前記射影信号を生成させるステップであるプログラム。
JP2009081379A 2009-03-30 2009-03-30 信号処理装置、および信号処理方法、並びにプログラム Expired - Fee Related JP5229053B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2009081379A JP5229053B2 (ja) 2009-03-30 2009-03-30 信号処理装置、および信号処理方法、並びにプログラム
US12/661,635 US8577054B2 (en) 2009-03-30 2010-03-22 Signal processing apparatus, signal processing method, and program
CN2010101514521A CN101852846B (zh) 2009-03-30 2010-03-23 信号处理设备、信号处理方法和程序
EP10157330.1A EP2237272B1 (en) 2009-03-30 2010-03-23 Signal processing apparatus, signal processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009081379A JP5229053B2 (ja) 2009-03-30 2009-03-30 信号処理装置、および信号処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2010233173A true JP2010233173A (ja) 2010-10-14
JP5229053B2 JP5229053B2 (ja) 2013-07-03

Family

ID=42267373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009081379A Expired - Fee Related JP5229053B2 (ja) 2009-03-30 2009-03-30 信号処理装置、および信号処理方法、並びにプログラム

Country Status (4)

Country Link
US (1) US8577054B2 (ja)
EP (1) EP2237272B1 (ja)
JP (1) JP5229053B2 (ja)
CN (1) CN101852846B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150059A (ja) * 2011-01-20 2012-08-09 Chubu Electric Power Co Inc 音源推定方法及び音源推定装置
WO2012169095A1 (ja) * 2011-06-08 2012-12-13 パナソニック株式会社 音声信号処理装置および音声信号処理方法
WO2016183791A1 (zh) * 2015-05-19 2016-11-24 华为技术有限公司 一种语音信号处理方法及装置
JPWO2015159731A1 (ja) * 2014-04-16 2017-04-13 ソニー株式会社 音場再現装置および方法、並びにプログラム
KR20190013748A (ko) 2016-05-30 2019-02-11 소니 주식회사 영상 음향 처리 장치 및 방법, 및 프로그램
JP2021513264A (ja) * 2018-02-06 2021-05-20 株式会社ソニー・インタラクティブエンタテインメント スピーカシステムにおける音の定位
JP2021135462A (ja) * 2020-02-28 2021-09-13 日本電信電話株式会社 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9246543B2 (en) * 2011-12-12 2016-01-26 Futurewei Technologies, Inc. Smart audio and video capture systems for data processing systems
CN102522093A (zh) * 2012-01-09 2012-06-27 武汉大学 一种基于三维空间音频感知的音源分离方法
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
US8880395B2 (en) * 2012-05-04 2014-11-04 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjunction with source direction information
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
KR102091236B1 (ko) * 2012-09-28 2020-03-18 삼성전자 주식회사 전자기기 및 그 제어방법
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US9420368B2 (en) 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
EP3050056B1 (en) * 2013-09-24 2018-09-05 Analog Devices, Inc. Time-frequency directional processing of audio signals
JP2015155975A (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
JP6508539B2 (ja) * 2014-03-12 2019-05-08 ソニー株式会社 音場収音装置および方法、音場再生装置および方法、並びにプログラム
US10412490B2 (en) 2016-02-25 2019-09-10 Dolby Laboratories Licensing Corporation Multitalker optimised beamforming system and method
JP6763721B2 (ja) 2016-08-05 2020-09-30 大学共同利用機関法人情報・システム研究機構 音源分離装置
WO2018042791A1 (ja) * 2016-09-01 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体
JP7072765B2 (ja) * 2017-01-31 2022-05-23 株式会社アイシン 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
US10089998B1 (en) * 2018-01-15 2018-10-02 Advanced Micro Devices, Inc. Method and apparatus for processing audio signals in a multi-microphone system
CN108376548B (zh) * 2018-01-16 2020-12-08 厦门亿联网络技术股份有限公司 一种基于麦克风阵列的回声消除方法与系统
CN108702558B (zh) * 2018-03-22 2020-04-17 歌尔股份有限公司 用于估计到达方向的方法和装置及电子设备
CN112385245B (zh) 2018-07-16 2022-02-25 西北工业大学 灵活地理分布的差分麦克风阵列和相关波束形成器
WO2020166634A1 (ja) * 2019-02-14 2020-08-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ マイクロホン装置
WO2020172831A1 (en) * 2019-02-28 2020-09-03 Beijing Didi Infinity Technology And Development Co., Ltd. Concurrent multi-path processing of audio signals for automatic speech recognition systems
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
CN112697270B (zh) * 2020-12-07 2023-07-18 广州极飞科技股份有限公司 故障检测方法、装置、无人设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008233866A (ja) * 2007-02-21 2008-10-02 Sony Corp 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP2008292974A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
JP3887247B2 (ja) 2002-03-11 2007-02-28 日本電信電話株式会社 信号分離装置およびその方法、信号分離プログラム並びにそのプログラムを記録した記録媒体
EP1600789B1 (en) 2003-03-04 2010-11-03 Nippon Telegraph And Telephone Corporation Position information estimation device, method thereof, and program
JP2005049153A (ja) 2003-07-31 2005-02-24 Toshiba Corp 音声方向推定装置及びその方法
JP4462617B2 (ja) 2004-11-29 2010-05-12 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP4449871B2 (ja) 2005-01-26 2010-04-14 ソニー株式会社 音声信号分離装置及び方法
US7415372B2 (en) * 2005-08-26 2008-08-19 Step Communications Corporation Method and apparatus for improving noise discrimination in multiple sensor pairs
JP4496186B2 (ja) * 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
JP2007235646A (ja) * 2006-03-02 2007-09-13 Hitachi Ltd 音源分離装置、方法及びプログラム
JP2007295085A (ja) 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法
JP4946330B2 (ja) 2006-10-03 2012-06-06 ソニー株式会社 信号分離装置及び方法
JP5034469B2 (ja) 2006-12-08 2012-09-26 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
JP2008153483A (ja) 2006-12-19 2008-07-03 Sumitomo Bakelite Co Ltd 回路基板
US20080267423A1 (en) * 2007-04-26 2008-10-30 Kabushiki Kaisha Kobe Seiko Sho Object sound extraction apparatus and object sound extraction method
JP2009081379A (ja) 2007-09-27 2009-04-16 Showa Denko Kk Iii族窒化物半導体発光素子

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233866A (ja) * 2007-02-21 2008-10-02 Sony Corp 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008292974A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150059A (ja) * 2011-01-20 2012-08-09 Chubu Electric Power Co Inc 音源推定方法及び音源推定装置
WO2012169095A1 (ja) * 2011-06-08 2012-12-13 パナソニック株式会社 音声信号処理装置および音声信号処理方法
JPWO2015159731A1 (ja) * 2014-04-16 2017-04-13 ソニー株式会社 音場再現装置および方法、並びにプログラム
WO2016183791A1 (zh) * 2015-05-19 2016-11-24 华为技术有限公司 一种语音信号处理方法及装置
KR20190013748A (ko) 2016-05-30 2019-02-11 소니 주식회사 영상 음향 처리 장치 및 방법, 및 프로그램
US11184579B2 (en) 2016-05-30 2021-11-23 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
KR20220155396A (ko) 2016-05-30 2022-11-22 소니그룹주식회사 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
US11902704B2 (en) 2016-05-30 2024-02-13 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
JP2021513264A (ja) * 2018-02-06 2021-05-20 株式会社ソニー・インタラクティブエンタテインメント スピーカシステムにおける音の定位
JP2021135462A (ja) * 2020-02-28 2021-09-13 日本電信電話株式会社 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム

Also Published As

Publication number Publication date
US8577054B2 (en) 2013-11-05
EP2237272B1 (en) 2014-09-10
EP2237272A2 (en) 2010-10-06
JP5229053B2 (ja) 2013-07-03
EP2237272A3 (en) 2013-12-04
CN101852846A (zh) 2010-10-06
US20100278357A1 (en) 2010-11-04
CN101852846B (zh) 2013-05-29

Similar Documents

Publication Publication Date Title
JP5229053B2 (ja) 信号処理装置、および信号処理方法、並びにプログラム
EP3320692B1 (en) Spatial audio processing apparatus
US10645518B2 (en) Distributed audio capture and mixing
EP2647222B1 (en) Sound acquisition via the extraction of geometrical information from direction of arrival estimates
US10334357B2 (en) Machine learning based sound field analysis
US10839309B2 (en) Data training in multi-sensor setups
JP5284360B2 (ja) 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
KR101555416B1 (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
CN110537221A (zh) 用于空间音频处理的两阶段音频聚焦
US10873814B2 (en) Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
EP2976893A1 (en) Spatial audio apparatus
JP2015502716A (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
JP2015502573A (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
JP2023517720A (ja) 残響のレンダリング
WO2018193162A2 (en) Audio signal generation for spatial audio mixing
JP6105861B2 (ja) 音響処理装置および音響処理方法
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
Salvador et al. Evaluation of white noise gain in a binaural system for microphone arrays

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees