JP2021135462A

JP2021135462A - ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム

Info

Publication number: JP2021135462A
Application number: JP2020033995A
Authority: JP
Inventors: 章子荒木; Akiko Araki; 慶介木下; Keisuke Kinoshita; マークデルクロア; Marc Delcroix; 順貴小野; Junki Ono
Original assignee: Nippon Telegraph and Telephone Corp; Tokyo Metropolitan Public University Corp
Current assignee: Nippon Telegraph and Telephone Corp; Tokyo Metropolitan Public University Corp
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-09-13

Abstract

【課題】精度のよいソースイメージを推定することができる。【解決手段】ソースイメージ推定装置１０は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。そして、ソースイメージ推定装置１０は、計算した分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。続いて、ソースイメージ推定装置１０は、計算したソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。【選択図】図２

Description

本発明は、ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラムに関する。

従来、環境中に分散して配置した複数の録音機器で収録した信号を取り扱う、分散マイクロホンアレイの技術が知られている。分散マイクロホンアレイとは、例えばＩＣレコーダーやスマートホンなどの収録用端末を複数台利用し、マイクロホンアレイとして利用するものである。一般に分散マイクロホンアレイでは、端末ごとにマイクゲインが異なったり、各端末が設置された場所により端末ごとにＳＮ比が区々であったりという性質があり、用いるマイクによりその性能が左右される。

各周波数において、Ｓ∈Ｃ^Ｎ×ＴをＮ個の音源信号、Ｘ∈Ｃ^Ｍ×ＴをＭ個のマイクによる多チャンネル観測とし、ここではＮ＝Ｍとする。Ｃは複素数の集合である。Ｈ∈Ｃ^Ｍ×Ｍを混合行列Ｗ∈Ｃ^Ｍ×Ｍを分離行列、Ｔをフレーム数とし、以下では周波数インデックスｆは省略して表記する。

ここでの目的は、下記（１）式で表される混合信号から、各音源信号に何らかの線形変換を施したソースイメージｘ_ｎｔを精度よく求めることである。

上記の（１）式は、各行列の要素を用いて、下記（２）式で表わすことができる。ここで、ｘ_ｍｔは時刻ｔでのマイクｍでの観測信号を示し、ｓ_ｎｔは時刻ｔでのｎ番目の音源信号を示し、ｈ_ｍｎは音源ｎからマイクｍまでの伝達関数を示す。

例えば、各音源信号のソースイメージｘ_ｎｔを求めるための従来技術として、独立成分分析（ＩＣＡ：Independent Component Analysis）や独立ベクトル分析（ＩＶＡ：Independent Vector Analysis）などがある（例えば、非特許文献１参照）。

分離信号Ｙは、下記（３）式のように得られるが、一般にはスケールの任意性のためそのゲインが定まらない。これを解決するための従来法が、次に述べるprojection backである。

Ａ＝Ｗ^−１とすると、元の観測信号Ｘは分離信号Ｙを用いて下記（４）式で表わされる。

これを各行列の成分で表わす場合には下記（５）で表わされる。

ただし、ｘ_ｍｔはＸの（ｍ,ｔ）成分を表す。他も同様である。すなわちここまでの表記は、ｘ_ｍｔはｍ番目のマイクによる観測信号のｔフレーム目、ｙ_ｋｔはｋ番目の分離信号のｔフレーム目、ａ_ｍｋはｋ番目の分離信号からｍ番目のマイクによる観測信号までの伝達関数を表す。上記の（５）式より、ｘ_ｍｔに含まれているｋ番目の音源信号成分ｘ_ｋｔ＝ｈ_ｍｋｓ_ｋは、ａ_ｍｋｙ_ｋｔと表されることがわかる。

よって、上記の（３）式で得られた分離信号のうち、ｋ番目の分離信号ｙ_ｋｔ（ｔ＝１:Ｔ）にａ_ｍｋを乗じ、位相を含めた分離信号のスケールをマイクｍでの観測信号ｘ_ｋｍに揃えた分離信号を、下記（６）式のように得ることができる。これが、従来法で推定するソースイメージｘ_ｋｍである。

N. Ono, "Stable and fast update rules for independent vector analysis based on auxiliary function technique," in Proc. WASPAA2011, 2011, pp. 189−192.

従来のprojection back法では、あるマイクｍ(これを「参照マイク」と呼ぶ）の観測信号ｘ_ｍｔに分離信号のスケールを揃える。マイクｍにおけるｋ番目の音源のソースイメージｈ_ｍｋｓ_ｋｔが、低雑音・低残響で得られている場合には、性質の良いソースイメージへのprojection backができると期待される。

しかしながら、分散マイクでは、各話者に近いマイクと遠いマイクがあったり、録音のレベルがマイクによりバラバラ（マイクゲインがバラバラ）であったりと、各マイクにおけるソースイメージの品質は区々であることが多い。このような場合には、従来技術では、ソースイメージ推定の品質がprojection backを行なう参照マイクｍの選び方に大きく依存してしまう。

例えば、各話者から遠いマイクを参照マイクとして選んでしまうと、雑音や残響で劣化したｋ番目の音源のソースイメージｈ_ｍｋｓ_ｋｔへのprojection backをすることになり、結果ソースイメージ推定の品質が下がる。

上述した課題を解決し、目的を達成するために、本発明のソースイメージ推定装置は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第１のソースイメージを計算する計算部と、前記計算部によって計算された第１のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第２のソースイメージを出力する線形フィルタ部とを有することを特徴とする。

本発明によれば、参照マイクの選択によらずに、精度のよいソースイメージを推定することができるという効果を奏する。

図１は、第１の実施形態に係るソースイメージ推定装置の構成の一例を示す図である。図２は、ソースイメージ推定部の詳細を説明する図である。図３は、第１の実施形態に係るソースイメージ推定装置の処理の流れの一例を示すフローチャートである。図４は、評価実験における収録条件を示す図である。図５は、ソースイメージ推定プログラムを実行するコンピュータを示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。また、以下、「“^〜Ａ”を“Ａの直上に^〜を付した記号”」と同等であるとする。

［第１の実施形態］
以下の実施の形態では、第１の実施形態に係るソースイメージ推定装置１０の構成、ソースイメージ推定装置１０の処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。第１の実施の形態では、マイク選択によらずに高い性能を得られる信号処理の手法を提供することを目的とする。特に、第１の実施の形態では、複数マイクを用いた音声強調技術（雑音除去、音源分離）において、参照マイクの選び方によらず、目的音声をクリアに抽出することを目的とする。

［ソースイメージ推定装置の構成］
まず、図１を用いてソースイメージ推定装置１０の構成について説明する。図１は、第１の実施形態に係るソースイメージ推定装置の構成の一例を示す図である。図１に示すように、第１の実施形態１に係るソースイメージ推定装置１０は、周波数領域変換部１１、ソースイメージ推定部１２および時間領域変換部１３を有する。

周波数領域変換部１１は、入力された時間領域の混合信号Ｘから短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルＸを生成しソースイメージ推定部１２に出力する。例えば、周波数領域変換部１１は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号Ｘの入力を受け付け、短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルＸを生成してソースイメージ推定部１２に出力する。

ソースイメージ推定部１２は、周波数領域に変換した信号において、線形フィルタ出力でのソースイメージを推定する。例えば、ソースイメージ推定部１２は、混合信号から各音源信号を分離する分離行列を計算し、該分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージ（＝第１のソースイメージ）を計算し、該ソースイメージに線形フィルタを適用して、線形フィルタ出力におけるソースイメージ（＝第２のソースイメージ）を出力する。

ソースイメージ推定部１２は、ある参照マイクｍにおける観測信号ｘ_ｍｔを参照信号とするのではなく、観測信号ｘに線形フィルタでの音声強調を行なって得られる各音源ｋの強調音声ｚ_ｋｔを参照信号としてソースイメージ推定を行う。つまり、ソースイメージ推定部１２は、観測信号ｘ_ｍｔではなく強調音声ｚ_ｋｔにprojection backすることで、参照マイク選択によらず、品質の良い信号へのprojection backを可能とし、その結果、精度のよいソースイメージ推定を可能とする。

ここで、各マイクによる観測信号の代わりに、観測信号に多チャンネルフィルタをかけた下記（７）式で表わされる強調音声Ｚに対してprojection backすることを考える。

ここで、Ｂ∈Ｒ^Ｍ×Ｍは、Ｍ個の観測信号をＭ個のフィルタリング信号に変換する線形フィルタを表す。Ｒは実数の集合を示す。ただし、Ｂの逆行列Ｂ^−１が存在することを仮定する。成分で表わすと、下記（８）式となる。

この線形フィルタＢとしては任意のものを考えられるが、本実施形態では、ｂ_ｋｍ（ｍ＝１，・・・，Ｍ）が、ｋ番目の音源に対するDelay-and-Sum Beamformerになるようなフィルタを考える。このときｚ_ｋｔは、ｋ番目の音源に対するDelay-and-Sum Beamformerの出力となる。

ここで、ｎ番目の分離信号ｙ_ｎｔを、ｋ番目の線形フィルタ信号ｚ_ｋｔへprojection backしたものをｙ_ｎｔ，ｋ ^(LF)と表すことにし（_ｎｔ，ｋの直上に^(LF)があるものとする）、これがどのように表されるか下記（９）式から考えてみる。

ただし^〜Ｗ＝ＷＢ^−１のように変形し、Ｚ，^〜Ｗをそれぞれ観測信号と分離行列とみなせば、下記（１０）式となる。

ただし、^〜Ａ＝^〜Ｗ^−１＝ＢＷ^−１＝ＢＡとかける。成分で表すと、下記（１１）式で表わされるため、下記（１２）式となる。

ここで、^〜Ａ＝ＢＡであり、下記（１３）式のようになることに注意する。

ここで興味があるのは、ｋ番目の分離信号を、ｋ番目のフィルタ信号にprojection backしたもの、すなわちｎ＝ｋの場合であるが、これは、下記（１４）式で表わされる。

すなわち、ｋ番目の分離信号を各マイクｍにprojection backした多チャンネル信号ｙ_ｋｔ,ｍ(上記（６）式参照）に対して、ｂ_ｋｍにてフィルタリングしたものに等しい。要するに、「ある分離信号を線形フィルタ（線形ビームフォーマ）出力ｚ_ｋｔに対してprojection back すること」は、「その分離信号を各マイクに対してprojection backすることで得られる多チャンネル信号（＝第１のソースイメージ）ｙ_ｋｔ,ｍに対して線形フィルタ（線形ビームフォーマ）ｂ_ｋｍを適用すること」と等価であることが示された。

図２は、ソースイメージ推定部の詳細を説明する図である。図２に例示するように、ソースイメージ推定部１２は、音源分離部１２ａ、Projection Back部１２ｂ、乗算部１２ｃおよび線形フィルタ部１２ｄを有する。なお、音源分離部１２ａ、Projection Back部１２ｂおよび乗算部１２ｃは、合わせて計算部に相当するものとする。計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第１のソースイメージ（以下、適宜「第１のソースイメージ」と記載）を計算する。

音源分離部１２ａは、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。例えば、音源分離部１２ａは、前述した周波数領域変換部１１から出力された時間周波数領域の観測信号ベクトルＸの入力を受け付けると、ＩＶＡ（独立ベクトル分析）もしくはＩＣＡ（独立成分分析）等の音源分離の技術を適用して分離行列を計算し、分離行列ＷをProjection Back部１２ｂに通知する。また、音源分離部１２ａは、分離行列Ｗにより式（３）にて生成される分離信号ｙ_ｋｔを乗算部１２ｃに通知する。

Projection Back部１２ｂおよび乗算部１２ｃは、各音源信号に対応する分離信号の各録音端末上での第１のソースイメージを計算する。具体的には、Projection Back部１２ｂおよび乗算部１２ｃは、音源分離部１２ａによって計算された分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。つまり、Projection Back部１２ｂは、Ａ＝Ｗ^−１であるものとして、分離行列Ｗを用いて、各音源について、各マイクまでの伝達関数ａ_ｍｋをそれぞれもとめて、乗算部１２ｃに出力する。

また、乗算部１２ｃは、音源分離部１２ａから入力された分離信号ｙ_ｋｔとProjection Back部１２ｂから入力された伝達関数ａ_ｍｋとが入力されると、上記の（６）式のように、両者を乗算することで、各音源に対するソースイメージｙ_ｋｔ，ｍをすべてのマイクについて計算し、線形フィルタ部１２ｄに出力する。つまり、乗算部１２ｃは、ｋ番目の分離信号を各マイクｍにProjection Backした多チャンネル信号ｙ_ｋｔ，ｍを、全てのマイクｍについて計算する。

線形フィルタ部１２ｄは、計算部によって計算された第１のソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージ（以下、適宜「第２のソースイメージと記載」）を出力する。具体的には、線形フィルタ部１２ｄは、計算部によって計算されたソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。例えば、線形フィルタ部１２ｄは、まず、各音源ｋについて、あるマイクｍ＝ｒｅｆを選択する。なお、ここでのマイク選択は、例えば、適当にｍ＝１としてもよいし、ある基準で最も良いと思われるマイクを選択してもよい（例えば、参考文献１参照：S. Araki, N. Ono, K. Kinoshita, and M. Delcroix, 「Comparison of reference microphone selection algorithms for distributed microphone array based speech enhancement in meeting recognition scenarios」 in Proc. IWAENC2018, Sept. 2018, pp. 316−320.）。

そして、線形フィルタ部１２ｄは、各音源ｋについて、ｙ_{ｋｔ,ｒｅｆ}とｙ_ｋｔ,ｍとの時間差τ_ｋｍを求める。この推定法は何でもよい（例えば、参考文献２参照：K. Yamaoka, R. Scheibler, N. Ono, and Y. Wakabayashi, 「Subsample time delay estimation via auxiliary-function-based iterative updates」 in Proc. WASPAA2019.）。

続いて、線形フィルタ部１２ｄは、線形フィルタｂ_ｋｍをDelay-and-Sum Beamformerとして、下記の（１５）式で求める。ここで、ｒ_ｋｍは、下記の（１６）式により求めることができる。

線形フィルタ部１２ｄは、ｐが０の時、全てのチャンネルでの分離音声を同じ重みでDelay-and-Sumを行う。さらに、分散マイクの場合は、マイクゲインが区々であることから、線形フィルタ部１２ｄは、ｐ＝−０．５,１,２などとして、マイクゲインの大きなマイクにより強い重みをかけたweighted delay-and-sumを用いることもできる。

最後に線形フィルタ部１２ｄは、強調音声にprojection backした分離信号ｙ_ｋｔ，ｋ ^(LF)を上記の（１４）式にて求め、そのパワーを選択したｍ＝ｒｅｆマイクの信号ｙ_{ｋｔ,ｒｅｆ}のパワーになるよう正規化し、時間領域変換部１３に出力する。

［ソースイメージ推定装置の処理手順］
次に、図３を用いて、第１の実施形態に係るソースイメージ推定装置１０による処理手順の例を説明する。図３は、第１の実施形態に係るソースイメージ推定装置の処理の流れの一例を示すフローチャートである。

図３に例示するように、ソースイメージ推定装置１０は、まず、ｋ＝０を設定し（ステップＳ１０１）、ｋの値をインクリメントする（ステップＳ１０２）。そして、音源分離部１２ａとProjection Back部１２ｂと乗算部１２ｃが、各音源ｋにするソースイメージを、全てのマイクｍ（ｍ＝１，・・・，Ｍ）で求める（ステップＳ１０３）。例えば、乗算部１２ｃが、上記の（６）式を用いてｙ_ｋｔ,ｍをすべてのｍ＝１，・・・，Ｍについて計算する。

続いて、線形フィルタ部１２ｄは、各音源ｋについて、あるマイクｍ＝ｒｅｆを設定する（ステップＳ１０４）。なお、ここでのマイク選択は、例えば、適当にｍ＝１としてもよいし、ある基準で最も良いと思われるマイクを選択してもよい。

そして、線形フィルタ部１２ｄは、各音源ｋについて、ｙ_{ｋｔ,ｒｅｆ}とｙ_ｋｔ,ｍとの時間差τ_ｋｍを計算する（ステップＳ１０５）。続いて、線形フィルタ部１２ｄは、線形フィルタｂ_ｋｍをDelay-and-Sum Beamformerとして、上記の（１５）式で計算する（ステップＳ１０６）。

そして、線形フィルタ部１２ｄは、強調音声にprojection backした分離信号ｙ_ｋｔ，ｋ ^(LF)を上記の（１４）式にて求め、そのパワーを選択したｍ＝ｒｅｆマイクの信号のパワーｙ_{ｋｔ,ｒｅｆ}になるよう正規化し、出力する（ステップＳ１０７）。

その後、ソースイメージ推定装置１０は、ｋ＝Ｎであるかを判定し（ステップＳ１０８）、ｋ＝Ｎでない場合には（ステップＳ１０８否定）、ステップＳ１０２の処理に戻る。すなわち、ソースイメージ推定装置１０は、すべての音源について上述のステップＳ１０２〜Ｓ１０７の処理を行ったかを判定し、すべての音源について処理が終わるまで繰り返し処理を行う。また、ソースイメージ推定装置１０は、ｋ＝Ｎであると判定した場合には（ステップＳ１０８肯定）、本フローの処理を終了する。

［第１の実施形態の効果］
このように、第１の実施形態に係るソースイメージ推定装置１０は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。そして、ソースイメージ推定装置１０は、計算した分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。続いて、ソースイメージ推定装置１０は、計算したソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。これにより、ソースイメージ推定装置１０は、精度のよいソースイメージを推定することが可能である。

特に、ソースイメージ推定装置１０では、複数マイクを用いた音声強調技術（雑音除去、音源分離）において、参照マイクの選び方によらず、目的音声をクリアに抽出することが可能である。つまり、ソースイメージ推定装置１０では、例えば、ある参照マイクｍにおける観測信号ｘ_ｍｔを参照信号とするのではなく、観測信号Ｘに線形フィルタでの音声強調を行なって得られる各音源ｋの強調音声ｚ_ｋｔを参照信号としてソースイメージを推定するので、参照マイク選択によらず、品質の良い信号へのprojection backを可能とし、その結果、精度のよいソースイメージ推定を可能とする。

［評価実験］
次に、第１の実施形態を用いて評価実験を行った。図４は、評価実験における収録条件を示す図である。

図４に示すように、それぞれステレオマイクを具備する４台のスマートホンで収録した４−６名の会話音声を用いて、実験を行った。実験では、まず、４台のスマートホン収録信号間の時間同期をとったあと、従来法および発明法で音声強調を実施した。音声強調の精度は、音声認識精度ＷＥＲ（Word Error Rate）で評価した。各端末のサンプリング周波数は１６ｋＨｚ、ＳＴＦＴ（Short Time Fourier Transform：短時間フーリエ変換）のフレーム長は４０９６、フレームシフト長を２０４８とした。

表１では、従来法にて、参照マイクｍを各ｃｈ１〜８と決めてprojection backしたときのＷＥＲ（％）、各話者に物理的に一番近いマイク（ｃｌｏ）を選んだ場合のＷＥＲ（％）、発明法でのprojection backを行った場合のＷＥＲ（％）をそれぞれ示す。表１に示すように、従来法では参照マイクの選び方により、音声強調の性能にばらつきがあるが、発明法では最も小さなＷＥＲが得られており、精度のよいソースイメージ推定ができるという効果がわかる。

また、表２では、発明法のステップＳ１０４においてのｒｅｆマイクをｃｈ１〜８としたときのＷＥＲ（％）をそれぞれ示す。表２より、発明法は、ｒｅｆマイクの選び方によらず比較的安定した性能を示すことがわかる。つまり、ｒｅｆマイクの選び方によらずに精度のよいソースイメージ推定ができるという効果がわかる。

［第２の実施形態］
第２の実施形態では、音源分離部１２ａに、最小分散無歪（ＭＶＤＲ：Minimum Variance Distortionless Response）ビームフォーマを利用する例を示す。ＭＶＤＲビームフォーマでは、ｈ_ｋが与えられている場合は、下記（１７）式、（１８）式および（１９）式にて、各音源ｙ_ｋｔを求めることができる。しかし、一般的にはｈ_ｋは与えられず推定する必要がある。その場合、ｈ_ｋを推定する代わりに、ｈ_ｍｋのｍ番目の要素を１に規格化した^〜ｈ_ｋ＝［ｈ_１ｋ／ｈ_ｍｋ,・・・,ｈ_Ｍｋ／ｈ_ｍｋ］^Ｔを用いることが多く(例えば、参考文献３（Shmulik Markovich Golan, Sharon Gannot, 「Performance analysis of the covariance subtraction method for relative transfer function estimation and comparison to thecovariance whitening method」, ICASSP 2015, pp. 544-548, 2015.）の（４）式や、参照文献４（N. Ito, S. Araki and T. Nakatani, 「Permutation-free clustering of relative transfer function features for blind source separation」, EUSIPCO2015, pp. 409-413, 2015.）の（２２）式参照。）、ここでマイクmを選択する必要が出てくる。本実施形態は、このマイクｍの選択を不要とする。

第２の実施形態に係るソースイメージ推定装置の音源分離部１２ａでは、ＭＶＤＲビームフォーマにより各録音端末上での第１のソースイメージを計算する。また、線形フィルタ部１２ｄは、音源分離部１２ａによって計算された第１のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第２のソースイメージを出力する。

以下では、第２の実施形態に係るソースイメージ推定装置の処理の流れについて説明する。なお、第１の実施形態と同様の処理については説明を省略する。まず、第２の実施形態に係るソースイメージ推定装置の音源分離部１２ａでは、各周波数における各音源ｋに関するソースイメージを、すべてのマイクｍについて、下記の（２０）式で求める。つまり、第２の実施形態に係るソースイメージ推定装置の音源分離部１２ａでは、第１の実施形態に係るソースイメージ推定装置の音源分離部１２ａの処理とを比較すると、前述の図４のフローチャートにおけるステップＳ１０３の処理に代えて、各周波数における各音源ｋに関するソースイメージを、すべてのマイクｍについて、下記の（２０）式で求める。

ただし、^〜ｗ_ｋ,ｍは、下記の（２１）式で表わされ、Ｒは、下記の（２２）式で表わされる。ｘ_ｔは、Ｘのｔ列目の縦ベクトル、^〜ｈ_ｋ,ｍ＝［ｈ_１ｋ／ｈ_ｍｋ,・・・,ｈ_Ｍｋ／ｈ_ｍｋ］^Ｔである。第２の実施形態では、Projection Back部１２ｄにて陽に行う計算はなく、音源分離部はｙ_ｋｔ,ｍを直接出力する。例えば、第２の実施形態に係るソースイメージ推定装置では、Projection Back部１２ｄを有していなくともよい。

各周波数における各音源ｋに関するソースイメージをすべてのマイクｍについて求めた後の線形フィルタ部１２ｄの処理は、前述の図４のステップＳ１０４〜Ｓ１０７の処理と同様である。

なお上記において、^〜ｈ_ｋにて求めた分離信号は、下記（２３）式に示すようなソースイメージであることが証明できる。これは前述の（６）式においてａ_ｍｋ＝ｈ_ｍｋとしたものと解釈できる。

［その他の実施形態］
その他の実施形態では、音源ｓ_ｋｔに対応する分離信号ｙ_ｋｔを出力する分離フィルタベクトルｗ_ｋを求めることができる音源分離部１２ａと、そのスケールをｍ番目のマイクでの観測信号に合わせることができるProjection back部１２ｂを持つ音源分離手法に、広く適用できる。例えば、音源分離部１２ａは、各音源分離部を分離できればよく、分離行列を推定しなくてもよい。このような場合には、例えば、音源分離部１２ａは、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る。そして、Projection back部１２ｂおよび乗算部１２ｃは、分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃える。

なお、第２の実施形態のように、音源分離部１２ａがｍ番目のマイクでの観測信号にスケールを合わせた分離信号を直接出力できる場合は、Projection back部１２ｂを持たなくてもよい。すなわち、音源分離部１２ａが、すべてのマイクｍに関するｙ_ｋｔ,ｍを推定し、その後、線形フィルタ部１２ｄにて、第１の実施形態と同様にステップＳ１０４〜Ｓ１０７の処理を行うようにしてもよい。

以下は、その他の実施形態に関する証明である。本実施形態を一般的に記述すると、まず目的は、各音源信号になんらかの伝達関数ｃがかかったソースイメージを分離信号として得ること、すなわち、下記（２４）式となるようにスケールを合わせることである。

スケールを考慮せずに設計されたｗ_ｋを用いた線形フィルタ出力にある定数Ｐを乗じてこの条件を満たすことを考える。定数Ｐが満たすべき等式は、下記（２５）式であり、これより、Ｐは、下記（２６）式で表わされる。

以下では、このＰがｗ_ｋ，ｈ_ｋ，ｃに依存することを明示するためにＰ（ｗ,ｈ,ｃ）と表す。以下簡単のため、分離音のインデックスｋを省略する。各マイクにおけるソースイメージａ_ｍｓにある線形フィルタｂ_ｍを乗じた出力のスケールをｃと考え、これにprojection backするＰを考える。まずこの線形フィルタ出力は下記（２７）式で表わされる。

これは伝達関数が下記（２８）式であるようなソースイメージにprojection backすることと等価である。

ここで、以下（２９）式が成り立つ。

これはＰ（ｗ,ｈ,ｃ）がcに対して線形であることから明らかであるが、陽に式変形を示せば、以下の（３０）式のようになる。

よって、以下の（３１）式が成り立つ。左辺は「線形フィルタｂ_ｍ（ｍ＝１,・・・,Ｍ）の出力に対するprojection back」、右辺は「各マイクへprojection backすることで得られたソースイメージに対して線形フィルタｂ_ｍ（ｍ＝1,・・・,Ｍ）を適用したもの」であり、上述の（２６）式と等価な方法でスケールを決定する任意の手法において、これらが等しいことが示された。

上述の実施形態では、この右辺を効率的な手段にて実現する方法を提供している。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図５は、ソースイメージ推定プログラムを実行するコンピュータを示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、ソースイメージ推定装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク、ＷＡＮを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０ソースイメージ推定装置
１１周波数領域変換部
１２ソースイメージ推定部
１２ａ音源分離部
１２ｂ Projection Back部
１２ｃ乗算部
１２ｄ線形フィルタ部
１３時間領域変換部

Claims

複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、
各音源信号に対応する分離信号の各録音端末上での第１のソースイメージを計算する計算部と、
前記計算部によって計算された第１のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第２のソースイメージを出力する線形フィルタ部と
を有することを特徴とするソースイメージ推定装置。
前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る音源分離部を有し、
さらに、前記計算部は、前記分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃えることを特徴とするソースイメージ推定装置。
前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する音源分離部を有し、
さらに、前記計算部は、前記音源分離部によって計算された分離行列を用いて、前記第１のソースイメージを計算することを特徴とする請求項１に記載のソースイメージ推定装置。
前記線形フィルタ部は、前記線形フィルタとして、Delay-and-Sum Beamformerを適用し、前記第２のソースイメージを出力することを特徴とする請求項１に記載のソースイメージ推定装置。
前記線形フィルタ部は、前記複数の録音端末のマイクのうち、マイクゲインの大きなマイクにより強い重みをかけたweighted delay-and-sumを適用し、前記第２のソースイメージを出力することを特徴とする請求項４に記載のソースイメージ推定装置。
前記音源分離部は、独立ベクトル分析を用いて前記分離行列を計算することを特徴とする請求項３に記載のソースイメージ推定装置。
前記音源分離部は、独立成分分析を用いて記分離行列を計算することを特徴とする請求項３に記載のソースイメージ推定装置。
前記音源分離部は、ＭＶＤＲビームフォーマにより各録音端末上での前記第１のソースイメージを計算し、
前記線形フィルタ部は、前記音源分離部によって計算された第１のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第２のソースイメージを出力することを特徴とする請求項３に記載のソースイメージ推定装置。
ソースイメージ推定装置によって実行されるソースイメージ推定方法であって、
複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第１のソースイメージを計算する計算工程と、
前記計算工程によって計算された第１のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第２のソースイメージを出力する線形フィルタ工程と
を含むことを特徴とするソースイメージ推定方法。
複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第１のソースイメージを計算する計算ステップと、
前記計算ステップによって計算された第１のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第２のソースイメージを出力する線形フィルタステップと
をコンピュータに実行させることを特徴とするソースイメージ推定プログラム。