JP5706782B2

JP5706782B2 - 音源分離装置及び音源分離方法

Info

Publication number: JP5706782B2
Application number: JP2011175396A
Authority: JP
Inventors: 一博中臺; 中島　弘史; 弘史中島
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2010-08-17
Filing date: 2011-08-10
Publication date: 2015-04-22
Anticipated expiration: 2031-08-10
Also published as: JP2012042953A; US20120045066A1; US8867755B2

Description

本発明は、音源分離装置及び音源分離方法に関する。

複数の未知の信号系列が混合された観測信号から、それぞれの信号を分離するブラインド信号源分離（ｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ；ＢＳＳ）技術が提案されている。ＢＳＳ技術は、例えば、騒音下における音声認識に応用されている。ここで、ＢＳＳ技術は、周囲雑音、又はロボット等の動作によって発生する駆動音等から人間が発声した音声を分離するために用いられている。
ＢＳＳ技術では、信号を分離するために各音源からの空間的な伝搬特性を利用することが提案されている。

例えば、特許文献１に記載の音源分離システムは、入力信号と音源信号との相関関係を表す分離行列により定義され、かつ、音源信号の分離度を評価するためのコスト関数の次回値が今回値よりも最小値に近づくように今回の分離行列が次回の分離行列に更新される処理が繰り返される。
分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回の勾配が急なほど少なくなるように調節される。
そして、複数のマイクロホンのそれぞれの入力信号と最適分離行列とに基づき音源信号が高精度で分離される。

特許４４４４３４５号公報

しかしながら、特許文献１に記載の音源分離システムでは、音源が変動すると分離行列が著しく変化するため、分離行列が更新されても最適値に近似するとは限らない。よって、この分離行列を用いて入力信号から音源信号を分離できないという問題があった。

本発明は上記の点に鑑みてなされたものであり、音源が変動しても音源信号を分離することができる音源分離装置又は音源分離方法を提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、収音部から入力された複数チャネルの入力信号から時間窓で抽出した信号値のチャネル間における相関を要素とする入力相関行列を算出する入力相関算出部と、前記入力信号に基づき音源の変動を表す変動状態情報を生成する音源変動検出部と、前記音源変動検出部が生成した変動状態情報に基づいて初期の分離行列を算出するパラメータ選択部と、出力相関行列から一の音源が他の音源として分離される度合いを表す分離尖鋭度に基づくコスト関数を用いて前記分離行列を更新する更新行列算出部と、前記入力相関行列及び更新した前記分離行列に基づいて出力信号のチャネル間における相関を要素とする出力相関行列を算出する出力相関算出部と、前記分離尖鋭度が大きいほど長くなるように前記時間窓の長さである窓長を算出する窓長算出部とを備えることを特徴とする音源分離装置である。

（２）本発明のその他の態様は、音源からの伝達関数を記憶する伝達関数記憶部を備え、
前記パラメータ選択部は、前記伝達関数記憶部から伝達関数を読み出し、読み出した前記伝達関数を用いて初期の前記分離行列を算出することを特徴とする（１）の音源分離装置である。

（３）本発明のその他の態様は、前記音源変動検出部は、前記変動状態情報として、音源方向が予め設定された閾値よりも大きく変化したことを検出して、音源方向の切り替わりを表す情報を生成することを特徴とする（１）または（２）の音源分離装置である。

（４）本発明のその他の態様は、前記音源変動検出部は、前記変動状態情報として、前記入力信号の振幅が予め設定された閾値よりも大きくなったことを検出して、発話が開始したことを表す情報を生成することを特徴とする（１）または（２）の音源分離装置である。

（５）本発明のその他の態様は、前記更新行列算出部は、前記コスト関数として、前記分離尖鋭度と、前記出力信号と音源信号との誤差の度合いを表す幾何制約関数と、を重み付け加算したコスト関数を用いることを特徴とする（１）−（４）のいずれかに記載の音源分離装置である。

（６）本発明のその他の態様は、音源からの伝達関数を記憶する伝達関数記憶部を備える音源分離装置における音源分離方法において、前記音源分離装置が、収音部から入力された複数チャネルの入力信号から時間窓で抽出した信号値のチャネル間における相関を要素とする入力相関行列を算出する過程と、前記入力信号に基づき音源の変動を表す変動状態情報を生成する過程と、前記変動状態情報に基づいて初期の分離行列を算出する過程と、出力相関行列から一の音源が他の音源として分離される度合いを表す分離尖鋭度に基づくコスト関数を用いて前記分離行列を更新する過程と、前記入力相関行列及び更新した前記分離行列に基づいて出力信号のチャネル間における相関を要素とする出力相関行列を算出する過程と、前記分離尖鋭度が大きいほど長くなるように前記時間窓の長さである窓長を算出する過程と、を有することを特徴とする音源分離方法である。

本発明の一態様である（１）の音源分離装置によれば、音源の変動に基づいて算出した初期分離行列を音源分離に用いるため、音源が変動しても音響信号を分離することができる。
本発明のその他の態様である（２）の音源分離装置によれば、音源からの伝達関数を用いて初期分離行列を算出するため、伝達関数の変動に応じて音響信号を分離することができる。
本発明のその他の態様である（３）の音源分離装置によれば、音源方向の切り替わりに伴い初期分離行列を設定することができる。
本発明のその他の態様である（４）の音源分離装置によれば、発話の開始に伴い初期分離行列を設定することができる。
本発明のその他の態様である（５）の音源分離装置によれば、１つの音源として他の音源による成分が混在する度合い、又は分離誤差を低減することができる。
本発明のその他の態様である（６）の音源分離装置によれば、１つの音源として他の音源による成分が混在する度合いを低減し、かつ分離誤差を低減することができる。
本発明のその他の態様である（７）の音源分離方法によれば、音源の変動に基づいて読み出した伝達関数を用いて初期分離行列を音源分離に用いるため、音源が変動しても音響信号を分離することができる。

本発明の実施形態に係る音源分離装置の構成を示す概念図である。本実施形態に係る音源分離処理を表すフローチャートである。本実施形態に係る初期化処理を表すフローチャートである。発話者の発話位置の一例を示す概念図である。本実施形態に係る単語正答率の一例を示す図である。発話者の発話位置のその他の例を示す概念図である。本実施形態に係る単語正解精度の一例を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本発明の実施形態に係る音源分離装置１の構成を示す概略図である。
音源分離装置１は、収音部１１、パラメータ切替部１２、音源分離部１３、相関算出部１４及び音源出力部１５を含んで構成される。

収音部（ｓｏｕｎｄｉｎｐｕｔ）１１は、受信した音波を音響信号に変換する収音手段（例えば、マイクロホン）を複数個備え、各収音手段は異なる位置に配置される。収音部１１は、例えば、Ｍ個（Ｍは２以上の整数）のマイクロホンを備えるマイクロホンアレーである。
収音部１１は、変換した音響信号を並列して多チャネル（例えばＭチャネル）音響信号としてパラメータ切替（ｐａｒａｍｅｔｅｒｓｗｉｔｃｈｉｎｇ）部１２の音源定位（ｓｏｕｎｄｓｏｕｒｃｅｌｏｃａｌｉｚａｔｉｏｎ）部１２１並びに音源変動検出部（ｓｏｕｎｄｃｈａｎｇｅｄｅｔｅｃｔｉｏｎ）１２２、音源分離（ｓｏｕｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）部１３の音源推定（ｓｏｕｎｄｅｓｔｉｍａｔｉｏｎ）部１３１及び相関（ｃｏｒｒｅｌａｔｉｏｎ）算出部１４の入力相関（ｉｎｐｕｔｃｏｒｒｅｌａｔｉｏｎ）算出部１４１に出力する。

パラメータ切替部１２は、収音部１１から入力された多チャネル音響信号に基づき音源方向を推定し、推定した音源方向の変動をフレーム（時刻）毎に検出する。音源方向の変動とは、例えば、音源方向の切替わり（ｓｗｉｔｃｈｉｎｇ）、発話（ｕｔｔｅｒａｎｃｅ）を含む。パラメータ切替部１２は、検出した音源方向に対応した伝達関数（ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）を要素とする伝達関数行列（ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｍａｔｒｉｘ）と、その伝達関数に基づく初期分離行列（ｉｎｉｔｉａｌｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）を音源分離部１３に出力する。伝達関数行列及び初期分離行列については後述する。
パラメータ切替部１２は、音源定位部１２１、音源変動検出部１２２、伝達関数記憶部１２３及びパラメータ選択部１２４を含んで構成される。

音源定位部１２１は、収音部１１から入力された多チャネル音響信号に基づき音源方向を推定する。音源定位部１２１は、音源方向を推定するために、例えばＭＵＳＩＣ（ｍｕｌｔｉｐｌｅｓｉｇｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ；多信号分類）法を用いる。例えば、ＭＵＳＩＣ法を用いる場合、音源定位部１２１は、次に述べる処理を行う。

音源定位部１２１は、収音部１１から入力された多チャネル音響信号を構成するチャネル毎の音響信号をフレーム単位で離散フーリエ変換（ｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ；ＤＦＴ）を行って周波数領域に変換したスペクトルを生成する。これにより、音源定位部１２１は、チャネル毎のスペクトルの値を要素とするＭ列の入力ベクトルｘを周波数毎に算出する。音源定位部１２１は、算出した入力ベクトルｘに基づきスペクトル相関行列（ｓｐｅｃｔｒｕｍｃｏｒｒｅｌａｔｉｏｎｍａｔｒｉｘ）Ｒ_ｓｐを、式（１）を用いて周波数毎に算出する。

式（１）において、＊は、複素共役転置演算子を示す。Ｅ［ｘｘ^＊］は、ｘｘ^＊の期待値を示す演算子である。期待値とは、例えば、現在までの予め設定した時間にわたる時間平均である。
音源定位部１２１は、式（２）を満たすようにスペクトル相関行列Ｒ_ｓｐの固有値λ_ｉと固有ベクトルｅ_ｉを算出する。

音源定位部１２１は、式（２）を満たす固有値λ_ｉと固有ベクトルｅ_ｉとの組を保持する。ｉは、１以上Ｍ以下の整数であるインデックスを示す。インデックスｉの順序、１、２．．．Ｍは、固有値λ_ｉの降順である。
音源定位部１２１は、伝達関数記憶部１２３から選択した伝達関数ベクトルＤ(θ)と、算出した固有ベクトルｅ_ｉに基づき、式（３）を用いて空間スペクトル（ｓｐａｔｉａｌｓｐｅｃｔｒｕｍ）Ｐ（θ）を算出する。

式（３）において、｜Ｄ^＊（θ）Ｄ（θ）｜は、スカラー値Ｄ^＊（θ）Ｄ（θ）の絶対値を示す。Ｎは、認識可能な最大音源個数であって、予め設定した値（例えば３）である。本実施形態では、Ｎ＜Ｍであることが好ましい。Ｋは、音源定位部１２１が保持した固有ベクトルｅ_ｉの数であって、Ｍ又はＭよりも小さい予め設定した整数である。Ｔは、ベクトル又は行列の転置を示す。即ち、固有ベクトルｅ_ｉ（Ｎ＋１≦ｉ≦Ｋ）は、音源以外とみなされた成分（例えば、雑音）の特性を示すベクトル値である。従って、空間スペクトルＰ（θ）は、音源から伝搬した成分の、音源以外の成分の割合を表す。

音源定位部１２１は、式（３）を用いて、予め設定した周波数帯域の空間スペクトルＰ（θ)を取得する。予め設定した周波数帯域とは、例えば、音源として可能性がある音響信号による音圧が大きい周波数帯域であり、かつ雑音の音圧が小さい周波数帯域である。その周波数帯域は、人間が発声する音声が音源である場合、例えば、０．５〜２．８ｋＨｚである。

音源定位部１２１は、算出した周波数帯域の空間スペクトルＰ(θ)を、その周波数帯域よりも広帯域に拡張して拡張（ｅｘｔｅｎｄｅｄ）空間スペクトルＰ_ｅｘｔ（θ）を算出する。
ここで、音源定位部１２１は、入力された多チャネル音響信号に基づきＳ／Ｎ比（ｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ；信号雑音比）を算出し、算出したＳ／Ｎ比が予め設定した閾値よりも高い（即ち、ノイズが少ない）周波数帯域ωを選択する。
音源定位部１２１は、選択した周波数帯域ωにおいて式（２）を用いて算出した固有値λ_ｉのうち、最大となる最大固有値λ_maxの平方根に、空間スペクトルＰ(θ)で式（４）を用いて重み付け加算して拡張空間スペクトルＰ_ｅｘｔ(θ)を算出する。

式（４）において、Ωは周波数帯域の集合を示し、｜Ω｜は集合Ωの要素数、ｋは周波数帯域を示すインデックスを示す。これにより拡張空間スペクトルＰ_ext(θ)には、空間スペクトルＰ(θ)の値が大きい周波数帯域ωの特性が強く反映される。

音源定位部１２１は、拡張空間スペクトルＰ_ｅｘｔ(θ)のピーク値（極大値）と、対応する角度θを選択する。この選択されたθが音源方向として推定される。
ピーク値とは、角度θの拡張空間スペクトルの値Ｐ_ｅｘｔ(θ)が、角度θから微小量Δθだけ負方向にずれた角度θ−Δθにおける値Ｐ_ext(θ−Δθ)、及び角度θから微小量Δθだけ正方向にずれた角度θ＋Δθにおける値Ｐ_ｅｘｔ(θ＋Δθ)よりも大きな値である。Δθは、音源方向θの量子化幅（ｑｕａｎｔｉｚａｔｉｏｎｗｉｄｔｈ）、例えば１°（度）である。

音源定位部１２１は、拡張空間スペクトルＰ_ｅｘｔ(θ)のピーク値のうち、最大値からＮ番目に大きい値まで抽出し、抽出したピーク値に各々対応する音源方向θを選択する。音源定位部１２１は、選択した音源方向θを表す音源方向情報を定める。
なお、音源定位部１２１は、音源毎の方向情報を推定するために、上述のＭＵＳＩＣ法の代わりに、例えば、ＷＤＳ−ＢＦ（ｗｅｉｇｈｔｅｄｄｅｌａｙａｎｄｓｕｍｂｅａｍｆｏｒｍｉｎｇ）法を用いてもよい。
音源定位部１２１は、定めた音源方向情報を音源変動検出部１２２、パラメータ選択（ｐａｒａｍｅｔｅｒｓｅｌｅｃｔｉｎｇ）部１２４及び音源分離部１３の音源推定部１３１に出力する。

音源変動検出部１２２は、収音部１１から入力された多チャネル音響信号、又は音源定位部１２１から入力された音源方向情報に基づき音源の変動状態を検出し、検出した変動状態を表す変動状態情報を生成する。音源変動検出部１２２は、生成した変動状態情報をパラメータ選択部１２４、音源分離部１３の音源推定部１３１及び相関算出部１４の入力相関算出部１４１並びに出力相関（ｏｕｔｐｕｔｃｏｒｒｅｌａｔｉｏｎ）算出部１４２に出力する。
音源変動検出部１２２は、音源の変動として、例えば、次の２種類の状態（１）、（２）をフレーム時刻毎に独立に検出する。（１）音源方向の切替わり（ｓｗｉｔｃｈｉｎｇｏｆｓｏｕｎｄｓｏｕｒｃｅｄｉｒｅｃｔｉｏｎ、以下、ＰＯＳとも略記する）、（２）発話（ｕｔｔｅｒａｎｃｅ、以下、ＩＤとも略記する）。音源変動検出部１２２は、音源方向の切替わりの状態と発話の状態を同時に検出し、両方の状態を表す変動状態情報を生成することもある。

音源方向の切替わりとは、音源方向が瞬間的に著しく変化することを意味する。
音源変動検出部１２２は、例えば、音源方向情報が示す少なくとも１つの音源方向であって現在のフレーム時刻における音源方向と１フレーム時刻過去のその音源方向が、予め設定した方向変化の閾値θ_ｔｈ（例えば、５°）を越えたとき、音源方向の切替わりの状態を検出する。このとき、音源変動検出部１２２は、音源方向の切替わりの状態を表す変動状態情報を生成する。

発話とは、音響信号が立ち上がる状態（ｏｎｓｅｔ）、即ち音響信号の振幅が予め定めた振幅やパワーを超える状態が開始することを意味する。本実施形態では、発話とは、必ずしも人間が発声を開始することに限らず、楽器、機器、等の物体が音を発生開始することも含む。
音源変動検出部１２２は、例えば、予め定めたフレーム数（例えば、１秒に相当するフレーム数）だけ過去の時刻から１フレーム時刻過去まで一貫して音響信号のパワーが予め設定したパワーの閾値ｐ_ｔｈ（例えば、定常雑音のパワーの１０倍）よりも小さく、現在の音響信号のパワーが閾値ｐ_ｔｈを超えたとき、発話の状態と検出する。このとき、音源変動検出部１２２は、発話の状態を表す変動状態情報を生成する。

伝達関数（ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）記憶部１２３には、複数の伝達関数ベクトルを音源方向情報と対応付けて予め記憶されている。その伝達関数ベクトルは、音源から収音部１１が備える各収音手段（チャネル）までの音波の伝搬特性を表す伝達関数を要素値として含むＭ列のベクトルである。また、伝達関数ベクトルは音源の位置（方向）によって異なり周波数ω毎に異なる。伝達関数記憶部１２３において、伝達関数に対応する音源方向は、予め設定した間隔に離散化されている。例えば、この間隔が５°の場合、伝達関数記憶部１２３には、７２組の伝達関数ベクトルが記憶されている。

パラメータ選択部１２４には、音源定位部１２１から音源方向情報が入力され、音源変動検出部１２２から変動状態情報が入力される。
パラメータ選択部１２４は、入力された変動状態情報が音源方向の切替わりの状態、又は発話の状態を表すとき、入力された音源方向情報が表す各音源方向に最も近似する音源方向を表す音源方向情報に対応する伝達関数ベクトルを伝達関数記憶部１２３から読み出す。伝達関数記憶部１２３に記憶されている伝達関数ベクトルに対応する音源方向情報は離散値であり、連続値ではないからである。
音源方向情報が複数の音源方向を表す場合には、パラメータ選択部１２４は、読み出した複数の伝達関数ベクトルを統合して伝達関数行列を構成する。即ち、伝達関数行列は、各音源から各受音手段までの伝達関数を要素として含み周波数毎に定められる行列である。音源方向情報が１個の音源方向を表す場合には、パラメータ選択部１２４は、読み出した伝達関数ベクトルを伝達関数行列とする。
パラメータ選択部１２４は、伝達関数行列を音源分離部１３の音源推定部１３１及び幾何誤差（ｇｅｏｍｅｔｒｉｃｅｒｒｏｒ）算出部１３２に出力する。

パラメータ選択部１２４は、各音源方向に対応する伝達関数ベクトルに基づき分離行列（ｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）の初期値である初期分離行列を算出し、算出した初期分離行列を音源分離部１３の音源推定部１３１に出力する。分離行列については、後述する。このようにして、音源分離部１３が、音源方向の切り替わり、及び発話の際に、伝達関数行列及び分離行列を初期化（ｉｎｉｔｉａｌｉｚｅ）できるようにする。
パラメータ選択部１２４は、初期分離行列Ｗ_ｉｎｉｔとして、伝達関数行列Ｄに基づいて、例えば、式（５）を用いて算出する。

式（５）において、ｄｉａｇ［Ｄ^＊Ｄ］は、行列Ｄ^＊Ｄの対角成分からなる対角行列である。［Ｄ^＊Ｄ］^−１は、行列Ｄ^＊Ｄの逆行列を示す。例えば、行列Ｄ^＊Ｄが、その非対角要素がすべてゼロである対角行列である場合、初期分離行列Ｗ_ｉｎｉｔは、伝達関数行列Ｄの擬似逆行列となる。また、音源が１個、つまり行列Ｄの列数が１列であるベクトルである場合には、初期分離行列Ｗ_ｉｎｉｔは、行列Ｄの各要素値を二乗和で除算した値となる。
なお、本実施形態では、式（５）で算出される初期分離行列Ｗ_ｉｎｉｔの代わりに、伝達関数行列Ｄの擬似逆行列（Ｄ^＊Ｄ）^−１Ｄ^＊を初期分離行列Ｗ_ｉｎｉｔとして算出してもよい。

音源分離部１３は、分離行列Ｗを推定し、推定した分離行列Ｗに基づいて収音部１１から入力された多チャネル音響信号から音源毎の成分に分離し、分離した出力スペクトル（ベクトル）として音源出力部１５に出力する。分離行列Ｗは、多チャネル音響信号のスペクトルｘ（ベクトル）のｉ番目の要素値に乗算して出力スペクトルｙ（ベクトル）のｊ番目の要素値への寄与を算出する要素値ｗ_ｉｊを要素値として含む行列である。音源分離部１３が理想的な分離行列Ｗを推定した場合、出力スペクトルｙ（ベクトル）は、各音源のスペクトルを要素値として含む音源スペクトルｓ（ベクトル）と等しくなる。

音源分離部１３は、分離行列Ｗを推定するために、例えば、ＧＳＳ（ｇｅｏｍｅｔｒｉｃｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ；幾何制約付き音源分離）法を用いる。ＧＳＳ法とは、分離尖鋭度（ｓｅｐａｒａｔｉｏｎｓｈａｒｐｎｅｓｓ）Ｊ_ＳＳと幾何制約度（ｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣを加算して得られるコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）Ｊを最小化するように分離行列Ｗを適応的に（ａｄａｐｔｉｖｅｌｙ）算出する方法である。

分離尖鋭度Ｊ_ＳＳとは、式（６）に示す指標値であり、ＢＳＳ技術（ＢＳＳ法）で分離行列Ｗを算出するために用いられるコスト関数である。

式（６）において、｜Ｅ（ｙｙ^Ｈ−ｄｉａｇ（ｙｙ^Ｈ））｜^２は、行列Ｅ（ｙｙ^Ｈ−ｄｉａｇ（ｙｙ^Ｈ））のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。Ｅ（ｙｙ^Ｈ−ｄｉａｇ（ｙｙ^Ｈ））は、行列ｙｙ^Ｈ−ｄｉａｇ（ｙｙ^Ｈ）の期待値、即ち予め設定した時間だけ過去の時刻から現在までの時間平均である。式（６）によれば、分離尖鋭度Ｊ_ＳＳは、出力スペクトルの非対角成分の大きさ、つまり、ある１つの音源が他の音源として誤って分離される度合いを表す指標値である。また、分離尖鋭度Ｊ_ＳＳを、入力スペクトルｘ（ベクトル）の要素値毎に微分した行列が、分離誤差行列（ｓｅｐａｒａｔｉｏｎｅｒｒｏｒｍａｔｒｉｘ）Ｊ’_ＳＳである。但し、この微分において、ｙ＝Ｗｘであると仮定する。

幾何制約度Ｊ_ＧＣとは、式（７）に示す指標値であり、ＢＦ（ｂｅａｍｆｏｒｍｉｎｇ；ビームフォーミング）法で分離行列Ｗを算出するために用いられるコスト関数である。

式（７）によれば、幾何制約度Ｊ_ＧＣとは、出力スペクトルと音源スペクトルとの誤差の度合いを表す指標値である。また、幾何制約度Ｊ_ＧＣを、入力スペクトルｘ（ベクトル）の要素値毎に微分した行列が、幾何誤差行列Ｊ’_ＧＣである。
従って、ＧＳＳ法は、ＢＳＳ法とＢＦ法を統合した解法であり、音源間での分離精度のと音源スペクトルの推定精度の両者の向上を図る解法である。
音源分離部１３が、ＧＳＳ法を用いる場合、音源推定部１３１、幾何誤差算出部１３２、第１ステップサイズ算出部１３３、分離誤差算出部１３４、第２ステップサイズ算出部１３５及び更新行列算出部１３６を備える。

音源推定部１３１は、パラメータ選択部１２４から入力された初期分離行列Ｗ_ｉｎｉｔを初期値として、フレーム時刻ｔ毎に分離行列Ｗを算出する。
音源推定部１３１は、現フレーム時刻ｔにおける分離行列Ｗに、更新行列算出部１３６から入力された更新行列（ｕｐｄａｔｅｍａｔｒｉｘ）ΔＷを減算して、次のフレーム時刻ｔ＋１における分離行列Ｗを算出する。これにより、音源推定部１３１は、分離行列Ｗをフレーム毎に更新する。

音源推定部１３１は、音源変動検出部１２２から入力された音源変動情報が音源方向の切替わりを表すとき、直前に算出した分離行列Ｗを最適分離行列Ｗ_ｏｐｔとして自部が備える記憶部に記憶する。そして、音源推定部１３１は、分離行列Ｗを初期化する。このとき、音源推定部１３１は、パラメータ選択部１２４から入力された初期分離行列Ｗ_ｉｎｉｔを分離行列Ｗとして設定する。
音源推定部１３１は、音源変動検出部１２２から入力された音源変動情報が発話の状態を表すとき、最適分離行列Ｗ_ｏｐｔを設定する。このとき、音源推定部１３１は、音源定位部１２１から入力された音源方向情報に対応する最適分離行列Ｗ_ｏｐｔを読み出し、読み出した最適分離行列Ｗ_ｏｐｔを分離行列Ｗとして設定する。

なお、音源推定部１３１は、更新行列ΔＷに基づいて分離行列Ｗの変化が収束（ｃｏｎｖｅｒｇｅ）したか否かフレーム時刻毎に判断するようにしてもよい。この判断のために、音源推定部１３１は、例えば、分離行列Ｗの変化量である更新行列ΔＷの大きさ（例えば、ノルム）と分離行列Ｗの大きさの比率を表す指標値を算出する。この指標値が予め定めた閾値（例えば、０．０３、約−３０ｄＢに相当）よりも小さい場合、音源推定部１３１は分離行列Ｗの変化が収束したと判断する。この指標値が、予め定めた閾値と等しいか、又はこの閾値より大きい場合、音源推定部１３１は分離行列Ｗの変化が収束していないと判断する。
音源推定部１３１は、分離行列Ｗの変化が収束したと判断したとき、自部が備える記憶部に、音源定位部１２１から入力された音源方向情報と算出した分離行列Ｗを対応付けて最適分離行列Ｗ_ｏｐｔとして記憶する。

音源推定部１３１は、分離行列Ｗの変化が収束していないと判断し、かつ音源変動検出部１２２から入力された音源変動情報が音源方向の切替わりを表すとき、分離行列Ｗを初期化する。このとき、音源推定部１３１は、パラメータ選択部１２４から入力された初期分離行列Ｗ_ｉｎｉｔを分離行列Ｗとして設定する。
音源推定部１３１は、分離行列Ｗの変化が収束したと判断し、かつ音源変動検出部１２２から入力された音源変動情報が音源方向の切替わりを表すとき、最適分離行列Ｗ_ｏｐｔを設定する。このとき、音源推定部１３１は、音源定位部１２１から入力された音源方向情報に対応する最適分離行列Ｗ_ｏｐｔを記憶部から読み出し、読み出した最適分離行列Ｗ_ｏｐｔを分離行列Ｗとして設定する。

音源推定部１３１は、分離行列Ｗの変化が収束していないと判断し、かつ音源変動検出部１２２から入力された音源変動情報が発話の状態を表すとき、分離行列Ｗを初期化する。このとき、音源推定部１３１は、パラメータ選択部１２４から入力された初期分離行列Ｗ_ｉｎｉｔを分離行列Ｗとして設定する。
音源推定部１３１は、分離行列Ｗの変化が収束したと判断したとき、かつ音源変動検出部１２２から入力された音源変動情報が発話の状態を表すとき、最適分離行列Ｗ_ｏｐｔを設定する。このとき、音源推定部１３１は、音源定位部１２１から入力された音源方向情報に対応する最適分離行列Ｗ_ｏｐｔを読み出し、読み出した最適分離行列Ｗ_ｏｐｔを分離行列Ｗとして設定する。

音源推定部１３１は、音源変動検出部１２２から入力された音源変動情報が音源方向の切替わりと発話の状態の両方を表す場合、分離行列Ｗを初期化する。このとき、音源推定部１３１は、パラメータ選択部１２４から入力された初期分離行列Ｗ_ｉｎｉｔを分離行列Ｗとして設定する。このような場合には、音源推定部１３１は、分離行列Ｗの変化が収束したと判断した場合でも、最適分離行列Ｗ_ｏｐｔを設定しない。音源方向の切替わりと発話の状態が同時に発生した場合、必ず音源からの伝達関数が変動するので、最適分離行列Ｗ_ｏｐｔも変動するからである。

音源推定部１３１は、収音部１１から入力された多チャネル音響信号を構成するチャネル毎の音響信号をフレーム単位で離散フーリエ変換を行って周波数領域に変換したスペクトルを生成する。これにより、音源推定部１３１は、チャネル毎のスペクトルの値を要素ちとするＭ列のベクトルである入力ベクトルｘを周波数毎に算出する。
音源推定部１３１は、算出した入力スペクトルｘ（ベクトル）に分離行列Ｗを乗算して出力スペクトルｙ（ベクトル）を周波数毎に算出する。音源推定部１３１は、出力スペクトルｙを音源出力部１５に出力する。
音源推定部１３１は、算出した分離行列Ｗを幾何誤差算出部１３２、分離誤差算出部１３４及び相関算出部１４の出力相関算出部１４２に出力する。

幾何誤差算出部１３２は、パラメータ選択部１２４から入力された伝達関数行列Ｄと音源推定部１３１から入力された分離行列Ｗに基づいて、例えば式（８）を用いて幾何誤差行列Ｊ’_ＧＣを算出する。

式（８）において、行列Ｅ_ＧＣは、式（９）に示されるように、分離行列Ｗと伝達関数行列Ｄの積から単位行列Ｉを減算して得られる行列である。幾何誤差算出部１３２は、式（９）を用いて行列Ｅ_ＧＣを算出する。

即ち、幾何誤差行列Ｊ’_ＧＣは、音源推定部１３１からの出力スペクトルｙの音源信号スペクトルｓからの誤差のうち、分離行列Ｗの推定誤差の寄与分を表す行列である。
幾何誤差算出部１３２は、算出した幾何誤差行列Ｊ’_ＧＣを第１ステップサイズ算出部１３３及び更新行列算出部１３６に出力し、算出した行列Ｅ_ＧＣを第１ステップサイズ算出部１３３に出力する。

第１ステップサイズ（ｓｔｅｐｓｉｚｅ）算出部１３３は、幾何誤差算出部１３２から入力された行列Ｅ_ＧＣと幾何誤差行列Ｊ’_ＧＣに基づいて、例えば式（１０）を用いて第１ステップサイズμ_ＧＣを算出する。

式（１０）において、第１ステップサイズμ_ＧＣは、行列Ｅ_ＧＣの大きさの幾何誤差行列Ｊ’_ＧＣの大きさに対する割合を示すパラメータである。このようにして、第１ステップサイズ算出部１３３は、第１ステップサイズμ_ＧＣを適応的に算出することができる。
第１ステップサイズ算出部１３３は、算出した第１ステップサイズμ_ＧＣを更新行列算出部１３６に出力する。

分離誤差算出部１３４は、相関算出部１４の入力相関算出部１４１から入力された入力相関行列Ｒ_ｘｘ、出力相関算出部１４２から入力された出力相関行列Ｒ_ｙｙ及び音源推定部１３１から入力された分離行列Ｗに基づいて、例えば式（１１）を用いて分離誤差行列Ｊ’_ＳＳを算出する。

式（１１）において、行列Ｅ_ＳＳは、式（１２）に示されるように、出力相関行列Ｒ_ｙｙの非対角成分を表す行列である。分離誤差算出部１３４は、式（１２）を用いて行列Ｅ_ＳＳを算出する。

即ち、分離誤差行列Ｊ’_ＳＳは、ある1つの音源からの音響信号が伝搬する際に、他の音源からの音響信号からの音響信号が混合する度合いを表す行列である。
分離誤差算出部１３４は、算出した分離誤差行列Ｊ’_ＳＳを第２ステップサイズ算出部１３５及び更新行列算出部１３６に出力し、算出した行列Ｅ_ＳＳを第２ステップサイズ算出部１３５に出力する。

第２ステップサイズ算出部１３５は、分離誤差算出部１３４から入力された行列Ｅ_ＳＳと分離誤差行列Ｊ’_ＳＳに基づいて、例えば式（１３）を用いて第２ステップサイズμ_ＳＳを算出する。

即ち、第２ステップサイズμ_ＳＳは、行列Ｅ_ＳＳの大きさの分離誤差行列Ｊ’_ＳＳの大きさに対する割合を示すパラメータである。このようにして、第２ステップサイズ算出部１３５は、第２ステップサイズμ_ＳＳを適応的に算出することができる。
第２ステップサイズ算出部１３５は、算出した第２ステップサイズμ_ＳＳを更新行列算出部１３６に出力する。

更新行列算出部１３６には、幾何誤差算出部１３２から幾何誤差行列Ｊ’_ＧＣが入力され、分離誤差算出部１３４から分離誤差行列Ｊ’_ＳＳが入力される。更新行列算出部１３６には、第１ステップサイズ算出部１３３から第１ステップサイズμ_ＧＣが入力され、第２ステップサイズ算出部１３５から第２ステップサイズμ_ＳＳが入力される。
更新行列算出部１３６は、幾何誤差行列Ｊ’_ＧＣと分離誤差行列Ｊ’_ＳＳを、第１ステップサイズμ_ＧＣと第２ステップサイズμ_ＳＳで重み付け加算してフレーム毎に更新行列ΔＷを算出する。更新行列算出部１３６は、算出した更新行列ΔＷを音源推定部１３１に出力する。
このようにして、音源分離部１３は、ＧＳＳ法に基づいて分離行列Ｗを逐次に算出する。

本実施形態では、音源分離部１３は、ＧＳＳ法の代わりに、ＢＳＳ法を用いて分離行列Ｗを算出してもよい。その場合、音源分離部１３は、幾何誤差算出部１３２及び第１ステップサイズ算出部１３３を省略し、更新行列算出部１３６は、更新行列ΔＷを−μ_ＳＳＪ‘_ＳＳと定める。
また、本実施形態では、音源分離部１３は、ＧＳＳ法の代わりに、ＢＦ法を用いてもよい。その場合、音源分離部１３は、分離誤差算出部１３４及び第２ステップサイズ算出部１３５を省略し、更新行列算出部１３６は、更新行列ΔＷを−μ_ＧＣＪ‘_ＧＣと定める。

相関算出部１４は、収音部１１から入力された多チャネル音響信号に基づき入力相関行列Ｒ_ｘｘを算出し、音源分離部１３から入力された分離行列Ｗを更に用いて出力相関行列Ｒ_ｙｙを算出する。相関算出部１４は、算出した入力相関行列Ｒ_ｘｘ及び出力相関行列Ｒ_ｙｙを分離誤差算出部１３４に出力する。
相関算出部１４は、入力相関算出部１４１、出力相関算出部１４２及び窓長算出部１４３を含んで構成される。

入力相関算出部１４１は、収音部１１から入力された多チャネル音響信号に基づき入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）をサンプル時刻ｔ_Ｓ毎に算出する。入力相関算出部１４１は、例えば式（１４）に示すように、時間窓関数（ｔｉｍｅｗｉｎｄｏｗ）ｗ（ｔ_Ｓ）で規定される時間Ｎ（ｔ_Ｓ）内においてチャネル間のサンプル値の積を累積した累積値を要素とする行列を、入力相関行列の瞬時値（ｉｎｓｔａｎｔｅｎｅｏｕｓｖａｌｕｅ）Ｒ^（ｉ） _ｘｘ（ｔ_Ｓ）として算出する。

式（１４）において、τは、現サンプル時刻ｔ_Ｓを基準として過去に遡るサンプル時刻を示す。時間窓関数ｗ（ｔ_Ｓ）は、τ＝０から時間Ｎ（ｔ_Ｓ）だけ過去に遡ったサンプル時刻までの間の値を１とし、Ｎ（ｔ_Ｓ）よりも遡った時刻での値を０とする関数である。即ち、時間窓関数ｗ（ｔ_Ｓ）はτ＝０からＮ（ｔ_Ｓ）までの間の信号値を抽出する関数である。ここで、信号値を抽出する区間の大きさであるＮ（ｔ_Ｓ）を窓長（ｗｉｎｄｏｗｌｅｎｇｔｈ）と呼ぶ。このようにして、入力相関算出部１４１は、時間領域で入力相関行列の瞬時値Ｒ^（ｉ） _ｘｘ（ｔ_Ｓ）を算出する。
そこで、入力相関算出部１４１は、窓長算出部１４３から入力された窓長Ｎ（ｔ_Ｓ）に基づいて時間窓関数ｗ（ｔ_Ｓ）を定め、式（１４）を用いて瞬時値Ｒ^（ｉ） _ｘｘ（ｔ_Ｓ）を算出する。

入力相関算出部１４１は、減衰パラメータ（ｄｅｃａｙｐａｒａｍｅｔｅｒ）α（ｔ_Ｓ）を用いて、前サンプル時刻ｔ_Ｓ−１の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ−１）と現サンプル時刻ｔ_Ｓの瞬時値Ｒ^（ｉ） _ｘｘ（ｔ_Ｓ）を重み付け加算（ｗｅｉｇｈｔｓｕｍ）し、現在のサンプル時刻の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）を、例えば式（１５）を用いて算出する。算出された入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）は、短時間平均値からなる行列である。

式（１５）において、減衰パラメータα（ｔ_Ｓ）は、過去の値による寄与を時間経過に伴って指数的（ｅｘｐｏｎｅｎｔｉａｌｌｙ）に減衰させる度合いを表す係数である。入力相関算出部１４１は、減衰パラメータα（ｔ_Ｓ）を、例えば、窓長算出部１４３から入力された窓長Ｎ（ｔ_Ｓ）に基づき、式（１６）を用いて算出する。

式（１６）を用いて算出された減衰パラメータα（ｔ_Ｓ）によれば、現在の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）への影響が及ぶ瞬時値Ｒ^（ｉ） _ｘｘの時間範囲は窓長Ｎ（ｔ_Ｓ）と同程度になる。

入力相関算出部１４１は、時間領域の入力相関行列Ｒ_ｘｘ（ｔ）をフレーム単位で離散フーリエ変換して周波数領域の入力相関行列Ｒ_ｘｘをフレーム時刻毎に算出する。
入力相関算出部１４１は、音源変動検出部１２２から音源の切替わりの状態を表す変動状態情報、又は発話の状態を表す変動状態情報を入力された場合、入力相関行列Ｒ_ｘｘの初期値として単位行列に設定する。
入力相関算出部１４１は、算出又は設定した入力相関行列Ｒ_ｘｘを分離誤差算出部１３４に出力し、時間領域の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）を出力相関算出部１４２に出力する。

出力相関算出部１４２は、入力相関算出部１４１から入力された時間領域の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）と音源推定部１３１から入力された分離行列Ｗに基づいて出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）を算出する。
出力相関算出部１４２は、音源推定部１３１から入力された分離行列Ｗを逆離散フーリエ変換（ｉｎｖｅｒｓｅｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ；ＩＤＦＴ）して時間領域の分離行列Ｗ（ｔ_Ｓ）を算出する
出力相関算出部１４２は、例えば式（１７）に示すように、入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）の左側に分離行列Ｗ（ｔ_Ｓ）を乗算し、右側に分離行列の複素共役転置行列Ｗ^＊（ｔ_Ｓ）を乗算して時間領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）を算出する。

出力相関算出部１４２は、算出した時間領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）をフレーム時刻毎に離散フーリエ変換して周波数領域の出力相関行列Ｒ_ｙｙを算出する。

なお、出力相関算出部１４２は、式（１７）を用いずに、音源推定部１３１から入力された出力スペクトルｙに基づいて周波数領域の出力相関行列Ｒ_ｙｙを算出し、算出した周波数領域の出力相関行列Ｒ_ｙｙを逆離散フーリエ変換して時間領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）を算出してもよい。
出力相関算出部１４２は、音源変動検出部１２２から音源の切替わりの状態を表す変動状態情報、又は発話の状態を表す変動状態情報を入力された場合、周波数領域の出力相関行列Ｒ_ｙｙの初期値として単位行列に設定する。
出力相関算出部１４２は、算出又は設定した周波数領域の相関行列Ｒ_ｙｙを音源分離部１３の分離誤差算出部１３４に出力し、時間領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）を窓長算出部１４３に出力する。

窓長算出部１４３は、出力相関算出部１４２から入力された時間領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）に基づき窓長Ｎ（ｔ_Ｓ）を算出し、算出した窓長Ｎ（ｔ_Ｓ）を入力相関算出部１４１に出力する。
窓長算出部１４３は、例えば、式（１８）に示されるように分離尖鋭度の最小値の逆数に基づいて定める。

式（１８）において、ｍｉｎ（ａ）は、スカラー値ａの最小値を示し、βは許容誤差パラメータ（例えば０．９９）を示す予め設定された値である。但し、窓長算出部１４３は、算出した窓長Ｎ（ｔ_Ｓ）が予め定めた最大値Ｎ_ｍａｘ（例えば、１０００サンプル）を越える場合には、窓長Ｎ（ｔ_Ｓ）を最大値Ｎ_ｍａｘに設定する。
窓長算出部１４３が算出した窓長Ｎ（ｔ_Ｓ）は長いほど分離行列Ｗの推定精度が向上するが、適応速度（ａｄａｐｔａｔｉｏｎｓｐｅｅｄ）が遅くなる関係がある。上述のように、本実施形態によれば、分離行列Ｗの収束性が劣る場合に、窓長算出部１４３が短い窓長を算出して適応速度を速くし、分離行列Ｗの収束性が優れる場合に、長い窓長を算出して推定精度を向上させることができる。

音源出力部１５は、音源推定部１３１から入力された周波数毎の出力ベクトルが示すスペクトルをフレーム時刻毎に逆離散フーリエ変換して時間領域の出力信号を生成する。音源出力部１５は生成した出力信号を音源分離装置１の外部に出力する。

次に、本実施形態に係る音源分離装置１が行う音源分離処理について説明する。
図２は、本実施形態に係る音源分離処理を表すフローチャートである。
（ステップＳ１０１）音源定位部１２１は、収音部１１から入力された多チャネル音響信号に基づき、例えばＭＵＳＩＣ法を用いて音源方向を推定する。
音源定位部１２１は、推定した音源方向を表す音源方向情報を音源変動検出部１２２、パラメータ選択部１２４及び音源推定部１３１に出力する。その後、ステップＳ１０２に進む。

（ステップＳ１０２）音源変動検出部１２２は、収音部１１から入力された多チャネル音響信号又は音源定位部１２１から入力された音源方向情報に基づき音源方向の変動状態を検出し、検出した変動状態を表す変動状態情報を生成する。
ここで、音源変動検出部１２２は、現在のフレーム時刻における音源方向と１フレーム時刻過去のその音源方向が、予め設定した角度の閾値θ_ｔｈを越えたとき、音源方向の切替わりの状態を表す変動状態情報を生成する。
音源変動検出部１２２は、予め定めたフレーム数だけ過去の時刻から１フレーム時刻過去まで一貫して音響信号のパワーが予め設定した閾値よりも小さく、現在の音響信号のパワーがその閾値を超えたとき、発話の状態と検出する。このとき、音源変動検出部１２２は、発話の状態を表す変動状態情報を生成する。
音源変動検出部１２２は、生成した変動状態情報をパラメータ選択部１２４、音源推定部１３１及び入力相関算出部１４１並びに出力相関算出部１４２に出力する。その後、ステップＳ１０３に進む。

（ステップＳ１０３）音源変動検出部１２２が音源方向の切替わりの状態又は発話の状態を表す変動状態情報が出力したとき、音源分離装置１は、分離行列Ｗ及びこれを算出するためのパラメータを初期化する。初期化に係る具体的な処理については、後述する。その後、ステップＳ１０４に進む。

（ステップＳ１０４）幾何誤差算出部１３２は、パラメータ選択部１２４から入力された伝達関数行列Ｄと音源推定部１３１から入力された分離行列Ｗに基づいて、例えば式（９）を用いて行列Ｅ_ＧＣを算出し、例えば式（８）を用いて幾何誤差行列Ｊ’_ＧＣを算出する。
幾何誤差算出部１３２は、算出した幾何誤差行列Ｊ’_ＧＣを第１ステップサイズ算出部１３３及び更新行列算出部１３６に出力し、算出した行列Ｅ_ＧＣを第１ステップサイズ算出部１３３に出力する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）第１ステップサイズ算出部１３３は、幾何誤差算出部１３２から入力された行列Ｅ_ＧＣと幾何誤差行列Ｊ’_ＧＣに基づいて、例えば式（１０）を用いて第１ステップサイズμ_ＧＣを算出する。第１ステップサイズ算出部１３３は、算出した第１ステップサイズμ_ＧＣを更新行列算出部１３６に出力する。その後、ステップＳ１０６に進む。

（ステップＳ１０６）分離誤差算出部１３４は、相関算出部１４の出力相関算出部１４２から入力された出力相関行列Ｒ_ｙｙに基づいて式（１２）を用いて行列Ｅ_ＳＳを算出する。分離誤差算出部１３４は、算出した行列Ｅ_ＳＳ、相関算出部１４から入力された入力相関行列Ｒ_ｘｘ及び音源推定部１３１から入力された分離行列Ｗに基づいて、例えば式（１１）を用いて分離誤差行列Ｊ’_ＳＳを算出する。
分離誤差算出部１３４は、算出した分離誤差行列Ｊ’_ＳＳを第２ステップサイズ算出部１３５及び更新行列算出部１３６に出力し、算出した行列Ｅ_ＳＳを第２ステップサイズ算出部１３５に出力する。その後、ステップＳ１０７に進む。

（ステップＳ１０７）第２ステップサイズ算出部１３５は、分離誤差算出部１３４から入力された行列Ｅ_ＳＳと分離誤差行列Ｊ’_ＳＳに基づいて、例えば式（１３）を用いて第２ステップサイズμ_ＳＳを算出する。
第２ステップサイズ算出部１３５は、算出した第２ステップサイズμ_ＳＳを更新行列算出部１３６に出力する。その後、ステップＳ１０８に進む。

（ステップＳ１０８）更新行列算出部１３６には、幾何誤差算出部１３２から幾何誤差行列Ｊ’_ＧＣが入力され、分離誤差算出部１３４から分離誤差行列Ｊ’_ＳＳが入力される。更新行列算出部１３６は、第１ステップサイズ算出部１３３から第１ステップサイズμ_ＧＣが入力され、第２ステップサイズ算出部１３５から第２ステップサイズμ_ＳＳが入力される。
更新行列算出部１３６は、幾何誤差行列Ｊ’_ＧＣと分離誤差行列Ｊ’_ＳＳを、第１ステップサイズμ_ＧＣと第２ステップサイズμ_ＳＳで重み付け加算してフレーム毎に更新行列ΔＷを算出する。更新行列算出部１３６は、算出した更新行列ΔＷを音源推定部１３１に出力する。その後、ステップＳ１０９に進む。

（ステップＳ１０９）音源推定部１３１は、現フレーム時刻ｔにおける分離行列Ｗに、更新行列算出部１３６から入力された更新行列ΔＷを減算して、次のフレーム時刻ｔ＋１における分離行列Ｗを算出する。音源推定部１３１は、算出した分離行列Ｗを幾何誤差算出部１３２、分離誤差算出部１３４及び出力相関算出部１４２に出力する。その後、ステップＳ１１０に進む。

（ステップＳ１１０）音源変動検出部１２２から入力された音源変動情報が音源方向の切替わりを表すとき、直前に算出した分離行列Ｗを最適分離行列Ｗ_ｏｐｔとして自部が備える記憶部に記憶し、音源推定部１３１は、分離行列Ｗを初期化する。分離行列Ｗを初期化する処理については後述する。その後、ステップＳ１１１に進む。

（ステップＳ１１１）入力相関算出部１４１は、窓長算出部１４３から入力された窓長Ｎ（ｔ_Ｓ）に基づき、サンプル時刻ｔ_Ｓ毎に、収音部１１から入力された多チャネル音響信号の入力相関行列の瞬時値Ｒ^（ｉ） _ｘｘ（ｔ_Ｓ）を、例えば式（１４）を用いて算出する。
入力相関算出部１４１は、窓長Ｎ（ｔ_Ｓ）に基づき、例えば式（１６）を用いて減衰パラメータα（ｔ_Ｓ）を算出する。
入力相関算出部１４１は、算出した減衰パラメータα（ｔ_Ｓ）と入力相関行列の瞬時値Ｒ^（ｉ） _ｘｘ（ｔ_Ｓ）に基づき、現在のサンプル時刻の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）を、例えば式（１５）を用いて算出する。
入力相関算出部１４１は、サンプル時刻毎に算出した時間領域の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）を出力相関算出部１４２に出力し、フレーム毎に周波数領域の入力相関行列Ｒ_ｘｘを分離誤差算出部１３４に出力する。その後、ステップＳ１１２に進む。

（ステップＳ１１２）出力相関算出部１４２は、入力相関算出部１４１から入力された時間領域の入力相関行列Ｒ_ｘｘ（ｔ_Ｓ）と音源推定部１３１から入力された分離行列Ｗに基づいて、例えば式（１７）を用いて時間領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）を算出する。
出力相関算出部１４２は、算出した時間領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）を窓長算出部１４３に出力し、周波数領域の出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）を分離誤差算出部１３４に出力する。その後、ステップＳ１１３に進む。

（ステップＳ１１３）窓長算出部１４３は、出力相関算出部１４２から入力された出力相関行列Ｒ_ｙｙ（ｔ_Ｓ）に基づき、例えば式（１８）を用いて窓長Ｎ（ｔ_Ｓ）を算出し、算出した窓長Ｎ（ｔ_Ｓ）を入力相関算出部１４１に出力する。その後、ステップＳ１１４に進む。

（ステップＳ１１４）音源推定部１３１は、収音部１１から入力された多チャネル音響信号を構成するチャネル毎の音響信号をフレーム単位で離散フーリエ変換を行い周波数領域に変換し、入力ベクトルｘを周波数毎に算出する。
音源推定部１３１は、算出した入力ベクトルｘに分離行列Ｗを乗算して出力ベクトルｙを周波数毎に算出する。音源推定部１３１は、出力ベクトルｙを音源出力部１５に出力する。
音源出力部１５は、音源推定部１３１から入力された周波数毎の出力ベクトルが示すスペクトルをフレーム時刻毎に逆離散フーリエ変換して時間領域の出力信号を生成する。音源出力部１５は生成した出力信号を音源分離装置１の外部に出力する。その後、処理を終了する。

次に、本実施形態に係る音源分離装置１が行う初期化処理について説明する。
図３は、本実施形態に係る初期化処理を表すフローチャートである。
（ステップＳ２０１）パラメータ選択部１２４は、音源方向の切替わりの状態、又は発話の状態を表す変動状態情報が入力されたとき、音源定位部１２１から入力された音源方向情報が表す各音源方向に最も近似する音源方向を表す音源方向情報に対応する伝達関数ベクトルを伝達関数記憶部１２３から読み出す。パラメータ選択部１２４は、読み出した伝達関数ベクトルを用いて伝達関数行列を構成し、構成した伝達関数行列を音源推定部１３１及び幾何誤差算出部１３２に出力する。その後、ステップＳ２０２に進む。
（ステップＳ２０２）パラメータ選択部１２４は、構成した伝達関数行列に基づき、例えば式（５）を用いて初期分離行列Ｗ_ｉｎｉｔを算出し、算出した初期分離行列Ｗ_ｉｎｉｔを音源推定部１３１に出力する。その後、ステップＳ２０３に進む。

（ステップＳ２０３）音源推定部１３１は、音源変動検出部１２２から音源方向の切替わり、又は発話の状態を表す変動状態情報を入力された場合のいずれか、あるいは音源方向の切替わり及び発話の状態を表す変動状態情報を入力された場合か判断する。
音源推定部１３１は、音源変動検出部１２２から音源方向の切替わり又は発話の状態を表す変動状態情報を入力された場合のいずれかであると判断した場合（ステップＳ２０３Ｙ）、ステップＳ２０４に進む。音源推定部１３１は、音源変動検出部１２２から音源方向の切替わり及び発話の状態を表す変動状態情報を入力された場合と判断した場合（ステップＳ２０３Ｎ）、ステップＳ２０５に進む。

（ステップＳ２０４）音源推定部１３１は、音源定位部１２１から入力された音源方向情報に対応する最適分離行列Ｗ_ｏｐｔを記憶部から読み出し、読み出した最適分離行列Ｗ_ｏｐｔを分離行列Ｗとして設定する。その後、ステップＳ２０６に進む。
（ステップＳ２０５）音源推定部１３１は、直前に算出した分離行列Ｗを最適分離行列Ｗ_ｏｐｔとして記憶部に記憶する。音源推定部１３１は、パラメータ選択部１２４から入力された初期分離行列Ｗ_ｉｎｉｔを分離行列Ｗとして設定する。その後、ステップＳ２０６に進む。

（ステップＳ２０６）入力相関算出部１４１は、音源変動検出部１２２から音源の切替わりの状態を表す変動状態情報、又は発話の状態を表す変動状態情報を入力された場合、入力相関行列Ｒ_ｘｘの初期値として単位行列に設定する。その後、ステップＳ２０７に進む。

（ステップＳ２０７）出力相関算出部１４２は、音源変動検出部１２２から音源の切替わりの状態を表す変動状態情報、又は発話の状態を表す変動状態情報を入力された場合、周波数領域の出力相関行列Ｒ_ｙｙの初期値として単位行列に設定する。その後、初期化に係る処理を終了する。

次に、本実施形態にかかる音源分離装置１から取得した出力信号を用いて音声認識を行った結果について説明する。音源分離装置１は、人型ロボットに備えられ、収音部１１は、ロボットの頭部に設置した。音源分離装置１からの出力信号を音声認識システムに入力した。音声認識システムでは、ミッシングフィーチャ理論に基づく自動音声認識方法（ｍｉｓｓｉｎｇｆｅａｔｕｒｅｔｈｅｏｒｙｂａｓｅｄａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ；ＭＦＴ−ＡＳＲ）を採用した。音声認識に用いる音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ）として、日本語新聞記事読み上げ音声コーパス（ＪａｐａｎｅｓｅＮｅｗｓｐａｐｅｒＡｒｔｉｃｌｅＳｅｎｔｅｎｃｅｓ；ＪＮＡＳ）を用いた。このコーパスは、６０分以上の音声データからなる。

第１の実験（Ｅｘｐｅｒｉｍｅｎｔ１；Ｅｘ．１）では、音声認識システムに備えたれた単語データベースに含まれる２３６個の単語を２名の発話者（ｓｐｅａｋｅｒ）に、単語毎に区切って発声させ、孤立単語認識（ｉｓｏｌａｔｅｄｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎ）における単語正答率（ｗｏｒｄｃｏｒｒｅｃｔｒａｔｅ）を調べた。従って、本実験では、この２名の発話者が音源となり、音源が２個とは、２名が同時に発声した場合、音源が１個とは、２名のうちいずれか一方が発声した場合を指す。

次に第１の実験において発話者が発話する位置について説明する。
図４は、発話者の発話位置の一例を示す概念図である。
図４において、水平方向をｘ方向とし、垂直方向をｙ方向とする。
図４に示すように、第１の実験では、ロボット２０１をｙ座標の負方向を正面方向として向け、動作音を発生させずに静止させた。一方の発話者２０２は、ロボット２０１の正面前方から６０°左前方に静止した状態で発話した。他方の発話者２０３は、ロボットの正面前方０°から右側方−９０°にかけて移動しながら発話する。ここで、音源分離装置１は、空間音源分離（ｇｅｏｍｅｔｒｉｃｓｏｕｎｄｓｅｐａｒａｔｉｏｎ；ＧＳＳ）、ステップサイズ適応（ａｄａｐｔｉｖｅｓｔｅｐｓｉｚｅ；ＡＳ）、ＡＳ・ＯＣＲＡ（ｏｐｔｉｍａｃｏｎｔｒｏｌｌｅｄｒｅｃｕｒｓｉｖｅａｖｅｒａｇｅ；最適制御再帰平均）の３通りのうち何れかの動作モードで動作させた。

動作モードＧＳＳでは、第1ステップサイズ算出部１３３及び第２ステップサイズ算出部１３５を動作させずにステップサイズμ_ＧＣ、μ_ＳＳを予め定めた一定値に固定し、相関算出部１４の窓長算出部１４３を動作させずに窓長Ｎ（ｔ）を固定した。
動作モードＡＳでは、第1ステップサイズ算出部１３３及び第２ステップサイズ算出部１３５を動作させてステップサイズμ_ＧＣ、μ_ＳＳを逐次に算出し、相関算出部１４の窓長算出部１４３を動作させずに窓長Ｎ（ｔ）を固定した。
動作モードＡＳ・ＯＣＲＡでは、第1ステップサイズ算出部１３３及び第２ステップサイズ算出部１３５を動作させてステップサイズμ_ＧＣ、μ_ＳＳを逐次に算出し、相関算出部１４の窓長算出部１４３を動作させ窓長Ｎ（ｔ）を逐次に算出した。

次に、本実施形態に係る単語正答率の一例について説明する。
図５は、本実施形態に係る単語正答率の一例を示す図である。
図５において、最左列から３番目の列から順に、動作モードがＧＳＳ、ＡＳ、ＡＳ・ＯＣＲＡの場合の単語正答率を示し、最上列から順に、音源が１個の場合であって、静止している利用者、移動している利用者、音源が２個の場合であって、静止している利用者、移動している利用者を示す。
図５によれば、静止している利用者と移動している利用者の間で比較すると、各動作モード、各音源数について単語正答率は同様である。動作モードＧＳＳ、ＡＳ及びＡＳ・ＯＣＲＡ間で比較すると、ＧＳＳについて最も単語正答率が低くなり、ＡＳ・ＯＣＲＡについて最も単語正答率が高くなる。但し、ＡＳ及びＡＳ・ＯＣＲＡ間の差異は、ＧＳＳ及びＡＳ間の差異よりも小さい。図５に示す結果によれば、とりわけ、動作モードＡＳを導入することにより有効に音源が分離でき単語正答率を向上させることができることを示す。

音源数間で比較すると、音源が１個のほうが２個の場合よりも単語正答率が高い。ＧＳＳでも音源が１個であれば、９０％以上の認識が得られる。このことは、音源が１個（例えば、比較的雑音が少ない環境）であれば、本実施形態により有効に音源が分離できることを示す。また、音源が２個の場合でも動作モードＡＳやＯＣＲＡを導入することで、単語正答率を向上できることが示される。

第２の実験（Ｅｘｐｅｒｉｍｅｎｔ２；Ｅｘ．２）では、１０名の利用者の各々に日本音響学会音韻均衡日本語文型コーパス（ＡＳＪｐｈｏｎｅｔｉｃａｌｌｙ−ｂａｌａｎｃｅｄＪａｐａｎｅｓｅｓｅｎｔｅｎｃｅｃｏｒｐｕｓ）から選択された５０個の文章を発話させた。この場合において、第２の実験では、単語正解精度（ｗｏｒｄａｃｃｕｒａｃｙ）を調べた。単語正解精度Ｗａは、式（１９）を用いて定義される。

式（１９）において、Ｎｕｍは、利用者が発話した単語数である。Ｓｕｂは、置換誤り（ｓｕｂｓｔｉｔｕｔｉｏｎｅｒｒｏｒ）の数である。置換誤りとは、発話した単語と異なる単語に置き換えられたものと認識されることを意味する。Ｄｅｌは、脱落誤り（ｄｅｌｅｔｉｏｎｅｒｒｏｒ）の数である。脱落誤りとは、実際に発話されたにも関わらず認識されないことを意味する。Ｉｎｓは、挿入誤り（ｉｎｓｅｒｔｉｏｎｅｒｒｏｒ）の数である。挿入誤りとは、実際に発話されていない単語が認識結果に現れることを意味する。第２の実験では、単語正解精度を分離行列の切替パターン毎に収集した。但し、比較のために、パラメータ選択部１２４が選択した伝達関数の代わりに、音源から収音手段までの距離に応じた位相に基づいて逐次に算出した伝達関数を用いた場合の結果も収集した。

次に、第２の実験における発話者の発話位置について説明する。
図６は、発話者の発話位置のその他の例を示す概念図である。
図６において、水平方向をｘ方向とし、垂直方向をｙ方向とする。図６において、ロボット２０１を、ｙ座標の負方向を正面として向きながら動作させた。このとき、ロボット２０１は、主として後方から動作に伴う自己騒音（ｅｇｏ−ｎｏｉｓｅ）を発生させる。
図６に示すように、第２の実験では、発話者２０４は、ロボット２０１の正面前方に静止しながら発話する。もしくは、発話者２０４は、ロボットの右前方−２０°から左前方２０°の間を移動しながら発話する。ここで、音源分離装置１は、上述のＡＳ・ＯＣＲＡの動作モードで動作させた。

次に、本実施形態に係る単語正解精度の一例について説明する。
図７は、本実施形態に係る単語正解精度の一例を示す図である。
図７において、最左列から３番目の列から順に、静止、移動各々における単語正解精度を表す。静止とは利用者が静止しながら発話する場合、移動とは移動しながら発話する場合を意味する。
最左列は、伝達関数の切替モード、即ち、パラメータ選択部１２４が入力された変動状態情報、即ち、音源方向の切り替わりの状態（ＰＯＳ）、発話の状態（ＩＤ）及び上述のように伝達関数を算出した場合（ＣＡＬＣ）の何れかを示す。最左列から２番目の列は、分離行列Ｗの切替モード、即ち、音源推定部１３１が、入力された変動状態情報、即ち、音源方向の切り替わりの状態（ＰＯＳ）、発話の状態（ＩＤ）又は音源方向の切り替わりの状態と発話の状態両方（ＩＤ＿ＰＯＳ）に従って、分離行列Ｗを初期化した場合の何れかを示す。

図７の結果は、音源方向の切り替わりの状態や発話の状態を検知した分離行列Ｗを初期化すれば、上述のように伝達関数を算出した場合よりも、単語認識精度が有意に向上することを表す。また、本実施形態では、単語認識精度が、伝達関数の切替モードや分離行列Ｗの切替モードの依存性が比較的少ないことを表す。即ち、本実施形態に係る音源分離装置１により分離行列Ｗの推定が、音源の移動に追従できていることを表す。
また、分離行列Ｗの切替モードがＩＤの場合、利用者が移動している場合に単語認識精度が他の切替モードより高い反面、利用者が静止している場合には単語認識精度が他の切替モードより低い。これにより、音源位置が顕著に移動しない場合には、音源推定部１３１は、初期分離行列Ｗ_ｉｎｉｔよりも、最適分離行列Ｗ_ｏｐｔを用いて分離行列Ｗを設定することが好ましいことを示す。また、音源位置が移動する場合には、音源推定部１３１は、初期分離行列Ｗ_ｉｎｉｔを用いて分離行列Ｗを設定することが好ましいことを示す。

このように、本実施形態によれば、入力信号に基づき音源の変動を表す変動状態情報を生成し、生成した変動状態情報に基づいて伝達関数を読み出し、読み出した伝達関数を用いて初期分離行列を算出し、算出した初期分離行列を用いて、入力信号に対して音源分離を行う。
これにより、音源の変動に基づいて読み出した伝達関数を用いて初期分離行列を音源分離に用いるため、音源が変動しても音響信号を分離することができる。

また、本実施形態によれば、入力信号に対して音源分離を行う分離行列を逐次に更新し、分離行列の更新量に基づいて分離行列が収束したか否か判断し、分離行列が収束したと判断したとき分離行列を記憶しておき、初期分離行列の代わりに記憶した分離行列を初期値とする。
これにより、分離行列が収束した場合には、以前に収束した場合の分離行列を初期分離行列の代わりに用いるため、分離行列を設定した後でも分離行列が収束する状態が維持される。そのため、音響信号を高精度で分離することができる。

また、本実施形態によれば、変動状態情報として、音源方向が予め設定された閾値よりも大きく変化したことを検出して、音源方向の切り替わりを表す情報を生成する。
これにより、音源方向の切り替わりに伴い初期分離行列を設定することができる。

また、本実施形態によれば、変動状態情報として、入力信号の振幅が予め設定された閾値よりも大きくなったことを検出して、発話が開始したことを表す情報を生成する。
これにより、発話の開始に伴い初期分離行列を設定することができる。

また、本実施形態によれば、指標値として、一の音源が他の音源として分離される度合いを表す分離尖鋭度及び出力信号と音源信号との誤差の度合いを表す幾何制約関数のうち少なくとも一方に基づくコスト関数を用いる。
これにより、１つの音源として他の音源による成分が混在する度合い、又は分離誤差を低減することができる。

また、本実施形態によれば、コスト関数として、分離尖鋭度と幾何制約関数を重み付け加算したコスト関数を用いる。
これにより、１つの音源として他の音源による成分が混在する度合いを低減し、かつ分離誤差を低減することができる。

なお、上述した実施形態における音源分離装置１の一部、例えば、音源定位部１２１、音源変動検出部１２２、パラメータ選択部１２４、音源推定部１３１、幾何誤差算出部１３２、第１ステップサイズ算出部１３３、分離誤差算出部１３４、第２ステップサイズ算出部１３５、更新行列算出部１３６、入力相関算出部１４１、出力相関算出部１４２及び窓長算出部１４３をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音源分離装置１に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における音源分離装置１の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。音源分離装置１の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１…音源分離装置、１１…収音部、１２…パラメータ切替部、１２１…音源定位部、
１２２…音源変動検出部、１２３…伝達関数記憶部、１２４…パラメータ選択部、
１３…音源分離部、１３１…音源推定部、１３２…幾何誤差算出部、
１３３…第１ステップサイズ算出部、１３４…分離誤差算出部、
１３５…第２ステップサイズ算出部、１３６…更新行列算出部、
１４…相関算出部、１４１…入力相関算出部、１４２…出力相関算出部、
１４３…窓長算出部、
１５…音源出力部

Claims

収音部から入力された複数チャネルの入力信号から時間窓で抽出した信号値のチャネル間における相関を要素とする入力相関行列を算出する入力相関算出部と、
前記入力信号に基づき音源の変動を表す変動状態情報を生成する音源変動検出部と、
前記音源変動検出部が生成した変動状態情報に基づいて初期の分離行列を算出するパラメータ選択部と、
出力相関行列から一の音源が他の音源として分離される度合いを表す分離尖鋭度に基づくコスト関数を用いて前記分離行列を更新する更新行列算出部と、
前記入力相関行列及び更新した前記分離行列に基づいて出力信号のチャネル間における相関を要素とする出力相関行列を算出する出力相関算出部と、
前記分離尖鋭度が大きいほど長くなるように前記時間窓の長さである窓長を算出する窓長算出部と、
を備えることを特徴とする音源分離装置。
音源からの伝達関数を記憶する伝達関数記憶部を備え、
前記パラメータ選択部は、前記伝達関数記憶部から伝達関数を読み出し、読み出した前記伝達関数を用いて初期の前記分離行列を算出することを特徴とする請求項１に記載の音源分離装置。
前記音源変動検出部は、前記変動状態情報として、音源方向が予め設定された閾値よりも大きく変化したことを検出して、音源方向の切り替わりを表す情報を生成することを特徴とする請求項１または２に記載の音源分離装置。
前記音源変動検出部は、前記変動状態情報として、前記入力信号の振幅が予め設定された閾値よりも大きくなったことを検出して、発話が開始したことを表す情報を生成することを特徴とする請求項１または２に記載の音源分離装置。
前記更新行列算出部は、前記コスト関数として、前記分離尖鋭度と、前記出力信号と音源信号との誤差の度合いを表す幾何制約関数と、を重み付け加算したコスト関数を用いることを特徴とする請求項１から４のいずれかに記載の音源分離装置。
音源からの伝達関数を記憶する伝達関数記憶部を備える音源分離装置における音源分離方法において、
前記音源分離装置が、収音部から入力された複数チャネルの入力信号から時間窓で抽出した信号値のチャネル間における相関を要素とする入力相関行列を算出する過程と、
前記入力信号に基づき音源の変動を表す変動状態情報を生成する過程と、
前記変動状態情報に基づいて初期の分離行列を算出する過程と、
出力相関行列から一の音源が他の音源として分離される度合いを表す分離尖鋭度に基づくコスト関数を用いて前記分離行列を更新する過程と、
前記入力相関行列及び更新した前記分離行列に基づいて出力信号のチャネル間における相関を要素とする出力相関行列を算出する過程と、
前記分離尖鋭度が大きいほど長くなるように前記時間窓の長さである窓長を算出する過程と、
を有することを特徴とする音源分離方法。