JP2017107141A

JP2017107141A - 音源情報推定装置、音源情報推定方法、およびプログラム

Info

Publication number: JP2017107141A
Application number: JP2016028682A
Authority: JP
Inventors: 健太丹羽; Kenta Niwa; 和則小林; Kazunori Kobayashi; 悠馬小泉; Yuma Koizumi; 智子川瀬; Tomoko Kawase
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-09
Filing date: 2016-02-18
Publication date: 2017-06-15
Anticipated expiration: 2036-02-18
Also published as: JP6594222B2

Abstract

【課題】高精度に音源特徴から音源情報を推定する。
【解決手段】ビームフォーミング部１２は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号を出力する。局所ＰＳＤ推定部１３は、複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する。ＤＮＮマッピング２０は、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める。このとき、統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである。
【選択図】図６

Description

この発明は、音響信号処理の技術分野に関し、特に、音響信号から抽出した音源特徴を用いて音源情報を推定する技術に関する。

従来から音響信号処理の技術分野において、音源特徴から音源情報を推定することが行われている。そのような従来技術として、例えば、部屋の残響度合いなどの指標となる直間比を推定する直間比推定技術や、様々な雑音が混在する状況下で特定の位置にある音源を強調する音源強調技術などがある。

従来の直間比推定技術では、複数のビームフォーミング出力から得られる空間的な感度分布を利用して、決定論的に直間比を決定する（例えば、特許文献１参照）。図１に従来の直間比推定装置の機能構成を示す。周波数領域変換部１１−１〜１１−Ｍ（M≧2）は、M本のマイクロホン１０−１〜１０−Ｍで受音した信号を入力とし、周波数領域の観測信号x_ω,τ=[X_1,ω,τ,…,X_M,ω,τ]^Tを出力する。ビームフォーミング部（直接音強調用）１２−１は、観測信号x_ω,τを入力とし、音源方向が強調された出力信号Y_BF,1,ωを出力する。ビームフォーミング部（拡散残響解析用）１２−２は、観測信号x_ω,τを入力とし、音源以外の方向が強調された出力信号Y_BF,2,ωを出力する。局所ＰＳＤ推定部１３は、2個のビームフォーミング出力信号Y_BF,1,ω, Y_BF,2,ωを用いて、周波数ごとに直接音のＰＳＤP_D,ωと残響のＰＳＤ⁻P_R,ωを求める。パワー比計算部１４は、直接音と残響のＰＳＤP_D,ω, ⁻P_R,ωを用いて、直間比Γを推定する。

従来の音源強調技術では、（１）線形性のビームフォーミングを用いる方法や、（２）複数のビームフォーミング出力から得られる空間的な感度分布の差を利用して非線形性のウィーナーフィルタを生成する方法などが用いられる（例えば、特許文献２参照）。図２に従来の音源強調装置の機能構成を示す。受音部１０−１〜１０−Ｍは、汎用マイクロホンアレイや相互情報量増大型の受音系を用いて音を観測する。周波数領域変換部１１−１〜１１−Ｍは、受音したM個の信号を入力とし、周波数領域の観測信号x_ω,τを出力する。ビームフォーミング部（直接音強調用）１２−１は、観測信号x_ω,τを入力とし、音源方向が強調された出力信号Y_ζ(1),ω,τ=Y_i,ω,τを出力する。同様に、ビームフォーミング部（雑音解析用）１２−２〜１２−Ｌ（L≧2）は、観測信号x_ω,τを入力とし、音源以外の方向が強調されたL-1個のビームフォーミング出力信号Y_ζ(2),ω,τ, …, Y_ζ(L),ω,τをそれぞれ出力する。局所ＰＳＤ推定部１３は、L個のビームフォーミング出力信号Y_ζ(1),ω,τ, …, Y_ζ(L),ω,τを用いて、局所ＰＳＤ^Φ_S,ω,τを推定する。事前ＳＮＲ計算部１５は、局所ＰＳＤ^Φ_S,ω,τを入力とし、事前ＳＮＲの推定値^ξ_ω,τ=^φ_S,ω,τ/^φ_N,ω,τを求める。フィルタリング部１６は、推定した事前ＳＮＲ^ξ_ω,τを用いてウィーナーフィルタを計算し、ビームフォーミング出力信号Y_ζ(1),ω,τにウィーナーフィルタを掛け合わせることで、出力信号Z_i,ω,τを出力する。

特開２０１１−５３０６２号公報国際公開第２０１５／１２９７６０号

従来の直間比推定技術では、（１）直接音と残響が無相関である、（２）室内に音源のみが存在し雑音レベルが十分低い、などの条件が成り立てば、ある程度正確に直間比を推定することができる。しかしながら、直接音と初期反射を含む残響には相関が存在するし、室内には雑音が存在するケースが多い。その場合、直間比の推定精度が低下する。

従来の音源強調技術では、（１）音源信号群の時間スパース性が低く、音源間の無相関性が仮定できない、（２）背景雑音のレベルが高い、（３）ウィーナーフィルタ設計に用いるパラメータが合っていない、などの場合において、目的音もしくは雑音のＰＳＤの推定精度が低下し、出力信号が強調されないことがある。

すなわち、従来のように決定論的に音源情報を求める手法では、特定の条件を満足しない環境で利用した場合に、精度が低下するという課題があった。

この発明の目的は、このような点に鑑みて、従来の決定論的な手法では推定精度が低下する場合であっても、高精度に音源特徴から音源情報を推定することができる音源情報推定技術を提供することである。

上記の課題を解決するために、この発明の音源情報推定装置は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する音源特徴抽出部と、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める音源情報推定部と、を含み、統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである。

この発明の音源情報推定技術によれば、統計的な手法により音源特徴から音源情報を求めるため、従来の決定論的な手法では推定精度が低下する環境下であっても、高精度に音源特徴から音源情報を推定することができる。

図１は、従来の直間比推定装置の機能構成を例示する図である。図２は、従来の音源強調装置の機能構成を例示する図である。図３は、音源とインパルス応答の分解モデルを説明するための図である。図４は、残響環境下における直接音と残響の伝搬モデルを説明するための図である。図５は、直間比を推定するための局所ＰＳＤ推定を説明するための図である。図６は、第一実施形態の直間比推定装置の機能構成を例示する図である。図７は、直間比推定方法の処理手続きを例示する図である。図８は、ＤＮＮマッピング部の機能構成を例示する図である。図９は、第二実施形態の直間比推定装置の機能構成を例示する図である。図１０は、第三実施形態の直間比推定装置の機能構成を例示する図である。図１１は、第四実施形態の直間比推定装置の機能構成を例示する図である。図１２は、相互情報量増大型受音系を説明するための図である。図１３は、第五実施形態の音源強調装置の機能構成を例示する図である。図１４は、音源強調方法の処理手続きを例示する図である。図１５は、第六実施形態の音源強調装置の機能構成を例示する図である。図１６は、第七実施形態の音源強調装置の機能構成を例示する図である。図１７は、第八実施形態の音源強調装置の機能構成を例示する図である。図１８は、対称性をもつアレイ構造を例示する図である。

以下、この発明を実施するための形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

第一実施形態から第四実施形態では、この発明の音源情報推定技術を直間比推定技術に適用した実施形態を説明する。第五実施形態から第八実施形態では、この発明の音源情報推定技術を音源強調技術に適用した実施形態を説明する。第九実施形態では、直間比推定技術と音源強調技術との上位概念として抽出される音源情報推定技術を、各実施形態に対応させて説明する。

なお、文中で使用する記号「^」「⁻」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。

＜直間比推定技術＞
最初に、従来の決定論的な手法による直間比推定技術を詳細に説明し、続いて、この発明の音源情報推定技術を適用した直間比推定技術の実施形態を説明する。

≪残響環境下での音伝搬モデル≫
残響環境下における音源とマイクロホン間のインパルス応答は、直接音（direct sound）、初期反射音（early reflection）、および後部残響（late reverberation）から構成される。ここでは、簡易なモデル化のために、残響には初期反射音と後部残響とが含まれることとして、図３に示すように、直接音（direct sound）と残響（reverberation）の2要素によりインパルス応答が構成されるものと想定する。インパルス応答の周波数ωにおける特性（以後、伝達特性と呼ぶ）をH_ωとすると、伝達特性は式（１）でモデル化される。

ここで、H_D,ωは直接音の伝達特性、H_R,ωは残響の伝達特性を表す。

直接音と残響の伝達特性は特性が大きく異なる。一般的に、直接音は空間的に干渉性が高く、残響は拡散性であり干渉性が低い。直接音は、図４（Ａ）に示すように、マイクロホンに対して直接的に伝搬する。反対に、残響は、図４（Ｂ）に示すように、あらゆる方向から等パワーで伝搬するようにモデル化できる。この伝搬モデルの違いに着目することで、直接音と残響のパワーを分離して推定できると考えられる。

以下の説明の中では、3つの条件を仮定する。（１）音源の到来方向は既知とする。音源の到来方向はマニュアルで与えてもよいし、ビームフォーミング法やMUSIC法等の従来方式で推定してもよい。（２）直接音と残響は無相関であるとする。（３）各方向に対する感度分布を探索するために、複数のマイクロホンで構成されたマイクロホンアレイで観測することとする。

≪アレイ信号の観測モデル≫
X_m,ω,τをm番目のマイクロホンにおける観測信号とする。マイクロホンは総計でM本あり、ωは周波数ビン番号、τは時間フレーム番号を表す。式（１）を用いると、X_m,ω,τは式（２）でモデル化される。

ここで、S_ω,τは音源のスペクトラムを表す。

式（２）における伝達特性は、さらに2つの要素に分解される。1つ目の要素は、音源から参照位置（例えばマイクロホンアレイの中心）における伝達特性である。2つ目の要素は、参照位置から各マイクロホンまでの伝達特性である。音源信号が平面波として到来することを仮定すると、2つ目の要素（参照位置と各マイクロホンとの間の伝達特性）は、マイクロホン間に生じる遅延差による位相シフトで近似できる。そのため、H_D,m,ωとH_R,m,ωは式（３）（４）で表現される。

ここで、H_Dref,ωは音源と参照位置間における直接音の伝達特性、H_Rref,Ω,ωは残響の伝達特性を表す。τ_Ω,mは三次元的な角度Ω={θ, φ}(θ∈[0, 2π]: 水平角、φ∈[0, π]: 天頂角)から音源が到来するときの参照位置とm番目のマイクロホン間における遅延時間を表す。また、Ω_Dは音源の到来方向を表す。

マイクロホンアレイの観測信号ベクトルは式（５）でモデル化される。

ここで、a_Ω,ω=[exp(-jωτ_1,Ω), …, exp(-jωτ_M,Ω)]^Tは方向Ωに対するステアリングベクトルを表す。S_D,ω,τ, S_R,Ω,ω,τはそれぞれ参照位置で観測される方向Ωから到来する直接音と残響とを表し、式（６）（７）で定義される。なお、・^T（上付き添え字のT）は転置を表す。

≪ビームフォーミング出力≫
異なる方向から到来する波面の強度分布を解析するために、観測信号x_ω,τに対して、2つ以上のビームフォーミングフィルタを掛け合わせることを想定する。l番目のビームフォーミングの出力信号は、式（８）で表される。

ここで、・^H（上付き添え字のH）は共役転置を表す。w_l,ωはl番目のビームフォーミングのフィルタ係数であり、式（９）で定義される。

ビームフォーミング出力のパワースペクトル密度（Power Spectral Density: PSD）はビームフォーミングの感度特性で重みづけした直接音と残響のＰＳＤの加算で表され、次式で表現される。

ここで、P_D,ωは参照位置で観測した直接音のＰＳＤ、P_R,Ω,ωは残響のＰＳＤを表す。P_D,ωとP_R,Ω,ωは式（12）（13）で表現される。

ここで、E[・]は時間に対する期待値演算を表す。G_l,Ω,ωは方向Ωに対するl番目のビームフォーミングフィルタの感度を表し、式（14）で表現される。

式（11）の導出では直接音と残響が無相関であることを仮定した。つまり、E[S^* _D,ω,τS_R,Ω,ω,τ]=0とした。ここで、・^*（上付き添え字の*）は複素共役を表す。

残響が空間的に拡散して伝搬する（すなわち、あらゆる方向から到来するパワーが等しい）と仮定しているので、残響のＰＳＤはすべての方向Ωに対して定数であるとモデル化できる。

したがって、式（11）におけるビームフォーミング出力のＰＳＤは式（16）となる。

≪局所ＰＳＤ推定≫
図５に示すように、2つの指向特性が異なるビームフォーミング（Beamformers）をアレイ観測信号に対して畳み込むと想定する。式（16）によると、2つのビームフォーミング出力のＰＳＤは、式（17）のように行列形式で表される。

ここで、P_BF,ωとG_ωに含まれる要素は既知であり事前に計算できるため、直接音と残響のＰＳＤはフレームごとに推定される。

ここで、^・は推定された値を表す。なお，^P_cmp,ωを構成するP_D,ωと⁻P_R,ωは正の値であるため、算出された結果が負値である場合には0にフロアリングする。推定したP_D,ωと⁻P_R,ωを用いて、式（19）に従って直間比Γ_convを推定することができる。

この発明では、直間比の推定精度を向上させるために、P_D,ω, ⁻P_R,ωという音源特徴を入力とし、直間比Γを出力する統計的マッピングモデルを導入する。近年、統計的マッピングモデルの一つとして、ディープニューラルネットワーク（Deep Neural Network: DNN）が多く用いられているので、ここではディープニューラルネットワークを利用する。ディープニューラルネットワークについての詳細は、下記参考文献１に記載されている。
〔参考文献１〕岡谷貴之著、“深層学習”、第一版、講談社サイエンティフィク、2015年

この発明を直間比推定に適用する場合のポイントは、（１）推定された局所ＰＳＤや複数のビームフォーミング出力パワー群をディープニューラルネットワークの入力として直間比を出力する構成と、（２）ディープニューラルネットワークのネットワークパラメータの初期値を従来法のように物理的な特性を加味して設定する点にある。

［第一実施形態］
第一実施形態の直間比推定装置は、図６に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、2個のビームフォーミング部１２−１〜１２−２、局所ＰＳＤ推定部１３、およびＤＮＮマッピング部２０を備える。この直間比推定装置が後述する各ステップの処理を行うことにより第一実施形態の直間比推定方法が実現される。

直間比推定装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。直間比推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。直間比推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、直間比推定装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

図７を参照して、第一実施形態の直間比推定方法の処理手続きを説明する。

ステップＳ１０において、M個のマイクロホン１０−１〜１０−ＭからなるマイクロホンアレイがM個の観測信号x_m(n)（m=1, …, M）を収音する。ここで、nは離散時間信号のサンプル番号を表す。観測信号x_m(n)は周波数領域変換部１１−１〜１１−Ｍにそれぞれ入力される。

ステップＳ１１において、周波数領域変換部１１−ｍ（m=1, …, M）は、各観測信号x_m(n)を短い時間長（例えば、サンプリング周波数16,000Hzの場合には、256サンプル程度）のフレームに分解し、それぞれのフレームにおいて離散フーリエ変換を行い周波数領域の観測信号X_m,ω,τを出力する。ここで、ωは周波数ビン番号、τは時間フレーム番号を表す。各周波数領域変換部１１−１〜１１−Ｍの出力信号群X_1,ω,τ, X_2,ω,τ, …, X_M,ω,τはビームフォーミング部１２−１〜１２−２にそれぞれ入力される。

ステップＳ１２において、ビームフォーミング部１２−１〜１２−２は、各周波数領域変換部１１−１〜１１−Ｍの出力信号群X_1,ω,τ, X_2,ω,τ, …, X_M,ω,τに対して、それぞれ異なる方向の角度領域から到来する音を強調して収音する処理を行い、結果を出力する。ビームフォーミング部１２−１は、直接音の強調に用いるものであり、あらかじめ定めた音源方向から到来する音を強調して出力信号Y_BF,1,ωを出力する。ビームフォーミング部１２−２は、拡散残響の解析に用いるものであり、音源方向以外の方向から到来する音を強調して出力信号Y_BF,2,ωを出力する。各ビームフォーミング部１２−１〜１２−２の出力信号群Y_BF,1,ω, Y_BF,2,ωは局所ＰＳＤ推定部１３に入力される。

ステップＳ１３において、局所ＰＳＤ推定部１３は、各ビームフォーミング部１２−１〜１２−２の出力信号群Y_BF,1,ω, Y_BF,2,ωを入力とし、上記式（18）に従って、直接音のＰＳＤP_D,ωおよび残響のＰＳＤ⁻P_R,ωを推定する。推定した直接音および残響のＰＳＤP_D,ω, ⁻P_R,ωはＤＮＮマッピング部２０に入力される。

ステップＳ２０において、ＤＮＮマッピング部２０は、局所ＰＳＤ推定部１３の出力する直接音と残響のＰＳＤP_D,ω, ⁻P_R,ωを入力とし、ネットワークパラメータzを用いて直間比の推定値Γを求め、結果を出力する。

以下、ＤＮＮマッピング部２０の処理を詳細に説明する。ＤＮＮマッピング部２０は、図８に示すように、N層のディープニューラルネットワークで構成される。ここでは、Nは4〜5程度でよい。まず、ディープニューラルネットワークの入力層に特徴量を設定する。

ここで、ω_Qは解析FFTビン数を表す。この際、複数の周波数ビンを集約した周波数バンドの状態でも構わない。ネットワークパラメータzにZ⁽²⁾, …, Z^(N), b⁽²⁾, …, b^(N)が含まれるとすると、ディープニューラルネットワークの出力はN-1回の逐次計算により、以下のように計算される。

ここで、n層目のレイヤー数をJ_nと記述するとき、

である。活性化関数f⁽ⁿ⁾(・)は、式（28）のように、シグモイド関数（sigmoid function）(n=2, …, N-1の場合)と恒等写像関数（n=Nの場合）を併用する。

N層目のレイヤー数をJ_N=1とし、推定された直間比Γは式（29）となる。

以後、q⁽¹⁾を入力としネットワークパラメータzを用いて推定した直間比をΓ(q⁽¹⁾; z)と表記する。

ディープニューラルネットワークは、Hintonらのディープブリーフネット（deep brief network: DBN）の研究により、多層ニューラルネットの事前学習（pre-training）を適切に行い、ネットワークパラメータの初期値をうまく設定できるようになったことにより、様々な分野で利用されるようになった。ディープブリーフネットでは、制約ボルツマンマシン（restricted Boltzmann machine: RBM）を多層にスタックし（stacked RBMs）、一層ごとにネットワーパラメータの初期値を推定する。なお、各制約ボルツマンマシンのネットワークパラメータの更新量を適切に計算するためには、例えば、コンストラティブダイバージェンス法（contrastive divergence: CD）を用いればよい。

以下、ディープニューラルネットワークの最適化方法について説明する。第一実施形態では、ネットワークパラメータzの初期値をランダムに設定し、誤差逆伝搬（back propagation）に基づいて、直間比の推定誤差を最小とするようにネットワークパラメータzを最適化する。K個のサンプルデータで構成された学習用の局所ＰＳＤと直間比の正解値とからなる教師情報を、式（30）のように記載する。

式（21）（22）の各ステップをK個のサンプルデータに対して適用するとき、以下のように行列形式で書くことができる。

ここで、b⁽ⁿ⁾1_K ^Tはb⁽ⁿ⁾をK個分並べる操作を表し、

である。

ディープニューラルネットワークの出力と正解として与えた直間比との誤差を測るための尺度として、式（35）で定義される二乗誤差関数を用いる。

誤差逆伝搬に基づいて、出力層（n=N）から入力層（n=1）に向かって逐次的にネットワークパラメータの勾配を算出する。⁻Γ=[⁻Γ₁, …, ⁻Γ_K]とするとき、n番目の層における各サンプルデータにおけるデルタΔ⁽ⁿ⁾を以下のように求める。

ここで、f'(・)は関数f(・)の微分であり、

は行列の各成分の積を表す。誤差関数の勾配を以下のように計算する。

最後に、求めた勾配を基にパラメータを更新する。

なお、更新量ΔZ⁽ⁿ⁾, Δb⁽ⁿ⁾は、以下とすればよい。

ここで、ΔZ⁽ⁿ⁾⁺, Δb⁽ⁿ⁾⁺は前回の更新量、εは学習係数、μは汎化性能を向上し学習を速く進めるためのモメンタム（momentum）の係数、λは重み減衰（weight decay）である。εは0.01程度、μは0.9程度、λは0.0002程度に設定すればよい。

［第二実施形態］
第一実施形態では、直接音のＰＳＤP_D,ωと残響のＰＳＤ⁻P_R,ωを入力として、直間比の推定値Γを出力するN層のディープニューラルネットワークを用いる構成を説明した。第二実施形態では、次式のように複数のビームフォーミング出力を入力として、直間比の推定値Γを出力するN層のディープニューラルネットワークを用いる構成を説明する。

第二実施形態の直間比推定装置は、図９に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、2個のビームフォーミング部１２−１〜１２−２を第一実施形態と同様に備え、さらにＤＮＮマッピング部２１を含む。第一実施形態の直間比推定装置が備えていた局所ＰＳＤ推定部１３は備えておらず、ビームフォーミング部１２−１〜１２−２の出力がＤＮＮマッピング部２１へ入力されるように構成される。この直間比推定装置が後述する各ステップの処理を行うことにより第二実施形態の直間比推定方法が実現される。

ステップＳ２１において、ＤＮＮマッピング部２１は、各ビームフォーミング部１２−１〜１２−２の出力信号群Y_BF,1,ω, Y_BF,2,ωを入力とし、ネットワークパラメータzを用いて直間比の推定値Γを求め、結果を出力する。ＤＮＮマッピング部２１は、K個のサンプルデータで構成された、学習用のビームフォーミング出力と直間比の正解値とからなる教師情報を用いて、第一実施形態と同様に最適化を行ったものである。

［第三実施形態］
第一実施形態および第二実施形態では、ネットワークパラメータzの初期値をランダムに設定した。第三実施形態では、従来法のように物理的な特性を加味してネットワークパラメータzの初期値を設定する方法について説明する。従来法における直間比推定技術は大きく以下の3ステップで構成されている。

（ステップ１：局所ＰＳＤ推定処理）式（18）のように、2つ以上のビームフォーミングの出力パワー群P_BF,ωから局所ＰＳＤの推定値^P_cmp,ωを求める。

（ステップ２：周波数加算処理）式（19）に含まれるように、局所ＰＳＤの推定値^P_cmp,ωを全周波数帯域にわたって足すことでΣ_ωP_D,ω, Σ_ωP_R,ωを出力する。

（ステップ３：対数領域比計算処理）式（19）のように、Σ_ωP_D,ω, Σ_ωP_R,ωから直間比の推定値^Γを以下のように出力する。

以上の3ステップの処理が各層の処理に物理的に対応しているとみなすことができるため、ランダムに設定するよりも良質なネットワークパラメータの初期値を与えることができる。第三実施形態では、第二実施形態の直間比推定装置において、ネットワークパラメータzの初期値を設定するように構成する。なお、最適化処理については第二実施形態と同様である。

第三実施形態の直間比推定装置は、図１０に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、2個のビームフォーミング部１２−１〜１２−２、およびＤＮＮマッピング部２１を第二実施形態と同様に備え、さらに初期値設定部３１を備える。この直間比推定装置が後述する各ステップの処理を行うことにより第三実施形態の直間比推定方法が実現される。

初期値設定部３１は、以下のようにして、ＤＮＮマッピング部２１の各層に対応するネットワークパラメータの初期値を設定する。入力層の値は、第二実施形態と同様に、次式のように設定する。

2層目の処理は、（ステップ１：局所ＰＳＤ推定処理）が対応する。2層目のレイヤー数はJ₂≧L×Qとなるようにする。Lはビームフォーミング数であり、Qは周波数ビン数である。以下では、L=2として説明する。以下のようにネットワークパラメータを書き表すことで、局所ＰＳＤ推定処理を表現することができる。

なお、G₂とB₂は値幅調整係数である。Z⁽²⁾q⁽¹⁾の最大値が1〜5程度になるようにG₂を設定する。また、Z⁽²⁾q⁽¹⁾の出力値が0以下である場合に値を0付近にフロアリングするために、B₂は-5〜0の間に設定する。その後、以下の計算をすることで、2層目の出力q⁽²⁾を得る。

3層目の処理は、（ステップ２：周波数加算処理）が対応する。以下のようにネットワークパラメータを書き表すことで、周波数加算処理を表現することができる。なお、3層目のレイヤー数はJ₃≧2となるようにする。

なお、G₃とB₃は値幅調整係数である。Z⁽³⁾q⁽²⁾の最大値が1〜5程度になるようにG₃を設定する。また、B₃は0程度で問題ない。その後、式（52）（53）の計算をすることで、3層目の出力q⁽³⁾を得る。

4層目の処理は、（ステップ３：対数領域比計算処理）が対応する。以下のようにネットワークパラメータを書き表すことで、対数領域比計算処理を表現することができる。なお、4層目（出力層）のレイヤー数はJ₄=1である。

ここで、式（44）に対応させるため、Z_1,1 ⁽⁴⁾は正の値、Z_1,2 ⁽⁴⁾は負の値に制限される。例えば、以下のようにして値を決める。

このとき、参照している10log₁₀(Σ_ωP_D,ω)や10log₁₀(Σ_ωP_R,ω)は、1つのサンプルで計算されたものを利用してもよいし、多数のサンプルで計算された値の平均値を利用してもよい。

最後に、出力値を以下のように算出する。

上述したネットワークパラメータの初期値設定法では、層の数は信号処理演算の最小単位数+1以上に設定したほうがよいため、N≧4とすることが望ましい。上記では、N=4とみなして説明したが、Nを4よりも多くしたい場合には、冗長な層を挟めばよい。ここで、信号処理演算の最小単位数とは、同等の信号処理演算（ここでは、直間比推定処理）を従来の決定論的な手法で実行するときに必要となる、加算や乗算などの信号処理演算の数を意味している。

［第四実施形態］
第三実施形態では、第二実施形態の直間比推定装置において、ネットワークパラメータzの初期値を設定する構成を説明した。第四実施形態では、第一実施形態の直間比推定装置において、ネットワークパラメータzの初期値を設定するように構成する。なお、最適化処理については第一実施形態と同様である。

第四実施形態の直間比推定装置は、図１１に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、2個のビームフォーミング部１２−１〜１２−２、局所ＰＳＤ推定部１３、およびＤＮＮマッピング部２０を第一実施形態と同様に備え、さらに初期値設定部３０を備える。この直間比推定装置が後述する各ステップの処理を行うことにより第四実施形態の直間比推定方法が実現される。

第三実施形態では、2層目の処理が局所ＰＳＤ推定処理に対応していることを説明した。したがって、第四実施形態では、3層目以降の初期値設定を用いればよいということになる。入力層の値は、第一実施形態と同様に、式（60）のように設定する。

式（50）以降の処理を2層目、3層目の初期値として設定すればよいことになる。なお、第三実施形態ではN≧4に設定したほうがよいと説明したが、層の数を信号処理演算の最小単位数+1以上に設定する考え方は同様であるため、第四実施形態ではN≧3に設定することが望ましい。

第三実施形態や第四実施形態のように、ネットワークパラメータの初期値を適切に設定することで、各層の物理的な意味合いを持ちつつ、パラメータ最適化が可能になる。その結果、学習データがある程度少なくても外れ値を出力する可能性が減る効果が期待される。つまり、学習データが少なくても環境に依存しにくいディープニューラルネットワークを設計することができる効果がある。

＜音源強調技術＞
最初に、従来の決定論的手法による音源強調技術を詳細に説明し、続いて、この発明の音源情報推定技術を適用した音源強調技術の実施形態を説明する。

≪観測信号のモデリング≫
音場にK個の音源が存在し、M（≧2）個のマイクロホンを用いて観測する。この状況は、多入力多出力系（multiple-inputs and multiple-outputs: MIMO）の一つとして見なすことができる。k番目の音源とm番目のマイクロホン間の伝達特性をA_m,k,ωとすると、M個の観測信号x_ω,τは式（61）のように計算できる。

ここで、式（61）は以下の要素で構成される。

ここで、k番目の音源をS_k,ω,τ、m番目のマイクロホンにおける非方向性の背景雑音をN_m,ω,τとして記述した。また、音源や背景雑音の平均値やパワーの期待値が以下を満たすことを仮定する。

ここで、<・>は期待値演算子を表す。また、S_k,ω,τやN_m,ω,τが互いに無相関であることを仮定すると、以下のようになる。

ここで、・^*（上付き添え字の*）は複素共役を表す。以上の統計的な性質を満たす場合には、音源信号や背景雑音の分散共分散行列は以下のようにモデル化される。

ここで、・^H（上付き添え字のH）は共役転置、I_KはK次元の単位行列、I_MはM次元の単位行列である。

観測信号x_ω,τの分散共分散行列（以後、空間相関行列と呼ぶ）は，以下でモデル化される。

ここで、R_A,ωは各マイクロホンにおける受音パワーσ² _A,ω（事前にチャネルのレベルが正規化されていることを想定）とチャネル間相関Γ_i,j,ωで構成される。

以後、従来の音源強調技術を構成する、受音系設計技術、ビームフォーミング、およびウィーナーフィルタリングについて順に説明する。受音系設計技術は、目的の音源群を詳細に解析するための受音技術（ハードウェア）である。ビームフォーミングは、受音した観測信号群を処理するための信号処理技術である。ウィーナーフィルタリングは、ビームフォーミング後の信号に対して、更なる雑音抑圧を行うための技術である。これらの技術群を下記のように任意に組み合わせて実装することが従来技術である。
実装形態１：受音設計技術＋ビームフォーミング＋ウィーナーフィルタリング
実装形態２：受音設計技術＋ビームフォーミング
実装形態３：（汎用マイク）＋ビームフォーミング
実装形態４：（汎用マイク）＋ビームフォーミング＋ウィーナーフィルタリング

≪相互情報量増大型受音系設計技術≫
参考文献２には、（１）音源信号を分離して収音しやすくなるような受音信号の性質と、（２）一つの実装形態として多凹型反射板を用いた受音系について説明されている。
〔参考文献２〕K. Niwa, T. Kako, and K. Kobayashi, “Microphone array for increasing mutual information between sound sources and observation signals,” ICASSP 2015, pp. 534-538, 2015.

参考文献２に記載された技術では、詳細に解析したいs_ω,τについてx_ω,τがどのくらい情報を教示してくれるのかを測るために、s_ω,τとx_ω,τの相互情報量I_s;xを定義する。

ここで、H_sは伝送情報量のエントロピー、H_s|xは伝送損失を表す。仮に、A_ωが正則な行列でない場合や、背景雑音のレベルが高い場合には、伝送損失H_s|xが増加する。I_s;xが最大化するような空間相関行列を調査するために、チャネル容量C_ωを導入する。

R_A,ωを固有値分解することで、C_ωは以下で表現される。

ここで、Λ_m,ωは、R_A,ωのm番目の固有値である。参考文献２によると、C_ωは以下のように固有値分布が平滑化されるように信号を受音することで最大化される。

式（82）のように固有値が平滑化されるように音を受音することは、チャネル間相関が0になるように受音することに相当する。

もし、I_s;xが増加すれば、音源を分離するための手がかりが観測信号群に含まれるはずである。

相互情報量I_s;xを増加するための受音系として、（１）拡散受音系（下記参考文献３参照）や、（２）多凹型反射板を用いた受音系（上記参考文献２参照）がある。拡散受音系は，拡散場でマイクロホンを離散して配置することでチャネル間相関が低下する物理現象を利用する、多マイクロホンを囲うように多反射板を設置するアレイである。多凹型反射板を用いた受音系を図１２に示す。パラボラ反射板の焦点付近に準最適にマイクロホンを複数設置されている。焦点付近では，パラボラ反射板により反射された音波が様々な方向、時間差で到来する。焦点位置から少しずれた位置にマイクロホンを設置することで、受音する音の振幅や位相が劇的に変化する。そのため、マイクロホンの位置を最適に設定すれば、相互情報量I_s;xが増加する。図１２の受音系では、相互情報量が増加するように、12枚の各パラボラ反射板の前に8本のマイクロホンを準最適に設置し、計M=96本の無指向性マイクロホンが実装されている。
〔参考文献３〕K. Niwa, Y. Hioka, K. Furuya, and Y. Haneda, “Diffused sensing for sharp directive beamforming,” IEEE Trans. on Audio, Speech and Language Proc., vol. 21, pp. 2346-2355, 2013.

≪音源強調法１：ビームフォーミング≫
ビームフォーミングに基づく音源強調法について説明する。ビームフォーミングは、マイクロホン間に生じる位相／振幅差を操作し、加算することで、特定の方向から到来する音源を強調する方法である。観測信号群x_ω,τに対して、i番目の方向から到来する音源を強調するフィルタw_i,ωを掛け合わせることで、出力信号Y_i,ω,τを得る。

ここで、

である。

フィルタの代表的な設計法には遅延和法と最小分散法があるため、以下で説明する。まず、i番目の方向から到来した音波を受音したときのマイクロホン間の位相／振幅差の関係をモデル化する。以後、それをステアリングベクトルh_i,ωと呼ぶ。

汎用性のマイクロホンアレイ（無指向性のマイクを中空に配置）を用い、かつ、音源とマイクロホンの距離が（例えば、1メートル以上）離れている場合、ステアリングベクトルを以下のようにモデル化できる。

ここで、cは音速（秒速およそ340メートル）、p_i=[p_X,i, p_Y,i, p_Z,i]^Tはi番目の音源の位置ベクトル、p_m=[p_X,m, p_Y,m, p_Z,m]^Tはm番目のマイクロホンの位置ベクトルを表す。また、相互情報量増大型のマイクロホンアレイを用いる場合には、ステアリングベクトルとして、伝達特性を用いる。

ただし、実測したインパルス応答は部屋の残響を含み、長くなる傾向がある。そのため、直接波が到来してから短い区間を切り出したデータを利用してもよいし、シミュレーションで算出したデータを利用してもよい。

上記のステアリングを利用して、式（89）の計算をすることで、遅延和フィルタが計算される。

最小分散法によりフィルタを設計する場合は、式（90）を計算する。

ここで、R_H,ωはステアリングを用いて設計した空間相関行列である。

ここで、

である。時間領域のビームフォーミング後の出力信号は、Y_i,ω,τに対して短時間逆フーリエ変換をすることで得られる。

≪音源強調法２：局所ＰＳＤ推定に基づくウィーナーフィルタリング≫
更に高い精度で雑音抑圧を実施するために、ビームフォーミングの出力信号Y_i,ω,τに対してウィーナーフィルタを掛け合わせる方法について説明する。i番目の音源を強調するためのウィーナーフィルタをG_i,ω,τとするとき、出力信号Z_i,ω,τは式（93）で得られる。

G_i,ω,τはフレームごとに変化する量であり、式（94）で計算される。

ここで、^φ_S,ω,τは、ビームフォーミング後の信号に含まれる目的音のＰＳＤの推定値、^φ_N,ω,τは雑音のＰＳＤの推定値を表す。また、^ξ_ω,τ=^φ_S,ω,τ/^φ_N,ω,τは、ビームフォーミング後の信号におけるＳＮ比（signal-noise ratio）（以後、事前ＳＮＲと呼ぶ）の推定値を表す。いずれもウィーナーフィルタを設計するために、観測信号群x_ω,τから求める必要がある。

観測信号群から目的音と雑音のＰＳＤを求めるための従来方式として、局所ＰＳＤ推定法がある（下記参考文献４、５参照）。
〔参考文献４〕Y. Hioka, K. Furuya, K. Kobayashi, K. Niwa, and Y. Haneda, “Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,” in Proc. IEEE Trans. on Audio, Speech, and Language Proc., vol. 21, pp. 1240-1250, 2013.
〔参考文献５〕K. Niwa, Y. Hioka, and K. Kobayashi, “Post-filter design for speech enhancement in various noisy environments,” in Proc. IWAENC 2014, pp. 36-40, 2014.

上述したように、観測信号x_ω,τにビームフォーミングを適用することで、特定の方向や位置から到来した音源を強調して収音した信号を得られる。目的音だけでなく雑音の情報も解析して目的音と雑音のＰＳＤを推定するために、L（≧2）個のビームフォーミングを用いる。l（=1, …, L）番目のビームフォーミングがζ(l)番目の位置にある音源を強調して収音するとし、l番目のビームフォーミング信号をY_ζ(l),ω,τと表す。複数のビームフォーミング出力信号群をy_ω,τ=[Y_ζ(1),ω,τ, …, Y_ζ(L),ω,τ]^Tと表す。なお、ζ(1)=iとし、1番目のビームフォーミング出力は必ず目的音を強調しているものとする。音源信号が互いに無相関であることを仮定できる場合、l番目のビームフォーミング出力信号のＰＳＤは、式（95）でモデル化される。

ここで、φ_Sk,ωは、k番目の音源のＰＳＤを表す。また、D_ζ(l),k,ωは、l番目のビームフォーミングのk番目の音源の位置に対する空間的な感度の平均を表す。L個のφ_Yζ(l),ωとK個のφ_Sk,ωの関係は式（96）でモデル化される。

なお、音源数Kは事前に正確に推定することが困難な場合も多いため、K≒Lと仮定して、適当に雑音が到来すると想定される場所を強調して収音したビームフォーミング信号群を利用してもよい。

L個の局所ＰＳＤを推定するために、式（96）の逆問題を解く。時間的なスパース性が非常に高く、音源信号が互いに無相関であることが仮定できる場合、式（96）の関係が時間フレームごとに成り立つと仮定できる。式（97）により、フレーム毎に音源信号のＰＳＤを推定することができる。

推定した局所ＰＳＤ^Φ_S,ω,τから^φ_S,ω,τと^φ_N,ω,τを計算することで、ウィーナーフィルタを逐次計算できる。

ここで、α_N,k,ωは調整用の係数であり、出力値から経験的に決められることが多い。

この発明では、クリアに目的音源を強調した信号を出力するために、ビームフォーミング後の信号群や推定された局所ＰＳＤ^Φ_S,ω,τを入力特徴量とし、事前ＳＮＲ^ξ_ω,τを出力する統計的マッピングモデルを導入する。近年、統計的マッピングモデルの一つとして、ディープニューラルネットワークが多く用いられているので、ここではディープニューラルネットワークを利用する。

この発明を音源強調に適用する場合のポイントは、（１）推定された局所ＰＳＤや複数のビームフォーミング出力パワー群をディープニューラルネットワークの入力として事前ＳＮＲを出力する構成と、（２）ディープニューラルネットワークのネットワークパラメータの初期値を従来法のように物理的な特性を加味して設定する点にある。

［第五実施形態］
第五実施形態の音源強調装置は、図１３に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、L個のビームフォーミング部１２−１〜１２−Ｌ、局所ＰＳＤ推定部１３、ＤＮＮマッピング部２２、およびフィルタリング部１６を備える。この音源強調装置が後述する各ステップの処理を行うことにより第五実施形態の音源強調方法が実現される。

音源強調装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音源強調装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音源強調装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音源強調装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

図１４を参照して、第五実施形態の音源強調方法の処理手続きを説明する。

ステップＳ１１において、周波数領域変換部１１−ｍ（m=1, …, M）は、各観測信号x_m(n)を短い時間長（例えば、サンプリング周波数16,000Hzの場合には、256サンプル程度）のフレームに分解し、それぞれのフレームにおいて離散フーリエ変換を行い周波数領域の観測信号X_m,ω,τを出力する。ここで、ωは周波数ビン番号を表し、τはフレーム番号を表す。各周波数領域変換部１１−１〜１１−Ｍの出力信号群X_1,ω,τ, X_2,ω,τ, …, X_M,ω,τはビームフォーミング部１２−１〜１２−Ｌにそれぞれ入力される。

ステップＳ１２において、ビームフォーミング部１２−ｌ〜１２−Ｌは、各周波数領域変換部１１−１〜１１−Ｍの出力信号群X_1,ω,τ, X_2,ω,τ, …, X_M,ω,τに対して、それぞれ異なる方向の角度領域から到来する音を強調して収音する処理を行い、結果を出力する。ビームフォーミング部１２−１は、直接音の強調に用いるものであり、あらかじめ定めた音源方向から到来する音を強調して出力信号Y_ζ(1),ω,τを出力する。残りのビームフォーミング部１２−２〜１２−Ｌは、拡散残響の解析に用いるものであり、音源方向以外の方向から到来する音を強調して出力信号群Y_ζ(2),ω,τ, …, Y_ζ(L),ω,τを出力する。各ビームフォーミング部１２−１〜１２−Ｌの出力信号群Y_ζ(1),ω,τ, …, Y_ζ(L),ω,τは局所ＰＳＤ推定部１３に入力される。

ステップＳ１３において、局所ＰＳＤ推定部１３は、各ビームフォーミング部１２−１〜１２−Ｌの出力信号群Y_ζ(1),ω,τ, …, Y_ζ(L),ω,τを入力とし、上記式（97）に従って、局所ＰＳＤ^Φ_S,ω,τを推定する。推定した局所ＰＳＤ^Φ_S,ω,τはＤＮＮマッピング部２２に入力される。

ステップＳ２２において、ＤＮＮマッピング部２２は、局所ＰＳＤ推定部１３の出力する局所ＰＳＤ^Φ_S,ω,τを入力とし、ネットワークパラメータz_ωiを用いて事前ＳＮＲの推定値^ξ_ω,τ=^φ_S,ω,τ/^φ_N,ω,τを求め、結果を出力する。

以下、ＤＮＮマッピング部２２の処理を詳細に説明する。ＤＮＮマッピング部２２は、直間比推定の場合と同様に、N層のディープニューラルネットワークで構成される。Nは4〜5程度でよい。まず、ディープニューラルネットワークの入力層に特徴量を設定する。

このときのベクトルq_ωi ⁽¹⁾の次元（ノード数）は、J₁=K×Qである。ネットワークパラメータz_ωiにZ_ωi ⁽²⁾, …, Z_ωi ^(N), b_ωi ⁽²⁾, …, b_ωi ^(N)が含まれるとすると、N-1回の逐次計算により、以下のように計算される。

ここで、n層目のレイヤー数をJ_nと記述するとき、

である。活性化関数f⁽ⁿ⁾(・)は、式（108）のように、シグモイド関数（sigmoid function）(n=2, …, N-1の場合)と恒等写像関数（n=Nの場合）を併用する。

N層目のレイヤー数をJ_N=1とし、推定された事前ＳＮＲは式（109）となる。

以後、q_ωi ⁽¹⁾を入力としネットワークパラメータz_ωiを用いて推定した事前ＳＮＲをζ(q_ωi ⁽¹⁾; z_ωi)と表記する。ネットワークパラメータは各周波数ビンかつ各帯域で学習し設計することとする。

以下、ディープニューラルネットワークの最適化方法について説明する。第五実施形態では、ネットワークパラメータz_ωiの初期値をランダムに設定し、誤差逆伝搬（back propagation）に基づいて、事前ＳＮＲの推定誤差を最小とするように、ネットワークパラメータz_ωiを最適化する。時間フレーム方向も含め多数の観測信号サンプルデータを用意し、計Θ個のデータで構成された学習用の局所ＰＳＤと事前ＳＮＲの正解値とからなる教師情報を、以下のように記載する。

式（101）（102）の各ステップをΘ個のサンプルデータに対して適用するとき、以下のように行列形式で書くことができる。

ここで、b_ωi ⁽ⁿ⁾1_Θ ^Tはb_ωi ⁽ⁿ⁾をΘ個分並べる操作を表し、

である。

ディープニューラルネットワークの出力と正解として与えた事前ＳＮＲとの誤差を測るための尺度として、式（115）で定義される二乗誤差関数を用いる。

誤差逆伝搬に基づいて、出力層（n=N）から入力層（n=1）に向かって逐次的にネットワークパラメータの勾配を算出する。⁻Ξ_ωi=[⁻ξ_ωi,1, …, ⁻ξ_ωi,Θ]とするとき、n番目の層における各サンプルデータおけるデルタΔ_ωi, ⁽ⁿ⁾を以下のように求める。

ここで、f'(・)は関数f(・)の微分であり、

最後に、求めた勾配を基にパラメータを更新する。

なお、更新量ΔZ_ωi ⁽ⁿ⁾, Δb_ωi ⁽ⁿ⁾は、以下とすればよい。

ここで、ΔZ_ωi ⁽ⁿ⁾⁺, Δb_ωi ⁽ⁿ⁾⁺は前回の更新量、εは学習係数、μは汎化性能を向上し学習を速く進めるためのモメンタム（momentum）の係数、λは重み減衰（weight decay）である。εは0.01程度、μは0.9程度、λは0.0002程度に設定すればよい。

ステップＳ１６において、フィルタリング部１６は、ＤＮＮマッピング部２２の出力する事前ＳＮＲの推定値^ξ_ω,τを入力とし、上記式（94）に従ってウィーナーフィルタを計算し、上記式（93）に従ってビームフォーミング出力信号群Y_ζ(1),ω,τ, …, Y_ζ(L),ω,τにウィーナーフィルタを掛け合わせることで、出力信号Z_i,ω,τを出力する。

［第六実施形態］
第五実施形態では、局所ＰＳＤ^Φ_S,ω,τを入力として、事前ＳＮＲの推定値^ξ_ω,τを出力するN層のディープニューラルネットワークを各周波数ビンかつ各帯域で設計する構成を説明した。第六実施形態では、次式のように複数のビームフォーミング出力を入力として、事前ＳＮＲの推定値を出力するN層のディープニューラルネットワークを用いる構成を説明する。

第六実施形態の音源強調装置は、図１５に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、L個のビームフォーミング部１２−１〜１２−Ｌ、およびフィルタリング部１６を第五実施形態と同様に備え、さらにＤＮＮマッピング部２３を備える。第五実施形態の音源強調装置が備えていた局所ＰＳＤ推定部１３は備えておらず、ビームフォーミング部１２−１〜１２−Ｌの出力がＤＮＮマッピング部２３へ入力されるように構成される。この音源強調装置が後述する各ステップの処理を行うことにより第六実施形態の音源強調方法が実現される。

ステップＳ２３において、ＤＮＮマッピング部２３は、各ビームフォーミング部１２−１〜１２−Ｌの出力信号群Y_ζ(1),ω,τ, …, Y_ζ(L),ω,τを入力とし、ネットワークパラメータz_ωiを用いて事前ＳＮＲの推定値^ξ_ω,τを求め、結果を出力する。ＤＮＮマッピング部２３は、Θ個のサンプルデータで構成された、学習用のビームフォーミング出力と事前ＳＮＲの正解値とからなる教師情報を用いて、第五実施形態と同様に最適化を行ったものである。

［第七実施形態］
第五実施形態および第六実施形態では、ネットワークパラメータz_ωiの初期値をランダムに設定した。第七実施形態では、従来法のように物理的な特性を加味してネットワークパラメータz_ωiの初期値を設定する方法について説明する。従来法における事前ＳＮＲ推定技術は大きく以下の3ステップで構成されている。

（ステップ１：局所ＰＳＤ推定処理）式（97）のように、2つ以上のビームフォーミングの出力パワー群φ_{Yζ(i),ωi,τ}から局所ＰＳＤの推定値^Φ_S,ω,τを求める。

（ステップ２：加算処理）式（98）（99）のように、ビームフォーミング出力における目的音と雑音のＰＳＤ^φ_S,ω,τ, ^φ_N,ω,τを出力する。

（ステップ３：対数領域比計算処理）式（124）のように、^φ_S,ω,τ, ^φ_N,ω,τから事前ＳＮＲの推定値^ξ_ω,τを以下のように出力する。

以上の3ステップの処理が各層の処理に物理的に対応しているとみなすことができるため、ランダムに設定するよりも良質なネットワークパラメータの初期値を決めることができる。第七実施形態では、第六実施形態の音源強調装置において、ネットワークパラメータz_ωiの初期値を設定するように構成する。なお、最適化処理については第六実施形態と同様である。

第七実施形態の音源強調装置は、図１６に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、L個のビームフォーミング部１２−１〜１２−Ｌ、フィルタリング部１６、およびＤＮＮマッピング部２３を第六実施形態と同様に備え、さらに初期値設定部３３を備える。この音源強調装置が後述する各ステップの処理を行うことにより第七実施形態の音源強調方法が実現される。

初期値設定部３３は、以下のようにして、ＤＮＮマッピング部２３の各層に対応するネットワークパラメータの初期値を設定する。入力層の値は、第六実施形態と同様に、次式のように設定する。

2層目の処理は、（ステップ１：局所ＰＳＤ推定処理）が対応する。2層目のレイヤー数はJ₂≧L×Qとなるようにする。Lはビームフォーミング数であり、Qは周波数ビン数である。式（97）に含まれるD_ω ^-1の要素を以下のように定義する。

ここで、・^-1は、L=Kの場合は逆行列を表し、L≠Kの場合は擬似逆行列を表す。

対応する係数をネットワークパラメータに代入することで、2層目の初期値を設定することができる。

なお、G_ωi,2とB_ωi,2は値幅調整係数である。Z_ωi ⁽²⁾q_ωi ⁽¹⁾の最大値が1〜5程度になるようにG_ωi,2を設定する。また、Z_ωi ⁽²⁾q_ωi ⁽¹⁾の出力値が0以下である場合に値を0付近にフロアリングするために、B_ωi,2は-5〜0の間に設定する。その後、以下の計算をすることで、2層目の出力q_ωi ⁽²⁾を得る。

3層目の処理は、（ステップ２：加算処理）が対応する。以下のようにネットワークパラメータを書き表すことで、加算処理を表現することができる。なお、3層目のレイヤー数はJ₃≧2となるようにする。

なお、G_ωi,3とB_ωi,3は値幅調整係数である。Z_ωi ⁽³⁾q_ωi ⁽²⁾の最大値が1〜5程度になるようにG_ωi,3を設定する。また、B_ωi,3は0程度で問題ない。その後、式（133）（134）の計算をすることで、3層目の出力q_ωi ⁽³⁾を得る。

ここで、式（124）に対応させるため、Z_ωi,1,1 ⁽⁴⁾は正の値、Z_ωi,1,2 ⁽⁴⁾は負の値に制限される。例えば、以下のようにして値を決める。

このとき、参照している^φ_S,ω,τや^φ_N,ω,τは、1つのサンプルで計算されたものを利用してもよいし、多数のサンプルで計算された値の平均値を利用してもよい。また、調整係数g_ωi,4は、次式のように求める。

最後に、出力値を以下のように算出する。

上述したネットワークパラメータの初期値設定法では、層の数は信号処理演算の最小単位数+1以上に設定したほうがよいため、N≧4とすることが望ましい。上記では、N=4とみなして説明したが、仮にNを4よりも多くしたい場合には、冗長な層を挟めばよい。ここで、信号処理演算の最小単位数とは、同等の信号処理演算（ここでは、事前ＳＮＲ推定処理）を従来の決定論的な手法で実行するときに必要となる、加算や乗算などの信号処理演算の数を意味している。

［第八実施形態］
第七実施形態では、第六実施形態の音源強調装置において、ネットワークパラメータz_ωiの初期値を設定する構成を説明した。第八実施形態では、第五実施形態の音源強調装置において、ネットワークパラメータz_ωiの初期値を設定するように構成する。なお、最適化処理については第五実施形態と同様である。

第八実施形態の音源強調装置は、図１７に示すように、M個のマイクロホン１０−１〜１０−Ｍ、M個の周波数領域変換部１１−１〜１１−Ｍ、L個のビームフォーミング部１２−１〜１２−Ｌ、局所ＰＳＤ推定部１３、ＤＮＮマッピング部２２、およびフィルタリング部１６を第五実施形態と同様に備え、さらに初期値設定部３２を備える。この音源強調装置が後述する各ステップの処理を行うことにより第八実施形態の音源強調方法が実現される。

第七実施形態では、2層目の処理が局所ＰＳＤ推定処理に対応していることを説明した。したがって、第八実施形態では、3層目以降の初期値設定を用いればよいということになる。入力層の値は、第五実施形態と同様に、次式のように設定する。

式（131）以降の処理を2層目、3層目の初期値として設定すればよいことになる。なお、第七実施形態ではN≧4に設定したほうがよいと説明したが、層の数を信号処理演算の最小単位数+1以上に設定する考え方は同様であるため、第八実施形態ではN≧3に設定することが望ましい。

第七実施形態や第八実施形態のように、ネットワークパラメータの初期値を適切に設定することで、各層の物理的な意味合いを持ちつつ、パラメータ最適化が可能になる。その結果、学習データがある程度少なくても外れ値を出力する可能性が減る効果が期待される。つまり、学習データが少なくても環境に依存しにくいディープニューラルネットワークを設計することができる効果がある。

［第九実施形態］
第九実施形態は、第一実施形態から第四実施形態で説明した直間比推定技術と、第五実施形態から第八実施形態で説明した音源強調技術とを包含する上位概念としての音源情報推定技術を説明する。

第九実施形態の音源情報推定装置は、例えば、音源特徴抽出部および音源情報推定部を備える。この音源情報推定装置が後述の各ステップの処理を行うことにより第九実施形態の音源情報推定方法が実現される。

音源特徴抽出部は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する。音源特徴抽出部は、第一実施形態および第四実施形態の直間比推定装置では、ビームフォーミング部１２−１〜１２−２および局所ＰＳＤ推定部１３に相当し、第二実施形態および第三実施形態の直間比推定装置では、ビームフォーミング部１２−１〜１２−２に相当する。また、第五実施形態および第八実施形態の音源強調装置では、ビームフォーミング部１２−１〜１２−Ｌおよび局所ＰＳＤ推定部１３に相当し、第六実施形態および第七実施形態の音源強調装置では、ビームフォーミング部１２−１〜１２−Ｌに相当する。

音源情報推定部は、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める。このとき、統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである。音源情報推定部は、第一実施形態および第四実施形態の直間比推定装置では、ＤＮＮマッピング部２０に相当し、第二実施形態および第三実施形態の直間比推定装置では、ＤＮＮマッピング部２１に相当する。また、第五実施形態および第八実施形態の音源強調装置では、ＤＮＮマッピング部２２に相当し、第六実施形態および第七実施形態の音源強調装置では、ＤＮＮマッピング部２３に相当する。

上記の実施形態では、統計的マッピングモデルがディープニューラルネットワークで構成される例を説明したが、第一実施形態および第二実施形態の直間比推定技術と、第五実施形態および第六実施形態の音源強調技術と、第九実施形態の音源情報推定技術とにおける統計的マッピングモデルは、ディープニューラルネットワークに限定されず、他の統計的マッピングモデルを用いることが可能である。他の統計的マッピングモデルとしては、例えば、混合正規分布（Gaussian Mixture Model: GMM）などを挙げることができる。なお、第三実施形態および第四実施形態の直間比推定技術と、第七実施形態および第八実施形態の音源強調技術とにおいては、ディープニューラルネットワークのネットワークパラメータの初期値を設定する技術であるため、統計的マッピングモデルはディープニューラルネットワークに限定される。

［第十実施形態］
上述の実施形態では、特にマイクロホンアレイのハードウェア構造を限定せずに説明してきた。本形態では、マイクロホンアレイのハードウェア構造に対称性を持たせるように限定することで、学習したディープニューラルネットワークのネットワークパラメータの頑健性を高め、音源情報の推定性能を高めることを目的とする。なお、処理手続きに関しては、ハードウェア構成が制限される以外は、各実施形態と同様であるため、以下では対称性を持つマイクロホンアレイの具体的なハードウェア構成例と、なぜこの構成によりディープニューラルネットワークのネットワークパラメータの頑健性が高まるのかについて説明をする。

図１８に対称性を持つアレイ構造の例を示す。ここで、対称性とは、２次元または３次元空間における点対称を指す。例えば、直線状にM個のマイクロホンを並べた場合は、１次元であるため対称性を持たせることができない。２次元構造であれば、円周上にマイクロホンを等間隔で並べる場合（すなわち、正多角形の頂点位置）が該当する。また、３次元構造であれば、例えば、正多面体の頂点位置にマイクロホンがある場合が該当する。図１８では、２次元構造の例として正三角形・正方形・正六角形・正八角形の場合を、３次元構造の例として正四面体・正六面体・正八面体・正十二面体・正二十面体の場合を示したが、これらの構造に限定されるものではない。マイクロホンそのものに指向性がある場合には、対称性を保つように素子の向きが制限される。

マイクロホンアレイの構造に対称性を持たせることの効果について、音声強調の場合を例にして説明する。≪音源強調法１：ビームフォーミング≫で説明したように、目的音を強調するための基本的な方式は、式（84）のようにビームフォーミングをし、その後、式（93）のようなウィーナーフィルタリングをかけることである。その際に、目的音と雑音のＰＳＤ、またはその比である事前ＳＮＲξ_ω,τを必要とするが、これらは式（97）のような演算で得られる。各実施形態ではディープニューラルネットワークを使用してきたが、基本的には、このフローを自動的に推定していることに相当している。マイクロホンアレイの構造に対称性を持たせることにより、感度行列D_ωが目的音の到来方向に依らず同一となる。これにより、目的音を強調するための処理フローが目的音の到来方向とは独立に決まることになる。そのため、ディープニューラルネットワークにより、目的音を強調するフローを学習して推定した際にも、目的音の到来方向とは独立にネットワークパラメータが決まることになり、特定の方向から到来した音のデータを大量に用意しなくてもネットワークパラメータの学習が進む。ただし、ビームフォーミングをする際に目的音の到来方向を既知とすることが前提となる。このようにして、対称性をもつマイクロホンアレイを用いることでディープニューラルネットワークの頑健性を高めることができ、音源情報の推定性能をさらに高めることができる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０−１〜１０−Ｍマイクロホン
１１−１〜１１−Ｍ周波数領域変換部
１２−１〜１２−Ｌビームフォーミング部
１３局所ＰＳＤ推定部
１４パワー比推定部
１５事前ＳＮＲ計算部
１６フィルタリング部
２０〜２３ＤＮＮマッピング部
３０〜３３初期値設定部

Claims

複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する音源特徴抽出部と、
各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める音源情報推定部と、
を含み、
上記統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである、
音源情報推定装置。
請求項１に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワースペクトル密度と各周波数領域音響信号から求めた直間比の正解値とを用いてパラメータを学習したものであり、
上記音源特徴抽出部は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号を入力とし、各周波数領域観測信号のパワースペクトル密度を抽出するものであり、
上記音源情報推定部は、各周波数領域観測信号のパワースペクトル密度を上記統計的マッピングモデルへ入力して直間比の推定値を求めるものである、
音源情報推定装置。
請求項１に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワーと各周波数領域音響信号から求めた直間比の正解値とを用いてパラメータを学習したものであり、
上記音源特徴抽出部は、入力された観測信号に対して複数の異なる方向の角度領域から到来する音を強調して複数の周波数領域観測信号を生成し、各周波数領域観測信号のパワーを抽出するものであり、
上記音源情報推定部は、各周波数領域観測信号のパワーを上記統計的マッピングモデルへ入力して直間比の推定値を求めるものである、
を含む音源情報推定装置。
請求項２に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、Nを所定の直間比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワースペクトル密度に設定し、2層目以降の各層のネットワークパラメータの初期値に上記直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
音源情報推定装置。
請求項３に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、Nを所定の直間比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワーに設定し、2層目以降の各層のネットワークパラメータの初期値に上記直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
音源情報推定装置。
請求項１に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワースペクトル密度と各周波数領域音響信号から求めたＳＮ比の正解値とを用いてパラメータを学習したものであり、
上記音源特徴抽出部は、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号を入力とし、各周波数領域観測信号のパワースペクトル密度を抽出するものであり、
上記音源情報推定部は、各周波数領域観測信号のパワースペクトル密度を上記統計的マッピングモデルへ入力してＳＮ比の推定値を求めるものであり、
上記ＳＮ比の推定値から周波数帯域毎の利得係数を計算し、上記周波数領域観測信号の各対応する周波数帯域のパワースペクトル密度に乗算するフィルタリング部をさらに含む、
音源情報推定装置。
請求項１に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、上記複数の周波数領域音響信号から抽出したパワーと各周波数領域音響信号から求めたＳＮ比の正解値とを用いてパラメータを学習したものであり、
上記音源特徴抽出部は、入力された観測信号に対して複数の異なる方向の角度領域から到来する音を強調して複数の周波数領域観測信号を生成し、各周波数領域観測信号のパワーを抽出するものであり、
上記音源情報推定部は、各周波数領域観測信号のパワーを上記統計的マッピングモデルへ入力してＳＮ比の推定値を求めるものであり、
上記ＳＮ比の推定値から周波数帯域毎の利得係数を計算し、上記周波数領域観測信号の各対応する周波数帯域のパワースペクトル密度に乗算するフィルタリング部を含む、
音源情報推定装置。
請求項６に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、Nを所定のＳＮ比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワースペクトル密度に設定し、2層目以降の各層のネットワークパラメータの初期値に上記所定の直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
音源情報推定装置。
請求項７に記載の音源情報推定装置であって、
上記統計的マッピングモデルは、Nを所定のＳＮ比推定処理演算を構成する信号処理演算の単位数とし、N+1層以上のディープニューラルネットワークであり、
上記ディープニューラルネットワークの入力層を各周波数領域観測信号のパワーに設定し、2層目以降の各層のネットワークパラメータの初期値に上記所定の直間比推定処理演算を構成する各信号処理演算を表現したネットワークパラメータを設定する初期値設定部をさらに含む、
音源情報推定装置。
請求項１から９のいずれかに記載の音源情報推定装置であって、
上記複数の周波数領域音響信号は、各マイクロホンが正多角形もしくは正多面体の頂点位置に配置されたマイクロホンアレイを用いて収音したものである、
音源情報推定装置。
音源特徴抽出部が、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域観測信号から各周波数領域観測信号の音源特徴を抽出する音源特徴抽出ステップと、
音源情報推定部が、各周波数領域観測信号の音源特徴を統計的マッピングモデルへ入力して音源情報の推定値を求める音源情報推定ステップと、
を含み、
上記統計的マッピングモデルは、複数の異なる方向の角度領域から到来する音を強調して収音した複数の周波数領域音響信号から抽出した音源特徴と各周波数領域音響信号から求めた音源情報の正解値とを用いてパラメータを学習したものである、
音源情報推定方法。
請求項１から１０のいずれかに記載の音源情報推定装置としてコンピュータを機能させるためのプログラム。