JP2022135451A

JP2022135451A - 音響処理装置、音響処理方法およびプログラム

Info

Publication number: JP2022135451A
Application number: JP2021035253A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 龍武田; Ryu Takeda
Original assignee: Honda Motor Co Ltd; Osaka University NUC
Current assignee: Honda Motor Co Ltd; Osaka University NUC
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-09-15
Also published as: US20220286775A1; US11818557B2

Abstract

【課題】音源分離のための空間的複雑性を低減することができる音響処理装置、音響処理方法およびプログラムを提供する。【解決手段】空間正規化部はマイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する。マスク関数推定部は機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定める。マスク処理部は前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定する。【選択図】図１

Description

本発明は、音響処理装置、音響処理方法およびプログラムに関する。

音源分離は、複数の成分を含む音響信号から個々の音源に基づく成分を分離する技術である。音源分離は、周囲環境を音響面で分析するうえで有用であり、広範な分野や用途への応用が試みられている。代表的な応用例には、自動運転、機器操作、音声会議、ロボットの動作制御、などがある。音源分離には、それぞれ位置が異なるマイクロホンを用い、音源から個々のマイクロホンまでの空間的位置関係の違いによる、音の伝達特性の差異を利用する手法が提案されている。そのうち、選択的音源分離（selective sound separation）は、音源分離において重要な機能である。

選択的音源分離とは、特定の方向または位置に存在する音源から到来する音の成分を分離することである。選択的音源分離は、例えば、会話ロボットにおいて、特定の話者が発話した音声の取得に応用される。非特許文献１では、残響環境において、２個のマイクロホンからの音響入力から目的音源成分（target source component）を分離する手法が提案されている（バイノーラル音源分離（binaural sound source separation））。非特許文献１には、ニューラルネットワークを用い、音響入力から得られたスペクトル特徴量と空間特徴量から目標音を抽出するマスクを推定する手法が記載されている。推定されたマスクは、音響入力に作用して特定の方向からの目標音を相対的に強調し、その他の方向からのノイズ成分を低減するために用いられる。

X. Zhang and D. Wang: "Deep Learning Based Binaural Speech Separation in Reverberant Environments", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND, LANGUAGE PROCESSING, VOL. 25, NO.5, MAY 2017

しかしながら、現実の音響環境における音源の個数や位置との空間的関係のパターンは一般的に多様である。他方、あらゆるパターンを想定すると、これらのパターンを事前に設定したうえで、個々のパターンに適合するようにニューラルネットワークのモデルパラメータを事前に学習しておく必要がある。そのため、モデルパラメータの学習に係る処理量や労力が膨大となりうる。また、音源の個数や位置は動的に変動しうるため、予め設定されたパターンを用いて目標音源の成分が十分な品質で得られるとは限らない。

本実施形態は上記の点に鑑みてなされたものであり、音源分離のための空間的複雑性を低減することができる音響処理装置、音響処理方法およびプログラムを提供することを課題とする。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する空間正規化部と、機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定めるマスク関数推定部と、前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定するマスク処理部と、を備える音響処理装置である。

（２）本発明の他の態様は、（１）の音響処理装置であって、前記空間正規化部は、前記正規化において前記標準方向への指向性を示す第１ステアリングベクトルと、前記目標方向への指向性を示す第２ステアリングベクトルを用いてもよい。

（３）本発明の他の態様は、（１）または（２）の音響処理装置であって、前記正規化スペクトルに対して前記目標方向への指向性を示す空間フィルタを作用して空間補正スペクトルを生成する空間フィルタリング部を備えてもよい。前記マスク関数推定部は、前記空間補正スペクトルを前記機械学習モデルに入力して前記マスク関数を定めてもよい。

（４）本発明の他の態様は、（１）から（３）のいずれかの音響処理装置であって、前記目標音源を含む複数の音源から到来した音を示す前記音響信号に前記マスク関数を作用して得られる前記目標音源の成分の推定値と、前記目標音源の成分の目標値との残差が小さくなるように、前記機械学習モデルのパラメータセットを定めるモデル学習部を備えてもよい。

（５）本発明の他の態様は、（１）から（４）のいずれかの音響処理装置であって、前記モデル学習部は、前記正規化スペクトルから空間補正スペクトルを生成するための空間フィルタを定めてもよい。前記目標音源の成分の推定値は、前記空間補正スペクトルに前記マスク関数を作用して得られる。

（６）本発明の他の態様は、（１）から（５）のいずれかの音響処理装置であって、複数の前記音響信号に基づいて音源方向を定める音源方向推定部を備えてもよい。前記空間正規化部は、前記音源方向を前記目標方向として用いてもよい。

（７）本発明の他の態様は、コンピュータに（１）から（６）のいずれかの音響処理装置として機能させるためのプログラムであってもよい。

（８）本発明の他の態様は、マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する第１ステップと、機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定める第２ステップと、前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定する第３ステップと、を有する音響処理方法である。

上述した（１）、（７）、（８）の構成によれば、マスク関数を推定するために用いられる正規化スペクトルは、標準方向への指向成分を含むように正規化されるため、あらゆる音源方向を想定した機械学習モデルを準備する必要がなくなる。そのため、音源分離により得られる目標音源の成分の品質を確保しながら、モデル学習における音響環境の空間的複雑性を低減することができる。

上述した（２）の構成によれば、音源方向推定をはじめとする他のマイクロホンアレイ処理にも利用されうる第１、第２ステアリングベクトルを用いることで、簡素な処理、構成により空間正規化を実現することができる。

上述した（３）の構成によれば、取得される音響信号に含まれる目標方向に設置された目標音源の成分が確実に捕捉されるため、推定される目標音源の成分の品質を確保することができる。

上述した（４）の構成によれば、音響信号に作用して目標音源の成分を推定するマスク関数を定めるための機械学習モデルを学習することができる。

上述した（５）の構成によれば、機械学習モデルのパラメータセットと、機械学習モデルに入力される空間補正スペクトルを生成するための空間フィルタを連立して定めることができる。

上述した（６）の構成によれば、目標方向が未知の目標音源であっても、目標音源の成分を推定することができる。

本実施形態に係る音響処理システムの構成例を示すブロック図である。空間正規化について説明するための説明図である。本実施形態に係る収音部の例を示す表面図である。本実施形態に係る収音部の例を示す側面図である。本実施形態に係る音響処理の例を示すフローチャートである。本実施形態に係るモデル学習の例を示すフローチャートである。マイクロホンアレイと音源との位置関係を示す平面図である。マイクロホンアレイと音源との位置関係を示す側面図である。抽出した目標音源成分の品質を示す表である。空間フィルタの振幅応答の例を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本実施形態に係る音響処理システムＳ１の構成例を示すブロック図である。
音響処理システムＳ１は、音響処理装置１０と、収音部２０と、を備える。

音響処理装置１０は、収音部２０から取得した複数チャネルの音響信号のスペクトルを定める。音響処理装置１０は、チャネルごとに定めたスペクトルに含まれる収音部２０の目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを定める。音響処理装置１０は、機械学習モデルを用いて定めた正規化スペクトルに基づいて目標方向からの到来成分を抽出するためのマスク関数をチャネルごとに定める。音響処理装置１０は、チャネルごとに定めたマスク関数を音響信号に作用して目標方向に設置された目標音源の成分を推定する。音響処理装置１０は、推定した目標音源の成分を示す音響信号を出力先機器３０に出力する。出力先機器３０は、音響信号の出力先とする他の機器である。

収音部２０は、複数のマイクロホンを有し、マイクロホンアレイとして形成される。個々のマイクロホンは、それぞれ異なる位置に所在し、それぞれ自部に到来する音波を収音する。図１に示す例では、個々のマイクロホンは、それぞれ２０－１、２０－２と子番号を用いて区別されている。個々のマイクロホンは、それぞれ収音した音波を音響信号に変換するアクチュエータを備え、変換した音響信号を音響処理装置１０に出力する。本実施形態では、マイクロホンごとに収音される音響信号の単位をチャネルと呼ぶ。図３、図４に示す例では、収音部２０は、２個のマイクロホンが回転楕円体の筐体に固定される。マイクロホン２０－１、２０－２は、筐体の中心軸Ｃを横断する横断面Ａ－Ａ’の外縁に設置される。中心軸Ｃと横断面Ａ－Ａ’との交点を代表点Ｏとする。この例では、代表点Ｏからマイクロホン２０－１の方向と、マイクロホン２０－２の方向とのなす角は１３５°である。

本願では、図１、図３に例示されるように、マイクロホンの数が２である場合を主として説明する。一方のマイクロホン２０－１、他方のマイクロホン２０－２を、それぞれマイクロホン２０－１、２０－２と呼ぶことがある。
マイクロホンの数は、３以上となってもよい。個々のマイクロホンの位置は、図示の例に限られない。複数のマイクロホン間の位置関係は固定されていてもよいし、可変であってもよい。

次に、本実施形態に係る音響処理装置１０の機能構成例について説明する。
音響処理装置１０は、入出力部１１０と、制御部１２０と、を含んで構成される。
入出力部１１０は、他の機器と各種のデータを入力および出力可能に無線または有線で接続する。入出力部１１０は、他の機器から入力される入力データを制御部１２０に出力する。入出力部１１０は、制御部１２０から入力される出力データを他の機器に出力する。入出力部１１０は、例えば、入出力インタフェース、通信インタフェースなどのいずれか、または組み合わせであってもよい。入出力部１１０は、アナログ・ディジタル（Ａ／Ｄ：Analog-to Digital）変換器とディジタル・アナログ（Ａ／Ｄ：Digital-to Analog）変換器の両方または一方を備えてもよい。Ａ／Ｄ変換器は、収音部２０から入力されるアナログの音響信号をディジタルの音響信号に変換し、変換した音響信号を制御部１２０に出力する。Ｄ／Ａ変換器は、制御部１２０から入力されるディジタルの音響信号をアナログの音響信号に変換し、変換した音響信号を出力先機器３０に出力する。

制御部１２０は、音響処理装置１０の機能を実現するための処理、その機能を制御するための処理、などを実行する。制御部１２０は、専用の部材を用いて構成されてもよいが、ＣＰＵ（Central Processing Unit）などのプロセッサと各種の記憶媒体を含んで構成されてもよい。プロセッサは、予め記憶媒体に記憶された所定のプログラムを読み出し、読み出したプログラムに記述された各種の命令で指示される処理を実行して制御部１２０の処理を実現する。

制御部１２０は、周波数分析部１２２、空間正規化部１２４、空間フィルタリング部１２６、マスク関数推定部１２８、マスク処理部１３０、および音源信号処理部１３２を含んで構成される。

周波数分析部１２２は、個々のマイクロホンから入力される音響信号に対して所定時間間隔（例えば、１０～５０ｍｓｅｃ）のフレームごとに周波数分析を行ってスペクトルを定める。周波数分析部１２２は、周波数分析において、例えば、離散フーリエ変換（ＤＦＴ：Discrete Fourier Transform）を行う。チャネルｋの音響信号のフレームｔにおけるスペクトルは、周波数ｗにおける複素数ｘ_{ｋ，ｗ，ｔ}を要素として含むベクトルｘ_ｗ，ｔを用いて表現される。このベクトルを、観測スペクトルベクトル（observed spectrum vector）と呼ぶ。観測スペクトルベクトルｘ_ｗ，ｔは、［ｘ_{ｋ１，ｗ，ｔ}，ｘ_{ｋ２，ｗ，ｔ}］^Ｔと表される。Ｔは、ベクトルまたは行列の転置を示す。観測スペクトルベクトルｘ_ｗ，ｔの要素、例えば、ｘ_{ｋ１，ｗ，ｔ}を、「観測スペクトル」と呼ぶことがある。周波数分析部１２２は、各チャネルのスペクトルを空間正規化部１２４にフレームごとに出力する。また、周波数分析部１２２は、所定のチャネルの観測スペクトル（例えば、ｘ_{ｋ１，ｗ，ｔ}）をマスク処理部１３０にフレームごとに出力する。

空間正規化部１２４は、周波数分析部１２２から入力される観測スペクトルに対して、当該スペクトルに含まれる目標方向（target direction）への収音部２０の指向成分が所定の標準方向（standard direction）への指向成分に変換されるように正規化（空間正規化、spatial normalization）し、正規化スペクトルを生成する。目標方向は、収音部２０の位置を基準位置とし、その基準位置からの音源の方向に相当する。標準方向は、基準位置からの予め定めた一定の基準となる方向（例えば、正面方向）に相当する。収音部２０の指向成分は、ステアリングベクトル（steering vector）を用いて制御されうる。ステアリングベクトルは、チャネルごとの利得と位相を示す複素数を要素値として含むベクトルである。ステアリングベクトルは、指向方向ごとに定められ、その指向方向に対する指向しとして指向方向への利得が他の方向への利得よりも高くなる指向性を有する。目標方向に対するステアリングベクトルのチャネルごとの要素値は、当該要素値を重み係数とする音響信号の重み付け加算値は、マイクロホンアレイとしてのアレイ出力を算出するために用いられる。アレイ出力の目標方向に対する利得が他の方向に対する利得よりも大きくなる。ステアリングベクトルは、音源から個々のチャネルに対応するマイクロホンまでの伝達関数を正規化して得られる要素値を含んで構成される。伝達関数は、使用環境における実測値であってもよいし、物理モデルを仮定したシミュレーションにより算出された演算値であってもよい。物理モデルは、音源からマイクロホンが設置される受音点までの音響伝達特性を与える数理モデルであればよい。

空間正規化部１２４は、空間正規化において、例えば、式（１）を用いて正規化スペクトル（normalized spectrum vector）ｘ’_ｗ，ｔを定めることができる。

式（１）において、ａ_ｗ（ｒ’）、ａ_ｗ（ｒ_ｃ，ｔ）は、それぞれ標準方向ｒ’に対するステアリングベクトル、目標方向ｒ_ｃ，ｔに対するステアリングベクトルを示す。○印に×印を組み合わせてなる記号は、その前後のベクトルの要素ごとの乗算を示す。○印に／印を組み合わせてなる記号は、その直前のベクトルの直後のベクトルでの要素ごとの除算を示す。
ステアリングベクトルａ_ｗ（ｒ_ｃ，ｔ）は、例えば、［ａ_ｋ１，ｗ（ｒ_ｃ，ｔ），ａ_ｋ２，ｗ（ｒ_ｃ，ｔ）］^Ｔと表される。ａ_ｋ１，ｗ（ｒ_ｃ，ｔ）、ａ_ｋ２，ｗ（ｒ_ｃ，ｔ）は、それぞれ目標方向に設置された音源からマイクロホン２０－１、２０－２までの伝達関数を示す。但し、ステアリングベクトルａ_ｗ（ｒ_ｃ，ｔ）、ａ_ｗ（ｒ’）は、それぞれノルム｜｜ａ_ｗ（ｒ_ｃ，ｔ）｜｜が１となるように正規化される。空間正規化部１２４は、定めた正規化スペクトルｘ’_ｗ，ｔを空間フィルタリング部１２６に出力する。

空間フィルタリング部１２６は、空間正規化部１２４から入力される正規化スペクトルｘ’_ｗ，ｔに対して目標方向ｒ_ｃ，ｔへの指向性を示す空間フィルタを作用して補正スペクトルｚ_ｗ，ｔを定める。空間フィルタとして、目標方向ｒ_ｃ，ｔに対する指向性をもたらすフィルタ係数を要素とするベクトル、または、行列が用いられてもよい。かかるフィルタとして、例えば、遅延和ビームフォーマ（ＤＳビームフォーマ：Delay-and-Sum beamformer）が利用可能である。目標方向ｒ_ｃ，ｔに対するステアリングベクトルａ_ｗ（ｒ_ｃ，ｔ）に基づく空間フィルタが用いられてもよい。空間フィルタリング部１２６は、式（２）に示すように、正規化スペクトルｘ’_ｗ，ｔに対してＤＳビームフォーマを用いて空間補正スペクトルｚ_ｗ，ｔを定めることができる。

式（２）において、ａ_ｗ（ｒ_ｃ，ｔ）は、目標方向ｒ_ｃ，ｔに対するステアリングベクトルを示す。Ｈは、ベクトルまたは行列の共役を示す。空間フィルタリング部１２６は、定めた補正スペクトルｚ_ｗ，ｔをマスク関数推定部１２８に出力する。

マスク関数推定部１２８には、正規化スペクトルｘ’_ｗ，ｔに基づいて定めた補正スペクトルｚ_ｗ，ｔが入力される。マスク関数推定部１２８は、所定の機械学習モデルを用いて、周波数ｗ、フレームｔに対する補正スペクトルｚ_ｗ，ｔを入力値として、周波数ｗ、フレームｔに対するマスク関数ｍ_ｗ，ｔを出力値として算出する。マスク関数ｍ_ｗ，ｔは、その絶対値が０以上１以下の値域に正規化される実数または複素数で表される。機械学習モデルとして、例えば、各種のニューラルネットワーク（ＮＮ：Neural Network）を用いることができる。ニューラルネットワークは、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、順伝播型ニューラルネットワークなど、いずれの種類であってもよい。また、機械学習モデルは、ニューラルネットワークに限られず、決定木、ランダムフォレスト、相関ルール学習、などのいずれの手法であってもよい。マスク関数推定部１２８は、算出したマスク関数ｍ_ｗ，ｔをマスク処理部１３０に出力する。

マスク処理部１３０は、周波数分析部１２２から入力される音響信号のスペクトル、即ち、観測スペクトルｘ_{ｋ１，ｗ，ｔ}に、マスク関数推定部１２８から入力されるマスク関数ｍ_ｗ，ｔを作用して目標方向に設置される目標音源の成分（本願では、「目標成分」と呼ぶことがある）のスペクトル（本願では、「目標スペクトル」と呼ぶことがある）ｙ’_ｗ，ｔを推定する。マスク処理部１３０は、例えば、式（３）に示すように、観測スペクトルｘ_{ｋ１，ｗ，ｔ}にマスク関数ｍ_ｗ，ｔを乗算して目標スペクトルｙ’_ｗ，ｔを算出する。マスク処理部１３０は、算出した目標スペクトルｙ’_ｗ，ｔを音源信号処理部１３２に出力する。

音源信号処理部１３２は、マスク処理部１３０から入力される目標スペクトルｙ’_ｗ，ｔに対して離散フーリエ逆変換（ＩＤＦＴ：Inverse Discrete Fourier Transform）を行い、時間領域の目標音源成分の音源信号を生成する。音源信号処理部１３２は、生成した音源信号を出力先機器３０に入出力部１１０を経由して出力する。音源信号処理部１３２は、生成した音源信号を自装置の記憶部（図示せず）に記憶してもよい。出力先機器３０は、スピーカなどの音響機器でもよいし、パーソナルコンピュータ、多機能携帯電話機などの情報機器でもよい。

（観測モデル）
次に、本実施形態の前提となる観測モデル（Observation Model）について説明する。観測モデルは、音響空間に設置された音源から収音部２０に到来する音波の観測スペクトルを定式化するモデルである。音響空間にＭ（Ｍは、２以上の整数）個の音源が、それぞれ異なる位置ｒ_ｍ，ｔに設置される場合、収音部２０を構成する個々のマイクロホンに受音される音響信号の観測スペクトルｘ_ｗ，ｔは、式（４）を用いて定式化される。

式（４）において、ｍは、個々の音源を示すインデックスを示す。ｓ_ｍは、音源ｍが出力する音響信号のスペクトルを示す。ｈ_ｗ（ｒ_ｍ，ｔ）は、伝達関数ベクトルを示す。伝達関数ベクトルｈ_ｗ（ｒ_ｍ，ｔ）は、音源位置ｒ_ｍ，ｔに設置された音源から個々のマイクロホンまでの伝達関数を要素として含むベクトル［ｈ_ｋ１，ｗ（ｒ_ｍ，ｔ），ｈ_ｋ２，ｗ（ｒ_ｍ，ｔ）］^Ｔである。ｎ_ｗ，ｔは、雑音ベクトルを示す。雑音ベクトルｎ_ｗ，ｔは、個々のマイクロホンでの観測スペクトルに含まれる雑音成分を要素として含むベクトル［ｎ_{ｋ１，ｗ，ｔ}，ｎ_{ｋ２，ｗ，ｔ}］^Ｔである。式（４）は、個々の音源ｍが出力する音響信号のスペクトルｓ_ｍと伝達関数ｈ_ｗ（ｒ_ｍ，ｔ）の積の音源間の総和と雑音のスペクトルｎ_ｗ，ｔとの和が観測スペクトルｘ_ｗ，ｔに等しいことを示す。本願では、音源が生成する音源信号と、そのスペクトルを、それぞれ「音源信号」、「音源スペクトル」と呼ぶことがある。

本モデルによれば、目標方向ｒ_ｃ，ｔに設置された目標音源ｃに基づく目標スペクトルｙ_ｗ，ｔは、式（５）に示すように、目標音源ｃから所定のマイクロホン（例えば、マイクロホン２０－１）までの伝達関数ｈ_ｋ１，ｗ（ｒ_ｃ，ｔ）と目標音源ｃの音源スペクトルｓ_{ｃ，ｗ，ｔ}との積で表される。本実施形態に係る音響処理装置は、上記のように観測スペクトルｘ_ｗ，ｔに含まれる目標音源ｃの成分を目標スペクトルｙ_ｗ，ｔとして推定するための構成を備える。

（空間正規化）
次に、空間正規化について説明する。空間正規化は、観測スペクトルに含まれる目標方向への収音部２０の指向成分を所定の標準方向への指向成分に変換することに相当する。
図２は、２個の音源のうち一方の音源を目標音源Ｔｇとし、他方の音源を他音源Ｓｒとする場合において、目標音源Ｔｇの目標方向θへの指向成分を標準方向０°への指向成分に変換する場合を示す。但し、収音部２０の代表点を原点Ｏとし、各音源の音源方向が原点からの標準方向０°となす方位角で示されている。方位角は、標準方向を基準として左回りに定められている。

その場合、目標方向θ、標準方向０°にそれぞれ設置される音源からの到来成分のスペクトルは、それぞれの方向に係る伝達関数ｈ_ｋ，ｗ（θ）、ｈ_ｋ，ｗ（０°）に比例する。本実施形態では、空間正規化において指向成分としてステアリングベクトルａ_ｋ，ｗ（θ）に対するステアリングベクトルａ_ｋ，ｗ（０°）の比ａ_ｋ，ｗ（０°）／ａ_ｋ，ｗ（θ）を乗じる。ステアリングベクトルは、音源からマイクロホンまでの伝達関数に比例するため、伝達関数ｈ_ｋ，ｗ（θ）とステアリングベクトルａ_ｋ，ｗ（θ）が相殺し、ステアリングベクトルａ_ｋ，ｗ（０°）、即ち、伝達関数ｈ_ｋ，ｗ（０°）に比例する成分が残される。

上記のようにステアリングベクトルとして、予め測定された伝達関数、または、物理モデルを用いて合成された伝達関数が用いられる。これに対して、実音場では伝達関数は環境により変動するため、伝達関数ｈ_ｋ，ｗ（θ）とステアリングベクトルａ_ｋ，ｗ（θ）は完全には相殺されない。しかしながら、ステアリングベクトルには、マイクロホンごとの位置の差異に基づく強度と位相の差異が反映され、かつ、音源位置による依存性が残される。空間正規化によれば、伝達関数ｈ_ｋ，ｗ（θ）とステアリングベクトルａ_ｋ，ｗ（θ）が部分的に相殺されるため、伝達関数ｈ_ｋ，ｗ（θ）の音源方向依存性が緩和される。

（モデル学習）
次に、マスク関数推定部１２８が用いる機械学習モデルのパラメータセットの学習について説明する。前述のようにマスク関数推定部１２８は、機械学習モデルを用いて補正スペクトルｚ_ｗ，ｔを入力値として、マスク関数ｍ_ｗ，ｔを出力値として算出する。そのため、マスク関数推定部１２８には、機械学習モデルのパラメータセットを予め設定させておく。音響処理装置１０は、訓練データを用いてパラメータセットを定めるためのモデル学習部（図示せず）を備えてもよい。

モデル学習部は、目標音源を含む複数の音源のそれぞれから到来した成分が混合した音を示す音響信号にマスク関数を作用して得られる目標音源の成分の推定値と、目標音源の成分の目標値との残差が小さくなるように、機械学習モデルのパラメータセットを定める。目標値として、目標音源から到来し、他の音源からの成分を含まない音を示す音響信号が用いられる。

そこで、モデル学習部は、既知の入力値と、その入力値に対応する出力値との対であるデータセットを複数個（典型的には、１００－１０００以上）含む訓練データを構成する。モデル学習部は、個々のデータセットに含まれる入力値から機械学習モデルを用いて出力値の推定値を算出する。モデル学習部は、モデル学習において、個々のデータセットについて算出した推定値と、そのデータセットに含まれる出力値との差分（推定誤差）の大きさを示す損失関数（loss function）が、より小さくなるようにパラメータセットを更新する処理を繰り返す。パラメータセットΘは、１セットの訓練データごとに定められる。１セットの訓練データは、１セットの観測スペクトルベクトルｘ_ｗ，ｔと、１セットの音源方向ｒ_ｃ，ｔの組に対して定まる。個々のデータセットは、各１フレームの音源信号を用いて得られる。個々のデータセットに用いられる音源信号のフレームは、時間的に連続していてもよいし、間欠的であってもよい。

機械学習モデルに対する入力値として、観測スペクトルベクトルｘ_ｗ，ｔから入力値とする補正スペクトルｚ_ｗ，ｔが上記の手法を用いて与えられる。観測スペクトルベクトルｘ_ｗ，ｔは、それぞれ位置の異なる複数の音源から音を発し、収音部２０を構成する個々のマイクロホンが収音する音響信号を周波数分析して得られる。
機械学習モデルに対する出力値とする目標スぺクトルｙ_ｗ，ｔは、複数の音源のうちの１つである目標音源から発し、その他の音源から音を発しない場合において、収音部２０の少なくとも１個のマイクロホンにより収音される音響信号を周波数分析して得られる。但し、目標音源には入力値を取得する際に用いた音源信号と共通の音源信号に基づく音を再生させる。

なお、入力値と出力値の取得に用いる音響信号は、必ずしもマイクロホンを用いて収音されたものでなくてもよく、シミュレーションにより合成されたものであってもよい。例えば、シミュレーションにおいて、音源信号に対して個々の音源の位置から個々のマイクロホンまでの伝達特性を示すインパルスレスポンスを用いて畳み込み演算を行い、その音源から到来する成分を示す音響信号を生成することができる。従って、複数の音源からの音を示す音響信号は、個々の音源の成分を加算して得られる。目標音源からの音を示す音響信号として、その目標音源の成分を示す音響信号を採用すればよい。

モデル学習部は、パラメータセットの更新前後の差分である更新量が所定の更新量の閾値以下になるか否かに基づいて、パラメータセットが収束したか否かを判定する。収束したと判定するまでモデル学習部は、パラメータセットを更新する処理を継続する。モデル学習部は、損失関数Ｇ（Θ）として、例えば、式（６）に示すＬ１ノルムを用いる。

式（６）は、出力値とする既知の目標スぺクトルｙ_ｗ，ｔの振幅の対数値から推定値とする目標スぺクトルｙ’_ｗ，ｔの振幅の対数値の差分の周波数およびセット（フレーム）間の総和が損失関数Ｇ（Θ）として与えられることを示す。目標スぺクトルｙ_ｗ，ｔ、ｙ’_ｗ，ｔそれぞれの対数値をとることにより、周波数ごとに著しく異なりうる振幅の値域の差異を緩和することができる。このことは、周波数間で一括した処理するために好都合である。なお、モデル学習部は、パラメータセットの収束判定を省略し、パラメータセットの更新処理を予め定めた回数繰り返してもよい。

なお、上記の例では、マスク関数推定部１２８およびモデル学習部は、機械学習モデルへの入力値として、補正スペクトルｚ_ｗ，ｔを用いる場合を例にしたが、正規化スペクトルｘ’_ｗ，ｔをそのまま用いてもよい。その場合には、マスク関数推定部１２８は、入力値とする正規化スペクトルｘ’_ｗ，ｔに対して目標スぺクトルｙ’_ｗ，ｔを出力値として定めることができる。その場合には、空間フィルタリング部１２６が省略されてもよい。

空間フィルタリング部１２６は、ＤＳビームフォーマに代え、式（７）に例示されるように、空間フィルタとして空間フィルタ行列Ｗ_ｗ ^Ｈとバイアスベクトルｂ_ｗを用いて、補正スペクトルｚ_ｗ，ｔを定めてもよい。

空間フィルタ行列Ｗ_ｗは、Ｊ（Ｊは、予め定めた１以上の整数）個のフィルタ係数ベクトルｗ_ｊ，ｗを各列に配列して構成される。ｊは、１以上Ｊ以下の整数である。即ち、空間フィルタ行列Ｗ_ｗは、［ｗ_１，ｗ，…，ｗ_Ｊ，ｗ］と表わされる。個々のフィルタ係数ベクトルｗ_ｊ，ｗは、各１個のビームフォーマに対応し、所定の方向への指向性を示す。個々のフィルタ係数ベクトルｗ_ｊ，ｗのノルム｜｜ｗ_ｊ，ｗ｜｜を１に正規化しておく。よって、式（７）は、正規化スペクトルｘ’_ｗ，ｔに対して空間フィルタ行列Ｗ_ｗ ^Ｈを乗じて得られる積にバイアスベクトルｂ_ｗを加算して補正スペクトルｚ_ｗ，ｔを算出することを示す。マスク関数推定部１２８は、空間フィルタリング部１２６が算出した補正スペクトルｚ_ｗ，ｔまたは、その絶対値｜ｚ_ｗ，ｔ｜を入力値とし、機械学習モデルを用いて出力値としてマスク関数ｍ_ｗ，ｔを算出することができる。

モデル学習部は、機械学習モデルのパラメータセットの他、さらに空間フィルタを示す空間フィルタ行列Ｗ_ｗとバイアスベクトルｂ_ｗを連立して、目標音源ごとに目標スぺクトルｙ_ｗ，ｔの推定誤差がより小さくなるように定めればよい。上記のように、正規化スペクトルｘ’_ｗ，ｔに空間フィルタ行列Ｗ_ｗとバイアスベクトルｂ_ｗを用いて、補正スペクトルｚ_ｗ，ｔが算出される。算出された補正スペクトルｚ_ｗ，ｔに基づき、目標スぺクトルの推定値ｙ’_ｗ，ｔは、さらに機械学習モデルのパラメータセットを用いて算出される。

なお、上記の実施形態では、目標方向が予め定められている場合を前提としたが、これには限られない。音響処理装置１０は、各チャネルの音響信号を用いて音源方向を推定するための音源方向推定部（図示せず）を備えてもよい。音源方向推定部は、定めた音源方向を目標方向として示す目標方向情報を空間正規化部１２４と空間フィルタリング部１２６に出力する。空間正規化部１２４と空間フィルタリング部１２６は、それぞれ音源方向推定部から入力される目標方向情報を用いて目標方向を特定することができる。

音源方向推定部は、例えば、ＭＵＳＩＣ（Multiple Signal Classification）法を用いて音源方向を推定することができる。ＭＵＳＩＣ法は、伝達関数ベクトルから有意な固有ベクトルの成分を差し引いて得られる残差ベクトルに対する伝達関数ベクトルの絶対値の比を空間スペクトルとして算出し、方向ごとの空間スペクトルのパワーが所定の閾値よりも高く、かつ極大となる方向を音源方向として定める手法である。伝達関数ベクトルは、音源から個々のマイクロホンまでの伝達関数を要素として有するベクトルである。
音源方向推定部は、その他の手法、例えば、ＷＤＳ－ＢＦ（Weighted Delay and Sum Beam Forming）法を用いて音源方向を推定してもよい。ＷＤＳ－ＢＦ法は、各チャネルの全帯域の音響信号ξ_ｑの遅延和の二乗値を空間スペクトルのパワーとして算出し、空間スペクトルのパワーが所定の閾値よりも高く、かつ、極大となる音源方向を探索する手法である。

音源方向推定部は、上記の手法を用いることで、同時に複数の音源それぞれの音源方向を定めることができる。その過程において、有意な音源の音源数が検出される。
そこで、空間フィルタリング部１２６には、フィルタ数Ｊごとに空間フィルタ行列Ｗ_ｗとバイアスベクトルｂ_ｗを設定しておいてもよい。モデル学習部は、モデル学習において、フィルタ数Ｊを音源数以上となるように設定しておき、空間フィルタ行列Ｗ_ｗとバイアスベクトルｂ_ｗを定めておいてもよい。空間フィルタリング部１２６は、音源方向推定部から入力される音源方向情報に示される音源ごとの音源方向に基づいて音源数を特定し、特定した音源数と等しいか、その音源数以上のフィルタ数Ｊに対応する空間フィルタ行列Ｗ_ｗとバイアスベクトルｂ_ｗを選択してもよい。空間フィルタ全体として指向性が全ての音源の音源方向が網羅されるため、音源数が増加しても安定した補正スペクトルが得られる。

上記のように、マスク処理部１３０は、検出された複数の音源のそれぞれを目標音源とし、その方向を目標方向とするマスク関数ｍ_ｗ，ｔを用いて目標スペクトルｙ’_ｗ，ｔを算出する。音源信号処理部１３２は、目標スペクトルｙ’_ｗ，ｔから目標音源成分の音源信号を生成する。そこで、音源信号処理部１３２は、音源方向推定部が推定した音源方向を示す音源方向情報を自装置または出力先機器３０に備わる表示部に出力し、操作入力部から入力される操作信号に応じて、複数の音源のいずれかの音源を選択可能としてもよい。表示部は、例えば、ディスプレイである。操作入力部は、例えば、タッチセンサ、マウス、ボタンなどのポインティングデバイスである。音源信号処理部１３２は、選択した音源を目標音源とする目標音源成分の音源信号を出力し、他の音源信号の出力を停止してもよい。

また、上記の例では、マスク関数ｍ_ｗ，ｔは、その要素数が１個であるスカラー値である場合を仮定したが、要素数を複数とするベクトルであってもよい。その場合、マスク処理部１３０は、複数チャネルの観測スペクトルｘ_{ｋ，ｗ，ｔ}に、それぞれ対応するチャネルｋのマスク関数ｍ_{ｋ，ｗ，ｔ}を乗じて得られる積の総和を目標スペクトルｙ’_ｗ，ｔとして算出すればよい。但し、マスク関数推定部１２８には、モデル学習において、同様の手法を用いて目標スぺクトルｙ’_ｗ，ｔを算出して生成された機械学習モデルを設定しておく。

（音響処理）
次に、本実施形態に係る音響処理の例について説明する。図５は、本実施形態に係る音響処理の例を示すフローチャートである。
（ステップＳ１０２）周波数分析部１２２は、個々のマイクロホンから入力される各チャネルの音響信号に対してフレームごとに周波数分析を行い、観測スペクトルを定める。
（ステップＳ１０４）空間正規化部１２４は、観測スペクトルに含まれる目標方向への収音部２０の指向方向が所定の標準方向への指向方向に変換されるように空間正規化し、正規化スペクトルを定める。

（ステップＳ１０６）空間フィルタリング部１２６は、正規化スペクトルに対して目標方向に対する空間フィルタを作用して補正スペクトルを定める。
（ステップＳ１０８）マスク関数推定部１２８は、機械学習モデルを用いて、補正スペクトルを入力値として、マスク関数を定める。
（ステップＳ１１０）マスク処理部１３０は、所定のチャネルの観測スペクトルに対してマスク関数を作用して目標スペクトルを定める。
（ステップＳ１１２）音源信号処理部１３２は、目標スペクトルに基づいて時間領域の目標音源成分の音源信号を生成する。その後、図５に示す処理を終了する。

（モデル学習）
次に、本実施形態に係るモデル学習の例について説明する。図６は、本実施形態に係るモデル学習の例を示すフローチャートである。
（ステップＳ２０２）モデル学習部は、複数の音源によるフレームごとの正規化スペクトルに基づく補正スペクトルを入力値とし、目標音源による目標スペクトルを出力値として含むデータセットを複数セット含む訓練データを形成する。
（ステップＳ２０４）モデル学習部は、パラメータセットの初期値を設定する。過去にモデル学習が行われている場合には、モデル学習部は、過去のモデル学習により得られたパラメータセットを初期値として設定してもよい。

（ステップＳ２０６）モデル学習部は、所定のパラメータ推定法を用いて、より損失関数が小さくするためのパラメータセットの更新量を定める。パラメータ推定法として、例えば、逆伝播法（back propagation）、最急降下法（steepest descent）、確率的勾配降下法（stochastic gradient descent）などのいずれかの手法が利用可能である。
（ステップＳ２０８）モデル学習部は、もとのパラメータセットに定めた更新量を加算して、更新後のパラメータセットを算出する（パラメータ更新）。

（ステップＳ２１０）モデル学習部は、更新量が所定の更新量の閾値以下になった否かに基づいて、パラメータセットが収束したか否かを判定する。収束したと判定するとき（ステップＳ２１０ＹＥＳ）、図６に示す処理を終了する。モデル学習部は、得られたパラメータセットをマスク関数推定部１２８に設定する。収束していないと判定するとき（ステップＳ２１０ＮＯ）、ステップＳ２０６の処理に戻る。

以上の説明では、空間正規化、空間フィルタリング、マスク処理、音源信号処理などが周波数領域のスペクトルが用い、周波数領域における演算を伴う場合を主としたが、それには限られない。周波数領域のスペクトルに代え、時間領域の信号が用いられてもよい。その場合には、周波数領域における乗算、除算に代え、それぞれ時間領域における畳み込み演算、逆畳み込み演算が実行されればよい。例えば、マスク処理部１３０は、観測スペクトルｘ_{ｋ１，ｗ，ｔ}にマスク関数ｍ_ｗ，ｔを乗算して目標スペクトルｙ’_ｗ，ｔを算出することに代え、収音部２０からの音響信号に時間領域のマスク関数の変換係数を畳み込み目標成分を示す音響信号を生成してもよい。その場合には、音源信号処理部１３２におけるフーリエ逆変換、周波数分析部１２２が省略されてもよい。

（実験）
次に、音響処理装置１０の有効性を評価するために実施した実験について説明する。実験において、２種類の音源を用いた。一方は人間の音声を示す音源信号であり、非音声を示す音源信号である。人間の音声として、日本語話し言葉コーパス（ＣＳＪ：Corpus of Spontaneous Japanese）に含まれる発話音声を用いた。ＣＳＪで定められた公式評価セットからテストセット用の音源信号を選択した。テストセットには、１０名の男性、１０名の女性による１００分間の音声を示す音源信号がテスト信号として含まれる。個々の試行におけるテスト信号の期間は、３秒から１０秒の範囲である。非音声として、ＲＷＣＰ実環境音声・音響データベース（Real World Computing Partnership Sound Scene Database in Real Acoustical Environments）から選択した音源信号をテストセットとして用いた。ＲＷＣＰ実環境音声・音響データベースは、約６０種類の非音声信号を含むコーパスである。例えば、ガラスの破壊音、鈴の音、などが含まれる。訓練データとして、２２３時間の学術講演発表における音声を用いた。学術講演発表には、７９９件の男性音声、１６８件の女性音声を示す音源信号が含まれる。

本実験では、音源信号に２チャネルのインパルスレスポンスを畳み込んで２チャネルの音響信号（以下の説明では、バイノーラル信号と呼ぶことがある）を観測信号として合成した。観測信号は、それぞれ訓練データ、テストセットの生成に用いられる。２チャネルのインパルスレスポンスは、予め無響室において音源方向ごとにサンプリング周波数を１６ｋＨｚとして測定した。測定には、図３および図４に示す２チャネルのマイクロホンアレイを用いた。インパルスレスポンスは、音源から個々のマイクロホンまでの音波の伝達特性を時間領域で表す。

図７は、マイクロホンアレイ（収音部２０）と音源との位置関係を示す平面図である。原点Ｏとしてマイクロホンアレイの代表点が用いられ、音源方向は原点Ｏを中心とする半径１．０ｍの円周上に１°単位で設定可能とする。但し、本実験では個々の音源方向について高さが異なる２個の音源Ｓｒ－１、Ｓｒ－２を設定した。
図８は、マイクロホンアレイ（収音部２０）と音源Ｓｒ－１、Ｓｒ－２の位置関係を示す側面図である。２個のマイクロホンが配置されている横断面の高さは床から０．６ｍであるのに対し、音源Ｓｒ－１、Ｓｒ－２の高さは、それぞれ１．３５ｍ、１．１０ｍである。

音源Ｓｒ－１、Ｓｒ－２は、それぞれ異なるテストセット１、２を生成するために用いた。但し、訓練データの生成には、音源Ｓｒ－１を用い、音源Ｓｒ－２を用いなかった。従って、テストセット１は、訓練データと同じ音源Ｓｒ－１が用いられる整合テストセット（matched test set）となる。テストセット２は、訓練データと異なる音源Ｓｒ－２が用いられる非整合テストセット（unmatched test set）となる。

訓練データとして、３名の話者の音声信号をミキシングした音響信号を用いた。それらのうちの大部分は、同一の話者の音声信号である。１名の話者の目標方向θ_ｃ，ｔを、時間経過に応じて不変（time-invariant）とし、０°から３５９°の間で一様に選択した。他の２名の話者の目標方向を、（θ_ｃ，ｔ＋２０＋ｕ）°と（θ_ｃ，ｔ＋３４０－ｕ）°からランダムに選択した。ｕは、０以上１４０以下の整数値からランダムに選択される整数値である。

テストセットとして４種類のデータセットを用いた。４種類のデータセットは、複数の音源からの成分を示す音響信号をミキシングした信号を各試行におけるテスト信号として含む。これらの信号には、いずれも訓練データには含まれない。４種類のデータセットを、それぞれ２音声（ｓｐ２）セット、３音声（ｓｐ３）セット、２音声＋非音声（ｓｐ２＋ｎ１）セット、４音声（ｓｐ４）セットと呼ぶ。２音声セットは、２名の音声をミキシングしたテスト信号を含む。２音声セットに含まれる各試行における音源方向のパターンには、３種類のパターン［０°，３０°］、［０°，４５°］、および［０°，６０°］のが含まれる。３音声セットは、３名の音声をミキシングしたテスト信号を含む。３音声セットに含まれる各試行における音源方向のパターンには、３種類のパターン［０°，３０°，６０°］、［０°，４５°，９０°］、および［０°，６０°，１２０°］が含まれる。２音声＋非音声（ｓｐ２＋ｎ１）セットには、２名の音声と１つの非音声をミキシングしたテスト信号を含む。２名の音声に対する音源方向のパターンとして、２音声セットと同様のパターンが用いられる。非音声を示す音響信号として、その音源信号をそのまま用いた。４音声セットは、４名の音声をミキシングしたテスト信号を含む。４名の音声に対する音源方向のパターンには、１種類のパターン［０°，４５°，２７０°，３１５°］が含まれる。いずれも空間正規化における標準方向を０°とした。ＤＳビームフォーマを用いる場合、その指向性を常に０°に向けた。テストセットにおいて、目標方向に±２°の誤差が含まれる。

本実施形態との比較のため、ベースラインとして空間正規化を伴わない次の２種類の手法に対しても評価を行った。２種類の手法を、処理Ａ、処理Ｂと呼ぶ。処理Ａは、空間正規化を省略し、空間フィルタリングにおいて生成されたＤＳビームフォーマに基づく空間補正スペクトルｚ_ｗ，ｔをマスク関数への入力する手法である。処理Ｂは、空間正規化を省略し、学習により得られた空間フィルタ（最適化ビーム、ＯｐｔＢｅａｍ）に基づく空間補正スペクトルｚ_ｗ，ｔをマスク関数への入力する手法である。いずれも、目標方向θ_ｃ，ｔを可変とし、目標音源ごとに独立に目標音源成分を分離した。
本実施形態については、空間正規化を伴う処理Ａ、空間正規化を伴う処理Ｂ（Ｊ＝２）、空間正規化を伴う処理Ｂ（Ｊ＝３）、および空間正規化を伴う処理Ｂ（Ｊ＝４）の４種類について評価を行った。

本実験では、機械学習モデルとしてニューラルネットワークを用い、その設定をモデル学習、音源分離、ならびに、音源分離におけるテストセット間で共通とした。ニューラルネットワークは、特徴抽出ネットワーク（feature-extraction network）と全結合ネットワーク（fully connected network）を備える。特徴抽出ネットワークは、メルフィルタバンク特徴抽出（mel-filter bank feature extraction）を含み、逆伝播法（back-propagation）を用いてパラメータを学習した。

本実験では、フレームごとのシフト量（frame shift）を１０ｍｓとした。特徴抽出ネットワークには、離散フーリエ変換（５１２点の窓関数）、絶対値算出、線形射影（フィルタバンク、６４次元）、絶対値算出、パワー算出、フレーム結合（frame concatenation）、および線形射影（ボトルネック、２５６次元）の各機能が、その順序で含まれる。空間フィルタリングを個々の特徴抽出ストリームに適用した。訓練データをなす個々のデータセットに含まれる観測信号の期間を６４０ｍｓとした。全結合ネットワークは、７層であり、シグモイド関数を活性化関数として伴う。出力層は、２５６次元の出力ノードを有し、マスク関数ｍ_ｗ，ｔを出力するためのシグモイド関数を伴う。

本実験では、有効性の指標として信号対歪比（ＳＤＲ：Signal-to-Distortion Ratio）とケプストラム歪（ＣＤ：Cepstrum Distortion）を用いた。ＳＤＲは、既知の参照信号からの目標音源成分の歪の度合いの指標値となる。ＳＤＲは、その値が大きいほど品質が良好なことを示す指標値である。ＳＤＲは、式（８）を用いて定めることができる。

式（８）は、目標音源成分ｙ’_ｗ，ｔの振幅が参照信号ｙ_ｗ，ｔの振幅とパラメータαの積と誤差ｅ_ｗ，ｔの和で表されることを示す。パラメータαは、各スペクトルについて周波数ｗ、フレームごとの誤差ｅ_ｗ，ｔが最小化されるように定められる。つまり、パラメータαは、目標音源成分ｙ’_ｗ，ｔにおける、参照信号の寄与度を示す。ＳＤＲは、誤差の振幅｜ｅ_ｗ，ｔ｜に対する参照信号成分の振幅α｜ｙ_ｗ，ｔ｜の比について周波数ｗおよびフレームｔにわたるパワーの総和に対する対数値に相当する。

他方、ＣＤは、対数振幅スペクトルに離散コサイン変換を行って得られるケプストラム係数を用いて計算される。ＣＤは、その値が小さいほど品質が良好なことを示す。本実験では、ケプストラム係数の次元を１から２４に設定し、平均Ｌ１ノルム（誤差絶対値）に基づいて距離値を算出した。
ＳＤＲとＣＤとして、個々のテストセットに対して分離された目標音源成分にわたり平均した値について考察した。入力データに複数の音源が含まれる場合には、目標方向を用いて、他の音源から、個々の音源に係る目標音源成分を抽出した。

次に、実験結果について説明する。図９は、抽出した目標音源成分の品質を示す表である。図９は、手法およびテストセットごとのＳＤＲとＣＤを示す。各欄の上段、下段にそれぞれＳＤＲ、ＣＤを示す。但し、処理なし（No processing）とは、何ら処理を行わずに得られた観測信号に対するＳＤＲ、ＣＤを示す。下線は、個々のテストセットについて最も良好な性能を表す。ベースラインと本実施形態とを比較すると、全体的に本実施形態の方が良好な性能が得られる。

まず、ベースラインに係る処理Ａにより得られたＳＤＲとＣＤには、処理なしに係るＳＤＲとＣＤよりも、テストセット１、２のいずれについても改善が認められる。しかしながら、音源数が増加するほど有意に性能が劣化し、非音声が混合されている場合に性能が最も劣る。このことは、処理Ａでは非音声の分離が困難なことを示す。
処理Ｂに係るＣＤＲとＣＤは、処理なしに係るＣＤＲとＣＤと比較して、全く改善が認められなかった。一因として、空間フィルタの学習に失敗したことが推定される。

本実施形態に係る空間正規化＋処理Ａにより得られたＳＤＲとＣＤは、テストセット１、２のいずれについても良好な性能を示す。テストセット１については、全項目について最も良好である。テストセット２についても、３音源におけるＣＤ、２音源＋非音声と３音源のそれぞれにおけるＳＤＲとＣＤは、最も良好である。空間正規化＋処理Ａによれば、ベースラインに係る処理ＡよりもＣＤについて１－３ｄＢ程度改善が認められる。空間正規化＋処理Ｂについては、フィルタ数Ｊが増加するほど、ＳＤＲとＣＤが良好となる傾向がある。空間正規化＋処理Ｂ（Ｊ＝４）について、２音声の場合におけるＳＤＲとＣＤと、３音声についてＳＤＲについて最も良好となる。このことは、フィルタ数Ｊが増加するほど性能の改善が見込まれることを示す。空間正規化＋処理Ｂについてフィルタ数Ｊが少ない場合に性能が劣化するのは、訓練データに対する過学習と、学習において拘束条件（constraint）を用いなかったことが原因と推認される。過学習は、特定の音源方向への指向性を顕著にし、その方向を目標方向とする目標音源の成分の捕捉を妨げる原因となりうる。拘束条件として、例えば、独立成分分析（ＩＣＡ：Independent Component Analysis）におけるスパース性（sparseness）を用いることで性能の改善が期待される。

学習された複数の空間フィルタの指向性は、相補的な（complementary）ビームパターンを有する。相補的なビームパターンは、利得が平坦なパターンとある方向において他の方向よりも利得が低くなるヌルパターンの組み合わせを有する。図１０は、学習により得られた４個の空間フィルタのうち第１、第４チャネルの振幅応答を、それぞれ第１行、第２行に例示する。縦軸、横軸は、それぞれ周波数、音源方向の方位角を示す。濃淡は、利得を示す。濃い部分ほど利得が高く、明るい部分ほど利得が低いことを示す。
図１０は、第４フィルタにおいて２つのヌル方向（ブラインドスポット）が認められるのに対し、第１フィルタの対応する方向にはヌル方向は認められない。このことは、ニューラルネットワークを用いて、相補的ビームパターンに基づいて一部フィルタのヌル方向を目標方向とする目標音源であっても、複数のフィルタを用いることで目標音源の成分を漏れなく捕捉できることを示す。

以上に説明したように、本実施形態に係る音響処理装置１０は、マイクロホンアレイを形成する複数のマイクロホンのそれぞれから音響信号を取得し、取得した音響信号のスペクトルに含まれるマイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する空間正規化部１２４を備える。音響処理装置１０は、機械学習モデルを用いて正規化スペクトルに基づいて目標方向から到来する目標音源の成分を抽出するためのマスク関数を定めるマスク関数推定部１２８を備える。音響処理装置１０は、取得した音響信号にマスク関数を作用して目標方向に設置された目標音源の成分を推定するマスク処理部１３０を備える。
この構成によれば、マスク関数を推定するために用いられる正規化スペクトルは、標準方向への指向成分を含むように正規化されるため、あらゆる音源方向を想定した機械学習モデルを準備する必要がなくなる。そのため、音源分離により得られる目標音源の成分の品質を確保しながら、モデル学習における音響環境の空間的複雑性を低減することができる。

空間正規化部１２４は、正規化において標準方向への指向性を示す第１ステアリングベクトルと、目標方向への指向性を示す第２ステアリングベクトルを用いてもよい。
この構成により、音源方向推定をはじめとする他のマイクロホンアレイ処理にも利用されうる第１、第２ステアリングベクトルを用いることで、簡素な処理、構成により空間正規化を実現することができる。

音響処理装置１０は、正規化スペクトルに対して目標方向への指向性を示す空間フィルタを作用して空間補正スペクトルを生成する空間フィルタリング部を備えてもよい。マスク関数推定部１２８は、空間補正スペクトルを機械学習モデルに入力してマスク関数を定めてもよい。
この構成により、取得される音響信号に含まれる目標方向に設置された目標音源の成分が確実に捕捉されるため、推定される目標音源の成分の品質を確保することができる。

音響処理装置１０は、目標音源を含む複数の音源から到来した音を示す音響信号にマスク関数を作用して得られる目標音源の成分の推定値と、目標音源の成分の目標値との残差が小さくなるように、機械学習モデルのパラメータセットを定めるモデル学習部を備えてもよい。
この構成により、音響信号に作用して目標音源の成分を推定するマスク関数を定めるための機械学習モデルを学習することができる。

モデル学習部は、正規化スペクトルから空間補正スペクトルを生成するための空間フィルタを定めてもよい。目標音源の成分の推定値は、空間補正スペクトルにマスク関数を作用して得られる。
この構成により、機械学習モデルのパラメータセットと、機械学習モデルに入力される空間補正スペクトルを生成するための空間フィルタを連立して定めることができる。

音響処理装置１０は、複数の前記音響信号に基づいて音源方向を定める音源方向推定部を備えてもよい。空間正規化部は、音源方向推定部が定めた音源方向を目標方向として定めてもよい。
この構成により、目標方向が未知である目標音源であっても、目標音源の成分を推定することができる。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

また、音響処理装置１０は、収音部２０と一体化された音響ユニットとして構成されてもよい。収音部２０を構成する個々のマイクロホンの位置は可変であってもよい。個々のマイクロホンは、移動体に設置されてもよい。移動体は、台車、飛行体などのいずれであってもよい。個々のマイクロホンの位置は可変である場合には、音響処理装置１０は、個々のマイクロホンの位置を検出するための位置検出器と接続されてもよい。制御部１２０は、個々のマイクロホンの位置に基づいてステアリングベクトルを定めてもよい。

なお、上述した実施形態における音響処理装置１０の一部、例えば、周波数分析部１２２、空間正規化部１２４、空間フィルタリング部１２６、マスク関数推定部１２８、マスク処理部１３０、および音源信号処理部１３２の一部または全部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムを、プロセッサを含むコンピュータシステムに読み込ませ、実行することによって実現してもよい。
また、上述した実施形態及び変形例における音響処理装置１０の一部、または全部を、ＬＳＩ（Large Scale Integration）等の集積回路として実現してもよい。音響処理装置１０の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

Ｓ１…音響処理システム、１０…音響処理装置、１１０…入出力部、１２０…制御部、１２２…周波数分析部、１２４…空間正規化部、１２６…空間フィルタリング部、１２８…マスク関数推定部、１３０…マスク処理部、１３２…音源信号処理部

Claims

マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する空間正規化部と、
機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定めるマスク関数推定部と、
前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定するマスク処理部と、を備える
音響処理装置。
前記空間正規化部は、前記正規化において前記標準方向への指向性を示す第１ステアリングベクトルと、前記目標方向への指向性を示す第２ステアリングベクトルを用いる
請求項１に記載の音響処理装置。
前記正規化スペクトルに対して前記目標方向への指向性を示す空間フィルタを作用して空間補正スペクトルを生成する空間フィルタリング部を備え、
前記マスク関数推定部は、
前記空間補正スペクトルを前記機械学習モデルに入力して前記マスク関数を定める
請求項１または請求項２に記載の音響処理装置。
前記目標音源を含む複数の音源から到来した音を示す前記音響信号に前記マスク関数を作用して得られる前記目標音源の成分の推定値と、前記目標音源の成分の目標値との残差が小さくなるように、前記機械学習モデルのパラメータセットを定めるモデル学習部を備える
請求項１から請求項３のいずれか一項に記載の音響処理装置。
前記モデル学習部は、
前記正規化スペクトルから空間補正スペクトルを生成するための空間フィルタを定め、
前記目標音源の成分の推定値は、前記空間補正スペクトルに前記マスク関数を作用して得られる
請求項４に記載の音響処理装置。
複数の前記音響信号に基づいて音源方向を定める音源方向推定部を備え、
前記空間正規化部は、前記音源方向を前記目標方向として用いる
請求項１から請求項５のいずれか一項に記載の音響処理装置。
コンピュータに
請求項１から請求項６のいずれか一項に記載の音響処理装置として機能させるための
プログラム。
マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する第１ステップと、
機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定める第２ステップと、
前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定する第３ステップと、を有する
音響処理方法。