JP2018146610A

JP2018146610A - マスク推定装置、マスク推定方法およびマスク推定プログラム

Info

Publication number: JP2018146610A
Application number: JP2017038166A
Authority: JP
Inventors: 中谷　智広; Tomohiro Nakatani; 智広中谷; 信貴伊藤; Nobutaka Ito; 卓哉樋口; Takuya Higuchi; 荒木　章子; Akiko Araki; 章子荒木; 慶介木下; Keisuke Kinoshita
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2018-09-20
Anticipated expiration: 2037-03-01
Also published as: JP6636973B2

Abstract

【課題】高精度なマスク推定を行う。【解決手段】パワー占有度推定部１４は、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、目的音響信号が観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定する。空間パラメータ推定部１６は、観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する。統合占有度推定部１５は、パワー占有度の推定値および空間パラメータの推定値に基づき目的音源のマスクを推定する。【選択図】図１

Description

本発明は、マスク推定装置、マスク推定方法およびマスク推定プログラムに関する。

目的音源から出た目的音響信号と背景雑音による雑音信号とが混在する状況において、複数のマイクロホンで収音された観測信号からマスクを推定する方法は、従来から提案されている。

なお、マスクとは、観測信号の各時間周波数点において、目的音響信号がどの程度含まれているかの割合のことである。マスクは、雑音信号が混在した観測信号から、目的音響信号の自己相関、およびマイクロホン間の相互相関を推定することや、さらには、観測信号から目的音響信号のみを取り出すビームフォーマを設計すること等に用いられる。

ここで、図３を用いて、従来のマスク推定装置２０について説明する。図３は、従来のマスク推定装置の構成を示す図である。図３に示すように、まず、パワー特徴量抽出部２１は、観測信号から時間周波数点ごとの信号のパワー特徴量を抽出する。一方、パワーパラメータ保存部２２には、パワー特徴量を入力として受け取り、マスクの推定値を出力するように事前学習したニューラルネットワークの結合重みを、パワーパラメータとして保存してある。そして、パワー占有度推定部２３は、パワーパラメータ保存部２２から読みだしたパワーパラメータを用いてニューラルネットワークを構成し、パワー特徴量抽出部２１から受け取ったパワー特徴量をニューラルネットワークに入力し、その出力としてマスクの推定値を得る。マスク推定装置２０によれば、ニューラルネットワークを用いることにより、目的音響信号の全周波数にわたる周波数パターンと連続した時間にわたる時間パターンを考慮したマスク推定ができる。

また、図４を用いて、従来のマスク推定装置３０について説明する。図４は、従来のマスク推定装置の構成を示す図である。図４に示すように、まず、空間特徴量抽出部３１は、観測信号から時間周波数点ごとの空間特徴量を抽出する。そして、空間占有度推定部３２は、空間特徴量を受け取るとともに、空間パラメータ推定部３３から空間パラメータを受け取り、各時間周波数点において目的音響信号が空間を占有している度合をマスクの暫定推定値として求める。一方、空間パラメータ推定部３３は、事前に定められた空間パラメータを初期値として記憶しているとともに、空間特徴量抽出部３１から空間特徴量を受け取り、空間占有度推定部３２からマスクの暫定推定値を受け取ると、空間パラメータを更新する。そして、上記の空間占有度推定部３２による処理と空間パラメータ推定部３３による処理を交互に収束するまで繰り返し、その結果として得られたマスクの暫定推定値を最終的なマスクの推定値とするマスク推定装置３０を構成する。

J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural networkbased spectral mask estimation for acoustic beamforming," in Proc. IEEE ICASSP-2016, pp. 196-200, 2016. T. Higuchi, N. Ito, T. Yoshioka and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," in Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016.

しかしながら、従来の技術には、高精度なマスク推定を行うことができない場合があるという問題があった。例えば、従来のマスク推定装置２０では、ニューラルネットワークの重みを事前学習する際に用いた観測信号の収録条件と、マスクを推定したい観測信号の収録条件が異なる場合、マスクの推定精度が下がる場合があるという問題があった。

観測信号の音響的な性質は、雑音の種類や、目的音源からマイクまでの音響伝達特性、目的音響信号の性質等、様々な収録条件に影響を受けている。事前学習時と、マスク推定時の間で、これらの収録条件に違いがあると、その度合いに応じて、ニューラルネットワークによるマスク推定の精度が低下する。また、ニューラルネットワークの事前学習に、多様な収録条件に対応する学習データを用いることができたとしても、その多様性が増すにつれて、ニューラルネットワークはより複雑な非線形変換を学習しなければならなくなるため、精度の高い学習が困難になるという問題がある。このため、従来のマスク推定装置２０は、限定的な収録条件のみでしか、高精度なマスク推定を行うことができなかった。

また、例えば、従来のマスク推定装置３０では、周波数帯域ごとに、独立に、空間パラメータを推定してマスクを推定するため、信号対雑音比が特別に悪い周波数帯があると、その周波数における目的音響信号の空間パラメータの推定精度が低下し、その結果、マスク推定の精度も低下する場合があるという問題があった。

本発明のマスク推定装置は、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定部と、前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定部と、前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定部と、を有することを特徴とする。

本発明のマスク推定方法は、マスク推定装置で実行されるマスク推定方法であって、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定工程と、前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定工程と、前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定工程と、を含んだことを特徴とする。

本発明によれば、高精度なマスク推定を行うことができるようになる。

図１は、第１の実施形態に係るマスク推定装置の構成の一例を示す図である。図２は、第１の実施形態に係るマスク推定装置の処理の一例を示す図である。図３は、従来のマスク推定装置の構成を示す図である。図４は、従来のマスク推定装置の構成を示す図である。図５は、プログラムが実行されることによりマスク推定装置が実現されるコンピュータの一例を示す図である。

以下に、本願に係るマスク推定装置、マスク推定方法およびマスク推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本発明が限定されるものではない。

［第１の実施形態］
まず、第１の実施形態に係るマスク推定装置の構成、処理の流れおよび効果を説明する。なお、第１の実施形態においては、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の観測信号に短時間周波数分析を適用して得られる時間周波数信号ｘ^（ｍ）（ｔ，ｆ）がマスク推定装置に入力されるものとする。ただし、ｍは観測位置の番号、ｔとｆは、時間周波数点の時間と周波数の番号を表す。

［第１の実施形態の構成］
図１を用いて、第１の実施形態の構成について説明する。図１は、第１の実施形態に係るマスク推定装置の構成の一例を示す図である。図１に示すように、マスク推定装置１０は、パワー特徴量抽出部１１、空間特徴量抽出部１２、パワーパラメータ保存部１３、パワー占有度推定部１４、統合占有度推定部１５、空間パラメータ推定部１６を有する。

まず、マスク推定装置の各部の処理について説明する。パワー特徴量抽出部１１は、入力された観測信号に基づいてパワー特徴量を計算する。例えば、パワー特徴量抽出部１１は、各観測信号に対応する時間周波数信号ｘ^（ｍ）（ｔ，ｆ）を受け取り、（１）式のように、その対数パワーをパワー特徴量Ｘ^（ｍ）（ｔ，ｆ）として抽出する。

一方、空間特徴量抽出部１２は、入力された観測信号に基づいて空間特徴量を計算する。例えば、空間特徴量抽出部１２は、（２−１）式のように、各観測信号に対応する時間周波数信号ｘ^（ｍ）（ｔ，ｆ）に基づき、各時間周波数点で、ｘ^（ｍ）（ｔ，ｆ）（ｍ＝１〜Ｍ）を成分とするＭ次元縦ベクトルｘ_０（ｔ，ｆ）を構成し、（２−２）式のように、ｘ_０（ｔ，ｆ）をノルムが１になるように正規化したベクトルｘ（ｔ，ｆ）を空間特徴量として抽出する。

ただし、｜｜・｜｜は、ベクトルのユークリッドノルム、Ｔはベクトルの非共役転置を表すとする。

また、パワー占有度推定部１４は、パワーパラメータ保存部１３に保存されたニューラルネットワークの重みパラメータを読み出しニューラルネットワークを構成するとともに、各観測位置ｍ、各時間周波数点ｔ，ｆに対応するパワー特徴量Ｘ^（ｍ）（ｔ，ｆ）をパワー特徴量抽出部１１から受け取り、ニューラルネットワークの入力層に入力し、目的音響信号の時間周波数点ごとのパワー占有度φ（ｔ，ｆ）をニューラルネットワークの出力層から得る。

なお、本願では、目的音源はスパース性を有し、各時間周波数点において、目的音響信号は、背景雑音に比して十分に大きなパワーを持つか、背景雑音に比してパワーがほとんど０であるかのどちらかの状態にあるものと仮定する。マスクφ（ｔ，ｆ）は、このうち観測信号が得られた下で、各時間周波数点における信号が前者の状態をとっている事後確率を表し、０以上１以下の値をとるとする。

パワーパラメータ保存部１３は、パワー占有度推定部１４が用いるニューラルネットワークの重みパラメータを保存している。重みパラメータは、多数の観測信号と正解マスクからなる学習データを用いて、ニューラルネットワークを用いた事前学習により得られるものとする。

なお、ニューラルネットワークによるパワー占有度の推定のために、多数の方法が提案されており、パワー占有度推定部１４は、例えば、非特許文献１に記載の方法等を用いて推定を行うことができる。

統合占有度推定部１５は、空間特徴量抽出部１２から各時間周波数点ｔ，ｆにおける空間特徴量ｘ（ｔ，ｆ）を受け取り、パワー占有度推定部１４からパワー占有度φ（ｔ，ｆ）を受け取り、空間パラメータ推定部１６から空間パラメータΘを受け取り、（３）式により統合占有度φ^ＩＮＴ（ｔ，ｆ）の推定値を更新する。

ただし、Θ_ｓ（ｆ）とΘ_ｖ（ｆ）は、空間パラメータΘのうち、周波数ｆにおける目的音響信号の空間特徴量の分布に関するパラメータと雑音信号の空間特徴量の分布に関するパラメータの集合である。ｐ（ｘ（ｔ，ｆ）｜Θ_ｓ（ｆ））は、時間周波数点ｔ，ｆで目的音響信号が雑音に比べて大きなパワーを持つ場合のｘ（ｔ，ｆ）の確率分布を表すものとする。また、ｐ（ｘ（ｔ，ｆ）｜Θ_ｖ（ｆ））は、時間周波数点ｔ，ｆで雑音が目的音響信号に比べて大きなパワーを持つ場合のｘ（ｔ，ｆ）の確率分布を表すものとする。

空間パラメータが与えられた下での空間特徴量の条件付き分布であるｐ（ｘ（ｔ，ｆ）｜Θ_ｓ（ｆ））やｐ（ｘ（ｔ，ｆ）｜Θ_ｖ（ｆ））をモデル化するための分布関数としては、従来から、複素ワトソン分布、複素ビンガム分布、複素角度中心分布等の様々なものが知られている（例えば、参考文献１（D. H. Tran-Vu, and R. Haeb-Umbach, “Blind speech separation employing directional statistics in an expectation maximization framework,” in Proc. IEEE ICASSP-2010, 2010.）、参考文献２（N. Ito, S. Araki, and T. Nakatani, “Modeling audio directional statistics using a complex Bingham mixture model for blind source extraction from diffuse noise,” in Proc. IEEE ICASSP-2016, pp. 465-469, 2016.）、参考文献３（N. Ito, S. Araki, and T. Nakatani, “Complex angular central Gaussian mixture model for directional statistics in mask-based microphone array signal processing,” in Proc. 24th European Signal Processing Conference (EUSIPCO-2016), 2016.）を参照）。

なお、（３）式による統合占有度の推定値の計算は、時間周波数点ｔ，ｆにおいて、空間特徴量、空間パラメータ、パワー占有度が与えられた下で、目的音響信号が背景雑音に比べて大きなパワーを有する事後確率を推定していることに相当する。

また、空間パラメータ推定部１６があらかじめ定められた空間パラメータの初期値等を保持していない場合、統合占有度推定部１５は、推定の初期段階においては、空間パラメータは得られない場合があり、何らかの初期化処理が必要である。このために、例えば、統合占有度φ^ＩＮＴ（ｔ，ｆ）の推定値を、φ^ＩＮＴ（ｔ，ｆ）＝φ（ｔ，ｆ）のように更新するようにすることで、空間パラメータを用いずにφ^ＩＮＴ（ｔ，ｆ）の初期値を定めることができる。

空間パラメータ推定部１６は、空間特徴量抽出部１２から空間特徴量を受け取り、統合占有度推定部１５からマスクの暫定推定値を受け取り、（４−１）式および（４−２）式により、空間パラメータΘを更新する。

（４−１）式は、目的音響信号が雑音信号に比して大きなパワーを有する事後確率が高い時間周波数点で、空間特徴量ｘ（ｔ，ｆ）の尤度を最大にする値として目的音響信号に関する空間パラメータΘ_ｓ（ｆ）を求めることに相当する。また、（４−２）式は、目的音響信号が雑音信号に比して小さなパワーを有する事後確率が高い時間周波数点で、空間特徴量ｘ（ｔ，ｆ）の尤度を最大にする値として雑音信号に関する空間パラメータΘ_ｖ（ｆ）を求めることに相当する。

次に、マスク推定装置１０は、統合占有度推定部１５と空間パラメータ推定部１６の処理を交互に収束するまで繰り返すことで、マスクの暫定推定値φ^ＩＮＴ（ｔ，ｆ）と空間パラメータΘを交互に更新し、その結果得られたマスクの暫定推定値を、マスクの推定値として出力する。

マスク推定装置１０は、例えば、空間パラメータの更新量があらかじめ定められた閾値より小さくなることで収束の判定を行うことができる。もしくは、マスク推定装置１０は、陽に収束判定を行わず、収束に必要な繰り返し数をあらかじめ定めておき、その繰り返し数に達したら繰り返しを終了するという構成をとることもできる。

統合占有度推定部１５および空間パラメータ推定部１６による繰り返し処理は、例えば以下のように行うことができる。統合占有度推定部１５は、空間パラメータ推定部１６によって空間パラメータの推定が行われるたびに、目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した目的音源のマスクを出力し、所定の条件が満たされていない場合、推定した目的音源のマスクをマスクの暫定推定値として空間パラメータ推定部１６に入力する。そして、空間パラメータ推定部１６は、統合占有度推定部１５からマスクの暫定推定値が入力されるたびに、マスクの暫定推定値を基に空間パラメータを推定する。

（第１の実施形態のマスク推定の合理性について）
ここで、第１の実施形態に基づき、マスクを推定する合理性について説明する。まず、Χを全観測位置、全時間周波数点におけるパワー特徴量Ｘ^（ｍ）（ｔ，ｆ）の集合、χを全時間周波数点の空間特徴量ｘ（ｔ，ｆ）の集合とする。すると、空間パラメータΘ、パワーパラメータΞが与えられた下での全特徴量の尤度は、（５）式のように表せる。

ただし、ここでは、Ξはニューラルネットワークの事前学習で得られているものとし、観測信号に対するマスク推定では、Θのみを推定すべきパラメータとして扱っている。

音響信号処理においてしばしば導入される条件付き独立の仮定の下、（５）式は、（６−１）式および（６−２）式のように展開できる。

（６−１）式は、尤度関数を周波数ごとの関数に分解する式である。ただし、Π_ｔは、全時刻にわたる関数の積を表す。一方、（６−２）式において、ｄ（ｎ，ｆ）は、時間周波数点ｔ，ｆにおいてバイナリ値（０か１）をとる確率変数で、ｄ（ｎ，ｆ）＝１は、目的音響信号が雑音信号より大きなパワーを持つ事象を表し、ｄ（ｎ，ｆ）＝０は、雑音信号が目的音響信号より大きなパワーを持つ事象を表す。（６−２）式は、隠れ変数ｄ（ｎ，ｆ）を用いて、上記周波数ごとの尤度関数をさらに、目的音響信号が雑音より大きい場合と小さい場合の尤度関数の和に分解している。なお、ｐ（ｄ（ｎ，ｆ）＝１｜Χ，Ξ）は、パワー占有度推定部１４により推定されるパワー占有度φ（ｔ，ｆ）に相当すること、ｐ（ｄ（ｎ，ｆ）＝０｜Χ，Ξ）＝１−ｐ（ｄ（ｎ，ｆ）＝１｜Χ，Ξ）であることを考慮すると、（６−２）式は、（７）式のようにも書き換えられる。

（６−１）式、（６−２）式および（７）式の尤度関数は、隠れ変数ｄ（ｎ，ｆ）を含む関数であるため、期待値最大化アルゴリズムに従い、空間パラメータΘに関して効率的に尤度関数を最大化することができる。この考え方に基づき導出した方法が、本願の第１の実施形態に対応する。統合占有度推定部１５による処理がその期待値計算処理に相当し、統合占有度推定部１５による処理において計算されるｄ（ｎ，ｆ）の事後確率が、マスクの暫定推定値φ^ＩＮＴ（ｔ，ｆ）に相当する。また、空間パラメータ推定部１６による処理が最大化処理に相当する。したがって、本願の第１の実施形態は、上記の尤度関数を最大化する空間パラメータΘを求めるとともに、隠れ変数ｄ（ｎ，ｆ）の事後確率としてマスクの推定値を求めていることに相当する。

上記の尤度関数の最大化により空間パラメータΘとマスクφ^ＩＮＴ（ｔ，ｆ）を推定する処理においては、ニューラルネットワークが推定するパワー占有度を介して得られる目的音響信号の周波数パターンと、空間パラメータの推定を介して得られる目的音響信号と雑音信号の空間特徴量の分布の違いとの両方の手掛かりを考慮することができる。したがって、信号対雑音比が特別に悪い周波数帯がある場合、もしくは、事前学習したパワーパラメータと観測信号との間にミスマッチがある場合でも、上記のどちらか一方の手掛かりが有効であれば、高精度なマスク推定を実現できる。

（実施例１）
第１の実施形態について、具体例を用いて説明する。ここでは、マスク推定装置１０は、１人の人が話している音声と背景雑音が混在した観測信号をＭ＝２以上のマイクで受け取り、音声を目的音響信号として、マスクを推定するものとする。

また、各時間周波数点において、空間パラメータΘが与えられた下での空間特徴量ｘ（ｔ，ｆ）の条件付き分布を表すｐ（ｘ（ｔ，ｆ）｜Θ_ｓ（ｆ））とｐ（ｘ（ｔ，ｆ）｜Θ_ｖ（ｆ））を、各周波数ｆにおいて、Ｍ次元複素中心角度分布でモデル化するものとする。Ｍ次元複素中心角度分布Ａ（ｘ｜Ｂ）は、その形状パラメータであるＭ×Ｍ次元正定値エルミート行列Ｂにより形状が定められる分布であり、その形状は（８）式で表現される。

ここで、Ｈはベクトルの共役転置を表しｄｅｔＢはＢの行列式を表し、！は階乗計算を表す。この定義に従い、各周波数ｆにおけるｐ（ｘ（ｔ，ｆ）｜Θ_ｓ（ｆ））とｐ（ｘ（ｔ，ｆ）｜Θ_ｖ（ｆ））のモデルパラメータΘ_ｓ（ｆ）とΘ_ｖ（ｆ）は、それぞれ形状パラメータＢ_ｓ（ｆ）とＢ_ｖ（ｆ）で表されるとする。すると、ｐ（ｘ（ｔ，ｆ）｜Θ_ｓ（ｆ））とｐ（ｘ（ｔ，ｆ）｜Θ_ｖ（ｆ））は、それぞれ（９−１）式と（９−２）式のように書き表される。

上記のＭ次元複素中心角度分布を用いる場合、空間パラメータ推定部１６による空間パラメータの更新は、具体的には、（１０−１）式および（１０−２）式のように計算される。

さらに、統合占有度推定部１５によるによる示したマスクの暫定推定値の更新は、具体的には、（１１）式のように計算される。

［第１の実施形態の処理］
図２を用いて、第１の実施形態のマスク推定装置の処理について説明する。図２は、第１の実施形態に係るマスク推定装置の処理の一例を示す図である。まず、図２に示すように、パワー特徴量抽出部１１は、短時間周波数分析した観測信号を取得し（ステップＳ１０１）、各観測位置、各時間周波数点におけるパワー特徴量を求める（ステップＳ１０２）。また、空間特徴量抽出部１２は、短時間周波数分析した観測信号を取得し（ステップＳ１０１）、各時間周波数点における空間特徴量を求める（ステップＳ１０４）。

なお、パワー特徴量抽出部１１による処理（ステップＳ１０１〜Ｓ１０２）と、空間特徴量抽出部１２による処理（ステップＳ１０４）については、いずれかが先に行われてもよいし、並行して行われてもよい。

次に、パワー占有度推定部１４は、パワーパラメータ保存部１３からパワーパラメータを読み出しニューラルネットワークを構成するとともに、パワー特徴量抽出部１１からパワー特徴量を受け取りニューラルネットワークに入力し、その出力としてパワー占有度の推定値を得る（ステップＳ１０３）。

続いて、統合占有度推定部１５は、パワー占有度推定部１４からパワー占有度の推定値を受け取り、空間特徴量抽出部１２から空間特徴量を受け取り、空間パラメータ推定部１６から空間パラメータを受け取り、マスクの暫定推定値を更新する（ステップＳ１０５）。ただし、空間パラメータ推定部１６が空間パラメータを保持していない等の理由で、統合占有度推定部１５が空間パラメータを受け取ることができない場合には、パワー占有度の推定値をマスクの暫定推定値として定める。

次に、空間パラメータ推定部１６は、空間特徴量抽出部１２から空間特徴量を受け取り、統合占有度推定部１５からマスクの暫定推定値を受け取り、空間パラメータを推定する（ステップＳ１０６）。

続いて、統合占有度推定部１５は、収束の判定を行い、収束が確認できた場合は（ステップＳ１０７、Ｙｅｓ）、マスクの暫定推定値をマスクの推定値として出力する（ステップＳ１０８）。一方、収束が確認できなかった場合には（ステップＳ１０７、Ｎｏ）、マスク推定装置１０は、ステップＳ１０５に戻り、処理を続ける。

マスク推定装置１０は、例えば、１回の繰り返し処理により空間パラメータが更新された量が、閾値以下かどうかを調べることでステップＳ１０７の収束判定を実現できる。もしくは、マスク推定装置１０は、あらかじめ繰り返し数を決めておき、その回数に達したら収束すると仮定し、処理を終了するという構成をとることもできる。

［第１の実施形態の効果］
パワー占有度推定部１４は、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、目的音響信号が観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定する。空間パラメータ推定部１６は、観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する。統合占有度推定部１５は、パワー占有度の推定値および空間パラメータの推定値に基づき目的音源のマスクを推定する。これにより、事前学習したパワーパラメータと観測信号との間にミスマッチがある場合でも、空間パラメータの推定値に基づき目的音響信号と雑音信号の特徴量をより精度よく区別することで高精度なマスク推定を実現できる。また、信号対雑音比が特別に悪い周波数帯がある場合でも、パワー特徴量に基づき目的音響信号の周波数パターンを考慮することで、高精度なマスク推定が可能になる。

また、統合占有度推定部１５は、空間パラメータ推定部１６によって空間パラメータの推定が行われるたびに、目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した目的音源のマスクを出力し、所定の条件が満たされていない場合、推定した目的音源のマスクをマスクの暫定推定値として空間パラメータ推定部１６に入力することができる。このとき、空間パラメータ推定部１６は、統合占有度推定部１５からマスクの暫定推定値が入力されるたびに、マスクの暫定推定値を基に空間パラメータをさらに推定する。このように、マスクの推定値および空間パラメータの推定値を、収束するまで繰り返し更新することで、より高精度なマスク推定が可能となる。

（確認実験１）
ここで、本発明の効果を確認するために、従来の方法および第１の実施形態を用いた確認実験について説明する。確認実験１では、バスの中、カフェ等の背景雑音の存在する環境下において、１人の話者がタブレットに向かって文章を読み上げている状況で、タブレットに装着されたＭ＝６個のマイクで信号を収録した。このとき、収録した信号に対して、各方法を用いてマスク推定を行った後、非特許文献２に記載の方法で、雑音抑圧、音声認識を行った場合の音声認識精度は下記の通りであった。下記の結果より、第１の実施形態を適用することで、音声認識精度が向上することが確認できた。
（１）そのまま音声認識をした場合：８７．１１（％）
（２）従来のマスク推定装置２０を用いた場合：９３．５２（％）
（３）従来のマスク推定装置３０を用いた場合：９３．１６（％）
（４）第１の実施形態のマスク推定装置１０を用いた場合：９３．９７（％）

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、マスク推定装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスクの推定を実行するマスク推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク推定プログラムを情報処理装置に実行させることにより、情報処理装置をマスク推定装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、マスク推定装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のマスクの推定に関するサービスを提供するマスク推定サーバ装置として実装することもできる。例えば、マスク推定サーバ装置は、観測信号を入力とし、マスクを出力とするマスク推定サービスを提供するサーバ装置として実装される。この場合、マスク推定サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記のマスクの推定に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図５は、プログラムが実行されることによりマスク推定装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、マスク推定装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、マスク推定装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３およびプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３およびプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０マスク推定装置
１１パワー特徴量抽出部
１２空間特徴量抽出部
１３パワーパラメータ保存部
１４パワー占有度推定部
１５統合占有度推定部
１６空間パラメータ推定部

Claims

目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定部と、
前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定部と、
前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定部と、
を有することを特徴とするマスク推定装置。
前記統合占有度推定部は、前記空間パラメータ推定部によって前記空間パラメータの推定が行われるたびに、前記目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した前記目的音源のマスクを出力し、前記所定の条件が満たされていない場合、推定した前記目的音源のマスクをマスクの暫定推定値として前記空間パラメータ推定部に入力し、
前記空間パラメータ推定部は、前記統合占有度推定部から前記マスクの暫定推定値が入力されるたびに、前記マスクの暫定推定値を基に前記空間パラメータを推定することを特徴とする請求項１に記載のマスク推定装置。
マスク推定装置で実行されるマスク推定方法であって、
目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定工程と、
前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定工程と、
前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定工程と、
を含んだことを特徴とするマスク推定方法。
前記統合占有度推定工程は、前記空間パラメータ推定工程によって前記空間パラメータの推定が行われるたびに、前記目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した前記目的音源のマスクを出力し、前記所定の条件が満たされていない場合、推定した前記目的音源のマスクをマスクの暫定推定値として前記空間パラメータ推定工程に入力し、
前記空間パラメータ推定工程は、前記統合占有度推定工程から前記マスクの暫定推定値が入力されるたびに、前記マスクの暫定推定値を基に前記空間パラメータをさらに推定することを特徴とする請求項３に記載のマスク推定方法。
コンピュータを、請求項１または２に記載のマスク推定装置として機能させるためのマスク推定プログラム。