JP2018146610A - マスク推定装置、マスク推定方法およびマスク推定プログラム - Google Patents

マスク推定装置、マスク推定方法およびマスク推定プログラム Download PDF

Info

Publication number
JP2018146610A
JP2018146610A JP2017038166A JP2017038166A JP2018146610A JP 2018146610 A JP2018146610 A JP 2018146610A JP 2017038166 A JP2017038166 A JP 2017038166A JP 2017038166 A JP2017038166 A JP 2017038166A JP 2018146610 A JP2018146610 A JP 2018146610A
Authority
JP
Japan
Prior art keywords
mask
estimation
power
spatial
spatial parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017038166A
Other languages
English (en)
Other versions
JP6636973B2 (ja
Inventor
中谷 智広
Tomohiro Nakatani
智広 中谷
信貴 伊藤
Nobutaka Ito
信貴 伊藤
卓哉 樋口
Takuya Higuchi
卓哉 樋口
荒木 章子
Akiko Araki
章子 荒木
慶介 木下
Keisuke Kinoshita
慶介 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017038166A priority Critical patent/JP6636973B2/ja
Publication of JP2018146610A publication Critical patent/JP2018146610A/ja
Application granted granted Critical
Publication of JP6636973B2 publication Critical patent/JP6636973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】高精度なマスク推定を行う。【解決手段】パワー占有度推定部14は、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、目的音響信号が観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定する。空間パラメータ推定部16は、観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する。統合占有度推定部15は、パワー占有度の推定値および空間パラメータの推定値に基づき目的音源のマスクを推定する。【選択図】図1

Description

本発明は、マスク推定装置、マスク推定方法およびマスク推定プログラムに関する。
目的音源から出た目的音響信号と背景雑音による雑音信号とが混在する状況において、複数のマイクロホンで収音された観測信号からマスクを推定する方法は、従来から提案されている。
なお、マスクとは、観測信号の各時間周波数点において、目的音響信号がどの程度含まれているかの割合のことである。マスクは、雑音信号が混在した観測信号から、目的音響信号の自己相関、およびマイクロホン間の相互相関を推定することや、さらには、観測信号から目的音響信号のみを取り出すビームフォーマを設計すること等に用いられる。
ここで、図3を用いて、従来のマスク推定装置20について説明する。図3は、従来のマスク推定装置の構成を示す図である。図3に示すように、まず、パワー特徴量抽出部21は、観測信号から時間周波数点ごとの信号のパワー特徴量を抽出する。一方、パワーパラメータ保存部22には、パワー特徴量を入力として受け取り、マスクの推定値を出力するように事前学習したニューラルネットワークの結合重みを、パワーパラメータとして保存してある。そして、パワー占有度推定部23は、パワーパラメータ保存部22から読みだしたパワーパラメータを用いてニューラルネットワークを構成し、パワー特徴量抽出部21から受け取ったパワー特徴量をニューラルネットワークに入力し、その出力としてマスクの推定値を得る。マスク推定装置20によれば、ニューラルネットワークを用いることにより、目的音響信号の全周波数にわたる周波数パターンと連続した時間にわたる時間パターンを考慮したマスク推定ができる。
また、図4を用いて、従来のマスク推定装置30について説明する。図4は、従来のマスク推定装置の構成を示す図である。図4に示すように、まず、空間特徴量抽出部31は、観測信号から時間周波数点ごとの空間特徴量を抽出する。そして、空間占有度推定部32は、空間特徴量を受け取るとともに、空間パラメータ推定部33から空間パラメータを受け取り、各時間周波数点において目的音響信号が空間を占有している度合をマスクの暫定推定値として求める。一方、空間パラメータ推定部33は、事前に定められた空間パラメータを初期値として記憶しているとともに、空間特徴量抽出部31から空間特徴量を受け取り、空間占有度推定部32からマスクの暫定推定値を受け取ると、空間パラメータを更新する。そして、上記の空間占有度推定部32による処理と空間パラメータ推定部33による処理を交互に収束するまで繰り返し、その結果として得られたマスクの暫定推定値を最終的なマスクの推定値とするマスク推定装置30を構成する。
J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural networkbased spectral mask estimation for acoustic beamforming," in Proc. IEEE ICASSP-2016, pp. 196-200, 2016. T. Higuchi, N. Ito, T. Yoshioka and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," in Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016.
しかしながら、従来の技術には、高精度なマスク推定を行うことができない場合があるという問題があった。例えば、従来のマスク推定装置20では、ニューラルネットワークの重みを事前学習する際に用いた観測信号の収録条件と、マスクを推定したい観測信号の収録条件が異なる場合、マスクの推定精度が下がる場合があるという問題があった。
観測信号の音響的な性質は、雑音の種類や、目的音源からマイクまでの音響伝達特性、目的音響信号の性質等、様々な収録条件に影響を受けている。事前学習時と、マスク推定時の間で、これらの収録条件に違いがあると、その度合いに応じて、ニューラルネットワークによるマスク推定の精度が低下する。また、ニューラルネットワークの事前学習に、多様な収録条件に対応する学習データを用いることができたとしても、その多様性が増すにつれて、ニューラルネットワークはより複雑な非線形変換を学習しなければならなくなるため、精度の高い学習が困難になるという問題がある。このため、従来のマスク推定装置20は、限定的な収録条件のみでしか、高精度なマスク推定を行うことができなかった。
また、例えば、従来のマスク推定装置30では、周波数帯域ごとに、独立に、空間パラメータを推定してマスクを推定するため、信号対雑音比が特別に悪い周波数帯があると、その周波数における目的音響信号の空間パラメータの推定精度が低下し、その結果、マスク推定の精度も低下する場合があるという問題があった。
本発明のマスク推定装置は、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定部と、前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定部と、前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定部と、を有することを特徴とする。
本発明のマスク推定方法は、マスク推定装置で実行されるマスク推定方法であって、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定工程と、前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定工程と、前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定工程と、を含んだことを特徴とする。
本発明によれば、高精度なマスク推定を行うことができるようになる。
図1は、第1の実施形態に係るマスク推定装置の構成の一例を示す図である。 図2は、第1の実施形態に係るマスク推定装置の処理の一例を示す図である。 図3は、従来のマスク推定装置の構成を示す図である。 図4は、従来のマスク推定装置の構成を示す図である。 図5は、プログラムが実行されることによりマスク推定装置が実現されるコンピュータの一例を示す図である。
以下に、本願に係るマスク推定装置、マスク推定方法およびマスク推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本発明が限定されるものではない。
[第1の実施形態]
まず、第1の実施形態に係るマスク推定装置の構成、処理の流れおよび効果を説明する。なお、第1の実施形態においては、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に短時間周波数分析を適用して得られる時間周波数信号x(m)(t,f) がマスク推定装置に入力されるものとする。ただし、mは観測位置の番号、tとfは、時間周波数点の時間と周波数の番号を表す。
[第1の実施形態の構成]
図1を用いて、第1の実施形態の構成について説明する。図1は、第1の実施形態に係るマスク推定装置の構成の一例を示す図である。図1に示すように、マスク推定装置10は、パワー特徴量抽出部11、空間特徴量抽出部12、パワーパラメータ保存部13、パワー占有度推定部14、統合占有度推定部15、空間パラメータ推定部16を有する。
まず、マスク推定装置の各部の処理について説明する。パワー特徴量抽出部11は、入力された観測信号に基づいてパワー特徴量を計算する。例えば、パワー特徴量抽出部11は、各観測信号に対応する時間周波数信号x(m)(t,f)を受け取り、(1)式のように、その対数パワーをパワー特徴量X(m)(t,f)として抽出する。
Figure 2018146610
一方、空間特徴量抽出部12は、入力された観測信号に基づいて空間特徴量を計算する。例えば、空間特徴量抽出部12は、(2−1)式のように、各観測信号に対応する時間周波数信号x(m)(t,f)に基づき、各時間周波数点で、x(m)(t,f)(m=1〜M)を成分とするM次元縦ベクトルx(t,f)を構成し、(2−2)式のように、x(t,f)をノルムが1になるように正規化したベクトルx(t,f)を空間特徴量として抽出する。
Figure 2018146610
ただし、||・||は、ベクトルのユークリッドノルム、Tはベクトルの非共役転置を表すとする。
また、パワー占有度推定部14は、パワーパラメータ保存部13に保存されたニューラルネットワークの重みパラメータを読み出しニューラルネットワークを構成するとともに、各観測位置m、各時間周波数点t,fに対応するパワー特徴量X(m)(t,f)をパワー特徴量抽出部11から受け取り、ニューラルネットワークの入力層に入力し、目的音響信号の時間周波数点ごとのパワー占有度φ(t,f)をニューラルネットワークの出力層から得る。
なお、本願では、目的音源はスパース性を有し、各時間周波数点において、目的音響信号は、背景雑音に比して十分に大きなパワーを持つか、背景雑音に比してパワーがほとんど0であるかのどちらかの状態にあるものと仮定する。マスクφ(t,f)は、このうち観測信号が得られた下で、各時間周波数点における信号が前者の状態をとっている事後確率を表し、0以上1以下の値をとるとする。
パワーパラメータ保存部13は、パワー占有度推定部14が用いるニューラルネットワークの重みパラメータを保存している。重みパラメータは、多数の観測信号と正解マスクからなる学習データを用いて、ニューラルネットワークを用いた事前学習により得られるものとする。
なお、ニューラルネットワークによるパワー占有度の推定のために、多数の方法が提案されており、パワー占有度推定部14は、例えば、非特許文献1に記載の方法等を用いて推定を行うことができる。
統合占有度推定部15は、空間特徴量抽出部12から各時間周波数点t,fにおける空間特徴量x(t,f)を受け取り、パワー占有度推定部14からパワー占有度φ(t,f)を受け取り、空間パラメータ推定部16から空間パラメータΘを受け取り、(3)式により統合占有度φINT(t,f)の推定値を更新する。
Figure 2018146610
ただし、Θ(f)とΘ(f)は、空間パラメータΘのうち、周波数fにおける目的音響信号の空間特徴量の分布に関するパラメータと雑音信号の空間特徴量の分布に関するパラメータの集合である。p(x(t,f)|Θ(f))は、時間周波数点t,fで目的音響信号が雑音に比べて大きなパワーを持つ場合のx(t,f)の確率分布を表すものとする。また、p(x(t,f)|Θ(f))は、時間周波数点t,fで雑音が目的音響信号に比べて大きなパワーを持つ場合のx(t,f)の確率分布を表すものとする。
空間パラメータが与えられた下での空間特徴量の条件付き分布であるp(x(t,f)|Θ(f))やp(x(t,f)|Θ(f))をモデル化するための分布関数としては、従来から、複素ワトソン分布、複素ビンガム分布、複素角度中心分布等の様々なものが知られている(例えば、参考文献1(D. H. Tran-Vu, and R. Haeb-Umbach, “Blind speech separation employing directional statistics in an expectation maximization framework,” in Proc. IEEE ICASSP-2010, 2010.)、参考文献2(N. Ito, S. Araki, and T. Nakatani, “Modeling audio directional statistics using a complex Bingham mixture model for blind source extraction from diffuse noise,” in Proc. IEEE ICASSP-2016, pp. 465-469, 2016.)、参考文献3(N. Ito, S. Araki, and T. Nakatani, “Complex angular central Gaussian mixture model for directional statistics in mask-based microphone array signal processing,” in Proc. 24th European Signal Processing Conference (EUSIPCO-2016), 2016.)を参照)。
なお、(3)式による統合占有度の推定値の計算は、時間周波数点t,fにおいて、空間特徴量、空間パラメータ、パワー占有度が与えられた下で、目的音響信号が背景雑音に比べて大きなパワーを有する事後確率を推定していることに相当する。
また、空間パラメータ推定部16があらかじめ定められた空間パラメータの初期値等を保持していない場合、統合占有度推定部15は、推定の初期段階においては、空間パラメータは得られない場合があり、何らかの初期化処理が必要である。このために、例えば、統合占有度φINT(t,f)の推定値を、φINT(t,f)=φ(t,f)のように更新するようにすることで、空間パラメータを用いずにφINT(t,f)の初期値を定めることができる。
空間パラメータ推定部16は、空間特徴量抽出部12から空間特徴量を受け取り、統合占有度推定部15からマスクの暫定推定値を受け取り、(4−1)式および(4−2)式により、空間パラメータΘを更新する。
Figure 2018146610
(4−1)式は、目的音響信号が雑音信号に比して大きなパワーを有する事後確率が高い時間周波数点で、空間特徴量x(t,f)の尤度を最大にする値として目的音響信号に関する空間パラメータΘ(f)を求めることに相当する。また、(4−2)式は、目的音響信号が雑音信号に比して小さなパワーを有する事後確率が高い時間周波数点で、空間特徴量x(t,f)の尤度を最大にする値として雑音信号に関する空間パラメータΘ(f)を求めることに相当する。
次に、マスク推定装置10は、統合占有度推定部15と空間パラメータ推定部16の処理を交互に収束するまで繰り返すことで、マスクの暫定推定値φINT(t,f)と空間パラメータΘを交互に更新し、その結果得られたマスクの暫定推定値を、マスクの推定値として出力する。
マスク推定装置10は、例えば、空間パラメータの更新量があらかじめ定められた閾値より小さくなることで収束の判定を行うことができる。もしくは、マスク推定装置10は、陽に収束判定を行わず、収束に必要な繰り返し数をあらかじめ定めておき、その繰り返し数に達したら繰り返しを終了するという構成をとることもできる。
統合占有度推定部15および空間パラメータ推定部16による繰り返し処理は、例えば以下のように行うことができる。統合占有度推定部15は、空間パラメータ推定部16によって空間パラメータの推定が行われるたびに、目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した目的音源のマスクを出力し、所定の条件が満たされていない場合、推定した目的音源のマスクをマスクの暫定推定値として空間パラメータ推定部16に入力する。そして、空間パラメータ推定部16は、統合占有度推定部15からマスクの暫定推定値が入力されるたびに、マスクの暫定推定値を基に空間パラメータを推定する。
(第1の実施形態のマスク推定の合理性について)
ここで、第1の実施形態に基づき、マスクを推定する合理性について説明する。まず、Χを全観測位置、全時間周波数点におけるパワー特徴量X(m)(t,f)の集合、χを全時間周波数点の空間特徴量x(t,f)の集合とする。すると、空間パラメータΘ、パワーパラメータΞが与えられた下での全特徴量の尤度は、(5)式のように表せる。
Figure 2018146610
ただし、ここでは、Ξはニューラルネットワークの事前学習で得られているものとし、観測信号に対するマスク推定では、Θのみを推定すべきパラメータとして扱っている。
音響信号処理においてしばしば導入される条件付き独立の仮定の下、(5)式は、(6−1)式および(6−2)式のように展開できる。
Figure 2018146610
(6−1)式は、尤度関数を周波数ごとの関数に分解する式である。ただし、Πは、全時刻にわたる関数の積を表す。一方、(6−2)式において、d(n,f)は、時間周波数点t,fにおいてバイナリ値(0か1)をとる確率変数で、d(n,f)=1は、目的音響信号が雑音信号より大きなパワーを持つ事象を表し、d(n,f)=0は、雑音信号が目的音響信号より大きなパワーを持つ事象を表す。(6−2)式は、隠れ変数d(n,f)を用いて、上記周波数ごとの尤度関数をさらに、目的音響信号が雑音より大きい場合と小さい場合の尤度関数の和に分解している。なお、p(d(n,f)=1|Χ,Ξ)は、パワー占有度推定部14により推定されるパワー占有度φ(t,f)に相当すること、p(d(n,f)=0|Χ,Ξ)=1−p(d(n,f)=1|Χ,Ξ)であることを考慮すると、(6−2)式は、(7)式のようにも書き換えられる。
Figure 2018146610
(6−1)式、(6−2)式および(7)式の尤度関数は、隠れ変数d(n,f)を含む関数であるため、期待値最大化アルゴリズムに従い、空間パラメータΘに関して効率的に尤度関数を最大化することができる。この考え方に基づき導出した方法が、本願の第1の実施形態に対応する。統合占有度推定部15による処理がその期待値計算処理に相当し、統合占有度推定部15による処理において計算されるd(n,f)の事後確率が、マスクの暫定推定値φINT(t,f)に相当する。また、空間パラメータ推定部16による処理が最大化処理に相当する。したがって、本願の第1の実施形態は、上記の尤度関数を最大化する空間パラメータΘを求めるとともに、隠れ変数d(n,f)の事後確率としてマスクの推定値を求めていることに相当する。
上記の尤度関数の最大化により空間パラメータΘとマスクφINT(t,f)を推定する処理においては、ニューラルネットワークが推定するパワー占有度を介して得られる目的音響信号の周波数パターンと、空間パラメータの推定を介して得られる目的音響信号と雑音信号の空間特徴量の分布の違いとの両方の手掛かりを考慮することができる。したがって、信号対雑音比が特別に悪い周波数帯がある場合、もしくは、事前学習したパワーパラメータと観測信号との間にミスマッチがある場合でも、上記のどちらか一方の手掛かりが有効であれば、高精度なマスク推定を実現できる。
(実施例1)
第1の実施形態について、具体例を用いて説明する。ここでは、マスク推定装置10は、1人の人が話している音声と背景雑音が混在した観測信号をM=2以上のマイクで受け取り、音声を目的音響信号として、マスクを推定するものとする。
また、各時間周波数点において、空間パラメータΘが与えられた下での空間特徴量x(t,f)の条件付き分布を表すp(x(t,f)|Θ(f))とp(x(t,f)|Θ(f))を、各周波数fにおいて、M次元複素中心角度分布でモデル化するものとする。M次元複素中心角度分布A(x|B)は、その形状パラメータであるM×M次元正定値エルミート行列Bにより形状が定められる分布であり、その形状は(8)式で表現される。
Figure 2018146610
ここで、Hはベクトルの共役転置を表しdetBはBの行列式を表し、!は階乗計算を表す。この定義に従い、各周波数fにおけるp(x(t,f)|Θ(f))とp(x(t,f)|Θ(f))のモデルパラメータΘ(f)とΘ(f)は、それぞれ形状パラメータB(f)とB(f)で表されるとする。すると、p(x(t,f)|Θ(f))とp(x(t,f)|Θ(f))は、それぞれ(9−1)式と(9−2)式のように書き表される。
Figure 2018146610
上記のM次元複素中心角度分布を用いる場合、空間パラメータ推定部16による空間パラメータの更新は、具体的には、(10−1)式および(10−2)式のように計算される。
Figure 2018146610
さらに、統合占有度推定部15によるによる示したマスクの暫定推定値の更新は、具体的には、(11)式のように計算される。
Figure 2018146610
[第1の実施形態の処理]
図2を用いて、第1の実施形態のマスク推定装置の処理について説明する。図2は、第1の実施形態に係るマスク推定装置の処理の一例を示す図である。まず、図2に示すように、パワー特徴量抽出部11は、短時間周波数分析した観測信号を取得し(ステップS101)、各観測位置、各時間周波数点におけるパワー特徴量を求める(ステップS102)。また、空間特徴量抽出部12は、短時間周波数分析した観測信号を取得し(ステップS101)、各時間周波数点における空間特徴量を求める(ステップS104)。
なお、パワー特徴量抽出部11による処理(ステップS101〜S102)と、空間特徴量抽出部12による処理(ステップS104)については、いずれかが先に行われてもよいし、並行して行われてもよい。
次に、パワー占有度推定部14は、パワーパラメータ保存部13からパワーパラメータを読み出しニューラルネットワークを構成するとともに、パワー特徴量抽出部11からパワー特徴量を受け取りニューラルネットワークに入力し、その出力としてパワー占有度の推定値を得る(ステップS103)。
続いて、統合占有度推定部15は、パワー占有度推定部14からパワー占有度の推定値を受け取り、空間特徴量抽出部12から空間特徴量を受け取り、空間パラメータ推定部16から空間パラメータを受け取り、マスクの暫定推定値を更新する(ステップS105)。ただし、空間パラメータ推定部16が空間パラメータを保持していない等の理由で、統合占有度推定部15が空間パラメータを受け取ることができない場合には、パワー占有度の推定値をマスクの暫定推定値として定める。
次に、空間パラメータ推定部16は、空間特徴量抽出部12から空間特徴量を受け取り、統合占有度推定部15からマスクの暫定推定値を受け取り、空間パラメータを推定する(ステップS106)。
続いて、統合占有度推定部15は、収束の判定を行い、収束が確認できた場合は(ステップS107、Yes)、マスクの暫定推定値をマスクの推定値として出力する(ステップS108)。一方、収束が確認できなかった場合には(ステップS107、No)、マスク推定装置10は、ステップS105に戻り、処理を続ける。
マスク推定装置10は、例えば、1回の繰り返し処理により空間パラメータが更新された量が、閾値以下かどうかを調べることでステップS107の収束判定を実現できる。もしくは、マスク推定装置10は、あらかじめ繰り返し数を決めておき、その回数に達したら収束すると仮定し、処理を終了するという構成をとることもできる。
[第1の実施形態の効果]
パワー占有度推定部14は、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、目的音響信号が観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定する。空間パラメータ推定部16は、観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する。統合占有度推定部15は、パワー占有度の推定値および空間パラメータの推定値に基づき目的音源のマスクを推定する。これにより、事前学習したパワーパラメータと観測信号との間にミスマッチがある場合でも、空間パラメータの推定値に基づき目的音響信号と雑音信号の特徴量をより精度よく区別することで高精度なマスク推定を実現できる。また、信号対雑音比が特別に悪い周波数帯がある場合でも、パワー特徴量に基づき目的音響信号の周波数パターンを考慮することで、高精度なマスク推定が可能になる。
また、統合占有度推定部15は、空間パラメータ推定部16によって空間パラメータの推定が行われるたびに、目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した目的音源のマスクを出力し、所定の条件が満たされていない場合、推定した目的音源のマスクをマスクの暫定推定値として空間パラメータ推定部16に入力することができる。このとき、空間パラメータ推定部16は、統合占有度推定部15からマスクの暫定推定値が入力されるたびに、マスクの暫定推定値を基に空間パラメータをさらに推定する。このように、マスクの推定値および空間パラメータの推定値を、収束するまで繰り返し更新することで、より高精度なマスク推定が可能となる。
(確認実験1)
ここで、本発明の効果を確認するために、従来の方法および第1の実施形態を用いた確認実験について説明する。確認実験1では、バスの中、カフェ等の背景雑音の存在する環境下において、1人の話者がタブレットに向かって文章を読み上げている状況で、タブレットに装着されたM=6個のマイクで信号を収録した。このとき、収録した信号に対して、各方法を用いてマスク推定を行った後、非特許文献2に記載の方法で、雑音抑圧、音声認識を行った場合の音声認識精度は下記の通りであった。下記の結果より、第1の実施形態を適用することで、音声認識精度が向上することが確認できた。
(1)そのまま音声認識をした場合:87.11(%)
(2)従来のマスク推定装置20を用いた場合:93.52(%)
(3)従来のマスク推定装置30を用いた場合:93.16(%)
(4)第1の実施形態のマスク推定装置10を用いた場合:93.97(%)
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、マスク推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスクの推定を実行するマスク推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク推定プログラムを情報処理装置に実行させることにより、情報処理装置をマスク推定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、マスク推定装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のマスクの推定に関するサービスを提供するマスク推定サーバ装置として実装することもできる。例えば、マスク推定サーバ装置は、観測信号を入力とし、マスクを出力とするマスク推定サービスを提供するサーバ装置として実装される。この場合、マスク推定サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記のマスクの推定に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図5は、プログラムが実行されることによりマスク推定装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、マスク推定装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、マスク推定装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 マスク推定装置
11 パワー特徴量抽出部
12 空間特徴量抽出部
13 パワーパラメータ保存部
14 パワー占有度推定部
15 統合占有度推定部
16 空間パラメータ推定部

Claims (5)

  1. 目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定部と、
    前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定部と、
    前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定部と、
    を有することを特徴とするマスク推定装置。
  2. 前記統合占有度推定部は、前記空間パラメータ推定部によって前記空間パラメータの推定が行われるたびに、前記目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した前記目的音源のマスクを出力し、前記所定の条件が満たされていない場合、推定した前記目的音源のマスクをマスクの暫定推定値として前記空間パラメータ推定部に入力し、
    前記空間パラメータ推定部は、前記統合占有度推定部から前記マスクの暫定推定値が入力されるたびに、前記マスクの暫定推定値を基に前記空間パラメータを推定することを特徴とする請求項1に記載のマスク推定装置。
  3. マスク推定装置で実行されるマスク推定方法であって、
    目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定工程と、
    前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定工程と、
    前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定工程と、
    を含んだことを特徴とするマスク推定方法。
  4. 前記統合占有度推定工程は、前記空間パラメータ推定工程によって前記空間パラメータの推定が行われるたびに、前記目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した前記目的音源のマスクを出力し、前記所定の条件が満たされていない場合、推定した前記目的音源のマスクをマスクの暫定推定値として前記空間パラメータ推定工程に入力し、
    前記空間パラメータ推定工程は、前記統合占有度推定工程から前記マスクの暫定推定値が入力されるたびに、前記マスクの暫定推定値を基に前記空間パラメータをさらに推定することを特徴とする請求項3に記載のマスク推定方法。
  5. コンピュータを、請求項1または2に記載のマスク推定装置として機能させるためのマスク推定プログラム。
JP2017038166A 2017-03-01 2017-03-01 マスク推定装置、マスク推定方法およびマスク推定プログラム Active JP6636973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017038166A JP6636973B2 (ja) 2017-03-01 2017-03-01 マスク推定装置、マスク推定方法およびマスク推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017038166A JP6636973B2 (ja) 2017-03-01 2017-03-01 マスク推定装置、マスク推定方法およびマスク推定プログラム

Publications (2)

Publication Number Publication Date
JP2018146610A true JP2018146610A (ja) 2018-09-20
JP6636973B2 JP6636973B2 (ja) 2020-01-29

Family

ID=63591144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017038166A Active JP6636973B2 (ja) 2017-03-01 2017-03-01 マスク推定装置、マスク推定方法およびマスク推定プログラム

Country Status (1)

Country Link
JP (1) JP6636973B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11395061B2 (en) 2019-08-30 2022-07-19 Kabushiki Kaisha Toshiba Signal processing apparatus and signal processing method
CN116070796A (zh) * 2023-03-29 2023-05-05 中国科学技术大学 柴油车排放等级评估方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010187066A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
JP2013054258A (ja) * 2011-09-06 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置とその方法とプログラム
JP2017520803A (ja) * 2014-10-21 2017-07-27 三菱電機株式会社 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010187066A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
JP2013054258A (ja) * 2011-09-06 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置とその方法とプログラム
JP2017520803A (ja) * 2014-10-21 2017-07-27 三菱電機株式会社 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAHN HEYMANN, ET AL.: "NEURAL NETWORK BASED SPECTRAL MASK ESTIMATION FOR ACOUSTIC BEAMFORMING", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), JPN6019049179, March 2016 (2016-03-01), pages 196 - 200, XP032900590, ISSN: 0004175355, DOI: 10.1109/ICASSP.2016.7471664 *
中谷 智広, 外6名: "NTT CHiME-3 音声認識システム:耐雑音フロントエンド", 日本音響学会 2016年春季研究発表会講演論文集CD−ROM, JPN6019049177, March 2016 (2016-03-01), pages 57 - 60, ISSN: 0004175354 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11395061B2 (en) 2019-08-30 2022-07-19 Kabushiki Kaisha Toshiba Signal processing apparatus and signal processing method
CN116070796A (zh) * 2023-03-29 2023-05-05 中国科学技术大学 柴油车排放等级评估方法及系统

Also Published As

Publication number Publication date
JP6636973B2 (ja) 2020-01-29

Similar Documents

Publication Publication Date Title
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6992709B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
CN108417224B (zh) 双向神经网络模型的训练和识别方法及系统
US11456003B2 (en) Estimation device, learning device, estimation method, learning method, and recording medium
JP6535112B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6987378B2 (ja) ニューラルネットワークの学習方法及びコンピュータプログラム
JP6652519B2 (ja) ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
CN108417207A (zh) 一种深度混合生成网络自适应方法及系统
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
US8515096B2 (en) Incorporating prior knowledge into independent component analysis
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
JP2019105681A (ja) 推定装置、推定方法および推定プログラム
CN113808606B (zh) 语音信号处理方法和装置
WO2023013081A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム
JP6915579B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
Bouziane et al. Probabilistic Self-Organizing Maps for Text-Independent Speaker Identification
JP2023025457A (ja) 信号解析装置、信号解析方法、及び信号解析プログラム
JP2023039288A (ja) 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法、音源分離方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191219

R150 Certificate of patent or registration of utility model

Ref document number: 6636973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150