JP6517760B2 - マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム - Google Patents

マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム Download PDF

Info

Publication number
JP6517760B2
JP6517760B2 JP2016160668A JP2016160668A JP6517760B2 JP 6517760 B2 JP6517760 B2 JP 6517760B2 JP 2016160668 A JP2016160668 A JP 2016160668A JP 2016160668 A JP2016160668 A JP 2016160668A JP 6517760 B2 JP6517760 B2 JP 6517760B2
Authority
JP
Japan
Prior art keywords
mask
estimation
parameter
unit
mask estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016160668A
Other languages
English (en)
Other versions
JP2018028618A (ja
Inventor
卓哉 樋口
卓哉 樋口
拓也 吉岡
拓也 吉岡
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016160668A priority Critical patent/JP6517760B2/ja
Publication of JP2018028618A publication Critical patent/JP2018028618A/ja
Application granted granted Critical
Publication of JP6517760B2 publication Critical patent/JP6517760B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラムに関する。
従来、環境に適応しながら音声認識を行う手法として、音声認識の前段処理として音声強調を行う手法(例えば非特許文献1を参照)や、音声認識器そのものを環境に適応させる手法(例えば非特許文献2を参照)が知られている。
N. Ito, S. Araki, T. Yoshioka, and T. Nakatani, "Relaxed disjointness based clustering for joint blind source separation and dereverberation," in Proc. Int. Worksh. Acoust. Echo, Noise Contr., pp. 268‐272, 2014. D. Yu and L. Deng, "Automatic speech recognition: a deep learning approach," Springer, 2015. T. Yoshioka, N. Ito, M. Delcroix, A. Ogawa, K. Kinoshita, M. Fujimoto, C. Yu, W. J. Fabian, M. Espi, T. Higuchi, S. Araki, and T. Nakatani, "The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi-microphone devices," in Proc. Worksh. Automat. Speech Recognition, Understanding, 2015, pp.436‐443.
しかしながら、従来の環境に適応しながら音声認識を行う手法には、音声認識の精度を向上させるためには、大量の学習データが必要になる場合があるという問題があった。例えば、非特許文献2に記載された手法では、音声認識器のパラメータを環境に適応させることで音声認識の精度を向上させている。ここで、音声認識器は線形演算や非線形演算を複数回行うことで音素状態事後確率を計算するため、多くのパラメータによって構成されているため、全てのパラメータを環境に適応させるためには、大量の学習データが必要になる場合がある。
本発明のマスク推定用パラメータ推定装置は、目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号(ただし、Nは2以上の整数)と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号(ただし、Mは2以上の整数)のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記N個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定部と、前記観測ベクトルと前記第1の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調部と、学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識部と、前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定部と、を有することを特徴とする。
また、本発明のマスク推定用パラメータ推定方法は、マスク推定用パラメータ推定装置で実行されるマスク推定用パラメータ推定方法であって、目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記N個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定工程と、前記観測ベクトルと前記第1の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調工程と、学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識工程と、前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定工程と、を含んだことを特徴とする。
本発明によれば、環境に適応しながら音声認識を行う際に、限られた学習データで音声認識の精度を向上させることができる。
図1は、第1の実施形態に係るマスク推定用パラメータ推定装置の構成の一例を示す図である。 図2は、第1の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の構成の一例を示す図である。 図3は、第1の実施形態に係るマスク推定用パラメータ推定装置の処理の流れを示すフローチャートである。 図4は、第1の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の処理の流れを示すフローチャートである。 図5は、プログラムが実行されることによりマスク推定用パラメータ推定装置が実現されるコンピュータの一例を示す図である。
以下に、本願に係るマスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本発明が限定されるものではない。
[第1の実施形態の構成]
まず、図1を用いて、第1の実施形態に係るマスク推定用パラメータ推定装置の構成について説明する。図1は、第1の実施形態に係るマスク推定用パラメータ推定装置の構成の一例を示す図である。図1に示すように、マスク推定用パラメータ推定装置10は、時間周波数分析部11、マスク推定部12、音声強調部13、音声認識部14およびパラメータ推定部15を有する。
第1の実施形態において、パラメータ推定部15は、マスク推定部12、音声強調部13および音声認識部14を1つの計算ネットワークとして解釈する。つまり、パラメータ推定部15は、マスク推定部12、音声強調部13および音声認識部14からなる計算ネットワークの出力に基づいて、マスク推定のためのパラメータを推定する。以下、各処理部について説明する。
時間周波数分析部11は、目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する。なお、雑音には干渉音や背景雑音が含まれる。
短時間フーリエ変換等の短時間信号分析を用いて得られる観測特徴量ベクトルをyf,tと表すとする。ただし、tとfは、それぞれ時間と周波数の番号であり、tは1〜Tの整数、fは0〜Fの整数であることとする。このとき、目的音源および雑音はスパース性を有し、各時間周波数点において高々1つの目的音源だけが存在すると仮定し、各時間周波数点における観測ベクトルyf,tを、以下の式(1)または(2)のいずれかの形式でモデル化できることが知られている(例えば非特許文献1を参照)。
Figure 0006517760
Figure 0006517760
ここで、式(1)は当該時間周波数点において目的音源だけが存在する場合を表し、式(2)はn番目の雑音のみが存在する場合を表す。s(f,t)は、第1の音響信号、すなわち目的音源に対応する音響信号の時間周波数成分である。また、v(f,t)は、N−1個のうちのn番目の第2の音響信号、すなわちn番目の雑音に対応する音響信号のうちの時間周波数成分である。
マスク推定部12は、観測ベクトルとマスク推定用のパラメータとに基づいて、N個の音響信号のそれぞれが、時間周波数点ごとに、観測ベクトルyf,tにどの程度の割合で含まれているかを表すマスクを推定する。
具体的に、マスク推定部12は、周波数ごとに、観測ベクトルyf,tの確率分布を、N個の音響信号のそれぞれに対応するN個の要素分布からなる混合分布でモデル化し、要素分布の事後確率を、N個の音響信号のそれぞれに対応するマスクとして推定する。
マスク推定部12は、まず、各時間周波数点の観測ベクトルyf,tの確率分布を、式(3)で表す。
Figure 0006517760
ここで、Θ(s)は、目的音源に対応する要素分布のパラメータである。また、Θ(vn)は、n番目の雑音に対応する要素分布のパラメータである。また、α (s)は、周波数fにおける目的音源に対応する要素分布の重みパラメータである。また、α (vn)は、周波数fにおけるn番目の雑音に対応する要素分布の重みパラメータである。また、α (s)およびα (vn)は、式(4)を満たす。
Figure 0006517760
このとき、マスク推定部12は、時間周波数点(f,t)における目的音源に対応するマスクλf,t (s)を式(5)によって計算する。
Figure 0006517760
式(5)は、この式は、観測ベクトルyf,tを入力として、内部パラメータΘ(s),Θ(v1),…,Θ(vN−1),α (s) α (v1),…,α (vN−1)を用いて、マスクλf,t (s)を推定する計算ネットワークと解釈できるので、当該計算ネットワークによる演算は式(6)で表される。ただし、νはsまたはvである。
Figure 0006517760
音声強調部13は、観測ベクトルyf,tと第1の音響信号についてのマスクとを、時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する。例えば、音声強調部13は、式(7)に示すように、M個の観測信号のうちのm´番目の観測信号に対応する観測ベクトルyf,t (m´)とマスクλf,t (s)とを時間周波数点において掛け合わせることで強調音声を得る。
Figure 0006517760
ここで、式(7)の演算を、式(8)のように表す。
Figure 0006517760
音声認識部14は、学習データを用いて事前に学習した音声認識用のパラメータを用いて、強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する。ここで、音声認識部14による音素状態事後確率の計算を式(9)のように表す。^Iは、時刻tにおけるI個の音素状態に対応する音素状態事後確率が並んだベクトルである。なお、以降の説明で、^aはaの上に^が付された記号を表すこととする。
Figure 0006517760
式(6)、(8)および(9)より、観測ベクトルを用いて音素状態事後確率を推定するプロセスは、1つの計算ネットワークとして記述できる。パラメータ推定部15は、計算ネットワークのパラメータと構造を保持することで、音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるようにマスク推定用パラメータを推定する。
これにより、第1の実施形態のマスク推定用パラメータ推定装置10は、マスク推定用のパラメータを環境に合わせて最適化することができる。また、マスク推定用パラメータ推定装置10によって最適化されるパラメータは、本来尤度最大化基準に基づき少量のデータから推定されていたパラメータなので、比較的数が少なく、少量のデータを用いてパラメータ推定を行った場合でも、過学習を防ぎながらパラメータ推定を行うことができる。
[実施例]
マスク推定用パラメータ推定装置10の処理を、実施例に基づいて説明する。実施例では、1個の目的音源から出た音響信号を、雑音下でM個のマイクロホンで収録していることとする。このとき、マイクロホンmで収録された観測信号をy(m)(τ)とすると、式(10)に示すように、y(m)(τ)は、目的音源に対応する音響信号s(m)(τ)と雑音に対応する音響信号v(m)(τ)の和で表される。
Figure 0006517760
時間周波数分析部11は、全てマイクロホンで収録された上記観測信号を受け取り、各観測信号y(m)(τ)ごとに短時間信号分析を適用して時間周波数ごとの信号特徴量Y(m)(f,t)を求める。時間周波数分析部11は、短時間信号分析の手法として、短時間離散フーリエ変換や短時間離散コサイン変換等の手法を用いることができる。時間周波数分析部11は、さらに、各時間周波数で得られた信号Y(m)(f,t)を、全てのマイクロホンに関してまとめたベクトルである観測ベクトルyf,tを、式(11)のように構成する。
Figure 0006517760
実施例においては、一般性を失わずに表記を簡略化するため、目的音源に対応する要素分布の重みパラメータをα(s)=α(v1)=…=α(vN−1)=1/Nであるとする。マスク推定部12は、各時間周波数点の観測ベクトルを、それぞれ目的音源と雑音に対する2つの正規分布の混合分布によってモデル化する。このとき、分布パラメータφf,t (ν)およびマスク推定用パラメータR (ν)が与えられたとき、マスク推定部12は、各正規分布に対応する事後確率を、式(12)とする。
Figure 0006517760
ここで、非特許文献1に記載されたパラメータφf,t (ν)の更新則を用いて、式(12)は、式(13)のように表すことができる。
Figure 0006517760
式(5)と式(13)より、マスク推定部12は、マスク目的音源に対するマスクλf,t (s)を、式(14)のように計算する。
Figure 0006517760
ただし、pf,t (s)およびpf,t (v)は、それぞれ式(15)および(16)の通りである。
Figure 0006517760
Figure 0006517760
マスク推定部12による演算は、R (ν)を内部パラメータとして、観測ベクトルから目的音源に対応するマスクを計算するネットワークとして解釈できるので、当該計算ネットワークによる演算は式(17)で表される。なお、式(17)は、式(6)に対応している。
Figure 0006517760
また、一例として、マスク推定部12は、観測ベクトルyf,tの確率分布を、平均が0であるN個のM次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるM次元複素ガウス分布からなる混合分布でモデル化する。例えば、式(10)および(11)におけるφf,t (ν)を各時刻において異なる値を取るスカラーパラメータ、R (ν)を時不変のパラメータとすることができる。
音声強調部13は、マスクを受け取り、式(18)を用いて、参照マイクであるm´番目のマイクで録音された成分yf,t (m´)に、マスクλf,t (s)を乗算することで強調音声^sf,tを計算する。なお、音声強調部13は、マスクλf,t (s)をβ乗した値をyf,t (m´)に乗算することで強調音声^sf,tを計算してもよい。
Figure 0006517760
音声認識部14は、各周波数における強調音声が並んだベクトル^s=[^s1,t,…,^sF,t]を基に、事前に学習した音声認識用のパラメータを用いて、線形演算と非線形演算を複数回繰り返し、各時刻毎の音素状態事後確率^I=[^I1,t,…,^IK,t]を計算する。このときの音声認識部14による演算を、式(19)のように表す。
Figure 0006517760
式(17)〜(19)により、マスク推定部12、音声強調部13および音声認識部14は、観測ベクトルを入力とし、音素状態事後確率を出力とする1つの計算ネットワークと解釈することができる。ここで、パラメータ推定部15によりマスク推定用のパラメータの推定について、図2を用いて説明する。図2は、第1の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の構成の一例を示す図である。図2に示すようにパラメータ推定部15は、マスク推定用パラメータ初期化部151、勾配計算部152、パラメータ保持部153、パラメータ更新部154および収束判定部155を有する。
実施例では、音声強調を行わずに音声認識を行った場合の認識結果を、バイナリの参照ラベルとして用いる。このとき、パラメータ推定部15において、パラメータ更新のための目的関数は、音素状態事後確率^Iと、参照ラベルI=[I1,t,…,IK,t]との間のクロスエントロピーとして、式(20)のように定義することができる。
Figure 0006517760
なお、式(20)のクロスエントロピーは、パラメータ推定部15が最小化する距離基準の一例である。マスク推定用パラメータ初期化部151は、マスク推定用パラメータR (ν)の初期値および学習率γを決定する。マスク推定用パラメータR (ν)には、R (s)およびR (s)が含まれる。なお、マスク推定用パラメータ初期化部151は、マスク推定用パラメータR (ν)の初期値を単位行列としてもよいし、非特許文献1に記載された尤度最大化基準により求めてもよい。また、パラメータ保持部153は音声強調部13のパラメータと、音声認識部14のパラメータとを保持している。
パラメータ更新部154は、最急降下法の原理に基づき、式(21)によってマスク推定用パラメータR (ν)を更新する。なお、この場合、実際に更新されるのはマスク推定用パラメータR (ν)の逆行列である。
Figure 0006517760
ここで、前述の通り、マスク推定部12、音声強調部13および音声認識部14は1つの計算ネットワークと解釈することができるため、勾配計算部152は、音素状態事後確率^I、参照ラベルI、および、パラメータ保持部153によって保持されているパラメータを受け取り、式(21)における勾配∂L(I,^I)/∂{R (ν)−1を、連鎖側を用いて式(22)のように計算する。
Figure 0006517760
収束判定部155は、パラメータ更新部154による更新の結果、目的関数が収束したか否かを判定する。収束判定部155が収束したと判定した場合、パラメータ推定部15は、推定したマスク推定用パラメータを出力する。また、収束判定部155が収束していないと判定した場合、パラメータ推定部15は、更新したマスク推定用パラメータを用い、勾配計算部152およびパラメータ更新部154による処理をさらに繰り返す。なお、収束判定部155は、所定回数だけ繰り返しが行われた場合に処理を収束したと判定することとしてもよい。
これにより、パラメータ推定部15は、音素状態事後確率^Iと、参照ラベルIとの間のクロスエントロピーを局所最小化するようなマスク推定用パラメータを得ることができる。
また、音声認識部14がニューラルネットワークにより構成されている場合、勾配計算部152は、式(22)における勾配∂L(I,^I)/∂^sf,tを、当該ニューラルネットワークのパラメータを推定する際に用いられるバックプロパゲーションに基づく手法を用いて計算することができる。例えば、勾配計算部152は、勾配∂^sf,t/∂λf,t (x)を、式(18)に基づき、式(23)として計算する。
Figure 0006517760
また、例えば、勾配計算部152は、勾配∂λf,t (x)/∂pf,t (ν)を、式(14)に基づき、式(24)または(25)として計算する。
Figure 0006517760
Figure 0006517760
また、例えば、勾配計算部152は、勾配∂pf,t (ν)/∂{R (ν)−1を、式(15)および(16)に基づき、式(26)として計算する。
Figure 0006517760
[第1の実施形態の処理]
図3を用いて、マスク推定用パラメータ推定装置10の処理の流れについて説明する。図3は、第1の実施形態に係るマスク推定用パラメータ推定装置の処理の流れを示すフローチャートである。
図3に示すように、まず、マスク推定用パラメータ推定装置10の時間周波数分析部11は、目的音源と雑音に対応した音響信号に対し時間周波数分析を行い、観測ベクトルを取得する(ステップS11)。次に、マスク推定部12は、マスク推定用パラメータと観測ベクトルとを基に、音声強調のためのマスクを推定する(ステップS12)。
音声強調部13は、観測ベクトルと、マスク推定部12によって推定されたマスクとを掛け合わせ、強調音声を取得する(ステップS13)。そして、音声認識部14は、強調音声と音声認識用のパラメータとを用いて、音声認識を行う(ステップS14)。そして、パラメータ推定部15は、マスク推定部12、音声強調部13および音声認識部14を1つの計算ネットワークとし、音声認識結果が参照ラベルに近くなるようにマスク推定用パラメータの推定を行う(ステップS15)。
次に、図4を用いて、パラメータ推定部15の処理について説明する。図4は、第1の実施形態に係るマスク推定用パラメータ推定装置のパラメータ推定部の処理の流れを示すフローチャートである。図4に示すように、パラメータ推定部15のマスク推定用パラメータ初期化部151は、マスク推定用パラメータの初期値を決定する(ステップS151)。次に、勾配計算部152は、音声状態事後確率と、参照ラベルと、音声強調部13および音声認識部14のパラメータとを受け取り、音声状態事後確率と参照ラベルとの間の距離基準の勾配を計算する(ステップS152)。パラメータ更新部154は、距離基準が小さくなるようにマスク推定用のパラメータを更新する(ステップS153)。
収束判定部155がマスク推定用のパラメータが収束したと判定した場合(ステップS154、Yes)、パラメータ推定部15は処理を終了する。また、収束判定部155がマスク推定用のパラメータが収束していないと判定した場合(ステップS154、No)、パラメータ推定部15は、処理をステップS152に戻し、更新したマスク推定用パラメータを用い、勾配計算部152およびパラメータ更新部154による処理をさらに繰り返す。
[第1の実施形態の効果]
時間周波数分析部11は、目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する。また、マスク推定部12は、観測ベクトルとマスク推定用のパラメータとに基づいて、N個の音響信号のそれぞれが、時間周波数点ごとに、観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定する。また、音声強調部13は、観測ベクトルと第1の音響信号についてのマスクとを、時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する。また、音声認識部14は、学習データを用いて事前に学習した音声認識用のパラメータを用いて、強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する。また、パラメータ推定部15は、音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるようにマスク推定用のパラメータを推定する。
このように、第1の実施形態では、音声認識部14による音声認識結果を、マスク推定用のパラメータの推定に反映させ、また、音声認識部14のパラメータを更新する必要がないので、環境に適応しながら音声認識を行う際に、限られた学習データで音声認識の精度を向上させることができる。
マスク推定部12は、周波数ごとに、観測ベクトルの確率分布を、N個の音響信号のそれぞれに対応するN個の要素分布からなる混合分布でモデル化し、要素分布の事後確率を、N個の音響信号のそれぞれに対応するマスクとして推定してもよい。これにより、目的音源および雑音に対応した音響信号のそれぞれに対し、マスクの推定を行うことが可能となる。
マスク推定部12は、観測ベクトルの確率分布を、平均が0であるN個のM次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるM次元複素ガウス分布からなる混合分布でモデル化してもよい。
一般的に、目的音源に対応する音響信号は、マイクロホンからみて音源方向から主に到来し、雑音はあらゆる方向から到来する。また、エルミート行列には、音源方向に対応する部分空間に最大の固有値を持ち、それ以外の部分空間の固有値は比較的小さな値を持つという性質があるため、エルミート行列を用いてモデル化することで、推定したマスクがどの音響信号に対応したものであるかが明確になる。
ここで、本発明の効果を確認するために行った、従来の方法および第1の実施形態を用いた確認実験について説明する。確認実験では、学習率γを10、R (ν)の初期値を非特許文献1に記載の尤度最大化基準で求めた値、更新則の反復回数を30回とした。また、音声強調は、マスクをそのまま掛け合わせることで行った。
確認実験では、バスの中、カフェ等の背景雑音の存在する環境下において、1人の話者がタブレットに向かって文章を読み上げている状況で、タブレットに装着されたM=6個のマイクで収録した信号に対する音声認識を行った。以下に、従来の方法を用いて音声認識を行った場合と第1の実施形態を用いて音声認識を行った場合の単語誤り率を示す。
(1)音声強調を行わず音声認識を行った場合:24.66(%)
(2)非特許文献1に記載の尤度最大化規準で分布パラメータを推定した後、マスキングによって音声強調を行ったうえで音声認識を行った場合:19.88(%)
(3)音声認識部のパラメータの一部を、非特許文献2に記載の方法で再推定したうえで音声認識を行った場合:24.10(%)
(4)第1の実施形態の方法で分布パラメータを推定し、マスキングによって音声強調を行ったうえで音声認識を行った場合:18.35(%)
確認実験の結果、(4)の場合が最も単語誤り率が小さくなった。これより、第1の実施形態によれば、従来の方法と比べて音声認識精度を向上させることができるといえる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、マスク推定用パラメータ推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスク推定用パラメータ推定を実行するマスク推定用パラメータ推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク推定用パラメータ推定プログラムを情報処理装置に実行させることにより、情報処理装置をマスク推定用パラメータ推定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、マスク推定用パラメータ推定装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のマスク推定用パラメータ推定に関するサービスを提供するマスク推定用パラメータ推定サーバ装置として実装することもできる。例えば、マスク推定用パラメータ推定サーバ装置は、計算ネットワークの各パラメータ、音声認識結果および参照ラベルを入力とし、マスク推定用パラメータを出力とするマスク推定用パラメータ推定サービスを提供するサーバ装置として実装される。この場合、マスク推定用パラメータ推定サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記のマスク推定用パラメータ推定に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図5は、プログラムが実行されることによりマスク推定用パラメータ推定装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、マスク推定用パラメータ推定装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、マスク推定用パラメータ推定装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 マスク推定用パラメータ推定装置
11 時間周波数分析部
12 マスク推定部
13 音声強調部
14 音声認識部
15 パラメータ推定部
151 マスク推定用パラメータ初期化部
152 勾配計算部
153 パラメータ保持部
154 パラメータ更新部
155 収束判定部

Claims (7)

  1. 目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号(ただし、Nは2以上の整数)と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号(ただし、Mは2以上の整数)のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
    前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記N個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定部と、
    前記観測ベクトルと前記第1の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調部と、
    学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識部と、
    前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定部と、
    を有することを特徴とするマスク推定用パラメータ推定装置。
  2. 前記マスク推定部は、周波数ごとに、前記観測ベクトルの確率分布を、前記N個の音響信号のそれぞれに対応するN個の要素分布からなる混合分布でモデル化し、前記要素分布の事後確率を、前記N個の音響信号のそれぞれに対応するマスクとして推定することを特徴とする請求項1に記載のマスク推定用パラメータ推定装置。
  3. 前記マスク推定部は、前記観測ベクトルの確率分布を、平均が0であるN個のM次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるM次元複素ガウス分布からなる混合分布でモデル化することを特徴とする請求項2に記載のマスク推定用パラメータ推定装置。
  4. マスク推定用パラメータ推定装置で実行されるマスク推定用パラメータ推定方法であって、
    目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号(ただし、Nは2以上の整数)と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号(ただし、Mは2以上の整数)のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
    前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記N個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定工程と、
    前記観測ベクトルと前記第1の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調工程と、
    学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識工程と、
    前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定工程と、
    を含んだことを特徴とするマスク推定用パラメータ推定方法。
  5. 前記マスク推定工程は、周波数ごとに、前記観測ベクトルの確率分布を、前記N個の音響信号のそれぞれに対応するN個の要素分布からなる混合分布でモデル化し、前記要素分布の事後確率を、前記N個の音響信号のそれぞれに対応するマスクとして推定することを特徴とする請求項4に記載のマスク推定用パラメータ推定方法。
  6. 前記マスク推定工程は、前記観測ベクトルの確率分布を、平均が0であるN個のM次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるM次元複素ガウス分布からなる混合分布でモデル化することを特徴とする請求項5に記載のマスク推定用パラメータ推定方法。
  7. コンピュータを、請求項1から3のいずれか1項に記載のマスク推定用パラメータ推定装置として機能させるためのマスク推定用パラメータ推定プログラム。
JP2016160668A 2016-08-18 2016-08-18 マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム Active JP6517760B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016160668A JP6517760B2 (ja) 2016-08-18 2016-08-18 マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016160668A JP6517760B2 (ja) 2016-08-18 2016-08-18 マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム

Publications (2)

Publication Number Publication Date
JP2018028618A JP2018028618A (ja) 2018-02-22
JP6517760B2 true JP6517760B2 (ja) 2019-05-22

Family

ID=61248733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016160668A Active JP6517760B2 (ja) 2016-08-18 2016-08-18 マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム

Country Status (1)

Country Link
JP (1) JP6517760B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028861B (zh) * 2019-12-10 2022-02-22 思必驰科技股份有限公司 频谱掩码模型训练方法、音频场景识别方法及系统
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112634874B (zh) * 2020-12-24 2022-09-23 江西台德智慧科技有限公司 一种基于人工智能的自动调音终端设备
CN113178204B (zh) * 2021-04-28 2023-05-30 云知声智能科技股份有限公司 一种单通道降噪的低功耗方法、装置及存储介质
CN113192528B (zh) * 2021-04-28 2023-05-26 云知声智能科技股份有限公司 单通道增强语音的处理方法、装置及可读存储介质
CN113436633B (zh) * 2021-06-30 2024-03-12 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP2018028618A (ja) 2018-02-22

Similar Documents

Publication Publication Date Title
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
CN110914899B (zh) 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP6535112B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6992709B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JPWO2009133719A1 (ja) 音響モデル学習装置および音声認識装置
JP6652519B2 (ja) ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
JP6711789B2 (ja) 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN110998723A (zh) 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
JP6581054B2 (ja) 音源分離装置、音源分離方法及び音源分離プログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
JP2018142278A (ja) 符号化装置、符号化方法およびプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
JP2018028620A (ja) 音源分離方法、装置およびプログラム
JP7485050B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
US20240062771A1 (en) Extraction device, extraction method, training device, training method, and program
WO2023013081A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190418

R150 Certificate of patent or registration of utility model

Ref document number: 6517760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150