JP6370751B2 - ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム - Google Patents

ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム Download PDF

Info

Publication number
JP6370751B2
JP6370751B2 JP2015162474A JP2015162474A JP6370751B2 JP 6370751 B2 JP6370751 B2 JP 6370751B2 JP 2015162474 A JP2015162474 A JP 2015162474A JP 2015162474 A JP2015162474 A JP 2015162474A JP 6370751 B2 JP6370751 B2 JP 6370751B2
Authority
JP
Japan
Prior art keywords
gaussian mixture
mixture model
model parameter
unit
compression matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015162474A
Other languages
English (en)
Other versions
JP2017040781A (ja
Inventor
悠馬 小泉
悠馬 小泉
健太 丹羽
健太 丹羽
小林 和則
和則 小林
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015162474A priority Critical patent/JP6370751B2/ja
Publication of JP2017040781A publication Critical patent/JP2017040781A/ja
Application granted granted Critical
Publication of JP6370751B2 publication Critical patent/JP6370751B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

この発明は、ガウス混合モデルパラメータを計算するための技術、情報を推定するための技術又は特定の音を強調するための技術に関する。
ある入力xτ∈RD,τ={1,2,...,T}から、それに対応する出力yτR×Ωを推定する問題を考える。D,Ωは、所定の正の整数とする。音源強調を例に挙げて説明すると、この問題は、スポーツフィールドである特定の競技音(e.g. キック音やホイッスル音)を収録する場合において、M≧1本のマイクロホンで観測した信号からD次元の音響特徴量xを抽出し、目的音を抽出するフィルタ設計するパラメータyを推定する問題である。
音源強調の代表的な手法であるウィナーフィルタリングを行う場合、観測から推定するべきパラメータyτ=(y1,τ,y2,τ,...,yΩ,τ)Tは事前信号雑音比(以下、事前SNRとも表記する。)である。ここで、・Tは行列又はベクトル・の転置を表す。以下ではウィナーフィルタリングと事前SNR の用い方について簡単に説明する。目的音(e.g. 収音したい特定の競技音)の複素スペクトルをSω,τ、雑音(e.g. 歓声)の複素スペクトルをNω,τ、時間と周波数のインデックスをそれぞれω∈{1,2,...,Ω}、τ∈{1,2,...,T}としたとき、観測信号は
Fω,τ=Sω,τ+Nω,τ
と記述することができる。目的音を強調する時刻τのウィナーフィルタGω,τは、
Figure 0006370751
と求めることができる。また、yω,τは近似計算された事前信号雑音比である。このGω,τと観測信号Fω,τとを掛け合わせることにより、目的音を強調した信号Hω,τを得ることができる。
Hω,τ=Gω,τFω,τ
つまり、適切なウィナーフィルタを設計するためには、観測信号Fω,τから事前SNRを精度よく推定する必要がある。
推定の問題を解く一般的な手法として、最小二乗平均誤差推定(以下、MMSEとも表記する。)法がある。入力xτ(i.e. 音響特徴量)を得たもとでの出力yτ(i.e.事前SNR)のMMSE推定量^yτは、以下のように計算できる。
Figure 0006370751
ここで、Θは、後述するxτとyτの結合分布のパラメータである。つまり、MMSE推定量^yτは、入力xτを得たもとでの出力yτの期待値である。出力yτの推定精度を向上させるためには、学習データから条件付き分布を最適化する必要がある。ベイズの定理より、条件付き分布の最適化は、xτとyτの結合分布p(xτ,yτ;Θ)のパラメータΘを最適化すればよい。
この結合分布には、例えばガウス混合モデル(Gaussian Mixture Model: GMM)を用いることができる。結合変数zτ=(xτ T,yτ T)Tの分布p(xτ,yτ;Θ)をGMMで表現する場合、以下のような形になる。
Figure 0006370751
ここで、Tは転置、N(μ,Σ)は平均μ、共分散行列Σの正規分布、KはGMMの混合数、μk zはk番目の正規分布の平均ベクトル、Σk zはk番目の正規分布の共分散行列である。また、Θ={wkk zk z}k=1 Kである。さらに、μk zk zは、以下のように書き下すことができる。
Figure 0006370751
μk xk yはそれぞれk番目の正規分布のxとyの平均ベクトル、Σk xxk yyはそれぞれk 番目の正規分布のxとyの共分散行列、Σk xyk yxはそれぞれk 番目の正規分布のxとyの各次元の相関を表す相関行列である。
上述のGMMに基づく、入力xτからyτのMMSE推定量^yτは以下のように求めることができる。
Figure 0006370751
結合分布にGMMを用いたMMSE推定法は、その計算の容易さから、声質変換(例えば、非特許文献1参照。)など、音響処理の分野で幅広く用いられている。
T. Toda, A.W. Black, K. Tokuda. "Voice conversion based on maximum likelihood estimation of spectral parameter trajectory," IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 8, pp. 2222-2235, Nov. 2007. 小西貞則, "多変量解析入門, 9 章主成分分析" pp.225-244, 岩波書店, 2010.
ところが、入力xτの次元Dが、学習データに対して大きすぎる場合(例えばT=3000個程度の学習データで、D=1024次元の入力を扱う場合)、結合分布p(xτ,yτ;Θ)を正確に学習することができない。このデータの次元に対して学習データ数が足りず、学習が困難になる現象は「次元の呪い」と呼ばれている。こういった状況では結合分布を学習する前に、入力xτの次元を削減しなくてはならない。
入力xτの次元を小さくする方法として、2つのアプローチがある。1つは、開発者の経験や直感に基づき、入力xτに用いる音響特徴量を人手で設計/精査することである。例えばシュート音やバッティング音を収音したいとき、突発性の音源であるという特徴が事前に既知であるので、ある帯域における時間的なパワー差分を使えば、事前SNRを推定できそうだろう。つまり、「音響特徴量xτとしてある周波数帯域のパワー時間差分だけを音響特徴量として用いる」と経験的に決定する。しかし、シュート音のように、「突発性」という、その音を特徴づける性質が明確であればよいが、人間の声や動物の鳴き声など、音を特徴づける性質が未知であることもある。こういった場合、強調/抑圧したい音源ごとに特徴量を人手で設計する必要があり労力を要する。また目的音の時間周波数構造が複雑な場合は、ルールや特徴量自体を設計することが困難である。
そこで2つ目のアプローチとして、大量の音響特徴量候補xτを圧縮行列A∈RD×Q(Q<D)を用いて次元圧縮する方法がある。つまり、人手で特徴量を精査するのをあきらめ、機械学習で有効な特徴量を探索する。そのため、xτとしては考え付く限りの大量の次元Dの音響特徴量を用い、ATxτとなる変換を行う。そして、結合分布p(ATxτ,yτ;Θ)を学習する。この圧縮行列Aの設計法の代表的なものとして、主成分分析がある(例えば、非特許文献2参照)。主成分分析では、入力xτの分散が最大となるような圧縮行列Aを設計する。
入力に対して圧縮処理を行うということは、入力xτの中から必要な情報を推定し、不要と判断された情報を捨てることに相当する。ところが、主成分分析の圧縮行列の設計には出力変数yτの情報を用いない。つまり、主成分分析では、出力yτを推定するために重要な情報を捨ててしまう可能性がある。そのため、主成分分析による次元圧縮は、GMMを用いたMMSE推定の枠組みから見たとき最適ではない。最適な圧縮行列Aを設計するためには、結合分布p(xτ,yτ;Θ)の最適化と同時に、圧縮行列Aを最適化する必要がある。
この発明の目的は、ガウス混合モデルパラメータを求めるときに圧縮行列Aの最適化を行うガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラムを提供することである。
この発明の一態様によるガウス混合モデルパラメータ計算装置は、・Tは行列又はベクトル・の転置を表すとして、入力変数xτ及び出力変数yτの学習データに基づいて、ガウス混合モデルで表現された結合分布p(ATxτ,yτ;Θ)のガウス混合モデルパラメータΘ及び圧縮行列Aを求めるガウス混合モデルパラメータ計算装置であって、入力されたガウス混合モデルパラメータΘに基づいて、EMアルゴリズムにおける負担率を計算する負担率計算部と、入力されたガウス混合モデルパラメータΘ及び上記負担率に基づいてガウス混合モデルパラメータΘを更新するガウス混合モデルパラメータ更新部と、入力されたガウス混合モデルパラメータΘ、上記負担率及び入力された圧縮行列Aに基づいて、上記入力された圧縮行列Aを勾配法を用いた最適化により更新する圧縮行列更新部と、上記更新されたガウス混合モデルパラメータΘ及び上記更新された圧縮行列Aを上記入力されたガウス混合モデルパラメータΘ及び上記入力された圧縮行列Aとして、上記負担率計算部、上記ガウス混合モデルパラメータ更新部及び上記圧縮行列更新部の処理を繰り返す制御を行う制御部と、を備えている。
この発明の一態様による情報推定装置は、上記ガウス混合モデルパラメータ計算装置と、上記繰り返し制御により最終的に生成された圧縮行列Aを用いて、情報推定の対象となる入力変数xτを圧縮したATxτを計算する次元圧縮部と、上記繰り返し制御により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下でのyτの期待値である^yτを計算する推定部と、を備えている。
この発明の一態様による音強調装置は、強調の対象となる目的音が含まれる音信号を周波数領域信号に変換する周波数領域変換部と、上記周波数領域信号に基づいて、強調の対象となる目的音が含まれる音信号の音響特徴量xτを抽出する音響特徴量抽出部と、請求項3のガウス混合モデルパラメータ計算装置により最終的に生成された圧縮行列Aを用いて、上記抽出された音響特徴量xτを圧縮したATxτを計算する次元圧縮部と、請求項3のガウス混合モデルパラメータ計算装置により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下での事前信号雑音比yτの期待値である^yτを計算する推定部と、上記計算された^yτを用いてウィナーフィルタを求めるウィナーフィルタ計算部と、上記求まったウィナーフィルタを上記周波数領域信号に適用してフィルタリング後周波数領域信号を得るフィルタリング部と、上記フィルタリング後周波数領域信号を時間領域信号に変換する時間領域変換部と、を備えている。
ガウス混合モデルパラメータを求めるときに圧縮行列Aの最適化が行われる。
ガウス混合モデルパラメータ計算装置の例を説明するためのブロック図。 情報推定装置の例を説明するためのブロック図。 音強調装置の例を説明するためのブロック図。 画像の判別を行うためのガウス混合モデルパラメータを計算するガウス混合モデルパラメータ計算装置の例を説明するためのブロック図。 ガウス混合モデルパラメータ計算方法の例を説明するための流れ図。 情報推定方法の例を説明するための流れ図。 音強調方法の例を説明するための流れ図。
以下、図面を参照して、この発明の一実施形態であるガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置及びこれらの方法について説明する。
まず、ガウス混合モデルパラメータ計算装置及び方法について説明し、その後にガウス混合モデルパラメータ計算装置及び方法を用いた情報推定装置及び方法、音強調装置及び方法について説明する。
[ガウス混合モデルパラメータ計算装置及び方法]
ガウス混合モデルパラメータ計算装置は、図1に示すように、初期化部11、負担率計算部12、ガウス混合モデルパラメータ更新部13、圧縮行列更新部14及び制御部15を例えば備えている。
ガウス混合モデルパラメータ計算装置が、図5に例示する各ステップの処理を行うことによりガウス混合モデルパラメータ計算方法が実現される。
ガウス混合モデルパラメータ計算装置は、通常のGMMの学習で用いられる期待値最大化(expectation-maximization: EM)アルゴリズムに、勾配法を用いた圧縮行列の最適化を入れ込んだ一般化EM(Generalized-EM: GEM)アルゴリズムを提供するものである。
ガウス混合モデルパラメータ計算装置1には、T個の入力変数xτの学習データx1,...,Tと出力変数yτの学習データy1,...,Tが入力される。入力の次元数はD、出力の次元数はΩとする。D,Ωは正の整数である。また、ガウス混合モデルパラメータ計算装置1には、圧縮後の次元数QとGMMの混合数K、また後述する勾配法のステップサイズεが入力される。Q、K、εの値は任意であり、解きたい問題によって設定を変更すべきだが、例えばQ=Ω、K=8、ε=10-2などに設定できる。
<初期化部11>
初期化部11は、GMMパラメータΘ={wkk νk ν}k=1 Kと圧縮行列A∈RD×Qを初期化する(ステップS11)。以下、GMMパラメータのことを、ガウス混合モデルパラメータとも表記する。
初期化部11は、GMMパラメータΘはランダム初期化してもよいし、K-means アルゴリズムなどで初期化することもできる。また、初期化部11は、圧縮行列Aはランダム初期化してもよいし、主成分分析などで初期化することもできる。
初期化されたGMMパラメータΘは、負担率計算部12、ガウス混合モデルパラメータ更新部13及び必要に応じて制御部15に出力される。
初期化された圧縮行列Aは、負担率計算部12、ガウス混合モデルパラメータ更新部13、圧縮行列更新部14及び必要に応じて制御部15に出力される。
なお、GMMパラメータΘと圧縮行列Aは人手で初期化してもよい。この場合は、初期化部11の処理に代えて、人手で初期化されたGMMパラメータΘと圧縮行列Aがガウス混合モデルパラメータ計算装置1に入力される。
<負担率計算部12>
負担率計算部12は、初期化されたGMMパラメータΘ、及び、初期化された圧縮行列Aを入力として、通常のEMアルゴリズムと同様に負担率γk,τを計算する(ステップS12)。計算された負担率γk,τは、ガウス混合モデルパラメータ更新部13及び圧縮行列更新部14に出力される。
Figure 0006370751

ここで、
Figure 0006370751

であり、
Figure 0006370751

である。また、
Figure 0006370751
である。ここで、ξはATxτを一文字で表すために表記上導入した変数であり、μk ξはそれぞれk番目の正規分布のATxτとyの平均ベクトル、Σk ξξk yyはそれぞれk番目の正規分布のATxτとyの共分散行列、、Σk k ξ yのはそれぞれk 番目の正規分布のATxτとyの各次元の相関を表す相関行列、wkはk番目の正規分布の混合比(重みパラメータ)である。
このようにして、負担率計算部12は、入力されたガウス混合モデルパラメータΘに基づいて、EMアルゴリズムにおける負担率を計算する。
<ガウス混合モデルパラメータ更新部13>
ガウス混合モデルパラメータ更新部13は、初期化されたGMMパラメータΘ、初期化された圧縮行列A、及び、負担率γk,τを入力として、以下の式でGMMパラメータΘ={wkk νk ν}k=1 Kを更新する(ステップS13)。更新されたGMMパラメータΘは、圧縮行列更新部14及び制御部15に出力される。
Figure 0006370751
このようにして、ガウス混合モデルパラメータ更新部13は、入力されたガウス混合モデルパラメータΘ及び上記負担率に基づいてガウス混合モデルパラメータΘを更新する。
<圧縮行列更新部14>
圧縮行列更新部14は、初期化された圧縮行列A、負担率γk,τ、及び、更新されたガウス混合モデルパラメータΘを入力として、圧縮行列A∈RD×Qを勾配法で更新する(ステップS14)。勾配法の具体的な手段には、最急降下法や確率的最急降下法などを用いることができる。例えば最急降下法の場合は、圧縮行列Aの各行ベクトルa1,...,Dを例えば以下の式により更新する(ステップS141)。
Figure 0006370751
ここで、εはステップサイズである。勾配ベクトル∇adを算出する。まず、圧縮行列演算を以下のように書き下す。
Figure 0006370751
また、結合ガウス分布の性質を用いて、各ガウス分布の指数部分の二次形式をyτの項、xτの項、クロス項の3つに展開することで、勾配ベクトル∇adは以下のように計算できる。
Figure 0006370751
ただし、Λk とΛk ξξは以下の式で求まる分割行列である。なお、分割行列のサイズはΣk k ξξに等しい。
Figure 0006370751
また、圧縮後の入力変数ATxτの分散を大きくしたいときは、勾配ベクトル∇adを以下のように計算してもよい。
Figure 0006370751
圧縮行列更新部14は、以下に例示するステップS142からステップS145の処理において、圧縮行列Aの各基底が直交するように、最急降下法の各ステップで直行化する。
圧縮行列更新部14は、圧縮行列Aを、ATAの最大固有値で割る(ステップS142)。
圧縮行列更新部14は、A←(3/2)A-(1/2)AATAとする(ステップS143)。すなわち、(3/2)A-(1/2)AATAを計算して、新たなAとする。
圧縮行列更新部14は、Aの各列を、ノルムが1 になるように正規化する(ステップS144)。
圧縮行列更新部14は、Aが収束するまで、ステップS141からステップS144の処理を繰り返す(ステップS145)。
収束判定は、例えば、事前に指定した繰り返し回数に達するかどうかにより判定することができる。すなわち、圧縮行列更新部14は、ステップS141からステップS144の処理を行った回数をカウントして、カウントされた回数が事前に指定した繰り返し回数に達した場合には、Aが収束したと判断し、ステップS145の処理を終了する。事前に指定した繰り返し回数は、例えば100に設定することができる。
また、収束判定は、ステップS142の処理開始前の圧縮行列AとステップS145の処理終了後の圧縮行列のフロベニウスノルムが閾値λ1以下であるかを判定することにより行ってもよい。すなわち、圧縮行列更新部14は、ステップS142の処理開始前の圧縮行列AとステップS145の処理終了後の圧縮行列のフロベニウスノルムが閾値λ1以下である場合には、Aが収束したと判断し、ステップS145の処理を終了する。閾値λ1は、例えば10-4などに設定できる。
このようにして、圧縮行列更新部14は、入力されたガウス混合モデルパラメータΘ、負担率及び入力された圧縮行列Aに基づいて、入力された圧縮行列Aを勾配法を用いた最適化により更新する。
<制御部15>
制御部15は、GMMパラメータΘと圧縮行列Aの更新が収束するまで、ステップS12からステップS14の処理を繰り返す(ステップS15)。
収束判定は、例えば、事前に指定した繰り返し回数に達するかどうかにより判定することができる。すなわち、制御部15は、ステップS12からステップS14の処理を行った回数をカウントして、カウントされた回数が事前に指定した繰り返し回数に達した場合には、GMMパラメータΘと圧縮行列Aの更新が収束したと判断し、ステップS145の処理を終了する。事前に指定した繰り返し回数は、例えば1000に設定することができる。
また、収束判定は、以下の式で表される対数尤度Lの上昇が閾値λ2以下であるかを判定することにより行ってもよい。すなわち、制御部15は、以下の式で例えば表される対数尤度Lの上昇が閾値λ2以下である場合には、GMMパラメータΘと圧縮行列Aの更新が収束したと判断し、制御部15の処理を終了する。閾値λ2は、例えば10-5などに設定できる。対数尤度Lの上昇とは、更新後の対数尤度Lと更新前の対数尤度Lとの差のことである。
Figure 0006370751
このようにして、制御部15は、更新されたガウス混合モデルパラメータΘ及び更新された圧縮行列Aを、負担率計算部12、ガウス混合モデルパラメータ更新部13及び圧縮行列更新部14へ新たな入力として、負担率計算部12、ガウス混合モデルパラメータ更新部13及び圧縮行列更新部14の処理を繰り返す制御を行う。
このように、ガウス混合モデルパラメータを学習する際に圧縮行列Aの最適化を行うことにより、入力xτが高次元な場合にも、最適な結合分布をGMMで学習できるようになる。また、結合分布の尤度を最大化する圧縮行列Aが求まるため、このようにして求まったガウス混合モデルパラメータΘ及び圧縮行列Aを用いてMMSE 推定を行った場合には、その精度が向上する。
また、ガウス混合モデルパラメータを学習する際に圧縮行列Aの最適化を行うことにより、これまでは人手で経験的に行ってきた入力変数の設計/選択を自動化することができる。これにより、このようにして求まったガウス混合モデルパラメータΘ及び圧縮行列Aを用いたMMSE 推定を様々な分野で行うことができる。
[情報推定装置及び方法]
情報推定装置は、図2に示すように、次元圧縮部51及び推定部52を例えば備えている。
情報推定装置が、図6に例示する各ステップの処理を行うことにより情報推定方法が実現される。
情報推定装置には、情報推定の対象となる入力変数xτが入力される。
<次元圧縮部51>
次元圧縮部51は、収束後の圧縮行列Aを入力として、情報推定の対象となる入力変数xτを、ガウス混合モデルパラメータ計算装置1及び方法で推定された圧縮行列Aで圧縮する(ステップS51)。圧縮された入力変数xτであるATxτは、推定部52に出力される。
すなわち、次元圧縮部51は、ガウス混合モデルパラメータ計算装置1及び方法における繰り返し制御により最終的に生成された圧縮行列Aを用いて、情報推定の対象となる入力変数xτを圧縮したATxτを計算する。
<推定部52>
推定部52は、入力変数xτを圧縮したATxτを入力として、MMSE推定量を例えば以下のように求める(ステップS52)。
Figure 0006370751
すなわち、推定部52は、ガウス混合モデルパラメータ計算装置1及び方法における繰り返し制御により最終的に生成されたガウス混合モデルパラメータΘを用いて、計算されたATxτが得られた下でのyτの期待値である^yτを計算する。
このように、ガウス混合モデルパラメータを学習する際に圧縮行列Aの最適化を行うガウス混合モデルパラメータ計算装置1及び方法で求まったガウス混合モデルパラメータΘ及び圧縮行列Aを用いてMMSE 推定を行うことにより、入力xτが高次元な場合にもMMSE 推定を行うことができる。また、MMSE 推定精度を向上させることができる。また、MMSE 推定を様々な分野で行うことができる。
[音強調装置及び方法]
音強調装置は、図3に示すように、マイクロホン2、周波数領域変換部3、音響特徴量抽出部4、情報推定装置5、ウィナーフィルタ計算部6、フィルタリング部7、時間領域変換部8、周波数領域変換部91、重畳部92、音響特徴量抽出部93、事前信号雑音比計算部94及びガウス混合モデルパラメータ計算装置1を例えば備えている。
音強調装置が、図7に例示する各ステップの処理を行うことにより音強調方法が実現される。
音強調装置及び方法の処理は、学習処理(ステップS91からステップA6の処理)と強調処理(ステップS2からステップS8の処理)の2個の処理に分けることができる。まず、学習処理について説明する。学習処理では、GEMアルゴリズムを用いたガウス混合モデルパラメータの学習が行われる。学習処理は、強調処理に先立って行われてもよいし、強調処理と並行して行われてもよい。
学習処理は、強調処理に先立って行われる場合には、音強調装置は、周波数領域変換部91、重畳部92、音響特徴量抽出部93、事前信号雑音比計算部94及びガウス混合モデルパラメータ計算装置1を備えていなくてもよい。
目的音の学習データと雑音の学習データの時間波形を用意する。ここで、時間波形のサンプリングレートや量子化ビット数は任意であるが、例えばサンプリングレートは48kHz、量子化ビット数は16bit などに設定できる。
<周波数領域変換部91>
周波数領域変換部91は、目的音の学習データ及び雑音の学習データを短時間フーリエ変換(STFT)などを用いて周波数領域に変換し、それぞれ収音したい特定の音(目的音)の複素スペクトルSω,τと雑音の複素スペクトルNω,τを得る(ステップS91)。得られたSω,τとNω,τは、重畳部92及び事前信号雑音比計算部94に出力される。ここで、フーリエ変換長は1024 点(サンプリング周波数48kHz で約22ms)、シフト長は512 点(サンプリング周波数48kHz で約11ms)などに設定できる。
<重畳部92>
重畳部92は、目的音が含まれる音信号である観測信号を模擬的に設計するために、以下の式に基づきSω,τとNω,τを重畳し、Fω,τを得る(ステップS92)。得られたFω,τは、音響特徴量抽出部93に出力される。
Fω,τ=Sω,τ+Nω,τ
<音響特徴量抽出部93>
音響特徴量抽出部93は、入力されたFω,τから音響特徴量xτを抽出する(ステップS93)。この抽出された音響特徴量xτは、ガウス混合モデルパラメータ計算装置1に出力され、GEMアルゴリズムを実行するガウス混合モデルパラメータ計算装置1における入力変数xτになる。
音響特徴量xτに用いる特徴量は任意であるが、例えば48次元のメル周波数ケプストラム係数(MFCC)およびその一階差分と二階差分や、48 次元のメルフィルタバンク出力(MFBO)およびその一階差分と二階差分などを用いることができる。また、観測に用いたマイクロホンの数MがM>1であれば、ビームフォーミングを行って、方向別にMFCC やMFBOを求めることもできる。またその他にも、スペクトルフラックスやスペクトルセントロイドなど、D = 512程度の様々な音響特徴量を用いることができる。
<事前信号雑音比計算部94>
事前信号雑音比計算部94は、以下の式に基づいて、学習データから得られたSω,τとNω,τを用いて事前SNRを計算する(ステップS94)。計算された事前SNRは、ガウス混合モデルパラメータ計算装置1に出力される。この計算結果がGEMアルゴリズムを実行するガウス混合モデルパラメータ計算装置1における出力変数yτとなる。
Figure 0006370751
ここで、フーリエ変換長が大きいと、事前SNRの次元Ωも大きくなるため、上の式の計算結果をメルフィルタバンクで圧縮してもよい。この場合、圧縮された計算結果がガウス混合モデルパラメータ計算装置1における出力変数yτとなる。メルフィルタバンクの個数はたとえば32 程度に設定できる。
<ガウス混合モデルパラメータ計算装置1>
ガウス混合モデルパラメータ計算装置1は、音響特徴量抽出部93が計算した音響特徴量を入力変数xτとし、事前信号雑音比計算部94が計算した事前信号雑音比を出力変数yτとして、[ガウス混合モデルパラメータ計算装置及び方法]の欄で説明した手法により、ガウス混合モデルパラメータΘ及び圧縮行列Aを計算する(ステップS1)。計算されたガウス混合モデルパラメータΘ及び圧縮行列Aは、情報推定装置5に出力される。
なお、ガウス混合モデルパラメータ計算装置1に、圧縮後の次元数QとGMMの混合数K、勾配法のステップサイズεが入力されるが、最終的に音強調をする場合には、これらのパラメータは、目的音のスペクトルの複雑さに応じてチューニングすべきである。スポーツフィールドでキック音を強調する場合、キック音のスペクトル形状は単純なため、例えば、Q=12、K=12、ε=10-2などに設定できる。
以上が、音強調装置及び方法の学習処理である。以下、音強調装置及び方法の強調処理について説明する。
<マイクロホン2>
M個のマイクロホン1を用いて、強調の対象となる目的音が含まれる、所望の音が収音される(ステップS2)。ここで、Mは1以上の任意の自然数である。収音された音信号は、周波数領域変換部3に出力される。
<周波数領域変換部3>
周波数領域変換部3は、音信号を周波数領域へ変換し、周波数領域信号Fω,τを得る(ステップS3)。すなわち、周波数領域変換部3は、強調の対象となる目的音が含まれる音信号を周波数領域信号に変換する。得られた周波数領域信号Fω,τは、音響特徴量抽出部4に出力される。
<音響特徴量抽出部4>
音響特徴量抽出部4は、入力された周波数領域信号Fω,τから音響特徴量xτを計算する(ステップS4)。すなわち、音響特徴量抽出部4は、周波数領域信号Fω,τに基づいて、強調の対象となる目的音が含まれる音信号の音響特徴量xτを抽出する。計算された音響特徴量xτは、情報推定装置5に出力される。
<情報推定装置5>
情報推定装置5は、ガウス混合モデルパラメータ計算装置1及び方法により計算されたガウス混合モデルパラメータΘ及び圧縮行列Aに基づいて、[情報推定装置及び方法]の欄で説明した手法により、事前信号雑音比yτの期待値である^yτを計算する(ステップS5)。
すなわち、情報推定装置5の次元圧縮部51は、ガウス混合モデルパラメータ計算装置1及び方法により最終的に生成された圧縮行列Aを用いて、抽出された音響特徴量xτを圧縮したATxτを計算する(ステップS51)。
また、情報推定装置5の推定部52は、ガウス混合モデルパラメータ計算装置1及び方法により最終的に生成されたガウス混合モデルパラメータΘを用いて、計算されたATxτが得られた下での事前信号雑音比yτの期待値である^yτを計算する(ステップS52)。
<ウィナーフィルタ計算部6>
ウィナーフィルタ計算部6は、計算された^yτを用いてウィナーフィルタを求める(ステップS6)。求まったウィナーフィルタGω,τは、フィルタリング部7に出力される。
具体的には、ウィナーフィルタ計算部6は、以下の式に基づき、推定した事前SNR^yτからウィナーフィルタGω,τを計算する。
Figure 0006370751
ただし、学習処理において、事前信号雑音比計算部94が事前SNR をメルフィルタバンク圧縮していた場合、上記式の計算の実行前に、事前SNR^yτを線形周波数領域にスプライン補間する。
<フィルタリング部7>
フィルタリング部7は、求まったウィナーフィルタを周波数領域信号Fω,τに適用してフィルタリング後周波数領域信号Hω,τを得る(ステップS7)。具体的には、フィルタリング部7は、以下の式 に基づき、フィルタリング後周波数領域信号Hω,τを得る。
Hω,τ=Gω,τFω,τ
得られたフィルタリング後周波数領域信号Hω,τは、時間領域変換部8に出力される。
<時間領域変換部8>
時間領域変換部8は、入力されたフィルタリング後周波数領域信号Hω,τを時間領域信号に変換する(ステップS8)。
具体的には、時間領域変換部8は、フィルタリング後周波数領域信号Hω,τを逆フーリエ変換などの手法を用いて時間領域に変換する。
時間領域信号は、目的音が強調された信号として音強調装置から出力される。
[変形例]
ガウス混合モデルパラメータ装置、情報推定装置及びこれらの方法の用途は、音源強調に限らない。ガウス混合モデルパラメータ装置、情報推定装置及びこれらの方法は、音響強調以外の用途に用いることができる。
つまり、入力変数xτは音響特徴量に限らず、画像等のなんらかのデータから特徴量を抽出した結果であってもよいし、位置座標などの生データであってもよい。同様に出力変数yτも事前SNR に限らず、画像の属するクラス等を表す変数でもよいし、元信号の振幅スペクトル|Sω,τ|であってもよい。
例えば、画像データに対する判別を行うMMSE推定を行うためのガウス混合モデルパラメータΘ及び圧縮行列Aを求める場合には、例えば以下のようにすればよい。判別対象の画像とそれ以外の画像の各データが学習データとして、図4の特徴量抽出部95に入力される。特徴量抽出部95は、コーナー検出やSHIFT(Scale-Invariant Feature Transform)特徴などを用いて、判別対象の画像とそれ以外の画像の各データから特徴量を抽出して入力変数xτとする。また、出力変数yτは、入力変数xτに対応する画像が判別対象の画像ならばy=1それ以外はy=0となるような2値変数とする。ガウス混合モデルパラメータ計算装置1は、これらの入力変数xτ及び出力変数yτに基づいて、[ガウス混合モデルパラメータ計算装置及び方法]の欄で説明した処理を行う。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[プログラム及び記録媒体]
ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置及びこれらの方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、ガウス混合モデルパラメータ計算装置、情報推定装置及び音強調装置における各処理をコンピュータによって実現する場合、ガウス混合モデルパラメータ計算装置、情報推定装置及び音強調装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この技術は、例えばサッカー等のスポーツ中継などで、ボールのキック音や選手の叫び声、ホイッスルなど、ある特定の競技音だけをクリアに抽出するために例えば用いることができる。もちろん、スポーツ中継以外の分野において、特定の音を強調するためにも用いることができる。
1 ガウス混合モデルパラメータ計算装置
11 初期化部
12 負担率計算部
13 ガウス混合モデルパラメータ更新部
14 圧縮行列更新部
15 制御部
2 マイクロホン
3 周波数領域変換部
4 音響特徴量抽出部
5 情報推定装置
51 次元圧縮部
52 推定部
6 ウィナーフィルタ計算部
7 フィルタリング部
8 時間領域変換部
91 周波数領域変換部
92 重畳部
93 音響特徴量抽出部
94 事前信号雑音比計算部
95 特徴量抽出部

Claims (8)

  1. Tは行列又はベクトル・の転置を表すとして、入力変数xτ及び出力変数yτの学習データに基づいて、ガウス混合モデルで表現された結合分布p(ATxτ,yτ;Θ)のガウス混合モデルパラメータΘ及び圧縮行列Aを求めるガウス混合モデルパラメータ計算装置であって、
    入力されたガウス混合モデルパラメータΘに基づいて、EMアルゴリズムにおける負担率を計算する負担率計算部と、
    入力されたガウス混合モデルパラメータΘ及び上記負担率に基づいてガウス混合モデルパラメータΘを更新するガウス混合モデルパラメータ更新部と、
    入力されたガウス混合モデルパラメータΘ、上記負担率及び入力された圧縮行列Aに基づいて、上記入力された圧縮行列Aを勾配法を用いた最適化により更新する圧縮行列更新部と、
    上記更新されたガウス混合モデルパラメータΘ及び上記更新された圧縮行列Aを上記入力されたガウス混合モデルパラメータΘ及び上記入力された圧縮行列Aとして、上記負担率計算部、上記ガウス混合モデルパラメータ更新部及び上記圧縮行列更新部の処理を繰り返す制御を行う制御部と、
    を含むガウス混合モデルパラメータ計算装置。
  2. 請求項1のガウス混合モデルパラメータ計算装置と、
    上記繰り返し制御により最終的に生成された圧縮行列Aを用いて、情報推定の対象となる入力変数xτを圧縮したATxτを計算する次元圧縮部と、
    上記繰り返し制御により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下でのyτの期待値である^yτを計算する推定部と、
    を含む情報推定装置。
  3. 請求項1のガウス混合モデルパラメータ計算装置であって、
    上記入力変数xτは目的音が含まれる音信号の音響特徴量であり、上記出力変数yτは事前信号雑音比である、
    ガウス混合モデルパラメータ計算装置。
  4. 強調の対象となる目的音が含まれる音信号を周波数領域信号に変換する周波数領域変換部と、
    上記周波数領域信号に基づいて、強調の対象となる目的音が含まれる音信号の音響特徴量xτを抽出する音響特徴量抽出部と、
    請求項3のガウス混合モデルパラメータ計算装置により最終的に生成された圧縮行列Aを用いて、上記抽出された音響特徴量xτを圧縮したATxτを計算する次元圧縮部と、
    請求項3のガウス混合モデルパラメータ計算装置により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下での事前信号雑音比yτの期待値である^yτを計算する推定部と、
    上記計算された^yτを用いてウィナーフィルタを求めるウィナーフィルタ計算部と、
    上記求まったウィナーフィルタを上記周波数領域信号に適用してフィルタリング後周波数領域信号を得るフィルタリング部と、
    上記フィルタリング後周波数領域信号を時間領域信号に変換する時間領域変換部と、
    を含む音強調装置。
  5. Tは行列又はベクトル・の転置を表すとして、入力変数xτ及び出力変数yτの学習データに基づいて、ガウス混合モデルで表現された結合分布p(ATxτ,yτ;Θ)のガウス混合モデルパラメータΘ及び圧縮行列Aを求めるガウス混合モデルパラメータ計算方法であって、
    負担率計算部が、入力されたガウス混合モデルパラメータΘに基づいて、EMアルゴリズムにおける負担率を計算する負担率計算ステップと、
    ガウス混合モデルパラメータ更新部が、入力されたガウス混合モデルパラメータΘ及び上記負担率に基づいてガウス混合モデルパラメータΘを更新するガウス混合モデルパラメータ更新ステップと、
    圧縮行列更新部が、入力されたガウス混合モデルパラメータΘ、上記負担率及び入力された圧縮行列Aに基づいて、上記入力された圧縮行列Aを勾配法を用いた最適化により更新する圧縮行列更新ステップと、
    制御部が、上記更新されたガウス混合モデルパラメータΘ及び上記更新された圧縮行列Aを上記入力されたガウス混合モデルパラメータΘ及び上記入力された圧縮行列Aとして、上記負担率計算部、上記ガウス混合モデルパラメータ更新部及び上記圧縮行列更新部の処理を繰り返す制御を行う制御ステップと、
    を含むガウス混合モデルパラメータ計算方法。
  6. 請求項5のガウス混合モデルパラメータ計算方法の各ステップと、
    次元圧縮部が、上記繰り返し制御により最終的に生成された圧縮行列Aを用いて、情報推定の対象となる入力変数xτを圧縮したATxτを計算する次元圧縮ステップと、
    推定部が、上記繰り返し制御により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下でのyτの期待値である^yτを計算する推定ステップと、
    を含む情報推定方法。
  7. 周波数領域変換部が、強調の対象となる目的音が含まれる音信号を周波数領域信号に変換する周波数領域変換ステップと、
    音響特徴量抽出部が、上記周波数領域信号に基づいて、強調の対象となる目的音が含まれる音信号の音響特徴量xτを抽出する音響特徴量抽出ステップと、
    次元圧縮部が、請求項5のガウス混合モデルパラメータ計算方法により最終的に生成された圧縮行列Aを用いて、上記抽出された音響特徴量xτを圧縮したATxτを計算する次元圧縮ステップと、
    推定部が、請求項5のガウス混合モデルパラメータ計算方法により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下での事前信号雑音比yτの期待値である^yτを計算する推定ステップと、
    ウィナーフィルタ計算部が、上記計算された^yτを用いてウィナーフィルタを求めるウィナーフィルタ計算ステップと、
    フィルタリング部が、上記求まったウィナーフィルタを上記周波数領域信号に適用してフィルタリング後周波数領域信号を得るフィルタリングステップと、
    時間領域変換部が、上記フィルタリング後周波数領域信号を時間領域信号に変換する時間領域変換ステップと、
    を含む音強調方法。
  8. 請求項1又は3のガウス混合モデルパラメータ計算装置、請求項2の情報推定装置及び請求項4の音強調装置の何れかの装置の各部としてコンピュータを機能させるためのプログラム。
JP2015162474A 2015-08-20 2015-08-20 ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム Active JP6370751B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015162474A JP6370751B2 (ja) 2015-08-20 2015-08-20 ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015162474A JP6370751B2 (ja) 2015-08-20 2015-08-20 ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017040781A JP2017040781A (ja) 2017-02-23
JP6370751B2 true JP6370751B2 (ja) 2018-08-08

Family

ID=58203299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015162474A Active JP6370751B2 (ja) 2015-08-20 2015-08-20 ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6370751B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6703958B2 (ja) * 2017-03-08 2020-06-03 株式会社ニューギン 遊技機
CN108174055B (zh) * 2017-12-29 2020-11-13 广东工业大学 一种智能监控方法、系统、设备及存储介质
CN110956593A (zh) * 2019-11-20 2020-04-03 南京拓控信息科技股份有限公司 一种基于灰狼优化的高斯混合灰度列车车轮踏面图像增强方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5821590B2 (ja) * 2011-12-06 2015-11-24 富士ゼロックス株式会社 画像識別情報付与プログラム及び画像識別情報付与装置
WO2015093025A1 (ja) * 2013-12-17 2015-06-25 日本電気株式会社 音声処理装置、音声処理方法、及び、記録媒体

Also Published As

Publication number Publication date
JP2017040781A (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
CN107564513B (zh) 语音识别方法及装置
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
US11854554B2 (en) Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
CN110164465B (zh) 一种基于深层循环神经网络的语音增强方法及装置
JP6535112B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
WO2019232846A1 (zh) 语音区分方法、装置、计算机设备及存储介质
JP7124427B2 (ja) マルチビューベクトルの処理方法及び装置
CN108417224A (zh) 双向神经网络模型的训练和识别方法及系统
JP6370751B2 (ja) ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
US20170249957A1 (en) Method and apparatus for identifying audio signal by removing noise
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Yu et al. Cam: Context-aware masking for robust speaker verification
JP2010049083A (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
García et al. The Power Cepstrum Calculation with Convolutional Neural Networks
US20210256970A1 (en) Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
EP3557576B1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Singh et al. Enhancing Blind Source Separation in the Cocktail Party Problem Using Independent Component Analysis
JP7024615B2 (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
CN108322858B (zh) 基于张量分解的多麦克风语音增强方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180711

R150 Certificate of patent or registration of utility model

Ref document number: 6370751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150