JP6235938B2 - 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム - Google Patents
音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム Download PDFInfo
- Publication number
- JP6235938B2 JP6235938B2 JP2014048616A JP2014048616A JP6235938B2 JP 6235938 B2 JP6235938 B2 JP 6235938B2 JP 2014048616 A JP2014048616 A JP 2014048616A JP 2014048616 A JP2014048616 A JP 2014048616A JP 6235938 B2 JP6235938 B2 JP 6235938B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic event
- acoustic
- learning
- data feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Analysis (AREA)
Description
予測、音環境に適合した音声認識もしくは音響信号処理など、様々な音情報処理技術への応用が見込まれる技術である。加えて、セキュリティシステムや高齢者の見守りシステムなどへも応用可能であり、今後、実世界において必要不可欠な技術となると考えられる。
し、フレームtにおける特徴量Xtがある音響イベントqtである確率(もしくは、尤度)を
計算し、最も確率の高い音響イベントqt=eを出力する。
響イベントeの混合ガウス分布であるGMMeを一つの状態とみなして、ある音響イベントeから異なる音響イベントe’への状態遷移を記述したTandem connectionist HMMを音響イベ
ントHMMとして構築する。ここで、事後特徴量としては、あるフレームtの信号がある音響イベントeに合致する確率そのものを利用する。また、事後特徴量は、複数のフレームの
信号を束ねた信号をニューラルネットワークの入力としており、あるフレームtにおける
信号の前後関係を考慮することで、より正確な音響イベントの弁別特徴を記述可能となる。ここで、ニューラルネットワークには複数の識別層を有する多層パーセプトロン(MLP: Multi-Layer Perceptron)が用いられる。
イベント識別モデル学習装置の機能構成の一例である。
用データxt (train)の各フレームtにおける音響イベントが定義済みの音響イベント{1,…,e,…,E}のいずれであるかを示した正解ラベルGTt (train)が記憶されている。開発用デー
タ記憶部13には、音響イベントHMMの学習に用いるための音響信号である開発用データxt (dev)が記憶されている。開発用正解ラベル記憶部14には、開発用データxt (dev)の各
フレームtにおける音響イベントが定義済みの音響イベント{1,…,e,…,E}のいずれであるかを示した正解ラベルGTt (dev)が記憶されている。
基本となる音響特徴量として、フレームtにおける12次元のメル周波数ケプストラム係数
と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcct (train)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)の
ベクトルMfcct (train)を連結した351次元(=39×9)ベクトルXt (train)を構成する。
音響イベント{1,…,e,…,E}に対する事後確率(最終層Kの各出力ノードjが出力する確率
)を計算し、それらを要素としてもつ事後特徴量ベクトルPostt (dev)を算出する。
アルゴリズム(Expectation-Maximization algorithm)に基づき、各音響イベントeの混
合ガウス分布であるGMMeを学習する。各音響イベントeの混合ガウス分布GMMeを一つの状
態とみなしてErgodic HMMを音響イベントHMMとして構成し、HMM={GMM1,…,GMMe,…,GMME}を出力する。なお、ある状態eから他の状態e’への遷移確率ae,e’を1/Eとする。
。
トHMMを用いて、音響イベントHMMに含まれる各音響イベントGMMeに対する事後特徴量ベクトルPostt (eval)の尤度p(Postt (eval)|GMMe)を算出する。
成される時系列の最適経路を算出し、最適経路に含まれる各フレームjにおける音響イベ
ントqtを出力する。
り、必ずしも識別器に対して最適な事後特徴量が抽出されているとは限らない。そのため、入力データによっては音響イベントの検出精度が低下するという問題があった。
る。経路探索部は、音響イベントの尤度を用いて評価用データ全体の最適経路を算出し、評価用データの各フレームの音響イベントを出力する。
[発明の骨子]
この発明の特徴は、入力音響信号から直接各音響イベントに対する確率を推定する音響イベント識別モデルを学習し、これを用いて最適な音響イベント時系列の経路を探索して
音響イベント検出を実施する点にある。これはすなわち、従来は独立して行なっていた事後特徴量の抽出と音響イベントの識別とを統一的に扱っていることを示しており、この点においてこの発明は従来の技術と異なっている。
[ディープニューラルネットワーク]
この発明では、従来の事後特徴量抽出モデル及び音響イベントHMMの代わりに、音響信
号の特徴量を入力として各音響イベントに対する尤度を直接推定する音響イベント識別モデルをディープニューラルネットワークで実現する。ディープニューラルネットワークは多層パーセプトロンの一種であり、通常の多層パーセプトロンが三層程度の識別層を有するのに対し、深層学習(ディープラーニング)に基づいて、より多くの識別層を有し、通常の多層パーセプトロンよりも遥かに深いネットワークを構築する。なお、ディープニューラルネットワークの一般的な説明は、下記の参考文献1、参考文献2を参照されたい。〔参考文献1〕A. Mohamed, G. Dahl, G. Hinton, “Acoustic Modeling using Deep Belief Networks”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, pp. 14-22, 2012
〔参考文献2〕久保陽太郎、「ディープラーニングによるパターン認識」、情報処理学会誌、Vol. 54、No. 5、pp. 500-508、May 2013
ディープニューラルネットワークは、図5に示すような深い識別層を持つニューラルネットワークを構築する。このような深い識別層を持たせることで、音響イベントの検出性能及び識別性能を高めることができる。ディープニューラルネットワークでは、各識別層として図6に示すような制約付きボルツマンマシン(RBM: Restricted Boltzmann Machine)を学習し、その後、各識別層の制約付きボルツマンマシンを連結してネットワーク全体のパラメータを調整する。
クトルv={v1,…,vi,…,vI}と、出力信号であるJ次元の隠れ変数ベクトルh={h1,…,hj,…,hJ}の関係をネットワークにより記述したモデルである。制約付きボルツマンマシンは、
可視層と隠れ層を持ち、各層の各ノードは、各ベクトルの各次元に一対一で対応する。ここで、隠れ変数とは、観測変数に潜在的に存在する特徴を示しており、観測変数を制約付きボルツマンマシンに入力することにより、観測変数に潜在的に存在する特徴が抽出される。また、制約付きボルツマンマシンには可視層内及び隠れ層内でのノード間の関係は考慮しないという制約がある。
後述のソフトマックス活性化関数やシグモイド関数を用いて正の連続値として表現される。特に最終層(すなわち、出力層)の活性化状態は、ソフトマックス活性化関数により[0:1]の値に正規化され、最終層の各ノードに対する確率分布とみなすことが可能である。
すなわち、最終層Kの各ノードjを各音響イベントeに対応するノードと見れば、最終層Kの各ノードjから出力される確率は入力音響信号xtの各音響イベントeに対する確率、すなわち入力音響信号xtの各音響イベントeに対する尤度に相当する。つまり、ディープニュー
ラルネットワークによれば、音響信号を入力として、各音響イベントに対する尤度を直接推定するモデルが実現できる。これは、従来の入力音響信号からの事後特徴量の抽出と音
響イベントの識別(パターン識別)とを一つのモデルで同時に行っていることを意味しており、音響特徴量の抽出と音響イベントの識別との統一的な枠組みとなっている。
[第一実施形態]
この発明の第一実施形態は、学習用の音響信号から音響イベント識別モデルを学習する音響イベント識別モデル学習装置と、音響イベント識別モデルを用いて入力音響信号に含まれる音響イベントを推定する音響イベント検出装置とからなる。
<音響イベント識別モデル学習装置>
図7を参照して、実施形態に係る音響イベント識別モデル学習装置1の機能構成の一例を説明する。音響イベント識別モデル学習装置1は、学習用データ記憶部11、学習用正解ラベル記憶部12、開発用データ記憶部13、開発用正解ラベル記憶部14、学習用データ特徴量抽出部15、開発用データ特徴量抽出部16、モデルパラメータ学習部17、モデルパラメータ調整部18、音響イベント識別モデル記憶部19を含む。音響イベント識別モデル学習装置1は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコンピュータ
に特別なプログラムが読み込まれて構成された特別な装置である。音響イベント識別モデル学習装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響イベント識別モデル学習装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音響イベント識別モデル学習装置1が備える各記憶部は、例えば、RAM
(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音響イベント識別モデル学習装置1が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
残りの音響信号を開発用データxt (dev)とすればよい。
から学習用データ特徴量Xt (train)を抽出する。学習用データ特徴量抽出部15の構成は
従来と同様であり、以下のように音響特徴量の抽出を行う。
付きボルツマンマシンRBM(Λ(1))への入力信号vt (1)として、vt (1)=Xt (train)からパラメータΛ(1)を推定する。このとき、RBM(Λ(1))からの出力信号をht (1)とする。
付きボルツマンマシンRBM(Λ(2))への入力信号vt (2)として、vt (2)=ht (1)からパラメータΛ(2)を推定する。このときのRBM(Λ(2))からの出力信号をht (2)とする。
第k層の制約付きボルツマンマシンの入力信号vt (k)として、パラメータΛ(k)の推定処理
を繰り返し実行する。これにより、すべての識別層k∈1,…,Kの制約付きボルツマンマシ
ンを学習する。
力信号(隠れ変数)ht (k)との同時確率分布は次式(1)により与えられる。
、次式(2)で与えられる。
み行列である。
各要素が[0:1]の範囲の値となるベクトルとなるため、Bernoulli-Bernoulli RBMを適用する。
照されたい。
〔参考文献3〕M. A. Carreira-Perpinan and G. E. Hinton, “On Contrastive Divergence Learning”, in Proceedings of AISTATS, 2005.
ら開発用データ特徴量Xt (dev)を抽出する。開発用データ特徴量抽出部16の構成は従来
と同様であり、以下のように音響特徴量の抽出を行う。
Λを出力する。パラメータ^Λは、各識別層の制約付きボルツマンマシンの調整後のパラ
メータの集合であり、^Λ={^Λ(1),…,^Λ(k),…,^Λ(K)}と表すことができる。
。
グモイド活性化関数を用いるが、最終層Kの出力信号ht (K)のみ、確率表現のため各要素の和が1となるよう活性化関数σ(K)(・)にソフトマックス活性化関数を用いる。
音響イベント識別モデル記憶部19へ記憶する。
図9を参照して、第一実施形態に係る音響イベント検出装置2の機能構成の一例を説明する。音響イベント検出装置2は、音響イベント識別モデル記憶部19、評価用データ特徴量抽出部21、音響イベント確率取得部22、経路探索部23を含む。音響イベント検出装置2は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコンピュータに特別なプロ
グラムが読み込まれて構成された特別な装置である。音響イベント検出装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響イベント検出装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音響イベント検出装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、
ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
デルDNN(^Λ)は、音響特徴量ベクトルを入力として、各音響イベントに対する確率(尤度)を出力するモデルであり、K個の識別層の制約付きボルツマンマシンRBM(^Λ(1)),…,RBM(^Λ(k)),…,RBM(^Λ(K))を連結して構成される一つのディープニューラルネットワークである。ここで、^Λ={^Λ(1),…,^Λ(k),…,^Λ(K)}である。
数ケプストラム係数と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcct (eval)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)のベクトルMfcct (eval)を連結した351次元(=39×9)ベクトルXt (eval)を構成する。
価用データ特徴量Xt (eval)を入力して各音響イベントeの尤度を得る。各音響イベントの
尤度は、フレームtにおける各音響イベント{1,…,e,…,E}に対する事後確率であり、音響イベント識別モデルDNN(^Λ)の最終層Kにおける活性化関数σ(K)(・)の出力値ht,j (K)で
ある。ht,j (K)は、次式(12)で表される。
トqtを出力する。経路探索部23は、各フレームt,各音響イベントjに対する活性化関数の出力値h(t,j) (K)から、Viterbiアルゴリズムにより、評価用データxt (eval)に含まれる全フレームにおける音響イベントの時系列の最適経路を算出し、フレームtにおける音響
イベントqtを出力する。具体的には、各フレームt=0,1,…,T-1についての取り得る音響イベントの組合せのうち、その組み合わせに対応する確率h(t,j) (K)の総和が最大となるも
のを最適経路として求め、その最適経路を構成する各フレームtの音響イベントjを音響イベントqtとして出力する。
この発明の第二実施形態は、学習用の音響信号から高解像度音響イベント識別モデルを学習する音響イベント識別モデル学習装置(以下、高解像度音響イベント識別モデル学習装置ともいう)と、高解像度音響イベント識別モデルを用いて入力音響信号に含まれる音響イベントを推定する音響イベント検出装置(以下、高解像度音響イベント検出装置ともいう)とからなる。
第一実施形態では、前述のディープニューラルネットワークに基づき音響イベント検出が効果的に実施可能であることを示した。しかし、第一実施形態では、音響イベントが単独で観測されることを前提としており、人の声や背景雑音(例えばエアコンの音等)と音響イベントが同時に発生し、複数の音源が重なって観測される場合を考慮していない。
クトルを抽出する。その後、コンテキスト窓を用いて、現在の時刻tを中心として、その
前後5フレーム分のベクトルを束ねたものを用いることで、音響イベント検出を実施する
。
ル周波数フィルタバンクを適用することで、26次元の特徴量に圧縮することで得られる。(正確には512点離散フーリエ変換を用いて512次元のパワースペクトルを抽出するが、パワースペクトルは左右対称の形状を有しており、対称な片側部分255次元と共通部分2次元を含めた257次元で、元のフレーム分割された入力音響信号の情報が保持される。)
メル周波数ケプストラム係数は、26次元の対数メル周波数スペクトルに対して、離散コサイン変換を適用することで、12次元の特徴量に圧縮することで得られる。
在する環境下において効果的に音響イベントを検出可能な高解像度音響イベント識別モデル学習装置及び高解像度音響イベント検出装置を実現する。
図13を参照して、第二実施形態に係る高解像度音響イベント識別モデル学習装置3の機能構成の一例を説明する。高解像度音響イベント識別モデル学習装置3は、第一実施形態に係る音響イベント識別モデル学習装置1と同様に、学習用データ記憶部11、学習用正解ラベル記憶部12、開発用データ記憶部13、開発用正解ラベル記憶部14、モデルパラメータ学習部17、モデルパラメータ調整部18を含み、学習用データ特徴量抽出部15の代わりに高解像度学習用データ特徴量抽出部35を、開発用データ特徴量抽出部16の代わりに高解像度開発用データ特徴量抽出部36を、音響イベント識別モデル記憶部19の代わりに高解像度音響イベント識別モデル記憶部39をさらに含む。高解像度音響イベント識別モデル学習装置3は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコン
ピュータに特別なプログラムが読み込まれて構成された特別な装置である。高解像度音響イベント識別モデル学習装置3は、例えば、中央演算処理装置の制御のもとで各処理を実行する。高解像度音響イベント識別モデル学習装置3に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。高解像度音響イベント識別モデル学習装置3が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハード
ディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。高解像度音響イベント識別モデル学習装置3が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
残りの音響信号を開発用データxt (dev)とすればよい。
として、フレームtにおける257次元のパワースペクトルベクトルSpct (train)を抽出する
。そして、図15に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpct (train)を連結した4883次元(=257×19)ベクトルXt (train)を構成する。第一実施形態では、ベクトルXt (train)は858次元、もしくは429次元となっており、これに比べて第二実施形態におけるベクトルXt (train)は4883次元と高解像度の
特徴量となっている。
量Xt (train)を用いて学習し、各識別層の制約付きボルツマンマシンRBM(Λ(1)),…,RBM(
Λ(k)),…,RBM(Λ(K))を出力する。ここで、Λ(k)は制約付きボルツマンマシンの第k層のパラメータである。
層の制約付きボルツマンマシンRBM(Λ(1))への入力信号vt (1)として、vt (1)=Xt (train)からパラメータΛ(1)を推定する。このとき、RBM(Λ(1))からの出力信号をht (1)とする。
付きボルツマンマシンRBM(Λ(2))への入力信号vt (2)として、vt (2)=ht (1)からパラメータΛ(2)を推定する。このときのRBM(Λ(2))からの出力信号をht (2)とする。
第k層の制約付きボルツマンマシンの入力信号vt (k)として、パラメータΛ(k)の推定処理
を繰り返し実行する。これにより、すべての識別層k∈1,…,Kの制約付きボルツマンマシ
ンを学習する。
力信号(隠れ変数)ht (k)との同時確率分布は次式(16)により与えられる。
り、次式(17)で与えられる。
重み行列である。
ベクトルが対数メル周波数スペクトルベクトルもしくはメル周波数ケプストラム係数ベクトルで与えられ、それらの頻度分布がガウス分布に従うと仮定するため、k=1のときはエ
ネルギー関数にGaussian-Bernoulli RBMを適用する。しかし、第二実施形態における信号ベクトルはパワースペクトルベクトルSpct (train)をもとに構成され、その頻度分布は指
数分布に従うため、k=1のときはエネルギー関数にExponential-Bernoulli RBMを適用する。一方、k≠1のときは、第一実施形態と同様に、入力信号vt (k)の各要素が[0:1]の範囲の値となるベクトルとなるため、Bernoulli-Bernoulli RBMを適用する。
ようなΛ(k)を求める。Contrastive Divergence法についての詳細は、上記の参考文献3
を参照されたい。
して、フレームtにおける257次元のパワースペクトルベクトルSpct (dev)を抽出する。そ
して、図15に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpct (dev)を連結した4883次元(=257×19)ベクトルXt (dev)を構成
する。
ベルGTt (dev)である。
層Kの活性化関数σ(K)(・)を用いる。活性化関数σ(K)(・)は再帰式で表されるため、第
1層から順に活性化関数σ(k)(・)を算出する必要がある。すなわち、関数q(Xt,GTt)を最適化することですべての識別層のパラメータが最適化されることになる。また、各識別層k(∀k、k≠K)の出力信号ht (k)の各要素値を[0:1]の範囲とするため、活性化関数σ(K)(・)にシグモイド活性化関数を用いるが、最終層Kの出力信号ht (K)のみ、確率表現のため
各要素の和が1となるよう活性化関数σ(K)(・)にソフトマックス活性化関数を用いる。
図16を参照して、第二実施形態に係る高解像度音響イベント検出装置4の機能構成の一例を説明する。高解像度音響イベント検出装置4は、第一実施形態に係る音響イベント検出装置2と同様に、音響イベント確率取得部22、経路探索部23を含み、音響イベント識別モデル記憶部19の代わりに高解像度音響イベント識別モデル記憶部39を、評価用データ特徴量抽出部21の代わりに高解像度評価用データ特徴量抽出部41をさらに含む。高解像度音響イベント検出装置4は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用
のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。高解像度音響イベント検出装置4は、例えば、中央演算処理装置の制御のもとで各処理を実行する。高解像度音響イベント検出装置4に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。高解像度音響イベント検出装置4が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもし
くはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェア
により構成することができる。
いる。高解像度音響イベント識別モデルDNN(^Λ)は、高解像度音響特徴量ベクトルを入力として、各音響イベントに対する確率(尤度)を出力するモデルであり、K個の識別層の
制約付きボルツマンマシンRBM(^Λ(1)),…,RBM(^Λ(k)),…,RBM(^Λ(K))を連結して構成
される一つのディープニューラルネットワークである。ここで、^Λ={^Λ(1),…,^Λ(k),…,^Λ(K)}である。
デルDNN(^Λ)へ高解像度評価用データ特徴量Xt (eval)を入力して各音響イベントeの尤度
を得る。各音響イベントの尤度は、フレームtにおける各音響イベント{1,…,e,…,E}に対する事後確率であり、高解像度音響イベント識別モデルDNN(^Λ)の最終層Kにおける活性
化関数σ(K)(・)の出力値ht,j (K)である。ht,j (K)は、次式(27)で表される。
トqtを出力する。経路探索部23は、各フレームt,各音響イベントjに対する活性化関数の出力値h(t,j) (K)から、Viterbiアルゴリズムにより、評価用データxt (eval)に含まれる全フレームにおける音響イベントの時系列の最適経路を算出し、フレームtにおける音響
イベントqtを出力する。具体的には、各フレームt=0,1,…,T-1についての取り得る音響イベントの組合せのうち、その組み合わせに対応する確率h(t,j) (K)の総和が最大となるも
のを最適経路として求め、その最適経路を構成する各フレームtの音響イベントjを音響イベントqtとして出力する。
第二実施形態の音響イベント検出技術によれば、音響イベント検出の際に高解像度信号分析に基づく高解像度特徴量を扱うことができ、人の声や背景雑音等の複数の音源が重なった環境下において、音響イベント検出の精度を向上することができる。
第二実施形態に係る高解像度学習用データ特徴量抽出部35、高解像度開発用データ特徴量抽出部36及び高解像度評価用データ特徴量抽出部41において、基本となる高解像度特徴量として、フレームtにおける257次元のパワースペクトルベクトルSpct (train)、Spct (dev)、Spct (eval)の自然対数を求めた対数パワースペクトルベクトルlSpct (train)、lSpct (dev)、lSpct (eval)を用いて高解像度特徴量である4883次元ベクトルXt (train)、Xt (dev)、Xt (eval)を構成してもよい。その場合、モデルパラメータ学習部17において、
識別層k=1のエネルギー関数に式(31)で与えられるGaussian-Bernoulli RBMを適用す
る。
この発明の効果を示すために、音響イベント検出の評価実験を行った。第一の実験では、複数の音響イベントが存在する音響信号を、従来の音響イベント検出装置及び第一実施形態の音響イベント検出装置に入力し、音響イベント検出結果を比較した。第二の実験では、複数の音響イベントが存在する音響信号を、第一実施形態の音響イベント検出装置及び第二実施形態の音響イベント検出装置に入力し、音響イベント検出結果を比較した。
発用データxt (dev)、評価用データxt (eval)それぞれにおける音響イベントの出現数およ
びその総時間を示した表である。例えば、扉の開く音を示す音響イベント「door open」
は、学習用データには20回出現し、その総時間が43.270秒であり、開発用データには20回出現し、その総時間が42.250秒であり、評価用データには20回出現し、その総時間が41.450秒である。
識別層の数Kの設定値を示す。縦軸は、検出した音響イベントの正解率を示し、高いほど
精度良く音響イベントを検出したことを表す。図19に示す実験結果によれば、識別層の数K及び各識別層のノード数D(k)のすべての組合せにおいて、非特許文献1による従来方
法よりも検出率が高かったことがわかる。図19の結果から、この発明により従来技術に比べて高い検出性能が得られることが明らかになった。
ータには570回出現する。
精度良く音響イベントを検出したことを表す。図22に示す実験結果によれば、識別層の数K及び各識別層のノード数256の組合せにおいて、第一実施形態による方法よりも第二実施形態による方法の方がさらに検出率が高かったことがわかる。図23に示す実験結果によれば、識別層の数K及び各識別層のノード数512の組合せにおいても、第一実施形態による方法よりも第二実施形態による方法の方がさらに検出率が高かったことがわかる。図22と図23の結果から、第二実施形態の高解像度音響イベント検出装置の方が第一実施形態の音響イベント検出装置よりもさらに高い検出性能が得られることが明らかになった。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
3 高解像度音響イベント識別モデル学習装置
2、8 音響イベント検出装置
4 高解像度音響イベント検出装置
11 学習用データ記憶部
12 学習用正解ラベル記憶部
13 開発用データ記憶部
14 開発用正解ラベル記憶部
15 学習用データ特徴量抽出部
16 開発用データ特徴量抽出部
17 モデルパラメータ学習部
18 モデルパラメータ調整部
19 音響イベント識別モデル記憶部
21 評価用データ特徴量抽出部
22 音響イベント確率取得部
23 経路探索部
35 高解像度学習用データ特徴量抽出部
36 高解像度開発用データ特徴量抽出部
39 高解像度音響イベント識別モデル記憶部
41 高解像度評価用データ特徴量抽出部
70 事後特徴量抽出モデル学習部
71 事後特徴量抽出モデル記憶部
72 音響イベントHMM学習部
73 音響イベントHMM記憶部
74 事後特徴量抽出部
75 HMM学習部
76 音響イベント尤度算出部
Claims (7)
- 複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する学習用データ特徴量抽出部と、
音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、上記学習用データ特徴量を用いて学習するモデルパラメータ学習部と、
複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する開発用データ特徴量抽出部と、
上記学習用データ特徴量、上記開発用データ特徴量、上記学習用データ特徴量の正解ラベル及び上記開発用データ特徴量の正解ラベルを用いて、上記ディープニューラルネットワークの各階層のパラメータを最適化するモデルパラメータ調整部と、
を含み、
上記ディープニューラルネットワークは、各識別層を制約付きボルツマンマシンとして、上記制約付きボルツマンマシンを連結して構成されるものであり、
上記モデルパラメータ学習部は、v t (k) を第k層の制約付きボルツマンマシンの入力信号とし、h t (k) を第k層の制約付きボルツマンマシンの出力信号とし、W (k) はD (k) ×D (k-1) 次元重み行列とし、第1層の制約付きボルツマンマシンのパラメータを次式で定義されるエネルギー関数に基づいて学習し、第2層以下の制約付きボルツマンマシンのパラメータは上位層の制約付きボルツマンマシンの出力信号を入力信号として推定する
- 請求項1に記載の音響イベント識別モデル学習装置であって、
上記モデルパラメータ学習部は、Kを上記ディープニューラルネットワークの識別層の数とし、kを1≦k≦Kの整数とし、Tを上記学習用データのフレーム数とし、vt (k)を第k層の制約付きボルツマンマシンの入力信号とし、ht (k)を第k層の制約付きボルツマンマシンの出力信号として、次式により第k層の制約付きボルツマンマシンのパラメータΛ(k)を学習する
- 請求項1または2に記載の音響イベント識別モデル学習装置であって、
上記モデルパラメータ調整部は、Kを上記ディープニューラルネットワークの識別層の数とし、Tを上記学習用データもしくは上記開発用データのフレーム数とし、Lt DNNを上記学習用データ及び上記開発用データのロス関数とし、Xtを上記学習用データ特徴量もしくは上記開発用データ特徴量とし、GTtを上記学習用データ特徴量の正解ラベルとし、GTt (dev)を上記開発用データ特徴量の正解ラベルとし、q(・)を第K層の活性化関数とし、Ω(・)を正則化項として、次式により上記ディープニューラルネットワークのパラメータ^Λを調整する
- 請求項1から3のいずれかに記載の音響イベント識別モデル学習装置を備え、
上記音響イベント識別モデル学習装置により学習された音響イベント識別モデルを記憶する音響イベント識別モデル記憶部と、
複数の音響イベントが含まれる音響信号である評価用データから評価用データ特徴量を抽出する評価用データ特徴量抽出部と、
上記音響イベント識別モデルへ上記評価用データ特徴量を入力して各音響イベントの尤度を得る音響イベント確率取得部と、
上記音響イベントの尤度を用いて上記評価用データ全体の最適経路を算出し、上記評価用データの各フレームの音響イベントを出力する経路探索部と、
を含む音響イベント検出装置。 - 学習用データ特徴量抽出部が、複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する学習用データ特徴量抽出ステップと、
モデルパラメータ学習部が、音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、上記学習用データ特徴量を用いて学習するモデルパラメータ学習ステップと、
開発用データ特徴量抽出部が、複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する開発用データ特徴量抽出ステップと、
モデルパラメータ調整部が、上記学習用データ特徴量、上記開発用データ特徴量、上記学習用データ特徴量の正解ラベル及び上記開発用データ特徴量の正解ラベルを用いて、上記ディープニューラルネットワークの各階層のパラメータを最適化するモデルパラメータ調整ステップと、
を含み、
上記ディープニューラルネットワークは、各識別層を制約付きボルツマンマシンとして、上記制約付きボルツマンマシンを連結して構成されるものであり、
上記モデルパラメータ学習ステップは、v t (k) を第k層の制約付きボルツマンマシンの入力信号とし、h t (k) を第k層の制約付きボルツマンマシンの出力信号とし、W (k) はD (k) ×D (k-1) 次元重み行列とし、第1層の制約付きボルツマンマシンのパラメータを次式で定義されるエネルギー関数に基づいて学習し、第2層以下の制約付きボルツマンマシンのパラメータは上位層の制約付きボルツマンマシンの出力信号を入力信号として推定する
- 請求項5に記載の音響イベント識別モデル学習方法の各ステップと、
評価用データ特徴量抽出部が、評価用データから評価用データ特徴量を抽出する評価用データ特徴量抽出ステップと、
音響イベント確率取得部が、上記音響イベント識別モデル学習方法の各ステップにより学習された音響イベント識別モデルへ上記評価用データ特徴量を入力して各音響イベントの尤度を得る音響イベント確率取得ステップと、
経路探索部が、上記音響イベントの尤度を用いて上記評価用データ全体の最適経路を算出し、上記評価用データの各フレームの音響イベントを出力する経路探索ステップと、
を含む音響イベント検出方法。 - 請求項1から3のいずれかに記載の音響イベント識別モデル学習装置または請求項4に記載の音響イベント検出装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014048616A JP6235938B2 (ja) | 2013-08-13 | 2014-03-12 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013168305 | 2013-08-13 | ||
JP2013168305 | 2013-08-13 | ||
JP2014048616A JP6235938B2 (ja) | 2013-08-13 | 2014-03-12 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015057630A JP2015057630A (ja) | 2015-03-26 |
JP6235938B2 true JP6235938B2 (ja) | 2017-11-22 |
Family
ID=52815730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014048616A Active JP6235938B2 (ja) | 2013-08-13 | 2014-03-12 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6235938B2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6323947B2 (ja) * | 2014-05-01 | 2018-05-16 | 日本放送協会 | 音響イベント認識装置、及びプログラム |
US9368110B1 (en) | 2015-07-07 | 2016-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for distinguishing components of an acoustic signal |
CN108292501A (zh) * | 2015-12-01 | 2018-07-17 | 三菱电机株式会社 | 声音识别装置、声音增强装置、声音识别方法、声音增强方法以及导航系统 |
JP6671221B2 (ja) * | 2016-04-07 | 2020-03-25 | 日本放送協会 | 音声選択装置及びプログラム |
KR101877127B1 (ko) * | 2016-10-06 | 2018-07-10 | 국방과학연구소 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
KR101842612B1 (ko) * | 2016-10-12 | 2018-03-27 | 고려대학교 산학협력단 | 딥러닝을 이용한 관심 음향 인식 방법 및 장치 |
JP6727340B2 (ja) | 2017-01-12 | 2020-07-22 | Kddi株式会社 | 情報処理装置、方法及びコンピュータ可読記憶媒体 |
CN110168572A (zh) | 2017-01-13 | 2019-08-23 | 凯迪迪爱通信技术有限公司 | 信息处理方法、信息处理装置、计算机可读存储介质 |
CN109473119B (zh) * | 2017-09-07 | 2023-04-07 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN109784487B (zh) * | 2017-11-15 | 2023-04-28 | 富士通株式会社 | 用于事件检测的深度学习网络、该网络的训练装置及方法 |
WO2019166296A1 (en) * | 2018-02-28 | 2019-09-06 | Robert Bosch Gmbh | System and method for audio event detection in surveillance systems |
CN112784987B (zh) * | 2019-01-29 | 2024-01-23 | 武汉星巡智能科技有限公司 | 基于多级神经网络级联的目标看护方法及装置 |
JPWO2020183845A1 (ja) * | 2019-03-08 | 2021-11-25 | 日本電気株式会社 | 音響処理方法 |
CN110070895B (zh) * | 2019-03-11 | 2021-06-22 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
CN112130709B (zh) * | 2020-09-21 | 2024-05-17 | 深圳大学 | 一种基于电容按键的人机交互方法和交互系统 |
CN112130710B (zh) * | 2020-09-22 | 2024-05-17 | 深圳大学 | 一种基于电容触摸屏的人机交互系统和交互方法 |
KR102594163B1 (ko) * | 2021-01-05 | 2023-10-26 | 한국전자통신연구원 | 음향 신호를 인식하는 학습 모델의 트레이닝 방법과 그 학습 모델을 이용한 음향 신호의 인식 방법 및 그 방법들을 수행하는 장치 |
CN113724734B (zh) * | 2021-08-31 | 2023-07-25 | 上海师范大学 | 声音事件的检测方法、装置、存储介质及电子装置 |
CN113724733B (zh) * | 2021-08-31 | 2023-08-01 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
CN115409073B (zh) * | 2022-10-31 | 2023-03-24 | 之江实验室 | 一种面向i/q信号识别的半监督宽度学习方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6164639B2 (ja) * | 2013-05-23 | 2017-07-19 | 国立研究開発法人情報通信研究機構 | ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム |
-
2014
- 2014-03-12 JP JP2014048616A patent/JP6235938B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015057630A (ja) | 2015-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6235938B2 (ja) | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム | |
CN111445905B (zh) | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 | |
JP2018194828A (ja) | マルチビューベクトルの処理方法及び装置 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Sun et al. | Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization | |
CN114582325A (zh) | 音频检测方法、装置、计算机设备、存储介质 | |
Shankar et al. | Spoken Keyword Detection Using Joint DTW-CNN. | |
Tronci et al. | Transfer learning from audio domains a valuable tool for structural health monitoring | |
Ahmadi et al. | A new method for voice activity detection based on sparse representation | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Berdibayeva et al. | Features of Speech Commands Recognition Using an Artificial Neural Network | |
Long et al. | Offline to online speaker adaptation for real-time deep neural network based LVCSR systems | |
Räsänen et al. | A noise robust method for pattern discovery in quantized time series: the concept matrix approach | |
Kavitha et al. | Deep Learning based Audio Processing Speech Emotion Detection | |
Badura et al. | Lip reading using fuzzy logic network with memory | |
Backer et al. | Horn and whistle recognition techniques for nao robots | |
Eltanashi et al. | Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature | |
Najaran | An evolutionary ensemble learning for diagnosing COVID-19 via cough signals | |
CN116486786B (zh) | 一种融合方言和小语种的语音识别控制方法 | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
Subhashini Pedalanka et al. | An Enhanced Deep Neural Network-Based Approach for Speaker Recognition Using Triumvirate Euphemism Strategy | |
Sun et al. | A method of speaker recognition for small-scale speakers based on one-versus-rest and neural network | |
Choi et al. | Weakly labeled acoustic event detection using local detector and global classifier | |
Bohra et al. | Language Identification using Stacked Convolutional Neural Network (SCNN) | |
Mital et al. | Neural Network Utilization for Flagged Words Detection thru Distinct Audio Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171027 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6235938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |