JP6235938B2 - 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム - Google Patents

音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム Download PDF

Info

Publication number
JP6235938B2
JP6235938B2 JP2014048616A JP2014048616A JP6235938B2 JP 6235938 B2 JP6235938 B2 JP 6235938B2 JP 2014048616 A JP2014048616 A JP 2014048616A JP 2014048616 A JP2014048616 A JP 2014048616A JP 6235938 B2 JP6235938 B2 JP 6235938B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
acoustic event
data
learning
acoustic
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014048616A
Other languages
English (en)
Other versions
JP2015057630A (ja )
Inventor
ミケル エスピ
ミケル エスピ
雅清 藤本
雅清 藤本
陽太郎 久保
陽太郎 久保
中谷 智広
智広 中谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Description

この発明は、様々な音源に起因する音響イベントが複数含まれる音響信号から、それぞれの音響イベントの出現する時間区間を推定する音響イベント検出技術に関する。

収音された音響信号に含まれる様々な非音声の音響イベントを検出する音響イベント検出技術(AED: Acoustic Event Detection)は、直面する音環境における音声認識性能の
予測、音環境に適合した音声認識もしくは音響信号処理など、様々な音情報処理技術への応用が見込まれる技術である。加えて、セキュリティシステムや高齢者の見守りシステムなどへも応用可能であり、今後、実世界において必要不可欠な技術となると考えられる。

音響イベント検出技術では、入力音響信号を時間軸方向に一定時間幅で始点を移動させながら一定時間長の音響信号をフレームとして切り出し、フレーム毎に現時刻の入力音響信号に含まれる音響イベントが何であるかを識別しラベリングを行う。この際、音響イベントとしては、「足音」、「ドアノック」、「キーボードタイピング」などがあり、音響イベントが存在しない「無音」も音響イベントの一種として扱われる。音響イベント検出では、図1に示すように、入力音響信号のフレームの時系列{x1,x2,…}を入力として、各フレームに対応した音響イベントのラベルを出力する。図1の例では、1番目のフレームx1は「無音」がラベリングされ、2番目のフレームx2は「足音」がラベリングされ、3番目のフレームx3は「足音」がラベリングされていることがわかる。

音響イベント検出技術は、入力音響信号xtから音響イベントを識別するための特徴量Xtを抽出する特徴抽出器と、抽出された特徴量Xtを用いて音響イベントqtを識別する識別器とから構成される。識別器では、例えば、Lt AED(e)=p(Xt|qt=e)のような評価関数を定義
し、フレームtにおける特徴量Xtがある音響イベントqtである確率(もしくは、尤度)を
計算し、最も確率の高い音響イベントqt=eを出力する。

非特許文献1に記載の音響イベント検出方法では、Tandem connectionist隠れマルコフモデル(HMM: Hidden Markov Model)に基づく音響イベント検出方法が開示されている。非特許文献1に記載された音響イベント検出方法では、まず、入力音響信号から事後特徴量を抽出するためのモデル(以下、事後特徴量抽出モデルという。)であるニューラルネットワーク(人工神経回路網)のパラメータを学習する。次に、学習した事後特徴量抽出モデルにより事後特徴量を抽出し、抽出された事後特徴量を用いて入力音響信号の各音響イベントの混合ガウス分布(GMM: Gaussian Mixture Model)を学習する。その後、各音
響イベントeの混合ガウス分布であるGMMeを一つの状態とみなして、ある音響イベントeから異なる音響イベントe’への状態遷移を記述したTandem connectionist HMMを音響イベ
ントHMMとして構築する。ここで、事後特徴量としては、あるフレームtの信号がある音響イベントeに合致する確率そのものを利用する。また、事後特徴量は、複数のフレームの
信号を束ねた信号をニューラルネットワークの入力としており、あるフレームtにおける
信号の前後関係を考慮することで、より正確な音響イベントの弁別特徴を記述可能となる。ここで、ニューラルネットワークには複数の識別層を有する多層パーセプトロン(MLP: Multi-Layer Perceptron)が用いられる。

図2から図4を用いて、非特許文献1による音響イベント検出技術の処理をより詳細に説明する。図2は、事後特徴量抽出モデルの学習及び音響イベントHMMの学習を行う音響
イベント識別モデル学習装置の機能構成の一例である。

学習用データ記憶部11には、事後特徴量抽出モデルの学習に用いるための音響信号である学習用データxt (train)が記憶されている。学習用正解ラベル記憶部12には、学習
用データxt (train)の各フレームtにおける音響イベントが定義済みの音響イベント{1,…,e,…,E}のいずれであるかを示した正解ラベルGTt (train)が記憶されている。開発用デー
タ記憶部13には、音響イベントHMMの学習に用いるための音響信号である開発用データxt (dev)が記憶されている。開発用正解ラベル記憶部14には、開発用データxt (dev)の各
フレームtにおける音響イベントが定義済みの音響イベント{1,…,e,…,E}のいずれであるかを示した正解ラベルGTt (dev)が記憶されている。

学習用データ特徴量抽出部15において、学習用データxt (train)から特徴量Xt (train)を抽出する。具体的には、学習用データxt (train)から短時間フレーム音響分析により、
基本となる音響特徴量として、フレームtにおける12次元のメル周波数ケプストラム係数
と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcct (train)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)の
ベクトルMfcct (train)を連結した351次元(=39×9)ベクトルXt (train)を構成する。

開発用データ特徴量抽出部16において、開発用データxt (dev)から特徴量Xt (dev)を抽出する。開発用データ特徴量抽出部16は、学習用データ特徴量抽出部15と同様の処理により特徴量Xt (dev)を求めることができる。

事後特徴量抽出モデル学習部70において、特徴量Xt (train)、特徴量Xt (dev)、特徴量Xt (train)に対応する正解ラベルGTt (train)及び特徴量Xt (dev)に対応する正解ラベルGTt (dev)を用いて、Feed-forwardアルゴリズムに基づき三層からなる多層パーセプトロンを学習し、事後特徴量抽出モデルのモデルパラメータMLP{Θ(1)(2)(3)}を出力する。ここで、Θ(k)は、識別層kのパラメータセットを示す。最終層Kの各出力ノードjは、各音響イベントeに一対一で対応する。

図3に音響イベントHMM学習部72の詳細構成を例示する。音響イベントHMM学習部72は、事後特徴量抽出部74及びHMM学習部75を含む。

事後特徴量抽出部74において、特徴量Xt (dev)を事後特徴量抽出モデルに入力し、各
音響イベント{1,…,e,…,E}に対する事後確率(最終層Kの各出力ノードjが出力する確率
)を計算し、それらを要素としてもつ事後特徴量ベクトルPostt (dev)を算出する。

HMM学習部75において、事後特徴量ベクトルPostt (dev)と、開発用データxt (dev)のフレームtにおける音響イベントが何であるかを示した正解ラベルGTt (dev)とを用いて、EM
アルゴリズム(Expectation-Maximization algorithm)に基づき、各音響イベントeの混
合ガウス分布であるGMMeを学習する。各音響イベントeの混合ガウス分布GMMeを一つの状
態とみなしてErgodic HMMを音響イベントHMMとして構成し、HMM={GMM1,…,GMMe,…,GMME}を出力する。なお、ある状態eから他の状態e’への遷移確率ae,e’を1/Eとする。

図4に音響イベントの識別を行う音響イベント検出装置の機能構成を例示する。音響イベント検出装置は、入力データ特徴量抽出部21、事後特徴量抽出部74、音響イベント尤度算出部76及び経路探索部23を含む。

評価用データ特徴量抽出部21において、音響イベントを検出するための音響信号である評価用データxt (eval)から特徴量ベクトルXt (eval)を抽出する。特徴量ベクトルを求める処理は、学習用データ特徴量抽出部15及び開発用データ特徴量抽出部16と同様である。

事後特徴量抽出部74において、特徴量ベクトルXt (eval)を事後特徴量抽出モデルに入力し、各音響イベント{1,…,e,…,E}に対する事後確率(最終層の各出力ノードjが出力する確率)を計算し、それらを要素としてもつ事後特徴量ベクトルPostt (eval)を算出する

音響イベント尤度算出部76において、事後特徴量ベクトルPostt (eval)と音響イベン
トHMMを用いて、音響イベントHMMに含まれる各音響イベントGMMeに対する事後特徴量ベクトルPostt (eval)の尤度p(Postt (eval)|GMMe)を算出する。

経路探索部23において、各フレームt及び各音響イベントGMMeに対する尤度p(Postt (eval)|GMMe)から、Viterbiアルゴリズムにより、全フレームにおける音響イベントから構
成される時系列の最適経路を算出し、最適経路に含まれる各フレームjにおける音響イベ
ントqtを出力する。

X. Zhuang, Xi Zhou, M. Hasegawa-Johnson, T. S. Huang, "Real-world acoustic event detection", Pattern Recognition Letters, 31(12), pp. 1543-1551, 2010.

非特許文献1に記載の技術では、前述の方法により音響イベントの検出を実施しており、事後特徴量の利用が効果的であることが示されている。しかし、この方法では事後特徴量の抽出器(事後特徴量抽出モデル)と識別器(音響イベントHMM)が独立に存在してお
り、必ずしも識別器に対して最適な事後特徴量が抽出されているとは限らない。そのため、入力データによっては音響イベントの検出精度が低下するという問題があった。

この発明の目的は、音響イベント検出の際に事後特徴量の抽出と音響イベントの検出を統一的に扱い、音響イベント検出の精度を向上することである。

上記の課題を解決するために、この発明の一態様による音響イベント識別モデル学習装置は、学習用データ特徴量抽出部、モデルパラメータ学習部、開発用データ特徴量抽出部及びモデルパラメータ調整部を含む。学習用データ特徴量抽出部は、複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する。モデルパラメータ学習部は、音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、学習用データ特徴量を用いて学習する。開発用データ特徴量抽出部は、複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する。モデルパラメータ調整部は、学習用データ特徴量、開発用データ特徴量、学習用データ特徴量の正解ラベル及び開発用データ特徴量の正解ラベルを用いて、ディープニューラルネットワークの各階層のパラメータを最適化する。

この発明の他の態様による音響イベント検出装置は、音響イベント識別モデル記憶部、評価用データ特徴量抽出部、音響イベント確率取得部及び経路探索部を含む。音響イベント識別モデル記憶部は、音響イベント識別モデル学習装置により学習された音響イベント識別モデルを記憶する。評価用データ特徴量抽出部は、複数の音響イベントが含まれる音響信号である評価用データから評価用データ特徴量を抽出する。音響イベント確率取得部は、音響イベント識別モデルへ評価用データ特徴量を入力して各音響イベントの尤度を得
る。経路探索部は、音響イベントの尤度を用いて評価用データ全体の最適経路を算出し、評価用データの各フレームの音響イベントを出力する。

この発明によれば、音響イベント検出の際に事後特徴量の抽出と音響イベントの検出を統一的に扱うことができ、音響イベント検出の精度を向上することができる。

図1は、従来の音響イベント検出技術の基本的な構成を例示する図である。 図2は、従来の音響イベント識別モデル学習装置の機能構成を例示する図である。 図3は、従来の音響イベントHMM学習部の機能構成を例示する図である。 図4は、従来の音響イベント検出装置の機能構成を例示する図である。 図5は、ディープニューラルネットワークを説明するための図である。 図6は、制約付きボルツマンマシンを説明するための図である。 図7は、第一実施形態の音響イベント識別モデル学習装置の機能構成を例示する図である。 図8は、第一実施形態の音響イベント識別モデル学習方法の処理フローを例示する図である。 図9は、第一実施形態の音響イベント検出装置の機能構成を例示する図である。 図10は、第一実施形態の音響イベント検出方法の処理フローを例示する図である。 図11は、26次元の対数メル周波数スペクトルを用いた特徴量抽出を説明するための図である。 図12は、12次元のメル周波数ケプストラム係数を用いた特徴量抽出を説明するための図である。 図13は、第二実施形態の音響イベント識別モデル学習装置の機能構成を例示する図である。 図14は、第二実施形態の音響イベント識別モデル学習方法の処理フローを例示する図である。 図15は、257次元パワースペクトルを用いた高解像度特徴量抽出を説明するための図である。 図16は、第二実施形態の音響イベント検出装置の機能構成を例示する図である。 図17は、第二実施形態の音響イベント検出方法の処理フローを例示する図である。 図18は、音響イベント検出実験の対象データを示す図である。 図19は、音響イベント検出実験の結果を示す図である。 図20は、音響イベント検出実験の結果を示す図である。 図21は、音響イベント検出実験の対象データを示す図である。 図22は、音響イベント検出実験の結果を示す図である。 図23は、音響イベント検出実験の結果を示す図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[発明の骨子]
この発明の特徴は、入力音響信号から直接各音響イベントに対する確率を推定する音響イベント識別モデルを学習し、これを用いて最適な音響イベント時系列の経路を探索して
音響イベント検出を実施する点にある。これはすなわち、従来は独立して行なっていた事後特徴量の抽出と音響イベントの識別とを統一的に扱っていることを示しており、この点においてこの発明は従来の技術と異なっている。

上記を実現するために、この発明では、従来の多層パーセプトロンより多くの識別層を持つディープニューラルネットワーク(DNN: Deep Neural Network)を用いて、音響イベント検出の際の事後特徴量の抽出器と識別器を別個のものとして扱うのではなく、それぞれを統一的に扱うように構成した。これにより、効果的に音響イベントを検出可能な音響イベント検出技術を提供することができる。
[ディープニューラルネットワーク]
この発明では、従来の事後特徴量抽出モデル及び音響イベントHMMの代わりに、音響信
号の特徴量を入力として各音響イベントに対する尤度を直接推定する音響イベント識別モデルをディープニューラルネットワークで実現する。ディープニューラルネットワークは多層パーセプトロンの一種であり、通常の多層パーセプトロンが三層程度の識別層を有するのに対し、深層学習(ディープラーニング)に基づいて、より多くの識別層を有し、通常の多層パーセプトロンよりも遥かに深いネットワークを構築する。なお、ディープニューラルネットワークの一般的な説明は、下記の参考文献1、参考文献2を参照されたい。〔参考文献1〕A. Mohamed, G. Dahl, G. Hinton, “Acoustic Modeling using Deep Belief Networks”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, pp. 14-22, 2012
〔参考文献2〕久保陽太郎、「ディープラーニングによるパターン認識」、情報処理学会誌、Vol. 54、No. 5、pp. 500-508、May 2013
ディープニューラルネットワークは、図5に示すような深い識別層を持つニューラルネットワークを構築する。このような深い識別層を持たせることで、音響イベントの検出性能及び識別性能を高めることができる。ディープニューラルネットワークでは、各識別層として図6に示すような制約付きボルツマンマシン(RBM: Restricted Boltzmann Machine)を学習し、その後、各識別層の制約付きボルツマンマシンを連結してネットワーク全体のパラメータを調整する。

制約付きボルツマンマシンは、図6に示すように、入力信号であるI次元の観測変数ベ
クトルv={v1,…,vi,…,vI}と、出力信号であるJ次元の隠れ変数ベクトルh={h1,…,hj,…,hJ}の関係をネットワークにより記述したモデルである。制約付きボルツマンマシンは、
可視層と隠れ層を持ち、各層の各ノードは、各ベクトルの各次元に一対一で対応する。ここで、隠れ変数とは、観測変数に潜在的に存在する特徴を示しており、観測変数を制約付きボルツマンマシンに入力することにより、観測変数に潜在的に存在する特徴が抽出される。また、制約付きボルツマンマシンには可視層内及び隠れ層内でのノード間の関係は考慮しないという制約がある。

ディープニューラルネットワークは、図5に示すように、制約付きボルツマンマシンを多数連結し、ある識別層kの隠れ変数h(k)を、次の識別層k+1の観測変数v(k+1)とすることで、観測変数の潜在的な特徴をより深く分析し抽出することが可能である。このとき隠れ変数は、ある識別層の各ノードjに対する活性化状態とも呼ばれる。この活性化状態は、
後述のソフトマックス活性化関数やシグモイド関数を用いて正の連続値として表現される。特に最終層(すなわち、出力層)の活性化状態は、ソフトマックス活性化関数により[0:1]の値に正規化され、最終層の各ノードに対する確率分布とみなすことが可能である。
すなわち、最終層Kの各ノードjを各音響イベントeに対応するノードと見れば、最終層Kの各ノードjから出力される確率は入力音響信号xtの各音響イベントeに対する確率、すなわち入力音響信号xtの各音響イベントeに対する尤度に相当する。つまり、ディープニュー
ラルネットワークによれば、音響信号を入力として、各音響イベントに対する尤度を直接推定するモデルが実現できる。これは、従来の入力音響信号からの事後特徴量の抽出と音
響イベントの識別(パターン識別)とを一つのモデルで同時に行っていることを意味しており、音響特徴量の抽出と音響イベントの識別との統一的な枠組みとなっている。
[第一実施形態]
この発明の第一実施形態は、学習用の音響信号から音響イベント識別モデルを学習する音響イベント識別モデル学習装置と、音響イベント識別モデルを用いて入力音響信号に含まれる音響イベントを推定する音響イベント検出装置とからなる。
<音響イベント識別モデル学習装置>
図7を参照して、実施形態に係る音響イベント識別モデル学習装置1の機能構成の一例を説明する。音響イベント識別モデル学習装置1は、学習用データ記憶部11、学習用正解ラベル記憶部12、開発用データ記憶部13、開発用正解ラベル記憶部14、学習用データ特徴量抽出部15、開発用データ特徴量抽出部16、モデルパラメータ学習部17、モデルパラメータ調整部18、音響イベント識別モデル記憶部19を含む。音響イベント識別モデル学習装置1は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコンピュータ
に特別なプログラムが読み込まれて構成された特別な装置である。音響イベント識別モデル学習装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響イベント識別モデル学習装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音響イベント識別モデル学習装置1が備える各記憶部は、例えば、RAM
(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音響イベント識別モデル学習装置1が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習用データ記憶部11には、複数の音響イベントが含まれる音響信号である学習用データxt (train)が記憶されている。

学習用正解ラベル記憶部12には、学習データxt (train)の各フレームtにおける音響イベントが定義済みのE個の音響イベント{1,…,e,…,E}のうちのいずれであるかを示した正解ラベルGTt (train)が記憶されている。

開発用データ記憶部13には、複数の音響イベントが含まれる音響信号である開発用データxt (dev)が記憶されている。

開発用正解ラベル記憶部14には、開発用データxt (dev)の各フレームtにおける音響イベントが定義済みのE個の音響イベント{1,…,e,…,E}のうちのいずれであるかを示した正解ラベルGTt (dev)が記憶部されている。

学習用データと開発用データは、いずれも複数の音響イベントが含まれる音響信号である点で共通し、性質上の差異はない。音響イベント識別モデルの学習過程において、一部のデータは二度利用し、その他のデータは一度のみ利用するため、便宜的に分類しているに過ぎない。したがって、これらのデータの収集は、特に区別なく様々な音環境で十分な量の音響信号を収音し、任意に選択した一部の音響信号を学習用データxt (train)とし、
残りの音響信号を開発用データxt (dev)とすればよい。

図8を参照して、音響イベント識別モデル学習方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップS11において、学習用データ特徴量抽出部15は、学習用データxt (train)
から学習用データ特徴量Xt (train)を抽出する。学習用データ特徴量抽出部15の構成は
従来と同様であり、以下のように音響特徴量の抽出を行う。

学習用データ特徴量抽出部15は、学習用データ記憶部11に記憶された学習用データxt (train)から短時間フレーム音響分析により、基本となる音響特徴量として、フレームtにおける12次元のメル周波数ケプストラム係数と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcct (train)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)のベクトルMfcct (train)を連結した351次元(=39×9)ベクトルXt (train)を構成する。

ステップS12において、モデルパラメータ学習部17は、ディープニューラルネットワークの各識別層のパラメータΛ(1),…,Λ(k),…,Λ(K)を、学習用データ特徴量Xt (train)を用いて学習し、各識別層の制約付きボルツマンマシンRBM(Λ(1)),…,RBM(Λ(k)),…,RBM(Λ(K))を出力する。ここで、Λ(k)は制約付きボルツマンマシンの第k層のパラメータである。

以下、モデルパラメータ学習部17の処理をより詳細に説明する。モデルパラメータ学習部17は、まず、ディープニューラルネットワークの第1層の制約付きボルツマンマシンであるRBM(Λ(1))を学習する。この際、学習用データ特徴量Xt (train)を第1層の制約
付きボルツマンマシンRBM(Λ(1))への入力信号vt (1)として、vt (1)=Xt (train)からパラメータΛ(1)を推定する。このとき、RBM(Λ(1))からの出力信号をht (1)とする。

次に、第1層の制約付きボルツマンマシンRBM(Λ(1))の出力信号ht (1)を第2層の制約
付きボルツマンマシンRBM(Λ(2))への入力信号vt (2)として、vt (2)=ht (1)からパラメータΛ(2)を推定する。このときのRBM(Λ(2))からの出力信号をht (2)とする。

そして、k=3,4…,Kの順に、第k-1層の制約付きボルツマンマシンの出力信号ht (k-1)
第k層の制約付きボルツマンマシンの入力信号vt (k)として、パラメータΛ(k)の推定処理
を繰り返し実行する。これにより、すべての識別層k∈1,…,Kの制約付きボルツマンマシ
ンを学習する。

上記のモデルパラメータ学習部17の処理において、入力信号(観測変数)vt (k)と出
力信号(隠れ変数)ht (k)との同時確率分布は次式(1)により与えられる。

式(1)において、関数E(・)は、vt (k)とht (k)との対応を表すエネルギー関数であり
、次式(2)で与えられる。

式(2)より、識別層kの制約付きボルツマンマシンのパラメータはΛ(k)={b(k),c(k),W(k)}で与えられる。ここで、b(k)は出力信号ht (k)のD(k)次元バイアスベクトルであり、c(k)は入力信号vt (k)のD(k-1)次元バイアスベクトルであり、W(k)はD(k)×D(k-1)次元重
み行列である。

式(2)において、k=1のときは入力信号がvt (1)=Xt (train)にて与えられる実信号ベクトルであるため、Gaussian-Bernoulli RBMを適用する。k≠1のときは、入力信号vt (k)
各要素が[0:1]の範囲の値となるベクトルとなるため、Bernoulli-Bernoulli RBMを適用する。

制約付きボルツマンマシンのパラメータΛ(k)は、次式(3)で表される周辺分布p(vt (k))を用いて最尤推定することで得られる。

すなわち、パラメータΛ(k)は、次式(4)(5)により与えられる。

式(5)において、Tは入力信号vt (k)の総フレーム数である。しかしながら多くの場合、式(5)の出力信号ht (k)に関する周辺化を解くことが困難であるため、Contrastive Divergence法と呼ばれるサンプリング法に基づく方法によりLRBM(k))を最大化するようなΛ(k)を求める。Contrastive Divergence法についての詳細は、下記の参考文献3を参
照されたい。
〔参考文献3〕M. A. Carreira-Perpinan and G. E. Hinton, “On Contrastive Divergence Learning”, in Proceedings of AISTATS, 2005.

音響イベント識別モデルDNN(Λ)は、K個の識別層の制約付きボルツマンマシンRBM(Λ(1)),…,RBM(Λ(k)),…,RBM(Λ(K))を連結して構成される一つのディープニューラルネットワークである。ここで、Λ={Λ(1),…,Λ(k),…,Λ(K)}である。音響イベント識別モデルDNN(Λ)の最終層の出力信号ht (K)の各次元jは、各音響イベントeに一対一で対応する。

モデルパラメータ学習部17は、学習した音響イベント識別モデルのパラメータΛを音響イベント識別モデル記憶部19へ記憶する。

ステップS13において、開発用データ特徴量抽出部16は、開発用データxt (dev)
ら開発用データ特徴量Xt (dev)を抽出する。開発用データ特徴量抽出部16の構成は従来
と同様であり、以下のように音響特徴量の抽出を行う。

開発用データ特徴量抽出部16は、開発用データ記憶部13に記憶された開発用データxt (dev)から短時間フレーム音響分析により、基本となる音響特徴量として、フレームtにおける12次元のメル周波数ケプストラム係数と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcct (dev)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)のベクトルMfcct (dev)を連結した351次元(=39×9)ベクトルXt (dev)を構成する。

ステップS14において、モデルパラメータ調整部18は、学習用データ特徴量Xt (train)、開発用データ特徴量Xt (dev)、学習用データ特徴量Xt (train)の正解ラベルGTt (train)及び開発用データ特徴量Xt (dev)の正解ラベルGTt (dev)を用いて、音響イベント識別モデル記憶部19に記憶されている音響イベント識別モデルのパラメータΛを調整する。パラメータΛは、各識別層の制約付きボルツマンマシンRBM(Λ(1)),…,RBM(Λ(k)),…,RBM(Λ(K))のパラメータの集合であり、Λ={Λ(1),…,Λ(k),…,Λ(K)}と表すことができる。モデルパラメータ調整部18は、調整後のディープニューラルネットワークのパラメータ^
Λを出力する。パラメータ^Λは、各識別層の制約付きボルツマンマシンの調整後のパラ
メータの集合であり、^Λ={^Λ(1),…,^Λ(k),…,^Λ(K)}と表すことができる。

以下、モデルパラメータ調整部18の処理をより詳細に説明する。モデルパラメータ調整部18は、具体的には、最大相互情報量基準に基づき、次式(6)によりパラメータ調整を行う。

式(6)において、Lt DNNはフレームtの学習用データxt (train)及び開発用データxt (dev)のロス関数であり、XtとGTtとはそれぞれ学習用データ特徴量Xt (train)及びその正解ラベルGTt (train)もしくは開発用データ特徴量Xt (dev)及びその正解ラベルGTt (dev)である

式(6)において、関数q(Xt,GTt)には、次式(7)〜(9)で定義される最終層Kの活性化関数σ(K)(・)を用いる。活性化関数σ(K)(・)は再帰式で表されるため、第1層から順に活性化関数σ(k)(・)を算出する必要がある。すなわち、関数q(Xt,GTt)を最適化することですべての識別層のパラメータが最適化されることになる。また、各識別層k(∀k、k≠K)の出力信号ht (k)の各要素値を[0:1]の範囲とするため、活性化関数σ(K)(・)にシ
グモイド活性化関数を用いるが、最終層Kの出力信号ht (K)のみ、確率表現のため各要素の和が1となるよう活性化関数σ(K)(・)にソフトマックス活性化関数を用いる。

式(6)において、Ω(・)は正則化項であり、この発明ではL1ノルムを採用する。L1ノルムは次式(10)(11)のようにパラメータのすべての要素の絶対値の合計値に小さな正の定数γを掛け合わした値として得られる。

モデルパラメータ調整部18は、調整後の音響イベント識別モデルのパラメータ^Λを
音響イベント識別モデル記憶部19へ記憶する。

<音響イベント検出装置>
図9を参照して、第一実施形態に係る音響イベント検出装置2の機能構成の一例を説明する。音響イベント検出装置2は、音響イベント識別モデル記憶部19、評価用データ特徴量抽出部21、音響イベント確率取得部22、経路探索部23を含む。音響イベント検出装置2は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコンピュータに特別なプロ
グラムが読み込まれて構成された特別な装置である。音響イベント検出装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響イベント検出装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音響イベント検出装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、
ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

音響イベント識別モデル記憶部19には、音響イベント識別モデル学習装置1により学習した音響イベント識別モデルのパラメータ^Λが記憶されている。音響イベント識別モ
デルDNN(^Λ)は、音響特徴量ベクトルを入力として、各音響イベントに対する確率(尤度)を出力するモデルであり、K個の識別層の制約付きボルツマンマシンRBM(^Λ(1)),…,RBM(^Λ(k)),…,RBM(^Λ(K))を連結して構成される一つのディープニューラルネットワークである。ここで、^Λ={^Λ(1),…,^Λ(k),…,^Λ(K)}である。

図10を参照して、音響イベント検出方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップS21において、評価用データ特徴量抽出部21は、入力された評価用データxt (eval)から評価用データ特徴量Xt (eval)を抽出する。評価用データ特徴量抽出部21の構成は従来と同様であり、以下のように音響特徴量の抽出を行う。

評価用データ特徴量抽出部21は、入力された評価用データxt (eval)から短時間フレーム音響分析により、基本となる音響特徴量として、フレームtにおける12次元のメル周波
数ケプストラム係数と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcct (eval)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)のベクトルMfcct (eval)を連結した351次元(=39×9)ベクトルXt (eval)を構成する。

ステップS22において、音響イベント確率取得部22は、音響イベント識別モデル記憶部19へ記憶されたパラメータ^Λを読み込み、音響イベント識別モデルDNN(^Λ)へ評
価用データ特徴量Xt (eval)を入力して各音響イベントeの尤度を得る。各音響イベントの
尤度は、フレームtにおける各音響イベント{1,…,e,…,E}に対する事後確率であり、音響イベント識別モデルDNN(^Λ)の最終層Kにおける活性化関数σ(K)(・)の出力値ht,j (K)
ある。ht,j (K)は、次式(12)で表される。

ここで、最終層Kの活性化関数σ(K)(・)は、次式(13)〜(15)で定義される。

ステップS23において、経路探索部23は、音響イベントの尤度を用いて評価用データxt (eval)全体の最適経路を算出し、評価用データxt (eval)の各フレームtの音響イベン
トqtを出力する。経路探索部23は、各フレームt,各音響イベントjに対する活性化関数の出力値h(t,j) (K)から、Viterbiアルゴリズムにより、評価用データxt (eval)に含まれる全フレームにおける音響イベントの時系列の最適経路を算出し、フレームtにおける音響
イベントqtを出力する。具体的には、各フレームt=0,1,…,T-1についての取り得る音響イベントの組合せのうち、その組み合わせに対応する確率h(t,j) (K)の総和が最大となるも
のを最適経路として求め、その最適経路を構成する各フレームtの音響イベントjを音響イベントqtとして出力する。

[第二実施形態]
この発明の第二実施形態は、学習用の音響信号から高解像度音響イベント識別モデルを学習する音響イベント識別モデル学習装置(以下、高解像度音響イベント識別モデル学習装置ともいう)と、高解像度音響イベント識別モデルを用いて入力音響信号に含まれる音響イベントを推定する音響イベント検出装置(以下、高解像度音響イベント検出装置ともいう)とからなる。

<課題>
第一実施形態では、前述のディープニューラルネットワークに基づき音響イベント検出が効果的に実施可能であることを示した。しかし、第一実施形態では、音響イベントが単独で観測されることを前提としており、人の声や背景雑音(例えばエアコンの音等)と音響イベントが同時に発生し、複数の音源が重なって観測される場合を考慮していない。

第一実施形態では、図11に示すように、入力音響信号を10ミリ秒毎に切り出したフレームより26次元の対数メル周波数スペクトルと、1次と2次の回帰係数を含めた78次元の特徴量ベクトルを抽出する。もしくは、図12に示すように、1次元の対数信号パワーと、12次元のメル周波数ケプストラム係数と、1次と2次の回帰係数を含めた39次元の特徴量ベ
クトルを抽出する。その後、コンテキスト窓を用いて、現在の時刻tを中心として、その
前後5フレーム分のベクトルを束ねたものを用いることで、音響イベント検出を実施する

対数メル周波数スペクトルは、フレームに分割された入力音響信号から離散フーリエ変換に基づく周波数分析により抽出した、257次元のパワースペクトルに対して、26個のメ
ル周波数フィルタバンクを適用することで、26次元の特徴量に圧縮することで得られる。(正確には512点離散フーリエ変換を用いて512次元のパワースペクトルを抽出するが、パワースペクトルは左右対称の形状を有しており、対称な片側部分255次元と共通部分2次元を含めた257次元で、元のフレーム分割された入力音響信号の情報が保持される。)
メル周波数ケプストラム係数は、26次元の対数メル周波数スペクトルに対して、離散コサイン変換を適用することで、12次元の特徴量に圧縮することで得られる。

しかしながら、これらの圧縮操作は信号分析の解像度を劣化させていることを意味しており、複数の音源の重なりを許容するような音響イベント検出には不適切である。

第二実施形態では、このような点に鑑みて、圧縮された低解像度の特徴量ではなく、圧縮前の257次元のパワースペクトル等の高解像度特徴量を用いることで、複数の音源が存
在する環境下において効果的に音響イベントを検出可能な高解像度音響イベント識別モデル学習装置及び高解像度音響イベント検出装置を実現する。

<高解像度音響イベント識別モデル学習装置>
図13を参照して、第二実施形態に係る高解像度音響イベント識別モデル学習装置3の機能構成の一例を説明する。高解像度音響イベント識別モデル学習装置3は、第一実施形態に係る音響イベント識別モデル学習装置1と同様に、学習用データ記憶部11、学習用正解ラベル記憶部12、開発用データ記憶部13、開発用正解ラベル記憶部14、モデルパラメータ学習部17、モデルパラメータ調整部18を含み、学習用データ特徴量抽出部15の代わりに高解像度学習用データ特徴量抽出部35を、開発用データ特徴量抽出部16の代わりに高解像度開発用データ特徴量抽出部36を、音響イベント識別モデル記憶部19の代わりに高解像度音響イベント識別モデル記憶部39をさらに含む。高解像度音響イベント識別モデル学習装置3は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコン
ピュータに特別なプログラムが読み込まれて構成された特別な装置である。高解像度音響イベント識別モデル学習装置3は、例えば、中央演算処理装置の制御のもとで各処理を実行する。高解像度音響イベント識別モデル学習装置3に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。高解像度音響イベント識別モデル学習装置3が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハード
ディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。高解像度音響イベント識別モデル学習装置3が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習用データ記憶部11には、複数の音響イベントが含まれる音響信号である学習用データxt (train)が記憶されている。

学習用正解ラベル記憶部12には、学習データxt (train)の各フレームtにおける音響イベントが定義済みのE個の音響イベント{1,…,e,…,E}のうちのいずれであるかを示した正解ラベルGTt (train)が記憶されている。

開発用データ記憶部13には、複数の音響イベントが含まれる音響信号である開発用データxt (dev)が記憶されている。

開発用正解ラベル記憶部14には、開発用データxt (dev)の各フレームtにおける音響イベントが定義済みのE個の音響イベント{1,…,e,…,E}のうちのいずれであるかを示した正解ラベルGTt (dev)が記憶部されている。

学習用データと開発用データは、いずれも複数の音響イベントが含まれる音響信号である点で共通し、性質上の差異はない。音響イベント識別モデルの学習過程において、一部のデータは二度利用し、その他のデータは一度のみ利用するため、便宜的に分類しているに過ぎない。したがって、これらのデータの収集は、特に区別なく様々な音環境で十分な量の音響信号を収音し、任意に選択した一部の音響信号を学習用データxt (train)とし、
残りの音響信号を開発用データxt (dev)とすればよい。

図14を参照して、高解像度音響イベント識別モデル学習方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップS31において、高解像度学習用データ特徴量抽出部35は、学習用データxt (train)から高解像度学習用データ特徴量Xt (train)を抽出する。高解像度学習用データ特徴量抽出部35は、以下のように高解像度音響特徴量の抽出を行う。

高解像度学習用データ特徴量抽出部35は、学習用データ記憶部11に記憶された学習用データxt (train)から短時間フレーム音響分析により、基本となる高解像度音響特徴量
として、フレームtにおける257次元のパワースペクトルベクトルSpct (train)を抽出する
。そして、図15に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpct (train)を連結した4883次元(=257×19)ベクトルXt (train)を構成する。第一実施形態では、ベクトルXt (train)は858次元、もしくは429次元となっており、これに比べて第二実施形態におけるベクトルXt (train)は4883次元と高解像度の
特徴量となっている。

ステップS32において、モデルパラメータ学習部17は、ディープニューラルネットワークの各識別層のパラメータΛ(1),…,Λ(k),…,Λ(K)を、高解像度学習用データ特徴
量Xt (train)を用いて学習し、各識別層の制約付きボルツマンマシンRBM(Λ(1)),…,RBM(
Λ(k)),…,RBM(Λ(K))を出力する。ここで、Λ(k)は制約付きボルツマンマシンの第k層のパラメータである。

以下、モデルパラメータ学習部17の処理をより詳細に説明する。モデルパラメータ学習部17は、まず、ディープニューラルネットワークの第1層の制約付きボルツマンマシンであるRBM(Λ(1))を学習する。この際、高解像度学習用データ特徴量Xt (train)を第1
層の制約付きボルツマンマシンRBM(Λ(1))への入力信号vt (1)として、vt (1)=Xt (train)からパラメータΛ(1)を推定する。このとき、RBM(Λ(1))からの出力信号をht (1)とする。

次に、第1層の制約付きボルツマンマシンRBM(Λ(1))の出力信号ht (1)を第2層の制約
付きボルツマンマシンRBM(Λ(2))への入力信号vt (2)として、vt (2)=ht (1)からパラメータΛ(2)を推定する。このときのRBM(Λ(2))からの出力信号をht (2)とする。

そして、k=3,4…,Kの順に、第k-1層の制約付きボルツマンマシンの出力信号ht (k-1)
第k層の制約付きボルツマンマシンの入力信号vt (k)として、パラメータΛ(k)の推定処理
を繰り返し実行する。これにより、すべての識別層k∈1,…,Kの制約付きボルツマンマシ
ンを学習する。

上記のモデルパラメータ学習部17の処理において、入力信号(観測変数)vt (k)と出
力信号(隠れ変数)ht (k)との同時確率分布は次式(16)により与えられる。

式(16)において、関数E(・)は、vt (k)とht (k)との対応を表すエネルギー関数であ
り、次式(17)で与えられる。

式(17)より、識別層kの制約付きボルツマンマシンのパラメータはΛ(k)={b(k),c(k),W(k)}で与えられる。ここで、b(k)は出力信号ht (k)のD(k)次元バイアスベクトルであり、c(k)は入力信号vt (k)のD(k-1)次元バイアスベクトルであり、W(k)はD(k)×D(k-1)次元
重み行列である。

式(17)において、k=1のときは入力信号がvt (1)=Xt (train)にて与えられる実信号ベクトルであるため、Exponential-Bernoulli RBMを適用する。第一実施形態では、実信号
ベクトルが対数メル周波数スペクトルベクトルもしくはメル周波数ケプストラム係数ベクトルで与えられ、それらの頻度分布がガウス分布に従うと仮定するため、k=1のときはエ
ネルギー関数にGaussian-Bernoulli RBMを適用する。しかし、第二実施形態における信号ベクトルはパワースペクトルベクトルSpct (train)をもとに構成され、その頻度分布は指
数分布に従うため、k=1のときはエネルギー関数にExponential-Bernoulli RBMを適用する。一方、k≠1のときは、第一実施形態と同様に、入力信号vt (k)の各要素が[0:1]の範囲の値となるベクトルとなるため、Bernoulli-Bernoulli RBMを適用する。

制約付きボルツマンマシンのパラメータΛ(k)は、次式(18)で表される周辺分布p(vt (k))を用いて最尤推定することで得られる。

すなわち、パラメータΛ(k)は、次式(19)(20)により与えられる。

式(20)において、Tは入力信号vt (k)の総フレーム数である。しかしながら多くの場合、式(20)の出力信号ht (k)に関する周辺化を解くことが困難であるため、Contrastive Divergence法と呼ばれるサンプリング法に基づく方法によりLRBM(k))を最大化する
ようなΛ(k)を求める。Contrastive Divergence法についての詳細は、上記の参考文献3
を参照されたい。

高解像度音響イベント識別モデルDNN(Λ)は、K個の識別層の制約付きボルツマンマシンRBM(Λ(1)),…,RBM(Λ(k)),…,RBM(Λ(K))を連結して構成される一つのディープニューラルネットワークである。ここで、Λ={Λ(1),…,Λ(k),…,Λ(K)}である。高解像度音響イベント識別モデルDNN(Λ)の最終層の出力信号ht (K)の各次元jは、各音響イベントeに一対一で対応する。

モデルパラメータ学習部17は、学習した高解像度音響イベント識別モデルのパラメータΛを高解像度音響イベント識別モデル記憶部39へ記憶する。

ステップS33において、高解像度開発用データ特徴量抽出部36は、開発用データxt (dev)から高解像度開発用データ特徴量Xt (dev)を抽出する。高解像度開発用データ特徴量抽出部36は、以下のように高解像度音響特徴量の抽出を行う。

高解像度開発用データ特徴量抽出部36は、開発用データ記憶部13に記憶された開発用データxt (dev)から短時間フレーム音響分析により、基本となる高解像度音響特徴量と
して、フレームtにおける257次元のパワースペクトルベクトルSpct (dev)を抽出する。そ
して、図15に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpct (dev)を連結した4883次元(=257×19)ベクトルXt (dev)を構成
する。

ステップS34において、モデルパラメータ調整部18は、高解像度学習用データ特徴量Xt (train)、高解像度開発用データ特徴量Xt (dev)、高解像度学習用データ特徴量Xt (train)の正解ラベルGTt (train)及び高解像度開発用データ特徴量Xt (dev)の正解ラベルGTt (dev)を用いて、高解像度音響イベント識別モデル記憶部39に記憶されている高解像度音響イベント識別モデルのパラメータΛを調整する。パラメータΛは、各識別層の制約付きボルツマンマシンRBM(Λ(1)),…,RBM(Λ(k)),…,RBM(Λ(K))のパラメータの集合であり、Λ={Λ(1),…,Λ(k),…,Λ(K)}と表すことができる。モデルパラメータ調整部18は、調整後のディープニューラルネットワークのパラメータ^Λを出力する。パラメータ^Λは、各識別層の制約付きボルツマンマシンの調整後のパラメータの集合であり、^Λ={^Λ(1),…,^Λ(k),…,^Λ(K)}と表すことができる。

以下、モデルパラメータ調整部18の処理をより詳細に説明する。モデルパラメータ調整部18は、具体的には、最大相互情報量基準に基づき、次式(6)によりパラメータ調整を行う。

式(21)において、Lt DNNはフレームtの学習用データxt (train)及び開発用データxt (dev)のロス関数であり、XtとGTtとはそれぞれ高解像度学習用データ特徴量Xt (train)及びその正解ラベルGTt (train)もしくは高解像度開発用データ特徴量Xt (dev)及びその正解ラ
ベルGTt (dev)である。

式(21)において、関数q(Xt,GTt)には、次式(22)〜(24)で定義される最終
層Kの活性化関数σ(K)(・)を用いる。活性化関数σ(K)(・)は再帰式で表されるため、第
1層から順に活性化関数σ(k)(・)を算出する必要がある。すなわち、関数q(Xt,GTt)を最適化することですべての識別層のパラメータが最適化されることになる。また、各識別層k(∀k、k≠K)の出力信号ht (k)の各要素値を[0:1]の範囲とするため、活性化関数σ(K)(・)にシグモイド活性化関数を用いるが、最終層Kの出力信号ht (K)のみ、確率表現のため
各要素の和が1となるよう活性化関数σ(K)(・)にソフトマックス活性化関数を用いる。

式(21)において、Ω(・)は正則化項であり、この発明ではL1ノルムを採用する。L1ノルムは次式(25)(26)のようにパラメータのすべての要素の絶対値の合計値に小さな正の定数γを掛け合わした値として得られる。

モデルパラメータ調整部18は、調整後の高解像度音響イベント識別モデルのパラメータ^Λを高解像度音響イベント識別モデル記憶部39へ記憶する。

<高解像度音響イベント検出装置>
図16を参照して、第二実施形態に係る高解像度音響イベント検出装置4の機能構成の一例を説明する。高解像度音響イベント検出装置4は、第一実施形態に係る音響イベント検出装置2と同様に、音響イベント確率取得部22、経路探索部23を含み、音響イベント識別モデル記憶部19の代わりに高解像度音響イベント識別モデル記憶部39を、評価用データ特徴量抽出部21の代わりに高解像度評価用データ特徴量抽出部41をさらに含む。高解像度音響イベント検出装置4は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用
のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。高解像度音響イベント検出装置4は、例えば、中央演算処理装置の制御のもとで各処理を実行する。高解像度音響イベント検出装置4に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。高解像度音響イベント検出装置4が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもし
くはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェア
により構成することができる。

高解像度音響イベント識別モデル記憶部39には、高解像度音響イベント識別モデル学習装置3により学習した高解像度音響イベント識別モデルのパラメータ^Λが記憶されて
いる。高解像度音響イベント識別モデルDNN(^Λ)は、高解像度音響特徴量ベクトルを入力として、各音響イベントに対する確率(尤度)を出力するモデルであり、K個の識別層の
制約付きボルツマンマシンRBM(^Λ(1)),…,RBM(^Λ(k)),…,RBM(^Λ(K))を連結して構成
される一つのディープニューラルネットワークである。ここで、^Λ={^Λ(1),…,^Λ(k),…,^Λ(K)}である。

図17を参照して、高解像度音響イベント検出方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップS41において、高解像度評価用データ特徴量抽出部41は、入力された評価用データxt (eval)から高解像度評価用データ特徴量Xt (eval)を抽出する。高解像度評価用データ特徴量抽出部41は、以下のように高解像度音響特徴量の抽出を行う。

高解像度評価用データ特徴量抽出部41は、入力された評価用データxt (eval)から短時間フレーム音響分析により、基本となる高解像度音響特徴量として、フレームtにおける257次元のパワースペクトルベクトルSpct (eval)を抽出する。そして、図15に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpct (eval)を連結した4883次元(=257×19)ベクトルXt (eval)を構成する。

ステップS42において、音響イベント確率取得部22は、高解像度音響イベント識別モデル記憶部39へ記憶されたパラメータ^Λを読み込み、高解像度音響イベント識別モ
デルDNN(^Λ)へ高解像度評価用データ特徴量Xt (eval)を入力して各音響イベントeの尤度
を得る。各音響イベントの尤度は、フレームtにおける各音響イベント{1,…,e,…,E}に対する事後確率であり、高解像度音響イベント識別モデルDNN(^Λ)の最終層Kにおける活性
化関数σ(K)(・)の出力値ht,j (K)である。ht,j (K)は、次式(27)で表される。

ここで、最終層Kの活性化関数σ(K)(・)は、次式(28)〜(30)で定義される。

ステップS43において、経路探索部23は、音響イベントの尤度を用いて評価用データxt (eval)全体の最適経路を算出し、評価用データxt (eval)の各フレームtの音響イベン
トqtを出力する。経路探索部23は、各フレームt,各音響イベントjに対する活性化関数の出力値h(t,j) (K)から、Viterbiアルゴリズムにより、評価用データxt (eval)に含まれる全フレームにおける音響イベントの時系列の最適経路を算出し、フレームtにおける音響
イベントqtを出力する。具体的には、各フレームt=0,1,…,T-1についての取り得る音響イベントの組合せのうち、その組み合わせに対応する確率h(t,j) (K)の総和が最大となるも
のを最適経路として求め、その最適経路を構成する各フレームtの音響イベントjを音響イベントqtとして出力する。

<効果>
第二実施形態の音響イベント検出技術によれば、音響イベント検出の際に高解像度信号分析に基づく高解像度特徴量を扱うことができ、人の声や背景雑音等の複数の音源が重なった環境下において、音響イベント検出の精度を向上することができる。

[変形例]
第二実施形態に係る高解像度学習用データ特徴量抽出部35、高解像度開発用データ特徴量抽出部36及び高解像度評価用データ特徴量抽出部41において、基本となる高解像度特徴量として、フレームtにおける257次元のパワースペクトルベクトルSpct (train)、Spct (dev)、Spct (eval)の自然対数を求めた対数パワースペクトルベクトルlSpct (train)、lSpct (dev)、lSpct (eval)を用いて高解像度特徴量である4883次元ベクトルXt (train)、Xt (dev)、Xt (eval)を構成してもよい。その場合、モデルパラメータ学習部17において、
識別層k=1のエネルギー関数に式(31)で与えられるGaussian-Bernoulli RBMを適用す
る。

[実験結果]
この発明の効果を示すために、音響イベント検出の評価実験を行った。第一の実験では、複数の音響イベントが存在する音響信号を、従来の音響イベント検出装置及び第一実施形態の音響イベント検出装置に入力し、音響イベント検出結果を比較した。第二の実験では、複数の音響イベントが存在する音響信号を、第一実施形態の音響イベント検出装置及び第二実施形態の音響イベント検出装置に入力し、音響イベント検出結果を比較した。

第一の実験では、会議室において収録された音響信号を用いて音響イベント検出の評価を行った。また、利用する音響信号は、ディープニューラルネットワークの学習を行う学習用データ及び開発用データ、実際の評価対象となる評価用データ(入力データ)の三つに区分した。評価用データの詳細を図18に示す。この実験では「音響イベント種別」欄に示す13種類の音響イベントの識別を目的とした。図18は学習用データxt (train)、開
発用データxt (dev)、評価用データxt (eval)それぞれにおける音響イベントの出現数およ
びその総時間を示した表である。例えば、扉の開く音を示す音響イベント「door open」
は、学習用データには20回出現し、その総時間が43.270秒であり、開発用データには20回出現し、その総時間が42.250秒であり、評価用データには20回出現し、その総時間が41.450秒である。

第一の実験では、第一実施形態による音響イベント検出方法において、識別層の数をk=1,2,3,4,5とし、各識別層のノード数をD(k)=256,512,1024,2048に変化させて行った。

図19に、非特許文献1に開示された従来方法の音響イベント検出による結果と、この発明の音響イベント検出による結果を示す。横軸は、ディープニューラルネットワークの
識別層の数Kの設定値を示す。縦軸は、検出した音響イベントの正解率を示し、高いほど
精度良く音響イベントを検出したことを表す。図19に示す実験結果によれば、識別層の数K及び各識別層のノード数D(k)のすべての組合せにおいて、非特許文献1による従来方
法よりも検出率が高かったことがわかる。図19の結果から、この発明により従来技術に比べて高い検出性能が得られることが明らかになった。

図20は、音響信号より検出された音響イベントの時間区間を示している。図20(A)は非特許文献1による従来方法による結果であり、図20(B)はこの発明の音響イベント検出技術による結果である。縦軸は、各音響イベントを表しており、横軸は、音響信号の時間を表している。図中の黒い部分は正しく音響イベントを検出した時間区間を示しており、灰色の部分は誤って音響イベントを検出した時間区間を示している。図20(A)よりも図20(B)の方が誤って音響イベントを検出した時間区間が少ないことがわかる。図20の結果からも、この発明による音響イベント検出の方が従来の方法よりも正確に音響イベントの時間区間を検出できていることが明らかになった。

第二の実験では、第一の実験と同様に、会議室において収録された音響信号を用いて音響イベント検出の評価を行った。また、利用する音響信号は、ディープニューラルネットワークの学習を行う学習用データ及び開発用データ、実際の評価対象となる評価用データ(入力データ)の三つに区分した。評価用データの詳細を図21に示す。この実験では「音響イベント種別」欄に示す13種類の音響イベントの識別を目的とした。図21は学習用データxt (train)、開発用データxt (dev)、評価用データxt (eval)それぞれにおける音響イベントの出現数およびすべての時間を示した表である。例えば、足音を示す音響イベント「Steps」は、学習用データには252回出現し、開発用データには216回出現し、評価用デ
ータには570回出現する。

第二の実験では、第二実施形態による音響イベント検出方法において、識別層の数をk=1,2,3,4,5,6,7,8,9,10とし、各識別層のノード数をD(k)=256,512に変化させて行った。

図22と図23に、第一実施形態の音響イベント検出による結果と、第二実施形態の高解像度音響イベント検出による結果を示す。横軸は、ディープニューラルネットワークの識別層の数Kの設定値を示す。縦軸は、検出した音響イベントの正解率を示し、高いほど
精度良く音響イベントを検出したことを表す。図22に示す実験結果によれば、識別層の数K及び各識別層のノード数256の組合せにおいて、第一実施形態による方法よりも第二実施形態による方法の方がさらに検出率が高かったことがわかる。図23に示す実験結果によれば、識別層の数K及び各識別層のノード数512の組合せにおいても、第一実施形態による方法よりも第二実施形態による方法の方がさらに検出率が高かったことがわかる。図22と図23の結果から、第二実施形態の高解像度音響イベント検出装置の方が第一実施形態の音響イベント検出装置よりもさらに高い検出性能が得られることが明らかになった。

[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

1、7 音響イベント識別モデル学習装置
3 高解像度音響イベント識別モデル学習装置
2、8 音響イベント検出装置
4 高解像度音響イベント検出装置
11 学習用データ記憶部
12 学習用正解ラベル記憶部
13 開発用データ記憶部
14 開発用正解ラベル記憶部
15 学習用データ特徴量抽出部
16 開発用データ特徴量抽出部
17 モデルパラメータ学習部
18 モデルパラメータ調整部
19 音響イベント識別モデル記憶部
21 評価用データ特徴量抽出部
22 音響イベント確率取得部
23 経路探索部
35 高解像度学習用データ特徴量抽出部
36 高解像度開発用データ特徴量抽出部
39 高解像度音響イベント識別モデル記憶部
41 高解像度評価用データ特徴量抽出部
70 事後特徴量抽出モデル学習部
71 事後特徴量抽出モデル記憶部
72 音響イベントHMM学習部
73 音響イベントHMM記憶部
74 事後特徴量抽出部
75 HMM学習部
76 音響イベント尤度算出部

Claims (7)

  1. 複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する学習用データ特徴量抽出部と、
    音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、上記学習用データ特徴量を用いて学習するモデルパラメータ学習部と、
    複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する開発用データ特徴量抽出部と、
    上記学習用データ特徴量、上記開発用データ特徴量、上記学習用データ特徴量の正解ラベル及び上記開発用データ特徴量の正解ラベルを用いて、上記ディープニューラルネットワークの各階層のパラメータを最適化するモデルパラメータ調整部と、
    を含み、
    上記ディープニューラルネットワークは、各識別層を制約付きボルツマンマシンとして、上記制約付きボルツマンマシンを連結して構成されるものであり、
    上記モデルパラメータ学習部は、v t (k) を第k層の制約付きボルツマンマシンの入力信号とし、h t (k) を第k層の制約付きボルツマンマシンの出力信号とし、W (k) はD (k) ×D (k-1) 次元重み行列とし、第1層の制約付きボルツマンマシンのパラメータを次式で定義されるエネルギー関数に基づいて学習し、第2層以下の制約付きボルツマンマシンのパラメータは上位層の制約付きボルツマンマシンの出力信号を入力信号として推定する
    音響イベント識別モデル学習装置。
  2. 請求項1に記載の音響イベント識別モデル学習装置であって、
    上記モデルパラメータ学習部は、Kを上記ディープニューラルネットワークの識別層の数とし、kを1≦k≦Kの整数とし、Tを上記学習用データのフレーム数とし、vt (k)を第k層の制約付きボルツマンマシンの入力信号とし、ht (k)を第k層の制約付きボルツマンマシンの出力信号として、次式により第k層の制約付きボルツマンマシンのパラメータΛ(k)を学習する
    音響イベント識別モデル学習装置。
  3. 請求項1または2に記載の音響イベント識別モデル学習装置であって、
    上記モデルパラメータ調整部は、Kを上記ディープニューラルネットワークの識別層の数とし、Tを上記学習用データもしくは上記開発用データのフレーム数とし、Lt DNNを上記学習用データ及び上記開発用データのロス関数とし、Xtを上記学習用データ特徴量もしくは上記開発用データ特徴量とし、GTtを上記学習用データ特徴量の正解ラベルとし、GTt (dev)を上記開発用データ特徴量の正解ラベルとし、q(・)を第K層の活性化関数とし、Ω(・)を正則化項として、次式により上記ディープニューラルネットワークのパラメータ^Λを調整する
    音響イベント識別モデル学習装置。
  4. 請求項1からのいずれかに記載の音響イベント識別モデル学習装置を備え、
    上記音響イベント識別モデル学習装置により学習された音響イベント識別モデルを記憶する音響イベント識別モデル記憶部と、
    複数の音響イベントが含まれる音響信号である評価用データから評価用データ特徴量を抽出する評価用データ特徴量抽出部と、
    上記音響イベント識別モデルへ上記評価用データ特徴量を入力して各音響イベントの尤度を得る音響イベント確率取得部と、
    上記音響イベントの尤度を用いて上記評価用データ全体の最適経路を算出し、上記評価用データの各フレームの音響イベントを出力する経路探索部と、
    を含む音響イベント検出装置。
  5. 学習用データ特徴量抽出部が、複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する学習用データ特徴量抽出ステップと、
    モデルパラメータ学習部が、音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、上記学習用データ特徴量を用いて学習するモデルパラメータ学習ステップと、
    開発用データ特徴量抽出部が、複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する開発用データ特徴量抽出ステップと、
    モデルパラメータ調整部が、上記学習用データ特徴量、上記開発用データ特徴量、上記学習用データ特徴量の正解ラベル及び上記開発用データ特徴量の正解ラベルを用いて、上記ディープニューラルネットワークの各階層のパラメータを最適化するモデルパラメータ調整ステップと、
    を含み、
    上記ディープニューラルネットワークは、各識別層を制約付きボルツマンマシンとして、上記制約付きボルツマンマシンを連結して構成されるものであり、
    上記モデルパラメータ学習ステップは、v t (k) を第k層の制約付きボルツマンマシンの入力信号とし、h t (k) を第k層の制約付きボルツマンマシンの出力信号とし、W (k) はD (k) ×D (k-1) 次元重み行列とし、第1層の制約付きボルツマンマシンのパラメータを次式で定義されるエネルギー関数に基づいて学習し、第2層以下の制約付きボルツマンマシンのパラメータは上位層の制約付きボルツマンマシンの出力信号を入力信号として推定する
    音響イベント識別モデル学習方法。
  6. 請求項5に記載の音響イベント識別モデル学習方法の各ステップと、
    評価用データ特徴量抽出部が、評価用データから評価用データ特徴量を抽出する評価用データ特徴量抽出ステップと、
    音響イベント確率取得部が、上記音響イベント識別モデル学習方法の各ステップにより学習された音響イベント識別モデルへ上記評価用データ特徴量を入力して各音響イベントの尤度を得る音響イベント確率取得ステップと、
    経路探索部が、上記音響イベントの尤度を用いて上記評価用データ全体の最適経路を算出し、上記評価用データの各フレームの音響イベントを出力する経路探索ステップと、
    を含む音響イベント検出方法。
  7. 請求項1からのいずれかに記載の音響イベント識別モデル学習装置または請求項に記載の音響イベント検出装置としてコンピュータを機能させるためのプログラム。
JP2014048616A 2013-08-13 2014-03-12 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム Active JP6235938B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013168305 2013-08-13
JP2013168305 2013-08-13
JP2014048616A JP6235938B2 (ja) 2013-08-13 2014-03-12 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014048616A JP6235938B2 (ja) 2013-08-13 2014-03-12 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015057630A true JP2015057630A (ja) 2015-03-26
JP6235938B2 true JP6235938B2 (ja) 2017-11-22

Family

ID=52815730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014048616A Active JP6235938B2 (ja) 2013-08-13 2014-03-12 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6235938B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6323947B2 (ja) * 2014-05-01 2018-05-16 日本放送協会 音響イベント認識装置、及びプログラム
US9368110B1 (en) 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
KR101842612B1 (ko) * 2016-10-12 2018-03-27 고려대학교 산학협력단 딥러닝을 이용한 관심 음향 인식 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6164639B2 (ja) * 2013-05-23 2017-07-19 国立研究開発法人情報通信研究機構 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム

Also Published As

Publication number Publication date Type
JP2015057630A (ja) 2015-03-26 application

Similar Documents

Publication Publication Date Title
Mesnil et al. Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding.
Seltzer et al. An investigation of deep neural networks for noise robust speech recognition
Peddinti et al. A time delay neural network architecture for efficient modeling of long temporal contexts
Fisher et al. Speaker association with signal-level audiovisual fusion
Bonastre et al. ALIZE/spkdet: a state-of-the-art open source software for speaker recognition.
Yegnanarayana et al. AANN: an alternative to GMM for pattern recognition
Mao et al. Learning salient features for speech emotion recognition using convolutional neural networks
Richardson et al. A unified deep neural network for speaker and language recognition
Ibrahim et al. A hierarchical deep temporal model for group activity recognition
Meuwly et al. Forensic speaker recognition based on a Bayesian framework and Gaussian mixture modelling (GMM)
Oliver et al. Layered representations for learning and inferring office activity from multiple sensory channels
Naqvi et al. A multimodal approach to blind source separation of moving sources
Al-Rousan et al. Video-based signer-independent Arabic sign language recognition using hidden Markov models
Drygajlo et al. Statistical methods and Bayesian interpretation of evidence in forensic automatic speaker recognition
Mohamed et al. Phone recognition using restricted boltzmann machines
Sivaram et al. Sparse coding for speech recognition
Çetingül et al. Multimodal speaker/speech recognition using lip motion, lip texture and audio
CN103049792A (zh) 深层神经网络的辨别预训练
Garcia-Romero et al. Improving speaker recognition performance in the domain adaptation challenge using deep neural networks
Weninger et al. Single-channel speech separation with memory-enhanced recurrent neural networks
Giri et al. Improving speech recognition in reverberation using a room-aware deep neural network and multi-task learning
Che et al. Maximum-likelihood augmented discrete generative adversarial networks
Altınçay et al. An information theoretic framework for weight estimation in the combination of probabilistic classifiers for speaker identification
Katsaggelos et al. Audiovisual fusion: Challenges and new approaches
US20040193894A1 (en) Methods and apparatus for modeling based on conversational meta-data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170328

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171027

R150 Certificate of patent or registration of utility model

Ref document number: 6235938

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150