JP6235938B2

JP6235938B2 - 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム

Info

Publication number: JP6235938B2
Application number: JP2014048616A
Authority: JP
Inventors: ミケルエスピ; 雅清藤本; 陽太郎久保; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-08-13
Filing date: 2014-03-12
Publication date: 2017-11-22
Anticipated expiration: 2034-03-12
Also published as: JP2015057630A

Description

この発明は、様々な音源に起因する音響イベントが複数含まれる音響信号から、それぞれの音響イベントの出現する時間区間を推定する音響イベント検出技術に関する。

収音された音響信号に含まれる様々な非音声の音響イベントを検出する音響イベント検出技術（AED: Acoustic Event Detection）は、直面する音環境における音声認識性能の
予測、音環境に適合した音声認識もしくは音響信号処理など、様々な音情報処理技術への応用が見込まれる技術である。加えて、セキュリティシステムや高齢者の見守りシステムなどへも応用可能であり、今後、実世界において必要不可欠な技術となると考えられる。

音響イベント検出技術では、入力音響信号を時間軸方向に一定時間幅で始点を移動させながら一定時間長の音響信号をフレームとして切り出し、フレーム毎に現時刻の入力音響信号に含まれる音響イベントが何であるかを識別しラベリングを行う。この際、音響イベントとしては、「足音」、「ドアノック」、「キーボードタイピング」などがあり、音響イベントが存在しない「無音」も音響イベントの一種として扱われる。音響イベント検出では、図１に示すように、入力音響信号のフレームの時系列{x₁,x₂,…}を入力として、各フレームに対応した音響イベントのラベルを出力する。図１の例では、１番目のフレームx₁は「無音」がラベリングされ、２番目のフレームx₂は「足音」がラベリングされ、３番目のフレームx₃は「足音」がラベリングされていることがわかる。

音響イベント検出技術は、入力音響信号x_tから音響イベントを識別するための特徴量X_tを抽出する特徴抽出器と、抽出された特徴量X_tを用いて音響イベントq_tを識別する識別器とから構成される。識別器では、例えば、L_t ^AED(e)=p(X_t|q_t=e)のような評価関数を定義
し、フレームtにおける特徴量X_tがある音響イベントq_tである確率（もしくは、尤度）を
計算し、最も確率の高い音響イベントq_t=eを出力する。

非特許文献１に記載の音響イベント検出方法では、Tandem connectionist隠れマルコフモデル（HMM: Hidden Markov Model）に基づく音響イベント検出方法が開示されている。非特許文献１に記載された音響イベント検出方法では、まず、入力音響信号から事後特徴量を抽出するためのモデル（以下、事後特徴量抽出モデルという。）であるニューラルネットワーク（人工神経回路網）のパラメータを学習する。次に、学習した事後特徴量抽出モデルにより事後特徴量を抽出し、抽出された事後特徴量を用いて入力音響信号の各音響イベントの混合ガウス分布（GMM: Gaussian Mixture Model）を学習する。その後、各音
響イベントeの混合ガウス分布であるGMM_eを一つの状態とみなして、ある音響イベントeから異なる音響イベントe’への状態遷移を記述したTandem connectionist HMMを音響イベ
ントHMMとして構築する。ここで、事後特徴量としては、あるフレームtの信号がある音響イベントeに合致する確率そのものを利用する。また、事後特徴量は、複数のフレームの
信号を束ねた信号をニューラルネットワークの入力としており、あるフレームtにおける
信号の前後関係を考慮することで、より正確な音響イベントの弁別特徴を記述可能となる。ここで、ニューラルネットワークには複数の識別層を有する多層パーセプトロン(MLP: Multi-Layer Perceptron)が用いられる。

図２から図４を用いて、非特許文献１による音響イベント検出技術の処理をより詳細に説明する。図２は、事後特徴量抽出モデルの学習及び音響イベントHMMの学習を行う音響
イベント識別モデル学習装置の機能構成の一例である。

学習用データ記憶部１１には、事後特徴量抽出モデルの学習に用いるための音響信号である学習用データx_t ^(train)が記憶されている。学習用正解ラベル記憶部１２には、学習
用データx_t ^(train)の各フレームtにおける音響イベントが定義済みの音響イベント{1,…,e,…,E}のいずれであるかを示した正解ラベルGT_t ^(train)が記憶されている。開発用デー
タ記憶部１３には、音響イベントHMMの学習に用いるための音響信号である開発用データx_t ^(dev)が記憶されている。開発用正解ラベル記憶部１４には、開発用データx_t ^(dev)の各
フレームtにおける音響イベントが定義済みの音響イベント{1,…,e,…,E}のいずれであるかを示した正解ラベルGT_t ^(dev)が記憶されている。

学習用データ特徴量抽出部１５において、学習用データx_t ^(train)から特徴量X_t ^(train)を抽出する。具体的には、学習用データx_t ^(train)から短時間フレーム音響分析により、
基本となる音響特徴量として、フレームtにおける12次元のメル周波数ケプストラム係数
と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcc_t ^(train)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)の
ベクトルMfcc_t ^(train)を連結した351次元（=39×9）ベクトルX_t ^(train)を構成する。

開発用データ特徴量抽出部１６において、開発用データx_t ^(dev)から特徴量X_t ^(dev)を抽出する。開発用データ特徴量抽出部１６は、学習用データ特徴量抽出部１５と同様の処理により特徴量X_t ^(dev)を求めることができる。

事後特徴量抽出モデル学習部７０において、特徴量X_t ^(train)、特徴量X_t ^(dev)、特徴量X_t ^(train)に対応する正解ラベルGT_t ^(train)及び特徴量X_t ^(dev)に対応する正解ラベルGT_t ^(dev)を用いて、Feed-forwardアルゴリズムに基づき三層からなる多層パーセプトロンを学習し、事後特徴量抽出モデルのモデルパラメータMLP{Θ⁽¹⁾,Θ⁽²⁾,Θ⁽³⁾}を出力する。ここで、Θ^(k)は、識別層kのパラメータセットを示す。最終層Kの各出力ノードjは、各音響イベントeに一対一で対応する。

図３に音響イベントHMM学習部７２の詳細構成を例示する。音響イベントHMM学習部７２は、事後特徴量抽出部７４及びHMM学習部７５を含む。

事後特徴量抽出部７４において、特徴量X_t ^(dev)を事後特徴量抽出モデルに入力し、各
音響イベント{1,…,e,…,E}に対する事後確率（最終層Kの各出力ノードjが出力する確率
）を計算し、それらを要素としてもつ事後特徴量ベクトルPost_t ^(dev)を算出する。

HMM学習部７５において、事後特徴量ベクトルPost_t ^(dev)と、開発用データx_t ^(dev)のフレームtにおける音響イベントが何であるかを示した正解ラベルGT_t ^(dev)とを用いて、EM
アルゴリズム（Expectation-Maximization algorithm）に基づき、各音響イベントeの混
合ガウス分布であるGMM_eを学習する。各音響イベントeの混合ガウス分布GMM_eを一つの状
態とみなしてErgodic HMMを音響イベントHMMとして構成し、HMM={GMM₁,…,GMM_e,…,GMM_E}を出力する。なお、ある状態eから他の状態e’への遷移確率a_e,e’を1/Eとする。

図４に音響イベントの識別を行う音響イベント検出装置の機能構成を例示する。音響イベント検出装置は、入力データ特徴量抽出部２１、事後特徴量抽出部７４、音響イベント尤度算出部７６及び経路探索部２３を含む。

評価用データ特徴量抽出部２１において、音響イベントを検出するための音響信号である評価用データx_t ^(eval)から特徴量ベクトルX_t ^(eval)を抽出する。特徴量ベクトルを求める処理は、学習用データ特徴量抽出部１５及び開発用データ特徴量抽出部１６と同様である。

事後特徴量抽出部７４において、特徴量ベクトルX_t ^(eval)を事後特徴量抽出モデルに入力し、各音響イベント{1,…,e,…,E}に対する事後確率（最終層の各出力ノードjが出力する確率）を計算し、それらを要素としてもつ事後特徴量ベクトルPost_t ^(eval)を算出する
。

音響イベント尤度算出部７６において、事後特徴量ベクトルPost_t ^(eval)と音響イベン
トHMMを用いて、音響イベントHMMに含まれる各音響イベントGMM_eに対する事後特徴量ベクトルPost_t ^(eval)の尤度p(Post_t ^(eval)|GMM_e)を算出する。

経路探索部２３において、各フレームt及び各音響イベントGMM_eに対する尤度p(Post_t ^(eval)|GMM_e)から、Viterbiアルゴリズムにより、全フレームにおける音響イベントから構
成される時系列の最適経路を算出し、最適経路に含まれる各フレームjにおける音響イベ
ントq_tを出力する。

X. Zhuang, Xi Zhou, M. Hasegawa-Johnson, T. S. Huang, "Real-world acoustic event detection", Pattern Recognition Letters, 31(12), pp. 1543-1551, 2010.

非特許文献１に記載の技術では、前述の方法により音響イベントの検出を実施しており、事後特徴量の利用が効果的であることが示されている。しかし、この方法では事後特徴量の抽出器（事後特徴量抽出モデル）と識別器（音響イベントHMM）が独立に存在してお
り、必ずしも識別器に対して最適な事後特徴量が抽出されているとは限らない。そのため、入力データによっては音響イベントの検出精度が低下するという問題があった。

この発明の目的は、音響イベント検出の際に事後特徴量の抽出と音響イベントの検出を統一的に扱い、音響イベント検出の精度を向上することである。

上記の課題を解決するために、この発明の一態様による音響イベント識別モデル学習装置は、学習用データ特徴量抽出部、モデルパラメータ学習部、開発用データ特徴量抽出部及びモデルパラメータ調整部を含む。学習用データ特徴量抽出部は、複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する。モデルパラメータ学習部は、音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、学習用データ特徴量を用いて学習する。開発用データ特徴量抽出部は、複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する。モデルパラメータ調整部は、学習用データ特徴量、開発用データ特徴量、学習用データ特徴量の正解ラベル及び開発用データ特徴量の正解ラベルを用いて、ディープニューラルネットワークの各階層のパラメータを最適化する。

この発明の他の態様による音響イベント検出装置は、音響イベント識別モデル記憶部、評価用データ特徴量抽出部、音響イベント確率取得部及び経路探索部を含む。音響イベント識別モデル記憶部は、音響イベント識別モデル学習装置により学習された音響イベント識別モデルを記憶する。評価用データ特徴量抽出部は、複数の音響イベントが含まれる音響信号である評価用データから評価用データ特徴量を抽出する。音響イベント確率取得部は、音響イベント識別モデルへ評価用データ特徴量を入力して各音響イベントの尤度を得
る。経路探索部は、音響イベントの尤度を用いて評価用データ全体の最適経路を算出し、評価用データの各フレームの音響イベントを出力する。

この発明によれば、音響イベント検出の際に事後特徴量の抽出と音響イベントの検出を統一的に扱うことができ、音響イベント検出の精度を向上することができる。

図１は、従来の音響イベント検出技術の基本的な構成を例示する図である。図２は、従来の音響イベント識別モデル学習装置の機能構成を例示する図である。図３は、従来の音響イベントHMM学習部の機能構成を例示する図である。図４は、従来の音響イベント検出装置の機能構成を例示する図である。図５は、ディープニューラルネットワークを説明するための図である。図６は、制約付きボルツマンマシンを説明するための図である。図７は、第一実施形態の音響イベント識別モデル学習装置の機能構成を例示する図である。図８は、第一実施形態の音響イベント識別モデル学習方法の処理フローを例示する図である。図９は、第一実施形態の音響イベント検出装置の機能構成を例示する図である。図１０は、第一実施形態の音響イベント検出方法の処理フローを例示する図である。図１１は、26次元の対数メル周波数スペクトルを用いた特徴量抽出を説明するための図である。図１２は、12次元のメル周波数ケプストラム係数を用いた特徴量抽出を説明するための図である。図１３は、第二実施形態の音響イベント識別モデル学習装置の機能構成を例示する図である。図１４は、第二実施形態の音響イベント識別モデル学習方法の処理フローを例示する図である。図１５は、257次元パワースペクトルを用いた高解像度特徴量抽出を説明するための図である。図１６は、第二実施形態の音響イベント検出装置の機能構成を例示する図である。図１７は、第二実施形態の音響イベント検出方法の処理フローを例示する図である。図１８は、音響イベント検出実験の対象データを示す図である。図１９は、音響イベント検出実験の結果を示す図である。図２０は、音響イベント検出実験の結果を示す図である。図２１は、音響イベント検出実験の対象データを示す図である。図２２は、音響イベント検出実験の結果を示す図である。図２３は、音響イベント検出実験の結果を示す図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
［発明の骨子］
この発明の特徴は、入力音響信号から直接各音響イベントに対する確率を推定する音響イベント識別モデルを学習し、これを用いて最適な音響イベント時系列の経路を探索して
音響イベント検出を実施する点にある。これはすなわち、従来は独立して行なっていた事後特徴量の抽出と音響イベントの識別とを統一的に扱っていることを示しており、この点においてこの発明は従来の技術と異なっている。

上記を実現するために、この発明では、従来の多層パーセプトロンより多くの識別層を持つディープニューラルネットワーク（DNN: Deep Neural Network）を用いて、音響イベント検出の際の事後特徴量の抽出器と識別器を別個のものとして扱うのではなく、それぞれを統一的に扱うように構成した。これにより、効果的に音響イベントを検出可能な音響イベント検出技術を提供することができる。
［ディープニューラルネットワーク］
この発明では、従来の事後特徴量抽出モデル及び音響イベントHMMの代わりに、音響信
号の特徴量を入力として各音響イベントに対する尤度を直接推定する音響イベント識別モデルをディープニューラルネットワークで実現する。ディープニューラルネットワークは多層パーセプトロンの一種であり、通常の多層パーセプトロンが三層程度の識別層を有するのに対し、深層学習（ディープラーニング）に基づいて、より多くの識別層を有し、通常の多層パーセプトロンよりも遥かに深いネットワークを構築する。なお、ディープニューラルネットワークの一般的な説明は、下記の参考文献１、参考文献２を参照されたい。〔参考文献１〕A. Mohamed, G. Dahl, G. Hinton, “Acoustic Modeling using Deep Belief Networks”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, pp. 14-22, 2012
〔参考文献２〕久保陽太郎、「ディープラーニングによるパターン認識」、情報処理学会誌、Vol. 54、No. 5、pp. 500-508、May 2013
ディープニューラルネットワークは、図５に示すような深い識別層を持つニューラルネットワークを構築する。このような深い識別層を持たせることで、音響イベントの検出性能及び識別性能を高めることができる。ディープニューラルネットワークでは、各識別層として図６に示すような制約付きボルツマンマシン（RBM: Restricted Boltzmann Machine)を学習し、その後、各識別層の制約付きボルツマンマシンを連結してネットワーク全体のパラメータを調整する。

制約付きボルツマンマシンは、図６に示すように、入力信号であるI次元の観測変数ベ
クトルv={v₁,…,v_i,…,v_I}と、出力信号であるJ次元の隠れ変数ベクトルh={h₁,…,h_j,…,h_J}の関係をネットワークにより記述したモデルである。制約付きボルツマンマシンは、
可視層と隠れ層を持ち、各層の各ノードは、各ベクトルの各次元に一対一で対応する。ここで、隠れ変数とは、観測変数に潜在的に存在する特徴を示しており、観測変数を制約付きボルツマンマシンに入力することにより、観測変数に潜在的に存在する特徴が抽出される。また、制約付きボルツマンマシンには可視層内及び隠れ層内でのノード間の関係は考慮しないという制約がある。

ディープニューラルネットワークは、図５に示すように、制約付きボルツマンマシンを多数連結し、ある識別層kの隠れ変数h^(k)を、次の識別層k+1の観測変数v^(k+1)とすることで、観測変数の潜在的な特徴をより深く分析し抽出することが可能である。このとき隠れ変数は、ある識別層の各ノードjに対する活性化状態とも呼ばれる。この活性化状態は、
後述のソフトマックス活性化関数やシグモイド関数を用いて正の連続値として表現される。特に最終層（すなわち、出力層）の活性化状態は、ソフトマックス活性化関数により[0:1]の値に正規化され、最終層の各ノードに対する確率分布とみなすことが可能である。
すなわち、最終層Kの各ノードjを各音響イベントeに対応するノードと見れば、最終層Kの各ノードjから出力される確率は入力音響信号x_tの各音響イベントeに対する確率、すなわち入力音響信号x_tの各音響イベントeに対する尤度に相当する。つまり、ディープニュー
ラルネットワークによれば、音響信号を入力として、各音響イベントに対する尤度を直接推定するモデルが実現できる。これは、従来の入力音響信号からの事後特徴量の抽出と音
響イベントの識別（パターン識別）とを一つのモデルで同時に行っていることを意味しており、音響特徴量の抽出と音響イベントの識別との統一的な枠組みとなっている。
［第一実施形態］
この発明の第一実施形態は、学習用の音響信号から音響イベント識別モデルを学習する音響イベント識別モデル学習装置と、音響イベント識別モデルを用いて入力音響信号に含まれる音響イベントを推定する音響イベント検出装置とからなる。
＜音響イベント識別モデル学習装置＞
図７を参照して、実施形態に係る音響イベント識別モデル学習装置１の機能構成の一例を説明する。音響イベント識別モデル学習装置１は、学習用データ記憶部１１、学習用正解ラベル記憶部１２、開発用データ記憶部１３、開発用正解ラベル記憶部１４、学習用データ特徴量抽出部１５、開発用データ特徴量抽出部１６、モデルパラメータ学習部１７、モデルパラメータ調整部１８、音響イベント識別モデル記憶部１９を含む。音響イベント識別モデル学習装置１は、例えば、中央演算処理装置（Central Processing Unit、CPU）、主記憶装置（Random Access Memory、RAM）などを有する公知又は専用のコンピュータ
に特別なプログラムが読み込まれて構成された特別な装置である。音響イベント識別モデル学習装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響イベント識別モデル学習装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音響イベント識別モデル学習装置１が備える各記憶部は、例えば、RAM
（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音響イベント識別モデル学習装置１が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習用データ記憶部１１には、複数の音響イベントが含まれる音響信号である学習用データx_t ^(train)が記憶されている。

学習用正解ラベル記憶部１２には、学習データx_t ^(train)の各フレームtにおける音響イベントが定義済みのE個の音響イベント{1,…,e,…,E}のうちのいずれであるかを示した正解ラベルGT_t ^(train)が記憶されている。

開発用データ記憶部１３には、複数の音響イベントが含まれる音響信号である開発用データx_t ^(dev)が記憶されている。

開発用正解ラベル記憶部１４には、開発用データx_t ^(dev)の各フレームtにおける音響イベントが定義済みのE個の音響イベント{1,…,e,…,E}のうちのいずれであるかを示した正解ラベルGT_t ^(dev)が記憶部されている。

学習用データと開発用データは、いずれも複数の音響イベントが含まれる音響信号である点で共通し、性質上の差異はない。音響イベント識別モデルの学習過程において、一部のデータは二度利用し、その他のデータは一度のみ利用するため、便宜的に分類しているに過ぎない。したがって、これらのデータの収集は、特に区別なく様々な音環境で十分な量の音響信号を収音し、任意に選択した一部の音響信号を学習用データx_t ^(train)とし、
残りの音響信号を開発用データx_t ^(dev)とすればよい。

図８を参照して、音響イベント識別モデル学習方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップＳ１１において、学習用データ特徴量抽出部１５は、学習用データx_t ^(train)
から学習用データ特徴量X_t ^(train)を抽出する。学習用データ特徴量抽出部１５の構成は
従来と同様であり、以下のように音響特徴量の抽出を行う。

学習用データ特徴量抽出部１５は、学習用データ記憶部１１に記憶された学習用データx_t ^(train)から短時間フレーム音響分析により、基本となる音響特徴量として、フレームtにおける12次元のメル周波数ケプストラム係数と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcc_t ^(train)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)のベクトルMfcc_t ^(train)を連結した351次元（=39×9）ベクトルX_t ^(train)を構成する。

ステップＳ１２において、モデルパラメータ学習部１７は、ディープニューラルネットワークの各識別層のパラメータΛ⁽¹⁾,…,Λ^(k),…,Λ^(K)を、学習用データ特徴量X_t ^(train)を用いて学習し、各識別層の制約付きボルツマンマシンRBM(Λ⁽¹⁾),…,RBM(Λ^(k)),…,RBM(Λ^(K))を出力する。ここで、Λ^(k)は制約付きボルツマンマシンの第k層のパラメータである。

以下、モデルパラメータ学習部１７の処理をより詳細に説明する。モデルパラメータ学習部１７は、まず、ディープニューラルネットワークの第１層の制約付きボルツマンマシンであるRBM(Λ⁽¹⁾)を学習する。この際、学習用データ特徴量X_t ^(train)を第１層の制約
付きボルツマンマシンRBM(Λ⁽¹⁾)への入力信号v_t ⁽¹⁾として、v_t ⁽¹⁾=X_t ^(train)からパラメータΛ⁽¹⁾を推定する。このとき、RBM(Λ⁽¹⁾)からの出力信号をh_t ⁽¹⁾とする。

次に、第１層の制約付きボルツマンマシンRBM(Λ⁽¹⁾)の出力信号h_t ⁽¹⁾を第２層の制約
付きボルツマンマシンRBM(Λ⁽²⁾)への入力信号v_t ⁽²⁾として、v_t ⁽²⁾=h_t ⁽¹⁾からパラメータΛ⁽²⁾を推定する。このときのRBM(Λ⁽²⁾)からの出力信号をh_t ⁽²⁾とする。

そして、k=3,4…,Kの順に、第k-1層の制約付きボルツマンマシンの出力信号h_t ^(k-1)を
第k層の制約付きボルツマンマシンの入力信号v_t ^(k)として、パラメータΛ^(k)の推定処理
を繰り返し実行する。これにより、すべての識別層k∈1,…,Kの制約付きボルツマンマシ
ンを学習する。

上記のモデルパラメータ学習部１７の処理において、入力信号（観測変数）v_t ^(k)と出
力信号（隠れ変数）h_t ^(k)との同時確率分布は次式（１）により与えられる。

式（１）において、関数E(・)は、v_t ^(k)とh_t ^(k)との対応を表すエネルギー関数であり
、次式（２）で与えられる。

式（２）より、識別層kの制約付きボルツマンマシンのパラメータはΛ^(k)={b^(k),c^(k),W^(k)}で与えられる。ここで、b^(k)は出力信号h_t ^(k)のD^(k)次元バイアスベクトルであり、c^(k)は入力信号v_t ^(k)のD^(k-1)次元バイアスベクトルであり、W^(k)はD^(k)×D^(k-1)次元重
み行列である。

式（２）において、k=1のときは入力信号がv_t ⁽¹⁾=X_t ^(train)にて与えられる実信号ベクトルであるため、Gaussian-Bernoulli RBMを適用する。k≠1のときは、入力信号v_t ^(k)の
各要素が[0:1]の範囲の値となるベクトルとなるため、Bernoulli-Bernoulli RBMを適用する。

制約付きボルツマンマシンのパラメータΛ^(k)は、次式（３）で表される周辺分布p(v_t ^(k))を用いて最尤推定することで得られる。

すなわち、パラメータΛ^(k)は、次式（４）（５）により与えられる。

式（５）において、Tは入力信号v_t ^(k)の総フレーム数である。しかしながら多くの場合、式（５）の出力信号h_t ^(k)に関する周辺化を解くことが困難であるため、Contrastive Divergence法と呼ばれるサンプリング法に基づく方法によりL^RBM(Λ^(k))を最大化するようなΛ^(k)を求める。Contrastive Divergence法についての詳細は、下記の参考文献３を参
照されたい。
〔参考文献３〕M. A. Carreira-Perpinan and G. E. Hinton, “On Contrastive Divergence Learning”, in Proceedings of AISTATS, 2005.

音響イベント識別モデルDNN(Λ)は、K個の識別層の制約付きボルツマンマシンRBM(Λ⁽¹⁾),…,RBM(Λ^(k)),…,RBM(Λ^(K))を連結して構成される一つのディープニューラルネットワークである。ここで、Λ={Λ⁽¹⁾,…,Λ^(k),…,Λ^(K)}である。音響イベント識別モデルDNN(Λ)の最終層の出力信号h_t ^(K)の各次元jは、各音響イベントeに一対一で対応する。

モデルパラメータ学習部１７は、学習した音響イベント識別モデルのパラメータΛを音響イベント識別モデル記憶部１９へ記憶する。

ステップＳ１３において、開発用データ特徴量抽出部１６は、開発用データx_t ^(dev)か
ら開発用データ特徴量X_t ^(dev)を抽出する。開発用データ特徴量抽出部１６の構成は従来
と同様であり、以下のように音響特徴量の抽出を行う。

開発用データ特徴量抽出部１６は、開発用データ記憶部１３に記憶された開発用データx_t ^(dev)から短時間フレーム音響分析により、基本となる音響特徴量として、フレームtにおける12次元のメル周波数ケプストラム係数と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcc_t ^(dev)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)のベクトルMfcc_t ^(dev)を連結した351次元（=39×9）ベクトルX_t ^(dev)を構成する。

ステップＳ１４において、モデルパラメータ調整部１８は、学習用データ特徴量X_t ^(train)、開発用データ特徴量X_t ^(dev)、学習用データ特徴量X_t ^(train)の正解ラベルGT_t ^(train)及び開発用データ特徴量X_t ^(dev)の正解ラベルGT_t ^(dev)を用いて、音響イベント識別モデル記憶部１９に記憶されている音響イベント識別モデルのパラメータΛを調整する。パラメータΛは、各識別層の制約付きボルツマンマシンRBM(Λ⁽¹⁾),…,RBM(Λ^(k)),…,RBM(Λ^(K))のパラメータの集合であり、Λ={Λ⁽¹⁾,…,Λ^(k),…,Λ^(K)}と表すことができる。モデルパラメータ調整部１８は、調整後のディープニューラルネットワークのパラメータ^
Λを出力する。パラメータ^Λは、各識別層の制約付きボルツマンマシンの調整後のパラ
メータの集合であり、^Λ={^Λ⁽¹⁾,…,^Λ^(k),…,^Λ^(K)}と表すことができる。

以下、モデルパラメータ調整部１８の処理をより詳細に説明する。モデルパラメータ調整部１８は、具体的には、最大相互情報量基準に基づき、次式（６）によりパラメータ調整を行う。

式（６）において、L_t ^DNNはフレームtの学習用データx_t ^(train)及び開発用データx_t ^(dev)のロス関数であり、X_tとGT_tとはそれぞれ学習用データ特徴量X_t ^(train)及びその正解ラベルGT_t ^(train)もしくは開発用データ特徴量X_t ^(dev)及びその正解ラベルGT_t ^(dev)である
。

式（６）において、関数q(X_t,GT_t)には、次式（７）〜（９）で定義される最終層Kの活性化関数σ^(K)(・)を用いる。活性化関数σ^(K)(・)は再帰式で表されるため、第１層から順に活性化関数σ^(k)(・)を算出する必要がある。すなわち、関数q(X_t,GT_t)を最適化することですべての識別層のパラメータが最適化されることになる。また、各識別層k（∀k、k≠K）の出力信号h_t ^(k)の各要素値を[0:1]の範囲とするため、活性化関数σ^(K)(・)にシ
グモイド活性化関数を用いるが、最終層Kの出力信号h_t ^(K)のみ、確率表現のため各要素の和が1となるよう活性化関数σ^(K)(・)にソフトマックス活性化関数を用いる。

式（６）において、Ω(・)は正則化項であり、この発明ではL1ノルムを採用する。L1ノルムは次式（１０）（１１）のようにパラメータのすべての要素の絶対値の合計値に小さな正の定数γを掛け合わした値として得られる。

モデルパラメータ調整部１８は、調整後の音響イベント識別モデルのパラメータ^Λを
音響イベント識別モデル記憶部１９へ記憶する。

＜音響イベント検出装置＞
図９を参照して、第一実施形態に係る音響イベント検出装置２の機能構成の一例を説明する。音響イベント検出装置２は、音響イベント識別モデル記憶部１９、評価用データ特徴量抽出部２１、音響イベント確率取得部２２、経路探索部２３を含む。音響イベント検出装置２は、例えば、中央演算処理装置（Central Processing Unit、CPU）、主記憶装置（Random Access Memory、RAM）などを有する公知又は専用のコンピュータに特別なプロ
グラムが読み込まれて構成された特別な装置である。音響イベント検出装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響イベント検出装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音響イベント検出装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、
ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

音響イベント識別モデル記憶部１９には、音響イベント識別モデル学習装置１により学習した音響イベント識別モデルのパラメータ^Λが記憶されている。音響イベント識別モ
デルDNN(^Λ)は、音響特徴量ベクトルを入力として、各音響イベントに対する確率（尤度）を出力するモデルであり、K個の識別層の制約付きボルツマンマシンRBM(^Λ⁽¹⁾),…,RBM(^Λ^(k)),…,RBM(^Λ^(K))を連結して構成される一つのディープニューラルネットワークである。ここで、^Λ={^Λ⁽¹⁾,…,^Λ^(k),…,^Λ^(K)}である。

図１０を参照して、音響イベント検出方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップＳ２１において、評価用データ特徴量抽出部２１は、入力された評価用データx_t ^(eval)から評価用データ特徴量X_t ^(eval)を抽出する。評価用データ特徴量抽出部２１の構成は従来と同様であり、以下のように音響特徴量の抽出を行う。

評価用データ特徴量抽出部２１は、入力された評価用データx_t ^(eval)から短時間フレーム音響分析により、基本となる音響特徴量として、フレームtにおける12次元のメル周波
数ケプストラム係数と、対数信号パワーと、それらの一次と二次との線形回帰係数とを含めた39次元のベクトルMfcc_t ^(eval)を抽出する。そして、フレームtの前後4フレーム分(t-4,…,t,…,t+4)のベクトルMfcc_t ^(eval)を連結した351次元（=39×9）ベクトルX_t ^(eval)を構成する。

ステップＳ２２において、音響イベント確率取得部２２は、音響イベント識別モデル記憶部１９へ記憶されたパラメータ^Λを読み込み、音響イベント識別モデルDNN(^Λ)へ評
価用データ特徴量X_t ^(eval)を入力して各音響イベントeの尤度を得る。各音響イベントの
尤度は、フレームtにおける各音響イベント{1,…,e,…,E}に対する事後確率であり、音響イベント識別モデルDNN(^Λ)の最終層Kにおける活性化関数σ^(K)(・)の出力値h_t,j ^(K)で
ある。h_t,j ^(K)は、次式（１２）で表される。

ここで、最終層Kの活性化関数σ^(K)(・)は、次式（１３）〜（１５）で定義される。

ステップＳ２３において、経路探索部２３は、音響イベントの尤度を用いて評価用データx_t ^(eval)全体の最適経路を算出し、評価用データx_t ^(eval)の各フレームtの音響イベン
トq_tを出力する。経路探索部２３は、各フレームt，各音響イベントjに対する活性化関数の出力値h_(t,j) ^(K)から、Viterbiアルゴリズムにより、評価用データx_t ^(eval)に含まれる全フレームにおける音響イベントの時系列の最適経路を算出し、フレームtにおける音響
イベントq_tを出力する。具体的には、各フレームt=0,1,…,T-1についての取り得る音響イベントの組合せのうち、その組み合わせに対応する確率h_(t,j) ^(K)の総和が最大となるも
のを最適経路として求め、その最適経路を構成する各フレームtの音響イベントjを音響イベントq_tとして出力する。

［第二実施形態］
この発明の第二実施形態は、学習用の音響信号から高解像度音響イベント識別モデルを学習する音響イベント識別モデル学習装置（以下、高解像度音響イベント識別モデル学習装置ともいう）と、高解像度音響イベント識別モデルを用いて入力音響信号に含まれる音響イベントを推定する音響イベント検出装置（以下、高解像度音響イベント検出装置ともいう）とからなる。

＜課題＞
第一実施形態では、前述のディープニューラルネットワークに基づき音響イベント検出が効果的に実施可能であることを示した。しかし、第一実施形態では、音響イベントが単独で観測されることを前提としており、人の声や背景雑音（例えばエアコンの音等）と音響イベントが同時に発生し、複数の音源が重なって観測される場合を考慮していない。

第一実施形態では、図１１に示すように、入力音響信号を10ミリ秒毎に切り出したフレームより26次元の対数メル周波数スペクトルと、1次と2次の回帰係数を含めた78次元の特徴量ベクトルを抽出する。もしくは、図１２に示すように、1次元の対数信号パワーと、12次元のメル周波数ケプストラム係数と、1次と2次の回帰係数を含めた39次元の特徴量ベ
クトルを抽出する。その後、コンテキスト窓を用いて、現在の時刻tを中心として、その
前後5フレーム分のベクトルを束ねたものを用いることで、音響イベント検出を実施する
。

対数メル周波数スペクトルは、フレームに分割された入力音響信号から離散フーリエ変換に基づく周波数分析により抽出した、257次元のパワースペクトルに対して、26個のメ
ル周波数フィルタバンクを適用することで、26次元の特徴量に圧縮することで得られる。（正確には512点離散フーリエ変換を用いて512次元のパワースペクトルを抽出するが、パワースペクトルは左右対称の形状を有しており、対称な片側部分255次元と共通部分2次元を含めた257次元で、元のフレーム分割された入力音響信号の情報が保持される。）
メル周波数ケプストラム係数は、26次元の対数メル周波数スペクトルに対して、離散コサイン変換を適用することで、12次元の特徴量に圧縮することで得られる。

しかしながら、これらの圧縮操作は信号分析の解像度を劣化させていることを意味しており、複数の音源の重なりを許容するような音響イベント検出には不適切である。

第二実施形態では、このような点に鑑みて、圧縮された低解像度の特徴量ではなく、圧縮前の257次元のパワースペクトル等の高解像度特徴量を用いることで、複数の音源が存
在する環境下において効果的に音響イベントを検出可能な高解像度音響イベント識別モデル学習装置及び高解像度音響イベント検出装置を実現する。

＜高解像度音響イベント識別モデル学習装置＞
図１３を参照して、第二実施形態に係る高解像度音響イベント識別モデル学習装置３の機能構成の一例を説明する。高解像度音響イベント識別モデル学習装置３は、第一実施形態に係る音響イベント識別モデル学習装置１と同様に、学習用データ記憶部１１、学習用正解ラベル記憶部１２、開発用データ記憶部１３、開発用正解ラベル記憶部１４、モデルパラメータ学習部１７、モデルパラメータ調整部１８を含み、学習用データ特徴量抽出部１５の代わりに高解像度学習用データ特徴量抽出部３５を、開発用データ特徴量抽出部１６の代わりに高解像度開発用データ特徴量抽出部３６を、音響イベント識別モデル記憶部１９の代わりに高解像度音響イベント識別モデル記憶部３９をさらに含む。高解像度音響イベント識別モデル学習装置３は、例えば、中央演算処理装置（Central Processing Unit、CPU）、主記憶装置（Random Access Memory、RAM）などを有する公知又は専用のコン
ピュータに特別なプログラムが読み込まれて構成された特別な装置である。高解像度音響イベント識別モデル学習装置３は、例えば、中央演算処理装置の制御のもとで各処理を実行する。高解像度音響イベント識別モデル学習装置３に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。高解像度音響イベント識別モデル学習装置３が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハード
ディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。高解像度音響イベント識別モデル学習装置３が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

図１４を参照して、高解像度音響イベント識別モデル学習方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップＳ３１において、高解像度学習用データ特徴量抽出部３５は、学習用データx_t ^(train)から高解像度学習用データ特徴量X_t ^(train)を抽出する。高解像度学習用データ特徴量抽出部３５は、以下のように高解像度音響特徴量の抽出を行う。

高解像度学習用データ特徴量抽出部３５は、学習用データ記憶部１１に記憶された学習用データx_t ^(train)から短時間フレーム音響分析により、基本となる高解像度音響特徴量
として、フレームtにおける257次元のパワースペクトルベクトルSpc_t ^(train)を抽出する
。そして、図１５に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpc_t ^(train)を連結した4883次元（=257×19）ベクトルX_t ^(train)を構成する。第一実施形態では、ベクトルX_t ^(train)は858次元、もしくは429次元となっており、これに比べて第二実施形態におけるベクトルX_t ^(train)は4883次元と高解像度の
特徴量となっている。

ステップＳ３２において、モデルパラメータ学習部１７は、ディープニューラルネットワークの各識別層のパラメータΛ⁽¹⁾,…,Λ^(k),…,Λ^(K)を、高解像度学習用データ特徴
量X_t ^(train)を用いて学習し、各識別層の制約付きボルツマンマシンRBM(Λ⁽¹⁾),…,RBM(
Λ^(k)),…,RBM(Λ^(K))を出力する。ここで、Λ^(k)は制約付きボルツマンマシンの第k層のパラメータである。

以下、モデルパラメータ学習部１７の処理をより詳細に説明する。モデルパラメータ学習部１７は、まず、ディープニューラルネットワークの第１層の制約付きボルツマンマシンであるRBM(Λ⁽¹⁾)を学習する。この際、高解像度学習用データ特徴量X_t ^(train)を第１
層の制約付きボルツマンマシンRBM(Λ⁽¹⁾)への入力信号v_t ⁽¹⁾として、v_t ⁽¹⁾=X_t ^(train)からパラメータΛ⁽¹⁾を推定する。このとき、RBM(Λ⁽¹⁾)からの出力信号をh_t ⁽¹⁾とする。

上記のモデルパラメータ学習部１７の処理において、入力信号（観測変数）v_t ^(k)と出
力信号（隠れ変数）h_t ^(k)との同時確率分布は次式（１６）により与えられる。

式（１６）において、関数E(・)は、v_t ^(k)とh_t ^(k)との対応を表すエネルギー関数であ
り、次式（１７）で与えられる。

式（１７）より、識別層kの制約付きボルツマンマシンのパラメータはΛ^(k)={b^(k),c^(k),W^(k)}で与えられる。ここで、b^(k)は出力信号h_t ^(k)のD^(k)次元バイアスベクトルであり、c^(k)は入力信号v_t ^(k)のD^(k-1)次元バイアスベクトルであり、W^(k)はD^(k)×D^(k-1)次元
重み行列である。

式（１７）において、k=1のときは入力信号がv_t ⁽¹⁾=X_t ^(train)にて与えられる実信号ベクトルであるため、Exponential-Bernoulli RBMを適用する。第一実施形態では、実信号
ベクトルが対数メル周波数スペクトルベクトルもしくはメル周波数ケプストラム係数ベクトルで与えられ、それらの頻度分布がガウス分布に従うと仮定するため、k=1のときはエ
ネルギー関数にGaussian-Bernoulli RBMを適用する。しかし、第二実施形態における信号ベクトルはパワースペクトルベクトルSpc_t ^(train)をもとに構成され、その頻度分布は指
数分布に従うため、k=1のときはエネルギー関数にExponential-Bernoulli RBMを適用する。一方、k≠1のときは、第一実施形態と同様に、入力信号v_t ^(k)の各要素が[0:1]の範囲の値となるベクトルとなるため、Bernoulli-Bernoulli RBMを適用する。

制約付きボルツマンマシンのパラメータΛ^(k)は、次式（１８）で表される周辺分布p(v_t ^(k))を用いて最尤推定することで得られる。

すなわち、パラメータΛ^(k)は、次式（１９）（２０）により与えられる。

式（２０）において、Tは入力信号v_t ^(k)の総フレーム数である。しかしながら多くの場合、式（２０）の出力信号h_t ^(k)に関する周辺化を解くことが困難であるため、Contrastive Divergence法と呼ばれるサンプリング法に基づく方法によりL^RBM(Λ^(k))を最大化する
ようなΛ^(k)を求める。Contrastive Divergence法についての詳細は、上記の参考文献３
を参照されたい。

高解像度音響イベント識別モデルDNN(Λ)は、K個の識別層の制約付きボルツマンマシンRBM(Λ⁽¹⁾),…,RBM(Λ^(k)),…,RBM(Λ^(K))を連結して構成される一つのディープニューラルネットワークである。ここで、Λ={Λ⁽¹⁾,…,Λ^(k),…,Λ^(K)}である。高解像度音響イベント識別モデルDNN(Λ)の最終層の出力信号h_t ^(K)の各次元jは、各音響イベントeに一対一で対応する。

モデルパラメータ学習部１７は、学習した高解像度音響イベント識別モデルのパラメータΛを高解像度音響イベント識別モデル記憶部３９へ記憶する。

ステップＳ３３において、高解像度開発用データ特徴量抽出部３６は、開発用データx_t ^(dev)から高解像度開発用データ特徴量X_t ^(dev)を抽出する。高解像度開発用データ特徴量抽出部３６は、以下のように高解像度音響特徴量の抽出を行う。

高解像度開発用データ特徴量抽出部３６は、開発用データ記憶部１３に記憶された開発用データx_t ^(dev)から短時間フレーム音響分析により、基本となる高解像度音響特徴量と
して、フレームtにおける257次元のパワースペクトルベクトルSpc_t ^(dev)を抽出する。そ
して、図１５に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpc_t ^(dev)を連結した4883次元（=257×19）ベクトルX_t ^(dev)を構成
する。

ステップＳ３４において、モデルパラメータ調整部１８は、高解像度学習用データ特徴量X_t ^(train)、高解像度開発用データ特徴量X_t ^(dev)、高解像度学習用データ特徴量X_t ^(train)の正解ラベルGT_t ^(train)及び高解像度開発用データ特徴量X_t ^(dev)の正解ラベルGT_t ^(dev)を用いて、高解像度音響イベント識別モデル記憶部３９に記憶されている高解像度音響イベント識別モデルのパラメータΛを調整する。パラメータΛは、各識別層の制約付きボルツマンマシンRBM(Λ⁽¹⁾),…,RBM(Λ^(k)),…,RBM(Λ^(K))のパラメータの集合であり、Λ={Λ⁽¹⁾,…,Λ^(k),…,Λ^(K)}と表すことができる。モデルパラメータ調整部１８は、調整後のディープニューラルネットワークのパラメータ^Λを出力する。パラメータ^Λは、各識別層の制約付きボルツマンマシンの調整後のパラメータの集合であり、^Λ={^Λ⁽¹⁾,…,^Λ^(k),…,^Λ^(K)}と表すことができる。

式（２１）において、L_t ^DNNはフレームtの学習用データx_t ^(train)及び開発用データx_t ^(dev)のロス関数であり、X_tとGT_tとはそれぞれ高解像度学習用データ特徴量X_t ^(train)及びその正解ラベルGT_t ^(train)もしくは高解像度開発用データ特徴量X_t ^(dev)及びその正解ラ
ベルGT_t ^(dev)である。

式（２１）において、関数q(X_t,GT_t)には、次式（２２）〜（２４）で定義される最終
層Kの活性化関数σ^(K)(・)を用いる。活性化関数σ^(K)(・)は再帰式で表されるため、第
１層から順に活性化関数σ^(k)(・)を算出する必要がある。すなわち、関数q(X_t,GT_t)を最適化することですべての識別層のパラメータが最適化されることになる。また、各識別層k（∀k、k≠K）の出力信号h_t ^(k)の各要素値を[0:1]の範囲とするため、活性化関数σ^(K)(・)にシグモイド活性化関数を用いるが、最終層Kの出力信号h_t ^(K)のみ、確率表現のため
各要素の和が1となるよう活性化関数σ^(K)(・)にソフトマックス活性化関数を用いる。

式（２１）において、Ω(・)は正則化項であり、この発明ではL1ノルムを採用する。L1ノルムは次式（２５）（２６）のようにパラメータのすべての要素の絶対値の合計値に小さな正の定数γを掛け合わした値として得られる。

モデルパラメータ調整部１８は、調整後の高解像度音響イベント識別モデルのパラメータ^Λを高解像度音響イベント識別モデル記憶部３９へ記憶する。

＜高解像度音響イベント検出装置＞
図１６を参照して、第二実施形態に係る高解像度音響イベント検出装置４の機能構成の一例を説明する。高解像度音響イベント検出装置４は、第一実施形態に係る音響イベント検出装置２と同様に、音響イベント確率取得部２２、経路探索部２３を含み、音響イベント識別モデル記憶部１９の代わりに高解像度音響イベント識別モデル記憶部３９を、評価用データ特徴量抽出部２１の代わりに高解像度評価用データ特徴量抽出部４１をさらに含む。高解像度音響イベント検出装置４は、例えば、中央演算処理装置（Central Processing Unit、CPU）、主記憶装置（Random Access Memory、RAM）などを有する公知又は専用
のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。高解像度音響イベント検出装置４は、例えば、中央演算処理装置の制御のもとで各処理を実行する。高解像度音響イベント検出装置４に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。高解像度音響イベント検出装置４が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもし
くはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェア
により構成することができる。

高解像度音響イベント識別モデル記憶部３９には、高解像度音響イベント識別モデル学習装置３により学習した高解像度音響イベント識別モデルのパラメータ^Λが記憶されて
いる。高解像度音響イベント識別モデルDNN(^Λ)は、高解像度音響特徴量ベクトルを入力として、各音響イベントに対する確率（尤度）を出力するモデルであり、K個の識別層の
制約付きボルツマンマシンRBM(^Λ⁽¹⁾),…,RBM(^Λ^(k)),…,RBM(^Λ^(K))を連結して構成
される一つのディープニューラルネットワークである。ここで、^Λ={^Λ⁽¹⁾,…,^Λ^(k),…,^Λ^(K)}である。

図１７を参照して、高解像度音響イベント検出方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップＳ４１において、高解像度評価用データ特徴量抽出部４１は、入力された評価用データx_t ^(eval)から高解像度評価用データ特徴量X_t ^(eval)を抽出する。高解像度評価用データ特徴量抽出部４１は、以下のように高解像度音響特徴量の抽出を行う。

高解像度評価用データ特徴量抽出部４１は、入力された評価用データx_t ^(eval)から短時間フレーム音響分析により、基本となる高解像度音響特徴量として、フレームtにおける257次元のパワースペクトルベクトルSpc_t ^(eval)を抽出する。そして、図１５に示すようにコンテキスト窓を用いてフレームtの前後9フレーム分(t-9,…,t,…,t+9)のベクトルSpc_t ^(eval)を連結した4883次元（=257×19）ベクトルX_t ^(eval)を構成する。

ステップＳ４２において、音響イベント確率取得部２２は、高解像度音響イベント識別モデル記憶部３９へ記憶されたパラメータ^Λを読み込み、高解像度音響イベント識別モ
デルDNN(^Λ)へ高解像度評価用データ特徴量X_t ^(eval)を入力して各音響イベントeの尤度
を得る。各音響イベントの尤度は、フレームtにおける各音響イベント{1,…,e,…,E}に対する事後確率であり、高解像度音響イベント識別モデルDNN(^Λ)の最終層Kにおける活性
化関数σ^(K)(・)の出力値h_t,j ^(K)である。h_t,j ^(K)は、次式（２７）で表される。

ここで、最終層Kの活性化関数σ^(K)(・)は、次式（２８）〜（３０）で定義される。

ステップＳ４３において、経路探索部２３は、音響イベントの尤度を用いて評価用データx_t ^(eval)全体の最適経路を算出し、評価用データx_t ^(eval)の各フレームtの音響イベン
トq_tを出力する。経路探索部２３は、各フレームt，各音響イベントjに対する活性化関数の出力値h_(t,j) ^(K)から、Viterbiアルゴリズムにより、評価用データx_t ^(eval)に含まれる全フレームにおける音響イベントの時系列の最適経路を算出し、フレームtにおける音響
イベントq_tを出力する。具体的には、各フレームt=0,1,…,T-1についての取り得る音響イベントの組合せのうち、その組み合わせに対応する確率h_(t,j) ^(K)の総和が最大となるも
のを最適経路として求め、その最適経路を構成する各フレームtの音響イベントjを音響イベントq_tとして出力する。

＜効果＞
第二実施形態の音響イベント検出技術によれば、音響イベント検出の際に高解像度信号分析に基づく高解像度特徴量を扱うことができ、人の声や背景雑音等の複数の音源が重なった環境下において、音響イベント検出の精度を向上することができる。

［変形例］
第二実施形態に係る高解像度学習用データ特徴量抽出部３５、高解像度開発用データ特徴量抽出部３６及び高解像度評価用データ特徴量抽出部４１において、基本となる高解像度特徴量として、フレームtにおける257次元のパワースペクトルベクトルSpc_t ^(train)、Spc_t ^(dev)、Spc_t ^(eval)の自然対数を求めた対数パワースペクトルベクトルlSpc_t ^(train)、lSpc_t ^(dev)、lSpc_t ^(eval)を用いて高解像度特徴量である4883次元ベクトルX_t ^(train)、X_t ^(dev)、X_t ^(eval)を構成してもよい。その場合、モデルパラメータ学習部１７において、
識別層k=1のエネルギー関数に式（３１）で与えられるGaussian-Bernoulli RBMを適用す
る。

［実験結果］
この発明の効果を示すために、音響イベント検出の評価実験を行った。第一の実験では、複数の音響イベントが存在する音響信号を、従来の音響イベント検出装置及び第一実施形態の音響イベント検出装置に入力し、音響イベント検出結果を比較した。第二の実験では、複数の音響イベントが存在する音響信号を、第一実施形態の音響イベント検出装置及び第二実施形態の音響イベント検出装置に入力し、音響イベント検出結果を比較した。

第一の実験では、会議室において収録された音響信号を用いて音響イベント検出の評価を行った。また、利用する音響信号は、ディープニューラルネットワークの学習を行う学習用データ及び開発用データ、実際の評価対象となる評価用データ（入力データ）の三つに区分した。評価用データの詳細を図１８に示す。この実験では「音響イベント種別」欄に示す13種類の音響イベントの識別を目的とした。図１８は学習用データx_t ^(train)、開
発用データx_t ^(dev)、評価用データx_t ^(eval)それぞれにおける音響イベントの出現数およ
びその総時間を示した表である。例えば、扉の開く音を示す音響イベント「door open」
は、学習用データには20回出現し、その総時間が43.270秒であり、開発用データには20回出現し、その総時間が42.250秒であり、評価用データには20回出現し、その総時間が41.450秒である。

第一の実験では、第一実施形態による音響イベント検出方法において、識別層の数をk=1,2,3,4,5とし、各識別層のノード数をD^(k)=256,512,1024,2048に変化させて行った。

図１９に、非特許文献１に開示された従来方法の音響イベント検出による結果と、この発明の音響イベント検出による結果を示す。横軸は、ディープニューラルネットワークの
識別層の数Kの設定値を示す。縦軸は、検出した音響イベントの正解率を示し、高いほど
精度良く音響イベントを検出したことを表す。図１９に示す実験結果によれば、識別層の数K及び各識別層のノード数D^(k)のすべての組合せにおいて、非特許文献１による従来方
法よりも検出率が高かったことがわかる。図１９の結果から、この発明により従来技術に比べて高い検出性能が得られることが明らかになった。

図２０は、音響信号より検出された音響イベントの時間区間を示している。図２０（Ａ）は非特許文献１による従来方法による結果であり、図２０（Ｂ）はこの発明の音響イベント検出技術による結果である。縦軸は、各音響イベントを表しており、横軸は、音響信号の時間を表している。図中の黒い部分は正しく音響イベントを検出した時間区間を示しており、灰色の部分は誤って音響イベントを検出した時間区間を示している。図２０（Ａ）よりも図２０（Ｂ）の方が誤って音響イベントを検出した時間区間が少ないことがわかる。図２０の結果からも、この発明による音響イベント検出の方が従来の方法よりも正確に音響イベントの時間区間を検出できていることが明らかになった。

第二の実験では、第一の実験と同様に、会議室において収録された音響信号を用いて音響イベント検出の評価を行った。また、利用する音響信号は、ディープニューラルネットワークの学習を行う学習用データ及び開発用データ、実際の評価対象となる評価用データ（入力データ）の三つに区分した。評価用データの詳細を図２１に示す。この実験では「音響イベント種別」欄に示す13種類の音響イベントの識別を目的とした。図２１は学習用データx_t ^(train)、開発用データx_t ^(dev)、評価用データx_t ^(eval)それぞれにおける音響イベントの出現数およびすべての時間を示した表である。例えば、足音を示す音響イベント「Steps」は、学習用データには252回出現し、開発用データには216回出現し、評価用デ
ータには570回出現する。

第二の実験では、第二実施形態による音響イベント検出方法において、識別層の数をk=1,2,3,4,5,6,7,8,9,10とし、各識別層のノード数をD^(k)=256,512に変化させて行った。

図２２と図２３に、第一実施形態の音響イベント検出による結果と、第二実施形態の高解像度音響イベント検出による結果を示す。横軸は、ディープニューラルネットワークの識別層の数Kの設定値を示す。縦軸は、検出した音響イベントの正解率を示し、高いほど
精度良く音響イベントを検出したことを表す。図２２に示す実験結果によれば、識別層の数K及び各識別層のノード数256の組合せにおいて、第一実施形態による方法よりも第二実施形態による方法の方がさらに検出率が高かったことがわかる。図２３に示す実験結果によれば、識別層の数K及び各識別層のノード数512の組合せにおいても、第一実施形態による方法よりも第二実施形態による方法の方がさらに検出率が高かったことがわかる。図２２と図２３の結果から、第二実施形態の高解像度音響イベント検出装置の方が第一実施形態の音響イベント検出装置よりもさらに高い検出性能が得られることが明らかになった。

［プログラム、記録媒体］
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、７音響イベント識別モデル学習装置
３高解像度音響イベント識別モデル学習装置
２、８音響イベント検出装置
４高解像度音響イベント検出装置
１１学習用データ記憶部
１２学習用正解ラベル記憶部
１３開発用データ記憶部
１４開発用正解ラベル記憶部
１５学習用データ特徴量抽出部
１６開発用データ特徴量抽出部
１７モデルパラメータ学習部
１８モデルパラメータ調整部
１９音響イベント識別モデル記憶部
２１評価用データ特徴量抽出部
２２音響イベント確率取得部
２３経路探索部
３５高解像度学習用データ特徴量抽出部
３６高解像度開発用データ特徴量抽出部
３９高解像度音響イベント識別モデル記憶部
４１高解像度評価用データ特徴量抽出部
７０事後特徴量抽出モデル学習部
７１事後特徴量抽出モデル記憶部
７２音響イベントHMM学習部
７３音響イベントHMM記憶部
７４事後特徴量抽出部
７５ HMM学習部
７６音響イベント尤度算出部

Claims

複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する学習用データ特徴量抽出部と、
音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、上記学習用データ特徴量を用いて学習するモデルパラメータ学習部と、
複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する開発用データ特徴量抽出部と、
上記学習用データ特徴量、上記開発用データ特徴量、上記学習用データ特徴量の正解ラベル及び上記開発用データ特徴量の正解ラベルを用いて、上記ディープニューラルネットワークの各階層のパラメータを最適化するモデルパラメータ調整部と、
を含み、
上記ディープニューラルネットワークは、各識別層を制約付きボルツマンマシンとして、上記制約付きボルツマンマシンを連結して構成されるものであり、
上記モデルパラメータ学習部は、v _t ^(k) を第k層の制約付きボルツマンマシンの入力信号とし、h _t ^(k) を第k層の制約付きボルツマンマシンの出力信号とし、W ^(k) はD ^(k) ×D ^(k-1) 次元重み行列とし、第１層の制約付きボルツマンマシンのパラメータを次式で定義されるエネルギー関数に基づいて学習し、第２層以下の制約付きボルツマンマシンのパラメータは上位層の制約付きボルツマンマシンの出力信号を入力信号として推定する
音響イベント識別モデル学習装置。
請求項１に記載の音響イベント識別モデル学習装置であって、
上記モデルパラメータ学習部は、Kを上記ディープニューラルネットワークの識別層の数とし、kを1≦k≦Kの整数とし、Tを上記学習用データのフレーム数とし、v_t ^(k)を第k層の制約付きボルツマンマシンの入力信号とし、h_t ^(k)を第k層の制約付きボルツマンマシンの出力信号として、次式により第k層の制約付きボルツマンマシンのパラメータΛ^(k)を学習する
音響イベント識別モデル学習装置。
請求項１または２に記載の音響イベント識別モデル学習装置であって、
上記モデルパラメータ調整部は、Kを上記ディープニューラルネットワークの識別層の数とし、Tを上記学習用データもしくは上記開発用データのフレーム数とし、L_t ^DNNを上記学習用データ及び上記開発用データのロス関数とし、X_tを上記学習用データ特徴量もしくは上記開発用データ特徴量とし、GT_tを上記学習用データ特徴量の正解ラベルとし、GT_t ^(dev)を上記開発用データ特徴量の正解ラベルとし、q(・)を第K層の活性化関数とし、Ω(・)を正則化項として、次式により上記ディープニューラルネットワークのパラメータ^Λを調整する
音響イベント識別モデル学習装置。
請求項１から３のいずれかに記載の音響イベント識別モデル学習装置を備え、
上記音響イベント識別モデル学習装置により学習された音響イベント識別モデルを記憶する音響イベント識別モデル記憶部と、
複数の音響イベントが含まれる音響信号である評価用データから評価用データ特徴量を抽出する評価用データ特徴量抽出部と、
上記音響イベント識別モデルへ上記評価用データ特徴量を入力して各音響イベントの尤度を得る音響イベント確率取得部と、
上記音響イベントの尤度を用いて上記評価用データ全体の最適経路を算出し、上記評価用データの各フレームの音響イベントを出力する経路探索部と、
を含む音響イベント検出装置。
学習用データ特徴量抽出部が、複数の音響イベントが含まれる音響信号である学習用データから学習用データ特徴量を抽出する学習用データ特徴量抽出ステップと、
モデルパラメータ学習部が、音響信号を入力とし各音響イベントの尤度を出力するディープニューラルネットワークの各識別層のパラメータを、上記学習用データ特徴量を用いて学習するモデルパラメータ学習ステップと、
開発用データ特徴量抽出部が、複数の音響イベントが含まれる音響信号である開発用データから開発用データ特徴量を抽出する開発用データ特徴量抽出ステップと、
モデルパラメータ調整部が、上記学習用データ特徴量、上記開発用データ特徴量、上記学習用データ特徴量の正解ラベル及び上記開発用データ特徴量の正解ラベルを用いて、上記ディープニューラルネットワークの各階層のパラメータを最適化するモデルパラメータ調整ステップと、
を含み、
上記ディープニューラルネットワークは、各識別層を制約付きボルツマンマシンとして、上記制約付きボルツマンマシンを連結して構成されるものであり、
上記モデルパラメータ学習ステップは、v _t ^(k) を第k層の制約付きボルツマンマシンの入力信号とし、h _t ^(k) を第k層の制約付きボルツマンマシンの出力信号とし、W ^(k) はD ^(k) ×D ^(k-1) 次元重み行列とし、第１層の制約付きボルツマンマシンのパラメータを次式で定義されるエネルギー関数に基づいて学習し、第２層以下の制約付きボルツマンマシンのパラメータは上位層の制約付きボルツマンマシンの出力信号を入力信号として推定する
音響イベント識別モデル学習方法。
請求項５に記載の音響イベント識別モデル学習方法の各ステップと、
評価用データ特徴量抽出部が、評価用データから評価用データ特徴量を抽出する評価用データ特徴量抽出ステップと、
音響イベント確率取得部が、上記音響イベント識別モデル学習方法の各ステップにより学習された音響イベント識別モデルへ上記評価用データ特徴量を入力して各音響イベントの尤度を得る音響イベント確率取得ステップと、
経路探索部が、上記音響イベントの尤度を用いて上記評価用データ全体の最適経路を算出し、上記評価用データの各フレームの音響イベントを出力する経路探索ステップと、
を含む音響イベント検出方法。
請求項１から３のいずれかに記載の音響イベント識別モデル学習装置または請求項４に記載の音響イベント検出装置としてコンピュータを機能させるためのプログラム。