JP7006592B2

JP7006592B2 - 信号処理装置、信号処理方法および信号処理プログラム

Info

Publication number: JP7006592B2
Application number: JP2018523934A
Authority: JP
Inventors: 達也小松; 玲史近藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-06-16
Filing date: 2017-06-13
Publication date: 2022-01-24
Anticipated expiration: 2037-06-13
Also published as: WO2017217412A1; JPWO2017217412A1; US10817719B2; US20190188468A1

Description

本発明は、音響信号を処理する信号処理装置、信号処理方法および信号処理プログラムに関する。

音響信号から予め定めた音響イベントを検知したり、音響信号を音源別の信号に分離する技術がある。ここで、音響イベントは、物理イベントに対応する音響信号のパターンであり、物理イベントが引き起こす物理状態と対応する区間の音響信号パターンとを対応づけたものである。例えば、検知対象として「ガラスの破砕」という音響イベントを定義したい場合、該音響イベントは、ガラスが割れた際に生じる音響信号パターンと「ガラスが割れる」という物理状態を対応づけたものである。

例えば、非特許文献１には、非負値行列因子分解（ＮＭＦ：Nonnegative Matrix Factorization）を用いて音響信号のスペクトログラムから音響イベントの基底行列の発現度合いを算出し、それを特徴量として音響信号に含まれる音響イベントを検知する方法が記載されている。非特許文献１に記載の方法は、より具体的には、音響信号のスペクトログラムに対して、あらかじめ学習データから算出した基底行列を教師基底とするＮＭＦを用いて該基底行列に含まれる各スペクトル基底の発現度合いを算出する。そして、該方法は、算出された発現度合いの組み合わせを基に音響信号に特定の音響イベントが含まれるか否かを識別することにより、音響イベントを検知する。

また、ＮＭＦは、複数の音源からの音を含む音響信号に対する音源分離にも多く用いられている。例えば、ＮＭＦを用いて分離対象とされる音響信号のスペクトルを、各音源のスペクトル基底を表す基底行列とその発現度合いを表すアクティベーション行列とに分離する。これにより、音源ごとのスペクトルが得られる。非特許文献１に記載の方法では、所定の音源による音響信号も、検知対象の音響イベントとして指定可能とする。すなわち、音響イベントには、所定音源からの音の発生という物理イベントに対応する音響信号のパターンも含まれるものとする。

特開２０１６－０４５２２１号公報特開２０１４－１６４１２６号公報

Courtenay V. Cotton and Daniel P. W. Ellis, ‘SPECTRAL VS. SPECTRO-TEMPORAL FEATURES FOR ACOUSTIC EVENT DETECTION’, 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.

しかし、非特許文献１に記載の方法は、音響イベントの識別精度が十分でないという問題があった。例えば、非特許文献１に記載の方法は、未知の環境下などにおいて、学習データから作成した基底行列では表現できないような未知の音が存在する場合、本来検知対象でない未知の音も検知対象の音響イベントとして誤って識別してしまうという問題があった。また、例えば、非特許文献１に記載の方法では、基底行列を生成するためのＮＭＦの解に多くの局所解が存在する。このため、非特許文献１に記載の方法は、学習データから基底行列を精度よく推定できず、正確な基底行列の抽出に失敗してしまうという問題があった。正確な基底行列が抽出されない場合、音響イベントを精度よく検知すること困難である。なお、音源分離の場合も、検知対象とされる音源のスペクトル基底を表す基底行列をＮＭＦにより得る際に、上記と同様、局所解の問題が生じる。

そこで、本発明は、音響イベントの識別精度を向上できる信号検知装置、そのための信号処理装置、信号処理方法および信号処理プログラムを提供することを目的とする。

本発明による信号処理装置は、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を格納する基底格納手段と、音響信号のスペクトログラムの時間区間中の音響イベントのスペクトル基底の発現度合いの組み合わせを特徴量として、音響信号に含まれる音響イベントを識別する識別モデルを格納するモデル格納手段と、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する識別信号分析手段と、算出された発現度合いの組み合わせを基に、識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する信号識別手段とを備えたことを特徴とする。

本発明による信号処理方法は、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出し、算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別することを特徴とする。

本発明による信号処理プログラムは、コンピュータに、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する処理、および算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する処理を実行させることを特徴とする。

本発明によれば、音響イベントの識別精度を向上できる。

第１の実施形態の信号処理装置１１０の構成例を示すブロック図である。第１の実施形態の動作の一例を示すフローチャートである。第２の実施形態の信号処理装置２００の構成例を示すブロック図である。第２の実施形態の全体動作の一例を示すフローチャートである。第２の実施形態の基底生成処理の処理フローの一例を示すフローチャートである。第２の実施形態のモデル学習処理の処理フローの一例を示すフローチャートである。第３の実施形態の信号処理装置１００の構成例を示すブロック図である。第３の実施形態の動作の一例を示すフローチャートである。第４の実施形態の信号処理装置４００の構成例を示すブロック図である。第４の実施形態の全体動作の一例を示すフローチャートである。第５の実施形態の信号処理装置５００の構成例を示すブロック図である。第６の実施形態の信号処理装置６００の構成例を示すブロック図である。第６の実施形態の動作の一例を示すフローチャートである。

以下、本発明の実施形態を、図面を参照して説明する。

まず、本発明の前提となる技術であるＮＭＦによる音源分離動作について簡単に説明する。

ＮＭＦは、入力された音響信号のスペクトログラムＶを、以下の式（１）に示すように、Ｋ行Ｒ列の基底行列Ｗ（ｋ，ｒ）とＲ行Ｊ列のアクティベーション行列Ｈ（ｒ，ｊ）の積で近似を行う行列分解手法である。

Ｖ≒ＷＨ・・・（１）

ＮＭＦに入力される音響信号のスペクトログラムＶは、例えば、音響時系列信号ｘ（ｔ）に対して短時間フーリエ変換を行って得られる、Ｋ行Ｊ列の強度数値データからなる行列Ｖ（ｋ，ｊ）であってもよい。音響時系列信号ｘ（ｔ）は、例えば、マイクロフォン等で収録したアナログ信号をＡＤ変換（Analog Digital Convert）して得られるデジタル信号であってもよい。

ここで、ｔは時間のインデックスを表す。また、Ｋは周波数ビン数を表し、ｋは周波数ビンのインデックスを表す。また、Ｊは短時間フーリエ変換時の時間フレーム数を表し、ｊは短時間フーリエ変換時の時間フレームのインデックスを表す。以下、他の行列表記においても同様とする。

また、Ｒは基底数を表し、ｒは基底のインデックスを表す。スペクトル基底行列Ｗ（ｋ，ｒ）は、スペクトル形状を表すベクトルとして表現されるスペクトル基底を列方向にＲ個結合したものとして解釈できる。同様に、アクティベーション行列Ｈ（ｒ，ｊ）は、各スペクトル基底に対応する発現度合いを表すアクティベーションを行方向にＲ個結合したものとして解釈できる。以下、他の行列表記においても同様とする。なお、各スペクトル基底および各スペクトル基底の発現度合い（発現タイミングとその大きさ）の表現方法は上記の例に限定されない。以下、ＷとＨとを、簡便に基底ＷとアクティベーションＨと表現する場合がある。

基底ＷおよびアクティベーションＨは、所要のコスト関数を最小化するように求められる。以下の実施形態では、コスト関数に、以下の式（２）で示されるような一般化ＫＬダイバージェンス（Kullback-Leibler divergence）を用いた場合を例に説明する。

ここで、○記号は行列の要素ごとの積を表す。また、分数表記は行列の要素ごとの除算を表す。

コスト関数（式（２）に示すＤ_ＫＬ）を所定の閾値以下の回数、又は所定の回数更新する基底ＷおよびアクティベーションＨは、例えば、以下の式（３）と式（４）を交互に繰り返し用いて算出する。

ここで、Ａ^Ｔは行列Ａの転置を表す。また、行列ＯはＶと同じ形で要素がすべて１の行列を表す。また、基底ＷおよびアクティベーションＨの初期値には、一般に乱数で生成したものが用いられる。上記の２式を、コスト関数が閾値以下になる、または設定した繰り返し回数に達するまで更新する。なお、学習データから識別モデルに用いる特徴量としてのアクティベーションＨを得る場合などに用いられる教師有りＮＭＦの場合、基底Ｗは既に得られているものとして、アクティベーションＨのみを更新する。

例えば、非特許文献１に記載の音響イベントの検知方法は、前処理として、検知したい音響イベントを含む音響信号をつなぎ合わせたスペクトログラムに対してＮＭＦを行い、各音響イベントに対応したスペクトル基底群（基底Ｗ）を生成する。そして、未知の音響信号のスペクトログラムに対して、基底Ｗを用いた教師有りＮＭＦを行い、各スペクトル基底の発現度合い（アクティベーションＨ）を算出する。そして、各スペクトル基底の発現度合いの組み合わせから、未知の音響信号に検知対象の音響イベントが含まれているか否かを識別することで、音響イベントを検知している。

ところで、検知対象とされる音響イベントのスペクトログラムをＮＭＦにより分解することで得られる基底Ｗは、当該音響イベントを構成する物理的要素に対応する音のスペクトルを表すと考えられる。例えば、「ガラスが割れる音」とラベル付けされた音響イベントが、ガラスが割れる瞬間の衝撃音とガラスの破片が飛び散る音とを含む場合、該音響イベントのスペクトログラムをＮＭＦにより分解すると、ガラスが割れる瞬間の衝撃音と割れたガラスの破片が飛び散る音の２つの物理現象に対応する要素に対応する音のスペクトルを表す基底Ｗが得られると考えられる。

このため、未知の音響信号のスペクトログラムを、そのようなスペクトル基底の組み合わせを用いた教師有りＮＭＦにより分解した結果、上記の２つの物理現象に対応するスペクトル基底のアクティベーション（発現度合い）が、所定のタイミングで大きい値を示すなど、ラベル「ガラスが割れる音」に対して予め学習されたパターンを示した場合には、該音響信号は「ガラスが割れる音」という音響イベントを含んでいると識別される。

実施形態１．
次に、本発明の第１の実施形態を説明する。図１は、第１の実施形態の信号処理装置１１０の構成例を示すブロック図である。図１に示す信号処理装置１１０は、検知対象とされる音響信号のスペクトログラムである識別用スペクトログラムＶを入力とし、該スペクトログラムＶに含まれる音響イベントの識別結果を示す音響イベントラベルを出力する音響イベント識別装置として機能する装置である。なお、いずれの音響イベントも含まれていない場合は、その旨を示す識別結果が出力される。

図１に示すように、信号処理装置１１０は、基底格納部１１１と、識別信号分析部１１２と、モデル格納部１１３と、信号識別部１１４とを備える。

基底格納部１１１は、検知対象とされる音響イベントの周波数パターンを示すスペクトル基底群（後述する基底Ｗ_ｅ）を格納する。

モデル格納部１１３は、基底Ｗ_ｅに含まれる各スペクトル基底の発現度合いであるアクティベーション（後述するアクティベーションＨ_ｅ）を基に音響イベントを識別するための識別モデルを記憶する。識別モデルの詳細は特に限定されないが、サポートベクトルマシン（ＳＶＭ）や、隠れマルコフモデルや混合ガウシアンモデルやニューラルネットワークなどが一例として挙げられる。例えば、識別モデルとしてＳＶＭを用いる場合、モデル格納部１１３には、識別面を表す行列Ａ_ｅと切片ベクトルｂ_ｅとが格納される。

識別信号分析部１１２は、識別用スペクトログラムＶを入力とし、基底格納部１１１に格納された基底Ｗ_ｅを教師基底として用いた半教師有りＮＭＦを行い、基底Ｗ_ｅに含まれる各スペクトル基底に対する重みにより発現度合いを表すアクティベーションＨ_ｅを算出する。

識別信号分析部１１２が用いる半教師有りＮＭＦは、音源分解に用いるスペクトル基底として、検知対象として予め定義された音響イベントに対応するスペクトル基底だけでなく、未知すなわち予め定義された音響イベント以外の音源に対応するスペクトル基底を用いる。より具体的には、上記の基底行列Ｗに代えて、予め定義された音響イベントに対応する基底行列Ｗ_ｅに、未知の音響イベントに対応する基底行列Ｗ_ｕを加えた基底行列Ｗ_ｓｅｍｉ［Ｗ_ｅＷ_ｕ］を用いる。また、それに伴って、基底Ｗ_ｅに対応するアクティベーション行列Ｈ_ｅに、基底Ｗ_ｕに対応するアクティベーション行列Ｈ_ｕを加えたアクティベーション行列Ｈ_ｓｅｍｉ［Ｈ_ｅＨ_ｕ］を用いる。以下、Ｗ_ｅを音響イベント基底、Ｗ_ｕを未知イベント基底、Ｈ_ｅを音響イベントアクティベーション、Ｈ_ｕを未知イベントアクティベーションという場合がある。

例えば、Ｒ_ｅをＷ_ｅの基底数、Ｒ_ｕをＷ_ｕの基底数とすると、音響イベント基底Ｗ_ｅはＫ行Ｒ_ｅ列の行列で表され、未知イベント基底Ｗ_ｕはＫ行Ｒ_ｕ列の行列で表され、基底Ｗ_ｓｅｍｉはＫ行（Ｒ_ｅ＋Ｒ_ｕ）列の行列で表される。同様に、アクティベーションＨ_ｅはＲ_ｅ行Ｊ列の行列で表され、アクティベーションＨ_ｕはＲ_ｕ行Ｊ列の行列で表され、アクティベーションＨ_ｓｅｍｉは（Ｒ_ｅ＋Ｒ_ｕ）行Ｊ列のアクティベーション行列で表される。

識別信号分析部１１２は、半教師有りＮＭＦにおいて、以下の式（ａ－１）に示すように、入力される識別用スペクトログラムＶを、Ｗ_ｓｅｍｉ［Ｗ_ｅＷ_ｕ］とＨ_ｓｅｍｉ［Ｈ_ｅＨ_ｕ］の積で近似することにより、Ｖにおける音響イベントアクティベーションＨ_ｅを算出する。

Ｖ≒Ｗ_ｓｅｍｉＨ_ｓｅｍｉ・・・（ａ－１）

半教師有りＮＭＦでは、入力されたスペクトログラムＶに応じて、Ｗ_ｕ，Ｈ_ｓｅｍｉ［Ｈ_ｅＨ_ｕ］の値が最適化される。換言すると、識別信号分析部１１２は、入力されたスペクトログラムＶにマッチするように、Ｗ_ｕ，Ｈ_ｓｅｍｉ［Ｈ_ｅＨ_ｕ］の値を更新する。より具体的には、識別信号分析部１１２は、半教師有りＮＭＦにおいて、下記の式（ａ－２）および式（ａ－３）に示すように、Ｈ_ｓｅｍｉとＷ_ｕを交互に更新することで、最適なＷ_ｕ，Ｈ_ｅ，Ｈ_ｕを算出する。Ｗ_ｕ，Ｈ_ｅ，Ｈ_ｕの初期値は特に問わないが、一般には乱数が用いられる。

このような更新処理により、未知イベント基底Ｗ_ｕは、スペクトログラムＶに含まれるスペクトル成分のうち、音響イベント基底Ｗ_ｅでは表現できないような成分を表す基底として学習される。

なお、音響イベント基底Ｗ_ｅは、予め定義された各音響イベントに対応する周波数成分に対応する周波数パターンを表現するスペクトル基底の集合であればよく、表現方法は上記に限定されない。同様に、未知イベント基底Ｗ_ｕは、既知の音響イベントに対応する周波数成分以外の周波数成分に対応する周波数パターンを表現するスペクトル基底の集合であればよく、表現方法は上記に限定されない。また、音響イベントアクティベーションＨ_ｅは、Ｖ中の、Ｗ_ｅに含まれる各スペクトル基底の発現度合いを表現するものであればよく、表現方法は上記に限定されない。同様に、未知イベントアクティベーションＨ_ｕは、Ｖ中の、Ｗ_ｕに含まれる各スペクトル基底の発現度合いを表現するものであればよく、表現方法は上記に限定されない。

このとき、未知イベント基底Ｗ_ｕにおける基底数Ｒ_ｕは、固定値であってもよいし、最初に初期値を与えた上で更新処理の過程で増えていくような可変値であってもよい。

信号識別部１１４は、識別信号分析部１１２から出力される音響イベントアクティベーションＨ_ｅを基に、モデル格納部１１３に格納された識別モデルを用いて、入力されたスペクトログラムＶに含まれる音響イベントを識別する。

次に、本実施形態の動作を説明する。図２は、本実施形態の動作の一例を示すフローチャートである。本例では、まず信号処理装置１１０に識別用スペクトログラムＶが入力される（ステップＳ１１）。

識別用スペクトログラムＶが入力されると、識別信号分析部１１２が、Ｖに対して、基底格納部１１１に格納されている音響イベント基底Ｗ_ｅを教師基底に用いた半教師有りＮＭＦを実施する（ステップＳ１２）。

ステップＳ１２において、識別信号分析部１１２は、まずＶをＷ_ｓｅｍｉ［Ｗ_ｅＷ_ｕ］とＨ_ｓｅｍｉ［Ｈ_ｅＨ_ｕ］の積で表現される近似式に適用する（ステップＳ１２１）。次いで、識別信号分析部１１２は、Ｗ_ｕおよびＨ_ｓｅｍｉの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する（ステップＳ１２２）。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合（ステップＳ１２２のＮｏ）、識別信号分析部１１２は、Ｗ_ｕとＨ_ｓｅｍｉのいずれかまたは両方の更新を行う（ステップＳ１２３）。

一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合（ステップＳ１２２のＹｅｓ）、識別信号分析部１１２は、近似式中のアクティベーションＨ_ｅを出力する（ステップＳ１２４）。

ＶについてのアクティベーションＨ_ｅが出力されると、信号識別部１１４が、該アクティベーションＨ_ｅを基に、モデル格納部１１３に格納された識別モデルを用いて、Ｖに含まれる音響イベントを識別する（ステップＳ１３）。

以上のように、本実施形態によれば、未知の音が存在する環境下で採取された音響信号であっても、そのスペクトログラム（識別用スペクトログラムＶ）中に含まれる音響イベントを精度よく識別できる。なぜなら、入力されたスペクトログラムＶをスペクトル単位に分解する際の基底として未知の音を表現する未知イベント基底Ｗ_ｕを含むＷ_ｓｅｍｉを新たに導入し、半教師有りＮＭＦにおいて該Ｗ_ｕを適宜更新することにより、音響イベント基底Ｗ_ｅに対応する成分のみを正確に算出できるからである。すなわち、本実施形態では、スペクトログラムＶから物理現象に対応したスペクトルを抽出する特徴抽出の際に半教師有りＮＭＦを用いることにより、既知の基底では分解できない要素をその場で学習することができるので、未知の音源の存在に頑健な特徴抽出ができる。

例えば、基底Ｗ_ｕを導入せずに基底Ｗ_ｅのみを用いた教師有りＮＭＦの場合、Ｖを、基底Ｗ_ｅのみを用いて分解する。このため、Ｖ中に、基底Ｗ_ｅに含まれないような未知のスペクトルが含まれている場合、ＶのアクティベーションＨ_ｅが予期せぬ値を持ってしまい誤った特徴量として識別器に入力されるおそれがあった。一方、基底Ｗ_ｕを導入した半教師有りＮＭＦの場合、Ｖを、基底Ｗ_ｓｅｍｉ［Ｗ_ｅＷ_ｕ］を用いて分解する。これにより、Ｖに含まれるスペクトル成分のうち基底Ｗ_ｅで表現できないような成分をすべて基底Ｗ_ｕが請け負うことができるので、ＶのアクティベーションＨ_ｅを高精度に算出することができる。したがって、そのようにして得られたアクティベーションＨ_ｅを特徴量として識別器に入力することで、Ｖ中に含まれる音響イベントを精度よく識別できる。

実施形態２．
次に、本発明の第２の実施形態について説明する。図３は、第２の実施形態の信号処理装置２００の構成例を示すブロック図である。図３に示す信号処理装置２００は、第１の実施形態の信号処理装置１１０の構成に加えて、基底生成部１０と、学習データ分析部１２と、モデル学習部１３とをさらに備えている。なお、図３には、信号処理装置２００が、第１の実施形態の信号処理装置１１０が備える各要素（符号１１１～１１４）を、音響イベント識別部１１の各要素として含む例が示されている。

本実施形態の信号処理装置２００は、基底生成用スペクトログラムＶ_ｂａｓｅを入力して音響イベント基底Ｗ_ｅを生成し、ラベル付きスペクトログラムＶ_ｌｂｌを入力して識別モデルを学習し、識別用スペクトログラムＶを入力して、該識別用スペクトログラムＶに含まれている音響イベントを識別して、音響イベントを検知する。

基底生成部１０は、基底生成用スペクトログラムＶ_ｂａｓｅが入力されると、音響イベント基底Ｗ_ｅを生成して、基底格納部１１１に格納する。音響イベント基底Ｗ_ｅの生成方法は特に問わない。基底生成部１０は、例えば、基底生成用のスペクトログラムＶ_ｂａｓｅとして、検知対象とされる音響イベントを含む音響信号をつなぎ合わせたスペクトログラムを入力させ、該Ｖ_ｂａｓｅに対して、以下の式（ｂ－１）で示す近似式によるＮＭＦを行うことにより、音響イベント基底Ｗ_ｅを得てもよい。該ＮＭＦにおいて、基底生成部１０は、Ｗ_ｅおよびＨ_ｅを最適化（更新）する。

Ｖ_ｂａｓｅ≒Ｗ_ｅＨ_ｅ・・・（ｂ－１）

該ＮＭＦは、上記の式（１）で示した一般的なＮＭＦにおけるＶ，ＷおよびＨを、Ｖ_ｂａｓｅ，Ｗ_ｅおよびＨ_ｅに置き換えただけであり、コスト関数および更新式についても上記と同様である。

なお、基底生成用スペクトログラムＶ_ｂａｓｅは、実際の信号から学習データに含まれる各音響イベントに対応したスペクトルを抽出できるものであればよく、上記の例に限られない。

基底生成部１０により生成された音響イベント基底Ｗ_ｅは基底格納部１１１に格納されるとともに、後段の学習データ分析部１２に出力される。なお、学習データ分析部１２が基底格納部１１１に格納されている音響イベント基底Ｗ_ｅを参照する構成であってもよい。その場合、学習データ分析部１２への出力は省略される。

学習データ分析部１２は、ラベル付きスペクトログラムＶ_ｌｂｌを入力として、基底生成部１０により生成された音響イベント基底Ｗ_ｅを基に、音響イベントラベルに対応づける音響イベントアクティベーションＨ_ｅを算出する。ここで、ラベル付きスペクトログラムＶ_ｌｂｌは、ある音響イベントのスペクトログラムに、該音響イベントを表すラベル（音響イベントラベル）が付与された学習データである。

ラベル付きスペクトログラムＶ_ｌｂｌは、例えば、検知対象の全Ｅ個の音響イベントのスペクトログラムのそれぞれに対応する音響イベントラベルが付与されたスペクトログラムであってもよい。

例えば、「悲鳴」と「ガラスが割れた音」とを検知対象とする場合、「悲鳴」に対応する音響イベントラベルがつけられた悲鳴のスペクトログラムと、「ガラスが割れた音」に対応する音響イベントラベルがつけられたガラスが割れた音のスペクトログラムとを、それぞれラベル付きスペクトログラムＶ_ｌｂｌとして入力する。なお、１つのラベル付きスペクトログラムＶ_ｌｂｌは、Ｋ行Ｊ_ｌｂｌ列の行列Ｖ_ｌｂｌ（ｋ，ｊ）であればよい。

ここで、ラベル付きスペクトログラムＶ_ｌｂｌにおける時間フレーム数Ｊ_ｌｂｌは、各音響イベントの音響信号パターンを過不足なく含むような（例えば、「ガラスが割れる音」音響イベントの場合、ガラスが割れる瞬間の衝撃音から始まり、破片が飛び散る音で終わるとして、それらの音を過不足なく含む）長さで設定される。

なお、一方の基底生成用スペクトログラムＶ_ｂａｓｅは、検知したい音響イベントを構成する周波数パターンを基底として生成するためのスペクトログラムであるので、検知したい全ての音響イベントの周波数パターンを含んでいることが望ましい。一例として、基底生成用スペクトログラムＶ_ｂａｓｅは、ラベル付きスペクトログラムＶ_ｌｂｌをラベルの区別なく連結したＫ行Ｊ_ｂａｓｅ列の行列Ｖ_ｂａｓｅ（ｋ，ｊ）＝［Ｖ_{ｌｂｌ_１}（ｋ，ｊ），Ｖ_{ｌｂｌ_２}（ｋ，ｊ），・・・，Ｖ_{ｌｂｌ_Ｅ}（ｋ，ｊ）］であってもよい。この場合、基底生成用スペクトログラムＶ_ｂａｓｅにおける時間フレーム数Ｊ_ｂａｓｅは、ラベル付きスペクトログラムＶ_ｌｂｌにおける時間フレーム数Ｊ_ｌｂｌの総和となる。

学習データ分析部１２は、例えば、入力されたラベル付きスペクトログラムＶ_ｌｂｌに対して、基底生成部１０により生成された音響イベント基底Ｗ_ｅを教師基底として用いた教師有りＮＭＦを行い、音響イベントラベルに対応づける音響イベントアクティベーションＨ_ｅを算出してもよい。以下の式（ｃ－１）は、当該教師有りＮＭＦで用いる近似式である。また、以下の式（ｃ－２）は、当該教師有りＮＭＦで用いる更新式の例である。教師有りＮＭＦでは、学習データ分析部１２は、音響イベントアクティベーションＨ_ｅのみを最適化（更新）する。

Ｖ_ｌｂｌ≒Ｗ_ｅＨ_ｅ・・・（ｃ－１）

モデル学習部１３は、学習データ分析部１２により算出された音響イベントアクティベーションＨ_ｅを特徴量として、音響イベントアクティベーションＨ_ｅと音響イベントラベルとの関係を表す識別モデルを学習する。モデル学習部１３により学習された識別モデルは、モデル格納部１１３に格納される。

他の点に関しては第１の実施形態と同様である。

次に、本実施形態の動作を説明する。図４～図６は、本実施形態の動作の一例を示すフローチャートである。なお、図４は、本実施形態の全体動作の一例を示すフローチャートである。図４に示すように、本実施形態の動作は、基底生成処理（ステップＳ２１）と、モデル学習処理（ステップＳ２２）と、音響イベント識別処理（ステップＳ２３）とに大別される。

図５は、本実施形態の基底生成処理の処理フローの一例を示すフローチャートである。
本例の基底生成処理では、まず信号処理装置２００に基底生成用スペクトログラムＶ_ｂａｓｅが入力される（ステップＳ２１１）。

基底生成用スペクトログラムＶ_ｂａｓｅが入力されると、基底生成部１０が、Ｖ_ｂａｓｅに対してＮＭＦを実施する（ステップＳ２１２）。

ステップＳ２１２において、基底生成部１０は、まずＶ_ｂａｓｅをＷ_ｅとＨ_ｅの積で表現される近似式に適用する（ステップＳ２１２１）。次いで、基底生成部１０は、Ｗ_ｅおよびＨ_ｅの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する（ステップＳ２１２２）。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合（ステップＳ２１２２のＮｏ）、基底生成部１０は、Ｗ_ｅおよびＨ_ｅのいずれかまたは両方の更新を行う（ステップＳ２１２３）。

一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合（ステップＳ２１２２のＹｅｓ）、基底生成部１０は、近似式中の基底Ｗ_ｅを出力し、基底格納部１１１に格納する（ステップＳ２１２４，ステップＳ２１３）。

また、図６は、本実施形態のモデル学習処理の処理フローの一例を示すフローチャートである。基底生成処理が終了すると、モデル学習処理が開始される。本例のモデル学習処理では、まず、信号処理装置２００にラベル付きスペクトログラムＶ_ｌｂｌが入力される（ステップＳ２２１）。

ラベル付きスペクトログラムＶ_ｌｂｌが入力されると、学習データ分析部１２が、Ｖ_ｌｂｌに対して、基底格納部１１１に格納されている音響イベント基底Ｗ_ｅを教師基底に用いた教師有りＮＭＦを実施する（ステップＳ２２２）。

ステップＳ２２２において、学習データ分析部１２は、まずＶ_ｌｂｌをＷ_ｅとＨ_ｅの積で表現される近似式に適用する（ステップＳ２２２１）。次いで、学習データ分析部１２は、Ｈ_ｅの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する（ステップＳ２２２２）。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合（ステップＳ２２２２のＮｏ）、学習データ分析部１２は、Ｈ_ｅの更新を行う（ステップＳ２２２３）。

一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合（ステップＳ２２２２のＹｅｓ）、学習データ分析部１２は、近似式中のアクティベーションＨ_ｅを、Ｖ_ｌｂｌに付された音響イベントラベルとともにモデル学習部１３に出力する（ステップＳ２２２４）。

次に、モデル学習部１３は、出力されたラベル毎の音響イベントアクティベーションＨ_ｅを特徴量として、音響イベントアクティベーションＨ_ｅと音響イベントラベルとの関係を表す識別モデルを学習する（ステップＳ２２３）。そして、モデル学習部１３は、学習の結果得られた識別モデルを、モデル格納部１１３に格納する（ステップＳ２２４）。

モデル学習処理が終了すると、音響イベント識別処理が開始される。本実施形態の音響イベント識別処理は、第１の実施形態の音響イベント識別処理（図２のステップＳ１１～ステップＳ１３）と同様でよい。

以上のように、本実施形態では、検知対象とされる音響イベントに合わせて基底の生成および識別モデルの学習を行った上で、識別用スペクトログラムＶに対して音響イベントの識別を行う。このため、任意の音響イベントを検知対象にして、未知の音が存在する環境下で採取された音響信号であっても、そのスペクトログラム（識別用スペクトログラムＶ）中に含まれる音響イベントを精度よく識別できる。

実施形態３．
次に、本発明の第３の実施形態について説明する。図７は、第３の実施形態の信号処理装置１００の構成例を示すブロック図である。図７に示す信号処理装置１００は、基底生成用スペクトログラムＶ_ｂａｓｅを入力とし、予め保持されている事前分布Ｗ_０を制約として、Ｖ_ｂａｓｅを構成するスペクトル基底行列Ｗを生成する基底生成装置として機能する。

図７に示すように、信号処理装置１００は、事前分布格納部１０１と、基底信号分析部１０２とを備える。

事前分布格納部１０１は、後段の基底信号分析部１０２で行う基底生成用のＮＭＦが局所解に陥らないような制約として用いられる事前分布Ｗ_０を格納する。

例えば「ガラスの割れる音」という音響イベントを考える。ガラスが割れた瞬間はパルス性の強い衝撃音が発生し、続いて割れた破片が飛び散る純音に近い音が発生する。このとき、衝撃音はフラットな周波数構造になり、破片の飛び散る音は周波数のピークが鋭いような周波数構造になると考えられる。

したがって、基底生成処理で、そのようなフラットな周波数構造を持つスペクトル基底と鋭いピークを持つ基底の２つのスペクトル基底が得られるのが好ましい。しかし、ＮＭＦの更新式には局所解という問題があり、必ずしも所望のスペクトル基底が得られるとは限らない。

そこで、本実施形態では、局所解を避けて所望のスペクトル基底を得るために、事前分布Ｗ_０を導入する。事前分布Ｗ_０は、後段の基底信号分析部１０２で行う基底生成用のＮＭＦで学習される基底Ｗが、当該事前分布Ｗ_０との類似度が高くなる（所定の閾値以上となる）ような制約のパラメータとして用いる。このため、基底信号分析部１０２により生成される基底Ｗは、事前分布Ｗ_０との類似度が低いほど制約が強まり、予期せぬ局所解に陥ることがなくなる。このような事前分布Ｗ_０の導入により、どのような基底Ｗを学習するかをコントロールすることができる。上記の例の場合、事前分布Ｗ_０は、フラットな周波数構造と鋭いピークを持つ周波数構造の２種のスペクトル基底が得られるような制約となればよい。

事前分布Ｗ_０の生成方法としては、手作業で基底とされるスペクトル形状を表すＲ個の主要なスペクトル成分を抽出し、事前分布格納部１０１に格納してもよいし、予め用意しておいた分布生成用スペクトログラムＶ_０に対して、以下に示すような方法でＲ個のスペクトル成分を抽出してもよい。すなわち、ｋ－ｍｅａｎｓ法を用いてＲクラスのクラスタリングを行うことによって抽出してもよいし、主成分分析を用いて寄与率の高いＲ個の主要なスペクトル成分のみを取得してもよい。

事前分布Ｗ_０は、例えば、生成したい基底Ｗと同じ型のＫ行Ｒ列の行列であってもよい。

分布生成用スペクトログラムＶ_０は、生成したい基底Ｗの代表的なスペクトルを示すものであってもよい。分布生成用スペクトログラムＶ_０は、例えば、基底生成用スペクトログラムＶ_ｂａｓｅと同じであってもよいし、基底生成用スペクトログラムＶ_ｂａｓｅから代表的なスペクトログラムを抽出したものであってもよい。

基底信号分析部１０２は、基底生成用スペクトログラムＶ_ｂａｓｅを入力して、Ｖ_ｂａｓｅを構成するスペクトル基底を表す基底Ｗを生成する。基底信号分析部１０２は、基底生成用スペクトログラムＶ_ｂａｓｅに対して、事前分布格納部１０１に格納された事前分布Ｗ_０を制約項のパラメータとして用いた制約付きＮＭＦを行い、基底Ｗを生成する。

基底生成用スペクトログラムＶ_ｂａｓｅの形式は特に問わないが、基底として取り出したいスペクトルを含むものとする。なお、音響イベント基底Ｗ_ｅを生成する場合には、検知したい全ての音響イベントの周波数パターンを含むスペクトログラムを入力すればよい。

制約付きＮＭＦで、基底信号分析部１０２は、例えば、Ｖ_ｂａｓｅを以下の式（ｄ－１）に示す近似式に適用させ、以下の式（ｄ－２）および式（ｄ－３）に示す更新式を用いて、基底ＷとアクティベーションＨを交互に更新して最適化する。

Ｖ_ｂａｓｅ≒ＷＨ・・・（ｄ－１）

ここで、上記の２つの更新式は、入力されたスペクトログラムＶ_ｂａｓｅに対して、以下の式（ｄ－４）に示すコスト関数を最小化するような基底ＷとアクティベーションＨを求めるものとして導出したものである。

Ｄ（Ｖ，Ｗ，Ｈ，Ｗ_０）＝Ｄ_ｋｌ（Ｖ，ＷＨ）＋ηＤ_ｋｌ（Ｗ_０，Ｗ）・・・（ｄ－４）

上記のコスト関数の第２項は、事前分布Ｗ_０と基底Ｗとの距離が離れるほど罰則を与える制約項である。当該コスト関数によれば、第１項によりＶ_ｂａｓｅとＷＨの間のコスト関数を最小化しつつも、第２項により、基底Ｗは局所解に陥らず事前分布Ｗ_０と似たスペクトル構造を持つことができる。

ここで、ηは、第２項を制御するパラメータであり、例えば、０．１や１０などのスカラー値をとる。

次に、本実施形態の動作を説明する。図８は、本実施形態の動作の一例を示すフローチャートである。本例では、まず信号処理装置１００に基底生成用スペクトログラムＶ_ｂａｓｅが入力される（ステップＳ０１）。

基底生成用スペクトログラムＶ_ｂａｓｅが入力されると、基底信号分析部１０２は、事前分布格納部１０１に格納された事前分布Ｗ_０を読み出す（ステップＳ０２）。そして、基底信号分析部１０２は、Ｖ_ｂａｓｅに対して、事前分布Ｗ_０を制約として用いた制約付きＮＭＦを実施する（ステップＳ０３）。

ステップＳ０３において、基底信号分析部１０２は、まずＶ_ｂａｓｅをＷとＨの積で表現される近似式に適用する（ステップＳ０３１）。次いで、基底信号分析部１０２は、ＷおよびＨの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する（ステップＳ０３２）。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合（ステップＳ０３２のＮｏ）、基底信号分析部１０２は、ＷおよびＨのいずれかまたは両方の更新を行う（ステップＳ０３３）。なお、Ｗの更新式にはＷ_０を用いた制約項が含まれている。

一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合（ステップＳ０３２のＹｅｓ）、基底信号分析部１０２は、近似式中の基底Ｗを出力する（ステップＳ０３４）。

以上のように、本実施形態によれば、基底生成時のＮＭＦにおいて、基底Ｗがあらかじめ用意した事前分布Ｗ_０に近くなるような制約を用いることで、局所解に陥らずに所望の基底Ｗを生成することができる。

例えば、本実施形態の信号処理装置１００によれば、基底生成用スペクトログラムＶ_ｂａｓｅとして、検知したい全ての音響イベントの周波数パターンを含むスペクトログラムを入力することにより、局所解に陥らない高精度な音響イベント基底Ｗ_ｅを生成できる。
したがって、例えば、第２の実施形態の構成において、基底生成部１０に代えて本実施形態の信号処理装置１００を用いれば、音響イベントに対応するアクティベーションＨ_ｅを精度よく推定でき、音響イベントの識別精度を向上できる。

実施形態４．
次に、本発明の第４の実施形態について説明する。図９は、第４の実施形態の信号処理装置４００の構成例を示すブロック図である。図９に示す信号処理装置４００は、第２の実施形態の構成における基底生成部１０に代えて、基底生成部４０を含む。なお、基底生成部４０の構成は、図７に示す第３の実施形態の信号処理装置１００の構成に、さらに分布解析部１０３を加えたものと同様である。

本実施形態の信号処理装置４００は、分布生成用スペクトログラムＶ_０を入力して事前分布Ｗ_０を生成し、基底生成用スペクトログラムＶ_ｂａｓｅを入力して、事前分布Ｗ_０を制約とする音響イベント基底Ｗ_ｅを生成し、ラベル付きスペクトログラムＶ_ｌｂｌを入力して識別モデルを学習した上で、識別用スペクトログラムＶを入力して、Ｖに含まれる音響イベントを識別して、音響イベントを検知する。

以下、第２の実施形態と異なる部分を主に説明する。

事前分布格納部１０１は、後段の基底信号分析部１０２で行う基底生成用のＮＭＦが局所解に陥らないような制約として用いられる事前分布Ｗ_０を格納する。本実施形態の事前分布格納部１０１は、分布解析部１０３が生成した音響イベントの各スペクトル基底の制約とされる事前分布Ｗ_０を格納する。

基底信号分析部１０２は、基底生成用スペクトログラムＶ_ｂａｓｅを入力して、Ｖ_ｂａｓｅを構成するスペクトル基底を表す基底Ｗを生成する。基底の生成方法としては、第３の実施形態と同様、事前分布格納部１０１に格納された事前分布Ｗ_０を制約項のパラメータとして用いた制約付きＮＭＦを用いる。

なお、本実施形態の基底信号分析部１０２は、検知したい全ての音響イベントの周波数パターンを含む基底生成用スペクトログラムＶ_ｂａｓｅを入力して、音響イベント基底Ｗ_ｅを生成する。

分布解析部１０３は、分布生成用スペクトログラムＶ_０を入力とし、音響イベント基底Ｗ_ｅの事前分布Ｗ_０を生成する。分布解析部１０３は、例えば、音響イベント基底Ｗ_ｅと同じ形のＫ行Ｒ_ｅ列の行列Ｗ_０（ｋ，ｒ）を事前分布として生成してもよい。

分布解析部１０３は、例えば、分布生成用スペクトログラムＶ_０に対してｋ－ｍｅａｎｓ法を用いてＲクラスのクラスタリングを行うことによって事前分布Ｗ_０を生成してもよい。また、分布解析部１０３は、例えば、Ｖ_０に対して主成分分析を行い、寄与率の高いＲ個の主要なスペクトル成分のみを取り出すことにより事前分布Ｗ_０を取得してもよい。

次に、本実施形態の動作を説明する。図１０は、本実施形態の全体動作の一例を示すフローチャートである。図１０に示すように、本実施形態の動作は、事前分布生成処理（ステップＳ４０）と、基底生成処理（ステップＳ４１）と、モデル学習処理（ステップＳ２２）と、音響イベント識別処理（ステップＳ２３）とに大別される。

ステップＳ４０の事前分布生成処理では、分布解析部１０３が、分布生成用スペクトログラムＶ_０から事前分布Ｗ_０を生成して、事前分布格納部１０１に格納する。

ステップＳ４１の基底生成処理では、基底信号分析部１０２が、図８に示した第３の実施形態の基底生成処理（ステップＳ０１～ステップＳ０３４）と同様の処理を行い、生成された基底Ｗを音響イベント基底Ｗ_ｅとして基底格納部１１１に格納する。

なお、モデル学習処理（ステップＳ２２）と音響イベント識別処理（ステップＳ２３）とは、第２の実施形態と同様でよい。

本実施形態の信号処理装置４００によれば、局所解に陥らない高精度な音響イベント基底Ｗ_ｅを生成できるので、学習フェーズで音響イベントに対応するアクティベーションＨ_ｅを精度よく推定できる。加えて、本実施形態の信号処理装置４００によれば、未知の音が存在する環境下で採取された音響信号であっても、検知対象でない音響イベントの誤検知を抑制し、そのスペクトログラム（識別用スペクトログラムＶ）中に含まれる音響イベントを精度よく識別できる。

実施形態５．
次に、本発明の第５の実施形態を説明する。図１１は、本実施形態の信号処理装置５００の構成例を示すブロック図である。図１１に示す信号処理装置５００は、基底生成部５０と、学習データ分析部５２と、モデル学習部５３と、音響イベント識別部５１とを備える。

また、基底生成部５０は、分布解析部５０３と、事前分布格納部５０１と、基底信号分析部５０２とを含む。また、音響イベント識別部５１は、基底格納部５１１と、識別信号分析部５１２と、モデル格納部５１３と、信号識別部５１４とを含む。

なお、本実施形態の信号処理装置５００の入出力は、第４の実施形態の信号処理装置と同様である。また、分布解析部５０３、事前分布格納部５０１、モデル学習部５３、モデル格納部５１３および信号識別部５１４は、第４の実施形態の分布解析部１０３、事前分布格納部１０１、モデル学習部１３、モデル格納部１１３および信号識別部１１４と同様である。以下、第４の実施形態と異なる部分を主に説明する。

基底信号分析部５０２は、基底生成用スペクトログラムＶ_ｂａｓｅを入力とし、事前分布格納部５０１に格納されている事前分布Ｗ_０を制約項に用いた制約付きＮＭＦにより、Ｖ_ｂａｓｅを構成するスペクトル基底がグループ化されて表現される基底Ｗ_ｇを生成する。

基底信号分析部５０２は、例えば、Ｖ_ｂａｓｅとしてＫ行Ｊ_ｂａｓｅ列のスペクトル行列が入力されると、Ｋ行Ｒ列の行列である事前分布Ｗ_０（ｋ，ｒ）＝［ｗ_０（１），．．．，ｗ_０（ｒ），．．．，ｗ_０（Ｒ）］を制約項のパラメータとして用いた制約付きＮＭＦにより、Ｋ行（Ｇ×Ｒ）列の基底行列Ｗ_ｇ（ｋ，ｒ）＝［Ｗ^（１）（ｋ，ｇ），．．．，Ｗ^（ｒ）（ｋ，ｇ），．．．，Ｗ^（Ｒ）（ｋ，ｇ）］を算出してもよい。

ここで、ｗ_０（ｒ）は事前分布Ｗ_０のｒ番目の列ベクトル、すなわちｒ番目のスペクトル基底の制約を表している。また、Ｗ^（ｒ）（ｋ，ｇｒ）は、ｗ_０（ｒ）を制約として生成されるＧ個のスペクトル基底からなるグループ（スペクトル基底行列）を表わす。また、ｇｒは、ｒで指定される基底グループ内のＧ個のスペクトル基底のうちｇ番目のスペクトル基底を示すインデックスである。なお、基底グループごとに含まれるスペクトル基底の数（グループ内要素数）Ｇは可変であってもよい。

当該制約付きＮＭＦで、基底信号分析部５０２は、Ｗ^（ｒ）（ｋ，ｇ）に対応するアクティベーション行列Ｈ^（ｒ）（ｇ，ｊ）＝［ｈ_１ ^（ｒ），．．．，ｈ_ｊ ^（ｒ），．．．，ｈ_Ｊ ^（ｒ）］として、以下の式（ｅ－１）、式（ｅ－２）および式（ｅ－３）を、１回の更新によるＷ^（ｒ）およびＨ^（ｒ）の変化量が閾値以下となる、または設定した繰り返し回数に達するまで順番に繰り返すことで同時に最適化を行う。

ここで、ｈ_ｊ ^（ｒ）は、グループｒの基底行列Ｗ^（ｒ）に対応するアクティベーションであり、Ｗ^（ｒ）の各スペクトル基底の時間インデックスｊにおける発現度合いを表す列ベクトルである。

上記の式（ｅ－３）は、グループｒの基底行列Ｗ^（ｒ）のアクティベーションｈ_ｊ ^（ｒ）に対するスパース制約である。当該制約は、値の大きなｈ_ｊ ^（ｒ）は更新するにつれ大きな値を取りやすく，値の小さなｈ_ｊ ^（ｒ）は更新していくにつれ小さくなる制約となっており、より特徴的なＷ^（ｒ）を抽出できるようになっている。

第３および第４の実施形態では、一つの事前分布ｗ_０（ｒ）に対して一つのスペクトル基底ｗ（ｒ）が対応していた。本実施形態では、一つの事前分布ｗ_０（ｒ）に対して複数の（Ｇ個の）スペクトル基底ｗ_ｇ（ｒ）がグループ化されて対応づけられる。

以下、基底信号分析部５０２が生成する基底行列Ｗ_ｇ（ｋ、ｇｒ）をグループ基底Ｗ_ｇと呼ぶ場合がある。

これは、例えば「ガラスの割れる音」の音響イベントを考えた時に、第３および第４の実施形態では、ガラスが割れる瞬間の衝撃音および割れたガラスの破片が飛び散る音をそれぞれ１つのスペクトル基底で表現していたのに対し、本実施形態では、各音についてバリエーションや揺らぎをグループとして表現することができる。このように表現されたグループ基底Ｗ_ｇを用いてＮＭＦを行うことにより、より高い精度での音源分解が可能となる。

本実施形態では、基底生成用スペクトログラムＶ_ｂａｓｅは、検知したい全ての音響イベントの周波数パターンについて２以上のバリエーションを含む、または揺らぎを含むようなスペクトログラムが望ましい。一例として、基底生成用スペクトログラムＶ_ｂａｓｅは、音響イベントごとに複数のサンプルから得たラベル付きスペクトログラムＶ_ｌｂｌをラベルの区別なく連結したＫ行Ｊ_ｂａｓｅ列の行列Ｖ_ｂａｓｅ（ｋ，ｊ）＝［Ｖ_{ｌｂｌ_１１}（ｋ，ｊ），Ｖ_{ｌｂｌ_１２}（ｋ，ｊ），．．．，Ｖ_{ｌｂｌ_１Ｇ}（ｋ，ｊ），Ｖ_{ｌｂｌ_２１}（ｋ，ｊ），．．．，Ｖ_{ｌｂｌ_ＥＧ}（ｋ，ｊ）］であってもよい。

基底信号分析部５０２により生成されたグループ基底Ｗ_ｇは、基底格納部５１１に格納される。

学習データ分析部５２は、ラベル付きスペクトログラムＶ_ｌｂｌを入力とし、ラベル毎にグループ基底Ｗ_ｇに対応するアクティベーションＨ_ｇを算出する。

学習データ分析部５２は、例えば、ラベル付きスペクトログラムＶ_ｌｂｌとして、Ｋ行Ｊ_ｌｂｌ列の行列が入力されると、基底信号分析部５０２により生成されたグループ基底Ｗ_ｇ（ｋ，ｇｒ）を教師基底として用いた教師有りＮＭＦを行い、Ｖ_ｌｂｌをＷ_ｇとＨ_ｇの積で近似させることにより、音響イベントラベルに対応づけられるグループ音響イベントアクティベーションＨ_ｇを算出してもよい。

例えば、グループ基底Ｗ_ｇ（ｋ，ｇｒ）が、Ｋ行（Ｇ×Ｒ）列の行列の場合、グループ音響イベントアクティベーションＨ_ｇ（ｇｒ，ｊ）は、（Ｇ×Ｒ）行Ｊ列の行列となる。
ここで、Ｈ_ｇ（ｇｒ，ｊ）の列ベクトルｈ_ｊは、ｈ_ｊ ^（ｒ）におけるｒ＝１～Ｒとして各ｈ_ｊ ^（ｒ）を行方向に連結したものに相当する。

学習データ分析部５２で行うのは教師有りＮＭＦであるので、以下の式（ｆ－１）に示すように、Ｈ_ｇに対してのみ更新を行う。ただし、当該Ｈ_ｇの更新においても、各ｈ_ｊ ^（ｒ）に対して上述した式（ｅ－３）に示すスパース制約が適用される。学習データ分析部５２は、例えば、式（ｆ－１）と式（ｅ－３）の２式を交互に更新する。

モデル学習部５３は、学習データ分析部５２が算出した、音響イベントラベルに対応づけられたアクティベーションＨ_ｇを特徴量として、該アクティベーションＨ_ｇと音響イベントラベルとの関係を表す識別モデルを学習する。なお、アクティベーション行列の行数が異なるだけであり、識別モデルの学習方法はモデル学習部１３と同様でよい。

識別信号分析部５１２は、識別用スペクトログラムＶを入力とし、基底格納部５１１に格納されたグループ基底Ｗ_ｇを教師基底として用いて半教師有りＮＭＦを行い、グループ基底Ｗ_ｇの各スペクトル基底に対する重みにより発現度合いを表すアクティベーションＨ_ｇを算出する。

識別信号分析部５１２は、例えば、音源分解に用いるスペクトル基底として、分離対象として予め定義された各音源の音に対応するグループ基底行列Ｗ_ｇに、未知の音源の音に対応するグループ基底行列Ｗ_ｕを加えた基底行列Ｗ_{ｇｓｅｍｉ}［Ｗ_ｇＷ_ｕ］を用いた半教師有りＮＭＦを用いてもよい。半教師有りＮＭＦの方法は第１の実施形態の識別信号分析部１１２による方法と基本的に同様である。すなわち、Ｗ_ｓｅｍｉ［Ｗ_ｅＷ_ｕ］およびＨ_ｓｅｍｉ［Ｈ_ｅＨ_ｕ］がＷ_{ｇｓｅｍｉ}［Ｗ_ｇＷ_ｕ］およびＨ_{ｇｓｅｍｉ}［Ｈ_ｇＨ_ｕ］に代わっているだけで、半教師有りＮＭＦの方法は基本的に識別信号分析部１１２と同様でよい。ただし、Ｈ_{ｇｓｅｍｉ}の更新において、Ｈ_ｇの各ｈ_ｊ ^（ｒ）に対して上記の式（ｅ－３）に示すスパース制約が適用される。識別信号分析部５１２は、例えば、式（ａ－２）、式（ａ－３）および式（ｅ－３）の３式を交互に更新することにより、Ｈ_ｇ、Ｈ_ｕおよびＷ_ｕを算出する。

なお、識別信号分析部５１２は、Ｗ_ｕを用いずに、Ｗ_ｇだけを用いて通常の教師有りＮＭＦを行ってＨ_ｇを算出してもよいが、未知の環境下で採取された音響信号から音響イベントを検知する場合には、Ｗ_ｕを用いた半教師有りＮＭＦを用いるのが好ましい。

以上のように、本実施形態によれば、スペクトル基底をグループ化することにより、音を構成する要素のバリエーションや揺らぎを表現した基底行列を用いて識別用スペクトログラムを分解することができる。このため、識別用スペクトログラムに含まれる音響イベントを構成する周波数パターンが少し異なっていたり揺らぎを含んでいる場合であっても、より高い精度で識別用スペクトログラムを構成する成分を算出することができる。

実施形態６．
次に、本発明の第６の実施形態を説明する。図１２は、本実施形態の信号処理装置６００の構成例を示すブロック図である。図１２に示す信号処理装置６００は、分布解析部６１と、事前分布格納部６２と、音源分離部６３と、音源再構築部６４とを備える。

本実施形態の信号処理装置６００は、分離したい各音源の分布生成用スペクトログラムＶ_０を入力として事前分布を生成し、音源分離用スペクトログラムＶ_ｍｉｘを入力として、生成された事前分布を制約としたＮＭＦにより音源分離を行う音源分離装置として機能する装置である。

以下では、音声と環境雑音とが混ざった音響信号を、音声のみの信号である音声信号と環境雑音のみの信号である雑音信号とに分離する場合を例に説明する。

本実施形態の分布生成用スペクトログラムＶ_０は、分離対象の音源のみを含む音響信号から作られたスペクトログラムである。例えば、音響信号を音声信号と環境雑音信号とに分離する場合には、音声信号のスペクトログラムＶ_０＿ｓと、環境雑音信号のスペクトログラムＶ_０＿ｎとで構成されるスペクトログラムＶ_０［Ｖ_０＿ｓＶ_０＿ｎ］である。

一方、音源分離用スペクトログラムＶ_ｍｉｘは，音声と環境雑音とが混ざった音響信号から算出されたスペクトログラムである。

分布解析部６１は、分布生成用スペクトログラムＶ_０を入力として、Ｖ_０を構成しているスペクトル基底の事前分布Ｗ_０［Ｗ_０＿ｓＷ_０＿ｎ］を生成し、事前分布格納部６２に格納する。

分布解析部６１は、例えば、分布生成用スペクトログラムＶ_０に含まれるＶ_０＿ｓおよびＶ_０＿ｎのそれぞれに対してｋ－ｍｅａｎｓ法を用いて所定個のクラスのクラスタリングを行うことによって事前分布Ｗ_０＿ｓおよびＷ_０＿ｎを生成してもよい。また、分布解析部１０３は、例えば、Ｖ_０＿ｓおよびＶ_０＿ｎのそれぞれに対して主成分分析を行い、寄与率の高い主要なスペクトル成分を取り出すことにより事前分布Ｗ_０＿ｓおよびＷ_０＿ｎを取得してもよい。

ここで、Ｒ_ｓを音声信号の基底数とし、Ｒ_ｎを環境雑音信号の基底数とすると、Ｗ_０は、Ｋ行Ｒ_ｓ列の行列Ｗ_０＿ｓと、Ｋ行Ｒ_ｎ列の行列Ｗ_０＿ｎとを列方向に連結したＫ行（Ｒ_ｓ＋Ｒ_ｎ）列の行列であってもよい。

音源分離部６３は、音源分離用スペクトログラムＶ_ｍｉｘを入力とし、事前分布格納部６２に格納された、分離対象とされる各音源に対応する事前分布Ｗ_０［Ｗ_０＿ｓＷ_０＿ｎ］を制約として用いた制約付きＮＭＦを行い、Ｖ_ｍｉｘを、Ｗ_ｓｅｐａ［Ｗ_ｓＷ_ｎ］とそのアクティベーションＨ_ｓｅｐａ［Ｈ_ｓＨ_ｎ］に分解する。

Ｖ_ｍｉｘ≒Ｗ_ｓｅｐａＨ_ｓｅｐａ・・・（ｇ－１）

式（ｇ－１）は、上記の例の制約付きＮＭＦにおけるＶ_ｍｉｘの近似式である。ここで、Ｗ_ｓｅｐａは、音声信号の基底Ｗ_ｓと環境雑音信号の基底Ｗ_ｎとを列方向に連結させたＫ行（Ｒ_ｓ＋Ｒ_ｎ）列の基底行列である。Ｗ_ｓｅｐａの各列インデックスは、Ｗ_０［Ｗ_０＿ｓＷ_０＿ｎ］のインデックスに対応したものとなる。また、Ｈ_ｓｅｐａは、基底Ｗ_ｓに対応するアクティベーションＨ_ｓと基底Ｗ_ｎに対応するアクティベーションＨ_ｎとを行方向に連結させた（Ｒ_ｓ＋Ｒ_ｎ）行Ｊ_ｍｉｘ列のアクティベーション行列である。Ｈ_ｓｅｐａの各行インデックスは、Ｗ_ｓｅｐａの列インデックスに対応したものとなる。

本例の基底Ｗ_ｓはＫ行Ｒ_ｓ列の行列であり、Ｗ_ｎはＫ行Ｒ_ｎ列の行列である。また、アクティベーションＨ_ｓはＲ_ｓ行Ｊ_ｍｉｘ列の行列であり、Ｈ_ｎはＲ_ｎ行Ｊ_ｍｉｘ列の行列である。ここで、Ｊ_ｍｉｘは、音源分離用スペクトログラムＶ_ｍｉｘの時間インデックス数である。

制約付きＮＭＦには、第３の実施形態の基底信号分析部１０２で用いた制約付きＮＭＦや、第５の実施形態の基底信号分析部５０２で用いた制約付きＮＭＦを用いることができる。

前者の場合、上記の式（ｄ－２）および式（ｄ－３）におけるＶ_ｂａｓｅ，ＷおよびＨを、Ｖ_ｍｉｘ，Ｗ_ｓｅｐａおよびＨ_ｓｅｐａに置き換えればよい。後者の場合、各音源ｉに対応する事前分布に対して学習される基底行列Ｗ_ｉおよびそのアクティベーションＨ_ｉが、グループ基底行列Ｗ^（ｒ）およびそのアクティベーションＨ^（ｒ）となる。このとき、Ｗ_０とＷ_ｓｅｐａの間の各音源の基底インデックスの対応付けとして、Ｗ_０の列ベクトルのインデックスｒに対して、Ｗ_ｓｅｐａの列ベクトルにはグループ化に対応したインデックスｇｒを用いればよい。

音源分離部６３は、事前分布を制約として用いた制約付きＮＭＦを行うことにより、通常の制約がないＮＭＦを用いた際に問題となる局所解に陥ることなく、各音源の基底とそのアクティベーションを算出することができる。なお、音源分離部６３は、音源分離の際に、未知の音源に対応する基底をさらに追加した制約付き半教師有りＮＭＦを行ってもよい。その場合、分離対象の音源に対応するスペクトル基底に対しては事前分布を制約として用いて学習させ、未知の音源に対応するスペクトル基底に対しては制約なしで学習させて、音源分離を行ってもよい。

音源分離部６３は、このようにして得られたＷ_ｓｅｐａ［Ｗ_ｓＷ_ｎ］、Ｈ_ｓｅｐａ［Ｈ_ｓＨ_ｎ］を出力する。なお、音源分離部６３は、Ｗ_ｓｅｐａおよびＨ_ｓｅｐａをそれぞれ音源ごとに分解した基底行列およびアクティベーション行列を出力してもよい。

音源再構築部６４は、音源分離部６３から出力される各音源に対応するスペクトル基底を含む基底行列Ｗ_ｓｅｐａとアクティベーション行列Ｈ_ｓｅｐａとを入力とし、各音源の基底インデックスに対応する部分の積をとることで、Ｖ_ｍｉｘに含まれる各音源のスペクトログラムを推定する。音源再構築部６４は、例えば、以下の式（ｇ－２）および式（ｇ－３）に示すように、Ｖ_ｍｉｘに含まれる各音源のスペクトログラムの推定値として、音声信号のスペクトログラムＶ_ｓと、環境雑音信号のスペクトログラムＶ_ｎを算出する。

Ｖ_ｓ＝Ｗ_ｓＨ_ｓ・・・（ｇ－２）
Ｖ_ｎ＝Ｗ_ｎＨ_ｎ・・・（ｇ－３）

これは、Ｗ_ｓｅｐａ中のＷ_ｓが音声信号のスペクトル成分を表し、Ｈ_ｓｅｐａ中のＨ_ｓが音声信号のスペクトル成分の各時間インデックスにおける発現度合いを表すため、Ｗ_ｓとＨ_ｓの成分のみを用いて積をとることで、Ｖ_ｍｉｘのうち音声信号の成分のみに対応するスペクトログラムＶ_ｓを抽出することができるからである。なお、環境雑音信号のスペクトログラムについても同様である。以下、このようにして推定された各音源のスペクトログラムの推定値を、Ｖ_{ｓｅｐａ＿ｉ}と表現する場合がある。ここで、ｉは音源の識別子である。

音源再構築部６４は、推定された各音源のスペクトログラムＶ_{ｓｅｐａ＿ｉ}をそれぞれ逆フーリエ変換して時系列音響信号とすることにより、分離信号ｘ_ｉ（ｔ）を生成する。

なお、今回の例では、音声と環境雑音の２種の音源を分離する場合を例に用いて説明したが、例えば、音声と環境雑音と背景音楽など、２種以上の所望の音源に分離することも可能である。その場合、事前分布Ｗ_０、基底行列Ｗ_ｓｅｐａ、アクティベーション行列Ｈ_ｓｅｐａは、音源数に応じて各音源に対応する要素を連結させればよい。より具体的には、事前分布Ｗ_０は、各音源の事前分布Ｗ_０＿ｉを列方向に連結すればよい。また、基底行列Ｗ_ｓｅｐａは、各音源のスペクトル基底行列Ｗ_ｉを列方向に連結すればよい。また、アクティベーション行列Ｈ_ｓｅｐａは、各音源のスペクトル基底行列Ｗ_ｉに対応するアクティベーション行列Ｈ_ｉを行方向に連結すればよい。なお、分離信号は、上述したように、各音源に対応する基底行列Ｗ_ｉとそのアクティベーション行列Ｈ_ｉの積を取ることにより、得られる。

図１３は、本実施形態の動作の一例を示すフローチャートである。図１３に示す例では、まず分布解析部６１が、分布生成用スペクトログラムＶ_０を入力として、Ｖ_０を構成している各音源のスペクトル基底の事前分布Ｗ_０［Ｗ_０＿１，．．．，Ｗ_０＿ｉ，．．．］を生成し、事前分布格納部６２に格納する（ステップＳ６０）。

次いで、音源分離部６３が、音源分離用スペクトログラムＶ_ｍｉｘに対して、各音源に対応する事前分布Ｗ_０を制約として用いた制約付きＮＭＦを行い、Ｖ_ｍｉｘを、Ｗ_ｓｅｐａ［Ｗ_１，．．．，Ｗ_ｉ，．．．］とそのアクティベーションＨ_ｓｅｐａ［Ｈ_１，．．．，Ｈ_ｉ，．．．］に分解する（ステップＳ６１）。

次いで、音源再構築部６４が、Ｗ_ｓｅｐａ中の指定された音源のスペクトル基底Ｗ_ｊとそのアクティベーションＨ_ｊとを用いて、該音源のみの時系列音響信号である分離信号を生成する（ステップＳ６２）。

以上のように、本実施形態によれば、ＮＭＦで各音源に対応する基底行列Ｗ_ｉを学習する際に、別途入力される分布生成用スペクトログラムＶ_０から求まる事前分布Ｗ_０＿ｉに近づくような制約を用いることにより、局所解に陥らずに所望の基底行列Ｗ_ｉを算出することができる。そのため，より高精度に音源分離ができる。

なお、図１２および図１３の例では、分布生成用スペクトログラムＶ_０を入力して、分布解析部６１が各音源のスペクトル基底に対応する事前分布を生成する例を示したが、事前分布は予め事前分布格納部６２に格納されていてもよい。その場合、分布解析部６１は省略される。

なお、上記の各実施形態では、ＮＭＦにおいてすべて基底は時間幅を考えないものとして説明したが、Ｃｏｎｖｏｌｕｔｉｖｅ－ＮＭＦを用いて時間構造を含んだ基底を作ることもできる。

また、上記の各実施形態は、単体の装置により実現されるだけでなく、複数の機器から構成されるシステムによって実装することも可能である。さらに、上記の各実施形態は、各実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給されることによって実現されてもよい。したがって、上記の各実施形態の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ（World Wide Web）サーバ等も本発明の範疇に含まれる。特に、少なくとも、上記の各実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）は本発明の範疇に含まれる。

なお、上記の各実施形態は以下の付記のようにも記載できる。

（付記１）検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を格納する基底格納手段（例えば、基底格納部１１１，５１１）と、音響信号のスペクトログラムの時間区間中の音響イベントのスペクトル基底の発現度合いの組み合わせを特徴量として、音響信号に含まれる音響イベントを識別する識別モデルを格納するモデル格納手段（例えば、モデル格納部１１３，５１３）と、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する識別信号分析手段（例えば、識別信号分析部１１２，５１２）と、算出された発現度合いの組み合わせを基に、識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する信号識別手段（例えば、信号識別部１１４，５１４）とを備えたことを特徴とする信号処理装置。

（付記２）識別信号分析手段は、識別用音響信号のスペクトログラムに対して、音響イベント基底群を表す所定形式の第１基底行列に未知の音響イベントのスペクトル基底群を表す第２基底行列を加えた第３基底行列のうちの第２基底行列と、第３基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とを学習させて、当該スペクトログラムを第３基底行列と第３基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解することにより、第１基底行列の各スペクトル基底の発現度合いを表す第１アクティベーション行列を算出し、信号識別手段は、算出された第１アクティベーション行列によって示される識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いの組み合わせを基に、識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する付記１に記載の信号処理装置。

（付記３）基底生成用のスペクトログラムを入力として音響イベント基底群を生成する基底生成手段（例えば、基底生成部１０）と、対応する音響イベントを示すラベル付きのスペクトログラムが入力されると、基底生成手段によって生成された音響イベント基底群を用いて、ラベル付きスペクトログラムから音響イベントのスペクトル基底の発現度合いを算出して、識別モデルを学習するモデル学習手段（例えば、学習データ分析部１２およびモデル学習部１３）とを備えた付記１または付記２に記載の信号処理装置。

（付記４）検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納する事前分布格納手段（例えば、事前分布格納部１０１，５０１）を備え、基底生成手段は、事前分布群に含まれる各事前分布を、対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する付記３に記載の信号処理装置。

（付記５）音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合である付記１から付記４のうちのいずれかに記載の信号処理装置。

（付記６）音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合であり、モデル学習手段は、対応する音響イベントを示すラベル付きスペクトログラムを、音響イベント基底群を表す第１基底行列と第１基底行列の各スペクトル基底の発現度合いを表す第１アクティベーション行列とに分解する処理において、グループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を課して分解することにより、第１アクティベーション行列を算出して、算出された第１アクティベーション行列によって示される識別用音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として、識別モデルを学習する付記３に記載の信号処理装置。

（付記７）音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合であり、基底生成手段は、事前分布群に含まれる各事前分布を、対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する付記４に記載の信号処理装置。

（付記８）音響イベント基底群に含まれる音響イベントごとのサブ集合には、当該音響イベントを構成する音の代表的なスペクトル形状に対して異なるバリエーションまたは揺らぎが表現された２以上のスペクトル基底が含まれる付記５から付記７のうちのいずれかに記載の信号処理装置。

（付記９）識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出し、算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別することを特徴とする信号処理方法。

（付記１０）コンピュータに、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する処理、および算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する処理を実行させるための信号処理プログラムを格納したコンピュータ読み取り可能記録媒体。

（付記１１）検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納する事前分布格納手段と、基底生成用のスペクトログラムを入力として、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を生成する基底生成手段とを備え、基底生成手段は、事前分布群に含まれる各事前分布を対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成することを特徴とする信号処理装置。

（付記１２）音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合であり、基底生成手段は、事前分布群に含まれる各事前分布を対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する付記１１に記載の信号処理装置。

（付記１３）音響イベント基底群に含まれる音響イベントごとのサブ集合には、当該音響イベントを構成する音の代表的なスペクトル形状に対して異なるバリエーションまたは揺らぎが表現された２以上のスペクトル基底が含まれる付記１１に記載の信号処理装置。

（付記１４）検知対象とされる音響イベントが、特定音源の音の発生であり、事前分布格納手段は、特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納し、特定音源の音のみを含む音響信号のスペクトログラムを入力として、事前分布群を生成する分布解析手段と、音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、基底生成手段によって生成された音響イベント基底群を表す第１基底行列を用い、かつ事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて第１基底行列を学習させて音源分離を行う音源分離手段と、音源分離の結果得られる、音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、音源分離用音響信号から特定音源の音のみの信号を生成する音源再構築手段とを備えた付記１１から付記１３のうちのいずれかに記載の信号処理装置。

（付記１５）音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合であり、基底生成手段は、事前分布群に含まれる各事前分布を、対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成し、音源分離手段は、音源分離用音響信号のスペクトログラムを、音響イベント基底群を表す第１基底行列と第１基底行列の各スペクトル基底の発現度合いを表す第１アクティベーション行列とに分解する処理において、グループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を課して分解する付記１４に記載の信号処理装置。

（付記１６）音源分離手段は、音源分離用音響信号のスペクトログラムに対して、音響イベント基底群に特定音源以外の音に対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの音響イベント基底群のスペクトル基底は事前分布群に含まれる各事前分布を制約として用いて学習させ、未知のスペクトル基底は制約なしで学習させて音源分離を行う付記１４または付記１５に記載の信号処理装置。

（付記１７）基底生成用のスペクトログラムが入力されると、検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群に含まれる各事前分布を対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を生成することを特徴とする信号処理方法。

（付記１８）コンピュータに、基底生成用のスペクトログラムが入力されると、検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群に含まれる各事前分布を対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を生成する処理を実行させるための信号処理プログラムを格納したコンピュータ読み取り可能記録媒体。

（付記１９）特定音源の音のみを含む音響信号のスペクトログラムを入力として、特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を生成し、基底生成用のスペクトログラムが入力されると、事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、特定音源のスペクトル基底の集合である音響イベント基底群を生成し、音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群を表す第１基底行列を用い、かつ事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて第１基底行列を学習させて音源分離を行い、音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを算出し、算出された音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、音源分離用音響信号から特定音源の音のみの信号を生成することを特徴とする信号処理方法。

（付記２０）コンピュータに、特定音源の音のみを含む音響信号のスペクトログラムを入力として、特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を生成する処理、基底生成用のスペクトログラムが入力されると、事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、特定音源のスペクトル基底の集合である音響イベント基底群を生成する処理、音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群を表す第１基底行列を用い、かつ事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて第１基底行列を学習させて音源分離を行い、音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを算出する処理、および算出された音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、音源分離用音響信号から特定音源の音のみの信号を生成する処理を実行させるための信号処理プログラムを格納したコンピュータ読み取り可能記録媒体。

以上、本実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１６年６月１６日に出願された日本出願特願２０１６－１２０１２６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、音の発生を伴う所定の物理イベントの発生を検知する用途や、未知の環境下において採取された音源信号から所定の音源の音を分離する用途にも好適に適用可能である。

１００、１１０、２００、４００、５００、６００信号処理装置
１０、４０、５０基底生成部
１０１、５０１事前分布格納部
１０２、５０２基底信号分析部
１０３、５０３分布解析部
１１、５１音響イベント識別部
１１１、５１１基底格納部
１１２、５１２識別信号分析部
１１３、５１３モデル格納部
１１４、５１４信号識別部
１２、５２学習データ分析部
１３、５３モデル学習部
６１分布解析部
６２事前分布格納部
６３音源分離部
６４音源再構築部

Claims

検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を格納する基底格納手段と、
音響信号のスペクトログラムの時間区間中の音響イベントのスペクトル基底の発現度合いの組み合わせを特徴量として、前記音響信号に含まれる音響イベントを識別する識別モデルを格納するモデル格納手段と、
識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、前記音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの前記未知のスペクトル基底のみを学習させて音源分離を行い、前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する識別信号分析手段と、
算出された前記発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する信号識別手段と、を備え、
前記識別信号分析手段は、識別用音響信号のスペクトログラムに対して、前記音響イベント基底群を表す所定形式の第１基底行列に前記未知の音響イベントのスペクトル基底群を表す第２基底行列を加えた第３基底行列のうちの前記第２基底行列と、前記第１基底行列に対応する第１アクティベーション行列に、前記第２基底行列に対応する第２アクティベーション行列を加えた第３アクティベーション行列とを学習させて、当該スペクトログラムを、前記第３基底行列と前記第３基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解し、入力されたスペクトログラムにマッチするように、前記第２基底行列と前記第３アクティベーション行列の値を最適化するよう更新し、最適化された前記第２基底行列と前記第３アクティベーション行列から、前記第１基底行列の各スペクトル基底の発現度合いを表す第１アクティベーション行列を算出し、
前記信号識別手段は、算出された前記第１アクティベーション行列によって示される前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する
ことを特徴とする信号処理装置。
基底生成用のスペクトログラムを入力として音響イベント基底群を生成する基底生成手段と、
対応する音響イベントを示すラベル付きのスペクトログラムが入力されると、前記基底生成手段によって生成された音響イベント基底群を用いて、前記ラベル付きスペクトログラムから前記音響イベントのスペクトル基底の発現度合いを算出して、識別モデルを学習するモデル学習手段と
を備えた請求項１に記載の信号処理装置。
検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納する事前分布格納手段を備え、
前記基底生成手段は、前記事前分布群に含まれる各事前分布を、対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する
請求項２に記載の信号処理装置。
音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合である
請求項１から３のうちのいずれか１つに記載の信号処理装置。
音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合であり、
前記モデル学習手段は、対応する音響イベントを示すラベル付きスペクトログラムを、音響イベント基底群を表す第１基底行列と前記第１基底行列の各スペクトル基底の発現度合いを表す第１アクティベーション行列とに分解する処理において、グループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を課して分解することにより、前記第１アクティベーション行列を算出し、算出された前記第１アクティベーション行列によって示される前記識別用音響信号のスペクトログラムの時間区間中の前記音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として、識別モデルを学習する請求項２に記載の信号処理装置。
音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに２以上のスペクトル基底がグループ化されたサブ集合の集合であり、
前記基底生成手段は、前記事前分布群に含まれる各事前分布を、対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する請求項３に記載の信号処理装置。
音響イベント基底群に含まれる音響イベントごとのサブ集合には、当該音響イベントを構成する音の代表的なスペクトル形状に対して異なるバリエーションまたは揺らぎが表現された２以上のスペクトル基底が含まれる請求項４から６のうちのいずれかに記載の信号処理装置。
識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの前記未知のスペクトル基底のみを学習させて音源分離を行い、前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出し、
算出された前記発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の前記音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として前記音響信号に含まれる音響イベントを識別する識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する方法であり、
前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する方法は、識別用音響信号のスペクトログラムに対して、前記音響イベント基底群を表す所定形式の第１基底行列に前記未知の音響イベントのスペクトル基底群を表す第２基底行列を加えた第３基底行列のうちの前記第２基底行列と、前記第１基底行列に対応する第１アクティベーション行列に、前記第２基底行列に対応する第２アクティベーション行列を加えた第３アクティベーション行列とを学習させて、当該スペクトログラムを前記第３基底行列と前記第３基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解し、入力されたスペクトログラムにマッチするように、前記第２基底行列と前記第３アクティベーション行列の値を最適化するよう更新し、最適化された前記第２基底行列と前記第３アクティベーション行列から、前記第１基底行列の各スペクトル基底の発現度合いを表す第１アクティベーション行列を算出するものであり、
前記識別用音響信号に含まれる音響イベントを識別する方法は、算出された前記第１アクティベーション行列によって示される前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別するものである
ことを特徴とする信号処理方法。
コンピュータに、
識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの前記未知のスペクトル基底のみを学習させて音源分離を行い、前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する処理、および
算出された前記発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の前記音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として前記音響信号に含まれる音響イベントを識別する識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する処理を実行させるための信号処理プログラムであって、
前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する処理は、識別用音響信号のスペクトログラムに対して、前記音響イベント基底群を表す所定形式の第１基底行列に前記未知の音響イベントのスペクトル基底群を表す第２基底行列を加えた第３基底行列のうちの前記第２基底行列と、前記第１基底行列に対応する第１アクティベーション行列に、前記第２基底行列に対応する第２アクティベーション行列を加えた第３アクティベーション行列とを学習させて、当該スペクトログラムを前記第３基底行列と前記第３基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解し、入力されたスペクトログラムにマッチするように、前記第２基底行列と前記第３アクティベーション行列の値を最適化するよう更新し、最適化された前記第２基底行列と前記第３アクティベーション行列から、前記第１基底行列の各スペクトル基底の発現度合いを表す第１アクティベーション行列を算出するものであり、
前記識別用音響信号に含まれる音響イベントを識別する方法は、算出された前記第１アクティベーション行列によって示される前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別するものである
ことを特徴とする信号処理プログラム。