JP6747447B2

JP6747447B2 - 信号検知装置、信号検知方法、および信号検知プログラム

Info

Publication number: JP6747447B2
Application number: JP2017540456A
Authority: JP
Inventors: 達也小松; 裕三仙田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-09-16
Filing date: 2016-06-16
Publication date: 2020-08-26
Anticipated expiration: 2036-06-16
Also published as: US20190156853A1; US10650842B2; WO2017046976A1; JPWO2017046976A1

Description

本発明は、信号検知装置、信号検知方法、および信号検知プログラムに関する。

非負値行列因子分解（NMF;Nonnegative Matrix Factorization、以下NMFという。）を実施することによって音源を分離する技術が知られている。NMFは、以下の式（１）のように、スペクトログラムであるf行t列の行列Vを、f行k列のスペクトル基底行列Wと、k行t列のアクティベーション行列Hの積に近似する行列分解手法である。kは、基底数を示すパラメータである。

V≒WH ・・・式（１）

非特許文献１には、NMFを用いて音響信号に含まれる音響イベントを検知する技術が記載されている。

音響イベントは、物理イベントに対応する音響信号のパターンである。物理イベントが引き起こす物理状態の遷移に伴い、対応する区間の音響信号パターンも変化する。

また、音響要素は、所定の物理状態に対応する音響信号パターンである。所定の物理状態が取り得る状態の振れ幅の分だけ、音響信号パターンも振れ幅を取り得る。すなわち、音響要素は、振れ幅を有する音響信号パターンである。

音響要素は、スペクトログラム上の、１フレーム分の音響信号、または複数フレーム分の音響信号の断片に相当する。すなわち、音響信号パターンが各物理状態に対応する音響要素ごとに分解されることによって、音響イベントが検知されやすい状態になる。

以下、非特許文献１に記載されている音響イベントの検知方法の概要を説明する。

非特許文献１に記載されている検知方法は、最初に音響信号に対して短時間フーリエ変換を行うことによって、音響信号をスペクトログラムに変換する。次いで、非特許文献１に記載されている検知方法は、変換されたスペクトログラムに対してNMFを実施することによって、スペクトログラムに含まれるスペクトル基底辞書の発現度合いを算出する。

非特許文献１に記載されている検知方法は、算出された発現度合い同士の組み合わせを用いて、音響信号に音響イベントが含まれているか否かを識別する。上記の手順で、非特許文献１に記載されている検知方法は、音響信号に含まれている音響イベントを検知する。

以下、非特許文献１に記載されている音響イベントの検知方法をより具体的に説明する。非特許文献１に記載されている検知方法は、最初に検知対象音が含まれる音響信号（既知の音響信号）がつなぎ合わせられたスペクトログラムに対してNMFを実施し、スペクトル基底辞書を作成する。

次いで、非特許文献１に記載されている検知方法は、短時間フーリエ変換を行うことによって未知の音響信号をスペクトログラムに変換し、変換されたスペクトログラムにおける、作成されたスペクトル基底辞書を構成する各基底のアクティベーション（発現度合い）を算出する。

次いで、非特許文献１に記載されている検知方法は、算出されたアクティベーション同士の組み合わせを用いて音響イベントが含まれているか否かを識別することによって、未知の音響信号に含まれている音響イベントを検知する。非特許文献１に記載されている検知方法は、同一の音響イベントに関する各基底のアクティベーションは同様の傾向を示すという仮定に基づいて、音響イベントを検知している。

アクティベーションは、スペクトル基底辞書を用いたNMFが実施されることによってスペクトログラムが分解される際に算出される。また、アクティベーション同士の組み合わせが用いられる音響イベント有無の識別処理には、例えば、隠れマルコフモデル（HMM;Hidden Markov Model）が使用される。

Courtenay V. Cotton and Daniel P. W. Ellis, ‘SPECTRAL VS. SPECTRO-TEMPORAL FEATURES FOR ACOUSTIC EVENT DETECTION’, 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

非特許文献１に記載されている技術は、検知精度が信号対雑音比（SNR;Signal to Noise ratio）に影響されにくいという特長を有する。しかし、非特許文献１に記載されている技術は、SNRが高い場合、すなわち信号が検知されやすい状況であっても精度よく信号を検知することが困難であるという課題を有する。

その理由は、スペクトル基底辞書を用いたNMFが実施されることによって算出される、スペクトルを表現できるスペクトル基底とアクティベーションとの組み合わせが複数存在するためである。すなわち、NMFにおいて選択される組み合わせが処理ごとに異なる。よって、NMFが実施されることによって算出されるアクティベーションは、毎回所定の結果になるとは限らず、安定しない。

上記の不安定性により、所定の結果以外のアクティベーションが算出されると、音響イベント有無の識別が失敗する可能性がある。すなわち、毎回音響イベント有無の識別に成功するわけではないため、非特許文献１に記載されている技術は、音響イベントの検知精度が低いという課題を有する。

そこで、本発明は、上述した課題を解決し、音響イベントを精度よく検知できる信号検知装置、信号検知方法、および信号検知プログラムを提供することを目的とする。

本発明による信号検知装置は、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮する圧縮部を備えることを特徴とする。

本発明による信号検知方法は、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮することを特徴とする。

本発明による信号検知プログラムは、コンピュータに、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮する圧縮処理を実行させることを特徴とする。

本発明によれば、音響イベントを精度よく検知できる。

本発明による信号検知装置の第１の実施形態の構成例を示すブロック図である。第１の実施形態の信号検知装置１００による信号検知処理の動作を示すフローチャートである。本発明による信号検知装置の第２の実施形態の構成例を示すブロック図である。基底行列Wを構成する基底と音響要素との関係を示す説明図である。第２の実施形態の信号検知装置２００による基底行列および識別モデル作成処理の動作を示すフローチャートである。本発明による信号検知装置の第３の実施形態の構成例を示すブロック図である。第３の実施形態の信号検知装置３００による基底行列および識別モデル作成処理の動作を示すフローチャートである。本発明による信号検知装置の概要を示すブロック図である。

実施形態１．
［構成の説明］
以下、本発明の実施形態を、図面を参照して説明する。図１は、本発明による信号検知装置の第１の実施形態の構成例を示すブロック図である。図１に示す信号検知装置１００は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。

図１に示す信号検知装置１００は、基底格納部１０１と、解析部１０２と、モデル格納部１０３と、識別部１０４とを備える。

基底格納部１０１は、基底行列Wと、音響要素ID情報とを格納する機能を有する。

音響要素ID情報は、基底行列Wを構成する各基底に対応する音響要素IDを示す情報である。音響要素IDは、各音響要素に対応付けられている識別番号である。なお、音響要素IDは、先頭から所定番目の基底ごとに割り振られてもよい。

また、音響要素ID情報は、各基底に対応する音響要素IDが並べられたベクトルとして表されてもよい。本実施形態では、基底格納部１０１が、各基底に対応する音響要素IDが並べられたベクトルである音響要素IDベクトルCを格納する。

解析部１０２は、NMFを実施する機能を有する。解析部１０２は、スペクトログラムVを入力とし、基底行列Wを用いてNMFを実施することによって、アクティベーション行列Hを算出する。スペクトログラムVは、音響イベントが含まれるか否かが判別される、検知対象の音響信号のスペクトログラムである。

すなわち、解析部１０２は、式（１）に示すように、スペクトログラムVを基底行列Wとアクティベーション行列Hの積WHで表現する。以下、基底行列Wを構成するスペクトル基底を、単一の時間フレームに対応する時間幅を有する基底として説明する。

NMFを実施する際、解析部１０２は、具体的には、コスト関数D(V,W,H)が最小になるアクティベーション行列Hを算出する。コスト関数Dとして、例えば一般化Kullback-Leibler divergenceにおけるコスト関数D_KLが使用される。コスト関数D_KLの例を、以下の式（２）に示す。

式（２）における〇は、行列の要素ごとの積を表す。また、式（２）における分数表記は、行列の要素ごとの商を表す。コスト関数Dには、D_KL以外にフロベニウスノルムや板倉斉藤距離などが用いられてもよい。

解析部１０２は、コスト関数Dを最小にするアクティベーション行列Hを求めるために、例えば、基底行列Wを用いてアクティベーション行列Hを以下の式（３）に示すように更新する。

式（３）におけるW^Tは、行列Wの転置行列を表す。また、式（３）における行列Oは、スペクトログラムVと同じ形式であり、要素が全て１の行列を表す。アクティベーション行列Hの初期値には、通常、乱数を要素として有するように生成された行列H₀が用いられる。

解析部１０２は、所定の条件が満たされるまで、式（３）に従ってアクティベーション行列Hを更新する。所定の条件は、例えば、コスト関数Dの値が閾値以下になることである。また、所定の条件は、アクティベーション行列Hの更新回数が設定された繰り返し回数に達することでもよい。

次いで、解析部１０２は、所定の条件が満たされた状態で算出されたアクティベーション行列Hと、音響要素IDベクトルCとを用いて、音響要素IDごとにアクティベーション行列Hの圧縮処理を行い、圧縮行列H2を生成する。例えば、解析部１０２は、以下の式（４）に示すように圧縮行列H2を生成する。

式（４）におけるH_k,jは、アクティベーション行列Hのk行j列の要素を表す。また、式（４）におけるH2_m,jは、圧縮行列H2のm行j列の要素を表す。また、式（４）におけるC(k)=mは、音響要素IDベクトルCのk番目の成分、すなわち音響要素IDがmであることを表す。

式（４）では、mの音響要素IDに関連付けられたアクティベーション行列Hの１つ以上の行の要素が、列ごとにそれぞれ加算される。要素同士が列ごとに加算されることによって生成された１つの行は、圧縮行列H2のm番目の行になる。

すなわち、圧縮処理は、同一の音響要素IDに関連付けられたアクティベーション行列Hの要素の、音響要素IDごとの総和をとることによって、アクティベーション行列Hの行数を音響要素数に削減する処理である。具体的には、例えば式（４）の場合、行数がkのアクティベーション行列Hは、行数がmの圧縮行列H2に圧縮されている。

モデル格納部１０３は、識別モデルを格納する機能を有する。本実施形態では、モデル格納部１０３に格納されている、インデックスとしてＡが付与されている識別モデルに、サポートベクトルマシン（SVM; Support Vector Machine、以下SVMという。）が格納されているとする。

識別部１０４は、音響イベントを検知する機能を有する。識別部１０４は、圧縮行列H2と識別モデルとを用いて、音響イベントの有無を識別する。例えば、識別部１０４は、モデル格納部１０３に格納されているインデックスがＡの識別モデルを用いる。

識別部１０４は、具体的には、圧縮行列H2から所定の時間幅分の行列を切り出すことによって、部分行列Pを作成する。所定の時間幅は、例えば600msである。

次いで、識別部１０４は、部分行列Pの時間平均をとり、特徴ベクトルxを算出する。識別部１０４は、特徴ベクトルxと、SVMで学習された識別面を表す行列Aと、ベクトルbとを使用し、以下に示す式（５）および式（６）に従って、音響イベントの有無を識別する。

式（５）に示すf(x)が１の場合、すなわち式（６）に示すg(x)が正の場合、識別部１０４は、特徴ベクトルxを検知目的の音響イベントとして検知する。また、式（５）に示すf(x)が−１の場合、すなわち式（６）に示すg(x)が負の場合、識別部１０４は、音響イベントを検知しない。

なお、識別部１０４は、SVMの代わりに、隠れマルコフモデルを用いてもよいし、他の識別方式を用いてもよい。モデル格納部１０３には、識別部１０４が用いる識別方式に応じた識別モデルが格納される。

上記の手順で、識別部１０４は、音響イベントの有無を識別する。なお、識別部１０４は、上記の手順以外の手順で音響イベントの有無を識別してもよい。

また、解析部１０２は、コスト関数Dに音響要素IDベクトルCを含めることによって、音響要素の分解性能を上げることができる。例えば、制約条件Ω(H,C)が加えられたコスト関数D(V,W,H,C)の例を、以下の式（７）に示す。

式（７）におけるλは、制約の強さが反映されるパラメータである。制約条件Ω(H)として、例えば、以下の式（８）に示す制約条件が用いられる。

制約条件が加えられたコスト関数D(V,W,H,C)を最小にするアクティベーション行列Hを求めるために、解析部１０２は、例えば、以下の式（９）および式（１０）に示すようにアクティベーション行列Hを更新する。

式（１０）におけるh_t ^(g)は、対応付けられた音響要素IDがgである基底に対応するアクティベーション行列の要素を表す。h_t ^(g)のtは、アクティベーション行列Hの列インデックスである。すなわち、h_t ^(g)は、列インデックスtに対応する列ベクトルであり、t番目の時間フレームにおけるアクティベーションを表す。

解析部１０２は、最初に式（９）に従ってアクティベーション行列Hを更新し、次に式（１０）に従ってh_t ^(g)を音響要素IDのグループごとに更新する演算を、所定の条件が満たされるまで繰り返し実施する。所定の条件は、例えば、コスト関数Dの値が閾値以下になるという条件である。また、所定の条件は、演算回数が設定された繰り返し回数に達するという条件でもよい。

NMFで用いられる音響要素が少ないほど値が小さくなる制約条件Ω(H)がコスト関数Dに加えられる理由は以下の通りである。例えば、１つの音響要素で構成されるスペクトログラムに対してNMFが実施された場合であっても、アクティベーションが値を有する対象になる音響要素以外の、他の音響要素のアクティベーションが値を有する場合がある。

NMFで用いられる音響要素が多いほどコストが大きくなるような制約条件Ω(H)が加えられると、コスト関数Dの値が小さくなるにつれてアクティベーションが値を有する音響要素は少なくなる。その結果、アクティベーションが値を有する対象になる優位な音響要素のアクティベーションのみが値を有するようになり、上記のような事象は発生しなくなる。すなわち、制約条件Ω(H)がコスト関数Dに加えられると、より安定したアクティベーション行列が得られるためである。

また、式（４）に示すように、音響要素IDごとの総和がとられることによって、同一の音響要素IDに関連付けられた複数のアクティベーション行列の要素は、１つのアクティベーション行列の要素として計上される。すなわち、解析部１０２は、アクティベーション行列Hの各行にそれぞれ関連する各基底を、１つの基底として扱うことができる。

また、信号検知装置１００は、基底行列Wを構成するスペクトル基底が複数の時間フレームに対応する時間幅を有する基底である場合であっても、Convolutive-NMFを実施することによって、基底行列Wを取り扱うことができる。複数の時間フレームに対応する時間幅は、例えば100msである。

上記の場合、基底行列Wを構成するスペクトル基底は、時間フレームインデックスτを用いて、W(τ)と表記される。スペクトログラムVは、例えば、以下の式（１１）に示すように分解される。

式（１１）におけるTは、複数の時間フレームに対応する、基底が有する時間幅を表す。また、式（１１）におけるH^(t→)は、各要素が右側にt列だけ移動したアクティベーション行列Hを表す。具体例として、以下の式（１２）に示す行列Aに対して、行列Aの要素が右側に１列だけ移動した行列A^(1→)を、以下の式（１３）に示す。

式（１１）において、アクティベーション行列Hの値は、W(0)が生起するタイミングを表す。また、W(0)が生起した１フレーム後にW(1)が生起し、W(0)が生起した２フレーム後にW(2)が生起する。

基底行列Wを構成するスペクトル基底が複数の時間フレームに対応する時間幅を有する基底である場合のコスト関数Dの例を、以下の式（１４）に示す。

また、式（１４）に示すコスト関数Dを最小にするアクティベーション行列Hを求めるために、解析部１０２は、例えば以下の式（１５）に示すようにアクティベーション行列Hを更新する。

なお、T=1の場合、式（１４）および式（１５）は、単一の時間フレームに対応する時間幅を有する基底で構成される基底行列Wが用いられるNMFにおける各式と等価になる。すなわち、式（１４）に示すコスト関数Dは、式（２）に示すコスト関数Dと等価になる。また、式（１５）に示す更新式は、式（３）に示す更新式と等価になる。

以上のように、本実施形態の信号検知装置は、音響イベントを各物理状態に対応する音響要素ごとに分解することによって、精度よく音響イベントを検知できる。

［動作の説明］
以下、本実施形態の信号検知装置１００の動作を図２を参照して説明する。図２は、第１の実施形態の信号検知装置１００による信号検知処理の動作を示すフローチャートである。

解析部１０２に、検知対象の音響信号がスペクトログラムVとして入力される（ステップＳ１０１）。

次いで、解析部１０２は、基底格納部１０１に格納されている基底行列Wを用いて、入力されたスペクトログラムVに対してNMFを実施する。NMFを実施することによって、解析部１０２は、アクティベーション行列Hを算出する（ステップＳ１０２）。

次いで、解析部１０２は、所定の条件が満たされているか否かを確認する（ステップＳ１０３）。所定の条件が満たされている場合（ステップＳ１０３におけるＹｅｓ）、解析部１０２は、ステップＳ１０５の処理を行う。

所定の条件が満たされていない場合（ステップＳ１０３におけるＮｏ）、解析部１０２は、算出されたアクティベーション行列Hを更新する（ステップＳ１０４）。更新した後、解析部１０２は、再度所定の条件が満たされているか否かを確認する（ステップＳ１０３）。

なお、所定の条件は、例えば、上述したようなコスト関数Dの値が閾値以下になることや、アクティベーション行列Hの更新回数が設定された繰り返し回数に達することである。所定の条件は、上述した条件以外の条件でもよい。

次いで、解析部１０２は、音響要素IDベクトルCを用いて、所定の条件が満たされた状態におけるアクティベーション行列Hを圧縮する（ステップＳ１０５）。解析部１０２は、圧縮されたアクティベーション行列Hである圧縮行列を、識別部１０４に入力する。

次いで、識別部１０４は、解析部１０２から入力された圧縮行列と、モデル格納部１０３に格納されている識別モデルとを用いて、音響信号内に音響イベントが含まれているか否かを識別する（ステップＳ１０６）。識別部１０４は、音響イベント有無の識別結果を出力する。出力した後、信号検知装置１００は、信号検知処理を終了する。

［効果の説明］
本実施形態の信号検知装置は、NMFを実施することによって、検知目標とする音響イベントを構成する音響要素を抽出できる。抽出する際、解析部は、音響要素IDを用いて基底をグループ化し、音響要素IDごとにアクティベーション行列の要素の総和をとることによって、圧縮されたアクティベーション行列を生成する。すなわち、解析部は、単に基底行列を構成する基底ごとに独立してスペクトログラムを分解するのではなく、音響要素単位でスペクトログラムを分解する。

すなわち、音響イベントが対応する物理状態の組み合わせとして捉えられるため、解析部は、誤ったNMFを実施する可能性が低い。従って、非特許文献１に記載されている技術が有する課題である、スペクトルを表現する組み合わせが複数存在することに起因する、アクティベーションの不安定性が解消される。識別部も、算出されたアクティベーションを用いて、精度よく音響イベントを検知できる。

また、本実施形態の信号検知装置は、算出されるアクティベーションに対して圧縮処理を実施できる。圧縮処理を実施すると識別器の次元数を求められる最小値まで削減できるため、信号検知装置は、高精度な検知と低コストな演算の両方を実現できる。すなわち、信号検知装置は、信号対雑音比が高い場合、または信号対雑音比が低い場合のいずれの場合であっても、音響イベントを精度よく検知できる。

実施形態２．
［構成の説明］
次に、本発明の第２の実施形態を、図面を参照して説明する。図３は、本発明による信号検知装置の第２の実施形態の構成例を示すブロック図である。図３に示す信号検知装置２００は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。

図３に示す信号検知装置２００は、信号検知装置１００と、基底生成部２０１と、ラベル付き解析部２０２と、学習部２０３とを備える。本実施形態の信号検知装置１００の構成は、図１に示す第１の実施形態の信号検知装置１００の構成と同様である。また、信号検知装置１００の各構成要素の機能は、第１の実施形態の各構成要素の機能と同様である。

基底生成部２０１は、音響要素の基底辞書を生成する機能を有する。基底生成部２０１は、検知目標とする音響イベントを構成する音響要素を含むようなスペクトログラムV₀に対してNMFを実施することによって、基底辞書を生成する。

基底辞書を生成するために、基底生成部２０１は、最初にスペクトログラムV₀に対して通常のNMFを実施することによって、初期基底W₀を算出する。本実施形態のコスト関数Dの例を、以下の式（１６）に示す。

また、基底生成部２０１は、例えば以下の式（１７）に示すようにアクティベーション行列Hを更新する。また、基底生成部２０１は、例えば以下の式（１８）に示すように初期基底W₀を更新する。

基底生成部２０１は、所定の条件が満たされるまでアクティベーション行列Hおよび初期基底W₀を更新する。所定の条件は、例えばコスト関数Dの値が閾値以下になることである。または、所定の条件は、アクティベーション行列Hおよび初期基底W₀の更新回数が設定された繰り返し回数に達することでもよい。例えば、基底生成部２０１は、初期基底W₀とアクティベーション行列Hを交互に更新し、コスト関数D_KLが最小になる初期基底W₀とアクティベーション行列Hの組を算出する。

次いで、基底生成部２０１は、所定の条件が満たされた状態で算出された初期基底W₀を、例えばk-means法を用いてクラスタリングし、G個のクラスに分割する。G個のクラスへの分割により、セントロイドベクトルμ^(g)が得られる。gは、g番目のクラスを表すインデックスである。セントロイドベクトルμ^(g)は、初期基底W₀の代表的な要素で構成されるベクトルであり、各音響要素に対応する。

次いで、基底生成部２０１は、スペクトログラムV₀に対して、基底行列を用いて再度NMFを実施する。実施する際、基底生成部２０１は、基底行列の初期値に、例えば以下の式（１９）に示すW1を用いる。

式（１９）は、各音響要素を構成する基底の数がn^(g)であることを示す。式（１９）に示すW1は、μ^(g)がそれぞれn^(g)個ずつ並べられた行列である。

また、再度NMFが実施される際に使用されるコスト関数Dには、各グループの基底とセントロイドベクトルとの距離が短くなるような制約条件が含められる。再度NMFが実施される際に使用されるコスト関数Dの例を、以下の式（２０）に示す。

また、式（２０）に示すコスト関数Dを最小にする基底行列Wを求めるために、基底生成部２０１は、例えば以下の式（２１）に示すように基底行列Wを更新する。また、式（２０）に示すコスト関数Dを最小にするアクティベーション行列Hを求めるために、基底生成部２０１は、例えば以下の式（２２）および式（２３）に示すようにアクティベーション行列Hを更新する。

式（２３）におけるh_t ^(g)は、対応付けられた音響要素IDがgである基底に対応するアクティベーション行列Hの要素を表す。

基底生成部２０１は、所定の条件が満たされるまで基底行列Wおよびアクティベーション行列Hを更新する。所定の条件は、例えばコスト関数Dの値が閾値以下になることである。または、所定の条件は、基底行列Wおよびアクティベーション行列Hの更新回数が設定された繰り返し回数に達することでもよい。例えば、基底生成部２０１は、式（２１）〜式（２３）に従う各更新処理を、所定の条件が満たされるまで順番に繰り返し実施する。

更新処理の後、基底生成部２０１は、G個の各音響要素をn^(g)個の基底でそれぞれ表現する基底行列Wを生成する。n^(g)個の基底は、各音響要素の振れ幅を表現する。

また、基底生成部２０１は、基底行列Wの、どの行がどの音響要素IDのグループに対応しているかを示すベクトルを、音響要素IDベクトルとして生成する。なお、基底生成部２０１は、各音響要素の振れ幅に応じてn^(g)を変化させてもよい。また、基底生成部２０１は、全てのn^(g)に同じ値を設定してもよい。

上記のように基底生成部２０１が生成した各基底が音響要素を囲む基底行列Wと、一般的なNMFで作成された基底行列との違いを、図４を参照して説明する。

図４は、基底行列Wを構成する基底と音響要素との関係を示す説明図である。図４に示す円は、スペクトルである。図４は、二次元平面上に表現された、３つの音響要素で構成されるスペクトログラムを構成するスペクトルを示す。また、図４に示す白い矩形は、基底である。また、図４に示す破線は、基底同士の線形結合である。

図４（ａ）は、一般的なNMFで作成された基底行列を構成する基底と音響要素との関係を示す。図４（ａ）に示す白い各矩形は、基底w₁〜基底w₇にそれぞれ対応する。基底w₁〜基底w₇は、図４（ａ）に示すスペクトルで構成されるスペクトログラムに対してNMFが実施された際に得られた基底である。

一般的なNMFにおいてスペクトログラムは、非負の重み係数（すなわち、アクティベーション）が用いられた各基底の線形和で表現される。例えば、基底w₁〜基底w₇の線形和で表現される範囲は、図４（ａ）に示す基底w₁〜基底w₇で囲われる範囲である。

一般的なNMFで基底行列が作成される場合、音響要素の分布は考慮されずに基底行列が作成される。よって、作成される基底行列は、図４（ａ）に示すように、各基底の１つの大きな分布として表現される。図４（ａ）に示す基底の分布と音響要素の分布との間に、対応関係は特に見受けられない。すなわち、一般的なNMFにおいてスペクトログラムが任意の基底の線形和で表現されるため、NMFで得られるアクティベーションが安定しない。

図４（ｂ）は、基底生成部２０１が生成した基底行列を構成する基底と音響要素との関係を示す。図４（ｂ）に示す網掛けの矩形は、セントロイドベクトルである。

図４（ｂ）に示す白い各矩形は、基底w₁ ⁽¹⁾〜基底w₄ ⁽¹⁾、基底w₁ ⁽²⁾〜基底w₄ ⁽²⁾、基底w₁ ⁽³⁾〜基底w₄ ⁽³⁾にそれぞれ対応する。また、図４（ｂ）に示す網掛けの各矩形は、セントロイドベクトルμ⁽¹⁾〜セントロイドベクトルμ⁽³⁾にそれぞれ対応する。

図４（ｂ）に示すように、例えば、基底w₁ ⁽¹⁾〜基底w₄ ⁽¹⁾は、セントロイドベクトルμ⁽¹⁾に近づけるという制約の下で生成される。セントロイドベクトルは音響要素に対応するため、セントロイドベクトルに近づけるという条件が付与されることによって、基底w₁ ⁽¹⁾〜基底w₄ ⁽¹⁾は、音響要素を囲むように生成される。基底w₁ ⁽²⁾〜基底w₄ ⁽²⁾、基底w₁ ⁽³⁾〜基底w₄ ⁽³⁾も、それぞれ基底w₁ ⁽¹⁾〜基底w₄ ⁽¹⁾と同様に生成される。

すなわち、上記のように基底生成部２０１は、各基底をセントロイドベクトルμ^(g)に近づけるという制約の下で基底行列Wを生成する。よって、基底行列Wを構成する各基底は、音響要素を囲むように生成される。

以上により、各音響要素に対応するスペクトルは、音響要素に対応するアクティベーションのみで表現される。基底生成部２０１が生成した基底行列Wは、基底格納部１０１に格納される。

ラベル付き解析部２０２は、ラベル付きスペクトログラムに対してNMFを実施する機能を有する。ラベル付き解析部２０２は、ラベル付きスペクトログラムを入力とし、入力されたラベル付きスペクトログラムに対してNMFを実施することによって、ラベル付きアクティベーション行列を算出する。

ラベル付きスペクトログラムは、スペクトログラム自身が対応する音響信号が検知対象の信号であるか否かを示すラベルが付されているスペクトログラムである。また、スペクトログラム自身が対応する音響信号が検知対象の信号である場合、ラベル付きスペクトログラムには、音響信号がどの音響イベントに対応するかを示すラベルも付されている。

NMFを実施する際、ラベル付き解析部２０２は、基底格納部１０１に格納されている、基底生成部２０１が生成した基底行列Wを使用する。

学習部２０３は、識別部１０４が用いる識別モデルを学習する機能を有する。例えば、学習部２０３は、SVMの識別面を表す行列Aとベクトルbを学習する。学習部２０３がSVMを学習する際、各アクティベーションがどの音響イベントを含む音響信号のアクティベーションであるかを示すラベルが求められる。

よって、学習部２０３は、ラベル付き解析部２０２により算出されたラベル付きアクティベーション行列を用いて、SVMを学習する。学習部２０３は、学習したSVMの識別面を表す行列Aとベクトルbを、モデル格納部１０３に格納する。

なお、本実施形態の基底生成部２０１も、第１の実施形態と同様に、一般的なNMFの代わりにConvolutive-NMFを実施することによって、時間構造が含まれた基底を生成できる。時間構造が含まれた基底を生成する場合、基底生成部２０１が使用する各式の形式は、式（１１）、式（１４）、および式（１５）に対応した形式に置き換えられる。

［動作の説明］
以下、本実施形態の信号検知装置２００の動作を図５を参照して説明する。図５は、第２の実施形態の信号検知装置２００による基底行列および識別モデル作成処理の動作を示すフローチャートである。

基底生成部２０１に、検知目標とする音響イベントを構成する音響要素を含むスペクトログラムV₀が入力される（ステップＳ２０１）。

次いで、基底生成部２０１は、入力されたスペクトログラムV₀に対してNMFを実施する。NMFを実施することによって、基底生成部２０１は、初期基底W₀とアクティベーション行列Hを算出する（ステップＳ２０２）。

次いで、基底生成部２０１は、所定の条件が満たされているか否かを確認する（ステップＳ２０３）。所定の条件が満たされている場合（ステップＳ２０３におけるＹｅｓ）、基底生成部２０１は、ステップＳ２０５の処理を行う。

所定の条件が満たされていない場合（ステップＳ２０３におけるＮｏ）、基底生成部２０１は、算出された初期基底W₀およびアクティベーション行列Hを更新する（ステップＳ２０４）。更新した後、基底生成部２０１は、再度所定の条件が満たされているか否かを確認する（ステップＳ２０３）。

なお、所定の条件は、例えば、上述したようなコスト関数Dの値が閾値以下になることや、更新回数が設定された繰り返し回数に達することである。所定の条件は、上述した条件以外の条件でもよい。

次いで、基底生成部２０１は、所定の条件が満たされた状態における初期基底W₀をクラスタリングする。基底生成部２０１は、クラスタリングによって生成されたセントロイドベクトルを基に、行列W1を生成する（ステップＳ２０５）。

次いで、基底生成部２０１は、生成された行列W1を用いて、入力されたスペクトログラムV₀に対して再度NMFを実施する。NMFを実施することによって、基底生成部２０１は、基底行列Wとアクティベーション行列Hを算出する（ステップＳ２０６）。

次いで、基底生成部２０１は、所定の条件が満たされているか否かを確認する（ステップＳ２０７）。所定の条件が満たされている場合（ステップＳ２０７におけるＹｅｓ）、基底生成部２０１は、ステップＳ２０９の処理を行う。

所定の条件が満たされていない場合（ステップＳ２０７におけるＮｏ）、基底生成部２０１は、算出された基底行列Wおよびアクティベーション行列Hを更新する（ステップＳ２０８）。更新した後、基底生成部２０１は、再度所定の条件が満たされているか否かを確認する（ステップＳ２０７）。

次いで、基底生成部２０１は、所定の条件が満たされた状態における基底行列Wを、基底格納部１０１に格納する。また、基底生成部２０１は、基底行列Wに基づいて、音響要素IDベクトルCを生成する。基底生成部２０１は、生成された音響要素IDベクトルCを基底格納部１０１に格納する（ステップＳ２０９）。

次いで、ラベル付き解析部２０２に、ラベル付きスペクトログラムが入力される（ステップＳ２１０）。

ラベル付き解析部２０２は、ステップＳ２０９の処理で基底格納部１０１に格納された基底行列Wを用いて、入力されたラベル付きスペクトログラムに対してNMFを実施する。NMFを実施することによって、ラベル付き解析部２０２は、ラベル付きアクティベーション行列を算出する（ステップＳ２１１）。

ラベル付き解析部２０２は、算出されたラベル付きアクティベーション行列を学習部２０３に入力する。次いで、学習部２０３は、入力されたラベル付きアクティベーション行列を用いて、識別モデルを学習する（ステップＳ２１２）。

次いで、学習部２０３は、学習された識別モデルをモデル格納部１０３に格納する（ステップＳ２１３）。格納した後、信号検知装置２００は、基底行列および識別モデル作成処理を終了する。

また、本実施形態の信号検知装置２００による信号検知処理は、図２に示す信号検知処理と同様である。

［効果の説明］
本実施形態の信号検知装置は、第１の実施形態の特長に加えて、基底生成部が音響要素を直接的に表す基底行列を生成でき、解析部が生成された基底行列を用いてNMFを実施することによって、高精度に音響要素を抽出できる。すなわち、本実施形態の信号検知装置は、信号対雑音比が高い場合、または信号対雑音比が低い場合のいずれの場合であっても、第１の実施形態に比べて音響イベントをより精度よく検知できる。

実施形態３．
［構成の説明］
次に、本発明の第３の実施形態を、図面を参照して説明する。図６は、本発明による信号検知装置の第３の実施形態の構成例を示すブロック図である。図６に示す信号検知装置３００は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。

図６に示す信号検知装置３００は、基底生成部３０１と、基底格納部３０２と、ラベル付き解析部３０３と、学習部３０４と、モデル格納部３０５と、解析部３０６と、識別部３０７とを備える。すなわち、本実施形態の信号検知装置３００の構成は、図３に示す第２の実施形態の信号検知装置２００の構成と同様である。

本実施形態の基底生成部３０１は、第２の実施形態の基底生成部２０１とは異なる機能を有する。基底生成部３０１以外の各構成要素は、第２の実施形態の各構成要素と同様である。

基底生成部３０１は、制約付きNMFを実施する機能を有する。基底生成部３０１は、基底生成用のスペクトログラムを入力とし、制約付きNMFを実施することによって、基底行列を算出する。基底生成用のスペクトログラムには、例えば、検知目標とする音響イベントを構成する音響要素を含むようなスペクトログラムが用いられる。

基底格納部３０２は、基底生成部３０１が算出した基底行列を格納する。また、ラベル付き解析部３０３は、ラベル付きスペクトログラムを入力とし、基底格納部３０２に格納された基底行列を用いてNMFを実施し、ラベル付きアクティベーション行列を算出する。

また、学習部３０４は、ラベル付き解析部３０３が算出したラベル付きアクティベーション行列を用いて、識別モデルを学習する。また、モデル格納部３０５は、学習部３０４が学習した識別モデルを格納する。

また、解析部３０６は、対象信号のスペクトログラムを入力とし、基底格納部３０２に格納された基底行列を用いて入力されたスペクトログラムに対して通常のNMFを実施し、アクティベーション行列を算出する。

また、識別部３０７は、解析部３０６が算出したアクティベーション行列と、モデル格納部３０５に格納された識別モデルとを用いて識別処理を実施し、音響イベントを検知する。上述したように、基底生成部３０１以外の各構成要素の機能は、第２の実施形態の各構成要素の機能と同様である。

また、第１の実施形態と同様、識別部３０７は、SVMや隠れマルコフモデルを用いて識別処理を実施できる。学習部３０４は、識別部３０７が用いる識別方式に応じた識別モデルを生成する。また、モデル格納部３０５には、識別部３０７が用いる識別方式に応じた識別モデルが格納される。

以下、本実施形態の基底生成部３０１が実施する制約付きNMFを説明する。制約付きNMFとして、Convex-NMFを例に説明する。

クラスタリングを基にしているConvex-NMFが用いられると、スペクトログラムに基づいて音響要素を表現する基底行列が直接的に作成される。その理由は、Convex-NMFが用いられる場合、基底行列WがスペクトログラムVの線形和で表されるためである。すなわち、基底行列Wは、重み係数行列Gを用いてW=VGで表現される。

基底生成部３０１がConvex-NMFを実施する際に用いられるコスト関数Dの例を、以下の式（２４）に示す。

なお、式（２４）に示すコスト関数Dの例は、コスト関数としてフロベニウスノルムが用いられた例である。フロベニウスノルムは、行列の要素ごとの二乗誤差の、全要素分の総和である。

基底生成部３０１は、例えば以下の式（２５）に示すように重み係数行列Gを更新する。また、基底生成部３０１は、例えば以下の式（２６）に示すようにアクティベーション行列Hを更新する。

基底生成部３０１が抽出する基底行列W=VGを構成する各スペクトル基底は、音響要素の振れ幅を表現しない。しかし、基底生成部３０１は、スペクトログラムVの線形和で直接的にスペクトル基底を作成し、より的確に音響要素を表すスペクトル基底を抽出するため、音響要素を単独の基底で表現できる。

［動作の説明］
以下、本実施形態の信号検知装置３００の動作を図７を参照して説明する。図７は、第３の実施形態の信号検知装置３００による基底行列および識別モデル作成処理の動作を示すフローチャートである。

ステップＳ３０１〜ステップＳ３０５の処理は、図５に示すステップＳ２０１〜ステップＳ２０５の処理と同様である。

基底生成部３０１は、生成された行列W1を用いて、入力されたスペクトログラムV₀に対して制約付きNMFを実施する。制約付きNMFを実施することによって、基底生成部３０１は、基底行列Wを算出する（ステップＳ３０６）。

次いで、基底生成部３０１は、所定の条件が満たされているか否かを確認する（ステップＳ３０７）。所定の条件が満たされている場合（ステップＳ３０７におけるＹｅｓ）、基底生成部３０１は、ステップＳ３０９の処理を行う。

所定の条件が満たされていない場合（ステップＳ３０７におけるＮｏ）、基底生成部３０１は、算出された基底行列Wを構成する重み係数行列G、およびアクティベーション行列Hを更新する（ステップＳ３０８）。更新した後、基底生成部３０１は、再度所定の条件が満たされているか否かを確認する（ステップＳ３０７）。

ステップＳ３０９〜ステップＳ３１３の処理は、図５に示すステップＳ２０９〜ステップＳ２１３の処理と同様である。

また、本実施形態の信号検知装置３００による信号検知処理は、図２に示す信号検知処理と同様である。

［効果の説明］
本実施形態の信号検知装置は、対象信号に検知目標の音響イベントと他の音が混在して含まれている場合であっても、NMFを実施することによって雑音に影響されずに音響要素を抽出できる。その理由は、本実施形態で用いられる基底行列を構成するスペクトル基底はスペクトログラムの線形和で作成されるので、各基底が音響要素そのものを表し、各基底のアクティベーションも各音響要素の発現度合いそのものに対応するためである。

よって、本実施形態の信号検知装置は、スペクトログラムに含まれる音響要素の数と同程度の基底数で基底辞書を構成できる。すなわち、信号検知装置は、第１の実施形態および第２の実施形態に比べて少ない演算量で、信号対雑音比が高い場合、または信号対雑音比が低い場合のいずれの場合であっても、音響イベントを精度よく検知できる。

以上、各実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されない。

例えば、各実施形態において、スペクトログラムVには音響信号に対する短時間フーリエ変換で得られたスペクトログラムが用いられると説明した。スペクトログラムVは、短時間フーリエ変換で得られたスペクトログラム以外に、ウェーブレット変換などの他の周波数解析手法で作成された行列でもよい。スペクトログラムVは、NMFを実施できる、加算的な値を取り扱う行列であればどのような行列でもよい。また、音響信号に対する変換処理の種類や、音響信号自身の種類は限定されない。

また、本発明は、複数の機器で構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。

さらに、本発明は、各実施形態の機能を実現する情報処理プログラムが、システムまたは装置に供給される場合にも適用可能である。情報処理プログラムは、装置にUSB(Universal Serial Bus)メモリなどから直接供給されてもよいし、遠隔地から供給されてもよい。

すなわち、本発明の機能をコンピュータで実現するために、コンピュータに導入されるプログラム、プログラムが格納された媒体、またはプログラムを通信可能に接続されている他サーバに転送するWWW(World Wide Web)サーバも、本発明の範疇に含まれる。

特に、少なくとも、上述した各実施形態に含まれる処理ステップをコンピュータに実行させるプログラムが格納された非一時的コンピュータ可読媒体（non-transitory computer readable medium）は、本発明の範疇に含まれる。

また、各実施形態の信号検知装置における各部は、ハードウェア回路によって実現されてもよい。

本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態に含まれる各々の特徴が組み合わせられた要素を有するシステムまたは装置も、本発明の範疇に含まれる。

次に、本発明の概要を説明する。図８は、本発明による信号検知装置の概要を示すブロック図である。図８に示す信号検知装置１０は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。

本発明による信号検知装置１０は、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮する圧縮部１１（例えば、解析部１０２）を備える。

そのような構成により、信号検知装置は、音響イベントを精度よく検知できる。

また、信号検知装置１０は、圧縮されたアクティベーション行列と音響イベントの検知に使用される検知モデルとを用いて、アクティベーション行列が構成するスペクトログラムに対応する音響信号に含まれている音響イベントを検知する検知部（例えば、識別部１０４）を備えてもよい。

そのような構成により、信号検知装置は、圧縮されたアクティベーション行列と識別モデルとを用いて、音響イベントの有無を識別できる。

また、信号検知装置１０は、音響イベントを構成する音響要素を含むスペクトログラムに対して、所定の条件を満たすように非負値行列因子分解を実施することによって、音響要素に対応する基底で構成される基底行列を生成する生成部（例えば、基底生成部２０１）を備えてもよい。

そのような構成により、信号検知装置は、各スペクトル基底が音響要素を囲むような基底行列を生成できる。

また、信号検知装置１０は、対応する音響信号が検知対象の信号であるか否かを示す情報が対応付けられているスペクトログラムに対して、生成部により生成された基底行列を用いて非負値行列因子分解を実施する解析部（例えば、ラベル付き解析部２０２）を備えてもよい。

そのような構成により、信号検知装置は、ラベル付きアクティベーション行列を生成できる。

また、信号検知装置１０は、要素に対応する音響信号に含まれる音響イベントを示す情報が対応付けられている、要素で構成されるアクティベーション行列を用いて、検知モデルを学習する学習部（例えば、学習部２０３）を備えてもよい。

そのような構成により、信号検知装置は、ラベル付きアクティベーション行列を用いて識別モデルを学習できる。

また、生成部は、制約付き非負値行列因子分解を実施することによって基底行列を生成してもよい。

そのような構成により、信号検知装置は、対象信号に検知目標とする音響イベントと他の音が混在して含まれている場合であっても、雑音に影響されずに音響要素を抽出できる。

また、信号検知装置１０は、基底行列と音響要素ID情報が格納される基底格納部（例えば、基底格納部１０１）と、検知モデルが格納されるモデル格納部（例えば、モデル格納部１０３）とを備えてもよい。また、圧縮部１１は、スペクトログラムを入力とし、基底格納部に格納されている基底行列を用いて非負値行列因子分解を実施することによって、アクティベーション行列を算出してもよい。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１５年９月１６日に出願された日本特許出願２０１５−１８２８１６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０、１００、２００、３００信号検知装置
１１圧縮部
１０１、３０２基底格納部
１０２、３０６解析部
１０３、３０５モデル格納部
１０４、３０７識別部
２０１、３０１基底生成部
２０２、３０３ラベル付き解析部
２０３、３０４学習部

Claims

基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する圧縮部を備える
ことを特徴とする信号検知装置。
圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する検知部を備える
請求項１記載の信号検知装置。
信号パターンを構成する信号要素を含むスペクトログラムに対して、所定の条件を満たすように非負値行列因子分解を実施することによって、前記信号要素に対応する基底で構成される基底行列を生成する生成部を備える
請求項１または請求項２記載の信号検知装置。
対応する信号が検知対象の信号であるか否かを示す情報が対応付けられているスペクトログラムに対して、生成部により生成された基底行列を用いて非負値行列因子分解を実施する解析部を備える
請求項３記載の信号検知装置。
要素に対応する信号に含まれる信号パターンを示す情報が対応付けられている、前記要素で構成されるアクティベーション行列を用いて、検知モデルを学習する学習部を備える
請求項１から請求項４のうちのいずれか１項に記載の信号検知装置。
基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する
ことを特徴とする信号検知方法。
圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する
請求項６記載の信号検知方法。
コンピュータに、
基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する圧縮処理
を実行させるための信号検知プログラム。
コンピュータに、
圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する検知処理を実行させる
請求項８記載の信号検知プログラム。