JP7006592B2 - 信号処理装置、信号処理方法および信号処理プログラム - Google Patents

信号処理装置、信号処理方法および信号処理プログラム Download PDF

Info

Publication number
JP7006592B2
JP7006592B2 JP2018523934A JP2018523934A JP7006592B2 JP 7006592 B2 JP7006592 B2 JP 7006592B2 JP 2018523934 A JP2018523934 A JP 2018523934A JP 2018523934 A JP2018523934 A JP 2018523934A JP 7006592 B2 JP7006592 B2 JP 7006592B2
Authority
JP
Japan
Prior art keywords
basis
acoustic event
matrix
spectral
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018523934A
Other languages
English (en)
Other versions
JPWO2017217412A1 (ja
Inventor
達也 小松
玲史 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2017217412A1 publication Critical patent/JPWO2017217412A1/ja
Application granted granted Critical
Publication of JP7006592B2 publication Critical patent/JP7006592B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Description

本発明は、音響信号を処理する信号処理装置、信号処理方法および信号処理プログラムに関する。
音響信号から予め定めた音響イベントを検知したり、音響信号を音源別の信号に分離する技術がある。ここで、音響イベントは、物理イベントに対応する音響信号のパターンであり、物理イベントが引き起こす物理状態と対応する区間の音響信号パターンとを対応づけたものである。例えば、検知対象として「ガラスの破砕」という音響イベントを定義したい場合、該音響イベントは、ガラスが割れた際に生じる音響信号パターンと「ガラスが割れる」という物理状態を対応づけたものである。
例えば、非特許文献1には、非負値行列因子分解(NMF:Nonnegative Matrix Factorization)を用いて音響信号のスペクトログラムから音響イベントの基底行列の発現度合いを算出し、それを特徴量として音響信号に含まれる音響イベントを検知する方法が記載されている。非特許文献1に記載の方法は、より具体的には、音響信号のスペクトログラムに対して、あらかじめ学習データから算出した基底行列を教師基底とするNMFを用いて該基底行列に含まれる各スペクトル基底の発現度合いを算出する。そして、該方法は、算出された発現度合いの組み合わせを基に音響信号に特定の音響イベントが含まれるか否かを識別することにより、音響イベントを検知する。
また、NMFは、複数の音源からの音を含む音響信号に対する音源分離にも多く用いられている。例えば、NMFを用いて分離対象とされる音響信号のスペクトルを、各音源のスペクトル基底を表す基底行列とその発現度合いを表すアクティベーション行列とに分離する。これにより、音源ごとのスペクトルが得られる。非特許文献1に記載の方法では、所定の音源による音響信号も、検知対象の音響イベントとして指定可能とする。すなわち、音響イベントには、所定音源からの音の発生という物理イベントに対応する音響信号のパターンも含まれるものとする。
特開2016-045221号公報 特開2014-164126号公報
Courtenay V. Cotton and Daniel P. W. Ellis, ‘SPECTRAL VS. SPECTRO-TEMPORAL FEATURES FOR ACOUSTIC EVENT DETECTION’, 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.
しかし、非特許文献1に記載の方法は、音響イベントの識別精度が十分でないという問題があった。例えば、非特許文献1に記載の方法は、未知の環境下などにおいて、学習データから作成した基底行列では表現できないような未知の音が存在する場合、本来検知対象でない未知の音も検知対象の音響イベントとして誤って識別してしまうという問題があった。また、例えば、非特許文献1に記載の方法では、基底行列を生成するためのNMFの解に多くの局所解が存在する。このため、非特許文献1に記載の方法は、学習データから基底行列を精度よく推定できず、正確な基底行列の抽出に失敗してしまうという問題があった。正確な基底行列が抽出されない場合、音響イベントを精度よく検知すること困難である。なお、音源分離の場合も、検知対象とされる音源のスペクトル基底を表す基底行列をNMFにより得る際に、上記と同様、局所解の問題が生じる。
そこで、本発明は、音響イベントの識別精度を向上できる信号検知装置、そのための信号処理装置、信号処理方法および信号処理プログラムを提供することを目的とする。
本発明による信号処理装置は、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を格納する基底格納手段と、音響信号のスペクトログラムの時間区間中の音響イベントのスペクトル基底の発現度合いの組み合わせを特徴量として、音響信号に含まれる音響イベントを識別する識別モデルを格納するモデル格納手段と、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する識別信号分析手段と、算出された発現度合いの組み合わせを基に、識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する信号識別手段とを備えたことを特徴とする。
本発明による信号処理方法は、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出し、算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別することを特徴とする。
本発明による信号処理プログラムは、コンピュータに、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する処理、および算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する処理を実行させることを特徴とする。
本発明によれば、音響イベントの識別精度を向上できる。
第1の実施形態の信号処理装置110の構成例を示すブロック図である。 第1の実施形態の動作の一例を示すフローチャートである。 第2の実施形態の信号処理装置200の構成例を示すブロック図である。 第2の実施形態の全体動作の一例を示すフローチャートである。 第2の実施形態の基底生成処理の処理フローの一例を示すフローチャートである。 第2の実施形態のモデル学習処理の処理フローの一例を示すフローチャートである。 第3の実施形態の信号処理装置100の構成例を示すブロック図である。 第3の実施形態の動作の一例を示すフローチャートである。 第4の実施形態の信号処理装置400の構成例を示すブロック図である。 第4の実施形態の全体動作の一例を示すフローチャートである。 第5の実施形態の信号処理装置500の構成例を示すブロック図である。 第6の実施形態の信号処理装置600の構成例を示すブロック図である。 第6の実施形態の動作の一例を示すフローチャートである。
以下、本発明の実施形態を、図面を参照して説明する。
まず、本発明の前提となる技術であるNMFによる音源分離動作について簡単に説明する。
NMFは、入力された音響信号のスペクトログラムVを、以下の式(1)に示すように、K行R列の基底行列W(k,r)とR行J列のアクティベーション行列H(r,j)の積で近似を行う行列分解手法である。
V≒WH ・・・(1)
NMFに入力される音響信号のスペクトログラムVは、例えば、音響時系列信号x(t)に対して短時間フーリエ変換を行って得られる、K行J列の強度数値データからなる行列V(k,j)であってもよい。音響時系列信号x(t)は、例えば、マイクロフォン等で収録したアナログ信号をAD変換(Analog Digital Convert)して得られるデジタル信号であってもよい。
ここで、tは時間のインデックスを表す。また、Kは周波数ビン数を表し、kは周波数ビンのインデックスを表す。また、Jは短時間フーリエ変換時の時間フレーム数を表し、jは短時間フーリエ変換時の時間フレームのインデックスを表す。以下、他の行列表記においても同様とする。
また、Rは基底数を表し、rは基底のインデックスを表す。スペクトル基底行列W(k,r)は、スペクトル形状を表すベクトルとして表現されるスペクトル基底を列方向にR個結合したものとして解釈できる。同様に、アクティベーション行列H(r,j)は、各スペクトル基底に対応する発現度合いを表すアクティベーションを行方向にR個結合したものとして解釈できる。以下、他の行列表記においても同様とする。なお、各スペクトル基底および各スペクトル基底の発現度合い(発現タイミングとその大きさ)の表現方法は上記の例に限定されない。以下、WとHとを、簡便に基底WとアクティベーションHと表現する場合がある。
基底WおよびアクティベーションHは、所要のコスト関数を最小化するように求められる。以下の実施形態では、コスト関数に、以下の式(2)で示されるような一般化KLダイバージェンス(Kullback-Leibler divergence)を用いた場合を例に説明する。
Figure 0007006592000001
ここで、○記号は行列の要素ごとの積を表す。また、分数表記は行列の要素ごとの除算を表す。
コスト関数(式(2)に示すDKL)を所定の閾値以下の回数、又は所定の回数更新する基底WおよびアクティベーションHは、例えば、以下の式(3)と式(4)を交互に繰り返し用いて算出する。
Figure 0007006592000002
ここで、Aは行列Aの転置を表す。また、行列OはVと同じ形で要素がすべて1の行列を表す。また、基底WおよびアクティベーションHの初期値には、一般に乱数で生成したものが用いられる。上記の2式を、コスト関数が閾値以下になる、または設定した繰り返し回数に達するまで更新する。なお、学習データから識別モデルに用いる特徴量としてのアクティベーションHを得る場合などに用いられる教師有りNMFの場合、基底Wは既に得られているものとして、アクティベーションHのみを更新する。
例えば、非特許文献1に記載の音響イベントの検知方法は、前処理として、検知したい音響イベントを含む音響信号をつなぎ合わせたスペクトログラムに対してNMFを行い、各音響イベントに対応したスペクトル基底群(基底W)を生成する。そして、未知の音響信号のスペクトログラムに対して、基底Wを用いた教師有りNMFを行い、各スペクトル基底の発現度合い(アクティベーションH)を算出する。そして、各スペクトル基底の発現度合いの組み合わせから、未知の音響信号に検知対象の音響イベントが含まれているか否かを識別することで、音響イベントを検知している。
ところで、検知対象とされる音響イベントのスペクトログラムをNMFにより分解することで得られる基底Wは、当該音響イベントを構成する物理的要素に対応する音のスペクトルを表すと考えられる。例えば、「ガラスが割れる音」とラベル付けされた音響イベントが、ガラスが割れる瞬間の衝撃音とガラスの破片が飛び散る音とを含む場合、該音響イベントのスペクトログラムをNMFにより分解すると、ガラスが割れる瞬間の衝撃音と割れたガラスの破片が飛び散る音の2つの物理現象に対応する要素に対応する音のスペクトルを表す基底Wが得られると考えられる。
このため、未知の音響信号のスペクトログラムを、そのようなスペクトル基底の組み合わせを用いた教師有りNMFにより分解した結果、上記の2つの物理現象に対応するスペクトル基底のアクティベーション(発現度合い)が、所定のタイミングで大きい値を示すなど、ラベル「ガラスが割れる音」に対して予め学習されたパターンを示した場合には、該音響信号は「ガラスが割れる音」という音響イベントを含んでいると識別される。
実施形態1.
次に、本発明の第1の実施形態を説明する。図1は、第1の実施形態の信号処理装置110の構成例を示すブロック図である。図1に示す信号処理装置110は、検知対象とされる音響信号のスペクトログラムである識別用スペクトログラムVを入力とし、該スペクトログラムVに含まれる音響イベントの識別結果を示す音響イベントラベルを出力する音響イベント識別装置として機能する装置である。なお、いずれの音響イベントも含まれていない場合は、その旨を示す識別結果が出力される。
図1に示すように、信号処理装置110は、基底格納部111と、識別信号分析部112と、モデル格納部113と、信号識別部114とを備える。
基底格納部111は、検知対象とされる音響イベントの周波数パターンを示すスペクトル基底群(後述する基底W)を格納する。
モデル格納部113は、基底Wに含まれる各スペクトル基底の発現度合いであるアクティベーション(後述するアクティベーションH)を基に音響イベントを識別するための識別モデルを記憶する。識別モデルの詳細は特に限定されないが、サポートベクトルマシン(SVM)や、隠れマルコフモデルや混合ガウシアンモデルやニューラルネットワークなどが一例として挙げられる。例えば、識別モデルとしてSVMを用いる場合、モデル格納部113には、識別面を表す行列Aと切片ベクトルbとが格納される。
識別信号分析部112は、識別用スペクトログラムVを入力とし、基底格納部111に格納された基底Wを教師基底として用いた半教師有りNMFを行い、基底Wに含まれる各スペクトル基底に対する重みにより発現度合いを表すアクティベーションHを算出する。
識別信号分析部112が用いる半教師有りNMFは、音源分解に用いるスペクトル基底として、検知対象として予め定義された音響イベントに対応するスペクトル基底だけでなく、未知すなわち予め定義された音響イベント以外の音源に対応するスペクトル基底を用いる。より具体的には、上記の基底行列Wに代えて、予め定義された音響イベントに対応する基底行列Wに、未知の音響イベントに対応する基底行列Wを加えた基底行列Wsemi[W]を用いる。また、それに伴って、基底Wに対応するアクティベーション行列Hに、基底Wに対応するアクティベーション行列Hを加えたアクティベーション行列Hsemi[H]を用いる。以下、Wを音響イベント基底、Wを未知イベント基底、Hを音響イベントアクティベーション、Hを未知イベントアクティベーションという場合がある。
例えば、RをWの基底数、RをWの基底数とすると、音響イベント基底WはK行R列の行列で表され、未知イベント基底WはK行R列の行列で表され、基底WsemiはK行(R+R)列の行列で表される。同様に、アクティベーションHはR行J列の行列で表され、アクティベーションHはR行J列の行列で表され、アクティベーションHsemiは(R+R)行J列のアクティベーション行列で表される。
識別信号分析部112は、半教師有りNMFにおいて、以下の式(a-1)に示すように、入力される識別用スペクトログラムVを、Wsemi[W]とHsemi[H]の積で近似することにより、Vにおける音響イベントアクティベーションHを算出する。
V≒Wsemisemi ・・・(a-1)
半教師有りNMFでは、入力されたスペクトログラムVに応じて、W,Hsemi[H]の値が最適化される。換言すると、識別信号分析部112は、入力されたスペクトログラムVにマッチするように、W,Hsemi[H]の値を更新する。より具体的には、識別信号分析部112は、半教師有りNMFにおいて、下記の式(a-2)および式(a-3)に示すように、HsemiとWを交互に更新することで、最適なW,H,Hを算出する。W,H,Hの初期値は特に問わないが、一般には乱数が用いられる。
Figure 0007006592000003
このような更新処理により、未知イベント基底Wは、スペクトログラムVに含まれるスペクトル成分のうち、音響イベント基底Wでは表現できないような成分を表す基底として学習される。
なお、音響イベント基底Wは、予め定義された各音響イベントに対応する周波数成分に対応する周波数パターンを表現するスペクトル基底の集合であればよく、表現方法は上記に限定されない。同様に、未知イベント基底Wは、既知の音響イベントに対応する周波数成分以外の周波数成分に対応する周波数パターンを表現するスペクトル基底の集合であればよく、表現方法は上記に限定されない。また、音響イベントアクティベーションHは、V中の、Wに含まれる各スペクトル基底の発現度合いを表現するものであればよく、表現方法は上記に限定されない。同様に、未知イベントアクティベーションHは、V中の、Wに含まれる各スペクトル基底の発現度合いを表現するものであればよく、表現方法は上記に限定されない。
このとき、未知イベント基底Wにおける基底数Rは、固定値であってもよいし、最初に初期値を与えた上で更新処理の過程で増えていくような可変値であってもよい。
信号識別部114は、識別信号分析部112から出力される音響イベントアクティベーションHを基に、モデル格納部113に格納された識別モデルを用いて、入力されたスペクトログラムVに含まれる音響イベントを識別する。
次に、本実施形態の動作を説明する。図2は、本実施形態の動作の一例を示すフローチャートである。本例では、まず信号処理装置110に識別用スペクトログラムVが入力される(ステップS11)。
識別用スペクトログラムVが入力されると、識別信号分析部112が、Vに対して、基底格納部111に格納されている音響イベント基底Wを教師基底に用いた半教師有りNMFを実施する(ステップS12)。
ステップS12において、識別信号分析部112は、まずVをWsemi[W]とHsemi[H]の積で表現される近似式に適用する(ステップS121)。次いで、識別信号分析部112は、WおよびHsemiの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する(ステップS122)。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合(ステップS122のNo)、識別信号分析部112は、WとHsemiのいずれかまたは両方の更新を行う(ステップS123)。
一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合(ステップS122のYes)、識別信号分析部112は、近似式中のアクティベーションHを出力する(ステップS124)。
VについてのアクティベーションHが出力されると、信号識別部114が、該アクティベーションHを基に、モデル格納部113に格納された識別モデルを用いて、Vに含まれる音響イベントを識別する(ステップS13)。
以上のように、本実施形態によれば、未知の音が存在する環境下で採取された音響信号であっても、そのスペクトログラム(識別用スペクトログラムV)中に含まれる音響イベントを精度よく識別できる。なぜなら、入力されたスペクトログラムVをスペクトル単位に分解する際の基底として未知の音を表現する未知イベント基底Wを含むWsemiを新たに導入し、半教師有りNMFにおいて該Wを適宜更新することにより、音響イベント基底Wに対応する成分のみを正確に算出できるからである。すなわち、本実施形態では、スペクトログラムVから物理現象に対応したスペクトルを抽出する特徴抽出の際に半教師有りNMFを用いることにより、既知の基底では分解できない要素をその場で学習することができるので、未知の音源の存在に頑健な特徴抽出ができる。
例えば、基底Wを導入せずに基底Wのみを用いた教師有りNMFの場合、Vを、基底Wのみを用いて分解する。このため、V中に、基底Wに含まれないような未知のスペクトルが含まれている場合、VのアクティベーションHが予期せぬ値を持ってしまい誤った特徴量として識別器に入力されるおそれがあった。一方、基底Wを導入した半教師有りNMFの場合、Vを、基底Wsemi[W]を用いて分解する。これにより、Vに含まれるスペクトル成分のうち基底Wで表現できないような成分をすべて基底Wが請け負うことができるので、VのアクティベーションHを高精度に算出することができる。したがって、そのようにして得られたアクティベーションHを特徴量として識別器に入力することで、V中に含まれる音響イベントを精度よく識別できる。
実施形態2.
次に、本発明の第2の実施形態について説明する。図3は、第2の実施形態の信号処理装置200の構成例を示すブロック図である。図3に示す信号処理装置200は、第1の実施形態の信号処理装置110の構成に加えて、基底生成部10と、学習データ分析部12と、モデル学習部13とをさらに備えている。なお、図3には、信号処理装置200が、第1の実施形態の信号処理装置110が備える各要素(符号111~114)を、音響イベント識別部11の各要素として含む例が示されている。
本実施形態の信号処理装置200は、基底生成用スペクトログラムVbaseを入力して音響イベント基底Wを生成し、ラベル付きスペクトログラムVlblを入力して識別モデルを学習し、識別用スペクトログラムVを入力して、該識別用スペクトログラムVに含まれている音響イベントを識別して、音響イベントを検知する。
基底生成部10は、基底生成用スペクトログラムVbaseが入力されると、音響イベント基底Wを生成して、基底格納部111に格納する。音響イベント基底Wの生成方法は特に問わない。基底生成部10は、例えば、基底生成用のスペクトログラムVbaseとして、検知対象とされる音響イベントを含む音響信号をつなぎ合わせたスペクトログラムを入力させ、該Vbaseに対して、以下の式(b-1)で示す近似式によるNMFを行うことにより、音響イベント基底Wを得てもよい。該NMFにおいて、基底生成部10は、WおよびHを最適化(更新)する。
base≒W ・・・(b-1)
該NMFは、上記の式(1)で示した一般的なNMFにおけるV,WおよびHを、Vbase,WおよびHに置き換えただけであり、コスト関数および更新式についても上記と同様である。
なお、基底生成用スペクトログラムVbaseは、実際の信号から学習データに含まれる各音響イベントに対応したスペクトルを抽出できるものであればよく、上記の例に限られない。
基底生成部10により生成された音響イベント基底Wは基底格納部111に格納されるとともに、後段の学習データ分析部12に出力される。なお、学習データ分析部12が基底格納部111に格納されている音響イベント基底Wを参照する構成であってもよい。その場合、学習データ分析部12への出力は省略される。
学習データ分析部12は、ラベル付きスペクトログラムVlblを入力として、基底生成部10により生成された音響イベント基底Wを基に、音響イベントラベルに対応づける音響イベントアクティベーションHを算出する。ここで、ラベル付きスペクトログラムVlblは、ある音響イベントのスペクトログラムに、該音響イベントを表すラベル(音響イベントラベル)が付与された学習データである。
ラベル付きスペクトログラムVlblは、例えば、検知対象の全E個の音響イベントのスペクトログラムのそれぞれに対応する音響イベントラベルが付与されたスペクトログラムであってもよい。
例えば、「悲鳴」と「ガラスが割れた音」とを検知対象とする場合、「悲鳴」に対応する音響イベントラベルがつけられた悲鳴のスペクトログラムと、「ガラスが割れた音」に対応する音響イベントラベルがつけられたガラスが割れた音のスペクトログラムとを、それぞれラベル付きスペクトログラムVlblとして入力する。なお、1つのラベル付きスペクトログラムVlblは、K行Jlbl列の行列Vlbl(k,j)であればよい。
ここで、ラベル付きスペクトログラムVlblにおける時間フレーム数Jlblは、各音響イベントの音響信号パターンを過不足なく含むような(例えば、「ガラスが割れる音」音響イベントの場合、ガラスが割れる瞬間の衝撃音から始まり、破片が飛び散る音で終わるとして、それらの音を過不足なく含む)長さで設定される。
なお、一方の基底生成用スペクトログラムVbaseは、検知したい音響イベントを構成する周波数パターンを基底として生成するためのスペクトログラムであるので、検知したい全ての音響イベントの周波数パターンを含んでいることが望ましい。一例として、基底生成用スペクトログラムVbaseは、ラベル付きスペクトログラムVlblをラベルの区別なく連結したK行Jbase の行列Vbase(k,j)=[Vlbl_1(k,j),Vlbl_2(k,j),・・・,Vlbl_E(k,j)]であってもよい。この場合、基底生成用スペクトログラムVbaseにおける時間フレーム数Jbaseは、ラベル付きスペクトログラムVlblにおける時間フレーム数Jlblの総和となる。
学習データ分析部12は、例えば、入力されたラベル付きスペクトログラムVlblに対して、基底生成部10により生成された音響イベント基底Wを教師基底として用いた教師有りNMFを行い、音響イベントラベルに対応づける音響イベントアクティベーションHを算出してもよい。以下の式(c-1)は、当該教師有りNMFで用いる近似式である。また、以下の式(c-2)は、当該教師有りNMFで用いる更新式の例である。教師有りNMFでは、学習データ分析部12は、音響イベントアクティベーションHのみを最適化(更新)する。
lbl≒W ・・・(c-1)
Figure 0007006592000004
モデル学習部13は、学習データ分析部12により算出された音響イベントアクティベーションHを特徴量として、音響イベントアクティベーションHと音響イベントラベルとの関係を表す識別モデルを学習する。モデル学習部13により学習された識別モデルは、モデル格納部113に格納される。
他の点に関しては第1の実施形態と同様である。
次に、本実施形態の動作を説明する。図4~図6は、本実施形態の動作の一例を示すフローチャートである。なお、図4は、本実施形態の全体動作の一例を示すフローチャートである。図4に示すように、本実施形態の動作は、基底生成処理(ステップS21)と、モデル学習処理(ステップS22)と、音響イベント識別処理(ステップS23)とに大別される。
図5は、本実施形態の基底生成処理の処理フローの一例を示すフローチャートである。
本例の基底生成処理では、まず信号処理装置200に基底生成用スペクトログラムVbaseが入力される(ステップS211)。
基底生成用スペクトログラムVbaseが入力されると、基底生成部10が、Vbaseに対してNMFを実施する(ステップS212)。
ステップS212において、基底生成部10は、まずVbaseをWとHの積で表現される近似式に適用する(ステップS2121)。次いで、基底生成部10は、WおよびHの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する(ステップS2122)。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合(ステップS2122のNo)、基底生成部10は、WおよびHのいずれかまたは両方の更新を行う(ステップS2123)。
一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合(ステップS2122のYes)、基底生成部10は、近似式中の基底Wを出力し、基底格納部111に格納する(ステップS2124,ステップS213)。
また、図6は、本実施形態のモデル学習処理の処理フローの一例を示すフローチャートである。基底生成処理が終了すると、モデル学習処理が開始される。本例のモデル学習処理では、まず、信号処理装置200にラベル付きスペクトログラムVlblが入力される(ステップS221)。
ラベル付きスペクトログラムVlblが入力されると、学習データ分析部12が、Vlblに対して、基底格納部111に格納されている音響イベント基底Wを教師基底に用いた教師有りNMFを実施する(ステップS222)。
ステップS222において、学習データ分析部12は、まずVlblをWとHの積で表現される近似式に適用する(ステップS2221)。次いで、学習データ分析部12は、Hの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する(ステップS2222)。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合(ステップS2222のNo)、学習データ分析部12は、Hの更新を行う(ステップS2223)。
一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合(ステップS2222のYes)、学習データ分析部12は、近似式中のアクティベーションHを、Vlblに付された音響イベントラベルとともにモデル学習部13に出力する(ステップS2224)。
次に、モデル学習部13は、出力されたラベル毎の音響イベントアクティベーションHを特徴量として、音響イベントアクティベーションHと音響イベントラベルとの関係を表す識別モデルを学習する(ステップS223)。そして、モデル学習部13は、学習の結果得られた識別モデルを、モデル格納部113に格納する(ステップS224)。
モデル学習処理が終了すると、音響イベント識別処理が開始される。本実施形態の音響イベント識別処理は、第1の実施形態の音響イベント識別処理(図2のステップS11~ステップS13)と同様でよい。
以上のように、本実施形態では、検知対象とされる音響イベントに合わせて基底の生成および識別モデルの学習を行った上で、識別用スペクトログラムVに対して音響イベントの識別を行う。このため、任意の音響イベントを検知対象にして、未知の音が存在する環境下で採取された音響信号であっても、そのスペクトログラム(識別用スペクトログラムV)中に含まれる音響イベントを精度よく識別できる。
実施形態3.
次に、本発明の第3の実施形態について説明する。図7は、第3の実施形態の信号処理装置100の構成例を示すブロック図である。図7に示す信号処理装置100は、基底生成用スペクトログラムVbaseを入力とし、予め保持されている事前分布Wを制約として、Vbaseを構成するスペクトル基底行列Wを生成する基底生成装置として機能する
図7に示すように、信号処理装置100は、事前分布格納部101と、基底信号分析部102とを備える。
事前分布格納部101は、後段の基底信号分析部102で行う基底生成用のNMFが局所解に陥らないような制約として用いられる事前分布Wを格納する。
例えば「ガラスの割れる音」という音響イベントを考える。ガラスが割れた瞬間はパルス性の強い衝撃音が発生し、続いて割れた破片が飛び散る純音に近い音が発生する。このとき、衝撃音はフラットな周波数構造になり、破片の飛び散る音は周波数のピークが鋭いような周波数構造になると考えられる。
したがって、基底生成処理で、そのようなフラットな周波数構造を持つスペクトル基底と鋭いピークを持つ基底の2つのスペクトル基底が得られるのが好ましい。しかし、NMFの更新式には局所解という問題があり、必ずしも所望のスペクトル基底が得られるとは限らない。
そこで、本実施形態では、局所解を避けて所望のスペクトル基底を得るために、事前分布Wを導入する。事前分布Wは、後段の基底信号分析部102で行う基底生成用のNMFで学習される基底Wが、当該事前分布Wとの類似度が高くなる(所定の閾値以上となる)ような制約のパラメータとして用いる。このため、基底信号分析部102により生成される基底Wは、事前分布Wとの類似度が低いほど制約が強まり、予期せぬ局所解に陥ることがなくなる。このような事前分布Wの導入により、どのような基底Wを学習するかをコントロールすることができる。上記の例の場合、事前分布Wは、フラットな周波数構造と鋭いピークを持つ周波数構造の2種のスペクトル基底が得られるような制約となればよい。
事前分布Wの生成方法としては、手作業で基底とされるスペクトル形状を表すR個の主要なスペクトル成分を抽出し、事前分布格納部101に格納してもよいし、予め用意しておいた分布生成用スペクトログラムVに対して、以下に示すような方法でR個のスペクトル成分を抽出してもよい。すなわち、k-means法を用いてRクラスのクラスタリングを行うことによって抽出してもよいし、主成分分析を用いて寄与率の高いR個の主要なスペクトル成分のみを取得してもよい。
事前分布Wは、例えば、生成したい基底Wと同じ型のK行R列の行列であってもよい。
分布生成用スペクトログラムVは、生成したい基底Wの代表的なスペクトルを示すものであってもよい。分布生成用スペクトログラムVは、例えば、基底生成用スペクトログラムVbaseと同じであってもよいし、基底生成用スペクトログラムVbaseから代表的なスペクトログラムを抽出したものであってもよい。
基底信号分析部102は、基底生成用スペクトログラムVbaseを入力して、Vbaseを構成するスペクトル基底を表す基底Wを生成する。基底信号分析部102は、基底生成用スペクトログラムVbaseに対して、事前分布格納部101に格納された事前分布Wを制約項のパラメータとして用いた制約付きNMFを行い、基底Wを生成する。
基底生成用スペクトログラムVbaseの形式は特に問わないが、基底として取り出したいスペクトルを含むものとする。なお、音響イベント基底Wを生成する場合には、検知したい全ての音響イベントの周波数パターンを含むスペクトログラムを入力すればよい。
制約付きNMFで、基底信号分析部102は、例えば、Vbaseを以下の式(d-1)に示す近似式に適用させ、以下の式(d-2)および式(d-3)に示す更新式を用いて、基底WとアクティベーションHを交互に更新して最適化する。
base≒WH ・・・(d-1)
Figure 0007006592000005
ここで、上記の2つの更新式は、入力されたスペクトログラムVbaseに対して、以下の式(d-4)に示すコスト関数を最小化するような基底WとアクティベーションHを求めるものとして導出したものである。
D(V,W,H,W)=Dkl(V,WH)+ηDkl(W,W) ・・・(d-4)
上記のコスト関数の第2項は、事前分布Wと基底Wとの距離が離れるほど罰則を与える制約項である。当該コスト関数によれば、第1項によりVbaseとWHの間のコスト関数を最小化しつつも、第2項により、基底Wは局所解に陥らず事前分布Wと似たスペクトル構造を持つことができる。
ここで、ηは、第2項を制御するパラメータであり、例えば、0.1や10などのスカラー値をとる。
次に、本実施形態の動作を説明する。図8は、本実施形態の動作の一例を示すフローチャートである。本例では、まず信号処理装置100に基底生成用スペクトログラムVbaseが入力される(ステップS01)。
基底生成用スペクトログラムVbaseが入力されると、基底信号分析部102は、事前分布格納部101に格納された事前分布Wを読み出す(ステップS02)。そして、基底信号分析部102は、Vbaseに対して、事前分布Wを制約として用いた制約付きNMFを実施する(ステップS03)。
ステップS03において、基底信号分析部102は、まずVbaseをWとHの積で表現される近似式に適用する(ステップS031)。次いで、基底信号分析部102は、WおよびHの更新が所定の更新回数以上またはコスト関数が所定の閾値以下かを判定する(ステップS032)。ここで、所定の更新回数以上でなく、かつコスト関数が所定の閾値以下でない場合(ステップS032のNo)、基底信号分析部102は、WおよびHのいずれかまたは両方の更新を行う(ステップS033)。なお、Wの更新式にはWを用いた制約項が含まれている。
一方、所定の更新回数以上、またはコスト関数が所定の閾値以下の場合(ステップS032のYes)、基底信号分析部102は、近似式中の基底Wを出力する(ステップS034)。
以上のように、本実施形態によれば、基底生成時のNMFにおいて、基底Wがあらかじめ用意した事前分布Wに近くなるような制約を用いることで、局所解に陥らずに所望の基底Wを生成することができる。
例えば、本実施形態の信号処理装置100によれば、基底生成用スペクトログラムVbaseとして、検知したい全ての音響イベントの周波数パターンを含むスペクトログラムを入力することにより、局所解に陥らない高精度な音響イベント基底Wを生成できる。
したがって、例えば、第2の実施形態の構成において、基底生成部10に代えて本実施形態の信号処理装置100を用いれば、音響イベントに対応するアクティベーションHを精度よく推定でき、音響イベントの識別精度を向上できる。
実施形態4.
次に、本発明の第4の実施形態について説明する。図9は、第4の実施形態の信号処理装置400の構成例を示すブロック図である。図9に示す信号処理装置400は、第2の実施形態の構成における基底生成部10に代えて、基底生成部40を含む。なお、基底生成部40の構成は、図7に示す第3の実施形態の信号処理装置100の構成に、さらに分布解析部103を加えたものと同様である。
本実施形態の信号処理装置400は、分布生成用スペクトログラムVを入力して事前分布Wを生成し、基底生成用スペクトログラムVbaseを入力して、事前分布Wを制約とする音響イベント基底Wを生成し、ラベル付きスペクトログラムVlblを入力して識別モデルを学習した上で、識別用スペクトログラムVを入力して、Vに含まれる音響イベントを識別して、音響イベントを検知する。
以下、第2の実施形態と異なる部分を主に説明する。
事前分布格納部101は、後段の基底信号分析部102で行う基底生成用のNMFが局所解に陥らないような制約として用いられる事前分布Wを格納する。本実施形態の事前分布格納部101は、分布解析部103が生成した音響イベントの各スペクトル基底の制約とされる事前分布Wを格納する。
基底信号分析部102は、基底生成用スペクトログラムVbaseを入力して、Vbaseを構成するスペクトル基底を表す基底Wを生成する。基底の生成方法としては、第3の実施形態と同様、事前分布格納部101に格納された事前分布Wを制約項のパラメータとして用いた制約付きNMFを用いる。
なお、本実施形態の基底信号分析部102は、検知したい全ての音響イベントの周波数パターンを含む基底生成用スペクトログラムVbaseを入力して、音響イベント基底Wを生成する。
分布解析部103は、分布生成用スペクトログラムVを入力とし、音響イベント基底Wの事前分布Wを生成する。分布解析部103は、例えば、音響イベント基底Wと同じ形のK行R列の行列W(k,r)を事前分布として生成してもよい。
分布解析部103は、例えば、分布生成用スペクトログラムVに対してk-means法を用いてRクラスのクラスタリングを行うことによって事前分布Wを生成してもよい。また、分布解析部103は、例えば、Vに対して主成分分析を行い、寄与率の高いR個の主要なスペクトル成分のみを取り出すことにより事前分布Wを取得してもよい。
次に、本実施形態の動作を説明する。図10は、本実施形態の全体動作の一例を示すフローチャートである。図10に示すように、本実施形態の動作は、事前分布生成処理(ステップS40)と、基底生成処理(ステップS41)と、モデル学習処理(ステップS22)と、音響イベント識別処理(ステップS23)とに大別される。
ステップS40の事前分布生成処理では、分布解析部103が、分布生成用スペクトログラムVから事前分布Wを生成して、事前分布格納部101に格納する。
ステップS41の基底生成処理では、基底信号分析部102が、図8に示した第3の実施形態の基底生成処理(ステップS01~ステップS034)と同様の処理を行い、生成された基底Wを音響イベント基底Wとして基底格納部111に格納する。
なお、モデル学習処理(ステップS22)と音響イベント識別処理(ステップS23)とは、第2の実施形態と同様でよい。
本実施形態の信号処理装置400によれば、局所解に陥らない高精度な音響イベント基底Wを生成できるので、学習フェーズで音響イベントに対応するアクティベーションHを精度よく推定できる。加えて、本実施形態の信号処理装置400によれば、未知の音が存在する環境下で採取された音響信号であっても、検知対象でない音響イベントの誤検知を抑制し、そのスペクトログラム(識別用スペクトログラムV)中に含まれる音響イベントを精度よく識別できる。
実施形態5.
次に、本発明の第5の実施形態を説明する。図11は、本実施形態の信号処理装置500の構成例を示すブロック図である。図11に示す信号処理装置500は、基底生成部50と、学習データ分析部52と、モデル学習部53と、音響イベント識別部51とを備える。
また、基底生成部50は、分布解析部503と、事前分布格納部501と、基底信号分析部502とを含む。また、音響イベント識別部51は、基底格納部511と、識別信号分析部512と、モデル格納部513と、信号識別部514とを含む。
なお、本実施形態の信号処理装置500の入出力は、第4の実施形態の信号処理装置と同様である。また、分布解析部503、事前分布格納部501、モデル学習部53、モデル格納部513および信号識別部514は、第4の実施形態の分布解析部103、事前分布格納部101、モデル学習部13、モデル格納部113および信号識別部114と同様である。以下、第4の実施形態と異なる部分を主に説明する。
基底信号分析部502は、基底生成用スペクトログラムVbaseを入力とし、事前分布格納部501に格納されている事前分布Wを制約項に用いた制約付きNMFにより、Vbaseを構成するスペクトル基底がグループ化されて表現される基底Wを生成する。
基底信号分析部502は、例えば、VbaseとしてK行Jbase列のスペクトル行列が入力されると、K行R列の行列である事前分布W(k,r)=[w(1),...,w(r),...,w(R)]を制約項のパラメータとして用いた制約付きNMFにより、K行(G×R)列の基底行列W(k,r)=[W(1)(k,g),...,W(r)(k,g),...,W(R)(k,g)]を算出してもよい。
ここで、w(r)は事前分布Wのr番目の列ベクトル、すなわちr番目のスペクトル基底の制約を表している。また、W(r)(k,gr)は、w(r)を制約として生成されるG個のスペクトル基底からなるグループ(スペクトル基底行列)を表わす。また、grは、rで指定される基底グループ内のG個のスペクトル基底のうちg番目のスペクトル基底を示すインデックスである。なお、基底グループごとに含まれるスペクトル基底の数(グループ内要素数)Gは可変であってもよい。
当該制約付きNMFで、基底信号分析部502は、W(r)(k,g)に対応するアクティベーション行列H(r)(g,j)=[h (r),...,h (r),...,h (r)]として、以下の式(e-1)、式(e-2)および式(e-3)を、1回の更新によるW(r)およびH(r)の変化量が閾値以下となる、または設定した繰り返し回数に達するまで順番に繰り返すことで同時に最適化を行う。
Figure 0007006592000006
ここで、h (r)は、グループrの基底行列W(r)に対応するアクティベーションであり、W(r)の各スペクトル基底の時間インデックスjにおける発現度合いを表す列ベクトルである。
上記の式(e-3)は、グループrの基底行列W(r)のアクティベーションh (r)に対するスパース制約である。当該制約は、値の大きなh (r)は更新するにつれ大きな値を取りやすく,値の小さなh (r)は更新していくにつれ小さくなる制約となっており、より特徴的なW(r)を抽出できるようになっている。
第3および第4の実施形態では、一つの事前分布w(r)に対して一つのスペクトル基底w(r)が対応していた。本実施形態では、一つの事前分布w(r)に対して複数の(G個の)スペクトル基底w(r)がグループ化されて対応づけられる。
以下、基底信号分析部502が生成する基底行列W(k、gr)をグループ基底W と呼ぶ場合がある。
これは、例えば「ガラスの割れる音」の音響イベントを考えた時に、第3および第4の実施形態では、ガラスが割れる瞬間の衝撃音および割れたガラスの破片が飛び散る音をそれぞれ1つのスペクトル基底で表現していたのに対し、本実施形態では、各音についてバリエーションや揺らぎをグループとして表現することができる。このように表現されたグループ基底Wを用いてNMFを行うことにより、より高い精度での音源分解が可能となる。
本実施形態では、基底生成用スペクトログラムVbaseは、検知したい全ての音響イベントの周波数パターンについて2以上のバリエーションを含む、または揺らぎを含むようなスペクトログラムが望ましい。一例として、基底生成用スペクトログラムVbaseは、音響イベントごとに複数のサンプルから得たラベル付きスペクトログラムVlblをラベルの区別なく連結したK行Jbase の行列Vbase(k,j)=[Vlbl_11(k,j),Vlbl_12(k,j),...,Vlbl_1G(k,j),Vlbl_21(k,j),...,Vlbl_EG(k,j)]であってもよい。
基底信号分析部502により生成されたグループ基底Wは、基底格納部511に格納される。
学習データ分析部52は、ラベル付きスペクトログラムVlblを入力とし、ラベル毎にグループ基底Wに対応するアクティベーションHを算出する。
学習データ分析部52は、例えば、ラベル付きスペクトログラムVlblとして、K行Jlbl列の行列が入力されると、基底信号分析部502により生成されたグループ基底W(k,gr)を教師基底として用いた教師有りNMFを行い、VlblをWとHの積で近似させることにより、音響イベントラベルに対応づけられるグループ音響イベントアクティベーションHを算出してもよい。
例えば、グループ基底W(k,gr)が、K行(G×R)列の行列の場合、グループ音響イベントアクティベーションH(gr,j)は、(G×R)行J列の行列となる。
ここで、H(gr,j)の列ベクトルh は、h (r)におけるr=1~Rとして各h (r)方向に連結したものに相当する。
学習データ分析部52で行うのは教師有りNMFであるので、以下の式(f-1)に示すように、Hに対してのみ更新を行う。ただし、当該Hの更新においても、各h (r)に対して上述した式(e-3)に示すスパース制約が適用される。学習データ分析部52は、例えば、式(f-1)と式(e-3)の2式を交互に更新する。
Figure 0007006592000007
モデル学習部53は、学習データ分析部52が算出した、音響イベントラベルに対応づけられたアクティベーションHを特徴量として、該アクティベーションHと音響イベントラベルとの関係を表す識別モデルを学習する。なお、アクティベーション行列の行数が異なるだけであり、識別モデルの学習方法はモデル学習部13と同様でよい。
識別信号分析部512は、識別用スペクトログラムVを入力とし、基底格納部511に格納されたグループ基底Wを教師基底として用いて半教師有りNMFを行い、グループ基底Wの各スペクトル基底に対する重みにより発現度合いを表すアクティベーションHを算出する。
識別信号分析部512は、例えば、音源分解に用いるスペクトル基底として、分離対象として予め定義された各音源の音に対応するグループ基底行列Wに、未知の音源の音に対応するグループ基底行列Wを加えた基底行列Wgsemi[W]を用いた半教師有りNMFを用いてもよい。半教師有りNMFの方法は第1の実施形態の識別信号分析部112による方法と基本的に同様である。すなわち、Wsemi[W]およびHsemi[H]がWgsemi[W]およびHgsemi[H ]に代わっているだけで、半教師有りNMFの方法は基本的に識別信号分析部112と同様でよい。ただし、Hgsemiの更新において、Hの各h (r)に対して上記の式(e-3)に示すスパース制約が適用される。識別信号分析部512は、例えば、式(a-2)、式(a-3)および式(e-3)の3式を交互に更新することにより、H、HおよびWを算出する。
なお、識別信号分析部512は、Wを用いずに、Wだけを用いて通常の教師有りNMFを行ってHを算出してもよいが、未知の環境下で採取された音響信号から音響イベントを検知する場合には、Wを用いた半教師有りNMFを用いるのが好ましい。
以上のように、本実施形態によれば、スペクトル基底をグループ化することにより、音を構成する要素のバリエーションや揺らぎを表現した基底行列を用いて識別用スペクトログラムを分解することができる。このため、識別用スペクトログラムに含まれる音響イベントを構成する周波数パターンが少し異なっていたり揺らぎを含んでいる場合であっても、より高い精度で識別用スペクトログラムを構成する成分を算出することができる。
実施形態6.
次に、本発明の第6の実施形態を説明する。図12は、本実施形態の信号処理装置600の構成例を示すブロック図である。図12に示す信号処理装置600は、分布解析部61と、事前分布格納部62と、音源分離部63と、音源再構築部64とを備える。
本実施形態の信号処理装置600は、分離したい各音源の分布生成用スペクトログラムVを入力として事前分布を生成し、音源分離用スペクトログラムVmixを入力として、生成された事前分布を制約としたNMFにより音源分離を行う音源分離装置として機能する装置である。
以下では、音声と環境雑音とが混ざった音響信号を、音声のみの信号である音声信号と環境雑音のみの信号である雑音信号とに分離する場合を例に説明する。
本実施形態の分布生成用スペクトログラムVは、分離対象の音源のみを含む音響信号から作られたスペクトログラムである。例えば、音響信号を音声信号と環境雑音信号とに分離する場合には、音声信号のスペクトログラムV0_sと、環境雑音信号のスペクトログラムV0_nとで構成されるスペクトログラムV[V0_s0_n]である。
一方、音源分離用スペクトログラムVmixは,音声と環境雑音とが混ざった音響信号から算出されたスペクトログラムである。
分布解析部61は、分布生成用スペクトログラムVを入力として、Vを構成しているスペクトル基底の事前分布W[W0_s0_n]を生成し、事前分布格納部62に格納する。
分布解析部61は、例えば、分布生成用スペクトログラムVに含まれるV0_sおよびV0_nのそれぞれに対してk-means法を用いて所定個のクラスのクラスタリングを行うことによって事前分布W0_sおよびW0_nを生成してもよい。また、分布解析部103は、例えば、V0_sおよびV0_nのそれぞれに対して主成分分析を行い、寄与率の高い主要なスペクトル成分を取り出すことにより事前分布W0_sおよびW0_nを取得してもよい。
ここで、Rを音声信号の基底数とし、Rを環境雑音信号の基底数とすると、Wは、K行R列の行列W0_sと、K行R列の行列W0_nとを列方向に連結したK行(R+R)列の行列であってもよい。
音源分離部63は、音源分離用スペクトログラムVmixを入力とし、事前分布格納部62に格納された、分離対象とされる各音源に対応する事前分布W[W0_s0_n]を制約として用いた制約付きNMFを行い、Vmixを、Wsepa[W]とそのアクティベーションHsepa[H]に分解する。
mix≒Wsepasepa ・・・(g-1)
式(g-1)は、上記の例の制約付きNMFにおけるVmixの近似式である。ここで、Wsepaは、音声信号の基底Wと環境雑音信号の基底Wとを列方向に連結させたK行(R+R)列の基底行列である。Wsepaの各列インデックスは、W[W0_s0_n]のインデックスに対応したものとなる。また、Hsepaは、基底Wに対応するアクティベーションHと基底W に対応するアクティベーションH とを行方向に連結させた(R+R)行Jmix列のアクティベーション行列である。Hsepaの各行インデックスは、Wsepaの列インデックスに対応したものとなる。

本例の基底WはK行R列の行列であり、WはK行R列の行列である。また、アクティベーションHはR行Jmix列の行列であり、HはR 行Jmix列の行列である。ここで、Jmixは、音源分離用スペクトログラムVmixの時間インデックス数である。
制約付きNMFには、第3の実施形態の基底信号分析部102で用いた制約付きNMFや、第5の実施形態の基底信号分析部502で用いた制約付きNMFを用いることができる。
前者の場合、上記の式(d-2)および式(d-3)におけるVbase,WおよびHを、Vmix,WsepaおよびHsepaに置き換えればよい。後者の場合、各音源iに対応する事前分布に対して学習される基底行列WおよびそのアクティベーションHが、グループ基底行列W(r)およびそのアクティベーションH(r)となる。このとき、WとWsepaの間の各音源の基底インデックスの対応付けとして、Wの列ベクトルのインデックスrに対して、Wsepaの列ベクトルにはグループ化に対応したインデックスgrを用いればよい。
音源分離部63は、事前分布を制約として用いた制約付きNMFを行うことにより、通常の制約がないNMFを用いた際に問題となる局所解に陥ることなく、各音源の基底とそのアクティベーションを算出することができる。なお、音源分離部63は、音源分離の際に、未知の音源に対応する基底をさらに追加した制約付き半教師有りNMFを行ってもよい。その場合、分離対象の音源に対応するスペクトル基底に対しては事前分布を制約として用いて学習させ、未知の音源に対応するスペクトル基底に対しては制約なしで学習させて、音源分離を行ってもよい。
音源分離部63は、このようにして得られたWsepa[W]、Hsepa[H]を出力する。なお、音源分離部63は、WsepaおよびHsepaをそれぞれ音源ごとに分解した基底行列およびアクティベーション行列を出力してもよい。
音源再構築部64は、音源分離部63から出力される各音源に対応するスペクトル基底を含む基底行列Wsepaとアクティベーション行列Hsepaとを入力とし、各音源の基底インデックスに対応する部分の積をとることで、Vmixに含まれる各音源のスペクトログラムを推定する。音源再構築部64は、例えば、以下の式(g-2)および式(g-3)に示すように、Vmixに含まれる各音源のスペクトログラムの推定値として、音声信号のスペクトログラムVと、環境雑音信号のスペクトログラムVを算出する。
=W ・・・(g-2)
=W ・・・(g-3)
これは、Wsepa中のWが音声信号のスペクトル成分を表し、Hsepa中のHが音声信号のスペクトル成分の各時間インデックスにおける発現度合いを表すため、WとHの成分のみを用いて積をとることで、Vmixのうち音声信号の成分のみに対応するスペクトログラムVを抽出することができるからである。なお、環境雑音信号のスペクトログラムについても同様である。以下、このようにして推定された各音源のスペクトログラムの推定値を、Vsepa_iと表現する場合がある。ここで、iは音源の識別子である。
音源再構築部64は、推定された各音源のスペクトログラムVsepa_iをそれぞれ逆フーリエ変換して時系列音響信号とすることにより、分離信号x(t)を生成する。
なお、今回の例では、音声と環境雑音の2種の音源を分離する場合を例に用いて説明したが、例えば、音声と環境雑音と背景音楽など、2種以上の所望の音源に分離することも可能である。その場合、事前分布W、基底行列Wsepa、アクティベーション行列Hsepaは、音源数に応じて各音源に対応する要素を連結させればよい。より具体的には、事前分布Wは、各音源の事前分布W0_iを列方向に連結すればよい。また、基底行列Wsepaは、各音源のスペクトル基底行列Wを列方向に連結すればよい。また、アクティベーション行列Hsepaは、各音源のスペクトル基底行列Wに対応するアクティベーション行列Hを行方向に連結すればよい。なお、分離信号は、上述したように、各音源に対応する基底行列Wとそのアクティベーション行列Hの積を取ることにより、得られる。
図13は、本実施形態の動作の一例を示すフローチャートである。図13に示す例では、まず分布解析部61が、分布生成用スペクトログラムVを入力として、Vを構成している各音源のスペクトル基底の事前分布W[W0_1,...,W0_i,...]を生成し、事前分布格納部62に格納する(ステップS60)。
次いで、音源分離部63が、音源分離用スペクトログラムVmixに対して、各音源に対応する事前分布Wを制約として用いた制約付きNMFを行い、Vmixを、Wsepa[W,...,W,...]とそのアクティベーションHsepa[H,...,H,...]に分解する(ステップS61)。
次いで、音源再構築部64が、Wsepa中の指定された音源のスペクトル基底WとそのアクティベーションHとを用いて、該音源のみの時系列音響信号である分離信号を生成する(ステップS62)。
以上のように、本実施形態によれば、NMFで各音源に対応する基底行列Wを学習する際に、別途入力される分布生成用スペクトログラムVから求まる事前分布W0_iに近づくような制約を用いることにより、局所解に陥らずに所望の基底行列W を算出することができる。そのため,より高精度に音源分離ができる。
なお、図12および図13の例では、分布生成用スペクトログラムVを入力して、分布解析部61が各音源のスペクトル基底に対応する事前分布を生成する例を示したが、事前分布は予め事前分布格納部62に格納されていてもよい。その場合、分布解析部61は省略される。
なお、上記の各実施形態では、NMFにおいてすべて基底は時間幅を考えないものとして説明したが、Convolutive-NMFを用いて時間構造を含んだ基底を作ることもできる。
また、上記の各実施形態は、単体の装置により実現されるだけでなく、複数の機器から構成されるシステムによって実装することも可能である。さらに、上記の各実施形態は、各実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給されることによって実現されてもよい。したがって、上記の各実施形態の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバ等も本発明の範疇に含まれる。特に、少なくとも、上記の各実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
なお、上記の各実施形態は以下の付記のようにも記載できる。
(付記1)検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を格納する基底格納手段(例えば、基底格納部111,511)と、音響信号のスペクトログラムの時間区間中の音響イベントのスペクトル基底の発現度合いの組み合わせを特徴量として、音響信号に含まれる音響イベントを識別する識別モデルを格納するモデル格納手段(例えば、モデル格納部113,513)と、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する識別信号分析手段(例えば、識別信号分析部112,512)と、算出された発現度合いの組み合わせを基に、識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する信号識別手段(例えば、信号識別部114,514)とを備えたことを特徴とする信号処理装置。
(付記2)識別信号分析手段は、識別用音響信号のスペクトログラムに対して、音響イベント基底群を表す所定形式の第1基底行列に未知の音響イベントのスペクトル基底群を表す第2基底行列を加えた第3基底行列のうちの第2基底行列と、第3基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とを学習させて、当該スペクトログラムを第3基底行列と第3基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解することにより、第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列を算出し、信号識別手段は、算出された第1アクティベーション行列によって示される識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いの組み合わせを基に、識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する付記1に記載の信号処理装置。
(付記3)基底生成用のスペクトログラムを入力として音響イベント基底群を生成する基底生成手段(例えば、基底生成部10)と、対応する音響イベントを示すラベル付きのスペクトログラムが入力されると、基底生成手段によって生成された音響イベント基底群を用いて、ラベル付きスペクトログラムから音響イベントのスペクトル基底の発現度合いを算出して、識別モデルを学習するモデル学習手段(例えば、学習データ分析部12およびモデル学習部13)とを備えた付記1または付記2に記載の信号処理装置。
(付記4)検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納する事前分布格納手段(例えば、事前分布格納部101,501)を備え、基底生成手段は、事前分布群に含まれる各事前分布を、対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する付記3に記載の信号処理装置。
(付記5)音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合である付記1から付記4のうちのいずれかに記載の信号処理装置。
(付記6)音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、モデル学習手段は、対応する音響イベントを示すラベル付きスペクトログラムを、音響イベント基底群を表す第1基底行列と第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列とに分解する処理において、グループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を課して分解することにより、第1アクティベーション行列を算出して、算出された第1アクティベーション行列によって示される識別用音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として、識別モデルを学習する付記3に記載の信号処理装置。
(付記7)音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、基底生成手段は、事前分布群に含まれる各事前分布を、対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する付記4に記載の信号処理装置。
(付記8)音響イベント基底群に含まれる音響イベントごとのサブ集合には、当該音響イベントを構成する音の代表的なスペクトル形状に対して異なるバリエーションまたは揺らぎが表現された2以上のスペクトル基底が含まれる付記5から付記7のうちのいずれかに記載の信号処理装置。
(付記9)識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出し、算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別することを特徴とする信号処理方法。
(付記10)コンピュータに、識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの未知のスペクトル基底のみを学習させて音源分離を行い、識別用音響信号のスペクトログラムにおける音響イベントのスペクトル基底の発現度合いを算出する処理、および算出された発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として音響信号に含まれる音響イベントを識別する識別モデルを用いて、識別用音響信号に含まれる音響イベントを識別する処理を実行させるための信号処理プログラムを格納したコンピュータ読み取り可能記録媒体。
(付記11)検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納する事前分布格納手段と、基底生成用のスペクトログラムを入力として、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を生成する基底生成手段とを備え、基底生成手段は、事前分布群に含まれる各事前分布を対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成することを特徴とする信号処理装置。
(付記12)音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、基底生成手段は、事前分布群に含まれる各事前分布を対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する付記11に記載の信号処理装置。
(付記13)音響イベント基底群に含まれる音響イベントごとのサブ集合には、当該音響イベントを構成する音の代表的なスペクトル形状に対して異なるバリエーションまたは揺らぎが表現された2以上のスペクトル基底が含まれる付記11に記載の信号処理装置。
(付記14)検知対象とされる音響イベントが、特定音源の音の発生であり、事前分布格納手段は、特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納し、特定音源の音のみを含む音響信号のスペクトログラムを入力として、事前分布群を生成する分布解析手段と、音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、基底生成手段によって生成された音響イベント基底群を表す第1基底行列を用い、かつ事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて第1基底行列を学習させて音源分離を行う音源分離手段と、音源分離の結果得られる、音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、音源分離用音響信号から特定音源の音のみの信号を生成する音源再構築手段とを備えた付記11から付記13のうちのいずれかに記載の信号処理装置。
(付記15)音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、基底生成手段は、前分布群に含まれる各事前分布を、対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成し、音源分離手段は、音源分離用音響信号のスペクトログラムを、音響イベント基底群を表す第1基底行列と第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列とに分解する処理において、グループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を課して分解する付記14に記載の信号処理装置。
(付記16)音源分離手段は、音源分離用音響信号のスペクトログラムに対して、音響イベント基底群に特定音源以外の音に対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの音響イベント基底群のスペクトル基底は事前分布群に含まれる各事前分布を制約として用いて学習させ、未知のスペクトル基底は制約なしで学習させて音源分離を行う付記14または付記15に記載の信号処理装置。
(付記17)基底生成用のスペクトログラムが入力されると、検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群に含まれる各事前分布を対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を生成することを特徴とする信号処理方法。
(付記18)コンピュータに、基底生成用のスペクトログラムが入力されると、検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群に含まれる各事前分布を対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を生成する処理を実行させるための信号処理プログラムを格納したコンピュータ読み取り可能記録媒体。
(付記19)特定音源の音のみを含む音響信号のスペクトログラムを入力として、特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を生成し、基底生成用のスペクトログラムが入力されると、事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、特定音源のスペクトル基底の集合である音響イベント基底群を生成し、音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群を表す第1基底行列を用い、かつ事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて第1基底行列を学習させて音源分離を行い、音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを算出し、算出された音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、音源分離用音響信号から特定音源の音のみの信号を生成することを特徴とする信号処理方法。
(付記20)コンピュータに、特定音源の音のみを含む音響信号のスペクトログラムを入力として、特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を生成する処理、基底生成用のスペクトログラムが入力されると、事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、特定音源のスペクトル基底の集合である音響イベント基底群を生成する処理、音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、音響イベント基底群を表す第1基底行列を用い、かつ事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて第1基底行列を学習させて音源分離を行い、音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを算出する処理、および算出された音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、音源分離用音響信号から特定音源の音のみの信号を生成する処理を実行させるための信号処理プログラムを格納したコンピュータ読み取り可能記録媒体。
以上、本実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2016年6月16日に出願された日本出願特願2016-120126を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、音の発生を伴う所定の物理イベントの発生を検知する用途や、未知の環境下において採取された音源信号から所定の音源の音を分離する用途にも好適に適用可能である。
100、110、200、400、500、600 信号処理装置
10、40、50 基底生成部
101、501 事前分布格納部
102、502 基底信号分析部
103、503 分布解析部
11、51 音響イベント識別部
111、511 基底格納部
112、512 識別信号分析部
113、513 モデル格納部
114、514 信号識別部
12、52 学習データ分析部
13、53 モデル学習部
61 分布解析部
62 事前分布格納部
63 音源分離部
64 音源再構築部

Claims (9)

  1. 検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を格納する基底格納手段と、
    音響信号のスペクトログラムの時間区間中の音響イベントのスペクトル基底の発現度合いの組み合わせを特徴量として、前記音響信号に含まれる音響イベントを識別する識別モデルを格納するモデル格納手段と、
    識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、前記音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの前記未知のスペクトル基底のみを学習させて音源分離を行い、前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する識別信号分析手段と、
    算出された前記発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する信号識別手段と、を備え、
    前記識別信号分析手段は、識別用音響信号のスペクトログラムに対して、前記音響イベント基底群を表す所定形式の第1基底行列に前記未知の音響イベントのスペクトル基底群を表す第2基底行列を加えた第3基底行列のうちの前記第2基底行列と、前記第1基底行列に対応する第1アクティベーション行列に、前記第2基底行列に対応する第2アクティベーション行列を加えた第3アクティベーション行列とを学習させて、当該スペクトログラムを前記第3基底行列と前記第3基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解し、入力されたスペクトログラムにマッチするように、前記第2基底行列と前記第3アクティベーション行列の値を最適化するよう更新し、最適化された前記第2基底行列と前記第3アクティベーション行列から、前記第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列を算出し、
    前記信号識別手段は、算出された前記第1アクティベーション行列によって示される前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する
    ことを特徴とする信号処理装置。
  2. 基底生成用のスペクトログラムを入力として音響イベント基底群を生成する基底生成手段と、
    対応する音響イベントを示すラベル付きのスペクトログラムが入力されると、前記基底生成手段によって生成された音響イベント基底群を用いて、前記ラベル付きスペクトログラムから前記音響イベントのスペクトル基底の発現度合いを算出して、識別モデルを学習するモデル学習手段と
    を備えた請求項1に記載の信号処理装置。
  3. 検知対象とされる音響イベントのスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納する事前分布格納手段を備え、
    前記基底生成手段は、前記事前分布群に含まれる各事前分布を、対応する音響イベントのスペクトル基底の制約として用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する
    請求項2に記載の信号処理装置。
  4. 音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合である
    請求項1から3のうちのいずれか1つに記載の信号処理装置。
  5. 音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、
    前記モデル学習手段は、対応する音響イベントを示すラベル付きスペクトログラムを、音響イベント基底群を表す第1基底行列と前記第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列とに分解する処理において、グループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を課して分解することにより、前記第1アクティベーション行列を算出し、算出された前記第1アクティベーション行列によって示される前記識別用音響信号のスペクトログラムの時間区間中の前記音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として、識別モデルを学習する請求項2に記載の信号処理装置。
  6. 音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、
    前記基底生成手段は、前記事前分布群に含まれる各事前分布を、対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する請求項3に記載の信号処理装置。
  7. 音響イベント基底群に含まれる音響イベントごとのサブ集合には、当該音響イベントを構成する音の代表的なスペクトル形状に対して異なるバリエーションまたは揺らぎが表現された2以上のスペクトル基底が含まれる請求項4から6のうちのいずれかに記載の信号処理装置。
  8. 識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの前記未知のスペクトル基底のみを学習させて音源分離を行い、前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出し、
    算出された前記発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の前記音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として前記音響信号に含まれる音響イベントを識別する識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する方法であり、
    前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する方法は、識別用音響信号のスペクトログラムに対して、前記音響イベント基底群を表す所定形式の第1基底行列に前記未知の音響イベントのスペクトル基底群を表す第2基底行列を加えた第3基底行列のうちの前記第2基底行列と、前記第1基底行列に対応する第1アクティベーション行列に、前記第2基底行列に対応する第2アクティベーション行列を加えた第3アクティベーション行列とを学習させて、当該スペクトログラムを前記第3基底行列と前記第3基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解し、入力されたスペクトログラムにマッチするように、前記第2基底行列と前記第3アクティベーション行列の値を最適化するよう更新し、最適化された前記第2基底行列と前記第3アクティベーション行列から、前記第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列を算出するものであり、
    前記識別用音響信号に含まれる音響イベントを識別する方法は、算出された前記第1アクティベーション行列によって示される前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別するものである
    ことを特徴とする信号処理方法。
  9. コンピュータに、
    識別用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群に検知対象とされる音響イベント以外の音響イベントである未知の音響イベントに対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの前記未知のスペクトル基底のみを学習させて音源分離を行い、前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する処理、および
    算出された前記発現度合いの組み合わせを基に、音響信号のスペクトログラムの時間区間中の前記音響イベント基底群に含まれる各スペクトル基底の発現度合いの組み合わせを特徴量として前記音響信号に含まれる音響イベントを識別する識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別する処理を実行させるための信号処理プログラムであって、
    前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いを算出する処理は、識別用音響信号のスペクトログラムに対して、前記音響イベント基底群を表す所定形式の第1基底行列に前記未知の音響イベントのスペクトル基底群を表す第2基底行列を加えた第3基底行列のうちの前記第2基底行列と、前記第1基底行列に対応する第1アクティベーション行列に、前記第2基底行列に対応する第2アクティベーション行列を加えた第3アクティベーション行列とを学習させて、当該スペクトログラムを前記第3基底行列と前記第3基底行列の各スペクトル基底の発現度合いを表すアクティベーション行列とに分解し、入力されたスペクトログラムにマッチするように、前記第2基底行列と前記第3アクティベーション行列の値を最適化するよう更新し、最適化された前記第2基底行列と前記第3アクティベーション行列から、前記第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列を算出するものであり、
    前記識別用音響信号に含まれる音響イベントを識別する方法は、算出された前記第1アクティベーション行列によって示される前記識別用音響信号のスペクトログラムにおける前記音響イベントのスペクトル基底の発現度合いの組み合わせを基に、前記識別モデルを用いて、前記識別用音響信号に含まれる音響イベントを識別するものである
    ことを特徴とする信号処理プログラム。
JP2018523934A 2016-06-16 2017-06-13 信号処理装置、信号処理方法および信号処理プログラム Active JP7006592B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016120126 2016-06-16
JP2016120126 2016-06-16
PCT/JP2017/021826 WO2017217412A1 (ja) 2016-06-16 2017-06-13 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体

Publications (2)

Publication Number Publication Date
JPWO2017217412A1 JPWO2017217412A1 (ja) 2019-04-18
JP7006592B2 true JP7006592B2 (ja) 2022-01-24

Family

ID=60664612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018523934A Active JP7006592B2 (ja) 2016-06-16 2017-06-13 信号処理装置、信号処理方法および信号処理プログラム

Country Status (3)

Country Link
US (1) US10817719B2 (ja)
JP (1) JP7006592B2 (ja)
WO (1) WO2017217412A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020087372A1 (zh) * 2018-10-31 2020-05-07 深圳市大疆创新科技有限公司 撞击物识别方法、系统及存储介质
JP7266390B2 (ja) * 2018-11-20 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム
BR112021025892A2 (pt) * 2019-06-28 2022-02-08 Nec Corp Aparelho de detecção de falsificação, método de detecção de falsificação e meio de armazenamento legível por computador
CN111933113B (zh) * 2020-09-29 2021-03-02 北京捷通华声科技股份有限公司 一种语音识别的方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012163918A (ja) 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2013142870A (ja) 2012-01-12 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラム
WO2014079484A1 (en) 2012-11-21 2014-05-30 Huawei Technologies Co., Ltd. Method for determining a dictionary of base components from an audio signal

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6109927B2 (ja) * 2012-05-04 2017-04-05 カオニックス ラブス リミテッド ライアビリティ カンパニー 源信号分離のためのシステム及び方法
US10497381B2 (en) * 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
JP2014164126A (ja) 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析方法、装置、及びプログラム
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
JP6195548B2 (ja) 2014-08-19 2017-09-13 日本電信電話株式会社 信号解析装置、方法、及びプログラム
EP3093846A1 (en) * 2015-05-12 2016-11-16 Nxp B.V. Accoustic context recognition using local binary pattern method and apparatus
US9805739B2 (en) * 2015-05-15 2017-10-31 Google Inc. Sound event detection
US9368110B1 (en) * 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
US10650842B2 (en) * 2015-09-16 2020-05-12 Nec Corporation Signal detection device, signal detection method, and signal detection program
US10014003B2 (en) * 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012163918A (ja) 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2013142870A (ja) 2012-01-12 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラム
WO2014079484A1 (en) 2012-11-21 2014-05-30 Huawei Technologies Co., Ltd. Method for determining a dictionary of base components from an audio signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tatsuya KOMATSU, et al.,ACOUSTIC EVENT DETECTION BASED ON NON-NEGATIVE MATRIX FACTORIZATION WITH MIXTURES OF LOCAL DICTIONARIES AND ACTIVATION AGGREGATION,Proc. ICASSP 2016,中国,IEEE,2016年03月,pp. 2259-2263

Also Published As

Publication number Publication date
WO2017217412A1 (ja) 2017-12-21
JPWO2017217412A1 (ja) 2019-04-18
US10817719B2 (en) 2020-10-27
US20190188468A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
JP7006592B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Benetos et al. Detection of overlapping acoustic events using a temporally-constrained probabilistic model
JP6911854B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2014164126A (ja) 音響信号分析方法、装置、及びプログラム
JP6747447B2 (ja) 信号検知装置、信号検知方法、および信号検知プログラム
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
CN111488486B (zh) 一种基于多音源分离的电子音乐分类方法及系统
US10431191B2 (en) Method and apparatus for analyzing characteristics of music information
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
CN113380268A (zh) 模型训练的方法、装置和语音信号的处理方法、装置
Sheng et al. Feature design using audio decomposition for intelligent control of the dynamic range compressor
O'Hanlon et al. Improved template based chord recognition using the CRP feature
JP6911930B2 (ja) 信号処理装置、信号処理方法およびプログラム
US11200882B2 (en) Signal processing device, signal processing method, and storage medium for storing program
Anderson Musical instrument classification utilizing a neural network
Xie et al. Acoustic features for multi-level classification of Australian frogs
Nguyen et al. Improving mix-and-separate training in audio-visual sound source separation with an object prior
Vieira et al. Automatic classification of instruments from supervised methods of machine learning
CN116189636B (zh) 基于电子乐器的伴奏生成方法、装置、设备及存储介质
Grigore et al. Self-organizing maps for identifying impaired speech
JP2010197596A (ja) 信号解析装置、信号解析方法、プログラム、及び記録媒体
Gonçalves et al. Instrumentals/Songs Separation for Background Music Removal
Seyedin et al. Discriminative sparse-based feature extraction and dictionary learning for sound classification applications
Dhole et al. Support Vector Machine Classification of Stress Types in Speech
Ma Monaural source separation in the wild

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210930

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210930

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211011

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211012

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211021

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20211025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220