JP2005049869A

JP2005049869A - 非定常信号の成分を検出する方法

Info

Publication number: JP2005049869A
Application number: JP2004214545A
Authority: JP
Inventors: Paris Smaragdis; パリス・サマラディス
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2003-07-23
Filing date: 2004-07-22
Publication date: 2005-02-24
Anticipated expiration: 2024-07-22
Also published as: US7672834B2; JP4606800B2; US20050021333A1

Abstract

【課題】非定常信号の成分を検出する方法を提供する。
【解決手段】取得された非定常信号は、サンプリングおよび変換され、デジタル化されたサンプル１２１は、ウィンドウ処理される。変換が各フレーム１３１に適用され、特徴１４１が生成される。特徴１４１を使用して、非負行列１５１が構成される。非負行列１５１は、異なる時間における非定常信号の特徴を表す列を含む。非負行列１５１は因子分解され、信号の特徴プロファイル１６１および時間的プロファイル１６２が生成される。
【選択図】図２

Description

本発明は、包括的に信号処理の分野に関し、特に、信号の成分を検出し関連付けることに関する。

信号成分の検出は、信号処理の基本的な目的である。音響信号の検出された成分は、いくつかの例を挙げると会話検出・認識、背景雑音差分、および音楽編曲を含め、無数の目的に使用することができる。大半の従来技術による音響信号表現方法は、人間の会話および音楽に焦点を当ててきており、この人間の会話および音楽において検出される成分は、通常、音素または音符である。多くのコンピュータビジョンアプリケーションは、映像の成分を検出する。検出された成分は、対象物の検出、認識、および追跡に使用することができる。

信号の成分を検出する手法には、主に２つのタイプ、すなわち知識ベースのものおよび教師なし、すなわちデータ駆動のものがある。知識ベースの手法は、ルールベースとすることができる。ルールベースの手法では、決定を行うための人間が決めたルールのセットが必要である。したがって、ルールベースの成分検出は、主観的なものであり、成分発生の決定は、解析すべき実際のデータに基づくものではない。知識ベースのシステムは、深刻な欠点を有する。第１に、ルールを手動でコード化する必要がある。したがって、システムは、「専門家」と同じ程度しか良好でない。第２に、ルール間の推論の解釈が、特にある特定の状況に当てはまるルールがない場合、または、ルールが「曖昧」である場合に、誤って作用することが多い。これによって、システムが意図せず誤った方法で動作する可能性がある。

信号の成分を検出するその他の主なタイプの手法は、データ駆動である。データ駆動手法では、成分は、信号が何であるか、または、将来何になり得るかについての先験的な理解が何もない状態で、信号それ自体から直接検出される。入力データは、非常に複雑である場合が多いため、解析を目的としてデータを単純化する様々なタイプの変換および分解が知られている。

２００１年１１月２０日にCaseyに発行された米国特許第６，３２１，２００号「Method for extracting features from a mixture of signals」には、帯域フィルタ処理され、特異値分解により単純化された音響信号から低レベルの特徴を抽出するシステムが記載されている。しかし、特徴によっては、行列要素の消去につながり、結果を不明瞭にするため、次元を落とした後では検出することができないものがある。

非負行列因子分解（ＮＭＦ）は、次元を落とすことに対する代替の技法であり、Lee他「Learning the parts of objects by non-negative matrix factorization」 Nature, Volume 401, pp.788-791, 1999を参照願いたい。

ここでは、単一画像から面の部分を求めるために、行列構成中に非負値性制約を施す。さらに、そのシステムは、単一画像の空間領域内に制限される。すなわち、信号は、定常である。

本発明は、非定常信号の成分を検出する方法を提供する。

非定常信号が取得されて、非定常信号の非負行列が構成される。行列は、異なる時間における非定常信号の特徴を表す列を含む。非負行列は、特徴プロファイルおよび時間的プロファイルに因子分解される。

序説
図１および図２に示すように、本発明は、非定常信号の成分を検出し、成分の間の時間的関係を求めるシステム１００および方法２００を提供する。

システム構造
システム１００は、センサ１１０、たとえばマイクロフォン、アナログ／デジタル（Ａ／Ｄ）変換器１２０、サンプルバッファ１３０、変換器１４０、行列バッファ１５０、および因子分解器１６０を備え、これらは互いに直列接続される。取得された非定常信号１１１は、Ａ／Ｄ変換器１２０に入力され、Ａ／Ｄ変換器１２０は、サンプル１２１をサンプルバッファ１３０に出力する。サンプルは、ウィンドウ処理され、変換器１４０のためのフレーム１３１が生成され、変換器１４０は、特徴１４１、たとえば、振幅スペクトルを行列バッファ１５０に出力する。非負行列１５１が因子分解され（１６０）、これらもまた非負行列である特徴プロファイル１６１および時間的プロファイル１６２が生成される。

方法の実施
ピアノ１０１により、音響信号１０２が生成される。音響信号は、たとえば、マイクロフォン１１０により取得される（２１０）。取得された信号１１１は、サンプリングされて変換され（２２０）、デジタル化されたサンプル１２１は、ウィンドウ処理される（２３０）。変換１４０が各フレーム１３１に適用され（２４０）、特徴１４１が生成される。特徴１４１を使用して、非負行列１５１が構成される（２５０）。行列１５１は因子分解され（２６０）、信号１０２の特徴プロファイル１６１および時間的プロファイル１６２になる。

非負行列の構成
時間可変信号１０２の一例は、ｓ（ｔ）＝ｇ（αｔ）ｓｉｎ（γｔ）＋ｇ（βｔ）ｓｉｎ（δｔ）により表現することができる。ただし、ｇ（・）は、周期２πを有するゲート関数であり、α、β、γ、δは、任意のスカラーであり、αおよびβは、少なくともγおよびδよりも小さい桁を有する。長さのサイズＬを有するフレームｘ（ｔ）１３１の特徴１４１は、変換ｘ（ｔ）＝｜ＤＦＴ（［ｓ（ｔ）・・・ｓ（ｔ＋Ｌ）］）｜１４０により求められる。

非負行列Ｆ∈Ｒ^Ｍ×Ｎ１５１は、すべての特徴１４１を、時間的にＭ行として並べられたＮ列の行列１５１として配列することにより構成される（２５０）。ただし、Ｍは、Ｍ＝（Ｌ／２＋１）となるような振幅スペクトル特徴が累積されるヒストグラムビンの総数である。

図３は、信号ｓ（ｔ）の非負行列１５１Ｆとして表現すべきビンに含まれるスペクトル写真を示す。この例では、いくつかの周波数ビン３１０以外はほとんどエネルギーを有さない。ビンは、規則正しいパターンを表示する。

非負行列の因子分解
図４Ａ〜図４Ｂに示すように、非負行列Ｆ∈Ｒ^Ｍ×Ｎは、要素から再構成された非負行列における誤差が最小化されるような２つの非負行列Ｗ∈Ｒ^Ｍ×Ｒ（１６２）およびＨ∈Ｒ^Ｒ×Ｎ（１６１）に因子分解される。ただし、Ｒ≦Ｍである。

パラメータＲは、検出することが望ましい成分の数である。信号における成分の実際の数がわかっている場合、パラメータＲは、その既知の数にセットされ、再構成の誤差は、費用関数Ｃ＝‖Ｆ−Ｗ・Ｈ‖_Ｆを最小化することにより最小化される。ただし、‖・‖_Ｆは、フロベニウスノルムである。別法として、Ｒが成分の推定数にセットされる場合、費用関数は、下式により最小化することができる。

ただし、上式において、かけ算の記号×を○で囲ってある記号は、アダマール積である。Ｆ＝Ｗ・Ｈの場合には、ＣおよびＤは、両方ともゼロに等しい。

図４Ｂおよび図４Ａは、それぞれ行列１５１のＮＭＦによって生成される特徴プロファイル１６１および時間的プロファイル１６２を示す。この場合、成分の特徴プロファイルは、周波数特性に関連する。図３と対比して、成分１が２度発生し、成分２が３回発生することは明白である。

結果
本発明によるシステムおよび方法が、バッハのフーガ１６番ト短調のピアノ録音に適用された。Jarrett著「J. S. Bach, Das Wohltemperierte Klavier, Buch I」ECM Records, CD2, Track 8, 1988を参照願いたい。図５は、１つの音符が二度繰り返されている４つの別個の音符の一小節５０１を示す。録音は、４４１００ｋＨｚのレートでサンプリングされ、ステレオ信号の左右のチャネルを平均化することによりモノラル信号に変換された。サンプルは、ハニング窓を使用してウィンドウ処理された。４０９６点の離散フーリエ変換を各フレームに適用して、非負行列の列を生成した。第１の行列が、第１の費用関数を使用してＲ＝４について因子分解された。

図６は、プロファイルと音符小節との間の相関を示す。

図７は、パラメータＲが５であり、第２の費用関数が使用される場合の因子分解により生成されるプロファイルを示す。追加の時間的プロファイル７０１は、それぞれの低エネルギー広帯域スペクトルにより識別することができる。これらプロファイルは、いずれの成分とも対応せず、無視することができる。

映像解析の場合の非負行列構成
本発明は、１Ｄ線形音響信号に限定されない。成分は、より高い次元、たとえば２Ｄを有する非定常信号においても検出することができる。この場合、ピアノ１０１は、同じままである。信号１０２は、ここでは視覚信号であり、センサ１１０は、視覚信号をピクセルに変換するカメラであり、ピクセルは、時間の経過に伴って領域サイズ（Ｘ、Ｙ）を有するフレーム１３１にサンプリングされる。フレームは、検出および相関に特徴付けることが望ましい特徴、たとえば、強度、色、テクスチャ、および動きに応じて、多くの方法で、たとえばラスタ化、ＦＦＴ、ＤＣＴ、ＤＦＴ、フィルタリング等により変換する（１４０）ことができる。

図８は、映像の２Ｄフレーム８００を示す。このアクション映像は、それぞれオン・オフ点滅する２つの単純成分（矩形および楕円形）を有する。この例では、各ＮフレームそれぞれにおいてＭ個のピクセルがラスタ化されて、非負行列１５１の列が構成される。

図９Ｂおよび図９Ａは、それぞれ、映像成分の特徴プロファイル１６１および時間的プロファイル１６２を示す。この場合、成分の特徴プロファイルは、フレームの空間特徴に関連する。

本発明の汎用性を示すために、さらなる例として、非定常信号は、３Ｄであってもよい。ここでもピアノは同じままであるが、ここでは内部を覗くこととなる。センサは、スキャナであり、フレームは、ボリュームになる。変換が適用され、プロファイル１６１および１６２を相関付けることができる。

１Ｄ音響信号、２Ｄ視覚信号、および３Ｄ走査プロファイルは、音響、視覚、および走査信号が同時に取得された場合、すべての信号が時間的に位置合わせされているため、互いに相関付けることも可能であることに留意されたい。したがって、ピアノ演奏者の指の動きは、おそらく、アクション１０００が弦を振動させて音を出すまでの、キーがたたかれ、レールが振動し、鍵盤の末端およびハンマーを押すためにスティッカーおよびウィペンを持ち上げ、スプーンとダンパーとを係合させることに関連付けることができる。図１０を参照願いたい。

本発明について、好ましい実施の形態の例として説明したが、本発明の精神および範囲内で他の様々な適合および変更を行い得ることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内にあるこのような変形および変更をカバーすることである。

本発明による非定常信号成分を検出するシステムのブロック図である。本発明による非定常信号成分を検出する方法の流れ図である。非負行列として表現すべきスペクトル写真である。図３のスペクトル写真の時間的プロファイルの図である。図３のスペクトル写真の特徴プロファイルの図である。時間的音符順を有する音楽の小節である。図４Ａ〜図４Ｂのプロファイルを図５の音楽小節に相関付けるブロック図である。時間的プロファイルである。特徴プロファイルである。時間的フレーム順を有する映像のブロック図である。図８の映像の時間的プロファイルである。図８の映像の特徴プロファイルである。ピアノアクションの概略である。

Claims

非定常信号の成分を検出する方法であって、
前記非定常信号を取得することと、
異なる時間における前記非定常信号の特徴を表す列を含む行列として、前記非定常信号の非負行列を構成することと、
前記非負行列を特徴プロファイルおよび時間的プロファイルに因子分解することと
を含む非定常信号の成分を検出する方法。
前記非負行列は、Ｍ個の時間順に並べられた列を有し、Ｍは、長さＬの信号の場合にＭ＝（Ｌ／２＋１）のような、前記特徴が累積されるヒストグラムビンの総数である請求項１に記載の方法。
前記非負行列は、Ｒ^Ｍ×Ｎとして表現され、前記時間的プロファイルは、Ｒ^Ｍ×Ｒとして表現され、前記特徴プロファイルは、Ｒ^Ｒ×Ｎとして表現される（ただし、Ｒ≦Ｍであり、Ｒは検出すべき成分の数である）請求項２に記載の方法。
前記非定常信号は、音響信号である請求項１に記載の方法。
前記非定常信号は、２Ｄ視覚信号である請求項１に記載の方法。
前記非定常信号は、３Ｄ走査信号であり、前記信号のフレームは、ボリュームを表す請求項１に記載の方法。
前記成分Ｒの数は、既知である請求項３に記載の方法。
前記成分Ｒの数は、成分の推定数である請求項３に記載の方法。