関連出願の相互参照
本出願は、2010年9月1日に出願された米国特許出願第61/379,092号および2009年11月12日に出願されたPCT特許出願第PCT/US2009/064120号に基づく優先権を主張し、当該出願に記載された全ての記載内容を本明細書に援用する。
本発明は、波形および複合波形の時間・周波数・振幅解析および測定と、その波形および複合波形を構成要素に分けることとに関する。なお、「信号」という用語は、より一般的な「波形」のよく知られた同意語であり、両者は、本明細書において交換可能に用いられ得る。複合波形は、混ざり合った複数の波形(または信号)からなる。本明細書の大部分は、可聴周波数範囲について言及するが、本発明の目的のための波形は、ある特定の周波数範囲または複雑性に限定されることはない。プロセスの一部として波形/信号を測定するあらゆる技術に対して、記載される本マシンおよび発見プロセスが役に立ち得る。
ある複合波形が与えられると、複数のソースから生じた可能性のある波形およびその成分を正確に測定することが望ましい。このことは、波形が、時間および周波数に関して重複する異なるソースによって生成された信号、より高いエネルギー/振幅信号によって覆い隠された低エネルギー/振幅信号、周波数の急激な変化、および/または振幅の急激な変化を含む場合には困難である。もしこれらの波形をより正確に測定および解析し、その情報を異なる領域に分けることができれば、これらの波形が何を含むかを理解する能力や、これらの波形の分離および/または変更方法を理解する能力が大幅に向上するであろう。
従来、波形は、時間および周波数領域で解析される。通常、これらの波形は、まず時間の振幅サンプルとしてデジタル的に捕捉され、次に、一連の変換を用いてそれらの信号を測定し、その結果を、時間、周波数および振幅の行列で表示する。時系列データから時間/周波数/振幅情報を抽出するための様々な技術が開発されている。しかしながら、時間に対して周波数および振幅がどのように変化するかを表すことは、突然の周波数および/または振幅変化が存在する場合、または複数のソースからの信号が同じ時間および周波数領域を占有する場合に特に困難となり得る。
時間、周波数、および振幅の情報を得るための一般的な変換の1つは、離散フーリエ変換(DFT)である。残念ながら、DFTのサイズ(規模)によって生じる、周波数分解能および時間分解能間のトレードオフが存在する。DFTによって検査される時間ウィンドウは、その規模に比例する。従って、大規模なDFTは、小規模のDFTと比較して、より大きな時間ウィンドウを検査する。このより大きな時間ウィンドウによって、動的変化に対する大規模なDFTの反応が遅くなる。
逆に、大規模なDFTは、周波数範囲をより細かいセグメントに切り分ける。DFTによって測定される最大周波数は、デジタル化信号のサンプリングレートの半分である。寸法XのDFTは、0〜最大値の周波数範囲をX/2の等サイズの「ビン」に分割する。従って、DFTにおける各周波数ビンのサイズは、サンプリングレートの2倍をその寸法で除算したものに等しい。
従って、より大規模なDFTは、より高い周波数分解能を有するが、より低い時間分解能を有する。より小規模のDFTは、より高い時間分解能を有するが、より低い周波数分解能を有する。このトレードオフにより、実践者らは、動的で時間変動する波形を、時間および周波数の両方に関して良好な分解能で正確に表すための改変DFTまたは他の代替方法を模索してきた。
本発明者らは、本明細書に援用される幾つかの特許を公表してきた。これらの特許は、米国特許第6,766,288B1号の基本波高速発見方法、米国特許第7,003,120B1号の複合波形の倍音内容を変える方法、および米国特許第6,798,886B1号の信号細断方法(Method of Signal Shredding)である。2009年11月12日に出願された精密測定行列PMM(Precision Measuring Matrix)の特許出願第PCT/US2009/064120号もまた本明細書に援用される。
本発明により、アナログ信号の変換またはデータストレージからデジタル信号を得る工程と、マーキングされた相関最大値を有する、特定の時間および周波数に対する振幅を含むセルからなる1つまたは複数の精密測定行列(PMM)を特許出願第PCT/US2009/064120号の通りに構築する工程と、複雑な複合波形内において、音源の識別および分離を行うために、PMMにおける最大値および最大値のパーシャルチェーンの領域関係を用いて関連セルを識別する工程とを含む、デジタル信号処理のためのマシン実施方法が提供される。
本出願において請求される拡大部分は、PMMにおいて関連セルを識別するための新しい方法からなる。
PMMのセルを関連付ける新しい方法では、セルは、以下の「領域」関係:周波数、時間、振幅、倍音、開始時刻、停止時刻、ピーク時刻、長さ、迎え角および減衰角、周波数の反復、パターンの反復、メモリに含まれるパターンおよびメモリに含まれないパターン、および非ランダム数学的関係によって関連付けることが可能である。具体的には、これらの方法の1つ、またはこれらの方法の複数の組み合わせで関連付けられた最大値セルおよび/または最大値セルのチェーンが、識別され、フラグを立てられる。このように関連付けられたセルは、ソース識別の候補である。
開示された様々な実施形態の機能を示すブロック図である。
全てのPMMイベントを示す、第2のオーディオサンプル信号に関するリバー三次元スクリーンショットである。
第2のサンプルに関して規定の振幅レベルを上回って生じていることを示す分解された振幅領域イベントの三次元スクリーンショットである。
第2のサンプルに関して倍音関係にあることを示す倍音領域イベントの三次元スクリーンショットである。倍音関係にあるイベントを発見するための米国特許第6,766,288B1号の基本波高速発見方法の通りである。
第2のサンプルに関して倍音関係にあることを示す倍音領域イベントの二次元スクリーンショットである。倍音関係にあるイベントを発見するための米国特許第6,766,288B1号の基本波高速発見方法の通りである。
反復領域イベントの三次元スクリーンショットである。1つの周波数ビンにつき10秒ごとに15のイベントという反復イベントを第2のサンプルに関して示す。
反復領域イベントの二次元スクリーンショットである。1つの周波数ビンにつき10秒ごとに15のイベントという反復イベントを第2のサンプルに関して示す。
倍音領域および振幅領域の組み合わせ領域の二次元スクリーンショットである。
全てのPMMイベントを示す、第3のオーディオサンプル信号に関するリバー三次元スクリーンショットである。
第3のサンプルに関して規定の振幅範囲内で生じたことを示す振幅領域イベントの三次元スクリーンショットである。
第3のサンプルに関して開始時刻によってソーティングされたパーシャルチェーン領域の三次元スクリーンショットである。
第3のサンプルに関して開始時刻によってソーティングされたパーシャルチェーン領域の二次元スクリーンショットである。
パーシャルチェーン領域のスクリーンショットである−第3のサンプルに関して長いチェーン(0.375秒を超える)。
パーシャルチェーン領域のスクリーンショットである−第4のオーディオサンプルに関する角度パラメーターを示す。
第5のサンプルに関して倍音関係にあることを示す倍音領域イベントの三次元スクリーンショットである。
開示された実施形態のユーティリティを説明するための代替説明図である。
上記に説明したように、開示される実施形態により、得られたデジタル信号に基づいて構築された精密測定行列(PMM)において、関連セルを識別する新しい方法が提供される。出願第PCT/US2009/064120号に説明したように、PMMは、マーキングされた相関最大値を有する、特定の時間および周波数に対する振幅を含むセルからなる。PMMにおける最大値および最大値のパーシャルチェーンの領域関係を用いて関連セルを識別することにより、複雑な複合波形内において、音源の識別および分離を行うことが可能となる。従って、PMMにおいて関連セルを識別する新しい方法は、多大な有用性および実用性を持つ。
開示される実施形態の詳細な説明に先立ち、大まかに言えば、PMMは、複数のFFT(またはそれらの等価物)を行い、それによって解析されるデジタル信号のスペクトル振幅を表すセルの行列である測定行列(MM)を生成することにより構築されることを理解されたい。従って、ある特定のタイムスライスに関して、各FFTは、1行または1列のセル(各周波数ビンに対して1つのセル)を生成する。
PMMは、特許出願第PCT/US2009/064120号に記載したように、マーキングされた相関最大値を有するMMから生成された時間、周波数および振幅イベントの行列である。必要であれば、当該特許出願において説明したように、確実にPMM全体にわたって適切にカバーされるように、生成されたMMを拡大することによって、重複部分を提供してもよいことを理解されたい。
本開示によれば、PMMにおいてセルを関連付ける新しい方法が提供される。より詳細には、セルは、以下の「領域」関係:周波数、時間、振幅、倍音、開始時刻、停止時刻、ピーク時刻、長さ、迎え角および減衰角、周波数の反復、パターンの反復、メモリに含まれるパターンおよびメモリに含まれないパターン、および非ランダムな数学的関係によって関連付けられ得る。従って、これらの方法の1つ、またはこれらの方法の複数の組み合わせで関連付けられた最大値セルおよび/または最大値セルのチェーンは、識別され、フラグを立てられ得る。その結果、そのように関連付けられたセルは、ソース識別の候補として識別され得る。
開示の実施形態に関するこの予備的かつ一般的な説明を念頭において、以下の詳細な説明において使用される様々な用語のより具体的な定義を以下に示す。
定義
以下の定義を本明細書において使用する。
FT:フーリエ変換−波形のスペクトル振幅を計算するアルゴリズムである。
DFT:離散フーリエ変換−離散(デジタル化)波形のスペクトル振幅を計算するアルゴリズムである。DFTの出力は、複素数または単に実振幅であり得る。本発明の好ましい実施形態の多くは、実振幅のみを必要とする。明確に複素数と記載されなければ、本明細書においては、DFTへの言及は全て、実振幅出力のDFTに関するものである。
FFT:高速フーリエ変換−高速で機能するDFT方法であり、この方法は広く知られており、その名称は、DFTと同意語として使用されることが多い。DFTおよびFFTは、本明細書において、交換可能に使用される。
ウィンドウ:フーリエ変換(またはその等価技術)によって使用される時間の部分である。DFTにおいては、ウィンドウサイズ(サンプル数単位)は、DFTの規模として知られる。例えば、信号が1秒につき8,000サンプルでデジタル化される場合には、4,000の規模のDFTは、4,000サンプル(2分の1秒)のデータに対して動作する。
ウィンドウイング技術:ウィンドウ内のサンプルが全て等しく扱われるわけではない公知のDFT方法である。例えば、規模4,000の単純なDFTは、4,000のサンプルを単純に変換する。ウィンドウイング技術を用いた場合、4,000のサンプルは、中間のサンプルにより多くの重みを置き、先頭および最後のサンプルにより少ない重みを置くように変調される。ウィンドウイング技術は、DFTの周波数応答において、サイドローブ/アーチファクトを低減するように設計されている。
dB:デシベル−例えば、特に振幅またはエネルギーセルに使用される音響および電子測定や計算に用いられる測定の対数比率である。
dBFS:dBフルスケール−デジタル表現における最大ピークレベルと比較したデシベルである。
タイムスライス:時間の一部である。例えば、タイムスライスは、データのある特定の時間ウィンドウに対して行われたFFTによって表現され得る。しかしながら、ウィンドウは通常、それが表すタイムスライスと比較してかなり大きく、タイムスライスの中心に位置する。タイムスライスのサイズは、ウィンドウのサイズではなく、順次行われるFFT実行間の間隔によって決定される。1秒につき8,000サンプルのデジタル化信号の場合、新しいFFTが8サンプル毎に実行されるとすると、タイムスライスは、8サンプル(1ミリ秒)の幅である。FFTウィンドウは、4,000サンプル(2分の1秒または500タイムスライス)の幅でもよい。
周波数ビン:周波数の小領域(例えば、1,702〜1,704Hz)である。
セル:行列における単位である。通常は、1つのセルは、1つのタイムスライスにおける1つの周波数ビンを示し、dBFSの振幅を含む。なお、セルを有することにより、周波数または時間分解能が制限されることはない。1つのビンにおいてカバーされる周波数範囲は、例えば、0.001Hzであり得る。同様に、1つのタイムスライスは、0.001秒より小さくてもよい。
MM:測定行列−経時的な波形のスペクトル振幅を表すセルの行列である。測定行列は、繰り返し行われるFFT(または等価物)によって生成される。各FFTは、そのタイムスライスに関して、1行(または1列)のセル(各周波数ビンに対して1つのセル)を生成する。各セルにおける振幅は、当該タイムスライスにおける当該周波数ビンに関する振幅である。次に、セルは検査され、必要に応じて最大値としてマーキングされる。測定行列は、ニア・リアルタイムで連続信号を処理する場合に、無限長さを有し得る。限られた時間の波形に関しては、測定行列は、有限長さを有し得る。
最大値セル:1つまたは複数種類の最大値を有するとしてマーキングされたセルである。
単純最大値セル:直近のセルよりも大きい振幅を有するセルである。あるセルの振幅が、同じタイムスライス内において周波数に関してすぐ上のセルとすぐ下のセルの振幅よりも大きい場合、このセルは、周波数ピーク単純最大値である。あるセルの振幅が、同じ周波数ビンにおいて時間に関してすぐ前のセルとすぐ後のセルの振幅よりも大きい場合、このセルは、時間ピーク単純最大値である。1つのセルが、時間および周波数両方の単純最大値となることも可能である。時間ピークおよび周波数ピーク単純最大値セルは、区別してマーキングされてもよく、あるいは、同義語として扱われ、略して、単に「単純最大値セル」または「単純最大値」と呼ばれてもよい。
関連最大値(「弟」("little brother"))セル:単純最大値に隣接するセルであり、このセルの振幅は、単純最大値の振幅の指定の閾値内であり、かつ反対側のセルの振幅よりも大きい。あるセルが周波数ピーク単純最大値である場合、同じタイムスライスにおける周波数に関して単純最大値のすぐ上およびすぐ下のセルは、関連最大値の候補である。あるセルが時間ピーク単純最大値である場合、同じ周波数ビンにおけるその直前および直後のセルは、関連最大値の候補である。ある開示された実施形態においては、単純最大値に先行する候補セルにおける振幅が、単純最大値の振幅の2dB以内であり、かつ、それに先行するセルの振幅よりも大きい場合には、この候補セルは、弟としてマーキングされる。ある開示された実施形態においては、周波数に関して単純最大値のすぐ上の候補セルにおける振幅が、単純最大値の振幅の3dB以内であり、かつ、周波数に関してそのすぐ上のセルの振幅よりも大きい場合には、この候補セルは、弟としてマーキングされる。時間に関して隣接する弟のdB閾値は、周波数に関して隣接する弟のものと同一である必要はない。時間および周波数の弟は、区別してマーキングされてもよく、あるいは、同義語として扱われ、単に弟としてマーキングされてもよい。単一のセルが、その両方となることも可能である。
角度最大値セル:そのセルとその両側の隣接セルとの振幅の差が所与の閾値よりも大きく変化するセルである。ある開示された実施形態では、あるセルが、同じ周波数ビンにおける時間に関して直前のセルよりも4dB大きいが、その後に続くセルよりも1dBだけ小さい場合には、この3dBの差により、このセルを角度最大値(具体的には、時間角度最大値)とみなす。周波数角度最大値は、あるセルの振幅を、同じタイムスライスにおける周波数に関してそのすぐ上およびすぐ下のセルの振幅と比較することによって、同様に見つけられる。角度最大値は、周波数角度最大値および/または時間角度最大値として区別してマーキングされてもよく、あるいは、同義語として扱われ、単に、角度最大値としてマーキングされてもよい。単一のセルが、両方の最大値となることも可能である。
バーグラー最大値セル(Burglar Maximum Cell):信号ピークがDFTウィンドウに入る際およびDFTウィンドウから出る際の振幅変化を測定することによって最大値が検出される最大値セルである。ある周波数ビン内のエネルギーピークは、セルの変換ウィンドウ内にピークがある当該ビンにおける全てのセルの振幅に影響を与える。変換ウィンドウが、例えば、500タイムスライスの幅であれば、そのピークは、抜け出る前に500タイムスライス(セル)のウィンドウに入る。振幅の増加を500タイムスライス後の減少と比較し、かつ両者を指定の閾値と比較することによって、バーグラー最大値を宣言することができる。次に、中間の1つまたは複数のセルにマーキングを行う。ピークが1つのタイムスライスの継続期間よりも長ければ、エネルギーは、多数のセル(タイムスライスまたは行)に亘って増加し、同様に、500セル後に減少して戻り、中間の複数のセルは、バーグラーセルとしてマーキングされる。従って、他の種類の最大値とは異なり、バーグラー最大値は、1つのセルをすぐ隣のセルと比較することによっては検出されない。ウィンドウは、1つのタイムスライスよりもかなり広くなり得るので、振幅変化は、マーキングされる1つまたは複数のセルからかなり離れたセルにおいても見られ得る。また、単純、関連および角度最大値とは異なり、バーグラー最大値は、時間最大値としてのみ存在することができ、類似の周波数最大値は存在しない。
パーシャル(Partial):マーキングされた最大値セル(例えば、単純最大値弟)である。
パーシャルチェーン(Partial Chain):互いにリンクした(近接によって)パーシャルの集合体またはチェーンである。パーシャルチェーンは、1つのタイムスライスにつき1つまたは複数のパーシャルを含み得る。パーシャルチェーンは、直線、曲線および/または角を成す線として、複数のタイムスライスを横断し得る。パーシャルチェーンは、リンクされたセルとみなされる。パーシャルチェーンは、「チェーン」または「イベント」としても知られる。なお、パーシャルチェーンは、複数のパーシャルからなるチェーンであり、不完全なチェーンではない。
チェーン:パーシャルチェーンと同義語である。
イベント:互いにリンクされたパーシャルの集合体−パーシャルチェーンと同義語である。
PMM:精密測定行列−特許出願第PCT/US2009/064120号に記載したような、マーキングされた相関最大値を有するMM由来の時間、周波数および振幅イベントの行列である。
リバー可視化モジュール(River Visualization Module):3次元可視化モジュールで示されたPMMである。
領域:イベントを構成要素に分けるためのカテゴリーである。
周波数領域:(一般に知られている)「イベント」が生じた時の周波数である。周波数に基づくイベントの識別または分離である。
時間領域:(一般に知られている)「イベント」が生じた時の時間である。時間に基づくイベントの識別または分離である。
振幅領域:「イベント」が生じた時の振幅層である。振幅に基づくイベントの識別または分離である。(チェーンの振幅レベル)
倍音領域:倍音関係にあるイベントである。一般的な倍音関係にあるパーシャルチェーン周波数に基づくイベントの識別および/または分離である。かなり同時に生じたイベントは、互いに倍音関係にある別々の周波数イベントを有し得る。
反復領域:経時的に反復するイベントである。周波数毎の反復チェーンイベントに基づくイベントの識別または分離である。それぞれ異なる時間に生じるイベントは、イベント間の間隔およびそれらの時間に関する反復発生頻度によって関連付けることができる。
パーシャルチェーン領域:単純な点で類似したイベントである。コヒーレント開始時刻、コヒーレント停止時刻、コヒーレントピーク時刻、チェーンの迎え/減衰角、および/またはチェーンの長さに基づくイベントの識別または分離である。
メモリ領域:形状およびその形状がメモリに保存された形状とどのように比較されるかの理由で関心の対象となるイベントである。あるイベントは、その形状が既にメモリに保存された予め考えられた形状と一致するため、関心の対象となり得る。また、あるイベントは、その形状が、メモリ中の既知の形状と一致しないため、関心の対象となり得る。なお、予め考えられた形状との一致は、おおよそのものでもよく、あるいは、単純にある形状基準との一致(例えば、らせん形状のあらゆるイベントまたは右回りのらせんのみが関心の対象となり得る)に関するものでもよい。
非ランダム領域:非ランダムとして識別できるイベントである。他の領域において定義されない数学的関係を有するパーシャルチェーンである。
領域の組み合わせ:オペレーターが各領域に関連するパラメーターを組み合わせる、および調整することにより、信号イベントを分離することができる。
信号の発見は、上記の領域に限定されなくてもよい。
本開示の実施形態のより詳細な説明に先立って、実施形態の背景を完全に開示するために、以前に出願された出願第PCT/US2009/064120号(ここに援用される)において提供された技術を裏付ける概要の説明を行う。この以前に出願された開示の実施形態によれば、デジタル信号処理のためのマシン実施方法が提供される。この方法には、アナログ信号の変換またはデータストレージからデジタル信号を得る工程、特定の時間および周波数に関する振幅を含むセルからなる1つまたは複数のMMを構築する工程、セルの振幅の比較に基づいてこれらの行列における最大値をマーキングする工程、および複数の最大値が時間および周波数の両方で一致する相関最大値を見つけ出すために、これらの最大値を関連付ける工程が含まれる。従って、PMMと呼ばれる新規の行列が、マーキングされた相関最大値と共に生成される。(なお、これら最大値の全ては、極大値であり得るが、簡潔さのために、単に「最大値」と呼ばれる。)
各MMは、例えばFFTを用いた入力信号の反復変換によって生成され得る。各変換は、入力信号において、タイムスライスと呼ばれる時間の一部を表し、各セルが周波数ビンと呼ばれる周波数範囲に対応する1行のセルを有する。各セルには、対応する周波数ビン/タイムスライスの信号強度を表す振幅が投入される。好ましくは各タイムスライス(および/または周波数ビン)に沿った最大振幅を有する各MMにおけるセルが、識別され、マーキングされてもよい。
最大値を識別するための様々な方法を用いて、多種の最大値を得ることができる。時間および周波数に関して一致する様々な行列における最大値および/または様々な種類の最大値は、PMMにおいてマーキングされてもよい。次に、PMMにおいて隣接する相関最大値は、近接によって、パーシャルチェーンとして互いにリンクされてもよい。
最大値セルは、その振幅を隣接するセルの振幅と比較する、または他の具体的に関連したセルの振幅と比較することによって識別され得る。セルは、そのセルの振幅が隣接するセルの振幅を上回る場合に、単純最大値セルであり得る。他の種類の最大値には、関連「弟」最大値、角度最大値、およびバーグラー最大値が含まれる。同じタイムスライスおよび周波数ビンに関して複数の最大値が見つかる場合には(通常、異なるMMにおいて)、これらの最大値は一致し、PMMにおける対応するセルは、相関最大値としてマーキングされてもよい。PMMにおける各セルの振幅には、由来するMMにおける対応セルの値の関数が投入される(例えば、加重平均)。
出願第PCT/US2009/064120号によれば、時系列信号の瞬時周波数および振幅の高分解能かつ正確な測定を行うことができる。これは、様々なサイズの複数のMMを構築し、それらのMMにおける最大値にマーキングを行い、次にそれらの最大値を相互に関連付けることにより達成することができる。より小規模の変換により、より良い時間分解能が得られる一方で、より大規模な変換により、より良い周波数分解能が得られる。このため、2つ以上の測定行列(例えば、時間および周波数分解能に関して異なる)を用いて、PMMを構築する。PMMにおいて隣接する最大値は、パーシャルチェーンと呼ばれるチェーンにリンクされることが可能である。このリンクは、同一または近接する周波数ビンに存在する隣接するタイムスライスにおける任意の2つの最大値セルをつなげることによって達成される。
出願第PCT/US2009/064120号に開示のある実施形態においては、2つのMMが、異なる規模のFFTを用いて作成されてもよく、単純最大値および弟(時間および周波数の両方に関する)が、弟に関して2dBの閾値を用いてマーキングされてもよい。この実施形態においては、4種類の最大値の全て(すなわち、時間または周波数、および単純または弟)が、単に「最大値」として全てマーキングされてもよい。PMMは、2つのMMにおけるセルを一致する時間および周波数で比較し、両方が最大値を有する場合に、PMMにおいて最大値にマーキングを行うことによって生成される。PMMのセルには、元のMMにおける対応セルの平均振幅が投入される。
出願第PCT/US2009/064120号の発明概念の他の実施形態は、この実施形態に対するバリエーションによって生み出され得る。従って、時間最大値を取り止めて、周波数最大値のみを使用することが可能である。弟閾値を2dBから他の任意の値に変更する、あるいは弟を除外することが可能である。3つ以上のMMを作成し、互いに関連付けることも可能である。3つ以上のMMを使用する場合には、それら全てのMM間の一致が必ずしも共通するものである必要はない。例えば、5つの異なる測定行列が使用される場合、同じ時間および周波数における5つの最大値のうちの3つが、相関最大値を識別するために必要となるかもしれない。
また、単純に、全ての最大値を等しく扱う、または同じ重みで扱う代わりに、弟を単純最大値とは異なるように扱ってもよい。相関最大値の基準は、単純な計数または加算よりも複雑となり得、任意の数式が可能である。
また、相関最大値は、異なる周波数範囲に対して異なる方法で決定されてもよい。低周波に対しては、周波数分解能を向上させるには、より大規模の測定行列が必要となり得る。逆に、高周波に対しては、より小規模の測定行列でうまくいく場合がある。
これらのバリエーションの任意の組み合わせを使用してもよい。また、任意のウィンドウイング技術を使用してもよい。複数のMMを、同じ規模のFFTを用いるが、異なるウィンドウイング技術を用いて生成することも可能である。その場合、これらのMMにおいて最大値にマーキングが行われ(場合によっては異なるマーキング基準を用いて)、次に、相関最大値を見つけ、PMMを構築するために、これらのMMが比較されてもよい。あるいは、異なる規模および異なるウィンドウイング技術を用いて、複数のMMを作成してもよい。従って、可能な組み合わせには、きりがない。
出願第PCT/US2009/064120号において提供された技術的革新のこの理解を念頭において、今回開示する実施形態を以下に説明する。具体的には、今回開示する実施形態により、PMM(例えば、PCT/US2009/064120号に開示された方法論に従って作成されたもの)において関連セルを識別するための新しい方法が提供される。PMMにおけるこのような関連セルは、複雑な複合波形内の音源を識別および分離するために識別され得る。各PMMは、複数のセルからなり、各セルは、ある特定のタイムスライス内の周波数ビンを表す。各セルは、その時間(当該タイムスライスに包含される時間の範囲)における、その周波数(当該ビンに包含される周波数範囲)の信号強度を表し得る振幅値を含み得る。従って、幾つかのセルは、隣接のセルよりも大きな振幅を含むことを意味するピークとしてマーキングされ得る。ピークとしてマーキングされたセルは、通常、有意な信号を表すと考えられ得る一方で、その他のセルには、通常マーキングが行われず、背景雑音であり得る。次に、周波数および時間に関して隣接する(またはほぼ隣接する、例えば、所定の、あるいは許容可能な位置数だけ場所が異なる)マーキングされたセルは、パーシャルチェーンへと共にリンクされ得る。
従って、今回開示される実施形態によれば、PMMにおいてセル、パーシャルチェーンおよび/またはイベントを関連付ける新しい方法は、振幅、倍音関係、反復、開始時刻、停止時刻、ピーク時刻、長さ、迎え角および減衰角、メモリに含まれるパターン、メモリに含まれないパターン、周波数および/または時間、非ランダム発生パターンによってそれらを関連付けることができる。具体的には、これらの方法の1つ、またはこれらの方法の組み合わせで関連付けられるセルのグループおよび/またはチェーンが、識別され、フラグを立てられ得る。
図1に示されるリバー可視化モジュール116のスクリーンショットである図2〜12において、時間軸は、左右方向であり、周波数軸は、前後方向であり、低周波から高周波へと色付けされている。このようなスクリーンショットを表示するコンピュータモニターがカラーモニターである場合には、低周波は、例えば紫で示され、高周波は、例えば赤で示されてもよいことを理解されたい。振幅は、高さで表示されてもよく、色は、振幅が大きくなるにつれて、より薄く表示されてもよい。
全てのPMMイベントを示す第2および第3のオーディオサンプル信号のリバー三次元スクリーンショットを、図2および図7にそれぞれ示す。
ある開示された実施形態によれば、パーシャルチェーンが−70DBFS〜−80DBFSの範囲内にあるような振幅を有するソースを求め得る。従って、−80〜−90DBFSの範囲にあるセル(またはチェーン)のみが、検討材料として識別され得る。部分的にその範囲内であるが、時折その範囲からそれるチェーンであっても、許容し、考慮してもよい。第2のサンプルに関する0dB〜60dBの範囲の振幅領域のスクリーンショットの一例を図3に示し、第3のサンプルに関する−85dB〜−95dBの範囲の振幅領域のスクリーンショットの一例を図8に示す。
開示された別の実施形態によれば、倍音関係にあるとして識別されたパーシャルチェーン(上述の米国特許第6,766,288号のような)は、関連付けられ、同じソースからの可能性があると見なされ得る。これは、倍音領域と呼ばれ得る。このタイプの例を、第2のサンプルに関しては図4Aおよび4Bに示し、第5のサンプルに関しては図12に示す。
開示された別の実施形態によれば、前述の2つの概念を融合し、−80〜−90DBFSの範囲内の倍音関係にあるチェーンが、関心の対象のソースからの可能性があるとして識別される。これは、組み合わせ領域の一例である。
開示された別の実施形態によれば、基本周波数が所与の周波数範囲にある倍音関係にあるチェーン(上述の米国特許第6,766,288号のような)は、関心の対象のソースからの可能性があるとして識別され得る。これもまた、検索をある振幅範囲に限定することと組み合わせられてもよい(2つの領域の組み合わせ)。第2のサンプルに関する一例を図6に示す。
開示された別の実施形態によれば、同時に(または同時性の一定の許容範囲内で)開始するチェーンは、同じソースからの可能性があるとして共にリンクされ得る。第3のサンプルに関する一例を図9Aおよび9Bに示す。これは、パーシャルチェーン領域の一例である。チェーンが倍音関係にあれば、それらが単一のソースからのものである証拠が強固となる。これは、検索をある振幅範囲に限定することと組み合わせられてもよい(3つの領域の組み合わせ)。
開示された別の実施形態によれば、同時に(または同時性の一定の許容範囲内で)終了するチェーンは、同じソースからの可能性があるとして共にリンクされ得る。これは、パーシャルチェーン領域の別の一例である。これもまた、上記の技術(領域の組み合わせ)の全てと組み合わせられてもよい。
開示された別の実施形態によれば、同じ基準(時間に関する)のチェーンが、同じソースからのものとして識別され得る。第3のサンプルに関する一例を図10に示す。同様に、関心の対象のソースは、ある特定の長さのチェーンを生成することが予期され得るので、その長さのチェーンが候補として識別されてもよい。これは、パーシャルチェーン領域の別の一例である。
異なる技術を組み合わせた、ある開示の実施形態によれば、既知の振幅、基本波周波数およびチェーン長さを有するソースを検索し、3つの基準全てに一致するチェーンを、そのソースからの可能性があるとして識別してもよい(領域の組み合わせ)。
開示された別の実施形態によれば、ソースが、ある特定の反復パターン(例えば、20ミリ秒の音の後、980ミリ秒の静寂を毎秒毎に何度も繰り返す)を有することが知られている場合がある。第2のサンプルに関するこのような実施の一例は、図5Aおよび5Bに示される。このパターンは、PMMにおいて検索され、識別され得る。これは、反復領域の一例である。この検索は、振幅または周波数範囲に限定される、あるいは上記の技術(領域の組み合わせ)の何れと組み合わせることも可能である。
類似の開示された実施形態によれば、ソフトウェアおよびハードウェア実行プロセスは、基本的に時間をかけて習得した、任意の一貫した反復パターンを検索し得る。この検索は、上記の技術の何れと組み合わせることも可能である。これもまた、反復領域の一例である。
「パターン」という用語は、多くのものを指し得ることを理解されたい。ソフトウェアおよびハードウェア実行プロセスは、パターンがどのくらいの頻度で反復するか(付点、付点、長音記号、小休止VS付点、付点、長音記号、長休止−これは「リズム」と呼ばれるほうがふさわしいかもしれない)を検索し得る。従って、検索は、イベントが成形された様式に基づいて行われ得ることも理解されたい。
あるいは、ソフトウェアおよびハードウェア実行プロセスは、パターンの形状的詳細に最も着目し得る(例えば、付点、付点、長音記号、小休止VS長音記号、長音記号、付点、小休止)。これらは、反復領域のさらなる例である。さらに、音量も変化し得る(付点(dot)、大きい音量の付点(DOT)、長音記号、小休止)、あるいは、基本周波数(ド、ラ、ミ、小休止)(領域の組み合わせ)が、変化してもよく、ソフトウェアおよびハードウェア実行プロセスは、これらのバリエーションを解析する。
従って、上記に説明したように、異なる種類の分析技術の組み合わせには、きりがなく(ド、ラ、ミ、長休止)、このような組み合わせは、まさしく、例えば、ある鳥のさえずりを別の鳥のさえずりと分かつものである。人間の耳が、森林地帯の耳障りな音からアカオノスリの声を聴き捕えることができるのと同様に、開示された実施形態に従って提供されたソフトウェアおよびハードウェア実行プロセスは、胎児の心拍モニターにおいて、耳障りな音から心雑音の音を識別することが可能であり得る。心拍に関するパーシャルチェーン領域/(角度パラメーター)の一例を図11に示す。この角度は、パーシャルチェーンの迎え角および減衰角である。非ランダム領域においては、一例として、非ランダム領域は、非倍音の数学的関係を有する検出されたパーシャルチェーンの1つまたは複数の発生であり得る。
図1は、本発明の開示されたある実施形態に従って行われる機能性を提供する様々なコンポーネントのブロック図である。アナログ信号受信モジュール101aは、物理的アナログ信号を捕捉する。アナログ信号受信モジュール101aは、例えば、テープを再生するテーププレイヤー、マイク、ビデオカメラ、または他のトランスデューサー等でもよい。アナログ・デジタル(A/D)変換器101bは、物理的アナログ信号をデジタル形式に変換する。ある可能な実施形態においては、A/D変換器101bは、例えば、デジタル・オーディオ・ワークステーション(DAW)を提供するデジタルオーディオ機器に埋め込まれてもよい。次に、デジタル形式を、例えば16ビット量子化と、例えば8KHzのサンプリング周波数とを用いて、生成してもよい。量子化の各ビットは、約6dBのダイナミックレンジを提供し得る。従って、この16ビット量子化例は、一部のオーディオ適用には十分であり得る合計約125dBのダイナミックレンジをもたらし得る。
それらに限定されることはないが、32ビットおよび24ビットを含む、他の量子化の選択肢も利用可能である。CD−ROM等の装置において一般的に使用されるように、量子化は、オーバーサンプリングおよびシグマデルタ変調を用いた単一ビットでもよい。アナログ信号受信モジュール101aおよびA/D変換器101bは、同一の装置または別々の装置でもよい。
ある開示された実施形態においては、アナログ信号受信モジュール101aおよびA/D変換器101bを介してデジタル信号を提供する代わりに、デジタル信号は、デジタル信号を保存するデータストレージ102によって提供されてもよい。データストレージ102は、例えば、ハードディスクドライブ、ネットワーク接続ストレージ(NAS)デバイス、フラッシュドライブ等の任意の種類のデータストレージでよい。しかしながら、データストレージ102は、これらの特定の例に限定されることはない。データストレージ102には、本発明の範囲から逸脱することなく、他の既存または今後開発されるデータストレージデバイスが含まれ得る。
開示された実施形態を利用して、多くの種類の信号を処理し得る。例えば、与えられたデジタル信号は、音声スペクトル、ビデオスペクトル、または他のスペクトルからのデジタル化アナログ信号でもよく、あるいは、デジタル形式に由来してもよい。
PMM生成モジュール103では、デジタル信号は、アナログ信号受信モジュール101aおよびA/D変換器101bから受信され得る、あるいは、例えばデータストレージ102から受信されてもよく、その後、PMMを生成するために変換され得る。PMM生成の非限定的一例の詳細が、特許出願第PCT/US2009/064120号に記載(上記に説明したように)されている。
PMM生成モジュール103によって生成されたPMM出力データ104は、任意のデータ形式のものでよい。データ形式の一例には、バイナリ型のテクニカルデータ管理ストリーミング(Technical Data Management Streaming)(TDMS)形式またはExcel(登録商標)のXML形式(XLSX)が挙げられる。カスタマイズされた独自のデータ形式を含む任意の適切なデータ形式を使用することができる。
ある開示された実施形態によれば、PMM出力データ104は、PMM出力モジュール105に提供されてもよく、このモジュールは、生成されたPMMデータを保存または送信するように構成された1種類または複数種類のデータストレージまたは送信装置において実施され得る。例えば、PMM出力モジュールは、静的ファイルを保存するように構成され得る、または、「リアルタイム」応用例において使用され得るデータをストリームするように構成され得る。さらに、PMM出力モジュール105は、PMMを保存するためのデータストレージを部分的に利用して実施されてもよい。代わりに、またはさらに、PMM出力モジュール105は、PMMを別の装置、例えばリバー可視化モジュール116に送信するように構成された送信装置において全体的あるいは部分的に実施されてもよい。これらの結果は次に、元の波形を変更するために、信号プロセッサまたは他の装置上で実行中のソフトウェアに入力され得る。
ある開示された実施形態によれば、リバー可視化モジュール116は、生成されたPMMデータを視覚的にとらえることができるように設計された1つまたは複数のユーザーインターフェースを生成する可視化装置を提供するコンピュータハードウェアおよびソフトウェアを介して実施されてもよい。このようなユーザーインターフェースは、任意で、タッチスクリーン技術またはグラフィカル・ユーザー・インターフェース(GUI)に関連する他の任意の種類の入力および命令制御方法を利用してもよい。
リバー可視化モジュール116は、例えば、印刷装置および/または例えば液晶表示装置や映写モニター等の表示装置を含むように実施されてもよい。可視化方法は、二次元のビューアーに限定されないことを理解されたい。従って、三次元および完全なホログラフィックディスプレイの使用も可能である。印刷装置例には、例えば、トナーベースのプリンター、液体インクジェットプリンター、インクレスプリンター等が含まれ得る。これらの実施形態例の他の中間結果もまた、リバー可視化モジュール116に提供されてもよい。
ある開示された実施形態においては、PMM出力モジュール105は、データストレージおよび可視化装置の両方を有することにより、所望の結果を得るように信号プロセッサを手動で調整することができる。
PMM出力データ104は、ユーザーおよび処理されている信号の要求に応じて、ソーティング、認定、および解析機能を行う様々なアルゴリズムに適用されてもよい。異なる解析アルゴリズムの範囲および数は、限定されない。
倍音領域計算モジュール106は、倍音領域計算アルゴリズムソフトウェアをPMM出力データに適用し得る。このモジュールの機能性により、倍音関係にあるパーシャルチェーンの発見が可能となる。この機能性は、米国特許第6,766,288B1号の基本波高速発見方法に開示された1つまたは複数のアルゴリズムを全体的または部分的に利用することによって実現され得る。
振幅領域計算モジュール107は、振幅によって定義される全てのパーシャルチェーンの発見を可能にし得る振幅領域計算アルゴリズムソフトウェアを適用し得る。このような機能性により、より小さい振幅のパーシャルチェーンから大きな音のパーシャルチェーンをソーティングすることがさらに可能となる。またこれにより、振幅増分を有するパーシャルチェーンの分離が可能となる。さらに、この機能性により、絶対閾値を上回るまたは下回る信号の分離が可能となり得る。
反復領域計算モジュール108は、周波数毎に反復する回数によって定義される全てのパーシャルチェーンの発見を可能にし得る反復領域計算アルゴリズムソフトウェアを適用し得る。時間が経つにつれ、この機能性により、経時的および期間内の反復イベントの発見がさらに可能となり得る。さらに、この機能性により、反復チェーンのサブグループとしての反復パーシャルチェーンの位置特定も可能となり得る。
周波数領域計算モジュール120は、ある規定の周波数範囲または周波数の増分内のパーシャルチェーンの発見を可能にし得る周波数領域計算アルゴリズムを適用し得る。
時間領域計算モジュール117は、時間の範囲または増分によって定義されるパーシャルチェーンの発見を可能にし得る時間領域計算アルゴリズムを適用し得る。
メモリ領域計算モジュール118は、データベース等のメモリからロードされ得るパーシャルチェーン/信号パターンをマッチさせる/相関させるように構成されたメモリ領域計算アルゴリズムを適用し得る。さらに、一致する/または一致しないパーシャルチェーンもまた、メモリ内に保存され得る。なお、保存されたパーシャルチェーンは、新規および固有のパーシャルチェーンとして、任意で保存されてもよいことを理解されたい。
非ランダム領域計算モジュール119は、他の領域によって規定されない形で数学的に関連し得るパーシャルチェーンの発見を可能とするように構成された非ランダム領域計算アルゴリズムを適用し得る。従って、モジュール119によって、ノイズまたは他の自然または不自然なランダム信号に埋め込まれ得る信号の発見も可能となり得る。
パーシャルチェーン領域計算モジュール109は、例えば、(a)同時開始時刻、(b)同時停止時刻、(c)一致パーシャルチェーン長さ、(d)一致パーシャルチェーンピーク、(e)経時的なパーシャルチェーンの振幅増加の角度、および/または(f)経時的なパーシャルチェーンの振幅減少の角度によって定義される全てのパーシャルチェーンの発見を可能にし得るパーシャルチェーン領域計算アルゴリズムソフトウェアを適用し得る。場合によっては、開始周波数、ピーク周波数および終了周波数が指定されてもよい。同様に、振幅または時間を使用してもよい。
組み合わせ領域計算モジュール110は、現在解析中の信号に応じて、2つ以上の領域アルゴリズムを組み合わせて実施することを可能にする領域計算アルゴリズムの組み合わせを適用し得る。この機能性を提供するために使用される複数のアルゴリズムは、領域アルゴリズムにおいて定義されたパラメーターを合計するように構成されたソフトウェアを起動し得る、組み合わせ領域出力再計算モジュール111に適用され得る。
組み合わせ領域出力再計算モジュール111の出力は、領域の組み合わせのパーシャルチェーン発見結果を見るためにリバー可視化モジュール116にさらに入力されてもよい。
組み合わせ領域出力再計算機モジュール111の出力は、フィルター計算モジュール112に適用されてもよい。このモジュール112の機能は、フィルターアプリケーションモジュール113において使用するための専用フィルターを構築するためのものである。このようなフィルターアプリケーションモジュール113は、デジタル信号ファイルにおける不要または必要な信号をフィルターにかけるために、フィルター計算モジュール112の出力を実施するように構成され得る。フィルターは、FIRまたは12Rタイプのものでもよいが、これらのタイプのフィルターに必ずしも限定されない。さらに、フィルターの深さおよびバンド幅もまた、フィルターパラメーター制御の一部であり得る。
再計算出力モジュール114は、信号差/フィルタリングされた出力を得るために、元のデジタル信号に対してフィルターアプリケーション小塊113の出力を実行するために使用されるように構成され得る。場合によっては、フィルタリングされた絶対な信号とは対照的に、差信号を用いることが必要となる場合がある。再計算出力モジュール114の出力は、リバー可視化モジュール116に入力することができる。このプロセスの結果は、三次元またはホログラフィックディスプレイ型のユーザーインターフェースを可能とするように構成され得る多次元出力モジュール116にも入力され得る。例えば、米国特許第6,798,886B1号の信号細断方法および米国特許第7,003,120B1号の複合波形の倍音内容を変える方法を参照されたい。
上記の様々なモジュールの機能性をより理解するために、波形を正確に測定するための新規の領域識別および分離方法と機能性とを提供する、前述の図1に示したコンポーネントの動作の代替表示を図13に示す。図13に図示するように、1001における入力信号は、信号処理モジュール1002に提供される。モジュール1002は、測定エンジン1003、マーキングエンジン1004、および比較エンジン1005を含み、これらは、PMMを生成するために効果的に協働する。
信号処理モジュール1102に含まれるこれらのエンジン1003〜1005の各々(および信号処理モジュール1002自体)が、少なくとも1つの中央処理装置(CPU)および少なくとも1つのメモリ装置(図13には図示されないが、例えば、図1においては102として示される)を有する1つまたは複数のコンピュータを利用して実施され得る。
さらに、測定エンジン1003、マーキングエンジン1004、および比較エンジン1005は、全体的または部分的に、例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)、デジタル信号処理(DSP)チップ、グラフィック・プロセッシング・ユニット(GPU)、特定用途向け集積回路(ASIC)等を利用して実施され得る。さらに、測定エンジン1003、マーキングエンジン1004、および比較エンジン1005は、1つまたは複数のエンジンとして少なくとも部分的にソフトウェアモジュール(図1を参照して上記に説明)を利用して実施され、コンピュータ可読ストレージに保存され得る。
比較エンジン1005によって生成されたPMMは、上記のハードウェアを1つまたは複数のソフトウェアアルゴリズムと併せて全体的または部分的に利用することによっても実施され得る複数領域分解解析エンジン1006に提供され得る。この複数領域分解解析エンジン1006の出力は、例えば、出力データ1008として直接提供され得る(この実施は不図示)、または出力データ1008としてフィルターエンジン1007を介して提供され得る領域行列でもよい。
本開示で説明したように、開示された実施形態は、例えばコンピュータを含み得るハードウェアの1つまたは複数の部品で機能するソフトウェアを利用して実施され得る。従って、開示された実施形態は、シングルコアのシングルプロセッサ、マルチコアのシングルプロセッサ、またはシングルまたはマルチコアのマルチプロセッサ上で実行され得る。さらに、ソフトウェアは、1つまたは複数のユーザーインターフェースとやりとりする1つまたは複数のサーバー上で実行されることにより、1つまたは互いに離れた場所であり得る複数の場所でPMMデータの可視化を提供し得る。
さらに、このソフトウェアは、図1および図13に図示されるモジュール、コンポーネントおよびエンジンに関して本明細書に開示した機能性を実現し得る。開示された実施形態によって提供される機能性の一部、または全ては、ソフトウェア、汎用または特殊デジタル信号プロセッサチップ、専用ハードウェア、ファームウェア等を用いて提供され得る。さらに、この機能性は、例えば、コンピュータまたは他のモジュールに搭載されるデジタル信号プロセッサチップを含む1つまたは複数の回路基板上で実現され得る。
開示された実施形態によって提供される機能性の幾つかは、並列計算ハードウェアを用いて実現され得る。従って、例えば、並列プロセッサ計算装置のメインメモリは、共有メモリ(1つのアドレス空間における全ての処理要素間での共有)または分散メモリ(各処理要素は、独自のローカルアドレス空間を有する)のどちらか一方でもよい。
PMMおよび領域は、発見および表示およびフィルタリングに使用される一方で、様々な他の機能のためにも(あるいは代替的に)使用され得る。例えば、開示された領域/基準、および他の同等または類似の未知の領域/基準の適用によって、実質的にデータ解析が有用なあらゆる分野においてデータ(PMM)を取捨選択し得る。
従って、開示された実施形態の機能性は、それらに限定されることはないが、例えば、音声を含む信号時間変動解析、音声スペクトル解析、任意の周波数範囲で応用可能な産業における信号解析、データ圧縮、聴覚障害者用のデジタル蝸牛、「声紋」情報等を含む広範囲に応用できることを理解されたい。図11は、例えば、心拍の角度を示す。
さらに、開示された実施形態により提供される機能性および技術的効果を利用して、他の信号プロセッサ、解析装置、アルゴリズム、システムおよび機関に対して新しい入力または改善された入力を提供し得る。例えば、時間−周波数平面にわたる関連したパーシャルチェーンと、各チェーンに沿った振幅または補間振幅との記録は、特定の信号源の成分の豊富かつ簡潔な記録を提供し得る。特に、PMM視覚表示においてパーシャルがパーシャルチェーンへとリンクされる場合に、より強い信号によって以前は隠されていた信号を測定および可視化することができる。PMMまたは領域基準の何れか1つからの出力は、既存の信号発見システムおよびマシンのための「サイドチェーン」制御として使用され得る。
開示された実施形態を用いて、音声成分を正確に測定し、それらの音成分が音の混合物を含む複合波形の一部である場合でも、それらの成分を構成要素に分けることができる。さらに、例えば、音が、短期または長期バーストで出現する、および/またはピッチおよび/または振幅に関して変化している場合であっても、開示された実施形態は、音を含む複合波形にも用いることができる。
本明細書に記載した実施例および実施形態は、非限定的な例である。例示的な実施形態について、実施形態を詳細に説明したが、当業者には、変更および変形を、より広い観点の本発明から逸脱することなく行うことが可能であることが上記から明らかであり、従って、特許請求の範囲に規定される本発明は、そのような全ての変更および変形を、本発明の真の精神の範囲内に包含するものとする。
関連出願の相互参照
本出願は、2010年9月1日に出願された米国特許出願第61/379,092号および2009年11月12日に出願されたPCT特許出願第PCT/US2009/064120号に基づく優先権を主張し、当該出願に記載された全ての記載内容を本明細書に援用する。
本発明は、波形および複合波形の時間・周波数・振幅解析および測定と、その波形および複合波形を構成要素に分けることとに関する。なお、「信号」という用語は、より一般的な「波形」のよく知られた同意語であり、両者は、本明細書において交換可能に用いられ得る。複合波形は、混ざり合った複数の波形(または信号)からなる。本明細書の大部分は、可聴周波数範囲について言及するが、本発明の目的のための波形は、ある特定の周波数範囲または複雑性に限定されることはない。プロセスの一部として波形/信号を測定するあらゆる技術に対して、記載される本マシンおよび発見プロセスが役に立ち得る。
ある複合波形が与えられると、複数のソースから生じた可能性のある波形およびその成分を正確に測定することが望ましい。このことは、波形が、時間および周波数に関して重複する異なるソースによって生成された信号、より高いエネルギー/振幅信号によって覆い隠された低エネルギー/振幅信号、周波数の急激な変化、および/または振幅の急激な変化を含む場合には困難である。もしこれらの波形をより正確に測定および解析し、その情報を異なる領域に分けることができれば、これらの波形が何を含むかを理解する能力や、これらの波形の分離および/または変更方法を理解する能力が大幅に向上するであろう。
従来、波形は、時間および周波数領域で解析される。通常、これらの波形は、まず時間の振幅サンプルとしてデジタル的に捕捉され、次に、一連の変換を用いてそれらの信号を測定し、その結果を、時間、周波数および振幅の行列で表示する。時系列データから時間/周波数/振幅情報を抽出するための様々な技術が開発されている。しかしながら、時間に対して周波数および振幅がどのように変化するかを表すことは、突然の周波数および/または振幅変化が存在する場合、または複数のソースからの信号が同じ時間および周波数領域を占有する場合に特に困難となり得る。
時間、周波数、および振幅の情報を得るための一般的な変換の1つは、離散フーリエ変換(DFT)である。残念ながら、DFTのサイズ(規模)によって生じる、周波数分解能および時間分解能間のトレードオフが存在する。DFTによって検査される時間ウィンドウは、その規模に比例する。従って、大規模なDFTは、小規模のDFTと比較して、より大きな時間ウィンドウを検査する。このより大きな時間ウィンドウによって、動的変化に対する大規模なDFTの反応が遅くなる。
逆に、大規模なDFTは、周波数範囲をより細かいセグメントに切り分ける。DFTによって測定される最大周波数は、デジタル化信号のサンプリングレートの半分である。寸法XのDFTは、0〜最大値の周波数範囲をX/2の等サイズの「ビン」に分割する。従って、DFTにおける各周波数ビンのサイズは、サンプリングレートをその寸法で除算したものに等しい。
従って、より大規模なDFTは、より高い周波数分解能を有するが、より低い時間分解能を有する。より小規模のDFTは、より高い時間分解能を有するが、より低い周波数分解能を有する。このトレードオフにより、実践者らは、動的で時間変動する波形を、時間および周波数の両方に関して良好な分解能で正確に表すための改変DFTまたは他の代替方法を模索してきた。
本発明者らは、本明細書に援用される幾つかの特許を公表してきた。これらの特許は、米国特許第6,766,288B1号の基本波高速発見方法、米国特許第7,003,120B1号の複合波形の倍音内容を変える方法、および米国特許第6,798,886B1号の信号細断方法(Method of Signal Shredding)である。2009年11月12日に出願された精密測定行列PMM(Precision Measuring Matrix)の特許出願第PCT/US2009/064120号もまた本明細書に援用される。
本発明により、アナログ信号の変換またはデータストレージからデジタル信号を得る工程と、マーキングされた相関最大値を有する、特定の時間および周波数に対する振幅を含むセルからなる1つまたは複数の精密測定行列(PMM)を特許出願第PCT/US2009/064120号の通りに構築する工程と、複雑な複合波形内において、音源の識別および分離を行うために、PMMにおける最大値および最大値のパーシャルチェーンの領域関係を用いて関連セルを識別する工程とを含む、デジタル信号処理のためのマシン実施方法が提供される。
本出願において請求される拡大部分は、PMMにおいて関連セルを識別するための新しい方法からなる。
PMMの関連セルを識別する新しい方法は、以下の「領域」関係:周波数、時間、振幅、倍音、開始時刻、停止時刻、ピーク時刻、長さ、迎え角および減衰角、周波数の反復(非倍音)、パターンの反復、メモリに含まれるパターンおよびメモリに含まれないパターン、および非ランダム数学的関係、を含む。具体的には、これらの方法の1つ、またはこれらの方法の複数の組み合わせで関連付けられた最大値セルおよび/または最大値セルのチェーンが、識別され、フラグを立てられる。このように関連付けられたセルは、ソース識別の関心の対象である。
開示された様々な実施形態の機能を示すブロック図である。
全てのPMMイベントを示す、オーディオサンプル信号に関するビジュアライザー三次元スクリーンショットである。
サンプルに関して規定の振幅レベルを上回って生じていることを示す分解された振幅領域イベントの三次元スクリーンショットである。
サンプルオーディオ信号に関して倍音関係にあることを示す倍音領域イベントの三次元スクリーンショットである。倍音関係にあるイベントを発見するための米国特許第6,766,288B1号の基本波高速発見方法の通りである。
サンプルオーディオ信号に関して倍音関係にあることを示す倍音領域イベントの二次元スクリーンショットである。倍音関係にあるイベントを発見するための米国特許第6,766,288B1号の基本波高速発見方法の通りである。
反復領域イベントの三次元スクリーンショットである。1つの周波数ビンにつき10秒ごとに15のイベントという反復イベントを第2のオーディオサンプルに関して示す。
反復領域イベントの二次元スクリーンショットである。1つの周波数ビンにつき10秒ごとに15のイベントという反復イベントを第2のオーディオサンプルに関して示す。
倍音領域および振幅領域の組み合わせ領域の二次元スクリーンショットである。
全てのPMMイベントを示す、第3のオーディオサンプル信号に関するビジュアライザー三次元スクリーンショットである。
第3のオーディオサンプルに関して規定の振幅範囲内で生じたことを示す振幅領域イベントの三次元スクリーンショットである。
第3のオーディオサンプルに関して開始時刻によってソーティングされたパーシャルチェーン領域の三次元スクリーンショットである。
第3のオーディオサンプルに関して開始時刻によってソーティングされたパーシャルチェーン領域の二次元スクリーンショットである。
パーシャルチェーン領域のスクリーンショットである−第3のオーディオサンプルに関して長いチェーン(0.375秒を超える)。
パーシャルチェーン領域のスクリーンショットである−第4のオーディオサンプルに関する角度パラメーターを示す。
第5のオーディオサンプルに関して倍音関係にあることを示す倍音領域イベントの三次元スクリーンショットである。
開示された実施形態のユーティリティを説明するための代替説明図である。
上記に説明したように、開示される実施形態により、得られたデジタル信号に基づいて構築された精密測定行列(PMM)において、関連セルを識別する新しい方法が提供される。出願第PCT/US2009/064120号に説明したように、PMMは、マーキングされた相関最大値を有する、特定の時間および周波数に対する振幅を含むセルからなる。PMMにおける最大値および最大値のパーシャルチェーンの領域関係を用いて関連セルを識別することにより、複雑な複合波形内において、音源の識別および分離を行うことが可能となる。従って、PMMにおいて関連セルを識別する新しい方法は、多大な有用性および実用性を持つ。
開示される実施形態の詳細な説明に先立ち、大まかに言えば、PMMは、複数のDFT(またはそれらの等価物)を行い、それによって解析されるデジタル信号のスペクトル振幅を表すセルの行列である測定行列(MM)を生成することにより構築されることを理解されたい。従って、ある特定のタイムスライスに関して、各DFTは、1行または1列のセル(各周波数ビンに対して1つのセル)を生成する。
PMMは、特許出願第PCT/US2009/064120号に記載したように、マーキングされた相関最大値を有するMMから生成された時間、周波数および振幅イベントの行列である。必要であれば、当該特許出願において説明したように、確実にPMM全体にわたって適切にカバーされるように、生成されたMMを拡大することによって、重複部分を提供してもよいことを理解されたい。
本開示によれば、PMMにおいてセルを関連付ける新しい方法が提供される。より詳細には、セルは、以下の「領域」関係:周波数、時間、振幅、倍音、開始時刻、停止時刻、ピーク時刻、長さ、迎え角および減衰角、周波数の反復、パターンの反復、メモリに含まれるパターンおよびメモリに含まれないパターン、および非ランダムな数学的関係によって関連付けられ得る。従って、これらの方法の1つ、またはこれらの方法の複数の組み合わせで関連付けられた最大値セルおよび/または最大値セルのチェーンは、識別され、フラグを立てられ得る。その結果、そのように関連付けられたセルは、ソース識別の候補として識別され得る。
開示の実施形態に関するこの予備的かつ一般的な説明を念頭において、以下の詳細な説明において使用される様々な用語のより具体的な定義を以下に示す。
定義
以下の定義を本明細書において使用する。
FT:フーリエ変換−波形のスペクトル振幅を計算するアルゴリズムである。
DFT:離散フーリエ変換−離散(デジタル化)波形のスペクトル振幅を計算するアルゴリズムである。DFTの出力は、複素数または単に実振幅であり得る。本発明の好ましい実施形態の多くは、実振幅のみを必要とする。明確に複素数と記載されなければ、本明細書においては、DFTへの言及は全て、実振幅出力のDFTに関するものである。
FFT:高速フーリエ変換−高速で機能するDFT方法であり、この方法は広く知られており、その名称は、DFTと同意語として使用されることが多い。DFTおよびFFTは、本明細書において、交換可能に使用される。
ウィンドウ:フーリエ変換(またはその等価技術)によって使用される時間の部分である。DFTにおいては、ウィンドウサイズ(サンプル数単位)は、DFTの規模として知られる。例えば、信号が1秒につき8,000サンプルでデジタル化される場合には、4,000の規模のDFTは、4,000サンプル(2分の1秒)のデータに対して動作する。
ウィンドウイング技術:ウィンドウ内のサンプルが全て等しく扱われるわけではない公知のDFT方法である。例えば、規模4,000の単純なDFTは、4,000のサンプルを単純に変換する。ウィンドウイング技術を用いた場合、4,000のサンプルは、中間のサンプルにより多くの重みを置き、先頭および最後のサンプルにより少ない重みを置くように変調される。ウィンドウイング技術は、DFTの周波数応答において、サイドローブ/アーチファクトを低減するように設計されている。
dB:デシベル−例えば、特に振幅またはエネルギーセルに使用される音響および電子測定や計算に用いられる測定の対数比率である。
dBFS:dBフルスケール−デジタル表現における最大ピークレベルと比較したデシベルである。
タイムスライス:時間の一部である。例えば、タイムスライスは、データのある特定の時間ウィンドウに対して行われたFFTによって表現され得る。しかしながら、ウィンドウは通常、それが表すタイムスライスと比較してかなり大きく、タイムスライスの中心に位置する。タイムスライスのサイズは、ウィンドウのサイズではなく、順次行われるFFT実行間の間隔によって決定される。1秒につき8,000サンプルのデジタル化信号の場合、新しいFFTが8サンプル毎に実行されるとすると、タイムスライスは、8サンプル(1ミリ秒)の幅である。FFTウィンドウは、4,000サンプル(2分の1秒または500タイムスライス)の幅でもよい。
周波数ビン:周波数の小領域(例えば、1,702〜1,704Hz)である。
セル:行列における単位である。通常は、1つのセルは、1つのタイムスライスにおける1つの周波数ビンを示し、dBFSの振幅を含む。なお、セルを有することにより、周波数または時間分解能が制限されることはない。1つのビンにおいてカバーされる周波数範囲は、例えば、0.001Hzであり得る。同様に、1つのタイムスライスは、0.001秒より小さくてもよい。
MM:測定行列−経時的な波形のスペクトル振幅を表すセルの行列である。測定行列は、繰り返し行われるFFT(または等価物)によって生成される。各FFTは、そのタイムスライスに関して、1行(または1列)のセル(各周波数ビンに対して1つのセル)を生成する。各セルにおける振幅は、当該タイムスライスにおける当該周波数ビンに関する振幅である。次に、セルは検査され、必要に応じて最大値としてマーキングされる。測定行列は、ニア・リアルタイムで連続信号を処理する場合に、無限長さを有し得る。限られた時間の波形に関しては、測定行列は、有限長さを有し得る。
最大値セル:1つまたは複数種類の最大値を有するとしてマーキングされたセルである。
単純最大値セル:直近のセルよりも大きい振幅を有するセルである。あるセルの振幅が、同じタイムスライス内において周波数に関してすぐ上のセルとすぐ下のセルの振幅よりも大きい場合、このセルは、周波数ピーク単純最大値である。あるセルの振幅が、同じ周波数ビンにおいて時間に関してすぐ前のセルとすぐ後のセルの振幅よりも大きい場合、このセルは、時間ピーク単純最大値である。1つのセルが、時間および周波数両方の単純最大値となることも可能である。時間ピークおよび周波数ピーク単純最大値セルは、区別してマーキングされてもよく、あるいは、同義語として扱われ、略して、単に「単純最大値セル」または「単純最大値」と呼ばれてもよい。
関連最大値(「弟」("little brother"))セル:単純最大値に隣接するセルであり、このセルの振幅は、単純最大値の振幅の指定の閾値内であり、かつ反対側のセルの振幅よりも大きい。あるセルが周波数ピーク単純最大値である場合、同じタイムスライスにおける周波数に関して単純最大値のすぐ上およびすぐ下のセルは、関連最大値の候補である。あるセルが時間ピーク単純最大値である場合、同じ周波数ビンにおけるその直前および直後のセルは、関連最大値の候補である。ある開示された実施形態においては、時間ピーク単純最大値に先行する候補セルにおける振幅が、単純最大値の振幅の2dB以内であり、かつ、それに先行するセルの振幅よりも大きい場合には、この候補セルは、弟としてマーキングされる。ある開示された実施形態においては、周波数に関して周波数ピーク単純最大値のすぐ上の候補セルにおける振幅が、単純最大値の振幅の3dB以内であり、かつ、周波数に関してそのすぐ上のセルの振幅よりも大きい場合には、この候補セルは、弟としてマーキングされる。時間に関して隣接する弟のdB閾値は、周波数に関して隣接する弟のものと同一である必要はない。時間および周波数の弟は、区別してマーキングされてもよく、あるいは、同義語として扱われ、単に弟としてマーキングされてもよい。単一のセルが、その両方となることも可能である。
角度最大値セル:そのセルとその両側の隣接セルとの振幅の差が所与の閾値よりも大きく変化するセルである。ある開示された実施形態では、あるセルが、同じ周波数ビンにおける時間に関して直前のセルよりも4dB大きいが、その後に続くセルよりも1dBだけ小さい場合には、この3dBの差により、このセルを角度最大値(具体的には、時間角度最大値)とみなす。周波数角度最大値は、あるセルの振幅を、同じタイムスライスにおける周波数に関してそのすぐ上およびすぐ下のセルの振幅と比較することによって、同様に見つけられる。角度最大値は、周波数角度最大値および/または時間角度最大値として区別してマーキングされてもよく、あるいは、同義語として扱われ、単に、角度最大値としてマーキングされてもよい。単一のセルが、両方の最大値となることも可能である。
バーグラー最大値セル(Burglar Maximum Cell):信号ピークがDFTウィンドウに入る際およびDFTウィンドウから出る際の振幅変化を測定することによって最大値が検出される最大値セルである。ある周波数ビン内のエネルギーピークは、セルの変換ウィンドウ内にピークがある当該ビンにおける全てのセルの振幅に影響を与える。変換ウィンドウが、例えば、500タイムスライスの幅であれば、そのピークは、抜け出る前に500タイムスライス(セル)のウィンドウに入る。振幅の増加を500タイムスライス後の減少と比較し、かつ両者を指定の閾値と比較することによって、バーグラー最大値を宣言することができる。次に、中間の1つまたは複数のセルにマーキングを行う。ピークが1つのタイムスライスの継続期間よりも長ければ、エネルギーは、多数のセル(タイムスライスまたは行)に亘って増加し、同様に、500セル後に減少して戻り、中間の複数のセルは、バーグラーセルとしてマーキングされる。従って、他の種類の最大値とは異なり、バーグラー最大値は、1つのセルをすぐ隣のセルと比較することによっては検出されない。ウィンドウは、1つのタイムスライスよりもかなり広くなり得るので、振幅変化は、マーキングされる1つまたは複数のセルからかなり離れたセルにおいても見られ得る。また、単純、関連および角度最大値とは異なり、バーグラー最大値は、時間最大値としてのみ存在することができ、類似の周波数最大値は存在しない。
パーシャル(Partial):マーキングされた最大値セル(例えば、単純最大値弟)である。
パーシャルチェーン(Partial Chain):互いにリンクした(近接によって)パーシャルの集合体またはチェーンである。パーシャルチェーンは、1つのタイムスライスにつき1つまたは複数のパーシャルを含み得る。パーシャルチェーンは、直線、曲線および/または角を成す線として、複数のタイムスライスを横断し得る。パーシャルチェーンは、リンクされたセルとみなされる。パーシャルチェーンは、「チェーン」または「イベント」としても知られる。なお、パーシャルチェーンは、複数のパーシャルからなるチェーンであり、不完全なチェーンではない。
チェーン:パーシャルチェーンと同義語である。
イベント:互いにリンクされたパーシャルの集合体−パーシャルチェーンと同義語である。
PMM:精密測定行列−特許出願第PCT/US2009/064120号に記載したような、マーキングされた相関最大値を有するMM由来の時間、周波数および振幅イベントの行列である。
可視化モジュール(Visualization Module):3次元可視化モジュールで示されたPMMである。
領域:イベントを構成要素に分けるためのカテゴリーである。
周波数領域:(一般に知られている)「イベント」が生じた時の周波数である。周波数に基づくイベントの識別または分離である。
時間領域:(一般に知られている)「イベント」が生じた時の時間である。時間に基づくイベントの識別または分離である。
振幅領域:振幅に基づいて識別された「イベント」の領域である。
倍音領域:倍音関係にあるイベントである。一般的な倍音関係にあるパーシャルチェーン周波数に基づくイベントの識別および/または分離である。かなり同時に生じたイベントは、互いに倍音関係にある別々の周波数イベントを有し得る。
反復領域:経時的に反復するイベントである。周波数毎の反復チェーンイベントに基づくイベントの識別または分離である。それぞれ異なる時間に生じるイベントは、イベント間の間隔およびそれらの時間に関する反復発生頻度によって関連付けることができる。
パーシャルチェーン領域:単純な点で類似したイベントである。コヒーレント開始時刻、コヒーレント停止時刻、コヒーレントピーク時刻、チェーンの迎え/減衰角、および/またはチェーンの長さに基づくイベントの識別または分離である。
メモリ領域:形状およびその形状がメモリに保存された形状とどのように比較されるかの理由で関心の対象となるイベントである。あるイベントは、その形状が既にメモリに保存された予め考えられた形状と一致するため、関心の対象となり得る。また、あるイベントは、その形状が、メモリ中の既知の形状と一致しないため、関心の対象となり得る。なお、予め考えられた形状との一致は、おおよそのものでもよく、あるいは、単純にある形状基準との一致(例えば、らせん形状のあらゆるイベントまたは右回りのらせんのみが関心の対象となり得る)に関するものでもよい。
非ランダム領域:非ランダムとして識別できるイベントである。他の領域において定義されない数学的関係を有するパーシャルチェーンである。
領域の組み合わせ:オペレーターが各領域に関連するパラメーターを組み合わせる、および調整することにより、信号イベントを分離することができる。
信号の発見は、上記の領域に限定されなくてもよい。
本開示の実施形態のより詳細な説明に先立って、実施形態の背景を完全に開示するために、以前に出願された出願第PCT/US2009/064120号(ここに援用される)において提供された技術を裏付ける概要の説明を行う。この以前に出願された開示の実施形態によれば、デジタル信号処理のためのマシン実施方法が提供される。この方法には、アナログ信号の変換またはデータストレージからデジタル信号を得る工程、特定の時間および周波数に関する振幅を含むセルからなる1つまたは複数のMMを構築する工程、セルの振幅の比較に基づいてこれらの行列における最大値をマーキングする工程、および複数の最大値が時間および周波数の両方で一致する相関最大値を見つけ出すために、これらの最大値を関連付ける工程が含まれる。従って、PMMと呼ばれる新規の行列が、マーキングされた相関最大値と共に生成される。(なお、これら最大値の全ては、極大値であり得るが、簡潔さのために、単に「最大値」と呼ばれる。)
各MMは、例えばFFTを用いた入力信号の反復変換によって生成され得る。各変換は、入力信号において、タイムスライスと呼ばれる時間の一部を表し、各セルが周波数ビンと呼ばれる周波数範囲に対応する1行のセルを有する。各セルには、対応する周波数ビン/タイムスライスの信号強度を表す振幅が投入される。好ましくは各タイムスライス(および/または周波数ビン)に沿った最大振幅を有する各MMにおけるセルが、識別され、マーキングされてもよい。
最大値を識別するための様々な方法を用いて、多種の最大値を得ることができる。時間および周波数に関して一致する様々な行列における最大値および/または様々な種類の最大値は、PMMにおいてマーキングされてもよい。次に、PMMにおいて隣接する相関最大値は、近接によって、パーシャルチェーンとして互いにリンクされてもよい。
最大値セルは、その振幅を隣接するセルの振幅と比較する、または他の具体的に関連したセルの振幅と比較することによって識別され得る。セルは、そのセルの振幅が隣接するセルの振幅を上回る場合に、単純最大値セルであり得る。他の種類の最大値には、関連「弟」最大値、角度最大値、およびバーグラー最大値が含まれる。同じタイムスライスおよび周波数ビンに関して複数の最大値が見つかる場合には(通常、異なるMMにおいて)、これらの最大値は一致し、PMMにおける対応するセルは、相関最大値としてマーキングされてもよい。PMMにおける各セルの振幅には、由来するMMにおける対応セルの値の関数が投入される(例えば、加重平均)。
出願第PCT/US2009/064120号によれば、時系列信号の瞬時周波数および振幅の高分解能かつ正確な測定を行うことができる。これは、様々なサイズの複数のMMを構築し、それらのMMにおける最大値にマーキングを行い、次にそれらの最大値を相互に関連付けることにより達成することができる。より小規模の変換により、より良い時間分解能が得られる一方で、より大規模な変換により、より良い周波数分解能が得られる。このため、2つ以上の測定行列(例えば、時間および周波数分解能に関して異なる)を用いて、PMMを構築する。PMMにおいて隣接する最大値は、パーシャルチェーンと呼ばれるチェーンにリンクされることが可能である。このリンクは、同一または近接する周波数ビンに存在する隣接するタイムスライスにおける任意の2つの最大値セルをつなげることによって達成される。
出願第PCT/US2009/064120号に開示のある実施形態においては、2つのMMが、異なる規模のFFTを用いて作成されてもよく、単純最大値および弟(時間および周波数の両方に関する)が、弟に関して2dBの閾値を用いてマーキングされてもよい。この実施形態においては、4種類の最大値の全て(すなわち、時間または周波数、および単純または弟)が、単に「最大値」として全てマーキングされてもよい。PMMは、2つのMMにおけるセルを一致する時間および周波数で比較し、両方が最大値を有する場合に、PMMにおいて最大値にマーキングを行うことによって生成される。PMMのセルには、元のMMにおける対応セルの平均振幅が投入される。
出願第PCT/US2009/064120号の発明概念の他の実施形態は、この実施形態に対するバリエーションによって生み出され得る。従って、時間最大値を取り止めて、周波数最大値のみを使用することが可能である。弟閾値を2dBから他の任意の値に変更する、あるいは弟を除外することが可能である。3つ以上のMMを作成し、互いに関連付けることも可能である。3つ以上のMMを使用する場合には、それら全てのMM間の一致が必ずしも共通するものである必要はない。例えば、5つの異なる測定行列が使用される場合、同じ時間および周波数における5つの最大値のうちの3つが、相関最大値を識別するために必要となるかもしれない。
また、単純に、全ての最大値を等しく扱う、または同じ重みで扱う代わりに、弟を単純最大値とは異なるように扱ってもよい。相関最大値の基準は、単純な計数または加算よりも複雑となり得、任意の数式が可能である。
また、相関最大値は、異なる周波数範囲に対して異なる方法で決定されてもよい。低周波に対しては、周波数分解能を向上させるには、より大規模の測定行列が必要となり得る。逆に、高周波に対しては、より小規模の測定行列でうまくいく場合がある。
これらのバリエーションの任意の組み合わせを使用してもよい。また、任意のウィンドウイング技術を使用してもよい。複数のMMを、同じ規模のFFTを用いるが、異なるウィンドウイング技術を用いて生成することも可能である。その場合、これらのMMにおいて最大値にマーキングが行われ(場合によっては異なるマーキング基準を用いて)、次に、相関最大値を見つけ、PMMを構築するために、これらのMMが比較されてもよい。あるいは、異なる規模および異なるウィンドウイング技術を用いて、複数のMMを作成してもよい。従って、可能な組み合わせには、きりがない。
出願第PCT/US2009/064120号において提供された技術的革新のこの理解を念頭において、今回開示する実施形態を以下に説明する。具体的には、今回開示する実施形態により、PMM(例えば、PCT/US2009/064120号に開示された方法論に従って作成されたもの)において関連セルを識別するための新しい方法が提供される。PMMにおけるこのような関連セルは、複雑な複合波形内の音源を識別および分離するために識別され得る。各PMMは、複数のセルからなり、各セルは、ある特定のタイムスライス内の周波数ビンを表す。各セルは、その時間(当該タイムスライスに包含される時間の範囲)における、その周波数(当該ビンに包含される周波数範囲)の信号強度を表し得る振幅値を含み得る。従って、幾つかのセルは、隣接のセルよりも大きな振幅を含むことを意味するピークとしてマーキングされ得る。ピークとしてマーキングされたセルは、通常、有意な信号を表すと考えられ得る一方で、その他のセルには、通常マーキングが行われず、背景雑音であり得る。次に、周波数および時間に関して隣接する(またはほぼ隣接する、例えば、所定の、あるいは許容可能な位置数だけ場所が異なる)マーキングされたセルは、パーシャルチェーンへと共にリンクされ得る。
従って、今回開示される実施形態によれば、PMMにおいてセル、パーシャルチェーンおよび/またはイベントを関連付ける新しい方法は、振幅、倍音関係、反復、開始時刻、停止時刻、ピーク時刻、長さ、迎え角および減衰角、メモリに含まれるパターン、メモリに含まれないパターン、周波数および/または時間、非ランダム発生パターンによってそれらを関連付けることができる。具体的には、これらの方法の1つ、またはこれらの方法の組み合わせで関連付けられるセルのグループおよび/またはチェーンが、識別され、フラグを立てられ得る。
図1に示される可視化モジュール116のスクリーンショットである図2〜12において、時間軸は、左右方向であり、周波数軸は、前後方向であり、低周波から高周波へと色付けされている。このようなスクリーンショットを表示するコンピュータモニターがカラーモニターである場合には、低周波は、例えば紫で示され、高周波は、例えば赤で示されてもよいことを理解されたい。振幅は、高さで表示されてもよく、色は、振幅が大きくなるにつれて、より薄く表示されてもよい。
全てのPMMイベントを示す第1および第2のオーディオサンプル信号の三次元スクリーンショットを、図2および図7にそれぞれ示す。
ある開示された実施形態によれば、パーシャルチェーンが−70DBFS〜−80DBFSの範囲内にあるような振幅を有するソースを求め得る。従って、−80〜−90DBFSの範囲にあるセル(またはチェーン)のみが、検討材料として識別され得る。部分的にその範囲内であるが、時折その範囲からそれるチェーンであっても、許容し、考慮してもよい。他のサンプルに関する0dB〜−60dBの範囲の振幅領域のスクリーンショットの一例を図3に示し、他のサンプルに関する−85dB〜−95dBの範囲の振幅領域のスクリーンショットの一例を図8に示す。
開示された別の実施形態によれば、倍音関係にあるとして識別されたパーシャルチェーン(上述の米国特許第6,766,288号のような)は、関連付けられ、同じソースからの可能性があると見なされ得る。これは、倍音領域と呼ばれ得る。このタイプの例を、あるサンプルに関しては図4Aおよび4Bに示し、他の第5のサンプルに関しては図12に示す。
開示された別の実施形態によれば、ソースが、ある特定の反復パターン(例えば、20ミリ秒の音の後、980ミリ秒の静寂を毎秒毎に何度も繰り返す)を有することが知られている場合がある。第2のサンプルに関するこのような実施の一例は、図5Aおよび5Bに示される。このパターンは、PMMにおいて検索され、識別され得る。これは、反復領域の一例である。この検索は、振幅または周波数範囲に限定される、あるいは上記の技術(領域の組み合わせ)の何れと組み合わせることも可能である。
開示された別の実施形態によれば、基本周波数が所与の周波数範囲にある倍音関係にあるチェーン(上述の米国特許第6,766,288号のような)は、関心の対象のソースからの可能性があるとして識別され得る。これもまた、検索をある振幅範囲に限定することと組み合わせられてもよい(2つの領域の組み合わせ)。第2のサンプルに関する一例を図6に示す。
開示された別の実施形態によれば、同時に(または同時性の一定の許容範囲内で)開始するチェーンは、同じソースからの可能性があるとして共にリンクされ得る。第3のサンプルに関する一例を図9Aおよび9Bに示す。これは、パーシャルチェーン領域の一例である。チェーンが倍音関係にあれば、それらが単一のソースからのものである証拠が強固となる。これは、検索をある振幅範囲に限定することと組み合わせられてもよい(3つの領域の組み合わせ)。
開示された別の実施形態によれば、同時に(または同時性の一定の許容範囲内で)終了するチェーンは、同じソースからの可能性があるとして共にリンクされ得る。これは、パーシャルチェーン領域の別の一例である。これもまた、上記の技術(領域の組み合わせ)の全てと組み合わせられてもよい。
開示された別の実施形態によれば、同じ基準(時間に関する)のチェーンが、同じソースからのものとして識別され得る。第3のサンプルに関する一例を図10に示す。同様に、関心の対象のソースは、ある特定の長さのチェーンを生成することが予期され得るので、その長さのチェーンが候補として識別されてもよい。これは、パーシャルチェーン領域の別の一例である。
異なる技術を組み合わせた、ある開示の実施形態によれば、既知の振幅、基本波周波数およびチェーン長さを有するソースを検索し、3つの基準全てに一致するチェーンを、そのソースからの可能性があるとして識別してもよい(領域の組み合わせ)。
類似の開示された実施形態によれば、ソフトウェアおよびハードウェア実行プロセスは、基本的に時間をかけて習得した、任意の一貫した反復パターンを検索し得る。この検索は、上記の技術の何れと組み合わせることも可能である。これもまた、反復領域の一例である。
「パターン」という用語は、多くのものを指し得ることを理解されたい。ソフトウェアおよびハードウェア実行プロセスは、パターンがどのくらいの頻度で反復するか(付点、付点、長音記号、小休止VS付点、付点、長音記号、長休止−これは「リズム」と呼ばれるほうがふさわしいかもしれない)を検索し得る。従って、検索は、イベントが成形された様式に基づいて行われ得ることも理解されたい。
あるいは、ソフトウェアおよびハードウェア実行プロセスは、パターンの形状的詳細に最も着目し得る(例えば、付点、付点、長音記号、小休止VS長音記号、長音記号、付点、小休止)。これらは、反復領域のさらなる例である。さらに、音量も変化し得る(付点(dot)、大きい音量の付点(DOT)、長音記号、小休止)、あるいは、基本周波数(ド、ラ、ミ、小休止)(領域の組み合わせ)が、変化してもよく、ソフトウェアおよびハードウェア実行プロセスは、これらのバリエーションを解析する。
従って、上記に説明したように、異なる種類の分析技術の組み合わせには、きりがなく(ド、ラ、ミ、長休止)、このような組み合わせは、まさしく、例えば、ある鳥のさえずりを別の鳥のさえずりと分かつものである。人間の耳が、森林地帯の耳障りな音からアカオノスリの声を聴き捕えることができるのと同様に、開示された実施形態に従って提供されたソフトウェアおよびハードウェア実行プロセスは、胎児の心拍モニターにおいて、耳障りな音から心雑音の音を識別することが可能であり得る。心拍に関するパーシャルチェーン領域/(角度パラメーター)の一例を図11に示す。この角度は、パーシャルチェーンの迎え角および減衰角である。非ランダム領域においては、一例として、非ランダム領域は、非倍音の数学的関係を有する検出されたパーシャルチェーンの1つまたは複数の発生であり得る。
図1は、本発明の開示されたある実施形態に従って行われる機能性を提供する様々なコンポーネントのブロック図である。アナログ信号受信モジュール101aは、物理的アナログ信号を捕捉する。アナログ信号受信モジュール101aは、例えば、テープを再生するテーププレイヤー、マイク、ビデオカメラ、または他のトランスデューサー等でもよい。アナログ・デジタル(A/D)変換器101bは、物理的アナログ信号をデジタル形式に変換する。ある可能な実施形態においては、A/D変換器101bは、例えば、デジタル・オーディオ・ワークステーション(DAW)を提供するデジタルオーディオ機器に埋め込まれてもよい。次に、デジタル形式を、例えば16ビット量子化と、例えば8KHzのサンプリング周波数とを用いて、生成してもよい。量子化の各ビットは、約6dBのダイナミックレンジを提供し得る。従って、この16ビット量子化例は、一部のオーディオ適用には十分であり得る合計約125dBのダイナミックレンジをもたらし得る。
それらに限定されることはないが、32ビットおよび24ビットを含む、他の量子化の選択肢も利用可能である。CD−ROM等の装置において一般的に使用されるように、量子化は、オーバーサンプリングおよびシグマデルタ変調を用いた単一ビットでもよい。アナログ信号受信モジュール101aおよびA/D変換器101bは、同一の装置または別々の装置でもよい。
ある開示された実施形態においては、アナログ信号受信モジュール101aおよびA/D変換器101bを介してデジタル信号を提供する代わりに、デジタル信号は、デジタル信号を保存するデータストレージ102によって提供されてもよい。データストレージ102は、例えば、ハードディスクドライブ、ネットワーク接続ストレージ(NAS)デバイス、フラッシュドライブ等の任意の種類のデータストレージでよい。しかしながら、データストレージ102は、これらの特定の例に限定されることはない。データストレージ102には、本発明の範囲から逸脱することなく、他の既存または今後開発されるデータストレージデバイスが含まれ得る。
開示された実施形態を利用して、多くの種類の信号を処理し得る。例えば、与えられたデジタル信号は、音声スペクトル、ビデオスペクトル、または他のスペクトルからのデジタル化アナログ信号でもよく、あるいは、デジタル形式に由来してもよい。
PMM生成モジュール103では、デジタル信号は、アナログ信号受信モジュール101aおよびA/D変換器101bから受信され得る、あるいは、例えばデータストレージ102から受信されてもよく、その後、PMMを生成するために変換され得る。PMM生成の非限定的一例の詳細が、特許出願第PCT/US2009/064120号に記載(上記に説明したように)されている。
PMM生成モジュール103によって生成されたPMM出力データ104は、任意のデータ形式のものでよい。データ形式の一例には、バイナリ型のテクニカルデータ管理ストリーミング(Technical Data Management Streaming)(TDMS)形式またはExcel(登録商標)のXML形式(XLSX)が挙げられる。カスタマイズされた独自のデータ形式を含む任意の適切なデータ形式を使用することができる。
ある開示された実施形態によれば、PMM出力データ104は、PMM出力モジュール105に提供されてもよく、このモジュールは、生成されたPMMデータを保存または送信するように構成された1種類または複数種類のデータストレージまたは送信装置において実施され得る。例えば、PMM出力モジュールは、静的ファイルを保存するように構成され得る、または、「リアルタイム」応用例において使用され得るデータをストリームするように構成され得る。さらに、PMM出力モジュール105は、PMMを保存するためのデータストレージを部分的に利用して実施されてもよい。代わりに、またはさらに、PMM出力モジュール105は、PMMを別の装置、例えば可視化モジュール116に送信するように構成された送信装置において全体的あるいは部分的に実施されてもよい。これらの結果は次に、元の波形を変更するために、信号プロセッサまたは他の装置上で実行中のソフトウェアに入力され得る。
ある開示された実施形態によれば、リバー可視化モジュール116は、生成されたPMMデータを視覚的にとらえることができるように設計された1つまたは複数のユーザーインターフェースを生成する可視化装置を提供するコンピュータハードウェアおよびソフトウェアを介して実施されてもよい。このようなユーザーインターフェースは、任意で、タッチスクリーン技術またはグラフィカル・ユーザー・インターフェース(GUI)に関連する他の任意の種類の入力および命令制御方法を利用してもよい。
可視化モジュール116は、例えば、印刷装置および/または例えば液晶表示装置や映写モニター等の表示装置を含むように実施されてもよい。可視化方法は、二次元のビューアーに限定されないことを理解されたい。従って、三次元および完全なホログラフィックディスプレイの使用も可能である。印刷装置例には、例えば、トナーベースのプリンター、液体インクジェットプリンター、インクレスプリンター等が含まれ得る。これらの実施形態例の他の中間結果もまた、可視化モジュール116に提供されてもよい。
ある開示された実施形態においては、PMM出力モジュール105は、データストレージおよび可視化装置の両方を有することにより、所望の結果を得るように信号プロセッサを手動で調整することができる。
PMM出力データ104は、ユーザーおよび処理されている信号の要求に応じて、ソーティング、認定、および解析機能を行う様々なアルゴリズムに適用されてもよい。異なる解析アルゴリズムの範囲および数は、限定されない。
倍音領域計算モジュール106は、倍音領域計算アルゴリズムソフトウェアをPMM出力データに適用し得る。このモジュールの機能性により、倍音関係にあるパーシャルチェーンの発見が可能となる。この機能性は、米国特許第6,766,288B1号の基本波高速発見方法に開示された1つまたは複数のアルゴリズムを全体的または部分的に利用することによって実現され得る。
振幅領域計算モジュール107は、振幅によって定義される全てのパーシャルチェーンの発見を可能にし得る振幅領域計算アルゴリズムソフトウェアを適用し得る。このような機能性により、より小さい振幅のパーシャルチェーンから大きな音のパーシャルチェーンをソーティングすることがさらに可能となる。またこれにより、振幅増分を有するパーシャルチェーンの分離が可能となる。さらに、この機能性により、絶対閾値を上回るまたは下回る信号の分離が可能となり得る。
反復領域計算モジュール108は、周波数毎に反復する回数によって定義される全てのパーシャルチェーンの発見を可能にし得る反復領域計算アルゴリズムソフトウェアを適用し得る。時間が経つにつれ、この機能性により、経時的および期間内の反復イベントの発見がさらに可能となり得る。さらに、この機能性により、反復チェーンのサブグループとしての反復パーシャルチェーンの位置特定も可能となり得る。
周波数領域計算モジュール120は、ある規定の周波数範囲または周波数の増分内のパーシャルチェーンの発見を可能にし得る周波数領域計算アルゴリズムを適用し得る。
時間領域計算モジュール117は、時間の範囲によって定義されるパーシャルチェーンの発見を可能にし得る時間領域計算アルゴリズムを適用し得る。
メモリ領域計算モジュール118は、データベース等のメモリからロードされ得るパーシャルチェーン/信号パターンをマッチさせる/相関させるように構成されたメモリ領域計算アルゴリズムを適用し得る。さらに、一致する/または一致しないパーシャルチェーンもまた、メモリ内に保存され得る。なお、保存されたパーシャルチェーンは、新規パターンとして保存される新規および固有のパーシャルチェーンとして、任意で保存されてもよいことを理解されたい。
非ランダム領域計算モジュール119は、他の領域によって規定されない形で数学的に関連し得るパーシャルチェーンの発見を可能とするように構成された非ランダム領域計算アルゴリズムを適用し得る。従って、モジュール119によって、ノイズまたは他の自然または不自然なランダム信号に埋め込まれ得る信号の発見も可能となり得る。
パーシャルチェーン領域計算モジュール109は、例えば、(a)同時開始時刻、(b)同時停止時刻、(c)一致パーシャルチェーン長さ、(d)一致パーシャルチェーンピーク、(e)経時的なパーシャルチェーンの振幅増加の角度、および/または(f)経時的なパーシャルチェーンの振幅減少の角度によって定義される全てのパーシャルチェーンの発見を可能にし得るパーシャルチェーン領域計算アルゴリズムソフトウェアを適用し得る。場合によっては、開始周波数、ピーク周波数および終了周波数が指定されてもよい。同様に、振幅または時間を使用してもよい。
組み合わせ領域計算モジュール110は、現在解析中の信号に応じて、2つ以上の領域アルゴリズムを組み合わせて実施することを可能にする領域計算アルゴリズムの組み合わせを適用し得る。この機能性を提供するために使用される複数のアルゴリズムは、モジュール110によって生成された結果を組み合わせるように構成されたソフトウェアを起動し得る、組み合わせ領域出力再計算モジュール111に適用され得る。
組み合わせ領域出力再計算モジュール111の出力は、領域の組み合わせのパーシャルチェーン発見結果を見るために可視化モジュール116に入力されてもよい。
組み合わせ領域出力再計算機モジュール111の出力は、フィルター計算モジュール112に適用されてもよい。このモジュール112の機能は、フィルターアプリケーションモジュール113において使用するためのフィルターを構築するためのものである。このようなフィルターアプリケーションモジュール113は、デジタル信号ファイルにおける不要または必要な信号をフィルターにかけるために、フィルター計算モジュール112の出力を実施するように構成され得る。フィルターは、FIRまたは12Rタイプのものでもよいが、これらのタイプのフィルターに必ずしも限定されない。さらに、フィルターの深さおよびバンド幅もまた、フィルターパラメーター制御の一部であり得る。
再計算出力モジュール114は、信号差/フィルタリングされた出力を得るために、元のデジタル信号に対してフィルターアプリケーションモジュール113の出力を実行するために使用されるように構成され得る。場合によっては、フィルタリングされた絶対な信号とは対照的に、差信号を用いることが必要となる場合がある。再計算出力モジュール114の出力は、リバー可視化モジュール116に入力することができる。このプロセスの結果は、三次元またはホログラフィックディスプレイ型のユーザーインターフェースを可能とするように構成され得る多次元出力モジュール116にも入力され得る。例えば、米国特許第6,798,886B1号の信号細断方法および米国特許第7,003,120B1号の複合波形の倍音内容を変える方法を参照されたい。
上記の様々なモジュールの機能性をより理解するために、波形を正確に測定するための新規の領域識別および分離方法と機能性とを提供する、前述の図1に示したコンポーネントの動作の代替表示を図13に示す。図13に図示するように、1001における入力信号は、信号処理モジュール1002に提供される。モジュール1002は、測定エンジン1003、マーキングエンジン1004、および比較エンジン1005を含み、これらは、PMMを生成するために効果的に協働する。
信号処理モジュール1002に含まれるこれらのエンジン1003〜1005の各々(および信号処理モジュール1002自体)が、少なくとも1つの中央処理装置(CPU)および少なくとも1つのメモリ装置(図13には図示されないが、例えば、図1においては102として示される)を有する1つまたは複数のコンピュータを利用して実施され得る。
さらに、測定エンジン1003、マーキングエンジン1004、および比較エンジン1005は、全体的または部分的に、例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)、デジタル信号処理(DSP)チップ、グラフィック・プロセッシング・ユニット(GPU)、特定用途向け集積回路(ASIC)等を利用して実施され得る。さらに、測定エンジン1003、マーキングエンジン1004、および比較エンジン1005は、1つまたは複数のエンジンとして少なくとも部分的にソフトウェアモジュール(図1を参照して上記に説明)を利用して実施され、コンピュータ可読ストレージに保存され得る。
比較エンジン1005によって生成されたPMMは、上記のハードウェアを1つまたは複数のソフトウェアアルゴリズムと併せて全体的または部分的に利用することによっても実施され得る複数領域分解解析エンジン1006に提供され得る。この複数領域分解解析エンジン1006の出力は、例えば、出力データ1008として直接提供され得る(この実施は不図示)、または出力データ1008としてフィルターエンジン1007を介して提供され得る領域行列でもよい。
本開示で説明したように、開示された実施形態は、例えばコンピュータを含み得るハードウェアの1つまたは複数の部品で機能するソフトウェアを利用して実施され得る。従って、開示された実施形態は、シングルコアのシングルプロセッサ、マルチコアのシングルプロセッサ、またはシングルまたはマルチコアのマルチプロセッサ上で実行され得る。さらに、ソフトウェアは、1つまたは複数のユーザーインターフェースとやりとりする1つまたは複数のサーバー上で実行されることにより、1つまたは互いに離れた場所であり得る複数の場所でPMMデータの可視化を提供し得る。
さらに、このソフトウェアは、図1および図13に図示されるモジュール、コンポーネントおよびエンジンに関して本明細書に開示した機能性を実現し得る。開示された実施形態によって提供される機能性の一部、または全ては、ソフトウェア、汎用または特殊デジタル信号プロセッサチップ、専用ハードウェア、ファームウェア等を用いて提供され得る。さらに、この機能性は、例えば、コンピュータまたは他のモジュールに搭載されるデジタル信号プロセッサチップを含む1つまたは複数の回路基板上で実現され得る。
開示された実施形態によって提供される機能性の幾つかは、並列計算ハードウェアを用いて実現され得る。従って、例えば、並列プロセッサ計算装置のメインメモリは、共有メモリ(1つのアドレス空間における全ての処理要素間での共有)または分散メモリ(各処理要素は、独自のローカルアドレス空間を有する)のどちらか一方でもよい。
PMMおよび領域は、発見および表示およびフィルタリングに使用される一方で、様々な他の機能のためにも(あるいは代替的に)使用され得る。例えば、開示された領域/基準、および他の同等または類似の未知の領域/基準の適用によって、実質的にデータ解析が有用なあらゆる分野においてデータ(PMM)を取捨選択し得る。
従って、開示された実施形態の機能性は、それらに限定されることはないが、例えば、音声を含む信号時間変動解析、音声スペクトル解析、任意の周波数範囲で応用可能な産業における信号解析、データ圧縮、聴覚障害者用のデジタル蝸牛、「声紋」情報等を含む広範囲に応用できることを理解されたい。図11は、例えば、心拍の迎え角および減衰角を示す。
さらに、開示された実施形態により提供される機能性および技術的効果を利用して、他の信号プロセッサ、解析装置、アルゴリズム、システムおよび機関に対して新しい入力または改善された入力を提供し得る。例えば、時間−周波数平面にわたる関連したパーシャルチェーンと、各チェーンに沿った振幅または補間振幅との記録は、特定の信号源の成分の豊富かつ簡潔な記録を提供し得る。特に、PMM視覚表示においてパーシャルがパーシャルチェーンへとリンクされる場合に、より強い信号によって以前は隠されていた信号を測定および可視化することができる。PMMまたは領域基準の何れか1つからの出力は、既存の信号発見システムおよびマシンのための「サイドチェーン」制御として使用され得る。
開示された実施形態を用いて、音声成分を正確に測定し、それらの音成分が音の混合物を含む複合波形の一部である場合でも、それらの成分を構成要素に分けることができる。さらに、例えば、音が、短期または長期バーストで出現する、および/またはピッチおよび/または振幅に関して変化している場合であっても、開示された実施形態は、音を含む複合波形にも用いることができる。
本明細書に記載した実施例および実施形態は、非限定的な例である。例示的な実施形態について、実施形態を詳細に説明したが、当業者には、変更および変形を、より広い観点の本発明から逸脱することなく行うことが可能であることが上記から明らかであり、従って、特許請求の範囲に規定される本発明は、そのような全ての変更および変形を、本発明の真の精神の範囲内に包含するものとする。