JP4425126B2

JP4425126B2 - ロバストかつインバリアントな音声パターンマッチング

Info

Publication number: JP4425126B2
Application number: JP2004500283A
Authority: JP
Inventors: ワング、エイブリー・リ−チュン; カルバート、ダニエル
Original assignee: ランドマーク・デジタル・サービシーズ・エルエルシー
Priority date: 2002-04-25
Filing date: 2003-04-18
Publication date: 2010-03-03
Anticipated expiration: 2023-04-18
Also published as: TW200307205A; US20050177372A1; CA2483104A1; DK1504445T3; US7627477B2; ES2312772T3; EP1504445A1; EP1504445B1; ATE405924T1; CA2483104C; US20090265174A9; JP2005524108A; CN1315110C; PT1504445E; CN1647160A; EP1504445A4; WO2003091990A1; DE60323086D1; TWI269196B; KR20050010763A

Description

本発明は、音声ファイルの大型データベース上での音声信号処理に関し、特に、再生速度の変更を含む様々な変換に影響されずに、２つの音声サンプルがマッチするかどうかを迅速かつ正確に決定するための技術に関する。本発明の技術は更に、正確な変換予測を可能とする。

音楽及び他の音声信号を高速かつ正確に自動認識する必要性は、高まる一方である。従来利用可能であった音声認識技術はしばしば、精度に対する速度、すなわち雑音余裕度（noise immunity）を犠牲にしていた。用途によっては、ひどい雑音がある場合には、時間−時間散布図の傾斜を推定するための回帰計算が必要となるが、これは速度と精度の双方について多くの問題と性能低下をもたらしていた。従って、既存の音声認識技術は、著しい再生速度変更がある場合に、例えば通常より速い速度で再生される録音を認識する際、高速かつ正確な認識を行うことが不可能であった。

問題が複雑であることに加え、ラジオ局、クラブ、その他においてＤＪによって行われる速度変更、ピッチ補正テンポ変更がますます人気を博しているが、目下のところ、再生速度変更及び／またはピッチ補正テンポ変更にもかかわらず高速かつ正確な音声認識を実行することが可能であるようなロバストかつ信頼できる技術はない。

本発明は、２つの音声ファイルの関係を特徴付けるための高速かつインバリアント（不変）な方法を提供することによって、音声認識分野におけるニーズを満たすものである。本発明の方法は、ひどい雑音がある場合であっても正確であり、既存の技術における上記欠点を克服するものである。

本発明のある側面によれば、２つの音声サンプルの関係は、それぞれのサンプルから求められる或るフィンガープリントオブジェクト（fingerprint object）の第１のマッチングによって特徴付けられることができる。各音声サンプルに対して１組のフィンガープリントオブジェクトが作成される。各フィンガープリントオブジェクトは、それぞれの音声サンプル内の特定の位置で生じる。各位置はそれぞれの音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトはそれぞれの特定の位置またはその近くでそれぞれの音声サンプルの１若しくは複数の局所的特徴を特徴付ける。一実施例では、各フィンガープリントオブジェクトは、可変要素及び不変要素によって更に特徴付けられる。次にフィンガープリントオブジェクトの各マッチングペアに対して相対値が決定される。そして相対値のヒストグラムが作成される。ヒストグラムにおいて統計学的に著しいピークが見られたら、２つの音声サンプルは、例えば実質的にマッチングするものとして特徴付けられることができる。

本発明の別の側面によれば、上述の技術は、ピークの位置を用いて広域相対値（global relative value）の予測をヒストグラムの軸上に与えることによって更に向上させられることができる。広域相対値は、対象となるピーク付近の近傍を選択し、選択された近傍における相対値の平均を計算することによって絞り込まれることができる。

ヒストグラムのピークから相対再生速度値が決定されるような更に別の実施例では、フィンガープリントオブジェクトの各マッチングペアに対して補正相対タイムオフセット値が計算される。補正相対タイムオフセット値に基づいて別のヒストグラムが作成される。第２のヒストグラムにおいて統計学的に著しいピークが見られたら、２つの音声サンプルの関係は、ピークによって更に特徴付けられ、発明の精度を更に向上させる。

本発明は、音声ファイルの大型データベース上で、高速、ロバスト、インバリアントかつスケーラブルな指標付け及び探索を可能にし、音声パターン認識への適用に特に有用である。ある実施例では、本明細書中に開示された技術は、上記米国特許出願に開示された音声認識システム及び方法を改善し強化する。

２つの音声サンプルファイルを非常に高速かつ効率的に比較する操作は、商業的に成功しそうな音声認識システムを構築する際に不可欠である。本発明のある側面によれば、２つの音声サンプルの関係は、例えば、図１に示されているような、それぞれの音声サンプルのスペクトログラムから求めた或るフィンガープリントオブジェクトの第１のマッチングによって特徴付けられることができる。スペクトログラムは、ウィンドウフレームをスライド計算するときにサンプル２＊Ｋを取ってフーリエ変換をし、それによって各フレームにＫの周波数ビン（frequency bin）を作成することによって作成されるような時間−周波数の表示／分析である。分析の時間分解能を向上させるためにフレームはオーバーラップし得る。用いられる特定のパラメータは、処理される音声サンプルの種類によって決まる。好適には、８ｋＨｚのサンプリングレート、Ｋ＝５１２のフレーム、６４サンプルのストライド（ｓｔｒｉｄｅ）を有する離散時間音声ファイルが用いられる。

フィンガープリントオブジェクト
各音声サンプルのスペクトログラムが作成された後、スペクトログラムは局所的特徴に対して、例えば図２に示されているような局所エネルギーピークに対してスキャンされる。マッチング処理は、各音声サンプルに対して対応する局所的特徴から１組のフィンガープリントオブジェクトを抽出することによって開始する。例示的な実施例では、一方の音声サンプルは認識されるべき未知のサウンドサンプルであり、他方の音声サンプルはデータベースに格納された既知の録音である。各フィンガープリントオブジェクトは、それぞれの音声サンプル内の特定の位置で生じる。ある実施例では、各フィンガープリントオブジェクトは、音声ファイル内のタイムオフセットに配置され、そのそれぞれの時間座標付近の音声ファイルに関する記述的情報を含む。つまり、各フィンガープリントオブジェクトに含まれる記述的情報は、それぞれのタイムオフセット付近の音声サンプルに依存して計算される。これは、小さなデータ構造にコード化される。好適には、位置及び記述的情報は、雑音、歪み及び他の変換、例えば再生速度が変動するような条件下であっても概ね再現性のあるような方法で決定される。この場合、各位置はそれぞれの音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトはそれぞれの特定の位置またはその付近で、例えば図１に示されているような位置（ｔ１，ｆ１）または（ｔ２，ｆ２）でそれぞれの音声サンプルの１若しくは複数の局所的特徴を特徴付ける。

例示的な実施例では、各フィンガープリントオブジェクトは、その位置、可変要素、及び不変要素によって特徴付けられる。各局所的特徴はスペクトログラムピークであり、各周波数値は対応するスペクトログラムピークの周波数座標から決定される。ピークは、各時間−周波数座標の近くで探索し、近傍より大きな絶対値を有するような点を選択することによって決定される。より具体的には、図２に示されるように、音声サンプル２１０は、高いエネルギーが示される領域２２１及び２２２を有するスペクトログラム表示２２０に分析される。局所エネルギー領域２２１及び２２２に関連する情報は、抽出されてフィンガープリントオブジェクト２３１、２３２のリスト２３０などに要約される。各フィンガープリントオブジェクトは、位置フィールド２４２と、可変要素２５２と、不変要素２６２とを状況に応じて含んでいる。好適には、各選ばれた点がそれを中心とした２１×２１の単位ブロック内で極大であるように、近傍の選択がなされる。近傍及び点の選択についての更なる考察は、上記米国特許出願を参照されたい。次に、フィンガープリントオブジェクトの各マッチングペアに対して相対値が決定される。ある実施例では、相対値は、それぞれの音声サンプルのパラメトリック値の対数の差または商である。次に相対値のヒストグラムが作成される。ヒストグラムにおいて統計学的に著しいピークが見つかったら、２つの音声サンプルは実質的にマッチングするものとして特徴付けられることができる。

図３を参照すると、フィンガープリントオブジェクトリスト３１０及び３２０は、それぞれ音声サンプル１及び２に対して上述のように準備される。各リストからのそれぞれのフィンガープリントオブジェクト３１１及び３２２が比較される。マッチングフィンガープリントオブジェクトはステップ３５１で例えばそれぞれの不変要素Ｉｎｖ及びＩｎｖ’を用いて一対にされ、ステップ３５２でリストに入力される。ステップ３５３で各マッチした対に対して相対値が計算される。次に、ステップ３５４では、相対値のヒストグラムが作成される。ステップ３５５で統計学的に著しいピークに対してヒストグラムが探索される。ステップ３５６で何も見つからなければ、音声サンプル１及び２はマッチしない（例えば図４−Ａのヒストグラム４１０）。或いは、統計学的に著しいピークが検出されたら、音声サンプル１及び２はマッチする（例えば図４−Ｂのヒストグラム４２０）。

上記技術は、ステップ３６１に示されているように、ピークの位置を用いて広域相対値Ｒの予測をヒストグラムの軸上に与えることによって更に向上しうる。ある実施例では、先ず対象となるピーク付近で近傍を選択することによってＲを絞り込むことができる。図１では、これは特定の位置（ｔ１，ｆ１）付近において対象エリア１１０として示されている。次に、選択された近傍における相対値の平均が計算される。平均は、選択された近傍における各相対値で点の数を用いて計算された加重平均であってよい。ある実施例では、各マッチした対に対する相対タイムオフセット値ｔ’−Ｒ＊ｔを作成するために、Ｒは更にリファインされてよい。ステップ３６２〜３６４は、これらの相対タイムオフセット値によって、第２のヒストグラムが作成され、補正されたタイムオフセットの計算が可能になることを示している。

フィンガープリントオブジェクトを抽出するために、他の種類の時間−周波数分析、例えばＷｉｇｎｅｒ−Ｖｉｌｌｅ分布またはウェーブレットが実施されてもよい。また、スペクトログラムピークの代わりに、他の特徴例えばケプストラム係数を用いることができる。更に、スペクトログラムピークによって与えられる時間−周波数座標のより高精度な周波数及び時間予測を得るために超分解能技術を用いることができる。例えば、周波数ビンでの放物線補間を用いて周波数分解能を増加させることができる。関連する事例的な教示は、「PARSHL: An Analysis/Synthesis Program for Non-Harmonic Sounds Based on a Sinusoidal Representation」Julius O. Smith III ならびにXavier Serra、 International Computer Music Conference (ICMC-87,東京)会報、Computer Music Association, 1987 、及び「Modern Spectral Estimation: Theory and Application」Steven M. Kay (１９８８年１月) Prentice Hall に見ることができるが、これらはここに引用したことをもって本明細書の一部となす。

マッチング
マッチング操作では、それぞれのフィンガープリントオブジェクトによって２つの音声サンプルが比較される。図３に関連して前記したように、各々が実質的にマッチング要素を含むような複数のフィンガープリントオブジェクトのマッチングペアが作成される。高速探索を可能にするためにデータを準備する１つの方法は、フィンガープリントオブジェクトを数値トークン、例えば３２ビットの符号のない整数にコード化し、数値トークンを並び替え（ソーティング）及び探索のためのキーとして用いることである。効率的なデータ操作のための技術は当該分野で公知であり、例えば、「Art of Computer Programming, Volume 3: Sorting and Searching (2nd Edition)」Donald Ervin Knuth (１９９８年４月) Addison-Wesley が挙げられるが、ここに引用したことを以って本明細書の一部とする。

例示的な実施例では、各フィンガープリントオブジェクトは、不変要素及び可変要素を含む。不変要素はスペクトルのピークに対応する周波数値の比を指し、同様にスペクトルのピーク間のデルタタイム（即ち時間差）値の比は時間伸縮下で不変である。例えば図５−Ａ及び図５−Ｂを参照すると、音声サンプルのスペクトログラムが座標（ｔ１，ｆ１）、（ｔ２，ｆ２）、（ｔ３，ｆ３）を有する局所スペクトルのピークを有するならば、２つの点に対する不変量はｆ２／ｆ１、即ちｆ２’／ｆ１’＝ｆ２／ｆ１である。３つの点に対する更なる不変量は、ｆ３／ｆ１、（ｔ３−ｔｌ）／（ｔ２−ｔｌ）、または（ｔ３−ｔ２）／（ｔ２−ｔ１）、または点を順序変更すること及び／またはこれらの量またはこれらの量の組合せを計算することによって作成されるその他の組合せによって与えられる。例えば、ｆ２／ｆ３はｆ２／ｆ１をｆ３／ｆ１で除することによって得ることができる。更に、音声サンプルが線形に伸縮したら、例えば単により速く再生されていたら、周波数及びデルタタイムは逆数の関係であり、ｆ１＊（ｔ２−ｔ１）などの量も不変である。これらの量の対数は、加算及び減算を乗算及び除算に置き換えて用いられることができる。周波数比及び時間伸縮比の両方を求めるために、これらが無関係であると仮定するならば、周波数可変量と時間可変量の両方を有する必要がある。

マッチングを効率的にするために、不変部を用いてフィンガープリントをインデックスし、近似値または正確な値を用いて探索する。近似照合を用いた探索は、歪み及び丸め誤差に対して余分なロバスト性を許容するが、不変要素上での探索が多次元範囲探索になるとより多くの費用が発生する。好適実施例においては、それぞれのフィンガープリントオブジェクトの不変要素は正確にマッチすることが要求され、それゆえ、雑音の存在下で認識の感度に対して少ないトレードオフを有するような非常に高速なシステムができる。重要なことは、対応する音声サンプルにおける少数のフィンガープリントオブジェクトしか正しくマッチしないとしても、この方法はうまく機能するということである。ヒストグラムピーク検出過程では、正しくマッチされかつ残存しているのが僅か２％のフィンガープリントオブジェクトのみであったとしても、ピークは統計学的に有効であり得る。

可変要素は、不変要素に加えてまたはそれに代えて、マッチングフィンガープリントオブジェクトの数を絞り込むためにも用いられることができる。例えば、第１の音声サンプルからの可変要素Ｖが、第２の音声サンプルからの対応するＶ’と±２０％以内でマッチすることを求めることができる。その場合、上部（例えば最上位のビット）が不変要素を含み、下部（例えば最下位のビット）が可変要素を含むように数値トークンの表示を形成することができる。このとき、近似照合のための探索は、可変要素の最低値及び最高値を用いて構成されたトークンに対する幅探索になる。可変要素を用いて探索が行われるのであれば、マッチングにおける不変要素の使用は、厳密には必ずしも必要ない。しかし、マッチング処理において不変要素を用いることが推奨される。というのも、不変要素は論理的に誤ったマッチの数を減らすのに役立ち、従ってヒストグラム化処理を合理化して処理オーバヘッドの量を減らすからである。

他方で、新規な可変要素それ自体は、２つのフィンガープリントオブジェクト間のマッチング基準の一部であってもよいし、そうでなくてもよい。可変要素は、オリジナル録音からサンプル録音への単純なパラメトリック変換によって変形され得るような値を表す。例えば、周波数可変要素、例えばｆ１、ｆ２、ｆ３と、時間可変要素、例えば（ｔ２，ｔ１）、（ｔ３，ｔ１）または（ｔ３，ｔ２）は、再生速度の変化に対する可変要素として選択されてよい。第２の音声サンプル、例えばデータベースからのマッチしている演奏が、第１の音声サンプルに対して上記されたのと同じ点に対応するような座標（ｔ１’，ｆ１’）、（ｔ２’，ｆ２’）、（ｔ３’，ｆ３’）を有するスペクトログラムを有すると考える。このとき、周波数要素ｆ１’は、スケール値ｆ１’＝Ｒ_ｆ＊ｆ１を有することができる。ここで、Ｒ_ｆは、第１のサンプル録音が第２のサンプル録音と比較してどれだけ速いまたは遅いかを説明する線形伸縮パラメータである。２つのマッチング音声サンプルそれぞれからの可変要素は、２つの周波数値の比Ｒ_ｆ＝ｆ１’／ｆ１を計算することによって巨視的パラメータを説明する広域ストレッチ値（global stretch value）の予測を計算するために用いられることができる。これは、２つのマッチした時間−周波数点の相対ピッチ比を与える。例えば、Ｒ_ｆ＝２は、第１の音声サンプルが第２の音声サンプルのピッチ（周波数）の半分を有することを意味する。別の可能性は、Ｒ_ｔ＝（ｔ２’−ｔ１’）／（ｔ２−ｔ１）を用いることである。この場合、相対値Ｒは相対再生速度比であり、即ちＲ_ｔ＝２は第１の音声サンプルが第２の音声サンプルの２倍速で再生していることを意味する。

Ｒ_ｆ＝１／Ｒ_ｔ即ちｆ’／ｆ＝（ｔ２−ｔ１）／（ｔ２’−ｔ１’）であれば、そのような音声サンプルに対する逆数の時間−周波数関係の理由から、２つの音声サンプルは線形時間伸縮によって関係付けられる。この場合、対応する可変周波数要素を用いて相対周波数比Ｒ_ｆの予測を行い、かさねて相対再生速度のＲ_ｔの予測を行い、その後比較して再生関係が線形または非線形かどうかを検出するべく、先ず本明細書中に開示されているヒストグラム化方法を用いることができる。

一般に、第１及び第２の音声サンプルから対応する可変要素を用いてマッチしたフィンガープリントオブジェクトから相対値が計算される。相対値は、周波数またはデルタタイムの単純な比であるか、第１及び第２の音声サンプル間のマッピングについて説明したときに用いた広域パラメータの予測を結果的に生じさせるような別の関数であってよい。しかし一般的には、任意の二価関数（2-input function）Ｆ（）、例えばＲ＝Ｆ（ｖ１，ｖ１’）を用いることができる。ここで、ｖ１及びｖ１’はそれぞれの可変量である。ｖ１及びｖ１’を測定する際の誤差が小さければ出力Ｒにおける誤差が小さくなるように、Ｆ（）は連続関数であれば最良である。

ヒストグラム化
本明細書中で述べられているように、フィンガープリントオブジェクトのマッチングペアのリストから計算された１組の相対値に対してヒストグラムが作成される。ヒストグラムはそのときのピークに対して探索される。ヒストグラムにおける統計学的に著しいピークの存在は、可能なマッチが生じたことを示す。この方法は特に、タイムオフセットの差、例えば（ｔ１’−ｔ１）に代えて、相対値のヒストグラムにおけるクラスタを探索する。本発明の原理によれば、ヒストグラムはカウント値のビン（ｂｉｎ）を形成するのに役立つ。各ビンは、ヒストグラムの独立軸に沿って特定の値に対応する。本発明のために、ヒストグラムの作成は、相対値のリストを単純にソートすることによってなし得る。従って、値のリストのヒストグラムのピークを検出する高速かつ効率的な方法は、リストを昇順にソートし、次に、同じまたは類似の値を有する項が最も集中している箇所をスキャンすることである。

統計学的な著しさ
本明細書中で述べているように、全ての歪みを切り抜けて残存しかつ正しくマッチされるのが僅か２％のフィンガープリントオブジェクトのみであったとしても、本発明を用いて、２つの音声サンプルは正しくマッチされることができる。これは、２つの音声サンプルの比較をスコアリングすることにより可能である。具体的には、ヒストグラムのピーク付近で近傍が選択され、近傍に分類される全てのマッチングペアがカウントされ、スコアを与える。更に、ピークの中心からより離れたペアの寄与を減じる（割り引く）ような重み付けスコアが計算されることもある。

カットオフ基準を予測する１つの方法は、不一致トラックのスコアの確率分布が指数のテイル（exponential tail）内にあると仮定することである。モデルは不一致トラックのスコアの実測分布に適用される。次にＮトラックのデータベース上で最高スコアの累積確率分布（例えば１つの不一致スコアの累積確率分布のＮ乗として扱われる）が計算される。確率曲線が得られ、誤検出（false positive）の最大レベルが選択されたら（例えば０．５％）、統計学的に著しい数のマッチングペアをヒストグラムピークが有するかどうかを決定するために数値閾値が選択及び使用されることができる。

超高精度予測
統計学的に著しいヒストグラムピークが見つかったら、広域相対値の高分解能「超高精度（hyperfine）」予測（例えば相対再生速度）が計算されることができる。これは、例えばピークヒストグラムビンの中央に位置する約３または５ビン幅の間隔を含むピーク付近の近傍を選択し、かつ近傍における相対値の平均を計算することによって達成される。この技術を用いて、０．０５％以内の精度の相対再生速度を見つけることができる。本明細書中で開示されているオフセット（相対位置）導出を用いて、１ミリ秒精度よりよい精度で広域タイムオフセットを予測することができるが、これは上述のスペクトログラムフレームの時間分解能より高精度である。

ロバスト回帰
上記米国特許出願において考察されているように、サンプルが実際にマッチした場合には、図６−Ａに示されるように、マッチングサンプルが、互いにプロットされたマッチングフィンガープリントオブジェクトの対応時間座標（ｔ’，ｔ）を有する散布図にて、斜線が示される。問題はリグレッサーの方程式をいかに見つけるかであるが、これは多くの雑音の存在下で線の傾き及びオフセットによって決定される。傾きは相対再生速度を示し、オフセットは１つの音声サンプルの始めから第２の音声サンプルの始めまでの相対オフセットである。最小２乗近似などの従来の回帰技術が利用可能であり、例えば、William H. Press、Brian P. Flannery、Saul A. Teukolsky、及びWilliam T. Vetterling による「Numerical Recipes in C: The Art of Scientific Computing (2nd Edition)」(January 1993), Cambridge University Pressを参照されたい。尚、この文献は、ここに引用したことを以って本明細書の一部となす。残念なことに、これらの従来技術には、１つの大きなアウトライアー（異常な値）が予測された回帰パラメータを大幅に非対称にし得るような、感度のバランスの悪さがある。実際には、点は多くの場合アウトライアーに左右され、正しい斜めの線を検出することを困難にしている。アウトライアーの問題を克服して雑音の存在下で点の間に線形関係を見つけるべくロバスト回帰のための他の技術を用いることができるが、これらの技術は緩慢で反復的な傾向にあり、局所的な最適条件で行き詰まる可能性がある。未知の線形リグレッサーを見つけるための文献には多種多様の技術が存在する。ＭＡＴＬＡＢツールキットは、マスワークス社（The Mathworks）から入手可能であり、引用することを以って本明細書の一部となすが、回帰分析のための種々のソフトウェアルーチンを含む。

本発明は、たとえマッチの傾きが１に等しくなくても（例えば図６−Ｂ）、時間−時間散布図における回帰直線を見つける問題を解決するような相対再生速度（または同等に、線形再生関係の場合には相対ピッチの逆数）を予測する発明方法を提供する。局所的相対再生速度のヒストグラムの使用は、本明細書中に開示されているように、以前に考慮されなかった情報を活用し、回帰問題を迅速かつ効率的に解決する思いもよらぬ利点を与える。

オフセットを見つけるために、対応する時間点が、
オフセット＝ｔ１’−Ｒ_ｔ＊ｔ１
の関係を有すると仮定する。ここで、Ｒ_ｔは、前述のようにして得られる。これは、補正されたタイムオフセットであり、２つの音声サンプル間の時間座標系をノーマライズ（正規化）するのに役立つ。これは、図７−Ａでは傾きが未知な斜線、図７−Ｃでは垂直をなすような時間−時間散布図上での横ずれ変換としても見られる。図７−Ｂのヒストグラム７２０は、広域相対再生速度比Ｒを示す累積された相対再生速度比のピークを示す。新たな相対値はこのときオフセット公式によって与えられ、図７−Ｄに示されるような新たなヒストグラム７４０が作成される。新たなヒストグラム７４０のピークは、広域オフセットの予測を与えるものであるが、上記のようにピークの近傍において値の平均を用いることによって峻鋭にできる。

要約すれば、第１のヒストグラム化段階は相対再生速度を予測する方法を与え、しかもマッチが存在するかどうかを決定する。第２のヒストグラム化段階は、候補マッチング音声が、一時的に整列されてもいるようなかなりの数のフィンガープリントオブジェクトを有することを保証する。第２のヒストグラム化段階はまた、第２の独立スクリーニング基準として働き、誤検出の確率を下げるのに役立つので、２つの音声サンプルがマッチするかどうかを決定するためのより強い基準を提供する。第２のヒストグラム化段階は第１のヒストグラムに統計学的に著しいピークがある場合にのみ状況に応じて実施されることができ、従って計算資源及び労力を節約する。第２のヒストグラムは第１のヒストグラムピークに対応するマッチングペアのみを用いて作成されることができるが、リストにおけるフィンガープリントオブジェクトのマッチングペア全てに対して第２のヒストグラムを計算する代わりに、例えば計算の乱雑さを低減するために、更なる最適化を状況に応じて行ってもよい。

複数の録音の同期
本発明は、非同期音声録音のキュー（cueing）及び時間正規化のために実施され得る。例えば、ＤＡＴレコーダとカセットレコーダが僅かに異なる位置または環境で異なるマイクロホンを用いて独立して作動していると考える。後でそれぞれのレコーダからの２つの録音を１つのミックスに統合することが望ましいならば、タイムオフセットを得るために本明細書中で述べられたロバスト回帰技術を用いて２つのトラックを同期してもよい。従って、非同期レコーダが僅かに異なる速度で作動しても、相対速度は高精度で決定されることができ、１つの録音が別の録音に関連して補正されることが可能になる。これは、録音の１つが破損し、別の源から補充される必要があることがわかったときに特に有用である。本明細書中で述べられているような時間正規化及び同期は、従って、トランスペアレントなミキシングを可能にする。

データベース探索
比較方法は非常に高速なので、音声サンプルの大型データベースをフィンガープリントオブジェクトのそれぞれのリストへ前処理することが可能である。当業者であれば理解し得るように、それゆえに、未知の音声サンプルは現在利用可能なデータ処理技術を用い、フィンガープリントオブジェクト各々のリストへと前処理されることができる。上述のマッチング、ヒストグラム化、及びピーク検出技術は、このときマッチを見つけるためにデータベース内の前処理されたフィンガープリントオブジェクトを用いて実行可能である。

本発明及びその利点について詳細に述べてきたが、本発明はここで開示した内容に限定されるものではないということを理解されたい。特に、開示された図面及び説明は本発明に関連する技術を説明し、本発明の例を示し、本発明の使用例を与えるが、これによって本発明を限定するものではない。公知の方法、技術またはシステムは、本発明の原理を不明瞭にすることを避けるために、詳細を与えることなく考察されることができる。当業者であれば理解し得るように、本発明は、本発明の原理及び精神から逸脱することなく、実施、変更またはまたは別の方法で改変されることができる。例えば、本明細書中で述べられているような方法、技術及び過程は、コンピュータ読取り可能媒体において具現化されたコンピュータ実行可能命令の形式で実施されるか或いは別の方法で実現されてもよい。或いは、本発明は、クライアント及びサーバを有するコンピュータシステムにおいて実施されてもよい。クライアントは第１及び第２の音声サンプルの関係の特徴付けに必要な情報、例えばフィンガープリントオブジェクトをサーバに送り、サーバでは特徴付けが実行される。従って、本発明の範囲は、特許請求の範囲及びそれと法的に同等のものによって画定されるべきである。

分析された音声サンプルのスペクトログラム表示である。本発明の側面に基づき音声サンプルから作成されるフィンガープリントオブジェクトを示す例示的な図である。本発明の原理に基づき比較される２つの音声サンプルを示す図である。統計学的に著しいピークを有しない例示的なヒストグラムである。統計学的に著しいピークを有する例示的なヒストグラムである。再生速度の変化に応じた、時間−周波数点の動きを示す図である。再生速度の変化に応じた、時間−周波数点の動きを示す図である。照合ハッシュトークンの第１の音声サンプル（サンプル音声）及び第２の音声サンプル（データベース音声）における対応する時間を示す図である。傾きは、サンプルサウンドの再生速度がデータベースサウンドと同じであるときの傾きに等しい。照合ハッシュトークンの第１の音声サンプル（サンプル音声）及び第２の音声サンプル（データベース音声）における対応する時間を示す図である。傾きは、サンプルサウンドの再生速度がデータベースサウンドと同じであるときの傾きに等しい。本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。

Claims

第１及び第２の音声サンプルの関係を特徴付ける方法であって、
前記第１の音声サンプルに対して、各フィンガープリントオブジェクトが前記第１の音声サンプル内のそれぞれの位置で生じ、前記それぞれの位置が第１の音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトが各それぞれの位置またはその付近で前記第１の音声サンプルの１若しくは複数の特徴を特徴付けるような、第１の組のフィンガープリントオブジェクトを作成する過程と、
第２の音声サンプルに対して、各フィンガープリントオブジェクトが前記第２の音声サンプル内のそれぞれの位置で生じ、前記それぞれの位置が前記第２の音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトが各それぞれの位置またはその付近で前記第２の音声サンプルの１若しくは複数の特徴を特徴付けるような、第２の組のフィンガープリントオブジェクトを作成する過程と、
前記第１の音声サンプルからの前記第１のフィンガープリントオブジェクトを、前記第１のフィンガープリントオブジェクトに実質的に類似した前記第２の音声サンプルからの前記第２のフィンガープリントオブジェクトに照合することによりフィンガープリントオブジェクトをペアにする過程であって、各フィンガープリントオブジェクトは１つの位置と、不変要素と、可変要素とを有し、フィンガープリントオブジェクトの各マッチングペアにおける前記第１及び第２のフィンガープリントオブジェクトは、マッチする不変要素を有する、該過程と、
前記ペアにする過程に基づき、複数のフィンガープリントオブジェクトのマッチングペアのリストを作成する過程と、
前記不変要素を用いて、前記フィンガープリントオブジェクトの各マッチングペアに対して相対値を決定する過程と、
前記相対値のヒストグラムを作成する過程と、
前記ヒストグラムにおいて、前記第１及び第２の音声サンプルの前記関係を特徴付けるような統計学的に有意のピークを探索する過程であって、前記第１及び第２の音声サンプルの前記関係が時間伸縮比を含む、該過程とを含むことを特徴とする方法。
統計学的に有意のピークが発見された場合、前記第１及び第２の音声サンプルの前記関係が実質的にマッチングするものとして特徴付けられることを特徴とする請求項１に記載の方法。
前記第１及び第２の音声サンプルの前記関係を更に特徴付けるような広域相対値を、前記ヒストグラムの軸上に前記ピーク位置を用いて予測する過程を更に含むことを特徴とする請求項１または２に記載の方法。
前記広域相対値の超高精度予測を決定する過程を更に含み、前記決定する過程が、
前記ピーク付近で近傍を選択する過程と、
前記近傍における前記相対値の平均を計算する過程とを含むことを特徴とする請求項３に記載の方法。
前記不変要素が、
（ｉ）第１の周波数値と第２の周波数値との比であって、各周波数値が各フィンガープリントオブジェクトの前記それぞれの位置付近で第１及び第２の局所的特徴からそれぞれ決定されるような前記比と、
（ｉｉ）周波数値とデルタタイム値との積であって、前記周波数値が第１の局所的特徴から決定され、前記デルタタイム値が各フィンガープリントオブジェクトの前記それぞれの位置付近で前記第１の局所的特徴と第２の局所的特徴の間で決定されるような前記積と、
（ｉｉｉ）第１のデルタタイム値と第２のデルタタイム値との比であって、前記第１のデルタタイム値が第１及び第２の局所的特徴から決定され、前記第２のデルタタイム値が前記第１及び第３の局所的特徴から決定され、各局所的特徴が各フィンガープリントオブジェクトの前記それぞれの位置付近にあるような前記比のうちの少なくとも１つを用いて作成されることを特徴とする請求項１に記載の方法。
各局所的特徴がスペクトログラムピークであり、各周波数値が、対応するスペクトログラムピークの周波数座標から決定されることを特徴とする請求項５に記載の方法。
フィンガープリントオブジェクトのマッチングペアの前記相対値が前記第１及び第２のフィンガープリントオブジェクトのそれぞれの周波数値の比として特徴付けられ、かつ、前記第１及び第２の音声サンプルの前記関係を特徴付けるヒストグラムにおける前記ピークが、相対ピッチとして、または線形伸縮の場合には相対再生速度として特徴付けられるように、前記可変要素が、各フィンガープリントオブジェクトの前記それぞれの位置付近で局所的特徴から決定される周波数値であることを特徴とする請求項１に記載の方法。
それぞれの周波数値の前記比が、対数の除算または差のいずれかとして特徴付けられることを特徴とする請求項７に記載の方法。
各局所的特徴がスペクトログラムピークであり、各周波数値が、対応するスペクトログラムピークの周波数座標から決定されることを特徴とする請求項７に記載の方法。
フィンガープリントオブジェクトのマッチングペアの前記相対値がそれぞれの可変デルタタイム値の比として特徴付けられ、かつ、前記第１及び第２の音声サンプルの前記関係を特徴付けるヒストグラムにおける前記ピークが相対再生速度として、または線形伸縮の場合には相対ピッチとして特徴付けられるように、前記可変要素が、各フィンガープリントオブジェクトの前記それぞれの位置付近で第１及び第２の局所的特徴から決定されるデルタタイム値であることを特徴とする請求項１に記載の方法。
それぞれの可変デルタタイム値の前記比が、対数の除算または差のいずれかとして特徴付けられることを特徴とする請求項１０に記載の方法。
各局所的特徴がスペクトログラムピークであり、各周波数値が対応するスペクトログラムピークの周波数座標から決定されることを特徴とする請求項１０に記載の方法。
各可変要素が各フィンガープリントオブジェクトの前記それぞれの位置付近で局所的特徴から決定される周波数値であるような前記それぞれの可変要素を用いて前記第１及び第２の音声サンプルに対する相対ピッチを決定する過程と、
各可変要素が各フィンガープリントオブジェクトの前記それぞれの位置付近で第１及び第２の局所的特徴から決定されるデルタタイム値であるような前記それぞれの可変要素を用いて前記第１及び第２の音声サンプルに対する相対再生速度を決定する過程と、
前記第１及び第２の音声サンプルの前記関係が非線形として特徴付けられる場合に、前記相対ピッチと前記相対再生速度の逆数とが実質的に異なるかどうか検出する過程とを更に含むことを特徴とする請求項１に記載の方法。
前記相対値のヒストグラムの前記ピークから決定される相対再生速度値をＲとするとき、
前記第１及び第２のフィンガープリントオブジェクトに関連する経時的な位置をｔ及びｔ’とするとき、前記リストにおけるフィンガープリントオブジェクトの各マッチングペアに対して、補正相対タイムオフセット値ｔ−Ｒ＊ｔ’を決定する過程と、
前記補正相対タイムオフセット値の第２のヒストグラムを作成する過程と、
前記補正相対タイムオフセット値の前記第２のヒストグラムにおいて、前記第１及び第２の音声サンプルの前記関係を特徴付けるような統計学的に有意のピークを探索する過程とを更に含むことを特徴とする請求項１に記載の方法。
請求項１乃至１４のいずれか１つに記載された方法をコンピュータに実行させるためのコンピュータプログラム。
請求項１乃至１４のいずれか１つに記載された方法を実行するためのコンピュータシステムであって、前記コンピュータシステムが、
前記方法の各過程をコンピュータに実行させるためのコンピュータプログラムを含み、それに基づいて当該各過程を実行するサーバと、
前記第１及び第２の音声サンプルの前記関係の特徴付けに必要な情報を、前記サーバに送るためのクライアントとを含むことを特徴とするコンピュータシステム。