JP3941417B2

JP3941417B2 - ソース音声信号内の新規点の識別方法

Info

Publication number: JP3941417B2
Application number: JP2001140826A
Authority: JP
Inventors: ティー．フートジョナサン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2000-05-11
Filing date: 2001-05-11
Publication date: 2007-07-04
Anticipated expiration: 2021-05-11
Also published as: US6542869B1; JP2002014691A

Description

【０００１】
【発明の属する技術分野】
本発明は音楽、話し言葉（スピーチ）、又は音楽と話し言葉との組合せを含み得る音声信号における変化を識別するための方法に関する。本発明は特に、索引付け、要約、ビート・トラッキング、又は検索のための音声における変化の識別に関する。
【０００２】
【従来の技術】
ビデオ信号を用いる場合、フレームごとの違いは、全体的な変化又はビデオ信号のコンテンツの新規性の有用な測定をもたらす。フレームごとの違いは、自動分割及び主要フレームの抽出、並びに他の目的のために用いられることが可能である。
【０００３】
音声内の本質的な変化、即ち新規点を決定するための同様の測定は、多数の有用な用途（アプリケーション）を有し得る。しかし、音声の変化又は境界を計算することは、ビデオよりもかなり難しい。話し言葉及び音楽のための一般的なスペクトルは一定の流量において存在するために、あまりに多くの誤まったアラームが発生するので、スペクトルの差を測定するような単純なアプローチは、通常有用でない。
【０００４】
音声分割への典型的なアプローチは、無音状態を検出することである。このようなシステムは、『ACM trans. On Computer Human Interaction』(4(1):3-38、1997年３月)に掲載されているArons, B.による「スピーチ・スキマー：録音されたスピーチをインタラクティブにスキミングするためのシステム（SpeechSkimmer: A system for interactively skimming recorded speech）」に開示されている。たとえ話し言葉の信号における無音状態が意味上の重要性をほとんど又は全く有さないとしても、無音状態を検出するための手順は、話し言葉に最も適切に機能する。ポピュラー・ミュージック又は残響ソース等の多くの音声は、無音状態を全く含んでいない可能性があり、無音状態に基づく分割方法は失敗するであろう。
【０００５】
「聴覚による場面分析」と呼ばれる別のアプローチは、調和的に且つ時間的に関連する音の成分を検出することを試みる。このようなアプローチは、A. Bregmanによる記載されてある「聴覚による場面分析：音の知覚的な構成（Auditory Scene Analysis: Perceptual Organization of Sound）」（ブラッドフォード・ブックス、1994年）に記載されている。通常、聴覚による場面分析手順は、少数の一様に保たれ調和した純粋な音楽の調べ等の制限された領域においてのみ機能する。例えば、Bregmanのアプローチは、調和的に又は時間的に関連する周波数領域内の成分を探す。通常、規則は、「関連」が何を意味するかを定義するために用いられる仮定であり、これらの規則は一般に、制限された領域においてのみ適切に機能する。
【０００６】
また別のアプローチは、個人の特徴によって音声をセグメント化（分割）するために、話し手の識別を用いる。このようなシステムは、『ＩＣＡＳＳＰの会報』（第２巻、189〜192頁、1992年3月）に掲載されているSiu他による「複数の話し手による話し言葉の波形の分割のための管理されない連続学習アルゴリズム（An Unsupervised Sequential Learning Algorithm For The Segmentation Of Speech Waveforms With Multiple Speakers）」に開示されている。話し手識別方法は、音をセグメント化するために用いられ得るが、この方法は、ラベルをつけられたデータから成るコーパスから学習されなければならないか、又は音声セグメントをクラスタ化することによって推測される必要のある統計モデルに依存する。
【０００７】
音声分割への更に別のアプローチは、音楽のビート・トラッキングを用いて実行される。ビート・トラッキングへの１つのアプローチにおいて、サブバンド全体にわたる相関するエネルギーのピークが用いられる。『J. Acoust Soc. Am.』（103(10)、588〜601頁）に掲載されているScheirer, Eric D.による「音響的な音楽信号のテンポ及びビート分析（Tempo and Beat Analysis of Acoustic Musical Signals）」を参照されたい。また別のアプローチは、音楽は４／４拍子であり、バスドラムを強拍に有さなければならないといった、限定的な仮定に依存する。『ACM Multimedia 1994』の会報（ACM、サンフランシスコ）に掲載されているGoGo, M.及びY. Muraoakaによる「音楽の音響信号のためのビート・トラッキング・システム（Beat Tracking System for Acoustic Signals of Music）」を参照されたい。
【０００８】
【発明が解決しようとする課題】
本発明では、局所的な自己類似性を調べることにより、音楽又は音声における変化点を自動的に検出するための方法が提供される。この方法は、無音状態等の手掛かりが存在しない場合でさえ、独唱／合唱、又は話し言葉／音楽の間の遷移等の個々の特徴の境界、又は自然なセグメントの境界を識別することができる。
【０００９】
【課題を解決するための手段】
本発明は、複雑さに関係なく任意の音声ソースに対して機能し、無音状態又はピッチ等の特定の音響特性に依存せず、そしてクラスタリング又はトレーニング（学習）を必要としない。
【００１０】
本発明の方法は、索引付け、ビート・トラッキング、及び音楽又は音声の検索及び要約を含む多様な用途において用いられることができる。この方法は、多様な音声ソースと共に機能する。
【００１１】
本発明の方法は、音声信号の自己類似性を考慮することによって、最大の音声変化の点を検出する。音声信号の各時間ウィンドウごとに、高速フーリエ変換（ＦＦＴ）等の演算式が、パラメータ表示の値ベクトルを決定するために適用される。各パラメータ表示の値の間の相互類似性、並びに自己類似性が、過去及び未来のウィンドウで決定される。新規性又は変化の有効な点は、過去と未来とで高い自己類似性を有し、且つ低い相互類似性を有するであろう。「過去」と「未来」との間の時間差の範囲は、例えば、個々の音は短い時間範囲を用いて検出され得る一方で、音楽のテーマ等のより長いイベントは、より遠い過去又は未来のウィンドウを考慮することにより識別されることができるように、システムのスケールを変えるために変更されることが可能である。この結果は、任意の時点でのソース音声の新規性の程度の測定である。
【００１２】
自己類似性と相互類似性との測定の差が大きい場合、インスタンスは、本質的な音声の変化に対応し、音声をセグメント化又は索引付けするのに用いられる適切な点を提供するであろう。差の測定における周期的なピークは、リズム等の音楽の周期性に対応することが可能なので、本発明の方法は、ビート・トラッキング、即ち音楽の強拍のテンポ及び位置を検出するために用いられることができる。この方法の用途には、以下のものが含まれる。
●音声の分類及び検索のための自動分割
●音声索引付け／走査検索（ブラウジング）：セグメント・ポイントに跳ぶ
●音声の要約：本質的に新しいセグメントの出だし部分のみを再生する
●音声の「要点の抜粋」：作品全体を最も適切に特徴付けるセグメントのみを再生する
●音楽の音声波形を分割のためにＭＩＤＩの音と位置合わせする
●音声の索引付け／走査検索：次の新しいセグメントへリンク／ジャンプする
●音声の「スマート・カット・アンド・ペースト」のための終端点を自動的に検出する
●非線形なタイム・スケールのために音声を位置合わせする（「音声モーフィング」）
●テンポの抽出、ビート・トラッキング及び位置合わせ
●同様のテンポを有する音楽を連結するための「自動ＤＪ」
●口の動きの自動アニメーションのために話し言葉音声におけるタイム・インデックスを検出する
●ＭＰＥＧ−４等の構造化音声コーディングのための分析
【００１３】
従って、本発明の方法は、任意の瞬間の音響ソースの新規性に比例する時系列を生成する。高い値及びピークは、大きな音声変化に対応する。従って、新規性の得点は、セグメント境界として用いられることが可能なインスタンスを検出するために、しきい値処理されることが可能である。
【００１４】
本発明の更なる詳細は、添付図面にサポートされて説明される
【００１５】
【発明の実施の形態】
図１は、本発明の音声の分析方法のステップを示すフローチャートである。
【００１６】
Ｉ．ソース音声のサンプリング
最初のステップ１０１において、ソース音声１００がサンプリングされる。このようなサンプリングは、音声波形の一部をウィンドウ制御する（複数の小領域（ウィンドウ化された部分(フレーム)）に分割する）ことにより実行される。可変のウィンドウ幅及び重なりが用いられ得る。例えば、ウィンドウは、２５６のサンプル幅であり、１２８ポイントの重なりを伴い得る。１６kHzでサンプリングされる音声の場合、これは１６mSのフレーム幅及び１秒当たり１２５フレーム速度をもたらす。
【００１７】
II．パラメータ化
第２のステップ１０２では、サンプリングされた音声信号（ウィンドウ化された部分）が、パラメータ化される。各フレームは、フーリエ変換又はメル周波数ケプストラル係数（Mel-Frequency Cepstral Coefficients：ＭＦＣＣ）分析等の音声信号部のベクトル表現を提供する分析関数を用いて、パラメータ化される。他のパラメータ化方法には、線形予測、音響心理学的な考慮が含まれ、又は永久線形予測（Perpetual Linear Prediction）等の技術の組合せに基づくものが潜在的に含まれる。
【００１８】
本明細書において、次に示される例では、各分析フレームは２５６ポイントのハミング・ウィンドウ（Hamming window）によってウィンドウ化され、高速フーリエ変換（ＦＦＴ）が、パラメータ化のために用いられて、このウィンドウのスペクトル成分が推定される。ＦＦＴの結果の大きさの対数は、ウィンドウ内の信号のパワー・スペクトルの推定として用いられる。高周波数成分は、より低い周波数成分ほど、類似性の計算に有用ではないので、通常、サンプリング周波数の(１／４)(Ｆｓ／４)を超える高周波数成分は捨てられる。結果として得られるベクトルは、ウィンドウのスペクトルのコンテンツ（成分の値）を特徴づける。
【００１９】
ＭＰＥＧ（Moving Picture Experts Group）の第３層（Layer 3）の音声標準等の他の圧縮技術が、パラメータ化のために用いられてもよい。ＭＰＥＧは、音声映像情報をデジタル圧縮フォーマットでコーディングするために用いられる標準の一系統である。ＭＰＥＧの第３層は、ＦＦＴに類似のスペクトル表現を用い、距離測定に用いられることができ、そして音声を復号化する必要性を回避する。用いられるパラメータ化に関係なく、得られる好ましい結果は、各フレームごとのパラメータの小さいベクトルである。
【００２０】
「類似の」ソースが類似のパラメータをもたらす限り、パラメータ化のタイプは重要でない。異なるパラメータ化は、異なる用途で、ある程度有用であることが証明され得る。例えば、実験は、粗いスペクトル形状を保持する一方で、ピッチに起因する微細な和声構造（fine harmonic structure）を捨てるＭＦＣＣ表現が、所定の用途に適し得ることを示した。ＭＦＣＣドメインにおける単一のピッチは、和声自体ではなく、和声を含むものにより概して表されている。従って、もし単一ピッチの音が存在する場合は、単一ピッチの音も一致するが、ＭＦＣＣは、正確なピッチよりも寧ろ類似の音質に一致する傾向がある。
【００２１】
カリフォルニア州パロアルトのインターナル・リサーチ・コーポレーションのSlaneyによるテクニカル・レポート第1998-010番「聴覚ツールボックス（Auditory Toolbox）」（1998年）に記載されているものに類似の音響心理学的に誘導されるパラメータ化は、それらが聴き手による類似性判断をより適切に再現する場合に、特に適切であり得る。
【００２２】
従って、本発明の方法は、フレキシブルであり、パラメータ化のための任意の既存の音声分析法を包含することができる。更に、パラメータ化ステップは、異なるパラメータ化関数を選択することによって、又は例えば、後続のステップで決定されるように、結果として得られる類似性マトリックスのコントラストを最大にするためにウィンドウ・サイズを調整することによって、特定のタスクのために調整されることができる。
【００２３】
III．マトリックスへのパラメータの埋め込み（はめ込み）
音声がパラメータ化されると、図１に示される次のステップ１０４で、パラメータは２次元の表現に埋め込まれる。音声を埋め込む１つの方法は、『ACM Multimedia 99の会報』（フロリダ州オーランド）に掲載されている本発明者J. Footeによる「自己類似性を用いることによる音楽及び音声の視覚化（Visualizing Music and Audio Using Self-Similarity）」に記載されており、これは参考文献として本明細書に組み入れられる。
【００２４】
埋め込みステップにおいて、キーは２つの特徴ベクトルｖ_i及びｖ_jの間の類似性又は非類似性（Ｄ）の測定である。ベクトルｖ_i及びｖ_jは音声フレームｉ及びｊのための先に論じられたパラメータ化ステップで決定される。
【００２５】
Ａ．ユークリッド距離
ベクトル間の類似性の１つの測定法は、パラメータ空間におけるユークリッド距離、即ち、次のように表されるベクトル・パラメータ間の差の二乗の和の平方根（[Σ(ｖ_i−ｖ_j)²]^1/2）である。
Ｄ_E(ｉ,ｊ)≡‖ｖ_i−ｖ_j‖
【００２６】
Ｂ．ドット積
ベクトル類似性の別の測定法は、ベクトルのスカラー・ドット積である。ユークリッド距離とは対照的に、ベクトルが大きく、且つ同様の向きを有する場合、ベクトルのドット積は大きいであろう。ドット積は、次のように表すことができる。
Ｄ_d(ｉ,ｊ)≡ｖ_i・ｖ_j
【００２７】
Ｃ．正規化されたドット積
大きさへの、そしてそれ故にエネルギーへの依存を取り除くために、別の類似性測定法では、ドット積が、ベクトル・パラメータ間の角のコサインをもたらすように正規化されることが可能である。ベクトル間の角のコサインは、ベクトルの大きさが小さい場合でさえも、大きい類似性得点をもたらす特性を有する。パーセバルの関係のために、各スペクトル・ベクトルの基準は、ベクトルが割り当てられたウィンドウにおける平均信号エネルギーに比例するであろう。利用されるベクトル間の角のコサインをもたらす正規化されたドット積は、次のように表すことができる。
Ｄ_C(ｉ,ｊ)≡(ｖ_i・ｖ_j)／‖ｖ_i‖‖ｖ_j‖
【００２８】
Ｄ．ウィンドウ化を伴う正規化されたドット積
コサイン測定法を用いることは、例えば無音状態を有するような小さいエネルギーを有するベクトルを主として識別する幅の狭いウィンドウが、スペクトル的に類似していることを意味し、これは一般に好ましい。小さいエネルギーを有するベクトル、即ち特徴ベクトルを識別している幅の狭いウィンドウは、楽譜上の一般的な音楽的なイベントよりもずっと速い速度で発生するであろう。従って、より好ましい類似性の測定は、より大きいウィンドウｗにわたってベクトル相関関係を計算することによって得られ得る。また、より大きいウィンドウは、ベクトルの時間依存の指示を把握する。ウィンドウが高い類似性得点を有するためには、ウィンドウ内のベクトルが類似しているだけでなく、それらのシーケンスもまた、類似していなければならない。ウィンドウｗにおけるベクトルｖ_i及びｖ_jの類似性の測定は、次のように表すことができる。
【数８】

【００２９】
一次元の例を考えると、スカラーのシーケンス（１,２,３,４,５）は、シーケンス（５,４,３,２,１）とのコサイン類似性得点よりも非常に高い、それ自体に対するコサイン類似性得点を有する。
【００３０】
ドット積及びコサイン測定は、ベクトル類似性の増加と共に増大し、ユークリッド距離は０に近づくことに留意すべきである。測定タイプ間で適切な類似性の概念を得るために、ユークリッド距離は、反転されることが可能である。他の合理的な距離の測定は、上述の測定基準例の統計的測定又は重み付けを伴う変形等の距離の埋め込みに用いられることが可能である。
【００３１】
Ｅ．マトリックス形式に埋め込まれた測定
距離の測定Ｄは、２つフレーム、即ちソース信号のインスタンスの関数である。信号内の全ての可能な瞬間同士の類似性を考慮することは、好ましいであろう。これは、距離の測定Ｄを２次元マトリックス表現Ｓに埋め込むことにより実行される。マトリックスＳは、全てのフレーム、即ちインスタンス、又はマトリックスＳのｉ、ｊ成分が、Ｄ(ｉ,ｊ)であるように、全ての時間インデックスｉ及びｊのために計算された類似性を含む。一般に、全てのウィンドウはそれ自体に最も類似しているので、Ｓは斜めに最大値を有するであろう。
【００３２】
マトリックスＳは、各ピクセルｉ、ｊが類似性測定Ｄ(ｉ,ｊ)に比例するグレイスケール値を与えられるように、矩形画像として視覚化され、最大値に最大輝度が与えられるようにスケーリングされることができる。これらの視覚化は、音声ファイルの構造がはっきり確認されることを可能にする。無音状態又は長く一様に保たれた音等の音声類似性の高い領域は、明るい矩形として斜めに現れる。テーマ、フレーズ又はコーラス等の繰り返される音形は、対角線を外れた明るい長方形として確認され得る。音楽が高頻度の繰り返しを有する場合、これは、繰り返し時間によって、主対角線からオフセットされる斜めのストライプ又はチェッカー盤として見ることができる。
【００３３】
図２は、バッハの平均律クラヴィーア曲集からハ長調のプレリュード第１番（BVW846）の最初の数小節のための楽譜である。図３は、図２に示される曲の小節からのグレン・グールドによる１９６３年のピアノ演奏の視覚化である。図３は、図２の小節の演奏から得られる最初の数秒間の距離マトリックスの視覚化を提供する。その後の視覚化と同様に、図３の視覚化では、マトリックス座標の規定（conventions）よりも寧ろ、画像の座標規定が用いられるので、基点は左下であり、時間は上方向及び右方向に増加する。図４は、図２に示される曲のための楽器用ディジタル・インターフェイス（ＭＩＤＩ）のプロトコル・データからの音響の再現を示す。図３及び４は、この作品の構造及び演奏の詳細の両方を視覚化する。
【００３４】
音楽の構造は、繰り返されるモティーフ（主題）から明白である。多重の繰り返し時間は、図３及び４の主対角線に平行する対角線を外れたストライプにおいて見られる。図２に示される楽譜の最初の数小節において、この作品の反復的な性質が明白にされている。図３の視覚化において、約３４個の音（note）が、対角線に沿った矩形として確認されることが可能である。音の繰り返しは、主対角線に平行する対角線を外れたストライプにおいて見られる。繰り返される音は、主対角線に平行する対角線を外れたストライプにおいて見られる。ストライプは、図３の０、２、４及び６秒から開始していることが確認される。
【００３５】
図４は、類似の抜粋曲を視覚化するが、精密なテンポを有する無難なピアノ・サンプルを用いたＭＩＤＩの再生からの視覚化である。無音状態で開始していることは、左下の明るい矩形として示され、これは高い自己類似性を有するが、視覚化の起点から開始される水平及び垂直の両方向へ延びる暗い矩形により示されることが可能なように、残りの非無音状態部分との低い相互類似性を有する。この図では、図３に示される人間による演奏とは異なり、全ての音は全く同じ長さ及び調音を有する。
【００３６】
Ｆ．傾きを有するマトリックス（Slanted Matrix）
Ｓ等のマトリックスの成分を決定するための計算を簡略化するために、類似性測定Ｄは、「傾きを有する」ドメイン・マトリックスＬ(ｉ,ｌ)で表されることができる。なおｌは遅れ値ｌ＝ｉ−ｊである。傾きを有するマトリックスを用いることによる簡略化の程度は、類似性の決定が、比較的小さい遅れに対してのみ必要とされ、ｉ及びｊの全ての組合せに対して必要とされるわけではない、本明細書において後に示される多数の用途で特に絶大である。ｌの小さく、且つ負ではない値に対してのみマトリックスＬを計算することは、計算及び記憶容量の相当な削減をもたらすことができる。
【００３７】
IV．カーネル相関関係
図１に示されるように、実行され得る次のステップ１０６は、距離測定値間の変化又は新規性の程度を決定するものである。マトリックスＳ（以下、Ｓ）の構造は、変化又は新規性測定の程度を決定する際の鍵である。新規性を決定するためにＳが用いられ得る方法の例として、例えばカッコウの鳴き声のような異なるピッチの２つの連続する音を有する単純な曲を検討する。視覚化されると、この２つの音の例のためのＳは２×２のチェッカー盤のように見えるであろう。対角線上の白い矩形は、高い自己類似性を有するこれらの音に対応する。対角線を外れた黒い矩形は、低い相互類似性を有する領域に対応する。差の決定のために、正規化されたドット積又はベクトル間の角のコサインを用いていると仮定すると、類似の領域は１に近く、類似していない領域は−１により近いであろう。
【００３８】
カッコウの鳴き声のためのＳにおいて音が変化する瞬間を検出することは、チェッカー盤の中心を検出するのと同様に簡単である。これは、それ自体がチェッカー盤のように見える「チェッカー盤」カーネル（kernel）と呼ばれるカーネルと、Ｓとを相関させることにより実行されることができる。最も単純なものは、次の２×２ユニットのカーネルである。
【数９】

【００３９】
他のカーネルが用いられてもよい。例えば、単一のチェッカー盤カーネルが、次のような（２つの対向する四分項(quadrants(要素))には１を有し、他の２つの対向する四分項には０を有するような）「同調（coherence）」及び「反同調（anti-coherence）」カーネルに分解されることが可能である。
【数１０】

【００４０】
第１の「同調」の項は、中心の両側の自己類似性を測定する。これは、マトリックスＳの両領域が自己類似性である場合に、高いであろう。第２の「反同調」の項は、２つの領域間の相互類似性を測定する。２つの領域が実質的に類似している場合、又は中心点の両側で差がほとんどない場合、相互類似性は高いであろう。自己類似性及び相互類似性の間の差は、中心点での信号の新規性を推定する。２つの領域が自己類似であるが、互いとは異なる場合、差の値は大きいであろう。
【００４１】
単位カーネルと単位カーネルのマトリックスとのクロネッカー積を導き出すことによって、より大きいカーネルが容易に構成される。このような積の例は、次の通りである。
【数１１】

【００４２】
カーネルは、エッジでは次第に０に近づくハミング等のウィンドウを用いて、エッジ効果を避けるように平滑化されることが可能である。本明細書で次に示される実験的な値のために、中心から四方に対称なガウス関数が用いられる。図５は、シグマ＝３２である半径方向のガウス漸減を伴う６４×６４のチェッカー盤カーネルの３次元の図である。
【００４３】
チェッカー盤カーネルを類似性マトリックスＳと関連付けることは、新規性の測定、即ち図１に示されるように新規性得点１０８をもたらす。この測定方法の機能の仕方を視覚化するために、カーネルＣが図４の例の対角線に沿って摺動し、カーネルＣ及びＳの成分ごとの積が合計されると仮定する。カーネルＣが、一様に保たれた音等の比較的均一な領域上にある場合、正及び負の領域の合計は０になる傾向があるであろう。逆に、カーネルＣがチェッカー盤のまさに要（crux）に配置される場合、相互類似性の低い領域を増加させ、全体の合計は大きくなるであろう。従って、Ｓの対角線に沿ってこの相関関係を計算することは、音声新規性の時間調整された測定値Ｄ(ｉ)をもたらす。なお、ｉはオリジナルのソース音声に対応するフレーム番号、従って、タイム・インデックスである。新規性Ｄ(ｉ)は、次のように表すことができる。
【数１２】

【００４４】
慣例により、カーネルＣは、幅（遅れ）Ｌを有し、０,０を中心とする。計算のために、Ｓは未定義の値を避けるために０を埋め込まれ得るか、又はこの例におけるように、カーネルがＳと完全に重なる信号内に対してのみ計算され得る。Ｌの遅れ以下を有するＳの領域のみが用いられるので、傾斜表現は特に有用であることに留意すべきである。また通常、Ｓ及びカーネルＣは双方とも対称性であるので、二重の合計下（ｍ≧ｎである場合）の値の半分のみが計算される必要がある。
【００４５】
カーネルの幅Ｌは、新規性の測定の特性に直接影響を及ぼす。小さいカーネルは、ビート又は調子等の短いタイム・スケールで新規性を検出する。カーネルサイズを大きくすると、時間分解能を低下させ、検出されることが可能な新しいイベントの長さを増大させる。より大きいカーネルは、短時間の新規性を平均し、独唱及び合唱の間の音楽の遷移、変調又は交響曲の楽章等のより長い構造を検出する。図６は、図３のグールドによる演奏のための類似性マトリックスＳに対して計算される新規性得点を示す。２つのカーネル幅を用いた結果が示される。２秒カーネルの曲線（plot）は、わかり易さのために幾分か上方へスケールをオフセットされた。
【００４６】
幾つかの音は続けて（スラーで）奏されるので明瞭ではないが、より短いカーネルである０．５秒カーネルは、音の事象を明確に検出する。グールドの独特の演奏では特に、各フレーズの最後の３音は、スタッカート奏法により強調される。ピッチ、エネルギー又は無音状態等の明確な特徴を分析することなく、このシステムが如何にして各音の開始を明確に識別するかに留意すべきである。
【００４７】
より長いカーネルは、２秒、４秒、６秒時の８符のフレーズの境界で、ピークをもたらす。各ピークは、各フレーズの最初の音の強拍で、正確に発生する。本発明の方法は、音楽のフレーズ又はピッチの事前（アプリオリ）情報を有さないが、知覚的に、且つ音楽的に重要な点を検出することに留意すべきである。
【００４８】
Ｖ．セグメントの境界の抽出
上述されたように、新規性得点の極値は、音声の特徴における大きな変化に対応する。音声は境界内では類似しており、境界を越えるとかなり異なるので、これらの新規点は音声をセグメント化するための適切な境界としてしばしば機能する。また新規点は、それらが重要な変化の点を示すので、音声への有用なインデックスとして機能する。
【００４９】
Ａ．しきい値処理
セグメント境界を検出することは、新規性得点におけるピークを検出するという単純な事柄である。単純なアプローチは、得点が局所的な、又は大域的なしきい値を越える点を検出することである。これは図１のステップ１１０で示される。このステップでは、ステップ１０８で得られた新規性得点におけるしきい値が決定され、セグメント境界がステップ１１２で識別される。時間精度セグメント化決定の場合、しきい値を越える最大の、又は０傾斜の点は、ピークを正確に位置づける。
【００５０】
インデックス・ポイントを編成する有用な方法は、新規性得点により全てのインデックス・ポイントを順序付けることにより構成されるバイナリー・ツリー構造に存在する。最高の得点を有するインデックス・ポイントは、このツリーのルートとなり、信号を左右のセクション（グループ）に分割する。左右のセクションで最高の得点を有するインデックス・ポイントは、ルート・ノードの左右の子となり、これはしきい値を越えるインデックス・ポイントが無くなるまで繰り返される。ツリー構造はインデックス・ポイントのナビゲーションを容易にし、ツリーを辿ることによって、任意の点から最も近いインデックスを探し出すことを容易にする。更に、ツリーは、任意のしきい値レベルで切断されることが可能であり、所望の数のインデックス・ポイント、及びそれに伴い、セグメントをもたらす。ツリー・アプローチに対する改良は、ツリーを下りていくにつれてカーネルのサイズを縮小させることであり、それにより、より低いレベルのインデックス・ポイントが、益々精度の高い時間細分性を示す。
【００５１】
図７は、図３に示されるグールドによる演奏の最初の１０秒の１／２秒カーネルから抽出されたセグメント境界を示す。境界は、［＋］により示される。第３の音と続けて（スラーで）奏される第４の音を除き、個々の音は明確に分離される。
【００５２】
図７で識別されるセグメント境界は、音符に対して上手く機能するが、それらのスペクトルが異ならない限り、話し言葉を単語にセグメント化することを期待するのは難しい。単語はしばしば音響的に明確に表現されないので、話し言葉は別である。例えば、「that's stupid」という句は、２つの単語の「ｓ」の音に音響的な差がほとんどないので、「that's-s」と「tupid」とにセグメント化され得る。これは恐らく、英語を話せない人が選択するであろうセグメンテーションあることに留意すべきである。
【００５３】
Ｂ．話し言葉／音楽及び話し手のセグメンテーション
音楽の他に、本発明の方法は、音声を話し言葉及び音楽の成分にセグメント化するために、並びに、より小さい範囲で話し言葉を話し手ごとの音声にセグメント化するために機能する。図８は、「Animals Have Young」（『MPEG Requirements Group』（ＭＰＥＧ−７のコンテンツ・セットのビデオＶ１４であるＭＰＥＧ−７のコンテンツ・セットの記述(1998年10月のＭＰＥＧアトランティックシティ会議の文書ISO/MPEG N2467)）の最初の１分のための音声新規性得点を示す。このセグメントは前置きの４秒の無音状態を含み、次に作品のロゴと共に短い音楽セグメントが続く。１７秒の時点で、タイトルが始まり、非常に異なるテーマ音楽が始まる。３５秒の時点で、このテーマ音楽は短い無音状態へと消えていき、このセグメントの残りの部分で続けられる弱いバックグラウンド・ミュージックの中、女性による話が続く。最大のピークは、３５秒時点での話し言葉／音楽遷移の際に、まさに発生する。他の２つの大きなピークは、４秒時点での無音状態と音楽との間の遷移の際、及び１７秒時点での前奏とテーマ音楽との間の遷移の際に発生する。
【００５４】
単純素朴なスペクトル距離測定法を用いても、新規性得点は一般に、話し手が性の違い等の著しく異なる声のスペクトルを有さない限り、話し手を区別することはできない。しかしながら、類似性測定法が検出するのに十分な差が、しばしば存在する。特に、本発明の新規性得点は、従来のアプローチにおけるように、特定の話し手、又は話し手・モデルの既知の声の特徴間の違いではなく、話し方における違いを検出するためにしばしば用いられることができる。ここでは具体的に説明しないが、例えばケプストラム係数に基づいて、又は『ICASSPの会報』（第Ｓ１巻、317〜320頁、オーストラリアのアデレード、1994年4月）に掲載されているJ.T. Foote及びH.F. Silvermanによる「話し手のクラスタリング及び識別のためのモデル距離測定（A Model Distance Measure For Talker Clustering And Identification）」で開示されている方法を用いて、声の特徴によって話し手を識別するように調整された距離を用いることは、単純な事である。
【００５５】
Ｃ．自動ビート・トラッキング及び「ビート・スペクトル」
図１に示されるように、埋め込まれた音声パラメータのための別の用途は、新規性得点を取得するためのカーネル相関の実行の代替として提供され得る、図１のステップ１１４により示されるようなビート・トラッキングのための用途である。本発明のビート・トラッキングでは、音楽における周期性及びビートの相対強度の両方を導き出すことができる。音楽のビートを識別する遅れの関数としての自己類似性の測定は、本明細書では「ビート・スペクトル」Ｂ(ｌ)と呼ばれる。ビート・スペクトルのピークは、音声の周期性に対応する。ビート・スペクトルの単純な推定は、次の式のように対角線に沿ってＳを合計することによって算出され得る。
【数１３】

【００５６】
Ｂ(０)は単に、ある連続する範囲Ｒの主対角線に沿った和であり、Ｂ(１)は第１の副対角線に沿った和であり、以下同様である。対角線の和は単に、列全体の和、又は遅れ軸への投影であるので、ここでもまた、傾斜表現は特に有用である。
【００５７】
図９は、図３に示されるグールドによる演奏の３秒間にわたって計算されたビート・スペクトルＢ(１)の例を示す。各音の周期性は、フレーズの強い８分音符周期及び１６分音符での低周波と共にはっきり確認されることができる。特に興味深いのは、第３及び第５音でのピークである。これらは、８音フレーズの３音周期性から生じる。各フレーズにおいて、第３と第６の音、第４と第７の音、及び第５と第８の音とは同じである。
【００５８】
ビート・スペクトルのよりロバスト（robust）な定義は、次の式のようなＳの自己相関である。
【数１４】

【００５９】
しかしながら、Ｂ(ｋ,ｌ)は対称性であるので、１つの変数に対してのみ和を計算することが必要であり、それにより、一次元の結果Ｂ(ｌ)をもたらす。ビート・スペクトルＢ(ｌ)は、音楽のジャンル、テンポ及び律動的な（リズムの）構造の範囲全体にわたって優れた結果をもたらす。
【００６０】
図１０は、デイブ・ブルーベック・カルテットによるジャズ曲「テイク・ファイブ」の最初の１０秒から計算されるビート・スペクトルを示す。珍しい５／４の拍子記号である他に、この律動的に洗練された作品は、幾らかの解釈を必要とする。先ず、明確な周期性は、図１０の垂直な実線によって印をつけられた実際のビート・テンポで発生しないことに気付くであろう。寧ろ、顕著な周期性は、５ビートで生じ、対応する低調波は１０ビートで生じる。ジャズの愛好者は、「スウィング」が、「ストレートな（ジャズ風でない）」等分の８分音符よりも寧ろ、等分ではない周期へのビートの細分であることを知っている。ビート・スペクトルは、各ビートがほぼ完全な三連音符（３つの音）に細分されることを明確に示す。三連音符は、第２及び第３のビートの間の１ビートを１／３に区切る点線により示される。「スウィング」のより明確な例示を提供することは難しい。
【００６１】
幅の狭いカーネルの新規性得点と組み合わせてビート・スペクトルを用いることは、音楽のテンポの優れた推定をもたらす。ビート・スペクトルにおけるピークは、基本の律動的な周期性を提供し、新規性得点におけるピークは、正確な強拍の時間又は時期を提供する。新規性得点をcombのような関数により、ビート・スペクトルからの周期と関連付けることは、全てのビートで顕著なピークを有する信号をもたらす。その後、強いオフビート及びシンコペーションは、ビート・スペクトルの二次ピークから推論されることが可能である。ビート・トラッキングのための従来のアプローチは、絶対的な音響属性を求める。例えば、特定のサブバンドにおけるエネルギー・ピーク等である。必要とされる唯一の信号属性は反復的な変化であるので、本発明のビート・トラッキングは、よりロバストである。
【００６２】
パワー・スペクトルがフェーズ情報を捨てるのと同じように、ビート・スペクトルは絶対タイミング情報を捨てる。本発明では、ビート・スペクトルが、時間に対する律動的な変化を分析するために導入される。スペクトログラムは、連続するウィンドウのフーリエ分析の像を描き、時間に対するスペクトルの変化を示す。同様に、ビート・スペクトログラムは、連続するウィンドウに対するビート・スペクトルを示し、時間に対する律動的な変化を表示する。
【００６３】
ビート・スペクトルは、連続するビート・スペクトルにより形成される画像である。時間がｘ軸で示され、遅れ時間がｙ軸で示される。ビート・スペクトログラフの各ピクセルは、ビート・スペクトログラムにおいて明るいバーとして見られることができるように、ビート・スペクトルのピークが、その時間及び遅れでのビート・スペクトルの概算された値により色付けされる。ビート・スペクトログラフは、テンポが時間を通じてどのように変化するかを示す。例えば、ビート間の遅れ時間は時間と共に低下するので、加速しているリズムは、下方へ傾斜する明るいバーとして確認できる。
【００６４】
ビート・スペクトルは、周波数スペクトルとの興味深い相似点を有する。第１に、時間の正確さとビート・スペクトルの精度との間にで逆関係が存在する。この理由は、より正確に周波数を推定するために、反復的な信号のより多くの周期が必要とされるからである。合計する範囲が長くなるほど、ビートの正確さは高まるが、当然ながら、時間に関する正確さは低下する。専門的には、ビート・スペクトルは、周波数演算子であり、従って、時間演算子と取り替えられない。より詳細には、分析ウィンドウ上でテンポが変化すると、これはビート・スペクトルを「不鮮明にする」。同様に、分析ウィンドウ上での信号の周波数の変化は、不鮮明な周波数スペクトルをもたらす。従って、周波数分析と同様に、ビート・スペクトルの分析は、スペクトル及び時間の分解能の間でのトレードオフである。
【００６５】
VI．用途
音声を確実にセグメント化及びビート・トラックする能力は、多数の有用な用途を有する。その幾つかが、以下で説明される。本発明の方法は、二点間の類似性の何らかの測定法が決定され得る、ビデオ等の任意の時間に依存する媒体のために用いられることが可能であることに留意すべきである。
【００６６】
Ａ．音声のセグメント化及び索引付け
先に示されたように、本発明の方法は、音声セグメント境界の優れた推定を提供する。セグメント境界の位置は、音声ファイルの一部のみの再生が望まれるような用途のために有用である。例えば、音声編集ツールにおいて、選択領域が半端な音又はフレーズを含まないように、選択オペレーションはセグメント境界に制限されることができる。このような音声編集ツールは、選択領域を単語又は文等のユニット全体に制限するテキスト・エディタの「スマート・カット・アンド・ペースト」に類似している。適切な時間分解能が利用可能であるように、セグメント・サイズは、ズームの程度に適合されることができる。ズームインされた場合、より高い分解能（恐らくインデックス・ツリーのより低いレベルからの）が、音ごとの選択を可能にし、ズームアウトされたビューは、フレーズ又はセクションごとの選択を可能にする。同様に、音声のセグメント化は、音声の走査検索を著しく容易にする。即ち、「jump-to-next-segment（次のセグメントへのジャンプ）」関数は、音声がリアル・タイムよりも速く走査検索されることを可能にする。セグメントは道理上、自己類似性であるので、セグメントの極く一部を聞くことは、そのセグメント全体に対する適切な概念をもたらすであろう。
【００６７】
Ｂ．音声の要約及び要点の抜粋
音声のセグメント化及び索引付けのアプローチは、自動要約に拡張されることが可能である。例えば、ＣＤプレーヤの「走査」機能と同じように、各セグメントの始めの部分を演奏することによって実行され得る。実際には、セグメントはクラスタ化され得るので、かなり他と異なるセグメントのみが要約に含まれる。要約に既に含まれているセグメントに非常に類似しているセグメントは、多くの情報を失わずにスキップされ得る。例えば、流行歌を要約する場合、コーラスの繰り返し部分は、要約から排除され得る。
【００６８】
音声の要約の更なる改善は、音声の「要点を抜粋する（gisting）」こと、即ち作品全体を最も適切に特徴づける短いセグメントを検出することであり得る。多数のオンライン上の音楽小売業者は、顧客が試聴するための、商品の小型のクリップを提供する。クリップは一般に、各作品の始めの部分付近から取得される短い区間に過ぎず、作品全体を表わさないであろう。本発明の類似性マトリックスの単純な処理は、作品全体を通して最も類似しているセグメントを検出することができる。各セグメントに対応する区間に対して類似性マトリックスの平均をとることは、そのセグメントが作品全体をどの程度適切に表すかの測定をもたらす。従って、最も高い得点を有するセグメントが、サンプル・クリップの最適な候補である。
【００６９】
Ｃ．分類及び検索
テレビ放送の音声部分での広告の分類等の分類及び検索は、長い異種のデータよりも、均一の特徴を有する短い音声セグメントに対して、本発明の方法を用いることで、より適切に機能するであろう。テレビのサウンドトラックのラジオ放送のようなストリーミング音声において、１つのセグメントがいつ開始及び終了するかは、まず明白ではない。音声がセグメント化される場合、各セグメントは適度に自己類似性であり、従って均質／同種であることを保証される。従って、本発明の方法に従って決定されるセグメントは、類似性によりクラスタ化されるか、又はSPIEの会報である『マルチメディア記憶及びアーカイブ・システムII（Multimedia Storage and Archiving Systems II）』（第3229巻、テキサス州ダラス、1997年）に掲載されている、本発明者J. Footeによる「音楽及び音声のコンテンツに基づく検索（content-Based Retrieval of Music and Audio）」により開示されている方法におけるように分類される、適切な単位である。
【００７０】
本発明の方法の視覚化は、音響的に類似の楽節が音声の記録にどのように配置され得るかを示す。類似性はまた、単一の記録内でと同様に、複数の記録にわたって検出されることが可能である。音声をセグメント化するために本発明を用いる分類手順は、より長いファイルに配置された既知の音楽又は音声を識別するために、即有効である。例えば、ニュース放送におけるテーマ音楽の位置又はテレビ放送において広告が開始する時間を検出することは簡単な事である。音声が利用可能である場合、類似性の測定は、ソース・コマーシャル及びテレビ放送の全てのフレームの間で計算され得、矩形の類似性マトリックスをもたらす。コマーシャルの開始時間は、ある適切な値で類似性マトリックスをしきい値処理することにより決定される。コマーシャルが前もって把握されていない場合でも、それらが繰り返されることにより検知され得る。多くの音楽の構造は、その作品を特徴づけるのに十分である。
【００７１】
専門家は、視覚的な構造のみにより、音楽及び音を識別する、ことが知られている。視覚化により、音楽を識別する人間の能力の証明として、ＭＩＴのVictor Zueは、音響スペクトログラフを「解釈する」コースを教えている。更に、フィラデルフィアのArthur Lintgenは、ＬＰの溝に見られる、より静かな、及びより大音量の楽節を識別することによって、ラベルのないクラシックの録音を区別することができた。Johnson, P.による「sci.skeptic FAQ」、セクション0.6.2 HYPERLINK http://www.faqs.org/faqs/skeptic-faq/ www.faqs.org/faqs/skeptic-faq/（1999年）を参照されたい。これらの例は、本発明に従って生成されるマトリックスの視覚化を用いることが、類似性による音楽検索に有用であり得ることを示す。
【００７２】
異なる演奏から音響的に類似の音声部分のみを検出できるのではなく、構造的に類似の音声も、類似性マトリックスを比較することにより識別することができる。例えば、同じ交響曲の楽章の異なる演奏は、どのように、又はいつそれらが演奏又は記録されたかに関わらず、若しくは、実際に用いられる楽器に関わらず、類似の構造の視覚化を有するであろう。図１１及び図１２は、ベートーベンの交響曲第５番の第１楽章全体の自己類似性を示す。示される２つの視覚化は、それぞれ異なる指揮者による異なる演奏からのものであり、図１１はヘルベルト・フォン・カラヤン指揮のベルリン・フィルハーモニー管弦楽団による演奏であり、図１２はカルロス・クライバー指揮のウィーン・フィルハーモニー管弦楽団による演奏である。この作品の長さは７分を超えるので、多くの微細な詳細は観察不可能である。各ピクセルは音楽の約１秒を表すので、有名な冒頭のテーマは最初の数ピクセルのみで発生する。主たる可視構造は、より静かな弦の楽節と、例えば楽章の終わり近くの一様に保たれたクライマックスにおけるような、全ての楽器が演奏されるより大音量のトゥッティ（全楽員）のセクションとの交互配列である。図１１及び１２は、視覚化が、個々の演奏家による変化、並びにその作品の本質的な構造の両方をどのようにとらえるかを示す。
【００７３】
Ｄ．自動音声位置合せ
図１１及び１２に示されるように、本発明の新規性得点の利点は、同じ音楽の異なる具現においても適度に一様であることである。新規性得点は、特定の音響特性よりも寧ろ、自己類似性に基づいているので、同じ音楽の異なる演奏は類似の新規性得点を有するはずである。従って、バッハの「Ｇ線上のアリア」は、バイオリンで演奏されても、カズー笛で演奏されても、類似の新規性得点を生じるはずである。
【００７４】
同じ音楽の異なる具現のための新規性得点の１つの用途は、音楽を位置調整するために得点を用いることである。ある具現の新規性得点の時間軸は、ダイナミック・プログラミング（dynamic programming）を用いて、別の具現の新規性得点に一致するようにワープ（歪曲(それる)）され得る。その後、このワープ機能は、テンポ・マップとして役立つ。非線形のタイム・スケールの変更を用いることにより、ある作品を他のテンポで再生することができる。音声の時間及びピッチのスケーリング方法の例として、S. Sprengerによる「音声信号の時間及びピッチ・スケーリング(Time and Pitch Scaling of Audio Signals)」(www.dspdimension.com/html/timepitch.html)を参照されたい。
【００７５】
一般に、セグメント境界は、画像「モーフィング（morphing）」のための用いられる「制御点」と同様に、タイム・スケールの変更のために有用な目印である。別の用途は、ビデオ・ゲームにおける進み具合等の予測不可能な時間に発生するイベントと共に音声作品を再生することであり得る。より長いセグメントが、ゲーム・レベル又は仮想環境位置等の特定のステージに関連付けられ得る。ユーザがそのステージに留まっている限り、このセグメントが繰り返される。異なるステージへの移動は、別のセグメントの再生を開始させる。
【００７６】
Ｅ．自動テンポ抽出
目印の時間位置を把握することは、外部イベントの音声との同期を可能にする。例えば、動画のキャラクターは、音楽のテンポに合わせて拍子をとるか、又は踊ることができる。ビデオ・クリップは、既存の音楽のサウンドトラックに自動的に配列され得る。別の有用な用途では、動画のキャラクターの唇の動きが、話し言葉又は歌声と同期をとられ得る。逆に、音声の目印、即ちセグメント境界が所定の時間に発生するように、セグメントをワープさせることにより、音声が、既存のタイム・シーケンスに合わせられることも可能である。この例には、既存のアニメーション又はビデオのシーケンスのためのサウンドトラックを作成することが含まれる。別の用途は、歌と歌との間の遷移が滑らかであるように、類似のテンポにより、歌を配列することであり得る。これは、専門のＤＪによって手作業で行われる処理であり、また、Muzak（商標）等の「環境」音楽の売り手のために行われる処理である。
【００７７】
Ｆ．合成による音楽分析（及び分析からの合成）
本発明の方法の別の用途として、図１３は、図２にその小節が示されるバッハプレリュードの類似性画像を、ＭＩＤＩデータから直接導き出されるデータにより示す。図１３において、音響情報は用いられなかった。音ｉが音ｊと同じピッチである場合、マトリックス・エントリ（ｉ,ｊ）は白に色付けられ、そうでない場合は、黒のまま残された。この画像を図３の音響類似性画像と比較すると、明らかに、両視覚化の構造は非常に類似しており、それらが音楽の基本構造を真にとらえていることを示している。例えば、図３及び図１３は、同じバッハの作品の２つの具現を示しており、一方は図３のグレン・グールドによる演奏であり、他方は図１３のＭＩＤＩファイルのコンピュータ表現である。図５及び６に示されるように、特定の演奏の音声と、同じ作品のＭＩＤＩファイル表現とを与えられると、既知のテンポのＭＩＤＩ表現からの類似性マトリックスを、オリジナルの演奏の類似性マトリックスに一致させるようにワープさせることは可能であろう。ワープ機能は、その後、テンポ・マップとして役立ち、ＭＩＤＩファイルがオリジナルのテンポで再生されることを可能にする。本発明の方法の他の魅力的な用途は、音ごとに、又はイベントごとに索引をソース音声に付加する能力から生じるであろう。
【００７８】
音楽を音又はフレーズによって確実に分割することは、音声の相当な圧縮を可能にする。例えば、繰り返される一連の音は、最初の音と繰り返し回数とにより表されることが可能である。第２のコーラスが第１のコーラスとほぼ同一である場合、これは記憶される必要はなく、第１のコーラスの繰り返しを示すコードのみが必要とされる。ＭＰＥＧ−４の構造化音声標準はまさにこの種の表現をサポートするが、これまでは、既存の音声の構造を分析するための信頼性が高い方法は、ほとんど存在しなかった。
【００７９】
本発明は、特殊性と共に説明されたが、これは、当業者に本発明を製造及び使用する方法を教示するものに過ぎない。多くの更なる変更は、本発明の請求項によりその範囲が定義される、本発明の範囲に含まれる。
【図面の簡単な説明】
【図１】本発明の分析方法のステップを示すフローチャートである。
【図２】バッハのプレリュード第１番の最初の小節のための楽譜である。
【図３】図２の小節の演奏から得られた最初の数秒間の距離マトリックスの視覚化を提供する図である。
【図４】図２の小節の演奏から得られた最初の数秒間の距離マトリックスの視覚化を提供する図である。
【図５】放射状のガウス・テーパーを用いた６４×６４のチェッカー盤カーネルの３次元プロットである。
【図６】図３からのグールドによる演奏のための類似性マトリックスＳに対して計算された新規性得点を示す図である。
【図７】図３に示されるグールドによる演奏の最初の１０秒の１／２秒カーネルから抽出されたセグメントの境界を示す図である。
【図８】映画「レイダース／失われたアーク」のサウンドトラックの５６秒セグメントのための類似性マトリックスを示す図である。
【図９】図３に示されるグールドによる演奏の３秒に対して計算されるビート・スペクトルＢ(１)の例を示すグラフである。
【図１０】デイブ・ブルーベック・カルテットによるジャズ曲「テイク・ファイブ」の最初の１０秒から計算されるビート・スペクトルを示すグラフである。
【図１１】ベートーベンの交響曲第５番の第１楽章全体の自己類似性を示す図である。
【図１２】ベートーベンの交響曲第５番の第１楽章全体の自己類似性を示す図である。
【図１３】図２にその小節が示されるバッハのプレリュードの類似性画像を、ＭＩＤＩデータから直接導き出されるデータにより示す図である。

Claims

ソース音声信号内の新規点を識別するための方法であって、
前記音声信号をサンプリングし、該音声信号をウィンドウ化された部分に分割するステップであって、複数のサンプルが該ウィンドウ化された部分のそれぞれの中から抽出される、音声信号をサンプリング及び分割するステップと、
各ウィンドウのためのベクトル・パラメータを生成するために、第１の関数を各ウィンドウ化された部分に適用することにより、前記音声信号のウィンドウ化された部分をパラメータ化するステップと、
前記パラメータ間の類似性の測定をもたらす第２の関数を適用することにより、前記パラメータを埋め込むステップと、
を含み、
前記埋め込まれたパラメータが、マトリックスＳ(ｉ,ｊ)の形式で提供され、このマトリックスにおいて、ｉは該マトリックスの行を識別し、ｊは該マトリックスの列を識別し、
前記方法は、該マトリックスＳ(ｉ,ｊ)から、傾きを有するドメイン・マトリックスＬ(ｉ,ｌ)を識別するステップを更に含み、このドメイン・マトリックスにおいてｌは遅れ値ｌ＝ｉ−ｊであることを特徴とする、
ソース音声信号内の新規点の識別方法。
前記パラメータ化ステップで用いられる前記第１の関数が、高速フーリエ変換（ＦＦＴ）の対数の大きさを含むことを特徴とする、請求項１に記載の方法。
前記パラメータ化ステップで用いられる前記第１の関数が、メル周波数ケプストラル計数（ＭＦＣＣ）分析を含むことを特徴とする、請求項１に記載の方法。
前記パラメータ化ステップで用いられる前記第１の関数が、ＭＰＥＧ（Moving Picture Experts Group）の音声標準を含むことを特徴とする、請求項１に記載の方法。
前記埋め込むステップで用いられる前記第２の関数が、
Ｄ_E(ｉ,ｊ)≡‖ｖ_i−ｖ_j‖
により示されるユークリッド距離測定を含み、この式において、Ｄ_E(ｉ,ｊ)はベクトル・パラメータの対の中の１対間のユークリッド距離を表し、ベクトルは第１の整数位置ｉ及び第２の整数位置ｊに位置し、ｖ_iは該第１の整数位置ｉからのベクトル・パラメータの１つを表し、ｖ_jは該第２の整数位置ｊからのベクトル・パラメータの１つを表すことを特徴とする、請求項１に記載の方法。
前記埋め込むステップで用いられる前記第２の関数が、
Ｄ_d(ｉ,ｊ)≡ｖ_i・ｖ_j
により示されるドット積を含み、この式において、Ｄ_d(ｉ,ｊ)はベクトル・パラメータの対の中の１対間のドット積を表し、ベクトルは第１の整数位置ｉ及び第２の整数位置ｊに位置し、ｖ_iは該第１の整数位置ｉからのベクトル・パラメータの１つを表し、ｖ_jは該第２の整数位置ｊからのベクトル・パラメータの１つを表すことを特徴とする、請求項１に記載の方法。
前記埋め込むステップで用いられる前記第２の関数が、
Ｄ_C(ｉ,ｊ)≡(ｖ_i・ｖ_j)／‖ｖ_i‖‖ｖ_j‖
により示される正規化されたドット積を含み、この式において、Ｄ_C(ｉ,ｊ)はベクトル・パラメータの対の中の１対間の正規化されたドット積を表し、ベクトルは第１の整数位置ｉ及び第２の整数位置ｊに位置し、ｖ_iは該第１の整数位置ｉからのベクトル・パラメータの１つを表し、ｖ_jは該第２の整数位置ｊからのベクトル・パラメータの１つを表すことを特徴とする、請求項１に記載の方法。
前記埋め込まれたパラメータが、マトリックスＳの形式で提供され、前記方法は、新規性得点を決定するために該マトリックスＳをマトリックス・カーネルＣと関連付けるステップを更に含むことを特徴とする、請求項１に記載の方法。
前記マトリックス・カーネルＣが、

と定義される２×２のチェッカー盤カーネルを含むことを特徴とする、請求項８に記載の方法。
前記マトリックス・カーネルＣが、

と定義される同調カーネルを含むことを特徴とする、請求項８に記載の方法。
前記マトリックス・カーネルＣが、

と定義される反同調カーネルを含むことを特徴とする、請求項８に記載の方法。
前記埋め込まれたパラメータが、マトリックスＳの形式で提供され、前記方法は、
第１の新規性得点を決定するために該マトリックスＳを同調カーネルと関連付けるステップと、
第２の新規性得点を決定するために該マトリックスＳを反同調カーネルと関連付けるステップと、
前記第１の新規性得点と前記第２の新規性得点との差を決定するステップと、
を更に含み、前記同調カーネルは、

と定義され、前記反同調カーネルは、

と定義されることを特徴とする、請求項１に記載の方法。
前記埋め込まれたパラメータが、マトリックスＳの形式で提供され、前記方法は、
第１の新規性得点を決定するために該マトリックスＳを同調カーネルと関連付けるステップと、
第２の新規性得点を決定するために該マトリックスＳを反同調カーネルと関連付けるステップと、
前記第１の新規性得点と前記第２の新規性得点との差を決定するステップと、
を更に含み、前記同調カーネル及び前記反同調カーネルのそれぞれは、２つの対向する四分項には１を有し、２つの対向する四分項には０を有する４つの四分項を含み、そこにおいて、前記同調カーネル内の１は、前記反同調カーネル内の１とは逆の四分項に位置することを特徴とする、請求項１に記載の方法。
前記マトリックス・カーネルＣが、２つの対向する四分項には１を有し、２つの対向する四分項には−１を有する４つの四分項を含むチェッカー盤カーネルを含むことを特徴とする、請求項８に記載の方法。
前記マトリックス・カーネルＣが、該マトリックス・カーネルＣのエッジで次第に０に近づく関数を用いて平滑化される前記チェッカー盤カーネルを含むことを特徴とする、請求項１４に記載の方法。
前記関数が、四方に対称なガウス関数を含むことを特徴とする、請求項１５に記載の方法。
前記マトリックス・カーネルＣが、２つの対向する四分項には１を有し、２つの対向する四分項には０を有する４つの四分項を含むチェッカー盤カーネルを含むことを特徴とする、請求項８に記載の方法。
ｉがフレーム番号である場合の前記新規性得点Ｄ(ｉ)が、

により決定され、前記マトリックス・カーネルＣは幅Ｌを有し、ｍ＝０，ｎ＝０を中心とすることを特徴とする、請求項８に記載の方法。
前記方法が、
予め定められたしきい値を越える新規性得点における点を決定することにより前記新規性得点をしきい値処理するステップを、
更に含むことを特徴とする、請求項８に記載の方法。
前記方法が、
前記しきい値を越える点のうち最も高い１つの点をバイナリー・ツリーのルートとして識別し、前記予め定められたしきい値を越える新規性得点からのその他の点を、前記ルートの点に関して第１の左の点及び第１の右の点に分割するステップと、
前記第１の左の点の中で前記しきい値を越える点のうち最も高い、第１の左のツリーの次の点を識別し、前記第１の左の点からのその他の点を、前記左のツリーの次の点に関して第２の左の点及び第２の右の点に分割するステップと、
前記第１の右の点の中で前記しきい値を越える点のうち最も高い、第１の右のツリーの次の点を識別し、前記第１の右の点からのその他の点を、前記右のツリーの次の点に関して第３の左の点及び第３の右の点に分割するステップと、
を実行することにより、前記予め定められたしきい値を越える前記新規性得点の点からバイナリー・ツリーを形成するステップを更に含むことを特徴とする、請求項１９に記載の方法。
前記埋め込まれたパラメータが、マトリックスＳの形式で提供され、前記方法は、
前記マトリックスの対角線を形成する点を合計することによりビート・スペクトルを定義するステップを更に含むことを特徴とする、請求項１に記載の方法。
前記対角線が前記マトリックスＳの主対角線であることを特徴とする、請求項２１に記載の方法。
前記対角線が前記マトリックスＳの副対角線であり、該副対角線は主対角線に平行していることを特徴とする、請求項２１に記載の方法。
前記方法が、
前記音声信号ソース内の音楽のテンポを決定するために、前記ビート・スペクトルにおけるピークを識別するステップを、
更に含むことを特徴とする、請求項２１に記載の方法。
前記埋め込まれたパラメータが、マトリックスＳ(ｉ,ｊ)の形式で提供され、このマトリックスにおいて、ｉは該マトリックスの行を識別し、ｊは該マトリックスの列を識別し、
前記方法は、

のようにビート・スペクトルＢ(ｋ,ｌ)を定義するために前記マトリックスＳ(ｉ,ｊ)を自己相関するステップを更に含み、
この式において、ｋ及びｌは予め定められた整数であることを特徴とする、請求項１に記載の方法。
前記方法が、
前記音声信号ソース内の音楽のテンポを決定するために、前記ビート・スペクトルにおけるピークを識別するステップを、
更に含むことを特徴とする、請求項２５に記載の方法。
前記方法が、
前記マトリックスＳの対角線を形成する点を合計することによりビート・スペクトルを定義するステップと、
前記新規性得点を前記ビート・スペクトルと関連付けるステップと、
前記音声信号ソース内の音楽のテンポを決定するために、前記関連付けられた新規性得点及びビート・スペクトルにおけるピークを識別するステップと、
を更に含むことを特徴とする、請求項８に記載の方法。
前記方法が、
前記しきい値を越える前記新規性得点における点から成るグループであり、該グループ内の各点は、前記しきい値を越える点に隣接することを特徴とするグループとして、前記音声信号内のセグメントを定義するステップと、
前記セグメントのそれぞれにおいて点を平均し、多数のセグメントを最も類似している前記新規性得点における点により識別することにより、音声の要点を抜粋するステップと、
を更に含むことを特徴とする、請求項１９に記載の方法。
前記方法が、
前記しきい値を越える前記新規性得点における点から成るグループであり、該グループ内の各点は、前記しきい値を越える点に隣接することを特徴とするグループとして、前記音声信号内のセグメントを定義するステップと、
セグメント境界が前記音声信号内の予め定められた時間に発生するように、前記音声信号を歪曲させるステップと、
を更に含むことを特徴とする、請求項１９に記載の方法。
前記方法が、
前記しきい値を越える前記新規性得点における点から成るグループであり、該グループ内の各点は、前記しきい値を越える点に隣接することを特徴とするグループとして、前記音声信号内のセグメントを定義するステップと、
前記セグメントの位置に基づいて、ビデオ信号の部分を前記音声信号と位置合わせするステップと、
を更に含むことを特徴とする請求項１９に記載の方法。
前記方法が、
前記音声信号の前記テンポを第２の音声信号のテンポと一致させるように、前記音声信号を歪曲させるステップを、
更に含むことを特徴とする、請求項２４に記載の方法。
前記パラメータを埋め込むステップにおいて、前記パラメータの１つ及びそれ自体の間の自己類似性と、前記パラメータのうちの２つの異なるパラメータ間の相互類似性とを決定するために、前記第２の関数が適用されることを特徴とする、請求項１に記載の方法。