JP3941417B2 - ソース音声信号内の新規点の識別方法 - Google Patents

ソース音声信号内の新規点の識別方法 Download PDF

Info

Publication number
JP3941417B2
JP3941417B2 JP2001140826A JP2001140826A JP3941417B2 JP 3941417 B2 JP3941417 B2 JP 3941417B2 JP 2001140826 A JP2001140826 A JP 2001140826A JP 2001140826 A JP2001140826 A JP 2001140826A JP 3941417 B2 JP3941417 B2 JP 3941417B2
Authority
JP
Japan
Prior art keywords
matrix
kernel
point
audio signal
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001140826A
Other languages
English (en)
Other versions
JP2002014691A (ja
Inventor
ティー.フート ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2002014691A publication Critical patent/JP2002014691A/ja
Application granted granted Critical
Publication of JP3941417B2 publication Critical patent/JP3941417B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は音楽、話し言葉(スピーチ)、又は音楽と話し言葉との組合せを含み得る音声信号における変化を識別するための方法に関する。本発明は特に、索引付け、要約、ビート・トラッキング、又は検索のための音声における変化の識別に関する。
【0002】
【従来の技術】
ビデオ信号を用いる場合、フレームごとの違いは、全体的な変化又はビデオ信号のコンテンツの新規性の有用な測定をもたらす。フレームごとの違いは、自動分割及び主要フレームの抽出、並びに他の目的のために用いられることが可能である。
【0003】
音声内の本質的な変化、即ち新規点を決定するための同様の測定は、多数の有用な用途(アプリケーション)を有し得る。しかし、音声の変化又は境界を計算することは、ビデオよりもかなり難しい。話し言葉及び音楽のための一般的なスペクトルは一定の流量において存在するために、あまりに多くの誤まったアラームが発生するので、スペクトルの差を測定するような単純なアプローチは、通常有用でない。
【0004】
音声分割への典型的なアプローチは、無音状態を検出することである。このようなシステムは、『ACM trans. On Computer Human Interaction』(4(1):3-38、1997年3月)に掲載されているArons, B.による「スピーチ・スキマー:録音されたスピーチをインタラクティブにスキミングするためのシステム(SpeechSkimmer: A system for interactively skimming recorded speech)」に開示されている。たとえ話し言葉の信号における無音状態が意味上の重要性をほとんど又は全く有さないとしても、無音状態を検出するための手順は、話し言葉に最も適切に機能する。ポピュラー・ミュージック又は残響ソース等の多くの音声は、無音状態を全く含んでいない可能性があり、無音状態に基づく分割方法は失敗するであろう。
【0005】
「聴覚による場面分析」と呼ばれる別のアプローチは、調和的に且つ時間的に関連する音の成分を検出することを試みる。このようなアプローチは、A. Bregmanによる記載されてある「聴覚による場面分析:音の知覚的な構成(Auditory Scene Analysis: Perceptual Organization of Sound)」(ブラッドフォード・ブックス、1994年)に記載されている。通常、聴覚による場面分析手順は、少数の一様に保たれ調和した純粋な音楽の調べ等の制限された領域においてのみ機能する。例えば、Bregmanのアプローチは、調和的に又は時間的に関連する周波数領域内の成分を探す。通常、規則は、「関連」が何を意味するかを定義するために用いられる仮定であり、これらの規則は一般に、制限された領域においてのみ適切に機能する。
【0006】
また別のアプローチは、個人の特徴によって音声をセグメント化(分割)するために、話し手の識別を用いる。このようなシステムは、『ICASSPの会報』(第2巻、189〜192頁、1992年3月)に掲載されているSiu他による「複数の話し手による話し言葉の波形の分割のための管理されない連続学習アルゴリズム(An Unsupervised Sequential Learning Algorithm For The Segmentation Of Speech Waveforms With Multiple Speakers)」に開示されている。話し手識別方法は、音をセグメント化するために用いられ得るが、この方法は、ラベルをつけられたデータから成るコーパスから学習されなければならないか、又は音声セグメントをクラスタ化することによって推測される必要のある統計モデルに依存する。
【0007】
音声分割への更に別のアプローチは、音楽のビート・トラッキングを用いて実行される。ビート・トラッキングへの1つのアプローチにおいて、サブバンド全体にわたる相関するエネルギーのピークが用いられる。『J. Acoust Soc. Am.』(103(10)、588〜601頁)に掲載されているScheirer, Eric D.による「音響的な音楽信号のテンポ及びビート分析(Tempo and Beat Analysis of Acoustic Musical Signals)」を参照されたい。また別のアプローチは、音楽は4/4拍子であり、バスドラムを強拍に有さなければならないといった、限定的な仮定に依存する。『ACM Multimedia 1994』の会報(ACM、サンフランシスコ)に掲載されているGoGo, M.及びY. Muraoakaによる「音楽の音響信号のためのビート・トラッキング・システム(Beat Tracking System for Acoustic Signals of Music)」を参照されたい。
【0008】
【発明が解決しようとする課題】
本発明では、局所的な自己類似性を調べることにより、音楽又は音声における変化点を自動的に検出するための方法が提供される。この方法は、無音状態等の手掛かりが存在しない場合でさえ、独唱/合唱、又は話し言葉/音楽の間の遷移等の個々の特徴の境界、又は自然なセグメントの境界を識別することができる。
【0009】
【課題を解決するための手段】
本発明は、複雑さに関係なく任意の音声ソースに対して機能し、無音状態又はピッチ等の特定の音響特性に依存せず、そしてクラスタリング又はトレーニング(学習)を必要としない。
【0010】
本発明の方法は、索引付け、ビート・トラッキング、及び音楽又は音声の検索及び要約を含む多様な用途において用いられることができる。この方法は、多様な音声ソースと共に機能する。
【0011】
本発明の方法は、音声信号の自己類似性を考慮することによって、最大の音声変化の点を検出する。音声信号の各時間ウィンドウごとに、高速フーリエ変換(FFT)等の演算式が、パラメータ表示の値ベクトルを決定するために適用される。各パラメータ表示の値の間の相互類似性、並びに自己類似性が、過去及び未来のウィンドウで決定される。新規性又は変化の有効な点は、過去と未来とで高い自己類似性を有し、且つ低い相互類似性を有するであろう。「過去」と「未来」との間の時間差の範囲は、例えば、個々の音は短い時間範囲を用いて検出され得る一方で、音楽のテーマ等のより長いイベントは、より遠い過去又は未来のウィンドウを考慮することにより識別されることができるように、システムのスケールを変えるために変更されることが可能である。この結果は、任意の時点でのソース音声の新規性の程度の測定である。
【0012】
自己類似性と相互類似性との測定の差が大きい場合、インスタンスは、本質的な音声の変化に対応し、音声をセグメント化又は索引付けするのに用いられる適切な点を提供するであろう。差の測定における周期的なピークは、リズム等の音楽の周期性に対応することが可能なので、本発明の方法は、ビート・トラッキング、即ち音楽の強拍のテンポ及び位置を検出するために用いられることができる。この方法の用途には、以下のものが含まれる。
●音声の分類及び検索のための自動分割
●音声索引付け/走査検索(ブラウジング):セグメント・ポイントに跳ぶ
●音声の要約:本質的に新しいセグメントの出だし部分のみを再生する
●音声の「要点の抜粋」:作品全体を最も適切に特徴付けるセグメントのみを再生する
●音楽の音声波形を分割のためにMIDIの音と位置合わせする
●音声の索引付け/走査検索:次の新しいセグメントへリンク/ジャンプする
●音声の「スマート・カット・アンド・ペースト」のための終端点を自動的に検出する
●非線形なタイム・スケールのために音声を位置合わせする(「音声モーフィング」)
●テンポの抽出、ビート・トラッキング及び位置合わせ
●同様のテンポを有する音楽を連結するための「自動DJ」
●口の動きの自動アニメーションのために話し言葉音声におけるタイム・インデックスを検出する
●MPEG−4等の構造化音声コーディングのための分析
【0013】
従って、本発明の方法は、任意の瞬間の音響ソースの新規性に比例する時系列を生成する。高い値及びピークは、大きな音声変化に対応する。従って、新規性の得点は、セグメント境界として用いられることが可能なインスタンスを検出するために、しきい値処理されることが可能である。
【0014】
本発明の更なる詳細は、添付図面にサポートされて説明される
【0015】
【発明の実施の形態】
図1は、本発明の音声の分析方法のステップを示すフローチャートである。
【0016】
I.ソース音声のサンプリング
最初のステップ101において、ソース音声100がサンプリングされる。このようなサンプリングは、音声波形の一部をウィンドウ制御する(複数の小領域(ウィンドウ化された部分(フレーム))に分割する)ことにより実行される。可変のウィンドウ幅及び重なりが用いられ得る。例えば、ウィンドウは、256のサンプル幅であり、128ポイントの重なりを伴い得る。16kHzでサンプリングされる音声の場合、これは16mSのフレーム幅及び1秒当たり125フレーム速度をもたらす。
【0017】
II.パラメータ化
第2のステップ102では、サンプリングされた音声信号(ウィンドウ化された部分)が、パラメータ化される。各フレームは、フーリエ変換又はメル周波数ケプストラル係数(Mel-Frequency Cepstral Coefficients:MFCC)分析等の音声信号部のベクトル表現を提供する分析関数を用いて、パラメータ化される。他のパラメータ化方法には、線形予測、音響心理学的な考慮が含まれ、又は永久線形予測(Perpetual Linear Prediction)等の技術の組合せに基づくものが潜在的に含まれる。
【0018】
本明細書において、次に示される例では、各分析フレームは256ポイントのハミング・ウィンドウ(Hamming window)によってウィンドウ化され、高速フーリエ変換(FFT)が、パラメータ化のために用いられて、このウィンドウのスペクトル成分が推定される。FFTの結果の大きさの対数は、ウィンドウ内の信号のパワー・スペクトルの推定として用いられる。高周波数成分は、より低い周波数成分ほど、類似性の計算に有用ではないので、通常、サンプリング周波数の(1/4)(Fs/4)を超える高周波数成分は捨てられる。結果として得られるベクトルは、ウィンドウのスペクトルのコンテンツ(成分の値)を特徴づける。
【0019】
MPEG(Moving Picture Experts Group)の第3層(Layer 3)の音声標準等の他の圧縮技術が、パラメータ化のために用いられてもよい。MPEGは、音声映像情報をデジタル圧縮フォーマットでコーディングするために用いられる標準の一系統である。MPEGの第3層は、FFTに類似のスペクトル表現を用い、距離測定に用いられることができ、そして音声を復号化する必要性を回避する。用いられるパラメータ化に関係なく、得られる好ましい結果は、各フレームごとのパラメータの小さいベクトルである。
【0020】
「類似の」ソースが類似のパラメータをもたらす限り、パラメータ化のタイプは重要でない。異なるパラメータ化は、異なる用途で、ある程度有用であることが証明され得る。例えば、実験は、粗いスペクトル形状を保持する一方で、ピッチに起因する微細な和声構造(fine harmonic structure)を捨てるMFCC表現が、所定の用途に適し得ることを示した。MFCCドメインにおける単一のピッチは、和声自体ではなく、和声を含むものにより概して表されている。従って、もし単一ピッチの音が存在する場合は、単一ピッチの音も一致するが、MFCCは、正確なピッチよりも寧ろ類似の音質に一致する傾向がある。
【0021】
カリフォルニア州パロアルトのインターナル・リサーチ・コーポレーションのSlaneyによるテクニカル・レポート第1998-010番「聴覚ツールボックス(Auditory Toolbox)」(1998年)に記載されているものに類似の音響心理学的に誘導されるパラメータ化は、それらが聴き手による類似性判断をより適切に再現する場合に、特に適切であり得る。
【0022】
従って、本発明の方法は、フレキシブルであり、パラメータ化のための任意の既存の音声分析法を包含することができる。更に、パラメータ化ステップは、異なるパラメータ化関数を選択することによって、又は例えば、後続のステップで決定されるように、結果として得られる類似性マトリックスのコントラストを最大にするためにウィンドウ・サイズを調整することによって、特定のタスクのために調整されることができる。
【0023】
III.マトリックスへのパラメータの埋め込み(はめ込み)
音声がパラメータ化されると、図1に示される次のステップ104で、パラメータは2次元の表現に埋め込まれる。音声を埋め込む1つの方法は、『ACM Multimedia 99の会報』(フロリダ州オーランド)に掲載されている本発明者J. Footeによる「自己類似性を用いることによる音楽及び音声の視覚化(Visualizing Music and Audio Using Self-Similarity)」に記載されており、これは参考文献として本明細書に組み入れられる。
【0024】
埋め込みステップにおいて、キーは2つの特徴ベクトルvi及びvjの間の類似性又は非類似性(D)の測定である。ベクトルvi及びvjは音声フレームi及びjのための先に論じられたパラメータ化ステップで決定される。
【0025】
A.ユークリッド距離
ベクトル間の類似性の1つの測定法は、パラメータ空間におけるユークリッド距離、即ち、次のように表されるベクトル・パラメータ間の差の二乗の和の平方根([Σ(vi−vj)2]1/2)である。
E(i,j)≡‖vi−vj
【0026】
B.ドット積
ベクトル類似性の別の測定法は、ベクトルのスカラー・ドット積である。ユークリッド距離とは対照的に、ベクトルが大きく、且つ同様の向きを有する場合、ベクトルのドット積は大きいであろう。ドット積は、次のように表すことができる。
d(i,j)≡vi・vj
【0027】
C.正規化されたドット積
大きさへの、そしてそれ故にエネルギーへの依存を取り除くために、別の類似性測定法では、ドット積が、ベクトル・パラメータ間の角のコサインをもたらすように正規化されることが可能である。ベクトル間の角のコサインは、ベクトルの大きさが小さい場合でさえも、大きい類似性得点をもたらす特性を有する。パーセバルの関係のために、各スペクトル・ベクトルの基準は、ベクトルが割り当てられたウィンドウにおける平均信号エネルギーに比例するであろう。利用されるベクトル間の角のコサインをもたらす正規化されたドット積は、次のように表すことができる。
C(i,j)≡(vi・vj)/‖vi‖‖vj
【0028】
D.ウィンドウ化を伴う正規化されたドット積
コサイン測定法を用いることは、例えば無音状態を有するような小さいエネルギーを有するベクトルを主として識別する幅の狭いウィンドウが、スペクトル的に類似していることを意味し、これは一般に好ましい。小さいエネルギーを有するベクトル、即ち特徴ベクトルを識別している幅の狭いウィンドウは、楽譜上の一般的な音楽的なイベントよりもずっと速い速度で発生するであろう。従って、より好ましい類似性の測定は、より大きいウィンドウwにわたってベクトル相関関係を計算することによって得られ得る。また、より大きいウィンドウは、ベクトルの時間依存の指示を把握する。ウィンドウが高い類似性得点を有するためには、ウィンドウ内のベクトルが類似しているだけでなく、それらのシーケンスもまた、類似していなければならない。ウィンドウwにおけるベクトルvi及びvjの類似性の測定は、次のように表すことができる。
【数8】
Figure 0003941417
【0029】
一次元の例を考えると、スカラーのシーケンス(1,2,3,4,5)は、シーケンス(5,4,3,2,1)とのコサイン類似性得点よりも非常に高い、それ自体に対するコサイン類似性得点を有する。
【0030】
ドット積及びコサイン測定は、ベクトル類似性の増加と共に増大し、ユークリッド距離は0に近づくことに留意すべきである。測定タイプ間で適切な類似性の概念を得るために、ユークリッド距離は、反転されることが可能である。他の合理的な距離の測定は、上述の測定基準例の統計的測定又は重み付けを伴う変形等の距離の埋め込みに用いられることが可能である。
【0031】
E.マトリックス形式に埋め込まれた測定
距離の測定Dは、2つフレーム、即ちソース信号のインスタンスの関数である。信号内の全ての可能な瞬間同士の類似性を考慮することは、好ましいであろう。これは、距離の測定Dを2次元マトリックス表現Sに埋め込むことにより実行される。マトリックスSは、全てのフレーム、即ちインスタンス、又はマトリックスSのi、j成分が、D(i,j)であるように、全ての時間インデックスi及びjのために計算された類似性を含む。一般に、全てのウィンドウはそれ自体に最も類似しているので、Sは斜めに最大値を有するであろう。
【0032】
マトリックスSは、各ピクセルi、jが類似性測定D(i,j)に比例するグレイスケール値を与えられるように、矩形画像として視覚化され、最大値に最大輝度が与えられるようにスケーリングされることができる。これらの視覚化は、音声ファイルの構造がはっきり確認されることを可能にする。無音状態又は長く一様に保たれた音等の音声類似性の高い領域は、明るい矩形として斜めに現れる。テーマ、フレーズ又はコーラス等の繰り返される音形は、対角線を外れた明るい長方形として確認され得る。音楽が高頻度の繰り返しを有する場合、これは、繰り返し時間によって、主対角線からオフセットされる斜めのストライプ又はチェッカー盤として見ることができる。
【0033】
図2は、バッハの平均律クラヴィーア曲集からハ長調のプレリュード第1番(BVW846)の最初の数小節のための楽譜である。図3は、図2に示される曲の小節からのグレン・グールドによる1963年のピアノ演奏の視覚化である。図3は、図2の小節の演奏から得られる最初の数秒間の距離マトリックスの視覚化を提供する。その後の視覚化と同様に、図3の視覚化では、マトリックス座標の規定(conventions)よりも寧ろ、画像の座標規定が用いられるので、基点は左下であり、時間は上方向及び右方向に増加する。図4は、図2に示される曲のための楽器用ディジタル・インターフェイス(MIDI)のプロトコル・データからの音響の再現を示す。図3及び4は、この作品の構造及び演奏の詳細の両方を視覚化する。
【0034】
音楽の構造は、繰り返されるモティーフ(主題)から明白である。多重の繰り返し時間は、図3及び4の主対角線に平行する対角線を外れたストライプにおいて見られる。図2に示される楽譜の最初の数小節において、この作品の反復的な性質が明白にされている。図3の視覚化において、約34個の音(note)が、対角線に沿った矩形として確認されることが可能である。音の繰り返しは、主対角線に平行する対角線を外れたストライプにおいて見られる。繰り返される音は、主対角線に平行する対角線を外れたストライプにおいて見られる。ストライプは、図3の0、2、4及び6秒から開始していることが確認される。
【0035】
図4は、類似の抜粋曲を視覚化するが、精密なテンポを有する無難なピアノ・サンプルを用いたMIDIの再生からの視覚化である。無音状態で開始していることは、左下の明るい矩形として示され、これは高い自己類似性を有するが、視覚化の起点から開始される水平及び垂直の両方向へ延びる暗い矩形により示されることが可能なように、残りの非無音状態部分との低い相互類似性を有する。この図では、図3に示される人間による演奏とは異なり、全ての音は全く同じ長さ及び調音を有する。
【0036】
F.傾きを有するマトリックス(Slanted Matrix)
S等のマトリックスの成分を決定するための計算を簡略化するために、類似性測定Dは、「傾きを有する」ドメイン・マトリックスL(i,l)で表されることができる。なおlは遅れ値l=i−jである。傾きを有するマトリックスを用いることによる簡略化の程度は、類似性の決定が、比較的小さい遅れに対してのみ必要とされ、i及びjの全ての組合せに対して必要とされるわけではない、本明細書において後に示される多数の用途で特に絶大である。lの小さく、且つ負ではない値に対してのみマトリックスLを計算することは、計算及び記憶容量の相当な削減をもたらすことができる。
【0037】
IV.カーネル相関関係
図1に示されるように、実行され得る次のステップ106は、距離測定値間の変化又は新規性の程度を決定するものである。マトリックスS(以下、S)の構造は、変化又は新規性測定の程度を決定する際の鍵である。新規性を決定するためにSが用いられ得る方法の例として、例えばカッコウの鳴き声のような異なるピッチの2つの連続する音を有する単純な曲を検討する。視覚化されると、この2つの音の例のためのSは2×2のチェッカー盤のように見えるであろう。対角線上の白い矩形は、高い自己類似性を有するこれらの音に対応する。対角線を外れた黒い矩形は、低い相互類似性を有する領域に対応する。差の決定のために、正規化されたドット積又はベクトル間の角のコサインを用いていると仮定すると、類似の領域は1に近く、類似していない領域は−1により近いであろう。
【0038】
カッコウの鳴き声のためのSにおいて音が変化する瞬間を検出することは、チェッカー盤の中心を検出するのと同様に簡単である。これは、それ自体がチェッカー盤のように見える「チェッカー盤」カーネル(kernel)と呼ばれるカーネルと、Sとを相関させることにより実行されることができる。最も単純なものは、次の2×2ユニットのカーネルである。
【数9】
Figure 0003941417
【0039】
他のカーネルが用いられてもよい。例えば、単一のチェッカー盤カーネルが、次のような(2つの対向する四分項(quadrants(要素))には1を有し、他の2つの対向する四分項には0を有するような)「同調(coherence)」及び「反同調(anti-coherence)」カーネルに分解されることが可能である。
【数10】
Figure 0003941417
【0040】
第1の「同調」の項は、中心の両側の自己類似性を測定する。これは、マトリックスSの両領域が自己類似性である場合に、高いであろう。第2の「反同調」の項は、2つの領域間の相互類似性を測定する。2つの領域が実質的に類似している場合、又は中心点の両側で差がほとんどない場合、相互類似性は高いであろう。自己類似性及び相互類似性の間の差は、中心点での信号の新規性を推定する。2つの領域が自己類似であるが、互いとは異なる場合、差の値は大きいであろう。
【0041】
単位カーネルと単位カーネルのマトリックスとのクロネッカー積を導き出すことによって、より大きいカーネルが容易に構成される。このような積の例は、次の通りである。
【数11】
Figure 0003941417
【0042】
カーネルは、エッジでは次第に0に近づくハミング等のウィンドウを用いて、エッジ効果を避けるように平滑化されることが可能である。本明細書で次に示される実験的な値のために、中心から四方に対称なガウス関数が用いられる。図5は、シグマ=32である半径方向のガウス漸減を伴う64×64のチェッカー盤カーネルの3次元の図である。
【0043】
チェッカー盤カーネルを類似性マトリックスSと関連付けることは、新規性の測定、即ち図1に示されるように新規性得点108をもたらす。この測定方法の機能の仕方を視覚化するために、カーネルCが図4の例の対角線に沿って摺動し、カーネルC及びSの成分ごとの積が合計されると仮定する。カーネルCが、一様に保たれた音等の比較的均一な領域上にある場合、正及び負の領域の合計は0になる傾向があるであろう。逆に、カーネルCがチェッカー盤のまさに要(crux)に配置される場合、相互類似性の低い領域を増加させ、全体の合計は大きくなるであろう。従って、Sの対角線に沿ってこの相関関係を計算することは、音声新規性の時間調整された測定値D(i)をもたらす。なお、iはオリジナルのソース音声に対応するフレーム番号、従って、タイム・インデックスである。新規性D(i)は、次のように表すことができる。
【数12】
Figure 0003941417
【0044】
慣例により、カーネルCは、幅(遅れ)Lを有し、0,0を中心とする。計算のために、Sは未定義の値を避けるために0を埋め込まれ得るか、又はこの例におけるように、カーネルがSと完全に重なる信号内に対してのみ計算され得る。Lの遅れ以下を有するSの領域のみが用いられるので、傾斜表現は特に有用であることに留意すべきである。また通常、S及びカーネルCは双方とも対称性であるので、二重の合計下(m≧nである場合)の値の半分のみが計算される必要がある。
【0045】
カーネルの幅Lは、新規性の測定の特性に直接影響を及ぼす。小さいカーネルは、ビート又は調子等の短いタイム・スケールで新規性を検出する。カーネルサイズを大きくすると、時間分解能を低下させ、検出されることが可能な新しいイベントの長さを増大させる。より大きいカーネルは、短時間の新規性を平均し、独唱及び合唱の間の音楽の遷移、変調又は交響曲の楽章等のより長い構造を検出する。図6は、図3のグールドによる演奏のための類似性マトリックスSに対して計算される新規性得点を示す。2つのカーネル幅を用いた結果が示される。2秒カーネルの曲線(plot)は、わかり易さのために幾分か上方へスケールをオフセットされた。
【0046】
幾つかの音は続けて(スラーで)奏されるので明瞭ではないが、より短いカーネルである0.5カーネルは、音の事象を明確に検出する。グールドの独特の演奏では特に、各フレーズの最後の3音は、スタッカート奏法により強調される。ピッチ、エネルギー又は無音状態等の明確な特徴を分析することなく、このシステムが如何にして各音の開始を明確に識別するかに留意すべきである。
【0047】
より長いカーネルは、2秒、4秒、6秒時の8符のフレーズの境界で、ピークをもたらす。各ピークは、各フレーズの最初の音の強拍で、正確に発生する。本発明の方法は、音楽のフレーズ又はピッチの事前(アプリオリ)情報を有さないが、知覚的に、且つ音楽的に重要な点を検出することに留意すべきである。
【0048】
V.セグメントの境界の抽出
上述されたように、新規性得点の極値は、音声の特徴における大きな変化に対応する。音声は境界内では類似しており、境界を越えるとかなり異なるので、これらの新規点は音声をセグメント化するための適切な境界としてしばしば機能する。また新規点は、それらが重要な変化の点を示すので、音声への有用なインデックスとして機能する。
【0049】
A.しきい値処理
セグメント境界を検出することは、新規性得点におけるピークを検出するという単純な事柄である。単純なアプローチは、得点が局所的な、又は大域的なしきい値を越える点を検出することである。これは図1のステップ110で示される。このステップでは、ステップ108で得られた新規性得点におけるしきい値が決定され、セグメント境界がステップ112で識別される。時間精度セグメント化決定の場合、しきい値を越える最大の、又は0傾斜の点は、ピークを正確に位置づける。
【0050】
インデックス・ポイントを編成する有用な方法は、新規性得点により全てのインデックス・ポイントを順序付けることにより構成されるバイナリー・ツリー構造に存在する。最高の得点を有するインデックス・ポイントは、このツリーのルートとなり、信号を左右のセクション(グループ)に分割する。左右のセクションで最高の得点を有するインデックス・ポイントは、ルート・ノードの左右の子となり、これはしきい値を越えるインデックス・ポイントが無くなるまで繰り返される。ツリー構造はインデックス・ポイントのナビゲーションを容易にし、ツリーを辿ることによって、任意の点から最も近いインデックスを探し出すことを容易にする。更に、ツリーは、任意のしきい値レベルで切断されることが可能であり、所望の数のインデックス・ポイント、及びそれに伴い、セグメントをもたらす。ツリー・アプローチに対する改良は、ツリーを下りていくにつれてカーネルのサイズを縮小させることであり、それにより、より低いレベルのインデックス・ポイントが、益々精度の高い時間細分性を示す。
【0051】
図7は、図3に示されるグールドによる演奏の最初の10秒の1/2秒カーネルから抽出されたセグメント境界を示す。境界は、[+]により示される。第3の音と続けて(スラーで)奏される第4の音を除き、個々の音は明確に分離される。
【0052】
図7で識別されるセグメント境界は、音符に対して上手く機能するが、それらのスペクトルが異ならない限り、話し言葉を単語にセグメント化することを期待するのは難しい。単語はしばしば音響的に明確に表現されないので、話し言葉は別である。例えば、「that's stupid」という句は、2つの単語の「s」の音に音響的な差がほとんどないので、「that's-s」と「tupid」とにセグメント化され得る。これは恐らく、英語を話せない人が選択するであろうセグメンテーションあることに留意すべきである。
【0053】
B.話し言葉/音楽及び話し手のセグメンテーション
音楽の他に、本発明の方法は、音声を話し言葉及び音楽の成分にセグメント化するために、並びに、より小さい範囲で話し言葉を話し手ごとの音声にセグメント化するために機能する。図8は、「Animals Have Young」(『MPEG Requirements Group』(MPEG−7のコンテンツ・セットのビデオV14であるMPEG−7のコンテンツ・セットの記述(1998年10月のMPEGアトランティックシティ会議の文書ISO/MPEG N2467))の最初の1分のための音声新規性得点を示す。このセグメントは前置きの4秒の無音状態を含み、次に作品のロゴと共に短い音楽セグメントが続く。17秒の時点で、タイトルが始まり、非常に異なるテーマ音楽が始まる。35秒の時点で、このテーマ音楽は短い無音状態へと消えていき、このセグメントの残りの部分で続けられる弱いバックグラウンド・ミュージックの中、女性による話が続く。最大のピークは、35秒時点での話し言葉/音楽遷移の際に、まさに発生する。他の2つの大きなピークは、4秒時点での無音状態と音楽との間の遷移の際、及び17秒時点での前奏とテーマ音楽との間の遷移の際に発生する。
【0054】
単純素朴なスペクトル距離測定法を用いても、新規性得点は一般に、話し手が性の違い等の著しく異なる声のスペクトルを有さない限り、話し手を区別することはできない。しかしながら、類似性測定法が検出するのに十分な差が、しばしば存在する。特に、本発明の新規性得点は、従来のアプローチにおけるように、特定の話し手、又は話し手・モデルの既知の声の特徴間の違いではなく、話し方における違いを検出するためにしばしば用いられることができる。ここでは具体的に説明しないが、例えばケプストラム係数に基づいて、又は『ICASSPの会報』(第S1巻、317〜320頁、オーストラリアのアデレード、1994年4月)に掲載されているJ.T. Foote及びH.F. Silvermanによる「話し手のクラスタリング及び識別のためのモデル距離測定(A Model Distance Measure For Talker Clustering And Identification)」で開示されている方法を用いて、声の特徴によって話し手を識別するように調整された距離を用いることは、単純な事である。
【0055】
C.自動ビート・トラッキング及び「ビート・スペクトル」
図1に示されるように、埋め込まれた音声パラメータのための別の用途は、新規性得点を取得するためのカーネル相関の実行の代替として提供され得る、図1のステップ114により示されるようなビート・トラッキングのための用途である。本発明のビート・トラッキングでは、音楽における周期性及びビートの相対強度の両方を導き出すことができる。音楽のビートを識別する遅れの関数としての自己類似性の測定は、本明細書では「ビート・スペクトル」B(l)と呼ばれる。ビート・スペクトルのピークは、音声の周期性に対応する。ビート・スペクトルの単純な推定は、次の式のように対角線に沿ってSを合計することによって算出され得る。
【数13】
Figure 0003941417
【0056】
B(0)は単に、ある連続する範囲Rの主対角線に沿った和であり、B(1)は第1の副対角線に沿った和であり、以下同様である。対角線の和は単に、列全体の和、又は遅れ軸への投影であるので、ここでもまた、傾斜表現は特に有用である。
【0057】
図9は、図3に示されるグールドによる演奏の3秒間にわたって計算されたビート・スペクトルB(1)の例を示す。各音の周期性は、フレーズの強い8分音符周期及び16分音符での低周波と共にはっきり確認されることができる。特に興味深いのは、第3及び第5音でのピークである。これらは、8音フレーズの3音周期性から生じる。各フレーズにおいて、第3と第6の音、第4と第7の音、及び第5と第8の音とは同じである。
【0058】
ビート・スペクトルのよりロバスト(robust)な定義は、次の式のようなSの自己相関である。
【数14】
Figure 0003941417
【0059】
しかしながら、B(k,l)は対称性であるので、1つの変数に対してのみ和を計算することが必要であり、それにより、一次元の結果B(l)をもたらす。ビート・スペクトルB(l)は、音楽のジャンル、テンポ及び律動的な(リズムの)構造の範囲全体にわたって優れた結果をもたらす。
【0060】
図10は、デイブ・ブルーベック・カルテットによるジャズ曲「テイク・ファイブ」の最初の10秒から計算されるビート・スペクトルを示す。珍しい5/4の拍子記号である他に、この律動的に洗練された作品は、幾らかの解釈を必要とする。先ず、明確な周期性は、図10の垂直な実線によって印をつけられた実際のビート・テンポで発生しないことに気付くであろう。寧ろ、顕著な周期性は、5ビートで生じ、対応する低調波は10ビートで生じる。ジャズの愛好者は、「スウィング」が、「ストレートな(ジャズ風でない)」等分の8分音符よりも寧ろ、等分ではない周期へのビートの細分であることを知っている。ビート・スペクトルは、各ビートがほぼ完全な三連音符(3つの音)に細分されることを明確に示す。三連音符は、第2及び第3のビートの間の1ビートを1/3に区切る点線により示される。「スウィング」のより明確な例示を提供することは難しい。
【0061】
幅の狭いカーネルの新規性得点と組み合わせてビート・スペクトルを用いることは、音楽のテンポの優れた推定をもたらす。ビート・スペクトルにおけるピークは、基本の律動的な周期性を提供し、新規性得点におけるピークは、正確な強拍の時間又は時期を提供する。新規性得点をcombのような関数により、ビート・スペクトルからの周期と関連付けることは、全てのビートで顕著なピークを有する信号をもたらす。その後、強いオフビート及びシンコペーションは、ビート・スペクトルの二次ピークから推論されることが可能である。ビート・トラッキングのための従来のアプローチは、絶対的な音響属性を求める。例えば、特定のサブバンドにおけるエネルギー・ピーク等である。必要とされる唯一の信号属性は反復的な変化であるので、本発明のビート・トラッキングは、よりロバストである。
【0062】
パワー・スペクトルがフェーズ情報を捨てるのと同じように、ビート・スペクトルは絶対タイミング情報を捨てる。本発明では、ビート・スペクトルが、時間に対する律動的な変化を分析するために導入される。スペクトログラムは、連続するウィンドウのフーリエ分析の像を描き、時間に対するスペクトルの変化を示す。同様に、ビート・スペクトログラムは、連続するウィンドウに対するビート・スペクトルを示し、時間に対する律動的な変化を表示する。
【0063】
ビート・スペクトルは、連続するビート・スペクトルにより形成される画像である。時間がx軸で示され、遅れ時間がy軸で示される。ビート・スペクトログラフの各ピクセルは、ビート・スペクトログラムにおいて明るいバーとして見られることができるように、ビート・スペクトルのピークが、その時間及び遅れでのビート・スペクトルの概算された値により色付けされる。ビート・スペクトログラフは、テンポが時間を通じてどのように変化するかを示す。例えば、ビート間の遅れ時間は時間と共に低下するので、加速しているリズムは、下方へ傾斜する明るいバーとして確認できる。
【0064】
ビート・スペクトルは、周波数スペクトルとの興味深い相似点を有する。第1に、時間の正確さとビート・スペクトルの精度との間にで逆関係が存在する。この理由は、より正確に周波数を推定するために、反復的な信号のより多くの周期が必要とされるからである。合計する範囲が長くなるほど、ビートの正確さは高まるが、当然ながら、時間に関する正確さは低下する。専門的には、ビート・スペクトルは、周波数演算子であり、従って、時間演算子と取り替えられない。より詳細には、分析ウィンドウ上でテンポが変化すると、これはビート・スペクトルを「不鮮明にする」。同様に、分析ウィンドウ上での信号の周波数の変化は、不鮮明な周波数スペクトルをもたらす。従って、周波数分析と同様に、ビート・スペクトルの分析は、スペクトル及び時間の分解能の間でのトレードオフである。
【0065】
VI.用途
音声を確実にセグメント化及びビート・トラックする能力は、多数の有用な用途を有する。その幾つかが、以下で説明される。本発明の方法は、二点間の類似性の何らかの測定法が決定され得る、ビデオ等の任意の時間に依存する媒体のために用いられることが可能であることに留意すべきである。
【0066】
A.音声のセグメント化及び索引付け
先に示されたように、本発明の方法は、音声セグメント境界の優れた推定を提供する。セグメント境界の位置は、音声ファイルの一部のみの再生が望まれるような用途のために有用である。例えば、音声編集ツールにおいて、選択領域が半端な音又はフレーズを含まないように、選択オペレーションはセグメント境界に制限されることができる。このような音声編集ツールは、選択領域を単語又は文等のユニット全体に制限するテキスト・エディタの「スマート・カット・アンド・ペースト」に類似している。適切な時間分解能が利用可能であるように、セグメント・サイズは、ズームの程度に適合されることができる。ズームインされた場合、より高い分解能(恐らくインデックス・ツリーのより低いレベルからの)が、音ごとの選択を可能にし、ズームアウトされたビューは、フレーズ又はセクションごとの選択を可能にする。同様に、音声のセグメント化は、音声の走査検索を著しく容易にする。即ち、「jump-to-next-segment(次のセグメントへのジャンプ)」関数は、音声がリアル・タイムよりも速く走査検索されることを可能にする。セグメントは道理上、自己類似性であるので、セグメントの極く一部を聞くことは、そのセグメント全体に対する適切な概念をもたらすであろう。
【0067】
B.音声の要約及び要点の抜粋
音声のセグメント化及び索引付けのアプローチは、自動要約に拡張されることが可能である。例えば、CDプレーヤの「走査」機能と同じように、各セグメントの始めの部分を演奏することによって実行され得る。実際には、セグメントはクラスタ化され得るので、かなり他と異なるセグメントのみが要約に含まれる。要約に既に含まれているセグメントに非常に類似しているセグメントは、多くの情報を失わずにスキップされ得る。例えば、流行歌を要約する場合、コーラスの繰り返し部分は、要約から排除され得る。
【0068】
音声の要約の更なる改善は、音声の「要点を抜粋する(gisting)」こと、即ち作品全体を最も適切に特徴づける短いセグメントを検出することであり得る。多数のオンライン上の音楽小売業者は、顧客が試聴するための、商品の小型のクリップを提供する。クリップは一般に、各作品の始めの部分付近から取得される短い区間に過ぎず、作品全体を表わさないであろう。本発明の類似性マトリックスの単純な処理は、作品全体を通して最も類似しているセグメントを検出することができる。各セグメントに対応する区間に対して類似性マトリックスの平均をとることは、そのセグメントが作品全体をどの程度適切に表すかの測定をもたらす。従って、最も高い得点を有するセグメントが、サンプル・クリップの最適な候補である。
【0069】
C.分類及び検索
テレビ放送の音声部分での広告の分類等の分類及び検索は、長い異種のデータよりも、均一の特徴を有する短い音声セグメントに対して、本発明の方法を用いることで、より適切に機能するであろう。テレビのサウンドトラックのラジオ放送のようなストリーミング音声において、1つのセグメントがいつ開始及び終了するかは、まず明白ではない。音声がセグメント化される場合、各セグメントは適度に自己類似性であり、従って均質/同種であることを保証される。従って、本発明の方法に従って決定されるセグメントは、類似性によりクラスタ化されるか、又はSPIEの会報である『マルチメディア記憶及びアーカイブ・システムII(Multimedia Storage and Archiving Systems II)』(第3229巻、テキサス州ダラス、1997年)に掲載されている、本発明者J. Footeによる「音楽及び音声のコンテンツに基づく検索(content-Based Retrieval of Music and Audio)」により開示されている方法におけるように分類される、適切な単位である。
【0070】
本発明の方法の視覚化は、音響的に類似の楽節が音声の記録にどのように配置され得るかを示す。類似性はまた、単一の記録内でと同様に、複数の記録にわたって検出されることが可能である。音声をセグメント化するために本発明を用いる分類手順は、より長いファイルに配置された既知の音楽又は音声を識別するために、即有効である。例えば、ニュース放送におけるテーマ音楽の位置又はテレビ放送において広告が開始する時間を検出することは簡単な事である。音声が利用可能である場合、類似性の測定は、ソース・コマーシャル及びテレビ放送の全てのフレームの間で計算され得、矩形の類似性マトリックスをもたらす。コマーシャルの開始時間は、ある適切な値で類似性マトリックスをしきい値処理することにより決定される。コマーシャルが前もって把握されていない場合でも、それらが繰り返されることにより検知され得る。多くの音楽の構造は、その作品を特徴づけるのに十分である。
【0071】
専門家は、視覚的な構造のみにより、音楽及び音を識別する、ことが知られている。視覚化により、音楽を識別する人間の能力の証明として、MITのVictor Zueは、音響スペクトログラフを「解釈する」コースを教えている。更に、フィラデルフィアのArthur Lintgenは、LPの溝に見られる、より静かな、及びより大音量の楽節を識別することによって、ラベルのないクラシックの録音を区別することができた。Johnson, P.による「sci.skeptic FAQ」、セクション0.6.2 HYPERLINK http://www.faqs.org/faqs/skeptic-faq/ www.faqs.org/faqs/skeptic-faq/(1999年)を参照されたい。これらの例は、本発明に従って生成されるマトリックスの視覚化を用いることが、類似性による音楽検索に有用であり得ることを示す。
【0072】
異なる演奏から音響的に類似の音声部分のみを検出できるのではなく、構造的に類似の音声も、類似性マトリックスを比較することにより識別することができる。例えば、同じ交響曲の楽章の異なる演奏は、どのように、又はいつそれらが演奏又は記録されたかに関わらず、若しくは、実際に用いられる楽器に関わらず、類似の構造の視覚化を有するであろう。図11及び図12は、ベートーベンの交響曲第5番の第1楽章全体の自己類似性を示す。示される2つの視覚化は、それぞれ異なる指揮者による異なる演奏からのものであり、図11はヘルベルト・フォン・カラヤン指揮のベルリン・フィルハーモニー管弦楽団による演奏であり、図12はカルロス・クライバー指揮のウィーン・フィルハーモニー管弦楽団による演奏である。この作品の長さは7分を超えるので、多くの微細な詳細は観察不可能である。各ピクセルは音楽の約1秒を表すので、有名な冒頭のテーマは最初の数ピクセルのみで発生する。主たる可視構造は、より静かな弦の楽節と、例えば楽章の終わり近くの一様に保たれたクライマックスにおけるような、全ての楽器が演奏されるより大音量のトゥッティ(全楽員)のセクションとの交互配列である。図11及び12は、視覚化が、個々の演奏家による変化、並びにその作品の本質的な構造の両方をどのようにとらえるかを示す。
【0073】
D.自動音声位置合せ
図11及び12に示されるように、本発明の新規性得点の利点は、同じ音楽の異なる具現においても適度に一様であることである。新規性得点は、特定の音響特性よりも寧ろ、自己類似性に基づいているので、同じ音楽の異なる演奏は類似の新規性得点を有するはずである。従って、バッハの「G線上のアリア」は、バイオリンで演奏されても、カズー笛で演奏されても、類似の新規性得点を生じるはずである。
【0074】
同じ音楽の異なる具現のための新規性得点の1つの用途は、音楽を位置調整するために得点を用いることである。ある具現の新規性得点の時間軸は、ダイナミック・プログラミング(dynamic programming)を用いて、別の具現の新規性得点に一致するようにワープ(歪曲(それる))され得る。その後、このワープ機能は、テンポ・マップとして役立つ。非線形のタイム・スケールの変更を用いることにより、ある作品を他のテンポで再生することができる。音声の時間及びピッチのスケーリング方法の例として、S. Sprengerによる「音声信号の時間及びピッチ・スケーリング(Time and Pitch Scaling of Audio Signals)」(www.dspdimension.com/html/timepitch.html)を参照されたい。
【0075】
一般に、セグメント境界は、画像「モーフィング(morphing)」のための用いられる「制御点」と同様に、タイム・スケールの変更のために有用な目印である。別の用途は、ビデオ・ゲームにおける進み具合等の予測不可能な時間に発生するイベントと共に音声作品を再生することであり得る。より長いセグメントが、ゲーム・レベル又は仮想環境位置等の特定のステージに関連付けられ得る。ユーザがそのステージに留まっている限り、このセグメントが繰り返される。異なるステージへの移動は、別のセグメントの再生を開始させる。
【0076】
E.自動テンポ抽出
目印の時間位置を把握することは、外部イベントの音声との同期を可能にする。例えば、動画のキャラクターは、音楽のテンポに合わせて拍子をとるか、又は踊ることができる。ビデオ・クリップは、既存の音楽のサウンドトラックに自動的に配列され得る。別の有用な用途では、動画のキャラクターの唇の動きが、話し言葉又は歌声と同期をとられ得る。逆に、音声の目印、即ちセグメント境界が所定の時間に発生するように、セグメントをワープさせることにより、音声が、既存のタイム・シーケンスに合わせられることも可能である。この例には、既存のアニメーション又はビデオのシーケンスのためのサウンドトラックを作成することが含まれる。別の用途は、歌と歌との間の遷移が滑らかであるように、類似のテンポにより、歌を配列することであり得る。これは、専門のDJによって手作業で行われる処理であり、また、Muzak(商標)等の「環境」音楽の売り手のために行われる処理である。
【0077】
F.合成による音楽分析(及び分析からの合成)
本発明の方法の別の用途として、図13は、図2にその小節が示されるバッハプレリュードの類似性画像を、MIDIデータから直接導き出されるデータにより示す。図13において、音響情報は用いられなかった。音iが音jと同じピッチである場合、マトリックス・エントリ(i,j)は白に色付けられ、そうでない場合は、黒のまま残された。この画像を図3の音響類似性画像と比較すると、明らかに、両視覚化の構造は非常に類似しており、それらが音楽の基本構造を真にとらえていることを示している。例えば、図3及び図13は、同じバッハの作品の2つの具現を示しており、一方は図3のグレン・グールドによる演奏であり、他方は図13のMIDIファイルのコンピュータ表現である。図5及び6に示されるように、特定の演奏の音声と、同じ作品のMIDIファイル表現とを与えられると、既知のテンポのMIDI表現からの類似性マトリックスを、オリジナルの演奏の類似性マトリックスに一致させるようにワープさせることは可能であろう。ワープ機能は、その後、テンポ・マップとして役立ち、MIDIファイルがオリジナルのテンポで再生されることを可能にする。本発明の方法の他の魅力的な用途は、音ごとに、又はイベントごとに索引をソース音声に付加する能力から生じるであろう。
【0078】
音楽を音又はフレーズによって確実に分割することは、音声の相当な圧縮を可能にする。例えば、繰り返される一連の音は、最初の音と繰り返し回数とにより表されることが可能である。第2のコーラスが第1のコーラスとほぼ同一である場合、これは記憶される必要はなく、第1のコーラスの繰り返しを示すコードのみが必要とされる。MPEG−4の構造化音声標準はまさにこの種の表現をサポートするが、これまでは、既存の音声の構造を分析するための信頼性が高い方法は、ほとんど存在しなかった。
【0079】
本発明は、特殊性と共に説明されたが、これは、当業者に本発明を製造及び使用する方法を教示するものに過ぎない。多くの更なる変更は、本発明の請求項によりその範囲が定義される、本発明の範囲に含まれる。
【図面の簡単な説明】
【図1】本発明の分析方法のステップを示すフローチャートである。
【図2】バッハのプレリュード第1番の最初の小節のための楽譜である。
【図3】図2の小節の演奏から得られた最初の数秒間の距離マトリックスの視覚化を提供する図である。
【図4】図2の小節の演奏から得られた最初の数秒間の距離マトリックスの視覚化を提供する図である。
【図5】放射状のガウス・テーパーを用いた64×64のチェッカー盤カーネルの3次元プロットである。
【図6】図3からのグールドによる演奏のための類似性マトリックスSに対して計算された新規性得点を示す図である。
【図7】図3に示されるグールドによる演奏の最初の10秒の1/2秒カーネルから抽出されたセグメントの境界を示す図である。
【図8】映画「レイダース/失われたアーク」のサウンドトラックの56秒セグメントのための類似性マトリックスを示す図である。
【図9】図3に示されるグールドによる演奏の3秒に対して計算されるビート・スペクトルB(1)の例を示すグラフである。
【図10】デイブ・ブルーベック・カルテットによるジャズ曲「テイク・ファイブ」の最初の10秒から計算されるビート・スペクトルを示すグラフである。
【図11】ベートーベンの交響曲第5番の第1楽章全体の自己類似性を示す図である。
【図12】ベートーベンの交響曲第5番の第1楽章全体の自己類似性を示す図である。
【図13】図2にその小節が示されるバッハのプレリュードの類似性画像を、MIDIデータから直接導き出されるデータにより示す図である。

Claims (32)

  1. ソース音声信号内の新規点を識別するための方法であって、
    前記音声信号をサンプリングし、該音声信号をウィンドウ化された部分に分割するステップであって、複数のサンプルが該ウィンドウ化された部分のそれぞれの中から抽出される、音声信号をサンプリング及び分割するステップと、
    各ウィンドウのためのベクトル・パラメータを生成するために、第1の関数を各ウィンドウ化された部分に適用することにより、前記音声信号のウィンドウ化された部分をパラメータ化するステップと、
    前記パラメータ間の類似性の測定をもたらす第2の関数を適用することにより、前記パラメータを埋め込むステップと、
    を含み、
    前記埋め込まれたパラメータが、マトリックスS(i,j)の形式で提供され、このマトリックスにおいて、iは該マトリックスの行を識別し、jは該マトリックスの列を識別し、
    前記方法は、該マトリックスS(i,j)から、傾きを有するドメイン・マトリックスL(i,l)を識別するステップを更に含み、このドメイン・マトリックスにおいてlは遅れ値l=i−jであることを特徴とする、
    ソース音声信号内の新規点の識別方法。
  2. 前記パラメータ化ステップで用いられる前記第1の関数が、高速フーリエ変換(FFT)の対数の大きさを含むことを特徴とする、請求項1に記載の方法。
  3. 前記パラメータ化ステップで用いられる前記第1の関数が、メル周波数ケプストラル計数(MFCC)分析を含むことを特徴とする、請求項1に記載の方法。
  4. 前記パラメータ化ステップで用いられる前記第1の関数が、MPEG(Moving Picture Experts Group)の音声標準を含むことを特徴とする、請求項1に記載の方法。
  5. 前記埋め込むステップで用いられる前記第2の関数が、
    E(i,j)≡‖vi−vj
    により示されるユークリッド距離測定を含み、この式において、DE(i,j)はベクトル・パラメータの対の中の1対間のユークリッド距離を表し、ベクトルは第1の整数位置i及び第2の整数位置jに位置し、viは該第1の整数位置iからのベクトル・パラメータの1つを表し、vjは該第2の整数位置jからのベクトル・パラメータの1つを表すことを特徴とする、請求項1に記載の方法。
  6. 前記埋め込むステップで用いられる前記第2の関数が、
    d(i,j)≡vi・vj
    により示されるドット積を含み、この式において、Dd(i,j)はベクトル・パラメータの対の中の1対間のドット積を表し、ベクトルは第1の整数位置i及び第2の整数位置jに位置し、viは該第1の整数位置iからのベクトル・パラメータの1つを表し、vjは該第2の整数位置jからのベクトル・パラメータの1つを表すことを特徴とする、請求項1に記載の方法。
  7. 前記埋め込むステップで用いられる前記第2の関数が、
    C(i,j)≡(vi・vj)/‖vi‖‖vj
    により示される正規化されたドット積を含み、この式において、DC(i,j)はベクトル・パラメータの対の中の1対間の正規化されたドット積を表し、ベクトルは第1の整数位置i及び第2の整数位置jに位置し、viは該第1の整数位置iからのベクトル・パラメータの1つを表し、vjは該第2の整数位置jからのベクトル・パラメータの1つを表すことを特徴とする、請求項1に記載の方法。
  8. 前記埋め込まれたパラメータが、マトリックスSの形式で提供され、前記方法は、新規性得点を決定するために該マトリックスSをマトリックス・カーネルCと関連付けるステップを更に含むことを特徴とする、請求項1に記載の方法。
  9. 前記マトリックス・カーネルCが、
    Figure 0003941417
    と定義される2×2のチェッカー盤カーネルを含むことを特徴とする、請求項8に記載の方法。
  10. 前記マトリックス・カーネルCが、
    Figure 0003941417
    と定義される同調カーネルを含むことを特徴とする、請求項8に記載の方法。
  11. 前記マトリックス・カーネルCが、
    Figure 0003941417
    と定義される反同調カーネルを含むことを特徴とする、請求項8に記載の方法。
  12. 前記埋め込まれたパラメータが、マトリックスSの形式で提供され、前記方法は、
    第1の新規性得点を決定するために該マトリックスSを同調カーネルと関連付けるステップと、
    第2の新規性得点を決定するために該マトリックスSを反同調カーネルと関連付けるステップと、
    前記第1の新規性得点と前記第2の新規性得点との差を決定するステップと、
    を更に含み、前記同調カーネルは、
    Figure 0003941417
    と定義され、前記反同調カーネルは、
    Figure 0003941417
    と定義されることを特徴とする、請求項1に記載の方法。
  13. 前記埋め込まれたパラメータが、マトリックスSの形式で提供され、前記方法は、
    第1の新規性得点を決定するために該マトリックスSを同調カーネルと関連付けるステップと、
    第2の新規性得点を決定するために該マトリックスSを反同調カーネルと関連付けるステップと、
    前記第1の新規性得点と前記第2の新規性得点との差を決定するステップと、
    を更に含み、前記同調カーネル及び前記反同調カーネルのそれぞれは、2つの対向する四分項には1を有し、2つの対向する四分項には0を有する4つの四分項を含み、そこにおいて、前記同調カーネル内の1は、前記反同調カーネル内の1とは逆の四分項に位置することを特徴とする、請求項1に記載の方法。
  14. 前記マトリックス・カーネルCが、2つの対向する四分項には1を有し、2つの対向する四分項には−1を有する4つの四分項を含むチェッカー盤カーネルを含むことを特徴とする、請求項8に記載の方法。
  15. 前記マトリックス・カーネルCが、該マトリックス・カーネルCのエッジで次第に0に近づく関数を用いて平滑化される前記チェッカー盤カーネルを含むことを特徴とする、請求項14に記載の方法。
  16. 前記関数が、四方に対称なガウス関数を含むことを特徴とする、請求項15に記載の方法。
  17. 前記マトリックス・カーネルCが、2つの対向する四分項には1を有し、2つの対向する四分項には0を有する4つの四分項を含むチェッカー盤カーネルを含むことを特徴とする、請求項8に記載の方法。
  18. iがフレーム番号である場合の前記新規性得点D(i)が、
    Figure 0003941417
    により決定され、前記マトリックス・カーネルCは幅Lを有し、m=0,n=0を中心とすることを特徴とする、請求項8に記載の方法。
  19. 前記方法が、
    予め定められたしきい値を越える新規性得点における点を決定することにより前記新規性得点をしきい値処理するステップを、
    更に含むことを特徴とする、請求項8に記載の方法。
  20. 前記方法が、
    前記しきい値を越える点のうち最も高い1つの点をバイナリー・ツリーのルートとして識別し、前記予め定められたしきい値を越える新規性得点からのその他の点を、前記ルートの点に関して第1の左の点及び第1の右の点に分割するステップと、
    前記第1の左の点の中で前記しきい値を越える点のうち最も高い、第1の左のツリーの次の点を識別し、前記第1の左の点からのその他の点を、前記左のツリーの次の点に関して第2の左の点及び第2の右の点に分割するステップと、
    前記第1の右の点の中で前記しきい値を越える点のうち最も高い、第1の右のツリーの次の点を識別し、前記第1の右の点からのその他の点を、前記右のツリーの次の点に関して第3の左の点及び第3の右の点に分割するステップと、
    を実行することにより、前記予め定められたしきい値を越える前記新規性得点の点からバイナリー・ツリーを形成するステップを更に含むことを特徴とする、請求項19に記載の方法。
  21. 前記埋め込まれたパラメータが、マトリックスSの形式で提供され、前記方法は、
    前記マトリックスの対角線を形成する点を合計することによりビート・スペクトルを定義するステップを更に含むことを特徴とする、請求項1に記載の方法。
  22. 前記対角線が前記マトリックスSの主対角線であることを特徴とする、請求項21に記載の方法。
  23. 前記対角線が前記マトリックスSの副対角線であり、該副対角線は主対角線に平行していることを特徴とする、請求項21に記載の方法。
  24. 前記方法が、
    前記音声信号ソース内の音楽のテンポを決定するために、前記ビート・スペクトルにおけるピークを識別するステップを、
    更に含むことを特徴とする、請求項21に記載の方法。
  25. 前記埋め込まれたパラメータが、マトリックスS(i,j)の形式で提供され、このマトリックスにおいて、iは該マトリックスの行を識別し、jは該マトリックスの列を識別し、
    前記方法は、
    Figure 0003941417
    のようにビート・スペクトルB(k,l)を定義するために前記マトリックスS(i,j)を自己相関するステップを更に含み、
    この式において、k及びlは予め定められた整数であることを特徴とする、請求項1に記載の方法。
  26. 前記方法が、
    前記音声信号ソース内の音楽のテンポを決定するために、前記ビート・スペクトルにおけるピークを識別するステップを、
    更に含むことを特徴とする、請求項25に記載の方法。
  27. 前記方法が、
    前記マトリックスSの対角線を形成する点を合計することによりビート・スペクトルを定義するステップと、
    前記新規性得点を前記ビート・スペクトルと関連付けるステップと、
    前記音声信号ソース内の音楽のテンポを決定するために、前記関連付けられた新規性得点及びビート・スペクトルにおけるピークを識別するステップと、
    を更に含むことを特徴とする、請求項8に記載の方法。
  28. 前記方法が、
    前記しきい値を越える前記新規性得点における点から成るグループであり、該グループ内の各点は、前記しきい値を越える点に隣接することを特徴とするグループとして、前記音声信号内のセグメントを定義するステップと、
    前記セグメントのそれぞれにおいて点を平均し、多数のセグメントを最も類似している前記新規性得点における点により識別することにより、音声の要点を抜粋するステップと、
    を更に含むことを特徴とする、請求項19に記載の方法。
  29. 前記方法が、
    前記しきい値を越える前記新規性得点における点から成るグループであり、該グループ内の各点は、前記しきい値を越える点に隣接することを特徴とするグループとして、前記音声信号内のセグメントを定義するステップと、
    セグメント境界が前記音声信号内の予め定められた時間に発生するように、前記音声信号を歪曲させるステップと、
    を更に含むことを特徴とする、請求項19に記載の方法。
  30. 前記方法が、
    前記しきい値を越える前記新規性得点における点から成るグループであり、該グループ内の各点は、前記しきい値を越える点に隣接することを特徴とするグループとして、前記音声信号内のセグメントを定義するステップと、
    前記セグメントの位置に基づいて、ビデオ信号の部分を前記音声信号と位置合わせするステップと、
    を更に含むことを特徴とする請求項19に記載の方法。
  31. 前記方法が、
    前記音声信号の前記テンポを第2の音声信号のテンポと一致させるように、前記音声信号を歪曲させるステップを、
    更に含むことを特徴とする、請求項24に記載の方法。
  32. 前記パラメータを埋め込むステップにおいて、前記パラメータの1つ及びそれ自体の間の自己類似性と、前記パラメータのうちの2つの異なるパラメータ間の相互類似性とを決定するために、前記第2の関数が適用されることを特徴とする、請求項1に記載の方法。
JP2001140826A 2000-05-11 2001-05-11 ソース音声信号内の新規点の識別方法 Expired - Fee Related JP3941417B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US569230 2000-05-11
US09/569,230 US6542869B1 (en) 2000-05-11 2000-05-11 Method for automatic analysis of audio including music and speech

Publications (2)

Publication Number Publication Date
JP2002014691A JP2002014691A (ja) 2002-01-18
JP3941417B2 true JP3941417B2 (ja) 2007-07-04

Family

ID=24274595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001140826A Expired - Fee Related JP3941417B2 (ja) 2000-05-11 2001-05-11 ソース音声信号内の新規点の識別方法

Country Status (2)

Country Link
US (1) US6542869B1 (ja)
JP (1) JP3941417B2 (ja)

Families Citing this family (169)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7724919B2 (en) * 1994-10-21 2010-05-25 Digimarc Corporation Methods and systems for steganographic processing
US7224819B2 (en) * 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
ATE398382T1 (de) 1999-12-16 2008-07-15 Muvee Technologies Pte Ltd System und verfahren zur videoproduktion
US6834308B1 (en) 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US6813600B1 (en) * 2000-09-07 2004-11-02 Lucent Technologies Inc. Preclassification of audio material in digital audio compression applications
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
US7562012B1 (en) * 2000-11-03 2009-07-14 Audible Magic Corporation Method and apparatus for creating a unique audio signature
US8006186B2 (en) * 2000-12-22 2011-08-23 Muvee Technologies Pte. Ltd. System and method for media production
US7373209B2 (en) * 2001-03-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus, and methods and programs for implementing the same
WO2003005242A1 (en) * 2001-03-23 2003-01-16 Kent Ridge Digital Labs Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval
US7072908B2 (en) * 2001-03-26 2006-07-04 Microsoft Corporation Methods and systems for synchronizing visualizations with audio streams
US6959278B1 (en) * 2001-04-05 2005-10-25 Verizon Corporate Services Group Inc. Systems and methods for implementing segmentation in speech recognition systems
EP1490767B1 (en) * 2001-04-05 2014-06-11 Audible Magic Corporation Copyright detection and protection system and method
US7962482B2 (en) * 2001-05-16 2011-06-14 Pandora Media, Inc. Methods and systems for utilizing contextual feedback to generate and modify playlists
US7529659B2 (en) 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
US7877438B2 (en) 2001-07-20 2011-01-25 Audible Magic Corporation Method and apparatus for identifying new media content
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US20030097640A1 (en) * 2001-07-25 2003-05-22 International Business Machines Corporation System and method for creating and editing documents
US20030135623A1 (en) * 2001-10-23 2003-07-17 Audible Magic, Inc. Method and apparatus for cache promotion
US20050190199A1 (en) * 2001-12-21 2005-09-01 Hartwell Brown Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music
US20030200134A1 (en) * 2002-03-29 2003-10-23 Leonard Michael James System and method for large-scale automatic forecasting
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
US7366645B2 (en) * 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
AU2003204588B2 (en) * 2002-05-31 2006-02-23 Canon Kabushiki Kaisha Robust Detection and Classification of Objects in Audio Using Limited Training Data
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
US20050238238A1 (en) * 2002-07-19 2005-10-27 Li-Qun Xu Method and system for classification of semantic content of audio/video data
US7383509B2 (en) * 2002-09-13 2008-06-03 Fuji Xerox Co., Ltd. Automatic generation of multimedia presentation
WO2004027577A2 (en) 2002-09-19 2004-04-01 Brian Reynolds Systems and methods for creation and playback performance
DE60208956T2 (de) * 2002-10-14 2006-09-14 Sony Deutschland Gmbh Verfahren zur Spracherkennung
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
US8666524B2 (en) * 2003-01-02 2014-03-04 Catch Media, Inc. Portable music player and transmitter
US8332326B2 (en) 2003-02-01 2012-12-11 Audible Magic Corporation Method and apparatus to identify a work received by a processing system
US8073684B2 (en) * 2003-04-25 2011-12-06 Texas Instruments Incorporated Apparatus and method for automatic classification/identification of similar compressed audio files
US7208669B2 (en) * 2003-08-25 2007-04-24 Blue Street Studios, Inc. Video game system and method
CA2539442C (en) * 2003-09-17 2013-08-20 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
US20050065915A1 (en) * 2003-09-23 2005-03-24 Allen Wayne J. Method and system to add protocol support for network traffic tools
WO2005041109A2 (en) * 2003-10-17 2005-05-06 Nielsen Media Research, Inc. Methods and apparatus for identifiying audio/video content using temporal signal characteristics
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US20050097120A1 (en) * 2003-10-31 2005-05-05 Fuji Xerox Co., Ltd. Systems and methods for organizing data
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8229751B2 (en) 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
US8535236B2 (en) * 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
US7970618B2 (en) * 2004-04-02 2011-06-28 Kddi Corporation Content distribution server for distributing content frame for reproducing music and terminal
US20050249080A1 (en) * 2004-05-07 2005-11-10 Fuji Xerox Co., Ltd. Method and system for harvesting a media stream
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US8130746B2 (en) 2004-07-28 2012-03-06 Audible Magic Corporation System for distributing decoy content in a peer to peer network
US8064580B1 (en) 2004-09-03 2011-11-22 Confinement Telephony Technology, Llc Telephony system and method with improved fraud control
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
US7451077B1 (en) 2004-09-23 2008-11-11 Felicia Lindau Acoustic presentation system and method
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
DE102004047068A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
US7783106B2 (en) * 2004-11-12 2010-08-24 Fuji Xerox Co., Ltd. Video segmentation combining similarity analysis and classification
US7640218B2 (en) * 2005-01-18 2009-12-29 Fuji Xerox Co., Ltd. Efficient methods for temporal event clustering of digital photographs
US7617188B2 (en) * 2005-03-24 2009-11-10 The Mitre Corporation System and method for audio hot spotting
US20060218505A1 (en) * 2005-03-28 2006-09-28 Compton Anthony K System, method and program product for displaying always visible audio content based visualization
US8010324B1 (en) 2005-05-09 2011-08-30 Sas Institute Inc. Computer-implemented system and method for storing data analysis models
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
KR20080066007A (ko) * 2005-09-30 2008-07-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 재생용 오디오 프로세싱 방법 및 장치
FR2891651B1 (fr) * 2005-10-05 2007-11-09 Sagem Comm Systeme de karaoke pour l'affichage du texte correspondant a la partie vocale d'un flux audiovisuel sur un ecran d'un systeme audiovisuel
US8423356B2 (en) * 2005-10-17 2013-04-16 Koninklijke Philips Electronics N.V. Method of deriving a set of features for an audio input signal
US10324899B2 (en) * 2005-11-07 2019-06-18 Nokia Technologies Oy Methods for characterizing content item groups
KR100725018B1 (ko) 2005-11-24 2007-06-07 삼성전자주식회사 음악 내용 자동 요약 방법 및 그 장치
US7826911B1 (en) 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
US7668610B1 (en) 2005-11-30 2010-02-23 Google Inc. Deconstructing electronic media stream into human recognizable portions
WO2007068119A1 (en) * 2005-12-13 2007-06-21 Audio Pod Inc. Segmentation and transmission of audio streams
WO2007072394A2 (en) * 2005-12-22 2007-06-28 Koninklijke Philips Electronics N.V. Audio structure analysis
US7711734B2 (en) * 2006-04-06 2010-05-04 Sas Institute Inc. Systems and methods for mining transactional and time series data
US20070261537A1 (en) * 2006-05-12 2007-11-15 Nokia Corporation Creating and sharing variations of a music file
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US20080046406A1 (en) * 2006-08-15 2008-02-21 Microsoft Corporation Audio and video thumbnails
JP2008076776A (ja) * 2006-09-21 2008-04-03 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
US8062089B2 (en) 2006-10-02 2011-11-22 Mattel, Inc. Electronic playset
US8292689B2 (en) * 2006-10-02 2012-10-23 Mattel, Inc. Electronic playset
US8112302B1 (en) 2006-11-03 2012-02-07 Sas Institute Inc. Computer-implemented systems and methods for forecast reconciliation
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
WO2008100485A1 (en) * 2007-02-12 2008-08-21 Union College A system and method for transforming dispersed data patterns into moving objects
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
US20090006551A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Dynamic awareness of people
US8006314B2 (en) * 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US8381086B2 (en) * 2007-09-18 2013-02-19 Microsoft Corporation Synchronizing slide show events with audio
US20090132252A1 (en) * 2007-11-20 2009-05-21 Massachusetts Institute Of Technology Unsupervised Topic Segmentation of Acoustic Speech Signal
EP2088518A1 (en) * 2007-12-17 2009-08-12 Sony Corporation Method for music structure analysis
JP4973537B2 (ja) * 2008-02-19 2012-07-11 ヤマハ株式会社 音響処理装置およびプログラム
US20090216611A1 (en) * 2008-02-25 2009-08-27 Leonard Michael J Computer-Implemented Systems And Methods Of Product Forecasting For New Products
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
US20150006411A1 (en) * 2008-06-11 2015-01-01 James D. Bennett Creative work registry
WO2010021035A1 (ja) * 2008-08-20 2010-02-25 パイオニア株式会社 情報生成装置及び情報生成方法並びに情報生成用プログラム
US9124769B2 (en) 2008-10-31 2015-09-01 The Nielsen Company (Us), Llc Methods and apparatus to verify presentation of media content
US20100138010A1 (en) * 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US8452586B2 (en) * 2008-12-02 2013-05-28 Soundhound, Inc. Identifying music from peaks of a reference sound fingerprint
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
US8199651B1 (en) 2009-03-16 2012-06-12 Audible Magic Corporation Method and system for modifying communication flows at a port level
US8666734B2 (en) 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
US8631040B2 (en) 2010-02-23 2014-01-14 Sas Institute Inc. Computer-implemented systems and methods for flexible definition of time intervals
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
JP5594052B2 (ja) * 2010-10-22 2014-09-24 ソニー株式会社 情報処理装置、楽曲再構成方法及びプログラム
TWI412019B (zh) * 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US9336493B2 (en) 2011-06-06 2016-05-10 Sas Institute Inc. Systems and methods for clustering time series data based on forecast distributions
US20120316886A1 (en) * 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
US9047559B2 (en) 2011-07-22 2015-06-02 Sas Institute Inc. Computer-implemented systems and methods for testing large scale automatic forecast combinations
CN102956237B (zh) 2011-08-19 2016-12-07 杜比实验室特许公司 测量内容一致性的方法和设备
CN102956238B (zh) 2011-08-19 2016-02-10 杜比实验室特许公司 用于在音频帧序列中检测重复模式的方法及设备
US8713028B2 (en) * 2011-11-17 2014-04-29 Yahoo! Inc. Related news articles
US8965766B1 (en) * 2012-03-15 2015-02-24 Google Inc. Systems and methods for identifying music in a noisy environment
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
EP2845188B1 (en) 2012-04-30 2017-02-01 Nokia Technologies Oy Evaluation of downbeats from a musical audio signal
US20130325853A1 (en) * 2012-05-29 2013-12-05 Jeffery David Frazier Digital media players comprising a music-speech discrimination function
CN104620313B (zh) * 2012-06-29 2017-08-08 诺基亚技术有限公司 音频信号分析
US9087306B2 (en) 2012-07-13 2015-07-21 Sas Institute Inc. Computer-implemented systems and methods for time series exploration
US9244887B2 (en) 2012-07-13 2016-01-26 Sas Institute Inc. Computer-implemented systems and methods for efficient structuring of time series data
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
CN103916097B (zh) * 2013-01-02 2018-10-19 三星电子株式会社 用于处理音频信号的设备和方法
US9147218B2 (en) 2013-03-06 2015-09-29 Sas Institute Inc. Devices for forecasting ratios in hierarchies
US10224030B1 (en) * 2013-03-14 2019-03-05 Amazon Technologies, Inc. Dynamic gazetteers for personalized entity recognition
CN104143341B (zh) * 2013-05-23 2015-10-21 腾讯科技(深圳)有限公司 爆音检测方法和装置
GB201310861D0 (en) 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
US9934259B2 (en) 2013-08-15 2018-04-03 Sas Institute Inc. In-memory time series database and processing in a distributed environment
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US9798974B2 (en) 2013-09-19 2017-10-24 Microsoft Technology Licensing, Llc Recommending audio sample combinations
US9372925B2 (en) * 2013-09-19 2016-06-21 Microsoft Technology Licensing, Llc Combining audio samples by automatically adjusting sample characteristics
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10169720B2 (en) 2014-04-17 2019-01-01 Sas Institute Inc. Systems and methods for machine learning using classifying, clustering, and grouping time series data
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9892370B2 (en) 2014-06-12 2018-02-13 Sas Institute Inc. Systems and methods for resolving over multiple hierarchies
US20170287505A1 (en) * 2014-09-03 2017-10-05 Samsung Electronics Co., Ltd. Method and apparatus for learning and recognizing audio signal
US9208209B1 (en) 2014-10-02 2015-12-08 Sas Institute Inc. Techniques for monitoring transformation techniques using control charts
JP6257537B2 (ja) * 2015-01-19 2018-01-10 日本電信電話株式会社 顕著度推定方法、顕著度推定装置、プログラム
US9418339B1 (en) 2015-01-26 2016-08-16 Sas Institute, Inc. Systems and methods for time series analysis techniques utilizing count data sets
US10289916B2 (en) * 2015-07-21 2019-05-14 Shred Video, Inc. System and method for editing video and audio clips
US10983682B2 (en) 2015-08-27 2021-04-20 Sas Institute Inc. Interactive graphical user-interface for analyzing and manipulating time-series projections
JP6743425B2 (ja) * 2016-03-07 2020-08-19 ヤマハ株式会社 音信号処理方法および音信号処理装置
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
JP6058192B1 (ja) * 2016-06-08 2017-01-11 株式会社ビジョナリスト 音楽情報生成装置、音楽情報生成方法、プログラム、および記録媒体
US10366121B2 (en) * 2016-06-24 2019-07-30 Mixed In Key Llc Apparatus, method, and computer-readable medium for cue point generation
US10546011B1 (en) * 2016-09-23 2020-01-28 Amazon Technologies, Inc. Time code to byte indexer for partial object retrieval
US10587872B2 (en) * 2017-07-05 2020-03-10 Project Giants, Llc Video waveform peak indicator
US10331490B2 (en) 2017-11-16 2019-06-25 Sas Institute Inc. Scalable cloud-based time series analysis
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
US10338994B1 (en) 2018-02-22 2019-07-02 Sas Institute Inc. Predicting and adjusting computer functionality to avoid failures
US10255085B1 (en) 2018-03-13 2019-04-09 Sas Institute Inc. Interactive graphical user interface with override guidance
EP3570186B1 (en) * 2018-05-17 2021-11-17 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Device and method for detecting partial matches between a first time varying signal and a second time varying signal
US10560313B2 (en) 2018-06-26 2020-02-11 Sas Institute Inc. Pipeline system for time-series data forecasting
US10685283B2 (en) 2018-06-26 2020-06-16 Sas Institute Inc. Demand classification based pipeline system for time-series data forecasting
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
US11373657B2 (en) * 2020-05-01 2022-06-28 Raytheon Applied Signal Technology, Inc. System and method for speaker identification in audio data
US11315545B2 (en) 2020-07-09 2022-04-26 Raytheon Applied Signal Technology, Inc. System and method for language identification in audio data
TWI796955B (zh) 2021-02-17 2023-03-21 日商日本製鐵股份有限公司 無方向性電磁鋼板及其製造方法
US20240084415A1 (en) 2021-04-02 2024-03-14 Nippon Steel Corporation Non-oriented electrical steel sheet and method for manufacturing the same
CN117636900B (zh) * 2023-12-04 2024-05-07 广东新裕信息科技有限公司 一种基于音频特征形状匹配的乐器演奏质量评价方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2245745B (en) 1990-07-06 1994-03-09 Sony Corp Editing digital audio signals associated with video signals
US5598507A (en) 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
JP3745403B2 (ja) 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5655058A (en) 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5828994A (en) 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6370504B1 (en) * 1997-05-29 2002-04-09 University Of Washington Speech recognition on MPEG/Audio encoded files
US5986199A (en) * 1998-05-29 1999-11-16 Creative Technology, Ltd. Device for acoustic entry of musical data
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Also Published As

Publication number Publication date
US6542869B1 (en) 2003-04-01
JP2002014691A (ja) 2002-01-18

Similar Documents

Publication Publication Date Title
JP3941417B2 (ja) ソース音声信号内の新規点の識別方法
Li et al. Creating a multitrack classical music performance dataset for multimodal music analysis: Challenges, insights, and applications
Tzanetakis Manipulation, analysis and retrieval systems for audio signals
Foote Automatic audio segmentation using a measure of audio novelty
Foote Visualizing music and audio using self-similarity
Zhang et al. Audio content analysis for online audiovisual data segmentation and classification
Tzanetakis et al. Marsyas: A framework for audio analysis
US10235981B2 (en) Intelligent crossfade with separated instrument tracks
Cuesta et al. Analysis of intonation in unison choir singing
US9892758B2 (en) Audio information processing
JP2003259302A (ja) 音楽ビデオ自動的制作のための、方法、情報が記憶されている情報記憶媒体を含む製品およびプログラム
Hargreaves et al. Structural segmentation of multitrack audio
Rocha et al. Segmentation and timbre-and rhythm-similarity in Electronic Dance Music
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
Foote Methods for the automatic analysis of music and audio
Villavicencio et al. Efficient pitch estimation on natural opera-singing by a spectral correlation based strategy
Dixon Beat induction and rhythm recognition
Barthet et al. Speech/music discrimination in audio podcast using structural segmentation and timbre recognition
Driedger Time-scale modification algorithms for music audio signals
Kitahara Mid-level representations of musical audio signals for music information retrieval
Pardo et al. Applying source separation to music
Kumar et al. Melody extraction from polyphonic music using deep neural network: A literature survey
Ong Computing structural descriptions of music through the identification of representative excerpts from audio files
Goto Music scene description
Paiva et al. From pitches to notes: Creation and segmentation of pitch tracks for melody detection in polyphonic audio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees