JP2004536348A - 録音の自動識別 - Google Patents

録音の自動識別 Download PDF

Info

Publication number
JP2004536348A
JP2004536348A JP2003514541A JP2003514541A JP2004536348A JP 2004536348 A JP2004536348 A JP 2004536348A JP 2003514541 A JP2003514541 A JP 2003514541A JP 2003514541 A JP2003514541 A JP 2003514541A JP 2004536348 A JP2004536348 A JP 2004536348A
Authority
JP
Japan
Prior art keywords
candidate
recording
voiceprint
frequency
sound pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003514541A
Other languages
English (en)
Inventor
ウェルス マックスヴェル
ヴェンカタチャラム ヴィドヤ
カッツァンティ ルカ
ファイ チェウン クワン
ダイロン ナヴディープ
スキッタノン ソムサック
Original Assignee
グレースノート インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グレースノート インコーポレイテッド filed Critical グレースノート インコーポレイテッド
Publication of JP2004536348A publication Critical patent/JP2004536348A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

原録音の複製を、複製から特徴を抽出し、これらの特徴のベクトルを生成して、当該ベクトルをベクトルのデータベースと比較することにより識別する。圧縮その他の操作を受けて原音の完全な写しではなくなった録音の複製に対して識別を行なうことができる。高い計算効率により同時に数百クエリーを処理可能である。ベクトルの大きさを100バイト未満にできるため、携帯装置に数百万ベクトルを保存することができる。

Description

【技術分野】
【0001】
関連出願の相互検索
本出願は、「録音の自動識別(AUTOMATIC IDENTIFICATION OF SOUND RECORDINGS)」と題された米国仮出願第60/305,911号(ウェルズ(Wells)ら、2001年7月20日出願)に関連しており、これを優先権主張し、本願明細書に援用する。
【0002】
本発明は、録音の識別に関し、より具体的には楽曲や話し言葉の録音等、録音の識別に関する。
【背景技術】
【0003】
識別とは、録音の複製が原音または基準録音と同一であることを確認するプロセスである。登録、監視および制御(これら全てが権利所有者および音楽製作者の報酬を保証するために重要である)を行うため録音は自動的に識別されることが必要である。また、楽曲に付加価値を与える、あるいは価値を引き出すために、識別が必要とされる。登録とは、コンテンツ所有者が自分の所有権を記録するプロセスである。監視とは、一般に報酬の支払いに利用するため、所有者への報告用にコンテンツの移動および利用を記録することである。制御とは、コンテンツの利用および移動に関するコンテンツ所有者の要求を強制するプロセスである。
【0004】
楽曲に付加価値を与える例として、ラベルが付与されていない、または誤ったラベルが付与されたコンテンツを識別することが挙げられる。すると、楽曲利用者が楽曲および識別情報の入手や編集を容易に行なえるようになるばかりか、ユーザーに対し、例えばアーティストの情報や類似楽曲の推薦等、関連コンテンツを提供可能にすることもできるようになる。
【0005】
楽曲から価値を引き出す例として、楽曲が識別されることで人々に購入機会を提供したり、聞き手のサイコグラフィックス(心理傾向)に関する何らかの分析を行なうことが含まれる。例えば特定の曲は、その曲自体または同じアーティストの関連する曲の購入、あるいはそのアーティストにより人気が出た衣料品の購入を誘発するかもしれない。これは、広告宣伝を配信する媒体として楽曲を用いることにより楽曲から価値を引き出す例である。更に、サイコグラフィックスは心理的、社会的、および人類学的要素を用いて、市場内の集団が製品、人物、イデオロギーについてどのように決定を下すか、逆に態度を保留したりメディアを利用する等の傾向により市場がどのようにセグメント化されているかを決定する。この情報は、より対象を絞った広告宣伝や取引に利用される。これは、楽曲を用いて聞き手のプロファイリングを行い楽曲から価値を引き出す例である。
【0006】
監視には、保存された楽曲の配信と、再生された楽曲の配信を監視する二種類がある。保存された楽曲は、「機械的」または「複製的」権利が伴う複製物と考えられる。再生された楽曲は、生演奏か録音の再生かによらず実演(パフォーマンス)であると考えられる。この境界により、異なる集金構造が存在することになり、それぞれ別の組織が管理している。ある組織(ハリー・フォックス代理店(Harry Fox Agency))はCDやテープが売れたときに複製ロイヤリティを徴収する。これらの物理的商品は、各種の会計実務および技術を用いてカウントおよび監視される。ASCAP、BMIおよびSESACは、ラジオまたは公開の場で生の、または録音された楽曲が演奏された際に演奏ロイヤリティを徴収する。こうした演奏は、自動識別と人間による識別を組み合わせて監視される。
【0007】
楽曲の配信方法にはいくつか異なるものがある。生の楽曲は、ラジオやテレビ(アナログとデジタルの両方)、およびインターネットを介して演奏空間に「配信される」。保存された楽曲その他の録音は、録音に付随する物理媒体(CD、カセット、ミニ・ディスク、CD−RW、DVD)で配信することができ、これらは移動(保存、配送、販売)可能である。しかし、録音は物理媒体に常に付随するものではない。電子形式によるストリーミング配信や格納場所の移動により簡単に楽曲は別の場所へ搬送される。どちらも、録音の搬送には、ラジオまたはインターネットのいずれかが用いられる。
【0008】
デジタル楽曲およびインターネットによって、楽曲を配信して利用する方法、および楽曲を識別するための要件が変化している。これらの変化が生じたのは、インターネットを用いれば演奏と複製の両方を配信することができ、また配信チャネルの数が増大するからである。
【0009】
地上ラジオ局が同一の曲を再生すれば常時1000人の聞き手に届けることができるのに対し、インターネット・ラジオ局は異なる1000曲を再生しながら同時に1000人の聞き手に届けることができる。これは、選曲が増大かつ多様化する中で楽曲を識別する必要があることを意味する。
【0010】
楽曲関連の既存ビジネス・モデルは課題に直面している。例えば、パソコンに付属するCD読み取り装置やピア・ツー・ピア型サービスにより楽曲の複製や交換が以前より容易に行なえる。そこで、楽曲を登録、監視、制御し、価値を引き出す新たな方法が求められている。
【0011】
デジタル楽曲を複製するのは容易である。利用者は、各種の消費者向け電子装置用にいろいろなメディア・フォーマットで複製を作ることが可能である。従って、複数のメディア・フォーマットや装置のタイプを相手により多くの複製された曲を識別することが必要になる。インターネットに接続していない装置もあるため、識別システムには追加的な要件が課されるこおになる。
【0012】
あらゆる配信チャネルにわたってストリーミングまたは搬送された楽曲を識別可能な単一のソリューションが必要である。それは、スケールメリットが発揮でき、各種の方法やデータベースが違っても調整する必要がなく、課題全般に対し簡便なソリューションを提供することになるからである。
【0013】
現行の方法は、タグ取付け、電子透かし、暗号化、および音紋(楽曲に固有の特徴を利用)を利用する。タグは、物理媒体またはデジタル複製に取り付けられる。タグに含まれる最小限の共通項はアーティストと曲名の対(ATP)である。他の情報として、発行者、ラベル、および日付が含まれていてもよい。録音に一意的なIDを付与する試みには、ISRC(国際標準レコーディングコード)、ISWC(国際標準楽曲著作物コード)、EAN(欧州統一商品番号)、UPC(統一商品コード)、ISMN(国際標準楽譜番号)およびCAE(作曲者、作詞者、編曲者)がある。全て英数字コードであって、録音の物理的複製に添付されているか、またはデジタル複製に埋め込まれている。さまざまなコードを作成する理由は、作品の自動識別および追跡を支援するためである。
【0014】
しかし、ATPおよび英数字コードを用いると問題が生じる。それらは、取り外しや変更が容易に行なえる(その証拠にコンテンツをブロックするためATPを用いたナップスターによる最近の試みがある)。それらが取り外されたり変更された場合、再添付や修正に人間の介入(聴取)が必要になる。コンテンツがタグに表示されている通りであることを自動的に証明する方法は存在しない。また、タグは複製する前に原音に取り付けなければならないので、旧来のコンテンツへは有益性がない。添付を怠ったり、誤って添付されることもある。効果を発揮するためには膨大な業界関係者の参加を必要とする。EAN/UPCはCDを識別するが、個々の楽曲の追跡には役立たない。又、いくつかの国において、楽曲と一緒にデータを送信すること禁じる法律があり、タグの有益性が制約される。また、このようなデータを送信するには帯域幅を増やす必要が生じる恐れがある。
【0015】
電子透かしは、特殊な読み取り装置により読み取られる、抹消不能かつ不可聴な信号を付与するものである。電子透かしはノイズに対しての耐性がある。電子透かしは生と録音済みコンテンツの組み合わせ、例えば録音済みのバックグラウンド・ミュージックを背景にアナウンサーが話すような場合に有効である。電子透かしは、データベースにアクセスする必要なしに付加的な情報を配信することができる。しかし、電子透かしには次のような課題がある。すなわち、必ずしも不消滅、不可聴であるとは限らない。又、複製する前に原音に透かしを加える必要があり、旧来のコンテンツでは有益性が制約されてしまう。そして、旧来のコンテンツに適用したとしても、まず最初に楽曲を識別する方法が依然として必要となる。
【0016】
暗号化は、鍵なしではコンテンツにアクセス不可にするためのソフトウェアの技術を利用する。識別は暗号化の前に行なわれ、識別情報(メタデータ)は楽曲に固定される。暗号化に関してもいくつかの課題が存在する。すなわち、旧来のコンテンツでは有益性が制約され、旧来のコンテンツに適用しても、依然としてコンテンツを識別する方法が必要となる。そして、楽曲に「施錠」することに対する消費者の抵抗もある。これらの課題の原因は、施錠された楽曲を再生する装置と再生しない装置との間に互換性がないためであり、既存の楽曲コレクションを再生できない恐れのある装置、および消費者が現在所有している装置で再生できない恐れのある楽曲をしぶしぶ購入させることにつながる点にある。
【0017】
別のアプローチは、楽曲固有の特徴を用いて「音紋」を提供することである。識別する特徴は楽曲の一部である。従ってそれらを変えれば楽曲も変わる。この方法の利点は以下の通りである。楽曲には何ら手が加えられない。音紋はいつでも再生成可能である。音紋は、旧来のコンテンツでも機能し、広範な産業分野で採用されなくても全てのコンテンツに適用可能である。そして、楽曲全体から音紋が生成可能であり、従ってその曲の完全性および真正性が保される。
【0018】
現在の音紋を利用した識別方法は、以下に詳述する制約の存在により適切でない。制約とは、(1)多数の曲を識別する必要があること、および(2)原音からわずかに改変された曲を識別することが求められることである。改変は、人間にとってその曲が異なるものと判断するには不十分である。しかし、機械に判断させるには十分である。つまり、現在の音紋利用識別方法における問題は、あるシステムでは多数の曲を扱えるがそれらの改変に対処できず、一方、他のシステムでは各種の改変を扱えるが多数の曲に対処できない点である。
【0019】
楽曲の改変は、さまざまな「配信チャネルの影響」により発生し得る。例えば、ラジオで再生された楽曲は、静的および動的周波数特性調整(イコライゼーション)および音量正規化を受ける。楽曲はまた、スピードを速めたり遅くすることにより再生時間が短縮または延長される。保存された楽曲は、ラジオで生じるのと同じ効果、および他の操作に起因して原音から改変されうる。最も一般的な操作は、コーデックの利用により、保存された楽曲ファイルのサイズを減らして保存や移動に更に適したものにすることである。最も一般的なコーデックはMP3である。コーデックは、曲を圧縮形式にエンコードして、再生時に聞こえるようデコードまたは伸長する。理想的なコーデックは、圧縮や伸長を受けたバージョンが原音と同じに聞こえるように、知覚上余分な部分だけを除去する。しかし、このプロセスは不可逆的であり、複製の波形を原音とは異なるものに変えてしまう。他の操作およびその発現(配信チャネルの影響)について以下に述べる。
【0020】
既存の方法は、保存された録音の識別と再生(演奏)された録音の識別を目的としている。2種の識別システムの主な差異は以下の通りである。
−再生された楽曲の識別システムは、曲の開始位置が不明でも曲を識別できなければならない。保存された楽曲では開始位置が容易に特定される。
−再生された楽曲の識別では、最大約10,000曲分の基準録音が扱えればよい。保存された楽曲ではそれより大容量を必要とする。
−再生された楽曲は再生中に識別されるため、音紋の抽出や検索速度には厳しい要件が無い。多くのアプリケーションにおいて、保存された楽曲はリアルタイムに識別できなければならない。
−再生された楽曲の識別は、数千のラジオ局を対象とすれば済む場合がある。保存された楽曲の場合、数千万もの個々の楽曲ユーザーを対象とする必要がある。
−再生された楽曲は、原音からの改変を行う操作を前提として識別が行われなければならない。保存された楽曲を識別する従来技術による方法は、改変に対処するするようには設計されていない。
【0021】
どちらのカテゴリとも、固有特性の利用、メタデータの追加または不可聴信号の追加に依存する技術を含む。しかし、改変の検証には録音の固有の特性を、それ自体または他の情報と組み合わせて利用する識別技術が専ら用いられる。
【0022】
コンパクトディスク(CD)上の楽曲の複製を識別すべく共通的に利用される技術の一つとして、米国特許第6,230,192号に記載されている、トラック間の間隔およびトラックの持続期間またはCDのTOC(Table Of Contents)を利用してCDの固有識別子を作成する方法がある。CD識別子を用いて、既に完成しているデータベースからトラックの名前と順序を検索する。この方法は、楽曲がCDからコンピュータ・ハードディスクドライブへ複製されてしまえば機能しない。
【0023】
別の技術にはハッシュ・アルゴリズムを用いてファイルにラベル付けするものがある。セキュア・ハッシュ・アルゴリズム(SHA1)やMD5等のハッシュ・アルゴリズムは、デジタル署名を実施するためにある。デジタル署名では、長大なメッセージを秘密鍵で署名する前に安全な方法で「圧縮」する必要がある。各アルゴリズムは任意の長さの楽曲ファイルに適用でき、128ビットのメッセージ・ダイジェストが生成される。ハッシュ値の利点は、抽出が速く行なえ、サイズが小さく、各々のハッシュがファイルの固有識別子であるためにそれらを用いて高速なデータベース検索を実行することができる点である。不利な点は以下の通りである。
(1)このアルゴリズムは改竄への安全性を考慮して設計されているため、ファイルに対するたとえわずかな変更でもハッシュ値が異なる。その結果、ファイルが何らかの「チャネルの影響」を受けるとハッシュ値が変化する。例えば、ナップスター等、大規模なファイル共有交換機構の各々の楽曲には平均550のバリエーション(改変された曲)がある。楽曲のわずかな変更(例えばサンプルを1つ除去)でも異なるハッシュ値を生じるため、楽曲を識別する目的に用いることができない。
(2)楽曲ファイルの各々のバリエーション(改変)に対して異なるハッシュをデータベースに保存する必要があるため、多対1の関係を有する巨大なデータベースが生じる。
【0024】
更に別の技術が米国特許第5,918,223号に記載されている。この方法は、一つの楽曲から一連の特徴ベクトルを抽出して、識別のためデータベースへ送る。この技術の利点は、特徴ベクトルが楽曲の固有の特徴でかつ知覚上顕著な特徴により構成される点である。このことは、それらがチャネルの影響の多くに対し、チャネルの影響があっても識別結果が左右されない堅牢性を持つであろうことを意味する。不利な点は以下の通りである。
(1)特徴ベクトルの抽出の計算負荷が大きい
(2)特徴ベクトルが巨大である。すなわち、
(a)検索に長時間かかり、多数の問い合わせ用に実装するコストが大きい。
【0025】
(b)ネットワーク・トラフィック量を増やす。
(3)個々のベクトルは、一意的に楽曲を識別するのに十分な情報を含んでいない。複数の特徴ベクトルをデータベースでマッチングさせて、ようやく識別が完了する。従って、検索に長時間かかり、データベースはサイズに制約が課せられる。
(4)この技術が全ての配信チャネルの影響に耐性があることが保障されていない。
【0026】
再生された録音を識別する一方法がケニオン(Kenyon)により米国特許第5,210,820号により記載されている。第820号特許は、主にラジオ局監視用に設計されており、関心対象の地上ラジオ局に同調させたリスニングステーションから信号が得られる。このシステムでは、速度変化、ノイズ・バースト、および信号欠落の影響を受けても曲を識別することができる。5個のラジオ・チャンネルの各々で約10,000曲のうちの1曲を監視することができる。開示された技術は相当堅牢であるが、使用されるデータベース検索技術が原因で、基準曲のデータベースのサイズが制限されてしまう。
【発明の開示】
【発明が解決しようとする課題】
【0027】
全ての録音を識別しようとすれば、2002年初頭時において約1000万曲の保存された楽曲が対象になる。ストリーミングされた楽曲の場合、この数は、数万のオーダーである。従来技術は、ストリーミングされた楽曲に焦点をあてているが、曲数がこれよりはるかに少ない。
【0028】
旧来のコンテンツを識別する場合、既存のデジタル楽曲の複製約5000億曲が該当する。原音生成時に楽曲を識別するための作業が必要な方法ではこれらの複製を識別することができない。
【0029】
新しいコンテンツは、大多数のポピュラー楽曲を含み、配信元がある程度限定され、ワークフローを制御するプロセスが整備された比較的少数の曲に加え、さまざまな配信元から配信されるより多くの曲で構成される。これらの場所は地理的に分散しており、ワークフロー管理はまちまちである。従って、生成時にで楽曲を識別するための作業が必要がある方法では大多数の曲を識別することができない。
【課題を解決するための手段】
【0030】
本発明の態様によれば、旧来のコンテンツおよび新しいコンテンツを含む、全ての録音を自動的に識別することができる。
【0031】
本発明の別の態様によれば、高速で録音を識別することでができる。本システムは、リアルタイムで何度も楽曲を識別することが可能である。例えば、3分の楽曲は3秒未満で識別可能であろう。
【0032】
本発明の更なる態様によれば、抽出および検索を計算効率良く行ない、自動的に録音が識別される。多くの曲は処理能力が限られた家電製品で行なわれるため、音紋の抽出および検索には効率良く計算することが望まれる。
【0033】
本発明の更に別の態様によれば、各々の録音から抽出された小さい音紋、およびコンパクトな検索コードを用いて自動的に録音が識別される。これはどちらも、楽曲の多くが記憶空間が限られた家電製品で識別されることから、望ましい。
【0034】
本発明のまた更なる態様によれば、故意または偶然にかかわらず、タグが無かろうが誤って適用されていようが録音が識別される。
【0035】
本発明の更に別の態様によれば、「配信チャネルの影響」により録音が改変される場合にその改変が自動的に識別される。それらの「影響」のうち考慮すべきものは以下の通りである。
(1)DC値:時間領域のデジタル化された楽曲波形振幅の平均値。
(2)位相反転:楽曲波形の各時間領域デジタル・サンプルに−1を乗ずるプロセス。マルチチャネル楽曲の場合、全チャネルに位相反転が適用される。
(3)ピッチ不変速度増加:ピッチに影響を及ぼすことなく楽曲の再生速度を上げるプロセス。
(4)ピーク制限:最大信号振幅を所定の閾値に制限するプロセス。
(5)音量正規化:音声ファイルのゲインを最大音量位置(またはサンプル)が最大レベルになるまで増大させるプロセス。
(6)ダイナミックレンジ縮小:音声のダイナミックレンジを縮小させるプロセス。ダイナミックレンジとは、音声の最弱または最小部分に対する最強または最大部分の比率であり、dB単位で測定される。
(7)イコライゼーション:周波数の相対的なバランスを変えて音声に所望の調声特徴を生成するプロセス。
(8)再マスタリング:最初のマスタリング終了後に録音をマスタリングするプロセス。録音を録り直すか、または異なるアルバムに収録するために「マスター・テープ」が再加工される際に生じる場合がある。実際のマスタリング施設を使う場合もあるが、他の場合には「マスタリング済み」素材を複製工場に直接送って、最後の数段階を実施する。典型的なマスタリングの効果には、イコライゼーション、ダイナミックレンジ縮少、ピーク制限、音量正規化、ステレオ感の拡張、フェード編集、および単に楽曲を正しい順序に並び替えること等、音声信号の各種のプロセスが含まれる。
(9)位相反転:楽曲波形の各時間領域デジタル・サンプルに−1を乗ずるプロセス。マルチチャネル楽曲の場合、全チャネルに位相反転が適用される。
(10)ピッチ不変速度増加:ピッチに影響を及ぼすことなく楽曲の再生速度を上げるプロセス。
(11)ピーク制限:最大信号振幅を所定の閾値に制限するプロセス。
(12)音量正規化:音声ファイルのゲインを最大音量位置(またはサンプル)が最大レベルになるまで増大させるプロセス。
(13)ダイナミックレンジ縮小:音声のダイナミックレンジを縮小させるプロセス。ダイナミックレンジとは、音声の最弱または最小部分に対する最強または最大部分の比率であり、dB単位で測定される。
(14)イコライゼーション:周波数の相対的なバランスを変えて音声に所望の調声特徴を生成するプロセス。
【0036】
旧来のコンテンツを取扱可能とするために、原音生成時における作業が必要な、暗号化、透かし、またはタグ付与に基づくシステムは除外される。タグの単純な操作に対して堅牢なシステムとするために、タグ付与システムは除外される。これにより、要件の大半を満たす唯一の方法として音紋利用が残る。
【0037】
更なる要件は、1曲が完全な状態であり正確であることが保証されるよう1つの曲の全体がチェックされることにある。この要件の理由は以下の通りである。(1)楽曲の権利所有者またはアーティストが、必ず1曲の初めから終わりまで楽曲全体が配信されることを望む場合に品質を保証するため、そして(2)ネットワークを介して不法に楽曲を配信するための方策としての、素性を偽る試みに関係するなりすましを防止するためである。音紋が楽曲の一部、例えば先頭付近で採取されている場合、システムを欺こうとする者は先頭付近だけ合法な楽曲に入れ替えて残りに違法な楽曲を付加するかもしれない。
【0038】
本発明の更なる態様は、全ての曲の自動識別および認証である。
【0039】
上記の各態様は、未識別録音の少なくとも1つの部分から少なくとも1つの候補音紋を抽出して、当該少なくとも1つの候補音紋から導かれた少なくとも1つの値と複数の基準音紋のうちの少なくとも1つの基準音紋の値との合致を求めることにより録音を識別する方法により実現される。
【0040】
上記に続いて開示されるその他の態様および利点は、以下の明細書本文および請求項にて詳述する構造および動作に含まれている。尚、添付の図面を検索する場合において同一番号は同一部材を指示する。
【発明を実施するための最良の形態】
【0041】
本発明に従って楽曲固有の特徴(音紋)に基づく自動識別システムで実行されるステップは以下の通りである。特徴(要素)を選択し、特徴から音紋を作成し、データベースを検索し、プロセスを拡張して最適化する。音紋に使用する要素を選択する方法を図1Aに示し、本発明の実施形態に基づく要素の抽出手順を図1Bに示す。
【0042】
音紋に使用する要素を選択する例として、図1Aのテスト集合101は、10,000種の録音を集めたものである。テスト集合102は、各種操作により「チャネルの影響」が及ぼされた録音の集合である。「影響」の範囲を決める操作については先に述べた通りである。テスト集合および「影響」付きテスト集合の両方から候補となる要素(候補要素)が抽出され(103、104)、これらの要素が比較される(105)。操作の影響が一切現われない要素を選ぶことが理想的であるが、現実には所定の閾値との比較を行い(106)、差が閾値を超えない候補要素に対して更なるテストが行われる(107)。
【0043】
各種「影響」に対する変化の度合いが閾値を超えない範囲であれば、候補要素はサイズおよび抽出速度を基に更に選別される。音紋は好適には1秒未満で抽出され、音紋の最終的なサイズは好適には100バイト未満である。これら3個の基準を全て満たした要素が音紋に利用すべく検討され、一つでも基準を満足しない候補要素は除外される。
【0044】
音紋はこれらの要素を結合してできる。そして、値の量子化が試みられる。これは、各要素の値の連続区間をサンプリングし重なり合わない部分区間に分割し、各部分区間に離散的かつ一意的な値を割り当てるプロセスである。これが成功すれば、その後のデータベース検索が簡単に行える。しかしこれらの要素は音声への改変の影響を受けやすく、量子化すると音紋の精度が下がる課題がある。
【0045】
解決すべき別の問題は、音紋内の要素数をいくつにするのが最適かということである。生成できる一意的な音紋の数FPは、要素の個数nおよび各要素の離散値の個数eの関数として、
FP=en
により表される。
【0046】
レベル数e、要素数nを自由に組み合わせることができることを考えると、各々10レベルを有する3個の要素を含む音紋システムは最大103すなわち1000個の固有音紋(一意的な音紋)を有するであろう。eまたはnを増やすことにより、一意的な値の個数を増加させることは可能であろう。しかし、要素の個数を増やすと音紋のサイズが増大する。上述の理由により音紋のサイズは小さい方が望ましい。また、代表的な録音のサンプルにおいて検出されない要素が出ることが経験的に知られている。これは、単にeまたはnの値を増やしても音紋システムの能力が増すものではないことを意味する。また、値を連結してできるベクトルにより表わされたn次元超空間内における音紋同士が接触しないよう最小間隔を空けるための設定が必要なことが経験的にわかっている。
【0047】
従って、音紋作成プロセスの一部は、要件を最適に満たす要素の個数や値を決定することを含む。各々32,768個の値を有する30個の要素を使用すれば最大限2億個の音紋を与えることがわかる。
【0048】
データベースの検索をする際の課題は、基準音紋のデータベース(数百万ものエントリが含まれる)から合理的な時間内で候補となる音紋(候補音紋)に最も合致する音紋を得ることにある。2種の可能な方法として、完全一致検索および部分一致検索すなわちファジーマッチングがある。完全一致検索またはハッシュ・キー法は、拡張可能性(スケーラビリティ)、簡便性、かつ明確性(直接テーブル検索)により巨大なデータベースを検索するのに最適な方法である。しかし、完全一致検索を行うには、前に述べたように、各種の影響に対して音紋が完全に不変である必要があるが、分析の結果音紋は影響に対して不変ではなく、これを適用することができないことがわかった。
【0049】
別の方法は、影響に対する不変性をある程度(通常は相当な程度)有する音紋を作成して、部分一致検索すなわちファジーマッチングを利用することである。実用的なファジーマッチング・システムを実装するには2つの要件がある。すなわち、検索空間を取り扱い可能なサイズまで小さくする「知的な」戦略を立てることと、合致度の客観的な指標を決定することである。クエリー(問い合わせ)、トリガー(起動指示)、または候補音紋が与えられたとき、データベースにおける合致度を決定する必要が生じる。合致度の客観的な指標はスカラー値として定義され、合致するか否かの境界を形成する。
【0050】
システム性能に関するいくつかのテストが1000万個の擬似楽曲音紋のデータベースで行われた。しかし、実際の楽曲の音紋を用いたフルスケールの稼動系システムでなければ答えが得られないシステム性能の問題がいくつかある。このために世界の楽曲を代表する、実際の楽曲が100万曲分集められた。従ってこれ以外では不可能であった精度および性能のテストを行なうことが可能になった。続いてシステムの性能を(a)検索時間を短縮すべくデータベースに対して検索をかける音紋ベクトル内の要素の並び順を変えて、(b)検索時間を短縮すべくメモリ内で音紋のキャッシュを用いることにより最適化した。その結果得られた方法は、ファジーマッチングの持つ堅牢性および柔軟性と、完全一致検索の持つ速さが組み合わされて、ストリーミングされた楽曲の識別に適用することができる。
【0051】
以下に述べる本発明の実施例は、巨大なデータベースを高速検索し、各種のパラメータを調整することにより検索を最適化し、開始位置が不明な録音を識別するシステムを使用し、識別のために楽曲全体から音紋に用いる要素を抽出するものである。本発明の実施形態においては、コンテンツを識別するための部分一致検索と連続的な検索の速度を上げる完全一致検索とを組み合わせて用いる。
【0052】
デジタル・オーディオ・ファイルは、異なるエンコーダ、ビット・レート、およびサンプリング周波数に応じてさまざまなフォーマットで存在する。図1Bに示すように、好適には、音声信号を処理して全ての楽曲に共通かつ音紋抽出段階で容易に操作できるフォーマットにまとめる調整段階201が含まれている。信号調整段階201では、データのストリームを抽出し、無音部分を除去して、音紋の堅牢性を高めるための変換を実行する。
【0053】
調整段階の好適な方法では、各種の入力から、11,025Hzでサンプリングされたモノラル・アナログ波形を表わすデータのパルス・コード変調(PCM)ストリームを生成する。先頭からゼロを除去してゆき、初めて非ゼロのデータ点が3つ連続すれば、その最初の非ゼロデータ点が曲の開始位置と考えられる。抽出された区間は、開始位置から156,904個の連続するサンプルから成る。これは、ファイルの最初の14.23秒を形成する。サンプリング・レートおよびサンプルのサイズは、音紋の品質、データのサイズ、および抽出時間の適当な妥協点を表わす。
【0054】
本発明の別の実施例では、PCMストリームの異なる区間を抽出することができる。例えば、開始位置から第156,905番目のサンプルから始まり、次の156,904個の連続するサンプルを使用する区間である。
【0055】
本発明の更に別の実施形態において、楽曲の第二の区間が抽出される。例えば、開始位置後の最初の150,000個の連続するサンプル、および開始位置の30秒後の100,000個のサンプルの集合である。
【0056】
信号調整段階201ではまた、PCMストリームを変換して音紋の堅牢性を向上させるステップを含んでいてよい。好適な方法は、ヒストグラム等化を用いて制限に関する「影響」に対して音紋を堅牢にすることである。ヒストグラム等化は、画像のコントラストを強調すべく画像処理でよく用いられる。音声の制限とは、ヒストグラム等化と類似した操作で、各サンプル値を個々に別の値にマッピングするものであるある。制限を行う目的は、他は不変のままに異常値を抑制することにある。手順を図2に示す。PCMストリーム218の個々の音声サンプルが、所定の振幅範囲により区分けされた枠に配置され、ヒストグラム220が構成される。その結果得られたヒストグラムは、x軸に振幅、およびy軸に各枠のサンプル数を表わす。このヒストグラムは正規化されて、全ての枠の値の合計が単位値に等しくなる(222)。このように、ヒストグラムの各バー(横棒)は、その振幅でのサンプル出現の確率密度関数を表わす。確率密度関数を合算すると累積確率密度が生成される(224)。ヒストグラムが平坦である、すなわち各振幅でのサンプルの発生確率が等しい場合、結果として得られる累積確率曲線は単調になる。サンプルは、累積確率曲線が極力単調になるように再マッピングされ(226)、その結果再形成されたヒストグラムが得られる(228)。新しい値は、ヒストグラム等化された音声を表わすものとしてPCMストリームへ逆マッピングされる(230)。他の実施例では、ステップ226で非単調な形状への異なるマッピングを使用する。
【0057】
本発明の別の実施形態では、一定時間にわたり非常に広いダイナミックレンジを示すいくつかの楽曲サンプルを考慮する。例えば、クラシック楽曲では大音量区間の前に静かな区間があり得る。これに対応すべく、画像処理における局所コントラスト強調に似たプロセスを用いる。そして、ヒストグラム等化が、サンプルのより小さい部分区間に対して個別に適用される。大多数の部分区間は、自己相似となるであろう。サンプルに含まれる振幅が離散的である場合、部分区間の多くはいずれかの区間の内部に完全に包含されよう。サンプルがより緩やかで大規模な変動を持つ場合、部分区間の多くはその大規模変動の一部になるだけであろう。
【0058】
本発明の更に別の実施形態は周波数特性調整(イコライゼーション)の影響を考慮する。周波数特性調整、すなわちEQは、個別の周波数帯域の出力を増大または減衰させる方法である。音紋の主成分は各周波数帯域内の出力であるため、EQの量が大きい場合、音紋が変わる。帯域毎に正規化を行い信号を処理することにより、結果的に得られる音紋はEQに対する耐性が強化される。これにより、音紋を用いて周波数特性調整された楽曲を識別することが可能になる。好適な方法を図3に示すが、それらは以下の通りである。
(1)PCM音声ストリーム232の所与の15秒のサンプルから、フレームj234(約3秒)を抽出する。
(2)フレームのDCTを取得して(236)、同サイズの周波数帯域へ分割する(238)。好適な方法は32個の帯域を使用する。
(3)フレームjに対する各帯域iのDCT値をL1距離が1になるよう正規化する(240)。
(4)各帯域iの正規化済みDCT値の標準偏差を計算する(242)。この値は、時間−周波数行列X244の第(i,j)要素に対応する。
(5)約0.5秒のステップ・サイズを用いて上述の処理繰り返す(246)。
(6)行列Xから、わずかな信号の変動に極めて高感度な帯域を除去する(250)。好適な方法では帯域1、および帯域26〜32が除去される。
(7)フレーム毎に平均値を取ったものを並べてなる全帯域平均ベクトルplと帯域毎に平均値を取ったものを並べてなる全フレーム平均ベクトルp2を計算する(252)。
(8)p1およびp2を各々L1距離が1になるように正規化する(254)。
(9)正規化されたplおよびp2を連結してFPベクトルを形成する(256)。
【0059】
本発明の別の実施形態は以下の通りである。
(1)音紋抽出に用いられる音声の同じ部分を読み込む。
(2)各周波数部分帯域内のエンベロープを、音紋で用いられている形で抽出する。エンベロープの抽出は好適には4次バターワース・帯域通過フィルタにより実行される。
(3)各エンベロープ内のエンベロープのL1距離が単位値に等しいように各部分帯域内のエンベロープを正規化する。
(4)音紋を抽出する。
【0060】
本発明の更に別の実施形態においては、対角周波数領域の出力を用いる。これは、時間および周波数操作に伴う影響のどちらにも対抗する。その方法は以下の通りである。
(1)PCMストリームの所与の15秒のサンプルから、フレームj(約3秒)を抽出する。
(2)フレームのDCTを取得して、同サイズの周波数帯域へ(ここでは32個)に分割する。
(3)フレームjに対応する各帯域iのDCT値をL1距離が1になるように正規化する。
(4)各帯域iの正規化DCT値の標準偏差を計算する。この値は、時間−周波数行列Xの第(i,j)要素に対応する。
(5)約0.5秒のステップ・サイズを用いて上述の処理繰り返す。
(6)行列Xから、わずかな信号の改変に極めて高感度な帯域を除去する。(この場合、帯域1、および帯域26〜32に決定。)
(7)主対角およびXの両側の8個の非対角要素を取得してベクトルp1とする。
(8)反時計回りに90度回転させた行列Xについて(g)を繰り返してベクトルp2を得る。
(9)p1およびp2を各々L1距離が1になるように正規化する。
(10)正規化されたplおよびp2を連結してFPベクトルを形成する。
【0061】
時間周波数分解202により、信号調整段階201を経て出力されるPCM信号を時間領域から周波数領域に変換する。その際に選択されるパラメータは、(a)楽曲間のわずかな差異を検知する感度または能力を最適化し、(b)堅牢性を最適化、すなわち時間または周波数の圧縮および各種のコーデックにより生じる改変の影響を最小化し、(c)計算時間を最小化すべく選択されている。これは、時間と共に変動する信号を持続期間、すなわちある長さを有するフレームに切って(その際フレーム間に若干の重なりが生じる)、各フレームを周波数領域へ変換し、次いでフレームを帯域に分割する(帯域をまたがって若干の重なりが生じる)ものである。
【0062】
時間−周波数分解の方法の実施形態を図4に示す。32,768個の連続するサンプル(2.97秒)の各々の12個の重なり合うフレーム301〜312の第一フレーム301が集められて、離散コサイン変換(DCT)320を介して時間領域から周波数領域に変換されて、32,768個の周波数振幅ベクトルを生成する。結果的に得られる周波数解像度は、11,025/(2*32,768)=0.168Hz/サンプルである。結果的に得られる周波数領域ベクトルの一部が、帯域通過フィルタ322を介して、以下の帯域エッジ(Hz単位)により15個の周波数帯域へ分割される322。15個の周波数帯域は、0〜100、100〜200、200〜300、300〜400、400〜510、510〜630、630〜770、770〜920、920〜1080、1080〜1270、1270〜1480、1480〜1720、1720〜2000、2000〜2320、2320〜2700である。帯域に分割された周波数振幅のベクトル326〜337は、各時間に対応する成分が周波数振幅行列の列成分を形成する。
【0063】
32,768個のサンプルの次のフレーム302がデータから集められるが、156,904個のサンプルの元のシーケンスの上を14,264個(1.29秒)サンプル分シフトされている。DCT320およびフィルタリング322が反復されて、時間間隔における振幅の行列203の第二列327を与える。この動作は12回繰り返され、各々においてフレームの開始を14,264個のサンプル分シフトする。その結果、15行の周波数帯域(i)および12列の時間フレーム(j)を有する行列203が得られる。行列の各要素は、時間フレーム上の特定の周波数帯域における振幅の集まりである。各周波数帯域iにおける全てのフレームjについて、Ni個のDCT値が存在する。帯域には異なる帯域幅があるため、値Niは帯域により異なる。例えば、0から100Hzまでの帯域1は100/0.168=595個の値を含むが、2320から2700Hzの帯域15は380/0.168=2261つの値を含む。
【0064】
上述の帯域幅分割は、高周波数よりも低周波数の方が精密な解像度を有する。この理由は、人間は改変の有無にかかわりなく楽曲を識別するために低周波情報を用いることが実験上示されているためある。従って、このように生成された帯域から音紋に使用する要素を抽出すれば、人間が二つの楽曲が同一であると識別する方法を反映した結果を生み出しやすいであろう。
【0065】
本発明の別の実施形態において、32,768個のサンプルの周波数領域ベクトル全体をl9個の周波数帯域に分割し、19行12列の時間−周波数行列が得られる。帯域エッジ(Hz単位)は以下の通りである。0〜100、100〜200、200〜300、300〜400、400〜510、510〜630、630〜770、770〜920、920〜1080、1080〜1270、1270〜1480、1480〜1720、1720〜2000、2000〜2320、2320〜2700、2700〜3150、3150〜3700、3700〜4400、4400〜5300。
【0066】
本発明の更に別の実施形態は、32,768個のサンプルの周波数領域ベクトルを三オクターブ分の周波数帯域に分割し、結果的に27行12列の時間−周波数行列が得られる。あるいは、30,000個のサンプルの第一フレームとそれに続く重なりの無い30,000個のサンプルのフレームを用いてもよい。本発明の更に別の実施形態は、50%の重なりがあり、持続期間が1秒のフレームを用いる。本発明の他の実施例では、フレームは10%の重なりを有する周波数帯域か、または帯域のエッジ同士を統合すべく窓関数を用いる周波数領域に変換される。
【0067】
各時間フレームで周波数振幅の行列203を生じる任意の実施形態において、行列203は感度および堅牢性を最適化すべく何らかの正規化および/または尺度調整により時間−周波数行列204に変換される。好適な方法においては、特定の時間間隔で振幅を2乗にして合算する。この演算の結果、2乗された振幅の15個の和を要素とするベクトルが得られる。これは特定の時間で止めた時の信号における各帯域の出力を表わす。
【0068】
好適な実施例においては、時間−周波数行列204は行毎に異なる個数の値により算出される。従って、各列ベクトルの15成分は各行のDCT値(Ni)の数で除算することにより正規化される。例えば、帯域0〜100Hzは帯域595で除算されるが、帯域2320〜2700は帯域2261で除算される。
【0069】
本発明の別の実施形態は更なる正規化ステップを用いて、ファイルが受けたかもしれない任意の周波数特性調整の影響、および候補曲と登録曲の音量改変の影響を最小化する。この正規化は以下のように実行される。ここで用いる時間−周波数行列をM=[Mi、j]で表す。ここで、Mi,jは第jフレームの第i帯域のRMS出力値、i=1〜15は帯域番号である、j=1〜12はフレーム番号である。各ベクトル
【0070】
【数1】
Figure 2004536348
【0071】
は第i帯域12個のRMS出力値を保持している。
【0072】
ベクトル全体が次式を用いて尺度調整される。
【0073】
【数2】
Figure 2004536348
【0074】
時間−周波数行列204は本質的にスペクトログラムである。次のステップでスペクトログラムを、それを最もよく表わす最少個数の値にまで集約する。これを行なうには多数の方法があり、時間および周波数限界、主成分分析、特異値分解、および時間−周波数におけるスペクトログラムのモーメントなどが含まれる。
【0075】
好適な方法は、2個の限界値を使用するものである。その2個の限界値は、出力帯域(PB)として知られる各周波数帯域内の体表値のベクトル205、および標準偏差出力ウインドウ(STD PW)として知られる各周波数帯域内の分散のベクトル206である。
i個のDCT成分xkを有する帯域iのフレームjに関するPBの計算は次式による。
【0076】
PB(i)=sqrt[(sumj abs(xk))/12]]
ここでjはフレーム番号を表す。ある帯域のSTD PWは、その帯域に含まれるDCT値の2乗平均平方根のフレーム全体における標準偏差である。STD PWは、各フレームのDCT値の数により尺度調整される場合がある。
【0077】
本発明の別の実施形態では、周波数重心ベクトル(FCV)として知られている、各時間における周波数のベクトル208を用いる。FCVを計算するには、15帯域ではなく19帯域を用いるのが好適である。各列ベクトル
【0078】
【数3】
Figure 2004536348
【0079】
は、第j時間フレーム内の各帯域の19個のRMS出力値を保持している。19個の帯域は、帯域#1〜帯域#10の低帯域群、および帯域#11〜帯域#19の高帯域群に再分割される。2個の重心、すなわち低帯域グループの重心と高帯域グループの重心が生成される。重心を用いるこの方法は、開始位置が利用できない可能性のある楽曲、例えばストリーミング音声や楽曲のランダム区間を追跡する音紋認識システムの能力を向上させる。
【0080】
本発明の更に別の実施形態においては、主成分分析法を用いる。本方法において、最も代表的な成分が時間−周波数行列204から抽出される。Xが時間−周波数行列204を表わすとする。主成分分析法の理論により、Xは次式で与えられる。
【0081】
X=Σiσii ここでi=1、2、...
成分xiは行列Xの基本要素行列であり、値σiは各ブロックの重み(重要性)である。主成分とは全てのiについてσj≧σiであるような行列xjのことである。このアプローチは、時間−周波数行列204の最も重要な特徴を表す成分の最小組を探そうとするものである。その利点は、主成分の選択の仕方により、識別性と堅牢性のバランスを変えることができることである。
【0082】
本発明の更に別の実施形態において、主成分分析を適用した特定の例である特異値分解(SVD)を利用している。これは広く利用されており、更に集約された特徴集合が得られる。ここでの主な考え方は、基本要素行列はすべて階数が1であり、本質的に2個のベクトル(一方が時間(u)で他方が周波数(v))の外積で表されることである。xj=uvTがSVDにより得られた主成分である場合、時間−周波数行列と主成分とのL2距離が最小化される。音声音紋利用においてSVD方法を用いる利点は、時間領域(シフト、ピーク制限等)および周波数領域(イコライゼーション)で及ぼされた影響を隔離して、一意にFPを作成する際にこれら全ての影響の取り扱いを容易にすることである。
【0083】
本発明の更に別の実施形態において、帯域番号1〜19を使用するのではなく、異なる帯域値の重み付けに基づく周波数を用いることができる。一群の番号の重心は、それらの番号が提示される順序に依存しない場合がある。各帯域は例えば、その中心周波数または帯域幅、あるいはその帯域に固有な別のパラメータの組で表わすことができる。
【0084】
帯域番号1−19を使用する代わりに先に述べた重心の利用において、帯域の中心周波数または帯域幅あるいはその帯域を表わす何らかの量を用いることができる。帯域を示すのに連続番号を用いると、例えば帯域の順序が乱れた場合に問題が生じる恐れがある。重心は、C=(sumiif(xi))/sumii)と定義することができる。xiおよびf(xi)のPB値に番号1〜19を用いることができる。これは、xiの帯域iの中心周波数を用いるように変更してもよい。
【0085】
本発明の更に別の実施形態においては、周波数全体にわたる振幅の分散値が算出される。例えば、標準偏差周波数(STDF)として知られる周波数帯域全体にわたる分散のベクトル207である。フレームjのSTDF値は、その周波数帯域についてのDCTの2乗平均平方根値の周波数全体における標準偏差である。
【0086】
本発明の更に別の実施形態において、人間の聴覚の知覚モデルが作成される。知覚モデルの背景にある裏付けは人間の聴覚能力のシミュレーションである。時間および周波数領域の両方に関する音声信号の改変にかかわりなく、人間は楽曲が原音に一致するか判別できることがわかっている。音紋システムは効率的に個々の「影響」を取扱うことができるものの、信号が原音を極めて歪めたバージョンであるために起こる複合的な影響に対処することは相当困難である。さまざまな影響に対して音紋識別システムを堅牢にするための課題は、これらの影響が時間および周波数に対して局所化されているため、識別システムが感知しない点である。つまり、いずれか一つの影響を緩和すべく信号に何らかの大域的操作を適用すると、音紋に対して予期しない結果をもたらす。そこで、人間の耳のような簡単かつ近似的なモデルを用いて、これらの影響に堅牢な要素を信号から抽出することが目的である。このモデルは知覚モデルと呼ばれている。
【0087】
本発明は、入力サンプルの特定の有限なサンプルを用いるアルゴリズムを含む。好適な長さは入力信号の15秒のサンプルである。関係するステップを図5に示すとともに以下に述べる。
(a)15秒の音声サンプル501が窓関数を介して音声のフレームへ分割する(502)。その目的は、窓関数を用いてフレーム間の遷移を円滑にすることである。円滑化特性を有する任意の窓関数を用いることができる。窓関数の長さは用途に依存する。本用途の場合、ハミング窓hおよび0.1秒のフレーム持続期間を用いることができる。ここでの窓関数およびフレームの持続期間は、時間および周波数解像度と複雑さの間で最適なトレードオフを与える組み合わせとして実験的に決定されたものである。長さNのフレームの場合、信号フレームを抽出して、1点毎に以下に定義する窓関数をそれに乗算する。
【0088】
【数4】
Figure 2004536348
【0089】
(b)周波数重み付けの実施。窓関数が施された信号503のDCTに対し、耳モデル伝達関数A504を周波数スペクトルに適用する(1点毎の乗算)。これは本質的に、臨界可聴範囲(2000〜4000Hz)内の周波数fを拡張して人間が音を感じる方法をより良くモデル化することになる。この発想は、2個の信号の一方に改変が加えられているにも関わらず両方が同じに聞こえる場合、それらの周波数スペクトルは人間の臨界可聴範囲で互いに極めて近い可能性が高いということから来ている。この範囲の周波数スペクトル値の拡張は次式で与えられる。
【0090】
【数5】
Figure 2004536348
【0091】
(c)知覚的時間−周波数出力行列計算:
−DCT値を時間−周波数行列Xに保存する(505)。
−50%フレーム重なり(この場合0.05秒)を用いて前進することにより(a)、(b)を繰り返す(506)。
−XのDC成分を除外(平均信号強度に不変であるために)して(507)、瞬間出力(DCT値を2乗した強度)を計算して出力行列を得る(508)。
−出力行列から、時間−周波数小区間の合計出力を計算する(509)。例えば、カットオフ周波数を有する周波数について19個の臨界帯域[0;100;200;300;400;510;630;770;920;1080;1270;1480;1720;2000;2320;2700;3150;3700;4400;5300]および時間について15個の同サイズの帯域を用いて19×15出力行列を生成する。あるいは、19個の同サイズの帯域を用いて19×19出力行列を生成することができる。これは1秒間の非重なりフレームを用いることとは同じでない点に注意されたい。
−L1距離を用いて時間−周波数行列を正規化する(510)。
−19×15の行列において、3番目から17番目の臨界帯域のみ、および15個の時間帯域全てを保持する(511)。あるいは15×15行列の場合、3番目から17番目の臨界帯域および3番目から17番目の時間帯域だけを保持する(511)。3番目から17番目の臨界帯域は、人間の知覚的な可聴範囲を広げる。3番目から17番目の時間帯域を用いることにより、時間サンプルの開始と終了における時間情報を除外して歪曲の最小化を容易にする。これにより、時間−周波数行列Xfがより集約される(512)。好適な方法は15×15行列を用いる。
(d)出力行列Xfを対数尺度(底が10)に変換(513)して10倍する(すなわち10log10(Xf))と人間の音量モデリングが知覚音量のより良いモデルを与える(出力行列の値を正規化するのはこのためである。この結果、対数領域内の値域に関する境界を与える)。
(e)行列Xfから1つ以上のベクトル値を計算することにより音紋を生成する(514)。
【0092】
本発明の更に他の実施形態においては、時間−周波数帯域における出力を用いてシステムを時間および周波数領域における操作の組み合わせに対して堅牢にする。時間スペクトルまたは周波数スペクトルまたは2種のスペクトルの組み合わせを用いて音声を特徴付けることは普通である。しかし、時間−周波数帯域の連結出力の利用はあまり一般的でない。時間−周波数の連結出力を使用する背景には、音量正規化および周波数特性調整のような時間と周波数の両方における各種の影響に対して堅牢であるためには、とりわけ、時間および周波数の範囲で展開する領域全体にわたる出力を計算するのが有用だからである。様々な影響に堅牢であるための課題は、これらの影響が時間および周波数の領域に局所化されているのでシステムが分からない点にある。従って、いずれか一つの影響を緩和すべく信号に何らかの大域的操作を適用すると、音紋に予期しない結果が生じる。しかし、時間および周波数領域全体にわたって同時に平均化することにより、特定の時間フレーム(音量正規化で生じ得る)または周波数帯域(周波数特性調整で生じ得る)に影響を及ぼすいかなる要因もいくぶん緩和されるので、より広範な影響に対して性能が向上するであろう。
【0093】
時間−周波数出力行列Xfから出始して、行列に対する以下の演算が実行される。
(a)出力行列をL1距離が1になるよう正規化する。
(b)正規化された出力行列Xfを対数尺度(底が10)に変換して10倍する(すなわち10log10(Xf))(出力行列の値を正規化するのはこのためである。この結果、対数領域内の値域にわたり境界が得られる)。
(c)時間−周波数の連結出力を得る。
−対角時間−周波数領域(主対角要素とXfの主対角要素のいずれかの側の7個の非対角要素)の平均出力を半分にしたもの(これは対数領域のrms出力と同値である)を得る。この結果、各出力値が時間および周波数帯域のある領域に展開する15要素の出力ベクトルm1が得られる。
−半時計回りに90度回転させたXfについて上記を繰り返す。この結果、別の15要素出力ベクトルm2が得られる。この演算は、中心時間および周波数領域がmlおよびm2の両方で発生するため、それらをより強調する。
(d)ベクトルm1およびm2を各々L1距離が1になるように正規化し、正規化されたm1およびm2を連結してベクトルmを得るとともに、逆対数(10m)をとって30要素の音紋(FP)を生成する。
【0094】
この音紋は、L1距離と組み合わされた場合に最も良く機能する。板倉距離(後述)の利用を推奨するのはこの場合困難である。それは、本モデルがすでに幾何平均(対数領域の算術平均は時間−周波数領域の幾何平均に等しい)の概念を用いているからである。
【0095】
本発明の更に他の実施形態においては、ウェーブレットに基づく分析を用いて特徴が抽出される。ウェーブレットを用いて楽曲から直交成分を抽出すると、各成分は知覚的に関連する周波数帯域に属している。分割はウェーブレットに基づくフィルター・バンクに基づいている。特徴ベクトル値(音紋)は、これらの成分のそれぞれの出力百分率で表される。ウェーブレットを用いる利点は以下の通りである。(1)ウェーブレット分析は、信号周波数によるフィルタ窓関数を自然に適合させて信号成分(特に重要なもの)のより鮮明な状況を明らかにする。(2)ウェーブレット変換の計算が極めて効率的である。
【0096】
ウェーブレットに基づく音紋用の2種のアルゴリズムについて述べる。両者の目的は、信号の10段階2項離散ウェーブレット変換を得て、各レベルを別々に再構築することにより時間領域における10個の直交成分(これら10個の成分を合計すると元の信号が得られる)を得ることである。次いで、各成分の合計出力(各成分のサンプル値の2乗した大きさの合計)が計算されて、10個の成分全てにわたって合計出力により正規化した出力値の百分率が得られる。この処理は、順および逆2項ウェーブレット変換を利用して行われる。より速い方法としては、尺度により正規化されたウェーブレット係数等級値(スケーログラム値)から直接10個の成分各々の出力を計算することである。この方法を用いる根拠は、変換が直交かつユニタリであるため、時間領域からウェーブレット領域へ遷移する際に出力が維持され、かつスケーログラムはウェーブレット領域における出力の指標だからである。これが以下に示す方法である。
(1)適当なウェーブレット・フィルタ、h(ローパス)およびg(ハイパス)を選択する。
(2)所与の楽曲サンプルについて、一組の2項尺度Sの離散的直交2項ウェーブレット変換を決定する。
(3)Sの全ての尺度について、その尺度におけるウェーブレット係数の2乗平均平方根(rms)値を計算する。この値を尺度により正規化してスケーログラム値を与える(rms値を尺度Jにおける2Jで除算する)。
(4)L2距離(絶対値の2乗和の平方根)が1に等しくなるようにスケーログラム・ベクトルを正規化する。最終結果は、WavBandPowerIOAである。
【0097】
3曲の楽曲の3種類の改変に対する結果を図6A〜6Cに示す。各楽曲を3種類の方法で改変しても対応する3つの値351〜353は近接して重なり、又楽曲が異なれば、ベクトルも異なることが図6A〜6Cにそれぞれ示され、音紋利用技術として本方法が適していることが示される。
【0098】
代表値ベクトル205〜208の値は、検索時間および最終的な音紋の誤り率を最小化するように順序付けられ、重み付けられる(209)。好適な方法において、異なる楽曲間での識別能力が大きい順に要素が並べられる。その論理は、合計N個の特徴のうち最初のM個の要素を使えば、N個の特徴全部を用いる場合に比べて若干誤り率が大きいが、検索回数がはるかに少なくて済む。このように、残りの特徴を追加すればシステムの誤り率をゼロに近づけることはできるが、その分抽出および検索回数が増える。こうして、使用する要素と誤り率の間で最適なトレードオフを自由に選択できる。
【0099】
音紋内の全ての要素の順序を決定するために、音紋がその入力だけを含むと仮定して誤り率の総和(タイプ1+タイプ2)を計算する。本実施例において、音紋は30要素ベクトルであり、その最初の15要素が15個の異なる周波数帯域の出力帯域値であって、残りの15要素は同じ帯域の標準偏差出力ウインドウ値である。言い換えれば、重み付けの好適な方法は205と206の両方に重み1を、207と208に重み0を与える。音紋の値は、特定の周波数帯域に対応する全ての値をタプル(組)にまとめることで対にされ、結果的に15個のタプルが得られる。次いで各タプル(周波数帯域)の有効性が決定される。有効性の高いものから順に並べると帯域の順序は[1、2、3、4、5、6、7、9、13、8、15、12、11、10、14]である。これは、音紋内の要素の順序に変換すると、(1、16)、(2、17)、(3、18)、(4、19)、(5、20)、(6、21)、(7、22)、(9、24)、(13、28)、(8、23)、(15、30)、(12、27)、(11、26)、(10、25)、(14、29)となる。最初の6個の要素が番号順であるため、要素を番号順のままにして重み付き値を連結して最終音紋を生成することにより満足な性能が得られる。
【0100】
好適な実施例において、時間−周波数行列を処理することにより得られたベクトル205、206は、各々の個別要素が0〜32,768の範囲の整数になるように尺度調整される。Eが平均出力205のベクトルを表わし、PがRMS出力206の標準偏差のベクトルを表わし、eiとpiが対応する要素を表わす場合、尺度調整の式は以下で与えられる。
【0101】
【数6】
Figure 2004536348
【0102】
【数7】
Figure 2004536348
【0103】
最後に、2個のベクトルは連結されて、Eを最初に、Pを最後に置いた結果、音紋として用いられる30個の要素を有するベクトル210が得られる。
【0104】
本発明の別の実施例においては、2個の音紋を用いる。その理由は、情報が多いほど良い識別性能が得られるためである。しかし、検索速度を許容できる程度に維持するために、1つの基準音紋に入れることができる情報には制限がある。一方の音紋が他方に無い情報を含む(換言すれば、共通する情報が最小となる)ようにして2個の基準音紋を並列に用いることにより、検索速度を犠牲にすることなくより多くの情報を用いる利点が得られる方法を提供する。
【0105】
並列処理に用いる2個の基準音紋を生成する方法は2種類ある。どちらの方法もやり方こそ異なるが大体の場合において正しい結果が得られる。
(a)ミスマッチ(誤った合致)の可能性を減らすべく2個の音紋を共に用いる。この場合、マッチングが成立するには、候補音紋の第一の部分が所与の基準音紋の第一の部分と合致するとともに、候補音紋の第二の部分が同じ基準音紋の第二の部分と合致する必要があることを意味する。このように、音紋の第二の部分は、第一の部分の付録として第一の部分から得られた結論を補強するものである。こうすると、音紋の第二の部分は必ずしも第一の部分の情報に直交する情報を含む必要があるというわけではない。一例として、異なる周波数帯域内の出力の平均および標準偏差等、2種の異なる属性を音紋の2個の部分として利用することができる。別の例として、異なる周波数帯域内の出力の平均と重心を2個の音紋の部分として利用することができる。
(b)データベースに存在する楽曲が得られない可能性を減らすような個の音紋を別々に用いる。この場合、マッチングが成立するには、候補音紋の第一の部分だけが所与の基準音紋の第一の部分と合致するか、または候補音紋の第二の部分だけが基準音紋の第二の部分と合致するか、あるいは候補音紋の両方の部分がそれぞれ基準音紋と合致する(上述の(a)と同様)必要があることを意味する。候補音紋の第一の部分が所与の基準音紋の第一の部分と合致し、候補音紋の第二の部分が異なる基準音紋の第二の部分と合致した場合、どちらかの基準音紋が最短距離による一致として選択されるか、あるいはその候補に一致するものがないと判定される。このように、音紋の第二の部分が第一の部分を補完するものとして用いられる。この設定の特性により、音紋の2個の部分が互いに直交する情報を含むことが非常に重要である。
【0106】
一実施例において、時間限界および周波数限界を音紋の2個の部分として用いる。各部分が捉える情報は、全く異なる平面(次元)にある。別の実施例では、時間−周波数行列の主成分分析を用いて時間および周波数内の主成分を抽出して音紋の2個の部分を形成する。後者を行なう現実的な方法は、主成分時間ベクトルおよび主成分周波数ベクトルを直接生成する特異値分解(SVD)を利用して行われる。並行検索を設定する際に時間および周波数ベクトルを用いる背景理由は、時間ベクトルおよび周波数ベクトルの各々における時間領域での信号操作(例えば音量正規化)および周波数領域での信号操作(周波数特性調整)の影響を分離することである。これにより、これら2種の基本的な信号操作の影響が最小限になり、その結果識別確率が向上する。
【0107】
巨大なデータベース内で検索を実行する際の主なステップは、検索空間を分割して、距離に基づく合致度の客観的な指標を決定することである。候補音紋と、巨大なデータベースの全ての音紋の間の距離を計算するのは非現実的であるため、検索空間全体から候補となる音紋に正確に一致するものを含む部分集合を決定して、このように縮小された部分集合に対する距離を計算することが必要である。広義には、検索空間全体が重なり合わない領域に分割され、距離を用いて最適合致が決定できるような小さい集合に目標楽曲(候補音紋に正確に一致するもの)を分離する。
【0108】
この好適な方法は、範囲縮小検索(SRR)である。これは検索空間のN層ピラミッド構造化の原理を利用する。ここで、Nは音紋のサイズ(音紋の値の個数)である。ピラミッドの底層(レベル0)はデータベース内の全ての音紋を含み、最上層(レベルN)は合致する音紋である。中間の層はデータベース内のすべての音紋に対する部分集合に対応する。特に、ピラミッドの第J層はデータベース内の全ての音紋で構成されていて、該データベースの最初のJ個の成分が各々、候補音紋の最初のJ個の成分と所定の距離の範囲内にある。このように、ピラミッドの底部から最上部へ移動するにつれて検索空間内の音紋の個数が連続的に減少する。最上部では、候補音紋と層N内の音紋と間の距離を用いて最終結果が決定される点に注意されたい。最適合致のための距離(最短距離)が特定のカットオフ閾値より小さいければ、最適合致が成立したと決定される。
【0109】
ある種の音紋の場合、ピラミッドが低いために検索時間は短くて済むが、その他の場合、中間値が多くてピラミッドがより高いため検索時間が長くなる。「平坦な上部」を有するピラミッドでは、後述のL1距離による距離比較を行うと解が多すぎて効率的な検索を行なえない。誤検索の主な要因としては、ピラミッドを構築する際の規則の決定が最適でないこと、最終的なL1距離によるマッチングのカットオフ閾値の決定が不正確なこと、および/またはデータコラプション(破壊)がある。誤検索として、候補音紋が不正確な目標と合致して起こる偽肯定と、利用できる正確な目標が存在するにもかかわらず決して合致しないことで起こる偽否定がある。
【0110】
本発明の好適な実施例において用いる検索アルゴリズムは以下の通りである。
(1)音紋データの代表的なサンプルを用いて、距離を用いる場合の最適なカットオフ閾値Δを計算する。
(2)同じサンプルを用いて、SRR用の音紋の各値について閾値のベクトル[TI T2...TN]を計算する。
(3)最適合致を決定する距離が計算できるような最終集合の受容可能なサイズMを決定する。
【0111】
本アルゴリズムのフローチャートを7A、7Bに示す。候補音紋の第一の要素701が、全ての基準音紋の集合702の第一の要素に対して検索される。検索では、候補要素と所定の距離703内にある1ないし複数の基準要素を探す。この距離は、上述の閾値ベクトル [T1 T2・・・TN]に対応する。合致する要素(群)が無かった場合、検索は中止される(704)。合致する要素(群)があった場合、合致した個数が決定される(705)。合致した個数が、先にMで示した所定個数を超えた場合、候補音紋の第二の要素706が、第一の要素と合致した基準音紋の集合707に含まれる各音紋の第二の要素に対して比較される。合致する要素(群)があった場合(708)、合致の個数が決定される(709)。この要素毎の検索は、候補音紋の最後の要素710に達するまで続けられる。最後の要素710は、集合711の各音紋の最後尾の要素と距離が比較される。候補音紋の最後の先行する要素710が最後の基準音紋集合711の1つ以上と合致するものの(712)、合致した要素の個数が所定のサイズMより大きい場合(713)、検索は中止される(714)。先行要素のいずれかが基準要素のいずれとも合致しない場合も、検索が中止される(715、716)。
【0112】
候補音紋の特定の要素が合致して、合致した個数が所定の個数M未満である場合、合致した各基準音紋と候補音紋との距離を求める(717)。それらの距離のうち最短のものが決定され(718)、所定の閾値と比較される(719)。その最短距離が閾値未満である場合、対応する音紋が合致している音紋であると決定される(720)。最短距離が閾値を越える場合、候補音紋に合致する音紋はデータベースに存在しないと判定される(721)。
【0113】
より具体的には、本アルゴリズムは下記の通りである。
(1)候補音紋X=[x12・・・xN]が与えられ、最初の値がx1の距離T1の範囲内である音紋の集合S1を決定する。すなわち、S1={Y∈S0,|y1−x1|<T1}、ここでS0は音紋のデータベース全体、Y=[y12・・・yN]はS0に属する音紋ベクトル、および|y1−x1|は値y1とx1の絶対差である。
(2)この手順は最大N回繰り返される。j回目の繰り返しにおいて、集合Sj=[Y∈S(j-1),|yj−xj|<Tj]を決定する。
(3)size(Sj)<M ならば繰り返しから抜ける。
(4)ΦをSRR終了時点での要素の集合とする。
(5)Φが空集合の場合、返される合致要素は無い。
(6)Φが空集合でない場合、Φに含まれる全ての音紋についてXからの距離を計算する。Zが最短の音紋とする。
(7)ZとXの距離がΔ未満の場合、Zは合致音紋として返され、さもなければ合致するものはないことになる。
データベースの音紋で距離カットオフ閾値の範囲内にあるものが見つかった場合のみ合致要素が返される点に注意されたい。その他の場合は何も返されない。
【0114】
図8A、8Bに2つの候補音紋を示す。三角印は音紋値を表わし、丸印は音紋の各要素としが所定の距離内にあると判定される範囲を表わす。これらの距離は図7Aの703、708、および712に対応する。所定の距離内にあると判定される範囲は各々の要素毎に異なる。図8Aに、値が全て所定の距離内にあると判定される基準音紋を示す。この音紋は、図7Bの比較71において音紋合致と判定される。図8Bに、第一の要素が所定の距離にないと判定される候補音紋を示す。この音紋の場合第一の要素の後で検索が中止され、候補音紋がデータベースに存在しない旨をシステムが報告する。
【0115】
所与の空間を分割する別の方法はクラスタ分析を用いることである。この処理では、空間全体がいくつかのクラスタに分けられ、各々が管理可能な個数の音紋を含む。各クラスタには、候補音紋に(L1距離を用いて)合致すると判定される「リーダー」が割り当てられる。候補音紋が属するクラスタは、候補音紋に最短のリーダーがあると考えられる。単純な1階層型であれば、最適合致は選択されたクラスタに含まれる全ての音紋から決定される。より複雑な多階層型であれば、目標楽曲を(理想的には)含むクラスタが識別されるまで、最適なクラスタを決定するプロセスを数回繰り返すことが必要である。
【0116】
速度および実装しやすさの観点から、簡単かつ効果的な距離の使用が必要である。候補音紋ベクトルと基準音紋ベクトルの距離は通常、ベクトルの対応する値の「差」で構成される。この差は各種の方法で計算できる。これには「L1距離」と呼ばれるものも含まれ、上述のように、比較されている2個のベクトルの対応する要素の絶対差の合計である。つまり、
【0117】
【数8】
Figure 2004536348
【0118】
となる。ここで、FP1iは基準音紋の第i要素、およびFP2iは候補音紋の第i要素である。
【0119】
この種の距離計算は、要素毎の距離全てに等しく重み付けを行なう。従って、差が大きいと、最終合計に与える影響が大きい。特に、他の音紋要素と比べて大きい値を有する音紋要素間の差が大きければ、距離計算に大きな影響を及ぼす場合がある。しかし、相対的に見ると比較されている要素の値も同様に大きいために、その差は小さくなるであろう。
【0120】
音紋要素の元のサイズを考慮に入れて距離を相対的にし、音紋要素のサイズによりこのように重み付けてもよい。数学的には下記の通りである。
【0121】
【数9】
Figure 2004536348
【0122】
2個の音声音紋を比較するために重み付き絶対差の概念を適用するいくつかの方法がある。好適な実装方式は、算術平均と幾何平均の偏差を用いる。
【0123】
【数10】
Figure 2004536348
【0124】
総和記号(Σ)の後の第一の量は、基準および候補音紋の対応要素の比率の算術平均であり、第二の量は比率の幾何平均である。
【0125】
本発明の他の実施形態は、算術および幾何平均の対数を用いる。対数演算の底は任意である。
【0126】
【数11】
Figure 2004536348
【0127】
この例は自然対数を用いるが、例えば底が10や底が2のように他の底を用いても同様の結果が得られる。
【0128】
算術および幾何平均の対数を用いる上述の距離計算は、音声認識の分野において板倉距離として知られ、2個の発話音声の周波数スペクトル、または発話音声の自己回帰(AR)モデルの自己回帰(AR)係数を比較するために用いられる。板倉距離は、「発話信号mの線形予測係数の線スペクトル表現」(板倉文忠、米国音響学会ジャーナル、57、537(A)、1975年)に記載されている。好適な実施例において、この距離計算は2個の音紋ベクトルに適用されるが、これらは周波数スペクトルおよびAR係数以外の指標で構成されていてもよい。
【0129】
本実装方式を用いると、楽曲認識および周波数特性調整の影響に対する堅牢性においてL1距離よりも良い結果が得られる。一般に、性能が向上する理由は以下の通りである。
−比率(すなわち重み付き差)を用いることにより、誤り率が基準ベクトルに相対化して、差の計算を左右する1つの音紋値の影響が制限される。
−有効な比率は、候補音紋とほぼ同じ特徴形状を示す音紋を検出するのに役立つ。このようにして音紋間の「類似性」のより良い指標が得られ、従って候補音紋を正確な基準音紋とマッチングさせる可能性が向上する。
−人間は、音声の違いを対数尺度上で聞き分ける。対数を使用することにより、人間が音声を認識する仕方をより厳密に反映することができる。これは、例えば周波数特性調整等の処理を施された楽曲を、処理が施されていない楽曲と同じであると認識するのに役立ち、従って認識率が向上する。
【0130】
本発明の別の実施形態は、絶対値の合計、すなわちL1距離を用いる。L1距離は他の距離と比べたとき、2個の異なる音紋間での最長距離を与える。これは、音紋の識別能力を向上させるために極めて重要である。長さNのFP1とFP2が与えられたならば、それらの間のL1距離は、sumIabs(FP1(I)−FP2(I))、ここでI=1、2、..Nである。
【0131】
本発明の更なる実施形態は、L2距離(絶対値の2乗和の平方根)を用いる。長さNのFP1とFP2が与えられたならば、それらの間のL2距離は、sqrt(sumIabs(FP1(I)−FP2(I))2)、ここでI=1、2、..Nである。
【0132】
本発明のまた別の実施形態は、L∞距離(最大絶対値)を用いる。長さNのFP1とFP2が与えられたならば、それらの間のL∞距離は、maxIabs(FP1(I)−FP2(I))、ここでI=1、2、..Nである。
【0133】
検索パラメータを調整する目的は、検索有効性および検索速度を最適化することである。起こり得る誤検索が3種類ある。タイプ1の誤検索は、正しい音紋がデータベースに存在するが、検索は誤ったマッチング結果を返すものである。タイプ2の誤検索は、音紋がデータベースに存在するが、検索は合致失敗とするものである。タイプ1aの誤検索は、音紋がデータベースに存在しないが、検索は間違ったマッチング結果を返すものである。検索効率は、偽肯定すなわちタイプ1+タイプ1aの誤りと、偽否定すなわちタイプ2の誤りの間の所望のバランスとして規定される。誤りの総和を最小化することが望ましい場合がある一方、タイプ1またはタイプ2の誤りだけを最小化することが望ましい場合がある。L1カットオフ閾値やSRR閾値を変更したり、SRR用の音紋の順序を変えることにより調整が行なわれる。SRRの順序付けは、先の段落で既に述べた、音紋要素に対する順序付けと同じでよい。
【0134】
L1カットオフ閾値は、合致を決定する最終的な基準であり、従ってタイプ1およびタイプ2の誤りに直接影響を与える。閾値を高くするとは、タイプ1(タイプ1aを含む)誤りを増やす可能性があり、閾値を低くするとタイプ2の誤りを増やす可能性がある。
【0135】
本発明の好適な実施例において閾値は、楽曲の集合において楽曲内および楽曲間距離を計算することにより音紋の相対的な広がりに基づいて選択される。楽曲集合に含まれる楽曲は、全ての楽曲および全てのバリエーションを代表するものが選択される。全てのバリエーションに対し、正確な合致度(楽曲内距離)と最適な非合致度(楽曲間距離)の分布の積集合を求めると、タイプ1の誤検索を許容範囲内に抑えつつカットオフ閾値をどの程度大きく設定できるかを推測することができる。サンプリングされた楽曲に基づいて、好適な閾値は0.15と0.3の間であり、表1に示すように約5,447曲の録音のデータ集合を用いたテストにおいて特に0.30の場合にタイプ1、1a、および2の誤検索の和を最小にすることができる。図9A〜9Dに、4種のフォーマットで保存された5447曲のデータ集合における正確な合致および二番目に良い合致の分布を与える。最適な合致がデータベースに存在しない場合、二番目に良い合致が選択され、タイプ1aの誤りに寄与する。最適および二番目に良い合致の間の距離が重なり合う場合、時々二番目に良い合致が選択されてタイプ1を生じる場合がある。
【0136】
【表1】
Figure 2004536348
【0137】
ここでは、ユーザーはタイプ2の誤り率を1.5%以下までは許容すると仮定した。これに基づいて、タイプ1およびタイプ2の誤り率を最小化すべく0.25の閾値を選択した。データベースが巨大化するにつれて、タイプ1の誤り率が閾値を決定する際に最も重要な要因になる可能性が高いが、その理由は多次元空間に多くの音紋が存在するにつれてタイプ1の誤り率が相当な影響を受けるためである。タイプ2の誤り率は、データベースのサイズが大きくなっても受ける影響がはるかに小さく、顕著に増大する可能性は小さい。
【0138】
SRR閾値を選択する第一のステップは、SRR閾値ベクトルを計算する方法の決定である。本発明の好適な実施例において、音紋の全ての値について閾値は、音紋の各々の値に対するサンプル集合の全楽曲にわたって観測される値の範囲に基づいて設定されている。特に、サンプル集合内の全ての楽曲で、音紋ベクトルの値毎にその楽曲のバリエーション全体にわたり標準偏差が計算される。これにより距離が得られる。次いで音紋ベクトルの各要素の閾値は、その距離の倍数として設定される。好適な値を表2に示す。
【0139】
本発明の別の実施形態は、FP値の誤り率の標準偏差を用いるが、音紋内の全ての値の閾値は基準音紋と、そのバリエーションからの音紋との距離に基づいている。
【0140】
次に、閾値の尺度係数が決定される。SRRの検索時間は、Φ(図7Aの705)のサイズに正比例して増加する。許容可能な速度を実現するには、Φのサイズ(SRR検索後の要素の集合)は、極力小さくなければならない。SRR閾値を小さく設定すればΦのサイズが小さくなるが、空集合で終わる危険度が増し、結果的にタイプ2の誤り率が高くなる。従って、閾値の尺度係数を決定するプロセスは最適化プロセスである。
【0141】
好適な方法を実装する一つの仕方は、楽曲とそのバリエーションの集合を用いて、SRR閾値の関数として戻り値の平均個数をグラフ化することである。このようなグラフの例を図10Aに示す。誤りの総和(精度)とSRR戻り値の個数(速度)の間の最良なトレードオフを提供する点が選択されている。閾値が小さいほどSRR戻り値の個数が減って、検索時間が速くなるが、誤りの総和がより大きくなってしまう。図10Aのグラフは、FPの標準偏差が0.8を越えると戻り値の個数が急激な増加を示す。これは、閾値を0.8Tに設定すべきであることを意味する。ここで、TはFPのSTDを用いて計算した最適点であり、それを超えると範囲縮小検索(SRR)からの戻り値の平均個数が急激な増加を示す。
【0142】
別の方法では、選択された閾値を誤り率が下回るような点が選択される。図10Bに、標準偏差の比率に対する誤り率をグラフで示す。標準偏差が約0.4の箇所に屈折があり、これを閾値として選択できる。目標は、SRR戻り値の個数を許容限度以下に抑えつつ最小誤り率を与える値を選択することである。基本的に、効率は精度と速度の両方に基づいて判断される。精度と速度の間のトレードオフが、選択された閾値尺度係数に基づいて行なわれる。
【0143】
【表2】
Figure 2004536348
【0144】
基準音紋の(100万レコードを超える)巨大なデータベースを検索する際に、合理的な時間で候補音紋に対する最適合致を見つけることが課題である。考慮すべき2個の関連する方法がある。完全一致検索および部分一致検索すなわちファジーマッチングである。候補音紋が誘導効果の影響に左右されない場合、完全一致検索が適している。その結果得られる音紋をハッシュ・キーとして用いて、基準音紋のハッシュテーブルへ登録することができる。これは、その拡張性、簡便性、および明確性(直接テーブル検索)によって巨大なデータベースにおける検索の最適な方法である。しかし、コーデック、圧縮率、音声の影響および他の配信チャネルの影響により候補音紋は変化する。ハッシュテーブル検索の結果は2値であるため、すべて完全一致検索であるかそうでないかのいずれかである。候補音紋をわずかでも変化させると、その正確な基準音紋がデータベースに存在しなくなり、マッチングが失敗する。録音の全てのバリエーションを識別するには、各バリエーションの音紋がデータベースに存在しなければならない。多くの用途においてこれは非現実である。これは、例えば候補音紋の抽出に際して開始位置が変化するブロードキャスト・ストリームを監視するといった用途では不可能である。この種の音紋から、例えば値を量子化することによりハッシュ・キーを生成しようとすると、精度が低下してしまう。端的にいえば、完全一致検索は速いが柔軟性に欠ける。
【0145】
部分一致検索すなわちファジーマッチングは、候補音紋と基準音紋の距離または類似度を用いる。このように、基準音紋のわずかなバリエーションである別々の候補音紋であっても1つの基準音紋に帰着され、基準音紋を識別することができる。ファジーマッチング等において各候補音紋とデータベース内の全ての基準音紋との距離の計算を必要とする場合、大規模に検索を実行するのは現実的でない。上述のように、検索空間のサイズを取扱い可能なサイズにまで減らすスマートな検索方法がある。この技術を使えば規模の調整が可能になる。しかし、ファジーマッチングは完全一致検索ほど高速ではない。端的にいえば、柔軟性はあるが遅い。
【0146】
好適な実施例は、ファジーマッチングの識別能力とLRU(最長不使用)キャッシュを用いて実現される完全一致検索の速さとを組み合わせた技術を使う。LRUキャッシュは、ウェブ・ブラウザが使用するキャッシュと類似している。新規項目はキャッシュの最上位に配置される。キャッシュがサイズ制限を超えて肥大化すれば、最下位の項目を放棄する。アクセスされた項目は、最上位へ上げられる。最終結果として、頻繁にアクセスされる項目がキャッシュに残るようになる。
【0147】
典型的な音紋検索にかかる時間はリクエストを送信してからクライアント側で応答を受信するまでにかかる時間で測定され、通常は1〜2秒要する。サーバー・キャッシングを用いれば、後続の検索は、最初の検索の実行に要した時間の数分の一で済む。例えば、楽曲を最初に検索するのに0.764秒要した場合、同じ楽曲をその後検索する際は通常0.007秒程度しか要しないだろう。好適な実施形態において、サーバー・キャッシュは、最近リクエストされた約600,000曲の合計3000万種(各楽曲に平均500種のバリエーションがあることに基づく)の音紋バリエーションを保存している。
【0148】
音紋はデータベースへ送信される前に、識別のためにLRUキャッシュへ送信される。システム起動時は、全ての音紋がデータベース内で検索されるが、一度識別された音紋は、LRUへ格納される。キャッシュが満杯になり、大多数の候補音紋がLRUキャッシュ内で識別されるようになるとシステム速度は向上する。
【0149】
およそ20回に1回の検索は一意なバリエーションを求めるものであり、リクエスト・キャッシュが選択され、それ故にSRR検索を必要とする。20回のうち残り19回は、単純なキャッシュ検索で処理される。このアーキテクチャにより、データベース検索能力とハッシュ検索の速度を組み合わせることができる。
【0150】
好適な実施例は、図11に示す以下のシーケンスを用いる。
(1)候補音紋1500がシステムへ送信される。
(2)LRUキャッシュ1502に対して候補音紋と一致するものがないか検索される(1501)。
(3)候補音紋に対する完全一致検索が検出されなかった場合(1503)、データベース内で検索が開始される(1504)。
(4)データベース内で合致が検出されなかった場合(1505)、音紋がデータベースに存在しないことを示す応答が生成される(1506)。
(5)LRUまたはデータベース内で合致が検出された場合(1505)、合致した音紋が返される(1507)。
(6)データベース内で合致が検出された場合、合致した音紋をLRUキャッシュ1502に書き込む(1508)。
【0151】
本明細書で開示する方法およびシステムを用いて、ラジオ放送等の開始位置が不明な楽曲のストリームを識別することができる。ストリームを識別する2種の方法がある。一方法において、基準楽曲の曲全体から複数の音紋が抽出される。識別対象のストリームは一定間隔で抽出された音紋を有し、それらの候補音紋がデータベースから検索される。別の方法ではイベントまたはブレークポイントの堅牢な集合が原音内で識別され、音紋が抽出されてブレークポイント周辺の基準データベースに配置される。ブレークポイントは、音声操作に対して堅牢であって、抽出が容易であり、集中的なデータベース検索を必要としない単純な検索法による検知が可能な特徴を用いて検知される。ブレークポイントを用いる利点は、基準データベースに多くの音紋を格納する必要がなく、データベース検索量が少なくて済む点である。
【0152】
いずれの方法を用いても、ストリームを識別するには厳しい精度要件がシステムに課される。これは、データベースに格納される音紋が増えてデータベースへ送信される音紋が増えるためである。つまり、わずかな誤り率が膨大な誤検索をもたらす。
【0153】
複数の音紋を用いる発想は、ストリーム識別における非常に厳しい精度要件を満たす必要から生じている。ここでの主要な発想は、複数の音紋を用いる方が、1つの音紋だけを用いて生じるミスマッチ誤り(タイプ1およびタイプ1a)を減らすのに有用な点にある。すなわちマッチング結果に対し、1つの音紋だけでは得られない1段階上の確実性を加える。これは、放送音声と原音の間の時間が正確に揃うことが困難である放送(ストリーミング)音声の場合に適している。また、放送音声信号は往々にして原音CD音声の修正されたバージョンであることがある。
【0154】
複数の音紋に関して以下の2つの事実がある。
(1)候補音紋がいくつかの不定位置から抽出されるため、DB内の全楽曲の複数の音紋が異なる位置で採取される。DB内に複数の音紋が存在することにより、合致が検出される確率が向上する。その理由は、放送される部分は、音紋が採取されたDB内の楽曲の一部を含む可能性がより高いからである。これは、タイプ2の誤り率を減らすために重要である。
(2)候補音紋に対し複数の(連続する)マッチングが成立する条件を課す。ここでは、候補信号が一定の間隔またはフレームで音紋を取得される。各音紋は、音紋のDBに対してテストされる。そのように連続的ないくつかの音紋がDBの同じ楽曲に合致する場合だけマッチングが成立する。このアプローチが機能するのは2種の主要原理による。(a)フレームが小さい限り、音紋はフレーム毎にほとんど変化を示さない。(b)複数のマッチングを課すと、ミスマッチの可能性を減らし、タイプ1およびタイプ1aの誤り率を減らすのに有用である。
【0155】
ここで、複数音紋アプローチは検索方法であることを強調しておく。同じ音紋を用いた単一マッチング・アプローチで得られるものと比較すると、複数使う場合、所与の音紋を用いて得られる性能(誤り率に関する)を向上させるのに役立つ。その意味では、最終性能は使用する実際の音紋の有効性による制約を受ける。この方法は、「ラジオの影響」に対して堅牢に設計されている音紋と共に使用する場合にラジオ放送で最高の性能を発揮する。
【0156】
複数の連続的な合致基準を用いる背景は、[t0,t1]間の楽曲から得られた音紋は部分[t0,t1]の小近傍δにある同じ楽曲の音紋に合致する、すなわち、[(t0−δ),(t1−δ)]から[(t0+δ),(t1+δ)]から得られた候補の任意の部分がデータベース内の原音と合致する可能性が極めて高いことにある。
【0157】
ストリームを識別する一方法を図12に示し、以下に述べる。
(1)音紋1600のデータベースに「原音」楽曲の集合として公知のM個の一意な楽曲から取得した音紋を書き込む。これらは、楽曲のCDバージョンまたはラジオ放送から直接抽出された楽曲全体であってよい。音紋は通常、楽曲内で所定の一定間隔で取得され、各楽曲には1つ以上の音紋があってよい。DBのサイズは現在NMである。ここで、Nは楽曲毎に取得された音紋の個数である。
(2)ストリーム1601の任意の位置から開始して、全フレームについて音紋を抽出する(1602)。フレームは通常1〜5秒間である。好適な方法は長さ3秒のフレームを用いる。別の方法において、フレームの持続期間は、音紋の定常性に依存する。音紋が時間に対してほとんど変化しない場合にはより大きいフレームサイズが選択され、さもなければより小さいフレームサイズが選択される。ここで扱う音紋は少なくとも0.5秒までは堅牢であることがわかっているため、最小フレームは1秒が好適である。
(3)候補から抽出された音紋は、NM個の音紋のデータベース1600に対してマッチングされる(1603)。合致の判定に使用する距離は、指標としてL1距離、L2距離、板倉距離等、任意のものを用いてよい。
(4)マッチング不成立の場合(1604)、ストリームは識別されない(1605)。DB内で最も近い音紋が候補音紋の所定のある距離閾値以下に入っていればマッチングが成立する。
(5)1つ以上の音紋が合致した場合、追加基準が適用される(1606)。例えば、P個の連続的な候補音紋がDB内の同じ楽曲と合致した場合、マッチングが成立する。Pは検索パラメータであり、所望の誤り率と音紋の定常性の関数である。通常、1〜10の範囲にある。Pが大きいほどミスマッチの可能性は減るが、タイプ2の誤り率が許容範囲を超える恐れがある。
【0158】
図12に示す検索手順の上述の結果を図13A、13Bに示す。図13Aは、最短マッチを示す距離のグラフである。図13Bは、最短マッチに対応するデータベース内の楽曲IDである。垂直線は、データベースの音紋が抽出された基準楽曲における位置を示す。正確に合致したのは、119曲の中で番号50の楽曲である。距離をプロットすれば、データベースの音紋抽出に対応する位置で顕著な落下を示す。この挙動を利用して、ミスマッチの可能性を大幅に減らすことができる。
【0159】
ブレークポイントの検知/識別に用いる方法は、信号のウェーブレット分析に基づくものである。信号の連続ウェーブレット変換(CWT)は、信号を時間シフト(第一のサンプル位置から始まる信号の位置)と尺度(尺度は、ほぼ周波数の逆数であり解像度を制御する)で表現する。これは異なる時点における信号について周波数情報を提供する。わかりやすくするために、時間シフトをb、尺度をaで表わす場合と、CWTはaとbの関数になる。ある尺度a0と時間b0のCWT係数は、時間b0を中心に配置されたa0に対応する時間範囲の信号内で生じる差異を示す指標である。ここで、b0は第一のサンプル点から始まる入力信号のシフトである。このように、変動が大きいほど、CWT係数がより大きくなる。例えば、11025Hzでサンプリングされた信号の場合、尺度210(尺度を2のベキ乗で特定することは普通である)と時間シフト15000におけるCWT係数は、15000/11025=1.36秒を中心とし、210/11025=0.09秒の近傍範囲にある入力信号で起こる変動の指標である。
【0160】
CWTには、本発明に役立つ2種の重要な特性がある。
(1)CWT係数の等級は、信号の変化に直接関係する。信号が変化する位置には、変化に付随する周波数を通じてその位置において大きい値を有するCWT係数が関連付けられている。急速な(突然の)変化は滑らかな変化よりも高い周波数に対応する点に注意されたい。
(2)変化が実際に重要である(知覚的に顕著な)場合、ある範囲の尺度全体にわたり変化が持続する。ノイズ等、信号において孤立した変化は、CWT領域でも同様に孤立する傾向があり、ノイズの周波数に対応する尺度でのみ、大きい値が付与されたCWT係数として現れる。通常、楽曲信号には、ある期間持続する、それらの周囲のある近傍で感知され得る変化を持つ。この結果、そのような変化がその近傍範囲の尺度でCWT係数等級に反映されている。但し、これらの尺度の最も微細な(最も小さい)変化の実際の持続期間に対応する。
【0161】
重要なのは、全ての等級が異なる尺度をまたがって丁度同じ位置に並ぶ必要があるが、CWTが時間尺度表現であるため、上述の特性を組み合わせることにより、大きい値をとるCWT係数の等級が関心対象の尺度全体にわたり維持される前提で変化の正確な位置に(ある精度まで)焦点を合わせることが可能になる点である。
【0162】
ブレークポイントの計算に用いるアルゴリズムは上述のCWT特性に基づく。
実際の手順は以下の通りである。
(1)所与の楽曲の固定サンプルの場合、最適尺度の集合におけるCWTを計算する。変化を検知する簡便性と優れた性能を有するため、ハー(Haar)ウェーブレット変換を用いて係数を計算した。バッファサイズに対する現実的な制約を念頭に置いて、サンプル・サイズは5秒間に制限した。
(2)互いに重なる事のない小さなウインドウに対してCWT係数を2乗した等級、すなわち(c(a,b)2)を用いて出力の総和を計算する。選択されたウインドウのサイズは、決定されたブレークポイントの解像度を基本的に制限するが、総和はブレークポイントに堅牢性を与えるために必要である。
(3)全ての尺度について時間領域にわたり総和関数を正規化する。
(4)尺度全体にわたってこれらの正規化された関数の合計を計算する。
(5)固定サンプル全体にわたってこの合計の最大値の位置および値を識別する。
(6)最大値が所定の閾値より大きい場合、対応する位置はそのサンプル用のブレークポイントであると決定される。
【0163】
先のアルゴリズムの結果は、95曲の楽曲を用いてテストされた。楽曲のブレークポイントは最初に人間の耳により検知された。人間の検知に頼る根拠は、ブレークポイントが耳で検知できるならば、大部分の音声操作に対して影響を受けない可能性が高いことである。95曲の楽曲は、異なるビット率および異なるコーデックで符号化することにより音声操作を受けた後で.wavフォーマットに復元されてブレークポイント検知機能に挿入された。
【0164】
図14に、機械が抽出したブレークポイントと人間が抽出したブレークポイントを比較した結果を示す。機械が抽出したブレークポイントは、人間が抽出したブレークポイントの±0.5秒の範囲内で生じた場合に正確であるとみなされた。平均精度は95%を超え、何曲かの楽曲については100%の精度を有する。人工的な機械抽出ブレークポイントを除去した方が精度は高かった。アルゴリズムが5秒ごとブレークポイントを強制したため、人工的なブレークポイントが生成された。
【0165】
楽曲全体を識別する方法への応用がある。例えば、楽曲全体が存在して正確であることを保証するために楽曲全体を確認する必要がある。この種の検索を効率的に実施するためには小さい音紋が望ましい。楽曲全体を確認する必要がある理由は以下の通りである。
(1)品良保証:楽曲の権利所有者またはアーティストは、必ず楽曲全体が配信されることを望む。
(2)なりすまし防止:なりすまし、すなわち識別システムに偽の身元情報を提示する試みは、ネットワークを介して違法に楽曲を配信するために用いられる策である。音紋が楽曲の一部、例えば先頭部分から採取されている場合、システムに不正侵入しようとする者は違法な楽曲の出だしだけ合法な楽曲の出だしに付け替えるかもしれない。
【0166】
この種の検索を効率的に実施するために、小さい音紋が望ましい。楽曲全体をコンパクトに表わす方法を以下に述べる。本方法は、図15A,15Bに示す2段階の音紋利用アプローチを用いる。
(1)第1段階:楽曲全体1702用の音紋を生成する(1701)。これらの音紋の1つが主音紋として選択される(1703)。
【0167】
(a)好適な方法は、上述の時間−周波数分析を用いる。
【0168】
(b)別の方法は、上述のウェーブレットに基づく分析を用いる。
(2)第2段階:完全な基準楽曲音紋(プロファイル)を生成する。
【0169】
(a)各音紋と主音紋の間の距離を計算する(1704)。これらの距離の例を図15Bに示す。次いで音紋、その位置、および距離を1つのベクトルに連結することにより楽曲全体を表わす(1705)。上述の30要素からなる15秒間の音紋を用いて、全体で3分の楽曲を合計72バイトに圧縮可能であり、その構成は60バイト(音紋要素毎に2バイト)+1バイト(主音紋の位置)+11バイト(12個の音紋の各々と主音紋との間の11つの距離)。
【0170】
(b)別の方法は、例えば主音紋が抽出された部分とは異なる部分からの相対的な楽曲出力のような簡単な指標を用いて、これをプロファイル(特徴形状)として利用する。
本方法は次いで、主音紋をデータベース内の楽曲の主要識別子として利用する。次いで、完全な楽曲のプロファイルを用いて識別情報を検査して、楽曲全体を認証する。
【0171】
上述の方法は、多くの異なるタイプのシステム上に実装可能である。例えば、データベースは録音を再生する携帯装置に組み込まれても、またはインターネット経由で毎分数百の装置から受信される処理リクエストを処理する1つ以上のサーバー、あるいはその中間、例えばサーバーではなく単一のデスクトップ・コンピュータからアクセスされてもよい。またはインターネットではなくローカル・エリア・ネットワーク等からアクセスされてもよい。このようなシステムの基本構成のブロック図を図16に示す。プロセッサ1602は、上述の任意の方法を用いて、候補楽曲(群)または候補音紋(群)をl/O装置1604から受信して、これらを記憶装置1606に保持されているデータベースのレコードと比較する。データベース1606のレコードは、原録音、例えば著作権所有者からライセンスを受けた配信業者からのコンパクトディスクその他のデジタル音声ファイルから、あるいは原録音の複製から生成することができる。本発明に従い、基準録音として用いる原録音の複製とは異なるように変更されている原録音の複製を識別すべく、十分に堅牢な基準音紋を生成することができる。
【0172】
基準音紋の発生源にかかわらず、好適にはデータベース1606から読み出された音紋はRAM1608にキャッシュされる。識別検索の結果は、ディルプレイ装置1610にローカルに出力しても、またはI/O装置1604経由でネットワーク(図示せず)を介して遠隔装置(それが候補楽曲または候補音紋(群)を提供した/しなかったにかかわらず)へ送信されてもよい。RAM 1608および記憶装置1606、あるいは他の永久または着脱可能な記憶装置(図示せず)、例えば磁気および光ディスク、RAM、ROM等も、本発明の実行および配信に必要なプロセスとデータ構造を保存することができる。プロセスはまた、インターネット等のネットワークを介したダウンロードにより配信されることもできる。
【0173】
本発明の多くの特徴および利点は詳細な明細書から明らかであり、添付の請求項により本発明の真の概念および範囲に含まれるこのような特徴および利点を全て包含することを意図している。更に、当業者は各種の改良や変更を容易に考え付くであろうが、本発明を例示した構成や動作そのものに限定する意図は無く、従ってあらゆる適切な改良および均等物も本発明の範囲に含まれる。
【図面の簡単な説明】
【0174】
【図1A】本発明の一実施形態による音紋要素の試験手順のフロー図である。
【図1B】本発明の一実施形態による音紋生成手順のフロー図である。
【図2】音声ファイルのヒストグラム等化手順のフロー図である。
【図3】帯域毎の周波数特性調整手順のフロー図である。
【図4】図1Bの時間間隔で周波数振幅の行列を生成する時間−周波数分解のブロック図である。
【図5】聴取の知覚モデルに基づいて音紋を生成する手順のフロー図である。
【図6A】各々3種のバリエーションを有する3種の楽曲のウェーブレットに基づく音紋である。
【図6B】各々3種のバリエーションを有する3種の楽曲のウェーブレットに基づく音紋である。
【図6C】各々3種のバリエーションを有する3種の楽曲のウェーブレットに基づく音紋である。
【図7A】基準音紋のデータベースを検索する手順のフロー図である。
【図7B】基準音紋のデータベースを検索する手順のフロー図である。
【図8A】音紋の例の上に重ね合わせたSRR検索パラメータのグラフである。
【図8B】音紋の例の上に重ね合わせたSRR検索パラメータのグラフである。
【図9A】波形ファイル、ブレード128ファイル、ブレード32ファイル、およびfhg128kgのMP3ファイルにおけるマッチング寄与度の分布のグラフである。
【図9B】波形ファイル、ブレード128ファイル、ブレード32ファイル、およびfhg128kgのMP3ファイルにおけるマッチング寄与度の分布のグラフである。
【図9C】波形ファイル、ブレード128ファイル、ブレード32ファイル、およびfhg128kgのMP3ファイルにおけるマッチング寄与度の分布のグラフである。
【図9D】波形ファイル、ブレード128ファイル、ブレード32ファイル、およびfhg128kgのMP3ファイルにおけるマッチング寄与度の分布のグラフである。
【図10A】範囲縮小検索の効果のグラフである。
【図10B】範囲縮小検索の閾値の関数としての誤り総計(タイプ1+タイプ2)のグラフである。
【図11】候補音紋と基準音紋の間のファジーおよび完全一致検索を組み合わせる手順のフロー図である。
【図12】楽曲のストリームを識別すべく音紋を用いる手順のフロー図である。
【図13A】サンプル楽曲から毎秒1つの音紋を抽出することに基づく、最短マッチの距離のグラフである。
【図13B】図7Aにおける最短マッチに対応するデータベース内の楽曲IDのグラフである。
【図14】95曲の楽曲について機械抽出および人手抽出されたブレークポイント(精度)の合致度の百分率のグラフである。
【図15A】楽曲全体をコンパクトなベクトルとして表わす手順のフロー図である。
【図15B】図15Aに示す手順のグラフである。
【図16】本発明を実装するシステムの概略ブロック図である。

Claims (71)

  1. 録音を識別する方法であって、
    未識別録音の少なくとも1つの部分から少なくとも1つの候補音紋を抽出する抽出ステップと、
    前記少なくとも1つの候補音紋から得られる少なくとも1つの値と、複数の基準音紋のうちの少なくとも1つの基準音紋に含まれる少なくとも1つの値との間の合致を検索する検索ステップとを含むことを特徴とする録音識別方法。
  2. 請求項1において、
    前記検索ステップが、前記少なくとも1つの候補音紋から得られる値に基づく重みを用いて、前記少なくとも1つの候補音紋と前記少なくとも1つの基準音紋との間の少なくとも1つの重み付き絶対差を計算するステップを含むことを特徴とする録音識別方法。
  3. 請求項1において、
    前記抽出ステップに先立って、前記未識別録音の前記少なくとも1つの部分のダイナミックレンジを拡張するステップを更に含むことを特徴とする録音識別方法。
  4. 請求項3において、
    前記ダイナミックレンジを拡張するステップにより、前記未識別録音の前記少なくとも1つの部分に含まれる全てのサンプル値の出現確率がより均等にされることを特徴とする録音識別方法。
  5. 請求項1において、
    合致した候補音紋を、対応する基準音紋の識別子と共にキャッシュメモリに保存するステップと、
    新規音紋候補が前記合致した候補音紋として該キャッシュメモリに格納されているか否かを、該新規候補音紋を用いる前記検索ステップに先立って判定するステップと、を更に含むことを特徴とする録音識別方法。
  6. 請求項5において、
    前記新規候補音紋が前記合致した候補音紋として前記キャッシュメモリに格納されている場合、該新規候補音紋が、対応する基準音紋と合致することを示すステップと、
    該新規候補音紋を前記キャッシュメモリに追加して、前記キャッシュメモリにて前記対応する基準音紋の対応する識別子を前記新規候補音紋に関連付けるステップと、を更に含むことを特徴とする録音識別方法。
  7. 請求項1において、
    前記抽出ステップの結果、各候補音紋が所定の周波数範囲に所定個数の候補値を含むとともに各基準音紋が前記所定の周波数範囲に所定個数の基準値を含み、
    異なる周波数範囲に対応する候補値と基準値との間の選択的に重み付けられた差に基づいて各候補音紋が前記基準音紋の1つと合致するか否かを判定するステップを更に含むことを特徴とする録音識別方法。
  8. 請求項7において、
    中位周波数が高位および低位周波数よりも低く重み付けられた各周波数範囲における各周波数での出力の程度を表わす値を含むように前記候補音紋および前記基準音紋をそれぞれ生成するステップを更に含むことを特徴とする録音識別方法。
  9. 請求項1において、
    複数の周波数帯域の各々における出力を計算するステップと、
    各帯域内の出力の平均が所定の値に等しくなるように各帯域内の各周波数の出力を正規化するステップとを経て、各々の前記候補音紋および前記基準音紋が生成されることを特徴とする録音識別方法。
  10. 請求項1において、
    高周波数帯域よりも低周波数帯域においてより微細な解像度を用いて、複数の異なる周波数帯域の各々の内部で周波数分布を計算するステップを経て、各々の候補および基準音紋の生成ステップが生成されることを特徴とする録音識別方法。
  11. 請求項1において、
    前記抽出ステップで前記未識別録音の少なくとも1つの部分から、原音からの周波数変動の識別能力が低い第一の候補音紋と、原音からの振幅変動の識別能力が低い第二の候補音紋が抽出され、
    周波数変動の識別能力が低い第一の基準音紋および振幅変動の識別能力が低い第二の基準音紋を保存するステップと、
    前記第一の候補音紋を前記第一の基準音紋と、および前記第二の候補音紋を前記第二の基準音紋と比較するステップと、を更に含むことを特徴とする録音識別方法。
  12. 請求項11において、
    前記第一の候補音紋と前記第一の基準音紋との前記比較のために第一のプロセッサを用い、並行して前記第二の候補音紋と前記第二の基準音紋との前記比較のために第二のプロセッサを用いることを特徴とする録音識別方法。
  13. 請求項11において、
    前記第一の候補音紋と前記第一の基準音紋との前記比較の第一の結果を、前記第二の候補音紋と前記第二の基準音紋との前記比較の第二の結果と組み合わせて、前記第一および前記第二の音紋の両方に対応する前記第一および前記第二の基準音紋が保存されているか否かを判定することを特徴とする録音識別方法。
  14. 請求項1において、
    前記未識別録音の部分の持続期間が25秒未満であることを特徴とする録音識別方法。
  15. 請求項14において、
    前記未識別録音の部分の持続期間が少なくとも10秒であり、かつ20秒以下であることを特徴とする録音識別方法。
  16. 請求項1において、
    前記抽出ステップで、フレーム間を滑らかに遷移すべく時間で重み付けられた重なり合うフレームを用いて重み付き周波数スペクトルが取得され、
    前記検索ステップが、
    低域値よりも高域値を減衰させる知覚的出力尺度を用いて前記重み付き周波数スペクトルを変換済み周波数スペクトルに変換するステップと、
    前記変換済み周波数スペクトルから少なくとも1つの値を計算するステップと、を含む、ことを特徴とする録音識別方法。
  17. 請求項1において、
    前記抽出ステップが、各時間−周波数領域が時間フレームの少なくとも3つの範囲を包含し、周波数の少なくとも3つの範囲を包含するよう、前記未識別録音の部分を時間−周波数領域に分割するステップを含み、
    前記検索ステップが、
    少なくとも1つの中位時間および中位周波数領域を強調する重み付き時間−周波数領域を生成すべく前記時間−周波数領域を重み付けするステップと、
    前記重み付き時間−周波数領域を用いて少なくとも1つの値を計算するステップと、を含むことを特徴とする録音識別方法。
  18. 請求項1において、
    複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
    前記抽出ステップで一定の時間間隔で連続したフレームから複数の候補音紋が生成され、
    前記検索ステップで、単一の基準録音からの前記基準音紋と所定個数の前記連続したフレームから得られる前記候補音紋との間で合致が検出された場合のみ、前記未識別録音が前記単一の基準録音に対応するものとして識別されることを特徴とする録音識別方法。
  19. 請求項1において、
    複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
    前記抽出ステップで複数の候補音紋が生成されるとともに、
    前記検索ステップが、
    第一の候補音紋と、合致する可能性のある、見込み基準録音に対する前記基準音紋の1つとの間で第一の合致を検出するステップと、
    所定個数の合致が検出されるまで、前記未識別録音からの他の候補音紋と、前記見込み基準録音に対する前記基準音紋とを比較するステップを含むことを特徴とする録音識別方法。
  20. 請求項1において、
    複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含むとともに、
    合致が検出されない場合、前記検索ステップが基準音紋の全てを含むことを特徴とする録音識別方法。
  21. 請求項1において、
    基準録音に対する前記基準音紋を生成するステップを更に含み、該生成ステップが、
    各基準録音の所定の部分から主音紋を抽出するステップと、
    一定の時間間隔で基準録音から複数の副音紋を抽出するステップと、
    前記主音紋と前記複数の副音紋との距離指標を各々計算するステップと、
    前記距離指標に基づいて楽曲プロファイルを生成するステップと、
    前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、により行なわれることを特徴とする録音識別方法。
  22. 請求項1において、
    前記抽出ステップが、
    前記未識別録音の少なくとも1つの部分を周波数帯域に分離するステップと、
    前記周波数帯域の各々に対するパワースペクトルを計算するステップと、
    全ての前記パワースペクトルから少なくとも1つの値を計算するステップと、を含むことを特徴とする録音識別方法。
  23. 請求項22において、
    周波数帯域がウェーブレット解析に対応する1つのプロトタイプ・フィルタから得られるフィルタからの出力であることを特徴とする録音識別方法。
  24. 請求項23において、
    中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする録音識別方法。
  25. 請求項1において、
    基準録音に対して前記基準音紋を生成するステップを更に含み、該生成ステップが、
    各基準録音の所定の部分から主音紋を抽出するステップと、
    一定の時間間隔で基準録音から複数の副音紋を抽出するステップと、
    前記主音紋と前記複数の副音紋との基準距離指標を各々計算するステップと、
    前記基準距離指標に基づいて基準楽曲プロファイルを生成するステップと、
    前記基準録音に対する前記基準音紋として前記基準楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、によって行なわれ、
    前記抽出ステップで、初期候補音紋および前記初期候補音紋に続く複数の後続候補音紋が一定の時間間隔で生成され、
    前記検索ステップが、
    前記初期候補音紋を、前記基準録音に対する前記主音紋と比較するステップと、
    合致する可能性のある、見込み基準録音が検出された場合、前記初期候補音紋と前記複数の後続候補音紋までの候補距離指標を各々計算し、前記候補距離指標に基づいて候補楽曲プロファイルを生成し、前記候補楽曲プロファイルが前記見込み基準録音に対する前記基準楽曲プロファイルと所定の相関を有する場合のみ、前記未識別録音を前記見込み基準録音として識別することを特徴とする録音識別方法。
  26. 請求項25において、
    前記後続候補音紋の前記抽出ステップが完了する前に前記比較ステップが開始されることを特徴とする録音識別方法。
  27. 請求項1において、
    前記0候補音紋および前記基準音紋がそれぞれ少なくとも256個の値を有する要素を少なくとも5つ持つベクトルを含むことを特徴とする録音識別方法。
  28. 請求項27において、
    前記候補音紋および前記基準音紋がそれぞれ、65,536個以下の値を有する要素を最大38つ持つベクトルを含むことを特徴とする録音識別方法。
  29. 請求項28において、
    前記候補音紋および前記基準音紋が各々、長さが約16ビットである約30個の要素からなるベクトルを含むことを特徴とする録音識別方法。
  30. 請求項1において、
    前記抽出ステップで、単一の基準録音に対応する異なる複製であって、そのうちの少なくとも1つが前記抽出ステップに先立って変更されている前記異なる複製からそれぞれ複数の候補音紋が生成されることを特徴とする録音識別方法。
  31. 請求項30において、
    前記異なる複製の少なくとも1つが、時間領域での音響的影響、周波数領域での音響的影響、および信号圧縮スキームのうち少なくとも一つにより変更されていることを特徴とする録音識別方法。
  32. 未識別録音を識別すべく基準録音の基準音紋を生成する方法であって、
    各基準録音の所定の部分から主音紋を抽出するステップと、
    一定間隔のフレームで前記基準録音から複数の副音紋を抽出するステップと、
    前記主音紋と前記複数の副音紋との距離指標を各々計算するステップと、
    前記距離指標に基づいて楽曲プロファイルを生成するステップと、
    前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、を含むことを特徴とする録音識別方法。
  33. 未識別録音を識別すべく基準録音の基準音紋を生成する方法であって、
    各基準録音の所定の部分を複数の周波数帯域に分離するステップと、
    前期複数の周波数帯域について、各々パワースペクトルを計算するステップと、
    全ての前記パワースペクトルから少なくとも1つの値を計算するステップと、を含むことを特徴とする録音識別方法。
  34. 請求項33において、
    前記周波数帯域がウェーブレット解析に対応する1つのプロトタイプ・フィルタから得られるフィルタから出力されることを特徴とする録音識別方法。
  35. 請求項34において、
    中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする録音識別方法。
  36. 録音を識別する方法を実施する少なくとも1つのプログラムを保存している少なくとも1つのコンピュータ読み取り可能な媒体であって、
    未識別録音の少なくとも1つの部分から少なくとも1つの候補音紋を抽出する抽出ステップと、
    前記少なくとも1つの候補音紋から得られる少なくとも1つの値と、複数の基準音紋のうちの少なくとも1つの基準音紋の少なくとも1つの値との間の合致を検索する検索ステップと、を含む媒体。
  37. 請求項36において、
    前記検索ステップが、前記少なくとも1つの候補音紋から得られる値に基づく重みを用いて、前記少なくとも1つの候補音紋と前記少なくとも1つの基準音紋との間の少なくとも1つの重み付き絶対差を計算するステップを含むことを特徴とする媒体。
  38. 請求項36において、
    前記抽出ステップに先立って、前記未識別録音の少なくとも1つの部分のダイナミックレンジを拡張するステップを更に含むことを特徴とする媒体。
  39. 請求項38において、
    前記ダイナミックレンジの拡張ステップにより、前記未識別録音の少なくとも1つの部分に含まれる全てのサンプル値の出現確率がより均等にされることを特徴とする媒体。
  40. 請求項36において、
    合致した候補音紋を対応する基準音紋の識別子と共にキャッシュメモリに保存するステップと、
    新規候補音紋が前記合致した候補音紋として前記キャッシュメモリに格納されているか否かを、該新規候補音紋を用いる前記検索ステップに先立って判定するステップとを更に含むことを特徴とする媒体。
  41. 請求項40において、
    前記新規候補音紋が、前記キャッシュメモリに前記合致した候補音紋として格納されている場合、該新規候補音紋と、対応する基準音紋とが合致することを示すステップと、
    該新規候補音紋を前記キャッシュメモリに追加して、前記キャッシュメモリの前記新規候補音紋に、前記対応する基準音紋の対応する識別子を関連付けるステップとを更に含むことを特徴とする媒体。
  42. 請求項36において、
    前記抽出ステップの結果、各候補音紋が所定の周波数範囲に所定個数の候補値を含むとともに各基準音紋が前記所定の周波数範囲に所定個数の基準値を含み、
    異なる周波数範囲にて対応する候補値と基準値との間の選択的に重み付けられた差に基づいて各候補音紋が前記基準音紋の1つと合致するか否かを判定するステップとを更に含むことを特徴とする媒体。
  43. 請求項42において、
    中位周波数が高位および低位周波数よりも低く重み付けられた各周波数範囲における各周波数での出力の程度を表わす値を含むように前記候補音紋および前記基準音紋をそれぞれ生成するステップを更に含むことを特徴とする媒体。
  44. 請求項36において、
    複数の周波数帯域の各々における出力を計算するステップと、
    各帯域内の出力の平均が所定の値に等しくなるように各帯域内の各周波数の出力を正規化するステップとを経て、各々の前記候補音紋および前記基準音紋が生成されることを特徴とする媒体。
  45. 請求項36において、
    高周波数帯域よりも低周波数帯域においてより微細な解像度を用いて、複数の異なる周波数帯域の各々における周波数分布を計算するステップを経て、各々の前記候補音紋および前記基準音紋の生成ステップが生成されることを特徴とする媒体。
  46. 請求項36において、
    前記抽出ステップで前記未識別録音の少なくとも1つの部分から、原音からの周波数変動の識別能力が低い第一の候補音紋と、原音からの振幅変動の識別能力が低い第二の候補音紋が抽出され、
    周波数変動の識別能力が低い第一の基準音紋および振幅変動の識別能力が低い第二の基準音紋を保存するステップと、
    前記第一の候補音紋を前記第一の基準音紋と、および前記第二の候補音紋を前記第二の基準音紋と比較するステップとを更に含むことを特徴とする媒体。
  47. 請求項46において、
    前記第一の候補音紋と前記第一の基準音紋との前記比較のために第一のプロセッサが用いられ、並行して前記第二の候補音紋と前記第二の基準音紋との前記比較のために第二のプロセッサが用いられることを特徴とする媒体。
  48. 請求項46において、
    前記第一の候補音紋と前記第一の基準音紋との前記比較の第一の結果を、前記第二の候補音紋と前記第二の基準音紋との前記比較の第二の結果と組み合わせて、前記第一および前記第二の音紋の両方に対応する前記第一および前記第二の基準音紋が保存されているか否かが判定されることを特徴とする媒体。
  49. 請求項36において、
    前記未識別録音の部分の持続期間が25秒未満であることを特徴とする媒体。
  50. 請求項49において、
    前記未識別録音の部分の持続期間が少なくとも10秒であり、かつ20秒以下であることを特徴とする媒体。
  51. 請求項36において、
    前記抽出ステップで、フレーム間を滑らかに遷移すべく時間で重み付けられた重なり合うフレームを用いて重み付き周波数スペクトルが取得され、
    前記検索ステップが、
    低域値よりも高域値を減衰させる知覚的出力尺度を用いて前記重み付き周波数スペクトルを変換済み周波数スペクトルに変換するステップと、
    前記変換済み周波数スペクトルから少なくとも1つの値を計算するステップとを含むことを特徴とする媒体。
  52. 請求項36において、
    前記抽出ステップが、各時間−周波数領域が時間フレームの少なくとも3つの範囲を包含し、周波数の少なくとも3つの範囲を包含するよう、前記未識別録音の部分を時間−周波数領域に分割するステップを含み、
    前記検索ステップが、
    少なくとも1つの中位時間および中位周波数領域を強調する重み付き時間−周波数領域を生成すべく前記時間−周波数領域を重み付けするステップと、
    前記重み付き時間−周波数領域を用いて少なくとも1つの値を計算するステップと、を含むことを特徴とする媒体。
  53. 請求項36において、
    複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
    前記抽出ステップで一定の時間間隔で連続したフレームから複数の候補音紋が生成され、
    前記検索ステップで、単一の基準録音からの前記基準音紋と所定個数の前記連続したフレームから得られる前記候補音紋との間で合致が検出された場合のみ、前記未識別録音が前記単一の基準録音に対応するものとして識別されることを特徴とする媒体。
  54. 請求項36において、
    複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
    前記抽出ステップで複数の候補音紋が生成されるとともに、
    前記検索ステップが、
    第一の候補音紋と、合致する可能性のある、見込み基準録音に対する前記基準音紋の1つとの間で第一の合致を検出するステップと、
    所定個数の合致が検出されるまで、前記未識別録音からの他の候補音紋と、前記見込み基準録音に対する前記基準音紋とを比較するステップを含むことを特徴とする媒体。
  55. 請求項36において、
    複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含むとともに、
    合致が検出されない場合、前記検索ステップが基準音紋の全てを含むことを特徴とする媒体。
  56. 請求項36において、
    基準録音に対する前記基準音紋を生成するステップを更に含み、該生成ステップが、
    各基準録音の所定の部分から主音紋を抽出するステップと、
    一定の時間間隔で基準録音から副音紋を抽出するステップと、
    前記主音紋と副音紋との距離指標を各々計算するステップと、
    前記距離指標に基づいて楽曲プロファイルを生成するステップと、
    前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、により行なわれることを特徴とする媒体。
  57. 請求項36において、
    前記抽出ステップが、
    前記未識別録音の少なくとも1つの部分を周波数帯域に分離するステップと、
    前記周波数帯域の各々に対するパワースペクトルを計算するステップと、
    全ての前記パワースペクトルから少なくとも1つの値を計算するステップと、を含むことを特徴とする媒体。
  58. 請求項57において、
    周波数帯域がウェーブレット解析に対応する1つのプロトタイプ・フィルタから得られるフィルタからの出力であることを特徴とする媒体。
  59. 請求項58において、
    中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする媒体。
  60. 請求項36において、
    基準録音に対して前記基準音紋を生成するステップを更に含み、該生成ステップが、
    各基準録音の所定の部分から主音紋を抽出するステップと、
    一定の時間間隔で基準録音から複数の副音紋を抽出するステップと、
    前記主音紋と前記複数の副音紋との基準距離指標を各々計算するステップと、
    前記基準距離指標に基づいて基準楽曲プロファイルを生成するステップと、
    前記基準録音に対する前記基準音紋として前記基準楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、によって行なわれ、
    前記抽出ステップで、初期候補音紋および前記初期候補音紋に続く複数の後続候補音紋が一定の時間間隔で生成され、
    前記検索ステップが、
    前記初期候補音紋を、前記基準録音に対する前記主音紋と比較するステップと、
    合致する可能性のある、見込み基準録音が検出された場合、前記初期候補音紋と前記複数の後続候補音紋との候補距離指標を各々計算し、前記候補距離指標に基づいて候補楽曲プロファイルを生成し、前記候補楽曲プロファイルが前記見込み基準録音に対する前記基準楽曲プロファイルと所定の相関を有する場合のみ、前記未識別録音を前記見込み基準録音として識別することを特徴とする媒体。
  61. 請求項60において、
    前記後続候補音紋の前記抽出ステップが完了する前に前記比較ステップが開始されることを特徴とする媒体。
  62. 請求項36において、
    前記候補音紋および前記基準音紋がそれぞれ少なくとも256個の値を有する要素を少なくとも5つ持つベクトルを含むことを特徴とする媒体。
  63. 請求項72において、
    前記候補音紋および前記基準音紋がそれぞれ、65,536個以下の値を有する要素を最大38つ持つベクトルを含むことを特徴とする媒体。
  64. 請求項63において、
    前記候補音紋および前記基準音紋が各々、長さが約16ビットである約30個の要素からなるベクトルを含むことを特徴とする媒体。
  65. 請求項36において、
    前記抽出ステップで、単一の基準録音に対応する異なる複製であって、そのうちの少なくとも1つが前記抽出ステップに先立って変更されている前記異なる複製からそれぞれ、複数の候補音紋が生成されることを特徴とする媒体。
  66. 請求項65において、
    前記異なる複製の少なくとも1つが、時間領域での音響的影響、周波数領域での音響的影響、および信号圧縮スキームのうち少なくとも一つにより変更されていることを特徴とする媒体。
  67. 未識別録音を識別すべく基準録音の基準音紋を生成する方法を実施する少なくとも1つのプログラムを保存している少なくとも1つのコンピュータ読み取り可能な媒体であって、前記方法が、
    各基準録音の所定の部分から主音紋を抽出するステップと、
    一定間隔のフレームで前記基準録音から複数の副音紋を抽出するステップと、
    前記主音紋と前記複数の副音紋との距離指標を各々計算するステップと、
    前記距離指標に基づいて楽曲プロファイルを生成するステップと、
    前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップとを含むことを特徴とする媒体。
  68. 未識別録音を識別すべく基準録音の基準音紋を生成する方法を実施する少なくとも1つのプログラムを保存している少なくとも1つのコンピュータ読み取り可能な媒体であって、前記方法が、
    各基準録音の所定の部分を複数の周波数帯域に分離するステップと、
    前記複数の周波数帯域の各々に対するパワースペクトルを計算するステップと、
    全ての前記パワースペクトルから少なくとも1つの値を計算するステップと、を含むことを特徴とする媒体。
  69. 請求項68において、
    前記周波数帯域がウェーブレット解析に対応する1つのプロトタイプ・フィルタから得られるフィルタからの出力であることを特徴とする媒体。
  70. 請求項69において、
    中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする媒体。
  71. 録音を識別するシステムであって、
    複数の基準音紋を保存する記憶装置と、
    前記記憶装置に接続されており、未識別録音の少なくとも1つの部分から少なくとも1つの候補音紋を抽出するとともに、前記少なくとも1つの候補音紋から得られる少なくとも1つの値と、前記複数の基準音紋のうちの少なくとも1つの基準音紋に含まれる少なくとも1つの値との間の合致を検索するプロセッサと、を含むシステム。
JP2003514541A 2001-07-20 2002-07-22 録音の自動識別 Pending JP2004536348A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US30691101P 2001-07-20 2001-07-20
PCT/US2002/023101 WO2003009277A2 (en) 2001-07-20 2002-07-22 Automatic identification of sound recordings

Publications (1)

Publication Number Publication Date
JP2004536348A true JP2004536348A (ja) 2004-12-02

Family

ID=23187416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003514541A Pending JP2004536348A (ja) 2001-07-20 2002-07-22 録音の自動識別

Country Status (7)

Country Link
US (2) US7328153B2 (ja)
EP (1) EP1410380B1 (ja)
JP (1) JP2004536348A (ja)
KR (1) KR20040024870A (ja)
AU (1) AU2002346116A1 (ja)
DE (1) DE60236161D1 (ja)
WO (1) WO2003009277A2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049878A (ja) * 2003-07-29 2005-02-24 Lucent Technol Inc コンテンツ識別システム
JP2008015002A (ja) * 2006-07-03 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP2010530100A (ja) * 2007-06-06 2010-09-02 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
US8176118B2 (en) 2007-11-07 2012-05-08 Sony Corporation Server device, client device, information processing system, information processing method, and program
US8386925B2 (en) 2007-10-22 2013-02-26 Sony Corporation Information processing terminal device, information processing device, information processing method, and program
JP2013534645A (ja) * 2010-06-09 2013-09-05 アデルフォイ リミテッド オーディオメディア認識のためのシステム及び方法

Families Citing this family (306)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829368B2 (en) * 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
EP1314110B1 (en) 2000-08-23 2009-10-07 Gracenote, Inc. Method of enhancing rendering of a content item, client system and server system
US7890374B1 (en) 2000-10-24 2011-02-15 Rovi Technologies Corporation System and method for presenting music to consumers
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
EP1362485B1 (en) 2001-02-12 2008-08-13 Gracenote, Inc. Generating and matching hashes of multimedia content
US6993532B1 (en) 2001-05-30 2006-01-31 Microsoft Corporation Auto playlist generator
KR20040024870A (ko) 2001-07-20 2004-03-22 그레이스노트 아이엔씨 음성 기록의 자동 확인
EP1421521A2 (en) * 2001-07-31 2004-05-26 Gracenote, Inc. Multiple step identification of recordings
US20050010604A1 (en) * 2001-12-05 2005-01-13 Digital Networks North America, Inc. Automatic identification of DVD title using internet technologies and fuzzy matching techniques
US20030131350A1 (en) 2002-01-08 2003-07-10 Peiffer John C. Method and apparatus for identifying a digital audio signal
US7477739B2 (en) 2002-02-05 2009-01-13 Gracenote, Inc. Efficient storage of fingerprints
US7085675B2 (en) * 2002-02-06 2006-08-01 The University Of Chicago Subband domain signal validation
CA2483104C (en) * 2002-04-25 2011-06-21 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
US7824029B2 (en) 2002-05-10 2010-11-02 L-1 Secure Credentialing, Inc. Identification card printer-assembler for over the counter card issuing
KR20050003457A (ko) * 2002-05-16 2005-01-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 신호 처리 방법 및 장치
US7461392B2 (en) * 2002-07-01 2008-12-02 Microsoft Corporation System and method for identifying and segmenting repeating media objects embedded in a stream
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US7239981B2 (en) * 2002-07-26 2007-07-03 Arbitron Inc. Systems and methods for gathering audience measurement data
AU2003242916A1 (en) * 2002-07-26 2004-02-25 Koninklijke Philips Electronics N.V. Identification of digital data sequences
US20040034441A1 (en) * 2002-08-16 2004-02-19 Malcolm Eaton System and method for creating an index of audio tracks
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US7222071B2 (en) 2002-09-27 2007-05-22 Arbitron Inc. Audio data receipt/exposure measurement with code monitoring and signature extraction
ATE426297T1 (de) * 2002-09-30 2009-04-15 Gracenote Inc Fingerabdruckextraktion
JP2006505821A (ja) * 2002-11-12 2006-02-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋情報付マルチメディアコンテンツ
US8589505B2 (en) * 2002-11-27 2013-11-19 Texas Instruments Incorporated Method and apparatus for identifying and retrieving media content
KR20050106393A (ko) 2002-12-27 2005-11-09 닐슨 미디어 리서치 인코퍼레이티드 메타데이터를 트랜스코딩하는 방법 및 장치
US7091409B2 (en) * 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
US6973451B2 (en) 2003-02-21 2005-12-06 Sony Corporation Medium content identification
JP2006519452A (ja) * 2003-02-26 2006-08-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オ―ディオフィンガプリンティングにおけるデジタルサイレンスの処理
US7606790B2 (en) * 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
EP1457889A1 (en) * 2003-03-13 2004-09-15 Koninklijke Philips Electronics N.V. Improved fingerprint matching method and system
EP1634191A1 (en) * 2003-05-30 2006-03-15 Koninklijke Philips Electronics N.V. Search and storage of media fingerprints
MXPA05014162A (es) * 2003-06-20 2006-03-13 Nielsen Media Res Inc Aparato y metodos de identificacion de programa a base de firma para uso con sistemas de difusion digital.
US7359900B2 (en) * 2003-07-29 2008-04-15 All Media Guide, Llc Digital audio track set recognition system
EP1668903A4 (en) 2003-09-12 2011-01-05 Nielsen Media Res Inc DEVICES AND METHOD FOR DIGITAL VIDEO SIGNATURES FOR USE WITH VIDEO PROGRAM IDENTIFICATION SYSTEMS
EP1678707B1 (en) * 2003-10-21 2008-07-30 Philips Intellectual Property & Standards GmbH Intelligent speech recognition with user interfaces
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
WO2005050620A1 (en) * 2003-11-18 2005-06-02 Koninklijke Philips Electronics N.V. Matching data objects by matching derived fingerprints
WO2005079941A1 (en) 2004-02-17 2005-09-01 Nielsen Media Research, Inc. Et Al. Methods and apparatus for monitoring video games
US8229751B2 (en) * 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
EP1730105B1 (en) * 2004-02-26 2012-01-25 Mediaguide, inc. Method and apparatus for automatic detection and identification of broadcast audio or video programming signal
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
WO2005101243A1 (en) * 2004-04-13 2005-10-27 Matsushita Electric Industrial Co. Ltd. Method and apparatus for identifying audio such as music
US8688248B2 (en) * 2004-04-19 2014-04-01 Shazam Investments Limited Method and system for content sampling and identification
ITMI20040985A1 (it) * 2004-05-17 2004-08-17 Technicolor S P A Rilevamento automatico di soncronizzazione del suono
JP4135689B2 (ja) * 2004-06-29 2008-08-20 ソニー株式会社 プログラム、電子機器、データ処理方法および再生装置
EP2312475B1 (en) * 2004-07-09 2012-05-09 Nippon Telegraph and Telephone Corporation Sound signal detection and image signal detection
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
WO2006023770A2 (en) * 2004-08-18 2006-03-02 Nielsen Media Research, Inc. Methods and apparatus for generating signatures
GB0420464D0 (en) 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
US20060090020A1 (en) * 2004-10-08 2006-04-27 Time Trax Technologies Corporation Connector for satellite radio-computer interface
DE102004049457B3 (de) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
US7574451B2 (en) * 2004-11-02 2009-08-11 Microsoft Corporation System and method for speeding up database lookups for multiple synchronized data streams
DE602004024318D1 (de) * 2004-12-06 2010-01-07 Sony Deutschland Gmbh Verfahren zur Erstellung einer Audiosignatur
US20060155754A1 (en) * 2004-12-08 2006-07-13 Steven Lubin Playlist driven automated content transmission and delivery system
WO2006062064A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 楽曲処理装置
US7451078B2 (en) * 2004-12-30 2008-11-11 All Media Guide, Llc Methods and apparatus for identifying media objects
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US20060203733A1 (en) * 2005-02-17 2006-09-14 Casabyte, Inc. Methods, apparatuses, and articles to remotely test communications networks using digital fingerprints of content
US7647128B2 (en) * 2005-04-22 2010-01-12 Microsoft Corporation Methods, computer-readable media, and data structures for building an authoritative database of digital audio identifier elements and identifying media items
US20060242198A1 (en) * 2005-04-22 2006-10-26 Microsoft Corporation Methods, computer-readable media, and data structures for building an authoritative database of digital audio identifier elements and identifying media items
JP2006351002A (ja) * 2005-05-17 2006-12-28 Fuji Xerox Co Ltd 文書検証装置、文書検証方法およびプログラム
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US20070106405A1 (en) * 2005-08-19 2007-05-10 Gracenote, Inc. Method and system to provide reference data for identification of digital content
JP3913772B2 (ja) * 2005-08-24 2007-05-09 松下電器産業株式会社 音識別装置
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
US7774078B2 (en) * 2005-09-16 2010-08-10 Sony Corporation Method and apparatus for audio data analysis in an audio player
RU2451332C2 (ru) * 2005-10-17 2012-05-20 Конинклейке Филипс Электроникс Н.В. Способ и устройство для вычисления метрики подобия между первым вектором признаков и вторым вектором признаков
JP5329968B2 (ja) * 2005-11-10 2013-10-30 サウンドハウンド インコーポレイテッド 非テキストベースの情報を記憶し、検索する方法
ITMI20052196A1 (it) * 2005-11-16 2007-05-17 Eurisko Nop World S R L Metodo e sistema per la comparazione di segnali audio e l'identificazione di una sorgente sonora
WO2007070846A2 (en) * 2005-12-15 2007-06-21 Mediaguide, Inc. Method and apparatus for automatic detection and identification of broadcast audio or video signals
JP2007172138A (ja) * 2005-12-20 2007-07-05 Sony Corp コンテンツ再生装置、リスト修正装置、コンテンツ再生方法及びリスト修正方法
US20070162761A1 (en) 2005-12-23 2007-07-12 Davis Bruce L Methods and Systems to Help Detect Identity Fraud
US20090006337A1 (en) * 2005-12-30 2009-01-01 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified video signals
US20080027931A1 (en) * 2006-02-27 2008-01-31 Vobile, Inc. Systems and methods for publishing, searching, retrieving and binding metadata for a digital object
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US8495075B2 (en) * 2006-03-08 2013-07-23 Apple Inc. Fuzzy string matching of media meta-data
EP2001583A4 (en) * 2006-03-09 2010-09-01 Gracenote Inc METHOD AND SYSTEM FOR NAVIGATION BETWEEN MEDIA
US20070239675A1 (en) * 2006-03-29 2007-10-11 Microsoft Corporation Web search media service
US7772478B2 (en) * 2006-04-12 2010-08-10 Massachusetts Institute Of Technology Understanding music
US8156132B1 (en) 2007-07-02 2012-04-10 Pinehill Technology, Llc Systems for comparing image fingerprints
US9020964B1 (en) 2006-04-20 2015-04-28 Pinehill Technology, Llc Generation of fingerprints for multimedia content based on vectors and histograms
US8463000B1 (en) 2007-07-02 2013-06-11 Pinehill Technology, Llc Content identification based on a search of a fingerprint database
US7814070B1 (en) 2006-04-20 2010-10-12 Datascout, Inc. Surrogate hashing
US7840540B2 (en) * 2006-04-20 2010-11-23 Datascout, Inc. Surrogate hashing
US7991206B1 (en) 2007-07-02 2011-08-02 Datascout, Inc. Surrogate heuristic identification
US7801868B1 (en) 2006-04-20 2010-09-21 Datascout, Inc. Surrogate hashing
US8549022B1 (en) 2007-07-02 2013-10-01 Datascout, Inc. Fingerprint generation of multimedia content based on a trigger point with the multimedia content
US7774385B1 (en) * 2007-07-02 2010-08-10 Datascout, Inc. Techniques for providing a surrogate heuristic identification interface
CN101479936B (zh) * 2006-05-04 2013-03-27 意法爱立信有限公司 具有用于软切换操作的afc功能的接收机
KR100684457B1 (ko) * 2006-05-04 2007-02-22 주식회사 모빌리언스 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US7600094B1 (en) * 2006-06-30 2009-10-06 Juniper Networks, Inc. Linked list traversal with reduced memory accesses
MX2009000469A (es) * 2006-07-12 2009-05-12 Arbitron Inc Metodos y sistemas para confirmacion e incentivos de cumplimiento.
US20120245978A1 (en) * 2006-07-12 2012-09-27 Arbitron, Inc. System and method for determinimg contextual characteristics of media exposure data
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8707459B2 (en) 2007-01-19 2014-04-22 Digimarc Corporation Determination of originality of content
US8738749B2 (en) 2006-08-29 2014-05-27 Digimarc Corporation Content monitoring and host compliance evaluation
US8010511B2 (en) 2006-08-29 2011-08-30 Attributor Corporation Content monitoring and compliance enforcement
US9654447B2 (en) 2006-08-29 2017-05-16 Digimarc Corporation Customized handling of copied content based on owner-specified similarity thresholds
WO2008042953A1 (en) * 2006-10-03 2008-04-10 Shazam Entertainment, Ltd. Method for high throughput of identification of distributed broadcast content
EP1921577A1 (en) * 2006-11-10 2008-05-14 Yamaha Corporation Social networking system
JP5200392B2 (ja) * 2007-02-28 2013-06-05 ヤマハ株式会社 コンテンツ提供サーバ及びそのプログラム
US20080168051A1 (en) * 2007-01-08 2008-07-10 Palo Alto Research Center Incorporated Systems and methods for sharing information
GB2460773B (en) 2007-02-20 2010-10-27 Nielsen Co Methods and apparatus for characterizing media
US7979464B2 (en) * 2007-02-27 2011-07-12 Motion Picture Laboratories, Inc. Associating rights to multimedia content
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
US7949649B2 (en) * 2007-04-10 2011-05-24 The Echo Nest Corporation Automatically acquiring acoustic and cultural information about music
US8073854B2 (en) * 2007-04-10 2011-12-06 The Echo Nest Corporation Determining the similarity of music using cultural and acoustic information
US9554721B1 (en) * 2007-04-23 2017-01-31 Neurowave Systems Inc. Seizure detector, brain dysfunction monitor and method
US8458737B2 (en) 2007-05-02 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for generating signatures
US20080274687A1 (en) * 2007-05-02 2008-11-06 Roberts Dale T Dynamic mixed media package
WO2008145597A2 (en) * 2007-05-25 2008-12-04 Bang & Olufsen A/S A system and a method for providing events to a user
JP2009008823A (ja) * 2007-06-27 2009-01-15 Fujitsu Ltd 音響認識装置、音響認識方法、及び、音響認識プログラム
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
JP5341095B2 (ja) * 2007-10-05 2013-11-13 ドルビー ラボラトリーズ ライセンシング コーポレイション メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント
CA2705549C (en) 2007-11-12 2015-12-01 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8639510B1 (en) 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
CN102982810B (zh) 2008-03-05 2016-01-13 尼尔森(美国)有限公司 生成签名的方法和装置
US8443046B2 (en) 2008-03-19 2013-05-14 Clear Channel Management Services, Inc. Automated content delivery to distributed media outlets
US20090307207A1 (en) * 2008-06-09 2009-12-10 Murray Thomas J Creation of a multi-media presentation
WO2010011963A1 (en) * 2008-07-25 2010-01-28 The Board Of Trustees Of The University Of Illinois Methods and systems for identifying speech sounds using multi-dimensional analysis
US20100023328A1 (en) * 2008-07-28 2010-01-28 Griffin Jr Paul P Audio Recognition System
CN101960469B (zh) * 2008-10-20 2014-03-26 王强 快速特征码扫描
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US8508357B2 (en) * 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US8452586B2 (en) * 2008-12-02 2013-05-28 Soundhound, Inc. Identifying music from peaks of a reference sound fingerprint
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US20100198926A1 (en) * 2009-02-05 2010-08-05 Bang & Olufsen A/S Method and an apparatus for providing more of the same
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8060715B2 (en) * 2009-03-31 2011-11-15 Symantec Corporation Systems and methods for controlling initialization of a fingerprint cache for data deduplication
US8168876B2 (en) * 2009-04-10 2012-05-01 Cyberlink Corp. Method of displaying music information in multimedia playback and related electronic device
CA2760677C (en) 2009-05-01 2018-07-24 David Henry Harkness Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
WO2010135623A1 (en) * 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
WO2010138776A2 (en) * 2009-05-27 2010-12-02 Spot411 Technologies, Inc. Audio-based synchronization to media
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US9055335B2 (en) 2009-05-29 2015-06-09 Cognitive Networks, Inc. Systems and methods for addressing a media database using distance associative hashing
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US8620967B2 (en) * 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
FR2946820B1 (fr) * 2009-06-16 2012-05-11 Canon Kk Procede de transmission de donnees et dispositif associe.
US8738354B2 (en) * 2009-06-19 2014-05-27 Microsoft Corporation Trans-lingual representation of text documents
US20110015968A1 (en) * 2009-07-17 2011-01-20 Carlson Alan L Automated media and content reporting system for broadcast media
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
US20110041154A1 (en) * 2009-08-14 2011-02-17 All Media Guide, Llc Content Recognition and Synchronization on a Television or Consumer Electronics Device
US8401683B2 (en) * 2009-08-31 2013-03-19 Apple Inc. Audio onset detection
US20110069937A1 (en) * 2009-09-18 2011-03-24 Laura Toerner Apparatus, system and method for identifying advertisements from a broadcast source and providing functionality relating to the same
US8677400B2 (en) * 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US20110078020A1 (en) * 2009-09-30 2011-03-31 Lajoie Dan Systems and methods for identifying popular audio assets
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8521779B2 (en) 2009-10-09 2013-08-27 Adelphoi Limited Metadata record generation
US8245249B2 (en) 2009-10-09 2012-08-14 The Nielson Company (Us), Llc Methods and apparatus to adjust signature matching results for audience measurement
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8490131B2 (en) * 2009-11-05 2013-07-16 Sony Corporation Automatic capture of data for acquisition of metadata
US8594392B2 (en) * 2009-11-18 2013-11-26 Yahoo! Inc. Media identification system for efficient matching of media items having common content
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
US8810404B2 (en) * 2010-04-08 2014-08-19 The United States Of America, As Represented By The Secretary Of The Navy System and method for radio-frequency fingerprinting as a security layer in RFID devices
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9311395B2 (en) 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
EP2416317A1 (en) * 2010-08-03 2012-02-08 Irdeto B.V. Detection of watermarks in signals
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8584198B2 (en) 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
US8584197B2 (en) * 2010-11-12 2013-11-12 Google Inc. Media rights management using melody identification
US20120155663A1 (en) * 2010-12-16 2012-06-21 Nice Systems Ltd. Fast speaker hunting in lawful interception systems
US8700400B2 (en) * 2010-12-30 2014-04-15 Microsoft Corporation Subspace speech adaptation
CN102591864B (zh) * 2011-01-06 2015-03-25 上海银晨智能识别科技有限公司 比对系统中的数据更新方法及装置
US9093120B2 (en) 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US9380356B2 (en) 2011-04-12 2016-06-28 The Nielsen Company (Us), Llc Methods and apparatus to generate a tag for media content
US9002490B2 (en) * 2011-04-13 2015-04-07 Longsand Limted Methods and systems for generating frictionless social experience environment
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US20120294459A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals in Consumer Audio and Control Signal Processing Function
US20120294457A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
US8521759B2 (en) * 2011-05-23 2013-08-27 Rovi Technologies Corporation Text-based fuzzy search
EP2507790B1 (en) * 2011-06-06 2014-01-22 Bridge Mediatech, S.L. Method and system for robust audio hashing.
US9210208B2 (en) 2011-06-21 2015-12-08 The Nielsen Company (Us), Llc Monitoring streaming media content
US9209978B2 (en) 2012-05-15 2015-12-08 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US9098576B1 (en) * 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
US8831763B1 (en) * 2011-10-18 2014-09-09 Google Inc. Intelligent interest point pruning for audio matching
US8492633B2 (en) 2011-12-02 2013-07-23 The Echo Nest Corporation Musical fingerprinting
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
WO2013090416A2 (en) 2011-12-13 2013-06-20 Saudi Arabian Oil Company Electrical submersible pump monitoring and failure prediction
US8625027B2 (en) * 2011-12-27 2014-01-07 Home Box Office, Inc. System and method for verification of media content synchronization
US9332363B2 (en) 2011-12-30 2016-05-03 The Nielsen Company (Us), Llc System and method for determining meter presence utilizing ambient fingerprints
US9684715B1 (en) * 2012-03-08 2017-06-20 Google Inc. Audio identification using ordinal transformation
US8965766B1 (en) * 2012-03-15 2015-02-24 Google Inc. Systems and methods for identifying music in a noisy environment
WO2013140037A1 (en) * 2012-03-19 2013-09-26 P2S Media Group Oy Method and apparatus for reducing duplicates of multimedia data items in service system
JP5242826B1 (ja) * 2012-03-22 2013-07-24 株式会社東芝 情報処理装置及び情報処理方法
US9148738B1 (en) * 2012-03-30 2015-09-29 Google Inc. Using local gradients for pitch resistant audio matching
US8938089B1 (en) * 2012-06-26 2015-01-20 Google Inc. Detection of inactive broadcasts during live stream ingestion
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9282366B2 (en) 2012-08-13 2016-03-08 The Nielsen Company (Us), Llc Methods and apparatus to communicate audience measurement information
US9069849B1 (en) * 2012-10-10 2015-06-30 Google Inc. Methods for enforcing time alignment for speed resistant audio matching
KR101854815B1 (ko) * 2012-10-10 2018-05-04 광주과학기술원 분광장치 및 분광방법
ES2750635T3 (es) 2012-10-16 2020-03-26 Abbott Lab Método de aumento de la longitud de Debye sobre la superficie de un sensor dentro de una solución de muestra y el correspondiente medio de almacenamiento legible para una computadora
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9529907B2 (en) 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
WO2014108890A1 (en) * 2013-01-09 2014-07-17 Novospeech Ltd Method and apparatus for phoneme separation in an audio signal
US9313544B2 (en) 2013-02-14 2016-04-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9542947B2 (en) * 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
US9153239B1 (en) * 2013-03-14 2015-10-06 Google Inc. Differentiating between near identical versions of a song
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US20150039321A1 (en) 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US9350312B1 (en) * 2013-09-19 2016-05-24 iZotope, Inc. Audio dynamic range adjustment system and method
CN105684409B (zh) * 2013-10-25 2019-08-13 微软技术许可有限责任公司 在视频和图像编码和解码中使用散列值来表示各块
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9747368B1 (en) * 2013-12-05 2017-08-29 Google Inc. Batch reconciliation of music collections
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9323770B1 (en) * 2013-12-06 2016-04-26 Google Inc. Fingerprint merging after claim generation
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
CN103763586B (zh) * 2014-01-16 2017-05-10 北京酷云互动科技有限公司 电视节目互动方法、装置和服务器
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US9749762B2 (en) 2014-02-06 2017-08-29 OtoSense, Inc. Facilitating inferential sound recognition based on patterns of sound primitives
US10198697B2 (en) 2014-02-06 2019-02-05 Otosense Inc. Employing user input to facilitate inferential sound recognition based on patterns of sound primitives
WO2015120184A1 (en) * 2014-02-06 2015-08-13 Otosense Inc. Instant real time neuro-compatible imaging of signals
US9420349B2 (en) 2014-02-19 2016-08-16 Ensequence, Inc. Methods and systems for monitoring a media stream and selecting an action
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10567754B2 (en) 2014-03-04 2020-02-18 Microsoft Technology Licensing, Llc Hash table construction and availability checking for hash-based block matching
CA2939117C (en) 2014-03-04 2022-01-18 Interactive Intelligence Group, Inc. Optimization of audio fingerprint search
US9438940B2 (en) 2014-04-07 2016-09-06 The Nielsen Company (Us), Llc Methods and apparatus to identify media using hash keys
US9699499B2 (en) 2014-04-30 2017-07-04 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US10575126B2 (en) 2014-05-16 2020-02-25 Alphonso Inc. Apparatus and method for determining audio and/or visual time shift
CN105706450B (zh) 2014-06-23 2019-07-16 微软技术许可有限责任公司 根据基于散列的块匹配的结果的编码器决定
US20160005410A1 (en) * 2014-07-07 2016-01-07 Serguei Parilov System, apparatus, and method for audio fingerprinting and database searching for audio identification
US20160063021A1 (en) * 2014-08-28 2016-03-03 Futurewei Technologies, Inc. Metadata Index Search in a File System
US9548830B2 (en) 2014-09-05 2017-01-17 The Nielsen Company (Us), Llc Methods and apparatus to generate signatures representative of media
CN110582001B (zh) 2014-09-30 2022-10-14 微软技术许可有限责任公司 用于视频编码的基于散列的编码器判定
US9805099B2 (en) 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
US9704507B2 (en) 2014-10-31 2017-07-11 Ensequence, Inc. Methods and systems for decreasing latency of content recognition
AU2015355209B2 (en) 2014-12-01 2019-08-29 Inscape Data, Inc. System and method for continuous media segment identification
KR20160086680A (ko) * 2015-01-12 2016-07-20 한국전자통신연구원 오디오 신호 통신 방법 및 시스템
CA2973740C (en) 2015-01-30 2021-06-08 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10929464B1 (en) * 2015-02-04 2021-02-23 Google Inc. Employing entropy information to facilitate determining similarity between content items
GB2538043B (en) * 2015-03-09 2017-12-13 Buddi Ltd Activity monitor
WO2016151721A1 (ja) * 2015-03-23 2016-09-29 パイオニア株式会社 管理装置及び音響調整管理方法、並びに、音響装置及び楽曲再生方法
CN107949849B (zh) 2015-04-17 2021-10-08 构造数据有限责任公司 缩减大数据集中数据密度的系统和方法
US9762965B2 (en) 2015-05-29 2017-09-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
AU2016291674B2 (en) 2015-07-16 2021-08-26 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
CA2992319C (en) 2015-07-16 2023-11-21 Inscape Data, Inc. Detection of common media segments
WO2017011792A1 (en) 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc Prediction of future views of video segments to optimize system resource utilization
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
US10089987B2 (en) * 2015-12-21 2018-10-02 Invensense, Inc. Music detection and identification
US20170309298A1 (en) * 2016-04-20 2017-10-26 Gracenote, Inc. Digital fingerprint indexing
CN106910494B (zh) 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
US10403275B1 (en) * 2016-07-28 2019-09-03 Josh.ai LLC Speech control for complex commands
CN109997186B (zh) 2016-09-09 2021-10-15 华为技术有限公司 一种用于分类声环境的设备和方法
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10553238B2 (en) * 2016-11-18 2020-02-04 Microroyalties, LLC Crowdsourced noise monitoring systems and methods
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US11095877B2 (en) 2016-11-30 2021-08-17 Microsoft Technology Licensing, Llc Local hash-based motion estimation for screen remoting scenarios
JP7118998B2 (ja) 2017-04-06 2022-08-16 インスケイプ データ インコーポレイテッド メディア視聴データを使用してデバイスマップの精度を改善させるためのシステムおよび方法
US11520610B2 (en) * 2017-05-18 2022-12-06 Peloton Interactive Inc. Crowdsourced on-boarding of digital assistant operations
US11056105B2 (en) 2017-05-18 2021-07-06 Aiqudo, Inc Talk back from actions in applications
US11340925B2 (en) 2017-05-18 2022-05-24 Peloton Interactive Inc. Action recipes for a crowdsourced digital assistant system
US11043206B2 (en) 2017-05-18 2021-06-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
US10762347B1 (en) 2017-05-25 2020-09-01 David Andrew Caulkins Waveform generation and recognition system
US11418858B2 (en) 2017-09-01 2022-08-16 Roku, Inc. Interactive content when the secondary content is server stitched
US11234060B2 (en) 2017-09-01 2022-01-25 Roku, Inc. Weave streaming content into a linear viewing experience
US10761802B2 (en) * 2017-10-03 2020-09-01 Google Llc Identifying music as a particular song
US10629213B2 (en) 2017-10-25 2020-04-21 The Nielsen Company (Us), Llc Methods and apparatus to perform windowed sliding transforms
US10733998B2 (en) * 2017-10-25 2020-08-04 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to identify sources of network streaming services
US11049507B2 (en) 2017-10-25 2021-06-29 Gracenote, Inc. Methods, apparatus, and articles of manufacture to identify sources of network streaming services
US10726852B2 (en) 2018-02-19 2020-07-28 The Nielsen Company (Us), Llc Methods and apparatus to perform windowed sliding transforms
US10409915B2 (en) 2017-11-30 2019-09-10 Ayzenberg Group, Inc. Determining personality profiles based on online social speech
JP7108127B2 (ja) * 2018-08-21 2022-07-27 ザ プロクター アンド ギャンブル カンパニー 毛穴の色を特定する方法
FR3085785B1 (fr) * 2018-09-07 2021-05-14 Gracenote Inc Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation
CN110379436A (zh) * 2019-06-14 2019-10-25 东南大学 一种基于dwt-dct-svd的信息隐藏方法
US10825460B1 (en) * 2019-07-03 2020-11-03 Cisco Technology, Inc. Audio fingerprinting for meeting services
CN110503961B (zh) * 2019-09-03 2023-03-14 北京字节跳动网络技术有限公司 音频识别方法、装置、存储介质及电子设备
JP7436708B2 (ja) 2020-05-08 2024-02-22 ザ プロクター アンド ギャンブル カンパニー 樹状毛穴を識別するための方法
US11202085B1 (en) 2020-06-12 2021-12-14 Microsoft Technology Licensing, Llc Low-cost hash table construction and hash-based block matching for variable-size blocks
US11798577B2 (en) 2021-03-04 2023-10-24 Gracenote, Inc. Methods and apparatus to fingerprint an audio signal
WO2024081785A1 (en) * 2022-10-12 2024-04-18 Sameer Kumar Digital audio measurement systems and method

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3919479A (en) * 1972-09-21 1975-11-11 First National Bank Of Boston Broadcast signal identification system
DE2536640C3 (de) * 1975-08-16 1979-10-11 Philips Patentverwaltung Gmbh, 2000 Hamburg Anordnung zur Erkennung von Geräuschen
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
SE8106186L (sv) * 1981-10-20 1983-04-21 Hans Olof Kohler Forfarande och anordning for att bestemma en analyssignals overenstemmelse med minst en referenssignal
US4450531A (en) * 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
JPS6095648A (ja) 1983-10-28 1985-05-29 Fujitsu Ltd 仮想fba擬似処理装置
US4697209A (en) * 1984-04-26 1987-09-29 A. C. Nielsen Company Methods and apparatus for automatically identifying programs viewed or recorded
AU576251B2 (en) * 1984-08-31 1988-08-18 Tachikawa Spring Co. Ltd. A rotation adjusting apparatus
US4677466A (en) * 1985-07-29 1987-06-30 A. C. Nielsen Company Broadcast program identification method and apparatus
US4739398A (en) * 1986-05-02 1988-04-19 Control Data Corporation Method, apparatus and system for recognizing broadcast segments
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US4931871A (en) * 1988-06-14 1990-06-05 Kramer Robert A Method of and system for identification and verification of broadcasted program segments
JPH03240100A (ja) 1990-02-19 1991-10-25 Nec Corp マルチパルス型音声符号復号化装置
JPH03245244A (ja) 1990-02-23 1991-10-31 Kyocera Corp 電子出版メディアの訂正情報書込み装置
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
GB2262992B (en) * 1990-06-21 1995-07-05 Reynolds Software Inc Method and apparatus for wave analysis and event recognition
US5262940A (en) * 1990-08-23 1993-11-16 Lester Sussman Portable audio/audio-visual media tracking device
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
JP2763082B2 (ja) 1992-04-01 1998-06-11 国際電信電話株式会社 プリペイドカード残金額・残度数集中管理装置
US5436653A (en) * 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5437050A (en) * 1992-11-09 1995-07-25 Lamb; Robert G. Method and apparatus for recognizing broadcast information using multi-frequency magnitude detection
JP3743453B2 (ja) * 1993-01-27 2006-02-08 セイコーエプソン株式会社 不揮発性半導体記憶装置
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
US5581658A (en) * 1993-12-14 1996-12-03 Infobase Systems, Inc. Adaptive system for broadcast program identification and reporting
US5719926A (en) * 1994-06-10 1998-02-17 Communications Product Development, Inc. Prepaid long-distance telephone service system with flexible operating parameters
US5539635A (en) * 1994-07-19 1996-07-23 Larson, Jr.; Ernest J. Radio station program identifier and distribution system
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
US6560349B1 (en) 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
JPH08241554A (ja) 1995-03-05 1996-09-17 Nakamichi Corp ディスク移送装置
US5616876A (en) * 1995-04-19 1997-04-01 Microsoft Corporation System and methods for selecting music on the basis of subjective content
JP3307156B2 (ja) * 1995-04-24 2002-07-24 ヤマハ株式会社 音楽情報分析装置
US6408331B1 (en) 1995-07-27 2002-06-18 Digimarc Corporation Computer linking methods using encoded graphics
US6829368B2 (en) 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US7562392B1 (en) 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
JP3196604B2 (ja) * 1995-09-27 2001-08-06 ヤマハ株式会社 和音分析装置
US5693903A (en) * 1996-04-04 1997-12-02 Coda Music Technology, Inc. Apparatus and method for analyzing vocal audio data to provide accompaniment to a vocalist
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6088455A (en) * 1997-01-07 2000-07-11 Logan; James D. Methods and apparatus for selectively reproducing segments of broadcast programming
US5986692A (en) * 1996-10-03 1999-11-16 Logan; James D. Systems and methods for computer enhanced broadcast monitoring
US5999689A (en) * 1996-11-01 1999-12-07 Iggulden; Jerry Method and apparatus for controlling a videotape recorder in real-time to automatically identify and selectively skip segments of a television broadcast signal during recording of the television signal
US6034925A (en) * 1996-12-02 2000-03-07 Thomson Consumer Electronics, Inc. Accessing control method for identifying a recording medium in a jukebox
US6058300A (en) * 1997-02-04 2000-05-02 National Telemanagement Corporation Prepay telecommunications system
US5987525A (en) * 1997-04-15 1999-11-16 Cddb, Inc. Network delivery of interactive entertainment synchronized to playback of audio recordings
US6226672B1 (en) 1997-05-02 2001-05-01 Sony Corporation Method and system for allowing users to access and/or share media libraries, including multimedia collections of audio and video information via a wide area network
JP3765171B2 (ja) * 1997-10-07 2006-04-12 ヤマハ株式会社 音声符号化復号方式
US6070067A (en) * 1997-10-31 2000-05-30 Telefonaktiebolaget Lm Ericsson Prepayment method utilizing credit information stored in mobile terminals for accessing wireless telecommunication networks
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US6195542B1 (en) * 1998-07-31 2001-02-27 Avaya Technology Corp. Identification by a central computer of a wireless telephone functioning as a transaction device
US6611812B2 (en) * 1998-08-13 2003-08-26 International Business Machines Corporation Secure electronic content distribution on CDS and DVDs
AUPP547898A0 (en) * 1998-08-26 1998-09-17 Canon Kabushiki Kaisha System and method for automatic music generation
IL142004A0 (en) 1998-09-15 2002-03-10 In Touch Technologies Ltd Enhanced communication platform and related communication method using the platform
US6223210B1 (en) * 1998-10-14 2001-04-24 Radio Computing Services, Inc. System and method for an automated broadcast system
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6498955B1 (en) * 1999-03-19 2002-12-24 Accenture Llp Member preference control of an environment
EP1197020B2 (en) 1999-03-29 2011-04-13 Gotuit Media Corp. Electronic music and programme storage, comprising the recognition of programme segments, such as recorded musical performances and system for the management and playback of these programme segments
US7362946B1 (en) 1999-04-12 2008-04-22 Canon Kabushiki Kaisha Automated visual image editing system
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US7302574B2 (en) 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US20050038819A1 (en) * 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
GR1003625B (el) 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
GB9918611D0 (en) 1999-08-07 1999-10-13 Sibelius Software Ltd Music database searching
US8326584B1 (en) 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US6941275B1 (en) 1999-10-07 2005-09-06 Remi Swierczek Music identification system
US6539395B1 (en) * 2000-03-22 2003-03-25 Mood Logic, Inc. Method for creating a database for comparing music
US6453252B1 (en) 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US6609093B1 (en) * 2000-06-01 2003-08-19 International Business Machines Corporation Methods and apparatus for performing heteroscedastic discriminant analysis in pattern recognition systems
US6545209B1 (en) * 2000-07-05 2003-04-08 Microsoft Corporation Music content characteristic identification and matching
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
US7359889B2 (en) * 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US6931351B2 (en) * 2001-04-20 2005-08-16 International Business Machines Corporation Decision making in classification problems
US7529659B2 (en) * 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
KR20040024870A (ko) * 2001-07-20 2004-03-22 그레이스노트 아이엔씨 음성 기록의 자동 확인
FR2844911B1 (fr) * 2002-09-24 2006-07-21 Thales Sa Procede de reconnaissance vocale avec correction automatique
US20070198262A1 (en) * 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
US20080187188A1 (en) * 2007-02-07 2008-08-07 Oleg Beletski Systems, apparatuses and methods for facilitating efficient recognition of delivered content

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049878A (ja) * 2003-07-29 2005-02-24 Lucent Technol Inc コンテンツ識別システム
JP2008015002A (ja) * 2006-07-03 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP4597919B2 (ja) * 2006-07-03 2010-12-15 日本電信電話株式会社 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP2010530100A (ja) * 2007-06-06 2010-09-02 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
US8386925B2 (en) 2007-10-22 2013-02-26 Sony Corporation Information processing terminal device, information processing device, information processing method, and program
US9213724B2 (en) 2007-10-22 2015-12-15 Sony Corporation Information processing terminal device, information processing device, information processing method, and program
US8176118B2 (en) 2007-11-07 2012-05-08 Sony Corporation Server device, client device, information processing system, information processing method, and program
US8862781B2 (en) 2007-11-07 2014-10-14 Sony Corporation Server device, client device, information processing system, information processing method, and program
US9319487B2 (en) 2007-11-07 2016-04-19 Sony Corporation Server device, client device, information processing system, information processing method, and program
JP2013534645A (ja) * 2010-06-09 2013-09-05 アデルフォイ リミテッド オーディオメディア認識のためのシステム及び方法

Also Published As

Publication number Publication date
DE60236161D1 (de) 2010-06-10
US20080201140A1 (en) 2008-08-21
EP1410380A2 (en) 2004-04-21
AU2002346116A1 (en) 2003-03-03
US20030086341A1 (en) 2003-05-08
EP1410380B1 (en) 2010-04-28
KR20040024870A (ko) 2004-03-22
WO2003009277A3 (en) 2003-09-12
US7328153B2 (en) 2008-02-05
US7881931B2 (en) 2011-02-01
WO2003009277A2 (en) 2003-01-30

Similar Documents

Publication Publication Date Title
JP2004536348A (ja) 録音の自動識別
US7080253B2 (en) Audio fingerprinting
US9093120B2 (en) Audio fingerprint extraction by scaling in time and resampling
US9208790B2 (en) Extraction and matching of characteristic fingerprints from audio signals
US8712728B2 (en) Method and device for monitoring and analyzing signals
US6604072B2 (en) Feature-based audio content identification
Umapathy et al. Audio signal processing using time-frequency approaches: coding, classification, fingerprinting, and watermarking
Venkatachalam et al. Automatic identification of sound recordings
WO2003088534A1 (en) Feature-based audio content identification
You et al. Music Identification System Using MPEG‐7 Audio Signature Descriptors
Porter Evaluating musical fingerprinting systems
Su et al. Window switching strategy based semi-fragile watermarking for MP3 tamper detection
KR101002732B1 (ko) 온라인을 통한 디지털 컨텐츠 관리 시스템
You et al. Using paired distances of signal peaks in stereo channels as fingerprints for copy identification
Ghorbani et al. Audio content security: attack analysis on audio watermarking
Cremer et al. Audioid: Towards content-based identification of audio material
Patil Music Identification based on Audio-Fingerprinting
Tsai Audio Hashprints: Theory & Application
Kalker et al. Robust Identification of Audio Using Watermarking and Fingerprinting
Dhillon et al. Vidya Venkatachalam, Luca Cazzanti
Catalán Quality assessment and enhancement of an industrial-strength audio fingerprinting system
Masterstudium et al. Audio Content Identification–Fingerprinting vs. Similarity Feature Sets

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040831

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080807

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080814

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080905

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080912

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081007

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090406

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090413

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090507

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090514

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090605

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090612

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091006

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091211

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20091211

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100105