JP2008191675A

JP2008191675A - デジタル信号をハッシュする方法

Info

Publication number: JP2008191675A
Application number: JP2008031159A
Authority: JP
Inventors: M Kivanc Mihcak; エム．キバンクミカク; Ramarathnam Venkatesan; ベンカテサンラマラスナム
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-04-24
Filing date: 2008-02-12
Publication date: 2008-08-21
Anticipated expiration: 2022-04-24
Also published as: US20050084103A1; US7240210B2; US20050097312A1; US7707425B2; EP1253525A3; US7152163B2; US20050071377A1; US20050076229A1; US20050065974A1; US20050066176A1; EP1253525A2; US6973574B2; JP4902565B2; US20020184505A1; US7188065B2; US20050066177A1; JP2003005771A; US6971013B2; US7657752B2

Abstract

【課題】デジタル信号のオーディオコンテンツの認識を改善するための技術を提供する
【解決手段】デジタル信号変換を、複数のチャンクにランダムに分割し、各チャンクについて、信号データの平均を取り、チャンク平均に基づき、複数の異なる量子化レベルを持つ指数分布を生成し、チャンク平均のそれぞれを量子化レベルの１つにランダムに丸めて丸め値を生成し、丸め値の複合をハッシュする。
【選択図】図１１

Description

本発明は、一般に、デジタル信号のオーディオコンテンツの認識を改善するための技術に関する。

デジタルオーディオ信号は、音質および伝送のしやすさの点で従来のメディアに勝る多くの利点を持つ。インターネットの留まるところを知らない普及により、デジタルオーディオクリップはＷｅｂ体験の中心的な要素となったが、この状況は、インターネット上のデータ伝送の高速化、そのようなオーディオクリップを再生するためのインターネットマルチメディア技術の改良などの進歩によって支えられている。毎日、多数のデジタルオーディオクリップが世界中のＷｅｂサイトに追加されている。

オーディオ「クリップ」は、オーディオ信号（またはビットストリーム）の全部または一部を表している。クリップは、格納、取り出し、送信、受信などを行うことができる。

オーディオクリップのデータベースが増大するにつれ、インデックスを作成し、オーディオクリップの著作権を保護することの必要性が非常に重要となる。次世代型のデータベース管理ソフトウェアでは、デジタルオーディオクリップのインデックスを高速にかつ効率よく作成し、デジタルオーディオクリップの著作権を保護するソリューションに対応する必要がある。

ハッシュ法は、オーディオクリップのインデックス作成、および著作権保護問題に対する１つの可能な解決策である。ハッシュ法は、データベース管理、クエリー操作、暗号化などの多くの分野、また大量の生データを必要とするその他の多くの分野で使用されている。ハッシュ法では、大きなデータブロック（生の構造化されていないデータのように見える場合もある）を比較的小さな構造化された識別子の集合にマップする（この識別子は「ハッシュ値」または単に「ハッシュ」とも呼ばれる）。構造と順序を生データに導入することにより、ハッシュ法は、生データのサイズを短い識別子に劇的に縮小する。このため、多くのデータ管理問題が単純化され、大規模なデータベースにアクセスするのに必要な計算資源が削減される。

したがって、優れたハッシュ法の特性の１つは、サイズの小さいなハッシュ値を生成できることである。小さな識別子は、大きな生データに比べて、検索も並べ替えもかなり効率よく実行できる。たとえば、識別子が小さいほど、標準の方法で並べ替えと検索が簡単に行える。したがって、ハッシュ法は一般に、より小さなハッシュ値を使用した場合により大きな効果がある。

しかし残念なことに、ハッシュ値が小さくなりすぎると、大規模なデータ項目を一意に表す望ましい質を失い始める点が生じる。つまり、ハッシュ値のサイズが小さくなるにつれて、複数の異なる生データが同じハッシュ値にマップされる可能性が高まるということであり、この現象を「衝突」と呼んでいる。数学的には、各ハッシュ桁の濃度（ｃａｒｄｉｎａｌｉｔｙ）Ａのアルファベットとハッシュ値の長さ１について、可能なすべてのハッシュ値の上限はＡ^ｌとなる。異なる生データの数がこの上限よりも大きい場合に、衝突が発生する。

したがって、優れたハッシュ法の他の特性は、衝突の可能性を最小限に抑えることである。しかし、ハッシュ値の長さに著しくゲインがある場合は、衝突を許容することが正当とされることがある。そのためハッシュ値の長さは、衝突の可能性との交換条件となる。優れたハッシュ法は、衝突の可能性もハッシュ値の長さも最小限に抑えるべきである。これは、コンパイラにおけるハッシュ法と暗号アプリケーションにおけるメッセージ認証コード（ｍｅｓｓａｇｅａｕｔｈｅｎｔｉｃａｔｉｏｎｃｏｄｅｓ）（ＭＡＣ）の両方の設計の関心事である。

優れたハッシュ法は、さまざまな種類のデジタルデータ用に以前から存在していた。これらの機能は、よい特性を持ち、よく理解されている。オーディオクリップデータベース管理のためのハッシュ法の着想は、非常に有用であり、データ検索および著作権保護のためにオーディオクリップを識別する際に使用することができる。

しかし残念なことに、多数の優れた既存の機能があるが、デジタルオーディオクリップには、他のデジタルデータでは経験されなかった独特な一群の問題点があり、これは主に、オーディオクリップが聴取者による評価を受けるという独特の事実によるものである。オーディオクリップのピッチまたはフェーズのわずかなシフトは、人間の耳には大きな違いとしては聞こえないが、このような変化はデジタル領域では非常に異なった現れ方をする。したがって、従来のハッシュ機能を使用する場合には、オーディオクリップが本質的に同じに聞こえても（つまり、同じに知覚されても）、オーディオクリップのシフトバージョンにより元のオーディオクリップと比べて非常に異なるハッシュ値が生成される。

他の例として、オーディオクリップからの短い時間ブロックの削除がある。削除されたブロックが短い場合、およびそうでない場合はクリップの静かな部分にある場合には、大半の人々がオーディオクリップ自体でこのような削除を認識しないが、データ領域で見た場合にはデジタルデータが著しく変わる。

人間の耳は、オーディオクリップのある種の変化をかなり許容する。たとえば、人間の耳は、オーディオクリップのある範囲の周波数成分の変化については、他の範囲の周波数成分の変化に比べて、あまり感度がよくない。また人間の耳は、オーディオクリップの短いセグメントの小さな伸張および収縮を捕らえることができない。

人間の聴覚系のこのような特性の多くは、デジタルオーディオクリップの配信と提示に役立つ。たとえば、このような特性は、たとえオーディオクリップのデータの一部が失われたり使用されないままになるとしても、ＭＰ３などの圧縮方式によりオーディオクリップを圧縮することを可能にし、よい結果を得ることができる。人間の聴覚系に合わせて特にチューニングされたオーディオクリップ復元／機能強化アルゴリズムが今日多数利用できる。市販のサウンド編集システムにはこのようなアルゴリズムが組み込まれていることが多い。

それと同時に、人間の聴覚系のこうした特性は、違法な目的や悪質な目的のために利用される場合もある。たとえば、高度なオーディオ処理手法を使用して、オーディオクリップを知覚的に改変することなくオーディオクリップから著作権通知や埋め込まれた透かしを除去する盗用者もいる。オーディオクリップへのこのような悪意の変更のことを、「攻撃（ａｔｔａｃｋ）」と呼び、データ領域の変更をもたらす。

残念なことに、人間はこうした変更を知覚できないため、盗用者は違法な方法で無許可コピーを配布することに成功する。従来のハッシュ法は、オーディオクリップが同じように聞こえたとしても元のオーディオクリップと盗用されたコピーが非常に異なるハッシュ値にハッシュされるため、ほとんど役立たない。

よくある攻撃。ＩＦＰＩ（国際レコード産業連盟）およびＲＩＡＡ（アメリカレコード工業協会）の提案要求（ＲＦＰ）に、ありそうな標準的な攻撃が箇条書きにされている。ＲＦＰでは、以下のセキュリティ要件をまとめている。

・２つの連続するＤ／ＡおよびＡ／Ｄ変換、
・ＭＰ３などのデータ低減コーディング手法、
・適応変換符号化（ＡＴＲＡＣ）
・適応サブバンド符号化（ａｄａｐｔｉｖｅｓｕｂｂａｎｄｃｏｄｉｎｇ）
・デジタルオーディオ放送（ＤｉｇｉｔａｌＡｕｄｉｏＢｒｏａｄｃａｓｔｉｎｇ）（ＤＡＢ）
・ドルビーＡＣ２およびＡＣ３システム、
・加法的または乗法的ノイズの適用、
・同じシステムを使用して第２の埋め込み信号を単一プログラムフラグメントに適用、
・元の信号に関して最大変動が１５ｄＢの低音部、中音部、高音部のコントロールなどの通常アナログ周波数応答コントロールに対応する周波数応答のひずみ
・可能な周波数ホッピングのある周波数ノッチを適用

したがって、人間の耳には許容できるまたは検出不可能で（つまり知覚できない）しかも異なるハッシュ値が生じないオーディオクリップに対するわずかな変更を許すデジタルオーディオクリップに対するハッシュ法が必要である。オーディオクリップのハッシュ法が有用であるためには、人間の聴覚系の特性に対応し、今日のデジタルオーディオクリップ処理に共通のさまざまなオーディオ信号の操作プロセスに耐えるようでなければならない。

よいオーディオハッシュ法は、改変されたオーディオクリップが元のオーディオクリップと比較したときに聴取者にとって十分類似している（つまり、知覚的に）場合に、ある種の攻撃形態が元のオーディオクリップに加えられたとしても同じ一意な識別子を生成すべきである。しかし、修正されたオーディオクリップの聞こえ方が異なったり、攻撃のせいで聴取者が苛立った場合、ハッシュ法で、このような変更の程度を認識し、元のオーディオクリップと異なるハッシュ値を生成すべきである。

コンテンツのカテゴリ化
盗用防止のように、オーディオクリップのオーディオコンテンツの意味的なカテゴリ化では多くの場合、他の既存のオーディオ作品との主観的比較が必要である。類似の性質を持つ作品は、同じカテゴリにグループ化する。オーディオクリップのコンテンツは、意味に基づいていくつもカテゴリに分類でき、たとえば、クラシック音楽、会話、ハードロック、イージーリスニング、ポルカ、講演、カントリー、および他のそのような意味的なカテゴリに分けられる。

通常、このような意味的なカテゴリ化は、手作業による（つまり人間が行う）作品の主観的分析により主観的に決定され、既存のカテゴリにグループ化される。オーディオクリップの意味的なオーディオコンテンツを自動的に（つまり、実質的な人間関与なしで）分析しカテゴリ化するそのような手法は存在していない。

そこで、本発明の目的は、デジタル信号のオーディオコンテンツの認識を改善するための技術を提供することにある。

ここでは、デジタル信号のオーディオコンテンツを認識する技術について説明する。この技術により、デジタル信号の元のオーディオコンテンツについて１つまたは複数のハッシュ値を決定する。

本明細書で説明する一実装では、オーディオコンテンツの認識により、元のオーディオコンテンツおよび元のオーディオコンテンツと実質的に同じであると知覚されるその他のオーディオコンテンツの識別が容易になる。識別ハッシュ値により、他のデジタル信号の内容が実質的に同じと知覚されるかどうかを判別するために元のオーディオコンテンツを一意に識別する。

本明細書で説明する他の実装では、オーディオコンテンツの認識により、そのような元の内容の意味的カテゴリ化が容易になり、同じ意味的カテゴリ内の他のオーディオ作品とともにグループ化できる。カテゴリ化ハッシュ値を使用して、元のコンテンツをカテゴリ化ハッシュ値が類似している他のオーディオ作品とともにグループ化し、それにより、類似のオーディオ作品の意味的カテゴリとして類似のハッシュ値を持つオーディオ作品を意味的に分類する。

より具体的にはデジタル信号からハッシュ値をコンピュータにより生成するために、本発明は、
前記デジタル信号をデジタル信号変換に変換するステップと、
前記デジタル信号変換を、各チャンクに信号データが含まれる複数のチャンクにランダムに分割するステップと、
前記チャンクのそれぞれについて、前記信号データの平均を取り、対応するチャンク平均を生成するステップと、
一部は前記チャンク平均に基づき、複数の異なる量子化レベルを持つ指数分布を生成するステップと、
前記チャンク平均のそれぞれを前記量子化レベルの１つにランダムに丸めて丸め値を生成するステップと、
前記丸め値の複合をハッシュするステップと
を含むことを特徴とする。

このまとめ自体に、本特許請求の範囲を制限する意図はない。本発明をよく理解できるように、添付図面とともに、以下の詳細な説明および付属の請求項を参照していただきたい。本発明の範囲は、付属の請求項の中で指摘されている。

図面全体を通して類似の要素および特徴を参照するのに同じ番号を使用している。

以下の説明では、付属の請求項で引用している要素を組み込んでいるデジタル信号によるオーディオコンテンツの認識装置の１つまたは複数の特定の実施形態を規定している。これらの実施形態については、法令に定められた書面による説明、実施可能性、およびベストモード要件を満たすように具体的に説明する。しかし、この説明自体に、本特許請求の範囲を制限する意図はない。

ここでは、印刷媒体の一部分を融合する方法とシステムの１つまたは複数の実施例を説明する。発明者は、これらの実施例が例であることを意図している。発明者は、これらの実施例が請求されている本発明の範囲を制限することを意図していない。むしろ、発明者は、請求されている本発明がさらに、他の現在の技術または将来の技術とともに、他の方法で具現化され実施される可能性があると考えていた。

デジタル信号によるオーディオコンテンツの認識装置の実施例を、「オーディオ認識装置例」と呼ぶことにする。

参照による取り込み
以下の同時係属出願は参照により本発明に取り込まれる（すべてＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎに譲渡されている）。

・１９９９年９月７日出願の「画像に透かしを入れる手法とその結果得られる透かしの入っている画像」という表題の米国特許出願第０９／３９０２７１号
・１９９９年９月７日出願の「マークされた画像内の透かしを検出する手法」という表題の米国特許出願第０９／３９０２７２号
・１９９９年５月２２日出願の「二重透かしによるオーディオ透かし」という表題の米国特許出願第０９／３１６８９９号
・２０００年７月１２日出願の「改良された秘密オーディオ透かし」という表題の米国特許出願第０９／６１４６６０号
・２００１年４月２４日出願の「知覚的に類似しているコンテンツの強力な認識装置」という表題の米国特許出願
・２００１年４月２４日出願の「ブラインド透かしの強力な非局所的特性の導出と量子化」という表題の米国特許出願
・１９９９年２月２６日出願の「ＭｏｄｕｌａｔｅｄＣｏｍｐｌｅｘＬａｐｐｅｄＴｒａｎｓｆｏｒｍｓを生成するためのシステムと方法」という表題の米国特許出願第０９／２５９６６９号
・１９９９年１０月１９日出願の「デジタル画像のハッシュのためのシステムと方法」という表題の米国特許出願第０９／４２１９８６号
２０００年２月２２日に発行され、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎに譲渡されている、「拡張可能なオーディオコーダおよびデコーダ」という表題の米国特許出願第６０２９１２６号は、参照により本発明に取り込まれている。

序論
本明細書で説明する、オーディオ認識装置の実施例の実施は、オーディオコンテンツ認識システム１００および／または図１４に示されているようなコンピューティング環境により（全部または一部）実施できる。

本発明では実施例を、各信号の１つまたは複数のハッシュ値を生成するそのような信号のハッシュにより一般にデジタルオーディオ信号のオーディオコンテンツを認識する手法として説明する。

また本発明では実施例を、信号の識別ハッシュ値を比較することによりそのような信号のオーディオコンテンツを識別する手法として説明する。この実施例では、改変された信号が改変された信号と元の信号とを比較したときに聴取者に同じように知覚される場合、ある形態の攻撃が元のデジタルオーディオ信号に対し行われたとしても同じ一意の識別子（たとえば、ハッシュ値）を生成する。しかし、改変された信号の聞こえ方が知覚的に異なったり、攻撃のせいで聴取者が苛立った場合、ハッシュ法で、このような変更の程度を認識し、元の信号と異なるハッシュ値を生成する。

また本発明では実施例を、信号のカテゴリ化ハッシュ値を比較することによりそのような信号のオーディオコンテンツをカテゴリ化する手法として説明する。

また本明細書で説明する実施例は、引用により本発明に取り込んでいる文書に記載されている手法と組み合わせることができる手法である。

アプリケーション例
本明細書で説明する、オーディオ認識装置例の実施は、データベースにおける識別、検索、および並べ替え、意味的コンテンツカテゴリ化、および盗用防止アプリケーション（透かしなど）をはじめとする（例として提示しており、制限になるものではない）、多数のアプリケーションに適している。アプリケーション例のいくつかを以下で説明する。

データベース内のコンテンツの特定。識別ハッシュ値は、格納し、デジタルオーディオ信号の特定のオーディオコンテンツと関連付けることができる。このようなコンテンツを検索するときに、検索エンジンは所定のハッシュ値を探してコンテンツを特定することができる。これは、データベース内のオーディオコンテンツを検索する従来の手法に比べて非常に効率がよい。

意味的コンテンツカテゴリ化。これは、２種類のデジタルオーディオ信号間のコンテンツの近似的マッチングを含む。実施例のハッシュ手法は、中間ハッシュ値を持ち、これを使って、２つの与えられた項目が類似しているか比較することができる。このハッシュ値はさらに、カテゴリ化ハッシュ値とも呼ぶ。

このカテゴリ化ハッシュ値は、オーディオ作品のオーディオコンテンツを意味的に分類する場合にも使用できる。類似の性質を持つ作品は、カテゴリ化ハッシュ値が１つところにまとまる傾向がある。したがって、これらの値は互いに近い。この近い範囲は主観的に決定できる。いくつかの意味的カテゴリについては、範囲は大きく、他のカテゴリについては、小さい場合がある。

カテゴリ化ハッシュは、値を増やしながら計算できる。つまり、実施例でオーディオクリップのウィンドウをスライドさせることができれば、旧いウィンドウと新しいウィンドウに共通の部分について実質的な作り直しを行うことなく旧いウィンドウから新しいウィンドウに対するハッシュ値を計算できるということである。

盗用防止検索作業。Ｗｅｂクローラーと信号ハッシュ値のデータベースを使用して、透かしおよび／または悪意ある攻撃の対象になっていた可能性のあるＷｅｂ上のオーディオ信号の盗用されたコンテンツを検索することができる。

コンテンツ依存鍵生成（透かし用）：透かし手法では秘密鍵を使用するので、数百万のコンテンツ断片に同じ鍵を使用するとその鍵の有効性を損なうおそれがある。そこで、実施例では、信号依存鍵として機能できるオーディオ信号のハッシュ値を生成できる。使用されている秘密鍵を知らない攻撃者は、与えられたコンテンツのハッシュ値を予測することができない。

ハッシュ
長い入力を短いランダムに見える（つまり一様分布の）出力にマップするハッシュ法を使用する例は多く、実際、コンパイラ、チェックサム、検索および並べ替え手法、暗号メッセージ認証、電子署名の一方向ハッシュ法、タイムスタンプなど広範囲にわたっている。これらの手法は通常、２進文字列を入力として受け付け、固定長の（「Ｌ」）ハッシュ値を生成する。これらの手法では、ある種の形態のランダムシード（つまり鍵）を使用する。

このような手法で生成されるハッシュ値は、通常次のような望ましい特性を備えるため有用と考えられる。

・ほとんど一様な分布−与えられた入力について、出力ハッシュ値は可能なＬビット出力に一様に分布する。

・近似的ペアワイズ独立−２つの異なる入力について、対応する出力が互いに統計的にほとんど独立している。

本明細書で説明するさまざまなシステムおよび方法により実施されるハッシュ法は、Ｈとして表される。入力信号Ｉを与えたとすると、ハッシュ法Ｈは短い２進文字列Ｘを次のように生成する。

Ｈ（Ｉ）＝Ｘ
ハッシュ法Ｈは、以下の特性を持つ。

・信号Ｉ_ｉについて、信号のハッシュＨ（Ｉ_ｉ）は等しい長さの２進文字列上にほぼ一様に分布する。

・２つの異なる信号Ｉ_１およびＩ_２について、第１の信号のハッシュ値Ｈ（Ｉ_１）は、Ｈ（Ｉ_１）を与えたときに、Ｈ（Ｉ_２）を予測できないという点で第２の信号Ｈ（Ｉ_２）のハッシュ値とは近似的に独立している。

・２つの信号Ｉ_１およびＩ_２が知覚的に同じまたは類似している場合、第１の信号Ｈ（Ｉ_１）のハッシュ値は第２の信号Ｈ（Ｉ_２）のハッシュ値に等しくなければならない。

本発明で説明している実施のハッシュ法は、多くの点で、引用により本発明に取り込まれている文書のいくつかで説明しているハッシュ法に似ている。本発明で説明しているハッシュ法は、人間の聴覚系の特性に対応し、今日のデジタルオーディオ信号処理に共通のさまざまなオーディオ信号の操作プロセスに耐えるように特に手直しされている。

知覚的に同じまた知覚的に異なる
オーディオ認識装置例では、２つの「知覚的に同じ」オーディオ信号を同じであるとして取り扱う。ここで、デジタルオーディオ信号のペアは、その識別ハッシュ値が同じ（代わりに、実質的に同じ）であるときに「知覚的に同じ」である。

「知覚的に同じ」オーディオ信号は、人間の耳には実質的に同じであるかのように聞こえる信号を含む。知覚的に同じであるという意味を定める第１のステップとして、たとえば、暗号における疑似ランダム性を定式化するために使用される標準チューリングテストを使用できる。聴取者は、２つのオーディオクリップを次々に再生する。次にクリップがランダムな順序で再生され、聴取者はクリップをマッチさせる必要がある。聴取者にほぼ５０％以下のチャンスしかない場合、クリップは知覚的に同じとみなすことができる。

しかし、この使用される用語は、チューリングテストで定義されているものよりも一般的である。チューリングテストに合格したクリップは、それでも、聴取者が「わずかな本質的でない違い」に基づいてのみ区別できる場合に知覚的に同じと考えることができる。このようなわずかな本質的でない違いに関係なく、聴取者は、これらのクリップが「すべての実用目的に関して同じオーディオクリップである」と明確に主張できる。

それとは対照的に、「知覚的に異なる」デジタル製品は、一般に、「知覚的に同じ」デジタル製品と反対である。これは、「知覚的に異なる」または「知覚的に区別できる」と呼ぶこともできる。

知覚的に類似している
オーディオ認識装置例では、２つの「知覚的に類似している」オーディオ信号を類似しているとしてカテゴリ化すべき異なる信号として取り扱う。ここで、デジタルオーディオ信号のペアは、そのカテゴリ化ハッシュ値が値として近い（つまり、近接している）ときに「知覚的に類似している」。「知覚的に類似している」信号は、その識別ハッシュ値が同じである場合に「知覚的に同じ」とすることもできる。

実施例のハッシュ法の例
実施例のハッシュ法は、オーディオクリップに作用する不可逆ハッシュ関数であり、生成される最終ハッシュ値は指定された長さの２進文字列である。また１または複数の中間ハッシュ値も生じる。実施例のハッシュ法は、次の基準を有する。

・ハッシュ値は高い確率でほとんど一様に分布する。

・高い確率で、「知覚的に異なって聞こえる」オーディオクリップのハッシュ値は異なる。

・高い確率で、「知覚的に同じ聞こえる」オーディオクリップのハッシュ値は同じである。

Ｘが特定のオーディオクリップを表し、Ｘ′がＸと「知覚的に同じ」であるこのクリップの修正バージョンを表し、Ｙが「知覚的に異なる」オーディオクリップを表すものと仮定する。Ｌはハッシュの最終的な長さであり、Ｈ（．）はハッシュ関数を表すと仮定する。以下に、生成されるハッシュ値に関するパフォーマンス測定基準を示す。

ただし、Ｈ（Ｘ_ｉ）およびＨ（Ｙ_ｉ）は、Ｈ（Ｘ）およびＨ（Ｙ）のそれぞれがｉ番目の位置の値であり、

はＸＯＲ演算を表す。（１）式は、Ｈ（Ｘ）およびＨ（Ｙ）がハッシュの全長と異なる位置の個数の比である。

以下に、実施例とともに使用する、パラメータｐ、Ｌ

付きのハッシュ関数族の例を示す。

・ランダム化：

・知覚的に異なるオーディオクリップＸ、Ｙ：

したがって、Ｈ（Ｘ）は、圧倒的な確率で、Ｈ（Ｙ）に等しくない。

・知覚的に同じであるオーディオクリップ：

したがって、ランダム化問題とは別に、オーディオクリップの識別ハッシュ値の違いは次のように表すことができる。

これは、可能なすべての異なる（「知覚的に異なる」）オーディオクリップＸ、Ｙ、さらに可能なすべての「知覚的に同じ」オーディオクリップＸ、Ｘ′についてのものである。

中間ハッシュ値。本明細書で説明する実施例では、中間ハッシュ値を計算してから最終（つまり、識別）ハッシュ値を計算する。中間ハッシュ値は長さＭで、Ｍ＞Ｌ、かつ以下の分離特性を備える。

実施例では、Ｍは５Ｌ〜１０Ｌの範囲内の値を持つ。中間ハッシュ値を求めるために、一次のリード−マラー符号のデコード段階を専用の疑似ノルムとともに採用する。中間ハッシュを与えられたとすると、実施例では、いくつかの汎用的な手法（たとえば、リストデコード手順）を使用して、望ましい特性を持つ２進文字列を生成する。

中間ハッシュ値を生成する方法の詳細については、２００１年４月出願の「知覚的に類似しているコンテンツの強力な認識装置」という表題の米国特許出願を参照されたい。

オーディオ認識装置例
図１は、オーディオコンテンツ認識システム１００を示しており、これはオーディオ認識装置例の実施形態の例である。システム１００は、変換器１１０、統計的推定装置１２０、適応型量子化装置１３０、および誤り訂正デコーダ１４０を備える。

変換器１１０は、デジタルオーディオ信号１０５（オーディオクリップなど）を取得する。これは、ストレージデバイスやネットワーク通信リンクなどのほとんどどのようなソースからでも信号を取得できる。変換器１１０は、一組の変換を使って信号１０５を標準形で出力する。特に、オーディオ認識装置例では、ＭＣＬＴ（ＭｏｄｕｌａｔｅｄＣｏｍｐｌｅｘＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）を使用し、オーディオクリップの時間で変化するスペクトル特性Ｔ_ｘ１１２を取得する。

統計的推定装置１２０は、ランダム化された区間変換を適用し、信号の可聴統計量μ_ｘ１２２を抽出する。これらの可聴統計量は、攻撃に対する堅牢性を導入するとともに不可逆な形でオーディオ信号を表すことが期待される。知覚的に同じであるオーディオクリップでは、これらの統計量は近い値を持つ可能性が高いが（適当な測定基準の考えのもとで）、知覚的に異なるオーディオクリップでは、遠く離れた値となる。

適応型量子化装置１３０は、ランダム化した丸め（つまり、量子化）を統計的推定装置１２０の出力に適用する。適応型量子化装置は、２進ベクトルとして表わされる出力ｑ_ｘ１３２を生成する。それとは別に、量子化装置１３０は非適応型でもよい。

誤り訂正デコーダ１４０では、誤り訂正符号のデコード段階を利用して、類似の値を同じ点にマップする。最終出力ｈ_ｘ１４２は、デコーダ１４０によって生成される。この最終出力が、最終ハッシュ値である。デコーダはさらに、中間ハッシュ値を生成する。それとは別に、誤り訂正デコーダ１４０は、ランダム化したベクトル量子化装置（ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｅｒ）（ＶＱ）またはリストデコーダ、またはその他の類似のデバイスでよい。

デコーダ１４０は、知覚的に異なるオーディオ信号の中間ハッシュ値間の正規化されたハミング距離が０．４０よりも大きく、知覚的に類似しているオーディオ信号の中間ハッシュ値間の正規化されたハミング距離が０．２０よりも小さいような中間ハッシュ値を生成する。もちろん、これらの範囲は例としてのみ示しており、制限する目的のものではない。

図１のオーディオコンテンツ認識システム１００の前述のコンポーネントのそれぞれについて以下で詳述する。

変換器１１０とＭＣＬＴ
ＭＣＬＴはＭＬＴ（ＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）の複素拡張である。ＭＬＴは、多くのオーディオ処理アプリケーションで導入され使用されており、たとえばＤｏｌｂｙＡＣ−３、ＭＰＥＧ−２などがある。ＭＣＬＴベース関数は、ペアになっており、実部と虚部を別々に出力する。これらのベース関数は、ＭＬＴから派生し、それぞれ互いの位相シフトバージョンである。完全な復元性および近似的シフト不変性など直感的に好ましい特性をいくつか持つということがわかる。ＭＣＬＴは、２ｘオーバーサンプルＤＦＴ（離散フーリエ変換）フィルタバンクの特別な場合である。

ＭＣＬＴは、本発明に引用により取り込まれている、「ＭｏｄｕｌａｔｅｄＣｏｍｐｌｅｘＬａｐｐｅｄＴｒａｎｓｆｏｒｍｓを生成するためのシステムと方法」という表題の米国特許出願第０９／２５９６６９号で詳細に述べられている。

図２〜図４は、図１のオーディオコンテンツ認識システム１００の変換器１１０で採用しているものに似たＭＣＬＴ方式を示している。図２は、オーディオ信号（図には示されていない）の入力シーケンスの時系列２１０を示している。シーケンスは、時系列にそってオーバーラップする「ブロック」（ブロック２１２〜２１８）に分割され、隣り合うブロックは半分だけ交差する。

図３に示されているように、ＭＣＬＴ変換は、ＭＣＬＴ変換器２３０によって、各ブロック（ブロック「ｉ」など）に独立に適用され、サイズＭのスペクトル分解を出力する。分析および合成フィルタは長さ２Ｍであると仮定すると、周波数バンドの個数はスペクトル領域内でＭである。

図４は、ブロックのスペクトル分解の結合を表し、時間周波数分解Ｔ_ｘを形成する。ブロックのＭＣＬＴ変換を結合して１つの行列を作り、オーディオクリップの時間周波数表現を取得する。図４について、Ｍを周波数バンドの個数とし、Ｎをブロックの個数とすると、Ｔ_ｘはＭＣＬＴ行列、Ｔ_ｘ（ｉ，ｊ）は、ｊ＝０，１，．．．、Ｎ−１として位置（ｉ，ｊ）のＭＣＬＴ値である。

ＭＣＬＴを使用して、「聴覚しきい値行列」Ｈ_ｘを定義することができ、これは、Ｔ_ｘ（ｉ，ｊ）＞＝Ｈ_ｘ（ｉ，ｊ）ならばＴ_ｘ（ｉ，ｊ）が可聴であるようにＴ_ｘと同じサイズである。

ランダム化された区間変換（統計的推定）
以下に有意性マップＳｘの定義を示す。Ｔｘ（ｉ，ｊ）＞＝Ｈｘ（ｉ，ｊ）であればＳｘ（ｉ，ｊ）＝１。そうでなければＳｘ（ｉ，ｊ）＝０。ただし、ｉ＝０，１，．．．，Ｍ−１かつｊ＝０，１，．．．，Ｎ−１。

図５（ａ）および図５（ｂ）は、オーディオクリップ例Ａの時間−周波数表現および対応する有意性マップを示す図である。図６（ａ）および図６（ｂ）は、異なるオーディオクリップ例、クリップＢの時間−周波数表現および対応する有意性マップを示す図である。時間周波数表現の低周波数部分と有意性マップのみ、便宜上これらの図に示す。

図５（ａ）および図５（ｂ）に示されているように、オーディオクリップの時間周波数表現には特筆すべきパターンがある。さらに、このパターンは、時間と周波数の両方に関して構造がゆっくりと変化する。オーディオ認識装置例では、ランダム化した区間変換（つまり、「統計的推定」）によりこの既存の構造をコンパクトな形で捕捉する。

統計的推定装置１２０は、信号１０５の統計反映特性を推定する。この目的を達成するために、推定装置１２０は時間周波数平面内で統計量の推定を実行する。推定装置１２０は、局所的相関と大域的相関の両方を活用する。周波数軸と時間軸の両方にそって相関が存在する。たとえば、推定装置１２０は、１つまたは２つの方法例を採用している。方法Ｉは、各ブロックについて周波数軸にそって動作する（つまり、与えられたブロックに対し周波数軸にそって相関を利用する）。方法ＩＩは、各周波数サブバンドについて時間軸にそって動作し、したがって、時間にそって相関を利用する。

方法Ｉと方法ＩＩの方法論的実施：
図７は、方法Ｉと方法ＩＩの両方の方法論的実施を示しており、オーディオコンテンツ認識システム１００の推定装置１２０（またはその一部）により実行される。これらの方法論的実施は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせで実行することができる。

方法ＩＩの方法論は、方法Ｉと非常によく似ている。主な違いは、方法Ｉでは時間にそった相関ではなく周波数にそった相関を利用し、方法ＩＩでは周波数にそった相関ではなく時間にそった相関を利用するという点である。

図７の４１０で、各ブロックについて、推定装置１２０は、聴覚しきい値を超える十分な数の入力値が存在するかどうかを判別する。なければ、次のブロックに移動し、さもなければ、「有意（ｓｉｇｎｉｆｉｃａｎｔ）」係数をサイズＭ′＜Ｍのベクトルに集める。より一般的には、方法ＩではＴ_ｘの列を使用し、方法ＩＩではＴ_ｘの行を使用する。

４１２で、推定装置１２０はランダム化した区間変換を実行する。図８は、単一レベルでランダム化されている「分割（ｓｐｌｉｔｔｉｎｇ）」という概念を示している。ベクトル５１０のランダム化された分割の単一レベル（方法に応じて周波数領域または時間領域のいずれか）で、まず、中点５２２に関して対称になるランダム化区間５２０（つまり、ランダム化領域）を見つける。ランダム化区間の長さとベクトル全体５１０の長さとの比は、分割のランダム化チューニングパラメータである。これは、ユーザ指定の値でよい。

図８は、この区間５２０内でランダム点５２４が選択されていることを示している。このランダム点５２４は、分割を実行する点であり、その結果、２つの「チャンク」が形成される。次に、この手順を指定回数だけ実行するが、各回数は分割の「レベル」である。レベルは、Ｍ′と最小チャンク内の望ましい係数の予想数の関数となっている。したがって、最小チャンク内の予測される係数の個数は、ユーザ指定のパラメータであり、ブロックごとに「レベル」を決定する。たとえば、図９では、再帰的分割を２回実行し、したがってレベル＝２となる。

図７の４１４で、分割点をランダムに見つけたら各チャンクの各レベルでの一次統計量を推定する。たとえば、図９を考察する。第２レベルの分割では、合計４つのチャンク（チャンク５４１、５４２、５４３、５４４）があり、推定装置１２０はこれら４つのチャンクの算術平均を収集する（それとは別に、分散など他の統計値を収集することもできる）。次に、推定装置１２０は第１のレベルの分割に進み、推定装置１２０はそのレベルの算術平均（つまり図９のチャンク５４５および４５６）の算術平均を計算する。最後に、ゼロ番目のレベルで、推定装置１２０はベクトル全体５１０（つまり、チャンク５４７）の算術平均を計算する。これらの算術平均はすべて、統計ベクトル内に収集される。

４１６で、プロセスは４０５のループの先頭に戻り、すべてのブロックが処理されるまでブロック４１０〜４１６のステップを繰り返す。すべてのブロックが処理された後、ループは４１８で終了する。

図１０は、オーディオ信号の時間周波数表現５５０に関する方法Ｉ５６０および方法ＩＩ５７０の違いを示している。

方法Ｉでは、推定装置１２０は、時間ブロックごとに統計量を推定する。方法Ｉでは、推定装置１２０の結果はベクトルμ_ｆであり、周波数軸にそう推定平均値を表す。

方法ＩＩでは、推定装置１２０は、周波数サブバンドごとに統計量を推定する。方法ＩＩでは、推定装置１２０の結果はベクトルμ_ｔであり、時間軸にそう推定平均値を表す。

実施例の方法Ｉと方法ＩＩは両方ともこの点での一次統計量を推定するように考えられているが、他の実施形態では、任意の次数の統計量の推定を行うことができる。検定で、一次統計量はこの点の二次統計量に比べてよい結果が得られることが判明している。使用している方法に関係なく（方法ＩまたはＩＩ）、適応型量子化装置１３０と誤り訂正デコーダ１４０の機能は同じである。

他の実施例では、第３の方法として、方法Ｉと方法ＩＩを組み合わせた方法ＩＩＩを採用している。この方法では、時間周波数平面内のランダムな矩形に基づいて統計量を推定する。これらの矩形の形状を調整して、適切な特性が得られるようにできる。

入力適応型量子化（ＩｎｐｕｔＡｄａｐｔｉｖｅＱｕａｎｔｉｚａｔｉｏｎ）
適応型量子化装置１３０は、統計ベクトルを入力として与えたときに離散レベルの出力を発生する。一方、適応型量子化装置１３０は実際に、ハッシュ法（オーディオ認識装置例で使用している）の堅牢性という特性を高め、ランダム化の量を増やす。

信号処理では、連続レベルの入力から離散レベルの出力を生成する従来の方法のことを「量子化」と呼んでいる。Ｑが量子化レベルの数（つまり、離散レベルの出力の集合の濃度）とする。また、μ（ｊ）は与えられた統計ベクトルμのｊ番目の要素を表し、μ′（ｊ）は量子化されたバージョンを表すと仮定する。従来の量子化方式では、量子化規則は完全に決定論的であり、次の式で与えられる。

ただし、区間［Δ_ｉ、Δ_ｉ＋１］をｉ番目の量子化ビンと呼ぶ。本発明の実施例の説明では、復元レベルではなく量子化ビンの位置に注目している。信号処理における従来の量子化方式では、量子化は通常、圧縮方式の一部として適用されるため、復元レベルが有意である。しかし、インデックス作成問題とは別に、復元レベルは本明細書で説明する実施例に対し有意ではない。したがって、一般性を失うことなく、復元レベルが集合｛０，１，．．．，Ｑ−１｝から整数インデックスにより与えられると仮定できる。

通常、入力統計ベクトルはいくつかの点で高いバイアスをかけられた分布から得られる。統計分布のこの「色分けされた」性質を説明するために、実施例では「適応量子化」方式を採用しており、統計の分布の異なる位置で任意の可能なバイアスを受ける。特に、実施例では、統計量の分布としてμの正規化したヒストグラムを使用する。正規化したヒストグラムは通常、「わずかに聞き取りにくい」攻撃に対し非常に抵抗性があり、したがってこのような適応型方式は実際に、堅牢性に関して負担にならない。さらに、正規化したヒストグラムでは、μ（ｊ）の周辺密度関数のｐ．ｄ．ｆ．（確率密度関数）はすべてのｊについて同じであり、近似誤差はμのサイズが無限大に近づくほど減少する。そこで、実施例の範囲内で、｛Δｉ｝は以下が成立するように構成する。

ただし、ｐ_μは入力統計ベクトルμの正規化したヒストグラムを表す。区間［Δ_ｉ−１，Δ_ｉ）により、量子化ビンが決定される。さらに、以下が成立するように「中心点群」｛Ｃ_ｉ｝を定義する。

次に、各Δ_ｉに関して、以下が成立するようにランダム化区間［Ｌｉ，Ｕｉ］を導入する。

つまり、ランダム化区間はすべてのｉについてΔ_ｉを中心に対称的であり、またＣ_ｉ≦Ｌ_ｉかつＵ_ｉ≦Ｃ_ｉ＋１という制約を課す。これらのランダム化区間の正確な位置は、以下の式の「ランダム化係数」で決定される。

ただし、「ランダム化係数」は、量子化の出力でランダム化の量を決定するパラメータであり、範囲［０，１／２］内の値を明確に取りうるユーザ指定の数である。以下に、実施例のｐ．ｄ．ｆ．適応ランダム化量子化規則を示す。

このようなランダム化された量子化規則のもとで、Ｌ_ｉ≦μ（ｊ）≦Ｕ_ｉであれば、Ｅ［μ′（ｊ）］＝Δ_ｉである。このような「ランダム化係数」の選択に際してはトレードオフの関係が生じる。この係数が大きくなるにつれ、出力側のランダム化の量も増え、これは望ましい特性であるが、攻撃や変更に対し脆弱になる可能性が高まることになり、それは、特にそのような場合に、システムのセキュリティがかなりの程度、ランダム化鍵を秘密として保持することに依存しているからである。したがって、「ランダム化係数」に対する適当な範囲を選択することはデリケートな問題といえる。実施例では、ユーザ指定の入力パラメータによりこの問題が決まる。そのようなユーザ指定の入力パラメータにより、ユーザはカスタマイズした結果を得るのにセキュリティ問題と望ましいランダム化の程度とのバランスをとることができる。

誤り訂正デコード
実施例で量子化された統計量が得られたら、次のステップで、それらの値を２進ビットストリーム（つまり、デジタル信号）に変換し、「知覚的に同じである」オーディオクリップが互いに近い２進文字列にマップされ、「知覚的に異なる」オーディオクリップが互いに値が離れている２進文字列にマップされるようにストリーム全体の長さを縮める。

この目的を達成するために、実施例では、一次のリード−マラー符号をこの点で採用する。当業者であれば、他の誤り訂正方式とともに、場合によってはランダム化されたベクトル量子化手法を採用しても、請求している発明の精神と範囲にあることは理解できるであろう。

リード−マラー符号は、記述が簡単でエレガントな構造を持つＧＦ（２）上の線形符号の一種である。ブロック長２^ｍの一次のリード−マラー符号の生成行列Ｇは次のようにブロックの配列として定義される。

ただし、Ｇ_０は、すべて１からなる単一の行で、Ｇ_１は、サイズｍＸ２^ｍの行列である。Ｇ_１は、各２進ｍ−タプルが列として１回出現するように作られている。したがって、得られる生成行列はサイズｍ＋１Ｘ２^ｍである。誤り訂正コードおよびリード−マラー符号の詳細は、Ｒ．Ｂｌａｈｕｔ著「ＴｈｅｏｒｙａｎｄＰｒａｃｔｉｃｅｏｆＥｒｒｏｒＣｏｎｔｒｏｌＣｏｄｅｓ」（１９８３年）に記載されている。

リード−マラー符号でデコードする（多数決ロジックでデコードする）計算効率の高い手法が存在しているが、実施例では、簡単のため入力ワード空間に対する網羅的検索を使用している。ハミング距離を誤り測定基準として使用する従来のデコード方式とは異なり、実施例のデコード方式では「指数疑似ノルム（ＥｘｐｏｎｅｎｔｉａｌＰｓｅｕｄｏＮｏｒｍ）（ＥＰＮ）」と呼ばれる誤り測定基準を使用している。マルチメディア（画像およびオーディオ）のハッシュ問題に対しては従来の誤り測定基準（ハミング距離など）よりも適している。

ｘ_Ｄおよびｙ_Ｄが長さＬの２つのベクトルで、ベクトルの各成分が集合｛０，１，．．．，Ｑ−１｝に属し、ｌｏｇ_２Ｑは正の整数であると仮定する。同様に、ｘとｙはそれぞれベクトルｘ_Ｄとｙ_Ｄの２進数表現であり、各１０進数成分がｌｏｇ_２Ｑビットを使用して２進数形式に変換されると仮定する。ｘとｙの長さは、したがって、両方ともＬｌｏｇ_２Ｑとなる。ＥＰＮは、２進ベクトルｘとｙとの間で次のように定義される。

ただし、ｘ_Ｄ（ｉ）とｙ_Ｄ（ｉ）はそれぞれ、ベクトルｘ_Ｄとｙ_Ｄのｉ番目の要素を表す。ＥＰＮ（ｘ，ｙ）は、実際には、ＱとＫの関数でもあるが、表記をわかりやすくするために、実施例ではこれらの値を式の中に埋め込んであり、単に、これらの値が問題の文脈の範囲内で知られていると仮定している。

Ｑは量子化レベルの数であり、ＫはＥＰＮで大きな距離にペナルティをどれだけ課すかを決定する「指数定数」である。結果は、Ｋを十分大きくとれば、Ｋの値にほとんど左右されない。実施例の目的の一部は近い値と遠い値を２進文字列の１０進数表現で明確に区別することなので、ＥＰＮは実施例のハッシュ法に組み込むのに適している。

誤り訂正デコーダ１４０によって実行される方法論的操作例を以下に示す。

・量子化したデータをユーザ指定の長さのチャンクに分割する。

・Ｑを量子化レベルの数として、成分ごとにｌｏｇ_２Ｑビットを使用して２進数形式に変換する。

・コードワードの長さをできる限りチャンクの２進数表現の長さに近づけた一次リード−マラー符号の生成行列を形成する。

・可能な入力ワードごとに（サイズｍ＋１×２^ｍの生成行列に対しては全部で２^ｍ＋１個の入力ワードがありえる）、対応する出力ワードを生成する。

・各対応する出力ワードと量子化されたデータとの間のＥＰＮを見つける。

・ＥＰＮの最小量が得られる入力ワードをピックアップする。

オーディオコンテンツ認識装置例の方法論的実施
図７は、オーディオコンテンツ認識システム１００（またはその一部）によって（全部または一部）実行されるオーディオコンテンツ認識装置例の方法論的実施の図解である。この方法論的実施は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせで実行することができる。

オーディオコンテンツ識別方法論的実施
図１１は、オーディオコンテンツ認識装置例のオーディオコンテンツ識別方法論的実施を示している。図１１の６１０で、オーディオコンテンツ認識装置例は、オーディオクリップのデータベースまたはそのようなオーディオ信号の他のソースから主題のオーディオクリップを取り出す。主題のクリップを選択すると、オーディオコンテンツ認識装置例は、６１２で、上述の変換器１１０で実行される変換に従ってそれを変換する。

図１１の６１４で、オーディオコンテンツ認識装置例は、上述の統計量推定装置１２０で実行される推定に従って、変換されたクリップの統計量を推定する。６１６で、オーディオコンテンツ認識装置例は、上述の適応型量子化装置１３０で実行される量子化に従って、変換されたクリップの推定統計量に対し適応型量子化を実行する。６１８で、オーディオコンテンツ認識装置例は、上述のデコーダ１４０で実行されるデコードに従って、適応量子化の結果に基づいて誤り訂正デコードを実行する。

図１１の６２０で、上述のステップの結果に基づいてハッシュ値を決定する。ハッシュ値は、中間ハッシュ値（つまり、カテゴリ化ハッシュ値）および最終ハッシュ値を含む。これらのハッシュ値は、元のオーディオクリップのオーディオコンテンツの認識表現である。これらのハッシュ値を使用してオーディオクリップ内のオーディオコンテンツを認識（さらには識別さえ）できるからである。

図１１の６２２で、その結果のハッシュ値が表示され格納される。これらの値は、値の計算に使用した元の主題のクリップと関連してデータベースに格納される。

盗用検出方法論的実施
図１２は、オーディオコンテンツ認識装置例の盗用検出方法論的実施を示している。図１２の７５６で、オーディオコンテンツ認識装置例は、選択したオーディオクリップのハッシュ値を取り出す。より詳しく述べると、これは、オーディオクリップのデータベースまたはそのようなクリップの他のソースから最終ハッシュ値（つまり、識別ハッシュ値）を取り出す。

図１２はさらに、図１１のブロック７５２のオーディオコンテンツ識別方法を示している。方法７５２では、ブロック７５６で取り出された選択したクリップのコピーであることが疑わしいオーディオクリップ７５０の最終ハッシュ値を計算する。７５４で、オーディオコンテンツ認識装置例は、ブロック７５２のオーディオコンテンツ識別方法から疑わしいオーディオクリップ７５０の計算で求めた最終ハッシュ値を取り出す。もちろん、これは反転することができ、方法７５２により選択したクリップのハッシュ値が得られるが、ブロック７５２からは疑わしいクリップのハッシュ値が得られる。

７５８で、オーディオコンテンツ認識装置例は、２つのクリップ（疑わしいクリップ７５０と７５６の選択したクリップ）のハッシュ値を比較して実質的に一致しているかどうかを判別する。実質的に一致しているとは、２つのハッシュ値が十分に近い値であり、２つのクリップが許容誤差の範囲内で同じハッシュ値を持つと結論しても妥当であるということを意味する。

このような比較の結果が実質的な一致でない場合、オーディオコンテンツ認識装置例は、７６０で、疑わしいクリップ７５０が７５６の選択したクリップの実質的なコピーではないということを示す。つまり、比較したクリップの最終ハッシュ値が実質的に一致しないと、盗用は検出されない。７６４で、このプロセスは終了する。

ただし、このような比較の結果が実質的な一致の場合、オーディオコンテンツ認識装置例は、７６２で、疑わしいクリップ７５０が７５６の選択したクリップの実質的なコピーであるということを示す。つまり、比較したクリップの最終ハッシュ値が実質的に一致すると、盗用が検出される。７６４で、このプロセスは終了する。

オーディオコンテンツカテゴリ化方法論的実施
図１３は、オーディオコンテンツ認識装置例のオーディオコンテンツカテゴリ化方法論的実施を示している。図１３の８１６で、オーディオコンテンツ認識装置例は、選択したオーディオクリップのハッシュ値を取り出す。より詳しく述べると、これは、オーディオクリップのデータベースまたはそのようなクリップの他のソースから中間（つまりカテゴリ化）ハッシュ値を取り出す。

図１３の波線のボックス８０５ではさらに、選択したクリップの中間ハッシュ値を取得する他の方法も示している。これは、図１１のブロック８１２のオーディオコンテンツ識別方法を使用してクリップを処理することによる。方法８１２では、選択したクリップの中間（つまり、カテゴリ化）ハッシュ値を計算する。８１４で、オーディオコンテンツ認識装置例は、ブロック８１２のオーディオコンテンツ識別方法から選択したオーディオコンテンツベースのクリップ８１０の計算で求めた中間ハッシュ値を取り出す。

８２０で、オーディオコンテンツ認識装置例は、選択したクリップの中間ハッシュ値を使用して、そのようなクリップを類似の（つまり、近接）中間ハッシュ値のうち他方とグループ化する。つまり、オーディオコンテンツ認識装置例は、与えられたクリップの中間ハッシュ値に基づいて、与えられたクリップを類似の中間ハッシュ値を持つ他のクリップとグループ化する。したがって、与えられたグループ内のすべてのクリップのハッシュ値はクラスタにまとめられる（つまり、互いに近接）。これらのグループはいくぶん客観的に決定されるが、グループ内のクリップの内容の主観的性質はグループ内の他の内容の性質に類似する。

オーディオコンテンツ認識装置例は、選択したクリップのカテゴリ化ハッシュ値を使用して、そのようなクリップを類似の（つまり、近接）カテゴリ化ハッシュ値のうち他方とグループ化する。つまり、オーディオコンテンツ認識装置例は、与えられたクリップのカテゴリ化ハッシュ値に基づいて、与えられた作品を類似のカテゴリ化ハッシュ値を持つ他の作品とグループ化する。したがって、各グループ内のすべての作品のハッシュ値はクラスタにまとめられる（つまり、互いに近接）。これらのグループは主に客観的に決定されるが、グループ内の作品の内容の主観的性質はグループ内の他の内容の性質に類似する。

グループ間の境界は、手動であるいは自動で決定される。手動では、人が、多くのクリップをカテゴリ化した後に見られる自然なクラスタ化を使用してグループ間の境界を選択する。自動では、システムが、グループの中心の間（たぶん、中程）のある点となるようにグループ間の境界を数学的に選択する。もちろん、他のそのような手法を使用して境界を決定することもできる。これらの手法は、完全自動、完全手動、またはその組み合わせとすることができる。

８２２で、オーディオコンテンツ認識装置例はカテゴリ化の結果をデータベースに格納する。８２４で、プロセスは終了する。

コンピューティングシステムと環境の例
図１４は、オーディオ認識装置例が本発明で説明しているように（完全にまたは部分的に）実施できる適当なコンピューティング環境９００の例を示している。コンピューティング環境９００は、本発明で説明しているコンピュータおよびネットワークアーキテクチャで利用できる。

コンピューティング環境例９００は、コンピューティング環境の一例にすぎず、コンピュータおよびネットワークアーキテクチャの使用または機能の範囲に関する限定を示唆するものではない。このコンピューティング環境９００は例のコンピューティング環境９００で示されているコンポーネントのいずれかまたは組み合わせに関して従属している、あるいは必要であるとは解釈すべきではない。

このオーディオ認識装置例は、他の多数の汎用または専用のコンピューティングシステム環境または構成でも実施できる。使用するのに適していると思われるよく知られているコンピューティングシステム、環境、構成の例として、パソコン、サーバコンピュータ、小型軽量クライアント、大型重量級クライアント、携帯またはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家電製品、ネットワークＰＣ、ミニコン、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。

オーディオ認識装置例は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的文脈において説明できる。一般に、プログラムモジュールには、特定のタスクを実行する、あるいは特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。オーディオ認識装置例は、さらに、通信ネットワークを介してリンクされているリモート処理デバイスによってタスクが実行される分散コンピューティング環境で実用することもできる。分散コンピューティング環境では、プログラムモジュールをメモリ記憶デバイスを含むローカルとリモートの両方のコンピュータ記憶媒体に配置できる。

コンピューティング環境９００は、汎用コンピューティングデバイスをコンピュータ９０２の形態で備える。コンピュータ９０２のコンポーネントは、１つまたは複数のプロセッサまたは処理ユニット９０４、システムメモリ９０６、およびプロセッサ９０４を含むさまざまなシステムコンポーネントをシステムメモリ９０６に結合するシステムバス９０８を備えるがこれに限られるわけではない。

システムバス９０８は、メモリバスまたはメモリコントローラ、周辺機器バス、グラフィック専用高速バス、およびさまざまなバスアーキテクチャを使用するプロセッサまたはローカルバスを含む数種類のバス構造のうち１つまたは複数を表す。たとえば、前記アーキテクチャには、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＡ）バス、ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ（ＭＣＡ）バス、ＥｎｈａｎｃｅｄＩＳＡ（ＥＩＳＡ）バス、ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカル・バス、およびＭｅｚｚａｎｉｎｅバスとも呼ばれるＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（ＰＣＩ）バスがある。

コンピュータ９０２は通常、多数のコンピュータ読み取り可能媒体を備える。このような媒体は、コンピュータ９０２によってアクセス可能な利用可能な媒体でよく、揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体がある。

システムメモリ９０６は、ランダムアクセスメモリ（ＲＡＭ）９１０などの揮発性メモリおよび／または読み取り専用メモリ（ＲＯＭ）９１２などの不揮発性メモリの形態のコンピュータ読み取り可能媒体を含む。起動時などにコンピュータ９０２内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム（ＢＩＯＳ）９１４は、ＲＯＭ９１２に格納される。ＲＡＭ９１０は、通常、処理ユニット９０４に即座にアクセス可能な、また現在操作されているデータやプログラムモジュールを含む。

コンピュータ９０２はさらに、その他の取り外し可能／取り外し不可能、揮発性／不揮発性コンピュータ記憶媒体も備えることができる。たとえば、図１４は、取り外し不可能不揮発性磁気媒体（図には示されていない）への読み書きを行うハードディスクドライブ９１６、取り外し可能不揮発性磁気ディスク９２０（たとえば「フロッピー（登録商標）ディスク」）への読み書きを行う磁気ディスクドライブ９１８、およびＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、またはその他の光媒体などの取り外し可能不揮発性光ディスク９２４への読み書きを行う光ディスクドライブ９２２を示す。ハードディスクドライブ９１６、磁気ディスクドライブ９１８、および光ディスクドライブ９２２は、それぞれ、１つまたは複数のデータ媒体インタフェース９２６によりシステムバス９０８に接続される。それとは別に、ハードディスクドライブ９１６、磁気ディスクドライブ９１８、および光ディスクドライブ９２２は、１つまたは複数のインタフェース（図には示されていない）によりシステムバス９０８に接続できる。

ディスクドライブおよび関連コンピュータ読み取り可能媒体は、コンピュータ９０２用のコンピュータ読み取り可能命令、データ構造、プログラムモジュール、およびその他のデータを格納する不揮発性ストレージを備える。例では、ハードディスク９１６、取り外し可能磁気ディスク９２０、および取り外し可能光ディスク９２４が示されているが、磁気カセットまたはその他の磁気ストレージデバイス、フラッシュメモリカード、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）またはその他の光ストレージ、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電気的消去可能プログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ）などのコンピュータによってアクセス可能なデータを格納できる他のタイプのコンピュータ読み取り可能媒体も、コンピューティングシステムおよび環境の例を実施するために利用できることは理解できるであろう。

ハードディスク９１６、磁気ディスク９２０、光ディスク９２４、ＲＯＭ９１２、および／またはＲＡＭ９１０には、たとえば、オペレーティングシステム９２６、１つまたは複数のアプリケーションプログラム９２８、その他のプログラムモジュール９３０、およびプログラムデータ９３２を含む、プログラムモジュールをいくつでも格納できる。そのようなオペレーティングシステム９２６、１つまたは複数のアプリケーションプログラム９２８、その他のプログラムモジュール９３０、およびプログラムデータ９３２（またはその組み合わせ）のそれぞれは、デジタルオーディオ信号ハッシュ装置、透かしエンコーダ、変換器、統計量推定装置、適応型量子化装置、誤り訂正デコーダ、およびハッシュ器の実施形態を含むことができる。

ユーザは、キーボード９３４およびポインティングデバイス９３６（たとえば、「マウス」）などの入力デバイスを介してコンピュータ９０２にコマンドおよび情報を入力できる。他の入力デバイス９３８（特に示されていない）としては、マイク、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、シリアルポート、スキャナなどがある。これらの入力デバイスやその他の入力デバイスは、システムバス９０８に結合されている入力／出力インタフェース９４０を介して処理ユニット９０４に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）などの他のインタフェースおよびバス構造により接続することもできる。

モニタ９４２やその他のタイプの表示デバイスも、ビデオインタフェース９４４などのインタフェースを介してシステムバス９０８に接続できる。モニタ９４２の他に、入力／出力インタフェース９４０を介してコンピュータ９０２に接続可能な、スピーカ（図に示されていない）やプリンタ９４６などの他の出力周辺デバイスもある。

コンピュータ９０２は、リモートコンピューティングデバイス９４８などの１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク環境で動作することもできる。たとえば、リモートコンピューティングデバイス９４８としては、パーソナルコンピュータ、携帯型コンピュータ、サーバ、ルータ、ネットワークコンピュータ、ピアデバイス、またはその他の共通ネットワークノードなどがある。リモートコンピューティングデバイス９４８は、コンピュータ９０２に関して本発明で説明している要素および機能の多くまたはすべてを備えることができる携帯型コンピュータとして示されている。

コンピュータ９０２とリモートコンピュータ９４８との間の論理的接続は、ローカルエリアネットワーク（ＬＡＮ）９５０および一般的なワイドエリアネットワーク（ＷＡＮ）９５２として示されている。このようなネットワーキング環境は、事務所、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよくある。

ＬＡＮネットワーキング環境に実施する場合は、コンピュータ９０２はネットワークインタフェースまたはネットワークアダプタ９５４を介してローカルネットワーク９５０に接続される。ＷＡＮネットワーキング環境に実施する場合は、コンピュータ９０２は通常、モデム９５６またはワイドネットワーク９５２上で通信を確立するためのその他の手段を備える。モデム９５６は、コンピュータに内蔵でも外付けでもよいが、入力／出力インタフェース９４０またはその他の適切なメカニズムを介してシステムバス９０８に接続できる。図解されているネットワーク接続は例であり、コンピュータ９０２と９４８の間に通信リンクを確立するその他手段を使用できることは理解されるであろう。

コンピューティング環境９００で示されているようなものなどのネットワーク環境では、パーソナルコンピュータ９０２またはその一部に関して示されているプログラムモジュールは、リモートメモリストレージデバイスに格納できる。たとえば、リモートアプリケーションプログラム９５８は、リモートコンピュータ９４８のメモリデバイスに常駐する。説明のため、アプリケーションプログラムおよびオペレーティングシステムなどのその他の実行可能プログラムコンポーネントは、ここでは離散ブロックとして示されているが、このようなプログラムおよびコンポーネントはさまざまなときにコンピューティングデバイス９０２の異なるストレージコンポーネントに常駐し、コンピュータのデータプロセッサによって実行されることは理解されるであろう。

コンピュータ実行可能命令
オーディオ認識装置例の実施については、１つまたは複数のコンピュータまたはその他のデバイスによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的文脈において説明できる。一般に、プログラムモジュールには、特定のタスクを実行する、あるいは特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。通常、プログラムモジュールの機能をさまざまな実施形態での必要に応じて組み合わせるか、または分散させることができる。

操作環境の例
図１４は、オーディオ認識装置例を実施できる適当な操作環境９００の例を示している。特に、本発明で説明しているオーディオ認識装置例は、図１４またはその一部の任意のプログラムモジュール９２８〜９３０および／またはオペレーティングシステム９２８により（全部または一部）実施できる。

操作環境例は、適当な操作環境の一例にすぎず、本明細書で説明するオーディオ認識装置例の使用または機能の範囲に関する限定を示唆するものではない。使用するのに適している他のよく知られているコンピューティングシステム、環境、構成として、パーソナルコンピュータ（ＰＣ）、サーバ・コンピュータ、携帯またはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラム可能家電製品、無線電話および機器、汎用および専用電気器具、特定用途向け集積回路（ＡＳＩＣ）、ネットワークＰＣ、ミニコン、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがあるが、これらに限られるわけではない。

コンピュータ読み取り可能媒体
オーディオ認識装置例の実施は、ある形式のコンピュータ読み取り可能媒体に格納またはある形式のコンピュータ読み取り可能媒体を介して送信することができる。コンピュータ読み取り可能媒体は、コンピュータによってアクセス可能な媒体であればどのようなものでも利用できる。たとえば、コンピュータ読み取り可能媒体として、「コンピュータストレージ媒体」や「通信媒体」などがあるが、これらに限られるわけではない。

「コンピュータストレージ媒体」には、揮発性および不揮発性の取り外し可能および取り外し不可能媒体が含まれ、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、またはその他のデータなどの情報の記憶用の方法または技術で実施されている。コンピュータストレージ媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、またはその他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたはその他の磁気ストレージデバイス、または目的の情報の格納に使用でき、コンピュータによってアクセスできる他の媒体があるが、これらに限られるわけではない。

「通信媒体」は通常、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、またはキャリア波やその他の搬送メカニズムなど変調データ信号にその他のデータを具現化したものである。通信媒体はさらに、情報配信媒体も含む。

「変調データ信号」とは、情報を信号内にエンコードするなどの方法で１つまたは複数の特性を設定または変更する信号のことである。たとえば、これには限らないが、通信媒体は有線ネットワークまたは直接有線接続などの有線媒体および音響、ＲＦ、赤外線、およびその他の無線媒体などの無線媒体を含む。上記の組み合わせも、コンピュータ読み取り可能媒体の範囲に含まれる。

結論
本発明は、デジタルオーディオ信号に特に向いている言語で説明されているが、付属の請求項で定められている発明は必ずしもデジタルオーディオ信号に限定されるわけではないことを理解すべきである。むしろ、他のデジタル信号（たとえば、画像、マルチメディア、ビデオ、フィルム、データ、情報、テキストなど）に適用できる。

本発明は、構造機能および／または方法論的ステップに特に向いている言語で説明されているが、付属の請求項で定められている発明は必ずしも説明した特定の機能やステップに限定されるわけではないことを理解すべきである。むしろ、特定の機能およびステップは、請求されている発明の実施の好ましい形態として開示されている。

ここで請求している本発明の実施の実施形態を示す概略ブロック図である。ここで請求している本発明の実施によるＭＣＬＴ変換の実施を示す図である。ここで請求している本発明の実施によるＭＣＬＴ変換の実施を示す図である。ここで請求している本発明の実施によるＭＣＬＴ変換の実施を示す図である。（ａ）および（ｂ）はそれぞれ所定のオーディオクリップの時間−周波数表現および有意性マップ（ｓｉｇｎｉｆｉｃａｎｃｅｍａｐ）の図である。（ａ）および（ｂ）はそれぞれ他のオーディオクリップの時間−周波数表現および有意性マップ（ｓｉｇｎｉｆｉｃａｎｃｅｍａｐ）の図である。ここで請求している本発明の実施の方法を図解した実施例を示す流れ図である。ここで請求している本発明の実施による統計推定器で実行するタスクのいくつかを示す図である。ここで請求している本発明の実施による統計推定器で実行するタスクのいくつかを示す図である。ここで請求している本発明の実施による統計推定器で実行するタスクのいくつかを示す図である。ここで請求している本発明の実施の方法を図解した実施例を示す流れ図である。ここで請求している本発明の実施の方法を図解した実施例を示す流れ図である。ここで請求している本発明の実施の方法を図解した実施例を示す流れ図である。ここで請求している本発明の実施を実施することができるコンピューティング操作環境の例を示す図である。

符号の説明

１００オーディオコンテンツ認識システム
１０５デジタルオーディオ信号
１１０変換器
１２０統計的推定装置
１３０適応型量子化装置
１４０エラー訂正デコーダ
２１０時系列
９００コンピュータ環境
９０２コンピュータ
９０４プロセッサまたは処理ユニット
９０６システムメモリ
９０８システムバス
９１０ＲＡＭ
９１６ハードディスクドライブ
９１８磁気ディスクドライブ
９２０取り外し可能不揮発性磁気ディスク
９２２光ディスクドライブ
９２４取り外し可能不揮発性光ディスク
９２６オペレーティングシステム
９２８アプリケーションプログラム
９３０その他のプログラムモジュール
９３２プログラムデータ
９３４キーボード
９３６ポインティングデバイス
９３８入力デバイス
９４０入力／出力インタフェース
９４２モニタ
９４４ビデオインタフェース
９４６プリンタ
９４８リモートコンピューティングデバイス
９５０ローカルエリアネットワーク（ＬＡＮ）
９５２ワイドエリアネットワーク（ＷＡＮ）
９５４ネットワークアダプタ
９５６モデム

Claims

デジタル信号をハッシュするコンピュータによって実施する方法であって、
前記デジタル信号をデジタル信号変換に変換するステップと、
前記デジタル信号変換を、各チャンクに信号データが含まれる複数のチャンクにランダムに分割するステップと、
前記チャンクのそれぞれについて、前記信号データの平均を取り、対応するチャンク平均を生成するステップと、
一部は前記チャンク平均に基づき、複数の異なる量子化レベルを持つ指数分布を生成するステップと、
前記チャンク平均のそれぞれを前記量子化レベルの１つにランダムに丸めて丸め値を生成するステップと、
前記丸め値の複合をハッシュするステップと
を含むことを特徴とするコンピュータによって実施される方法。
前記デジタル信号がデジタルオーディオ信号であることを特徴とする請求項１に記載のコンピュータによって実施される方法。
前記変換がＭＣＬＴ手法に基づいて実行されることを特徴とする請求項１に記載のコンピュータによって実施される方法。
前記分割するステップが、オーバーラップするチャンクの階層レベルを形成するステップを含むことを特徴とする請求項１に記載のコンピュータによって実施される方法。
前記平均を取るステップが、前記チャンク平均がほぼ０である場合にピクセルデータの分散を計算するステップを含むことを特徴とする請求項１に記載のコンピュータによって実施される方法。
前記ハッシュするステップが、前記丸め値を処理して中間ハッシュ値を生成し、知覚的に異なるデジタル信号の場合は前記中間ハッシュ値が時間の約６０％だけ異なり、知覚的に同じであるデジタル信号の場合は前記中間ハッシュ値が時間の約２０％を除きすべて一致するようにするステップを含むことを特徴とする請求項１に記載のコンピュータにより実施される方法。
前記ハッシュするステップが、リード−マラー誤り訂正符号デコーダを使用して前記丸め値を処理するステップを含むことを特徴とする請求項１に記載のコンピュータによって実施される方法。
前記ハッシュするステップが指数疑似ランダムノルムを有するリード−マラー誤り訂正符号デコーダを使用して前記丸め値を処理するステップを含むことを特徴とする請求項１に記載のコンピュータによって実施される方法。
前記ハッシュするステップで中間値を生成し、さらに誤り訂正プロセスを介して前記中間ハッシュ値のサイズを縮小するステップ含むことを特徴とする請求項１に記載のコンピュータによって実施される方法。
コンピュータによって実施されるハッシュ方法であって、
知覚的に異なるデジタル信号により互いにほぼ独立しているハッシュ値が得られ、知覚的に同じであるデジタル信号により同一のハッシュ値が得られるようなデジタル信号を表すハッシュ値を計算するステップと、
前記デジタル信号に関して前記ハッシュ値を格納するステップと、
一部、前記ハッシュ値を使用して、透かしの入ったデジタル信号を生成するために前記デジタル信号に透かしを入れるステップと、
その後ネットワークで前記透かしの入っているデジタル信号を配布するステップと、
前記ネットワーク上でリモートサイトからデジタル信号を収集するステップと、
前記リモートサイトから収集された前記デジタル信号のハッシュ値を計算するステップと、
前記収集したデジタル信号の前記ハッシュ値と前記格納されているハッシュ値とを比較するステップと、
前記ハッシュ値が一致した場合に前記収集したデジタル信号を前記デジタル信号の盗用されたバージョンであると識別するステップと
を含むことを特徴とする方法。
前記デジタル信号がデジタルオーディオ信号であることを特徴とする請求項１０に記載のコンピュータによって実施される方法。
コンピュータによって実施されるハッシュ方法であって、
デジタル値を表すハッシュ値を計算するステップと、
少なくとも一部は前記ハッシュ値から導かれた透かしで前記デジタル信号に透かしを入れるステップを含むことを特徴とする方法。
前記デジタル信号がデジタルオーディオ信号であることを特徴とする請求項１２に記載のコンピュータによって実施される方法。
デジタル信号を処理するシステムであって、
知覚的に異なるデジタル信号により互いにほぼ独立しているハッシュ値が得られ、知覚的に同じであるデジタル信号により同一のハッシュ値が得られるようなデジタル信号を表すハッシュ値を計算するデジタル信号ハッシュユニットと、
一部、前記ハッシュ値を使用して透かしの入ったデジタル信号を生成するために前記デジタル信号に透かしを入れる透かしエンコーダと
を備えたことを特徴とするシステム。
デジタル信号を認識するためにコンピュータによって実施される方法であって、
デジタル信号を取得するステップと、
知覚的に類似しているデジタル信号が類似性の最も近いカテゴリ化値を有するように前記デジタル信号を表すカテゴリ化値を導出するステップと
を含むことを特徴とする方法。
前記デジタル信号がデジタルオーディオ信号であることを特徴とする請求項１５に記載のコンピュータによって実施される方法。
さらにデジタル信号のカテゴリ化値を比較して、近いものをクラスタにまとめたカテゴリ化値を有するデジタル信号のグループのカテゴリ化値に前記値が近いかどうかを判別するステップを含むことを特徴とする請求項１５に記載の方法。
本体の前記カテゴリ化値が前記グループの前記カテゴリ化値に近い場合に前記デジタル信号をデジタル値の前記グループにまとめるステップをさらに含むことを特徴とする請求項１５に記載の方法。
前記カテゴリ化値がハッシュ値であることを特徴とする請求項１７に記載の方法。
コンピュータによって実行されるときに請求項１７に記載の方法を実行するためのコンピュータ実行可能命令を格納したことを特徴とするコンピュータ読み取り可能媒体。
データ構造に基づきデータを格納したコンピュータ読み取り可能媒体であって、前記データ構造は、
デジタル信号を含む第１のデータフィールドと、
知覚的に異なるデジタル信号により互いにほぼ独立している識別値が得られ、知覚的に同じであるデジタル信号により同一の識別値が得られるように、前記デジタル信号を表す識別値を導くことによって、前記第１のフィールドから導かれる第２のデータフィールドと、
前記データ構造の終わりに区切りをつけるために機能する第３のデータフィールドと
を備えたことを特徴とするコンピュータ読み取り可能媒体。
データ構造に基づいてデータを格納したコンピュータ読み取り可能媒体であって、前記データ構造は、
デジタル信号を含む第１のデータフィールドと、
知覚的に類似しているデジタル信号が類似性の最も近いカテゴリ化値を有するように前記デジタル信号を表すカテゴリ化値を導くことによって、前記第１のフィールドから導かれる第２のデータフィールドと、
前記データ構造の終わりに区切りをつけるために機能する第３のデータフィールドと
を備えることを特徴とするコンピュータ読み取り可能媒体。