JP5710604B2

JP5710604B2 - ウォーターマーキングとフィンガープリンティングとの組合せ

Info

Publication number: JP5710604B2
Application number: JP2012512069A
Authority: JP
Inventors: ラビ，ケー．シャーマー，
Original assignee: ディジマークコーポレイション
Priority date: 2009-05-21
Filing date: 2010-05-21
Publication date: 2015-04-30
Anticipated expiration: 2030-05-21
Also published as: US8488838B2; EP2433391A4; WO2010135687A1; CN102461066B; US20150162013A1; US9280977B2; US8300884B2; US20140023226A1; JP2012527850A; US8908909B2; US20100322469A1; EP2433391A1; US20130064419A1; CN102461066A

Description

[0002]本発明は、一般に信号処理に関し、より具体的にはステガノグラフィ、デジタルウォーターマーキング、コンテンツ信号の識別、認識、分類並びにコンテンツ信号の属性に基づくデータベースの検索及び取出しを含むマルチメディア信号処理に関する。

［関連出願データ］
[0001]米国では、本出願は２００９年５月２１日に出願された米国特許仮出願第６１／１８０，４１５号の利益を主張する。

[0003]（例えば、ブロードキャスト、インターネットなど）ビデオ及び音声コンテンツ配信の監視及び追跡のような一部のアプリケーションでは、細粒度でメディアの様々な部分を識別することが望ましい。粒度は、確実に識別できるメディア信号の時間（又は部分）の最小単位を意味する。例えば、これはＴＶショー、広告、映画又は歌の特定の箇所であり得る。

[0004]ウォーターマークが埋め込まれたビデオ信号について考えたい。同じウォーターマークペイロードがビデオの各フレームに反復して埋め込まれると想定する。ノイズの多い状況（圧縮、Ｄ／Ａ変換、Ａ／Ｄ変換など）では、ウォーターマーク検出プロセスは、ペイロードが同一であるため複数のフレームにわたってウォーターマーク信号を集めることができる。集めることで信号対ノイズ比が改善し、頑強性が高まる。しかしこの例では、ウォーターマーク信号はビデオ信号の様々な部分間で区別する能力を提供しない。

[0005]ここで、ビデオの各フレームに固有のウォーターマークペイロードが埋め込まれたビデオ信号を考えたい。この場合、ウォーターマーク信号は、細粒度、すなわち、ビデオ信号の各個のフレームを識別する能力を提供する。しかし、ノイズの多い状況では、固有のペイロードによってウォーターマーク信号を集めることができるとは限らないため、ウォーターマークの頑強性は低下する。

[0006]フィンガープリンティングシステムでも同様の問題が存在し、メディア信号の各部分に固有のフィンガープリントを抽出することによって粒度が得られる。粒度が細かいほど、フィンガープリントの数が多くなり、フィンガープリントのデータベースの規模が大きくなる。フィンガープリントのデータベースの規模が大きくなると、フィンガープリント検索及び照合プロセスの計算コスト（及びシステムコスト）が増大する。

[0007]ウォーターマークはメディアコンテンツを直列化する能力を提供する、すなわち、同じメディア信号の同一コピーに別個のウォーターマークペイロードを埋め込むことができる一方、フィンガープリンティングは同一コピー間で区別することができない。ウォーターマーキングは、メディア信号に変更をもたらすことに関与し、ウォーターマーク信号の知覚可能性の問題を提起している。一方で、フィンガープリンティングはメディア信号の変更に関与しない。

Ｂｈａｔ，Ｄ．Ｎ．及びＮａｙａｒ，Ｓ．Ｋ．「Ｏｒｄｉｎａｌｍｅａｓｕｒｅｓｆｏｒｉｍａｇｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅ」ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａ．Ｍａｃｈ．Ｉｎｔｅｌｌ、ｖｏｌ．２０、ｎｏ．４、４１５〜４２３ページ、１９９８年４月Ｍｏｈａｎ，Ｒ．「Ｖｉｄｅｏｓｅｑｕｅｎｃｅｍａｔｃｈｉｎｇ」Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔ．，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）、ｖｏｌ．６、３６９７〜３７００ページ、１９９８年１月Ｏｏｓｔｖｅｅｎ，Ｊ．、Ｋａｌｋｅｒ，Ｔ．及びＨａｉｔｓｍａ，Ｊ．「Ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｎｄａｄａｔａｂａｓｅｓｔｒａｔｅｇｙｆｏｒｖｉｄｅｏｆｉｎｇｅｒｐｒｉｎｔｉｎｇ」Ｐｒｏｃ．５ｔｈＩｎｔ．Ｃｏｎｆ．ＲｅｃｅｎｔＡｄｖａｎｃｅｉｎＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ、１１７〜１２８ページ、２００２年Ｋｉｍ，Ｃ．及びＶａｓｕｄｅｖＢ．「Ｓｐａｔｉｏｔｅｍｐｏｒａｌｓｅｑｕｅｎｃｅｍａｔｃｈｉｎｇｆｏｒｅｆｆｉｃｉｅｎｔｖｉｄｅｏｃｏｐｙｄｅｔｅｃｔｉｏｎ」ＩＥＥＥＴｒａｎｓ．ＣｉｒｃｕｉｔｓＳｙｓｔ．ＶｉｄｅｏＴｅｃｎｏｌ．、ｖｏｌ．１５、ｎｏ．１、１２７〜１３２ページ、２００５年１月Ｌｕ，Ｊ．「Ｖｉｄｅｏｆｉｎｇｅｒｐｒｉｎｔｉｎｇｆｏｒｃｏｐｙｉｄｅｎｔｉｆｉｃａｔｉｏｎ：ｆｒｏｍｒｅｓｅａｒｃｈｔｏｉｎｄｕｓｔｒｙａｐｐｌｉｃａｔｉｏｎｓ」ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＰＩＥ，ＭｅｄｉａＦｏｒｅｎｓｉｃｓａｎｄＳｅｃｕｒｉｔｙ、Ｖｏｌ．７２５４、２００９年２月

[0008]ウォーターマーキングとフィンガープリンティングとの組合せにより、粒度、頑強性及び知覚可能性の問題に対処することができ、コンテンツ識別システムの設計の許容範囲を拡大することができる。ウォーターマーキング及びフィンガープリンティングの相補的な強さを利用する組合せアプローチについて以下で述べる。

[0009]コンテンツ識別のための、ウォーターマークとフィンガープリントとの組合せ及び関連アプリケーションは、参照により本明細書に組み込まれる譲受人の米国特許公開第２００６００３１６８４号で説明されている。ウォーターマーキング、フィンガープリンティング及びコンテンツ認識技術についても、参照により本明細書に組み込まれる譲受人の米国特許公開第２００６０２８０２４６号並びに特許第６，１２２，４０３号、第７，２８９，６４３号及び第６，６１４，９１４号で説明されている。

[00010]音声及び／又はビデオ認識の更なる例は、参照により本明細書に組み込まれる米国特許第７，１７４，２９３号、第７，３４６，５１２号、第６，９９０，４５３号及び米国特許公開第２００２０１７８４１０号で説明されている。本開示では、これらの特許文献は、以下で詳述するように、ウォーターマーキング技術と組み合わせることができるフィンガープリント技術について説明している。

[00011]ビデオ認識技法の更なる例については、以下を参照されたい。Ｂｈａｔ，Ｄ．Ｎ．及びＮａｙａｒ，Ｓ．Ｋ．「Ｏｒｄｉｎａｌｍｅａｓｕｒｅｓｆｏｒｉｍａｇｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅ」ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａ．Ｍａｃｈ．Ｉｎｔｅｌｌ、ｖｏｌ．２０、ｎｏ．４、４１５〜４２３ページ、１９９８年４月。Ｍｏｈａｎ，Ｒ．「Ｖｉｄｅｏｓｅｑｕｅｎｃｅｍａｔｃｈｉｎｇ」Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔ．，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）、ｖｏｌ．６、３６９７〜３７００ページ、１９９８年１月。Ｏｏｓｔｖｅｅｎ，Ｊ．、Ｋａｌｋｅｒ，Ｔ．及びＨａｉｔｓｍａ，Ｊ．「Ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｎｄａｄａｔａｂａｓｅｓｔｒａｔｅｇｙｆｏｒｖｉｄｅｏｆｉｎｇｅｒｐｒｉｎｔｉｎｇ」Ｐｒｏｃ．５ｔｈＩｎｔ．Ｃｏｎｆ．ＲｅｃｅｎｔＡｄｖａｎｃｅｉｎＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ、１１７〜１２８ページ、２００２年。Ｋｉｍ，Ｃ．及びＶａｓｕｄｅｖＢ．「Ｓｐａｔｉｏｔｅｍｐｏｒａｌｓｅｑｕｅｎｃｅｍａｔｃｈｉｎｇｆｏｒｅｆｆｉｃｉｅｎｔｖｉｄｅｏｃｏｐｙｄｅｔｅｃｔｉｏｎ」ＩＥＥＥＴｒａｎｓ．ＣｉｒｃｕｉｔｓＳｙｓｔ．ＶｉｄｅｏＴｅｃｎｏｌ．、ｖｏｌ．１５、ｎｏ．１、１２７〜１３２ページ、２００５年１月。Ｌｕ，Ｊ．「Ｖｉｄｅｏｆｉｎｇｅｒｐｒｉｎｔｉｎｇｆｏｒｃｏｐｙｉｄｅｎｔｉｆｉｃａｔｉｏｎ：ｆｒｏｍｒｅｓｅａｒｃｈｔｏｉｎｄｕｓｔｒｙａｐｐｌｉｃａｔｉｏｎｓ」ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＰＩＥ，ＭｅｄｉａＦｏｒｅｎｓｉｃｓａｎｄＳｅｃｕｒｉｔｙ、Ｖｏｌ．７２５４、２００９年２月。

[00012]フィンガープリント及びウォーターマークを使用したコンテンツ認識システムの作成を示すブロック図である。 [00013]コンテンツ識別プロセスを示すブロック図である。 [00014]一部のコンテンツ認識システムで使用できる携帯電話の図である。

１．１ウォーターマーキングを使用してフィンガープリント照合のための検索領域を縮小
[00015]Ｋａｌｋｅｒ及びＯｏｓｔｖｅｅｎ（Ｋａｌｋｅｒ，Ａ．、Ｏｏｓｔｖｅｅｎ，Ｊ．、米国特許第７，１６８，０８３号、２００７年１月２３日）は、ウォーターマークがメディア信号に埋め込まれ、そのペイロードがフィンガープリントデータベースのインデックスを表すスキームについて説明している。Ｋａｌｋｅｒ及びＯｏｓｔｖｅｅｎは、メディアコンテンツが検索されるデータベースのセクションに関する情報を伝える比較的小さいペイロードを考えている。ウォーターマークを検出した後、ペイロードをインデックスとして使用することで、フィンガープリントデータベースの検索及びフィンガープリントデータベースとの照合に必要なデータベース検索を限定することができる。

１．２ウォーターマーキングを使用した識別、フィンガープリンティングを使用した位置特定
[00016]セクション１．１で論じたこのスキームを更に拡大して、埋め込まれるウォーターマークを、メディア信号に関する全ての関連識別情報を伝える完全なペイロードで符号化することができる。ペイロードは、データベースのセクションを識別するのではなく、特定のメディア信号自体を識別することができる。更にペイロードは、（例えば、配信又は使用状況を追跡する目的で）メディア信号の本来的に同一のコピーを一意に識別できるようにする直列化情報も含むことができる。このウォーターマークのタスクは、ビデオを確実にしっかりと識別することである。ウォーターマーク信号の信号対ノイズ比は、メディア信号を通じて同じウォーターマークペイロードを繰り返し埋め込むことによって改善できる。このアプローチにより、メディア信号の特定の領域におけるウォーターマーク信号の強度を調整して、ウォーターマーク信号が知覚できないようにすることもできる。次いで検出中に、ウォーターマーク信号の構成要素がメディア信号の様々な領域又は時間セグメントにわたって集められて、十分な頑強性を実現する。このアプローチでは、ウォーターマークは位置特定情報（すなわち、メディア信号のどの部分からウォーターマークが検出されたか）を提供することができない。位置特定は、フィンガープリンティングによって実現できる。Ｋａｌｋｅｒ及びＯｏｓｔｖｅｅｎ（Ｋａｌｋｅｒ，Ａ．、Ｏｏｓｔｖｅｅｎ，Ｊ．、米国特許第７，１６８，０８３号、２００７年１月２３日）のアプローチのように、ウォーターマークペイロードをインデックスとして使用して、フィンガープリントデータベースにおけるメディア信号に関連するフィンガープリントを識別する。このステップにより、データベース検索が減る（その結果、システムコストが低く抑えられる）。次いで、データベース内で識別されたメディア信号のフィンガープリントと抽出されたフィンガープリントを照合することで、位置特定情報を提供することができる。

１．３フィンガープリンティングを使用した識別、ウォーターマーキングを使用した位置特定
[00017]セクション１．２で概説したアプローチとは反対に、コンテンツ識別はフィンガープリンティングを使用して実行できる一方、位置特定はウォーターマーキングを通じて実現できる。コンテンツ識別アプリケーションは、極めて細かい粒度での識別の実行を要求することができる。例えば、ビデオシーケンスの各フレームが一意に識別されなければならないと想定する。フィンガープリンティング技法を使用してあらゆるフレームを一意に識別することは実行不可能であり、その理由は、対応するフィンガープリントデータベースが大きくなり、このデータベースをくまなく検索すると、計算コストが高くなることにある。代わりに、最初に識別がフィンガープリンティング技法を使用して達成され得る。次に位置特定がウォーターマーキング技法を使用して達成され得る。例えば、固有のウォーターマークペイロードがビデオの各フレームに埋め込まれていることがある。このペイロードはビデオ内のフレームの位置を正確に示すが、ビデオ自体を識別することはできない。例えば、ウォーターマークペイロードは、フレームごとに変わるタイムコードからなることがある。そこで、ウォーターマークペイロード内のタイムコードを伝えるための効果的な符号化スキームを利用して、ウォーターマーク信号の頑強性を高めること、又はその強度を低下させることができる。かかるスキームについて、セクション４で説明する。

１．４ウォーターマーク回復のための同期化を実現するフィンガープリンティング及び認識技法の使用
[00018]ウォーターマークペイロードの読取りは、ウォーターマーク情報ビットが埋め込まれたときの形態にメディア信号が戻るように、メディア信号のコンテンツを同期化することを要求することが多い。通常、同期化は別個の同期信号を埋め込むことによって達成される。知覚不可能性要件によって課される制約が、埋込み可能なウォーターマーク信号（及び同期信号）の強度を制限する。その結果、同期化は、メディア信号への変換の一定範囲において達成できるに過ぎない。この範囲を越えると、同期化されず、ウォーターマークペイロードは読取り不可能になる。

[00019]フィンガープリンティング技法を用いてメディア信号を識別できる場合、識別された信号を使用して同期信号を回復することができる。例えば、ＳＩＦＴ技法では、画像から１組の特徴ポイントを抽出して、画像内のオブジェクトを、データベース内の対応する画像と照合することによって認識する。ＳＩＦＴ技法では、データベース内の画像と比較することによって画像に適用される幾何学的変換を決定する。同期化は、元のメディア信号について、導出された幾何学的情報を使用して達成できる。これにより、明白な同期信号は必要ではなくなる。ウォーターマークペイロードの読取りは、ウォーターマーク情報ビットが埋め込まれたときの形態にメディア信号が戻るように、メディア信号のコンテンツを同期化することを要求することが多い。多くの場合、同期化は別個の同期信号を埋め込むことによって達成される。フィンガープリンティングによってコンテンツを識別できる場合、元のメディアと変換されたメディアとを比較することによって同期化情報を回復できる。このアプローチを使用して、ウォーターマークを回復できる変換の範囲を拡大することができる。例えば、画像ウォーターマークの同期化スキームが５０％へのスケールダウンの縮小に耐えられると想定する。その場合、画像認識技法を使用して５０％未満に縮小できる。

[00020]或いは、同期化のためのフィンガープリンティング又は認識技法の使用により、アプリケーションによっては明白な同期信号は必要ではなくなることがある。同期信号をなくすことで、ウォーターマークの知覚可能性を低下させ、頑強性を高めることができる。

[00021]ＳＩＦＴの説明
[00022]ＳＩＦＴは、Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍの頭文字であり、ＤａｖｉｄＬｏｗｅによって開拓されたコンピュータ視覚技術であり、「ＤｉｓｔｉｎｃｔｉｖｅＩｍａｇｅＦｅａｔｕｒｅｓｆｒｏｍＳｃａｌｅ−ＩｎｖａｒｉａｎｔＫｅｙｐｏｉｎｔｓ」ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，６０，２（２００４年）、９１〜１１０ページ、及び「ＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎｆｒｏｍＬｏｃａｌＳｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅｓ」ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｃｏｒｆｕ，Ｇｒｅｅｃｅ（１９９９年９月）、１１５０〜１１５７ページを含むＤａｖｉｄＬｏｗｅの各種論文並びに特許第６，７１１，２９３号で説明されている。

[00023]ＳＩＦＴは、ローカル画像特徴の識別及び記述並びにその後の検出によって機能する。ＳＩＦＴ特徴は、ローカルであり、特定の関心ポイントにおけるオブジェクトの外見に基づき、画像のスケール、回転及びアフィン変換に対して不変である。ＳＩＦＴ特徴はまた、照明の変化、ノイズ及び視点の変化に対して頑強である。これらの特性に加えて、ＳＩＦＴ特徴は、独特で、抽出が比較的容易で、ミスマッチの確率の低い適正なオブジェクト識別を可能にし、ローカル特徴の（大規模な）データベースとの照合が単純である。一連のＳＩＦＴ特徴によるオブジェクト記述は、部分的閉塞（ｐａｒｔｉａｌｏｃｃｌｕｓｉｏｎ）に対して頑強で、オブジェクトからの３つのＳＩＦＴ特徴だけで、場所及び姿勢（ｐｏｓｅ）を計算するのに十分である。

[00024]この技法は、基準画像におけるキーポイントと呼ばれるローカル画像特徴を識別することによって始まる。これは、様々なスケール（解像度）でガウスぼかしフィルタを用いて画像を畳み込み、連続的なガウスぼかし画像間の差異を見極めることによって行われる。キーポイントは、複数のスケールで発生するガウス微分の極大又は極小を有するこうした画像特徴である。（ガウス微分フレームにおける各ピクセルは、同じスケールにおける８つの近接ピクセル、及び近接したスケール（例えば、９個の他のスケール）の各々における対応するピクセルと比較される）。ピクセル値は、これら全てのピクセルによる最大値又は最小値である場合、候補キーポイントとして選ばれる。

[00025]（上述の手順は、画像のスケール−位置特定ラプラス変換（ｓｃａｌｅ−ｌｏｃａｌｉｚｅｄＬａｐｌａｃｉａｎｔｒａｎｓｆｏｒｍ）の空間−スケールの極値を検出するブロブ検出方法であることが認識されよう。ガウス微分アプローチは、ビラミッド構成で表される、こうしたラプラス演算に近似したものである。）

[00026]上記の手順は通常、例えば、低コントラストを有する（その結果、ノイズに弱い）ため、又はエッジに沿って不完全に決定された位置を有する（ガウス微分関数はエッジに沿って強い反応を有し、多くの候補キーポイントをもたらすが、これらの多くはノイズに対して頑強ではない）ため、不適当な多くのキーポイントを識別する。これらの信頼できないキーポイントは、正確な位置、スケール及び主曲率で近接データに候補キーポイントを厳密に適用することによってふるい落とされる。これは、低コントラストを有する、又はエッジに沿って不完全に所在するキーポイントを拒絶する。

[00027]より具体的には、このプロセスは、候補キーポイントごとに、キーポイント位置をより正確に特定するため近接データを補間することによって始まる。これは最大値／最小値の位置の正確な推定値を割り出すため、キーポイントを起点としてテイラー展開によって実行されることが多い。

[00028]また、２次テイラー展開の値を使用して、低コントラストのキーポイントを識別することもできる。コントラストがしきい値（例えば、０．０３）を下回った場合、キーポイントは除去される。

[00029]強いエッジ応答を有するが、不完全に局所化するキーポイントを除去するため、隅検出手順の変形が適用される。手短に言えば、これはエッジを横切る主曲率の計算、及びエッジに沿った主曲率との比較を含む。これは２次のヘッセ行列の固有値について解くことによって行われる。

[00030]不適当なキーポイントが除去されると、残っているキーポイントは方位に関してローカル画像勾配関数によって評価される。勾配の大きさ及び方向は、（キーポイントのスケールによる）ガウスぼかし画像の当該キーポイントの周りの近隣領域にあるピクセルごとに計算される。次いで３６個のビンを有する方位ヒストグラムがコンパイルされ、各ビンは１０°の方位を取り囲む。近隣における各ピクセルはヒストグラムに寄与し、この寄与は勾配の大きさによって、またガウス関数によってキーポイントのσ１．５倍のスケールで重み付けされる。このヒストグラムのピークは、キーポイントの支配的な方位を特定する。この方位データにより、キーポイント記述子をこの方位に相対的に表すことができるため、ＳＩＦＴは回転の頑強性を達成することができる。

[00031]上記から、様々なスケールにおける複数のキーポイントが識別され、各々は対応する方位を有する。このデータは、画像の並進、スケール及び回転に対して不変である。次いで、１２８個の要素記述子がキーポイントごとに生成され、照明及び３Ｄ視点に対する頑強性を実現できる。

[00032]このオペレーションは、検討したばかりの方位評価手順と似ている。キーポイント記述子は、（４×４）ピクセル近傍に対して１組の方位ヒストグラムとして計算される。方位ヒストグラムはキーポイント方位に相対的なものであり、方位データはキーポイントのスケールに最も近いスケールのガウス画像からもたらされる。前述のように、各ピクセルの寄与は、勾配の大きさによって、またガウス関数によってキーポイントのスケールのσ１．５倍で重み付けされる。ヒストグラムはそれぞれ８個のビンを含み、各記述子は、キーポイントの周りに４×４の配列の１６個のヒストグラムを含む。これは（４×４×８＝１２８要素）であるＳＩＦＴ特徴ベクトルにつながる。このベクトルを正規化して、照明の変化に対する不変性を高める。

[00033]前述の手順をトレーニング画像に適用して、基準データベースをコンパイルする。次いで未知の画像が上記のように処理されて、キーポイントデータを生成し、データベースで合致度の最も高い画像が、ユークリッド距離のような尺度によって識別される。（純粋なユークリッド距離計算の代わりに通常は「最適ビン優先（ｂｅｓｔ−ｂｉｎ−ｆｉｒｓｔ）」アルゴリズムを使用して、大幅な速度改善を実現する。）偽陽性を回避するため、最も優れた合致の距離スコアが２番目に優れた合致の距離スコアに近い、例えば２５％の場合、「合致なし」出力が生成される。

[00034]パフォーマンスを更に改善するため、画像はクラスタリングによって照合できる。これは同じ基準画像に属する特徴を識別し、クラスタ化されていない結果を偽として除外することができる。ハフ変換を使用し、同じオブジェクト姿勢を支持する特徴のクラスタを識別することができる。

[00035]次世代携帯電話における実施に適した、ＳＩＦＴ手順を実行するための特定のハードウェア実施形態を詳述した論文は、Ｂｏｎａｔｏら「ＰａｒａｌｌｅｌＨａｒｄｗａｒｅＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＳｃａｌｅａｎｄＲｏｔａｔｉｏｎＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＤｅｔｅｃｔｉｏｎ」ＩＥＥＥＴｒａｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈ、Ｖｏｌ．１８、Ｎｏ．１２、２００８年である。

[00036]ＳＩＦＴ技法を実施するための代替的なハードウェアアーキテクチャは、Ｓｅら「ＶｉｓｉｏｎＢａｓｅｄＭｏｄｅｌｉｎｇａｎｄＬｏｃａｌｉｚａｔｉｏｎｆｏｒＰｌａｎｅｔａｒｙＥｘｐｌｏｒａｔｉｏｎＲｏｖｅｒｓ」Ｐｒｏｃ．ｏｆＩｎｔ．ＡｓｔｒｏｎａｕｔｉｃａｌＣｏｎｇｒｅｓｓ（ＩＡＣ）、２００４年１０月に詳述されている。

[00037]ＳＩＦＴは頑強なローカル記述子を生成する最もよく知られた技法かもしれないが、アプリケーションによっては多少なりとも適切であり得る他の技法もある。これらには、ＧＬＯＨ（Ｍｉｋｏｌａｊｃｚｙｋら「ＰｅｒｆｏｒｍａｎｃｅＥｖａｌｕａｔｉｏｎｏｆＬｏｃａｌＤｅｓｃｒｉｐｔｏｒｓ」ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌ．Ｍａｃｈ．Ｉｎｔｅｌｌ．、Ｖｏｌ．２７、Ｎｏ．１０、１６１５〜１６３０ページ、２００５年を参照）及びＳＵＲＦ（Ｂａｙら「ＳＵＲＦ：ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ」、Ｅｕｒ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（１）、４０４〜４１７ページ、２００６年、Ｃｈｅｎら「ＥｆｆｉｃｉｅｎｔＥｘｔｒａｃｔｉｏｎｏｆＲｏｂｕｓｔＩｍａｇｅＦｅａｔｕｒｅｓｏｎＭｏｂｉｌｅＤｅｖｉｃｅｓ」Ｐｒｏｃ．ｏｆ６^ｔｈＩＥＥＥａｎｄＡＣＭＩｎｔ．Ｓｙｍｐ．ＯｎＭｉｘｅｄａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、２００７年及びＴａｋａｃｓら「ＯｕｔｄｏｏｒｓＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙｏｎＭｏｂｉｌｅＰｈｏｎｅＵｓｉｎｇＬｏｘｅｌ−ＢａｓｅｄＶｉｓｕａｌＦｅａｔｕｒｅＯｒｇａｎｉｚａｔｉｏｎ」ＡＣＭＩｎｔ．Ｃｏｎｆ．ｏｎＭｕｌｔｉｍｅｄｉａＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ、２００８年１０月を参照）が含まれる。

１．５ホストコンテンツの除去のためのフィンガープリンティング及び認識技法の使用
[00038]セクション１．４で説明したアプローチは、フィンガープリンティング又は認識技法を使用して、メディア信号サンプルのコンテンツを識別し、メディア信号サンプルを同期化することで、データベースに保存された基準コピーとの整合性をとり、次いで基準信号を使用してメディア信号サンプルのホストコンテンツを除去し（取り去る）、ウォーターマーク信号のみが残るようにすることにより、更に拡大することができる。ホスト情報（元の画像）を除去することにより、信号対ノイズ比を向上させ、頑強性が高まる。事実上、このアプローチはウォーターマーク検出を非ブラインド型アプローチ（すなわち、通知された（ｉｎｆｏｒｍｅｄ）検出）に変える。この場合、ウォーターマークペイロードは直列化又は追跡などのため情報ビットを運ぶ目的で使用できる。

２メディア信号サンプルからのチャネル特性の導出
[00039]コンテンツ識別は典型的には、メディア信号のサンプルを識別することに関係する。コンテンツ識別技法は通常、メディア信号サンプルが経験した可能性のある変換を無視する（又は克服さえする）ように設計される。アプリケーションによっては、これはメディア信号が経験した変換の性質を判断することが役立つ場合がある。例えば、サンプルは低解像度ビデオ、高精細度ビデオであるか、又は信号のコンテンツはサイズ変更（スケーリング）若しくは回転されているか。他のアプリケーションでは、これはサンプルの配信経路を判断することが必要な場合がある。例えば、ビデオは元のメディアのモバイル版であったか、ブロードキャスト版であったか。

[00040]ウォーターマーキングによって提供される情報伝達能力を使用して、ウォーターマークペイロードに配信経路を符号化することができる。また、ビデオ信号の場合、ウォーターマークを信号の音声部分とビデオ部分の両方に埋め込むことができる。音声又はビデオが別のビデオからのセグメントによって変更又は交換される変換は、信号の各部分から回復されるウォーターマークペイロードの完全性及び一貫性を検証することによって検出され得る。例えば、ビデオ部分のウォーターマークペイロードの一部は、音声部分のペイロードへの手がかりを提供するように符号化され得る（又はその逆）。最も単純な場合には、音声ウォーターマークとビデオウォーターマークとが同一であることもある。また、検証は時間の関数としてペイロードの一貫性及び完全性をチェックすることによって実行できる。こうして、ビデオフレームの合成又は１つ若しくは複数の音声トラックの交換といった変更を識別できる。ウォーターマーク信号の同期化構成要素は、メディアに対する他の変換に関する情報を直接提供することができる。例えば、同期化プロセスは、画像がアフィン幾何学的変換を経験したことを突き止めることがある。又は、音声信号のタイムスケールが変更されたことを突き止めることがある。

[00041]フィンガープリンティング及び認識技法は一般に、メディア信号に対する変換、特に識別のタスクに知覚的に関係ない変換を無視又は破棄するように設計される。しかし、メディア信号サンプルが識別されると、サンプルが経験した変換を突き止めるため、又はサンプルが配信されたチャネルの特性を突き止めるため、更なる分析を実行することができる。これは音声認識及び話者識別のフィールドで実行される処理に類似している。音声認識では、個々の話者の特性は無視されて、発話内容の認識に焦点を当てる。話者識別では、発話内容を無視する一方で個々の話者の特性を抽出することに重点が置かれる。一方、発話内容の判断を有利に利用して、話者の特性を際立たせる（ｈｏｎｅｉｎｏｎ）こともできる。以下では、フィンガープリンティング及び認識技法を使用してチャネル特性を導出する一部のアプローチについて述べる。

[00042]続くセクションでは、様々な種類のフィンガープリント技法について論じる。１．コンテンツ信号を識別するのに使用されるものは、ａ）チャネル独立型、及びｂ）チャネル依存型である。２．特定のコンテンツ信号ではなく、（例えば、圧縮フォーマット、伝送チャネルなどの）コンテンツ信号が配信されるチャネルの特性である信号特性の抽出（これはチャネル依存型であるが、コンテンツ信号依存型ではない）。典型的には基本的認識において、フィンガープリント技法は種類１．ａ）向けに設計される。この場合、認識自体によって、チャネルを識別できるようにはならないが、システムはコンテンツ信号の基準版を取り出すことができるようになり、次いでこれを受信信号と比較して歪み（チャネルが特定されたところからのチャネル歪みを含む）を判断することができる。種類１．ｂ）では、フィンガープリントデータベースは様々な組のフィンガープリントにセグメント化され、各組は特定のチャネルに依存する。このセグメント化により、チャネルを識別すること、及び／又はシステムが（例えば、様々な組にわたって照合のため検索を実行することにより）様々なチャネルにわたって信号を識別することができる。好ましくは、チャネル特性を判断し、次いで少なくとも、かかる特性に関連するチャネルに依存するコンテンツフィンガープリントが保存されているデータベースのセグメントに対するデータベース照合プロセスに優先順位を付けることによって、コンテンツ認識は最適化される。種類２では、システムはチャネルに関連する特性（例えば、様々なチャネルの歪みから区別可能な、チャネルによってもたらされた歪みを反映した特定の属性）を抽出する。これらのシステムを統合して、最適化された認識又は望ましい適用結果（例えば、コンテンツ認識、コンテンツ及びチャネル認識、チャネル識別、歪み分析などのための効果的なデータベース検索）を実現できる。例えば、種類２のアプローチを使用してチャネルを識別するためにチャネル特性の抽出が使用され（セクション２．２を参照）、次いで種類１．ｂアプローチを使用して当該チャネルのコンテンツ信号依存フィンガープリントが検索される（セクション２．２．１を参照。）

２．１コンテンツ識別後のチャネル（歪み）の識別
[00043]このアプローチでは、メディア信号サンプルは、通常どおり認識若しくはフィンガープリンティング技法を使用して（又は更にウォーターマーキングを使用して）識別される。メディアサンプルが識別されると、基準データベースに保存されているこのメディアの基準信号で比較分析を実行できる。この分析は、信号サンプルの忠実度を基準の忠実度と比較することによる、圧縮の存在及び量又は信号品質の推定値を特定するための信号帯域幅の比較を含むことができる。画像又はビデオフレームについては、画像登録技法（Ｌ．Ｇ．Ｂｒｏｗｎ、Ａｓｕｒｖｅｙｏｆｉｍａｇｅｒｅｇｉｓｔｒａｔｉｏｎｔｅｃｈｎｉｑｕｅｓ、ＡＣＭ．ＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ２４（１９９２年）、３２６〜３７６）を使用して幾何学的変換（回転の変更、スケール、アフィン変換、クロッピング、縦横比の変更など）を突き止めるためサンプルと基準とを比較することができる。

[00044]最初の識別がサンプル信号における複数のメディア信号の存在を示した場合、提示された各アイデンティティに対応する基準信号とサンプルを比較することができる。メディアサンプルの部分を基準信号の部分と相関させて、ビデオフレーム交換、画像領域交換又は音声部分の交換若しくはダビングといった操作を突き止めることができる。

[00045]サンプル及び基準信号の詳細な分析は、サンプル信号によって取られた可能性のある配信経路を明らかにすることができる。例えば、ビデオが３つの異なるチャネル、すなわち、ブルーレイディスクなどを介した高精細度版、ＤＶＤなどを介した標準精細度版、及び携帯電話で視聴するためのモバイル（低解像度）版を通じて配信されている場合を考えたい。サンプル信号の品質及び帯域幅の分析並びに３つの配信経路の各々からの信号との比較及び相関は、サンプル信号の最も可能性の高い配信経路を割り出すのを後押しすることができる。

２．２チャネル識別後のコンテンツ識別
[00046]場合によっては、メディア信号サンプル自体の識別なしにチャネルが識別されることもある。（例えば、ＭＰ３又はＡＡＣフォーマットの）圧縮された音声サンプルについて考えたい。このサンプルのビットレートは、音声コンテンツを識別する必要を伴わずにビットストリーム自体から判断できる。また、信号劣化を分析することによってチャネル特性を推測することもでき、例えば、フレームサイズが小さい不鮮明なビデオは、高精細度のソースからのものではないだろうと推測される。こうした情報を使用して、フィンガープリンティング又は認識といった識別技法の頑強性を高めることができる。例えば、フィンガープリントデータベースを低解像度部分及び高解像度部分にセグメント化することができる。音声サンプルについては、識別はデータベースの関連部分に限定できる。サンプルが識別されると、セクション２．１で説明したように更なる分析を実行できる。

２．２．１フィンガープリントデータベースのセグメント化
[00047]上述のように、フィンガープリントデータベース探索は、信号特性又はチャネルの識別に基づいて調整できる。フィンガープリントデータベースを別個の領域にセグメント化又は分割して、コンテンツ識別タスクをチャネルの識別に集中させることができる。更なる改善として、フィンガープリントデータベースは同じコンテンツの複数の変形形態への参照を包含することができる。例えば、音声フィンガープリントデータベースの６４ｋｂｐｓのセクションは、６４ｋｂｐｓでの関連特性を保存でき、一方で、より高いビットレートのセクションは、当該ビットレートでの関連特性を保存できる。

３フィンガープリンティングとウォーターマーキングとの連続
[00048]フィンガープリンティング（認識）及びウォーターマーキングは、信号を識別する技法の連続スペクトルの２つの終点として考えることができる。これら２つの終点の間には、コンテンツ由来度の大きい（ｓｔｒｏｎｇｌｙｃｏｎｔｅｎｔｄｅｒｉｖｅｄ）（又はコンテンツベースの）識別からコンテンツ由来度の低い（ｗｅａｋｌｙｃｏｎｔｅｎｔｄｅｒｉｖｅｄ）識別、更にはコンテンツから独立した識別へと変化する１組の技法がある。以下では、これらの技法の一部の例について更に詳しく述べる。

３．１フィンガープリンティング
[00049]フィンガープリンティング及び認識技法は、コンテンツからコンテンツを特徴付ける（パターン、特徴、ビット又はフィンガープリントの形での）情報を導出する。識別は、基準データベースに保存された基準パターン、特徴、ビット又はフィンガープリントと照合することによって実行される。これらの技法では、サンプル信号のフィンガープリントが基準データベースのフィンガープリントと高い確率で合致した場合に合致が得られる。メディアのコピーが知覚的に似ている場合、フィンガープリント又は特徴が合致したことになる。これらの組の技法は情報伝達能力を有さない（すなわち、信号は信号自体から独立した無関係の情報を伝達しない）。なお、以前に分析されておらず、基準データベースに保存されていない信号も識別できない。基準データベースのサイズは、識別される必要のあるメディア信号の数に比例して増加する。

３．２先験的情報を使用したフィンガープリンティング
[00050]これらの組の技法では、フィンガープリンティング又は認識技法はメディアの（事前に知らされている）いくつかの変換を区別することができる。例えば、メディアの前歪み版から抽出されたフィンガープリントを、後に各々別個の前歪み版を識別するために使用できる。先験的情報は、適用できる起こり得る前歪みの種類に関する知識を含む。ここで、適用される歪みは知覚的に有意であってもなくてもよい。このアプローチの例は、セクション２．２．１で説明したものを含む。これらの技法の識別プロセスはセクション２．１の説明に沿って進むことができる。例えば、最初の識別は前歪みを無視することができる一方、最初の識別の後、信号の更なる検査を実行して、照合する別個の前歪み版を特定することができる。

３．３事後情報を使用したフィンガープリンティング
[00051]事後情報を使用したフィンガープリンティングでは、識別部分は従来型のフィンガープリンティングと同様に実行される。メディアサンプルが識別されると、事後情報を使用してメディア信号サンプルの更なる特性を推測する。こうした特性は、サンプルが配信又は送信されたチャネル並びに信号が経験した可能性のある劣化及び操作に関する情報を含む。事後情報は、メディア信号が様々なチャネルを通じていかに挙動し、劣化するかを分析することによって得られる知識、並びにメディア信号の属性に対する劣化及び操作の影響に関する知識を含む。この知識は、その特定のメディア信号から直接導出することはできないが、関連メディア信号の収集における観察される挙動を一般化したものであり得る。セクション２．１で述べた技法はこのカテゴリーに入る。

３．４フィンガープリンティングとウォーターマーキングとの組合せ
[00052]この技法カテゴリーでは、フィンガープリンティング及びウォーターマーキングの両方を用いて、各技法によってもたらされる相補的利益を利用し、それぞれの限界及び弱点を克服する。フィンガープリンティングとウォーターマーキングとの組合せを示すいくつかの例は、セクション１で説明している。更に、技法の組合せは、レガシーメディア及びシステムコストに対処するのに特に役に立つ。例えば、ウォーターマークされていないレガシーメディアは、フィンガープリンティング技法を使用して識別される。また、識別中のシステムコストを下げるため、ウォーターマーク検出が最初に実行される。ウォーターマーク検出が失敗した場合、フィンガープリントを抽出して基準データベースの検索及び基準データベースとの照合を行う。ウォーターマーク検出及びフィンガープリント抽出の両方に共通する信号処理演算を最初に実行して、重複を回避する。

３．５ウォーターマーキングとフィンガープリンティングとの統合
[00053]これらの技法種類では、コンテンツから導出された特性情報（すなわち、フィンガープリント）がウォーターマークペイロード内に保存される。米国特許第７，５１９，８１９号を参照されたい。こうして、コンテンツ由来情報はウォーターマーク内にしっかり結び付けられる。これらの技法は認証型アプリケーションで主に使用される。

３．６通知されたウォーターマーキング
[00054]この技法種類では、メディア信号に関する情報がウォーターマーキングで使用されるが、ウォーターマークペイロードに直接的に符号化されることはない。通知されたコーディングでは、ウォーターマーク信号（又はペイロード）を含むコード語は、ホストメディア信号の知識によって影響される。通知された埋込みでは、ウォーターマーク信号はホストメディア信号の知識に基づいて変更又は形成される。通知された検出（非ブラインド型検出）では、ウォーターマーク検出プロセスに対し、元のホストメディア信号に関する情報が与えられる（Ｉ．Ｊ．Ｃｏｘ、Ｍ．Ｌ．Ｍｉｌｌｅｒ、及びＪ．Ａ．Ｂｌｏｏｍ「Ｄｉｇｉｔａｌｗａｔｅｒｍａｒｋｉｎｇ」ＭｏｒｇａｎＫａｕｆｍａｎｎ、２００１年。）

[00055]フィンガープリンティングは、フィンガープリント照合を使用してメディア信号コンテンツを識別することによって、通知された検出をサポートするために使用できる。識別されると、元のメディア信号をデータベースから取り出し、ウォーターマーク検出プロセスで利用することができる。この元の信号をメディア信号から取り去って、ホスト信号に起因するウォーターマーク信号への干渉を除去することができる。或いは、フィンガープリンティング技法は、同期化情報を提供するためだけに使用できる。かかる技法については、セクション１．４及びセクション１．５で説明している。

３．７補助的認識によるウォーターマーキング
[00056]この技法カテゴリーでは、ウォーターマークペイロードはホストメディア信号コンテンツから独立している。一方、フィンガープリンティング及び認識技法を使用して、コンテンツ自体から補助的情報を抽出する。かかる補助的情報は、メディア信号の属性（例えば、支配的な色が青である、又は支配的なテクスチャが砂のようである、など）、更には意味情報（赤い車を運転している人物）を含むことができる。次いで、かかる情報を使用して、（コンテンツを事前分析することなく）知的検索及び取出し能力を促進することができる。

３．８ウォーターマーキング
[00057]通常のウォーターマーキングでは、ウォーターマーク信号（ペイロード）によって伝えられる情報は、ウォーターマークが埋め込まれているホストコンテンツから独立している。識別は、ウォーターマーク信号の存在を検出し、符号化されたメッセージを復号し、ペイロード情報ビットを回復することによって実行される。ペイロードを回復するのに基準データベースは必要とされない。通常、ウォーターマークはホストメディアコンテンツに知覚不可能な形で埋め込まれる。ウォーターマーキングを使用して、メディア信号の本来的に同一のコピーは別個のアイデンティティを、別個のペイロードを当該コピーに埋め込むことによって与えられる。メディアコンテンツは、ウォーターマーキングシステムで有用となる前にウォーターマークされなければならない。

３．９適応システム
[00058]適応アプローチは、１つの技法から別の技法へとシームレスに切り替わり、利用可能な処理能力、バッテリー電力、ネットワーク接続、帯域幅、検出コスト、検索及び照合コスト、接続コストといったパラメータに基づき適合し、検出はクライアントで実行されるべきか、それともサーバで実行されるべきかを決定する。例えば、ウォーターマークされ、更にフィンガープリントデータベースで参照されるメディア信号について考えたい。モバイルデバイスにおけるこの信号のサンプルの検出のため、ウォーターマーキング又はフィンガープリンティングを使用することができる。ウォーターマーク検出をデバイス自体でローカルに容易に実行できる場合、当該検出から始めることができる。ウォーターマークが発見されなかった場合、システムはサンプルからフィンガープリントを抽出すること、及び基準データベースと照合することを求める。デバイス能力（処理）がローカルフィンガープリント抽出をサポートしないが、帯域幅及び接続が制約とならない場合、デバイスはフィンガープリントの抽出及び照合のため、サンプル（又はその縮小版）を遠隔サーバに送信することができる。バッテリー電力が制限されている場合、システムは（送信がローカルＣＰＵでの処理より多くの電力を必要とすると仮定した場合）送信前に大半の処理ステップをローカルで実行する。上記で参照により組み込まれる米国特許公開第２００６００３１６８４号は、様々な要素に基づきコンテンツ認識を調整するデバイスについて説明している。

４ウォーターマークペイロードにおけるタイムコードの効果的な符号化及び回復
[00059]タイムコードをウォーターマークペイロードに効果的に符号化し、その後、当該コードの性質を利用することにより検出している間に復号することができる。時間情報は様々な方法でウォーターマークペイロード内に含まれ得る。１つの方法は、タイムコードを文字列、例えば日、月及び年を表すＤＤ：ＭＭ：ＹＹＹＹ又は時間、分及び秒を表すＨＨ：ＭＭ：ＳＳとして扱うことである。別の方法は、例えば３２ビット又は６４ビットコードの整数コードの形で時間情報を符号化することである。整数コードは所定の出発点からのクロックチック数をカウントする。この一例では、コードの種類がＵＮＩＸ（登録商標）オペレーティングシステムにあり、時間が１９７０年１月1日からの経過秒数としてカウントされる。

[00060]この種類のタイムコードはウォーターマークペイロードでの符号化に役立ち、検出中に利用され得る。メディア信号（例えば、ビデオ、音声又は時間的に変化している任意の信号）に整数ベースのタイムコードウォーターマークが埋め込まれ、タイムコードがＴ秒ごとに変わる場合について考えたい。ここで、Ｔ＝１と仮定する。そうすると、ペイロードを含むタイムコードの整数は（タイムコードの更新間隔も１秒である場合）１秒ごとに１ビット変化する。検出中、１秒より大きい時間間隔でのウォーターマークペイロードの蓄積は、時間分解能の一部が失われるものの、時間間隔における整数タイムコードの共通部分の頑強性を高めることができる。ここで留意すべき点は、経時的にゆっくり変化するペイロードの場合、信号の部分を選択的に蓄積することが価値のある戦略となり得ることである。この改善に加えて、特別に設計された符号化スキーム、誤り訂正及び誤り検出スキームはこの種類のウォーターマークを更に利用することができる。

[00061]畳み込みコードに基づく誤り訂正スキームについて考えたい。１秒の間隔ごとのペイロードには１／３レートの畳み込みコードが適用されると仮定する。そうすると、任意の２つの連続した組の符号化ビット間の差は最後の３ビットとなる。任意の３つの連続した組の符号化ビット間の差は最後の６ビットとなる、といった具合だ。検出中にこの構成を利用して、検出の頑強性を高めることができる。頑強性の向上は、隣接するウォーターマークセグメント間で共通の符号化ビットを結合すること（蓄積すること）によって達成できる。なお、蓄積は時間分解能が低下する可能性を暗示しており、例えば、２つの隣接するセグメントが蓄積され、畳み込みデコーダによって取られた（最後の３つの符号化ビットは無視）場合、タイムコードにおける最後の秒に関する情報は失われる。その場合、使用する蓄積の量は、頑強性の向上と時間分解能の低下とのトレードオフである。非常に弱い信号状況における制限下では、タイムコードの共通部分をできるだけ多く回復するためにメディア信号の長さ全体にわたって符号化ビットを蓄積することができる。なお、時間分解能が低下する（最後の秒に向かって精度が低下する）場合でも、時間的精度が高いセグメントから失われたデータを補間することによってこの情報を回復できることもある。

[00062]このコンセプトの１つの変形形態は、頑強性を高める一方で時間分解能及び精度を保持するように設計され得る。上記の整数タイムコードで、整数の各増分値が１秒に対応するクロックチックを示す場合について考えたい。この整数の最下位ビット（ＬＳＢ）は１秒ごとに変化する。通常、この整数コードに対応するビットは、最上位ビット（ＭＳＢ）から始まり、ＬＳＢで終わる畳み込みコードに入力される。ここで、この整数に対応するビットに対して、ビット逆順の畳み込みコードにより誤り訂正を行う場合について考えたい。すなわち、ビットは、ＬＳＢから始まり、ＭＳＢで終わる畳み込みコードに入力される。このビット逆順符号化アプローチにより、隣接した誤り訂正符号化ウォーターマークセグメントでは、（長い入力ビットシーケンスの場合は特に）符号化シーケンスの終わりに向けて符号化ビットが同じになり、符号化シーケンスの初めでは符号化ビットが異なる。これにより、共通部分を結合し、固有の部分を復号前の状態のままにすることができる。実際、この結合は畳み込みコードとともに加重反復スキームを達成する。加重反復スキームでは、いくつかの符号化ビットは、他のビットより高い反復レート（又は重み）を受け取る。畳み込みコードでは、最後の符号化ビットの重み付けを重くして頑強性を高める。参照により本明細書に組み込まれる、米国特許第７，４１２，０７２号及び米国特許公開第２００２／０１５９６１４号を参照されたい。タイムコードでの加重結合により、畳み込みコードビットの終わりの部分は、最初の部分よりはるかに信頼性が高くなる。終わりのビットの信頼性を高めることは、最初のビットの復号及び訂正の成功度合いを高めることに直結する。このスキームは（最初のビットについて、誤りがある場合に訂正される可能性が格段に高まるため）時間の精度を犠牲にすることなく頑強性の向上を実現する。

[00063]隣接するセグメントの共通の符号化ビットを蓄積することによって作成された上述の黙示的加重反復コードは、明示的加重反復コードを使用することによって更に強化され得る。この特定の場合、明示的加重反復コードは、（上述の従来型の加重反復スキームで行われているのとは対照的に）ペイロードビットの初めに相対的に高い反復重み付けを与えるように設計される。次いで、黙示的重み付けを使用して、ペイロードの後半部分の重み付けをする。

[00064]なお、前述の日、月、年に基づく符号化を修正して、ここで述べたアプローチを利用することもできる。例えば、順序付けを年、月及び日に変更して経時的にゆっくり変化させることができる。時間が符号化され、それによりタイムコードがゆっくり変化する特性を示す場合、上記の改善全てが適用可能である。ここで説明しているアプローチをゆっくり変わっている任意のウォーターマーク信号、例えば、様々な速度で変わるビットのシーケンス又は他のメッセージ記号を有するウォーターマークペイロードに適用することができる。コンテンツ内においてある間隔で反復されるペイロードの構成要素は、反復間隔（構成要素がなお同じである時間間隔）以下の時間間隔に選択的に蓄積される。

[00065]図１は、フィンガープリント及びウォーターマークを使用したコンテンツ認識システムの作成を示すブロック図である。デジタル化入力画像／ビデオ／音声信号１００がフィンガープリント計算器／ウォーターマーク埋込み器１０２に入力され、フィンガープリント計算器／ウォーターマーク埋込み器１０２は、一意に認識される各コンテンツアイテムの複数のフィンガープリントを計算し、更にコンテンツアイテムをウォーターマークする。データベース入力プロセス１０４では、フィンガープリントがコンテンツアイテムのメタデータ、必要に応じて使用されるデジタルマスターコピー（元のコンテンツの使用に関する上述の技法を参照）などの追加情報とともにデータベースに入力され、保存される。データベースシステムのデータベース編成プロセス１０６は、フィンガープリントを木構造などのデータ構造に分類し配列して、素早い検索及び照合を可能にする。このデータベース自体は、識別ネットワークの多くのコンピュータに配布される（１０８）。このネットワークは、ユーザのハンドヘルドモバイルデバイス又は他のコンピューティングデバイス（監視デバイスのネットワークのノード）などの要求元デバイスから一連のフィンガープリント及び／又はウォーターマークに基づきコンテンツアイテムを識別又は認識するよう求める照会を受信する。

[00066]図２は、コンテンツ識別プロセスを示すブロック図である。着信信号１０９が受信機１１０でキャプチャされる。これは、画像がカメラのような画像センサ又は他の画像キャプチャデバイスでキャプチャされてデジタル化される静止画像又はビデオ画像のキャプチャのほか、マイクロフォンによる周囲の音声のキャプチャを含む。これはまた、ブロードキャストストリーム又はファイル転送を含むブロードキャスト又は伝送チャネルでの音声、画像又はビデオコンテンツの受信を含む。認識プロセスは、コンテンツ信号の系統的なインターネット監視又はブロードキャスト監視の一環として、家庭用視聴動向測定（ｈｏｍｅａｕｄｉｅｎｃｅｍｅａｓｕｒｅｍｅｎｔ）、一括データベース検索及びコンテンツ索引付け、又はコンテンツ認識及びメタデータ検索に対するユーザの要求で発動され得る。フィンガープリント計算器／ウォーターマーク抽出器１１２は、着信コンテンツアイテムのフィンガープリント及び／又はウォーターマークを計算し、合致するフィンガープリントのデータベース検索及びウォーターマークに基づく識別子のデータ探索のためのデータベース１１４に提供する。検索プロセスで発見されたフィンガープリントの合致及びウォーターマーク識別子は、コンテンツＩＤ（メタデータ探索のための複数の又は他の形式のインデックス）を提供し、その結果、１つ又は複数のメタデータデータベースでコンテンツＩＤに対応するメタデータの探索が可能になる。次いで、メタデータは表示／出力又は更なる処理のためデバイス１１６に戻される。これは、データベース検索を要求したデバイス又は検索結果が知らされる他のデバイス（例えば、ユーザのホームデバイス、電子報告生成のためメタデータ及び認識イベントが集められてコンパイルされる監視システムのデータ収集データベース）にメタデータを戻すことを伴うことがある。

[00067]上記のプロセス、システム及びシステム構成要素は、様々なコンピューティング環境及びデバイスで実施できると想定される。プロセス及び構成要素がデバイス内で、また複数のデバイスにわたって実施されることが明確に企図されている。例えば、信号キャプチャ、署名計算並びにデータベースの入力及び編成が１組のデバイスで実行されて認識システムを構築し、信号キャプチャ、署名計算並びにデータベースの検索及び取出しが別の組のデバイスで実行され、これは別個であってもオーバーラップしてもよい。

[00068]プロセス及びシステム構成要素を実施するため使用されるコンピューティング環境は、汎用プログラマブルコンピューティングデバイスから専用回路及び両方の組合せを含むデバイスに至る広範囲を網羅する。プロセス及びシステム構成要素は、マイクロプロセッサ、デジタル信号プロセッサなど様々なプログラマブルプロセッサ向け汎用プロセッサ命令を含むコンピューティングデバイス向け命令として実施できる。こうした命令は、ソフトウェア、ファームウェアなどとして実施できる。こうした命令を、プログラマブル論理デバイス、デジタル回路、アナログ回路及びアナログ／デジタル混合回路など特定用途向け回路を含む様々な形式のプロセッサ回路に変換することもできる。命令の実行をプロセッサ間に分散すること、及び／又はデバイス内のプロセッサにわたって、若しくはデバイスのネットワークにわたって並行して行うことができる。コンテンツ信号データの変換も、様々なプロセッサ及びメモリデバイス間に分散できる。

[00069]コンピューティングデバイスは、必要に応じて、１つ又は複数のプロセッサ、１つ又は複数のメモリ（コンピュータ可読媒体を含む）、入力デバイス、出力デバイス及びこれらの構成要素間の通信（バスと呼ばれる場合もある）を含む。ソフトウェア／ファームウェアの場合、命令は通信バス、インターフェース回路又はネットワークを介して光記憶媒体、電子記憶媒体又は磁気記憶媒体などのコンピュータ可読媒体から読み取られ、１つ又は複数のプロセッサで実行される。

[00070]コンテンツ信号の上記処理はこれらの信号を様々な物理的形態に変換することを含む。画像及びビデオ（物理空間を移動し、物理的オブジェクトを示す電磁波の形態）を、カメラ若しくは他のキャプチャ機器を使用して物理的オブジェクトからキャプチャすること、又はコンピューティングデバイスによって生成することができる。同様に、物理的媒体を移動する音声圧力波を音声変換器（例えば、マイクロフォン）を使用してキャプチャし、電子信号（デジタル形態又はアナログ形態）に変換することができる。これらの信号は、典型的には電子形態及びデジタル形態で処理されて、上記の構成要素及び処理を実施するが、これらの信号を電子形態、光形態、磁気形態及び電磁波形態を含む他の物理的形態でキャプチャ、処理、転送及び保存することもできる。コンテンツ信号は、上記の署名のデータ構造表示を含む署名を計算する処理中に変換される。そして、メモリ内のデータ構造信号は、検索、分類、読取り、書込み及び取出しの最中に操作するため変換される。信号はまた、キャプチャ、転送、保存、及びディスプレイ又は音声変換器（例えば、スピーカー）を介した出力のため変換される。

[00071]（携帯電話のような）モバイルデバイス及び埋込みシステムに言及してきたが、この技術は携帯式及び固定式の両方を含む全ての方式のデバイスで有用であることが認識されよう。ＰＤＡ、オーガナイザ、ポータブル音楽プレーヤ、デスクトップコンピュータ、ウェアラブルコンピュータ、サーバなどは全て、本明細書で詳述した原理を利用することができる。特に企図されている携帯電話は、Ａｐｐｌｅ（登録商標）のｉＰｈｏｎｅ（登録商標）、及びＧｏｏｇｌｅ（登録商標）のＡｎｄｒｏｉｄ（登録商標）仕様に準拠した携帯電話（例えば、ＨＴＣＣｏｒｐによってＴ−Ｍｏｂｉｌｅ（登録商標）用に製造されたＧ１電話）を含む。「携帯電話（ｃｅｌｌｐｈｏｎｅ）」という用語は、全てのこうしたデバイス、厳密に言えばセルラーでも電話でもないものも包含すると解釈されるべきである。

[00072]（タッチインターフェースを含むｉＰｈｏｎｅ（登録商標）の詳細は、公開されている特許出願公報第２００８／０１７４５７０号で示されている。）

[00073]本開示の方法を実行するために利用できる携帯電話及び他のコンピュータの設計は、当業者にはよく知られている。一般論的に、各々は、１つ又は複数のプロセッサ、１つ又は複数のメモリ（例えば、ＲＡＭ）、記憶装置（例えば、ディスク又はフラッシュメモリ）、ユーザインターフェース（これは例えば、グラフィカルユーザインターフェースを提供するためのソフトウェア命令とともにキーパッド、ＴＦＴＬＣＤ又はＯＬＥＤディスプレイスクリーン、タッチセンサ又は他のジェスチャセンサ、カメラ又は他の光学センサ、マイクロフォンなどを含むことができる）、バッテリー、及び他のデバイスと通信するためのインターフェース（これは、ＧＳＭ（登録商標）、ＣＤＭＡ、Ｗ−ＣＤＭＡ、ＣＤＭＡ２０００、ＴＤＭＡ、ＥＶ−ＤＯ、ＨＳＤＰＡ、ＷｉＦｉ（登録商標）、ＷｉＭａｘ（登録商標）若しくはブルートゥース（登録商標）などの無線及び／又はイーサネット（登録商標）ローカルエリアネットワーク、Ｔ−１インターネット接続などを介した有線であり得る）を含む。詳述した構成の一部又は全部を実行するために使用できる例示的な携帯電話が図３に示されている。

[00074]プロセッサは、専用ハードウェアデバイスであることもあり、メモリ若しくはストレージから読み取られるソフトウェア命令を実行するプログラマブルデバイスによって、又はこれらの組合せ実施できる。（Ａｒｍ，Ｌｉｍｉｔｅｄによって開発された３２ビットのＲＩＳＣアーキテクチャを使用したＣＰＵのＡＲＭシリーズは、多くの携帯電話で使用されている。）したがって、「プロセッサ」への言及は、特定の実施形式ではなく機能に言及したものと理解されるべきである。

[00075]専用ハードウェア又はソフトウェア制御型プログラマブルハードウェアによる実施に加えて、プロセッサはＸｉｌｉｎｘＶｉｒｔｅｘ（登録商標）シリーズデバイスなどのフィールドプログラマブルゲートアレイを含むこともできる。或いは、プロセッサはＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓ（登録商標）のＴＭＳ３２０シリーズデバイスなどの１つ又は複数のデジタル信号処理コアを含むことができる。

[00076]詳述した機能を実施するためのソフトウェア命令は、本明細書で提供される説明、参照、結論及び上述の他の判断から、当業者によって容易に作成できる。

[00077]典型的には、詳述した方法を実行するためのデバイスは、ハードウェアデバイスへのインターフェース及び汎用的機能を提供するオペレーティングシステムソフトウェアを含み、ユーザが望む特定のタスクを実行するため選択的に発動できるアプリケーションソフトウェアも含む。既知のブラウザソフトウェア、通信ソフトウェア及びメディア処理ソフトウェアを、本明細書で詳述した使用に適したものにすることができる。いくつかの実施形態は、埋込みシステム、すなわち、（例えば、基本的な携帯電話でよくあるような）ユーザがオペレーティングシステムソフトウェアとアプリケーションソフトウェアとを区別できない専用コンピュータシステムとして実施できる。本明細書で詳述した機能は、オペレーティングシステムソフトウェア、アプリケーションソフトウェア及び／又は埋込みシステムソフトウェアで実施できる。

[00078]様々な機能が様々なデバイスで実施され得る。例えば、携帯電話が遠隔サービスプロバイダのサーバと通信するシステムでは、様々なタスクをいずれかのデバイスによって排他的に実施すること、又は実行をデバイス間で分散することができる。例えば、携帯電話におけるテスト画像からの署名の抽出、及び遠隔サーバにおける対応する基準画像のデータベース検索は１つのアーキテクチャであるが、他のアーキテクチャも多くある。例えば、基準画像に関する情報を携帯電話に保存し、それにより携帯電話によるテスト画像のキャプチャ、署名の生成及び基準画像の保存済み署名データ構造との比較が、全て外部のデバイスに依存することなく行えるようにすることができる。こうして、特定のデバイス（例えば、携帯電話）によって実行されるようなオペレーションの説明は限定的なものではなく、例示であることを理解されたい。別のデバイス（例えば、遠隔サーバ）によるか、デバイス間で共有されるオペレーションのパフォーマンスも明示的に企図されている。（更に、２つを超えるデバイスを通常用いることができる。例えば、サービスプロバイダは、いくつかのタスク、機能又はオペレーションを、こうしたタスクに特化したサーバに任せることができる。）

[00079]同様に、データは、ローカルデバイス、遠隔デバイス、クラウド、分散など、どこにでも保存できる。

[00080]オペレーションは、明確に識別可能なハードウェアによって排他的に実行される必要はない。むしろ、いくつかのオペレーションは他のサービス（例えば、クラウドコンピューティング）に委ねることができ、これはまた別の、一般には匿名のシステムによって実行する。こうした分散型システムは大規模（例えば、世界的なコンピューティングリソースに関係する）、又はローカル（例えば、ポータブルデバイスが近くのデバイスをブルートゥース通信を介して識別し、オペレーションにおいて近くのデバイスの１つ又は複数に関係する場合）である可能性がある。

結びの言葉
[00081]特定の実施態様に関して本技術の原理について説明し、示してきたが、本技術は多くの他の異なる形式で実施できることが認識されよう。本明細書を過度に長くすることなく包括的に開示するため、出願人は参照により上記の特許及び特許出願を組み込む。

[00082]上で詳述した実施形態における要素及び特徴の特定の組合せは例に過ぎず、これらの教示を本明細書及び参照により組み込まれる特許／出願における他の教示に交換及び置換することも企図されている。

Claims

プログラムされたプロセッサによって、コンテンツ信号を識別する方法であって、
前記コンテンツ信号の受信された部分のフィンガープリントを計算するステップと、
前記フィンガープリントを使用して基準データベース内の前記コンテンツ信号を識別するステップであって、前記基準データベースは、前記フィンガープリントを当該基準データベース内の基準フィンガープリントと照合することによって、前記コンテンツ信号のアイデンティティを用意する、当該識別するステップと、
前記基準データベースにおける前記コンテンツ信号のアイデンティティに基づき、前記コンテンツ信号の基準コピーを取得するステップと、
前記基準コピーを使用して前記コンテンツ信号の前記受信された部分からデジタルウォーターマークを抽出し、前記受信された部分内のコンテンツの位置特定情報を決定するステップと、
を含む方法。
前記コンテンツ信号が、前記コンテンツ信号内の位置に対応する複数の固有のデジタルウォーターマークを含み、前記位置特定情報が、前記コンテンツ信号内の位置に対応する前記抽出されたデジタルウォーターマークにおける固有の情報から決定される、請求項１に記載の方法。
前記固有の情報が、前記コンテンツ信号における時間的位置を提供するタイムコードを含む、請求項２に記載の方法。
プログラムされたプロセッサによって実行されるコンテンツ認識方法であって、
コンテンツ信号の受信された部分のフィンガープリントを計算するステップと、
前記フィンガープリントを基準データベースに送信して前記コンテンツ信号を識別するステップであって、前記基準データベースは、前記フィンガープリントを当該基準データベース内の基準フィンガープリントと照合することによって、前記コンテンツ信号のアイデンティティを用意する、当該ステップと、
前記基準データベースにおける前記コンテンツ信号のアイデンティティに基づき、前記コンテンツ信号の基準コピーを取得するステップと、
前記コンテンツ信号の前記受信された部分の歪みを、前記受信された部分と前記基準コピーとの比較分析に基づき判断するステップと、
を含む、コンテンツ認識方法。
前記基準コピー及び前記受信された部分が、前記基準コピーとの比較で前記受信された部分の幾何学的変換を判断するために使用される、請求項４に記載のコンテンツ認識方法。
前記幾何学的変換を適用して、前記受信された部分からデジタルウォーターマークを抽出するために前記受信された部分を同期化するステップ、を含む、請求項５に記載のコンテンツ認識方法。
前記受信された部分から前記デジタルウォーターマークを抽出するステップ、を含む、請求項６に記載のコンテンツ認識方法。
前記歪みが、前記受信された部分の配信チャネルを判断するために使用される、請求項４に記載の方法。
プログラムされたプロセッサによって実行されるコンテンツ認識方法であって、
コンテンツ信号の受信された部分を分析して、前記コンテンツ信号の信号劣化を推測するステップと、
前記信号劣化から配信チャネルを判断するステップと、
前記コンテンツ信号の前記受信された部分のフィンガープリントを計算するステップと、
前記フィンガープリントを基準データベースに送信して前記コンテンツ信号を識別するステップであって、前記基準データベースが、前記フィンガープリントを前記配信チャネルに対応する前記データベース内の１組の基準フィンガープリントと照合することによってアイデンティティを用意し、前記データベースが配信チャネルに対応する様々な組の基準フィンガープリントにセグメント化され、それにより前記様々な組が共通の組のコンテンツ信号の基準フィンガープリントを含むが、前記様々な配信チャネルに関係する信号特性に基づき計算される前記共通の組のコンテンツ信号の様々な基準フィンガープリントを保存する、当該ステップと、
前記配信チャネルを使用して、前記様々な組のうちのどれを使用して前記コンテンツ信号を識別するかを決定するステップと、
を含む、コンテンツ認識方法。
前記配信チャネルが圧縮フォーマットに対応する、請求項９に記載の方法。
プログラムされたプロセッサによって実行されるコンテンツ認識方法であって、
様々な版のコンテンツ信号を受信するステップであって、前記様々な版が様々な配信チャネルに対応する、当該ステップと、
前記様々な版の基準フィンガープリントを計算し、前記基準フィンガープリントをセグメント化されたデータベースの対応するセクションに保存するステップであって、前記対応するセクションが特定の配信チャネルに関連する、当該ステップと、
要求に応じて、受信されたフィンガープリントの合致を、前記受信されたフィンガープリントに関連する配信チャネルに対応する前記データベースのセクションで合致を検索することによって、決定するステップと、
を含むコンテンツ認識方法。
前記プログラムされたプロセッサによって実行される、
コンテンツ信号の受信された部分のフィンガープリントを計算するステップと、
前記フィンガープリントを基準データベースに送信して前記コンテンツ信号を識別するステップであって、前記基準データベースは、前記フィンガープリントを当該基準データベース内の基準フィンガープリントと照合することによって、前記コンテンツ信号のアイデンティティを用意する、当該ステップと、
前記基準データベースにおける前記コンテンツ信号のアイデンティティに基づき、前記コンテンツ信号の基準コピーを取得するステップと、
前記コンテンツ信号の前記受信された部分の歪みを、前記受信された部分と前記基準コピーとの比較分析に基づき判断するステップと、
をさらに含む、請求項１に記載の方法。
前記基準コピー及び前記受信された部分が、前記基準コピーとの比較で前記受信された部分の幾何学的変換を判断するために使用される、請求項１２に記載の方法。
前記幾何学的変換を適用して、前記受信された部分からデジタルウォーターマークを抽出するために前記受信された部分を同期化するステップ、を含む、請求項１３に記載の方法。
前記受信された部分から前記デジタルウォーターマークを抽出するステップ、を含む、請求項１４に記載の方法。
前記歪みが、前記受信された部分の配信チャネルを判断するために使用される、請求項１２に記載の方法。