JP2004007552A - コンテントベースのイメージコピー検出の方法並びに装置 - Google Patents
コンテントベースのイメージコピー検出の方法並びに装置 Download PDFInfo
- Publication number
- JP2004007552A JP2004007552A JP2003101866A JP2003101866A JP2004007552A JP 2004007552 A JP2004007552 A JP 2004007552A JP 2003101866 A JP2003101866 A JP 2003101866A JP 2003101866 A JP2003101866 A JP 2003101866A JP 2004007552 A JP2004007552 A JP 2004007552A
- Authority
- JP
- Japan
- Prior art keywords
- image
- program instructions
- rank matrix
- copy
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
【課題】コンテントベースのイメージコピー検出の方法並びに装置
【解決手段】ディジタルイメージのコピーを検出するための方法は、ディジタルイメージの疑わしいコピーをサブイメージに分割することから始まる。次に、サブイメージそれぞれと関連した平均の濃度を判定する。次に、その平均の濃度を一連の係数に変換する。次に、その一連の係数からランクマトリックスを定義する。次に、疑わしいコピーがディジタルイメージの本当のコピーかどうかを判定するために、一連の係数に基づくランクマトリックスが照会イメージのランクマトリックスと比較する。コンピュータ可読媒体と、コンピュータシステム、及びコンピュータシステムで実行できるように構成されたコンピュータコードも提供する。
【選択図】図11
【解決手段】ディジタルイメージのコピーを検出するための方法は、ディジタルイメージの疑わしいコピーをサブイメージに分割することから始まる。次に、サブイメージそれぞれと関連した平均の濃度を判定する。次に、その平均の濃度を一連の係数に変換する。次に、その一連の係数からランクマトリックスを定義する。次に、疑わしいコピーがディジタルイメージの本当のコピーかどうかを判定するために、一連の係数に基づくランクマトリックスが照会イメージのランクマトリックスと比較する。コンピュータ可読媒体と、コンピュータシステム、及びコンピュータシステムで実行できるように構成されたコンピュータコードも提供する。
【選択図】図11
Description
【0001】
【発明の属する技術分野】
本発明は、一般にディジタルビデオ技術に関し、より具体的にはイメージのコンテンツに基づいて無許可のディジタルイメージのコピーを検出する方法並びに装置に関する。
【0002】
【従来の技術】
インターネットの普及とコスト・性能比の高いディジタル記憶装置が幅広く利用できるようになったことで、手軽にディジタルコンテンツを複製、送信、配布できるようになった。そのために、特にディジタルイメージの著作権に関する知的所有権(IPR)の保護がきわめて重要な法的問題になってきている。とりわけ、ディジタルメディア(イメージ、音声、ビデオ)のコピー検出は、著作権違反を調査する者にとって必須の要件である。使用する2つのコピー検出アプリケーションには、使用追跡と著作権違反の取締りがある。
【0003】
現在、ディジタルイメージの著作権の保護に広く採用されているのは、透かし模様挿入とコンテントベースのコピー検出という2つの方法である。一般に知られているように、透かし模様挿入では配布前にイメージに情報を埋め込む。従って、所有権者を証明するために、マーク入りコンテントのコピーには全て抽出可能な透かし模様が入っている。コンテントベースのコピー検出では、イメージ自体のほかには何も情報は要らない。一般に、イメージにはコピー、それもとりわけ違法に配布されたコピーを検出するために使用可能な独自な情報が十分に含まれている。例えば、もしもあるイメージの所有権者が、そのイメージがインターネットで違法配布されているという疑いをもったら、所有権者はコピー検出システムに照会を求めることができる。なお、コンテントベースのコピー検出は透かし模様挿入を補う相補的方法としても使用できる。コピー検出器が作成者又は配布者に容疑者リストを提供すると、そのメディアの実際の所有権者は、所有権者を証明するために透かし模様やその他の認証技法を用いることができる。
【0004】
コンテントベースのコピー検出方法では、オリジナルイメージから署名(シグネチャ)が抽出される。テストイメージがオリジナルイメージのコピーであるかどうか判定するために、テストイメージから抽出された署名がオリジナルイメージの署名と比較される。透かし模様挿入と比べた場合のコンテントベースコピー検出の重要な特徴は、イメージを配布する前にシグネチャ抽出を行なわなくてよい点である。しかしながら、オリジナルと同じでないコピー、すなわち、わずかに変更されたコピーは検出できない可能性がある。例えば、コピー検出を回避するために、あるいは画質の向上を図って、第3者が多様な変更版を生成する可能性があるが、コンテントベースのコピー検出では、そうした変更が原因でコピーを検出できなくなる可能性がある。
【0005】
ヒストグラム交差メソッドなど、カラーヒストログラムをベースにした方法がコンテントベースのイメージ検索システムで使用されている。しかしながら、そうした方法は、カラーヒストグラムがカラーの空間分布に関する情報を保持していないため、コピー検出システムには適さない。画素位置を考慮に入れることができる別の方法として、パーティションをベースにしたアプローチがある。この方法では、イメージがサブイメージに分割される。そうした方法の一つでは、各パーティションのカラー情報が局部カラーヒストグラムによって取得される。2つのイメージの類似性が、その局部カラーヒストグラムを比較し、全てのサブイメージの類似性を考慮することによって測定される。しかしながら、この方法は計算コストが高く、所要探索時間が長い。加えて、この方法では、空間的アウトレイが変更されたイメージを検出することはできない。
【0006】
コンテントベースのイメージ検索とイメージコピー検出とでは根本的な違いがある。イメージコピー検出器は、照会イメージの全コピーを調べるのに対し、コンテントベースのイメージ検索システムでは一般に色に関する類似イメージを調べる。例えば、図1に示す3つのイメージは、イメージコピー検出器のサーチとコンテントベースのイメージ検索システムの違いを説明するものである。イメージ102はオリジナル(又は照会)イメージで、イメージ104は色に関してイメージ102に類似したもの、イメージ106はイメージ102の色相が変えられたものである。色をベースにしたイメージ検索システムでは、イメージ104は、イメージ106よりもイメージ102との関連性が高いと見なされるが、イメージコピー検出器では、イメージ106がイメージ102のコピーの可能性が高いと見なされる。従って、使用するコピー検出方法によって、得られる結果が異なり、ある種のイメージコピーは、使用した検出方法の一部もしくは全てで検出されないことがある。言い換えれば、ある程度の変更を含んだコピーを検出できるイメージコピー検出器でなければならない。変更には、輝度や彩度の変化、色相のずれ、回転や反転(flipping)などを含む空間的歪みがある。そうした変更を保護するための一つの提案は、ウェブでウェーブレットをベースにした複写イメージ検出を取り入れることである。しかしながら、ウェーブレットベースの方法は、反転や回転が入ったコピーを検出することはできない。
【0007】
それゆえに、上記のような従来技術のかかえる問題を解決する、オリジナルディジタルイメージから空間的アウトレイや色が変更されたコピーも検出できるような、確実(ロバスト)かつ効率的なコンテントベースのイメージコピー検出の方法や装置が求められている。
【0008】
【特許文献1】
米国再発行特許発明6,347,144号明細書
【特許文献2】
米国再発行特許発明6,332,030号明細書
【特許文献3】
米国再発行特許発明6,285,774号明細書
【特許文献4】
米国再発行特許発明6,266,429号明細書
【0009】
【発明が解決しようとする課題】
おおまかに言えば、本発明は、空間的に変更されたコピーや色が変更されたコピーを検出可能な、コンテントベースのコピー検出方法並びに装置を提供することによって上記のニーズに応えるものである。なお、本発明は、方法、システム、コンピュータコード、あるいはデバイスとしてなど、その実施方法は色々とある。本発明を以下にいくつかの実施例をあげて説明する。
【0010】
【課題を解決するための手段】
一つの実施例において、ディジタルイメージのコピーを検出するための方法を提供する。この方法は、疑わしいディジタルイメージのコピーをサブイメージに分割することから始まる。その次に、サブイメージの各々の画素と関連した平均濃度が判定される。次に、その平均濃度は一連の係数に変換される。その次に、その一連の係数からランクマトリックスが定義される。次に、疑わしいコピーがディジタルイメージの本当のコピーかどうかを判定するために、その一連の係数に基づくランクマトリックスが、照会イメージのランクマトリックスと比較される。
【0011】
別の実施例では、コンテントベースのイメージコピー検出方法を提供する。この方法は、イメージと関連したイメージデータを選択することから始まる。次に、イメージごとに、イメージデータからシグネチャインデックスが定義される。次に、そのイメージデータごとのシグネチャインデックスが保持される。その次に、照会イメージのシグネチャインデックスが判定される。次に、保持されたイメージごとのイメージデータのシグネチャインデックスの中から、照会イメージのシグネチャインデックスと一致するものが識別される。
【0012】
さらに別の実施例では、ディジタルイメージの無許可コピーを見つけ出す方法を提供する。この方法は、テストイメージのランクマトリックスを計算することから始まる。次に、照会イメージのランクマトリックスが計算される。次に、しきい値が判定される。このしきい値は、テストイメージが照会イメージのコピーかどうかを示すものである。次に、テストイメージのランクマトリックスと照会イメージのランクマトリックスとの間の距離と関連した距離値が判定される。次に、その距離値をしきい値と比較する。もし距離値がしきい値に満たなければ、テストイメージは照会イメージのコピーとなる。
【0013】
さらに別の実施例では、コンピュータシステムで実行するように構成されたコンピュータコードを提供する。このコンピュータコードは、イメージデータを識別するためのプログラム命令を含んでいる。コンピュータコードは、識別されたイメージデータから特徴ベクトルを定義するためのプログラム命令も含む。その特徴ベクトルをデータベースに保持するためのプログラム命令も含む。照会イメージの特徴ベクトルと、識別されたイメージの特徴ベクトルとの一致を判定するためのプログラム命令も含む。その照会イメージの特徴ベクトルと識別されたイメージの特徴ベクトルとの一致を表示するためのプログラム命令も含む。
【0014】
また別の実施例では、テストイメージが照会イメージのコピーかどうかを判定するコンピュータコードを提供する。このコンピュータコードは、照会イメージと関連したランクマトリックス並びにテストイメージと関連したランクマトリックスを算出するためのプログラム命令を含む。テストイメージが照会イメージのコピーかどうかを示すしきい値を判定するためのプログラム命令も提供する。照会イメージと関連したランクマトリックスを、テストイメージと関連したランクマトリックスと比較するためのプログラム命令を含む。比較するためのプログラム命令は、テストイメージと照会イメージとの間の距離値を判定するためのプログラム命令と、その距離値がしきい値に満たないかどうかを調べるためのプログラム命令とを含む。距離値がしきい値に満たない場合には、テストイメージは照会イメージのコピーとなる。
【0015】
また別の実施例では、ディジタルイメージのコピーを検出するためのプログラム命令を有する、コンピュータで判読可能なメディアを提供する。このコンピュータ可読メディアは、疑わしいディジタルイメージのコピーをサブイメージに分割するためのプログラム命令と、そのサブイメージと関連した平均濃度を判定するためのプログラム命令とを含む。平均濃度を一連の係数に変換するためのプログラム命令も含む。その一連の係数から、ランクマトリックスを定義するためのプログラム命令を含み、疑わしいコピーがディジタルイメージの本当のコピーかどうかを判定するために、一連の係数のランクマトリックスと照会イメージのランクマトリックスとを比較するためのプログラム命令を提供する。
【0016】
また別の実施例では、コンピュータシステムを提供する。このコンピュータシステムはイメージデータをアセンブルするためのデータベース生成システムを含み、このデータベース生成システムは、イメージデータを識別するためのイメージ収集システムと、イメージデータのシグネチャインデックスを抽出するための特徴抽出コードとを含む。イメージデータを照会データと突き合せるためのデータベース照会システムを提供する。このデータベース照会システムは、イメージデータのシグネチャインデックスを保持するように構成されたデータベースと、照会データのシグネチャインデックスとイメージデータのシグネチャインデックスとの間の一致を識別するように構成された特徴マッチングシステムとを含む。
【0017】
本発明のその他の態様並びに効果は、本発明の原理を例をあげて示した添付の図面とともに以下の詳細な説明から明白になる。
【0018】
【発明の実施の形態】
ディジタルイメージの無許可コピーを検出するためのシステム、装置、並びに方法として発明を説明する。しかしながら、このような具体的な説明を部分的に或いは全て知らなくても本発明を実施できることは、当業者であれば明白である。また、本発明の説明を不要に曖昧なものにしないために、既によく知られているプロセスオペレーションについては詳細に説明しない。
【0019】
本発明の実施例は、ディジタルデータのコピーを効率よく検出するためのアルゴリズムを使用したシステムを提供するものである。以下に詳説する通り、色や目に見える様相だけでなく、空間的構成が変更されたコピーも識別することができる。例えば、インターネットなど分散型ネットワークで見つけた照会イメージの疑わしいコピーを、ウェブクローラ(web crawler)によって突き止める。疑わしいコピーは、8×8のサブイメージにサイズ変更される。サブイメージは、2次元離散コサイン変換(DCT)され、順序測度(ordinal measure)とも呼ばれるランクマトリックス、シグネチャインデックス又は特徴ベクトルが生成される。疑わしいコピーのランクマトリックスがデータベースに保持され、その疑わしいコピーが本当のコピーかどうかを判定するために、各ランクマトリックスを照会イメージのランクマトリックスと比較する。一例として、最適な識別能力を提供するために、ランクマトリックスのサイズが指定される。本願で説明する実施例は、以下に詳説するように、効率の高いマッチングプロセスを提供するためにクラスタリングメソッドを活用することもできる。
【0020】
【0021】
一実施例として、ステレオイメージマッチングの順序測度を用いて、要求される確実性を実現する。順序測度を用いる一つの例において、イメージはm×nの同じサイズのブロックに分割されるため、システムは入力イメージサイズに依存しない。各ブロックの平均値をとることにより、m×nのサブイメージが算出される。図2a〜図2cは、コピー検出のための順序測度を図形的に表わしたものである。図2aは、m×n(3×3)の同じサイズのブロックに分割されたイメージを表わしている。各ブロックの画素濃度の平均値が算出され、図2bの各ブロックの中に示されている。図2cに示すように、平均値の配列がランクマトリックスに変換される。ここで、ランクマトリックスのサイズはm×n又は1×mnである。従って、図2bに示した濃度値がコピーされたイメージにおいて、そのサブイメージの値が{{30, 60, 40}, {70. 90, 110}, {50, 100, 80}}になるように一様に変えても、つまり、ブロックそれぞれの濃度値を20ずつ増やしても、ランクマトリックスは変わらない。すなわち、画素値のランクマトリックスは図2cに示したものと全く同じになり、オリジナルイメージとの完全整合が達成できる。
【0022】
しかしながら、先に説明したように、階数測度を使用しても、コピーが不規則に変更されていると検出することができない。特に、イメージの空間的アウトレイが変更されている場合は検出が難しい。図3は、図1のイメージ102を空間的に変更したイメージである。図1のランドスケープイメージが、図3のイメージ108に示すように、水平方向に反転されている。図3の変更イメージは、上述の濃度値の順序測度を使用しても検出することができない。以下に、1次元のランクマトリックスを定義するために、2次元の離散コサイン変換から導出されたAC係数の順序測度を用いた実施例について説明する。この1次元のランクマトリックスは、コピーを検出するために、照会イメージと比較される特徴ベクトルとして使用される。
【0023】
図4は、本発明の一実施例に係る、コンテントベースのコピー検出システムの概念図である。ウェブクローラ142は、インターネットなど分散型ネットワークを探索して照会イメージのコピーを捜す。なお、ウェブクローラ142は、イメージのコピーを探索する機能を有する適切なウェブクローラなら何でもよい。ウェブクローラ142が照会イメージのコピーを識別したら、そのコピーがランクマトリックスジェネレータ144に届けられる。ランクマトリックスジェネレータ144は、そのコピーのイメージデータを操作してランクマトリックスを得る。ランクマトリックスは、イメージコピーのディジタル指紋と考えることができる。一例として、イメージデータの8×8表現に2次元離散コサイン変換(DCT)を行なうことによってランクマトリックスを導出する。その後、2つのイメージ間の順序測度を用いて、そのイメージが照会イメージのコピーかどうかを判定する。ここで、順序測度とは、2次元離散コサイン変換により生成された全てまたは一部のAC係数である。
【0024】
図4に戻ると、各コピーのランクマトリックスがデータベース146に保持される。データベース146は、ランクマトリックス1〜nと、照会画素のランクマトリックス145との間に一致があるかどうか調査できるように構成されている。ランクマトリックスマッチングシステムは、照会イメージランクマトリックス145を受け取り、データベース146を調査して、その照会イメージランクマトリックスと一致するかどうかを調べる。一例として、より効率的に照会イメージランクマトリックスとの一致を調べるために、データベース146のランクマトリックスは、クラスタに分けられている。一致が見つかれば、つまり、照会イメージのコピーが見つかれば、一致を示すデータがモニタ148に出力される。例えば、照会イメージのコピーとして識別された一つ以上のランクマトリックスは、汎用リソースロケータ(URL: uniform resource locator)アドレスを示すポインタを有していてもいい。従って、対応する出力ランクマトリックスをクリックすることによって、コピーされたイメージにアクセスすることができる。
【0025】
図5は、本発明の実施例に基づいて、通信中の2つのサブシステムとして構成されたコピー検出システムのブロック図である。データベース照会システム156は、ユーザインタフェース158、ランクマトリックスジェネレータ144、特徴マッチングサブシステム154、データベース146を含む。データベース生成サブシステム152は、イメージ収集サブシステム142、ランクマトリックスジェネレータ144、クラスタリング/メタデータ生成156を含む。例えば、データベース生成サブシステム152への入力はイメージ収集サブシステム142によって集められたイメージであり、イメージ収集サブシステム142は、手作業又はウェブクローラなどのソフトウェアを用いて操作することができる。収集されたイメージのランクマトリックスは、図8〜図10で詳明するように、先ずイメージから抽出された後、しかるべきグループにまとめられる。そして、データベース照会サブシステム150によって使用されるインデックスを生成する。データベース照会サブシステム150は、特徴マッチングサブシステム154によって、インデックス付き要素の中に照会イメージのコピーがあるかどうかを判定するために、ランクマトリックスの抽出された照会イメージをデータベース146のインデックス付きの要素と突合せる。すなわち、特徴マッチングサブシステムは、データベースを調査して、クラスタ環境又はクラスタのない環境のいずれかにおいて照会イメージとの一致を調べる。インデックス付き要素と照会イメージの間に何らかの一致があれば、ユーザインタフェース158を介して表示される。言うまでもなく、特徴抽出機能及びクラスタリング/メタデータ生成機能を実行するコードを、半導体チップ上にハード的にコーディングすることもできる。当業者であれば、上記の機能を提供できるように構成されたロジックゲートを半導体チップに組み込むことできることが分かるであろう。例えば、フォームウェアと本願で説明する必要な機能を提供するためのロジックゲートファームウェアとを合成するためにハードウェア記述言語(HDL)を用いることができる。
【0026】
一実施例として、ランクマトリックスとして定義されたAC係数の順序測度が、距離の測度として、そして対応するイメージを表わすシグネチャインデックスとして使用される。順序測度を使用したコピー検出方法をさらに詳しく説明するために、次の定義及び数式について以下に説明する。画像データベースをT={C,R}と定義する。ここで、C={Q, C1,…,Cm}は照会(オリジナル)イメージQ及びその変更された又は変更されていないコピーのセットを表わし、R={R1,…,Rn}はデータベースの中の残りのイメージを表わす。検出器(分類器)は、2つのクラス(例えば、セットCの「クラスC」、セットRの「クラスR」)間の識別能力が高く、同時に、表1および図7A、7Bで説明する通り、多様なイメージ変更に対し確実性を有していなければならない。Tiがデータベースからのテストイメージであると仮定すると、コピー検出は仮説テスト項を用いて次のように表現される。
【0027】
ここでH0は帰無仮説、H1は交代仮説である。例えば、帰無仮説はテストイメージが照会イメージと相関していることを記述し、それ以外を交代仮説が記述する。
【0028】
本発明の別の実施例では、誤った検出を最小限に抑えながら照会イメージのコピーをできるだけ多く検出するために、イメージを表わす特徴としてDCT係数の順序測度を用いる。より具体的に言えば、8×8のサブイメージのAC係数の大きさ(magnitude)は降順又は昇順にランク付けされる。なお、ランクが付けられたAC係数の大きさは単純なに整数の順列で、ランクマトリックスと称される。具体的に言えば、SNが整数[1,2,…,N]の全順列の集合を表わすとしたら、任意のランクマトリックスがこの集合の要素である。イメージIi及びIjから導出された2つのランクマトリックスriとrj間の相関を測定するには、距離d(ri, rj)を定義しなければならない。当業者であれば、2つのイメージの距離は、そのランクマトリックスriとrj間のミンコフスキー計量(Minkowski metric)のL1ノルムによって表わされることが分かるだろう。
【0029】
【0030】
図6は、本発明の一つの実施例における、ランクマトリックスジェネレータのモジュールの概略図である。ランクマトリックスジェネレータ144にイメージが入力されると、イメージは先ずイメージ分割モジュール162に入る。ここで、入力されたイメージは、例えば、同じサイズの64(8×8)のサブイメージ(又はブロック)に分割される。別の例では、各サブイメージによって定義された、画素に対応する平均濃度が導出される。次に、離散コサイン変換(DCT)モジュール164で、8×8の2次元(2D)DCTを行なうことにより、先に導出された平均濃度が、それぞれ一連の係数に変換される。次に、モジュール166で、2DのDCTマトリックスは、例えば、1×63のランクマトリックスなど、降順又は昇順で63のACの大きさのランクを含んだAC係数の順序測度に変換される。説明のため、オリジナル(照会)イメージQのランクマトリックスをq=[q1, q2,・・・,qN]とし、テスト画像Tのランクマトリックスをt=[t1,t2,・・・,tN]としている。ここではN=63。すると、照会イメージとテストイメージとの間の順序測度D(Q,T)は、2つのランクマトリックス間のL1ノルムとなる。すなわち、
【0031】
【0032】
ミスマッチが発生するまでにシステムが許容できるデータ矛盾性の量を決めるのがコピー検出器の確実(ロバスト)性である。様々な変更に対するそれぞれの方法の確実性を検証するため、上に説明した測定方法を他の3つの測定方法と比較する。なお、DCT係数から導出されたランクマトリックスを採用する上記の測定方法は、測定方法4として以下に定義する。他の3つの測定方法は測定方法1〜3が、全てグリッドに基づく方法である。そこでは、イメージが64(8×8)の同じサイズのサブイメージ(ブロック)に分割され、その平均濃度が導出される。各測定方法について以下に簡単に説明する。
【0033】
測定方法1:基本的な相関ベースの方法。ここでは、2つの8×8サブイメージ間のL1ノルムが算出される。コピーがあるかどうか判定するために8×8イメージの画素値間の差の和が用いられる。
【0034】
測定方法2:8×8サブイメージから生成された2つのランクマトリックス間のL1ノルムを算出するサブイメージの順序測度。ここでは、コピーがあるかどうかを判定するのに画素値のランクマトリックスが使用される。
【0035】
測定方法3:DCT係数の2つのセット間のL1ノルムが算出される。最初に2DのDCTを実行することにより8×8サブイメージのAC係数を算出する。次に、照会イメージに基づく対応するAC係数の大きさとテストイメージに基づく対応するAC係数の大きさとの間のL1ノルムが算出される。
【0036】
測定方法4:本明細書に記載の実施例において説明した、ACの大きさの順序測度を用いてL1ノルムが算出される。
【0037】
上に紹介した測定方法をテストするために、同じイメージに基づいた13の変更イメージを40000イメージを有するデータベースに入れた。すなわち、オリジナルイメージと13のイメージ変更版とを40000イメージのデータベースの中に挿入した。表1Aは、上記の測定方法1〜4として挙げた4つのコピー検出テストに基づく上位14位までのランクを示している。大文字A〜Nは表1Bに定義したイメージタイプを示す。なお、表1Bで説明したイメージタイプはあくまで模式であり、他のタイプのイメージ変更を検出するのに本願で説明している実施例を使用できること限定するものではない。表1Aに説明を戻すと、順序表現の距離測定方法(測定方法2及び4)は、非順序表現の距離測定方法(測定方法1及び3)よりも確実性が高かった。しかしながら、測定方法2の結果が、画素値の順序測度は、予想される回転や反転(表1BのイメージタイプG及びH)などの変更を検出できないことを示しているのに対し、DCT係数のACの大きさの値の順序測度(測定方法4)は、13全てのコピーとオリジナルを検出できている。表1Aの「FD」は検出の誤りを示す。すなわち、コピーでないイメージが対応する測定方法によってランク付けされた。
【0038】
【0039】
上に示した実験結果から、提案した測定方法(測定方法4)は、多種多様な歪みに対し確実性を発揮することが分かる。しかしながら、この確実性は、相関しないイメージを比較する場合、欠点に変わってしまう可能性がある。これは、順序測度に起因するとともに、DCT係数を使用することによるものである。従って、システムの識別能力、つまり、識別力も重要になってくる。それは、検出誤りを起こさないように、無関係なイメージを棄却する能力と関係するためである。
【0040】
本願で説明するコピー検出スキームに係る実施例では、識別能力に影響を及ぼす一因となるのがランクマトリックスのサイズである。ランクマトリックスのサイズによって順序測度に使用されるAC係数の量が決まる。画素値に突然何か変化が起こると、その結果として高周波が変化する可能性があるため、高周波におけるAC係数の作用が重要となる。そして、最適なランクマトリックスサイズにより、識別能力量を測定することができる。テスト手法および結果を以下に説明する。
【0041】
【0042】
【0043】
【0044】
●N=63:ここでは、8×8のDCTのAC係数の全てが順序測度に使用されている。結果を図7Aのライン167dで示す。
●N=48:48の低周波数AC係数だけをとり、順序測度に使用する(つまり、DC係数を除く7×7の左上の係数)。結果を図7Aの167bで示す。
●N=35:35の低周波数だけがとられ、順序測度に使用される(つまり、DC係数を除く6×6の左上の係数)。結果を図7Aの167aで示す。
●N=24:24の低周波数だけがとられ、順序測度に使用される(つまり、DC係数を除く5×5の左上の係数)。結果を図7Aの167cで示す。
【0045】
ランクマトリックスに関して、説明してきた測定方法の性能を識別するために、スフィライジング(spherizing)、ラジアルブラーリング(radial blurring)、ブラシストローク(brush strokes)などもっと多様な変更を追加することによって、セットCのサイズを14から30に増やした。なお、これらのタイプのイメージ変更は、表1Bに挙げた変更タイプとは別のものである。最大識別能力を示す曲線は座標(0,1)を通る。ここで、0は誤った棄却に対応する相対的測度で、1は正しい棄却に対応する相対的測度である。図7Aにライン167aで示すように、ランクマトリックスのサイズNが35のとき識別能力が最も高い。これは、高周波おけるAC係数の適切な棄却により、AC係数の順序測度が向上することを示すものである。なお、ランクマトリックスサイズを63から35に小さくすると、インデックス化のためのメモリの節約になる。さらに、高周波のAC係数は、一般に6×6の左上の係数の外にあるため、高周波のAC係数のノイズは全て除去される。
【0046】
図7Bは、本発明の一実施例における、順序測度に用いられる6×6の左上のAC係数を描いた8×8離散コサイン変換の概略図である。図7Aで説明したように、DCT係数173を差し引いた6×6のブロック172は、AC係数の最適数と判定された。さらに、領域174における高周波AC係数はノイズを含む可能性が高いため、この実施例では削除されている。なお、最適なランクマトリックスサイズは、特定のアプリケーションによって変わる可能性がある。
【0047】
イメージデータベースが大きくなると、データベースを効率的に調査するためには、クラスタベースの検出が必要になる。クラスタリングする目的は、類似したデータ項目を一緒にカテゴリー化又はグループ化することによって、データ量を減らすことにある。このようなグループ化は、人間が情報を処理する際の一般的な処理の仕方である。クラスタリングアルゴリズムを使用させるために重要なことの一つは、カテゴリー又は分類(taxonomy)を構築するのに有効な自動化ツールを提供することである。なお、これらの方法は、プロセスにおいて人的要因の影響を最小限に抑えるための方法としても使用できる。
【0048】
よく使用されるクラスタリングの方法は、その実施し易すさから、k平均値クラスタリングで、Tabuサーチ、Geneticアルゴリズム、Simulatedアニーリング等の類似の方法と比較した場合、実行時間の観点から見た効率が一番よい。そのため、k平均値クラスタリングは大型のデータセットに適している。よく知られているように、k平均値クラスタリングは、ランダム初期分割から始まり、最も近いクラスタに対してパターンの再割り当てを行ない、その後、収束基準を満たすまで重心を再計算し続ける。
【0049】
しかし、クラスタ数の選択が分析に大きく影響する。すなわち、kが変わるとまったく異なる種類のクラスタが出現する。k平均値アルゴリズムでは、クラスタの数、つまり、kがはっきりと指定されていなければならない。最適なクラスタ数は前もってはっきりとは分かっていないので、最適クラスタ数を判定するために、クラスタの妥当性分析を行う。例えば、最適クラスタ数は、クラスタ間の距離を最大にしながら、同時にクラスタ内の距離を最小にするクラスタの数である。つまり、クラスタが異なればそのランクマトリックスは大きく変わるが、一つのクラスタ内でのランクマトリックスはコンパクトであるべきである。この特徴を数式で表すと次のようになる。
【0050】
図5に関して、先に説明したコピー検出システムを、性能の観点から評価した。性能の評価では、イメージデータの5つのコピーセットをデータベースに挿入した。ここで、各セットはオリジナルイメージの10の変更コピーを有する。従って、イメージに対応する計55(11×5)のランクマトリックスがデータベースに挿入された。オリジナルの変更コピーには、表1Bに関して説明した変更のほかに、次のようなタイプの変更:ひび割れ(craquelure)、ウォーターペーパー(water paper)、モザイク、リップル、オーシャンリップル、スポンジ、アスペクト比変更、ダークストローク(dark strokes)、彩度増などがある。ここでもまた、本実施例では、ここに挙げた変更や表1Bに挙げた変更を有するコピーに限らず、オリジナルが変更されているどんなコピーでも検出するように構成されている。言うまでもなく、色ベースのスキームでは、カラーやコントラストが変更されているイメージは場合によっては検出できないことがあると予想されるが、その一方、相関ベースのスキームではイメージが回転していたり反転していたりすると検出できないことが予想される。また、相関ベースのスキームは、対応する画素の非線形の濃度のばらつきに対して弱いと予想される。また、テクスチャベースのアプローチは、一般にひび割れ、オーシャンリップル、モザイクタイルと呼ばれる変更など、エッジロケーションが変更されたり、新たにエッジポイントが追加されたコピーに対処するのは容易ではない。
【0051】
以上、説明してきたコピー検出システム並びにアルゴリズムの性能を評価するために、適合率(precision rate)及び呼出率(recall rate)を次のように定義する:
【0052】
図8は、本発明の一実施例における、適合率及び呼出率対正規化しきい値(正規化しきい値に対する適合率及び呼出率)のグラフである。グラフから分かるように、適合率及び呼出率がともに比較的に高いので、望ましい結果は正規化しきい値0.3あたりで得られる。なお、検出し損なったコピー数を最低限に抑えるには、高い呼出率であることが重要である。データベースからのテストイメージが、コピーのクラスに属するかどうかはしきい値によって決まる。例えば、しきい値の決定は以下に説明するアルゴリズムによって計算される。
【0053】
【0054】
【0055】
【0056】
【0057】
【0058】
【0059】
【0060】
【0061】
【0062】
【0063】
上記性能テストは、クラスタのないコピー検出として実施したが、k平均値クラスタリングに対して、先に説明したクラスタベースの検出をこの性能テストに統合してもいい。上述の通り、データベースの中の特徴ベクトル、つまり、ランクマトリックスは、k平均値アルゴリズムによりクラスタ化されており、最適なクラスタ数を判定するために、クラスタの妥当性分析を行なうことができる。
【0064】
図9は、本発明の一実施例における、最適クラスタ数を判定するためのクラスタ妥当性分析の結果を示すグラフである。この図から、クラスタ妥当性測度v(k)は、k=7のとき最低であることが分かる。そこで、システムのクラスタ数を例えば7に設定する。ここでは、先ずその7つのクラスタの重心が、照会イメージの特徴ベクトルと比較される。例えば、ランクマトリックスのような、その重心がN個の最も近接した重心に属するようなクラスタの特徴ベクトルだけが選ばれ、コピー検出をより効率的なものにする。図9のコピー検出システムの場合、最適クラスタ数は図10から4と判定された。従って、7つのクラスタのうちの4つが、照会イメージのランクマトリックスとアライメントしていると識別され、コピーが捜される。もちろん、当業者であれば、クラスタ妥当性分析によって示されるクラスタ数が、アプリケーションによって7以下になったり7以上なったりすることは明らかである。また、調査対象として識別されるクラスタ数は、クラスタ総数の一部分であることもあるし、クラスタ全てを含むこともある。上に述べた通り、コピー検出は、クラスタのない環境で行なうこともできる。
【0065】
図10は、本発明の一実施例において、クラスタベースの検出を用いて最適しきい値での適合率と呼出率を比較したグラフである。クラスタのない場合と、上に述べた7つのクラスタのうちの1つ、2つ、3つ、4つを考察した場合の、最適しきい値での適合率、呼出率を表わす。図10に示すように、コピー検出に、照会イメージに最も近いクラスタだけを用いた時に適合率は最も高く、呼出率は最も低かった。使用する近接クラスタ数が増えると、つまり、Nが大きくなると、適合率はわずかに低下するが、呼出率は増加する。
【0066】
【0067】
【0068】
表2のデータは、先に説明したコピー検出方法の効率の良さを示している。照会イメージA,B,D、Eに関して、全て11のイメージ(10の変更されたコピーと1つのオリジナル)が検出された。照会イメージCでは、11のうちの9つのイメージが検出された。さらに、11以上のイメージが検出された場合は、この11のイメージは見つかった上位11のイメージの中に常時入っていた。なお、イメージはランクマトリックスとしてデータベースに保持され、先に説明したように、照会イメージのランクマトリックスに基づいてデータベースの探索が行なわれた。言うまでもなく、データベース内のデータはクラスタになっていてもクラスタなしでも可能である。
【0069】
図11は、本発明の一実施例における、ディジタルイメージのコピーを検出する方法のフローチャートである。このフローチャートは、イメージが選択されるオペレーション200から始まる。ここで選択されたイメージは、インターネットなど分散型ネットワーク上にあるイメージで、例えば、ウェブクローラなどのサーチソフトウェアの支援によって見つけられる。次に、オペレーション202に進み、イメージからシグネチャインデックスが定義される。特徴ベクトルとも呼ばれるこのシグネチャインデックスは、先に説明したように、1次元のランクマトリックスを含んでいる。例えば、選択されたイメージを同じサイズの64のサブイメージ又はブロックに細分することによって、シグネチャインデックス、つまり、ランクマトリックスが導出される。この64の同じサイズのサブイメージは、8×8のグリッドに配列される。サブイメージと関連した画素値から算出された平均濃度の平均がとられる。この平均濃度は2次元DCTオペレーションにより、一連の係数に変換される。このDCTに基づく一連の係数は、次にランクマトリックスに変換される。図7A及び7Bで述べたように、ランクマトリックスは63のAC係数を全て或いは部分的に含んでいてよい。
【0070】
図11の方法では、次にオペレーション204に進み、定義されたシグネチャインデックスを保持する。シグネチャインデックスは、一例として、データベースに保持される。図8〜10で述べた通り、データベースに入っているイメージのコピーの検出をより効率的に行うため、シグネチャインデックスはクラスタになっている。前述の通り、k平均値クラスタリングなどのクラスタリング方法によってデータがデータベースでクラスタ化される。次にオペレーション206に進み、照会イメージのシグネチャインデックスが判定される。なお、照会イメージとは、コピー検出中のオリジナルイメージのことである。例えば、この照会イメージのシグネチャインデックスの判定は、オペレーション202で説明したイメージデータのシグネチャインデックスを定義する方法で行われる。次にオペレーション208に進み、シグネチャインデックスが保持されていれば、それと照会イメージのシグネチャインデックスとの一致が識別される。一例として、ランクマトリックス間の一致を識別するために、ランクマトリックスマッチングシステムが用いられる。別の例では、クラスタ妥当性分析により、最適シグネチャインデックス数を判定することによって、一致を検出するタイミングが最適化される。
【0071】
要約すれば、上に説明した発明は、ディジタルイメージの無許可のコピーを検出することができる。一実施例では、コピー検出器はイメージデータベースを有し、イメージデータベースには数百万のウェブページから集めたイメージが入っている。もしくは、システムがイメージのシグネチャインデックス、つまり、特徴ベクトルやURLを維持するようにすることもできる。なお、保持されているイメージは、その特徴ベクトルが抽出されたら削除されるから、メモリスペースを節約するだけでなく著作権問題を起こさないためにもシグネチャのデータベースが望ましい。ウェブを周期的にクロールする自動イメージ探索ツールによって、新たに発見されたイメージのプロファイルが作成された後、そうしたプロファイルは特徴に基づいてインデックス化される。
【0072】
【発明の効果】
本明細書で説明した特定の例では、高周波ノイズを避けるために8×8のサブイメージの35DCT係数の順序測度を採用しているが、任意の数のDCT係数を使用して構わない。結果は、色の変更だけでなく反転や回転を含み、多様な変更に対して確実(ロバスト)である。さらに、本書で説明した実施例は誤った検出の発生を最小限度に抑える識別力が高い。ランクマトリックスをインデックス化するには、ランクマトリックス毎に6ビット×35/イメージ、つまり、約27バイト/イメージが必要である。その場合、ランクマトリックスのサイズは35となる。当業者であれば、特定のアプリケーションによっては、数百万のイメージを保有しているデータベースに有効に対処するためにより効率的なクラスタ化及びインデックス化を考慮してもいい。なお、DCT係数の最適数やデータベースでのシグネチャインデックスの最適クラスタ数など、本書で提供した具体的な実施例は、具体的な例との関係において示したものである。従って、最適数は、シグネチャインデックスのタイプ、データベースのサイズ、望ましい適合及び呼出、最適しきい値など、によって変わってくる。しかしながら、最適レベルに到達する上述の方法は、コンテントベースのイメージコピー検出のどんなアプリケーションにも応用することができる。
【0073】
上記に鑑み、本発明は、コンピュータシステムに保持されたデータを用いて様々なコンピュータで実施するオペレーションを採用してもいいことが分かる。こうしたオペレーションには、物理的数量を物理的に操作しなければならないオペレーションも含まれる。必ずしもそうとは限らないが、こうした数量は、保持、転送、結合、比較、及びその他の操作が可能な電気信号又は磁気信号の形をとるのが一般的である。さらに、実行される操作は、生成、識別、判定、或いは比較といった表現で呼ばれることが多い。
【0074】
上に説明した発明は、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースの或いはプログラム可能な消費者用エレクトロニクス、ミニコンピュータ、メインフレームコンピュータなどを含み、他のコンピュータシステム構成で実施してもいい。本発明はまた、通信ネットワークを介してリンクされた遠隔処理装置によってタスクが実行される分散コンピューティング環境で実施することもできる。
【0075】
本発明はまた、コンピュータ可読媒体にコンピュータ可読コードとして実装することもできる。コンピュータ可読媒体とは、データを保持し、その後そのデータをコンピュータシステムで判読できる任意のデータ記憶装置である。コンピュータ可読媒体の例としては、ハードディスクドライブ、ネットワーク接続型ストレージ(NAS)、リードオンリーメモリ、ランダムアクセスメモリ、CD−ROM、CD−R、CD−RW、磁気テープや、その他の光データ記憶装置及びオプティカルでないデータ記憶装置などが挙げられる。コンピュータ可読媒体は、コンピュータ可読コードを分散して保持、実行できるようにネットワークに接続されたコンピュータシステムで配布することもできる。
【0076】
上記の発明を理解しやすいように幾分詳細に説明してきたが、特許請求の範囲から逸脱しない限りにおいて何らかの変更、修正が可能なことは明白である。従って、本明細書で明らかにした実施例は説明のためのもので限定を意図したものでないと考えるべきであり、本発明は本明細書で述べた詳細に限定されるものではなく、特許請求の範囲内において修正変更することができる。特許請求において、各要素及び/又はステップは、請求項にはっきりと記載されている場合を除き、オペレーションの特定の順番を暗に示すものではない。
【図面の簡単な説明】
【図1】イメージコピー検出器のサーチ間の相違を示す3つのイメージ及びコンテントベースのイメージ検索システム。
【図2】コピー検出のための順序測度の使用を表現した図。
【図3】図1のイメージ102を空間的に変更したイメージ。
【図4】コンテントベースのコピー検出システムの概念図。
【図5】通信している2つのサブシステムとして構成されたコピー検出システムのブロック図。
【図6】ランクマトリックスジェネレータのモジュールの概略図。
【図7】A4つの異なるランクマトリックスサイズと、それに対応する、高い識別能力を有するランクマトリックスサイズを判定するための正しい棄却率及び誤った棄却率のグラフ。
B順序測度として使用される(6×6)−1の左上AC係数を描いた8×8離散コサイン変換の概略図。
【図8】適合率及び呼出率対正規化しきい値のグラフ。
【図9】最適クラスタ数を判定するためのクラスタ妥当性分析の結果
【図10】クラスタベースの検出を用いた最適しきい値での適合率と呼出率を比較したグラフ。
【図11】ディジタルイメージのコピーを検出する方法のオペレーションのフローチャート。
【符号の説明】
140 インターネット
142 ウェブクローラ
144 ランクマトリックスジェネレータ
145 照会イメージランクマトリックス
146 データベース
148 モニタ
150 データベース照会サブシステム
152 データベース生成サブシステム
172 6×6ブロック
173 DCT係数
174 領域
【発明の属する技術分野】
本発明は、一般にディジタルビデオ技術に関し、より具体的にはイメージのコンテンツに基づいて無許可のディジタルイメージのコピーを検出する方法並びに装置に関する。
【0002】
【従来の技術】
インターネットの普及とコスト・性能比の高いディジタル記憶装置が幅広く利用できるようになったことで、手軽にディジタルコンテンツを複製、送信、配布できるようになった。そのために、特にディジタルイメージの著作権に関する知的所有権(IPR)の保護がきわめて重要な法的問題になってきている。とりわけ、ディジタルメディア(イメージ、音声、ビデオ)のコピー検出は、著作権違反を調査する者にとって必須の要件である。使用する2つのコピー検出アプリケーションには、使用追跡と著作権違反の取締りがある。
【0003】
現在、ディジタルイメージの著作権の保護に広く採用されているのは、透かし模様挿入とコンテントベースのコピー検出という2つの方法である。一般に知られているように、透かし模様挿入では配布前にイメージに情報を埋め込む。従って、所有権者を証明するために、マーク入りコンテントのコピーには全て抽出可能な透かし模様が入っている。コンテントベースのコピー検出では、イメージ自体のほかには何も情報は要らない。一般に、イメージにはコピー、それもとりわけ違法に配布されたコピーを検出するために使用可能な独自な情報が十分に含まれている。例えば、もしもあるイメージの所有権者が、そのイメージがインターネットで違法配布されているという疑いをもったら、所有権者はコピー検出システムに照会を求めることができる。なお、コンテントベースのコピー検出は透かし模様挿入を補う相補的方法としても使用できる。コピー検出器が作成者又は配布者に容疑者リストを提供すると、そのメディアの実際の所有権者は、所有権者を証明するために透かし模様やその他の認証技法を用いることができる。
【0004】
コンテントベースのコピー検出方法では、オリジナルイメージから署名(シグネチャ)が抽出される。テストイメージがオリジナルイメージのコピーであるかどうか判定するために、テストイメージから抽出された署名がオリジナルイメージの署名と比較される。透かし模様挿入と比べた場合のコンテントベースコピー検出の重要な特徴は、イメージを配布する前にシグネチャ抽出を行なわなくてよい点である。しかしながら、オリジナルと同じでないコピー、すなわち、わずかに変更されたコピーは検出できない可能性がある。例えば、コピー検出を回避するために、あるいは画質の向上を図って、第3者が多様な変更版を生成する可能性があるが、コンテントベースのコピー検出では、そうした変更が原因でコピーを検出できなくなる可能性がある。
【0005】
ヒストグラム交差メソッドなど、カラーヒストログラムをベースにした方法がコンテントベースのイメージ検索システムで使用されている。しかしながら、そうした方法は、カラーヒストグラムがカラーの空間分布に関する情報を保持していないため、コピー検出システムには適さない。画素位置を考慮に入れることができる別の方法として、パーティションをベースにしたアプローチがある。この方法では、イメージがサブイメージに分割される。そうした方法の一つでは、各パーティションのカラー情報が局部カラーヒストグラムによって取得される。2つのイメージの類似性が、その局部カラーヒストグラムを比較し、全てのサブイメージの類似性を考慮することによって測定される。しかしながら、この方法は計算コストが高く、所要探索時間が長い。加えて、この方法では、空間的アウトレイが変更されたイメージを検出することはできない。
【0006】
コンテントベースのイメージ検索とイメージコピー検出とでは根本的な違いがある。イメージコピー検出器は、照会イメージの全コピーを調べるのに対し、コンテントベースのイメージ検索システムでは一般に色に関する類似イメージを調べる。例えば、図1に示す3つのイメージは、イメージコピー検出器のサーチとコンテントベースのイメージ検索システムの違いを説明するものである。イメージ102はオリジナル(又は照会)イメージで、イメージ104は色に関してイメージ102に類似したもの、イメージ106はイメージ102の色相が変えられたものである。色をベースにしたイメージ検索システムでは、イメージ104は、イメージ106よりもイメージ102との関連性が高いと見なされるが、イメージコピー検出器では、イメージ106がイメージ102のコピーの可能性が高いと見なされる。従って、使用するコピー検出方法によって、得られる結果が異なり、ある種のイメージコピーは、使用した検出方法の一部もしくは全てで検出されないことがある。言い換えれば、ある程度の変更を含んだコピーを検出できるイメージコピー検出器でなければならない。変更には、輝度や彩度の変化、色相のずれ、回転や反転(flipping)などを含む空間的歪みがある。そうした変更を保護するための一つの提案は、ウェブでウェーブレットをベースにした複写イメージ検出を取り入れることである。しかしながら、ウェーブレットベースの方法は、反転や回転が入ったコピーを検出することはできない。
【0007】
それゆえに、上記のような従来技術のかかえる問題を解決する、オリジナルディジタルイメージから空間的アウトレイや色が変更されたコピーも検出できるような、確実(ロバスト)かつ効率的なコンテントベースのイメージコピー検出の方法や装置が求められている。
【0008】
【特許文献1】
米国再発行特許発明6,347,144号明細書
【特許文献2】
米国再発行特許発明6,332,030号明細書
【特許文献3】
米国再発行特許発明6,285,774号明細書
【特許文献4】
米国再発行特許発明6,266,429号明細書
【0009】
【発明が解決しようとする課題】
おおまかに言えば、本発明は、空間的に変更されたコピーや色が変更されたコピーを検出可能な、コンテントベースのコピー検出方法並びに装置を提供することによって上記のニーズに応えるものである。なお、本発明は、方法、システム、コンピュータコード、あるいはデバイスとしてなど、その実施方法は色々とある。本発明を以下にいくつかの実施例をあげて説明する。
【0010】
【課題を解決するための手段】
一つの実施例において、ディジタルイメージのコピーを検出するための方法を提供する。この方法は、疑わしいディジタルイメージのコピーをサブイメージに分割することから始まる。その次に、サブイメージの各々の画素と関連した平均濃度が判定される。次に、その平均濃度は一連の係数に変換される。その次に、その一連の係数からランクマトリックスが定義される。次に、疑わしいコピーがディジタルイメージの本当のコピーかどうかを判定するために、その一連の係数に基づくランクマトリックスが、照会イメージのランクマトリックスと比較される。
【0011】
別の実施例では、コンテントベースのイメージコピー検出方法を提供する。この方法は、イメージと関連したイメージデータを選択することから始まる。次に、イメージごとに、イメージデータからシグネチャインデックスが定義される。次に、そのイメージデータごとのシグネチャインデックスが保持される。その次に、照会イメージのシグネチャインデックスが判定される。次に、保持されたイメージごとのイメージデータのシグネチャインデックスの中から、照会イメージのシグネチャインデックスと一致するものが識別される。
【0012】
さらに別の実施例では、ディジタルイメージの無許可コピーを見つけ出す方法を提供する。この方法は、テストイメージのランクマトリックスを計算することから始まる。次に、照会イメージのランクマトリックスが計算される。次に、しきい値が判定される。このしきい値は、テストイメージが照会イメージのコピーかどうかを示すものである。次に、テストイメージのランクマトリックスと照会イメージのランクマトリックスとの間の距離と関連した距離値が判定される。次に、その距離値をしきい値と比較する。もし距離値がしきい値に満たなければ、テストイメージは照会イメージのコピーとなる。
【0013】
さらに別の実施例では、コンピュータシステムで実行するように構成されたコンピュータコードを提供する。このコンピュータコードは、イメージデータを識別するためのプログラム命令を含んでいる。コンピュータコードは、識別されたイメージデータから特徴ベクトルを定義するためのプログラム命令も含む。その特徴ベクトルをデータベースに保持するためのプログラム命令も含む。照会イメージの特徴ベクトルと、識別されたイメージの特徴ベクトルとの一致を判定するためのプログラム命令も含む。その照会イメージの特徴ベクトルと識別されたイメージの特徴ベクトルとの一致を表示するためのプログラム命令も含む。
【0014】
また別の実施例では、テストイメージが照会イメージのコピーかどうかを判定するコンピュータコードを提供する。このコンピュータコードは、照会イメージと関連したランクマトリックス並びにテストイメージと関連したランクマトリックスを算出するためのプログラム命令を含む。テストイメージが照会イメージのコピーかどうかを示すしきい値を判定するためのプログラム命令も提供する。照会イメージと関連したランクマトリックスを、テストイメージと関連したランクマトリックスと比較するためのプログラム命令を含む。比較するためのプログラム命令は、テストイメージと照会イメージとの間の距離値を判定するためのプログラム命令と、その距離値がしきい値に満たないかどうかを調べるためのプログラム命令とを含む。距離値がしきい値に満たない場合には、テストイメージは照会イメージのコピーとなる。
【0015】
また別の実施例では、ディジタルイメージのコピーを検出するためのプログラム命令を有する、コンピュータで判読可能なメディアを提供する。このコンピュータ可読メディアは、疑わしいディジタルイメージのコピーをサブイメージに分割するためのプログラム命令と、そのサブイメージと関連した平均濃度を判定するためのプログラム命令とを含む。平均濃度を一連の係数に変換するためのプログラム命令も含む。その一連の係数から、ランクマトリックスを定義するためのプログラム命令を含み、疑わしいコピーがディジタルイメージの本当のコピーかどうかを判定するために、一連の係数のランクマトリックスと照会イメージのランクマトリックスとを比較するためのプログラム命令を提供する。
【0016】
また別の実施例では、コンピュータシステムを提供する。このコンピュータシステムはイメージデータをアセンブルするためのデータベース生成システムを含み、このデータベース生成システムは、イメージデータを識別するためのイメージ収集システムと、イメージデータのシグネチャインデックスを抽出するための特徴抽出コードとを含む。イメージデータを照会データと突き合せるためのデータベース照会システムを提供する。このデータベース照会システムは、イメージデータのシグネチャインデックスを保持するように構成されたデータベースと、照会データのシグネチャインデックスとイメージデータのシグネチャインデックスとの間の一致を識別するように構成された特徴マッチングシステムとを含む。
【0017】
本発明のその他の態様並びに効果は、本発明の原理を例をあげて示した添付の図面とともに以下の詳細な説明から明白になる。
【0018】
【発明の実施の形態】
ディジタルイメージの無許可コピーを検出するためのシステム、装置、並びに方法として発明を説明する。しかしながら、このような具体的な説明を部分的に或いは全て知らなくても本発明を実施できることは、当業者であれば明白である。また、本発明の説明を不要に曖昧なものにしないために、既によく知られているプロセスオペレーションについては詳細に説明しない。
【0019】
本発明の実施例は、ディジタルデータのコピーを効率よく検出するためのアルゴリズムを使用したシステムを提供するものである。以下に詳説する通り、色や目に見える様相だけでなく、空間的構成が変更されたコピーも識別することができる。例えば、インターネットなど分散型ネットワークで見つけた照会イメージの疑わしいコピーを、ウェブクローラ(web crawler)によって突き止める。疑わしいコピーは、8×8のサブイメージにサイズ変更される。サブイメージは、2次元離散コサイン変換(DCT)され、順序測度(ordinal measure)とも呼ばれるランクマトリックス、シグネチャインデックス又は特徴ベクトルが生成される。疑わしいコピーのランクマトリックスがデータベースに保持され、その疑わしいコピーが本当のコピーかどうかを判定するために、各ランクマトリックスを照会イメージのランクマトリックスと比較する。一例として、最適な識別能力を提供するために、ランクマトリックスのサイズが指定される。本願で説明する実施例は、以下に詳説するように、効率の高いマッチングプロセスを提供するためにクラスタリングメソッドを活用することもできる。
【0020】
【0021】
一実施例として、ステレオイメージマッチングの順序測度を用いて、要求される確実性を実現する。順序測度を用いる一つの例において、イメージはm×nの同じサイズのブロックに分割されるため、システムは入力イメージサイズに依存しない。各ブロックの平均値をとることにより、m×nのサブイメージが算出される。図2a〜図2cは、コピー検出のための順序測度を図形的に表わしたものである。図2aは、m×n(3×3)の同じサイズのブロックに分割されたイメージを表わしている。各ブロックの画素濃度の平均値が算出され、図2bの各ブロックの中に示されている。図2cに示すように、平均値の配列がランクマトリックスに変換される。ここで、ランクマトリックスのサイズはm×n又は1×mnである。従って、図2bに示した濃度値がコピーされたイメージにおいて、そのサブイメージの値が{{30, 60, 40}, {70. 90, 110}, {50, 100, 80}}になるように一様に変えても、つまり、ブロックそれぞれの濃度値を20ずつ増やしても、ランクマトリックスは変わらない。すなわち、画素値のランクマトリックスは図2cに示したものと全く同じになり、オリジナルイメージとの完全整合が達成できる。
【0022】
しかしながら、先に説明したように、階数測度を使用しても、コピーが不規則に変更されていると検出することができない。特に、イメージの空間的アウトレイが変更されている場合は検出が難しい。図3は、図1のイメージ102を空間的に変更したイメージである。図1のランドスケープイメージが、図3のイメージ108に示すように、水平方向に反転されている。図3の変更イメージは、上述の濃度値の順序測度を使用しても検出することができない。以下に、1次元のランクマトリックスを定義するために、2次元の離散コサイン変換から導出されたAC係数の順序測度を用いた実施例について説明する。この1次元のランクマトリックスは、コピーを検出するために、照会イメージと比較される特徴ベクトルとして使用される。
【0023】
図4は、本発明の一実施例に係る、コンテントベースのコピー検出システムの概念図である。ウェブクローラ142は、インターネットなど分散型ネットワークを探索して照会イメージのコピーを捜す。なお、ウェブクローラ142は、イメージのコピーを探索する機能を有する適切なウェブクローラなら何でもよい。ウェブクローラ142が照会イメージのコピーを識別したら、そのコピーがランクマトリックスジェネレータ144に届けられる。ランクマトリックスジェネレータ144は、そのコピーのイメージデータを操作してランクマトリックスを得る。ランクマトリックスは、イメージコピーのディジタル指紋と考えることができる。一例として、イメージデータの8×8表現に2次元離散コサイン変換(DCT)を行なうことによってランクマトリックスを導出する。その後、2つのイメージ間の順序測度を用いて、そのイメージが照会イメージのコピーかどうかを判定する。ここで、順序測度とは、2次元離散コサイン変換により生成された全てまたは一部のAC係数である。
【0024】
図4に戻ると、各コピーのランクマトリックスがデータベース146に保持される。データベース146は、ランクマトリックス1〜nと、照会画素のランクマトリックス145との間に一致があるかどうか調査できるように構成されている。ランクマトリックスマッチングシステムは、照会イメージランクマトリックス145を受け取り、データベース146を調査して、その照会イメージランクマトリックスと一致するかどうかを調べる。一例として、より効率的に照会イメージランクマトリックスとの一致を調べるために、データベース146のランクマトリックスは、クラスタに分けられている。一致が見つかれば、つまり、照会イメージのコピーが見つかれば、一致を示すデータがモニタ148に出力される。例えば、照会イメージのコピーとして識別された一つ以上のランクマトリックスは、汎用リソースロケータ(URL: uniform resource locator)アドレスを示すポインタを有していてもいい。従って、対応する出力ランクマトリックスをクリックすることによって、コピーされたイメージにアクセスすることができる。
【0025】
図5は、本発明の実施例に基づいて、通信中の2つのサブシステムとして構成されたコピー検出システムのブロック図である。データベース照会システム156は、ユーザインタフェース158、ランクマトリックスジェネレータ144、特徴マッチングサブシステム154、データベース146を含む。データベース生成サブシステム152は、イメージ収集サブシステム142、ランクマトリックスジェネレータ144、クラスタリング/メタデータ生成156を含む。例えば、データベース生成サブシステム152への入力はイメージ収集サブシステム142によって集められたイメージであり、イメージ収集サブシステム142は、手作業又はウェブクローラなどのソフトウェアを用いて操作することができる。収集されたイメージのランクマトリックスは、図8〜図10で詳明するように、先ずイメージから抽出された後、しかるべきグループにまとめられる。そして、データベース照会サブシステム150によって使用されるインデックスを生成する。データベース照会サブシステム150は、特徴マッチングサブシステム154によって、インデックス付き要素の中に照会イメージのコピーがあるかどうかを判定するために、ランクマトリックスの抽出された照会イメージをデータベース146のインデックス付きの要素と突合せる。すなわち、特徴マッチングサブシステムは、データベースを調査して、クラスタ環境又はクラスタのない環境のいずれかにおいて照会イメージとの一致を調べる。インデックス付き要素と照会イメージの間に何らかの一致があれば、ユーザインタフェース158を介して表示される。言うまでもなく、特徴抽出機能及びクラスタリング/メタデータ生成機能を実行するコードを、半導体チップ上にハード的にコーディングすることもできる。当業者であれば、上記の機能を提供できるように構成されたロジックゲートを半導体チップに組み込むことできることが分かるであろう。例えば、フォームウェアと本願で説明する必要な機能を提供するためのロジックゲートファームウェアとを合成するためにハードウェア記述言語(HDL)を用いることができる。
【0026】
一実施例として、ランクマトリックスとして定義されたAC係数の順序測度が、距離の測度として、そして対応するイメージを表わすシグネチャインデックスとして使用される。順序測度を使用したコピー検出方法をさらに詳しく説明するために、次の定義及び数式について以下に説明する。画像データベースをT={C,R}と定義する。ここで、C={Q, C1,…,Cm}は照会(オリジナル)イメージQ及びその変更された又は変更されていないコピーのセットを表わし、R={R1,…,Rn}はデータベースの中の残りのイメージを表わす。検出器(分類器)は、2つのクラス(例えば、セットCの「クラスC」、セットRの「クラスR」)間の識別能力が高く、同時に、表1および図7A、7Bで説明する通り、多様なイメージ変更に対し確実性を有していなければならない。Tiがデータベースからのテストイメージであると仮定すると、コピー検出は仮説テスト項を用いて次のように表現される。
【0027】
ここでH0は帰無仮説、H1は交代仮説である。例えば、帰無仮説はテストイメージが照会イメージと相関していることを記述し、それ以外を交代仮説が記述する。
【0028】
本発明の別の実施例では、誤った検出を最小限に抑えながら照会イメージのコピーをできるだけ多く検出するために、イメージを表わす特徴としてDCT係数の順序測度を用いる。より具体的に言えば、8×8のサブイメージのAC係数の大きさ(magnitude)は降順又は昇順にランク付けされる。なお、ランクが付けられたAC係数の大きさは単純なに整数の順列で、ランクマトリックスと称される。具体的に言えば、SNが整数[1,2,…,N]の全順列の集合を表わすとしたら、任意のランクマトリックスがこの集合の要素である。イメージIi及びIjから導出された2つのランクマトリックスriとrj間の相関を測定するには、距離d(ri, rj)を定義しなければならない。当業者であれば、2つのイメージの距離は、そのランクマトリックスriとrj間のミンコフスキー計量(Minkowski metric)のL1ノルムによって表わされることが分かるだろう。
【0029】
【0030】
図6は、本発明の一つの実施例における、ランクマトリックスジェネレータのモジュールの概略図である。ランクマトリックスジェネレータ144にイメージが入力されると、イメージは先ずイメージ分割モジュール162に入る。ここで、入力されたイメージは、例えば、同じサイズの64(8×8)のサブイメージ(又はブロック)に分割される。別の例では、各サブイメージによって定義された、画素に対応する平均濃度が導出される。次に、離散コサイン変換(DCT)モジュール164で、8×8の2次元(2D)DCTを行なうことにより、先に導出された平均濃度が、それぞれ一連の係数に変換される。次に、モジュール166で、2DのDCTマトリックスは、例えば、1×63のランクマトリックスなど、降順又は昇順で63のACの大きさのランクを含んだAC係数の順序測度に変換される。説明のため、オリジナル(照会)イメージQのランクマトリックスをq=[q1, q2,・・・,qN]とし、テスト画像Tのランクマトリックスをt=[t1,t2,・・・,tN]としている。ここではN=63。すると、照会イメージとテストイメージとの間の順序測度D(Q,T)は、2つのランクマトリックス間のL1ノルムとなる。すなわち、
【0031】
【0032】
ミスマッチが発生するまでにシステムが許容できるデータ矛盾性の量を決めるのがコピー検出器の確実(ロバスト)性である。様々な変更に対するそれぞれの方法の確実性を検証するため、上に説明した測定方法を他の3つの測定方法と比較する。なお、DCT係数から導出されたランクマトリックスを採用する上記の測定方法は、測定方法4として以下に定義する。他の3つの測定方法は測定方法1〜3が、全てグリッドに基づく方法である。そこでは、イメージが64(8×8)の同じサイズのサブイメージ(ブロック)に分割され、その平均濃度が導出される。各測定方法について以下に簡単に説明する。
【0033】
測定方法1:基本的な相関ベースの方法。ここでは、2つの8×8サブイメージ間のL1ノルムが算出される。コピーがあるかどうか判定するために8×8イメージの画素値間の差の和が用いられる。
【0034】
測定方法2:8×8サブイメージから生成された2つのランクマトリックス間のL1ノルムを算出するサブイメージの順序測度。ここでは、コピーがあるかどうかを判定するのに画素値のランクマトリックスが使用される。
【0035】
測定方法3:DCT係数の2つのセット間のL1ノルムが算出される。最初に2DのDCTを実行することにより8×8サブイメージのAC係数を算出する。次に、照会イメージに基づく対応するAC係数の大きさとテストイメージに基づく対応するAC係数の大きさとの間のL1ノルムが算出される。
【0036】
測定方法4:本明細書に記載の実施例において説明した、ACの大きさの順序測度を用いてL1ノルムが算出される。
【0037】
上に紹介した測定方法をテストするために、同じイメージに基づいた13の変更イメージを40000イメージを有するデータベースに入れた。すなわち、オリジナルイメージと13のイメージ変更版とを40000イメージのデータベースの中に挿入した。表1Aは、上記の測定方法1〜4として挙げた4つのコピー検出テストに基づく上位14位までのランクを示している。大文字A〜Nは表1Bに定義したイメージタイプを示す。なお、表1Bで説明したイメージタイプはあくまで模式であり、他のタイプのイメージ変更を検出するのに本願で説明している実施例を使用できること限定するものではない。表1Aに説明を戻すと、順序表現の距離測定方法(測定方法2及び4)は、非順序表現の距離測定方法(測定方法1及び3)よりも確実性が高かった。しかしながら、測定方法2の結果が、画素値の順序測度は、予想される回転や反転(表1BのイメージタイプG及びH)などの変更を検出できないことを示しているのに対し、DCT係数のACの大きさの値の順序測度(測定方法4)は、13全てのコピーとオリジナルを検出できている。表1Aの「FD」は検出の誤りを示す。すなわち、コピーでないイメージが対応する測定方法によってランク付けされた。
【0038】
【0039】
上に示した実験結果から、提案した測定方法(測定方法4)は、多種多様な歪みに対し確実性を発揮することが分かる。しかしながら、この確実性は、相関しないイメージを比較する場合、欠点に変わってしまう可能性がある。これは、順序測度に起因するとともに、DCT係数を使用することによるものである。従って、システムの識別能力、つまり、識別力も重要になってくる。それは、検出誤りを起こさないように、無関係なイメージを棄却する能力と関係するためである。
【0040】
本願で説明するコピー検出スキームに係る実施例では、識別能力に影響を及ぼす一因となるのがランクマトリックスのサイズである。ランクマトリックスのサイズによって順序測度に使用されるAC係数の量が決まる。画素値に突然何か変化が起こると、その結果として高周波が変化する可能性があるため、高周波におけるAC係数の作用が重要となる。そして、最適なランクマトリックスサイズにより、識別能力量を測定することができる。テスト手法および結果を以下に説明する。
【0041】
【0042】
【0043】
【0044】
●N=63:ここでは、8×8のDCTのAC係数の全てが順序測度に使用されている。結果を図7Aのライン167dで示す。
●N=48:48の低周波数AC係数だけをとり、順序測度に使用する(つまり、DC係数を除く7×7の左上の係数)。結果を図7Aの167bで示す。
●N=35:35の低周波数だけがとられ、順序測度に使用される(つまり、DC係数を除く6×6の左上の係数)。結果を図7Aの167aで示す。
●N=24:24の低周波数だけがとられ、順序測度に使用される(つまり、DC係数を除く5×5の左上の係数)。結果を図7Aの167cで示す。
【0045】
ランクマトリックスに関して、説明してきた測定方法の性能を識別するために、スフィライジング(spherizing)、ラジアルブラーリング(radial blurring)、ブラシストローク(brush strokes)などもっと多様な変更を追加することによって、セットCのサイズを14から30に増やした。なお、これらのタイプのイメージ変更は、表1Bに挙げた変更タイプとは別のものである。最大識別能力を示す曲線は座標(0,1)を通る。ここで、0は誤った棄却に対応する相対的測度で、1は正しい棄却に対応する相対的測度である。図7Aにライン167aで示すように、ランクマトリックスのサイズNが35のとき識別能力が最も高い。これは、高周波おけるAC係数の適切な棄却により、AC係数の順序測度が向上することを示すものである。なお、ランクマトリックスサイズを63から35に小さくすると、インデックス化のためのメモリの節約になる。さらに、高周波のAC係数は、一般に6×6の左上の係数の外にあるため、高周波のAC係数のノイズは全て除去される。
【0046】
図7Bは、本発明の一実施例における、順序測度に用いられる6×6の左上のAC係数を描いた8×8離散コサイン変換の概略図である。図7Aで説明したように、DCT係数173を差し引いた6×6のブロック172は、AC係数の最適数と判定された。さらに、領域174における高周波AC係数はノイズを含む可能性が高いため、この実施例では削除されている。なお、最適なランクマトリックスサイズは、特定のアプリケーションによって変わる可能性がある。
【0047】
イメージデータベースが大きくなると、データベースを効率的に調査するためには、クラスタベースの検出が必要になる。クラスタリングする目的は、類似したデータ項目を一緒にカテゴリー化又はグループ化することによって、データ量を減らすことにある。このようなグループ化は、人間が情報を処理する際の一般的な処理の仕方である。クラスタリングアルゴリズムを使用させるために重要なことの一つは、カテゴリー又は分類(taxonomy)を構築するのに有効な自動化ツールを提供することである。なお、これらの方法は、プロセスにおいて人的要因の影響を最小限に抑えるための方法としても使用できる。
【0048】
よく使用されるクラスタリングの方法は、その実施し易すさから、k平均値クラスタリングで、Tabuサーチ、Geneticアルゴリズム、Simulatedアニーリング等の類似の方法と比較した場合、実行時間の観点から見た効率が一番よい。そのため、k平均値クラスタリングは大型のデータセットに適している。よく知られているように、k平均値クラスタリングは、ランダム初期分割から始まり、最も近いクラスタに対してパターンの再割り当てを行ない、その後、収束基準を満たすまで重心を再計算し続ける。
【0049】
しかし、クラスタ数の選択が分析に大きく影響する。すなわち、kが変わるとまったく異なる種類のクラスタが出現する。k平均値アルゴリズムでは、クラスタの数、つまり、kがはっきりと指定されていなければならない。最適なクラスタ数は前もってはっきりとは分かっていないので、最適クラスタ数を判定するために、クラスタの妥当性分析を行う。例えば、最適クラスタ数は、クラスタ間の距離を最大にしながら、同時にクラスタ内の距離を最小にするクラスタの数である。つまり、クラスタが異なればそのランクマトリックスは大きく変わるが、一つのクラスタ内でのランクマトリックスはコンパクトであるべきである。この特徴を数式で表すと次のようになる。
【0050】
図5に関して、先に説明したコピー検出システムを、性能の観点から評価した。性能の評価では、イメージデータの5つのコピーセットをデータベースに挿入した。ここで、各セットはオリジナルイメージの10の変更コピーを有する。従って、イメージに対応する計55(11×5)のランクマトリックスがデータベースに挿入された。オリジナルの変更コピーには、表1Bに関して説明した変更のほかに、次のようなタイプの変更:ひび割れ(craquelure)、ウォーターペーパー(water paper)、モザイク、リップル、オーシャンリップル、スポンジ、アスペクト比変更、ダークストローク(dark strokes)、彩度増などがある。ここでもまた、本実施例では、ここに挙げた変更や表1Bに挙げた変更を有するコピーに限らず、オリジナルが変更されているどんなコピーでも検出するように構成されている。言うまでもなく、色ベースのスキームでは、カラーやコントラストが変更されているイメージは場合によっては検出できないことがあると予想されるが、その一方、相関ベースのスキームではイメージが回転していたり反転していたりすると検出できないことが予想される。また、相関ベースのスキームは、対応する画素の非線形の濃度のばらつきに対して弱いと予想される。また、テクスチャベースのアプローチは、一般にひび割れ、オーシャンリップル、モザイクタイルと呼ばれる変更など、エッジロケーションが変更されたり、新たにエッジポイントが追加されたコピーに対処するのは容易ではない。
【0051】
以上、説明してきたコピー検出システム並びにアルゴリズムの性能を評価するために、適合率(precision rate)及び呼出率(recall rate)を次のように定義する:
【0052】
図8は、本発明の一実施例における、適合率及び呼出率対正規化しきい値(正規化しきい値に対する適合率及び呼出率)のグラフである。グラフから分かるように、適合率及び呼出率がともに比較的に高いので、望ましい結果は正規化しきい値0.3あたりで得られる。なお、検出し損なったコピー数を最低限に抑えるには、高い呼出率であることが重要である。データベースからのテストイメージが、コピーのクラスに属するかどうかはしきい値によって決まる。例えば、しきい値の決定は以下に説明するアルゴリズムによって計算される。
【0053】
【0054】
【0055】
【0056】
【0057】
【0058】
【0059】
【0060】
【0061】
【0062】
【0063】
上記性能テストは、クラスタのないコピー検出として実施したが、k平均値クラスタリングに対して、先に説明したクラスタベースの検出をこの性能テストに統合してもいい。上述の通り、データベースの中の特徴ベクトル、つまり、ランクマトリックスは、k平均値アルゴリズムによりクラスタ化されており、最適なクラスタ数を判定するために、クラスタの妥当性分析を行なうことができる。
【0064】
図9は、本発明の一実施例における、最適クラスタ数を判定するためのクラスタ妥当性分析の結果を示すグラフである。この図から、クラスタ妥当性測度v(k)は、k=7のとき最低であることが分かる。そこで、システムのクラスタ数を例えば7に設定する。ここでは、先ずその7つのクラスタの重心が、照会イメージの特徴ベクトルと比較される。例えば、ランクマトリックスのような、その重心がN個の最も近接した重心に属するようなクラスタの特徴ベクトルだけが選ばれ、コピー検出をより効率的なものにする。図9のコピー検出システムの場合、最適クラスタ数は図10から4と判定された。従って、7つのクラスタのうちの4つが、照会イメージのランクマトリックスとアライメントしていると識別され、コピーが捜される。もちろん、当業者であれば、クラスタ妥当性分析によって示されるクラスタ数が、アプリケーションによって7以下になったり7以上なったりすることは明らかである。また、調査対象として識別されるクラスタ数は、クラスタ総数の一部分であることもあるし、クラスタ全てを含むこともある。上に述べた通り、コピー検出は、クラスタのない環境で行なうこともできる。
【0065】
図10は、本発明の一実施例において、クラスタベースの検出を用いて最適しきい値での適合率と呼出率を比較したグラフである。クラスタのない場合と、上に述べた7つのクラスタのうちの1つ、2つ、3つ、4つを考察した場合の、最適しきい値での適合率、呼出率を表わす。図10に示すように、コピー検出に、照会イメージに最も近いクラスタだけを用いた時に適合率は最も高く、呼出率は最も低かった。使用する近接クラスタ数が増えると、つまり、Nが大きくなると、適合率はわずかに低下するが、呼出率は増加する。
【0066】
【0067】
【0068】
表2のデータは、先に説明したコピー検出方法の効率の良さを示している。照会イメージA,B,D、Eに関して、全て11のイメージ(10の変更されたコピーと1つのオリジナル)が検出された。照会イメージCでは、11のうちの9つのイメージが検出された。さらに、11以上のイメージが検出された場合は、この11のイメージは見つかった上位11のイメージの中に常時入っていた。なお、イメージはランクマトリックスとしてデータベースに保持され、先に説明したように、照会イメージのランクマトリックスに基づいてデータベースの探索が行なわれた。言うまでもなく、データベース内のデータはクラスタになっていてもクラスタなしでも可能である。
【0069】
図11は、本発明の一実施例における、ディジタルイメージのコピーを検出する方法のフローチャートである。このフローチャートは、イメージが選択されるオペレーション200から始まる。ここで選択されたイメージは、インターネットなど分散型ネットワーク上にあるイメージで、例えば、ウェブクローラなどのサーチソフトウェアの支援によって見つけられる。次に、オペレーション202に進み、イメージからシグネチャインデックスが定義される。特徴ベクトルとも呼ばれるこのシグネチャインデックスは、先に説明したように、1次元のランクマトリックスを含んでいる。例えば、選択されたイメージを同じサイズの64のサブイメージ又はブロックに細分することによって、シグネチャインデックス、つまり、ランクマトリックスが導出される。この64の同じサイズのサブイメージは、8×8のグリッドに配列される。サブイメージと関連した画素値から算出された平均濃度の平均がとられる。この平均濃度は2次元DCTオペレーションにより、一連の係数に変換される。このDCTに基づく一連の係数は、次にランクマトリックスに変換される。図7A及び7Bで述べたように、ランクマトリックスは63のAC係数を全て或いは部分的に含んでいてよい。
【0070】
図11の方法では、次にオペレーション204に進み、定義されたシグネチャインデックスを保持する。シグネチャインデックスは、一例として、データベースに保持される。図8〜10で述べた通り、データベースに入っているイメージのコピーの検出をより効率的に行うため、シグネチャインデックスはクラスタになっている。前述の通り、k平均値クラスタリングなどのクラスタリング方法によってデータがデータベースでクラスタ化される。次にオペレーション206に進み、照会イメージのシグネチャインデックスが判定される。なお、照会イメージとは、コピー検出中のオリジナルイメージのことである。例えば、この照会イメージのシグネチャインデックスの判定は、オペレーション202で説明したイメージデータのシグネチャインデックスを定義する方法で行われる。次にオペレーション208に進み、シグネチャインデックスが保持されていれば、それと照会イメージのシグネチャインデックスとの一致が識別される。一例として、ランクマトリックス間の一致を識別するために、ランクマトリックスマッチングシステムが用いられる。別の例では、クラスタ妥当性分析により、最適シグネチャインデックス数を判定することによって、一致を検出するタイミングが最適化される。
【0071】
要約すれば、上に説明した発明は、ディジタルイメージの無許可のコピーを検出することができる。一実施例では、コピー検出器はイメージデータベースを有し、イメージデータベースには数百万のウェブページから集めたイメージが入っている。もしくは、システムがイメージのシグネチャインデックス、つまり、特徴ベクトルやURLを維持するようにすることもできる。なお、保持されているイメージは、その特徴ベクトルが抽出されたら削除されるから、メモリスペースを節約するだけでなく著作権問題を起こさないためにもシグネチャのデータベースが望ましい。ウェブを周期的にクロールする自動イメージ探索ツールによって、新たに発見されたイメージのプロファイルが作成された後、そうしたプロファイルは特徴に基づいてインデックス化される。
【0072】
【発明の効果】
本明細書で説明した特定の例では、高周波ノイズを避けるために8×8のサブイメージの35DCT係数の順序測度を採用しているが、任意の数のDCT係数を使用して構わない。結果は、色の変更だけでなく反転や回転を含み、多様な変更に対して確実(ロバスト)である。さらに、本書で説明した実施例は誤った検出の発生を最小限度に抑える識別力が高い。ランクマトリックスをインデックス化するには、ランクマトリックス毎に6ビット×35/イメージ、つまり、約27バイト/イメージが必要である。その場合、ランクマトリックスのサイズは35となる。当業者であれば、特定のアプリケーションによっては、数百万のイメージを保有しているデータベースに有効に対処するためにより効率的なクラスタ化及びインデックス化を考慮してもいい。なお、DCT係数の最適数やデータベースでのシグネチャインデックスの最適クラスタ数など、本書で提供した具体的な実施例は、具体的な例との関係において示したものである。従って、最適数は、シグネチャインデックスのタイプ、データベースのサイズ、望ましい適合及び呼出、最適しきい値など、によって変わってくる。しかしながら、最適レベルに到達する上述の方法は、コンテントベースのイメージコピー検出のどんなアプリケーションにも応用することができる。
【0073】
上記に鑑み、本発明は、コンピュータシステムに保持されたデータを用いて様々なコンピュータで実施するオペレーションを採用してもいいことが分かる。こうしたオペレーションには、物理的数量を物理的に操作しなければならないオペレーションも含まれる。必ずしもそうとは限らないが、こうした数量は、保持、転送、結合、比較、及びその他の操作が可能な電気信号又は磁気信号の形をとるのが一般的である。さらに、実行される操作は、生成、識別、判定、或いは比較といった表現で呼ばれることが多い。
【0074】
上に説明した発明は、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースの或いはプログラム可能な消費者用エレクトロニクス、ミニコンピュータ、メインフレームコンピュータなどを含み、他のコンピュータシステム構成で実施してもいい。本発明はまた、通信ネットワークを介してリンクされた遠隔処理装置によってタスクが実行される分散コンピューティング環境で実施することもできる。
【0075】
本発明はまた、コンピュータ可読媒体にコンピュータ可読コードとして実装することもできる。コンピュータ可読媒体とは、データを保持し、その後そのデータをコンピュータシステムで判読できる任意のデータ記憶装置である。コンピュータ可読媒体の例としては、ハードディスクドライブ、ネットワーク接続型ストレージ(NAS)、リードオンリーメモリ、ランダムアクセスメモリ、CD−ROM、CD−R、CD−RW、磁気テープや、その他の光データ記憶装置及びオプティカルでないデータ記憶装置などが挙げられる。コンピュータ可読媒体は、コンピュータ可読コードを分散して保持、実行できるようにネットワークに接続されたコンピュータシステムで配布することもできる。
【0076】
上記の発明を理解しやすいように幾分詳細に説明してきたが、特許請求の範囲から逸脱しない限りにおいて何らかの変更、修正が可能なことは明白である。従って、本明細書で明らかにした実施例は説明のためのもので限定を意図したものでないと考えるべきであり、本発明は本明細書で述べた詳細に限定されるものではなく、特許請求の範囲内において修正変更することができる。特許請求において、各要素及び/又はステップは、請求項にはっきりと記載されている場合を除き、オペレーションの特定の順番を暗に示すものではない。
【図面の簡単な説明】
【図1】イメージコピー検出器のサーチ間の相違を示す3つのイメージ及びコンテントベースのイメージ検索システム。
【図2】コピー検出のための順序測度の使用を表現した図。
【図3】図1のイメージ102を空間的に変更したイメージ。
【図4】コンテントベースのコピー検出システムの概念図。
【図5】通信している2つのサブシステムとして構成されたコピー検出システムのブロック図。
【図6】ランクマトリックスジェネレータのモジュールの概略図。
【図7】A4つの異なるランクマトリックスサイズと、それに対応する、高い識別能力を有するランクマトリックスサイズを判定するための正しい棄却率及び誤った棄却率のグラフ。
B順序測度として使用される(6×6)−1の左上AC係数を描いた8×8離散コサイン変換の概略図。
【図8】適合率及び呼出率対正規化しきい値のグラフ。
【図9】最適クラスタ数を判定するためのクラスタ妥当性分析の結果
【図10】クラスタベースの検出を用いた最適しきい値での適合率と呼出率を比較したグラフ。
【図11】ディジタルイメージのコピーを検出する方法のオペレーションのフローチャート。
【符号の説明】
140 インターネット
142 ウェブクローラ
144 ランクマトリックスジェネレータ
145 照会イメージランクマトリックス
146 データベース
148 モニタ
150 データベース照会サブシステム
152 データベース生成サブシステム
172 6×6ブロック
173 DCT係数
174 領域
Claims (39)
- ディジタルイメージのコピーを検出するための方法で、
ディジタルイメージの疑わしいコピーをサブイメージに分割するステップと、
前記サブイメージの各々と関連した画素の平均濃度を判定するステップと、
前記平均濃度を一連の係数に変換するステップと、
前記一連の係数からランクマトリックスを定義するステップと、
前記疑わしいイメージが前記ディジタルイメージの本当のコピーかどうかを判定するために前記一連の係数に基づくランクマトリックスを照会イメージのランクマトリックスと比較するステップとを有することを特徴とする方法。 - 前記サブイメージは各々が8×8のブロックからなり、前記ディジタルイメージは同じサイズの64のサブイメージを有することを特徴とする請求項1に記載の方法。
- 前記一連の係数は離散コサイン変換(DCT)関数のAC係数を含むことを特徴とする請求項1に記載の方法。
- 前記方法の前記平均濃度を一連の係数に変換するオペレーションは、
2次元の離散コサイン変換(DCT)を行なうことによって2次元の一連の係数を生成するステップ含むことを特徴とする請求項1に記載の方法。 - 前記方法の前記一連の係数からランクマトリックスを定義するオペレーションは、
前記一連の係数を1次元のランクマトリックスに配列するステップを含むことを特徴とする請求項1に記載の方法。 - 前記1次元ランクマトリックスは、前記一連の係数の大きさを降順に配置していることを特徴とする請求項5に記載の方法。
- コンテントベースのイメージコピー検出方法であって、
イメージと関連したイメージデータを選択するステップと、
前記イメージデータからシグネチャインデックスを定義するステップと、
前記イメージデータからのシグネチャインデックスを保持するステップと、
照会イメージのシグネチャインデックスを判定するステップと、
前記イメージデータからの保持されたシグネチャインデックスと前記照会イメージのシグネチャインデックスとの間の一致を識別するステップとを備えることを特徴とする方法。 - 誤った検出を最小限に抑えるために、前記イメージデータからのシグネチャインデックスのサイズと照会イメージのシグネチャインデックスのサイズが最適化されることを特徴とする請求項7に記載の方法。
- 前記イメージデータからのシグネチャインデックス及び照会イメージのシグネチャインデックスは、共に24、35、48、63からなるグループから選択された係数の数を有するシグネチャインデックスによって定義されることを特徴とする請求項7に記載の方法。
- 前記イメージデータのシグネチャインデックスは、データベースに保持されることを特徴とする請求項7に記載の方法。
- 前記方法の前記イメージと関連したイメージデータを選択するオペレーションは、
分散型ネットワークを探索して前記イメージデータを捜すステップと、
複数のシグネチャインデックスからクラスタを定義するステップとを含むことを特徴とする請求項7に記載の方法。 - 前記クラスタを定義するためにk平均値アルゴリズムが用いることを特徴とする請求項11に記載の方法。
- クラスタ数はクラスタ妥当性分析によって判定されることを特徴とする請求項11に記載の方法。
- 前記クラスタは、クラスタの重心を含むことを特徴とする請求項11に記載の方法。
- さらに、前記クラスタが調査されているかどうか判定するために、前記照会イメージのシグネチャインデックスを前記クラスタの重心と比較するステップを有することを特徴とする請求項14に記載の方法。
- ディジタルイメージの無許可のコピーを見つけるための方法であって、
テストイメージのランクマトリックスを計算するステップと、
照会イメージのランクマトリックスを計算するステップと、
しきい値を判定するステップとを備え、当該しきい値は前記テストイメージが前記照会イメージのコピーかどうかを示すものであり、さらに
前記テストイメージの前記ランクマトリックスと前記照会イメージの前記ランクマトリックスとの間の距離に関連した距離値を判定するステップを備えると共に、前記距離値を前記しきい値と比較するステップを備え、
もし前記距離値が前記しきい値に満たなければ、前記テストイメージは前記照会イメージのコピーであることを特徴とする方法。 - 前記方法の前記しきい値を判定するオペレーションは、
前記しきい値を算出するために最大事後(MAP)基準を適用するステップを含むことを特徴とする請求項16に記載の方法。 - 前記しきい値は事前確率の比と反比例することを特徴とする請求項16に記載の方法。
- さらに、前記テストイメージのランクマトリックスと前記照会イメージのランクマトリックスを2次元離散コサイン変換によって算出するステップを含むことを特徴とする請求項16に記載の方法。
- コンピュータシステムで実施されるように構成されたコンピュータコードを含んだコンピュータ可読媒体であって、当該コンピュータコードは、イメージデータを識別するためのプログラム命令と、
識別されたイメージデータから特徴ベクトルを定義するためのプログラム命令と、
前記特徴ベクトルを保持するためのプログラム命令と、
照会イメージの特徴ベクトルと前記識別されたイメージに基づく特徴ベクトルとの一致を判定するためのプログラム命令と、
前記照会イメージの特徴ベクトルと前記識別されたイメージからの特徴ベクトルとの一致を表示するためのプログラム命令とを有することを特徴とする。 - 前記特徴ベクトルはランクマトリックスであることを特徴とする請求項20に記載のコンピュータ可読媒体。
- 前記特徴ベクトルを定義するプログラム命令は2次元離散コサイン変換(DCT)を行なうためのプログラム命令を含むことを特徴とする請求項20に記載のコンピュータ可読媒体。
- 前記一致を判定するためのプログラム命令はクラスタベースの検出のためのプログラム命令を含むことを特徴とする請求項20に記載のコンピュータ可読媒体。
- 前記クラスタベースの検出のためのプログラム命令はk平均値クラスタリングプログラム命令であることを特徴とする請求項23に記載のコンピュータ可読媒体。
- テストイメージが照会イメージのコピーかどうかを判定するためのコンピュータ可読媒体であって、当該コンピュータコードは、
照会イメージと関連したランクマトリックス及びテストイメージと関連したランクマトリックスとを算出するためのプログラム命令と、
前記テストイメージが前記照会イメージのコピーであるかどうかを示すしきい値を判定するためのプログラム命令と、
前記照会イメージと関連したランクマトリックスを前記テストイメージと関連したランクマトリックスと比較するためのプログラム命令とを備え、当該比較するためのプログラム命令は、
前記テストイメージと前記照会イメージとの間の距離値を判定するためのプログラム命令と、
前記距離値が前記しきい値に満たないかどうかを調べるためのプログラム命令とを含み、もし前記距離値が前記しきい値に満たなければ前記テストイメージは前記照会イメージのコピーであることを特徴とする。 - 前記テストイメージが照会イメージのコピーかどうかを示すしきい値を判定するためのプログラム命令は、
前記しきい値を算出するために最大事後(MAP)基準を適用するためのプログラム命令を含むことを特徴とする請求項25に記載のコンピュータ可読媒体。 - 前記照会イメージと関連したランクマトリックスとテストイメージと関連したランクマトリックスとを算出するためのプログラム命令は、
2次元離散コサイン変換を適用することによって各ランクマトリックスを算出するためのプログラム命令を含むことを特徴とする請求項25に記載のコンピュータ可読媒体。 - 前記しきい値は最適適合値及び最適呼出値と関連していることを特徴とする請求項25に記載のコンピュータ可読媒体。
- ディジタルイメージのコピーを検出するためのプログラム命令を有するコンピュータ可読メディアであって、
ディジタルイメージの疑わしいコピーをサブイメージに分割するためのプログラム命令と、
前記サブイメージの各々と関連した平均濃度を判定するためのプログラム命令と、
前記平均濃度を一連の係数に変換するためのプログラム命令と、
前記一連の係数からランクマトリックスを定義するためのプログラム命令と、
前記疑わしいコピーが前記ディジタルイメージの本当のコピーかどうかを判定するために前記一連の係数に基づくランクマトリックスを照会イメージのランクマトリックスと比較するためのプログラム命令とを有することを特徴とするコンピュータ可読メディア。 - 前記平均濃度を一連の係数に変換するためのプログラム命令は、2次元の離散コサイン変換(DCT)を行なうことによって2次元の一連の係数を生成するためのプログラム命令を含むことを特徴とする請求項29に記載のコンピュータ可読メディア。
- 前記一連の係数からランクマトリックスを定義するためのプログラム命令は、
前記一連の係数を1次元のランクマトリックスに配列するためのプログラム命令を含むことを特徴とする請求項29に記載のコンピュータ可読メディア。 - さらに、複数のランクマトリックスからクラスタを定義するためのプログラム命令を含むことを特徴とする請求項29に記載のコンピュータ可読メディア。
- さらに、前記クラスタが探索されているかどうかを判定するために照会イメージのランクマトリックスを前記クラスタの重心のランクマトリックスと比較するためのプログラム命令を含むことを特徴とする請求項32に記載のコンピュータ可読メディア。
- コンピュータシステムであって、当該コンピュータシステムは、イメージデータをアセンブルするためのデータベース生成システムを備え、当該データベース生成システムは、
前記イメージデータを識別するためのイメージ収集システムと、
前記イメージデータのシグネチャインデックスを抽出するための特徴抽出コードとを含み、前記コンピュータシステムはさらに、
前記イメージデータを照会データと突き合せるためのデータベース照会システムを備え、当該データベース照会システムは、
前記イメージデータのシグネチャインデックスを保持するように構成されたデータベースと、
前記イメージデータが前記照会データのコピーかどうかを判定するために前記照会データのシグネチャインデックスと前記イメージデータのシグネチャインデックスとの間の一致を識別するように構成された特徴マッチングシステムとを含むことを特徴とする。 - 前記イメージ収集システムはウェブクローラであることを特徴とする請求項34に記載のコンピュータシステム。
- 前記シグネチャインデックスはランクマトリックスであることを特徴とする請求項34に記載のコンピュータシステム。
- 前記特徴マッチングシステムは、前記データベースと関連したクラスタが探索されているかどうかを判定するための機能を有することを特徴とする請求項34に記載のコンピュータシステム。
- 前記シグネチャインデックスは離散コサイン変換(DCT)関数を用いて導出されることを特徴とする請求項34に記載のコンピュータシステム。
- 前記特徴マッチングシステムは、前記イメージデータが前記照会イメージのコピーであるかどうか判定する際に使用するしきい値を定義することを特徴とする請求項34に記載のコンピュータシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37220802P | 2002-04-12 | 2002-04-12 | |
US38458402P | 2002-05-31 | 2002-05-31 | |
US10/263,423 US7167574B2 (en) | 2002-03-14 | 2002-10-01 | Method and apparatus for content-based image copy detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004007552A true JP2004007552A (ja) | 2004-01-08 |
Family
ID=30449312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003101866A Withdrawn JP2004007552A (ja) | 2002-04-12 | 2003-04-04 | コンテントベースのイメージコピー検出の方法並びに装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004007552A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7167574B2 (en) | 2002-03-14 | 2007-01-23 | Seiko Epson Corporation | Method and apparatus for content-based image copy detection |
US7486827B2 (en) | 2005-01-21 | 2009-02-03 | Seiko Epson Corporation | Efficient and robust algorithm for video sequence matching |
US7532804B2 (en) | 2003-06-23 | 2009-05-12 | Seiko Epson Corporation | Method and apparatus for video copy detection |
-
2003
- 2003-04-04 JP JP2003101866A patent/JP2004007552A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7167574B2 (en) | 2002-03-14 | 2007-01-23 | Seiko Epson Corporation | Method and apparatus for content-based image copy detection |
US7532804B2 (en) | 2003-06-23 | 2009-05-12 | Seiko Epson Corporation | Method and apparatus for video copy detection |
US7486827B2 (en) | 2005-01-21 | 2009-02-03 | Seiko Epson Corporation | Efficient and robust algorithm for video sequence matching |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7167574B2 (en) | Method and apparatus for content-based image copy detection | |
Tang et al. | Robust image hashing with ring partition and invariant vector distance | |
Zhou et al. | Effective and efficient global context verification for image copy detection | |
US8090146B2 (en) | Image watermarking | |
US7127106B1 (en) | Fingerprinting and recognition of data | |
Christlein et al. | On rotation invariance in copy-move forgery detection | |
Zhang et al. | Copy-move forgery detection based on SVD in digital image | |
Tang et al. | Lexicographical framework for image hashing with implementation based on DCT and NMF | |
CN101853486B (zh) | 一种基于局部数字指纹的图像拷贝检测方法 | |
Jing et al. | Image copy-move forgery detecting based on local invariant feature. | |
US8433141B2 (en) | Phishing abuse recognition in web pages | |
Hegazi et al. | An improved copy-move forgery detection based on density-based clustering and guaranteed outlier removal | |
Han et al. | Content-based image authentication: current status, issues, and challenges | |
JP2005020742A (ja) | ビデオコピーの検出方法及び装置 | |
EP2294815A2 (en) | Patch-based texture histogram coding for fast image similarity search | |
Xu et al. | Robust image copy detection using multi-resolution histogram | |
Gavrielides et al. | Color-based descriptors for image fingerprinting | |
Ling et al. | Fine-search for image copy detection based on local affine-invariant descriptor and spatial dependent matching | |
JP2004007552A (ja) | コンテントベースのイメージコピー検出の方法並びに装置 | |
Cheung et al. | Video similarity detection with video signature clustering | |
Wang et al. | A robust content based image watermarking using local invariant histogram | |
Ustubioglu et al. | Improved copy-move forgery detection based on the CLDs and colour moments | |
Isnanto et al. | Determination of the optimal threshold value and number of keypoints in scale invariant feature transform-based copy-move forgery detection | |
Hsieh et al. | A novel approach to detecting duplicate images using multiple hash tables | |
Granty et al. | Spectral-hashing-based image retrieval and copy-move forgery detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070911 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20071011 |