JP2018532198A - 視覚データのストリーム中のコピーを検出するための方法およびデバイス - Google Patents

視覚データのストリーム中のコピーを検出するための方法およびデバイス Download PDF

Info

Publication number
JP2018532198A
JP2018532198A JP2018519029A JP2018519029A JP2018532198A JP 2018532198 A JP2018532198 A JP 2018532198A JP 2018519029 A JP2018519029 A JP 2018519029A JP 2018519029 A JP2018519029 A JP 2018519029A JP 2018532198 A JP2018532198 A JP 2018532198A
Authority
JP
Japan
Prior art keywords
image
signature
row
module
copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2018519029A
Other languages
English (en)
Inventor
ル・ボルニュ,エルベ
ガデスキ,エチエンヌ
ポペスク,エイドリアン
Original Assignee
コミサリヤ・ア・レネルジ・アトミク・エ・オ・エネルジ・アルテルナテイブ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コミサリヤ・ア・レネルジ・アトミク・エ・オ・エネルジ・アルテルナテイブ filed Critical コミサリヤ・ア・レネルジ・アトミク・エ・オ・エネルジ・アルテルナテイブ
Publication of JP2018532198A publication Critical patent/JP2018532198A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/0028Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0201Image watermarking whereby only tamper or origin are detected and no embedding takes place
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、初期画像を受信することと、初期画像をグレースケールにコンバートすることと、グレー化画像を複数の行と偶数個の列とを有する低減された画像にリサイズすることと、低減された画像の全体的シグネチャを計算することと、低減された画像の全体的シグネチャと基準画像のシグネチャとの間の比較の結果に従って、初期画像が画像のコピーまたはほとんどコピーであるかどうかを決定することとからなる、画像のコピーまたはほとんどコピーを検出するための方法およびデバイスに関する。全体的シグネチャを計算するステップは、低減された画像の各列についての行シグネチャを計算するステップであって、計算が、各行に対する対称的ピクセルのサブセットにわたる統計的に取得された値の比較に基づく、計算するステップと、全体的シグネチャを取得するために行シグネチャを連結するステップとを含む。

Description

本発明は、マルチメディアドキュメント、たとえば画像またはビデオの送信および交換の分野に関する。より詳細には、本発明は、視覚コンテンツのほぼコピー(near−copy)の検出に関する。
ソーシャルウェブの増加は、ウェブサイトにわたるまたはオンラインソーシャルネットワーク(OSN)のユーザのプロファイルにわたる、視覚コンテンツ、すなわち、画像、ビデオの伝搬の大量の増加につながった。公開されたコンテンツと中継されたコンテンツとは、同一であることがあり、その場合、コンテンツのコピーへの言及が行われ、あるいはささいな変更を含んでいることさえあり、その場合、コンテンツのほぼコピーへの言及が行われる。説明の残り全体にわたって、「コピー」という用語を使用する「コンテンツコピー」、「画像コピー」、「コピー検出」という表現および他の変形形態は、「コピー」および/または「ほぼコピー」という用語を包含するものと解釈されることになる。
画像のほぼコピーは変換のうちの1つまたは組合せを受けた基準画像(reference image)であると、一般的に認められている。基準画像は、画像の固定ベースに属するか、または他の場合、視覚データのストリームを介してあらかじめ収集され得る。
以下の変換は、主要なソーシャルメディア出力、すなわち、ブログ、ソーシャルネットワーク、フォーラム、オンライン新聞などの上で公開された現在画像の中からの、インターネット上で遭遇される可能性が最も高い変換の例である:
− たとえばJPEGへの、圧縮、
− たとえばPNGコンバージョンなど、符号化の変更、
− たとえば左右反転を通した、フリッピング、
− 比率(スケーリング)の変更、
− たとえば、画像のエッジが削除され、必ずしもセンタリングされているとは限らない、クロッピング、
− たとえばグレースケールまたはセピアへの、比色コンバージョン、
− たとえば20°未満の、小さい回転、
− テキスト(タイトル、シグネチャなど)または画像(たとえばロゴ)を埋め込むこと。
基準視覚コンテンツのアイテムのコピーの検出は、ブログについてか、ソーシャルネットワークについてか、フォーラムについてかまたは他の場合オンライン新聞についてかにかかわらず、ソーシャルメディア分析の分野において複数の実益を有する。この問題は、ほんのいくつかの有利な適用例を挙げれば、保護コンテンツの違法コピーを探索すること、コンテンツの人気を測定すること、ソーシャルメディアを監視すること、または他の場合、ビデオ内のプログラミングの位置を特定することなど、様々な適用例のコアにある。
それの用途にかかわらず、コピー検出は、それのコンテンツによって画像を識別することからなる動作、「コンテンツベースの検索(content−based retrieval)」として知られる技法である。ソーシャルネットワークの分野において考慮に入れられるべき重要な特徴は、コンテンツが、連続的に処理されなければならないデータストリームであることであり、したがって、(画像またはキーフレームがビデオから抽出される)視覚データのストリームから生じるコピー検出は、概して、基準ベース中の画像についてオンラインで探索するためにかかる時間と、画像が受け得る様々な変換に対するロバストネスとに集中される。したがって、コピーまたはほぼコピーを検出するための知られている手法は、探索プロセスの速度を上げるために、画像の局所特徴を集約することによってコンパクトな視覚シグネチャが構築される方法に依拠する。コピー検出要求の処理が、分析されるべき画像についてのシグネチャの算出と、基準画像中のほぼコピーについての探索とを含むデジタル視覚データのストリームの場合、総処理時間は、処理されるべきデータストリームのビットレートに適合することが必要である。
しかしながら、局所特徴を算出し、集約することのコストは無視できず、インデックス付け時間(シグネチャ算出)は、画像ストリームの処理が想定される瞬間から十分に短くなければならない。視覚シグネチャを算出するのにかかる時間は、新しいデータの受信の頻度に適合しなければならない。より詳細には、インデックス付けおよび探索動作は、着信ストリームからの新しいデータの収集のレートよりも高いレートで実行されなければならない。たとえば、システムが1日当たり50万個の視覚マルチメディア記事をダイジェストする場合、それらと1千万から1億個のドキュメントを含むと仮定される最近コンテンツとの比較は、(24×3600)/500000=172.8ミリ秒よりも小さい、すなわち1秒当たり6つの画像程度で行われなければならない。そのような厳しい処理レートは、コンピューティングリソースが限定される場合、局所特徴の圧縮および変換に基づくシグネチャの使用を採用するのを困難にする。したがって、要求を処理するのにかかる時間はまた、サービスを提供するのに必要とされるコンピューティングリソース(メモリ、プロセッサ)とのバランスをとられなければならない。
図1は、コピー検出のための標準処理チェーンを示す。一般原理は、それのコンテンツにより画像を基準ベースにわたって探索することと、画像が基準画像のコピーまたはほぼコピーであるかどうかを決定することとからなる。したがって、要求を処理するためのデバイスは、第1のオフライン処理チェーン(102)において、それの表示が1つまたは複数のベクトルを含み得る、所与の画像(基準ドキュメント)のベクトル表示を設定することからなる、視覚特徴を抽出するためのモジュール(104−1)と、特徴の抽出に起因する記述子をインデックス付けし、したがって、効率的に探索され得るインデックス付き基準ベース(indexed reference base)を形成するためのインデックス付けモジュール(106)とを含む。随意に、インデックス付けは、複数の基準画像がそれら自体ほぼコピーである場合、ラベルを含み得る。
デバイスは、要求画像が基準画像のコピーであるか否かを決定するために決定モジュール(112)に結合された、同様の画像を見つけるために要求画像のベクトル記述を使用し、基準ベースに問い合わせる比較モジュール(110)に結合された、要求画像のベクトル記述を設定するために視覚特徴を抽出するためのモジュール(104−2)を含む、要求を処理するための第2のオンライン処理チェーン(108)をさらに含む。
マルチメディアの分野における知られている作業の大部分は、画像を表すために局所記述子(local descriptor)の抽出に基づく。各基準画像中で、関心のあるポイントのセットは、視覚的に顕著であり、画像が変更された後でも見つけられる可能性がある画像中のポイントに相当するものとして選択される。局所記述子は、その後、各関心のあるポイントの空間近傍において算出される。
そのような手法は、「Method of identifying a multimedia document in a reference base, corresponding computer program and identification device」と題する、Gengembre Nicolasらによる特許出願WO 2009/095616、さもなければ、「Content−Based Copy Retrieval Using Distortion−Based Probabilistic Similarity Search」と題する、Joly,A.、Buisson,O.およびFrelicot,C.による論文、Multimedia、IEEE Transactions、第9巻、第2号、293、306頁、2007年2月に示されている。
しかしながら、この方法は、局所記述子を抽出することと、なにより基準ベースが大きくなったときに基準ドキュメントを発見することとの両方のための算出時間に関して極めて費用がかかる。
したがって、局所記述子を使用する方法は良好な性能を呈し、それらを高速画像探索のために利用するために効率的なインデックス付け方式が提案された。しかしながら、これらの取り組みは、探索時間に集中し、提案された方法は、特徴を抽出するためにかかる時間が必須パラメータである、連続データストリームにおける算出に適用されるには依然としてあまりに遅い。
1つの知られている代替形態は、分析されるべき画像のための全体的シグネチャ(overall signature)を使用することからなる。その場合、インデックス付けは、しばしば、連結動作からなり、未加工(ロー)シグネチャファイルを生じる。その後の比較動作は、ベクトル間の単純な距離(または類似度)を決定することからなる。この手法の利点は、シグネチャの算出が高速であることである。欠点は、概して、局所記述子を使用する手法よりも変換に対してあまりロバストでないことである。さらに、比較速度は、基準ベースのサイズに、およびシグネチャのサイズに比例する。したがって、それは、可能な最小シグネチャを見つけることに関する。
以下の参考文献は、全体的シグネチャの算出に関する論文を与える。
B.Thomee、M.J.Huiskes、E.M.Bakker、およびM.J.Lewによる刊行物「An evaluation of content−based duplicate image detection methods for web search」、ICME 2013は、共通ベンチマークに関する複数のそのような手法を比較する。
「アベレージハッシュ」と呼ばれるいくぶんより単純な手法をおそらく使用する、画像検索エンジン「TinEye」(www.tineye.com)も言及に値する。それは、従来のハッシュ関数とは異なり、信号のコンテンツの小さい変化が、ハッシュキーを少量のみだけ変更するということに依拠する。これは、使用されるべき「ほとんど同一」のコンテンツを見つけるためによく知られている、ハミング距離(Hamming distance)などの類似度関数を可能にする。
Zauner、Christophによる刊行物「Implementation and Benchmarking of Perceptual Image Hash Functions」修士論文、Upper Austria University of Applied Sciences、ハーゲンバーグキャンパス、2010年は、全体的シグネチャにたとえられることがある「知覚ハッシング(perceptual hashing)」関数を検討する。
アドレスhttp://blog.iconfinder.com/detecting−duplicate−images−using−python/において、2014年4月にオンラインで利用可能な刊行物は、Zaunerによって論文において記述された方法と同じ方法のカテゴリーに該当する、ブロック平均(block mean)に基づく知覚ハッシング方法について説明する。特に、本方法は、以下のステップからなる:
− 要求画像をグレースケールにコンバートするステップ、
− グレー化画像を「8×9」(8つの行、9つの列)の固定サイズに低減するステップ、
− たとえば、ピクセルが、右隣接ピクセルのグレースケール値よりも大きいグレースケール値を有する場合、「真」値を帰する(attribute)ために、各行中の隣接ピクセルの強度を比較するステップ、
− 16進法で、得られたバイナリ画像(8×8)を符号化するステップ。
図2aは、この原理に従う、行「i」のためのハッシュ関数の構成を示す。この例では、要求画像が、8行×9列の固定サイズに低減される。ピクセルを比較するステップは、ピクセルの強度が隣接ピクセルの強度よりも大きい場合、「真」値を帰することからなる。この例では、行は、それぞれの強度(B1=120、B2=121、B3=121、B4=88、B5=86、B6=136、B7=130、B8=84、B9=85)のピクセルブロック(B1−B9)を含む。右隣接ピクセルを比較した後、16進法で符号化された得られたバイナリ行(行「i」のハッシュ)は、8つの値「0、0、1、1、0、1、1、0」をもつ行である。得られた画像は、サイズ(8×8)の画像である。
この方法は極めて速いが、それは、いくつかの変換のみに対してロバストであり、左右反転の場合、および小さい回転の場合など、多数の他の変換の場合、期待されるロバストネスを与えない。
代替的に、当業者は、図2bに示されているように、対称的ピクセルを比較することによって、この方法の対称バージョンを構築することができるであろう。行「i」は、それぞれのピクセル値「121、122、120、87、86、125、119、84」の8つの列B1からB8から構成される。直線的中心対称性に従って、それらのピクセル値、ピクセルB1の値=121とピクセルB8の値=84との比較が行われ、以下同様に行われる。16進法で符号化された得られたバイナリ行(行「i」のハッシュ)は、4つの値「1、1、0、1」をもつ行である。得られた画像は、サイズ(8×4)の画像である。そのような手法は、比較動作の数を2だけ低減し、それにより、よりコンパクトなシグネチャが取得されることを可能にするが、これは、特に、画像中の比較される領域が実際上、より少ないことによる情報の損失により、プロセスを、変換に対してあまりロバストでなくする。
国際公開第2009/095616号
Joly,A.、Buisson,O.およびFrelicot,C.、「Content−Based Copy Retrieval Using Distortion−Based Probabilistic Similarity Search」、Multimedia、IEEE Transactions、第9巻、第2号、293、306頁、2007年2月 B.Thomee、M.J.Huiskes、E.M.Bakker、およびM.J.Lew、「An evaluation of content−based duplicate image detection methods for web search」、ICME 2013 Zauner、Christoph、「Implementation and Benchmarking of Perceptual Image Hash Functions」修士論文、Upper Austria University of Applied Sciences、ハーゲンバーグキャンパス、2010年 http://blog.iconfinder.com/detecting−duplicate−images−using−python/、2014年4月 M.Douze、H.Jegou、H.Sandhawalia、L.Amsaleg、およびC.Schmid、「Evaluation of gist descriptors for web−scale image search」、International Conference on Image and Video Retrieval、ニューヨーク、NY、米国:ACM、2009年、pp.19:1−19:8 A.OlivaおよびA.Torralba、「Modeling the shape of the scene:A holistic representation of the spatial envelope」、International Journal of Computer Vision、第42巻、第3号、145−175頁、2001年 B.Thomee、E.M.BakkerおよびM.S.Lew、「TOP−SURF:a visual words toolkit」、ACM Multimedia、ACM、2010年、1473−1476頁
したがって、従来技術では、以下のような、画像を表す全体的シグネチャが構成されることを可能にする解決策がない:
− 少数の機械リソースを用いて、画像のためのシグネチャを極めて急速に算出するために、低いアルゴリズム的複雑性を提供し、
− 基準ベースにわたる高速探索を可能にするのに十分コンパクトであり、
− インターネット上で最も一般に遭遇される変換に対してロバストである。
本発明はこの必要に対処する。
説明される解決策は、視覚データストリームコンテキストにおいて視覚コンテンツを探索する問題を解決することを目的とする。
この目的を達成するために、本発明の1つの主題は、画像の全体的シグネチャを取得する新しい様態に基づくコピーを検出するためのデバイスおよび方法を提案することである。
有利には、画像シグネチャが生成されることを可能にする本発明の方法は高速であり、たとえば約3GHzの周波数範囲で動作している機械など、一般的リソースをもつ機械の場合、シグネチャが5ms程度またはそれよりも小さい時間で算出されることを可能にする。
同じく有利には、本発明の方法を介して取得されたシグネチャは、極めてコンパクトであり、100バイトよりも小さく、したがって大きいデータベースにわたる迅速なおよび網羅的な探索を可能にし、データベースのコンテンツは、利用可能なメモリサイズに依存し、たとえば、10から10個程度の画像を含んでいることが可能である。
有利には、本発明の方法を介して取得された画像シグネチャは、探索が速度を上げられることを可能にする反転インデックス構造(inverted index structure)でインデックス付けされるように、Kメジアン方法によって定量化され得る。K平均によってGISTシグネチャを定量化する、同様の方法が、M.Douze、H.Jegou、H.Sandhawalia、L.Amsaleg、およびC.Schmid、「Evaluation of gist descriptors for web−scale image search」、International Conference on Image and Video Retrieval、ニューヨーク、NY、米国:ACM、2009年、pp.19:1−19:8に記載されている。Kメジアン方法は、(当業者によく知られている)K平均方法と同一であるが、平均算出をメジアン算出と置き換える。
より一般的には、本発明の方法を介して取得される画像シグネチャは、インターネット上で通常遭遇される画像変換に対してロバストである。
本発明は、保護コンテンツの違法コピーを探索しなければならないという問題、ブロードキャストコンテンツの人気を測定したいという問題、プログラミングのビデオ内の位置を特定したいという問題を対象とする任意の適用例において、または他の場合、ソーシャルメディアの監視に関係する適用例のために有利であることになる。
求められている結果を取得するために、画像のコピーまたはほぼコピーを検出するための方法およびデバイスが提案される。本発明は、初期画像を受信することと、初期画像をグレースケールにコンバートすることと、グレー化画像を複数の行と偶数個の列とを有する低減された画像にリサイズすることと、低減された画像のための全体的シグネチャを算出することと、低減された画像の全体的シグネチャと基準画像シグネチャとの間の比較の結果に従って、初期画像が画像のコピーまたはほぼコピーであるかどうかを決定することとからなる。全体的シグネチャを算出するステップは、低減された画像の各行についての行シグネチャを算出するステップであって、算出が、各行において対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出するステップと、画像のための全体的シグネチャを取得するために行シグネチャを連結するステップとを含む。
一実施形態では、行シグネチャを算出するステップが、低減された画像についての対称的ピクセルの複数の領域を定義するステップと、各行において、対称的ピクセルのサブセットのグループ(Pxi、Pyj)を選択するステップであって、各サブセットが、ピクセルがグループPxiに属する場合は行におけるそれの対称的パートナーがグループPyjに属するようなやり方で定義される、選択するステップとを含む。
有利には、統計値は、ピクセルのサブセットにわたる平均であり、行シグネチャは、統計値に従うハッシュ関数の要素に帰される値である。
一変形実装形態では、ハッシュ関数の要素に帰される値が、サブセットPxiについて取得された平均が対称的サブセットPyjについて取得された平均よりも大きい場合、「1」に等しい。
有利には、全体的シグネチャは、各行について算出されたハッシュ関数を連結することによって取得される全体的なハッシュ関数である。一変形形態では、全体的シグネチャを算出するステップは、全体的統計値を追加することを含む。
一実施形態によれば、グレー化画像をリサイズするステップは、初期画像を「H」行×「W+K」列の第1の画像に低減するステップであって、ここで、「W」が偶数であり、「K」が奇数である、低減するステップと、次いで「H」行×「W」列の第2の画像に簡略化するステップであって、ここで、「W」が偶数である、簡略化するステップとからなる。
別の実施形態によれば、全体的シグネチャを算出するステップは、初期画像についての、および画像を極座標にコンバートするための全体的シグネチャを算出するステップからなる。
有利には、本方法は、画像をリサイズするステップの後に、コンテンツに従って画像の安定した中心を決定するステップをさらに含み得る。
一変形形態では、本方法は、Kメジアンによってシグネチャを定量化するステップを含み得る。次いで、比較ステップは、反転インデックス構造によって実装される。
本発明は、初期画像が受信されることと、初期基準画像がグレースケールにコンバートされることと、グレー化基準画像が、複数の行と偶数個の列とを有する低減された基準画像にリサイズされることと、グレー化基準画像を複数の行と偶数個の列とを有する低減された基準画像にリサイズすることと、行シグネチャが低減された基準画像の各行につい算出されることであって、算出は、各行における対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出されることとを可能にする、基準画像シグネチャを生成するためのデバイスをもカバーする。取得された行シグネチャは、基準画像シグネチャを取得するために連結される。
本発明は、プログラムがコンピュータ上で実行されるとき、請求される方法のステップが行われることを可能にするコード命令を含むコンピュータプログラム製品の形態で動作し得る。
本発明の様々な態様および利点が、以下の図面を参照しながら、本発明の実装の1つの好適な、しかし非限定的な様態の説明の裏付けとして明らかになろう。
知られているコピー検出デバイスの機能ブロックを示す図である。 知られている方法による行シグネチャの構成の一例を示す図である。 知られている方法による行シグネチャの構成の一例を示す図である。 本発明の一実施形態による、画像のためのシグネチャを取得するための方法のステップを示す図である。 一実施形態における本発明のデバイスの機能ブロックを示す図である。
画像のための全体的シグネチャの算出、すなわち、画像のための全体的記述子の構成のための本発明の方法の主要なステップを示す図3への参照が行われる。本発明の方法は、ソフトウェアおよびハードウェア要素を使用して実装され得る。ソフトウェア要素は、コンピュータによって読み取られ得る、電子、磁気、光または電磁的であり得る媒体上にコンピュータプログラム製品の形態で存在し得る。ハードウェア要素は、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)の形態で、あるいはデジタル信号プロセッサ(DSP)またはグラフィックス処理ユニット(GPU)の形態で完全にまたは部分的に存在し得る。
方法(300)は、図1に示されているもの(104−1、104−2)など、視覚特徴を抽出するためのデバイス内に実装される。方法は、基準画像ベースが設定されている間、分離されたオフラインモードで適用され、視覚データのストリーム中の画像を分析するために連続オンラインモードで動作される。
方法は、基準画像を作成したいという要求の受信時、あるいは視覚データのストリーム中の画像が基準画像のコピーまたはほぼコピーであることを検出したいという要求の受信時のいずれかで、開始する(300)。
ステップ302から310の説明の残り全体にわたって、「画像」という用語は、視覚データのストリーム中の初期画像から生じる画像、または、基準画像であることを意図された初期画像から生じる画像を示す。
第1のステップ(302)において、初期画像がグレースケールにコンバートされる。当業者が従来の技法を介して適用することが可能であるこの動作は、ここでは詳述されない。1つの変形形態は、たとえば、実際の輝度を算出することからなる。別の代替形態は、特に、関数cvCvtColor()によってOpenCVライブラリにおいて提案されるような、関数「(R+G+B)/3」を算出することであり得る。
有利には、クロミナンスプレーンの平均をとるこのステップは、比色変換に対するロバストネスをもたらす。
第2のステップ(304)において、方法は、「グレー」画像のサイズが低減されることを可能にする。画像は、最初に、それのサイズが「H」行×「W+K」列である第1の画像に低減され、ここで、Wは偶数(W=2w)であり、Kは奇数(K=2k+1)またはゼロ(K=0)である。特定の一実施形態では、「W」が偶数である、ピクセルの「H」行×ピクセルの「W」列を有する第2の画像を保ち、したがって、最終的に、左右不変性に対して不変であるように構成された記述子を取得するために、たとえば、画像の中心列を保持しないことと、必要な場合、画像のエッジにおける列を保持しないこととによって、列の偶数サブセットのみがリサイジングのために保持される。
画像は、知られている補間技法を適用することによってリサイズされ得、可能な手法が隣接ピクセルの平均をとることになる。代替的に、たとえば、画像は、線形、双線形、双3次またはスプライン補間を介してリサイズされ得る。
有利には、このステップは、ウォーターマークまたは他の場合テキストなど、基準画像を特徴づける際にほとんど利益がないと考えられる詳細が、削除されることを可能にする。リサイジングステップはまた、元の比率が保持されるか否かにかかわらず、変換をリサンプリングすることに対する方法のロバストネスを改善する。
後続のステップ(306)において、方法は、対称的ピクセルの複数の領域を定義するために、低減された画像の各行に対して動作する。方法は、各行について、対称的ピクセルのサブセットのグループ(P 、P )が選択されることであって、各サブセットが、ピクセルがグループP に属する場合は行におけるそれの対称的パートナーがグループP に属するようなやり方で定義される、選択されることを可能にする。
図2bにおける行の例を再び使用して、以下の表1は、行についての対称的ピクセルの「J=12」サブセット(P 、P )の選択を示す:
Figure 2018532198
この例では、グループP の4つの第1のサブセット(121、122、120、87)はシングルトン(singleton)であり、対称バージョンについて上記で説明された基本知覚ハッシュ関数と同一であることに留意されたい。
有利には、定義されるサブセットは、必ずしも「完全に排他的」であるとは限らない。したがって、表1の最後の行において、行「i」の中央のブロックに対応するピクセル(87、86)は、ピクセルのグループP のサブセット(121、87、86)とピクセルのグループP のサブセット(87、86、84)との両方に属する。
後続のステップ(308)において、方法は、統計がピクセルの各サブセットについて計算されることを可能にし、値が、取得された統計値に従って、対応するハッシュ関数の要素に帰されることを可能にする。
特定の一実施形態では、および、表1の例を再利用する以下の表2に示されているように、統計は、ピクセルの各サブセットについて、グループP のピクセルについての平均「μ」とグループP のピクセルについての「μ」とを算出することと、次いで、サブアセンブリP について取得された平均が、サブセットP についてのそれよりも大きい場合、値「1」を、またはさもなければ「0」をハッシュ要素に帰することとからなる。
Figure 2018532198
画像の各行について、ピクセルの各サブセットについてのハッシュ値を算出した後、方法は、後続のステップ(310)において、全体的ハッシュ値が、低減された画像について算出されることを可能にする。全体的ハッシュ関数は、各行について算出されたハッシュ関数の連結である。上記の例では、全体的ハッシュ関数のサイズは、「H×J」である。ハッシュ値は2進数である(それらは値0または1のみをとる)ので、全体的ハッシュ関数の「H×J」次元は、最大E[H×J/8]+1バイトで符号化され得、ここで、E[x]はxの整数部分である。
有利には、追加の対称グループを定義することによって、シグネチャは、比較される値が、画像上の複数の箇所で平均化(平滑化)されるので、埋込みテキストまたは画像など、他の変換に対してよりロバストになる。
1つの代替実施形態では、画像のシグネチャの算出は、ペア(P 、P )の2つの要素の平均が同一である回数(均等の数)を(全体的ハッシュ関数に)追加することが可能である。
1つの代替実施形態では、画像の全体的シグネチャの算出は、1つまたは複数の全体的統計値を(全体的ハッシュ関数に)追加することが可能である。
たとえば、算出は、ペアの2つの要素の平均が同一である回数(均等の数)、ならびに、画像の平均強度などの全体的統計値を考慮に入れ得る。
この変形形態では、その場合、全体的シグネチャのサイズは、「H×J+G+1」であり、ここで、「G」、追加される全体的統計値、すなわち画像の平均強度、の数は、1に等しい。
たとえば、画像の平均、分散およびメジアンとして、「G=3」であり、「G」個の全体的統計値が追加される場合、均等の数を加えて、全体的ハッシュ関数のサイズは、「H×J+G+1=HJ+4」に等しい。
均等の数が、たとえば、2バイトで符号化され、各全体的な統計値が2バイトで符号化される場合、サイズ「H×J+G+1」のシグネチャは(E[H×J/8]+1+2×G+2)バイトで符号化され得る。
異なる実施形態では、方法300は、グレースケールの元の画像と、極座標へのそれのコンバージョンとに適用され得る。この実装形態では、当業者は、線上の対称中心が、すべての画像について任意に固定され得ることに留意されよう。
1つの変形実施形態では、対称中心は、より安定した中心を取得するように、画像のコンテンツに従って自動的に決定され得る。これを行う1つの方法は、たとえば、元の画像よりも小さいサイズへのリサイジングの動作の続きのために、ピクセルの重心(ピクセルのグレースケール値によって重み付けされた空間位置の平均)を算出し、次いで、重心が安定した空間近傍に局在化したままでいるとき、対称中心を選定することであり得る。
代替的に、ピクセルの重心は、たとえば、画像をグレースケールにコンバートし得るデジタルフィルタ処理の後に、潜在的に算出され得る。
画像のためのシグネチャを生成するための方法300は、それが連続オンラインモードで適用されるとき、比較方法が続き得る。上記で説明されたように、処理チェーンの比較モジュール(図1のモジュール110)内で行われる比較は、オンラインで取得される全体的シグネチャが、オフラインで算出された基準ベースからのシグネチャと比較されことを可能にする。
一変形形態では、方法は、Kメジアンによってシグネチャを定量化するステップを含み得る。次いで、比較ステップは、反転インデックス構造によって実装される。K平均定量化を介した探索時間の速度を上げるためのそのような方法は、M.Douze、H.Jegou、H.Sandhawalia、L.Amsaleg、およびC.Schmid、「Evaluation of gist descriptors for web−scale image search」、International Conference on Image and Video Retrieval、ニューヨーク、NY、米国:ACM、2009年、pp.19:1−19:8において、GIST記述子について説明されている。好ましくは、定量化は、K平均アルゴリズムと同一であるが、平均をメジアンと置き換える、Kメジアンアルゴリズムによって行われる。
一実施形態では、比較は、全体的シグネチャと基準ベースから生じる画像シグネチャとの間の距離を算出することによって行われる。一変形形態では、距離は、合成的であり、距離「dH」と距離「dME」との平均に対応し、ここで、dHは、全体的ハッシュ関数にわたるハミング距離であり、「dME」は、全体的統計値と均等の数とにわたる距離である。たとえば、dMEは、マンハッタン距離またはユークリッド距離であり得る。
上記の実施形態の好ましい実装形態は、低減された画像のサイズは「H=W=16」に等しく、ピクセルのサブセットのグループの数は「J=16」に等しく、全体的ハッシュ関数にわたる距離「dH」はハミング距離であるようにとられ、グレースケール平均にわたる距離「dME」はマンハッタン距離L1である、実装形態である。この構成で、次いで、1行について16個のグループが以下の表3に従って設定され、ここで、{p,k=1,...16}は、pが最左ピクセルであり、p16が最右ピクセルである左から右への順序での、低減された画像の1行の連続ピクセルである:
Figure 2018532198
本発明の方法は、B.Thomee、M.J.Huiskes、E.M.Bakker、およびM.J.Lew、「An evaluation of content−based duplicate image detection methods for web search」、ICME 2013によって提案されたベンチマークに関して評価されてきた。それは、60個の異なるやり方で変換された6000個の画像からなり、変換は、画像処理をよく知っており、インターネット上で最も一般的に遭遇する変換を報告した45名の調査の後に選定された。360000個の得られた画像は、基準ベースを形成するために2百万個の画像とマージされた。6000個の元の画像はクエリ中で使用され、性能は、「平均適合率の平均」(MAP:mean average precision)、当業者によく知られている測定値に関して測定される。
方法は、ベンチマークに関して最も良好な結果を取得した、「GIST」方法と比較され、性能がローカル記述子の使用に依存する方法である、「TOP−SURF」と比較された。
「GIST」方法についての参照は、以下の通りである:A.OlivaおよびA.Torralba、「Modeling the shape of the scene:A holistic representation of the spatial envelope」、International Journal of Computer Vision、第42巻、第3号、145−175頁、2001年。
「TOP−SURF」方法についての参照は、以下の通りである:B.Thomee、E.M.BakkerおよびM.S.Lew、「TOP−SURF:a visual words toolkit」、ACM Multimedia、ACM、2010年、1473−1476頁。
実験結果は、適合率(MAP)と算出時間(秒単位)の両方について報告された。算出時間は、シグネチャを算出するためにかかる時間(以下の表4中の「記述」)と基準ベースにわたって探索するためにかかる時間(以下の表4中の「比較」)との間で分割される。
さらに、方法は、上記で説明されたように、Kメジアン定量化によって探索時間の速度を上げるための方法と組み合わせられた。
Figure 2018532198
その2つのバージョンでは、提案された方法の性能は、従来技術の方法よりも優れており、とりわけ比較ステップにおいてはるかに高速である。
したがって、本発明の方法の利点は、特に、シグネチャが、極めて迅速に、VGAサイズの画像について単一のインテルCore(TM)i7−4800MQ CPU@2.70GHzプロセッサコアを用いた平均では、5ms未満で算出されることである。さらに、シグネチャは、やはり単一のインテルCore(TM)i7−4800MQ CPU@2.70GHzプロセッサコアを用いると、100ms未満での何百万個の画像にわたる探索を可能にするのに十分にコンパクトである。最後に、本方法は、シグネチャがインターネット上で最も一般的に遭遇される変換に対してロバストであることを可能にする。
図4は、一実施形態において画像のコピーまたはほぼコピーを検出するための本発明のデバイス(400)の機能ブロックを示す。デバイスは、図3に関して説明された方法のステップを実行するように構成されたモジュールを含む。
デバイス(400)は、初期画像を受信するように構成された受信機モジュール(402)を含む。初期画像は、初期画像をグレースケールにコンバートするように構成されたコンバージョンモジュール(404)に送信される。ひとたびグレー化されると、グレー化画像は、グレー化画像を低減された画像にリサイズするように構成されたリサイジングモジュール(406)に送信され、低減された画像は複数の行と偶数個の列とを有する。低減された画像は、その後、低減された画像のための全体的シグネチャを算出するように構成された算出モジュール(408)に送信される。有利には、算出モジュールは、行シグネチャが、低減された画像の各行について算出されることを可能にする第1の構成要素(409)と、全体的シグネチャを取得するために行シグネチャが連結されることを可能にする第2の構成要素(410)とを含む。概して、算出は、各行中の対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく。デバイスはさらに、比較の結果に従って、初期画像が画像のコピーまたはほぼコピーであるかどうかを決定するために、取得された低減された画像の全体的シグネチャを基準画像シグネチャ(430)と比較するように構成された比較モジュール(412)を含む。
基準画像シグネチャ(430)は、オフラインで動作し、初期基準画像を受信するように構成された受信機モジュール(422)と、初期基準画像をグレースケールにコンバートするように構成されたコンバージョンモジュール(424)と、グレー化基準画像を複数の行と偶数個の列とを有する低減された基準画像にリサイズするように構成されたリサイジングモジュール(426)と、低減された基準画像の各行について行シグネチャを算出することであって、各行中の対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出することを行うように構成された算出モジュール(428)と、行シグネチャを連結し、基準画像シグネチャを取得するためのモジュール(430)とを含む、デバイス(420)によって取得される。
本発明のデバイスのモジュールは、ハードウェア要素および/またはソフトウェア要素であり得る。ソフトウェア要素は、コンピュータによって読み取られ得る、電子、磁気、光または電磁的であり得る媒体上にコンピュータプログラム製品の形態で存在し得る。ハードウェア要素は、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)の形態で、あるいはデジタル信号プロセッサ(DSP)またはグラフィックス処理ユニット(GPU)の形態で完全にまたは部分的に存在し得る。
本発明は、マルチメディアドキュメント、たとえば画像またはビデオの送信および交換の分野に関する。より詳細には、本発明は、視覚コンテンツのほぼコピー(near−copy)の検出に関する。
ソーシャルウェブの増加は、ウェブサイトにわたるまたはオンラインソーシャルネットワーク(OSN)のユーザのプロファイルにわたる、視覚コンテンツ、すなわち、画像、ビデオの伝搬の大量の増加につながった。公開されたコンテンツと中継されたコンテンツとは、同一であることがあり、その場合、コンテンツのコピーへの言及が行われ、あるいはささいな変更を含んでいることさえあり、その場合、コンテンツのほぼコピーへの言及が行われる。説明の残り全体にわたって、「コピー」という用語を使用する「コンテンツコピー」、「画像コピー」、「コピー検出」という表現および他の変形形態は、「コピー」および/または「ほぼコピー」という用語を包含するものと解釈されることになる。
画像のほぼコピーは変換のうちの1つまたは組合せを受けた基準画像(reference image)であると、一般的に認められている。基準画像は、画像の固定ベースに属するか、または他の場合、視覚データのストリームを介してあらかじめ収集され得る。
以下の変換は、主要なソーシャルメディア出力、すなわち、ブログ、ソーシャルネットワーク、フォーラム、オンライン新聞などの上で公開された現在画像の中からの、インターネット上で遭遇される可能性が最も高い変換の例である:
− たとえばJPEGへの、圧縮、
− たとえばPNGコンバージョンなど、符号化の変更、
− たとえば左右反転を通した、フリッピング、
− 比率(スケーリング)の変更、
− たとえば、画像のエッジが削除され、必ずしもセンタリングされているとは限らない、クロッピング、
− たとえばグレースケールまたはセピアへの、比色コンバージョン、
− たとえば20°未満の、小さい回転、
− テキスト(タイトル、シグネチャなど)または画像(たとえばロゴ)を埋め込むこと。
基準視覚コンテンツのアイテムのコピーの検出は、ブログについてか、ソーシャルネットワークについてか、フォーラムについてかまたは他の場合オンライン新聞についてかにかかわらず、ソーシャルメディア分析の分野において複数の実益を有する。この問題は、ほんのいくつかの有利な適用例を挙げれば、保護コンテンツの違法コピーを探索すること、コンテンツの人気を測定すること、ソーシャルメディアを監視すること、または他の場合、ビデオ内のプログラミングの位置を特定することなど、様々な適用例のコアにある。
それの用途にかかわらず、コピー検出は、それのコンテンツによって画像を識別することからなる動作、「コンテンツベースの検索(content−based retrieval)」として知られる技法である。ソーシャルネットワークの分野において考慮に入れられるべき重要な特徴は、コンテンツが、連続的に処理されなければならないデータストリームであることであり、したがって、(画像またはキーフレームがビデオから抽出される)視覚データのストリームから生じるコピー検出は、概して、基準ベース中の画像についてオンラインで探索するためにかかる時間と、画像が受け得る様々な変換に対するロバストネスとに集中される。したがって、コピーまたはほぼコピーを検出するための知られている手法は、探索プロセスの速度を上げるために、画像の局所特徴を集約することによってコンパクトな視覚シグネチャが構築される方法に依拠する。コピー検出要求の処理が、分析されるべき画像についてのシグネチャの算出と、基準画像中のほぼコピーについての探索とを含むデジタル視覚データのストリームの場合、総処理時間は、処理されるべきデータストリームのビットレートに適合することが必要である。
しかしながら、局所特徴を算出し、集約することのコストは無視できず、インデックス付け時間(シグネチャ算出)は、画像ストリームの処理が想定される瞬間から十分に短くなければならない。視覚シグネチャを算出するのにかかる時間は、新しいデータの受信の頻度に適合しなければならない。より詳細には、インデックス付けおよび探索動作は、着信ストリームからの新しいデータの収集のレートよりも高いレートで実行されなければならない。たとえば、システムが1日当たり50万個の視覚マルチメディア記事をダイジェストする場合、それらと1千万から1億個のドキュメントを含むと仮定される最近コンテンツとの比較は、(24×3600)/500000=172.8ミリ秒よりも小さい、すなわち1秒当たり6つの画像程度で行われなければならない。そのような厳しい処理レートは、コンピューティングリソースが限定される場合、局所特徴の圧縮および変換に基づくシグネチャの使用を採用するのを困難にする。したがって、要求を処理するのにかかる時間はまた、サービスを提供するのに必要とされるコンピューティングリソース(メモリ、プロセッサ)とのバランスをとられなければならない。
図1は、コピー検出のための標準処理チェーンを示す。一般原理は、それのコンテンツにより画像を基準ベースにわたって探索することと、画像が基準画像のコピーまたはほぼコピーであるかどうかを決定することとからなる。したがって、要求を処理するためのデバイスは、第1のオフライン処理チェーン(102)において、それの表示が1つまたは複数のベクトルを含み得る、所与の画像(基準ドキュメント)のベクトル表示を設定することからなる、視覚特徴を抽出するためのモジュール(104−1)と、特徴の抽出に起因する記述子をインデックス付けし、したがって、効率的に探索され得るインデックス付き基準ベース(indexed reference base)を形成するためのインデックス付けモジュール(106)とを含む。随意に、インデックス付けは、複数の基準画像がそれら自体ほぼコピーである場合、ラベルを含み得る。
デバイスは、要求画像が基準画像のコピーであるか否かを決定するために決定モジュール(112)に結合された、同様の画像を見つけるために要求画像のベクトル記述を使用し、基準ベースに問い合わせる比較モジュール(110)に結合された、要求画像のベクトル記述を設定するために視覚特徴を抽出するためのモジュール(104−2)を含む、要求を処理するための第2のオンライン処理チェーン(108)をさらに含む。
マルチメディアの分野における知られている作業の大部分は、画像を表すために局所記述子(local descriptor)の抽出に基づく。各基準画像中で、関心のあるポイントのセットは、視覚的に顕著であり、画像が変更された後でも見つけられる可能性がある画像中のポイントに相当するものとして選択される。局所記述子は、その後、各関心のあるポイントの空間近傍において算出される。
そのような手法は、「Method of identifying a multimedia document in a reference base, corresponding computer program and identification device」と題する、Gengembre Nicolasらによる特許出願WO 2009/095616、さもなければ、「Content−Based Copy Retrieval Using Distortion−Based Probabilistic Similarity Search」と題する、Joly,A.、Buisson,O.およびFrelicot,C.による論文、Multimedia、IEEE Transactions、第9巻、第2号、293、306頁、2007年2月に示されている。
しかしながら、この方法は、局所記述子を抽出することと、なにより基準ベースが大きくなったときに基準ドキュメントを発見することとの両方のための算出時間に関して極めて費用がかかる。
したがって、局所記述子を使用する方法は良好な性能を呈し、それらを高速画像探索のために利用するために効率的なインデックス付け方式が提案された。しかしながら、これらの取り組みは、探索時間に集中し、提案された方法は、特徴を抽出するためにかかる時間が必須パラメータである、連続データストリームにおける算出に適用されるには依然としてあまりに遅い。
1つの知られている代替形態は、分析されるべき画像のための全体的シグネチャ(overall signature)を使用することからなる。その場合、インデックス付けは、しばしば、連結動作からなり、未加工(ロー)シグネチャファイルを生じる。その後の比較動作は、ベクトル間の単純な距離(または類似度)を決定することからなる。この手法の利点は、シグネチャの算出が高速であることである。欠点は、概して、局所記述子を使用する手法よりも変換に対してあまりロバストでないことである。さらに、比較速度は、基準ベースのサイズに、およびシグネチャのサイズに比例する。したがって、それは、可能な最小シグネチャを見つけることに関する。
以下の参考文献は、全体的シグネチャの算出に関する論文を与える。
B.Thomee、M.J.Huiskes、E.M.Bakker、およびM.J.Lewによる刊行物「An evaluation of content−based duplicate image detection methods for web search」、ICME 2013は、共通ベンチマークに関する複数のそのような手法を比較する。
「アベレージハッシュ」と呼ばれるいくぶんより単純な手法をおそらく使用する、画像検索エンジン「TinEye」(www.tineye.com)も言及に値する。それは、従来のハッシュ関数とは異なり、信号のコンテンツの小さい変化が、ハッシュキーを少量のみだけ変更するということに依拠する。これは、使用されるべき「ほとんど同一」のコンテンツを見つけるためによく知られている、ハミング距離(Hamming distance)などの類似度関数を可能にする。
Zauner、Christophによる刊行物「Implementation and Benchmarking of Perceptual Image Hash Functions」修士論文、Upper Austria University of Applied Sciences、ハーゲンバーグキャンパス、2010年は、全体的シグネチャにたとえられることがある「知覚ハッシング(perceptual hashing)」関数を検討する。
アドレスhttp://blog.iconfinder.com/detecting−duplicate−images−using−python/において、2014年4月にオンラインで利用可能な刊行物は、Zaunerによって論文において記述された方法と同じ方法のカテゴリーに該当する、ブロック平均(block mean)に基づく知覚ハッシング方法について説明する。特に、本方法は、以下のステップからなる:
− 要求画像をグレースケールにコンバートするステップ、
− グレー化画像を「8×9」(8つの行、9つの列)の固定サイズに低減するステップ、
− たとえば、ピクセルが、右隣接ピクセルのグレースケール値よりも大きいグレースケール値を有する場合、「真」値を帰する(attribute)ために、各行中の隣接ピクセルの強度を比較するステップ、
− 16進法で、得られたバイナリ画像(8×8)を符号化するステップ。
図2aは、この原理に従う、行「i」のためのハッシュ関数の構成を示す。この例では、要求画像が、8行×9列の固定サイズに低減される。ピクセルを比較するステップは、ピクセルの強度が隣接ピクセルの強度よりも大きい場合、「真」値を帰することからなる。この例では、行は、それぞれの強度(B1=120、B2=121、B3=121、B4=88、B5=86、B6=136、B7=130、B8=84、B9=85)のピクセルブロック(B1−B9)を含む。右隣接ピクセルを比較した後、16進法で符号化された得られたバイナリ行(行「i」のハッシュ)は、8つの値「0、0、1、1、0、1、1、0」をもつ行である。得られた画像は、サイズ(8×8)の画像である。
この方法は極めて速いが、それは、いくつかの変換のみに対してロバストであり、左右反転の場合、および小さい回転の場合など、多数の他の変換の場合、期待されるロバストネスを与えない。
代替的に、当業者は、図2bに示されているように、対称的ピクセルを比較することによって、この方法の対称バージョンを構築することができるであろう。行「i」は、それぞれのピクセル値「121、122、120、87、86、125、119、84」の8つの列B1からB8から構成される。直線的中心対称性に従って、それらのピクセル値、ピクセルB1の値=121とピクセルB8の値=84との比較が行われ、以下同様に行われる。16進法で符号化された得られたバイナリ行(行「i」のハッシュ)は、4つの値「1、1、0、1」をもつ行である。得られた画像は、サイズ(8×4)の画像である。そのような手法は、比較動作の数を2だけ低減し、それにより、よりコンパクトなシグネチャが取得されることを可能にするが、これは、特に、画像中の比較される領域が実際上、より少ないことによる情報の損失により、プロセスを、変換に対してあまりロバストでなくする。
国際公開第2009/095616号
Joly,A.、Buisson,O.およびFrelicot,C.、「Content−Based Copy Retrieval Using Distortion−Based Probabilistic Similarity Search」、Multimedia、IEEE Transactions、第9巻、第2号、293、306頁、2007年2月 B.Thomee、M.J.Huiskes、E.M.Bakker、およびM.J.Lew、「An evaluation of content−based duplicate image detection methods for web search」、ICME 2013 Zauner、Christoph、「Implementation and Benchmarking of Perceptual Image Hash Functions」修士論文、Upper Austria University of Applied Sciences、ハーゲンバーグキャンパス、2010年 http://blog.iconfinder.com/detecting−duplicate−images−using−python/、2014年4月 M.Douze、H.Jegou、H.Sandhawalia、L.Amsaleg、およびC.Schmid、「Evaluation of gist descriptors for web−scale image search」、International Conference on Image and Video Retrieval、ニューヨーク、NY、米国:ACM、2009年、pp.19:1−19:8 A.OlivaおよびA.Torralba、「Modeling the shape of the scene:A holistic representation of the spatial envelope」、International Journal of Computer Vision、第42巻、第3号、145−175頁、2001年 B.Thomee、E.M.BakkerおよびM.S.Lew、「TOP−SURF:a visual words toolkit」、ACM Multimedia、ACM、2010年、1473−1476頁
したがって、従来技術では、以下のような、画像を表す全体的シグネチャが構成されることを可能にする解決策がない:
− 少数の機械リソースを用いて、画像のためのシグネチャを極めて急速に算出するために、低いアルゴリズム的複雑性を提供し、
− 基準ベースにわたる高速探索を可能にするのに十分コンパクトであり、
− インターネット上で最も一般に遭遇される変換に対してロバストである。
本発明はこの必要に対処する。
説明される解決策は、視覚データストリームコンテキストにおいて視覚コンテンツを探索する問題を解決することを目的とする。
この目的を達成するために、本発明の1つの主題は、画像の全体的シグネチャを取得する新しい様態に基づくコピーを検出するためのデバイスおよび方法を提案することである。
有利には、画像シグネチャが生成されることを可能にする本発明の方法は高速であり、たとえば約3GHzの周波数範囲で動作している機械など、一般的リソースをもつ機械の場合、シグネチャが5ms程度またはそれよりも小さい時間で算出されることを可能にする。
同じく有利には、本発明の方法を介して取得されたシグネチャは、極めてコンパクトであり、100バイトよりも小さく、したがって大きいデータベースにわたる迅速なおよび網羅的な探索を可能にし、データベースのコンテンツは、利用可能なメモリサイズに依存し、たとえば、10から10個程度の画像を含んでいることが可能である。
有利には、本発明の方法を介して取得された画像シグネチャは、探索が速度を上げられることを可能にする反転インデックス構造(inverted index structure)でインデックス付けされるように、Kメジアン方法によって定量化され得る。K平均によってGISTシグネチャを定量化する、同様の方法が、M.Douze、H.Jegou、H.Sandhawalia、L.Amsaleg、およびC.Schmid、「Evaluation of gist descriptors for web−scale image search」、International Conference on Image and Video Retrieval、ニューヨーク、NY、米国:ACM、2009年、pp.19:1−19:8に記載されている。Kメジアン方法は、(当業者によく知られている)K平均方法と同一であるが、平均算出をメジアン算出と置き換える。
より一般的には、本発明の方法を介して取得される画像シグネチャは、インターネット上で通常遭遇される画像変換に対してロバストである。
本発明は、保護コンテンツの違法コピーを探索しなければならないという問題、ブロードキャストコンテンツの人気を測定したいという問題、プログラミングのビデオ内の位置を特定したいという問題を対象とする任意の適用例において、または他の場合、ソーシャルメディアの監視に関係する適用例のために有利であることになる。
特に、本発明は、もはや従来技術の場合のようなピクセル対ピクセルの単純な比較に基づかず、ピクセルのサブセット対ピクセルのサブセットの比較に基づき、比較されるサブセットはそれぞれ対称的ピクセルを含む。低減された画像の各行について、ピクセルの定義された複数のサブセットがあり、各サブセットは1つからいくつかのピクセルを有する。各サブセットは、他のサブセットのピクセルの対称的ピクセルを含んでいる、行における対称的サブセットを有する。ピクセルの全体的サブセットは、対称的ピクセルのグループ(P 、P )を定義する。グループ(P )の各サブセットは行のピクセルを含んでおり、それについて、それぞれの対称的ピクセルが他のグループ(P )の対称的サブセットに属する。したがって、画像中の評価される領域の数を増加させることによって、提案される方法は変換に対してよりロバストである。
求められている結果を取得するために、画像のコピーまたはほぼコピーを検出するための方法およびデバイスが提案される。本発明は、初期画像を受信することと、初期画像をグレースケールにコンバートすることと、グレー化画像を複数の行と偶数個の列とを有する低減された画像にリサイズすることと、低減された画像のための全体的シグネチャを算出することと、低減された画像の全体的シグネチャと基準画像シグネチャとの間の比較の結果に従って、初期画像が画像のコピーまたはほぼコピーであるかどうかを決定することとからなる。全体的シグネチャを算出するステップは、低減された画像の各行についての行シグネチャを算出するステップであって、算出が、各行において対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出するステップと、画像のための全体的シグネチャを取得するために行シグネチャを連結するステップとを含む。
一実施形態では、行シグネチャを算出するステップが、低減された画像についての対称的ピクセルの複数の領域を定義するステップと、各行において、対称的ピクセルのサブセットのグループ(Pxi、Pyj)を選択するステップであって、各サブセットが、ピクセルがグループPxiに属する場合は行におけるそれの対称的パートナーがグループPyjに属するようなやり方で定義される、選択するステップとを含む。
有利には、統計値は、ピクセルのサブセットにわたる平均であり、行シグネチャは、統計値に従うハッシュ関数の要素に帰される値である。
一変形実装形態では、ハッシュ関数の要素に帰される値が、サブセットPxiについて取得された平均が対称的サブセットPyjについて取得された平均よりも大きい場合、「1」に等しい。
有利には、全体的シグネチャは、各行について算出されたハッシュ関数を連結することによって取得される全体的なハッシュ関数である。一変形形態では、全体的シグネチャを算出するステップは、全体的統計値を追加することを含む。
一実施形態によれば、グレー化画像をリサイズするステップは、初期画像を「H」行×「W+K」列の第1の画像に低減するステップであって、ここで、「W」が偶数であり、「K」が奇数である、低減するステップと、次いで「H」行×「W」列の第2の画像に簡略化するステップであって、ここで、「W」が偶数である、簡略化するステップとからなる。
別の実施形態によれば、全体的シグネチャを算出するステップは、初期画像についての、および画像を極座標にコンバートするための全体的シグネチャを算出するステップからなる。
有利には、本方法は、画像をリサイズするステップの後に、コンテンツに従って画像の安定した中心を決定するステップをさらに含み得る。
一変形形態では、本方法は、Kメジアンによってシグネチャを定量化するステップを含み得る。次いで、比較ステップは、反転インデックス構造によって実装される。
本発明は、初期画像が受信されることと、初期基準画像がグレースケールにコンバートされることと、グレー化基準画像が、複数の行と偶数個の列とを有する低減された基準画像にリサイズされることと、グレー化基準画像を複数の行と偶数個の列とを有する低減された基準画像にリサイズすることと、行シグネチャが低減された基準画像の各行につい算出されることであって、算出は、各行における対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出されることとを可能にする、基準画像シグネチャを生成するためのデバイスをもカバーする。取得された行シグネチャは、基準画像シグネチャを取得するために連結される。
本発明は、プログラムがコンピュータ上で実行されるとき、請求される方法のステップが行われることを可能にするコード命令を含むコンピュータプログラム製品の形態で動作し得る。
本発明の様々な態様および利点が、以下の図面を参照しながら、本発明の実装の1つの好適な、しかし非限定的な様態の説明の裏付けとして明らかになろう。
知られているコピー検出デバイスの機能ブロックを示す図である。 知られている方法による行シグネチャの構成の一例を示す図である。 知られている方法による行シグネチャの構成の一例を示す図である。 本発明の一実施形態による、画像のためのシグネチャを取得するための方法のステップを示す図である。 一実施形態における本発明のデバイスの機能ブロックを示す図である。
画像のための全体的シグネチャの算出、すなわち、画像のための全体的記述子の構成のための本発明の方法の主要なステップを示す図3への参照が行われる。本発明の方法は、ソフトウェアおよびハードウェア要素を使用して実装され得る。ソフトウェア要素は、コンピュータによって読み取られ得る、電子、磁気、光または電磁的であり得る媒体上にコンピュータプログラム製品の形態で存在し得る。ハードウェア要素は、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)の形態で、あるいはデジタル信号プロセッサ(DSP)またはグラフィックス処理ユニット(GPU)の形態で完全にまたは部分的に存在し得る。
方法(300)は、図1に示されているもの(104−1、104−2)など、視覚特徴を抽出するためのデバイス内に実装される。方法は、基準画像ベースが設定されている間、分離されたオフラインモードで適用され、視覚データのストリーム中の画像を分析するために連続オンラインモードで動作される。
方法は、基準画像を作成したいという要求の受信時、あるいは視覚データのストリーム中の画像が基準画像のコピーまたはほぼコピーであることを検出したいという要求の受信時のいずれかで、開始する(300)。
ステップ302から310の説明の残り全体にわたって、「画像」という用語は、視覚データのストリーム中の初期画像から生じる画像、または、基準画像であることを意図された初期画像から生じる画像を示す。
第1のステップ(302)において、初期画像がグレースケールにコンバートされる。当業者が従来の技法を介して適用することが可能であるこの動作は、ここでは詳述されない。1つの変形形態は、たとえば、実際の輝度を算出することからなる。別の代替形態は、特に、関数cvCvtColor()によってOpenCVライブラリにおいて提案されるような、関数「(R+G+B)/3」を算出することであり得る。
有利には、クロミナンスプレーンの平均をとるこのステップは、比色変換に対するロバストネスをもたらす。
第2のステップ(304)において、方法は、「グレー」画像のサイズが低減されることを可能にする。画像は、最初に、それのサイズが「H」行×「W+K」列である第1の画像に低減され、ここで、Wは偶数(W=2w)であり、Kは奇数(K=2k+1)またはゼロ(K=0)である。特定の一実施形態では、「W」が偶数である、ピクセルの「H」行×ピクセルの「W」列を有する第2の画像を保ち、したがって、最終的に、左右不変性に対して不変であるように構成された記述子を取得するために、たとえば、画像の中心列を保持しないことと、必要な場合、画像のエッジにおける列を保持しないこととによって、列の偶数サブセットのみがリサイジングのために保持される。
画像は、知られている補間技法を適用することによってリサイズされ得、可能な手法が隣接ピクセルの平均をとることになる。代替的に、たとえば、画像は、線形、双線形、双3次またはスプライン補間を介してリサイズされ得る。
有利には、このステップは、ウォーターマークまたは他の場合テキストなど、基準画像を特徴づける際にほとんど利益がないと考えられる詳細が、削除されることを可能にする。リサイジングステップはまた、元の比率が保持されるか否かにかかわらず、変換をリサンプリングすることに対する方法のロバストネスを改善する。
後続のステップ(306)において、方法は、対称的ピクセルの複数の領域を定義するために、低減された画像の各行に対して動作する。方法は、各行について、対称的ピクセルのサブセットのグループ(P 、P )が選択されることであって、各サブセットが、ピクセルがグループP に属する場合は行におけるそれの対称的パートナーがグループP に属するようなやり方で定義される、選択されることを可能にする。
図2bにおける行の例を再び使用して、以下の表1は、行についての対称的ピクセルの「J=12」サブセット(P 、P )の選択を示す:
Figure 2018532198
この例では、グループP の4つの第1のサブセット(121、122、120、87)はシングルトン(singleton)であり、対称バージョンについて上記で説明された基本知覚ハッシュ関数と同一であることに留意されたい。
有利には、定義されるサブセットは、必ずしも「完全に排他的」であるとは限らない。したがって、表1の最後の行において、行「i」の中央のブロックに対応するピクセル(87、86)は、ピクセルのグループP のサブセット(121、87、86)とピクセルのグループP のサブセット(87、86、84)との両方に属する。
後続のステップ(308)において、方法は、統計がピクセルの各サブセットについて計算されることを可能にし、値が、取得された統計値に従って、対応するハッシュ関数の要素に帰されることを可能にする。
特定の一実施形態では、および、表1の例を再利用する以下の表2に示されているように、統計は、ピクセルの各サブセットについて、グループP のピクセルについての平均「μ」とグループP のピクセルについての「μ」とを算出することと、次いで、サブアセンブリP について取得された平均が、サブセットP についてのそれよりも大きい場合、値「1」を、またはさもなければ「0」をハッシュ要素に帰することとからなる。
Figure 2018532198
画像の各行について、ピクセルの各サブセットについてのハッシュ値を算出した後、方法は、後続のステップ(310)において、全体的ハッシュ値が、低減された画像について算出されることを可能にする。全体的ハッシュ関数は、各行について算出されたハッシュ関数の連結である。上記の例では、全体的ハッシュ関数のサイズは、「H×J」である。ハッシュ値は2進数である(それらは値0または1のみをとる)ので、全体的ハッシュ関数の「H×J」次元は、最大E[H×J/8]+1バイトで符号化され得、ここで、E[x]はxの整数部分である。
有利には、追加の対称グループを定義することによって、シグネチャは、比較される値が、画像上の複数の箇所で平均化(平滑化)されるので、埋込みテキストまたは画像など、他の変換に対してよりロバストになる。
1つの代替実施形態では、画像のシグネチャの算出は、ペア(P 、P )の2つの要素の平均が同一である回数(均等の数)を(全体的ハッシュ関数に)追加することが可能である。
1つの代替実施形態では、画像の全体的シグネチャの算出は、1つまたは複数の全体的統計値を(全体的ハッシュ関数に)追加することが可能である。
たとえば、算出は、ペアの2つの要素の平均が同一である回数(均等の数)、ならびに、画像の平均強度などの全体的統計値を考慮に入れ得る。
この変形形態では、その場合、全体的シグネチャのサイズは、「H×J+G+1」であり、ここで、「G」、追加される全体的統計値、すなわち画像の平均強度、の数は、1に等しい。
たとえば、画像の平均、分散およびメジアンとして、「G=3」であり、「G」個の全体的統計値が追加される場合、均等の数を加えて、全体的ハッシュ関数のサイズは、「H×J+G+1=HJ+4」に等しい。
均等の数が、たとえば、2バイトで符号化され、各全体的な統計値が2バイトで符号化される場合、サイズ「H×J+G+1」のシグネチャは(E[H×J/8]+1+2×G+2)バイトで符号化され得る。
異なる実施形態では、方法300は、グレースケールの元の画像と、極座標へのそれのコンバージョンとに適用され得る。この実装形態では、当業者は、線上の対称中心が、すべての画像について任意に固定され得ることに留意されよう。
1つの変形実施形態では、対称中心は、より安定した中心を取得するように、画像のコンテンツに従って自動的に決定され得る。これを行う1つの方法は、たとえば、元の画像よりも小さいサイズへのリサイジングの動作の続きのために、ピクセルの重心(ピクセルのグレースケール値によって重み付けされた空間位置の平均)を算出し、次いで、重心が安定した空間近傍に局在化したままでいるとき、対称中心を選定することであり得る。
代替的に、ピクセルの重心は、たとえば、画像をグレースケールにコンバートし得るデジタルフィルタ処理の後に、潜在的に算出され得る。
画像のためのシグネチャを生成するための方法300は、それが連続オンラインモードで適用されるとき、比較方法が続き得る。上記で説明されたように、処理チェーンの比較モジュール(図1のモジュール110)内で行われる比較は、オンラインで取得される全体的シグネチャが、オフラインで算出された基準ベースからのシグネチャと比較されことを可能にする。
一変形形態では、方法は、Kメジアンによってシグネチャを定量化するステップを含み得る。次いで、比較ステップは、反転インデックス構造によって実装される。K平均定量化を介した探索時間の速度を上げるためのそのような方法は、M.Douze、H.Jegou、H.Sandhawalia、L.Amsaleg、およびC.Schmid、「Evaluation of gist descriptors for web−scale image search」、International Conference on Image and Video Retrieval、ニューヨーク、NY、米国:ACM、2009年、pp.19:1−19:8において、GIST記述子について説明されている。好ましくは、定量化は、K平均アルゴリズムと同一であるが、平均をメジアンと置き換える、Kメジアンアルゴリズムによって行われる。
一実施形態では、比較は、全体的シグネチャと基準ベースから生じる画像シグネチャとの間の距離を算出することによって行われる。一変形形態では、距離は、合成的であり、距離「dH」と距離「dME」との平均に対応し、ここで、dHは、全体的ハッシュ関数にわたるハミング距離であり、「dME」は、全体的統計値と均等の数とにわたる距離である。たとえば、dMEは、マンハッタン距離またはユークリッド距離であり得る。
上記の実施形態の好ましい実装形態は、低減された画像のサイズは「H=W=16」に等しく、ピクセルのサブセットのグループの数は「J=16」に等しく、全体的ハッシュ関数にわたる距離「dH」はハミング距離であるようにとられ、グレースケール平均にわたる距離「dME」はマンハッタン距離L1である、実装形態である。この構成で、次いで、1行について16個のグループが以下の表3に従って設定され、ここで、{p,k=1,...16}は、pが最左ピクセルであり、p16が最右ピクセルである左から右への順序での、低減された画像の1行の連続ピクセルである:
Figure 2018532198
本発明の方法は、B.Thomee、M.J.Huiskes、E.M.Bakker、およびM.J.Lew、「An evaluation of content−based duplicate image detection methods for web search」、ICME 2013によって提案されたベンチマークに関して評価されてきた。それは、60個の異なるやり方で変換された6000個の画像からなり、変換は、画像処理をよく知っており、インターネット上で最も一般的に遭遇する変換を報告した45名の調査の後に選定された。360000個の得られた画像は、基準ベースを形成するために2百万個の画像とマージされた。6000個の元の画像はクエリ中で使用され、性能は、「平均適合率の平均」(MAP:mean average precision)、当業者によく知られている測定値に関して測定される。
方法は、ベンチマークに関して最も良好な結果を取得した、「GIST」方法と比較され、性能がローカル記述子の使用に依存する方法である、「TOP−SURF」と比較された。
「GIST」方法についての参照は、以下の通りである:A.OlivaおよびA.Torralba、「Modeling the shape of the scene:A holistic representation of the spatial envelope」、International Journal of Computer Vision、第42巻、第3号、145−175頁、2001年。
「TOP−SURF」方法についての参照は、以下の通りである:B.Thomee、E.M.BakkerおよびM.S.Lew、「TOP−SURF:a visual words toolkit」、ACM Multimedia、ACM、2010年、1473−1476頁。
実験結果は、適合率(MAP)と算出時間(秒単位)の両方について報告された。算出時間は、シグネチャを算出するためにかかる時間(以下の表4中の「記述」)と基準ベースにわたって探索するためにかかる時間(以下の表4中の「比較」)との間で分割される。
さらに、方法は、上記で説明されたように、Kメジアン定量化によって探索時間の速度を上げるための方法と組み合わせられた。
Figure 2018532198
その2つのバージョンでは、提案された方法の性能は、従来技術の方法よりも優れており、とりわけ比較ステップにおいてはるかに高速である。
したがって、本発明の方法の利点は、特に、シグネチャが、極めて迅速に、VGAサイズの画像について単一のインテルCore(TM)i7−4800MQ CPU@2.70GHzプロセッサコアを用いた平均では、5ms未満で算出されることである。さらに、シグネチャは、やはり単一のインテルCore(TM)i7−4800MQ CPU@2.70GHzプロセッサコアを用いると、100ms未満での何百万個の画像にわたる探索を可能にするのに十分にコンパクトである。最後に、本方法は、シグネチャがインターネット上で最も一般的に遭遇される変換に対してロバストであることを可能にする。
図4は、一実施形態において画像のコピーまたはほぼコピーを検出するための本発明のデバイス(400)の機能ブロックを示す。デバイスは、図3に関して説明された方法のステップを実行するように構成されたモジュールを含む。
デバイス(400)は、初期画像を受信するように構成された受信機モジュール(402)を含む。初期画像は、初期画像をグレースケールにコンバートするように構成されたコンバージョンモジュール(404)に送信される。ひとたびグレー化されると、グレー化画像は、グレー化画像を低減された画像にリサイズするように構成されたリサイジングモジュール(406)に送信され、低減された画像は複数の行と偶数個の列とを有する。低減された画像は、その後、低減された画像のための全体的シグネチャを算出するように構成された算出モジュール(408)に送信される。有利には、算出モジュールは、行シグネチャが、低減された画像の各行について算出されることを可能にする第1の構成要素(409)と、全体的シグネチャを取得するために行シグネチャが連結されることを可能にする第2の構成要素(410)とを含む。概して、算出は、各行中の対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく。デバイスはさらに、比較の結果に従って、初期画像が画像のコピーまたはほぼコピーであるかどうかを決定するために、取得された低減された画像の全体的シグネチャを基準画像シグネチャ(430)と比較するように構成された比較モジュール(412)を含む。
基準画像シグネチャ(430)は、オフラインで動作し、初期基準画像を受信するように構成された受信機モジュール(422)と、初期基準画像をグレースケールにコンバートするように構成されたコンバージョンモジュール(424)と、グレー化基準画像を複数の行と偶数個の列とを有する低減された基準画像にリサイズするように構成されたリサイジングモジュール(426)と、低減された基準画像の各行について行シグネチャを算出することであって、各行中の対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出することを行うように構成された算出モジュール(428)と、行シグネチャを連結し、基準画像シグネチャを取得するためのモジュール(430)とを含む、デバイス(420)によって取得される。
本発明のデバイスのモジュールは、ハードウェア要素および/またはソフトウェア要素であり得る。ソフトウェア要素は、コンピュータによって読み取られ得る、電子、磁気、光または電磁的であり得る媒体上にコンピュータプログラム製品の形態で存在し得る。ハードウェア要素は、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)の形態で、あるいはデジタル信号プロセッサ(DSP)またはグラフィックス処理ユニット(GPU)の形態で完全にまたは部分的に存在し得る。

Claims (26)

  1. 画像のコピーまたはほぼコピーを検出するための方法であって、
    − 初期画像を受信するステップと、
    − 初期画像をグレースケールにコンバートするステップと、
    − グレー化画像を複数の行と偶数個の列とを有する低減された画像にリサイズするステップと、
    − 低減された画像についての全体的シグネチャを算出するステップと、
    − 低減された画像の全体的シグネチャと基準画像シグネチャとの間の比較の結果に従って、初期画像が画像のコピーまたはほぼコピーであるかどうかを決定するステップと
    を含み、
    方法が、全体的シグネチャを算出するステップが、
    − 低減された画像の各行についての行シグネチャを算出するステップであって、前記算出が、各行における対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出するステップと、
    − 全体的シグネチャを取得するために行シグネチャを連結するステップと
    を含むことを特徴とする、
    方法。
  2. 行シグネチャを算出するステップが、
    − 低減された画像についての対称的ピクセルの複数の領域を定義するステップと、
    − 各行において、対称的ピクセルのサブセットのグループ(P 、P )を選択するステップであって、各サブセットが、ピクセルがグループP に属する場合は行におけるそれの対称的パートナーがグループP に属するようなやり方で定義される、選択するステップと
    を含む、請求項1に記載の方法。
  3. 統計値が、ピクセルのサブセットにわたる平均であり、行シグネチャが、統計値に従うハッシュ関数の要素に帰される値である、請求項1または2に記載の方法。
  4. ハッシュ関数の要素に帰される値が、サブセットP について取得された平均が対称的サブセットP について取得された平均よりも大きい場合、「1」に等しい、請求項3に記載の方法。
  5. 全体的シグネチャが、各行について算出されたハッシュ関数を連結することによって取得された全体的ハッシュ関数である、請求項3または4に記載の方法。
  6. グレー化画像をリサイズするステップが、初期画像を「H」行×「W+K」列の第1の画像に低減するステップであって、ここで、「W」が偶数であり、「K」が奇数である、低減するステップと、次いで「H」行×「W」列の第2の画像に簡略化するステップであって、ここで、「W」が偶数である、簡略化するステップとからなる、請求項1から5のいずれか一項に記載の方法。
  7. 全体的シグネチャを算出するステップが、画像についての1つまたは複数の全体的統計値を追加することを含む、請求項1から6のいずれか一項に記載の方法。
  8. 全体的シグネチャを算出するステップが、初期画像についての、および画像を極座標にコンバートするための全体的シグネチャを算出するステップからなる、請求項1から7のいずれか一項に記載の方法。
  9. 画像をリサイズするステップの後に、コンテンツに従って画像の安定した中心を決定するステップをさらに含む、請求項1から8のいずれか一項に記載の方法。
  10. Kメジアンによってシグネチャを定量化するステップをさらに含み、比較ステップが、逆インデックス構造によって実装される、請求項1から9のいずれか一項に記載の方法。
  11. コンピュータプログラム製品であって、前記コンピュータプログラムが、前記プログラムがコンピュータ上で実行されるとき、請求項1から10のいずれか一項に記載の方法のステップを動作させるためのコード命令を含む、コンピュータプログラム製品。
  12. 画像のコピーまたはほぼコピーを検出するためのデバイスであって、
    − 初期画像を受信するように構成された受信機モジュール(402)と、
    − 初期画像をグレースケールにコンバートするように構成されたコンバージョンモジュール(404)と、
    − グレー化画像を複数の行と偶数個の列とを有する低減された画像にリサイズするように構成されたリサイジングモジュール(406)と、
    − 低減された画像についての全体的シグネチャを算出するように構成された算出モジュール(408)と、
    − 比較の結果に従って、初期画像が画像のコピーまたはほぼコピーであるかどうかを決定するために、低減された画像の全体的シグネチャを基準画像シグネチャと比較するように構成された比較モジュール(412)と
    を含み、
    デバイスが、算出モジュール(408)が、
    − 低減された画像の各行についての行シグネチャを算出するための構成要素(409)であって、算出が、各行の対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、構成要素(409)と、
    − 全体的シグネチャを取得するために行シグネチャを連結するための構成要素(410)と
    を含むことを特徴とする、
    デバイス。
  13. 行シグネチャを算出するための構成要素が、
    − 低減された画像についての対称的ピクセルの複数の領域が定義されることと、
    − 各行について、対称的ピクセルのサブセットのグループ(P 、P )が選択されることであって、各サブセットが、ピクセルがグループP に属する場合は行におけるそれの対称的パートナーがグループP に属するようなやり方で定義される、選択されることと
    を可能にする、請求項12に記載のデバイス。
  14. 統計値が、ピクセルのサブセットにわたる平均であり、行シグネチャが、統計値に従うハッシュ関数の要素に帰される値である、請求項12または13に記載のデバイス。
  15. ハッシュ関数の要素に帰される値が、サブセットP について取得された平均が対称的サブセットP について取得された平均よりも大きい場合、「1」に等しい、請求項14に記載のデバイス。
  16. 全体的シグネチャが、各行について算出されたハッシュ関数を連結することによって取得された全体的ハッシュ関数である、請求項14または15に記載のデバイス。
  17. グレー化画像をリサイズするためのモジュールが、初期画像が、「H」行×「W+K」列の第1の画像に低減されることであって、ここで、「W」が偶数であり、「K」が奇数である、低減されることと、次いで第1の画像が、「H」行×「W」列の第2の画像に簡略化されることであって、ここで、「W」が偶数である、簡略化されることとを可能にする、請求項12から16のいずれか一項に記載のデバイス。
  18. 全体的シグネチャを算出するためのモジュールが、画像についての1つまたは複数の全体的統計値を追加することが考慮されることを可能にする、請求項12から17のいずれか一項に記載のデバイス。
  19. 全体的シグネチャを算出するためのモジュールが、初期画像についての、および初期画像を極座標にコンバートするための全体的シグネチャが算出されることを可能にする、請求項12から18のいずれか一項に記載のデバイス。
  20. コンテンツに従って、リサイズされた画像の安定した中心を決定するためのモジュールを含む、請求項12から19のいずれか一項に記載のデバイス。
  21. Kメジアンによってシグネチャを定量化するように構成されたモジュールをさらに含み、比較モジュールが、逆インデックス構造によって実装される、請求項12から20のいずれか一項に記載のデバイス。
  22. 基準画像シグネチャを生成するための方法であって、
    − 初期基準画像を受信するステップと、
    − 初期基準画像をグレースケールにコンバートするステップと、
    − グレー化基準画像を複数の行と偶数個の列とを有する低減された基準画像にリサイズするステップと、
    − 低減された基準画像の各行についての行シグネチャを算出するステップであって、前記算出が、各行における対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出するステップと、
    − 基準画像シグネチャを取得するために行シグネチャを連結するステップと
    を含む、方法。
  23. 基準画像についての請求項2から10のいずれか一項に記載のステップをさらに含む、請求項22に記載の方法。
  24. 基準画像シグネチャを生成するためのデバイス(420)であって、
    − 初期基準画像を受信するように構成された受信機モジュール(422)と、
    − 初期基準画像をグレースケールにコンバートするように構成されたコンバージョンモジュール(424)と、
    − グレー化基準画像を複数の行と偶数個の列とを有する低減された基準画像にリサイズするように構成されたリサイジングモジュール(426)と、
    − 低減された基準画像の各行についての行シグネチャを算出するように構成された算出モジュール(428)であって、前記算出が、各行における対称的ピクセルのサブセットにわたって統計的に取得された値の比較に基づく、算出モジュール(428)と、
    − 行シグネチャを連結するモジュール(430)であって、基準画像シグネチャを取得するためのモジュールと
    を備える、デバイス(420)。
  25. 基準画像シグネチャが、請求項24に記載のデバイス(420)によって取得される、請求項12から21のいずれか一項に記載のデバイス。
  26. コンピュータプログラム製品であって、前記コンピュータプログラムが、前記プログラムがコンピュータ上で実行されるとき、請求項22または23に記載の方法のステップが行われることを可能にするコード命令を含む、コンピュータプログラム製品。
JP2018519029A 2015-10-12 2015-12-07 視覚データのストリーム中のコピーを検出するための方法およびデバイス Ceased JP2018532198A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1559680 2015-10-12
FR1559680 2015-10-12
PCT/EP2015/078822 WO2017063722A1 (fr) 2015-10-12 2015-12-07 Procede et dispositif de detection de copies dans un flux de donnees visuelles

Publications (1)

Publication Number Publication Date
JP2018532198A true JP2018532198A (ja) 2018-11-01

Family

ID=54979639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018519029A Ceased JP2018532198A (ja) 2015-10-12 2015-12-07 視覚データのストリーム中のコピーを検出するための方法およびデバイス

Country Status (4)

Country Link
US (1) US20180293461A1 (ja)
JP (1) JP2018532198A (ja)
DE (1) DE202015106648U1 (ja)
WO (1) WO2017063722A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399897B (zh) * 2019-04-10 2021-11-02 北京百卓网络技术有限公司 图像识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007096608A (ja) * 2005-09-28 2007-04-12 Yafoo Japan Corp 不正画像検出装置、方法、プログラム
JP2009110525A (ja) * 2007-10-31 2009-05-21 Sony United Kingdom Ltd 画像検索方法及び画像検索装置
JP2010039533A (ja) * 2008-07-31 2010-02-18 Fujifilm Corp 画像ランキング装置、画像ランキング方法及びプログラム
JP2014041560A (ja) * 2012-08-23 2014-03-06 Canon Inc 画像処理装置、画像処理方法
US20150186751A1 (en) * 2013-12-31 2015-07-02 Stake Center Locating, Inc. Image duplication detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009095616A1 (fr) 2008-01-30 2009-08-06 France Telecom Procede d'identification d'un document multimedia dans une base de reference, programme d'ordinateur, et dispositif d'identification correspondants

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007096608A (ja) * 2005-09-28 2007-04-12 Yafoo Japan Corp 不正画像検出装置、方法、プログラム
JP2009110525A (ja) * 2007-10-31 2009-05-21 Sony United Kingdom Ltd 画像検索方法及び画像検索装置
JP2010039533A (ja) * 2008-07-31 2010-02-18 Fujifilm Corp 画像ランキング装置、画像ランキング方法及びプログラム
JP2014041560A (ja) * 2012-08-23 2014-03-06 Canon Inc 画像処理装置、画像処理方法
US20150186751A1 (en) * 2013-12-31 2015-07-02 Stake Center Locating, Inc. Image duplication detection

Also Published As

Publication number Publication date
DE202015106648U1 (de) 2016-03-22
WO2017063722A1 (fr) 2017-04-20
US20180293461A1 (en) 2018-10-11

Similar Documents

Publication Publication Date Title
US10062083B2 (en) Method and system for clustering and classifying online visual information
US20130346431A1 (en) Monitoring and Analyzing Creation and Usage of Visual Content
CN105095435A (zh) 一种图像高维特征的相似比较方法及装置
Qu et al. A convolutive mixing model for shifted double JPEG compression with application to passive image authentication
CN107292642B (zh) 一种基于图像的商品推荐方法及系统
Gharde et al. Robust perceptual image hashing using fuzzy color histogram
CN106503112B (zh) 视频检索方法和装置
Yeh et al. A compact, effective descriptor for video copy detection
Roy et al. Perceptual hashing scheme using KAZE feature descriptors for combinatorial manipulations
Xu et al. A novel image copy detection scheme based on the local multi-resolution histogram descriptor
Nie et al. Robust video hashing based on representative-dispersive frames
US20170103285A1 (en) Method and device for detecting copies in a stream of visual data
Jin et al. Video logo removal detection based on sparse representation
Liu et al. Video copy detection by conducting fast searching of inverted files
MARINOV et al. Comparative analysis of content-based image retrieval systems
JP2018532198A (ja) 視覚データのストリーム中のコピーを検出するための方法およびデバイス
Li et al. Image recapture detection through residual-based local descriptors and machine learning
Nie et al. Key-frame based robust video hashing using isometric feature mapping
US20220245394A1 (en) Methods and Systems for Generating Composite Image Descriptors
Ustubioglu et al. Improved copy-move forgery detection based on the CLDs and colour moments
Du et al. Image hashing for tamper detection with multiview embedding and perceptual saliency
Tang et al. Robust video hashing based on multidimensional scaling and ordinal measures
Fei et al. Detection of seam carving‐based video retargeting using forensics hash
Cui et al. A novel DIBR 3D image hashing scheme based on pixel grouping and NMF
Sangeetha et al. An Enhanced Triadic Color Scheme for Content‐Based Image Retrieval

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180613

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180621

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20180621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200121

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200512

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20200929