JP7357708B2

JP7357708B2 - 画像照合システム

Info

Publication number: JP7357708B2
Application number: JP2022029654A
Authority: JP
Inventors: エニュアン・ウー; ルイス・ベルナルド
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-05-12
Filing date: 2022-02-28
Publication date: 2023-10-06
Anticipated expiration: 2042-02-28
Also published as: US12002252B2; JP2022176073A; EP4089644A1; US20220366180A1; TW202244844A

Description

本発明は、特に商品画像の照合を行う画像照合システムに関する。

画像の大きな集合から、視覚的に類似する複数の画像を、他のいかなる情報（すなわち、テキストラベル、タグ）も用いずに見つける画像照合（image matching：画像マッチング）は、魅力的で難しい研究分野となっている。今日の電子商取引の時代では、画像照合アルゴリズムは、例えば、同じ画像かどうかの照合、同種商品の検出、類似商品の提案、及びカテゴリによる画像分類といった高度な特徴及び機能性を提供するための基本である。

任意の画像などの実際の画像は、対象とその背景とに概念的に分けることができる。目的は、同じ対象を含む複数の画像を見つけることである。優れた画像照合アルゴリズムは、以下の特徴を有することが求められる。すなわち、（１）サイズ不変性－対象が同じで相対的なサイズが異なる場合は、アルゴリズムにより、同じものとみなされるべきである－と、（２）位置不変性すなわち平行移動不変性－対象が同じでその画像内位置が異なる複数の画像は、同じものとみなされるべきである－と、（３）回転不変性－２次元の平面上で回転した画像は、同じものとみなされるべきである－とである。優れた画像照合アルゴリズムには他の要件がある。例えば、１つの要件は３Ｄ回転不変性を有することである。これは、対象が同じで見る視点が異なる複数の画像が同じものとして認識されるべきであるということを意味する。

画像照合は、深く理論的な重要性及び様々な実用的応用を有する。この分野において、ハンドクラフト（handcrafted：手作業で作られた）照合アルゴリズムと機械学習ベースのアルゴリズムとにカテゴリ分けをすることができる、多くの先行する研究が注目されている。

ハンドクラフトによる照合アルゴリズムは、通常、信頼性の高い照合を行うために生のピクセル値から特有の不変的特徴を抽出する。いくつかの既知のアルゴリズムとしては、スケール不変性特徴変換（ＳＩＦＴ：scale-invariant feature transform）と、スピードアップロバスト特徴（ＳＵＲＦ：speeded-up robust features）と、最大安定外部領域（ＭＳＥＲ：maximally stable external regions）とが挙げられる。しかし、これらの「特徴」は、通常、複数の線によるシャープな角部又は接合点である。野球用のボール又は無地のＴシャツ等、滑らかな曲線の物体は、いかなる「特徴」も有しておらず、このため、こうした物体を照合することはできない。さらに、物体の全体形状は考慮されず、それにより、照合アルゴリズムは汎用的な画像照合には適していない。

機械学習アルゴリズムは、特徴抽出のために畳込みニューラルネットワーク（ＣＮＮ）を使用する。ＣＮＮは、当初、画像分類のために設計され、後に、画像探索に採用された。正解率に関して、ＣＮＮベースの機械学習アルゴリズムは、旧式のハンドクラフトアルゴリズムと同等である。画像照合は今もなお、機械学習アルゴリズムが従来のアルゴリズムに対してそれほど優れてはいない最後のいくつかの分野である。その理由は、画像照合の問題を機械学習が依存する目的関数に定式化することができないためである。

既存の画像照合アルゴリズムには主な欠点がいくつかある。例えば、ハンドクラフトアルゴリズムは、滑らかな曲線のみを有する単純な物体では機能せず、物体の全体形状を無視してしまう。その一方で、機械学習アルゴリズムは、色に関する物体情報を逃し、パッチ色差及びサブ領域差のような特定の問題を修正すべく容易に変更することができない。複数の画像がいくつかの小さい領域を除いてほぼ同じである場合、非常に多くの誤一致がある。モデルを修正し再トレーニングする以外に、アルゴリズムを微調整し改善する方法はない。

上述したことを考慮して、既存のアルゴリズムの上記欠点を解決する画像照合システムが必要とされている。画像照合プロセス中に３つの不変性、すなわち、サイズ不変性、位置不変性及び２Ｄ回転不変性を達成する画像照合システムも必要とされる。本開示の実施形態は、この考慮事項及び他の考慮事項を対象とする。

開示する技術の態様には、画像照合のためのシステム及び方法が含まれる。開示する実施の形態に合わせて、画像照合システムは、非一時的なコンピュータ可読媒体とプロセッサとを含む。非一時的なコンピュータ可読媒体は、複数の画像の情報を記憶する。プロセッサは、元の画像において物体を示す物体領域を特定する。プロセッサは、物体領域を正規化し正規化画像をもたらす。プロセッサは、正規化画像から形状ベクトル及び色ベクトルを計算する。プロセッサは、形状ベクトル及び色ベクトルを用いて一致度を計算する。プロセッサは、一致度に基づき、非一時的なコンピュータ可読媒体が元の画像と一致するものを記憶しているかどうかを判定する。

開示する技術の別の態様は、画像照合方法に関する。本方法は、プロセッサが、元の画像において物体を示す物体領域を特定するステップを含むことができる。本方法は、プロセッサが、物体領域を正規化し正規化画像を得るステップを含むことができる。本方法は、プロセッサが、正規化画像から形状ベクトル及び色ベクトルを計算するステップを含むことができる。本方法は、プロセッサが、形状ベクトル及び色ベクトルを用いて一致度を計算するステップを含むことができる。本方法は、プロセッサが、一致度に基づき、複数の画像の情報を記憶する非一時的なコンピュータ可読媒体が元の画像と一致するものを記憶しているかどうかを判定するステップを含むことができる。

本開示の技術の更なる態様は、画像照合のコンピュータプログラム製品に関する。本コンピュータプログラム製品は、コンピュータプログラムコードを含むコンピュータ可読記憶媒体を備える。コンピュータプログラムコードは、プロセッサに、元の画像において物体を示す物体領域を特定させることができる。コンピュータプログラムコードは、プロセッサに、物体領域を正規化し正規化画像を取得させることができる。コンピュータプログラムコードは、プロセッサに、正規化画像から形状ベクトル及び色ベクトルを計算させることができる。コンピュータプログラムコードは、プロセッサに、形状ベクトル及び色ベクトルを用いて一致度を計算させることができる。コンピュータプログラムコードは、プロセッサに対し、一致度に基づき、複数の画像の情報を記憶する非一時的なコンピュータ可読媒体が元の画像と一致するものを記憶しているかどうかの判定を行わせることができる。

本開示の更なる特徴とそれによって提供される利点とは、同様の要素を同様の符号により示している添付図面に示す具体的な実施形態を参照して、以下でより詳細に説明する。

必ずしも正確な尺度で描かれておらず、本開示に組み込まれるとともに本開示の一部を構成し、開示する技術の様々な実施態様及び態様を例示し、説明とともに、開示する技術の原理を説明する添付図面を参照する。

本開示の１つ以上の実施形態を実装するために使用することができる一例示の環境の図である。本開示の１つの態様による画像照合システムによって実施されるプロセスの一例示のフローチャートである。本開示の１つの態様による、エッジ検出を用いてスケッチ画像を作成するプロセス３００を示す図である。本開示の１つの態様による、元の画像からスケッチ画像がいかに生成されるかのプロセスを示す図である。本開示の１つの態様による、元の画像をシルエット画像に変換するいくつかのサンプル結果を示す図である。本開示の１つの態様による、シルエット作成のいくつかの例を示す図である。本開示の１つの態様による、画像を回転させるいくつかの例を示す図である。本開示の１つの態様による、スケッチ画像において外接矩形を特定する一例を示す図である。本開示の１つの態様による、スケッチ画像のクロッピング、サイズ変更及びパディングのいくつかの例を示す図である。本開示の１つの態様による、正規化されたスケッチ画像を複数のセルに分割することを示す図である。本開示の１つの態様による、正規化されたスケッチ画像から形状ベクトルを計算するフローチャートである。本開示の１つの態様による、色ベクトルを計算するフローチャートである。本開示の１つの態様による、２つの画像に対する色分布ヒストグラムである。本開示の１つの態様による、ベクトル化に基づいて一致画像を特定するフローチャートである。本開示の１つの態様による、探索対象としてのリモコンを示す図である。本開示の１つの態様による、図１５Ａのリモコンに対して得られた照合結果を示す図である。本開示の１つの態様による、パッチ色差問題に対処するフローチャートを示す。本開示の１つの態様による、入力画像及び結果画像を示す図である。本開示の１つの態様による、探索対象としてのビール瓶を示す図である。本開示の１つの態様による、図１８Ａのビール瓶に対して得られた照合結果を示す図である。本開示の１つの態様による、サブ領域差を修復するフローチャートである。本開示の１つの態様による、サブ領域差を修復するプロセスを示す図である。本開示の１つの態様による、探索対象としてのロゴを示す図である。本開示の１つの態様による、図２１Ａのロゴと比較される他のロゴを示す図である。

開示する技術の幾つかの実施態様について、添付図面を参照してより詳細に説明する。しかしながら、この開示する技術は、多くの異なる形態で具現化することができ、本明細書に示す実施態様に限定されるものとして解釈されるべきではない。以降、開示する技術の様々な要素を構成するものとして記載する構成要素は、限定的ではなく例示的であるように意図されている。本明細書に記載する構成要素と同じか又は同様の機能を実施する多くの好適な構成要素は、開示する電子デバイス及び方法の範囲内に包含されているように意図されている。本明細書に記載しない他のこうした構成要素は、限定されないが、例えば、開示する技術の開発後に開発される構成要素を含むことができる。

１つ以上の方法ステップの言及は、追加の方法ステップ又は明示的に特定するそれらのステップの間の介在する方法ステップの存在を排除しないこともまた理解されるべきである。

ここで、開示する技術の例示的な実施形態について詳細に言及し、その例を添付図面に示すとともに本明細書に開示する。好都合な場合はいつでも、図面を通して同じか又は同様の部分に言及するために同じ参照番号を使用する。

「インデックス」及び「ベクトル」等の用語は、同義で用いる場合があり、それらのそれぞれが浮動小数点数の配列を指すことができる。

図１に、本開示の或る特定の態様を実施することができる一例示の環境１００を示す。開示するプロセス及び特徴を実装するために使用される構成要素は変更することができるため、図１に示す構成要素及び配置は、開示する実施形態の限定を目的とするものではない。図１に示すように、いくつかの実施態様では、環境１００は、以下、すなわち、画像照合システム１１０と、ネットワーク１８０と、クライアントコンピュータ１６０とのうちの１つ以上を含むことができる。画像照合システム１００は、プロセッサ１２０と非一時的コンピュータ可読媒体１４０とを含むことができる。クライアントコンピュータ１６０は、画像照合システム１１０に入力画像を送ることができる。クライアントコンピュータ１６０は、画像照合システム１１０から画像照合結果を受信し、確認し、又は表示することができる。

プロセッサ１２０は、２次元平面上にある大部分が明瞭な背景と対象とを含む、商品画像等の画像の下位カテゴリを対象とすることができる。プロセッサ１２０によって処理される画像は、明瞭な又は滑らかな背景を有する可能性がある。いくつかの実施形態では、プロセッサ１２０によって処理される画像は、対象及び背景が分離可能ではないノイズの多い背景を有する可能性がある。プロセッサ１２０は、対象のみではなく画像全体に基づいて照合を行うことができる。

画像照合を行うとき、プロセッサ１２０は、サイズ不変性、位置不変性及び２－ｄ回転不変性を扱うことができる。

プロセッサ１２０は、準備プロセスと照合プロセスとを含む２つのプロセスを実施することができる。準備プロセスでは、何百万もの画像等、多くの画像を処理することができ、クライアントコンピュータ１６０は関与しないものとすることができる。準備が完了すると、各画像は、１つの形状ベクトル及び１つの色ベクトルに関連付けることができる。これらのベクトルは、Elasticsearchインデックス等のデータベーステーブルに格納するのに用いることができる。これらのベクトルは、非一時的なコンピュータ可読媒体１４０に記憶することができる。照合プロセスでは、入力画像をクライアントコンピュータ１６０からプロセッサ１２０に送ることができる。入力画像は、ベクトル作成プロセスを経ることができる。少数の候補に絞り込むために、高速探索を行うことができる。各候補に対して、一致度（あるいは一致スコア）を計算することができ、閾値を超えた一致度を返すことができる。１つの例では、結果としての形状ベクトル及び色ベクトルを用いて、Elasticsearchインデックスにおいて同様のベクトルを見つけることができる。プロセッサ１２０は、形状ベクトル及び色ベクトルに基づいて誤一致かどうかの検査を行うことができる。閾値内に収まる何らかの同様のベクトルが見つかった場合、一致度とともに対応する画像をクライアントコンピュータ１６０に返すことができる。一致するものが見つからなった場合、クライアントコンピュータ１６０に空の結果集合を送り、一致するものが見つからなかったことを示すことができる。

図２に、プロセッサ１２０によって行われる画像照合の準備プロセスの一例示のフローチャートを示す。

２１０において、プロセッサ１２０は、スケッチ画像の作成を行うことができる。２２０において、プロセッサ１２０は、シルエット画像の作成を行うことができる。２３０において、プロセッサ１２０は、主軸を見つけ、シルエット画像を予め回転させることができる。２４０において、プロセッサ１２０は、スケッチ画像において外接矩形を見つけることができる。２５０において、プロセッサ１２０は、スケッチ画像のクロッピング、サイズ変更及びパディングを行うことができる。２６０において、プロセッサ１２０は、スケッチ画像から形状ベクトルを計算することができる。２７０において、プロセッサ１２０は、色及びシルエット画像から色ベクトルを計算することができる。２８０において、プロセッサ１２０は、元の色画像、スケッチ画像及びシルエット画像のクロッピング、サイズ変更及びパディングを含む、誤一致かどうかの検査の準備を行うことができる。

２１０において、プロセッサ１２０は、最初に、エッジ検出により元の画像をスケッチ表現に変換することができる。プロセッサ１２０は、エッジ検出を用いて、「スケッチ」画像と呼ぶことができる、物体のスケッチ図のように見える抽象画像を作ることができる。図３に、エッジ検出によりスケッチ画像を作成するプロセス３００を示す。エッジ検出は、３つの閾値集合、すなわち、高（閾値１＝１５０、閾値２＝３００）と、中（閾値１＝１００、閾値２＝２００）と、低（閾値１＝５０、閾値２＝１００）とを用いて行うことができる。エッジ検出プロセスは、John Canny教授にちなんで命名された「キャニー（Canny）エッジ検出」等、任意の利用可能なエッジ検出アルゴリズムを実装することができる。キャニーエッジ検出アルゴリズムは２つの閾値を用いるが、他のエッジ検出アルゴリズムは１つ又は２つの閾値を用いる。エッジ検出アルゴリズムは全て、或る種の閾値を用いて、結果としてのエッジ画像に詳細情報がどの程度あるかを判定する。

エッジ画像は、高解像度のエッジ画像及び中間解像度のエッジ画像のそれぞれに対して反復回数２及び反復回数１により膨張させることができる。膨張処理（dilation）は、処理の際にスケッチ画像における線を太くするプロセスを意味しうる。低解像度のエッジ画像では膨張処理を行わないとすることができる。最後に、論理和演算により、３つの膨張画像を組み合わせることができる。図４に、上記プロセスの結果として元の画像からスケッチ画像をどのようにして生成することができるかを示す。図４において、元の画像は色付きの可能性があるが、図４の残りの図は白黒の可能性がある。

図２に戻ると、２２０において、プロセッサ１２０は、元の画像をシルエット画像に変換することができる。プロセッサ１２０は、Ｓｃｉｋｉｔ－ｉｍａｇｅ又はＯｐｅｎＣＶのいずれかの画像セグメンテーションアルゴリズムを使用して、背景から主たる物体を分けることができる。対象と背景とのコントラストが十分でないためにシルエット画像がさほど良好ではない場合、プロセッサ１２０は、シルエット画像とスケッチ画像との論理和を取ること（論理和演算）により、この問題を部分的に修復することができる。図５にいくつかのサンプル結果を示す。図５において、元の画像は色付きの可能性があるが、図５の残りの画像は白黒の可能性がある。

シルエット作成のための汎用の機械学習アルゴリズムは、一般的に、前景物体が何である可能性があるかに依存する。最も近い機械学習アルゴリズムは画像のセグメンテーションである可能性があり、画像のセグメンテーションは、物体が予め定められたカテゴリ内にある場合は適切に機能する可能性があり、物体が予め定められたカテゴリ内にない場合は適切に機能しない可能性があるか、又は、時として全く機能しない可能性がある。図６にいくつかの例を示す。図６において、元の画像は色付きの可能性があるが、図６のシルエット及び修正図は白黒の可能性がある。図６の機械学習シルエットは色付きの可能性がある。

図２に戻ると、プロセッサ１２０は、シルエット画像における物体の質量中心、すなわち主軸を見つけ、シルエット画像を予め回転させることができる。プロセッサ１２０は、主軸が上方向、右方向、下方向及び左方向となるよう物体を予め回転させ、任意の２次元方向において物体を比較できるようにすることができる。プロセッサ１２０は、主成分分析（ＰＣＡ）を行うことができる。ＰＣＡは、データセットの最も重要な特徴を抽出する統計的な処理である。データセットは、シルエット画像等の画像を参照することができる。プロセッサ１２０は、ＯｐｅｎＣＶによる実装を用いて、質量中心の位置と、主軸及び副軸の向きとを計算することができる。副軸は、主軸に対して垂直とすることができる。プロセッサ１２０は、主軸が直立するようにシルエット画像を回転させることができる。このとき、元の向きとは無関係に画像を比較することができる。時として、物体がおよそ対角線方向に位置合せされているとき、小さな変化によって物体が直立又は水平等、全く違うものになる可能性がある。こうした問題を回避するために、プロセッサ１２０は、考えられる４つの主な方向の全てを包含できるように、最初に位置合せされた画像を９０度、１８０度及び２７０度にわたり回転させることができる。回転の処理は、スケッチ画像においても同様に行われる必要がある可能性がある。図７にいくつかの例を示す。図７において、元の画像は色付きの可能性があるが、図７の残りの画像は白黒の可能性がある。１つの実施形態では、プロセッサ１２０が回転不変性照合を行った場合を示すフラグを設定することができる。フラグが真である場合、プロセッサ１２０は、４つの画像を全て使用することができる。回転画像から４つの形状ベクトルを計算することができる。元の向きにある画像から、１つの色ベクトルを計算することができる。回転画像から色ベクトルを計算することができるが、４つの回転画像の結果は同じである可能性がある。１つの実施形態では、プロセッサ１２０は、予め回転された（最初に位置合せされた）スケッチ画像を用いて、元の向きにおける１つの形状ベクトル及びシルエット画像を計算し、１つの色ベクトルを計算することができる。フラグが偽である場合、プロセッサ１２０は、図２に示すステップ２３０をスキップし、元の向きにおけるスケッチ画像及びシルエット画像のみを使用することができる。フラグのデフォルト値は偽とすることができる。

図２に戻ると、プロセッサ１２０は、ステップ２４０にて、スケッチ画像における外接矩形を特定することができる。図８に一例を示す。

図２に戻ると、２５０において、プロセッサ１２０は、スケッチ画像のクロッピング、サイズ変更及びパディングを行うことができ、それらの全てを正規化と呼ぶことができる。これらの処理の後、全ての画像は同じサイズとなることができ、それにより、プロセッサ１２０は、これらの画像をピクセルごとに、又は図１０に示すようにセルごとに比較することができる。１つの実施形態では、プロセッサ１２０は、外接四角形を用いてスケッチ画像をクロッピングすることができ、それにより、物体は、正方形の外接四角形で囲まれ、外接四角形の上縁及び下縁の両方、又は左縁及び右縁の両方のいずれかに接する。

続いてプロセッサ１２０は、画像間の比較が可能となるように、クロッピングされたスケッチ画像を標準サイズにサイズ変更することができる。プロセッサ１２０は、入力画像とともにシルエット画像も同様に標準サイズにサイズ変更することができる。１つの例では、プロセッサ１２０は、クロッピングされたスケッチ画像を最大寸法にサイズ変更することができる。１つの例では、Elasticsearchにおける最大ベクトル寸法は、１０２４である。１０２４の平方根は３２であり、これは、３２×３２セルを意味する。各セルが１０×１０＝１００ピクセルを有する場合、画像サイズは３２０×３２０（３２×１０＝３２０）である。各セルが１２×１２＝１４４ピクセルを有する場合、画像サイズは３８４×３８４（３２×１２＝３８４）である。１つの例では、プロセッサ１２０は、物体が正方形である場合、クロッピングされたスケッチ画像を３８４×３８４ピクセルにサイズ変更することができ、あるいは、物体が正方形でない場合は、幅又は高さのいずれかが３８４ピクセルである。次いでプロセッサ１２０は、スケッチ画像を正方形となるようにパディングすることができ、それにより正規化されたスケッチ画像がもたらされる。図９にいくつかの結果例を示す。高さのある物体は、上の境界及び下の境界の両方に接することができ、幅の広い物体は、左の境界及び右の境界の両方に接することができる。

図２に戻ると、プロセッサ１２０は、２６０において、正規化されたスケッチ画像から形状ベクトルを計算することができる。各画像は、１０２４次元の形状ベクトルによって表すことができる。非一時的なコンピュータ可読媒体１４０は、１０００万個の形状ベクトル等、複数の商品画像の情報を記憶することができる。形状ベクトルが１次元ベクトルである場合、二分探索木（binary search tree, ＢＳＴ）を用いて、最適な一致結果を見つけることができる。例えば、一致するものが見つかるまで、範囲を反復して半分に切断することができる。多次元ベクトルの場合、ｋ－ｄ木（ｋ次元探索木）、ボールツリー（ball tree）、（ＧｏｏｇｌｅＢｉｇＱｕｅｒｙのような）データベース又はElasticsearchインデックスを用いて、探索を行うことができる。１つの例では、Elasticsearchは、最も性能が良く、最も費用対効果が高い。

プロセッサ１２０は、正規化されたスケッチ画像を図１０に示すような複数のセルに（各次元において３２ブロック等）分割することにより、形状ベクトルを計算することができる。図１０に１０×１０のセルを示す。プロセッサ１２０は、セルごとに明るい（bright：明度が高い）ピクセルをカウントすることができる。プロセッサ１２０は、各セルにおいて明るいピクセルの割合を計算することができる。

画像サイズが３８４×３８４ピクセルである場合、プロセッサ１２０は、それを３２×３２のブロックに分割して、合計１０２４（３２×３２）のセルを得ることができる。各セルは、１２×１２ピクセルとすることができる。３８４ピクセルを３２ブロックで除すると、１２ピクセルとなる。図１１に、ｎが３２である場合の計算のフローチャートを示す。図１１は、二重ループの場合のフローチャートを示す。最初に、２次元ベクトルであるｖｅｃｔｏｒ［３２］［３２］（ｎ＝３２）が初期化される。次に、ループカウンタとして「ｉ」を用い行ごとに画像をループすることができる。各行内で、ループカウンタとして「ｊ」を用いて、各列をループすることができる。二重ループの本体を、下側の３つのボックスとすることができる。例えば、ｉ＝３及びｊ＝５（第４行の第６セル）である場合、開始点は（９６，１２８）とすることができ、終了点は（１２７，１５９）とすることができ、ここで、９６＝３２×３であり、１２７＝３２×４－１である。このセルは、左上のコーナーが（９６，１２８）であり右下のコーナーが（１２７，１５９）である矩形内に１４４個のピクセルの全てを含む。明度の高いピクセル数が５３である場合、明るいセルの割合は５３／１４４＝０．３６８であるため、ｖｅｃｔｏｒ［３］［５］＝０．３６８である。二重ループが終了すると、（各次元が３２個の要素を有する）２次元ベクトルを、１０２４個の要素を有する１次元ベクトルに変換することができる。このようなプロセスを「一次元化（あるいは平坦化）」と呼ぶことができる。

図２に戻ると、プロセッサ１２０は、２７０において、色及びシルエット画像から色ベクトルを計算することができる。１つの実施形態では、ステップ２７０は、ステップ２６０に依存しない場合がある。ステップ２７０は、ステップ２２０の後に分岐することができ、それにより、ステップ２７０はステップ２３０～ステップ２８０と並行して行うことができる。ステップ２７０は、正規化されたスケッチ画像に依存しない場合がある。

プロセッサ１２０は、ＲＧＢ色空間全体を６４個のバケット（４×４×４）に（例えば２５６×２５６×２５６等）分割することができる。プロセッサ１２０は、シルエットにおいて明度の高いピクセルである前景ピクセルの各々をループし、６４個のバケットのうちの１つに割り当てることができる。１つの実施形態では、前景ピクセルはシルエット画像における白色ピクセルである一方、黒色ピクセルは画像の背景であり無視される。図７のシルエットにおいて、前景ピクセルは靴の形をした白色の領域であり、残りの黒い部分は背景ピクセルを表す。

最後に、プロセッサ１２０は、色ベクトルを正規化することができる。プロセッサ１２０は、色分布ヒストグラムを導入し、物体の色情報を取り込んで比較を可能にすることができる。図１２に、ｎ＝４、ｗ＝３８４、ｈ＝３８４であるフローチャートを示す。

図１２に、行ごとの外側ループと、列ごとの内側ループとの二重ループを示す。変数「ｎ」は、ＲＧＢ色空間の１つの次元における値の数を表すことができる。ｎ＝４である場合、６４個のバケットが存在する可能性がある。変数「ｗ」は、ｗ＝３８４等のように、画像の幅を表すことができる。変数「ｗ」は、画像の行数も表すことができる。変数「ｈ」は、ｈ＝３８４等のように、画像の高さを表すことができる。変数「ｈ」は、行ごとの列数も表すことができる。まずベクトルが初期化されて結果が記憶される。ベクトルは１次元であり、要素の数は６４であり、初期値は０である。二重ループの本体は、条件判定とフローチャートの下半分における２つのボックスとすることができる。１つの例では、ｉ＝１２３及びｊ＝９７である場合、マスクはシルエット画像でありグレースケールである。各ピクセルは、１次元であるか又は単にスカラー量の可能性がある。値が０に等しい場合は暗いピクセルである。値が０よりも大きい場合は明るいピクセルである。ｍａｓｋ［１２３］［９７］が０を上回らない（つまり０である）場合、暗いピクセルであり、いかなるプロセスも行われない。明るいピクセルである場合、下の２つのボックスにて計算が行われる。図１２における変数「ｉｍａｇｅ」は、サイズとして３８４×３８４を有する正規化された色画像を指すことができる。各ピクセルは、３つの要素を有する１次元配列、例えば、赤色＝２０１、緑色＝８７、及び青色＝１４９を意味するｉｍａｇｅ［１２３］［９７］＝（２０１，８７，１４９）となり得る。ＲＧＢ値をｎ３（すなわち、６４）で割り、整数部分が得られる。すなわち、ｒ＝ｉｎｔ（２０１／６４）＝ｉｎｔ（３．１４）＝３であり、ｇ＝ｉｎｔ（８７／６４）＝ｉｎｔ（１．３６）＝１であり、ｂ＝ｉｎｔ（１４９／６４）＝ｉｎｔ（２．３３）＝２である。次に、ｉｎｄｅｘ＝ｎ＊ｎ＊ｒ＋ｎ＊ｇ＋ｂ＝４＊４＊３＋４＊１＋２＝４８＋４＋２＝５４となる。次いで、ｖｅｃｔｏｒ［５４］の値が１つインクリメントされる。二重ループが終了したのち、ベクトルは、（２７，５，２３５，０，１４，．．．）等の値を含むことができる。和を取ることができる。各要素を和で除することができる。分布を得ることができ、最後のステップを「正規化」と呼ぶことができる。

図１３に、２つの画像及びそれらのヒストグラム等、いくつかのサンプル結果を示す。２つの画像におけるＴシャツは赤色の可能性がある。

図２に戻ると、プロセッサ１２０は、２８０において、元の色画像、スケッチ画像及びシルエット画像のクロッピング、サイズ変更及びパディングを含む、誤一致かどうかの検査の準備を行うことができる。プロセッサは、元の色画像、エッジ検出された画像及びシルエット画像に対して、ステップ２５０と同じ処理を繰り返し、それらを将来使用する（誤一致を削除する）ために保存することができる。プロセッサ１２０は、画像のベクトル表現を用いて画像を照合することができる。

プロセッサ１２０は、Elasticsearchを用いて大規模な探索を行うことができる。Elasticsearchは、インデックス格納及び探索性能の両方に関して探索木よりも優れている。プロセッサ１２０は、画像間の類似度を計算することができる。元の画像において、プロセッサ１２０は、ＣＮＮベクトル、形状ベクトル及び色ベクトルに対する探索ソフトウェアとしてElasticsearchを用いることができる。Elasticsearchでは、数値ベクトルがデータ型である。例えば、「dense_vector」は、数値ベクトルの１つの型である。

局所性鋭敏型ハッシュ（locality sensitive hashing, ＬＳＨ）は、探索効率を向上させる方法である。ＬＳＨは、形状ベクトルから整数等のハッシュ値を、同様のベクトルが同じハッシュ値を有し当該ハッシュ値を用いてElasticsearchインデックスがフィルタリングされるように、計算する。１０，０００，０００個のベクトルの例では、画像照合が実施されるたびにこれらの１０，０００，０００個の形状ベクトルをループするのを回避するために、ＬＳＨは、これらの１０，０００，０００個のベクトルを１０，０００個のバケットに分割することができ、各バケットは、整数等の１つの一意のハッシュ値を有することができる。靴の場合のハッシュ値は、テレビのハッシュ値とは大きく異なる可能性がある。したがって、テレビを探索するためにＬＳＨを用いる場合、残りの９９９９個のバケットを無視しながら、テレビのバケットのみが探索される。

Elasticsearchインデックスのスキーマを以下に示す。
"mappings": {
"properties": {
"img_name": {
"type": "keyword"
},
"cnn_signature_256_0": {
"type": "long"
},
"cnn_signature_256_1": {
"type": "long"
},
"cnn_signature_256_2": {
"type": "long"
},
"cnn_signature_256_3": {
"type": "long"
},
"cnn_vector_256": {
"type": "dense_vector",
"dims": 256
},
"cnn_vector_1024": {
"type": "dense_vector",
"dims": 1024
},
"shape_signature_256_0": {
"type": "long"
},
"shape_signature_256_1": {
"type": "long"
},
"shape_signature_256_2": {
"type": "long"
},
"shape_signature_256_3": {
"type": "long"
},
"shape_vector_256": {
"type": "dense_vector",
"dims": 256
},
"shape_vector_1024": {
"type": "dense_vector",
"dims": 1024
},
"color_vector_64": {
"type": "dense_vector",
"dims": 64
}
}
}

以下の表は、このスキーマに関する説明を提供する。

表１において、「ｃｎｎ＿ｓｉｇｎａｔｕｒｅ＿２５６＿０」等のシグネチャは、対応するベクトルから計算される。上記ＬＳＨ（局所性鋭敏型ハッシュ）に関する説明を参照されたい。バケット化により何らかの喪失を回避するために、４つの異なる方法を用いてＬＳＨを行うことができる。探索を実施するとき、探索画像から４つのＬＳＨシグネチャを作成することができる。４つの探索は、各ＬＳＨシグネチャを用いて実施することができる。これらの４つの探索から、探索結果の集合を組み合わせることができる。「ｃｎｎ＿ｖｅｃｔｏｒ＿２５６」ベクトルは、本開示の方法を機械学習法と比較できるように、畳込みニューラルネットワーク（ＣＮＮ）の機械学習モデルによって作成することができる。ＣＮＮモデルは、オープンソースとして入手可能である。

プロセッサ１２０は、ＣＮＮベクトル（１０２４－ｄ）又は形状ベクトル（１０２４－ｄ）のいずれであっても画像ベクトルを２５６次元まで低減させることができる。プロセッサ１２０は、ＣＮＮベクトル２５６－ｄ及び形状ベクトル２５６－ｄの両方に対して４つのＬＳＨ値を計算することができる。表における全てのフィールドが、１つの画像に対するデータからなることができ、全ての画像に対するデータは、Elasticsearchインデックスに格納することができる。

探索段階において、入力画像を同様に処理することができる。探索に対して、ハッシュ値とともに、ｃｎｎ＿ｖｅｃｔｏｒ＿２５６又はｓｈａｐｅ＿ｖｅｃｔｏｒ＿２５６のいずれかを使用することができる。全ての商品画像に対して、表１に列挙した全てのフィールドが作成される。基本の値は、ｓｈａｐｅ＿ｖｅｃｔｏｒ＿１０２４であり、これは、全ての画像処理から計算される。ｓｈａｐｅ＿ｖｅｃｔｏｒ＿１０２４が１０２４次元を有し、これらの多くの次元における探索が幾分か低速であるため、隣接する４つの値を１つに平均する（１０２４／４＝２５６）ことにより、２５６次元を有するｓｈａｐｅ＿ｖｅｃｔｏｒ＿２５６を作成することができる。探索プロセスを高速化するために、ＬＳＨを用いて、小さく且つ関連するサブセットに対して探索される。このバケット化に起因するいかなる照合結果の喪失も回避するために、４つの異なるＬＳＨが用いられる。そして、（ｓｈａｐｅ＿ｖｅｃｔｏｒ＿２５６に対する）これらの４つのＬＳＨフィルタリング探索から、全ての結果が組み合わせられる。照合結果のそれぞれに対して、探索すべき画像と照合画像との距離（又はスコア）を、ｓｈａｐｅ＿ｖｅｃｔｏｒ＿１０２４及び閾値を用いることにより計算し、相対的に低いスコア（又は相対的に大きい距離）を有する照合結果を除去することができる。次いで、ｃｏｌｏｒ＿ｖｅｃｔｏｒ＿６４を用いて、スコアを計算し、相対的に低いスコアの照合結果を更に除去することができる。最後に、誤一致かどうかの検査が行われ、誤った一致結果が除去される。次いで、一致画像を決定し、返すことができる。これらのステップの全てを、単なる比較として、ＣＮＮ＿^＊値が使用されるＣＮＮ＿ｖｅｃｔｏｒ＿１０２４から始めて行うことができる。これらのステップは任意である。

具体的には、サービスを呼び出すために、４つの探索要求を送ることができ、それぞれが１つのハッシュ値を有する。ハッシュ値を用いて、探索すべき画像のサブセットをフィルタリング除去することができる。４つのハッシュ値を用いて、フィルタリングに起因していかなる照合結果も喪失しないことを確実にすることができる。探索が行われた後、ＣＮＮベクトル１０２４次元及び形状ベクトル１０２４次元を用いて、コサイン類似度を、コサイン類似度を用いて計算された色一致度とともに用いることにより、一致度を計算することができる。距離及びスコアは２つの関連する概念である。２次元のｖ０（ｘ０，ｙ０）及びｖ１（ｘ１，ｙ１）のみがある場合、距離はｓｑｒｔ（（ｘ０－ｘ１）^２＋（ｙ０－ｙ１）^２）である。これが小さいほど一致度が高い。２つの同一ベクトルの距離は０となり得る。スコアすなわちコサイン類似度は、（ｘ０＊ｘ１＋ｙ０＊ｙ１）／（ｓｑｒｔ（ｘ０^２＋ｙ０^２）＊ｓｑｒｔ（ｘ１^２＋ｙ１^２））として定めることができる。スコアが高いほど一致度が高い。２つの同一ベクトルは、スコア１となり得る。これらのスコアを用いて、それが一致するか否かを判定することができる。プロセッサ１２０は、２つのＣＮＮモデルＭｏｂｉｌｅＮｅｔ及びＮＡＳＮｅｔを用いることができる。ＭｏｂｉｌｅＮｅｔスコア≧０．９０であり、ＮＡＳＮｅｔスコア≧０．８８である。これらのモデルに対して、形状スコア≧０．９２及び色スコア≧０．９６５である。図１４に探索段階のフローチャートを示す。図１４において、「閾値を適用する」ステップと「一致した画像を得る」ステップとの間で、誤一致かどうかを検査するステップが行われる。

誤一致の問題がある可能性がある。例えば、１つの問題は、パッチ色差と呼ぶことができる。複数の画像の全体的な形状及び色が、全て類似度の閾値を上回るものの、画像に色の異なるパッチがある。

図１５Ａに示すような淡青色のボタンを有するリモコンを探索した場合、図１５Ｂに示すように、ベクトル類似度に基づく一致結果として４つの一致結果が返される場合がある。図１５Ａにおいて、リモコンは淡青色のボタンを有し、ディスプレイ内の漫画キャラクタは、緑色の耳を有する可能性がある。図１５Ｂにおいて、左上の一致結果は青色のボタンを有する可能性があり、ディスプレイ内の漫画キャラクタは緑色の耳を有する可能性がある。右上の一致結果は紫色のボタンを有する可能性があり、ディスプレイ内の漫画キャラクタはオレンジ色の耳を有する可能性がある。下の２つの一致結果はピンク色のボタンを有する可能性があり、ディスプレイ内の漫画キャラクタはオレンジ色の耳を有する可能性がある。明らかに、最初の１つのみが一致している（ちなみに、最初の照合画像はその画像そのものではない）。最後の３つの結果画像は、閾値を強化することにより排除することはできず、閾値を強化した場合、他の多くの対象として認められる一致結果が削除され、一致正解率が低下することになる。モデル又は方法がいかに優れているかについて表すために、３つの概念、すなわち、適合率、再現率及び正解率がある。探索により１０個の一致結果が返されたが、８個のみが正しい場合、適合率は、８／１０＝８０％である。データセットに１０個の実際の一致結果があり、本探索により７個の一致が返された場合、再現率は７／１０＝７０％である。正解率又は「Ｆ１スコア」と呼ばれるものは、２＊適合率＊再現率／（適合率＋再現率）＝２＊８０％＊７０％／（８０％＋７０％）＝７４．７％として定められる。良好な候補が喪失した場合、再現率が低下し、このためＦ１スコア（正解率）が低下する。

パッチ色差の問題に対処するために、プロセッサ１２０は、図１６に示すようにこうした色差を測定するために「色差パーセント」を計算することができる。各結果画像に対して、プロセッサ１２０は、シルエット内の明るい各ピクセルに対して、同じ位置における結果画像の色及び入力画像の色が同じであるか否かを判定することにより、色差マップを作成することができる。同じ色である場合、値は０に設定される。異なる色である場合、値は１に設定される。ここでの「色」は、６４個の色バケットにおけるインデックスである。次いで、プロセッサ１２０は、非常に高い閾値（ｈ＝５０）でのノイズ低減を用いて、小さいパッチを除去することができる。プロセッサ１２０は、色差マップにおける１ビットの和、すなわち、シルエット画像における明るいピクセルの和を得て、その割合を計算することができる。この値が閾値（５％）よりも大きい場合、２つの画像は異なるとみなすことができる。色差は、２つの異なる理由から生じる可能性がある。第１に、同じ商品の場合、画像は別々の人によって取得される可能性がある。照明、角度又は解像度の差は、ランダムなピクセル及び小さいスポットとして現れる可能性がある。第２に、リモコンのボタンのような、実際の著しい差がある。この場合、差は、より大きいスポットとして現れる。プロセッサ１２０は、ノイズ及び小さいスポットを除去し、ボタンのようなより大きいスポットのみを保存することができる。プロセッサ１２０は、パラメータ（閾値ｈ）を有することができる。パラメータは、実際にはノイズではない小さいスポットを除去するために、非常に大きく設定することができる。その後、プロセッサ１２０は、明るいピクセルがどれくらい残っているかをカウントしたのち、それをピクセルの総数で除することができる。値が０．０５（５％）よりも大きい場合、プロセッサ１２０は、異なる画像であると判定することができ、そうでない場合は、「同一の」画像であると判定することができる。図１７に入力画像及び結果画像を示す。図１７において、上の列は、異なる色の例示のリモコンを示す。左側から１番目のリモコン及び２番目のリモコンは、青色のキーパッド又はボタンを有する可能性があり、ディスプレイ内の漫画キャラクタは緑色の耳を有する可能性がある。残りの３つのリモコンでは、漫画キャラクタはオレンジ色の耳を有する可能性がある。真中のリモコン及び最右のリモコンは、ピンク色のキーパッドを有する可能性がある。右側から２番目のリモコンは、紫色のキーパッドを有する可能性がある。

第２の誤一致の問題は、サブ領域差と呼ぶことができる。物体は、いくつかの小さい領域における差を除き非常に類似している。第２の誤一致の問題は、サブ領域における差によってもたらされる可能性がある。画像は、入力画像と非常に類似しているが、画像の内側の小さい領域、通常、或る種のロゴのみが異なる。例えば、図１８Ａに示すようなＮＦＬのニューオリンズ・セインツ（New Orleans Saints）のロゴの付いたビール瓶を探索すると、図１８Ｂに示すような異なるロゴの付いたいくつかの類似画像が返される可能性がある。

この種の問題は、機械学習モデルによっても、形状ベクトル及び色ベクトルによっても、修正することが困難な可能性がある。その理由は、全体的な形状が同一であり、色差が非常に小さいためである。この問題に対処するために、プロセッサ１２０は、スケッチ差マップを作成し、実際の差領域を目立たせるように全ての差画像を平均し、平均差画像を閾値処理し、クラスタリング手法を用いて平均差画像をクラスタに分け、最後に、結果群における全ての元画像に対してクロッピングされた領域を比較することができる。

図１９に高レベルステップを示す。２００２において、プロセッサ１２０は、エッジ差画像を作成することができる。２００４において、プロセッサ１２０は、エッジ差画像の平均を作ることができる。２００６において、プロセッサ１２０は、平均差画像を閾値処理することができる。２００８において、プロセッサ１２０は、平均差画像をクラスタリングすることができる。２０１０において、プロセッサ１２０は、サイズで上位ｎ個のクラスタに対して、外接矩形を得ることができる。２０１２において、プロセッサ１２０は、各外接矩形をループさせてサブ画像を作成し、対象画像と候補画像との間において色ベクトル及び形状ベクトルを比較することができる。

図２０に上記アルゴリズムを示す。図２０において、第１の列は、候補画像に対するエッジ検出画像である（誤一致）。第２の列は、入力画像に対するエッジ検出画像である。第３の列は、第１の列と第２の列との差画像である。（１行のみの）第４の列は、第３の列の平均化である。第５の列は、平均画像の閾値処理である。最後の列は、閾値処理画像からの最大クラスタの外接矩形を示す。

上記アルゴリズムは、以下の仮定の下で機能することができる。第１に、ロゴ領域を画像の残りの部分とは分けることができる。第２に、差ステップにおいて無関係のエッジの大半が除去されるように、候補画像を入力画像と十分に位置合わせすることができる。第３に、平均化によりノイズをなくすことができるように、十分な候補画像がある可能性がある。図２０において、最も上にある差画像は、多くの無関係の差を有するが、平均化及び閾値処理の後、ロゴ領域は、多数の候補があるため、依然として良く目立っている。第４に、ロゴ領域は、大き過ぎるか又は小さ過ぎる可能性はない。大き過ぎる場合、後続の比較によりそれらが識別される可能性は低い。小さ過ぎる場合もまた、良好な比較を行うことが困難である。

平均差画像の閾値処理が行われた後、プロセッサ１２０は、更なる比較のために、クラスタリングを行い、ピクセルをばらばらの領域に分割することができる。プロセッサ１２０は、ＤＢＳＣＡＮ（Density-Based Spatial Clustering of Applications with Noise（ノイズのあるアプリケーションの密度ベースの空間クラスタリング））等の、クラスタリングアルゴリズムを実装することができる。

最後のステップにて、プロセッサ１２０はロゴ領域を比較することができる。ビール瓶の例の場合、プロセッサ１２０は、図２１Ａに示すようなニューオリンズ・セインツロゴを、図２１Ｂに示すような他のロゴと比較することができる。プロセッサ１２０は、サブ比較のために組合せに係る形状ベクトル及び色ベクトルを用いることができる。

一つの例において、１０４０万個の商品画像が、２つの異なるＣＮＮモデルとＭｏｂｉｌｅＮｅｔモデルとＮＡＳＮｅｔモデルと形状及び色のベクトル化とを用いて、処理される。Elasticsearchインデックスへの格納が行われる。１０４０万個の画像の画像集合全体に対して探索するために、１２７０個の画像がランダムに選択される。上位の探索結果が、手動で検査されラベル付けされ、正解率が計算される。以下の表は、ミクロの平均結果を列挙したものである。すなわち、全てのポジティブ（positive）の場合及びネガティブ（negative）の場合をカウントしたのち、正解率を計算する。

表２において、「基準」は、一致しているかどうかを決めるために用いられる類似度の閾値である。例えば、第１行のＭｏｂｉｌＮｅｔモデルにおいて、「ＭｏｂｉｌｅＮｅｔスコア≧０．９０」は、スコアが≧０．９０である場合に一致しているとみなすことを意味する。

開示対象の技術は、既存の機械学習アルゴリズムよりも性能が優れている。例えば、開示対象の技術の平均正解率は８７％であり、これは、機械学習アルゴリズムの約５８％よりも優れている。

画像照合システム１１０は、アフィリエイト・マーケティング・プラットフォームにおけるブラウザ拡張の一部として使用することができる。例えば、画像照合システム１１０は、ＨｏｍｅＤｅｐｏｔのような非会員登録制のウェブサイトにおける買物の一部として使用することができる。これは、会員登録制のウェブサイトにある低価格の代替品の、画像による検索及び照合をもたらすことになる。冷蔵庫等の大型の品目は、ユーザが見る前に予め探索及び照合を行うことができ、これにより、代替品をほぼリアルタイムでユーザに提示することができる。画像の照合は、布地又は靴等の商品において使用することができる。

画像照合システム１１０は、単一商品に関する２つのエントリなどの重複の検出を行うために用いることができる。プロセッサ１２０によって行われる画像照合プロセスを用いて、システムのデータベースにおける重複を除去又は特定することができる。重複しているエントリをまとめて品質管理を向上させることができる。

図１に戻ると、プロセッサ１２０は、記憶された命令を実行するとともに記憶されたデータに対して動作することができる、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、コプロセッサ等のうちの１つ以上、又はそれらの組合せを含むことができる。プロセッサ１２０は、Ｉｎｔｅｌ（商標）によって製造されたＰｅｎｔｉｕｍ（商標）ファミリ又はＡＭＤ（商標）によって製造されたＴｕｒｉｏｎ（商標）ファミリからのマイクロプロセッサ等、１つ以上の既知の処理デバイとすることができる。プロセッサ１２０は、シングルコアプロセッサ、又は並列プロセスを同時に実行するマルチコアプロセッサを構成することができる。例えば、プロセッサ１２０は、仮想処理技術で構成されるシングルコアプロセッサとすることができる。或る特定の実施形態では、プロセッサ１２０は、複数のプロセスを同時に実行及び制御する論理プロセッサを用いることができる。プロセッサ１２０は、複数のソフトウェアプロセス、アプリケーション、プログラム等を実行し、制御し、動作させ、操作し、記憶する等の能力を提供する、仮想マシン技術又は他の同様の既知の技術を実装することができる。当業者であれば、本明細書に開示する能力を提供する他のタイプのプロセッサ構成を実装することができることが理解されよう。

非一時的なコンピュータ可読媒体１４０は、オペレーティングシステム（「ＯＳ」）及びプログラムを含むことができる。非一時的コンピュータ可読媒体１４０は、いくつかの実施態様では、オペレーティングシステム、（例えば、必要に応じて、ウェブブラウザアプリケーション、ウィジェット又はガジェットエンジン及び／又は他のアプリケーションを含む）アプリケーションプログラム、実行可能命令及びデータを含むファイルを記憶する、１つ以上の好適なタイプのメモリ（例えば、揮発性又は不揮発性メモリ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、プログラマブルリードオンリメモリ（ＰＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、磁気ディスク、光ディスク、フロッピディスク、ハードディスク、リムーバブルカートリッジ、フラッシュメモリ、独立ディスク冗長アレイ（ＲＡＩＤ）等）を含むことができる。１つの実施形態では、本明細書に記載した処理技法は、非一時的コンピュータ可読媒体１４０内の実行可能命令及びデータの組合せとして実装される。非一時的コンピュータ可読媒体１４０は、開示した実施形態の１つ以上の特徴を実施するために用いられるデータ及び命令を記憶する１つ以上のメモリデバイスを含むことができる。非一時的コンピュータ可読媒体１４０は、文書管理システム、Ｍｉｃｒｏｓｏｆｔ（商標）ＳＱＬデータベース、ＳｈａｒｅＰｏｉｎｔ（商標）データベース、Ｏｒａｃｌｅ（商標）データベース、Ｓｙｂａｓｅ（商標）データベース又は他のリレーショナル若しくは非リレーショナルデータベース等、メモリコントローラデバイス（例えば、（複数の）サーバ等）又はソフトウェアによって制御される１つ以上のデータベースの任意の組合せも含むことができる。非一時的コンピュータ可読媒体１４０は、プロセッサ１２０によって実行されると、開示する実施形態と一貫する１つ以上のプロセスを実施するソフトウェアコンポーネントを含むことができる。いくつかの実施形態では、非一時的コンピュータ可読媒体１４０は、開示した実施形態に関連するプロセス及び機能性のうちの１つ以上を実施するためのデータベースを含むことができる。非一時的コンピュータ可読媒体１４０は、開示した実施形態の１つ以上の機能を実施する１つ以上のプログラムを含むことができる。さらに、プロセッサ１２０は、画像照合システム１１０からリモートに位置する１つ以上のプログラムを実行することができる。例えば、画像照合システム１１０は、実行されると、開示した実施形態に関連する機能を実施する１つ以上のリモートプログラムにアクセスすることができる。

図１に戻ると、ネットワーク１８０は、より一般にはインターネットと称される相互接続されたコンピューティングデバイスのネットワークを含むことができる。ネットワーク１８０は、セルラネットワーク又はＷｉＦｉネットワーク等、インターネットを介する個々の接続を含む任意の好適なタイプとすることができる。いくつかの実施形態では、ネットワーク１８０は、無線自動識別（ＲＦＩＤ）、近距離無線通信（ＮＦＣ）、Ｂｌｕｅｔｏｏｔｈ（商標）、ｌｏｗ－ｅｎｅｒｇｅｙＢｌｕｅｔｏｏｔｈ（商標）（ＢＬＥ）、ＷｉＦｉ（商標）、ＺｉｇＢｅｅ（商標）、周囲後方散乱通信（ambient backscatter communications, ＡＢＣ）プロトコル、ＵＳＢ、ＷＡＮ又はＬＡＮ等の直接接続を用いて、端末、サービス及びモバイルデバイスを接続することができる。送信される情報は、個人的又は機密である可能性があるため、セキュリティに関係する問題は、これらのタイプの接続のうちの１つ以上を暗号化するか又は他の方法でセキュアにすることを必要とする場合がある。しかしながら、いくつかの実施形態では、送信されている情報はそれほど個人的ではない可能性があり、したがって、セキュリティよりも便宜を考慮して、ネットワーク接続が選択される場合がある。ネットワーク１８０は、データを交換するために用いられる任意のタイプのコンピュータネットワーク化構成を備えることができる。例えば、ネットワーク１８０は、インターネット、プライベートデータネットワーク、公衆ネットワークを用いる仮想プライベートネットワーク、及び／又はシステム環境１００のコンポーネントを使用可能にする他の好適な接続（複数の場合もある）とすることができる。ネットワーク１８０はまた、公衆交換電話網（「ＰＳＴＮ」）及び／又はワイヤレスネットワークも含むことができる。ネットワーク１８０はまた、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ（商標）Ｅｔｈｅｒｎｅｔ、及びシステム環境１００のコンポーネントが互いに相互作用することができるようにする他の好適なネットワーク接続等、局所エリアでデータを交換するために用いられる任意のタイプのコンピュータネットワーク化構成を含むローカルネットワークも含むことができる。

開示した技術の或る特定の実施態様について、現時点で最も実際的であり且つ様々な実施態様であるとみなされるものに関連して説明したが、開示した技術は、開示した実施態様に限定されるべきではなく、反対に、添付の請求項の範囲内に含まれる様々な変更形態及び均等構成を包含するように意図されていることが理解されるべきである。本明細書では具体的な用語を採用しているが、それらは、限定を目的とするのではなく単に包括的且つ説明的な意味で用いている。

開示した技術の或る特定の実施態様について、開示した技術の例示の実施態様に従ってシステム及び方法及び／又はコンピュータプログラム製品のブロック図及びフロー図を参照して上述している。ブロック図及びフロー図の１つ以上のブロック、並びにブロック図及びフロー図それぞれにおけるブロックの組合せを、コンピュータ実行可能プログラム命令によって実装することができることが理解されよう。同様に、ブロック図及びフロー図のいくつかのブロックは、開示した技術のいくつかの実施態様に従って、必ずしも提示されている順序で実施される必要はない場合があり、又は、必ずしも実施される必要はない場合がある。

これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理装置に特定の方法で機能するように指示することができるコンピュータ可読メモリにも記憶することができ、コンピュータ可読メモリに記憶された命令が、フロー図の単数又は複数のブロックで指定された１つ以上の機能を実装する命令手段を含む製品をもたらすようにすることができる。

開示した技術の実施態様は、コンピュータ可読プログラムコード又はプログラム命令が具現化されるコンピュータ使用可能媒体を備える、コンピュータプログラム製品を提供することができ、上記コンピュータ可読プログラムコードは、フロー図の単数又は複数のブロックで指定された１つ以上の機能を実装するように実行されるように適合されている。コンピュータプログラム命令はまた、コンピュータ又は他のプログラム可能データ処理装置にロードすることもでき、それにより、一連の動作要素又はステップがコンピュータ又は他のプログラム可能装置において実施されて、コンピュータ又は他のプログラム可能装置で実行される命令が、フロー図の単数又は複数のブロックで指定された機能を実装する要素又はステップを提供するようにコンピュータ実施プロセスを生成することもできる。

したがって、ブロック図及びフロー図のブロックは、指定された機能を実施する手段の組合せ、指定された機能を実施する要素又はステップの組合せ、及び、指定された機能を実施するプログラム命令手段をサポートする。ブロック図及びフロー図の各ブロック、並びにブロック図及びフロー図のブロックの組合せは、専用ハードウェア及びコンピュータ命令の指定された機能、要素若しくはステップ又は組合せを実施する、専用のハードウェアベースのコンピュータシステムによって実装することができることも理解されよう。

これまでに述べた説明は、例を用いて、最良の形態を含む開示した技術の或る特定の実施態様を開示し、且つ、当業者が、任意のデバイス又はシステムを作成及び使用することと任意の組み込まれた方法を実施することとを含む、開示した技術の或る特定の実施態様を実施することができるようにする。開示した技術の或る特定の実施態様の特許を受け得る範囲は、特許請求の範囲に定められており、当業者が想到する他の例を含み得る。こうした他の例は、特許請求の範囲の文字通りの表現から異なることのない構造的要素を有する場合、又は、特許請求の範囲の文字通りの表現からごくわずかな相違がある均等な構造的要素を含む場合に、権利範囲に含まれることが意図されている。

Claims

複数の画像の情報を記憶する非一時的なコンピュータ可読媒体と、
プロセッサと
を備え、
前記プロセッサは、
元の画像において物体を示す物体領域を特定し、
前記物体領域を正規化して正規化画像を得て、
前記正規化画像から形状ベクトル及び色ベクトルを計算し、
前記形状ベクトル及び前記色ベクトルを用いて、前記元の画像と前記非一時的なコンピュータ可読媒体に記憶された前記複数の画像の各々との一致度を計算し、
前記一致度に基づき、前記非一時的なコンピュータ可読媒体が前記元の画像と一致するものを記憶しているかどうかを判定する、
画像照合システム。
前記プロセッサは、
前記元の画像からスケッチ画像を生成し、
前記スケッチ画像において外接矩形を特定し、
前記外接矩形により前記スケッチ画像のクロッピングを行い、クロッピングがなされた前記スケッチ画像のサイズ変更及びパディングを行って、前記正規化画像を得て、
前記正規化画像から前記形状ベクトルを計算する、
請求項１に記載の画像照合システム。
前記プロセッサは、
前記物体の主軸に基づいて前記スケッチ画像を予め回転させ、
予め回転された前記スケッチ画像から前記正規化画像を生成する、
請求項２に記載の画像照合システム。
前記プロセッサは、
予め回転された前記スケッチ画像を更に回転させることにより、１つ以上の正規化画像を生成し、
各々の前記正規化画像から前記形状ベクトルを計算する、
請求項３に記載の画像照合システム。
前記プロセッサは、
前記元の画像からシルエット画像を生成し、
前記シルエット画像のサイズ変更を行い、前記正規化画像を得て、
色及び前記正規化画像から前記色ベクトルを計算する、
請求項１に記載の画像照合システム。
前記プロセッサは、誤一致かどうかの検査を行うことにより、前記一致するものが誤って特定されているかどうかを判定する、請求項１に記載の画像照合システム。
前記プロセッサは、エッジ検出により、前記元の画像から前記スケッチ画像を生成する、請求項２に記載の画像照合システム。
前記プロセッサは、３つの閾値集合によるエッジ検出を用い、高解像度のエッジ画像と、中間解像度のエッジ画像と、低解像度のエッジ画像とにつき異なる反復回数による膨張処理を行い、３つのエッジ画像を論理和演算により組み合わせる、請求項７に記載の画像照合システム。
前記プロセッサは、画像のセグメンテーションにより主たる物体を背景とは分けることで、前記元の画像から前記シルエット画像を生成する、請求項５に記載の画像照合システム。
前記プロセッサは、
いずれの前記形状ベクトルが計算されるかに基づき、前記元の画像からスケッチ画像を生成し、
前記シルエット画像と前記スケッチ画像との論理和演算を行う、
請求項５に記載の画像照合システム。
前記プロセッサは、前記外接矩形により前記スケッチ画像のクロッピングを行って、前記物体が、前記外接矩形に囲まれ、前記外接矩形の上縁及び下縁の両方と左縁及び右縁の両方とのいずれかに接することとなる、請求項２に記載の画像照合システム。
前記プロセッサは、クロッピングがなされた前記スケッチ画像を標準サイズへサイズ変更する、請求項２に記載の画像照合システム。
前記プロセッサは、サイズ変更がなされた前記スケッチ画像を正方形となるようにパディングする、請求項２に記載の画像照合システム。
前記プロセッサは、正規化された前記スケッチ画像を複数のセルに分割することにより前記形状ベクトルを計算する、請求項２に記載の画像照合システム。
前記プロセッサは、明度の高いピクセルをセルごとにカウントする、請求項１４に記載の画像照合システム。
前記プロセッサは、各前景ピクセルにつきループ処理を行うことにより前記色ベクトルを計算し、前記色ベクトルを６４個のバケットのうちの１つに割り当てる、請求項１に記載の画像照合システム。
前記プロセッサが前記色ベクトルの正規化を行う、請求項１に記載の画像照合システム。
前記プロセッサは、前記形状ベクトル及び前記色ベクトルの両方に対して４つの局所性鋭敏型ハッシュ値を計算する、請求項１に記載の画像照合システム。
プロセッサが、元の画像において物体を示す物体領域を特定するステップと、
前記プロセッサが、前記物体領域を正規化し正規化画像を得るステップと、
前記プロセッサが、前記正規化画像から形状ベクトル及び色ベクトルを計算するステップと、
前記プロセッサが、前記形状ベクトル及び前記色ベクトルを用いて、前記元の画像と非一時的なコンピュータ可読媒体に記憶された複数の画像の各々との一致度を計算するステップと、
前記プロセッサが、前記一致度に基づき、前記複数の画像の情報を記憶する前記非一時的なコンピュータ可読媒体が前記元の画像と一致するものを記憶しているかどうかを判定するステップと
を含む画像照合方法。
プロセッサが、元の画像において物体を示す物体領域を特定するステップと、
前記プロセッサが、前記物体領域を正規化し正規化画像を得るステップと、
前記プロセッサが、前記正規化画像から形状ベクトル及び色ベクトルを計算するステップと、
前記プロセッサが、前記形状ベクトル及び前記色ベクトルを用いて、前記元の画像と非一時的なコンピュータ可読媒体に記憶された複数の画像の各々との一致度を計算するステップと、
前記プロセッサが、前記一致度に基づき、前記複数の画像の情報を記憶する前記非一時的なコンピュータ可読媒体が前記元の画像と一致するものを記憶しているかどうかを判定するステップと
を行うためのコンピュータプログラムコードを有する、画像照合のためのコンピュータプログラム。