JP2010531010A - 画像と形状記述子とのマッチング - Google Patents

画像と形状記述子とのマッチング Download PDF

Info

Publication number
JP2010531010A
JP2010531010A JP2010511102A JP2010511102A JP2010531010A JP 2010531010 A JP2010531010 A JP 2010531010A JP 2010511102 A JP2010511102 A JP 2010511102A JP 2010511102 A JP2010511102 A JP 2010511102A JP 2010531010 A JP2010531010 A JP 2010531010A
Authority
JP
Japan
Prior art keywords
image
descriptor
unit
candidate
candidate images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010511102A
Other languages
English (en)
Inventor
イル ドン ユン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research and Industry University Cooperation Foundation of HUFS
Original Assignee
Research and Industry University Cooperation Foundation of HUFS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research and Industry University Cooperation Foundation of HUFS filed Critical Research and Industry University Cooperation Foundation of HUFS
Publication of JP2010531010A publication Critical patent/JP2010531010A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/752Contour matching

Abstract

【課題】記述子関連のアルゴリズムの複雑さを減らしながら、画像をより効果的且つ効率的な方法で記述、索引付け、および検索できるようにART記述子の精度を向上させる
【解決手段】画像検索システムは、画像を入力すべく構成された画像入力ユニットを含んでいる。記述子決定ユニットが画像を受信し、例えば、距離変換(DT)アプリケーションを用いて当該画像を中間画像に変換して当該画像の記述子を生成する。画像比較ユニットは、当該画像の記述子を複数の候補画像の記述子と比較することにより、当該画像を複数の候補画像と比較する。最後に、検索ユニットがこれらの記述子の比較に基づいて入力画像に類似している1個以上の候補画像を取得する。
【選択図】図2

Description

技術分野
本開示は一般に、画像記述子(image descriptors)に関する。
背景
デジタル・カメラ、画像編集ソフトウェア、および他の関連技術、装置、またはその両方が広く利用されているため、ユーザはデジタル画像の管理および操作を強いられている。ユーザが効率的且つ効果的に画像を管理、検索、操作、および使用できる機能を提供することがデジタル画像装置、アプリケーションまたはその両方にとって重要な態様である。その結果、記憶装置から画像を取得する効率的且つ簡単な方法を開発する努力がなされている。例えば、画像処理分野において、動画エキスパートグループ(MPEG)は数種類の画像検索アプリケーションを開発している。
例示的な画像検索アプリケーションは、画像の索引付けおよび検索のために画像の記述子を生成することができる。画像の形状は、画像の記述に利用できる有用な特徴である。形状は、色、テクスチャ等、画像の他の特徴を含める必要無しに、画像を地理的形状だけで記述することができる。例えば、MPEGは、曲率尺度空間(CSS)記述子およびアンギュラー・ラディアル・トランスフォーム(ART)記述子として公知のものを含むいくつかの記述子を採用している。
CSS記述子は、画像の1本以上の等高線に関する情報に基づいて画像の特徴を抽出する。一方、ART記述子は、等高線に関する情報を直接使用せず、その代わりに画像に関する領域固有の情報、例えば画像内における画素の位置により変化する画素値のアンギュラー成分およびラディアル成分を利用する。ARTはこのように、画像内の等高線の数とは無関係に、各種の画像に対してより一般的に適用することができる。
しかし、従来のART記述子には限界がある。例えば、等高線が1本である画像のように比較的単純な特徴を有する画像の場合、ART記述子は、画像の形状を表す際の精度で所望のレベルを達成することができない。その理由は、正確なART記述子を取得するには画像の各種の側面に関する情報を抽出する必要があるためである。さらに、ART記述子は、相当の計算リソースを要する比較的複雑な数値アルゴリズムに依存している。従って、記述子関連のアルゴリズムの複雑さを減らしながら、画像をより効果的且つ効率的な方法で記述、索引付け、および検索できるようにART記述子の精度を向上させることが必要である。
概要
一実施形態において、距離変換(DT)装置を用いて、入力されたクエリー画像用に追加的な特徴(例えば、記述子パラメータ)を提供する中間画像を生成する。DTユニットは、入力クエリー画像を、画像内の画素の位置に応じて各種の画素値を有する中間画像に変換することができる。中間画像内で生成された各種の画素値は、クエリー画像用の画像記述子をより効率的且つ効果的に生成すべく利用することができる追加的な画像属性または記述子パラメータとして用いられる。画像記述子生成装置は、中間画像に対しART記述子生成アルゴリズムを適用することにより、入力クエリー画像の記述子を生成することができる。
別の実施形態において、画像検索システムは、画像入力ユニット、記述子決定ユニット、画像比較ユニット、および検索ユニットを含んでいる。画像入力ユニットは、入力として画像を受信すべく構成されている。記述子決定ユニットは、DTユニットを用いて画像を受信して中間画像に変換し、画像の記述子を生成すべく適合されている。画像比較ユニットは、例えばクエリー画像の記述子をデータベースに格納されている画像の記述子と比較することにより、画像をデータベースに格納されている1個以上の画像と比較すべく構成されている。最後に、検索ユニットは、記述子の比較に基づいて、入力画像に極めて良く一致している、または類似している1個以上の候補画像を取得すべく構成されている。
本概要は、特定の概念を、以下の詳細な説明でさらに述べる単純化された形式で導入すべく提供するものである。本概要は、権利請求対象である主題の重要な特徴または本質的な特徴を示すものではなく、また権利請求対象である主題の範囲を限定することを意図するものではない。
図面の簡単な説明
一実施形態による画像検索システムの模式的ブロック図を示す。 一実施形態による画像検索システムの画像マッチングユニットの模式的ブロック図である。 一実施形態による距離変換(DT)の適用を示す模式図である。 一実施形態による2値画像を中間画像に変換する距離変換の適用を示す模式図である。 一実施形態によるDTの結果を表す例示的な画像を示す。 一実施形態において用いられるARTの基底関数の例を示す。 一実施形態による記述子生成方法を示すフロー図である。 一実施形態による、記述子を用いた画像検索方法を示すフロー図である。 本開示による装置および方法の一実施形態によるGART(グレーレベル・アンギュラー・ラディアル・トランスフォーム)記述子と、従来のART記述子との的中率(BEP)で測定したデータベース検索性能を比較して示す図である。
詳細な説明
本明細書に主に記述し、図示するように、本開示の構成要素を多様な異なる構成で配置および設計できる点が容易に理解されよう。従って、図に示すように、本開示による装置および方法の実施形態をより詳細に以下に記述しているが、権利請求する本開示の範囲を限定することを意図しておらず、あくまでも本開示に従い現在考察している実施形態の特定の例を表しているに過ぎない。以下に記述する実施形態は図面を参照すれば理解可能であり、図面全体を通じて同一要素は同一の参照番号で示されている。
図1を参照するに、画像検索システム100の一実施形態を示す。画像検索システム100は、コントローラ110、画像入力ユニット120、画像マッチングユニット140、記憶装置としてのデータベース(DB;160)、およびディスプレイ180を含んでいてよい。各々の構成要素110、120、140、160および180は、所望の実施態様に従い、単一ユニットまたは装置、あるいは1個以上のユニットまたは装置として提供されていてよい。例えば、画像マッチングユニット140およびDB160は、画像入力ユニット120と一体化された単一の装置に実装されていてよい。あるいは、画像マッチングユニット140およびDB160は、画像入力ユニット120とは別個に遠隔的に実装されていてもよい。
実際には、ユーザは画像入力ユニット120を用いて画像検索システム100への入力用の画像を選択することができる。画像入力ユニット120は、キーパッド、キーボード、マウス、タッチパッド、タッチスクリーン、ポインティングデバイス、トラックボール、ライトペン、ジョイスティック、音声認識装置、スタイラス装置、目および頭の動作トラッカ、デジタイザ・タブレット、バーコードリーダ等、様々な形式の入力装置を含んでいてよいがこれに限定されず、これら各々がユーザに所望のクエリー画像に入力するためのインターフェースを提供することができる。画像入力ユニット120は次いで、コントローラ110により構成またはプログラムされた通りに、入力された画像を画像マッチングユニット140へ配信することができる。
画像マッチングユニット140が画像入力ユニット120とは別個の遠隔装置またはサーバにインストールされている特定の実施形態において、入力画像は有線または無線通信プロトコルを介して画像入力ユニット120から画像マッチングユニット140へ送信することができる。例えば、シリアルポート、パラレル・ポート、PS/2ポート、ユニバーサル・シリアル・バス(USB)リンク、ファイアワイヤまたはIEEE1394リンク等のデジタル・インターフェース・プロトコル、あるいは赤外インターフェース、BlueTooth、ZigBee、高解像度マルチメディア・インターフェース(HDMI)、高帯域デジタルコンテンツプロテクション(HDCP)、無線フィデリティ(Wi−Fi)等の無線インターフェース接続を採用することにより、通信プロトコル(有線または無線の)を実装することができる。あるいは、モバイル通信用グローバルシステム(GSM)、全地球測位システム(GPS)、デジタルモバイルマルチメディア(DMB)、符号分割多重アクセス(CDMA))、高速ダウンリンク・アクセス(HSDPA)、Wi−Bro無線ブロードバンド等の移動通信システム経由で画像を画像マッチングユニット140へ送信することができる。
画像マッチングユニット140は、画像(例えば、クエリー画像)を受信して、受信した画像が画像の識別またはマッチング用の記述子を含んでいるか否かを判定することができる。画像マッチングユニット140が記述子の検出に失敗した場合、画像マッチングユニット140は次いで、クエリー画像に記述子生成アルゴリズムを適用することによりクエリー画像用に記述子を取得する処理を開始することができる。画像マッチングユニット140は、クエリー画像の記述子をDB160に保存されている候補画像の記述子と比較して少なくとも1個のマッチング画像を選択する。マッチング画像は、例えばユーザの参照用にディスプレイ180へ配信される。
図2に、画像マッチングユニット140の一実施形態を示す。いくつかの実施形態において、画像マッチングユニット140は、記述子生成ユニット280および類似度比較ユニット260を含んでいてよい。図2に示すように、記述子生成ユニット280は距離変換ユニット(DTユニット)220およびアンギュラー・ラディアル・トランスフォームユニット(ARTユニット)240を含んでいてよい。画像マッチングユニット140は、画像入力ユニット120から、クエリー画像210を受信し、クエリー画像210をDB160に保存されている候補画像とマッチングさせる処理を実行する。例えば、画像マッチングユニット140は、クエリー画像210の記述子を候補画像の記述子と比較することにより、クエリー画像210を候補画像とマッチングさせることができる。画像マッチングユニット140は、マッチング画像270をディスプレイ180へ配信する。
特定の実施形態において、記述子生成ユニット280がクエリー画像210を受信した際に、記述子生成ユニット280内のDTユニット220がクエリー画像210を中間画像に変換して、中間画像をARTユニット240へ配信する。例えば、DTユニット220は、入力クエリー画像を、入力画像の形状に対応する形状を有する2値画像に変更して、該2値画像を、2値画像との境界に対する相対的な画素の位置に応じた種々の画素値を有する中間画像に変換することができる。ARTユニット240は中間画像に対しART記述子生成アルゴリズムを実行することにより、データベースに格納される画像との最終的な比較およびマッチングのために、入力クエリー画像210の記述子を生成することができる。ARTユニット240は、追加的な特徴またはパラメータとして中間画像の多様な画素値を用いて、原入力画像(すなわちクエリー画像210)の記述子を生成することができる。ARTユニット240は、記述子およびクエリー画像210を類似度比較ユニット260へ配信する。類似度比較ユニット260は次いで、クエリー画像210の記述子をDB160に保存されている画像の記述子と比較することにより、クエリー画像210に最も良く類似している候補画像をDB160から検索して取得することができる。候補画像の記述子は、候補画像と共に事前にDB160に保存されていてよい。あるいは、画像マッチングユニット140は、候補画像の1個を無作為に、あるいはDB160に保存されている候補画像に付与されたシーケンス番号を用いて選択することができる。画像マッチングユニット140は、クエリー画像210の記述子の生成に用いたのと同一の処理を適用して候補画像の記述子を生成する。画像マッチングユニット140はこのような方法で、クエリー画像が候補画像と比較される時点で(またはほぼ同じ時点で)、候補画像の記述子を取得することができる。いずれの場合も、類似度比較ユニット260は、クエリー画像210と候補画像の記述子を比較したならば、クエリー画像210に最も良くマッチするかまたは類似している候補画像を取得することができる。
類似度比較ユニット260が、クエリー画像210の画像記述子と、DB160に保存されている画像記述子の全てのまたはいくつかを比較した後で、類似度比較ユニット260はクエリー画像210に最も良く類似している少なくとも1個の画像(すなわちマッチング画像270)をDB160から取得し、取得した画像または画像群をディスプレイ180に出力する。一例として、類似度比較ユニット260は、入力クエリー画像210の記述子と候補画像の記述子との距離を判定して、距離が最短であるマッチング画像270を決定することができる。類似度比較ユニット260は入力クエリー画像210を、入力画像210を記載する記述子と共にDB160に格納することができる。類似度比較ユニット260は、マッチング画像をディスプレイ180へ配信する。
いくつかの実施形態において、記述子生成ユニット280は最初に、直接接続または通信プロトコルを含む各種の方法により、画像入力ユニット120からクエリー画像210を受信することができる。記述子生成ユニット280内のDTユニット220は次いで、クエリー画像210を中間画像に変換して、原クエリー画像210に対し、その1個以上の境界または等高線から直接抽出されたものに加えて、より多くのパラメータまたは特徴を提供することができる。例えば、記述子生成ユニット280は、クエリー画像210を2値画像に変換する。DTユニット210は、2値画像をグレースケールの中間画像に変換することができる。換言すれば、DTユニット210は、2値画像の等高線からの距離に応じて段階的に変化する境界を有するように、原クエリー画像210を変換する。DTユニット220は入力クエリー画像210を、画素の位置に応じて(または外部境界または等高線からの画素の距離に基づいて)グレー画素値(純白から純黒まで)を有する中間画像に変換することができる。DTユニット220はこのような方法で、クエリー画像210のパラメータや特徴に追加的なパラメータまたは特徴を提供して、例えばグレースケール画像のような中間画像を生成することができる。説明の便宜上、中間画像をグレースケール画像として記述しているが、中間画像は、クエリー画像210に特徴が追加された任意の変換済み画像、例えば段階的に変化する境界を有する画像、カラー付加画像、および輝度付加画像等を含んでいてよく、そのような特徴(例えば、グレースケール、色、輝度等)が画像内の画素の位置に応じて変化するものであればよい。例えば、画像の境界からの距離に応じて様々な色の陰影、明度、または強度を各々の画素値に割り当てることができる。
一旦中間画像が上記の通りに生成されたならば、ARTユニット240へ配信され、そこで中間画像に対してアルゴリズムを実行することにより、中間画像のART記述子が生成される。そのようなART記述子を、クエリー画像210を記述するGART(グレーレベル偏角動径変換)記述子と呼ぶ場合がある。GART記述子および原クエリー画像210は類似度比較ユニット260へ転送される。類似度比較ユニット260は、クエリー画像210のGART記述子をDB160に保存されている候補画像の記述子と比較する。類似度比較ユニット260は従って、DB160に保存されていて、クエリー画像210に最も良くマッチする(または最も近い)1個以上の候補画像を決定することができる。例えば、類似度比較ユニット260は、クエリー画像210の記述子と候補画像の記述子との距離を判定して差異の距離が最も短いマッチング画像270を決定することができる。類似度比較ユニット260は、直接接続またはコントローラ110によりプログラムまたは構成されたような通信プロトコルを含む各種の方法により、マッチング画像270(すなわち、クエリー画像210に最も良く類似しているかまたは比較的近いと判定された1個以上の候補画像)をディスプレイ180へ配信する。
ディスプレイ180が画像マッチングユニット140とは別個の遠隔装置に設置されている特定の実施形態において、マッチング画像またはいくつかの最適候補画像は、有線または無線通信プロトコルを介してディスプレイ180へ送信することができる。別の実施形態において、画像入力ユニット120およびディスプレイ180は、携帯電話、PDA、無線端末等、通信機能を有する単一の装置に実装されていてよい。
図3を参照して、DTユニット220が用いる距離変換(DT)の概念またはアプリケーションを示す。図3は、入力クエリー画像210の2値画像(左側)、およびDTアプリケーション実行後の中間画像(右側)を示す。図3に示すように、クエリー画像210は、クエリー画像210内の形状の境界画素が画素値「0」により示され、他の画素は画素値「1」で示される、2値形式で表すことができる。特定の実施形態において、DTユニット220は、2値クエリー画像210内の各画素が2値画像の境界と当該画素の距離に対応する値を有するように、クエリー画像210の2値形式をグレーレベル画像(すなわち中間画像)に変換することができる。DTユニット220は、図3の右側に示すようなグレースケール画像を出力することができる。グレースケール画像の画素値は、形状の中央に最も近く位置する画素が最大の画素値(この場合は「3」)を有するように、画像内の形状の境界からの距離に対応する。このように、原2値クエリー画像を、境界からの距離に応じて画素値が変更されたグレースケール画像に変換することができる。
図4に、距離変換(DT)を適用して2値画像を中間画像(例えば、グレースケール画像)に変換する様子を描いた別の例を示す。左側に示す2値画像において、画像の境界に沿った画素が第1の画素値「A」を有し、残りの画素は第2の画素値「B」を有する。DTユニット220は、境界と対応画素の各位置の距離に応じて、各々の画素値を変換することができるため、DTの後の中間画像(右側)において、境界に直接隣接する画素は第1の画素値「A」を有し、境界に直接隣接しない残りの画素は他の様々な画素値を有する。例えば、2値画像は画素の位置に応じて変化する画素値を有するように中間画像に変換されることにより、DT適用画像の画素のうち境界に斜めに隣接する(頂点だけが境界に隣接する)画素が第2の値「B」、値「A」を有する画素に直接隣接する画素位置において第3の画素値「C」、および値「C」を有する画素に直接隣接する画素位置において第4の画素値「D」を有するようにできる。DT適用画像(中間画像)はこのように、「A」〜「D」の範囲にある追加的な画素値を有することができ、これら様々な画素値は、画像の幾何学的成分、例えば画素のアンギュラーおよびラディアル成分の解像度を高めて、画像をより正確に記述するように、画素の位置を示すことができる。
図5を参照するに、DTを適用した結果を本開示の一実施形態に従い示す。図5に、2値クエリー画像の各々の形状に対してDTを適用する前(左側)および後(右側)の形状を有する画像を示す。図5に示すように、DT適用画像(右側に示す中間画像)は、画像内の形状の境界の滑らかな階調を有しており、クエリー画像に追加的な幾何学的成分を与えることができる。中間画像はこのように、クエリー画像その他各種のものより広範な画素値を有していてよい。そのように広範な画素値は、クエリー画像をより正確に記述するための追加的なパラメータまたは属性を与えることができる。従って、DT適用画像は、各画素値においてパラメータまたは属性に追加的なレベルを有することができ、それにより、DT適用画像から得られたART記述子が、原画像をより正確に記述することができる。いくつかの実施形態において、左側の画像の形状が白黒で表現されており、画像の画素から抽出可能な情報によって、白と黒の間の色変化に基づいて、形状の境界がどこに存在するかを示すことができる。図5の右側のDT適用画像から、画像の境界に階調付けする(the boundaries of the image are graded)ことにより、等高線、中間軸、骨格等、画像に関する追加的な情報が与えられる。例えば、画素の位置がクエリー画像の境界から遠いほどDT適用画像はより大きい画素値を有するため、値が最も大きい画素は画像の中間軸に一致することができる。記述子生成ユニット280はこのように、画像をより正確に特徴付けることができるため、画像検索システム100は、より正確な記述子を用いて、より正確に画像を取得することができる。
特定の実施形態において、ARTユニット240は、DT適用画像のART記述子を生成するアルゴリズムを実行することにより、クエリー画像210のGART記述子を取得する。例えば、ARTユニット240は、極座標(ρ、θ)を用いてグレースケール画像をf(ρ、θ)で表すことができる。ART基底関数Vnm(ρ、θ)を用いることにより、次式で定義される極座標系においてグレースケール画像の特徴係数Fnmを表すことができる。

ここに、ART基底関数Vnm(ρ、θ)は以下により計算できる。
nm(ρ、θ)=A(θ)R(ρ)
また、ART基底関数Vnm(ρ、θ)の各要素は次式により計算または定義される。

ここに、nは角度成分の1レベルを示し、mは径成分の1レベルを示す。
例えば、n=0,1,2、且つm=0,1,...,11の場合、図6に示すように合計36個の基底関数を生成することができる。基底関数を用いて、mおよびn(n=0,1,2;m=0,1,...,11)に対して上記の方程式(1)で得られた特徴係数の振幅aが集計されて、以下のようにj番目の画像のGART記述子を形成する。

ここに、jはj番目の画像を示す記述子インデックスである。ART演算を記述するために36個の基底関数を用いているが、特定の数に限定されることなく異なる個数の基底関数を用いてもよいことは当業者には明らかであろう。
再び図2を参照するに、ARTユニット240は、クエリー画像210のGART記述子を類似度比較ユニット260へ配信する。特定の実施形態において、類似度比較ユニット260は、クエリー画像と候補画像の「距離」を測定することにより、クエリー画像を候補画像と比較することができる。距離を測定するために、類似度比較ユニット260は画像のGART記述子を用いて実際に距離を計算する。例えば、クエリー画像と1個の候補画像の、各々ベクトル形式

および

で表すことができる2個のGART記述子について、次式で与えるように、同じインデックス(m,n))を有する係数同士の差の合計を用いて距離を計算することができる。

類似度比較ユニット260は、クエリー画像からの距離(例えば、距離ベクトルの長さ)が最も短い候補画像をマッチング画像として選択してよい。あるいは、類似度比較ユニット260は、閾値距離より短い距離を有する候補画像を選択して、選択された画像の全てまたは一部をマッチング画像として決定することができる。類似度比較ユニット260は、どのマッチング画画像もユーザが見ることができるようにディスプレイ270へ送信することができる。
図7および図1を参照して、本開示の一実施形態に従い画像のGART記述子を生成する方法を示す。ステップ710において、ユーザは最初に、画像入力ユニット120を用いて画像検索システム100に画像を入力することができる。ユーザは、キーパッド、キーボード、マウス等、各種の入力ユニットを用いて画像検索システム100に所望の画像を入力することができる。オプションとして、ユーザは所望の画像をリモート・システムへ送信して、リモート・システムのデータベースに格納されている1個以上の画像を取得することができる。そのような場合、所望の画像を携帯電話、PDA等の携帯機器に入力し、次いで無線または有線の通信プロトコルを用いて画像検索システム200へ送信することができる。
画像入力ユニット120は、クエリー画像210を画像マッチングユニット140へ送信することができる。ステップ720において、DTユニット220(画像マッチングユニット140内に実装されていてよい)は、クエリー画像210に対して距離変換(DT)を実行して中間画像を作成することができる。例えば、クエリー画像が2値画像である場合、DTユニット210は2値画像をグレースケール画像に変換することができる。DTユニット220は、ハードウェア実装、ソフトウェア実装またはこれらの組合せを用いて、DTを実行する任意の適当な方法を採用することができる。ステップ730において、ARTユニット240はDT適用画像を受信して、DT適用画像(例えば、グレースケール画像)に対して、ART記述子生成アルゴリズムを実行する。
ステップ740において、ARTユニット240は、DT適用画像のART記述子を取得することにより、クエリー画像のGART記述子を取得することができる。特定の実施形態において、ARTユニット240は極座標系を用いてDT適用画像を表すことができる。ARTユニット240は、DT適用画像の極座標表現に対して数値的演算を実行することができる。例えば、ARTユニット240は、DT適用画像の極座標表現に基底関数の1個を乗算して、乗算された関数を取得し、次いで乗算された関数を積分して、上記の方程式(1)で与えるように、GART係数の1個を計算することができる。異なる基底関数の各々についてそのような演算を実行して、1個以上のGART係数を取得する。演算750において、ARTユニット240は、係数に基づいてクエリー画像210の記述子を決定する。換言すれば、ARTユニット240は、上記の方程式(2)で与えるように、GART係数を集めて、クエリー画像210のGART記述子のベクトル形式を得ることができる。
図8を参照して、本開示の一実施形態に従いGART記述子を用いて画像を取得する方法を示す。最初に、ステップ810において、ユーザは画像検索システム100の画像入力ユニット120にクエリー画像210を入力することができる。画像入力ユニット120は、例えば直接接続または通信プロトコルを含む各種の手段を介して画像マッチングユニット140へ、クエリー画像を送信する。ステップ820において、画像マッチングユニット140内の記述子生成ユニット280が、クエリー画像210の記述子を決定する。DTユニット220は、クエリー画像210のDT変換を実行して中間画像を生成する。例えば、クエリー画像が2値画像である場合、DTユニット210は2値画像をグレースケール画像(例えば、図5に示すように)に変換することができる。ARTユニット240は、グレースケール画像に対してART記述子生成アルゴリズムを実行して、クエリー画像210のGART記述子を生成する。
ステップ830において、類似度比較ユニット260は次いで、クエリー画像210のGART記述子を、DB160に格納されている候補画像の記述子と比較することができる。そのような動作は、クエリー画像210のGART記述子と候補画像のGART記述子との距離を測定することにより実現することができる。例えば、類似度比較ユニット260は、この距離を測定するために、上記の方程式(3)で表されているように、2個のGART記述子のベクトル表現間のユークリッド距離を計算する。この処理は、類似度比較ユニット260が候補画像の中で最も近いマッチング(すなわち十分に距離が短い画像)を見つけるまで続けることができる。ステップ840において、ユーザは次いで動作830で得られた結果に基づいて最も近いマッチング画像270を取得することができる。この画像は画像検索システム100のディスプレイ180へ配信され、これによりユーザは画像270を視覚的に識別して、更なる次のアクションを行なうことができる。
特定の実施形態において、ディスプレイ180は携帯機器(例えば、携帯電話またはPDA)に実装されていてよい。そのような実施形態では、画像マッチングユニット140は、BlueTooth、ZigBee、GSM、CDMA等の通信プロトコルを介して、マッチング画像270をパソコン、ラップトップ・コンピュータまたは携帯電話等の携帯機器へ送信することができる。GART記述子のデータベース検索性能を評価すべく、現在MPEG−7で採用されているデータベースを用いて、データベース検索テストが行なわれた。使用されたデータベースは、8個の上位カテゴリおよび102個の下位または「末端」カテゴリを含む4層の階層構造に分類された1,300個の画像を含んでいる。性能評価尺度としてMPEG−7で採用されている的中率(Bull's Eye Performance)(BEP)が適用された。BEPスコアが高いほど性能がより優れていることを意味する。
図9は、26個の画像について、一実施形態におけるGART記述子と従来のART記述子との検索性能を比較している。図8から明らかなように、BEPにより測定されたGART記述子の性能が、従来のART記述子よりも(この特定の例では類似度が約3%)優れている。
本開示を通じて、本明細書に記載されているシステム、装置、および方法が、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、またはこれらを組合せて実装可能であって、システム、サブシステム、構成要素、またはこれらの下位要素において利用できることが当業者には理解されよう。例えば、ソフトウェアで実装された方法には、本方法の動作を実行するコンピュータコードが含まれていてよい。このコンピュータコードは、プロセッサ可読媒体またはコンピュータプログラム製品等の機械可読の媒体に保存されていても、あるいは搬送波に乗せられたコンピュータ・データ信号またはキャリアにより変調された信号として伝送媒体または通信リンクを介して送信されてもよい。機械可読媒体またはプロセッサ可読媒体は、機械(例えば、プロセッサ、コンピュータ等)により、読み込み可能且つ実行可能な形式で情報を格納または転送可能な任意の媒体を含んでいてよい。
本開示は、その基本的特徴または必須特徴から逸脱することなく、他の特定の形式で実施されていてよい。従って、図示された実施形態は、あらゆる点においてあくまでも例示目的のものであって、限定的なものではないと理解されたい。本開示の範囲は従って、上記の説明ではなく添付された特許請求の範囲により規定される。特許請求の範囲の意味および同等な範囲内でのあらゆる変更がこれらの範囲に含まれる。

Claims (34)

  1. 入力として画像を受信すべく構成されている画像入力ユニットと、
    前記画像を中間画像に変換して前記画像の記述子を生成すべく構成されている記述子決定ユニットと、
    前記画像の記述子を1個以上の候補画像の記述子と比較することにより、前記画像を前記1個以上の候補画像と比較すべく構成されている画像比較ユニットと、
    前記画像に類似している前記1個以上の候補画像の少なくとも1個を、それらの記述子の比較に基づいて取得すべく構成されている検索ユニットと、を含む画像検索システム。
  2. 前記記述子決定ユニットが、第1の変換ユニットおよび第2の変換ユニットを含んでいる、請求項1に記載の画像検索システム。
  3. 前記入力画像に類似している前記1個以上の候補画像の少なくとも1個を表示すべく構成されているディスプレイをさらに含んでいる、請求項1に記載の画像検索システム。
  4. 前記複数の候補画像を格納するデータベースをさらに含んでいる、請求項1に記載の画像検索システム。
  5. 前記画像比較ユニットが、前記画像の記述子と前記候補画像の記述子との距離を測定して前記画像を前記複数の候補画像と比較すべく構成されている、請求項1に記載の画像検索システム。
  6. 前記検索ユニットが、前記画像との距離が最短である前記1個以上の候補画像の少なくとも1個を取得すべく構成されている、請求項5に記載の画像検索システム。
  7. 前記第1の変換ユニットが前記画像に対して距離変換(DT)を実行する、請求項2に記載の画像検索システム。
  8. 前記第1の変換ユニットが前記画像の追加的な特徴を生成すべく構成されている、請求項7に記載の画像検索システム。
  9. 前記画像の追加的な特徴が、前記画像の等高線、中間軸、および形状の骨格のうち少なくとも1個を含んでいる、請求項8に記載の画像検索システム。
  10. 前記第2の変換ユニットが、前記第1の変換ユニットにより処理された前記画像に対してアンギュラー・ラディアル・トランスフォーム(ART)を実行すべく構成されている、請求項2に記載の画像検索システム。
  11. 画像に関連付けられた記述子を生成する装置であって、
    画像を入力すべく構成されている入力ユニットと、
    前記画像を中間画像に変換すべく構成されている第1の変換ユニットと、
    前記中間画像に作用して前記画像の記述子を生成すべく構成されている第2の変換ユニットと、を含む装置。
  12. 前記中間画像がグレースケール画像である、請求項11に記載の装置。
  13. 前記第1の変換ユニットが前記画像に対して距離変換(DT)を実行すべく構成されている、請求項11に記載の装置。
  14. 前記第1の変換ユニットが前記画像の追加的な特徴を生成すべく構成されている、請求項13に記載の装置。
  15. 前記画像の追加的な特徴が、前記画像の等高線、中間軸、および形状の骨格のうち少なくとも1個を含んでいる、請求項14に記載の装置。
  16. 前記第2の変換ユニットが、前記第1の変換ユニットにより処理された画像に対してアンギュラー・ラディアル・トランスフォーム(ART)を実行すべく構成されている、請求項11に記載の装置。
  17. 前記第2の変換ユニットが、前記中間画像の特徴を表す1個以上の係数に前記中間画像を変換すべく構成されている、請求項11に記載の装置。
  18. 前記第2の変換ユニットが、前記1個以上の係数を集めて前記画像の記述子を生成すべく構成されている、請求項17に記載の装置。
  19. 前記装置が携帯機器である、請求項11に記載の装置。
  20. 画像を中間画像に変換すべく構成されている変換ユニットと、
    前記中間画像から前記画像の記述子を生成すべく構成されている記述子生成ユニットと、
    前記画像の記述子を1個以上の候補画像の記述子と比較すべく構成されているマッチングユニットと、を含む画像マッチング装置。
  21. 前記1個以上の候補画像を格納すべく構成されている記憶装置をさらに含んでいる、請求項20に記載の画像マッチング装置。
  22. 前記マッチングユニットが、前記画像の記述子と前記1個以上の候補画像の記述子との距離を測定すべくさらに構成されている、請求項20に記載の画像マッチング装置。
  23. 前記変換ユニットが前記画像に対して距離変換(DT)を実行して中間画像を生成すべく構成されている、請求項20に記載の装置。
  24. 前記記述子生成ユニットが、前記変換ユニットにより処理された画像に対してアンギュラー・ラディアル・トランスフォーム(ART)を実行すべく構成されている、請求項20に記載の装置。
  25. 画像の記述子を生成する方法であって、
    入力として画像を受信するステップと、
    前記画像を中間画像に変換するステップと、
    前記中間画像に基づいて前記画像の記述子を生成するステップと、を含む方法。
  26. 前記画像を変換するステップが、前記画像に対して距離変換(DT)を実行するステップを含んでいる、請求項25に記載の方法。
  27. 前記記述子を生成するステップが、アンギュラー・ラディアル・トランスフォーム(ART)を実行するステップを含んでいる、請求項25に記載の方法。
  28. 画像を中間画像に変換するステップと、
    前記中間画像の特徴に基づいて前記画像の記述子を生成するステップと、
    前記画像の記述子を候補画像の記述子と比較することにより、前記画像を1個以上の前記候補画像と比較するステップと、
    前記記述子の比較に基づいて、前記画像に類似している前記1個以上の候補画像の少なくとも1個を取得するステップと、を含む、画像検索方法。
  29. 前記画像を比較するステップが、前記画像の記述子と前記候補画像の記述子との距離を測定して前記画像を前記複数の候補画像と比較するステップを含んでいる、請求項28に記載の画像検索システム。
  30. 1個以上の候補画像を取得するステップが、前記画像との距離が最短である前記候補画像の少なくとも1個を取得するステップを含んでいる、請求項29に記載の画像検索システム。
  31. コンピュータにより実行されたときに、画像の記述子を生成する方法を前記コンピュータに実行させる命令を格納しているコンピュータ可読媒体であって、前記方法が、
    画像を中間画像に変換するステップと、
    前記中間画像に基づいて前記画像の記述子を生成するステップと、を含んでいる、コンピュータ可読媒体。
  32. コンピュータにより実行されたときに、画像を取得する方法を前記コンピュータに実行させる命令を格納しているコンピュータ可読媒体であって、前記方法が、
    画像を中間画像に変換するステップと、
    前記中間画像の特徴に基づいて前記画像の記述子を生成するステップと、
    前記画像の記述子を候補画像の記述子と比較することにより、前記画像を複数の前記候補画像と比較するステップと、
    前記記述子の比較に基づいて前記画像に類似している1個以上の候補画像を取得するステップと、を含んでいる、コンピュータ可読媒体。
  33. コンピュータにより実行されたときに、画像の記述子を生成する方法を前記コンピュータに実行させる命令を含むコンピュータプログラムであって、前記方法が、
    入力画像を受信するステップと、
    前記画像を中間画像に変換するステップと、
    前記中間画像に基づいて前記画像の記述子を生成するステップと、を含むコンピュータプログラム。
  34. コンピュータにより実行されたときに、画像を取得する方法を前記コンピュータに実行させる命令を含むコンピュータプログラムであって、前記方法が、
    入力画像を中間画像に変換するステップと、
    前記中間画像の特徴に基づいて前記画像の記述子を生成するステップと、
    前記画像の記述子を候補画像の記述子と比較することにより、前記画像を複数の前記候補画像と比較するステップと、
    前記記述子の比較に基づいて前記画像に類似している1個以上の候補画像を取得するステップと、を含んでいる、コンピュータプログラム。
JP2010511102A 2008-05-09 2008-05-09 画像と形状記述子とのマッチング Pending JP2010531010A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2008/002618 WO2009136673A1 (en) 2008-05-09 2008-05-09 Matching images with shape descriptors

Publications (1)

Publication Number Publication Date
JP2010531010A true JP2010531010A (ja) 2010-09-16

Family

ID=41131240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010511102A Pending JP2010531010A (ja) 2008-05-09 2008-05-09 画像と形状記述子とのマッチング

Country Status (5)

Country Link
US (1) US8532438B2 (ja)
JP (1) JP2010531010A (ja)
CN (1) CN101669117A (ja)
DE (1) DE112008000017T5 (ja)
WO (1) WO2009136673A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2405391A4 (en) * 2009-03-04 2014-11-19 Univ Osaka Prefect Public Corp IMAGE RECOVERY METHOD, IMAGE RECOVERY PROGRAM, AND IMAGE RECORDING METHOD
US8953889B1 (en) * 2011-09-14 2015-02-10 Rawles Llc Object datastore in an augmented reality environment
ITTO20120602A1 (it) 2012-07-09 2014-01-10 Sisvel Technology Srl Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus.
CN108197631B (zh) * 2012-07-23 2022-06-28 苹果公司 提供图像特征描述符的方法
GB2514320B (en) * 2013-03-15 2020-01-29 3D Industries Ltd A method and system for 3D model database retrieval
CN103226584B (zh) * 2013-04-10 2016-08-10 湘潭大学 形状描述符的构建方法及基于该描述符的图像检索方法
US20150026013A1 (en) * 2013-07-22 2015-01-22 Cldi Inc. System and methods for cognitive visual product search
US20150113372A1 (en) * 2013-10-18 2015-04-23 Apple Inc. Text and shape morphing in a presentation application
CN104794223B (zh) * 2015-04-29 2018-06-01 厦门美图之家科技有限公司 一种基于图像检索的字幕匹配方法和系统
EP4242608A3 (en) * 2016-09-02 2023-12-06 X-Rite Europe GmbH Apparatus and method for effect pigment identification
US10776951B2 (en) 2017-08-10 2020-09-15 Here Global B.V. Method, apparatus, and system for an asymmetric evaluation of polygon similarity
US10521697B2 (en) * 2017-09-29 2019-12-31 Konica Minolta Laboratory U.S.A., Inc. Local connectivity feature transform of binary images containing text characters for optical character/word recognition
US11797603B2 (en) 2020-05-01 2023-10-24 Magic Leap, Inc. Image descriptor network with imposed hierarchical normalization

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002150285A (ja) * 2000-10-21 2002-05-24 Samsung Electronics Co Ltd 形状記述子抽出方法
KR20030029410A (ko) * 2001-10-08 2003-04-14 한국전자통신연구원 웹 기반 영상 데이터 검색 시스템 및 그 방법
US6754667B2 (en) * 1999-12-01 2004-06-22 Konan Technology, Inc. Content-based image retrieval system and method for retrieving image using the same

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761655A (en) * 1990-06-06 1998-06-02 Alphatronix, Inc. Image file storage and retrieval system
DE4335143A1 (de) * 1993-10-15 1995-04-20 Hell Ag Linotype Verfahren und Einrichtung zur Umsetzung von Farbwerten
EP0713186B1 (en) * 1994-11-15 2006-07-05 Canon Kabushiki Kaisha Method and apparatus for retrieving images from a database
US5793371A (en) * 1995-08-04 1998-08-11 Sun Microsystems, Inc. Method and apparatus for geometric compression of three-dimensional graphics data
US5748904A (en) * 1996-09-13 1998-05-05 Silicon Integrated Systems Corp. Method and system for segment encoded graphic data compression
US5926647A (en) * 1996-10-11 1999-07-20 Divicom Inc. Processing system with dynamic alteration of a color look-up table
KR20010012261A (ko) 1997-05-05 2001-02-15 더 트러스티스 오브 컬럼비아 유니버시티 인 더 시티 오브 뉴욕 객체 지향형 콘텐트에 기초한 비디오 탐색용 알고리즘 및시스템
US6253201B1 (en) * 1998-06-23 2001-06-26 Philips Electronics North America Corporation Scalable solution for image retrieval
DE19831413C2 (de) 1998-07-14 2002-03-07 Daimler Chrysler Ag Bildverarbeitungsverfahren und Vorrichtungen zur Erkennung von Objekten im Verkehr
KR100671098B1 (ko) 1999-02-01 2007-01-17 주식회사 팬택앤큐리텔 모양정보를 이용한 멀티미디어 데이터의 검색 방법 및 장치
GB2391676B (en) 1999-07-05 2004-05-05 Mitsubishi Electric Inf Tech Method and apparatus for representing and searching for an object in an image
KR100308456B1 (ko) * 1999-07-09 2001-11-02 오길록 주파수 공간상에서의 질감표현방법 및 질감기반 검색방법
US7128270B2 (en) * 1999-09-17 2006-10-31 Silverbrook Research Pty Ltd Scanning device for coded data
JP2002007432A (ja) * 2000-06-23 2002-01-11 Ntt Docomo Inc 情報検索システム
KR20020031015A (ko) * 2000-10-21 2002-04-26 오길록 에지 히스토그램 빈의 비선형 양자화 및 유사도 계산
KR100810002B1 (ko) 2001-04-11 2008-03-07 김회율 모양 기술자 계산을 위한 정규화 방법 및 그를 이용한영상 검색 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754667B2 (en) * 1999-12-01 2004-06-22 Konan Technology, Inc. Content-based image retrieval system and method for retrieving image using the same
JP2002150285A (ja) * 2000-10-21 2002-05-24 Samsung Electronics Co Ltd 形状記述子抽出方法
KR20030029410A (ko) * 2001-10-08 2003-04-14 한국전자통신연구원 웹 기반 영상 데이터 검색 시스템 및 그 방법

Also Published As

Publication number Publication date
US8532438B2 (en) 2013-09-10
WO2009136673A1 (en) 2009-11-12
DE112008000017T5 (de) 2009-11-05
CN101669117A (zh) 2010-03-10
US20110103691A1 (en) 2011-05-05

Similar Documents

Publication Publication Date Title
JP2010531010A (ja) 画像と形状記述子とのマッチング
JP6741719B2 (ja) 画像ベース検索
US9741137B2 (en) Image-based color palette generation
US7925650B2 (en) Image management methods, image management systems, and articles of manufacture
US8229928B2 (en) 3D object descriptors
US11922661B2 (en) Augmented reality experiences of color palettes in a messaging system
CN106096542B (zh) 基于距离预测信息的图像视频场景识别方法
JP2015007992A (ja) データ取得及び識別のためのシステム及び方法
AU2018202767B2 (en) Data structure and algorithm for tag less search and svg retrieval
US11915305B2 (en) Identification of physical products for augmented reality experiences in a messaging system
WO2009147840A1 (ja) 画像検索装置および同画像検索装置に適用される画像検索用コンピュータプログラム
US11822595B2 (en) Incremental agglomerative clustering of digital images
US20210312678A1 (en) Generating augmented reality experiences with physical products using profile information
CN111429338B (zh) 用于处理视频的方法、装置、设备和计算机可读存储介质
CN111062426A (zh) 一种建立训练集的方法、装置、电子设备以及介质
EP4128026A1 (en) Identification of physical products for augmented reality experiences in a messaging system
JP6173754B2 (ja) 画像検索システム、画像検索装置および画像検索方法
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
WO2021104274A1 (zh) 图文联合表征的搜索方法、系统、服务器和存储介质
WO2017006648A1 (ja) 画像判別装置、画像判別方法、及びコンピュータ読み取り可能な記録媒体
EP3115927A1 (en) Method and apparatus for processing a scene
US20240161179A1 (en) Identification of physical products for augmented reality experiences in a messaging system
CN111062419B (zh) 一种深度学习数据集的压缩和恢复方法
US20240037449A1 (en) Teaching device, teaching method, and computer program product
CN114821807A (zh) 手语识别方法、装置和服务器

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120426