JP2014029732A

JP2014029732A - 画像の検索および読み出しに関する基準を用いて画像内容の描写を生成する方法

Info

Publication number: JP2014029732A
Application number: JP2013233580A
Authority: JP
Inventors: Winter Alexandre; ウィンターアレキサンダー; Chahab Nastar; ナスターシャーブ; Sebastien Gilles; ジルセバスチャン; Jahard Frederic; ジャラフドリッキ
Original assignee: LTU Technologies SAS
Current assignee: LTU Technologies SAS
Priority date: 2008-04-29
Filing date: 2013-11-11
Publication date: 2014-02-13
Also published as: EP2272014A2; US20090282025A1; WO2009134867A3; WO2009134867A2; JP2011528453A

Abstract

【課題】画像の検索および読み出しの基準を用いた画像内容の描写を生成するための方法を提供する。
【解決手段】画像の視覚的特徴の描写を生成するための方法が提供される。当該方法は検索基準の取得を含む。当該基準は検索されるべき画像、すなわち参照画像および予期される結果のセット並びに読み出し測定基準を含む。当該方法は各々の画像内のオブジェクトを特定し、読み出し測定基準に従って記述子の一覧から選択された記述子を用いて各々の画像の視覚的特性の描写を選択的に生成する。当該方法は参照画像の描写と検索対象画像の描写とを比較し検索結果を決定する。当該検索結果は予期される結果と比較される。当該結果が適合しない場合、生成、比較および決定のステップが検索結果および読み出し基準に基づき再選択される記述子によって再実行される。当該再実行は許容可能な検索結果が取得されるまで試行錯誤のアプローチにおいて繰り返される。結果が獲得されると、当該方法は描写の生成のプロセスをコード化する。
【選択図】図１

Description

本発明は、広くは、画像分析のシステムおよび方法に関し、より狭くは、画像検索および読み出しに関する基準を用いて画像内容（以下、内容DNAという）の描写を行う技術に関する。

情報処理の分野において、視覚情報の利用可能性は指数関数的に増大してきた。この増大は、例えば、画像データを取得、入力、蓄積するデジタル式のスキャナー、カメラおよびビデオといった装置が広範に使用されるようになったことに起因する。また、例えば、視覚情報を広く配信することを可能にするインターネット等の通信ネットワークが利用可能となったこともその要因である。さらに、視覚情報の使用および配信の増大は、公的分野および民間分野におけるだけではなく、政府および法執行のシステムにおいても見られる。例えば、個々人は、しばしば電子メールのメッセージにより、または視覚情報を蓄積するデータ保存場所に対するアクセスが提供されることにより、家族や友達との間でデジタル写真等の視覚情報を共有する。会社、公的および民間の図書館および博物館は、しばしば、著作権によって保護されている知的所有権およびその要素を文書としてその中に含む視覚情報を収集する。そして、これらの収集物は、一般的には公衆に対して、もしくは視覚情報を見ることを公的に認可された人々に与えられるパスワードによるアクセスによって、利用可能となる。政府および法執行のシステムは、典型的には特定の法執行のための捜査活動や定期的な検索（例えば、未成年者にとって好ましくないポルノ画像の特定）、より一般的には安全性に関する視覚情報の検索を定期的に行うために助けとなる顔写真、指紋、および他の視覚情報を蓄積する。容易に理解されるように、この視覚情報を蓄積するためのデータの保存場所（例えば、画像のデータベース）は比較的大きくなり得るため、そのような検索を困難なものとしている。

視覚情報の利用可能性が高まっている状況において、ある人が興味を持っている基準に合致する視覚情報を膨大なデータの保存庫の中から効果的かつ効率的に検索し、その位置を特定し、読み出してくる技術が必要とされている。従来の検索技術においては、典型的には、例えば、視覚情報の内容を文章で示した記述を関連付けて、当該記述を索引の中に蓄積することが行われる。そのような索引は、例えば、「キーワード」の検索式を用いて検索され、当該検索式に含まれる単語を含む視覚情報を特定する。いったん索引の項目が見つかると、その索引の項目に関連付けられた実際の視覚情報に対するアクセスのためのリンクが供給される。一般的に言って、この種の索引の作成および検索の技術は、画像毎に文章による記述の入力が要求される。容易に理解されるように、この技術は、特に大規模なデータの保存庫に関して適当ではない。例えば、様々な画像の保存庫の中に画像データの正確な記述を準備し維持することは難しい。そのような保存庫の中で画像が常時変化する（例えば、追加、修正、削除がある）場合、視覚データの変化に応じてその記述が常時アップデートされたとしても、画像データの重要な特徴が取りこぼされたり不正確に記述されたりするかも知れず、その結果、その記述の正確性は保証されない。また、文書中で画像を取り囲んでいる文章を対象に同様のキーワードの検索式による分析を行う、という別の従来技術に関する検索プロセスがある。その場合も、上述した索引の技術と同様に、その検索のプロセスは非常に不正確になり得る。

画像データの保存庫の中から視覚情報を検索するための他の技術として、保存庫の中に蓄積されている視覚情報を参照画像と比較する技術がある。そのような技術のあるものは、一般的に画像例検索（QBPE）のアプローチと呼ばれ、参照画像の１以上の特徴を画像データ保存庫の中に蓄積されている視覚情報の特徴と比較する。参照画像と「適合」する視覚情報は、その検索を行った人に返される。そのような検索および読み出しのシステムにおいて「適合」を特定する方法としては、例えば、参照画像に対し予め決められた類似の閾値の範囲内で画像を特定する方法が含まれる、という点が理解されるべきであり、また以下にはその点が詳細に説明される。

キーワード・索引検索システムと同様に、QBPEシステムもまた、画像毎に、視覚情報の内容に応じた画像をカタログ化する仕組みを必要とする。例えば、検索と読み出しを容易にするために、各々の視覚画像の１以上の特徴が特定され、それらがカタログに登録されなければならない。システムが、画像の各々に含まれる特徴を手入力することを要求する一方で、特徴の特定とカタログへの登録を自動化するアプローチが今や利用可能となっている。その場合、複数のデジタル画像の各々が分析されて、当該画像に含まれる特徴が特定される。そして、特定された特徴の各々に応じた記述子が生成される。当該技術分野において一般的に知られているように、記述子は、例えば、色、質感、形状、空間的配置、およびそれらに類するものといった、画像の視覚的特徴の評価を示す。記述子および記述子に応じた画像へのリンク（例えば、ポインタ）は、各々の画像を検索可能とする索引項目の生成に用いられる。参照画像は処理され、その特徴および記述子が特定され、カタログに登録される。検索において、参照画像の記述子が、検索対象の索引の中にある記述子と比較されて、適合する画像に対応する索引の項目が検索結果として得られる。

本発明者たちは、従来の画像検索および読み出しのシステムにおいて、検索者が興味ある画像の特定に成功するか否かは、索引の入力の質（例えば、精度）に大きく依存する、ということに理解に至った。例えば、検索の成功は、特定される特徴およびその特徴に対応付けられる記述子の精度と、当該特徴および記述子が検索および読み出しのプロセスにおいてどのように組み合わされ利用されるか、という点に依存している。QBPEシステムにおいて、参照画像の索引および検索対象の索引の両方の精度が検索の性能に影響を与える。したがって、本発明者たちは、参照画像の特徴を含むか、もしくは含むと思われる画像を読み出すための改良されたシステムおよび方法に対する必要性が存在している、という点に気付いた。そのようなシステムおよび方法の一具体例においては、検索する画像および参照画像の全体に関し画像の視覚的な内容（例えば、内容DNA）に関するユニークな記述が生成される。また、発明者たちは、検索の性能が当該検索の様々な側面における最適化によって改良される、ということを発見した。例えば、本発明者たちは、画像情報の検索において、例えば、検索者が、予め決められた閾値内で参照画像に類似している画像（例えば、画像平面上において平行移動、回転、拡大、縮小、その他それに類する変更が加えられた複製画像）を検索しているのではなく、参照画像と一致する画像を検索している、ということが分かれば、例えば、どの記述子が比較されるべきか、また参照画像および検索対象の画像のどの特徴が比較されるべきか、という点に関し検索の改良を行うことができる、ということを発見した。その結果、検索の索引および最適化の手順（以下に説明する）において内容DNAを用いるQBPEタイプのシステムにより、より効率的で効果的な検索結果が提供される。

そこで、本発明は、画像の検索および読み出しに関する基準を用いた画像内容の描写を生成するための方法を提供することを目的とする。

本発明は、複数の画像の視覚的特徴の描写を生成ための方法に関する。当該方法は、検索を行う人によって提供される画像の検索および読み出しの基準を取得するステップを含む。検索の基準は、検索されるべき複数の画像、複数の参照画像および予期される結果のセット、および読み出し基準を含む。当該方法において、いったん基準が取得されると、検索対象の複数の画像および参照画像の各々に含まれるオブジェクトおよび特徴を特定し、各々の画像に関し特定したオブジェクトおよび特徴に基づき記述子の一覧の中から読み出し基準に従い選択された１以上の記述子を用いて、各々の画像の視覚的特徴の描写を選択的に生成するステップが実行される。本発明において、記述子の選択および処理を通して、画像の視覚的特徴の組み合わせの最適化が行われる点が重要である。一具体例において、視覚的特徴の描写の各々は、記述子のセットから得られる２進法のベクトルで構成される。当該描写は、以下において、各々の画像に関する内容DNAと呼ばれる。一具体例において、記述子は、以下に説明されるように、検索において１以上の特定のオブジェクトおよび特徴が重視されるように、それらに重み付け特性が関連付けられる。

本発明にかかる方法において、続いて、参照画像の中の１つの描写を、検索対象の画像の描写と比較し、検索対象の画像の中から当該参照画像に類似する画像を検索結果として決定するステップが実行される。一具体例において、検索結果は表示装置に対し提供され、検索者の検討および承認に利用される。当該方法において、続いて、検索結果が、参照画像に応じた予期していた結果と（予め決定されていたレベルもしくは範囲内の精度において）合致するか否かの判定が行われる。検索結果と予期していた結果とが合致しない場合、当該方法においては、選択的生成のステップに戻り、当該検索結果および読み出し基準に基づいて記述子の一覧の中からの記述子の再選択が行われ、選択的生成のステップ、比較のステップ、および決定のステップが再実行される。一具体例において、選択的生成のステップ、比較のステップおよび決定のステップは、許容される検索結果が得られるまで、試行錯誤のアプローチにより繰り返し実行される。検索結果と予期していた結果が合致する場合には、許容される結果が発見されたことになり、続いて描写を生成するためのプロセスのコード化が行われる。

本発明の一側面において、読み出し基準は、例えば適合画像、複写画像、視覚的類似画像および意味的類似画像の読み出しに関する指示を含む。一具体例において、読み出し基準はまた、課題検索指向のシステムおよびターゲット検索指向のシステムのいずれにおいて読み出されるべきか、という点に関する指示を含む。他の具体例において、読み出し基準は、検索者に対しどのように検索結果が表示されるべきであるか、という点に関する。そのような読み出し基準の中には、例えば、検索結果が類似性の降順で画像を提供すること、および参照画像に適合する検索結果のサブセットが提供されるように画像を提供すること、のうちの少なくともいずれかが含まれる。

一具体例において、記述子の一覧は、色、質感、形状、およびそれらの組み合わせに分類される記述子を含む。本発明による場合、当該記述子は、画像の質、ノイズ、画像の大きさ、画像の明るさ、歪み、オブジェクトの移動および変形、オブジェクトの回転およびスケールにおける変化に対する適応性を備えるように構成されている。

さらに別の具体例において、記述子の一覧の中の１以上の記述子は重み付け特性を有する。当該重み付け特性によれば、参照画像に照らした画像の類似性を判定する際に、１以上の記述子を重視することが可能となる。一具体例において、重み付け値は付与される重みの合計が１となるような相対値である。例えば、ある分析において、５つ、６つ、もしくはそれ以上の記述子が付与されていたとしても、各々の記述子の重みの合計は１になる。一具体例において、選択的生成のステップが再実行される場合、再選択される記述子の重み付け特性の調整が行われる（例えば、値が増加もしくは減少される）。

本発明の特徴および利点は、以下の発明を実施形態および図面を組み合わせて考慮することにより、よりよく理解される。

図１は、本発明の一具体例にかかる、検索者の興味ある視覚情報を特定するための画像認識・画像読み出しシステムを表している。図２は、本発明の一具体例にかかる、画像を分析して当該画像のグラフィカルな内容の描写を提供するためのステップを示す処理のフローを表している。図３は、本発明の一具体例にかかる、画像分析のための測定基準間の関係性のイメージ的な理解をグラフィカルに表している。図４は、本発明の一具体例にかかる、検索および読み出し基準に基づく画像のグラフィカルな内容の描写を生成するためのステップを示す処理のフローを表している。

これらの図面においては、同じ要素には同じ参照番号が振られているが、全ての図面およびその説明においてそれらが参照されているとは限らない。

図１および２に示されるように、本発明は、検索者にとって興味がある視覚情報を特定するために実施される画像認識・画像読み出しシステム１０を提供する。一具体例において、視覚情報は、一般的に２０という参照番号によって参照される画像データに含まれる。それは、例えば、デジタルの写真、ウェブに挿入された画像、スキャンされた文書、ビデオの画像、および上述したものを含んだ電子情報である。本発明に従って、画像認識・画像読み出しシステム１０は、検索対象の画像の全体に渡り各々の画像に対して当該画像のグラフィカルな内容の描写を生成するための複数のアルゴリズム（以下において、説明される）を実行するプロセッサ３０を有している。画像のグラフィカルな内容は、以下において内容DNA４０として参照される。以下に説明されるように、検索のための索引において内容DNA４０を採用する画像認識・画像読み出しシステム１０は、従来の画像検索システムによって得られる検索結果よりも効率的で効果的な検索結果を提供する。

プロセッサ３０が、画像データ２０を取得し処理するために、アルゴリズムを格納するコンピュータで読み取り可能な媒体もしくはメモリー３１を有し、また、例えば、インターネット、イントラネット、エクストラネット、もしくは同様の有線および／もしくは無線によりコンピュータ装置に連結されている分散型の通信プラットフォーム等のようなネットワーク２８上の通信を可能とする入出力装置を有する、ということは理解されるべきである。一具体例において、プロセッサ３０は、例えば、独立した、もしくはネットワークに繋がったパーソナルコンピュータ（PC）、ワークステーション、ラップトップ、タブレットコンピュータ、パーソナルデジタルアシスタント、ポケットPC、インターネットに接続可能なモバイル式のラジオテレフォン、ポケットベル、もしくは画像処理のための適切な処理能力を有する同様の携帯コンピュータ装置である。

図１に示されるように、プロセッサ３０は、画像認識の作業を行うためにアプリケーションステップを実行する分配可能なアルゴリズム２３のセットを有する。最初に、複数の画像（例えば、画像データ２０）が処理対象として特定される。画像２０は、検索者によって、入力または特定される検索要求のための画像、すなわち参照画像２２に加え、評価対象の画像、すなわち画像セット２４の全てを含む。以下に説明されるように、画像セット２４は、画像セット２４を対象とする検索者にとって興味がある視覚情報２６を有するか、もしくは有すると思われる画像もしくはその一部分を含んでいる。この業界において知られているように、複数の画像２０の中の各々の画像は、画素の配列として表現される。図１および２に示されるように、ブロック１１０において、複数の画像２０の中の各々の画像（画素の配列）は、前処理されて標準化される。前処理のステップは、例えば、幾何学的な画像の変形、画像の同等化および標準化、色空間の変換、画像量子化、画像からのノイズ除去、標準的な画像フィルタリング、マルチスケール変換、数学的な変形ツール、およびそれらに類するものを含む従来の画像処理ルーチン（例えば、１以上のアルゴリズム３２）のセットを実行することを含む。前処理が行われると、各々の画素配列は、「クリーン」な画素としてブロック１２０に引き渡される。ブロック１２０において、クリーンな画素は画像分割のステップにおいて処理される。一般的に知られているように、画像は、様々なオブジェクトの描写を含んでいる。分割技術により、それら画像の要素が分析され、オブジェクトの境界が特定される。分割のステップ１２０において採用される技術は、例えば、スペクトル分析、境界検出、柱状グラフ化、線形フィルターオペレーション、高次元の統計処理、およびこの業界で知られているそれらに類するものといった、色に基づいた分割および画像に基づいた分割を含む。色に基づいた方法は、特徴空間におけるクラスタを検出し、画像に基づいた方法は、均質性に関する基準値を最大化する画像領域を検出する。この業界における当業者は、従来の分割技術における限界を認識している。例えば、色に基づいた分割の技術は、画素間の空間的な関係を見落とす傾向があり、画像に基づいた分割の技術は、索引生成に用いられる特徴とは無関係な可能性のある特徴に対しても焦点を当ててしまう。

本発明の一具体例において、分割するステップ１２０において実行されるアルゴリズム３２の一つは、本発明者たちによって開発され、A.WinterおよびC.Nastarによって、1999年に行われた画像およびビデオのライブラリに対する内容に基づくアクセスに関するワークショップ（CBAIVL99）において「画像データベースにおける画像分割および領域の検索に対する差分特徴の分布マップ」というタイトルでプレゼンテーションにおいて説明された差分特徴の分布マップ（DFDM）のアルゴリズムであり、以下の記述においてその内容全体が参照内容として組み込まれる。DFDMのアルゴリズムは、ノンパラメトリックなアプローチを用いて画像を分割し、特徴分布のモデルに対する要求を緩和している。本発明の画像認識・読み出しシステム１０において採用されているように、DFDMのアルゴリズムは、局所的な特徴の分布マップにおける変化、より詳しくは、索引を作るために用いられる特徴における変化を探索する。DFDMのアルゴリズムは画像についての先立つ情報を必要としないので、DFDMによるアプローチは広範な範囲の画像を上手く処理でき、汎用的な利用において理想的である。そのようにして、分割するステップ１２０は、各々の画像を視覚的に均質な区域に区分け（すなわち分割）することによって、画像のコード化を容易化する。分割するステップにおいて取得されるものは、画像の中において特定されたオブジェクトである。当該オブジェクトは、ブロック１３０へと引き渡される。

ブロック１３０において、プロセッサ３０は、処理対象の各々の画像に関して内容DNA４０を生成する。以下にさらに詳細に説明されるように、内容DNA４０は、例えば画像の中における特定されたオブジェクトおよび全体画像の視覚的特性のような視覚的特性を各々描写する、複数の視覚に関する記述子および特徴から成る。本発明に従って、以下に説明される最適化の手順において、画像に関する内容DNAの具体例に含まれる記述子は、検索の結果を改良するようにアプリケーション毎に精密に調整される。例えば、記述子のサブセットおよび／もしくは先立って計算されたデータ（例えば、距離の計算に用いられる中間データ）は、特定の内容DNAに含まれて、例えば、計算および／もしくはメモリーの性能を改良し、システムの要求を単純化し、ロバスト性を改良するかもしれない。図１および２において示されるように、ブロック１３０の出力は、処理される画像２０の各々に対する内容DNAである。一具体例においては、ブロック１４０において、内容DNA４０は、データ記憶装置５０に加えられる。本発明の一具体例に従って、複数の画像２０（例えば、入力画像セット２４および参照画像２２）における各々の画像に対する内容DNAは、検索可能な索引５２に登録され、データ記憶装置５０に加えられる。

このように検索可能な索引５２が複数の画像２０に関して準備されたので、QBPEタイプの検索が実行可能であり、また、より望ましくは、改良された画像認識および読み出しの検索の技術が利用可能である。本発明の一側面において、内容DNAを用いて画像２０の内容を比較することにより、画像の意味特徴を比較することが可能となる。それによって、参照画像（例えば、複写画像）と合致する画像だけでなく、複製画像（例えば、画像平面の中において平行移動もしくは回転された画像、スケールアップもしくはスケールダウンされた画像、およびそれに類する処理がされた画像を含む、比較的小さな幾何学的および測光法による修正が施された画像）も特定可能となる。予め決められた閾値の範囲内において視覚的に類似する画像（例えば、意味のレベルにおいて）も同様である。

発明者たちは、視覚的に類似する画像を読み出すことは、主観的でアプリケーションおよび検索のやり方に依存した分析である、ということを理解している。この事実に対処するために、本発明においては、内容DNA４０に耐性および適応性を与える設計がなされる。それによって、今まで従来の検索および読み出しのシステムにおいては対処できなかった検索のいくつかの側面に対してカスタマイズや最適化が可能となった。

しかしながら、本発明の進歩的なカスタマイズおよび最適化が提示される前に、本発明の目的は高レベルの画像の解析を可能とするシステムを提供することである、ということが理解されるべきである。画像の解析は、例えば、１以上の画像のクラスラベル（例えば、認識や注記の付与等といったもの）に関する知識、もしくは意味的なクラスタ（例えば、画像の読み出し等といったもの）における対象画像のＫ近傍に関する知識、といった画像についての高レベルの情報の推察を行う。図３は、画像の解析のイメージを示しており、そこでは仮説的な参照画像が参照番号１８０によって一般的に示され、図示されている座標軸の原点に配置されている。そして、類似の種類の漸次的変化が３つの画像の測定基準に関して描かれている。測定基準は参照番号１９０によって一般的に示され、異なるアプリケーション、すなわちマッチング１９２、類似性１９４、および認識１９６に関し示されている。図３に示されるように、最も制限の強い画像の類似性は、複写１８２を対象にしている。そこでは、典型的には、マッチングする画像だけが、以下に説明される複写用の測定基準を用いて読み出される。制限がそれほど強くない画像の類似性は、意味的なクラスタにおいて視覚的に類似する画像１８４を対象にしており、そこでは読み出し用の測定基準が採用される。発明者たちは、与えられた画像に対して何の仮定も与えられない場合、システムは最も広い画像範囲に適用可能な方法を採用する必要がある、ということを見出した。その場合において、複写用および読み出し用の測定基準は、対象が広範囲であるがゆえに効率的ではない。それゆえ、クラスラベルが巧みに操作される認識用の測定基準が、意味的に類似する画像１８６を探知するために採用される。

高いレベルの画像の解析を行うための上述した努力に続いて、検索者および検索対象の画像に関する情報、例えば、予期される検索の結果や、検索要求のための画像のいかなる形状、色、もしくは部分がある検索においてより重要であるのかという点、もしくはそれに類する点が、当該検索がどのように実行されるのかということに影響を与える。本発明の一側面において、そのような情報が複数の画像２４の中の各々の画像に対する内容DNAを生成するプロセスの中において利用され、検索されるべき画像の領域を画定する。発明者たちは、そのような情報を内容DNA４０の中に組み込むことと、そのような検索用索引５２への索引項目の登録が、検索作業の精度および効率を大きく改良する、ということを発見した。図４は、本発明の一具体例における内容DNA４０の生成のプロセス２００を示している。

図１および４に示されるように、プロセス２００は、望ましい検索に対する基準が定義されるブロック２１０において始まる。ブロック２１０において、検索者（例えば、当該検索を始める人）は、検索されるべき画像の全てを含む画像群（例えば、画像セット２４）を供給する。当該画像セット２４は、できる限り広範に画定される。さらに、検索者は、複数の参照画像（例えば、参照画像２２）および予期される結果のセットを供給する。参照画像は、画像セット２４の中において特定されるべき関心がある視覚情報を含んでいる。一具体例において、関心がある視覚情報は、検索要求のための画像の全体の内容もしくは検索要求のための画像の一部分を含む。一具体例において、結果のセットは、検索者が検索から得られる結果であるべきと信じるものの範囲内の画像を含む。例えば、検索者は、検索者にとって興味がある視覚情報２６を有する画像を供給する。例えば、結果のセットは、課題検索指向のシステムおよび／もしくはターゲット検索指向を用いて読み出される画像を含む。課題検索指向のシステムにおいては、例えば、適合した画像の周りの関連しない画像を含む画像が読み出されるかもしれない。ターゲット検索指向のシステムにおいては、類似性が第１のランクの範囲内の画像が読み出される。それゆえ、ターゲット検索指向の検索は、関連する画像を読み出すためのみに設計される。検索者はまた、検索が読み出し指向の検索と合致指向の検索とのいずれで実行されるべきかを決定する。一般的に知られているように、読み出しの検索は、類似性の降順で検索の結果を提供する。一方、合致のシステムは、検索基準に合致する結果のサブセットを選択する。本発明において、読み出しの測定基準は、要求された検索を、課題検索指向、ターゲット検索指向、読み出し指向および合致指向の検索のうちの少なくとも１つとして特定する。

このように検索者の要求および基準が定義されると、プロセス２００はブロック２２０へと進む。そこでは、当該基準は利用可能な記述子３４の一覧と照合される。その結果として、各々の画像（もしくは画像の範囲内において分割されたオブジェクト）に関するDNA４０は、検索者によって特定される検索の要求および基準を最もよく実行可能なように生成される。例えば、上述されたように、内容DNAは各々の画像（例えば、画像セット２４および参照画像２２における各々の画像）の意味あるグラフィカルな特徴をコード化する。一具体例において、内容DNAは、画像から導出される画像の記述子（例えば、視覚に関する記述子）のセットから得られる二値ベクトルである。それらの画像の記述子（例えば、利用可能な記述子３４の一覧の中から選択されたもの）は、各々の画像の範囲内においてオブジェクトの視覚的特徴をコード化する。例えば、当該各々の画像は、以下の記述子の分類に区分される記述子を有している。すなわち、各々の画像における、色、質感、形状、特徴間の相互関係、およびそれらの組み合わせである。本発明において、画像の記述子は、例えば、上述した色、質感、および形状の分類の範囲内における特徴等といった画像の範囲内におけるオブジェクトの視覚的特徴をコード化する。当該記述子は、画像の質、ノイズ、サイズ、明るさ、コントラスト、歪み、オブジェクトの平行移動および変形、オブジェクトの回転およびスケール、における変化に対して柔軟性を持つように設計されている。その結果として、内容DNAは、関連する画像、すなわち適合する画像の発見能力を改良する。一具体例において、オブジェクトの変形は、例えば、トリミング、境界の付加、回転、サイズの変更、およびそれに類する幾何学的な変形、同等化、コントラスト、輝度、ノイズ、JPEGコード化、およびそれらに類するような測光値に関する変形、並びにキャプショニングおよびそれに類するような小さな内容の変形を含む。記述子が、例えば、GLIといった独占的所有権によって守られているアルゴリズムから導出される記述子や、公に利用可能となっているアルゴリズムであるRGBスペース、LAB、LUV、もしくはHSVスペースカラーヒストグラム、画像形状スペクトラム（ISS）および画像屈曲スペクトラム（ICS）、フーリエ変換（FFT）、ウェーブレットバンドエネルギーレベル（WAV）、カニー・デリッヒ（Canny-Deriche）境界指向ヒストグラム、並びにそれに類するものから導出される記述子を含むということは、理解されるべきである。

容易に理解できるように、特定のクラスの画像の読み出しを試みる場合、いくつかの記述子がその他のものに比較してより適切であるかもしれない。例えば、もし画像の領域が黒と白だけの画像、もしくは同じカラートーンを有する画像を含むならば、カラースペクトラムの中において異なる色および類似性を評価する必要はない。一具体例において、記述子３４の一覧は、例えば、色および／もしくは等高線に従属するもの、形状の派生物、およびそれに類するような、上述した色、質感、形状、およびそれらの組み合わせの分類の範囲内における約５０個の記述子を有している。本発明に従って、記述子３４の一覧に含まれる１以上の記述子は、重みづけ特性３６を有している。その結果として、検索要求のための画像もしくはその部分に対する画像の類似性を決定することにおいて、１以上の記述子３４が強調され、もしくは他の記述子３４よりも高い重要性および重要度が与えられることになる。

いったん「始点」が決定されると、例えば、記述子および／もしくは重みづけ値の最初のセットが記述子の一覧から選ばれ、ブロック２３０から２７０までを含む試行錯誤の手順が開始される。ブロック２３０において、選ばれた記述子３４および重みづけ３６は、検索対象の画像の全体を構成する複数の画像２４の中に含まれる画像に関する内容DNA４０を生成するために用いられる。ブロック２４０において、生成された内容DNA４０を含んだ検索の索引５２が評価される。すなわち、参照画像２２に対する内容DNA４０は、画像セット２４の中の各々の画像に対する内容DNA４０と比較される。容易に理解されるように、画像は、特定の読み出しの測定基準（例えば、マッチング画像、複写画像、視覚的に類似する画像、および／もしくは意味的に類似する画像が、読み出されるか否か）並びに、参照画像２２に対する内容DNA４０および複数の画像２４の中の画像の各々に対する内容DNA４０を構成するベクトル間において測定される距離、に基づいて読み出される。また、さらに理解されるべきことは、既存の独占的所有権によって守られている比較のアルゴリズムが採用されて、予め決められた精度のマッチングの範囲もしくは精度の閾値の範囲内において「適合」画像が特定されてもよい。例えば、「適合」は、距離関数を参照画像２２および複数の画像２４の中の画像の各々に対する内容DNA４０に対して適用することによって、また、より低い距離の閾値が互いに近い（例えば、より類似している）画像を表現するように距離の閾値を計算することによって、特定される。そのような従来の比較のアルゴリズムとしては、例えば、標準L1、へリンガー（Hellinger）、ビャタチャーヤ（Bhattacharya）、L2、インターセクション、およびそれに類するデータ比較アルゴリズムがある。

ブロック２５０において、特定の読み出しの測定基準に合致する画像が分析のために検索者へ提供される。一具体例においては、当該技術分野において一般的に知られているように、読み出される画像は、検索者によって操作される処理ユニットのディスプレイ装置７０上で、検索者に提供される。当該検索者は、検索における検索者の要求および基準が合致していることを確かめるために、読み出された画像を検討する。すなわち、読み出された情報の中に関心のある視覚情報２６が発見され、検索者が満足するか否かが確認される。ブロック２６０において、開始された検索が成功であったかどうか、検索者が判定を下す。例えば、検索者は、読み出された画像が検索の開始において指定した要求に合致するかどうかを判定する。もし、読み出された画像が検索者の要求に合致していなければ、プロセス２００は、「ノー」のパスを通ってブロック２７０へ進む。ブロック２７０において、記述子３４の一覧が再び検索者へ提供される。検索者は、その後、特定の記述子３４および／もしくは重みづけ３６を細かく調整して画像セット２４および参照画像２２に関する内容DNAの生成において用いられるべき記述子３４および重みづけ３６の次のセットを定義する。そのプロセスは、ブロック２３０に続き、そこでは記述子３４および重みづけ３６の次のセットが、検索対象の画像の全体を構成する複数の画像２４の各々に関する内容DNAの生成に用いられる。ブロック２４０においては、記述子３４および重みづけ３６の次のセットから生成される内容DNAを含んだ検索の索引５０が評価される。ブロック２６０においては、画像は、特定の測定基準並びに記述子３４および重みづけ３６の次のセットに基づいて読み出される。その場合、それらは、参照画像２２および画像セット２４の１以上の他の特徴に対してより大きな重要性を与える。その結果として、異なる画像のサブセットが画像セット２４から読み出されることになる。ブロック２５０において、引き続き検索の結果が評価される。もし、ブロック２６０において、成功といえる検索が未だ獲得できなかった場合、制御は再びブロック２７０へと進む。そこでは、記述子３４および重みづけ３６が再び細かく調整され、ブロック２３０から２７０までの試行錯誤のプロセスが続く。もし成功といえる検索が行われ、読み出された画像が検索者の予期するものに適合するならば、制御は「イエス」のパスを通ってブロック２６０からブロック２８０まで進む。

検索の「成功」は、読み出される画像の精度のみによってではなく、性能測定によってもまた定義される。例えば、成功した検索とは、許容可能な計算時間の範囲内において実行され、また許容可能な量のコンピューティング資源（例えば、メモリーおよび／もしくはプロセッサの使用のパーセンテージ）を消費する検索である。

一具体例において、試行錯誤のプロセス（例えば、ステップ２３０から２７０まで）は、各々の検索の結果を再検討し必要に応じて記述子３４および重みづけ３６を精密に調整する検索者および／もしくはプロセス２００の管理者を伴った手動のプロセスとして、実行され得る、ということは理解されるべきである。他の具体例において、試行錯誤のプロセスは、自動化されたプロセスであってもよい。その場合、記述子３４の各々に対応する重みづけ３６は、（例えば、値の増加もしくは減少において）徐々に階段的に調整され、評価されて、画像セット２４に含まれる興味のある視覚情報２６の読み出しに関する相対的な有効性が判定される。一具体例において、重みづけ値３６は、０から１までの間の範囲内に含まれる。その場合、重みづけ値３６が０であるということは、事実上、特定の検索に影響を与える要因から記述子３４を取り除くことである。

上述したように、許容可能な検索が実行されると、プロセス２００はブロック２６０からブロック２８０へと進む。ブロック２８０において、内容DNAを決定するためのプロセスは、引き続き行われる検索のためにコード化される。一具体例において、コード化のステップは、例えば、１以上の形状ファイル（例えば、コンフィグファイル６０）を生みだすことを含む。それは、プロセス２００に用いられる内容DNAに関するセッティングを定義する。例えば、記述子３４のセット、それらの重みづけ３６、特定の読み出しの測定基準（例えば、マッチング画像、複製画像、視覚的に類似する画像、および／もしくは意味的に類似する画像が読み出されるべきか否か）、組み合わせる方法（例えば、画像は課題検索指向のシステムもしくはターゲット検索指向のシステムの下で読み出されるべきか否か）、そして読み出される画像がどのようにして検索者に提供されるのか（例えば、検索指向の結果として類似性の降順で提供されるのか、もしくはマッチング指向の結果として検索条件に適合する結果のサブセットが提供されるのか）、を定義する。コード化のステップが完了すると、プロセス２００は終了する。

コンフィグ６０は、検索者が内容DNAを作り上げて検索の索引５２を拡張し、付加的な画像を画像セット２４に追加してそれを拡張することを可能にする、ということは理解されるべきである。そのような具体例において、１以上のコンフィグファイル６０が検索者の処理装置に保持され、検索の索引５２を拡張するために必要に応じて呼び出され、新しい内容DNA４０とともに利用されてもよい。また、通常のやり方で内容DNAを作り出すためのプロセス２００を再びスタートすることにより、画像の集合を変更、例えば、画像セット２４および参照画像２２に含まれる画像の変更に対してプロセス２００を順応させることも、本発明の技術的思想の範囲内であるということが理解されるべきである。

上述したように、興味のある視覚情報２６は、参照画像２２の全体もしくは参照画像２２の一部分（例えば、画像のサブパート）を含むかもしれない。一具体例において、画像のサブパートに関する類似性に明示的に焦点を当てるために、参照画像２２の任意の部分をトリミングする前処理ツールを採用し、そのようにして得られた参照画像２２の一部にのみ類似する画像を画像セット２４の中から検索することを開始するようにしてもよい。例えば、ある人は車に関して、類似のホイールを見つけたいかもしれない。そのような場合、検索者は、ホイールを含んだ参照画像２２の一部分をトリミングして、読み出しシステム１０に対する検索のリクエストとしての参照画像２２としてトリミングした後の部分を提供する。

一具体例において、「試行錯誤」のプロセス（プロセス２００のブロック２３０から２７０まで）は、リアルタイムで非明示的なカスタマイズを可能にするように活用され得る。例えば、試行錯誤のステップにおいて、検索者はシステム１０に対し、自分が探している画像の例をいくつか供給する。例えば、検索者は最初にシステム１０に対して青い正方形を供給する。その後、赤い正方形もしくは青い円の両方が、入力された検索要求に類似するものとして特定されるかも知れない。そして、それらは、システム１０による検索の結果として提供される。検索者は、その後、赤い正方形を選択することによって入力された検索要求を非明示的に再調整するとともに、システム１０に対して正方形を読み出すように指示する。それに代えて、検索者は、これもまたシステム１０によって提供される青い円（例えば、入力された検索要求の色において類似している）を選択し、システム１０に青いオブジェクトを読み出すように指示することもできる。実際、この機能は、高い精度の検索要求を実行するために利用でき、各々の「調整された検索のプロファイル」が他の検索のセッションにおいて再利用可能なように記憶されてもよい。

一具体例において、「試行錯誤」のプロセスは、「オフライン」の非明示的なカスタマイズを可能にする。例えば、検索において採用される測定基準は、特定の環境に対して最適化される。例えば、ロゴの検索、工業部品の検索、医療における画像データベースの検索、およびそれらに類するもののような特定のアプリケーションは、特定の画像に焦点を当てている。検索が妥当な検索結果を供給できるように最適化するために、システム１０は特定の環境に対してカスタマイズされ得る。その場合、検索される画像が特定のものであるかも知れないし、検索者の予期する画像が特定のものであるかも知れない。このニーズを満たすために、オフラインの測定基準の最適化のプロセスは、検索者の「基本となる正解」を入力として受け付ける。「基本となる正解」は、検索者によって類似であると宣言される画像のセットである。その後、測定基準のパラメータ（例えば、記述子３４および重みづけ３６）は、例えば、ニューラルネットワーク、バイエシアン（Bayesian）ネットワーク、および他の最適化の方法を用いて、この基本となる正解に対して最適化される。

さらに別の具体例において、読み出しシステム１０は、キーワード検索の技術と画像検索の技術とを組み合わせて、強力な画像検索のアプリケーションを提供する。例えば、システム１０は、キーワード検索および画像検索を統合したアルゴリズムを有する。この組み合わされたアルゴリズムは、画像セット２４の中から画像を検索する際に、入力されたキーワードに含まれる意味的な情報および画像DNA４０に含まれる視覚的な情報を用いる。発明者たちは、例えば画像およびキーワードの検索の技術を採用する組み合わされたアルゴリズムは、１回のみのアプローチによって認識される検索の脆弱さを改良し、検索能力を向上させる、ということを見出した。

上記においては、好適な具体例に関し説明したが、これらの開示に対する数多くの変形が当該技術分野において可能であるということが理解されるべきである。したがって、その形状や詳細部分に関する変形が本発明の技術的思想の範囲内においてなされ得るということが、当業者によって理解されるべきである。

［著作権表示］
本出願書類に開示されるものの一部は、著作権保護に関わる題材を含んでいる。著作権者は、出願書類もしくはそれによって開示されるものがいかなる人間によって複写されることにも反対していない。それは、米国特許商標庁のファイルもしくは記録に含まれるものである。しかし、さもなければいかなる場合であっても著作権者が全ての著作権を所有するものとする。

１０…システム、２０…画像データ、２２…参照画像、２４…画像のセット、２６…視覚情報、２８…ネットワーク、３０…プロセッサ、３１…メモリー、３２…アルゴリズム、３４…記述子、３６…重みづけ、４０…内容ＤＮＡ、５０…データ記憶装置、５２…索引、６０…コンフィグファイル、７０…ディスプレイ装置

Claims

処理装置が、検索されるべき複数の画像、複数の検索要求のための画像、および読み出しの測定基準を有する、検索者によって提供される入力検索基準を受け取るステップと、
前記処理装置が、前記検索されるべき複数の画像および前記検索要求のための画像の中の各々の画像の特徴の範囲内においてオブジェクトを特定するステップと、
前記処理装置が、前記読み出しの測定基準に従って記述子の一覧から選択される１以上の記述子を用いて、各々の画像における特定される前記オブジェクトおよび前記特徴から各々の前記画像の目に見える特徴の描写を、アルゴリズムのセットを実行することにより選択的に作り出すステップと、
前記処理装置が、前記検索要求のための画像のうちの一つの描写と前記検索されるべき画像の描写とを比較し、前記検索要求のための画像と類似する前記検索されるべき画像からの画像を含む検索結果を決定するステップと、
前記処理装置が、前記検索結果に含まれる画像をディスプレイに表示させるステップと、
前記処理装置が、前記表示に応じて前記検索者により行われる、前記検索結果が成功であったか否かの判定の結果を取得するステップとを備え、
前記判定の結果が成功でない場合に、前記処理装置は、前記選択的に作り出すステップに戻って、前記検索結果および前記読み出しの測定基準に基づいて前記記述子の一覧から記述子を再度選択し、前記選択的に作り出すステップ、前記比較するステップ、および前記決定するステップを再度実行し、
前記判定の結果が成功である場合に、前記処理装置は、描写を作り出すためのプロセスをコード化するステップを備える
複数の画像の目に見える特徴の描写を作り出すための方法。
前記読み出しの測定基準は、マッチング画像、複写画像、目で見て類似する画像、および意味的に類似する画像が取り戻されるか否かに関する表示を有する
請求項１に記載の方法。
前記読み出しの測定基準は、前記画像が課題検索指向のシステムにおいて、もしくはターゲット検索指向のシステムにおいて取り戻されるかどうかに関する表示を有する
請求項１に記載の方法。
前記読み出しの測定基準は、前記検索結果の類似性が減少していく順番において前記検索結果が提供されるように、および前記検索要求のための画像にマッチする前記検索結果のサブセットが提供されるように、のうちの少なくともどちらか一方において、前記検索結果が前記検索者に提供されるべきか否かを含んで、どのように前記検索結果が前記検索者に提供されるべきかに関する表示を有する
請求項１に記載の方法。
前記特定するステップにおいて、前記処理装置は、
前記複数の画像の各々を描写する画素の配列を前処理するとともに標準化して前記各々の画像に対してクリーンな画素の配列を供給し、
前記クリーンな画素の配列を分割して前記画像の要素を分析し、その中の前記オブジェクトの境界を特定する
請求項１に記載の方法。
前記分割するステップにおいて、前記処理装置は、DFDMアルゴリズムを実行して前記各々の画像を目で見て一貫した領域に分割する
請求項５に記載の方法。
前記描写の各々は、前記記述子のセットから得られる二値ベクトルを有する
請求項１に記載の方法。
前記記述子の一覧は、色、質感、形状、特徴どうしの相互関係、およびそれらの組み合わせのうちの少なくとも一つの分類の範囲内において、前記記述子を有する
請求項１に記載の方法。
前記記述子は、前記画像の質、前記画像のノイズ、前記画像のサイズ、前記画像の明るさおよびコントラスト、歪み、オブジェクトの平行移動および変形、オブジェクトの回転、並びにスケールにおける変化に対して強いように設計されている
請求項８に記載の方法
前記オブジェクトの変形は、幾何学的な変形、光度の変化、および微小な内容の変形のうちの少なくとも一つを有する
請求項９に記載の方法。
前記幾何学的な変形は、トリミング、境界の付加、回転、および規模調整を有する
請求項１０に記載の方法。
前記光度の変化は、同等化、コントラスト、輝度、ノイズ、およびJPEGコード化を有する
請求項１０に記載の方法。
前記内容の変形は、見出しを付けることを有する
請求項１０に記載の方法。
前記記述子の一覧の中の１以上の記述子は、前記検索要求のための画像に対する前記画像の類似性を決定する場合に、前記１以上の記述子を強調するための重みづけ特性を有する
請求項１に記載の方法。
前記選択的に作り出すステップを再度実行する場合に、前記処理装置は、再度選択される記述子に対する前記重みづけ特性を調整する
請求項１４に記載の方法。
前記描写を作り出すためのプロセスをコード化するステップは、前記記述子、前記記述子の重みづけ、および前記読み出しの測定基準のセットを定義するコンフィグファイルを生み出すことを有する
請求項１に記載の方法。