JP4516778B2

JP4516778B2 - データ処理システム

Info

Publication number: JP4516778B2
Application number: JP2004114025A
Authority: JP
Inventors: エロールベルナ; ジェーハルジョナサン; リーダー・シャン
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-04-11
Filing date: 2004-04-08
Publication date: 2010-08-04
Anticipated expiration: 2024-04-08
Also published as: US7236632B2; US20070269139A1; US7394938B2; JP5050075B2; US20040202349A1; JP2010205277A; JP2004318879A

Description

本発明は、一般に内容照合技術に関連し、特に合致する内容を含む画像を識別するための画像内容を比較する技術に関連する。

技術の進歩に加えてディジタルカメラ、スキャナ、ビデオカメラ等のような情報捕捉装置の普及は、ディジタル画像形式で記憶される大量の情報をもたらした。従って、ディジタル画像の内容（コンテンツ）を比較し、合致する画像を発見することの可能な自動化技術及びツールの必要性が多分に存在する。従来、合致する画像を発見するために画像の内容を比較するいくつかの技術が開発されてきた。しかしながらこれら従来技術の各々は、画像品質、解像度、不鮮明さ、画像分割属性、前の物体の後ろに隠れることを示す量（閉塞性）、画像色等のような特定の属性を画像処理することを目的としている。従って、使用する技術の選択は、比較される画像の属性に大きく依存する。特殊な従来の技術は、特別な属性を処理しながら画像を比較するのに使用されることが可能であるが、別の種別の画像を比較するには非効率的である。例えば、ある従来の技術は、白黒画像を比較するのに使用されることが可能であるが、カラー画像を比較するのに使用することができない。

上記に鑑みるに、様々な異なる属性を処理しながら、様々な異なる種別の画像を比較するのに使用することが可能な自動化技術が望まれている。

本発明による態様は、画像の内容を比較する自動化技術を与える。本発明の一態様によれば、所与の画像（「入力画像」と言及される）に対して、一群の画像（「候補画像群」と言及される）が処理され、画像の内容又は一部の画像が入力画像中の関心のある領域に含まれる内容に合致するところの画像を候補画像群が有するか否かを判別する。入力画像中の関心のある領域は、プレゼンテーション情報より成る。

本発明の一態様によれば、入力画像の関心のある領域に含まれるプレゼンテーション情報に合致する内容を含む画像を第１の画像群が含んでいるか否かを判別する技術が与えられる。この態様では、前記入力画像及び前記第１の画像群中の画像が第１の特徴及び第２の特徴を有する又は備えるか否かが判別される。前記入力画像及び前記第１の画像群中の画像が前記第１の特徴及び前記第２の特徴を有するか否かに基づいて、複数の比較法の中から第１群の比較法を識別される。入力画像の内容は、前記第１群の比較法内の１以上の比較法を用いて前記第１の画像群中の画像の内容と比較される。その比較結果に基づいて、前記入力画像の関心のある領域内で前記プレゼンテーション情報に合致する内容を有する画像を前記第１の画像群が含むか否かが判別される。

本発明の別の態様によれば、入力画像の関心のある領域に含まれるプレゼンテーション情報に合致する内容を含む画像を複数の画像が含んでいるか否かを判別する技術が与えられ、前記複数の画像は１以上の種類の捕捉装置によって捕捉された画像を含む。前記複数の画像中の画像の各々について、画像を捕捉するのに使用された捕捉装置の種類が判別される。１種類の捕捉装置によって捕捉された画像の全てが１つの集合に分類されるように、画像を捕捉するのに使用された捕捉装置の種別に基づいて、前記複数の画像中の画像が複数の集合に分類される。前記複数の集合中の集合の各々について：前記入力画像及び前記集合中の画像が第１の特徴及び第２の特徴を有するか否かが判別され；前記入力画像及び前記集合中の画像が前記第１の特徴及び前記第２の特徴を有するか否かに基づいて、複数の比較法の中から一群の比較法が識別され；前記一群の比較法内の１以上の比較法を用いて前記入力画像の内容及び前記集合中の画像の内容が比較され；前記１以上の比較法中の比較法の各々について、比較法に関する信頼性スコアが受信され、前記入力画像中の関心のある領域内の前記プレゼンテーション情報に合致する内容を含むものとして、前記画像群から前記比較法によって識別された合致する画像が受信され；前記１以上の比較法に関する信頼性スコアに基づいて、集合に関する集合信頼性スコアが判別され；及び前記１以上の比較法によって識別された合致する複数の画像の中から、最高の信頼性スコアを有する比較法によって識別された合致する画像が、前記集合に関する合致する画像として識別される。複数の集合に関する前記集合信頼性スコアに基づいて、前記入力画像中の関心のある領域内の前記プレゼンテーション情報に合致する内容を含む画像を、複数の画像が含むか否かが判別される。

他の特徴と共に更なる実施例及び本発明による利点は、以下の明細書、特許請求の範囲及び添付図面を参照することで一層明確になるであろう。

本発明による実施例は、画像の内容を比較する自動化技術を与える。本発明の実施例によれば、所与の画像（「入力画像」と言及される）に対して、一群の画像（「一群の候補画像」又は「候補画像群」と言及される）が処理され、画像の内容又は一部の画像が入力画像中の関心のある領域に含まれる内容に合致するところの画像を候補画像群が有するか否かを判別する。候補画像群からの画像は、入力画像の関心のある領域に含まれる内容が、照合する画像に含まれる場合に、その入力画像に合致する画像であると考えられる。関心のある領域は、入力画像全体又はそれのより小さな部分に対応する（即ち、入力画像に関する関心のある領域は、入力画像全体又はその一部を網羅する。）。従って、関心のある領域が入力画像の小部分をカバーする場合では、その入力画像は、関心のある領域に含まれる内容に加えて他の内容をも含む。また、合致する画像は、入力画像中の関心のある領域に含まれる合致する内容に加えて他の内容をも包含する。

入力画像及び候補画像群中の画像は、様々な捕捉装置によって捕捉され又は生成される。従って、画像は、画像品質、解像度、セグメンテーション、色彩、不鮮明さ、閉塞性等の観点から異なる属性を有し得る。本発明の実施例は、様々な属性を有し且つ様々な捕捉装置で捕捉された画像を比較するための自動化された一般的なコンピュータ実現法を提供する。

本発明の実施例によれば、比較に使用される入力画像中の関心のある領域は、提示中に与えられた情報（「提示情報」又は「プレゼンテーション情報」と言及される）より成る入力画像の領域又はその一部に対応する。従って、本実施例では、入力画像の関心のある領域はプレゼンテーション情報より成る。提示の例には、ミーティング、会議、講義等が含まれる。プレゼンテーション情報は、提示中に表示される、スライド、ウェブページ、チャート、書類等又はそれらの一部（即ち、スライド、ウェブページ、チャート、書類等の一部）における情報より成る又はそれらに対応する。スライドやウェブページ等は、そのままの又は合成した画像、写真、テキスト若しくは複数の文字列、又はそれらの組合せを含み得る。

上述したように、入力画像及び候補画像群に含まれる画像を含む、比較される画像は、様々な異なる捕捉装置を用いて捕捉される。本願に関し、「捕捉装置」なる語は、任意の装置、システム、機器、又は情報（画像を含む）を捕捉、記録、生成若しくは作成するように形成されたアプリケーションの１以上の形式を示すように意図される。捕捉装置の具体例には、スキャナ（例えば、スライドのディジタル表現を作成するために紙に印刷されたスライドをスキャンするのに使用されるスキャナ）、ビデオレコーダ（例えば、画像情報を捕捉することの可能なビデオカメラやディジタルカメラ）、ディジタル画像捕捉装置（例えば、ディジタル画像を捕捉することの可能なディジタルカメラやビデオカメラ等）、プレゼンテーションレコーダ、スクリーン捕捉装置（例えば、ホワイトボード捕捉装置）等が含まれる。プレゼンテーションレコーダは、例えば、情報源からの情報ストリームを抽出及び捕捉することで、提示中に提示される情報を捕捉することが可能である。例えば、パワーポイントによる提示を実行しているコンピュータに対して、プレゼンテーションレコーダは、そのコンピュータによって表示される提示スライドについての情報を取り出すことが可能である。プレゼンテーションレコーダ及び情報捕捉装置の例は、例えば西暦２０００年１０月３１日付け出願の米国仮出願番号第０６／２４４，７７１号（代理人管理番号１５３５８−００６２００ＵＳ）、西暦２０００年１１月３０日付け出願の米国出願番号第０９／７２８，５６０号（代理人管理番号１５３５８−００６２１０ＵＳ）、西暦２０００年１１月３０日付け出願の米国出願番号第０９／７２８，４５３号（代理人管理番号１５３５８−００６２２０ＵＳ）、西暦２０００年３月８日付け出願の米国出願番号第０９／５２１，２５２号（代理人管理番号１５３５８−００６３００ＵＳ）に記載されており、それらの全内容は本願の参考に供せられる。プレゼンテーションレコーダの具体例には、画面捕捉ソフトウエアアプリケーション、スライドと提示中の各スライドについて経過した時間との記録を可能にするパワーポイントアプリケーション等が含まれる。記号情報捕捉装置は、提示スライドを画像のシーケンス（例えば、ＪＰＥＧｓ、ＢＭＰｓ等）として格納することで、又はスライドの文字内容を抽出することで、提示スライドを捕捉することができる。例えば、パワーポイントのスライド提示中に、記号情報捕捉装置は、スライド遷移をとらえ（キーボード命令をとらえ）、これらの遷移に基づいて提示画像を抽出することによって、それらのスライドを記録することができる。ホワイトボード捕捉装置は、ホワイトボード、スクリーン、チャート等の内容を捕捉するために適切に設けられたカメラのような装置を含む。

上述したように、本発明の実施例によれば、入力画像は、プレゼンテーション情報を含む関心のある領域を含む。プレゼンテーション情報を含む入力画像は、上述の任意の捕捉装置を用いて捕捉される。例えば、プレゼンテーション情報がスクリーン（例えば、スクリーンに表示されるスライド）に表示される又は投影される、コンピュータディスプレイ（例えば、コンピュータディスプレイに表示されたパワーポイントによる提示）に表示される又は何らかの他の出力装置に表示される場合に、入力画像が捕捉される。例えば、入力画像は、ディジタルカメラにより、プレゼンテーションの出席者によって捕捉されることが可能である。その出席者は、投影スクリーンに表示されたパワーポイントのスライドの画像を捕捉する。

上述したように、入力画像の関心のある領域は、入力画像全体又はその一部をカバーする。図１Ａは、関心のある領域が画像全体を占める場合の入力画像１００を示す。図１Ａに示されるように、関心のある領域は、スライド形式のプレゼンテーション情報より成る。図１Ｂは、関心のある領域が入力画像の一部を占める場合の入力画像１５０を示す。図１Ｂに示されるように、関心のある領域１５２は、入力画像１５０の四角形の境界枠部分に対応し、その部分はスライドに関連するプレゼンテーション情報を含む。また、入力画像１５０は、関心のある領域１５２に含まれるプレゼンテーション情報に加えて他の情報も含む。例えば、画像１５０内の他の情報は、そのプレゼンテーションが行なわれている部屋の様子、発表者の様子、他の出席者に関する１以上の映像等である。

一群の候補画像は、上述した様々な捕捉装置によって捕捉された画像を含む。候補画像はプレゼンテーション情報を含んでもよいし、含まなくてもよい。

図２は、本発明の実施例を使用することの可能なデータ処理システム２００の概略ブロック図である。図２に示されるように、データ処理システム２００は、バスサブシステム２０４を介して多数の周辺装置と通信する少なくとも１つのプロセッサ２０２を含む。これらの周辺装置は、メモリサブシステム２０８及びファイル格納サブシステム２１０より成る格納サブシステム２０６と、ユーザインターフェース入力装置２１２と、ユーザインターフェース出力装置２１４と、ネットワークインターフェースサブシステム２１６とを含む。入力及び出力装置は、ユーザがデータ処理システム２０２とやりとりすることを可能にする。

ネットワークインターフェースサブシステム２１６は、他のコンピュータシステム、ネットワーク及び格納リソース２０４とのインターフェースを与える。ネットワークは、インターネット、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、無線ネットワーク、イントラネット、私的ネットワーク、公的ネットワーク、交換ネットワークその他適切な通信ネットワーク等を含み得る。ネットワークインターフェースサブシステム２１６は、他のソースからのデータを受信し、データ処理システム２００から他のソースにデータを送信するように動作する。例えば、ネットワークインターフェースサブシステム２１６を通じて比較される画像が受信される。ネットワークインターフェースサブシステム２１６の具体例には、イーサーネットカード、モデム（電話、衛星、ケーブル、ＩＳＤＮ等）、（非同期）ディジタル加入者回線（ＤＳＬ）装置等が含まれる。

ユーザインターフェース入力装置２１２は、キーボードや、マウス、トラックボール、タッチパッド又はグラフィクス・タブレットのようなポインティングデバイスや、スキャナや、バーコードスキャナや、表示に組み込まれたタッチスクリーンや、音声認識システム、マイクロフォンのような音声入力装置及びその他の形式の入力装置等を含み得る。一般に、「入力装置」なる語は、データ処理システム２００に情報を入力する任意の可能な装置及び方法の全てを含むように意図される。

ユーザインターフェース出力装置２１４は、ディスプレイサブシステム、プリンタ、ファクシミリ装置、又は音声出力装置のような非映像ディスプレイを含み得る。ディスプレイサブシステムは、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）のようなフラットパネル装置又は投影装置であり得る。一般に、「出力装置」なる語は、データ処理システム２００からの情報を出力することの可能な装置及び方法の全てを包含するように意図される。

格納サブシステム２０６は、本発明による機能を与える基礎的なプログラミング及びデータ構造を格納するよう構成される。例えば、本発明の実施例によれば、本発明による機能を実行するソフトウエアモジュールは、格納サブシステム２０６に格納されることが可能である。これらのソフトウエアモジュールはプロセッサ２０２によって実行される。また、格納サブシステム２０６は、本発明により使用されるデータを格納する記憶部（レポジトリ）を与える。例えば、入力画像及び候補画像群を含む比較される画像は、格納サブシステム２０６に格納されることが可能である。格納サブシステム２０６は、メモリサブシステム２０８及びファイル／ディスク格納サブシステム２１０より成る。

メモリサブシステム２０８は、プログラム実行中に命令やデータを格納するためのメインランダムアクセスメモリ（ＲＡＭ）２１８と、固定的な命令が格納されるリードオンリメモリ（ＲＯＭ）２２０とを含む。ファイル格納サブシステム２１０は、プログラムやデータファイルのための永続的な（不揮発性の）格納部を与え、ハードディスクドライブ、関連する着脱可能な媒体と共に使用するフロッピディスクドライブ、コンパクトディスクリードオンリメモリ（ＣＤ−ＲＯＭ）ドライブ、光ドライブ、着脱可能なメディアカートリッジ及びその他の格納媒体を含み得る。

バスサブシステム２０４は、データ処理システム２０２の様々な要素及びサブシステムが、意図されるように互いに通信させる手段を与える。バスサブシステム２０４が単独のバスとして概略的に示されているが、バスサブシステムの他の例では複数のバスを使用することが可能である。

データ処理システム２００は、パーソナルコンピュータ、携帯式コンピュータ、ワークステーション、ネットワークコンピュータ、メインフレーム、キオスクその他のデータ処理システムを含む多様な種別のものであり得る。これまでのコンピュータ及びネットワークの変遷する性質に起因して、図２に示されるデータ処理システム２００の記述は、コンピュータシステムの好適実施例を説明するための特別な例のみを意図している。図２に示されるシステムより多くの又は少ない要素を備える他の多くの態様が可能である。

図３は、本発明の実施例による、画像内容比較方法を示す上位概念的フローチャート３００を示す。本方法は、データ処理システムによって実行されるソフトウエアモジュールによって、ハードウエアモジュールによって又はそれらの組合せによって実行される。図３に示されるフローチャート３００は、本発明を組み込む実施例の単なる例示であり、特許請求の範囲に記載の本発明の範囲を制限するものではない。当業者は変形例、修正例及び代替例を認識するであろう。

図３に示されるように、プレゼンテーション情報より成る関心のある領域を有する入力画像を識別する情報と、入力画像の関心のある領域中のプレゼンテーション情報に合致するプレゼンテーション情報を含む画像を識別するためにサーチされる候補画像群を識別する情報とを受信することで、プロセスが開始される（ステップ３０２）。上述したように、入力画像は、プレゼンテーション情報に加えて他の情報も含んでいる。候補画像群中の画像はプレゼンテーション情報を含んでいてもよいし、含んでいなくてもよい。簡明化のため、フローチャート３００に示される処理に関し、候補画像群は同じ種類の捕捉装置で全て捕捉されたものと仮定する。しかしながらこれは本発明の範囲を限定することを意図するものではない。他の実施例では、候補画像群は様々な捕捉装置で捕捉された画像を含むことが可能である。

本発明の実施例では、入力画像及び候補画像群が分割画像か否かが判別される（ステップ３０４）。入力画像の関心のある領域に含まれるプレゼンテーション情報と候補画像の内容との間で比較が行なわれる例では、それがプレゼンテーション情報を有する関心のある領域のみを含み、他の領域を含まないならば、画像は分割画像と考えられる。それがプレゼンテーション情報を含まない１以上の領域を含んでいるならば、画像は非分割画像と考えられる。非分割画像は、プレゼンテーション情報ではないものを含む領域に加えてプレゼンテーション情報を有する領域を含んでいてもよいし、含んでいなくてもよい。例えば、図１Ａに示される画像は分割画像であるが、図１Ｂに示される画像は非分割画像である。例えば、記号捕捉装置によって捕捉された画像は分割画像になる傾向があるが、ディジタルカメラで捕捉された画像は非分割画像になる傾向が多分にある。例えばプレゼンテーション情報がスライドであると考えられるならば、オリジナルソースファイルから得られた画像やプレゼンテーション情報レコーダで捕捉された画像のように、幾つかの画像はスライド領域のみを含み、それらは分割画像と考えられる。他の画像は、スライド領域に加えてその周囲をも含み、非分割画像と考えられる。それらは、例えば、プレゼンテーションスライドのディジタルカメラ映像、発表者のビデオクリップ（映像切り抜き）及びプレゼンテーションスライド等である。

本発明の実施例によれば、ユーザに与えられる情報は、入力画像及び／又は候補画像群中の画像が分割されるか又は分割されないかを判別するために使用される。例えば、ユーザは、分割画像又は非分割画像として、入力画像及び候補画像群を分類する情報をマニュアルで提供することができる。

また、画像を捕捉する又は作成するために使用される捕捉装置の属性は、その画像が分割されるか又は分割されないかを判別するために使用される。例えば、ある捕捉装置は分割画像を生成する傾向が多分にあり、別の装置は非分割画像を形成する傾向が多分にある。表Ａは、複数の捕捉装置と、それらの装置が生成する傾向にある画像の種別（分割画像又は非分割画像）とを区別する情報を与える。

表Ａ

従って、捕捉装置の身元が判明すれば、その情報は、その装置によって生成される画像が分割画像か又は非分割画像かを判別するために使用されることが可能である。例えば、入力画像がディジタルカメラで作成されたものであると判別されるならば、その入力画像は、表Ａの情報により、非分割画像として分類される。入力画像及び候補画像群を捕捉するために使用された捕捉装置を区別する情報は、ユーザにより与えられることが可能である。或いは、画像を作成するために使用される捕捉装置の種類を判別するために、入力画像及び候補画像群に画像処理技術が使用されることも可能である。捕捉装置の種類は、その画像が分割されるか又は分割されないかを判別するために使用される。

また、画像処理技術は、その画像が分割されるか又は分割されないかを判別するために、入力画像及び候補画像群に適用される。本発明の実施例によれば、当業者に既知の対象領域区分化法のような技術を利用して、非分割画像を分割画像に変換するために画像処理技術が使用される。

本発明の実施例は、入力画像及び候補画像群が、テキストを含むか否かを判別し、そのテキストは、光文字認識（ＯＣＲ）技術又は多のテキスト抽出法を用いて認識されることが可能である（ステップ３０６）。ＯＣＲ技術を用いて認識されることの可能なテキスト又は他のテキスト抽出法を用いてソースファイルや画像ファイルから抽出されることの可能なテキストを画像が含むならば、画像は、「ＯＣＲ可能」と考えられる。

画像がＯＣＲ可能か否かを判別するために、様々な技術が使用されることが可能である。本発明の実施例によれば、入力画像及び／又は候補画像群中の画像がＯＣＲ可能であるか否かを判別するために使用される情報を、ユーザは与えることが可能である。例えば、ユーザは、入力画像及び候補画像群をＯＣＲ可能又はそうでないものとして分類する情報をマニュアルで与えることが可能である。或いは、画像を生成するために使用された捕捉装置に関連する情報は、その画像がＯＣＲ可能であるか否かを判別するために使用されることが可能である。例えば、スクリーン捕捉アプリケーションからの画像はＯＣＲ可能である傾向が多分にあるが、低解像度ビデオカメラによる画像は一般にＯＣＲ可能ではない。或いは、入力画像及び候補画像群がテキストを含むか否かを判別するために画像処理技術が使用され、そのテキストは、光文字認識（ＯＣＲ）技術その他の文字抽出技術を用いて認識されることが可能である。例えば、ＯＣＲ技術はその画像からテキストを抽出するために画像に適用されることが可能である。抽出されたテキストの長さ、ＯＣＲ技術に関連する信頼性スコア及び抽出されたテキストは、その画像がＯＣＲ可能であるか否かを判別するために使用される。

ステップ３０４及び３０６で判別された入力画像及び候補画像群の分類に基づいて、候補画像群が少なくとも１つの画像を含むか否かを判別するために入力画像と候補画像群中の画像とを比較するために、一群の内容照合又は比較技術が利用可能な内容照合技術の中から識別され、その少なくとも１つの画像は、入力画像の関心のある領域に含まれるプレゼンテーション内容に合致するものである（ステップ３０８）。利用可能な内容照合技術は、様々な画像照合技術、及び画像ファイルやソースファイルから抽出した内容を比較する技術を含む。エッジヒストグラム照合技術（「ＥＨ」法と言及される）、レイアウト照合技術（「ＬＭ」法と言及される）、ＯＣＲ文字列照合技術（「ＯＣＲＬ」法と言及される）、ライン属性照合技術（「ＬＰ」法と言及される）その他のようないくつかの異なる技術が利用可能である。個々の技術のいくつかの説明は、「照合技術」と記された後述のセクションで与えられる。表Ｂは幾つかの技術を区別するものであり、その技術は、入力画像及び候補画像群の分類に基づいて、入力画像と候補画像群とを照合するために選択される。

表Ｂ

ここで：
ＳＣＩは、候補画像の集合を表し、
Ｓは、分割画像を表し、
ＮＳは、非分割画像を表し、
Ｏは、ＯＣＲ可能を表し、
ＮＯは、ＯＣＲ不可能を表し、
ＥＨは、エッジヒストグラム照合技術を表し、
ＬＭは、レイアウト照合技術を表し、
ＯＣＲＳは、ＯＣＲ文字列照合技術を表し、
ＬＰは、ライン属性照合技術を表す。

従って、ステップ３０８にて、入力画像及び候補画像群の属性に基づいて、利用可能な照合技術の中から一群の照合技術が選択される。例えば、入力画像が、ステップ３０４及び３０６により非分割画像及びＯＣＲ可能であるとして分類され、候補画像群が分割画像及びＯＣＲ不可能であるとして分類されるならば、ステップ３０８で選択される一群の技術は、表Ｂの情報により、エッジヒストグラム照合技術（ＥＨ）、レイアウト照合技術（ＬＭ）及びライン属性照合技術（ＬＰ）を含む。

比較プロセスに関する処理時間制限が存在する場合にそれを調べる検査が行なわれる（ステップ３１０）。図３に示される処理を実行するアプリケーション及びその処理が実行される状況に依存して、幾つかの異なる処理時間制限が指定されることが可能である。例えば、時間制限は、その処理がリアルタイムで又はオフラインで実行されるか否か指定する。処理に許容される最大時間制限の形式における時間制限も指定されることが可能である。ステップ３１０で、その処理に関して時間制限が指定されることが決定されるならば、時間制限を満たす１以上の照合技術が、ステップ３０８で識別された照合技術群から選択される（ステップ３１２）。例えば、レイアウト照合技術（ＬＭ）及びエッジヒストグラム照合技術（ＥＨ）は、それらがＯＣＲ文字列照合技術（ＯＣＲＳ）及びライン属性照合技術（ＬＰ）よりも高速であるので、リアルタイム処理に一層適している。従って、入力画像と候補画像群との比較がリアルタイムで実行されるならば、ＯＣＲＳ及びＬＰ技術よりも、ＥＨ及びＬＭ技術が選択される。比較に関して何らの時間的制約がなければ、処理はステップ３１４に続く。

ステップ３０８又はステップ３１２で選択された照合技術は、その後入力画像及び候補画像群に適用される（ステップ３１４）。本発明の実施例によれば、選択された技術はランラムな順序で適用される。本発明の他の実施例によれば、選択された照合技術が適用される順序及び方法を制御する、発見法（ｈｅｕｒｉｓｔｉｃｓ）又は制御情報が指定される。

本発明の実施例によれば、選択された技術（ステップ３０８又はステップ３１２で選択された技術）がエッジヒストグラム照合技術（ＥＨ）を含むならば、その技術は演算が高速であって正確であるので最初に使用されるように、発見法が指定される。次に、選択された技術がレイアウト照合技術（ＬＭ）を含むならば、その技術が使用される。たとえレイアウト照合技術（ＬＭ）の結果がエッジヒストグラム照合技術（ＥＨ）と同程度に正確でなかったとしても、これは非常に高速に演算する。次に、選択された技術がＯＣＲ文字列照合技術（ＯＣＲＳ）を含むならば、その技術が使用される。ＯＣＲ文字列照合技術（ＯＣＲＳ）は実行が遅いが、正確な結果を与える。最後に、ライン属性照合技術（ＬＰ）が使用される。ライン属性照合技術（ＯＰ）は演算が遅く、概して他の技術の最小精度になる。上述の発見法又は制御情報は、本発明の実施例に関する単なる例であり、特許請求の範囲に記載される本発明の範囲を制限するようには意図されない。他の幾つかの種別の発見法も規定され得る。例えば、ユーザは照合技術が適用される順序を指定することも可能である。従って、ステップ３１４にて、発見法又は制御情報は、選択された照合技術が適用される順序を決定するために使用されることが可能である。

本発明の実施例によれば、選択された照合技術は全てステップ３１４で適用される。他の実施例では、選択された照合技術はステップ３１４で全ては適用されない。そのような他の実施例では、選択された照合技術のアプリケーションによって適切な照合技術が識別され、他の選択された照合技術は適用される必要はない。

本発明の実施例によれば、選択された照合技術が適用され、入力画像と候補画像群中の各画像との間の距離の値が算出される。入力画像及び候補画像群からの画像に関する距離の値は、入力画像の関心のある領域に含まれる内容と、候補画像群からの画像内の内容との間の適合性の近接度の測定値を与える。適合性の近接度は一般に距離の値に比例する。従って、より小さな距離値は、より接近した適合性を示す。

本発明の実施例によれば、ステップ３１４で入力画像及び候補画像群に選択された照合技術を提供した結果又は出力は、照合信頼性スコア（Ｃｍ）と、その選択された照合技術を用いて入力画像（Ｉｉｎｐｕｔ）に最も合致する画像である候補画像群内の画像（Ｉｍａｔｃｈ）と、Ｉｍａｔｃｈ及び入力画像Ｉｉｎｐｕｔの間の距離（ＭｉｎＤｉｓｔａｎｃｅ）とを含む。上述したように、距離ＭｉｎＤｉｓｔａｎｃｅは、入力画像の関心のある領域に含まれる内容（例えば、プレゼンテーション情報）と、Ｉｍａｔｃｈ画像の内容との間の適合性の近接度の測定値を与える。ある実施例では、選択された照合技術に関するメタデータも出力される。本発明の実施例によれば、メタデータは、選択された照合技術によって使用されるパラメータ又は閾値に関連する情報を含む。メタデータは、異なる照合技術に対しては異なる。

上述したように、候補画像群中で最も適合した画像を発見するために、入力画像に選択された照合技術を適用した後に、信頼性スコア（Ｃｍ）が計算され、その選択された照合技術について出力される。選択された照合技術についての信頼性スコアＣｍは、選択された照合技術を適用することで発見された最も合致した画像が、その入力画像に最も類似するものとして人的主体により実際に識別されるであろうところの信頼性レベルの測定値を与える。本発明の実施例によれば、選択された照合技術に関する信頼性スコアは次のように算出される。所与の入力画像Ｉｉｎｐｕｔ及び候補画像群Ｓ＝｛Ｉ_１，Ｉ_２，Ｉ_３，．．．，Ｉ_ｋ｝に関し、照合信頼性スコアＣｍは次のように算出される：

ここで、ｄ_ｍｉｎは、入力画像ＩｉｎｐｕｔとＳ中で最も合致した画像Ｉｍａｔｃｈとの間の距離であり、

であり、ｄ_ｍｉｎ２は、入力画像ＩｉｎｐｕｔとＳ中で最も合致した画像Ｉｍａｔｃｈとの間の距離であり、

である。

選択された照合技術を適用することで得られた結果に基づいて、候補画像群が、入力画像中の関心のある領域内の内容に合致する内容を含む画像を含むか否かの判別が行なわれる（ステップ３１６）。画像に適合すると判別された画像は、入力画像の関心のある領域内の合致する内容に加えて、他の内容も含む。本発明の実施例によれば、ステップ３１６にける決定は、選択された照合技術によって出力された照合信頼性スコアＣｍに基づく。他の実施例では、ステップ３１６における決定は、選択された照合技術によって出力された、照合信頼性スコアＣｍ及び距離ＭｉｎＤｉｓｔａｎｃｅに基づく。本発明の更なる他の実施例では、ステップ３１６における決定は、選択された照合技術によって出力された、照合信頼性スコアＣｍ、距離ＭｉｎＤｉｓｔａｎｃｅ及びメタデータに基づく。他の実施例では、合致する画像を識別するために、他の基準が使用されることも可能である。

例えば、ステップ３０８又は３１２で選択された技術の全てが入力画像及び候補画像群に適用される本発明の実施例によれば、選択された照合技術により出力された最高の信頼性コアを有するＩｍａｔｃｈ画像が、合致する画像として選択される。本発明の他の実施例では、照合する技術によって出力された最高の信頼性スコアを有するＩｍａｔｉｃｈ画像は、その最高の信頼性スコアが、ユーザ設定可能な閾値（「適合性閾値」と言及される）を満足するならば、合致する画像として選択される。他の実施例では、選択された照合技術を適用することで得られたＭｉｎＤｉｓｔａｎｃｅ及びメタデータは最高の信頼性スコアと共に、照合技術によって出力されたＩｍａｔｃｈが合致する画像であると考えられるか否かを判別するために、１以上の適合性閾値と比較される。適合性閾値はユーザ設定可能であり、合致する画像と考えられる候補画像群中の画像について、候補画像群中の画像の内容が、入力画像の関心のある領域中の内容にどの程度近接しているかを、ユーザが制御することを許容する。その照合技術によるＩｍａｔｃｈ画像は、その適合性閾値が満たされる場合に合致する画像として識別される。候補画像のいずれも適合性閾値を満たさないならば、候補画像群は、入力画像の関心のある領域中の内容に合致する内容を有する何らの画像も含まないという通知をユーザは受ける。

選択された照合技術が特定の順序（例えば、発見法により決定された特定の順序）で適用される実施例では、最初に適用される選択された技術から得られた結果は、適合する画像が見出されたか否かを判別するために使用される。本発明の実施例によれば、最初に適用された選択された照合技術により出力されたＩｍａｔｃｈ画像は、その最初の技術に関する適合性信頼性スコア（Ｃｍ）が適合性閾値を満足するならば適合であると考えられる。他の実施例では、最初の照合技術により出力されたＩｍａｔｃｈ画像は、その最初の技術に関する適合性信頼性スコア（Ｃｍ）と、最初に適用された照合技術により出力されたＭｉｎＤｉｓｔａｎｃｅとが１以上の適合性閾値を満足するならば適合であると考えられる。更に他の実施例では、最初の照合技術により出力されたＩｍａｔｃｈ画像は、その最初の技術に関する適合性信頼性スコア（Ｃｍ）と、最初に適用された照合技術により出力されたＭｉｎＤｉｓｔａｎｃｅ及びメタデータとが１以上の適合性閾値を満足するならば適合であると考えられる。最初に適用された照合技術を適用することで出力された結果が適合性閾値を満たすと考えられるならば、その技術によって出力されたＩｍａｔｃｈ画像は、合致する画像として識別される。Ｉｍａｔｃｈ画像を識別する情報は、ユーザ及び処理端末に出力される。しかしながら、最初に適用された照合技術を適用することで出力された結果が、適合性閾値を満たさないと考えられるならば、（その順序に従って）第２の選択された照合技術が適用され、合致する画像を発見するために、第２技術を適用することで得られた結果が分析される。このようにして、照合画像が識別されるまで、又は選択された技術を適用することによる結果が、候補画像群中の何れも入力画像に合致しないことを示すまで、他の選択された照合技術がその順序で適用される。

上述したように、入力画像及び候補画像群中の画像の区分化及びＯＣＲ可能な属性は、画像の内容を比較するために使用される一群の照合技術を決定するために使用されていた。また、本発明の他の実施例では、画像の他の属性（例えば、色、画像品質、解像度、閉塞性、不鮮明さ等）も、画像を比較するために使用される利用可能な照合技術から照合技術群を識別するために使用される。

図４は、本発明の実施例による図３に示される処理を実行するモジュールの概略ブロック図である。図４に示されるモジュールは、データプロセッサにより実行されるソフトウエアモジュール、ハードウエアモジュール又はそれらの組合せとすることが可能である。このモジュールは本発明の実施例に関する単なる例示に過ぎず、特許請求の範囲に記載の本発明の範囲を限定するものではない。当業者はその変形例、修正例及び代替例を認識するであろう。

図４に示されるように、このモジュールは、画像分類文字ジュール４０２と、セレクタ及び照合モジュール４０４と、評価モジュール４０６とを含む。分類モジュール４０２は、入力画像（Ｉｉｎｐｕｔ）及び探索される候補画像群（Ｓ）を入力として受信する。分類モジュール４０２は、入力画像及び候補画像群を、区分化される、区分化されない、ＯＣＲ可能又はＯＣＲ可能でないものとして分類するよう構成される。本発明の他の実施例では他の分類も可能である。画像の分類を区別する情報は、セレクタ及び照合モジュール４０４に与えられる。従って、分類モジュール４０２は、図３に示されるフローチャートにおけるステップ３０２，３０４及び３０６に示される処理を実行する。

セレクタ及び照合モジュール４０４は、画像分類モジュール４０２から入力画像及び候補画像群に関連する分類情報を受信し、入力画像及び候補画像群に適用される利用可能な照合技術から一群の照合技術を選択するよう構成される。セレクタ及び照合モジュール４０４は、適用される一群の照合技術を選択するために、表Ｂ（上述）に記載された情報のような情報を利用する。また、セレクタ及び照合モジュール４０４は、処理に関連する時間制限の存否を判別し、その時間制限を満たす一群の適切な照合技術を選択するよう構成される。

セレクタ及び照合モジュール４０４は、選択した照合技術を入力画像及び候補画像群に適用するように構成される。上述したように、選択された照合技術は様々な手法で適用される。選択された照合技術が適用される順序を決定するための発見法が指定されるならば、セレクタ及び照合モジュール４０４は、その発見法を評価し、選択された照合技術を適用する順序を決定するように構成される。セレクタ及び照合モジュール４０４は、選択された照合技術を適用することで得られた結果を評価モジュール４０６に与えるよう構成される。上述したように、選択された照合技術を適用することで得られた結果は、選択された照合技術に関する照合信頼性スコア（Ｃｍ）と、その選択された照合技術を用いて最も合致する画像である候補画像群内の画像（Ｉｍａｔｃｈ）と、Ｉｍａｔｃｈ及び入力画像の間の、適合性の近接度を表す距離（ＭｉｎＤｉｓｔａｎｃｅ）と、選択された照合技術に関連するメタデータとを含む。従って、セレクタ及び照合モジュール４０４は、図３に示されるフローチャート３００のステップ３０８，３１０，３１２及び３１４に示された処理を実行するように構成される。

評価モジュール４０６は、セレクタ及び照合モジュール４０４から結果を受信し、候補画像群が、入力画像の関心のある領域内の内容に合致する内容を有する画像を含むか否かを判別するよう構成される。上述したように、候補画像群が合致する画像を含むか否かの判定は、選択された照合技術に関する信頼性スコア（Ｃｍ）と、その技術によって出力されるＭｉｎＤｉｓｔａｎｃｅ測定値と、もしあればその技術による出力のメタデータとに依存する。合致が発見されたか否かを判別するために、評価モジュール４０６はその結果と適合性閾値とを比較する。合致する画像が発見される場合に、評価モジュール４０６は、合致する画像を識別する情報を出力するよう構成される。合致する画像を識別する技術に関連する信頼性スコア（Ｃｍ）も出力される。評価モジュール４０６は、合致する画像に対する最終的な信頼性スコア（Ｃｆ）を算出し、その最終的な信頼性スコア（Ｃｆ）を出力する。本発明の実施例によれば、最終的な信頼性スコア（Ｃｆ）は、選択された照合技術の信頼性スコア（Ｃｍ）に基礎を置き、選択された照合技術の全てのＣｍ値を加算し、その結果の総和をＣｍ値数で除算することによって算出される。合致する画像が何もなければ、評価モジュール４０６は、合致する画像は何ら発見されなかったことを示す情報を出力する。

選択された技術が特定の順序で（例えば、発見法によって定められた特定の順序で）選択された技術が適用される本発明の実施例では、評価モジュール４０６は、最初の選択された技術を適用することで得られたセレクタ及び照合モジュール４０４からの結果を受信するよう構成される。それらの結果に基づいて合致する画像が判定された場合に、その合致する画像を識別する情報は、評価モジュール４０６により、最初の照合技術に関する信頼性スコア（Ｃｍ）と共に出力される。最初の選択された照合技術を適用することで得られた結果に基づいて合致する画像が識別されない場合には、評価モジュール４０６は、セレクタ及び照合モジュール４０４は選択された次の順番の照合技術を適用することを通知する信号をセレクタ及び照合モジュール４０４に送信するよう構成される。評価モジュール４０６は、合致する画像が発見されるか否かを見出すために、次に選択された照合技術を適用することで得られた結果を受信及び評価する。このように、評価モジュール４０６は、合致する画像が発見されるまで、又は選択された全ての照合技術がセレクタ及び照合モジュール４０４により適用されるまでセレクタ及び照合モジュール４０４に信号を送信する。従って、評価モジュール４０６は図３のステップ３１６に示される処理を実行するよう構成される。

図３に示される処理に関し、候補画像群は全て同一種類の捕捉装置又はソースを利用して捕捉されることを想定していた。しかしながらこのことは本発明の範囲を限定するように意図されたものではない。一群の候補画像が、異なる捕捉装置又はソースから得られた画像を含む場合における、本発明の実施例による画像比較方法を示す上位概念的フローチャート５００を示す図である。本方法は、データ処理システムで実行されるソフトウエアモジュールにより、ハードウエアモジュールにより、又はそれらの組合せにより実行される。図５に示されるフローチャート５００は、本発明を組み込む実施例の単なる例示であり、特許請求の範囲に記載された本発明の範囲を限定するものではない。当業者はその変形例、修正例及び代替例を認識するであろう。

図５に示されるように、プレゼンテーション情報より成る入力画像を識別する情報と、プレゼンテーション情報を含む画像を判別するよう探索される候補画像群を識別する情報とを受信することで処理は始まり、そのプレゼンテーション情報は、入力画像の関心のある領域内のプレゼンテーション情報に合致するものである（ステップ４０２）。また、入力画像はプレゼンテーション情報に加えて他の情報も含み得る。候補画像群は様々な装置により捕捉された画像を含むことが可能である。

同じ種類の捕捉装置から得られた画像が１つの集合に分類されるように、候補画像群中の画像は集合にグループ化される（ステップ５０４）。例えば、ディジタルカメラで捕捉された全ての画像はある集合に分類され、スキャナで捕捉された全ての画像は別の集合に分類される、等々である。ステップ５０４における処理は、ユーザから受信した情報に基づいて行なわれることが可能である。例えば、候補画像群中の各々の画像に関し、ユーザは、画像を捕捉又は作成するのに使用された捕捉装置を区別する情報を与えることが可能である。この情報は、その後に、ステップ５０４にて生成される集合の各々が、同じ種類の捕捉装置から捕捉された又は得られた画像を含むように、複数の候補画像を複数の集合に分類するために使用される。他の実施例では、画像を捕捉するために使用される捕捉装置の種類を判別するために、候補画像群中の画像は画像処理技術を利用して分析され、その画像から得られた情報はステップ５０４にて候補画像を集合にグループ化するために使用される。

ステップ３０４，３０６，３０８，３１０，３１２及び３１４にて説明された処理は、ステップ５０４（ステップ５０６）で生成された集合の各々について実行される。従って、ステップ５０６では、ステップ５０４で区別された集合の各々について、選択された照合技術が、入力画像及びその集合中の画像に適用される。

ステップ５０４にて識別された集合の各々について、その集合に関して最高の信頼性スコア（Ｃｍ）を有する選択された照合技術が判別され、選択された照合技術のアプリケーションから得られたＩｍａｔｃｈ画像が、その集合に関して合致する潜在的な画像（Ｉｐｏｔｅｎｔｉａｌ）として選択される（ステップ５０８）。最終的な信頼性スコア（Ｃｆ）は、ステップ５０４（ステップ５０６）で判別された集合の各々について算出される。本発明の実施例によれば、ある集合についての最終的な信頼性スコア（Ｃｆ）は、選択された照合技術を適用することでその集合について得られた全てのＣｍ値を加算し、その結果の総和をＣｍ値数で除算することによって算出される。

その後、ステップ５０４で識別された様々な集合に関してステップ５１０で算出されたＣｆ値に基づいて、候補画像群が画像を含むか否かが判別され、その画像は、入力画像の関心のある領域中の内容（プレゼンテーション情報）に合致する内容を含むものである（ステップ５１２）。本発明の実施例によれば、最高の最終信頼性値（Ｃｆ）を有する集合に関連するＩｐｏｔｅｎｔｉａｌ画像は、合致する画像（即ち、入力画像の関心のある内容に合致する内容を含む画像）として識別される。本発明の他の実施例では、最高の最終信頼性値（Ｃｆ）は、その集合に関連するＩｐｏｔｅｎｔｉａｌ画像が、合致する画像であるか否かを判別するために適合性閾値と比較される。その集合に関する照合技術に関連するメタデータも、その画像が適合物であるか否かを判別するために使用されることが可能である。最終的な信頼性値及びメタデータは、適合性閾値と比較され、その適合性閾値が満たされる場合にのみ適合物が示される。このように、適合する画像は、様々な捕捉装置によって捕捉された又はそれらから得られた画像を含む候補画像群から発見されることが可能である。

アプリケーション例
このセクションは、本発明の実施例により、入力画像に対して合致する画像を識別するために実行される処理の簡単な例を説明する。これらの例は本発明の実施例による単なる例示に過ぎず、特許請求の範囲に記載されるような本発明の範囲を制限することを意味するものではない。

（１）記号情報捕捉装置から得られた画像と共にプレゼンテーションレコーダから得られた合致する画像
この例では、入力画像はプレゼンテーションレコーダから取得され、候補画像群は記号情報捕捉装置から取得される（或いは、候補画像群はプレゼンテーションレコーダから取得され、入力画像が記号情報捕捉装置から得られるようにすることも可能である。）概して、プレゼンテーションレコーダ及び記号情報捕捉装置から取得される画像は、（表Ａに示されるように）区分された画像である。更に、画像はＯＣＲ可能であってその処理はリアルタイムで実行されるべきものであるとする。これらの条件から、エッジヒストグラム照合技術（ＥＨ）及びレイアウト照合技術（ＬＭ）が表Ｂから選択される。更に、レイアウト照合技術（ＬＭ）に先立ってエッジヒストグラム照合技術（ＥＨ）が適用されるように発見法が規定されているものとする。照合プロセスに関する擬似コードは以下のように与えられる。

上記に示されるように、適合性閾値（Ｔｈ１，Ｔｈ２，Ｔｈ３）はユーザにより設定されることが可能である。本発明の実施例によれば、Ｔｈ１は１．０に設定される。本発明の実施例によるＴｈ２及びＴｈ３に関する値は：Ｔｈ２＝１００；Ｔｈ３＝１００であることを想定している。

（２）プレゼンテーションレコーダ又は記号情報捕捉装置から得られた画像に対してスキャナから得られた合致する画像
この例では、入力画像はスキャナから得られ、候補画像群はプレゼンテーションレコーダ又は記号情報捕捉装置から取得される（或いは、候補画像群がスキャナから取得され、入力画像が記号情報捕捉装置又はプレゼンテーションレコーダから取得されるようにすることも可能である。）。概して、スキャナから得られる画像は非区分的である。それにもかかわらず、そのような画像から関心のある領域を区分けすることは、区分法を適用する事後処理により容易に行なわれることが可能である。これらの画像は一般にＯＣＲ可能である。更に、処理はリアルタイムで実行されるべきであることを想定する。これらの条件の下に、ＯＣＲ文字列照合技術（ＯＣＲＳ）及びエッジヒストグラム照合技術（ＥＨ）が選択される。更に、ＯＣＲ文字列照合技術（ＯＣＲＳ）が、エッジヒストグラム照合技術（ＥＨ）を適用する前に適用されるように発見法が規定されていることを想定する。その理由は、画像は捕捉時に区分化されないので、区分化後処理がエラーになり、エッジヒストグラム照合技術（ＥＨ）が正確な結果として生成されない虞があるからである。ＯＣＲ文字列照合技術（ＯＣＲＳ）が最初に実行され、ＯＣＲ文字列照合技術（ＯＣＲＳ）が合致する画像を発見するのに失敗した場合にのみエッジヒストグラム照合技術（ＥＨ）が適用される。エッジヒストグラム照合技術（ＥＨ）を適用するために、画像は区分けされる必要がある。照合プロセスのための擬似コードは以下のように与えられる。

上記に示されるように、適合性閾値（Ｔｈ１，Ｔｈ２，Ｔｈ４）はユーザにより設定されることが可能である。本発明の実施例によれば、Ｔｈ１は１．０に設定される。本発明の実施例によるＴｈ２及びＴｈ４に関する値は：Ｔｈ２＝１００；Ｔｈ４＝２０であることを想定している。

（３）ビデオレコーダ、ディジタルカメラ、プレゼンテーションレコーダ又は記号情報捕捉装置を用いて取得された画像と共に、ビデオレコーダ又はディジタルカメラを用いて取得された合致する画像
この例では、入力画像はビデオレコーダ又はディジタルカメラを用いて取得され、候補画像群はビデオレコーダ、ディジタルカメラ、プレゼンテーションレコーダ又は記号情報捕捉装置から取得される（或いは、候補画像群がビデオレコーダ又はディジタルカメラを用いて取得され、入力画像がビデオレコーダ、ディジタルカメラ、プレゼンテーションレコーダ又は記号情報捕捉装置から取得されるようにすることも可能である。）。画像はＯＣＲ可能であるものとする。ビデオレコーダ又はディジタルカメラから取得された画像は一般的には非区分的画像であり、スキュー、不鮮明な動き等の属性を有し、それらの属性は、エッジヒストグラム照合技術（ＥＨ）及びレイアウト照合技術（ＬＭ）の正確な利用を困難にする虞がある。従って、ＯＣＲ文字列照合技術（ＯＣＲＳ）及びライン属性照合技術（ＬＰ）が使用される。場合によっては、ＯＣＲ文字列照合技術（ＯＣＲＳ）も充分な結果を与えないかもしれない。例えば、文字列長（Ｉｉｎｐｕｔ）＜Ｔｈ４（ここで、Ｔｈ４は何らかのユーザの定義した閾値であり、文字列長は画像から抽出される文字数である）ならば、ライン属性照合技術（ＬＰ）が使用される。Ｔｈ４の閾値は、どの照合技術を使用するかを決定する発見法の一部として規定される。或いは、Ｔｈ４の閾値は、適合性閾値の一部として規定されることも可能である。照合プロセスの擬似コードは以下のように与えられる。

照合技術の例
このセクションは、本発明に使用されるいくつかの画像照合技術の概説を与える。

（１）エッジヒストグラム照合技術（ＥＨ）
ヒストグラムは画像の特徴を表現するために当該技術分野で一般的に使用され、画像中の端部又はエッジ（ｅｄｇｅ）はその画像の内容を表現するのに重要な特徴を構成する。エッジヒストグラム特徴ベクトルは、局所的な（ローカルな）、全域的な（グローバルな）、及び／又は準グローバルなエッジ内容及び／又は画像中のエッジ分布を表現する。エッジは、対角的、垂直的及び水平的なものを含む多数の種類のものとすることが可能である。２つの画像の間のエッジヒストグラム距離は、それらの対応するエッジヒストグラム特徴ベクトル同士の間の距離を見出すことで算出される。これらの距離は、差分絶対値の和又は二乗差分の和を利用することを含む様々な手法で発見されることが可能である。入力画像のＩｉｎｐｕｔと候補画像の集合｛Ｓ｝中の画像各々との間の距離は、エッジヒストグラム差分に基づいて算出されることが可能である。Ｉｉｎｐｕｔに対して最小の距離を有する｛Ｓ｝中の画像は、合致する画像Ｉｍａｔｃｈであると宣言される。Ｉｉｎｐｕｔに対するＩｍａｔｃｈの距離は、ＭｉｎＤｉｓｔａｎｃｅ（最小距離）と呼ばれる。適合信頼性スコアＣｍも算出される（そのような算出例は以下に説明される。）。また、メタデータもエッジヒストグラム照合技術により出力される。例えば、メタデータは入力画像中の「エッジ数」を含み得る。

本発明の実施例によれば、修正されたエッジヒストグラム照合技術が以下のようにして使用される。以下の説明は、その手法がスライドの画像について使用されることを仮定している。画像中のテキスト領域は、力強い水平及び垂直のエッジを含む。スライド画像のローカルな水平及び垂直のエッジヒストグラムは、テキスト量及び画像のテキストレイアウトを効果的に表現するように使用される。

エッジヒストグラムは、本発明の実施例により以下のようにして抽出される。先ず、図６（Ａ）及び図６（Ｂ）に示されるようなエッジ検出演算子（例えば、ソベル（Ｓｏｂｅｌ）オペレータ）が、エッジの大きさを取得するために画像に適用される。パラメータ「ｔ」はエッジ検出に使用されることが可能である。パラメータ「ｔ」は、複数キャラクタのエッジがスライド画像内でどの程度の幅であるかの推定値である。即ち、そのエッジにおいて、前景色を有するオブジェクトが背景色で置かれると、ほとんどの場合に、前景及び背景の間の遷移は鋭くない。正確に背景色又は前景色を有しないが、それらの中間の色を有する画素がエッジに存在する。ほとんどの場合に、これらの画素は、捕捉装置のローパスフィルタによって導入される。本発明の実施例によれば、値ｔ＝４が使用される。エッジ照合の実効性（パフォーマンス）は、全てのエッジが同じ「ｔ」の値を用いて抽出される限り、「ｔ」に強くは依存しないことに留意することが重要である。

ある画像についてエッジの大きさが比較された後に、そのエッジの大きさが閾値より大きい場合であって、エッジ方向が変更されるとき又は現在の画素の場所が以前のエッジ画素から充分に遠い（＞１）ときにのみ、エッジが検出される。垂直エッジ検出用の擬似コードは以下のように与えられる。水平エッジは同様な方法で発見される。

水平及び垂直エッジ画素が抽出された後に、画像はＮ×Ｍ個のセグメントに分割され、ローカルな水平（Ｈ_ｈｏｒ）及び垂直（Ｈ_ｖｅｒ）エッジヒストグラムを形成するためにセグメントの各々について水平及び垂直エッジ画素数が別々に算出され、次のようにそれらの対応するセグメントにおける全画素数によって規格化される。

ここで、Ｎは水平セグメント数であり、Ｍは垂直セグメント数であり、ＶｅｒｔｉｃａｌＥｄｇｅ（垂直エッジ）［ｘ］［ｙ］は、（ｘ，ｙ）の位置にて検出されたエッジの値であり、Ｓ_Ｎ及びＳ_Ｍは画素におけるセグメントの高さ及び幅（ｎ，ｍ）であり、Ｓ_Ｎ＝画像幅／Ｎ及びＳ_Ｍ＝画像高さ／Ｍによって見出される。水平エッジヒストグラムＨ_ｈｏｒも同様な手法で見出される。

結果の特徴ベクトルはＮ×Ｍ個の垂直エッジヒストグラムビン（ｂｉｎ）及びＮ×Ｍ個の水平エッジヒストグラムビンを含む。２つの全域的エッジ属性もその特徴ベクトルに含まれ、それらは垂直及び水平エッジヒストグラムのヒストグラム値を別々に加算し、次のようにＮ×Ｍでそれらを除算して規格化することによって算出される。

結果の特徴ベクトルは、

のようになる。

この処理は（カニー（Ｃａｎｎｙ）エッジ検出法で一般に使用されるガウシアンフィルタのような）ローパスフィルタ処理を利用しないので、自然画像及びテクスチャにおけるエッジが、エッジヒストグラムに大きく寄与する傾向になる。これは望ましいことである、というのは、テキストに加えて画像を含むスライドの正確な照合をそれらが支援するからである。プレゼンテーションスライド背景が粗い（ｔｅｘｔｕｒｅｄ）場合には（例えば、エッジヒストグラムが各ヒストグラムビン及び各スライドについて一貫して高い値を有する場合には）、エッジ検出に先立ってその背景のテクスチャを抑圧するための円滑化フィルタ又はスムージングフィルタが使用されることが可能である。

エッジヒストグラム特徴ベクトル

及び

の間の距離はそれらの差分のＬ２ノルムを算出することで見出すことが可能であり、そのＬ２ノルムは各ベクトル値の差分の二乗和である。

（２）レイアウト照合
画像のレイアウトは、画素の色彩及び強度が画像中でどのように分布しているかを大凡表現する。一般に、画像の各色彩チャネルは、画像のレイアウトを算出するために平均化フィルタにより空間的にダウンサンプルされる。画像がグレイスケール又は白黒であるならば、輝度チャネルのみが考察される。２つの画像レイアウト間の相違は、各色彩チャネルの対応する各レイアウト位置の間の差分の絶対値を加算することによって見出される。入力画像Ｉｉｎｐｕｔ及び候補画像群｛Ｓ｝中の画像の間の差分は、これらのレイアウト差分に基づいて算出されることが可能である。Ｉｉｎｐｕｔに対して最小距離を有する｛Ｓ｝中の画像は、合致する画像Ｉｍａｔｃｈであるとして宣言される。Ｉｉｎｐｕｔに対するＩｍａｔｃｈの差分は最小距離ＭｉｎＤｉｓｔａｎｃｅと呼ばれる。また、適合性信頼性スコアＣｍも算出される（そのような計算例は上記に説明されている。）。また、メタデータもレイアウト照合技術によって出力されることが可能である。

プレゼンテーションスライドの画像が何らのテキストもエッジも含まない場合が存在し得る。そのような場合には２つの画像間の相違は、レイアウト距離によって見出されることが可能である。一実施例によれば、スライド画像の各色彩チャネルは、平均化フィルタによりダウンサンプルされ、２つの画像間のレイアウト距離を見出すために差分絶対値の和が算出される。

一般に、画像のスライド領域は、レイアウト距離を算出するのに先立って分割される必要がある。従って、この技術は区分化される画像について使用される。例えばプレゼンテーションレコーダによって捕捉された画像のように、画像がスライド領域しか含まない場合には、区分化は必要とされない。

（３）ＯＣＲ文字列照合
２つの画像の類似性はそれらのテキスト内容に基づいて算出されることが可能である。ある画像のテキスト内容は、光文字認識（ＯＣＲ）を用いることによって取得されることが可能である。ＯＣＲは文献にて周知であり、画像にＯＣＲを実行する商用パッケージが存在する。スライド画像（即ち、スライドプレゼンテーション情報を含む画像）が既知のソースから取得されるならば、例えばパワーポイントファイル又はＨＴＭＬページから取得されるならば、そのパワーポイントファイルやＨＴＭＬページの構文（シンタックス）をデコードすることによって、そのファイルを形成するテキストを抽出することが可能である。テキストが抽出されると、入力画像Ｉｉｎｐｕｔ及び候補画像群｛Ｓ｝中の画像の間の距離が、その抽出されたテキスト間の編集距離（ｅｄｉｔｄｉｓｔａｎｃｅ）に基づいて算出されることが可能である。Ｉｉｎｐｕｔに対して最小の距離を有する｛Ｓ｝中の画像は、合致する画像Ｉｍａｔｃｈであると宣言される。Ｉｉｎｐｕｔに対するＩｍａｔｃｈの差分はＭｉｎＤｉｓｔａｎｃｅと呼ばれる。また、適合性信頼性スコアＣｍも上述したように算出されることが可能である。また、ＯＣＲ文字列照合技術によってメタデータも出力されることが可能である。例えば、そのメタデータは、その画像から抽出されたキャラクタ数（文字列長）を含むことが可能である。

本説明では、関心のある内容がプレゼンテーション情報、即ちプレゼンテーションスライドより成ることを想定している。プレゼンテーションスライドは、一般に、それらの背景と対照的な色彩で大きなフォントのテキストを含む。にもかかわらず、不鮮明さ、偏りその他の捕捉装置に導入される虞のある影響に加えて、捕捉中に生じる異なる照明状態や閉塞性（物陰に隠れること）等に起因して、そのようなスライドの画像からのテキスト抽出が依然として困難になる虞がある。変化する照明状態の中で及び粗い背景からテキストを分割する問題に対処する多くの研究がなされている（例えば、ＬｉｅｎｈａｒｔａｎｄＡ．Ｗｅｒｎｉｃｋｅ，“ＬｏｃａｌｉｚｉｎｇａｎｄＳｅｇｍｅｎｔｉｎｇＴｅｘｔｉｎＩｍａｇｅｓ，ＶｉｄｅｏｓａｎｄＷｅｂＰａｇｅｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣＳＶＴ，ｐｐ．２５６−２６８，２００２であり、その全内容は本願の参考に供される。）。テキストがセグメント化され２進化されると、スキャンソフト（ＳｃａｎＳｏｆｔ）（アメリカ合衆国マサチューセッツ州のスキャンソフトインコーポレーテッドにより開発されたスキャンソフト捕捉開発システム）及びトランジム（Ｔｒａｎｓｙｍ）（トランジムコンピュータサービスリミテッドにより開発されたトランジムＯＣＲエンジン）のような商用ＯＣＲパッケージがテキストを抽出するために使用される。

処理は次の２つのステップより成る：（ａ）２進化に続いて（ｂ）文字列距離の算出を行なう。

（ａ）２進化
カラー画像中のテキストを分割し且つ２進化するための様々なグローバルな及びローカルな閾値法は、（１）Ｏ．Ｄ．ＴｒｉｅｒａｎｄＡ．Ｊａｉｎ，“Ｇｏａｌ−ＤｉｒｅｃｔｅｄＥｖａｌｕａｔｉｏｎｏｆＢｉｎａｒｉｚａｔｉｏｎＭｅｔｈｏｄｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｐｐ．１１９１−１２０１，１９９５（２）Ｎ．Ｏｔｓｕ，“Ａｔｈｒｅｓｈｏｌｄｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｆｒｏｍｇｒａｙｌｅｖｅｌｈｉｓｔｏｇｒａｍｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｙｓｔｅｍｓ，ＭａｎａｎｄＣｙｂｅｒｎｅｔｉｃｓ，ｐｐ．６２−６６，１９７９及び（３）Ｒ．ＬｉｅｎｈａｒｔａｎｄＡ．Ｗｅｒｎｉｃｋｅ，“ＬｏｃａｌｉｚｉｎｇａｎｄＳｅｇｅｍｅｔｉｎｇＴｅｘｔｉｎＩｍａｇｅｓ，ＶｉｄｅｏｓａｎｄＷｅｂｐａｇｅｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣＳＶＴ，ｐｐ．２５６−２６８，２００２等に説明されており、これらの内容は本願の参考に供される。

周知のオツ（Ｏｔｓｕ）の方法のようなグローバル閾値法は、画像中に生じる虞のある明るさの変化に起因して適切ではない。更に、捕捉された画像は、関心のある領域又は内容以外のオブジェクト又は対象物（例えば、人々）を含む虞があり、それは適切なグローバル閾値の選択に影響を及ぼす。従って、ローカルな適応的な２進化法が使用される。トライア（Ｔｒｉｅｒ）等は、多数のローカルな２進化法を評価し、ＯＣＲに対してはニルバック法が最良に機能するという結論を得ている。ニルバック法は、局所的な近隣の平均及び標準偏差に基づいて、各画素に関する局所的な閾値を算出することに基礎を置いている。最良の実効性又はパフォーマンスを得るために、閾値選択に関する手法では、一般に、画像中のテキストの量及びサイズに関する定数が含まれている。これは、限られた範囲内で複数のフォントを含む所定の分解能でスキャンされる書類を２進化する際に行なう適切な仮定であり得る。しかしながら、そのような仮定は、ある画像から他の画像にかけて分解能及びフォントサイズが劇的に異なる可能性がある場合の画像照合プロセスには不適切である。そのような場合には、ニルバック法は、一定でない品質を有する２進画像を生成してしまう。本発明の実施例によれば、オツ法のローカルなバージョンが２進化に使用され、それは閾値選択に関して何らの定数もトレーニングも必要としない。オツ法は、２つの集合仮定に基づくクラス変動の中で最小になる最適な閾値を選択する。

２進化プロセスの一部として、背景とテキストとの間のコントラストを改善するために、ハイブースト（ｈｉｇｈｂｏｏｓｔ）フィルタが画像に最初に適用される。次に、画素の各々の位置について、１６×１６画素サイズの局所的な近隣に関する平均及び分散が算出される。テキストを含む領域は一般に大きな変動を有する。画素が近隣で非常に小さな分散を有するならば、それは背景の画素として分類される。或いは、オツのクラスタ法は、閾値を選択してそれに従って画素を分類するために、その画素周囲の１６×１６の領域に適用される。図７Ｂ，７Ｃ，７Ｄ及び図８Ｂ，８Ｖ，８Ｄは、図７Ａ，８Ａに示される２つのスライドショット例の２進化の結果を示す。図７Ａ，８Ａはオリジナルの（当初の）画像を示し、図７Ｂ，７Ｃはオツのグローバル閾値法による２進化結果を示し、図７Ｃ，８Ｃはニルバックのローカル閾値法による２進化結果を示し、図７Ｄ，８Ｄは本発明の実施例による修正された手法による２進化結果を示し、その修正された手法は、事前フィルタリングに続いて、高変動付近に関するオツのローカル閾値法を行なう。図７Ｂ，７Ｃ，７Ｄ，８Ｂ，８Ｃ，８Ｄに見受けられるように、本発明の実施例による修正法は、テキストの良好な２進化を達成し、良好なＯＣＲ結果を得ている。

スライドの画像からのテキスト抽出は、いくつかの他の有用なアプリケーションも有し得る。例えば、ＯＣＲ出力の分析に基づいて、ある人の興味のある話題のリストが自動的に編集又はコンパイルされることが可能である。他の関連する話題及びプレゼンテーションのリストが、その人の趣向に基づいて自動的に検索されることが可能である。

（ｂ）文字列距離算出
画像が２進化された後に、歪又はスキューが修正され、ＯＣＲが実行され、２つのスライド画像間の類似性スコアを見出すために、テキスト出力を用いて文字列照合が実行される。異なる装置から捕捉されたスライド画像からのＯＣＲ結果は、異なる精度になり得る。例えば、ディジタルカメラから抽出されたテキスト出力は、一般に、ＯＣＲしたスクリーン投影出力から得られたものよりも低い精度である。スライド照合が有益であると予測される多くのアプリケーションでは、ある捕捉ソースが他のものよりも多くの信頼性を有し、あるソースから得られたＯＣＲ結果はグランドトルス（ｇｒｏｕｎｄｔｒｕｔｈ）に近接する傾向にある。これは文字列照合を行なう際に考慮され、より信頼性のあるソースから得られた文字列はグランドトルス文字列として分類される。各スライドについて取得されたキャラクタは先ず連結される。そして、２つの文字列間の類似性スコアが次のようにして算出される。

ここで、

はグランドトルス文字列の長さであり、

は２つの文字列間の編集距離である。編集距離は、照合に必要とされる挿入及び削除の数を数えることによって算出される。句読点や、信頼性の低いソースから抽出された文字列中の外部キャラクタ等は無視される。

（４）ライン属性照合
ライン属性は、画像中の文字列の量、分布及び長さを表現する。入力画像Ｉｉｎｐｕｔ及び候補画像群｛Ｓ｝中の各画像の間の距離は、２つのライン属性間で算出される距離に基づいて算出されることが可能である。Ｉｉｎｐｕｔに対する最小の距離を有する｛Ｓ｝中の画像は、合致する画像Ｉｍａｔｃｈであるとして宣言される。Ｉｉｎｐｕｔに対するＩｍａｔｃｈの距離はＭｉｎＤｉｓｔａｎｃｅと呼ばれる。適合性信頼性スコアＣｍも上述したように算出される。また、ライン属性照合技術によってメタデータも出力される。例えば、メタデータは、画像中の最長の行の長さを含む。

この手法を用いる以下の説明は、関心のある比較される内容がスライド領域を含むことを仮定している。画像が不鮮明であると、そのような画像からの文字認識は非常に困難になる。更に、この画像についてレイアウト又はエッジヒストグラム照合技術を利用するには、正確に区分されたスライド領域を必要とするがそれは利用可能でないかもしれない。そのような画像はライン属性照合技術を用いて比較されることが可能である。本発明の実施例による修正されたライン属性照合の説明は、以下に与えられる。

修正されたライン属性照合技術によれば、画像中のテキスト領域が先ず識別される。テキスト領域は一般に力強い垂直エッジを有し、（エッジヒストグラム照合技術の説明で既に説明したような）垂直エッジ検出法が使用される。エッジは、各色彩空間Ｒ，Ｇ，Ｂ及び輝度にて算出される。エッジ画素が色彩空間のどこかで識別されると、エッジ画素が検出される。各画素位置について、隣接するウインドウＫ×Ｌ内のエッジ画素数を累積することによって、値Ｅ_ｘｙが算出される。適応的な閾値より大きなＥ_ｘｙの値を有する画素は、テキスト領域に属する画素としてマークされる。画像中の各水平ラインについて（それらが結びつけられる可能性のある破線が存在するならば）、ライン属性を求めるためにそのような画素の最大値（ｍａｘｉｍｕｍｒｕｎ）が算出される。これは、図９Ａ，９Ｂ，９Ｃ，１０Ａ，１０Ｂ，１０Ｃに示される。

図９Ａ及び１０Ａはプレゼンテーション情報より成る画像を示す。図９Ｂ及び１０Ｂは、テキストを含む可能性のある、図９，１０Ａに示される画像の領域を示す。図９Ｃ及び１０Ｃは、図９Ｂ及び１０Ｂに示される領域に関して、縦軸に投影されたラン（連続的なテキスト領域画素の最大数）を示すグラフを示す。各グラフのＸ軸は画像高さであり、Ｙ軸は連続的なテキスト領域画素の最大数である。ライン属性中のピーク（図９Ｃ及び１０Ｃ）は画像中の文字列に対応する。異なる分解能である可能性のある２つの画像のライン属性を照合するために、これらの値が先ず規格化される。規格化は、ライン属性におけるピーク値（画像中の最長の文字列に対応する）を発見すること、及びそのピーク値でライン属性のｘ及びｙの値双方をスケール変更することによってなされる。これは、水平及び垂直方向の双方における規格化を与える。そして、規格化されたライン属性値によって、特徴ベクトルが形成される。

異なる画像の特徴ベクトルは異なるサイズであるかもしれない。２つの特徴ベクトル間の距離は、それらのピーク値を有する２つのベクトルを並べ、差分の絶対値の和を算出することによって求められる。

以上本発明の特定の実施例が説明されてきたが、様々な修正例、代替例、変形構成及び均等物も本発明の範囲内に包含される。説明された発明は所定の特定のデータ処理環境内での動作に限定されず、複数のデータ処理環境内で自由に動作することが可能である。

加うるに、本発明は、特定の一連の処理及びステップを用いて説明されたが、本発明の範囲は、記載された一連の処理及びステップに限定されないことは、当業者に明白であろう。

更に、本発明はハードウエア及びソフトウエアの特定の組合せを用いて説明されたが、ハードウエア及びソフトウエアの他の組合せも本発明の範疇にあることが認識されるべきである。本発明は、ハードウエアのみによって、ソフトウエアのみによって又はそれらの組合せによって実現されることが可能である。

従って、明細書及び図面の記載は、限定を意味するのでなく例示であると考えられる。しかし、付加、削除、除去その他の修正や変更は、特許請求の範囲に記載された本発明の広範な精神及び範囲から逸脱せずになされることが可能であることは明白であろう。

関心のある領域が画像全体を占めている場合の入力画像を示す図である。関心のある領域が入力画像の一部を占めている場合の入力画像を示す図である。本発明の実施例を使用することの可能なデータ処理システムの概略ブロック図である。本発明の実施例による画像内容比較方法を示す上位概念的フローチャートを示す図である。本発明の実施例による図３に示される処理を実行するモジュールの概略ブロック図である。一群の候補画像が、異なる種類の捕捉装置又はソースから得られた画像を含む場合における、本発明の実施例による画像内容比較方法を示す上位概念的フローチャート５００を示す図である。本発明の実施例によりエッジ寸法を求めるために画像に適用されるエッジオペレータを表す図である。画像を示す図である。図７Ａに示される画像にオツ全域閾値法を適用することで得られた２進化結果を示す図である。図７Ａに示される画像にナイバックの局所閾値法を適用することで得られた２進化結果を示す図である。本発明の実施例により、図７Ａに示される画像に修正法を適用することで得られた２進化結果を示す図である。画像を示す図である。図８Ａに示される画像にオツ全域閾値法を適用することで得られた２進化結果を示す図である。図８Ａに示される画像にナイバックの局所閾値法を適用することで得られた２進化結果を示す図である。本発明の実施例により、図８Ａに示される画像に修正法を適用することで得られた２進化結果を示す図である。プレゼンテーション情報より成る画像を示す図である。テキストを含む可能性のある、図９Ａに示される画像の領域を示す図である。図９Ｂに示される領域に関して縦軸に投影されたランを示すグラフである。プレゼンテーション情報より成る画像を示す図である。テキストを含む可能性のある、図１０Ａに示される画像の領域を示す図である。図１０Ｂに示される領域に関して縦軸に投影されたランを示すグラフである。

符号の説明

１００入力画像
１５０入力画像
１５２関心のある領域
２００データ処理システム
２０２プロセッサ
２０４バスサブシステム
２０６格納サブシステム
２０８メモリサブシステム
２１０ファイル格納サブシステム
２１２ユーザインターフェース入力装置
２１４ユーザインターフェース出力装置
２１６ネットワークインターフェース
４０２画像分類モジュール
４０４セレクタ及び照合モジュール
４０６評価モジュール

Claims

１つ以上の捕捉装置から得られた候補画像群が、捕捉装置から得られた入力画像における関心領域が含んでいるプレゼンテーション情報に合致する画像を含んでいるか否かを判別するデータ処理システムであって、
プロセッサと、
前記プロセッサに接続されたメモリと
を有し、前記メモリは前記プロセッサに手順を実行させるコンピュータプログラムを格納し、該手順は、
前記入力画像及び前記候補画像群中の画像各々の種別を判別する種別判別ステップであって、画像の種別は、分割画像又は非分割画像の何れであるか及び光学文字認識により認識可能であるか否かにより判別され、前記分割画像は、前記プレゼンテーション情報を表す画像領域のみを含み、前記非分割画像は、前記プレゼンテーション情報を表す画像領域と前記プレゼンテーション情報以外の情報を表す画像領域とを含む、種別判別ステップと、
入力画像の種別、候補画像の種別及び複数の画像比較方法の所定の対応関係を利用して、前記種別判別ステップにより判別された種別に対応する複数の画像比較方法を特定するステップと、
前記複数の画像比較方法に含まれる画像比較方法を利用して、前記候補画像群が、前記プレゼンテーション情報に合致する画像を含んでいるか否かを判別する判別ステップと
を有し、前記複数の画像比較方法は、
画像中のエッジ分布に基づくエッジヒストグラムを利用して画像を照合する技法、
画素の色彩及び輝度の分布により表現された画像レイアウトを利用して画像を照合する技法、
光学文字認識により抽出されたテキストを利用して画像を照合する技法、及び
画像中の文字列の分布及び長さにより表現されたライン属性を利用して画像を照合する方法
を少なくとも含む群から選択された技法であり、
前記判別ステップにおける前記複数の画像比較方法に含まれる画像比較方法は、前記複数の画像比較方法のうち、所定の時間的制約を満たす画像比較方法である、データ処理システム。
前記種別判別ステップは、捕捉装置と分割画像又は非分割画像との所定の対応関係に基づいて、前記入力画像及び前記候補画像群中の画像が、分割画像又は非分割画像の何れであるかを判別する、請求項１記載のデータ処理システム。
前記判別ステップは、前記複数の画像比較方法に含まれる複数の画像比較方法を所定の順序にしたがって利用することで、前記候補画像群が、前記プレゼンテーション情報に合致する画像を含んでいるか否かを判別する、請求項１記載のデータ処理システム。
前記判別ステップが、さらに、
複数の画像比較方法の各々についての信頼性スコアに基づいて、前記プレゼンテーション情報に合致する画像として前記複数の画像比較方法によって導出された複数の画像から、ある画像を識別する、請求項１記載のデータ処理システム。