JP4335335B2

JP4335335B2 - ドキュメント画像のソート方法

Info

Publication number: JP4335335B2
Application number: JP32258298A
Authority: JP
Inventors: ジー．ボブローダニエル; ブイ．マホニージェームズ; ジェイ．ラックリッジウィリアム
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-11-14
Filing date: 1998-11-12
Publication date: 2009-09-30
Anticipated expiration: 2018-11-12
Also published as: US6562077B2; JPH11224346A; US20020029232A1

Description

【０００１】
【発明の属する技術分野】
本発明は、一般に、ドキュメントの大きなコーパスを管理しサーチするためのシステムに関し、より詳細には、ドキュメントの大きなコーパスに記録されたドキュメントのユーザが指定したレイアウト・コンポーネントによって組になったドキュメントをソートするシステムに関する。
【従来の技術】
【０００２】
様々な作業経験を調べることによって、コーパス内のドキュメントをそれらのタイプまたはジャンル（すなわち、機能カテゴリ）によってサーチし検索できるシステムで作業プロセス（すなわち、作業方法）を支援できることが分かっている。ドキュメントのいくつかのジャンルは、それらが様々な構成や作業プロセスにわたり繰り返されるという意味で一般的であり、その他のドキュメントのジャンルは、特定の構成、タスクあるいはユーザに特有である。たとえば、ビジネス・レターとメモは、一般的なジャンルの例である。各ドキュメントの右上角に個人の専用スタンプがある１組のドキュメントは、特定のユーザに特有のジャンルの例である。また、多くの様々なジャンルのドキュメントが、固有の空間的配置を示す既定の形式または標準的な一組のコンポーネントを有することが分かっている。たとえば、ビジネス・レターは、本文、著者と受取人のアドレス、および署名に分かれる。ドキュメントのジャンルを識別するために使用される特定のテキスト・ベースの識別子と異なり、ドキュメントのレイアウト構造は、様々なクラスのドキュメントに当てはめることができる。
【０００３】
本発明は、ユーザが指定したドキュメントのレイアウト構造（すなわち、視覚的体裁）を定義して、マルチジャンルのドキュメントのデータベースに記憶されたドキュメントのサーチと検索を容易にする方法および装置に関する。このドキュメントのサーチ方法は、ドキュメントのレイアウト構造を定義する方法によるサーチに焦点を合わせる。ドキュメント内のテキストをサーチするための多くの技法と違って、このようなレイアウト構造によりドキュメントをサーチする技法は、ドキュメント内に確認されたテキスト内容ではなく体裁（外観）に基づく。そのようにレイアウト構造に基づいてドキュメントをサーチするための一般的な前提は、テキストドキュメントのレイアウト構造がそのジャンルを反映することである。たとえば、ビジネス・レターは、雑誌記事よりも互いに視覚的に似ている点が多い。したがって、ドキュメントのクラスを知りつつ特定のドキュメントをサーチするユーザは、サーチするドキュメントのグループの範囲をより有効に絞り込むことができる。
【０００４】
本発明が取り組む１つの問題は、スキャンしたドキュメントの大きなコーパスを最も効率よく管理する方法である。多くのドキュメントのサーチおよび検索システムは、全てのスキャンしたドキュメント画像にＯＣＲ（光学式文字認識）を適用した結果に完全に依存する。一般に、ＯＣＲ技法は、解読してライブラリ内の文字と突き合わさる個々の文字に画像を分割する処理を含む。通常、そのようなＯＣＲ技法は、高い計算能力を必要とし、一般に無視できない程の認識エラーを有し、しばしば画像処理に膨大な時間を必要とする。動作において、ＯＣＲ技術は、１つの文字の各ビットマップをその隣の文字と区別し、その外観を解析して、それを所定の一組の文字内の他の文字と区別する。
【０００５】
ビットマップ画像でＯＣＲ解析を実行する代替は、ビットマップ画像上で内容ベースのサーチを実行するシステムである。そのようなシステムの例は、ＩＢＭのＱｕｅｒｙＩｍａｇｅＣｏｎｔｅｎｔ（ＱＢＩＣ）システムである。ＱＢＩＣシステムは、SPIE Proc. Storage and Retrieval for Image and Video Databases、1993における、ニブラック（Niblack ）他による「ＱＢＩＣプロジェクト：色、テキストおよび形状を利用した内容による画像照会（The QBIC project: querying images by content using color, texture and shape)」と題する論文、およびSPIE Proc. Storage and Retrieval for Image and Video Databases、ページ24〜35、1995における、アッシュレー（Ashley）他による「ＱＢＩＣにおける画像注釈および検索の自動および半自動方法（Automatic and semiautomatic methods for image annotation and retrieval in QBIC) 」と題する論文に開示されている。ＱＢＩＣ検索エンジンのデモは、インターネットの「http://wrvwqbic.almaden.ibm.com/-qbic/qbic.html 」で見ることができる。ＱＢＩＣシステムを使用することにより、大きな画像データベース内のビットマップ画像を、色の割合、色のレイアウト、テクスチャなどの画像特性によって照会することができる。ＱＢＩＣ（登録商標）システムによって実現される画像ベースの照会は、絞り込んだサーチを行うために、テキストやキーワードと組み合わされる。
【０００６】
内容ベースの照会を行うもう１つのシステムは、ＵＣバークレー・ディジタル・ライブラリ・プロジェクト(UC Berkeley Digital Library Project) の一部分として開発されている。低レベルの画像の特性に依存してサーチを実行するＱＢＩＣ（登録商標）システムと違い、バークレーのシステムは、低レベル領域の特性と関係をグループ化して高レベルのオブジェクトを定義する。バークレーのシステムの前提は、色とテクスチャの意味のある配置によって高レベルのオブジェクトを定義できることである。バークレーのシステムの態様は、チャド・カーソン（Chad Carson ）他による「領域ベースの画像照会（Region-Based Image Querying ）」、CVPR '97 Workshop on Content-Based Access of Image and Video Libraries、サージ・ベロンギ（Serge Belongie）他による、「学習フレーム構造を使用する大型データベース内の画像の認識（Recognition of Images in Large Databases Using a Learning Framework)」、UC Berkeley CS Tech Report 97-939 、およびチャド・カーソン（Chad Carson ）他による「大型オン・ライン画像収集のための特徴データの記憶と検索（Storage and Retrieval of Feature Data for a Very Large Online Image Collection）」、IEEE Computer Society Bulietin of the Technical Committee on Data Engineering 、1996年12月、 Vol.19 、No.4の、論文と参考文献に開示されている。
【０００７】
スキャンしたドキュメントの内容の判読にＯＣＲプログラムなどを使用する他に、ハードコピードキュメントをスキャンするたびにドキュメントメタデータ（すなわち、ドキュメント情報）を記録することも一般的である。このドキュメントメタデータは、テキストとしてサーチ可能であり、ドキュメントの主題、ドキュメントの著者、ドキュメント内にあるキーワード、ドキュメントの題名、およびドキュメントのジャンルまたは種類を含む。ドキュメントを識別するためにドキュメントメタデータを使用する欠点は、特定のコーパスのドキュメントに指定されるジャンルが定まっていないことである。むしろ、コーパス内のドキュメントの異なるジャンルの数は、コーパスが大きくなるにつれて変化することがある。ドキュメントメタデータのさらに他の欠点は、ユーザがシステムに入力するのに時間がかかることである。その結果、スキャンしたドキュメントを管理しサーチするシステムは、コーパスに新しいドキュメントを追加したときにドキュメントフォーマットのカテゴリとサブカテゴリを定義する機構を十分に提供できるほど頑強でなければならない。
【０００８】
【発明が解決しようとする課題】
したがって、ＯＣＲプログラムとサーチ可能な入力ドキュメントメタデータを利用して識別されるテキストだけでなく、スキャンしたドキュメントの視覚的表現を識別することができるような、スキャンドキュメントの大きなコーパスを管理しサーチするためのシステムを提供することが望ましい。そのようなシステムは、ドキュメントの構造とフォーマットを定義する情報を利用してドキュメントを有利にサーチし、要約し、ソートし、送信する。また、そのようなシステムおいて、ユーザがドキュメントの特定のレイアウト・フォーマットによってドキュメントのジャンルを柔軟に指定するためのインタフェースを提供することが望ましい。これが必要な１つの理由は、ドキュメントを利用しコーパスに追加する過程でドキュメントのジャンルが変化したり出現したりする傾向があることである。したがって、理想的なシステムは、単一ユーザまたはユーザ・グループに関心のある新しいジャンルまたは特定のクラスのジャンルを指定するフレキシビリティをユーザに提供することである。
【０００９】
【課題を解決するための手段】
本発明によれば、メモリに記憶されたドキュメント画像をソートするシステムおよび方法ならびに製造物品が提供される。このドキュメント画像はメモリに記録された各々のドキュメント画像を一組のレイアウト・オブジェクトに分割することによってソートされる。この組の各ドキュメントのレイアウト・オブジェクトの各レイアウト・オブジェクトは、複数のレイアウト・オブジェクト・タイプのうちの１つであり、これらの複数のレイアウト・オブジェクト・タイプの各々は、ドキュメント画像の構造的要素を識別する。ドキュメントの特徴は、一組の特徴の各特徴がメモリに記録されたいくつかの組のレイアウト・オブジェクトの選択されたレイアウト・オブジェクトのグループを識別する一組の特徴から選択される。一組の画像セグメントはメモリにアゼンブルされる。一組の画像セグメントの各画像セグメントは、選択された特徴を形成するメモリに記憶されたドキュメント画像のこれらのレイアウト・オブジェクトを識別する。アゼンブルされた画像セグメントはメモリのクラスタにソートされ、各クラスタは選択された特徴を形成する類似したレイアウト・オブジェクトを有する画像セグメントのグループ化を定義する。
【００１０】
本発明の態様は、
ドキュメント管理システムのメモリに記憶されたドキュメント画像をソートする方法であって、
メモリに記録された各ドキュメント画像を、一組のレイアウト・オブジェクトに分割するステップを有し、一組のレイアウト・オブジェクトの各レイアウト・オブジェクトが複数のレイアウト・オブジェクト・タイプのうちの１つであり、前記複数のレイアウト・オブジェクトタイプの各々がドキュメントの構造要素を識別し、
一組の特徴からドキュメントの特徴を選択するステップを有し、その組の特徴の各特徴がメモリに記録された組のレイアウト・オブジェクトのうちの異なる組のレイアウト・オブジェクトのグループを識別し、
一組の画像セグメントをメモリにアゼンブルするステップを有し、一組の画像セグメントの各画像セグメントが選択された特徴を形成するメモリに記憶されたドキュメント画像のレイアウト・オブジェクトを識別し、
選択された画像セグメントとアセンブルされた前記一組の画像セグメントの前記画像セグメントの一つとの間の距離を計算し、
アゼンブルされた一組の画像セグメントを計算された前記距離とともにメモリのクラスタにソートするステップを有し、各クラスタが選択された特徴を形成する類似したレイアウト・オブジェクトを有する画像セグメントのグループ化を定義する、
ドキュメント画像のソート方法である。
【００１１】
本発明の以上の及びその他の態様は、同じ参照番号を類似の部分に使用した添付図面と共に以下の説明を読むことにより明らかになるであろう。
【００１２】
【発明の実施の形態】
Ａ．システムの概要
次に、表示が本発明について説明する目的であり本発明を制限するためのものではない図面を参照し、図１は、本発明を実施するためのコンピュータ・システム１１０を示す。コンピュータ・システム１１０は、ＲＯＭ、ＲＡＭあるいはその他の形態の揮発性または不揮発性の記憶装置を含むメモリ１１６に記憶された様々なオペレーティングプログラムを実行する中央処理装置１１４（すなわち、プロセッサ）を含む。ユーザ・データ・ファイルとオペレーティングプログラム・ファイルは、ＲＡＭ、フラッシュ・メモリ、フロッピィー・ディスクあるいはその他の形態の光学または磁気記憶装置を含むファイル記憶装置１１７に記憶される。
【００１３】
コンピュータ・システム１１０は、バス・インタフェース１１５を介して様々なｌ／Ｏ（入力出力）構成要素１１９に結合される。ｌ／Ｏ構成要素は、ファクシミリ１２６、プリンタ１２７、スキャナ１２８およびネットワーク１３０を含む。プロセッサ１１４は、バス１２４を介してプロセッサ１１４に様々なｌ／Ｏ構成要素１１９を結合するバス・インタフェース１１５とデータをやりとりするように適応される。メモリ１１６において実行する１つまたは複数のプログラムに応答して、プロセッサ１１４は、様々なｌ／Ｏ構成要素１１９と信号をやりとりする。ネットワーク１３０を介してコンピュータ・システム１１０をインターネットに連結させるすることができるため、プロセッサ１１４は、インターネット上の他のスキャナ、ファクシミリ、およびメモリ記憶装置から画像データを受け取ることができる。
【００１４】
メモリ１１６における動作が、本発明を含むドキュメントコーパスサーチシステム１４０である。システム１４０は、ＣＤＲＯＭ読取り装置１１８などのアクセス装置を介して、コンピュータ・システム１１０で読み出すことができるポータブル記憶媒体１４２内にソフトウェア製品としてパッケージされた製造物品と関連付けられてもよい。記憶媒体１４２は、たとえば、フロッピィ・ディスクなどの磁気媒体や、ＣＤＲＯＭなどの光学媒体、あるいはその他のデータを記憶するための適切な媒体である。
【００１５】
ディスプレイ１３２は、システム１４０を操作するユーザに情報を中継するユーザ・インタフェースを表示するために設けられる。ユーザがコマンドを入力するために、マウス、キーボード、タッチ・スクリーンを含むがこれらに制限されないユーザ入力装置１３４が設けられる。１つの例において、ディスプレイ１３２と入力装置１３４を使ってユーザ・インタフェースを操作し、ファイル記憶装置１１７に、スキャナ１２８、ファクシミリ１２６またはネットワーク１３０からのドキュメント画像を記録するように指示する。また、このユーザ・インタフェースを利用して、ファイル記憶装置１１７に、ファクシミリ１２６、プリンタ１２７またはネットワーク１３０にドキュメントの画像を送信するように指示することもできる。１つの実施形態において、システム１４０は、インターネット上で動作するブラウザから受け取ったコマンドによってコンピュータ・システム１１０上で操作される。
【００１６】
Ｂ．ドキュメントコーパス管理／サーチシステムの概要
図２は、本発明によりドキュメントのコーパスをサーチするためのドキュメントコーパス管理／サーチシステム１４０の詳細なブロック図を示す。ドキュメントコーパスサーチシステム１４０は、コーパス・マネージャ２１０、画像セグメンタ／識別装置２１１、検索エンジン２１２およびプログラム・マネージャ２１４の４つのオペレーティング構成要素を含む。ユーザからドキュメントコーパスサーチシステム１４０への入力は、ドキュメント入力インタフェース２１６、サーチインタフェース２１８、ジャンル・モデル・プログラム・インタフェース２１９または特徴プログラム・インタフェース２２０に応答して行われる。ディスプレイ１３２に表示されるインタフェース２１６、２１８、２１９および２２０の各々は、後でそれぞれ考察するドキュメントコーパスサーチシステム１４０によって提供される様々なサービスに対応する。１つの実施形態において、インタフェース２１６、２１８、２１９および２２０の各々は、マイクロソフト(Microsoft) 社のＥｘｐｌｏｒｅｒ^TMやネットスケープ(Netscape)社のＮａｖｉｇａｔｏｒ^TMなどの従来のインターネット・ブラウザによってネットワーク１３０によりインターネット上で動作する。
【００１７】
本発明により、ドキュメントコーパス管理／サーチシステム１４０は、幾何学的レイアウト解析を利用して、スキャンしたドキュメントの構造的記述を明らかにする。ドキュメントの構造的記述は、ドキュメントの構成またはレイアウト・フォーマットに基づく。ドキュメントの構造的記述を明らかにする際、画像セグメンタ２１１は、ドキュメントの一部の構造的記述であるレイアウト・オブジェクト２３８を識別する。さらに、画像セグメンタ２１１は、識別されたレイアウト・オブジェクトの属性２４０を計算する。レイアウト・オブジェクトの属性は、レイアウト・オブジェクトの特性を定量化し、あるいは他のレイアウト・オブジェクトに対する空間的関係を識別する。幾何学的レイアウト解析は、所与のジャンルの複数のドキュメント（たとえば、メモ）のドキュメント間の構造的類似度を識別するために有利に実行することができる。
【００１８】
ドキュメント画像（本明細書では単にドキュメントとも呼ぶ）のページ画像において分割されたレイアウト・オブジェクトの空間的配置は、属性２４０かまたは特徴２４２を使用して定義されることができる。ページ画像内のオブジェクトの空間的配置を定義する際、画像セグメンタ２１１は、ページ画像内に見られるテキストと図形の構造を調べる。ページ画像のテキスト構造は、ページ画像内のテキスト・ブロックが他のテキスト・ブロックによって定義された基準のフレームに対して持つ空間的関係によって説明される。画像セグメンタ２１１によって検出されるテキスト・ブロックは、テキストの段落などの構造的要素を識別する。空間的に関連づけることができるページ画像上のテキストと違い、ページ画像の図形構造は、特別な又はその場限りの図形関係を含んでもよい。
【００１９】
システム１４０は、ドキュメント画像のジャンル（すなわち、種類）が、ドキュメント画像のページ画像上の少なくともいくつかオブジェクトの空間的配置に反映されるという一般的な仮定の上で動作する。特徴プログラム・インタフェースを使用して、特徴２４２が、ユーザによって定義される。ユーザは、特徴を導き出す他に、ジャンル・モデル・プログラム・インタフェース２１９を使用してジャンル・モデル２４４を指定することができる。各ジャンル・モデル２４４は、収集された複数のドキュメント画像の間で共用されるドキュメント画像におけるページ画像内のオブジェクトの空間的配置を識別する。ジャンル・モデルを定義することにより、ユーザは、ドキュメント内容に依存しない共通の通信目的を表すドキュメント画像のクラスを定義することができる。
【００２０】
Ｃ．ドキュメントのコーパスのソート
ドキュメント入力インタフェース２１６を介し利用可能にされたサービスは、ドキュメント画像２３７のデータベース（またはコレクション）を作成するための機能を提供する。ドキュメント画像のデータベースは、スキャンしたハードコピードキュメントか電子的に作成したドキュメントのいずれかによって作成される。たとえば、スキャナ１２８を利用して、ハードコピードキュメントを表現するビットマップ画像を作成することができ、一方入力装置１３４を利用して電子ドキュメントを作成することができる。さらに、ドキュメント画像のデータベースは、スキャンしたハードコピードキュメントと電子的に生成したドキュメントの両方をネットワーク１３０を介して受け取ることによって作成することもできる。
【００２１】
ファイル・システム１１７を作成するドキュメントのコレクション（収集物）は、階層的に配列される。当業者には、本発明の目的のために、本明細書で説明する操作をドキュメントのコレクション全体でもドキュメントのコレクションの部分集合上でも実行できることを理解されよう。ファイル・システムの階層の一部として、各ドキュメント画像２３７は、１つまたは複数のページの配列、１つまたは複数のジャンル値２４４へのポインタ、およびドキュメントメタデータ２２４へのポインタを含むドキュメントデータ構造と関連付けられる。ページの配列における各ページは、ページ画像２２６へのポインタを含むページデータ構造と関連付けられ、１つまたは複数の縮小スケール画像２２８へのポインタ、１つまたは複数の構造画像２３０へのポインタ、レイアウト・オブジェクト２３８へのポインタ、属性２４０へのポインタ、ＯＣＲ済みテキスト２３６へのポインタまたは特徴値２４２へのポインタを含んでもよい。各ドキュメント画像２３７は、階層的配列にしたがって、１つまたは複数のページ画像２２６を含む。ここでは、ページ画像２２６は、スキャンされたハードコピーまたは電子的に生成したドキュメントの１ページとして定義される。
【００２２】
コーパス管理２１０は、ユーザからのコマンドに応答して、ファイル・システム１１７にドキュメント画像２３７を記録する。ユーザは、ドキュメント入力インタフェース２１６を使って、ドキュメントメタデータ２２４としてファイル・システム１１７に記録されるドキュメント画像の特性を手動で指定することができる。ユーザは、このときまたは少し後でドキュメントメタデータ２２４を指定することができ、ドキュメント画像はスキャンされ、あるいはファイル・システム１１７に追加される。より具体的には、ファイル・システム１１７に記憶されたドキュメント画像のドキュメントメタデータ２２４には、ドキュメントタイプ識別子、ドキュメント作成日、ドキュメントタイトルおよびドキュメントキーワードを記録されることがある。
【００２３】
コーパス・マネージャは、ドキュメントメタデータ２２４とページ画像２２６を記憶する他に、縮小スケール画像２２８と構造的画像２３０を生成する。ユーザの好みにより、ユーザが特定の解像度を選択して、記録されたページ画像を見ることができる。ユーザの好みにより、ページ画像２２６のそれぞれごとに解像度が異なる縮小スケール画像が生成される。１つの実施形態において、縮小スケール画像は、米国特許第５，４３４，９５３号明細書に記載された方法を使って生成される。一般に、縮小スケール画像は、より高い解像度のページ画像への視覚的インデックスとして使用される。構造的画像２３０は、縮小スケール画像と同様、ユーザが指定することができる可変の解像度を有する。しかしながら、縮小スケール画像と違って、構造的画像２３０は、ページ画像内の特定のレイアウト・オブジェクトを強調する。１つの実施形態において、コーパス・マネージャ２１０は、ディスク・スペースを節約する必要がある場合に、縮小スケール画像と構造的画像を生成する。
【００２４】
Ｃ．１レイアウト・オブジェクトの分割
ドキュメント画像２３７のページ画像２２６を記録した後、画像セグメンタ２１１は、各ドキュメント画像のページ画像を１つまたは複数のレイアウト・オブジェクト２３８に分割する。ページ画像の分割された各レイアウト・オブジェクトは、画像セグメンタ２１１によって、表１に示した基本レイアウト・オブジェクト・タイプ（または、「レイアウト・オブジェクト」）のうちの１つとして識別される。レイアウト・オブジェクトは、本明細書において、ドキュメント画像の要約部分の構造的記述である基本要素として定義される。（ここで定義したように、ドキュメント画像は暗黙的にそのページ画像を指す）しかしながら、当業者は、表１の基本レイアウト・オブジェクト・タイプのリストが例示であり、その他のレイアウト・オブジェクト・タイプを含むように変更できることを理解されよう。たとえば、表１は、ハーフトーン領域用のレイアウト・オブジェクトを含むことができる。
【００２５】
【表１】

【００２６】
１つの実施形態において、画像セグメンタ２１１は、Ｒ．ハラリック（R. Haralick ）による論文「ドキュメント画像についての理解：幾何学的レイアウトと論理的レイアウト（Document image understanding: geometric and iogical layout）」、Proc. IEEE Conf.On Computer Vision and Pattern Recognition、1994: 385-390 に考察されているように、光学式文字認識システムでテキスト・ブロックを検出するために使用される標準的な数学形態論法に基づくテキスト・ブロック分割を実行する。もう１つの実施形態において、画像セグメンタ２１１は、ゼロックススキャンソフト(Xerox ScanSoft)社によって作成されたソフトウェア・プロダクトTextBridgeR に使用されたものと類似のテキスト・ブロック分割プロセスを実行することができる。
【００２７】
Ｃ２．レイアウト構造の定義
ドキュメント画像のページ画像を１つまたは複数のレイアウト・オブジェクト２３８に分割した後、画像セグメンタ２１１は、各分割したレイアウト・オブジェクトに対応する画像属性２４０を計算する。ドキュメントのテキストの内容に関して動作する他の画像解析技術と比較して、レイアウト・オブジェクトの画像属性を定義する利点は、ページ画像を解析して画像属性を識別することは文字認識に依存しないことである。さらに、いくつかの状況では、ドキュメントのレイアウト・オブジェクトが、ドキュメントのジャンル（たとえば、レター、メモなど）に関して、ドキュメント画像のページ画像内のテキストの内容よりも多くの情報を提供する。したがって、本発明のさらに他の利点は、ドキュメント画像のレイアウト・オブジェクトのテキスト内容が理解されているかどうかに関係なく稼働することである。本発明は、テキスト情報を利用してレイアウト・オブジェクトの内容を識別するのではなく、レイアウト・オブジェクトの属性とそれらの属性の互いの関係を解析することによって、ドキュメント画像の可視外観についての認識を明らかにする。
【００２８】
表２〜６に示した属性を計算するために、様々な技法が使用される。表２〜６において定義した多くの属性は、あるテキストのいくつかのブロックがテキストの他のブロックに関連して持つ空間的関係によってページ画像のレイアウト構造を指定する。表２に示したレイアウト・オブジェクトの基本的な２つの属性は、ｒｕｎｎｉｎｇ（本文部）テキスト・ブロックとｎｏｎ−ｒｕｎｎｉｎｇ（非本文部）テキスト・ブロック（たとえば、ｒｕｎｎｉｎｇ、ｎｏｎ−ｒｕｎｎｉｎｇ）を区別する属性と、テキスト・ブロック（たとえば、ｔｏｐ−ｎｒ（上部非本文部、ｍｉｄ−ｎｒ（中間非本文部）の間のグループの関係（または、アラインメント）を定義する属性を含む。
【００２９】
識別した後は、ｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロックは、米国特許第５，５３７，４９１号に開示された方法を利用して、画像の上／下、右／左の境界と重なる相対的程度に基づいてページ画像における上、下または中央の位置のいずれかを有するようにラベルが付けられる。さらに、ｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロックは、左、右または中央のいずれかの垂直アラインメント（垂直位置合わせ）を有するようにラベルが付けられる。たとえば、ｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロックにｌｅｆｔ−ａｌｉｇｎｅｄ（左揃え）とラベルを付けるためには、ｒｕｎｎｉｎｇテキスト・ブロックの単一の列が属するｌｅｆｔ−ｘグループに属さなければならない。（すなわち、ｌｅｆｔ−ｘ値は、ｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロックとｒｕｎｎｉｎｇテキスト・ブロックの両方で同じである）。これには、すべてのテキスト・ブロックのｌｅｆｔ−ｘ座標、ｒｉｇｈｔ−ｘ座標およびｃｅｎｔｅｒ−ｘ座標に対して個別に十分に安定した方法を適用する必要がある。さらに、ｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロックは、水平方向の一連のテキストブロック、垂直方向の一連のテキスト・ブロックまたはテーブルのいずれかとしてラベルが付けられる。これらの操作は、さらに他の特定の属性を定義するために組み合わせることもできる（たとえば、ｔｏｐ−ｌｅｆｔ−ａｌｉｇｎｅｄのｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロック）。また、これらの操作は、その他の操作と組み合わせて、画像属性にさらに他の幾何学的な制約を課すこともできる（たとえば、上のｎｏｎ−ｒｕｎｎｉｎｇテキスト領域内の全テキスト・ブロック領域に対して標準化されたｔｏｐ−ｌｅｆｔ−ａｌｉｇｎｅｄのｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロック）。
【００３０】
レイアウト・オブジェクトの属性タイプは、一般属性タイプと指定属性タイプに分けられ、ファイル・システム１１７に属性２４０として記憶される。一般属性タイプは、すべての基本レイアウト・オブジェクトに定義される属性である。表２は、表１にリストにした各レイアウト・オブジェクト（すなわち、ｌ／ｏ）の一般属性を示す。指定属性タイプは、具体的には特定のタイプのレイアウト・オブジェクトに定義される属性である。たとえば、表３は、テキスト・オブジェクトのタイプ指定属性のリストであり、表４は、図形オブジェクトのタイプ指定属性のリストであり、表５は、ページ・オブジェクトのタイプ指定属性である。さらに、レイアウト・オブジェクトの一般属性タイプと指定属性タイプを使って、合成的な属性を定義することができる。表６は、一般的なタイプのオブジェクトを使って定義された合成属性を示す。
【００３１】
【表２】

【００３２】
【表３】

【００３３】
【表４】

【００３４】
【表５】

【００３５】
【表６】

【００３６】
表２〜６のそれぞれに示した属性は、二進値（すなわち、真／偽）でも数値（すなわち、整数または実数）でもよい。表２〜６でイタリック体フォント（表２のｒｕｎｎｉｎｇからｂｏｔ−ｎｒ（下部非本文部）までと、表３のｌｅｆｔ- ａｌｉｇｎｅｄからｖ−ｉｎｔｅｒｎａｌまで）で表した属性タイプは、ブール値を有する。二進値の属性は、通常、レイアウト・オブジェクト間のセット・メンバーシップ関係を表わす。たとえば、「ｒｕｎｎｉｎｇ」や「ｎｏｎ−ｒｕｎｎｉｎｇ」などの二進値の属性の一般属性タイプは、レイアウト・オブジェクト間のグループ化関係を定義する。数値の属性は、通常、オブジェクトの真の幾何学特性、または順序関係に対する組のインデックスを表す。タイプ属性値は、表２〜６では記号として表わされているが、絶対値（すなわち、標準化されていない）属性値は数値で表されることを、当業者は理解されよう。
【００３７】
各ページ画像２２６のレイアウト・オブジェクト２３８を識別した後、テキスト・ブロックとして識別されたレイアウト・オブジェクトは、画像セグメンタ２１１の一部を構成する識別装置（識別子）によってさらに処理することができる。１つの実施形態において、テキスト・ブロックとして識別された各レイアウト・オブジェクトが、その中にあるテキストを認識するために、光学式文字認識技法または適切な代替技法を利用して識別装置２１１によって処理される。しかしながら、当業者は、本発明の目的のため、テキスト・ブロックとして識別されたレイアウト・オブジェクトにはＯＣＲを実行する必要がないことを理解されよう。しかしながら、後で考察する教示から明らかになるように、テキスト・ブロックとして識別されたレイアウト・オブジェクト内のテキストを認識するためのいくつかの利点が存在する。テキスト・ブロック・レイアウト・オブジェクト内で認識されたテキストは、テキスト２３６としてファイル・システム１１７に記憶され、検索エンジン・インタフェース２１８によるテキスト・ベースのサーチを使用してサーチすることができる。
【００３８】
Ｃ．３画像データの概要
図３は、ファイル・システム１１７に記憶されたドキュメント画像２３７の各ページ画像２２６と関連付けられたデータの構成を示す。最初に、ユーザは、たとえばドキュメントスキャナ１２８から受け取ったスキャン画像をファイル・システム１１７に入れる。ユーザは、ドキュメント画像に関するドキュメントメタデータ２２４を、タイプ、日付、タイトルおよびキーワードの情報として入力することができる。コーパス・マネージャ２１０は、ページ画像２２６のサブサンプリングして一組の縮小スケール画像２２８を構成する。解像度が最も低い縮小スケール画像は、ここでは略図(thumbnail) 画像として定義される。解像度がさらに低いその他のページ画像は、ここでは、大型画像、中型画像および小型画像として定義される。さらに、構造画像２３０は各分割レイアウト・オブジェクト２３８毎に計算されることができる。前述のように、画像セグメンタ２１１は、ドキュメント画像のページ画像２２６をレイアウト・オブジェクト２３８に分割する。ページ画像２２６から分割された各レイアウト・オブジェクト毎に、画像セグメンタが、さらに画像属性２４０を計算しコンパクトな形で記憶する。画像属性２４０は、タイプ一般属性でもタイプ指定属性でもよい。属性の他に、ページ画像の各レイアウト・オブジェクト２３８は、１つまたは複数の特徴２４２またはジャンル・モデル２４４と関連付けることができる。特徴２４２は、後で節Ｄで説明するような属性２４０を使用して定義される。ジャンル・モデル２４４は、後で節Ｅで説明するように、属性２４０かまたは特徴２４２のいずれかを使用して定義される。
【００３９】
Ｄ．特徴を利用したドキュメントのレイアウト・フォーマットの定義
特徴プログラム・インタフェース２２０を使用して、ユーザは、特徴を検出するルーチンを構成することによって、特定のジャンルのドキュメントに固有のレイアウト・フォーマットを指定することができる。たとえば、ページ画像の特徴のルーチンを使って、固有のレター・ヘッドを有するドキュメント画像を識別することができる。一般に、各特徴２４２は、ルーチンと値によって定義される。特徴のルーチンは、明示的な分岐操作のない１つまたは複数のステップのシーケンスを有する直線的プログラムである。ルーチンの各ステップは、ページ画像２２６の一組または一部のレイアウト・オブジェクトをゲート制御するかまたはフィルタリングする選択操作である。ルーチンの各選択操作は、特徴プログラム・インタフェース２２０によりユーザによってプログラムされる。ルーチンは、ページ画像の一組のレイアウト・オブジェクトのすべてまたは部分集合を入力とみなす。ルーチンの選択操作（単数又は複数）および評価するレイアウト・オブジェクトによって、ルーチンの出力は、ルーチンに入力された一組のレイアウト・オブジェクトのうちのすべてまたは一部を出力するか、何も出力しない。
【００４０】
ユーザが、特徴プログラム・インタフェース２２０において特徴をプログラムすると、プログラム・マネージャ２１４は、その特徴のルーチンを他の特徴２４２と共にファイル・システム１１７に記録する。さらに、プログラム・マネージャ２１４は、ユーザが指定した時間に、ファイル・システム１１７の各ページ画像２２６のページ画像について１回に１つ、ルーチンで指定された選択操作を実行する。すなわち、選択操作は、ドキュメント画像を形成するページ画像の数に関係なく、単一のページ画像のレイアウト・オブジェクトに関してプログラム・マネージャによって実行される。ルーチンの各ステップにおいて、プログラム・マネージャ２１４は、レイアウト・オブジェクトの計算した属性（属性の例については表２〜６を参照）が指定の制約に適合するか否かを判定する。ルーチンの各ステップごとに判定した後の結果は、そのページ画像の値である。ページ画像の特徴の値が、レイアウト・オブジェクトの空集合（すなわちヌル）である場合、ページ画像の中に特徴は表われない。これと対照的に、特徴の値が、レイアウト・オブジェクトの空集合ではない組の場合は、ページ画像の中に特徴が表われる。
【００４１】
１つの実施形態において、特徴の選択操作を満足するレイアウト・オブジェクトを有するページ画像のリストと共に、特徴がファイル・システム１１７に記録される。検索を迅速にするために、特徴の選択操作を満足するレイアウト・オブジェクトのインデックスが、各ページ画像と共にファイル・システム１１７に記憶される。実際には、特徴２４２を使用して、プログラムされた特徴の選択操作（単数又は複数）を満足する属性２４０を有するレイアウト・オブジェクト２３８とを有するページ画像２２６を識別する。追加のページ画像２２６がページ画像のコーパスに追加されると、それらの追加のページ画像に関して、レイアウト・オブジェクト２３８、属性２４０および特徴２４２を計算することができる。この計算は、一般に、一回だけでよく、これにより、検索エンジン２１２の起動にページ画像のランタイム画像解析が不要になる。
【００４２】
Ｄ．１プログラム・ルーチン
所与のコーパスのドキュメント画像の分割されたレイアウト・オブジェクトに関して一組の画像属性を計算した後、それらの属性を使って特徴を定義することができる。さらに、１つまたは複数の特徴を定義した後で、属性と任意の既存の特徴の両方を利用して新しい特徴を定義することができる。このように、予め定義した特徴を利用して特徴を定義することができる。たとえば、１つまたは複数のルーチン（または関数）を利用して特徴を定義して、ページ画像内の特定の構造的レイアウトを有する領域に選択操作を実行することができる。その最も簡単な形態において、ページ画像に適用されるときに、ルーチンの出力がルーチンの定義を満たすページ画像内の一組のレイアウト・オブジェクトになるように、ルーチンが定義される。
【００４３】
実際には、ページ画像のレイアウト・フォーマットは、組になったレイアウト・オブジェクト２３８上で稼働するルーチンを利用してプログラムすることができる。ユーザは、ユーザが一連の基本操作またはその他の予め定義されたルーチンを定義するだけでよいプログラム構成言語を使ってルーチンをプログラムする。これらの一連の基本操作は、ファイル・システム１１７に記憶されたドキュメントのコーパスの全体または部分集合に適用することができる。前述の節Ｃで説明したようにコーパスが作成（母集団化）されるとき、各ページ画像２２６毎に、所与のページ画像に定義された一組のすべてのレイアウト・オブジェクトを指定する一組のレイアウト・オブジェクトＬi が定義される。各ルーチンは、実行されると、一組のレイアウト・オブジェクトＬi を消費し、新しい組のレイアウト・オブジェクトＬo を生成する。ここで、Ｌo は、一組のレイアウト・オブジェクトLiの部分集合である。
【００４４】
プログラム構成言語を使ってプログラムされたいくつかのルーチンＲは、フィルタ操作および／またはゲート操作を構成する。フィルタ操作Ｆ（Ｌ、Ａ、ｕ、ｖ、Ｎ）は、Ｌにおけるレイアウト・オブジェクトの部分集合を生成し、Ｌの属性引数Ａの値はしきい値ｕＮよりも小さくないがしきい値ｖＮよりも小さい。ゲート操作Ｇ（Ｌ、Ａ、ｕ、ｖ、Ｎ）は、Ｌの属性引数Ａの値がしきい値ｕＮよりも小さくないがしきい値ｖＮより小さい場合に、一組のレイアウト・オブジェクトＬを生成する。その他の状況では、空集合（すなわち、φ）を生成する。ゲート操作は、条件付き挙動のある一定の許容能力を提供する。定義した後、ゲート操作またはフィルタ操作のそれぞれのルーチンの選択操作を、ファイル・システム１１７に記憶されたそれぞれのページ画像２２６のレイアウト・オブジェクトに適用することができる。フィルタ選択操作とゲート選択操作は、数学的に次のように定義することができる。
【００４５】
F(L,A,u,v,N)＝｛l ∈L:uN≦A(l)＜vN｝及び
【００４６】

【００４７】
ここでＬは、各操作を適用する一組のレイアウト・オブジェクトを指定する入力引数である。
【００４８】
Ａは、属性の名前または特徴の名前として指定できる属性引数である。（属性引数Ａが、ルーチンＲで定義される場合、属性引数Ａは、次のような新しい二進値の属性Ａとして解釈される。
【００４９】

【００５０】
ｕとｖは、整数定数と実数値のスケールファクタのどちらのしきい値引数でもよい。
Ｎは、数値の正規化引数である。
【００５１】
プログラム構成言語を使ってプログラムされる他方のルーチンＲは、一組のレイアウト・オブジェクトＬを消費してスカラ数値を生成する。スカラ数値は、しきい値引数ｕまたはｖの一方を指定するかまたはゲート操作の属性引数Ａを指定するために、すべての選択操作に使用することができるレイアウト・オブジェクトの全体的な値を表す。そのようなスカラ数値を生成するルーチンはここでは累積演算として定義される。特徴構成言語は、ユーザに次の３つの累積演算を使ってルーチンを定義する機能を提供する。
【００５２】
ｍａｘ，ｍａｘ（Ｌ，Ａ），は、任意のｌ∈ＬＡに関してＡの最大値を生成する。
【００５３】
ｍｉｎ，ｍｉｎ（Ｌ，Ａ），は、任意のｌ∈ＬＡに関してＡの最小値を生成する。
【００５４】
ｓｕｍ，Σ（Ｌ，Ａ），は、全てのｌ∈ＬＡに関してＡの値の合計を生成する。
【００５５】
これらの累積演算は、Ｌが一連の操作の結果でもよいという点でフィルタ選択操作とゲート選択動作で構成することができる。
【００５６】
Ｄ．２特徴プログラム・インタフェース
図４は、基本操作のシーケンス（すなわち、直線的プログラム）を使用して特徴を定義するための対話サイクルのフロー図である。対話サイクルのステップは、一般的なものであり、任意の図形式、対話式、およびインクリメンタル・プログラミング・インタフェースを実施するために使用することができる。対話サイクルの利点は、構成中の直線的プログラムの各ステップが、ユーザが指定したページ画像の例に対する影響をすぐに確認できるという点である。特徴プログラム・インタフェース２２０（図２に示した）には、構成に従って対話サイクルが図形的に表示される。すなわち、ステップの間で表示されるプログラムを変更すると、選択した例の結果がすぐに更新され再表示される。
【００５７】
ステップ４００において、対話サイクルは、一組のドキュメント画像例２３７またはページ画像２２６を指定するようにユーザに要求することにより開始する。ステップ４０２において、ユーザは、プログラムされた特徴名を指定するように要求される。ステップ４０２で指定された特徴名が、既存のプログラムされた特徴２４２である場合は、ステップ４０８が実行される。そうでない場合は、ステップ４０６が実行される。ステップ４０６において、新しい特徴が、一組の特徴２４２に作成される。ステップ４０４または４０６で指定された特徴名を定義するルーチンが、ステップ４０８および４１０で定義される。ステップ４０８において、一組のレイアウト・オブジェクト２８８が、選択した特徴の入力レイアウト・オブジェクトとして指定される。より具体的には、ステップ４０８において、ユーザは、ステップ４１０で定義された第１の操作を適用する一組のレイアウト・オブジェクトを指定する入力引数Ｌを定義する。（この入力は、後で説明する例示の表７〜１６のステップ０と対応する）ステップ４１０において、定義する特徴の１つまたは複数の選択操作がユーザによって指定される。対話サイクルは、ステップ４１２で終わり、このステップでプログラムされた特徴がファイル・システム１１７に保存される。
【００５８】
図５は、ステップ４０８で定義した一組のレイアウト・オブジェクトに対して１つまたは複数の選択操作または累算操作を指定するステップを説明するフロー図である。ステップ５０２において、選択された特徴の第１のステップ名が、指定されるかまたは編集される。次に、ステップ５０４で、フィルタ選択操作、ゲート選択操作、または累算操作が指定される。ステップ５０６において、フィルタ選択操作の属性引数が指定される。指定された特徴引数は、属性と特徴のどちらでもよい。ステップ５０８、５１０および５１２において、ユーザは、しきい値引数ｕ、しきい値引数ｖおよび正規化引数Ｎをそれぞれ要求される。ステップ５１４において、ユーザは、特徴に関する他のステップを定義するように要求される。すべてのステップが定義された後、ステップ５１６においてその結果がユーザに表示され、そうでない場合は、ステップ５０２が繰り返される。ステップ５１６で新しい特徴ステップ（単数又は複数）が表示された後、ステップ４１２においてファイル・システム１１７に新しい特徴の定義が保存される。
【００５９】
Ｄ．３プログラムした特徴の例
図６は、図４〜５で説明した対話サイクルを利用したプログラムされた特徴の例を示す。プログラムされた特徴は、ディスプレイ１３２（図１を参照）などのディスプレイ上にユーザ・インタフェース６００によって表示される。別法として、ユーザ・インタフェース６００を、ネットスケープ社のＮａｖｉｇａｔｏｒ^TMやマイクロソフト社のＥｘｐｌｏｒｅ^TMなどの任意のインターネット・ブラウザを使って表示することができる。例示のため、図６に示した例を、図４〜５で説明した対話サイクルで概説したステップに関して説明する。
【００６０】
最初に、ドキュメント識別子「１２Ａ−００２６５」を有する単一画像が、図４に示した対話サイクルのステップ４００に示したように、図６の表示領域６０３内の一組のドキュメント画像例として指定される。図６の選択されたドキュメント画像例「１２Ａ−００２６５」（すなわちドキュメントＩＤ）は、３つの構造的画像６０４、６０６および６０８を有する。３つの構造的画像はそれぞれ、記録されたドキュメント画像と関連する特定の特徴または属性を識別する。構造的画像６０４、６０６および６０８のそれぞれの黒っぽい領域は、特定の特性を有するものとして識別された領域を示す。より具体的には、構造的画像６０４、６０６および６０８は、テキストのタイプの属性、属性ｔｏｐ−ｎｒ、および属性ｔｏｐ−ｎｒ−ｌｅｆｔと共に識別子「１２Ａ−００２６５」によって識別されたドキュメント画像内のページ画像を示す（属性ｔｙｐｅ、属性ｔｏｐ−ｎｒ、属性ｔｏｐ−ｎｒ−ｌｅｆｔは、図２に定義されている）。
【００６１】
一組の画像例４０４を定義した後、表示領域６１０に示したように、ステップ４０２（図４）において特徴名「ｔｏｐ−ｎｒ−ｌｅｆｔ」が指定される。ステップ４０８において、入力レイアウト・オブジェクトは、この例に示したように、表示領域６１２に示したような属性ｔｏｐ−ｎｒ（すなわち、属性ｔｏｐｎｏｎ−ｒｕｎｎｉｎｇ）を有するこれらのレイアウト・オブジェクトによって指定される。プログラムされた特徴の入力オブジェクトを定義した後で、選択された特徴の操作が、図５に詳細に説明したステップ４１０において定義される。最初に、表示領域６１４（すなわち、ステップ５０２）に示したような特徴の選択操作または累算操作の説明を行う。表示領域６１６において、選択操作がフィルタ操作（すなわち、ステップ５０６）として指定される。表示領域６１８において、属性引数Ａが、表３（すなわちステップ５０８）に定義された特徴ｌｅｆｔ−ａｌｉｇｎｅｄとして選択される。
【００６２】
表示領域６２０と６２１は、しきい値引数ｕとしきい値引数ｖ（すなわち、ステップ５０８と５１０）にそれぞれ対応する。しきい値引数ｕが整数１に指定され、特徴引数がブール結果を得るとき、所望のブール値が「真(TRUE)」として示される（図６に示したように）。より一般に、しきい値引数ｕおよびｖは、ユーザが定義した値、表示された値、または統計的に生成した値を使用して指定することができる。ユーザが定義した値は、キーボードやその他同様のものを使ってユーザが入力することができる。表示された値は、ポインティング・デバイスやその他同様のものによりスライダ表示領域から選択することができる。統計的に生成される値は、ユーザが画像の例において特徴の正と負の標本（原本）をクリックした後で、システム１４０によって自動的に生成される。
【００６３】
正規化引数Ｎは、表示領域６２２に記録される（すなわち、ステップ５１２）。しきい値引数ｕとｖが定数のとき、正規化引数は、単に自動的に１になる。すなわち、正規化引数Ｎを指定することなく、しきい値引数ｕとｖにより値の絶対範囲が定義される。正規化引数Ｎの値を指定すると、しきい値引数ｕとｖにより値の相対範囲が定義される。
【００６４】
表７は、図６に示した特徴ｔｏｐ−ｎｒ−ｌｅｆｔを定義する選択操作のリストを示す。ステップ０において、一組の入力レイアウト・オブジェクトが指定される（すなわち、図４のステップ４０８）。値「ＡＬＬ」は、ファイル・システム１１７のすべてのレイアウト・オブジェクトが、ステップ１で指定されたフィルタリング操作に入力されるべきことを示す。ステップ１で、「テキスト・ブロック（Ｔｅｘｔ−Ｂｌｏｃｋｓ）」と等しい属性ｔｙｐｅを有するレイアウト・オブジェクトだけが選択される。第２のステップは、「真」と等しい属性ｔｏｐ−ｎｒを有するテキスト・ブロック属性を有するレイアウト・オブジェクトがすべて選択される。最後に、第３のステップにおいて、「真」と等しい特徴ｌｅｆｔ−ａｌｉｇｎｅｄを有するレイアウト・オブジェクトだけが選択される。図６において、特徴ｔｏｐ−ｎｒ−ｌｅｆｔは、この特徴の入力レイアウト・オブジェクトが、表示領域６１２に示された真と等しいｔｏｐ−ｎｒを有するレイアウト・オブジェクトとして定義されるため、単一ステップを使って定義される。
【００６５】
【表７】

【００６６】
表８は、前述の特徴構成言語を使って定義された特徴のもう１つの例を定義するステップを示す。より具体的には、表８は、トップレベルの特徴「４−ｍｅｍｏ−ｍａｒｋ（４メモマーク）」を定義するすべてのフィルタ操作のリストを示す。ページ画像の左上側にある無制限の数のオブジェクトを識別する特徴ｔｏｐ−ｎｒ−ｌｅｆｔと違い、特徴４−ｍｅｍｏ−ｍａｒｋは、ページ画像の左側にある４つのマークだけを識別する。（ここで、メモ・マーク（Ｍｅｍｏｍａｒｋ）は、ドキュメントのヘッダの「ｔｏ：」、「ｆｒｏｍ：」、「ｒｅ：」および「ｄａｔｅ：」に対応するテキスト・ブロックとして定義される）。前述のように、レイアウト・オブジェクトの各属性は、対応するグローバルな属性またはページ・レベルの属性を有する。このようなグローバルな属性あるいはページ・レベルの属性または特徴は、本明細書においてブラケット内に示される。この例のステップ１において、ｘ−寸法のドキュメント（すなわち、〈ｘ−ｓｐａｎ〉）の１０％未満のオブジェクトだけが、次のステップでフィルタリングされるように選択される。ステップ２において、ドキュメントの一番上のｎｏｎ−ｒｕｎｎｉｎｇテキストのオブジェクトだけが、ステップ３でフィルタリングされるように選択される。最後に、ステップ２でページ画像内で正確に４つのレイアウト・オブジェクトが識別された場合は、その組のレイアウト・オブジェクトが、ステップ３においてゲートを通過する。図６に、構造的画像６０８において参照番号６４２で示された領域によって、４つのメモ・マークの例を示した。
【００６７】
【表８】

【００６８】
表９は、前述の累積操作の１つの例を示す。具体的は、表９は、「ｍｉｎ（最小）」の累算操作の例を示す。ステップ０において、表８で定義された特徴「４−ｍｅｍｏ−ｍａｒｋ」を満たすオブジェクトだけが（すなわち、表９のステップ０は、表８で説明したステップ０〜３をそれぞれ含むように解釈される）、ステップ１のレイアウト・オブジェクトに入力される。（前述のように、ブラケットで定義された要素（たとえば< ４−ｍｅｍｏ−ｍａｒｋｓ−ｔｏｐ−ｙ> ）は、グローバルなまたはページ・レベルの属性または特徴である）。ステップ１において、グローバルな特徴「４−ｍｅｍｏ−ｍａｒｋｓ−ｔｏｐ−ｙ」が定義される。このグローバルな特徴は、特徴４−ｍｅｍｏ−ｍａｒｋｓとしてラベル付けされたページ画像における最上部のレイアウト・オブジェクトの値を識別する。「ｍｉｎ（最小）」累算操作は、属性引数Ａを有する一組のレイアウト・オブジェクトＬにおける任意のレイアウト・オブジェクトの最小値を作成する。たとえば、図６の領域６４２に示した４つのメモ・マークに関する累算操作の出力は、ページ画像内の残りのレイアウト・オブジェクトの最小値ｙによって定義される（すなわち、最も上のメモ・マークのｙ座標、ここでページ画像のｘ−ｙ座標系の原点が、図３に示したようにページ画像２２６の画像の左上角として定義される）。
【００６９】
【表９】

【００７０】
図１０に、特徴プログラミング言語を使用する選択操作のもう１つの例を示す。具体的には、表１０は、メモ・ヘッダ（ｍｅｍｏ−ｈｅａｄｅｒ）の特徴を定義するステップを示す。メモヘッダ特徴の例は、図６に示した構造的画像６０６において参照番号６４０で識別した線で囲んだ領域で示される。表１０中のステップ０において、表２の属性ｔｏｐ−ｎｒを満足するオブジェクトをステップ１ですべてフィルタリングするように選択される。ステップ１では、レイアウト・オブジェクトは、その属性ｔｏｐ−ｙの属性引数が、しきい値ｕＮとｖＮの間にある場合だけ選択され、下限の値（すなわち、ｕＮ）は、表９で定義されたグローバルな特徴〈４−ｍｅｍｏ−ｍａｒｋｓ−ｔｏｐ−ｙ〉の値であり、上限の値（すなわち、ｖＮ）は無限に大きくすることができる。すなわち、特徴ｍｅｍｏ−ｈｅａｄｅｒは、ページの一番上にあるが最も高い順番のｍｅｍｏ−ｍａｒｋよりも下のすべてのｎｏｎ−ｒｕｎｎｉｎｇテキストを識別し、それにより、構造的画像６０４において参照番号６４４で識別されたレイアウト・オブジェクトを除去する。
【００７１】
【表１０】

【００７２】
表１２〜１７は、図３のページ画像２２６に示される特徴ｌｅｔｔｅｒ−ｄａｔｅ（レター日付）３５０、ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅ（レター署名）３５２、ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ（レター受取人）３５４およびｌｅｔｔｅｒ−ｃｃ（レターコピー）３５６をそれぞれを定義するステップを示す。表１１のステップ０において、この特徴の入力レイアウト・オブジェクトとして、利用可能なすべてのレイアウト・オブジェクトが指定される。ステップ１において、「偽(FALSE) 」に等しい属性ｔｏｐ−ｎｒ−ｔａｂｌｅを有するオブジェクトだけが、ステップ２でフィルタリングされるように選択される。特徴ｔｏｐ−ｎｒ−ｔａｂｌｅは、表１２で定義される。続いてステップ２で、「真」に等しい属性ｔｏｐ−ｎｒ−ｃｅｎｔｅｒを有するオブジェクトだけが、ステップ３でフィルタリングされるように選択される。特徴ｔｏｐ−ｎｒ−ｃｅｎｔｅｒは、表１３で定義される。最後に、特徴ｌｅｔｔｅｒ−ｄａｔｅが、ステップ２で選択され、かつ少なくともグローバルな〈ｂｏｔ−ｙ> 座標と等しい最大ｙ座標を有するすべてのレイアウト・オブジェクトによって識別される。グローバルな〈ｂｏｔ−ｙ〉座標は、ステップ２で選択されたレイアウト・オブジェクトだけのグローバルな座標に対応することに注意されたい。
【００７３】
【表１１】

【００７４】
【表１２】

【００７５】
【表１３】

【００７６】
表１４は、図３に示した特徴ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ３５４の選択操作を定義するステップを示す。ステップ０は、この特徴の入力レイアウト・オブジェクトがすべてのレイアウト・オブジェクトを含むことを示す。ステップ１において、タイプ・テキスト・ブロックのものであるレイアウト・オブジェクトだけが、ステップ２でフィルタリングされるように選択される。ステップ２において、「真」に等しい特徴ｔｏｐ−ｎｒを有するレイアウト・オブジェクトだけが選択される。ステップ３において、ｔｏｐ−ｎｒオブジェクトの集合的な文字枠の領域の１０％〜６０％の領域を有するレイアウト・オブジェクトだけが選択される。ステップ４の残りのレイアウト・オブジェクトは、「真」に等しい属性ｌｅｆｔ−ａｌｉｇｎｅｄを有するものだけが特徴ｌｅｆｔ−ａｌｉｇｎｅｄを満たす。
【００７７】
【表１４】

【００７８】
表１５は、図３に示した特徴ｌｅｔｔｅｒ−ｃｃ３５６を定義するステップを示す。ステップ１で、ｔｅｘｔ−ｂｌｏｃｋの値と等しい属性ｔｙｐｅを有するレイアウト・オブジェクトだけが選択される。ステップ２において、「真」と等しい属性ｂｏｔ−ｎｒを有するステップ１からのレイアウト・オブジェクトが選択される。ステップ３において、特徴ｌｅｔｔｅｒ−ｃｃを満たすために、「真」と等しい属性ｌｅｆｔ−ａｌｉｇｎｅｄを有するレイアウト・オブジェクトだけが選択される。表１６は、図３に示した特徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅ３５２を定義するステップを示す。特徴ｌｅｔｔｅｒ−ｃｃと異なり、ステップ３において、「偽」と等しい属性ｌｅｆｔ−ａｌｉｇｎｅｄを有する特徴だけが、特徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅを満たすように選択される。
【００７９】
【表１５】

【００８０】
【表１６】

【００８１】
Ｅ．ジャンル・モデルの定義
このコーパス管理／サーチシステム１４０の利点は、構造解析を２つのレベルで行えることである。低い方のレベルでは、ドキュメント指定のレイアウト・フォーマット（たとえば、レターの受取人フィールドやメモのヘッダ・フィールド）を識別することができる。そのような識別は、本明細書では特徴を利用して行われる。高い方のレベルでは、入力ドキュメントの全体構成が、ジャンル・モデルを利用して補獲される。たとえば、「ビジネス・レター」は、特徴ｌｅｔｔｅｒ−ｄａｔｅ、特徴ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ、特徴ｌｅｔｅｒ−ｃｃ、および特徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅ（図３に示したような）により、ほとんどの例で定義できるドキュメントのジャンル・モデルである。いくつかのモデルは、いくつかの共通の特徴を持つ場合があるが、そのようなモデルは、他の特徴の有無により互いに区別することができる。たとえば、メモとレターは、類似の特徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅを有することがあるが、それぞれは異なるドキュメントヘッダ特徴（たとえば、４−ｍｅｍｏ−ｍａｒｋとｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ）を有することがある。
【００８２】
図７は、ジャンル・モデル・プログラム・インタフェース２１９（図２に示した）をより詳細に示す。ジャンル・モデル・プログラム・インタフェース２１９を使用して、ユーザは、ジャンル・モデル２４４としてファイル・システム１１７に記憶されたジャンルのモデルを自由に定義することができる。ジャンル・モデルを定義する他に、モデル・プログラム・インタフェース２１９を利用して、既に定義されているジャンル・モデルをロードして実行することができる。前に定義したように、各ジャンル・モデル２４４は、メモ、記事、レターなどのドキュメントの内容に関係しない共通の通信目的を指定する。特徴（または属性）が適切な場合、ジャンル・モデルは、モデルが含むべき一組の特徴（すなわち、「包含特徴」）とモデルが除外すべき一組の特徴（すなわち、「除外特徴」）を定義することによって指定することができる。あらかじめ定義したリストから特徴を繰り返し選択することによって、後で考察するように、各組の指定を対話式に行うことができる。モデルを定義した後は、ページ画像のコーパスに記憶されたページ画像に対して、そのモデルを試験することができる。しかしながら、当業者には、さらにニューラルネットワークなどの学習システムのために一組の例ページ画像及び一組の特徴を指定することによって、モデルを自動的に構成できることが理解されよう。
【００８３】
動作において、ユーザは、特徴２４４と属性２４２を組み合わせることにより、ジャンル・モデル・プログラム・インタフェース２１９を使用してモデルを作成または変更する。モデルは、プルダウン・メニュー７０６からモデルを選択した後で「モデルロード(Load Model)」ボタン７０４を使用することにより、ジャンル・モデル・プログラム・インタフェース２１９にロードされる。それぞれの特徴または属性に関して、各モデルは、それぞれ参照番号７０８、７１０、７１２および７１４で示した「Ｉｎ」「Ｏｕｔ」「Ｎ／Ａ」および重み(Weight)の値を記憶する。たとえば、図７に示したモデルは、特徴４−ｍｅｍｏ−ｍａｒｋｓを有するドキュメント（すなわち、「Ｉｎ」と示された）を含み、特徴ｇｒａｐｈｉｃｓ（図形）を有するドキュメント（すなわち、「Ｏｕｔ」と示された）を除外する。しかしながら、後で考察するように、この制約は、０でない重みを特徴に割り当てることによって緩和することができる。Ｎ／Ａと示した他のすべての特徴と属性は、このモデルには適用できない。新しいモデルを保存するときは、テキスト・フィールド７１８に新しいモデル名(Model Name)を入力した後で、セーブ(Save)・コマンド・ボタン７１６を選択する。さらに、セーブ・コマンド・ボタン７１６を使って、既存のモデルに行った変更を保存することができる。
【００８４】
効率を高めるために、各ページ画像は、各特徴と属性が真か偽かを示すあらかじめ符号化された２進ベクトルを有する。あらかじめ符号化されたベクトルは、ページ画像を特定のモデルへ突き合わせる速度を早くする。コマンド・ボタン７２０を選択してモデルを実行するときは、個別のウィンドウまたはウェブ・ページ（図示せず）が、モデルと一致するドキュメント画像２３７の第１のページ画像の縮小スケール画像２２８を表示する。ドキュメント画像がモデルと一致したときは、「Ｉｎ」と示されたすべての特徴と属性が、ドキュメント画像のページ画像に関して真であるが、「Ｏｕｔ」と示されたすべての特徴と属性は、ドキュメント画像のどのページ画像に関しても偽である。「Ｎ／Ａ」と示された特徴と属性は、適切ではない。
【００８５】
重みは、０〜１０の範囲でもよく、特定のモデルに関してあらゆる「Ｉｎ」と「Ｏｕｔ」の選択を満たさないコーパス内のドキュメント画像をランク付けするために使用される。特徴／属性の重みが０であるように指定される場合は、特徴／属性は、特定のモデルを満たすためにドキュメント画像の「Ｉｎ」または「Ｏｕｔ」を一致させければならず、そうでない場合は、ドキュメント画像は、「Ｉｎ」と「Ｏｕｔ」の選択を一致させる部分集合だけを有する特定のモデルを満たすことができる。重みの値が０でない場合、サーチ結果は、有無が正確に一致した特徴に対応する重みの合計によって降順に配列される。
【００８６】
図８は、図７に示したジャンル・モデル・プログラム・インタフェースを使用して、属性２４０と特徴２４２の有無を指定することによって定義することができる３つの異なるドキュメントの高さのレベルの構成の例を示す。図８に示した画像８００は、通常レターとしてソートされるドキュメントのジャンルを示す。これと対照的に、画像８０２は、通常メモとしてソートされ、画像８０４は、通常記事としてソートされる。前述のように、メモのヘッダは、レターからメモを区別する特徴としてはたらく。これと対照的に、通常記事に見られる多数のカラムは、レターとメモの両方から記事を区別するのに役立つ。図８は、ドキュメント画像中の特定の画像属性および／または特徴の有無を指定することによって、異なるジャンルのドキュメント画像を容易に識別できることを示す。
【００８７】
Ｆ．ドキュメントコーパスのサーチ
図９は、ファイル・システム１１７に記憶されたドキュメント画像のコーパスをサーチするための検索エンジン・インタフェース２１８の例を示す。図９に示した例示的な検索エンジン・インタフェース２１８は、メモリ・ファイル・システム１１７に記憶されたテキスト２３６、ドキュメントメタデータ（すなわち、タイトル、日付、キーワードおよびタイプ）２２４、特徴２４２、およびジャンル・モデル２４４をサーチするための機構を提供する。このような様々なクラスのサーチの１つまたは組合せは、特定クラスのサーチを選択し、表示領域９００内のサーチのクラスのパラメータを指定することによって実行することができる。ユーザは、サーチのクラスとサーチパラメータを指定したら、「サーチ実行(RUN SEARCH)」ボタン９０１を押して、指定したサーチを実行する。その後のサーチの結果は、それぞれ上書き（Ｏｖｅｒｗｒｉｔｅ）ボタン９０３、累積（Ａｃｃｕｍｕｌａｔｅ）ボタン９０５、削除（Ｓｕｂｔｒａｃｔ）ボタン９０７または論理積（Ｉｎｔｅｒｓｅｃｔ）ボタン９０９のうちの１つを押すことによって、前のサーチ結果に上書きするか、それを累積するか、それから削除／減算するか、それとＡＮＤ演算することができる。
【００８８】
テキスト・データベース２３６（図２に示した）は、ボタン９０２を選択し、テキスト・ベースの情報(Clue)をテキスト表示領域９０４に入力することによってサーチされる。このサーチは、ＡＳＣＩＩ文字で実行され、図示しないプリファレンス・ウィンドウ内でユーザによって選択されるブール論理または確率を使用して定義することができる。ドキュメントメタデータ（たとえば、タイプ、日付、タイトルおよびキーワード・データベース）２２４は、それぞれボタン９１２、９０８、９０６および９１０のうちの１つを選択することによりサーチされる。ユーザは、サーチのクラスを指定する他に、各サーチを実行するために使用するサーチパラメータを指定しなければならない。タイトルサーチの場合には、ユーザが、テキスト表示領域９１４にタイトルを提示するテキスト情報を入力しなければならない。日付サーチの場合、ユーザは、正確な日付又は開始期間９１６と終了期間９１８に日付の範囲を入力することができる。キーワードサーチの場合は、メニュー９２０に表示された一組のキーワードのうちの１つを選択しなければならない（示したデフォルトは、「ＮＯＮＥ」）。最後に、ドキュメントタイプのサーチの場合は、メニュー９２２に表示される一組のドキュメントタイプのうちの１つを選択しなければならない（示したデフォルトは、「ＮＯＮＥ」）。テキスト、タイトル、日付、キーワードまたはドキュメントタイプのサーチのための支援情報は、ユーザがハイパーテキスト・リンク９２４、９２６、９２８、９３０または９３２を選択することにより得ることができる。
【００８９】
属性２４０または特徴２４２のいずれかの特徴サーチを実行するために、ユーザは、ボタン９３４を選択し、メニュー９３６（示したデフォルトは、「ＮＯＮＥ」）から特徴を選択する。特徴が一組の特徴２４２に追加されると、新しい特徴が、特徴メニュー９３６に追加される。特徴メニュー内のそれぞれの特徴が何であるかをよく理解するために、ユーザは、検査特徴ボタン９３７またはドキュメント付き検査特徴ボタン９３９を使用して各特徴の定義を調べることができる。ボタン９３７または９３９を使用して、特徴の定義が、たとえば図６に示したように表示される。「ドキュメント付き」（すなわち、ｗ／Ｄｏｃｓ）ボタン９３９を使って特徴を調べる場合は、前のサーチから累積されたドキュメント画像が、図６で略図６０４、６０６および６０８によって示したように要約される。さらに、ボタン９７５を選択して、メニュー９７６からジャンル・モデルを選択することによって、モデルサーチを実行することができる。ジャンル・モデル９７６のメニューは、ジャンル・モデル・プログラム・インタフェース２１９を使って定義されたジャンル・モデル２４４の各々を含む。新しいジャンル・モデルを調査または開発するために、ハイパーテキスト・リンク９７７を選択して、モデル・プログラム・インタフェース２１９を表示させることができる。ページ画像２２６の属性２４０と特徴２４２の計算は、インタフェース２１８を利用してサーチを呼び出す前に実行されるので、インタフェース２１８を利用して実行されるサーチ操作は、ランタイム画像解析を含まず、時間とスペース両方の効率が高いという利点を有する。
【００９０】
表示領域９００内でクラスのサーチのうちの１つを実行した後、その結果が、検索エンジン・インタフェース２１８に表示される。１つの実施形態において、サーチを満たす略図が表示される。表示された略図のうちの１つを選択することにより、ユーザがより詳細に調べることができるように、略図のオリジナルのページ画像が表示される。一般に、結果は、ユーザが指定する任意の形で表示することができる。たとえば、ユーザは、チェックボックス９４８を利用してファイル・システム１１７から命じられたときに結果を表示するように指定することができる。また、ユーザは、チェックボックス９４５を利用してドキュメントの最初のページだけを表示させるように指定することができる。さらに、ユーザは、チェックボックス９４０、９４２、９４４、あるいはメニュー９４６のエントリをそれぞれ選択することによって、結果を表示するときに、ドキュメントのタイトル、ドキュメントの略図、ファイル情報および選択した特徴を提示するように指定することができる。サーチの結果は、「再表示(Redisplay Results) 」ボタン９３８を選択することによって、新しいフォーマットを指定した後で再表示させることができる。
【００９１】
Ｇ．１つのドキュメント画像と組となるドキュメント画像の要約
前述のように、図３は、複数のレイアウト・オブジェクト２３８に分割された（ドキュメント画像２３７の）ページ画像２２６の例を示す。特徴２４２は、レイアウト・オブジェクト２３８の各々を定量化する属性２４０を使用して定義される。各特徴２４２は、いくつかの特性を有するページ画像の特定の領域を識別するルーチンを使って定義される。たとえば、図３に示した特徴は、ｌｅｔｔｅｒ−ｄａｔｅ（レターの日付）、ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅ（レター署名）、ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ（レター受取人）およびｌｅｔｔｅｒ−ｃｃ（レターコピー）・フィールドを表わすページ画像内の領域を識別するために使用されるルーチンである。これらの特徴の各々は、レイアウト・オブジェクト（ｌａｙｏｕｔｏｂｊｅｃｔｓ）２３８が、ドキュメントの特定の特徴を識別するために意図的に分割されないため、１つまたは複数の「テキスト・ブロック（ＴｅｘｔＢｌｏｃｋ）」レイアウト・オブジェクトを使って定義することができる。代りに、レイアウト・オブジェクトは、ドキュメント画像の内容と無関係なドキュメント画像内の構造的要素のタイプを表わす。
【００９２】
ユーザが定義した特徴２４２を使用して、ユーザは、１つまたは組になったドキュメント画像のためのユーザが作成した要約画像を明確に表現（公式化）することができる。図９は、ユーザが作成したドキュメント画像の要約画像を作成するために使用できるユーザ・インタフェース２１８を示す。１つの実施形態において、ユーザが、インタフェース２１８を利用してサーチを行って、ドキュメント画像の部分集合を定義する。次に、ユーザは、参照番号９６０によって示された要約コマンドを使って、サーチによって識別されたドキュメント画像の部分集合の要約画像を作成する。ユーザ・インタフェース２１８は、ユーザに、メニュー９６２、９６４、９６６および９６８においてサーチによって識別された各ドキュメントを要約するために、少なくとも４つの異なる特徴２４２を提供する。特徴の数を４つに制限する必要がないことは当業者に理解されよう。あるいは、ユーザ・インタフェース２１８は、１つまたは複数のドキュメント画像を要約する任意の数の特徴を提供することもできる。また、ドキュメントのコーパスをサーチする前にコマンド・ボタン９６０を選択し、それによりコーパス内のドキュメント画像のコレクション全体を要約できることは当業者に理解されよう。すなわち、ユーザが作成する要約画像を、ファイル・システム１１７内の単一のドキュメント画像、ドキュメント画像の部分集合またはすべてのドキュメント画像に関して作成することができる。
【００９３】
図１０は、１つまたは複数のユーザ指定の操作を選択して、ユーザ作成要約画像の合成要約画像の出力フォーマットをカスタマイズするために使用できる要約表示プロファイル(Summarization Display Profile) １００２を示す。表示プロファイル１００２は、図９に示したインタフェース２１８上のボタン９９０を選択することによってアクセスすることができる。要約表示プロファイルを定義した後は、チェックボックス９９２を選択することによってプロファイルを起動化することができ、あるいは、チェックボックス９９２が選択されていないときは、システム・デフォルト設定を利用して、ユーザ作成の要約画像をフォーマットする。より具体的には、要約表示プロファイル１００２により、ユーザは、チェックボックス１００４〜１０１４におけるユーザが指定した１つまたは複数の操作により、ドキュメント画像の１つまたは複数のユーザ作成要約画像を表わす合成要約画像の出力フォーマットをカスタマイズすることができる。チェックボックス１００４を選択することにより、ユーザは、ドキュメント画像内に一致する特徴が存在しない場合に、ドキュメント画像を合成要約画像内で無視することを要求することができる。複数の特徴が選択されるとき、ユーザは、チェックボックス１００６を使用して、ユーザ作成要約画像内の特徴を突き合わせるためだけに参照することを指定できる。
【００９４】
また、要約表示プロファイル１００２は、チェックボックス１０１０を選択することによって指示した数のＯＣＲ文だけを合成要約画像に出力するように要求することによって、ドキュメント画像の特徴を要約するレイアウト・オブジェクトを配置する機能をユーザに提供する。さらに、ユーザは、チェックボックス１００８を選択することによって、ドキュメント画像を要約する特徴のレイアウト・オブジェクトをスケール（拡大／縮小）するように指定することができる。また、表示プロファイル１００２において、ユーザは、チェックボックス１０１２で強調（ハイライト）することにより、選択して要約する特徴のレイアウト・オブジェクトを合成要約画像に出力するように指定することができる。さらに、ユーザは、チェックボックス１０１４においていくつかの特徴のレイアウト・オブジェクトが合成要約画像に出力される順序を指定することができる。ユーザ要約表示プロファイル１００２に示された合成要約画像の出力フォーマットを指定するためのオプションは例示的なものであり、その他のオプションを容易に含めることができることは、当業者には理解されよう。
【００９５】
図１１は、ドキュメントコーパスサーチシステム１４０が、１つまたは複数のドキュメント画像のユーザ作成要約画像を生成するステップを示すフロー図である。最初に、ステップ１１０２で、ドキュメント画像のコレクションを受け取る。このコレクションのドキュメント画像は、たとえば、サーチインタフェース２１８を使ってサーチを実行することによって定義することができる。一ドキュメント画像のコレクション内の各ドキュメント画像は、複数のページ画像を含む。これらのページ画像はそれぞれ、ある時点でその属性２４０と特徴２４２を生成するために、画像セグメンタ２１１とプログラム・マネージャ２１４によって処理される。次に、ステップ１１０４において、ステップ１１２０で受け取ったドキュメント画像の要約画像の表示を要求するコマンドを受け取る。ステップ１１０４でコマンドを受け取ることに加え、ステップ１１０６で一組の特徴を受け取る。これらの特徴は、ユーザによって、予め定義された一組の特徴から選択されるか、または図４〜図５に示した方法を使って新しい特徴をプログラミングすることによって選択される。１つの実施形態において、ユーザが、メニューの９６２、９６４、９６６または９６８において１つまたは複数の特徴を指定し、図９に示したコマンド・ボタン９６０を選択した後で、ステップ１１０４で受け取ったコマンドとステップ１１０６で受け取った一組の特徴が受け取られる。
【００９６】
ステップ１１０８において、ドキュメント画像のコレクションのうちの各ドキュメント画像に対して、システム１４０は、ステップ１１０６で受け取った一組の特徴のうちの特徴を定義するレイアウト・オブジェクトを識別する。次に、ステップ１１１０において、ドキュメント画像のコレクションのうちの各ドキュメント画像に対して、ステップ１１０８で識別された特徴と関連付けられたレイアウト・オブジェクトをアセンブルすることによって要約画像が形成される。ステップ１１１２において、ユーザが、合成要約画像を作成する際にユーザ要約表示プロファイルを使用するというチェックボックス９９２（図９に示した）を指定した場合は、ステップ１１１４が実行され、そうでない場合は、ステップ１１１６が実行される。
【００９７】
ステップ１１１４において、ステップ１１１０でアセンブルされた要約画像を定義するレイアウト・オブジェクトが、ユーザが定義したユーザ要約プロファイルから選択された既定のユーザ指定動作によって変更される。より具体的には、ステップ１１１４においてアセンブル済みの要約画像を変更するために使用される特定のユーザ指定動作（単数又は複数）が、要約表示プロファイル１００２においてチェックボックス１００４〜１０１４のどれが選択されているかによって決定される。前述のように、ユーザは、図９に示したボタン９９０を選択することによってユーザ要約プロファイル１００２（図１０に示した）を定義することができる。ユーザ要約プロファイルが、ステップ１１１２で指定されない場合は、代わりにシステム・デフォルト要約表示プロファイルが使用される。ユーザ要約表示プロファイルを使用する場合は、ステップ１１１５で実行したものと類似のアセンブル済み要約画像内のレイアウト・オブジェクトのさらに他の処理が必要なこともあることが、当業者には理解されよう。
【００９８】
ステップ１１１４において要約画像をアセンブルするために実行される変更は、ユーザ要約表示プロファイル１００２（図１０に示した）において選択されたオプションに従って実行される。たとえば、ユーザ要約表示プロファイルにおいてチェックボックス１００４を選択するか否かによって、２つの異なる要約画像を作成することができる。チェックボックス１００４を選択せず、選択された特徴がどれもページ画像内に見つからないとき、ドキュメントはそのタイトル（ドキュメントメタデータ２２４から識別された）だけによって表示される。しかしながら、チェックボックス１００４がチェックされた場合は、そのような一致しないドキュメント画像への参照は、要約画像から完全に省略される。すなわち、１つの特徴だけが指定されドキュメント画像がその特徴を持たないとき、その画像のドキュメントメタデータ２２４は、そのドキュメント画像の要約画像の一部としては含まれない。さらに、チェックボックス１１０６を選択し、複数の特徴を選択したときは、一致する特徴を有する特徴だけが、要約画像内の特徴タイトルで識別される（例は、図１４を参照）。
【００９９】
ステップ１１１６において、合成要約画像は、ステップ１１１４で変更されるか変更されないかによってアセンブル済み要約画像を使って作成される。図１２、１３および１４は、図１１に概略的に示したステップを利用して作成された合成要約画像の３つの異なる例を示す。図１２は、要約画像１２０２、１２０４、１２０６および１２０８が、４つのドキュメント画像のｈｅａｄｅｒｆｉｅｌｄ（ヘッダフィールド）特徴（たとえば、４−ｍｅｍｏ−ｍａｒｋｓ）に対応するレイアウト・オブジェクトを含む合成要約画像１２００を示す。この例では要約するのに１つの特徴だけが選択されているため、各要約画像には特徴タイトルは提供されない。合成要約画像１２００の各ヘッダ・フィールドの下には、特徴に対応するレイアウト・オブジェクトが配置される各ドキュメント画像のドキュメントタイトルがある。図１３は、合成要約画像１３００がドキュメント画像の受取人（ｒｅｃｉｐｉｅｎｔ）フィールドを要約する要約画像１３０２、１３０４、１３０６および１３０８を含むもう１つの例を示す。更に他の例は、合成要約画像１４００が４つの要約画像１４０２、１４０４、１４０６および１４０８を含む図１４に示される。要約画像１４０２、１４０４、１４０６および１４０８は、４つのドキュメント画像の特徴ｌｅｔｔｅｒ−ｄａｔｅ、ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ、およびｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅに対応するレイアウト・オブジェクトを含む。この例では、３つの異なる特徴が選択されたので、識別された特徴を示す各要約画像にタイトルが提供される。
【０１００】
最後に、ステップ１１１８において、ステップ１１１６で作成された合成要約画像がユーザディスプレイに表示される。しかしながら、別法として、ステップ１１１８が、プリンタなどの任意の数の出力装置に合成要約画像を出力することによって実行することができることは当業者には理解されよう。テキスト・ベースの要約技法よりも優れたこの要約技法の利点は、この要約技法が、ドキュメントテキストの語彙構造ではなく、ドキュメントのレイアウトに潜在的に含まれる機能情報に基づく適切なドキュメント内容を定義する方法に基づくことである。さらに、この要約技法は、ＯＣＲプログラムまたはワードパターン検出プログラムが稼働するために必要なものよりも低い解像度で働くため有利である。また、本発明の他の態様と同様に、この要約技法は、レイアウト・オブジェクト上でＯＣＲ解析を使用して操作する必要はない。たとえば、特徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅ３５２（図３を参照）の署名部分を定義するレイアウト・オブジェクトは、何もテキスト内容のないビットマップ画像である。
【０１０１】
Ｈ．特徴または属性によるサーチ結果の順序付け
ドキュメント画像の大きなコーパスにおけるユーザのドキュメント画像の識別を支援するために、ドキュメントの特徴または属性の外観に従ってサーチ結果をソートする方法を提供する。前述の節Ｇで説明したドキュメント画像の要約と異なり、ドキュメント画像のソートは、類似度を識別するために特徴の画像解析を必要とする。ドキュメントをレイアウト・オブジェクトの類似のグループにソートするこの方法は、一貫性をもつ可視外観及び／又は同種の可視外観を有するレイアウト・オブジェクトを有するドキュメントをグループ化する。動作において、画像ベースの特徴の比較を行うことにより一組のドキュメントをソートして、ドキュメント間のどの特徴がグループ化するのに十分なほど似ているかを判定する。このような画像ベースの比較は、特徴を含む場所から自動的に抽出される画像セグメントを突き合わせることによって実行される。図１５と図６に示した１つの方法は、予め定義されたしきい値に従って類似した特徴をグループ化することである。図１８に示したもう１つの方法は、選択されたドキュメントからの特徴との類似度の順序によって特徴をランク付けすることである。両方の方法は、特徴の間の距離を計算するクラスタ化技法を使用する。距離が大きくなるほど、２つの特徴は類似しなくなる。距離を利用して一組のドキュメントをランク付け又はドキュメントのクラスタにグループ化した後、その組のドキュメントがソートされたクラスタによって編成され、ドキュメントのコーパス内のドキュメントのサーチが改善される。
【０１０２】
図１５、１６および１８のフロー図に示した方法は、ＲＡＭ１１６内に駐在し、ドキュメントコーパスサーチシステム１４０（図１を参照）の稼働中にプロセッサ１１４によって実行される。ドキュメントをソートする他の方法と異なり、そのような方法は、ドキュメント画像の各部を互いに比較するだけなので効率的である。また、これらの方法は、システム１４０によって自動的に抽出されるドキュメント画像の要素（または部分）に基づいて画像領域（すなわち、テキスト領域ではない）でドキュメント画像をソートするため有利である。後で説明するドキュメント画像の比較方法を変更して、いくつかの効率的な検討を組み込むことができることは当業者には理解されよう。たとえば、ドキュメント画像をレイアウト・オブジェクトに分割するための図１５のステップ１５００と図１８のステップ１８００は、リアルタイムで実行される必要はない。その代わりに、ドキュメントの類似のグループ化を行うか単一ドキュメント画像に関するドキュメント画像のランク付けを行うことによって、画像分割は、ユーザがコマンドを呼び出してドキュメントのコーパスをソートする前に一度行うだけでよい。
【０１０３】
Ｈ．１特徴または属性によるサーチ結果のソート
図１５は、ページ画像２２６（図２と図３を参照）から分割されたレイアウト・オブジェクト２３８間の類似度に従ってファイル・システム１１７に記憶されたドキュメント画像２３７をグループ化するステップを示すフロー図である。最初に、ステップ１５００で、画像セグメンタ２１１によって、ドキュメント画像２３７のページ画像２２６が、表１に示したレイアウト・オブジェクト・タイプのうちの１つをそれぞれが有するレイアウト・オブジェクト２３８に分割される。さらに、ステップ１５００において、画像セグメンタと識別装置２１１が、属性２４０を計算し、ＯＣＲを実行してレイアウト・オブジェクト内のＡＳＣｌｌテキスト２３６を識別してもよい。次に、プログラム・マネージャ２１４が、画像属性２４０とレイアウト・オブジェクト２３８を使って特徴２４２のルーチンを評価する。１つの実施形態において、ＯＣＲは、特定のサーチの対象となるレイアウト・オブジェクトにだけに実行される。
【０１０４】
ステップ１５０２において、選択された一組のドキュメント画像２３７が、システム１４０によって受け取られる。この組のドキュメント画像は、ユーザによって選択され予め定義された一組のドキュメント画像でも、ユーザによって実行されたサーチによって得られた一組のドキュメント画像でもよい。ステップ１５０４において、１つまたは複数の選択された特徴または属性をユーザから受け取る。選択された特徴は、ユーザ・インタフェース２１８における表示領域９６９のメニューで、ユーザが事前に定義するかまたは選択することができる。たとえば、図９は、ユーザがメニュー９６２から特徴ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔを選択する例を示す。ユーザが、コマンド・ボタン９７０を選択して、ステップ１５０４において選択済みの特徴によってドキュメントをソートした後、ステップ１５０６で、メニュー９６２の選択済みの特徴を受け取る。代替実施形態において、インタフェース２１８は、図９に示したようなドキュメントの特徴だけでなく、特徴及び／又は属性を選択するメニューを含む。
【０１０５】
ステップ１５０６において、指定された特徴を構成する選択された組のドキュメント画像内のレイアウト・オブジェクトを識別することによって、一組の画像セグメントが形成される。画像セグメントがビットマップ画像の形式ではない場合は、ページ記述言語（ＰＤＬ）などの構造化ドキュメント表現内の画像セグメントが、従来のＰＤＬデコンポーザやその類似物によって、ビットマップ表現にレンダリングされる。たとえば、図３に示したページ画像２２６の特徴ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ３５４を構成するテキスト・ブロック・レイアウト・オブジェクトは、ページ画像２２６に関してステップ１５０６で計算された一組の画像セグメントのうちの１つの画像セグメントを定義することができる。しかしながら、いくつかの例では、画像セグメントは、１つまたは複数のレイアウト・オブジェクトからなることがある（たとえば、図６において、メモ・ヘッダ６４０の画像セグメントは、メモ・マーク６４２を定義する別々のレイアウト・オブジェクトからなる）。次にステップ１５０８で、ステップ１５０６で形成された一組の画像セグメントが、類似度及び／又は繰り返しパターンを有する意味のあるオブジェクトのグループにソートされる。最後に、ステップ１５１０において、一組の画像セグメント中のそれぞれの画像セグメントに対応するドキュメント画像またはその縮小スケール画像が、ステップ１５０８においてソートされた意味のあるグループごとにディスプレイ１３２でユーザに表示される。
【０１０６】
より具体的には、ステップ１５０８において、ビットマップ画像セグメント間の一貫性のあるパータンまたは同種のパターンが識別される。２つの画像セグメント間の類似度の程度によって、画像セグメントが、画像セグメントの類似するグループまたは相違するグループにソートされる。たとえば、類似した２つのビットマップ画像の間のパターンは、類似のフォント・スタイルまたは類似のフォント・サイズを使用することによって発生される。２つのビットマップ・セグメントを解析するとき、それらの形状は、類似度の大きさが事前に定義したしきい値の範囲内にある場合には同じ意味のあるグループに属するようにソートされる。画像領域（すなわち、非テキスト領域）内の画像セグメントを解析してソートを行った後、類似のテキストの意味を有するセグメントを識別するために、（識別装置２１１によって計算された）テキストのセグメントのソートを実行することができる。たとえば、画像セグメントのテキストの意味は、サブジェクト（主題）の特定のクラスまたはサブジェクトのサブクラスを識別するのに役立つことがある。
【０１０７】
図１６は、図１５のステップ１５０８を詳細に説明するフロー図である。より具体的には、図１６は、類似度および／または繰返しパターンを有する画像セグメントを意味のあるグループにソートするための１つの実施形態である。最初に、ステップ１６０２において、１つの画像セグメントが、ステップ１５０６において形成された一組の画像セグメントから選択される。ステップ１６０４において、一組の画像セグメントの残りの各画像セグメントの各々と選択された画像セグメントとの間の距離が計算される。それぞれの距離は、選択された画像セグメントに関して一組の画像セグメントのうちの残りの画像セグメントのそれぞれの間の類似度を定量化する。画像セグメント間のそのような距離測定は、全体的ベースにも局所的ベースにも行うことができる。局所的ベースで行う場合は、２つの画像セグメント間の距離が、各画像セグメントの一部分に関してのみ計算される。たとえば、テキストのすべての行を記録する２つの画像セグメントを、全体的な行ごとに、あるいは局所的な単語ごとまたは文字ごとに、互いに突き合わせることができる。
【０１０８】
１つの実施形態において、各距離は、残りの画像セグメントの各々と選択された画像セグメントとの間の「ハウスドルフ距離(Hausdorff distance)」を計算することによって決定される。代替実施形態において、各距離は、「ハウスドルフ・フラクション」または「変換による最小ハウスドルフ距離(minimum Hansdorff distance under Transformation)」を計算することによって決定される。ハウスドルフ距離、ハウスドルフ・フラクションまたは変換による最小ハウスドルフ距離の計算の詳細は、１９９６年にＳｐｒｉｎｇｅｒ−Ｖｅｒｌａｇから出版されたウィリアム・ラックリッジ（ＷｉｌｌｉａｍＲｕｃｋｌｉｄｇｅによる論文「ハウスドルフ距離を利用した効率的な視覚的認識（Efficient Visual Recognition Using the Hausdorff Distance)」に開示されている。他の実施形態において、距離は、２つの画像パターンの間の重み付けＸＯＲまたはハミング距離を計算することにより決定することができる。距離を計算するためのさらにもう１つの実施形態は、画像セクションを比較して類似度を決定するための方法を説明している米国特許第５，５３９，８４１号に開示されている。
【０１０９】
変換による最小ハウスドルフ距離を計算することにより各距離を決定する利点は、それぞれの距離を計算する際に、画像セグメント間のスケールと向きの小さな変化が考慮される点である。すなわち、スケールや向きの変化によって生じる２つの画像セグメントの差が、変形した状態で最小距離で距離を計算することによって補償される。たとえば、スケールの変化は、書体（たとえばＴｉｍｅｓＲｏｍａｎ）が似ているがフォント・サイズが異なる（たとえば、１０ポイントと１２ポイント）２つの画像セグメントを識別することができる。実際には、この方法は、２つの画像セグメント間で最良のハウスドルフ距離測定を生成する変換を識別することによって、類似の属性を有する画像セグメントを識別する。その結果、２つの画像セグメント間の距離を計算するときに、スケールと向きによる画像の変形が考慮される。
【０１１０】
選択した画像セグメントと一組の画像セグメントのうちの残りの画像セグメントの各々との間の類似度を決定した後で、ステップ１６０６で、画像セグメントのクラスタを定義する。具体的には、しきい値距離範囲内の距離を有する一組の画像セグメントのうちの残りの画像セグメントを使って、画像セグメントの新しいクラスタを定義する。ステップ１６０６においてクラスタを形成する画像セグメントは、ステップ１６０８において一組の画像セグメントから除去される。ステップ１６１０において、一組の画像セグメントに画像セグメントが残っている場合は、ステップ１６０２が繰り返される。そうでない場合は、ステップ１５１０が実行される。ステップ１５１０において、ステップ１６０６で定義された各画像クラスタに従って、ステップ１５０６において形成された各画像セグメントに対応するドキュメント画像が配列される。
【０１１１】
ステップ１５０８において、一組の画像セグメントを意味のあるグループにソートするための代替実施形態は、「テキストの２進画像から抽出された記号を比較する方法および装置（Method And Apparatus For Comparing Symbols Extracted From Binary Images Of Text ）」と題する、米国特許出願第０８／６５５，５４６号（以下、特許出願’５４６）に開示されている。この代替実施形態において、画像セグメントを比較して意味のある画像セグメントのグループを識別するために、ハウスドルフと類似の方法が使用される。ステップ１５０８で特許出願’５４６に示された方法を実行する際、次の２つの用語の違いを考慮しなければならない。最初に、特許出願’５４６において引用された「記号(Symbols) 」は、本発明の文脈では、１つまたは複数のレイアウト・オブジェクトで構成された画像セグメントとして定義される。第２に、特許出願’５４６において作成された「等価クラス(equivalence classes) 」は、本発明の文脈において、意味のあるグループとして定義される。
【０１１２】
図１７は、図１５と図１６に示された方法を使用して形成される画像セグメント１７００のグループを示す。画像セグメント１７００のグループ内の各画像セグメントは、ドキュメントメタデータ２２４からのタイトルとファイリン日の情報を含む。また、グループ１７００内のアドレス・フィールドはそれぞれ、対応するドキュメント画像へのハイパーテキスト・リンクである。ステップ１５００でシステム内のドキュメント画像がレイアウト・オブジェクトに分割された後、ステップ１５０２において一組のドキュメント画像が識別され、ステップ１５０４において、アドレス・フィールド特徴がユーザによって選択される。画像セグメント１７００のグループ化は、ステップ１５０６で一組の画像セグメントを形成した後のステップ１５０８でソートされた多くのグループのうちの１つのグループだけである。画像セグメント１７００のグループには、４つのアドレス・フィールド１７０２、１７０４、１７０６および１７０８がある。アドレス・フィールドは、これらの距離がある一定のしきい値よりも下にあるためグループ化される。さらに、アドレス・フィールドをグループ化するこの方法は、スケールと向きによって生じる画像セグメント間のばらつきを考慮する。たとえば、アドレス・フィールド１７０２および１７０８のスケールが異なり、アドレス・フィールド１７０４および１７０６の向きが異なる。ドキュメントのコーパスに記憶されたドキュメントをソートするこの方法を利用することによって、ユーザは、類似したアドレス・フィールドを有するドキュメント１７００のグループを検査することによって、コーパス内の特定のドキュメントをより容易に識別することができる。
【０１１３】
Ｈ．２特徴または属性によるサーチ結果のランク付け
図１８は、選択したレイアウト・オブジェクトとの類似度によってファイルシステム１１７に記憶されたドキュメント画像２２６から分割されたレイアウト・オブジェクト２３８をランク付けするステップを示すフロー図である。ドキュメント画像のページ画像におけるレイアウト・オブジェクトは、ドキュメント画像の特徴２４２と属性のいずれかを使って識別される。最初に、ステップ１８００において、ドキュメント画像２３７のページ画像２２６が、図１５のステップ１５００に関して前に説明したようにレイアウト・オブジェクト２３８に分割される。ステップ１８０２において、指定されたドキュメント画像を受け取る。また、指定されたドキュメント画像の特徴（単数又は複数）を、ステップ１８０４で受け取る。あるいは、画像特徴の代わりに、ステップ１８０４に属性（単数又は複数）２４０を受け取ることもできる。１つの実施形態において、ドキュメント画像とその特徴（単数又は複数）は、図９に示したドキュメントサーチインタフェース２１８を使用して指定される。この実施形態において、ドキュメント名がテキスト・フィールド９８２に指定され、特徴が、メニュー９８４で指定される。ステップ１８０６において、一組のドキュメント画像が選択される。この選択された一組の画像は、事前に定義された一組のドキュメント画像でもよいし、サーチインタフェース２１８を使用したサーチによって得られた一組のドキュメント画像でもよい。ステップ１８０８において、選択された１つまたは複数の特徴または属性を受け取る。図９に示した実施形態において、ステップ１８０８で選択された特徴が、表示領域９６９の特徴メニュー９６２、９６４、９６６および／または９６８のうちの１つを使用して指定される。ユーザがインタフェース２１８のコマンド・ボタン９８０を選択すると、ステップ１８０２、１８０４、１８０６および１８０８で受け取った各エレメントを受け取る。
【０１１４】
ステップ１８１０において、（ステップ１８０４で）指定されたドキュメント画像の特徴を構成する選択された一組のドキュメント画像（ステップ１８０６に）においてレイアウト・オブジェクトを識別することによって、一組の画像セグメントが形成される。すなわち、指定されたドキュメント画像の特徴に対応するドキュメント画像のあるいくつかの部分（すなわち、レイアウト・オブジェクト）だけが、それらのドキュメント画像から抽出され、一組のレイアウト画像に追加される。ステップ１８１２において、ステップ１８０４で指定された特徴を構成するステップ１８０２において指定されたドキュメント画像内のレイアウト・オブジェクトを識別することによって、単一の画像セグメントが形成される。ステップ１８１４において、距離は、選択した一組のドキュメント画像においてドキュメント画像ごとに計算される。ステップ１８１４で計算した各距離は、選択した一組のドキュメント画像のうちの１つのドキュメント画像の特徴と、指定されたドキュメント画像の特徴との違い（類似度）の尺度である。すなわち、各距離は、ステップ１８１０で形成された一組の画像セグメントの各画像セグメントと、ステップ１８１２で形成された単一の画像セグメントとの差の尺度である。
【０１１５】
ステップ１８１４で計算した各距離は、前述の距離のうちの１つを利用して実行することができる。たとえば、各距離の測定は、２つの画像セグメント間のハウスドルフ距離を計算することにより行うことができる。あるいは、２つの画像セグメント間の距離は、ハウスドルフ・フラクション、変換による最小ハウスドルフ距離、重み付けＸＯＲまたはハミング距離を利用して計算することができる。ステップ１８１４が完了した後、選択した一組のドキュメント画像内の各画像は、ステップ１８０６で選択されたドキュメント画像の同じ特徴に対するステップ１８０２で指定されたドキュメント画像の特徴の関連性を定義する計算された距離を有する。ステップ１８１６において、ドキュメント画像のクラスタは、ステップ１８１４において計算された距離をランク付けすることによって形成される。ステップ１８１８において、選択した一組のドキュメント画像における各ドキュメント画像のステップ１８０８で選択された特徴は、ステップ１８１６で選択された画像の特徴に対する類似度によってランク付けされた特徴のクラスタごとに表示される。
【０１１６】
図１９は、指定されたドキュメント画像における特徴の類似度によりドキュメントの特徴をランク付けする例を示す。具体的には、図１９は、図１８に示したステップを完了した後で表示される画像のクラスタの特徴１９００を示す。この例では、指定されたドキュメント画像の選択された特徴が、参照番号１９０１〜１９０４によってクラスタ１９００内に示された「ｆｒｏｍフィールド」である。さらに、画像のクラスタの特徴１９００は、ステップ１８０８で選択された特徴に対応する参照番号１９０５〜１９０８によって示された４つのメモ・ヘッダ・フィールドを示す。より具体的には、特徴「ｆｒｏｍフィールド」１９０１〜１９０４は、指定されたランク付けの範囲内にある計算距離を有し、ステップ１８１６でいっしょにクラスタ化される。本発明により、ドキュメント画像の画像のクラスタの特徴１９００は、ドキュメント画像のテキストの内容ではなくドキュメント画像のレイアウト構造を利用してアセンブルされる。
【０１１７】
Ｉ．プログレッシブ送信および／または表示
前に図１と図２で説明したように、画像セグメンタ２１１は、画像を、表１に示したようなレイアウト・オブジェクト・タイプのうちの１つをそれぞれ有するレイアウト・オブジェクトに分割する。ドキュメント内の各レイアウト・オブジェクトは、レイアウト・オブジェクトの内容と関係なく識別される。レイアウト・オブジェクト・タイプの例は、テキスト、図形およびハーフトーンである。前述のように、各レイアウト・オブジェクトごとに計算された画像属性は、それぞれのレイアウト・オブジェクトの構造と特性を定義するために使用される。さらに、画像の属性は、レイアウト・オブジェクトがドキュメント画像のページ画像内の他のレイアウト・オブジェクトとの間で持つ空間的な関係を識別するために使用される。ユーザは、画像の属性を使って、ドキュメント画像の特徴を引き出すことができる。属性と異なり特徴をカスタマイズし、それによりページ画像内の独特な組のレイアウト・オブジェクトを識別することができる。
【０１１８】
ファイル・システム１１７に記憶されたドキュメント画像２３７は、検索エンジン・インタフェース２１８を使ってネットワーク１３０を介してサーチすることができる。ネットワーク１１７の帯域幅が制限されることがあるため、ドキュメントのページ画像２２６の送信が遅い場合がある。ドキュメント画像データ・ファイルのサイズとネットワークのデータ転送速度によって、インタフェース２１８を操作するユーザは、ファイル・システム１１７のドキュメント画像をサーチまたはブラウズしている間に過度に長い伝送遅延に遭遇することがある。ネットワーク１３０を介してドキュメント画像を受け取る際の過度に長い遅延を緩和するために、ユーザは、プログレッシブに伝送および／または表示されるドキュメント画像のレイアウト・オブジェクトを有するオプションが提供される。
【０１１９】
ドキュメント画像のプログレッシブ送信および／または表示は、ユーザ・インタフェース２１８を動作させるクライアント・ワークステーション１５０と、ドキュメントサーチおよび検索システム１４０を動作させるサーバ・ワークステーション１１０との間のネットワーク１３０を介するデータ送信の時間コストを削減する。動作において、最初に、他のレイアウト・オブジェクトよりも重要と識別されたドキュメント画像のページ画像内のレイアウト・オブジェクトが送信される。ユーザが関心のあるドキュメント画像の要素に対して高速にアクセスすることができるため、データ送信における時間コストが低下する。さらに、このプログレッシブ送信の形により、ユーザは、ドキュメント画像を詳細に調べるべきかどうかを素早く決定して、ドキュメント内のあまり重要でないレイアウト・オブジェクトが送信される前にドキュメント画像を見せないという決定を行って、データの伝送量を最小にすることができる。
【０１２０】
一般に、このドキュメント画像のプログレッシブ送信および／または表示の方法は、ドキュメント画像がレイアウト・オブジェクトに分割されることに基づく。最初に、ユーザは、閲覧および／またはサーチの対象に最も適切なドキュメント画像の特徴または属性を識別する。このレイアウト・オブジェクトのプログレッシブ送信および／または表示の方法は、２つのステップに分けられる。送信の第１のステップにおいて、ユーザによって最も関心があると指定された特徴および／または属性を有するドキュメント画像のレイアウト・オブジェクトだけが、高い解像度で送信および／または表示され、ドキュメント画像の残りのレイアウト・オブジェクトは、低い解像度で送信および／または表示される。
ユーザが要求した場合にだけ呼び出される送信の第２ステップにおいて、第１のステップで低い解像度で送信されたレイアウト・オブジェクトが、高い解像度で再送信および／または表示され、最後にはドキュメント画像を高い解像度で表示させる。
【０１２１】
ｌ．１プログレッシブ送信
図２０は、ドキュメントサーチ／検索システム１４０を実行するサーバ・ワークステーションの視点からドキュメント画像のプログレッシブ送信を実行するステップを示すフロー図である。最初に、ステップ２０００において、ファイル・システム１１７内のドキュメント画像２３７のページ画像が、レイアウト・オブジェクト２３８に分割される。ドキュメント画像をレイアウト・オブジェクトに分割した後、画像セグメンタ２１１が、分割された各レイアウト・オブジェクト毎に画像属性２４０を計算する。また、プログラム・マネージャ２１４が、ドキュメント画像内で分割されたレイアウト・オブジェクトが特徴２４２に対応するかどうかを判定する。これらの操作は、ドキュメント画像の送信の前にリアルタイムで実行することができる。あるいは、これらの操作は、システムを初期化するとき、あるいはドキュメント画像２３７がファイル・システム１１７に加えられられたときに実行することができる。
【０１２２】
１つの実施形態において、検索エンジン・インタフェース２１８を稼働させるクライアント・ワークステーション１５０（図１に示した）のユーザは、図９のインタフェース２１８のチェック・ボックス９４９を選択することにより、画像データをプログレッシブに送信することを要求する。チェック・ボックス９４９を選択する他に、ユーザは、図２１に示した表示プロファイル２１０２を定義し、ユーザがページ画像の特徴と属性を送信および／または表示する順序を定義することができる。表示プロファイル(display profile) ２１０２には、インタフェース２１８の「プログレッシブ表示(Progressive Display) 」のハイパー・テキスト９５０を選択することによりアクセスすることができる。表示プロファイル２１０２内の表示領域２１１２により、ユーザは、対象をブラウズまたはサーチするのに最も適切な特徴と属性を指定することができる。さらに、ユーザは、選択された特徴および／または属性のランク付けを指定することもできる。ユーザが表示プロファイルを定義しない場合は、代りにデフォルトプロファイルが使用される。代替実施形態において、クライアント・ワークステーションが、データをプログレッシブに自動的に送信し表示するようにプログラムされたとき、ユーザが介在することなくステップ２００２を実行することができる。
【０１２３】
ステップ２００２において、送信プロファイルと送信要求が、図１に示したワークステーション１１０などのサーバ・ワークステーションで受け取られる。この送信要求は、ファイル・システム１１７に記憶された１つまたは複数のドキュメント画像２３７の要求を含む。送信プロファイルは、図２１に示したプログレッシブ表示プロファイル２１０２から得られ、送信の第１のステップの間に要求したドキュメント画像内のレイアウト・オブジェクトを識別してクライアント・ワークステーションに送信するために使用される特徴および／または属性のリストである。ドキュメントサーチシステム１４０を操作するサーバ・ワークステーションは、ステップ２００４で、送信プロファイルを使用して、送信プロファイルにおいて識別された特徴および／または属性に対応する要求ページ画像内のレイアウト・オブジェクトを識別する。
【０１２４】
ドキュメント画像データのプログレッシブ送信は、２つのステップで実行される。送信の第１のステップの間に、ステップ２００６および２００８が実行される。ステップ２００６において、ステップ２００４で識別された要求ページ画像内のレイアウト・オブジェクトが第１のすなわち高い解像度でクライアント・ワークステーションに送信される。次に、ステップ２００８において、ステップ２００４で識別されなかった要求ページ画像内のレイアウト・オブジェクトが、第２の解像度すなわち低い解像度でクライアント・ワークステーションに送信される。画像データを受け取ると、クライアント・ワークステーションは、送信された画像データをフォーマットしてオリジナルドキュメント画像を複製する。代替実施形態において、ステップ２００８で送信されたレイアウト・オブジェクトは、図２１にプログレッシブ表示プロファイル２１０２内のチェックボックス２１１６を選択することにより、文字枠多角形(bounding polygons) の形で送信される。
【０１２５】
送信の第１のステップが完了した後で、サーバ・ワークステーションは、ステップ２０１０で、ある一定期間待機する。、ステップ２０１４で、待機期間内にクライアントの要求を受け取らない場合は、サーバ・ワークステーションが、ステップ２０１２でタイムアウトする。ステップ２０１４において、クライアント要求を受け取ると、現在の送信要求を継続するか新しい送信要求を開始するかを指定することができる。具体的には、ステップ２０１４で受け取った要求は、ステップ２００４で識別されない要求ページ画像内のレイアウト・オブジェクトを、送信の第２ステップの間に第１の解像度すなわち高い解像度で送信することを指定することができ、あるいは、要求が、ステップ２００２で新しい送信要求を指定することができる。
【０１２６】
ステップ２００２が繰り返される場合は、送信の第２ステップは実行されず、それにより、クライアント・ワークステーションとサーバ・ワークステーションとの間でデータを送信する時間コストが削減される。また、送信セッションの間にステップ２００２がクライアント・ワークステーションによって繰り返されるとき（すなわち、送信セッションが１つまたは複数の送信要求を有してもよい）、送信プロファイルは、１つのセッションで１回だけ送信するだけでよいことは当業者には理解されよう。クライアントがステップ２０１２でタイムアウトした場合は、ステップ２００８で送信されたレイアウト・オブジェクトが、送信の第２のステップの間にステップ２０１６で再送信される。ステップ２０１６を実行した後で、ステップ２００２における要求ページ画像の送信が、ステップ２０１８で完了する。
【０１２７】
サーチインタフェース２１８を操作するクライアント・ワークステーションにおいて、たとえば、ユーザが要求ページ画像の低い解像度（すなわち第２の解像度）領域の一部分を選択するときに、ステップ２０１４および２０１６のシーケンスを開始することができる。あるいは、ユーザが、オリジナルの送信要求にないページ画像（または、ページ画像の縮小スケール画像）を選択するときは、ステップ２０１４および２００２のシーケンスを開始することができる。これと対照的に、ステップ２０１２が実行され、クライアント要求がないとき、ユーザは、要求ページ画像の送信の第２ステップを自動的に開始することを期待していると想定される。すなわち、ある一定期間後でクライアント要求のないことは、ステップ２０１６で送信の第２ステップを開始する要求を受け取っているように扱われる。
【０１２８】
ステップ２００６で低い解像度で最初に送信されるレイアウト・オブジェクトを定義するドキュメント画像データは、ステップ２０１６で高い解像度で完全に再送信される必要がなことは当業者には理解されよう。その代わりに、２ステップに送信されるレイアウト・オブジェクトは、２つのレベルのピラミッド形階層符号化方式を利用して送信することができ、それによりデータの一部が第１のステップの間に送信され、データの他の部分が第２のステップの間に送信される。データを階層的に符号化することにより、クライアントとサーバの間で重複したデータが送信されることはない。たとえば、米国特許第５，３３５，０８８号とその参考資料は、画像データを階層的に符号化する様々な方法を示す。さらに、各レイアウト・オブジェクトを形成する画像データのタイプによって、送信の各ステップの間に送信されるデータの量を減少させるための多くの圧縮技法がある。
【０１２９】
Ｉ．２プログレッシブ表示
ドキュメント画像が、図２０に示した方法を使ってプログレッシブに送信されている場合、クライアント・ワークステーションでのドキュメント画像での表示は、本質的にプログレッシブである。ドキュメント画像のプログレッシブ送信とプログレッシブ表示は、ブール・チェックボックス２１０６、２１０８および２１１０によって表示プロファイル２１０２に例示されるように、互いに独立または同時に実行することができる。操作の１つのモードにおいて、クライアント・ワークステーションのユーザは、チェックボックス２１０８の選択により、ページ画像がプログレッシブに表示されプログレッシブに送信されないように要求することができる。ページ画像がプログレッシブに表示されて送信されないときは、クライアント・ワークステーションによって、性能上の利点が得られる場合と得られない場合がある。
【０１３０】
プログレッシブ表示は、プログレッシブ送信と同様、ユーザが、第１のステップの間に表示される一組の特徴および／または属性を識別することを要求する。ドキュメントのこれらの属性および／または特徴は、ユーザが最初に表示しようとするドキュメント画像のレイアウト・オブジェクトである。また、プログレッシブ送信と同様、ドキュメント画像は、２つのステップでプログレッシブに表示される。表示の第１のステップの間に、ユーザによって識別されるドキュメントのレイアウト・オブジェクトが、第１の解像度すなわち高い解像度で表示される。ドキュメント画像の他のレイアウト・オブジェクトは、第２の解像度すなわち低い解像度に表示される。表示の第２のステップの間に、第２の解像度すなわち低い解像度で表示されたレイアウト・オブジェクトは、次に高い解像度すなわち第１の解像度で表示される。
【０１３１】
ｌ．３プログレッシブ送信および／または表示の代替モード
図２１のプログレッシブ表示プロファイルは、ドキュメント画像データをプログレッシブに表示および／または送信する様々なオプションを提供する。表示と送信の２つのステップだけが示されているが、プログレッシブ送信と表示のためのこの方法は、任意の数の表示ステップおよび／または送信ステップを含むことができることは当業者には理解されよう。たとえば、プログレッシブ表示プロファイルは、ユーザに、プログレッシブな４つの送信ステップとプログレッシブな２つの表示ステップだけを定義する機能を提供することもできる。ドキュメント画像をプログレッシブに送信及び／又は表示するこの方法の重要な点は、ユーザが、ドキュメントの画像属性および／または特徴を送信および／または表示する順序をランク付けできることである。
【０１３２】
プログレッシブ表示プロファイル２１０２に示されたもう１つの動作モードにおいて、ユーザは、チェックボックス２１１４の選択によって送信の第１のステップだけが送信および／または表示されるように指定することができる。この動作モードを選択することによって、表示および／または送信されるドキュメント画像の内容は、たとえば図１２〜図１４に示したような要約形式である。このオプションは、クライアント・ワークステーションの表示がスクリーンのスペースを制限するときに使用することができる。また、ユーザは、チェックボックス２１１６を選択することにより、表示または送信の第２のステップの間に文字枠（境界ボックス）多角形だけが送信されるように指定することができる。両方のチェックボックス・オプション２１１４と２１１６は、第２の動作ステップの間に送信および／または表示される画像データの量を制限する２つの異なる方法を提供する。さらにもう１つの動作モードにおいて、プログレッシブ表示プロファイル２１０２は、送信ステップの範囲内で特徴が表示および／または送信される順序をランク付けするオプションをユーザに提供する。
【０１３３】
ｌ．４プログレッシブに表示された画像の例
図２２〜図２４は、プログレッシブ表示の第１のステップを完了した後でプログレッシブ表示の第２のステップが始まる前の３つの異なるページ画像の例を示す。図２５は、全体画像２５００が第１の解像度すなわち高い解像度で表示された第２の表示ステップを完了した後の図２２〜図２４に示したページ画像を示す。図２２は、第１のステップの間に、特徴ｌｅｔｔｅｒ−ｄａｔｅ２２０２、Ｉｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ２２０４およびｌｅｔｔｅｒ−ｓｉｇｕｎａｔｕｒｅ２２０６が、第１の解像度すなわち高い解像度で表示されたページ画像例２２００を示す。ページ画像２２００中のその他の特徴は、低い解像度で表示される。図２３は、同じ特徴２２０２、２２０４および２２０６が高いの解像度すなわち第１の解像度で表示されたページ画像２３００を示す。しかしながら、ページ画像２２００と異なり、高い解像度で表示されていないページ画像２３００の他の特徴は、文字枠多角形を利用して表示される。
【０１３４】
ネットワーク１３０を介してサーチインタフェース２１８を操作するユーザは、イントラネットの閉じた世界で操作することもできる。そのような閉じた世界のユーザは、多数の特徴を定義することができる。しかしながら、インターネットの開放された世界では、特徴は定義されていないこともあり、ユーザは、属性によってしかレイアウト・オブジェクトを識別できないこともある。図２４は、画像属性を利用して、図２２と図２３の画像２２００と２３００と異なる第１の解像度すなわち高い解像度で送信されるレイアウト・オブジェクトを識別するページ画像２４００を示す。ページ画像２４００において、送信および／または表示の第１のステップが、ｎｏｎ−ｒｕｎｎｉｎｇテキストに対するｒｕｎｎｉｎｇテキストの属性を有するレイアウト・オブジェクトを区別する。より具体的には、画像セクション２４０２および２４０６は、「真」の属性ｎｏｎ−ｒｕｎｎｉｎｇテキストを有するレイアウト・オブジェクトを第１の解像度すなわち高い解像度で示す。これと対照的に、画像セクション２４０４は、「偽」の属性ｒｕｎｎｉｎｇテキストを有するレイアウト・オブジェクトを第２の解像度すなわち低い解像度で示す。
【０１３５】
Ｊ．結論
要約すると、本発明は、ページ画像内のテキスト・ブロックが他のテキスト・ブロックによって定義された基準フレームに対して持つ空間関係によってドキュメント画像のページ画像のレイアウト構造を記述する技術に関する。このレイアウト技法の利点は、文字認識に依存せず、したがって比較的低い解像度で実行することができることである。このレイアウト技法の第２の利点は、新しいレイアウト構成要素と構造の対話式のユーザ仕様に適した高いレベルのフレームワークを提供し、それにより、ドキュメントをカテゴリおよび／またはフォーマットで識別するフレキシビリティを提供することである。この第２の利点は、直線的プログラムを使用してドキュメント画像内に特徴を定義し検出することができることにより得られる。
【０１３６】
本発明は、ドキュメントの最初のページを使用して説明してきたが、本発明がドキュメント全体に当てはまることは当業者には理解されよう。さらに、考察のほとんどは、スキャンしたドキュメント画像によるドキュメントに焦点を当てているが、本発明は、ドキュメント内のテキストだけがサーチおよび検索システムによって調べられる場合に失われる構造を有する電子的に得られたドキュメントに適用できることは、当業者には理解されよう。たとえば、ＰｏｓｔＳｃｒｉｐｔを使って定義された電子ドキュメントは、ＰｏｓｔＳｃｒｉｐｔドキュメントをレンダリングするために使用される特定のデコンポーザによって変化するレイアウト構造を有してもよい。したがって、本発明の利点は、ドキュメントのフォーマットがビットマップかまたはさらに高いレベルのＰＤＬ表現によるものかに関係なく、ドキュメント高レベルのレイアウト構造を明示的に定義するために使用できる方法を提供することである。
【図面の簡単な説明】
【図１】本発明を実施するために使用される一般的な構成要素のブロック図である。
【図２】図１に示したドキュメントコーパス管理／サーチシステムの詳細なブロック図である。
【図３】ファイル・システム内にドキュメント画像データが配列された様子を示す図である。
【図４】基本操作のシーケンスを利用して特徴を定義するための対話サイクルのフロー図である。
【図５】図４のステップ４０８で定義された一組のレイアウト・オブジェクトの１つまたは複数の選択操作または累算操作を指定するステップを示すフロー図である。
【図６】図４と図５に示した対話サイクルを使用してプログラムされた特徴の例を示す図である。
【図７】図２に示したジャンル・モデル・プログラム・インタフェース２１９をより詳細に示す図である。
【図８】図７に示したジャンル・モデル・プログラム・インタフェースを利用して、属性と特徴の有無を指定することによって定義できる３つの異なる高レベルのドキュメント構成の例を示す図である。
【図９】ファイル・システムに記憶されたドキュメントのコーパスをサーチするための検索エンジンのインタフェースの例を示す図である。
【図１０】ユーザが作成した要約の合成要約画像の出力フォーマットを定義するために使用できる要約表示プロファイルを示す図である。
【図１１】ユーザが作成したサーチの要約を生成するステップを示すフロー図である。
【図１２】図１０に概略的に示したステップを使用して作成された要約画像の例を示す図である。
【図１３】図１０に概略的に示したステップを使用して作成された要約画像の例を示す図である。
【図１４】図１０に概略的に示したステップを使用して作成された要約画像の例を示す図である。
【図１５】ドキュメント画像から分割されたレイアウト・オブジェクト間の類似度によってドキュメント画像をソートするステップを示すフロー図である。
【図１６】図１５に示したステップ１５０８で一組の画像セグメントをソートするための１つの実施形態を示すフロー図である。
【図１７】図１５と図１６に示した方法を使用して形成された画像セグメントのグループ化を示す図である。
【図１８】指定したレイアウト・オブジェクトの類似度によりドキュメント画像から分割されたレイアウト・オブジェクトをソートするための実施形態を示すフロー図である。
【図１９】指定されたドキュメント画像内の特徴の類似度によってドキュメント画像の特徴をソートする例を示す図である。
【図２０】ドキュメントサーチ／検索システムを稼働させるサーバ・ワークステーションの視点からのドキュメント画像のプログレッシブ送信を実行するステップを示すフロー図である。
【図２１】ドキュメント画像の特徴および属性を送信及び／又は表示する順序を定義するためのプログレッシブ表示プロファイルを示す図である。
【図２２】選択した特徴ｌｅｔｔｅｒ−ｄａｔｅ、ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔおよびｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅを高い解像度すなわち第１の解像度で表示する第１のステップを完了した後のページ画像例を示す図である。
【図２３】選択した特徴を含まないレイアウト・オブジェクトを文字枠多角形を使って表示する第１のステップを完了した後のページ画像を示す図であり、図２２とは違い、同じ特徴が第２の解像度すなわち低い解像度で表示される。
【図２４】選択した属性を含むレイアウト・オブジェクトを第１の解像度すなわち高い解像度で表示し、選択した属性を含まないレイアウト・オブジェクトを第２の解像度すなわち低い解像度で表示する第１のステップを完了した後のページ画像を示す図である。
【図２５】画像全体を第１の解像度すなわち高い解像度で表示する第２の表示ステップを完了した後の図２２〜図２４に示したページ画像を示す図である。

Claims

ドキュメント管理システムのメモリに記憶されたドキュメント画像をソートする方法であって、
メモリに記録された各ドキュメント画像を、一組のレイアウト・オブジェクトに分割するステップを有し、一組のレイアウト・オブジェクトの各レイアウト・オブジェクトが複数のレイアウト・オブジェクト・タイプのうちの１つであり、前記複数のレイアウト・オブジェクト・タイプの各々がドキュメントの構造要素として定義され、
前記一組のレイアウト・オブジェクトの各レイアウト・オブジェクトの属性を計算してメモリに記録するステップを有し、各レイアウト・オブジェクトの前記計算された属性はドキュメントの構造要素の特性を定量化すると共に分割されたドキュメント画像の他のレイアウト・オブジェクトとの空間的関係を表し、
一組の特徴からドキュメントの特徴を選択するステップを有し、前記一組の特徴の各特徴が、前記メモリに記録された一組のレイアウト・オブジェクトの区別されるレイアウト・オブジェクトのグループにより定義され、
前記計算された属性を使用して前記一組のレイアウト・オブジェクトから前記選択されたドキュメントの特徴を定義するレイアウト・オブジェクトを選択するステップを有し、
前記選択されたレイアウト・オブジェクトを一組の画像セグメントとしてメモリに記録するステップを有し、
前記一組の画像セグメントの選択された画像セグメントと残存する画像セグメント各々との間の距離を計算するステップを有し、
前記一組の画像セグメントを前記計算された距離に基づいて類似するレイアウト・オブジェクトを有する画像セグメントのグループであるクラスタにソートしてメモリに記録するステップを有し、
前記ソートされたクラスタ毎に前記一組の画像セグメントを表示するステップを有する、
ドキュメント画像のソート方法。
更に、
一組の画像セグメントから第１の画像セグメントを選択して前記選択された画像セグメントを決定するステップと、
第１の画像セグメントと一組の画像セグメントに残存する画像セグメントとの間の距離を計算するステップと、
第１の画像セグメントとしきい値距離範囲内である距離を有する前記残存する画像セグメントのうちのいくつかとによって第１のクラスタを定義するステップとを有する、
請求項１記載の方法。
更に、
メモリからドキュメント画像を選択するステップと、
前記選択されたドキュメントの特徴を定義する前記選択されたドキュメント画像のレイアウト・オブジェクトを使用して、単一の画像セグメントを生成して前記選択された画像セグメントとして決定するステップと、
前記単一の画像セグメントと前記一組の画像セグメントの各画像セグメントとの間の距離を計算するステップと、
前記単一の画像セグメントと前記一組の画像セグメントの各画像セグメントの間の計算された距離をランク付けすることにより、前記クラスタを形成するステップとを有する、
請求項１記載の方法。