JPH11224267A

JPH11224267A - ドキュメント画像の要約方法

Info

Publication number: JPH11224267A
Application number: JP10322581A
Authority: JP
Inventors: Daniel G Bobrow; ジー．ボブローダニエル; V Mahony James; ブイ．マホニージェームズ; L Bromberg Janet; エル．ブロムバーグジャネット; H Trigg Randall; エイチ．トリッグランダル
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-11-14
Filing date: 1998-11-12
Publication date: 1999-08-17

Abstract

(57)【要約】【課題】メモリに記憶され、選択されたドキュメント
画像を要約する方法を提供する。【解決手段】ステップ１１０８において、ドキュメン
ト画像のコレクションのうちの各ドキュメント画像に対
して、システム１４０は、ステップ１１０６で受け取っ
た一組の特徴のうちの特徴を定義するレイアウト・オブ
ジェクトを識別する。次に、ステップ１１１０におい
て、ドキュメント画像のコレクションのうちの各ドキュ
メント画像に対して、ステップ１１０８で識別された特
徴と関連付けられたレイアウト・オブジェクトをアセン
ブルすることによって要約画像が形成される。ステップ
１１１４において、ステップ１１１０でアセンブルされ
た要約画像を定義するレイアウト・オブジェクトが、ユ
ーザが定義したユーザ要約プロファイルから選択された
既定のユーザ指定動作によって変更される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、ドキュメ
ントの大きなコーパスを管理しサーチするためのシステ
ムに関し、より詳細には、ドキュメントの大きなコーパ
スに記録されたドキュメントのユーザに指定されたレイ
アウト・コンポーネントを有する組になったドキュメン
トの要約を生成するためのシステムに関する。

【従来の技術】

【０００２】様々な作業経験を調べることによって、コ
ーパス内のドキュメントをそれらのタイプまたはジャン
ル（すなわち、機能カテゴリ）によってサーチし検索で
きるシステムで作業プロセス（すなわち、作業方法）を
支援できることが分かっている。ドキュメントのいくつ
かのジャンルは、それらが様々な構成や作業プロセスに
わたり繰り返されるという意味で一般的であり、その他
のドキュメントのジャンルは、特定の構成、タスクある
いはユーザに特有である。たとえば、ビジネス・レター
とメモは、一般的なジャンルの例である。各ドキュメン
トの右上角に個人の専用スタンプがある１組のドキュメ
ントは、特定のユーザに特有のジャンルの例である。ま
た、多くの様々なジャンルのドキュメントが、固有の空
間的配置を示す既定の形式または標準的な一組のコンポ
ーネントを有することが分かっている。たとえば、ビジ
ネス・レターは、本文、著者と受取人のアドレス、およ
び署名に分かれる。ドキュメントのジャンルを識別する
ために使用される特定のテキスト・ベースの識別子と異
なり、ドキュメントのレイアウト構造は、様々なクラス
のドキュメントに当てはめることができる。

【０００３】本発明は、ユーザが指定したドキュメント
のレイアウト構造（すなわち、視覚的体裁）を定義し
て、マルチジャンルのドキュメントのデータベースに記
憶されたドキュメントのサーチと検索を容易にする方法
および装置に関する。このドキュメントのサーチ方法
は、ドキュメントのレイアウト構造を定義する方法によ
るサーチに焦点を合わせる。ドキュメント内のテキスト
をサーチするための多くの技法と違って、このようなレ
イアウト構造によりドキュメントをサーチする技法は、
ドキュメント内に確認されたテキスト内容ではなく体裁
（外観）に基づく。そのようにレイアウト構造に基づい
てドキュメントをサーチするための一般的な前提は、テ
キストドキュメントのレイアウト構造がそのジャンルを
反映することである。たとえば、ビジネス・レターは、
雑誌記事よりも互いに視覚的に似ている点が多い。した
がって、ドキュメントのクラスを知りつつ特定のドキュ
メントをサーチするユーザは、サーチするドキュメント
のグループの範囲をより有効に絞り込むことができる。

【０００４】本発明が取り組む１つの問題は、スキャン
したドキュメントの大きなコーパスを最も効率よく管理
する方法である。多くのドキュメントのサーチおよび検
索システムは、全てのスキャンしたドキュメント画像に
ＯＣＲ（光学式文字認識）を適用した結果に完全に依存
する。一般に、ＯＣＲ技法は、解読してライブラリ内の
文字と突き合わさる個々の文字に画像を分割する処理を
含む。通常、そのようなＯＣＲ技法は、高い計算能力を
必要とし、一般に無視できない程の認識エラーを有し、
しばしば画像処理に膨大な時間を必要とする。動作にお
いて、ＯＣＲ技術は、１つの文字の各ビットマップをそ
の隣の文字と区別し、その外観を解析して、それを所定
の一組の文字内の他の文字と区別する。

【０００５】ビットマップ画像でＯＣＲ解析を実行する
代替は、ビットマップ画像上で内容ベースのサーチを実
行するシステムである。そのようなシステムの例は、Ｉ
ＢＭのＱｕｅｒｙＩｍａｇｅＣｏｎｔｅｎｔ（ＱＢ
ＩＣ）システムである。ＱＢＩＣシステムは、SPIE Pro
c. Storage and Retrieval for Image and Video Datab
ases、1993における、ニブラック（Niblack ）他による
「ＱＢＩＣプロジェクト：色、テキストおよび形状を利
用した内容による画像照会（The QBIC project: queryi
ng images by content using color, texture and shap
e)」と題する論文、およびSPIE Proc. Storage and Ret
rieval for Image and Video Databases、ページ24〜3
5、1995における、アッシュレー（Ashley）他による
「ＱＢＩＣにおける画像注釈および検索の自動および半
自動方法（Automatic and semiautomatic methods for
image annotation and retrieval in QBIC) 」と題する
論文に開示されている。ＱＢＩＣ検索エンジンのデモ
は、インターネットの「http://wrvwqbic.almaden.ibm.
com/-qbic/qbic.html 」で見ることができる。ＱＢＩＣ
システムを使用することにより、大きな画像データベー
ス内のビットマップ画像を、色の割合、色のレイアウ
ト、テクスチャなどの画像特性によって照会することが
できる。ＱＢＩＣ（登録商標）システムによって実現さ
れる画像ベースの照会は、絞り込んだサーチを行うため
に、テキストやキーワードと組み合わされる。

【０００６】内容ベースの照会を行うもう１つのシステ
ムは、ＵＣバークレー・ディジタル・ライブラリ・プロ
ジェクト(UC Berkeley Digital Library Project) の一
部分として開発されている。低レベルの画像の特性に依
存してサーチを実行するＱＢＩＣ（登録商標）システム
と違い、バークレーのシステムは、低レベル領域の特性
と関係をグループ化して高レベルのオブジェクトを定義
する。バークレーのシステムの前提は、色とテクスチャ
の意味のある配置によって高レベルのオブジェクトを定
義できることである。バークレーのシステムの態様は、
チャド・カーソン（Chad Carson ）他による「領域ベー
スの画像照会（Region-Based Image Querying ）」、CV
PR '97 Workshop on Content-Based Access of Image a
nd VideoLibraries、サージ・ベロンギ（Serge Belongi
e）他による、「学習フレーム構造を使用する大型デー
タベース内の画像の認識（Recognition of Images in L
arge Databases Using a Learning Framework)」、UC B
erkeley CS Tech Report 97-939 、およびチャド・カー
ソン（Chad Carson ）他による「大型オン・ライン画像
収集のための特徴データの記憶と検索（Storage and Re
trieval of FeatureData for a Very Large Online Ima
ge Collection）」、IEEE Computer Society Bulietin
of the Technical Committee on Data Engineering 、1
996年12月、Vol.19 、No.4の、論文と参考文献に開示さ
れている。

【０００７】スキャンしたドキュメントの内容の判読に
ＯＣＲプログラムなどを使用する他に、ハードコピード
キュメントをスキャンするたびにドキュメントメタデー
タ（すなわち、ドキュメント情報）を記録することも一
般的である。このドキュメントメタデータは、テキスト
としてサーチ可能であり、ドキュメントの主題、ドキュ
メントの著者、ドキュメント内にあるキーワード、ドキ
ュメントの題名、およびドキュメントのジャンルまたは
種類を含む。ドキュメントを識別するためにドキュメン
トメタデータを使用する欠点は、特定のコーパスのドキ
ュメントに指定されるジャンルが定まっていないことで
ある。むしろ、コーパス内のドキュメントの異なるジャ
ンルの数は、コーパスが大きくなるにつれて変化するこ
とがある。ドキュメントメタデータのさらに他の欠点
は、ユーザがシステムに入力するのに時間がかかること
である。その結果、スキャンしたドキュメントを管理し
サーチするシステムは、コーパスに新しいドキュメント
を追加したときにドキュメントフォーマットのカテゴリ
とサブカテゴリを定義する機構を十分に提供できるほど
頑強でなければならない。

【０００８】

【発明が解決しようとする課題】したがって、ＯＣＲプ
ログラムとサーチ可能な入力ドキュメントメタデータを
利用して識別されるテキストだけでなく、スキャンした
ドキュメントの視覚的表現を識別することができるよう
な、スキャンドキュメントの大きなコーパスを管理しサ
ーチするためのシステムを提供することが望ましい。そ
のようなシステムは、ドキュメントの構造とフォーマッ
トを定義する情報を利用してドキュメントを有利にサー
チし、要約し、ソートし、送信する。また、そのような
システムおいて、ユーザがドキュメントの特定のレイア
ウト・フォーマットによってドキュメントのジャンルを
柔軟に指定するためのインタフェースを提供することが
望ましい。これが必要な１つの理由は、ドキュメントを
利用しコーパスに追加する過程でドキュメントのジャン
ルが変化したり出現したりする傾向があることである。
したがって、理想的なシステムは、単一ユーザまたはユ
ーザ・グループに関心のある新しいジャンルまたは特定
のクラスのジャンルを指定するフレキシビリティをユー
ザに提供することである。

【０００９】

【課題を解決するための手段】本発明によれば、ドキュ
メント管理システムのメモリに記憶される選択されたド
キュメント画像を要約するシステムおよび方法ならびに
製造物品が提供される。本発明の１つの態様によれば、
選択されたドキュメント画像が、一組のレイアウト・オ
ブジェクトに分けられる。一組のレイアウト・オブジェ
クトの各レイアウト・オブジェクトは、複数のレイアウ
ト・オブジェクト・タイプのうちの１つである。これら
の複数のレイアウト・オブジェクト・タイプの各々は、
ドキュメント画像の構造的要素を識別する。ドキュメン
ト画像の１つの特徴が一組の特徴から指定される。一組
の特徴の各々の特徴はドキュメント画像のレイアウト・
オブジェクトの固有の配置を定義する。レイアウト・オ
ブジェクトのサブセットは、指定された特徴を定義する
一組のレイアウト・オブジェクトから識別される。要約
画像は識別されたレイアウト。オブジェクトによってメ
モリにアゼンブルされ、選択されたドキュメント画像を
要約する。

【００１０】本発明の態様は、メモリに記憶され、選択
されたドキュメント画像を要約する方法であって、選択
されたドキュメント画像を一組のレイアウト・オブジェ
クトに分割するステップを有し、一組のレイアウト・オ
ブジェクトの各レイアウト・オブジェクトが複数のレイ
アウト・オブジェクト・タイプのうちの１つであり、複
数のレイアウト・オブジェクトタイプの各々がドキュメ
ント画像の構造要素を識別し、一組の特徴からドキュメ
ント画像の１つの特徴を指定するステップを有し、前記
一組の特徴の各特徴がドキュメント画像のレイアウト・
オブジェクトの固有の配置を定義し、指定された特徴を
定義するレイアウト・オブジェクトのサブセットを前記
一組のレイアウト・オブジェクトから識別するステップ
と、識別されたレイアウト・オブジェクトによって要約
画像をメモリにアゼンブルするステップを有し、選択さ
れたドキュメント画像を要約する、ドキュメント画像の
要約方法である。

【００１１】本発明の以上の及びその他の態様は、同じ
参照番号を類似の部分に使用した添付図面と共に以下の
説明を読むことにより明らかになるであろう。

【００１２】

【発明の実施の形態】Ａ．システムの概要次に、表示が本発明について説明する目的であり本発明
を制限するためのものではない図面を参照し、図１は、
本発明を実施するためのコンピュータ・システム１１０
を示す。コンピュータ・システム１１０は、ＲＯＭ、Ｒ
ＡＭあるいはその他の形態の揮発性または不揮発性の記
憶装置を含むメモリ１１６に記憶された様々なオペレー
ティングプログラムを実行する中央処理装置１１４（す
なわち、プロセッサ）を含む。ユーザ・データ・ファイ
ルとオペレーティングプログラム・ファイルは、ＲＡ
Ｍ、フラッシュ・メモリ、フロッピィー・ディスクある
いはその他の形態の光学または磁気記憶装置を含むファ
イル記憶装置１１７に記憶される。

【００１３】コンピュータ・システム１１０は、バス・
インタフェース１１５を介して様々なｌ／Ｏ（入力出
力）構成要素１１９に結合される。ｌ／Ｏ構成要素は、
ファクシミリ１２６、プリンタ１２７、スキャナ１２８
およびネットワーク１３０を含む。プロセッサ１１４
は、バス１２４を介してプロセッサ１１４に様々なｌ／
Ｏ構成要素１１９を結合するバス・インタフェース１１
５とデータをやりとりするように適応される。メモリ１
１６において実行する１つまたは複数のプログラムに応
答して、プロセッサ１１４は、様々なｌ／Ｏ構成要素１
１９と信号をやりとりする。ネットワーク１３０を介し
てコンピュータ・システム１１０をインターネットに連
結させるすることができるため、プロセッサ１１４は、
インターネット上の他のスキャナ、ファクシミリ、およ
びメモリ記憶装置から画像データを受け取ることができ
る。

【００１４】メモリ１１６における動作が、本発明を含
むドキュメントコーパスサーチシステム１４０である。
システム１４０は、ＣＤＲＯＭ読取り装置１１８など
のアクセス装置を介して、コンピュータ・システム１１
０で読み出すことができるポータブル記憶媒体１４２内
にソフトウェア製品としてパッケージされた製造物品と
関連付けられてもよい。記憶媒体１４２は、たとえば、
フロッピィ・ディスクなどの磁気媒体や、ＣＤＲＯＭ
などの光学媒体、あるいはその他のデータを記憶するた
めの適切な媒体である。

【００１５】ディスプレイ１３２は、システム１４０を
操作するユーザに情報を中継するユーザ・インタフェー
スを表示するために設けられる。ユーザがコマンドを入
力するために、マウス、キーボード、タッチ・スクリー
ンを含むがこれらに制限されないユーザ入力装置１３４
が設けられる。１つの例において、ディスプレイ１３２
と入力装置１３４を使ってユーザ・インタフェースを操
作し、ファイル記憶装置１１７に、スキャナ１２８、フ
ァクシミリ１２６またはネットワーク１３０からのドキ
ュメント画像を記録するように指示する。また、このユ
ーザ・インタフェースを利用して、ファイル記憶装置１
１７に、ファクシミリ１２６、プリンタ１２７またはネ
ットワーク１３０にドキュメントの画像を送信するよう
に指示することもできる。１つの実施形態において、シ
ステム１４０は、インターネット上で動作するブラウザ
から受け取ったコマンドによってコンピュータ・システ
ム１１０上で操作される。

【００１６】Ｂ．ドキュメントコーパス管理／サーチシ
ステムの概要図２は、本発明によりドキュメントのコーパスをサーチ
するためのドキュメントコーパス管理／サーチシステム
１４０の詳細なブロック図を示す。ドキュメントコーパ
スサーチシステム１４０は、コーパス・マネージャ２１
０、画像セグメンタ／識別装置２１１、検索エンジン２
１２およびプログラム・マネージャ２１４の４つのオペ
レーティング構成要素を含む。ユーザからドキュメント
コーパスサーチシステム１４０への入力は、ドキュメン
ト入力インタフェース２１６、サーチインタフェース２
１８、ジャンル・モデル・プログラム・インタフェース
２１９または特徴プログラム・インタフェース２２０に
応答して行われる。ディスプレイ１３２に表示されるイ
ンタフェース２１６、２１８、２１９および２２０の各
々は、後でそれぞれ考察するドキュメントコーパスサー
チシステム１４０によって提供される様々なサービスに
対応する。１つの実施形態において、インタフェース２
１６、２１８、２１９および２２０の各々は、マイクロ
ソフト(Microsoft) 社のＥｘｐｌｏｒｅｒ^TMやネットス
ケープ(Netscape)社のＮａｖｉｇａｔｏｒ^TMなどの従来
のインターネット・ブラウザによってネットワーク１３
０によりインターネット上で動作する。

【００１７】本発明により、ドキュメントコーパス管理
／サーチシステム１４０は、幾何学的レイアウト解析を
利用して、スキャンしたドキュメントの構造的記述を明
らかにする。ドキュメントの構造的記述は、ドキュメン
トの構成またはレイアウト・フォーマットに基づく。ド
キュメントの構造的記述を明らかにする際、画像セグメ
ンタ２１１は、ドキュメントの一部の構造的記述である
レイアウト・オブジェクト２３８を識別する。さらに、
画像セグメンタ２１１は、識別されたレイアウト・オブ
ジェクトの属性２４０を計算する。レイアウト・オブジ
ェクトの属性は、レイアウト・オブジェクトの特性を定
量化し、あるいは他のレイアウト・オブジェクトに対す
る空間的関係を識別する。幾何学的レイアウト解析は、
所与のジャンルの複数のドキュメント（たとえば、メ
モ）のドキュメント間の構造的類似度を識別するために
有利に実行することができる。

【００１８】ドキュメント画像（本明細書では単にドキ
ュメントとも呼ぶ）のページ画像において分割されたレ
イアウト・オブジェクトの空間的配置は、属性２４０か
または特徴２４２を使用して定義されることができる。
ページ画像内のオブジェクトの空間的配置を定義する
際、画像セグメンタ２１１は、ページ画像内に見られる
テキストと図形の構造を調べる。ページ画像のテキスト
構造は、ページ画像内のテキスト・ブロックが他のテキ
スト・ブロックによって定義された基準のフレームに対
して持つ空間的関係によって説明される。画像セグメン
タ２１１によって検出されるテキスト・ブロックは、テ
キストの段落などの構造的要素を識別する。空間的に関
連づけることができるページ画像上のテキストと違い、
ページ画像の図形構造は、特別な又はその場限りの図形
関係を含んでもよい。

【００１９】システム１４０は、ドキュメント画像のジ
ャンル（すなわち、種類）が、ドキュメント画像のペー
ジ画像上の少なくともいくつかオブジェクトの空間的配
置に反映されるという一般的な仮定の上で動作する。特
徴プログラム・インタフェースを使用して、特徴２４２
が、ユーザによって定義される。ユーザは、特徴を導き
出す他に、ジャンル・モデル・プログラム・インタフェ
ース２１９を使用してジャンル・モデル２４４を指定す
ることができる。各ジャンル・モデル２４４は、収集さ
れた複数のドキュメント画像の間で共用されるドキュメ
ント画像におけるページ画像内のオブジェクトの空間的
配置を識別する。ジャンル・モデルを定義することによ
り、ユーザは、ドキュメント内容に依存しない共通の通
信目的を表すドキュメント画像のクラスを定義すること
ができる。

【００２０】Ｃ．ドキュメントのコーパスのソートドキュメント入力インタフェース２１６を介し利用可能
にされたサービスは、ドキュメント画像２３７のデータ
ベース（またはコレクション）を作成するための機能を
提供する。ドキュメント画像のデータベースは、スキャ
ンしたハードコピードキュメントか電子的に作成したド
キュメントのいずれかによって作成される。たとえば、
スキャナ１２８を利用して、ハードコピードキュメント
を表現するビットマップ画像を作成することができ、一
方入力装置１３４を利用して電子ドキュメントを作成す
ることができる。さらに、ドキュメント画像のデータベ
ースは、スキャンしたハードコピードキュメントと電子
的に生成したドキュメントの両方をネットワーク１３０
を介して受け取ることによって作成することもできる。

【００２１】ファイル・システム１１７を作成するドキ
ュメントのコレクション（収集物）は、階層的に配列さ
れる。当業者には、本発明の目的のために、本明細書で
説明する操作をドキュメントのコレクション全体でもド
キュメントのコレクションの部分集合上でも実行できる
ことを理解されよう。ファイル・システムの階層の一部
として、各ドキュメント画像２３７は、１つまたは複数
のページの配列、１つまたは複数のジャンル値２４４へ
のポインタ、およびドキュメントメタデータ２２４への
ポインタを含むドキュメントデータ構造と関連付けられ
る。ページの配列における各ページは、ページ画像２２
６へのポインタを含むページデータ構造と関連付けら
れ、１つまたは複数の縮小スケール画像２２８へのポイ
ンタ、１つまたは複数の構造画像２３０へのポインタ、
レイアウト・オブジェクト２３８へのポインタ、属性２
４０へのポインタ、ＯＣＲ済みテキスト２３６へのポイ
ンタまたは特徴値２４２へのポインタを含んでもよい。
各ドキュメント画像２３７は、階層的配列にしたがっ
て、１つまたは複数のページ画像２２６を含む。ここで
は、ページ画像２２６は、スキャンされたハードコピー
または電子的に生成したドキュメントの１ページとして
定義される。

【００２２】コーパス管理２１０は、ユーザからのコマ
ンドに応答して、ファイル・システム１１７にドキュメ
ント画像２３７を記録する。ユーザは、ドキュメント入
力インタフェース２１６を使って、ドキュメントメタデ
ータ２２４としてファイル・システム１１７に記録され
るドキュメント画像の特性を手動で指定することができ
る。ユーザは、このときまたは少し後でドキュメントメ
タデータ２２４を指定することができ、ドキュメント画
像はスキャンされ、あるいはファイル・システム１１７
に追加される。より具体的には、ファイル・システム１
１７に記憶されたドキュメント画像のドキュメントメタ
データ２２４には、ドキュメントタイプ識別子、ドキュ
メント作成日、ドキュメントタイトルおよびドキュメン
トキーワードを記録されることがある。

【００２３】コーパス・マネージャは、ドキュメントメ
タデータ２２４とページ画像２２６を記憶する他に、縮
小スケール画像２２８と構造的画像２３０を生成する。
ユーザの好みにより、ユーザが特定の解像度を選択し
て、記録されたページ画像を見ることができる。ユーザ
の好みにより、ページ画像２２６のそれぞれごとに解像
度が異なる縮小スケール画像が生成される。１つの実施
形態において、縮小スケール画像は、米国特許第５，４
３４，９５３号明細書に記載された方法を使って生成さ
れる。一般に、縮小スケール画像は、より高い解像度の
ページ画像への視覚的インデックスとして使用される。
構造的画像２３０は、縮小スケール画像と同様、ユーザ
が指定することができる可変の解像度を有する。しかし
ながら、縮小スケール画像と違って、構造的画像２３０
は、ページ画像内の特定のレイアウト・オブジェクトを
強調する。１つの実施形態において、コーパス・マネー
ジャ２１０は、ディスク・スペースを節約する必要があ
る場合に、縮小スケール画像と構造的画像を生成する。

【００２４】Ｃ．１レイアウト・オブジェクトの分割ドキュメント画像２３７のページ画像２２６を記録した
後、画像セグメンタ２１１は、各ドキュメント画像のペ
ージ画像を１つまたは複数のレイアウト・オブジェクト
２３８に分割する。ページ画像の分割された各レイアウ
ト・オブジェクトは、画像セグメンタ２１１によって、
表１に示した基本レイアウト・オブジェクト・タイプ
（または、「レイアウト・オブジェクト」）のうちの１
つとして識別される。レイアウト・オブジェクトは、本
明細書において、ドキュメント画像の要約部分の構造的
記述である基本要素として定義される。（ここで定義し
たように、ドキュメント画像は暗黙的にそのページ画像
を指す）しかしながら、当業者は、表１の基本レイアウ
ト・オブジェクト・タイプのリストが例示であり、その
他のレイアウト・オブジェクト・タイプを含むように変
更できることを理解されよう。たとえば、表１は、ハー
フトーン領域用のレイアウト・オブジェクトを含むこと
ができる。

【００２５】

【表１】

【００２６】１つの実施形態において、画像セグメンタ
２１１は、Ｒ．ハラリック（R. Haralick ）による論文
「ドキュメント画像についての理解：幾何学的レイアウ
トと論理的レイアウト（Document image understandin
g: geometric and iogical layout）」、Proc. IEEE Co
nf.On Computer Vision and Pattern Recognition、199
4: 385-390 に考察されているように、光学式文字認識
システムでテキスト・ブロックを検出するために使用さ
れる標準的な数学形態論法に基づくテキスト・ブロック
分割を実行する。もう１つの実施形態において、画像セ
グメンタ２１１は、ゼロックススキャンソフト(Xerox S
canSoft)社によって作成されたソフトウェア・プロダク
トTextBridgeR に使用されたものと類似のテキスト・ブ
ロック分割プロセスを実行することができる。

【００２７】Ｃ２．レイアウト構造の定義ドキュメント画像のページ画像を１つまたは複数のレイ
アウト・オブジェクト２３８に分割した後、画像セグメ
ンタ２１１は、各分割したレイアウト・オブジェクトに
対応する画像属性２４０を計算する。ドキュメントのテ
キストの内容に関して動作する他の画像解析技術と比較
して、レイアウト・オブジェクトの画像属性を定義する
利点は、ページ画像を解析して画像属性を識別すること
は文字認識に依存しないことである。さらに、いくつか
の状況では、ドキュメントのレイアウト・オブジェクト
が、ドキュメントのジャンル（たとえば、レター、メモ
など）に関して、ドキュメント画像のページ画像内のテ
キストの内容よりも多くの情報を提供する。したがっ
て、本発明のさらに他の利点は、ドキュメント画像のレ
イアウト・オブジェクトのテキスト内容が理解されてい
るかどうかに関係なく稼働することである。本発明は、
テキスト情報を利用してレイアウト・オブジェクトの内
容を識別するのではなく、レイアウト・オブジェクトの
属性とそれらの属性の互いの関係を解析することによっ
て、ドキュメント画像の可視外観についての認識を明ら
かにする。

【００２８】表２〜６に示した属性を計算するために、
様々な技法が使用される。表２〜６において定義した多
くの属性は、あるテキストのいくつかのブロックがテキ
ストの他のブロックに関連して持つ空間的関係によって
ページ画像のレイアウト構造を指定する。表２に示した
レイアウト・オブジェクトの基本的な２つの属性は、ｒ
ｕｎｎｉｎｇ（本文部）テキスト・ブロックとｎｏｎ−
ｒｕｎｎｉｎｇ（非本文部）テキスト・ブロック（たと
えば、ｒｕｎｎｉｎｇ、ｎｏｎ−ｒｕｎｎｉｎｇ）を区
別する属性と、テキスト・ブロック（たとえば、ｔｏｐ
−ｎｒ（上部非本文部、ｍｉｄ−ｎｒ（中間非本文部）
の間のグループの関係（または、アラインメント）を定
義する属性を含む。

【００２９】識別した後は、ｎｏｎ−ｒｕｎｎｉｎｇテ
キスト・ブロックは、米国特許第５，５３７，４９１号
に開示された方法を利用して、画像の上／下、右／左の
境界と重なる相対的程度に基づいてページ画像における
上、下または中央の位置のいずれかを有するようにラベ
ルが付けられる。さらに、ｎｏｎ−ｒｕｎｎｉｎｇテキ
スト・ブロックは、左、右または中央のいずれかの垂直
アラインメント（垂直位置合わせ）を有するようにラベ
ルが付けられる。たとえば、ｎｏｎ−ｒｕｎｎｉｎｇテ
キスト・ブロックにｌｅｆｔ−ａｌｉｇｎｅｄ（左揃
え）とラベルを付けるためには、ｒｕｎｎｉｎｇテキス
ト・ブロックの単一の列が属するｌｅｆｔ−ｘグループ
に属さなければならない。（すなわち、ｌｅｆｔ−ｘ値
は、ｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロックとｒｕ
ｎｎｉｎｇテキスト・ブロックの両方で同じである）。
これには、すべてのテキスト・ブロックのｌｅｆｔ−ｘ
座標、ｒｉｇｈｔ−ｘ座標およびｃｅｎｔｅｒ−ｘ座標
に対して個別に十分に安定した方法を適用する必要があ
る。さらに、ｎｏｎ−ｒｕｎｎｉｎｇテキスト・ブロッ
クは、水平方向の一連のテキストブロック、垂直方向の
一連のテキスト・ブロックまたはテーブルのいずれかと
してラベルが付けられる。これらの操作は、さらに他の
特定の属性を定義するために組み合わせることもできる
（たとえば、ｔｏｐ−ｌｅｆｔ−ａｌｉｇｎｅｄのｎｏ
ｎ−ｒｕｎｎｉｎｇテキスト・ブロック）。また、これ
らの操作は、その他の操作と組み合わせて、画像属性に
さらに他の幾何学的な制約を課すこともできる（たとえ
ば、上のｎｏｎ−ｒｕｎｎｉｎｇテキスト領域内の全テ
キスト・ブロック領域に対して標準化されたｔｏｐ−ｌ
ｅｆｔ−ａｌｉｇｎｅｄのｎｏｎ−ｒｕｎｎｉｎｇテキ
スト・ブロック）。

【００３０】レイアウト・オブジェクトの属性タイプ
は、一般属性タイプと指定属性タイプに分けられ、ファ
イル・システム１１７に属性２４０として記憶される。
一般属性タイプは、すべての基本レイアウト・オブジェ
クトに定義される属性である。表２は、表１にリストに
した各レイアウト・オブジェクト（すなわち、ｌ／ｏ）
の一般属性を示す。指定属性タイプは、具体的には特定
のタイプのレイアウト・オブジェクトに定義される属性
である。たとえば、表３は、テキスト・オブジェクトの
タイプ指定属性のリストであり、表４は、図形オブジェ
クトのタイプ指定属性のリストであり、表５は、ページ
・オブジェクトのタイプ指定属性である。さらに、レイ
アウト・オブジェクトの一般属性タイプと指定属性タイ
プを使って、合成的な属性を定義することができる。表
６は、一般的なタイプのオブジェクトを使って定義され
た合成属性を示す。

【００３１】

【表２】

【００３２】

【表３】

【００３３】

【表４】

【００３４】

【表５】

【００３５】

【表６】

【００３６】表２〜６のそれぞれに示した属性は、二進
値（すなわち、真／偽）でも数値（すなわち、整数また
は実数）でもよい。表２〜６でイタリック体フォント
（表２のｒｕｎｎｉｎｇからｂｏｔ−ｎｒ（下部非本文
部）までと、表３のｌｅｆｔ-ａｌｉｇｎｅｄからｖ−
ｉｎｔｅｒｎａｌまで）で表した属性タイプは、ブール
値を有する。二進値の属性は、通常、レイアウト・オブ
ジェクト間のセット・メンバーシップ関係を表わす。た
とえば、「ｒｕｎｎｉｎｇ」や「ｎｏｎ−ｒｕｎｎｉｎ
ｇ」などの二進値の属性の一般属性タイプは、レイアウ
ト・オブジェクト間のグループ化関係を定義する。数値
の属性は、通常、オブジェクトの真の幾何学特性、また
は順序関係に対する組のインデックスを表す。タイプ属
性値は、表２〜６では記号として表わされているが、絶
対値（すなわち、標準化されていない）属性値は数値で
表されることを、当業者は理解されよう。

【００３７】各ページ画像２２６のレイアウト・オブジ
ェクト２３８を識別した後、テキスト・ブロックとして
識別されたレイアウト・オブジェクトは、画像セグメン
タ２１１の一部を構成する識別装置（識別子）によって
さらに処理することができる。１つの実施形態におい
て、テキスト・ブロックとして識別された各レイアウト
・オブジェクトが、その中にあるテキストを認識するた
めに、光学式文字認識技法または適切な代替技法を利用
して識別装置２１１によって処理される。しかしなが
ら、当業者は、本発明の目的のため、テキスト・ブロッ
クとして識別されたレイアウト・オブジェクトにはＯＣ
Ｒを実行する必要がないことを理解されよう。しかしな
がら、後で考察する教示から明らかになるように、テキ
スト・ブロックとして識別されたレイアウト・オブジェ
クト内のテキストを認識するためのいくつかの利点が存
在する。テキスト・ブロック・レイアウト・オブジェク
ト内で認識されたテキストは、テキスト２３６としてフ
ァイル・システム１１７に記憶され、検索エンジン・イ
ンタフェース２１８によるテキスト・ベースのサーチを
使用してサーチすることができる。

【００３８】Ｃ．３画像データの概要図３は、ファイル・システム１１７に記憶されたドキュ
メント画像２３７の各ページ画像２２６と関連付けられ
たデータの構成を示す。最初に、ユーザは、たとえばド
キュメントスキャナ１２８から受け取ったスキャン画像
をファイル・システム１１７に入れる。ユーザは、ドキ
ュメント画像に関するドキュメントメタデータ２２４
を、タイプ、日付、タイトルおよびキーワードの情報と
して入力することができる。コーパス・マネージャ２１
０は、ページ画像２２６のサブサンプリングして一組の
縮小スケール画像２２８を構成する。解像度が最も低い
縮小スケール画像は、ここでは略図(thumbnail) 画像と
して定義される。解像度がさらに低いその他のページ画
像は、ここでは、大型画像、中型画像および小型画像と
して定義される。さらに、構造画像２３０は各分割レイ
アウト・オブジェクト２３８毎に計算されることができ
る。前述のように、画像セグメンタ２１１は、ドキュメ
ント画像のページ画像２２６をレイアウト・オブジェク
ト２３８に分割する。ページ画像２２６から分割された
各レイアウト・オブジェクト毎に、画像セグメンタが、
さらに画像属性２４０を計算しコンパクトな形で記憶す
る。画像属性２４０は、タイプ一般属性でもタイプ指定
属性でもよい。属性の他に、ページ画像の各レイアウト
・オブジェクト２３８は、１つまたは複数の特徴２４２
またはジャンル・モデル２４４と関連付けることができ
る。特徴２４２は、後で節Ｄで説明するような属性２４
０を使用して定義される。ジャンル・モデル２４４は、
後で節Ｅで説明するように、属性２４０かまたは特徴２
４２のいずれかを使用して定義される。

【００３９】Ｄ．特徴を利用したドキュメントのレイア
ウト・フォーマットの定義特徴プログラム・インタフェース２２０を使用して、ユ
ーザは、特徴を検出するルーチンを構成することによっ
て、特定のジャンルのドキュメントに固有のレイアウト
・フォーマットを指定することができる。たとえば、ペ
ージ画像の特徴のルーチンを使って、固有のレター・ヘ
ッドを有するドキュメント画像を識別することができ
る。一般に、各特徴２４２は、ルーチンと値によって定
義される。特徴のルーチンは、明示的な分岐操作のない
１つまたは複数のステップのシーケンスを有する直線的
プログラムである。ルーチンの各ステップは、ページ画
像２２６の一組または一部のレイアウト・オブジェクト
をゲート制御するかまたはフィルタリングする選択操作
である。ルーチンの各選択操作は、特徴プログラム・イ
ンタフェース２２０によりユーザによってプログラムさ
れる。ルーチンは、ページ画像の一組のレイアウト・オ
ブジェクトのすべてまたは部分集合を入力とみなす。ル
ーチンの選択操作（単数又は複数）および評価するレイ
アウト・オブジェクトによって、ルーチンの出力は、ル
ーチンに入力された一組のレイアウト・オブジェクトの
うちのすべてまたは一部を出力するか、何も出力しな
い。

【００４０】ユーザが、特徴プログラム・インタフェー
ス２２０において特徴をプログラムすると、プログラム
・マネージャ２１４は、その特徴のルーチンを他の特徴
２４２と共にファイル・システム１１７に記録する。さ
らに、プログラム・マネージャ２１４は、ユーザが指定
した時間に、ファイル・システム１１７の各ページ画像
２２６のページ画像について１回に１つ、ルーチンで指
定された選択操作を実行する。すなわち、選択操作は、
ドキュメント画像を形成するページ画像の数に関係な
く、単一のページ画像のレイアウト・オブジェクトに関
してプログラム・マネージャによって実行される。ルー
チンの各ステップにおいて、プログラム・マネージャ２
１４は、レイアウト・オブジェクトの計算した属性（属
性の例については表２〜６を参照）が指定の制約に適合
するか否かを判定する。ルーチンの各ステップごとに判
定した後の結果は、そのページ画像の値である。ページ
画像の特徴の値が、レイアウト・オブジェクトの空集合
（すなわちヌル）である場合、ページ画像の中に特徴は
表われない。これと対照的に、特徴の値が、レイアウト
・オブジェクトの空集合ではない組の場合は、ページ画
像の中に特徴が表われる。

【００４１】１つの実施形態において、特徴の選択操作
を満足するレイアウト・オブジェクトを有するページ画
像のリストと共に、特徴がファイル・システム１１７に
記録される。検索を迅速にするために、特徴の選択操作
を満足するレイアウト・オブジェクトのインデックス
が、各ページ画像と共にファイル・システム１１７に記
憶される。実際には、特徴２４２を使用して、プログラ
ムされた特徴の選択操作（単数又は複数）を満足する属
性２４０を有するレイアウト・オブジェクト２３８とを
有するページ画像２２６を識別する。追加のページ画像
２２６がページ画像のコーパスに追加されると、それら
の追加のページ画像に関して、レイアウト・オブジェク
ト２３８、属性２４０および特徴２４２を計算すること
ができる。この計算は、一般に、一回だけでよく、これ
により、検索エンジン２１２の起動にページ画像のラン
タイム画像解析が不要になる。

【００４２】Ｄ．１プログラム・ルーチン所与のコーパスのドキュメント画像の分割されたレイア
ウト・オブジェクトに関して一組の画像属性を計算した
後、それらの属性を使って特徴を定義することができ
る。さらに、１つまたは複数の特徴を定義した後で、属
性と任意の既存の特徴の両方を利用して新しい特徴を定
義することができる。このように、予め定義した特徴を
利用して特徴を定義することができる。たとえば、１つ
または複数のルーチン（または関数）を利用して特徴を
定義して、ページ画像内の特定の構造的レイアウトを有
する領域に選択操作を実行することができる。その最も
簡単な形態において、ページ画像に適用されるときに、
ルーチンの出力がルーチンの定義を満たすページ画像内
の一組のレイアウト・オブジェクトになるように、ルー
チンが定義される。

【００４３】実際には、ページ画像のレイアウト・フォ
ーマットは、組になったレイアウト・オブジェクト２３
８上で稼働するルーチンを利用してプログラムすること
ができる。ユーザは、ユーザが一連の基本操作またはそ
の他の予め定義されたルーチンを定義するだけでよいプ
ログラム構成言語を使ってルーチンをプログラムする。
これらの一連の基本操作は、ファイル・システム１１７
に記憶されたドキュメントのコーパスの全体または部分
集合に適用することができる。前述の節Ｃで説明したよ
うにコーパスが作成（母集団化）されるとき、各ページ
画像２２６毎に、所与のページ画像に定義された一組の
すべてのレイアウト・オブジェクトを指定する一組のレ
イアウト・オブジェクトＬi が定義される。各ルーチン
は、実行されると、一組のレイアウト・オブジェクトＬ
i を消費し、新しい組のレイアウト・オブジェクトＬo
を生成する。ここで、Ｌo は、一組のレイアウト・オブ
ジェクトLiの部分集合である。

【００４４】プログラム構成言語を使ってプログラムさ
れたいくつかのルーチンＲは、フィルタ操作および／ま
たはゲート操作を構成する。フィルタ操作Ｆ（Ｌ、Ａ、
ｕ、ｖ、Ｎ）は、Ｌにおけるレイアウト・オブジェクト
の部分集合を生成し、Ｌの属性引数Ａの値はしきい値ｕ
Ｎよりも小さくないがしきい値ｖＮよりも小さい。ゲー
ト操作Ｇ（Ｌ、Ａ、ｕ、ｖ、Ｎ）は、Ｌの属性引数Ａの
値がしきい値ｕＮよりも小さくないがしきい値ｖＮより
小さい場合に、一組のレイアウト・オブジェクトＬを生
成する。その他の状況では、空集合（すなわち、φ）を
生成する。ゲート操作は、条件付き挙動のある一定の許
容能力を提供する。定義した後、ゲート操作またはフィ
ルタ操作のそれぞれのルーチンの選択操作を、ファイル
・システム１１７に記憶されたそれぞれのページ画像２
２６のレイアウト・オブジェクトに適用することができ
る。フィルタ選択操作とゲート選択操作は、数学的に次
のように定義することができる。

【００４５】F(L,A,u,v,N)＝｛l ∈L:uN≦A(l)＜vN｝
及び

【００４６】 L L のすべてのl についてuN≦A(l)＜vNの場合 G(L,A,u,v,N)＝｛ φ その他の場合

【００４７】ここでＬは、各操作を適用する一組のレイ
アウト・オブジェクトを指定する入力引数である。

【００４８】Ａは、属性の名前または特徴の名前として
指定できる属性引数である。（属性引数Ａが、ルーチン
Ｒで定義される場合、属性引数Ａは、次のような新しい
二進値の属性Ａとして解釈される。

【００４９】

【００５０】ｕとｖは、整数定数と実数値のスケールフ
ァクタのどちらのしきい値引数でもよい。Ｎは、数値の
正規化引数である。

【００５１】プログラム構成言語を使ってプログラムさ
れる他方のルーチンＲは、一組のレイアウト・オブジェ
クトＬを消費してスカラ数値を生成する。スカラ数値
は、しきい値引数ｕまたはｖの一方を指定するかまたは
ゲート操作の属性引数Ａを指定するために、すべての選
択操作に使用することができるレイアウト・オブジェク
トの全体的な値を表す。そのようなスカラ数値を生成す
るルーチンはここでは累積演算として定義される。特徴
構成言語は、ユーザに次の３つの累積演算を使ってルー
チンを定義する機能を提供する。

【００５２】ｍａｘ，ｍａｘ（Ｌ，Ａ），は、任意の
ｌ∈ＬＡに関してＡの最大値を生成する。

【００５３】ｍｉｎ，ｍｉｎ（Ｌ，Ａ），は、任意の
ｌ∈ＬＡに関してＡの最小値を生成する。

【００５４】ｓｕｍ，Σ（Ｌ，Ａ），は、全てのｌ∈Ｌ
Ａに関してＡの値の合計を生成する。

【００５５】これらの累積演算は、Ｌが一連の操作の結
果でもよいという点でフィルタ選択操作とゲート選択動
作で構成することができる。

【００５６】Ｄ．２特徴プログラム・インタフェース図４は、基本操作のシーケンス（すなわち、直線的プロ
グラム）を使用して特徴を定義するための対話サイクル
のフロー図である。対話サイクルのステップは、一般的
なものであり、任意の図形式、対話式、およびインクリ
メンタル・プログラミング・インタフェースを実施する
ために使用することができる。対話サイクルの利点は、
構成中の直線的プログラムの各ステップが、ユーザが指
定したページ画像の例に対する影響をすぐに確認できる
という点である。特徴プログラム・インタフェース２２
０（図２に示した）には、構成に従って対話サイクルが
図形的に表示される。すなわち、ステップの間で表示さ
れるプログラムを変更すると、選択した例の結果がすぐ
に更新され再表示される。

【００５７】ステップ４００において、対話サイクル
は、一組のドキュメント画像例２３７またはページ画像
２２６を指定するようにユーザに要求することにより開
始する。ステップ４０２において、ユーザは、プログラ
ムされた特徴名を指定するように要求される。ステップ
４０２で指定された特徴名が、既存のプログラムされた
特徴２４２である場合は、ステップ４０８が実行され
る。そうでない場合は、ステップ４０６が実行される。
ステップ４０６において、新しい特徴が、一組の特徴２
４２に作成される。ステップ４０４または４０６で指定
された特徴名を定義するルーチンが、ステップ４０８お
よび４１０で定義される。ステップ４０８において、一
組のレイアウト・オブジェクト２８８が、選択した特徴
の入力レイアウト・オブジェクトとして指定される。よ
り具体的には、ステップ４０８において、ユーザは、ス
テップ４１０で定義された第１の操作を適用する一組の
レイアウト・オブジェクトを指定する入力引数Ｌを定義
する。（この入力は、後で説明する例示の表７〜１６の
ステップ０と対応する）ステップ４１０において、定義
する特徴の１つまたは複数の選択操作がユーザによって
指定される。対話サイクルは、ステップ４１２で終わ
り、このステップでプログラムされた特徴がファイル・
システム１１７に保存される。

【００５８】図５は、ステップ４０８で定義した一組の
レイアウト・オブジェクトに対して１つまたは複数の選
択操作または累算操作を指定するステップを説明するフ
ロー図である。ステップ５０２において、選択された特
徴の第１のステップ名が、指定されるかまたは編集され
る。次に、ステップ５０４で、フィルタ選択操作、ゲー
ト選択操作、または累算操作が指定される。ステップ５
０６において、フィルタ選択操作の属性引数が指定され
る。指定された特徴引数は、属性と特徴のどちらでもよ
い。ステップ５０８、５１０および５１２において、ユ
ーザは、しきい値引数ｕ、しきい値引数ｖおよび正規化
引数Ｎをそれぞれ要求される。ステップ５１４におい
て、ユーザは、特徴に関する他のステップを定義するよ
うに要求される。すべてのステップが定義された後、ス
テップ５１６においてその結果がユーザに表示され、そ
うでない場合は、ステップ５０２が繰り返される。ステ
ップ５１６で新しい特徴ステップ（単数又は複数）が表
示された後、ステップ４１２においてファイル・システ
ム１１７に新しい特徴の定義が保存される。

【００５９】Ｄ．３プログラムした特徴の例図６は、図４〜５で説明した対話サイクルを利用したプ
ログラムされた特徴の例を示す。プログラムされた特徴
は、ディスプレイ１３２（図１を参照）などのディスプ
レイ上にユーザ・インタフェース６００によって表示さ
れる。別法として、ユーザ・インタフェース６００を、
ネットスケープ社のＮａｖｉｇａｔｏｒ ^TMやマイクロソ
フト社のＥｘｐｌｏｒｅ^TMなどの任意のインターネット
・ブラウザを使って表示することができる。例示のた
め、図６に示した例を、図４〜５で説明した対話サイク
ルで概説したステップに関して説明する。

【００６０】最初に、ドキュメント識別子「１２Ａ−０
０２６５」を有する単一画像が、図４に示した対話サイ
クルのステップ４００に示したように、図６の表示領域
６０３内の一組のドキュメント画像例として指定され
る。図６の選択されたドキュメント画像例「１２Ａ−０
０２６５」（すなわちドキュメントＩＤ）は、３つの構
造的画像６０４、６０６および６０８を有する。３つの
構造的画像はそれぞれ、記録されたドキュメント画像と
関連する特定の特徴または属性を識別する。構造的画像
６０４、６０６および６０８のそれぞれの黒っぽい領域
は、特定の特性を有するものとして識別された領域を示
す。より具体的には、構造的画像６０４、６０６および
６０８は、テキストのタイプの属性、属性ｔｏｐ−ｎ
ｒ、および属性ｔｏｐ−ｎｒ−ｌｅｆｔと共に識別子
「１２Ａ−００２６５」によって識別されたドキュメン
ト画像内のページ画像を示す（属性ｔｙｐｅ、属性ｔｏ
ｐ−ｎｒ、属性ｔｏｐ−ｎｒ−ｌｅｆｔは、図２に定義
されている）。

【００６１】一組の画像例４０４を定義した後、表示領
域６１０に示したように、ステップ４０２（図４）にお
いて特徴名「ｔｏｐ−ｎｒ−ｌｅｆｔ」が指定される。
ステップ４０８において、入力レイアウト・オブジェク
トは、この例に示したように、表示領域６１２に示した
ような属性ｔｏｐ−ｎｒ（すなわち、属性ｔｏｐｎｏ
ｎ−ｒｕｎｎｉｎｇ）を有するこれらのレイアウト・オ
ブジェクトによって指定される。プログラムされた特徴
の入力オブジェクトを定義した後で、選択された特徴の
操作が、図５に詳細に説明したステップ４１０において
定義される。最初に、表示領域６１４（すなわち、ステ
ップ５０２）に示したような特徴の選択操作または累算
操作の説明を行う。表示領域６１６において、選択操作
がフィルタ操作（すなわち、ステップ５０６）として指
定される。表示領域６１８において、属性引数Ａが、表
３（すなわちステップ５０８）に定義された特徴ｌｅｆ
ｔ−ａｌｉｇｎｅｄとして選択される。

【００６２】表示領域６２０と６２１は、しきい値引数
ｕとしきい値引数ｖ（すなわち、ステップ５０８と５１
０）にそれぞれ対応する。しきい値引数ｕが整数１に指
定され、特徴引数がブール結果を得るとき、所望のブー
ル値が「真(TRUE)」として示される（図６に示したよう
に）。より一般に、しきい値引数ｕおよびｖは、ユーザ
が定義した値、表示された値、または統計的に生成した
値を使用して指定することができる。ユーザが定義した
値は、キーボードやその他同様のものを使ってユーザが
入力することができる。表示された値は、ポインティン
グ・デバイスやその他同様のものによりスライダ表示領
域から選択することができる。統計的に生成される値
は、ユーザが画像の例において特徴の正と負の標本（原
本）をクリックした後で、システム１４０によって自動
的に生成される。

【００６３】正規化引数Ｎは、表示領域６２２に記録さ
れる（すなわち、ステップ５１２）。しきい値引数ｕと
ｖが定数のとき、正規化引数は、単に自動的に１にな
る。すなわち、正規化引数Ｎを指定することなく、しき
い値引数ｕとｖにより値の絶対範囲が定義される。正規
化引数Ｎの値を指定すると、しきい値引数ｕとｖにより
値の相対範囲が定義される。

【００６４】表７は、図６に示した特徴ｔｏｐ−ｎｒ−
ｌｅｆｔを定義する選択操作のリストを示す。ステップ
０において、一組の入力レイアウト・オブジェクトが指
定される（すなわち、図４のステップ４０８）。値「Ａ
ＬＬ」は、ファイル・システム１１７のすべてのレイア
ウト・オブジェクトが、ステップ１で指定されたフィル
タリング操作に入力されるべきことを示す。ステップ１
で、「テキスト・ブロック（Ｔｅｘｔ−Ｂｌｏｃｋ
ｓ）」と等しい属性ｔｙｐｅを有するレイアウト・オブ
ジェクトだけが選択される。第２のステップは、「真」
と等しい属性ｔｏｐ−ｎｒを有するテキスト・ブロック
属性を有するレイアウト・オブジェクトがすべて選択さ
れる。最後に、第３のステップにおいて、「真」と等し
い特徴ｌｅｆｔ−ａｌｉｇｎｅｄを有するレイアウト・
オブジェクトだけが選択される。図６において、特徴ｔ
ｏｐ−ｎｒ−ｌｅｆｔは、この特徴の入力レイアウト・
オブジェクトが、表示領域６１２に示された真と等しい
ｔｏｐ−ｎｒを有するレイアウト・オブジェクトとして
定義されるため、単一ステップを使って定義される。

【００６５】

【表７】

【００６６】表８は、前述の特徴構成言語を使って定義
された特徴のもう１つの例を定義するステップを示す。
より具体的には、表８は、トップレベルの特徴「４−ｍ
ｅｍｏ−ｍａｒｋ（４メモマーク）」を定義するすべて
のフィルタ操作のリストを示す。ページ画像の左上側に
ある無制限の数のオブジェクトを識別する特徴ｔｏｐ−
ｎｒ−ｌｅｆｔと違い、特徴４−ｍｅｍｏ−ｍａｒｋ
は、ページ画像の左側にある４つのマークだけを識別す
る。（ここで、メモ・マーク（Ｍｅｍｏｍａｒｋ）
は、ドキュメントのヘッダの「ｔｏ：」、「ｆｒｏ
ｍ：」、「ｒｅ：」および「ｄａｔｅ：」に対応するテ
キスト・ブロックとして定義される）。前述のように、
レイアウト・オブジェクトの各属性は、対応するグロー
バルな属性またはページ・レベルの属性を有する。この
ようなグローバルな属性あるいはページ・レベルの属性
または特徴は、本明細書においてブラケット内に示され
る。この例のステップ１において、ｘ−寸法のドキュメ
ント（すなわち、〈ｘ−ｓｐａｎ〉）の１０％未満のオ
ブジェクトだけが、次のステップでフィルタリングされ
るように選択される。ステップ２において、ドキュメン
トの一番上のｎｏｎ−ｒｕｎｎｉｎｇテキストのオブジ
ェクトだけが、ステップ３でフィルタリングされるよう
に選択される。最後に、ステップ２でページ画像内で正
確に４つのレイアウト・オブジェクトが識別された場合
は、その組のレイアウト・オブジェクトが、ステップ３
においてゲートを通過する。図６に、構造的画像６０８
において参照番号６４２で示された領域によって、４つ
のメモ・マークの例を示した。

【００６７】

【表８】

【００６８】表９は、前述の累積操作の１つの例を示
す。具体的は、表９は、「ｍｉｎ（最小）」の累算操作
の例を示す。ステップ０において、表８で定義された特
徴「４−ｍｅｍｏ−ｍａｒｋ」を満たすオブジェクトだ
けが（すなわち、表９のステップ０は、表８で説明した
ステップ０〜３をそれぞれ含むように解釈される）、ス
テップ１のレイアウト・オブジェクトに入力される。
（前述のように、ブラケットで定義された要素（たとえ
ば< ４−ｍｅｍｏ−ｍａｒｋｓ−ｔｏｐ−ｙ> ）は、グ
ローバルなまたはページ・レベルの属性または特徴であ
る）。ステップ１において、グローバルな特徴「４−ｍ
ｅｍｏ−ｍａｒｋｓ−ｔｏｐ−ｙ」が定義される。この
グローバルな特徴は、特徴４−ｍｅｍｏ−ｍａｒｋｓと
してラベル付けされたページ画像における最上部のレイ
アウト・オブジェクトの値を識別する。「ｍｉｎ（最
小）」累算操作は、属性引数Ａを有する一組のレイアウ
ト・オブジェクトＬにおける任意のレイアウト・オブジ
ェクトの最小値を作成する。たとえば、図６の領域６４
２に示した４つのメモ・マークに関する累算操作の出力
は、ページ画像内の残りのレイアウト・オブジェクトの
最小値ｙによって定義される（すなわち、最も上のメモ
・マークのｙ座標、ここでページ画像のｘ−ｙ座標系の
原点が、図３に示したようにページ画像２２６の画像の
左上角として定義される）。

【００６９】

【表９】

【００７０】図１０に、特徴プログラミング言語を使用
する選択操作のもう１つの例を示す。具体的には、表１
０は、メモ・ヘッダ（ｍｅｍｏ−ｈｅａｄｅｒ）の特徴
を定義するステップを示す。メモヘッダ特徴の例は、図
６に示した構造的画像６０６において参照番号６４０で
識別した線で囲んだ領域で示される。表１０中のステッ
プ０において、表２の属性ｔｏｐ−ｎｒを満足するオブ
ジェクトをステップ１ですべてフィルタリングするよう
に選択される。ステップ１では、レイアウト・オブジェ
クトは、その属性ｔｏｐ−ｙの属性引数が、しきい値ｕ
ＮとｖＮの間にある場合だけ選択され、下限の値（すな
わち、ｕＮ）は、表９で定義されたグローバルな特徴
〈４−ｍｅｍｏ−ｍａｒｋｓ−ｔｏｐ−ｙ〉の値であ
り、上限の値（すなわち、ｖＮ）は無限に大きくするこ
とができる。すなわち、特徴ｍｅｍｏ−ｈｅａｄｅｒ
は、ページの一番上にあるが最も高い順番のｍｅｍｏ−
ｍａｒｋよりも下のすべてのｎｏｎ−ｒｕｎｎｉｎｇテ
キストを識別し、それにより、構造的画像６０４におい
て参照番号６４４で識別されたレイアウト・オブジェク
トを除去する。

【００７１】

【表１０】

【００７２】表１２〜１７は、図３のページ画像２２６
に示される特徴ｌｅｔｔｅｒ−ｄａｔｅ（レター日付）
３５０、ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅ（レター署
名）３５２、ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ（レタ
ー受取人）３５４およびｌｅｔｔｅｒ−ｃｃ（レターコ
ピー）３５６をそれぞれを定義するステップを示す。表
１１のステップ０において、この特徴の入力レイアウト
・オブジェクトとして、利用可能なすべてのレイアウト
・オブジェクトが指定される。ステップ１において、
「偽(FALSE) 」に等しい属性ｔｏｐ−ｎｒ−ｔａｂｌｅ
を有するオブジェクトだけが、ステップ２でフィルタリ
ングされるように選択される。特徴ｔｏｐ−ｎｒ−ｔａ
ｂｌｅは、表１２で定義される。続いてステップ２で、
「真」に等しい属性ｔｏｐ−ｎｒ−ｃｅｎｔｅｒを有す
るオブジェクトだけが、ステップ３でフィルタリングさ
れるように選択される。特徴ｔｏｐ−ｎｒ−ｃｅｎｔｅ
ｒは、表１３で定義される。最後に、特徴ｌｅｔｔｅｒ
−ｄａｔｅが、ステップ２で選択され、かつ少なくとも
グローバルな〈ｂｏｔ−ｙ> 座標と等しい最大ｙ座標を
有するすべてのレイアウト・オブジェクトによって識別
される。グローバルな〈ｂｏｔ−ｙ〉座標は、ステップ
２で選択されたレイアウト・オブジェクトだけのグロー
バルな座標に対応することに注意されたい。

【００７３】

【表１１】

【００７４】

【表１２】

【００７５】

【表１３】

【００７６】表１４は、図３に示した特徴ｌｅｔｔｅｒ
−ｒｅｃｉｐｉｅｎｔ３５４の選択操作を定義するステ
ップを示す。ステップ０は、この特徴の入力レイアウト
・オブジェクトがすべてのレイアウト・オブジェクトを
含むことを示す。ステップ１において、タイプ・テキス
ト・ブロックのものであるレイアウト・オブジェクトだ
けが、ステップ２でフィルタリングされるように選択さ
れる。ステップ２において、「真」に等しい特徴ｔｏｐ
−ｎｒを有するレイアウト・オブジェクトだけが選択さ
れる。ステップ３において、ｔｏｐ−ｎｒオブジェクト
の集合的な文字枠の領域の１０％〜６０％の領域を有す
るレイアウト・オブジェクトだけが選択される。ステッ
プ４の残りのレイアウト・オブジェクトは、「真」に等
しい属性ｌｅｆｔ−ａｌｉｇｎｅｄを有するものだけが
特徴ｌｅｆｔ−ａｌｉｇｎｅｄを満たす。

【００７７】

【表１４】

【００７８】表１５は、図３に示した特徴ｌｅｔｔｅｒ
−ｃｃ３５６を定義するステップを示す。ステップ１
で、ｔｅｘｔ−ｂｌｏｃｋの値と等しい属性ｔｙｐｅを
有するレイアウト・オブジェクトだけが選択される。ス
テップ２において、「真」と等しい属性ｂｏｔ−ｎｒを
有するステップ１からのレイアウト・オブジェクトが選
択される。ステップ３において、特徴ｌｅｔｔｅｒ−ｃ
ｃを満たすために、「真」と等しい属性ｌｅｆｔ−ａｌ
ｉｇｎｅｄを有するレイアウト・オブジェクトだけが選
択される。表１６は、図３に示した特徴ｌｅｔｔｅｒ−
ｓｉｇｎａｔｕｒｅ３５２を定義するステップを示す。
特徴ｌｅｔｔｅｒ−ｃｃと異なり、ステップ３におい
て、「偽」と等しい属性ｌｅｆｔ−ａｌｉｇｎｅｄを有
する特徴だけが、特徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒ
ｅを満たすように選択される。

【００７９】

【表１５】

【００８０】

【表１６】

【００８１】Ｅ．ジャンル・モデルの定義このコーパス管理／サーチシステム１４０の利点は、構
造解析を２つのレベルで行えることである。低い方のレ
ベルでは、ドキュメント指定のレイアウト・フォーマッ
ト（たとえば、レターの受取人フィールドやメモのヘッ
ダ・フィールド）を識別することができる。そのような
識別は、本明細書では特徴を利用して行われる。高い方
のレベルでは、入力ドキュメントの全体構成が、ジャン
ル・モデルを利用して補獲される。たとえば、「ビジネ
ス・レター」は、特徴ｌｅｔｔｅｒ−ｄａｔｅ、特徴ｌ
ｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ、特徴ｌｅｔｅｒ−ｃ
ｃ、および特徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅ（図
３に示したような）により、ほとんどの例で定義できる
ドキュメントのジャンル・モデルである。いくつかのモ
デルは、いくつかの共通の特徴を持つ場合があるが、そ
のようなモデルは、他の特徴の有無により互いに区別す
ることができる。たとえば、メモとレターは、類似の特
徴ｌｅｔｔｅｒ−ｓｉｇｎａｔｕｒｅを有することがあ
るが、それぞれは異なるドキュメントヘッダ特徴（たと
えば、４−ｍｅｍｏ−ｍａｒｋとｌｅｔｔｅｒ−ｒｅｃ
ｉｐｉｅｎｔ）を有することがある。

【００８２】図７は、ジャンル・モデル・プログラム・
インタフェース２１９（図２に示した）をより詳細に示
す。ジャンル・モデル・プログラム・インタフェース２
１９を使用して、ユーザは、ジャンル・モデル２４４と
してファイル・システム１１７に記憶されたジャンルの
モデルを自由に定義することができる。ジャンル・モデ
ルを定義する他に、モデル・プログラム・インタフェー
ス２１９を利用して、既に定義されているジャンル・モ
デルをロードして実行することができる。前に定義した
ように、各ジャンル・モデル２４４は、メモ、記事、レ
ターなどのドキュメントの内容に関係しない共通の通信
目的を指定する。特徴（または属性）が適切な場合、ジ
ャンル・モデルは、モデルが含むべき一組の特徴（すな
わち、「包含特徴」）とモデルが除外すべき一組の特徴
（すなわち、「除外特徴」）を定義することによって指
定することができる。あらかじめ定義したリストから特
徴を繰り返し選択することによって、後で考察するよう
に、各組の指定を対話式に行うことができる。モデルを
定義した後は、ページ画像のコーパスに記憶されたペー
ジ画像に対して、そのモデルを試験することができる。
しかしながら、当業者には、さらにニューラルネットワ
ークなどの学習システムのために一組の例ページ画像及
び一組の特徴を指定することによって、モデルを自動的
に構成できることが理解されよう。

【００８３】動作において、ユーザは、特徴２４４と属
性２４２を組み合わせることにより、ジャンル・モデル
・プログラム・インタフェース２１９を使用してモデル
を作成または変更する。モデルは、プルダウン・メニュ
ー７０６からモデルを選択した後で「モデルロード(Loa
d Model)」ボタン７０４を使用することにより、ジャン
ル・モデル・プログラム・インタフェース２１９にロー
ドされる。それぞれの特徴または属性に関して、各モデ
ルは、それぞれ参照番号７０８、７１０、７１２および
７１４で示した「Ｉｎ」「Ｏｕｔ」「Ｎ／Ａ」および重
み(Weight)の値を記憶する。たとえば、図７に示したモ
デルは、特徴４−ｍｅｍｏ−ｍａｒｋｓを有するドキュ
メント（すなわち、「Ｉｎ」と示された）を含み、特徴
ｇｒａｐｈｉｃｓ（図形）を有するドキュメント（すな
わち、「Ｏｕｔ」と示された）を除外する。しかしなが
ら、後で考察するように、この制約は、０でない重みを
特徴に割り当てることによって緩和することができる。
Ｎ／Ａと示した他のすべての特徴と属性は、このモデル
には適用できない。新しいモデルを保存するときは、テ
キスト・フィールド７１８に新しいモデル名(Model Nam
e)を入力した後で、セーブ(Save)・コマンド・ボタン７
１６を選択する。さらに、セーブ・コマンド・ボタン７
１６を使って、既存のモデルに行った変更を保存するこ
とができる。

【００８４】効率を高めるために、各ページ画像は、各
特徴と属性が真か偽かを示すあらかじめ符号化された２
進ベクトルを有する。あらかじめ符号化されたベクトル
は、ページ画像を特定のモデルへ突き合わせる速度を早
くする。コマンド・ボタン７２０を選択してモデルを実
行するときは、個別のウィンドウまたはウェブ・ページ
（図示せず）が、モデルと一致するドキュメント画像２
３７の第１のページ画像の縮小スケール画像２２８を表
示する。ドキュメント画像がモデルと一致したときは、
「Ｉｎ」と示されたすべての特徴と属性が、ドキュメン
ト画像のページ画像に関して真であるが、「Ｏｕｔ」と
示されたすべての特徴と属性は、ドキュメント画像のど
のページ画像に関しても偽である。「Ｎ／Ａ」と示され
た特徴と属性は、適切ではない。

【００８５】重みは、０〜１０の範囲でもよく、特定の
モデルに関してあらゆる「Ｉｎ」と「Ｏｕｔ」の選択を
満たさないコーパス内のドキュメント画像をランク付け
するために使用される。特徴／属性の重みが０であるよ
うに指定される場合は、特徴／属性は、特定のモデルを
満たすためにドキュメント画像の「Ｉｎ」または「Ｏｕ
ｔ」を一致させければならず、そうでない場合は、ドキ
ュメント画像は、「Ｉｎ」と「Ｏｕｔ」の選択を一致さ
せる部分集合だけを有する特定のモデルを満たすことが
できる。重みの値が０でない場合、サーチ結果は、有無
が正確に一致した特徴に対応する重みの合計によって降
順に配列される。

【００８６】図８は、図７に示したジャンル・モデル・
プログラム・インタフェースを使用して、属性２４０と
特徴２４２の有無を指定することによって定義すること
ができる３つの異なるドキュメントの高さのレベルの構
成の例を示す。図８に示した画像８００は、通常レター
としてソートされるドキュメントのジャンルを示す。こ
れと対照的に、画像８０２は、通常メモとしてソートさ
れ、画像８０４は、通常記事としてソートされる。前述
のように、メモのヘッダは、レターからメモを区別する
特徴としてはたらく。これと対照的に、通常記事に見ら
れる多数のカラムは、レターとメモの両方から記事を区
別するのに役立つ。図８は、ドキュメント画像中の特定
の画像属性および／または特徴の有無を指定することに
よって、異なるジャンルのドキュメント画像を容易に識
別できることを示す。

【００８７】Ｆ．ドキュメントコーパスのサーチ図９は、ファイル・システム１１７に記憶されたドキュ
メント画像のコーパスをサーチするための検索エンジン
・インタフェース２１８の例を示す。図９に示した例示
的な検索エンジン・インタフェース２１８は、メモリ・
ファイル・システム１１７に記憶されたテキスト２３
６、ドキュメントメタデータ（すなわち、タイトル、日
付、キーワードおよびタイプ）２２４、特徴２４２、お
よびジャンル・モデル２４４をサーチするための機構を
提供する。このような様々なクラスのサーチの１つまた
は組合せは、特定クラスのサーチを選択し、表示領域９
００内のサーチのクラスのパラメータを指定することに
よって実行することができる。ユーザは、サーチのクラ
スとサーチパラメータを指定したら、「サーチ実行(RUN
SEARCH)」ボタン９０１を押して、指定したサーチを実
行する。その後のサーチの結果は、それぞれ上書き（Ｏ
ｖｅｒｗｒｉｔｅ）ボタン９０３、累積（Ａｃｃｕｍｕ
ｌａｔｅ）ボタン９０５、削除（Ｓｕｂｔｒａｃｔ）ボ
タン９０７または論理積（Ｉｎｔｅｒｓｅｃｔ）ボタン
９０９のうちの１つを押すことによって、前のサーチ結
果に上書きするか、それを累積するか、それから削除／
減算するか、それとＡＮＤ演算することができる。

【００８８】テキスト・データベース２３６（図２に示
した）は、ボタン９０２を選択し、テキスト・ベースの
情報(Clue)をテキスト表示領域９０４に入力することに
よってサーチされる。このサーチは、ＡＳＣＩＩ文字で
実行され、図示しないプリファレンス・ウィンドウ内で
ユーザによって選択されるブール論理または確率を使用
して定義することができる。ドキュメントメタデータ
（たとえば、タイプ、日付、タイトルおよびキーワード
・データベース）２２４は、それぞれボタン９１２、９
０８、９０６および９１０のうちの１つを選択すること
によりサーチされる。ユーザは、サーチのクラスを指定
する他に、各サーチを実行するために使用するサーチパ
ラメータを指定しなければならない。タイトルサーチの
場合には、ユーザが、テキスト表示領域９１４にタイト
ルを提示するテキスト情報を入力しなければならない。
日付サーチの場合、ユーザは、正確な日付又は開始期間
９１６と終了期間９１８に日付の範囲を入力することが
できる。キーワードサーチの場合は、メニュー９２０に
表示された一組のキーワードのうちの１つを選択しなけ
ればならない（示したデフォルトは、「ＮＯＮＥ」）。
最後に、ドキュメントタイプのサーチの場合は、メニュ
ー９２２に表示される一組のドキュメントタイプのうち
の１つを選択しなければならない（示したデフォルト
は、「ＮＯＮＥ」）。テキスト、タイトル、日付、キー
ワードまたはドキュメントタイプのサーチのための支援
情報は、ユーザがハイパーテキスト・リンク９２４、９
２６、９２８、９３０または９３２を選択することによ
り得ることができる。

【００８９】属性２４０または特徴２４２のいずれかの
特徴サーチを実行するために、ユーザは、ボタン９３４
を選択し、メニュー９３６（示したデフォルトは、「Ｎ
ＯＮＥ」）から特徴を選択する。特徴が一組の特徴２４
２に追加されると、新しい特徴が、特徴メニュー９３６
に追加される。特徴メニュー内のそれぞれの特徴が何で
あるかをよく理解するために、ユーザは、検査特徴ボタ
ン９３７またはドキュメント付き検査特徴ボタン９３９
を使用して各特徴の定義を調べることができる。ボタン
９３７または９３９を使用して、特徴の定義が、たとえ
ば図６に示したように表示される。「ドキュメント付
き」（すなわち、ｗ／Ｄｏｃｓ）ボタン９３９を使って
特徴を調べる場合は、前のサーチから累積されたドキュ
メント画像が、図６で略図６０４、６０６および６０８
によって示したように要約される。さらに、ボタン９７
５を選択して、メニュー９７６からジャンル・モデルを
選択することによって、モデルサーチを実行することが
できる。ジャンル・モデル９７６のメニューは、ジャン
ル・モデル・プログラム・インタフェース２１９を使っ
て定義されたジャンル・モデル２４４の各々を含む。新
しいジャンル・モデルを調査または開発するために、ハ
イパーテキスト・リンク９７７を選択して、モデル・プ
ログラム・インタフェース２１９を表示させることがで
きる。ページ画像２２６の属性２４０と特徴２４２の計
算は、インタフェース２１８を利用してサーチを呼び出
す前に実行されるので、インタフェース２１８を利用し
て実行されるサーチ操作は、ランタイム画像解析を含ま
ず、時間とスペース両方の効率が高いという利点を有す
る。

【００９０】表示領域９００内でクラスのサーチのうち
の１つを実行した後、その結果が、検索エンジン・イン
タフェース２１８に表示される。１つの実施形態におい
て、サーチを満たす略図が表示される。表示された略図
のうちの１つを選択することにより、ユーザがより詳細
に調べることができるように、略図のオリジナルのペー
ジ画像が表示される。一般に、結果は、ユーザが指定す
る任意の形で表示することができる。たとえば、ユーザ
は、チェックボックス９４８を利用してファイル・シス
テム１１７から命じられたときに結果を表示するように
指定することができる。また、ユーザは、チェックボッ
クス９４５を利用してドキュメントの最初のページだけ
を表示させるように指定することができる。さらに、ユ
ーザは、チェックボックス９４０、９４２、９４４、あ
るいはメニュー９４６のエントリをそれぞれ選択するこ
とによって、結果を表示するときに、ドキュメントのタ
イトル、ドキュメントの略図、ファイル情報および選択
した特徴を提示するように指定することができる。サー
チの結果は、「再表示(Redisplay Results) 」ボタン９
３８を選択することによって、新しいフォーマットを指
定した後で再表示させることができる。

【００９１】Ｇ．１つのドキュメント画像と組となるド
キュメント画像の要約前述のように、図３は、複数のレイアウト・オブジェク
ト２３８に分割された（ドキュメント画像２３７の）ペ
ージ画像２２６の例を示す。特徴２４２は、レイアウト
・オブジェクト２３８の各々を定量化する属性２４０を
使用して定義される。各特徴２４２は、いくつかの特性
を有するページ画像の特定の領域を識別するルーチンを
使って定義される。たとえば、図３に示した特徴は、ｌ
ｅｔｔｅｒ−ｄａｔｅ（レターの日付）、ｌｅｔｔｅｒ
−ｓｉｇｎａｔｕｒｅ（レター署名）、ｌｅｔｔｅｒ−
ｒｅｃｉｐｉｅｎｔ（レター受取人）およびｌｅｔｔｅ
ｒ−ｃｃ（レターコピー）・フィールドを表わすページ
画像内の領域を識別するために使用されるルーチンであ
る。これらの特徴の各々は、レイアウト・オブジェクト
（ｌａｙｏｕｔｏｂｊｅｃｔｓ）２３８が、ドキュメ
ントの特定の特徴を識別するために意図的に分割されな
いため、１つまたは複数の「テキスト・ブロック（Ｔｅ
ｘｔＢｌｏｃｋ）」レイアウト・オブジェクトを使っ
て定義することができる。代りに、レイアウト・オブジ
ェクトは、ドキュメント画像の内容と無関係なドキュメ
ント画像内の構造的要素のタイプを表わす。

【００９２】ユーザが定義した特徴２４２を使用して、
ユーザは、１つまたは組になったドキュメント画像のた
めのユーザが作成した要約画像を明確に表現（公式化）
することができる。図９は、ユーザが作成したドキュメ
ント画像の要約画像を作成するために使用できるユーザ
・インタフェース２１８を示す。１つの実施形態におい
て、ユーザが、インタフェース２１８を利用してサーチ
を行って、ドキュメント画像の部分集合を定義する。次
に、ユーザは、参照番号９６０によって示された要約コ
マンドを使って、サーチによって識別されたドキュメン
ト画像の部分集合の要約画像を作成する。ユーザ・イン
タフェース２１８は、ユーザに、メニュー９６２、９６
４、９６６および９６８においてサーチによって識別さ
れた各ドキュメントを要約するために、少なくとも４つ
の異なる特徴２４２を提供する。特徴の数を４つに制限
する必要がないことは当業者に理解されよう。あるい
は、ユーザ・インタフェース２１８は、１つまたは複数
のドキュメント画像を要約する任意の数の特徴を提供す
ることもできる。また、ドキュメントのコーパスをサー
チする前にコマンド・ボタン９６０を選択し、それによ
りコーパス内のドキュメント画像のコレクション全体を
要約できることは当業者に理解されよう。すなわち、ユ
ーザが作成する要約画像を、ファイル・システム１１７
内の単一のドキュメント画像、ドキュメント画像の部分
集合またはすべてのドキュメント画像に関して作成する
ことができる。

【００９３】図１０は、１つまたは複数のユーザ指定の
操作を選択して、ユーザ作成要約画像の合成要約画像の
出力フォーマットをカスタマイズするために使用できる
要約表示プロファイル(Summarization Display Profil
e) １００２を示す。表示プロファイル１００２は、図
９に示したインタフェース２１８上のボタン９９０を選
択することによってアクセスすることができる。要約表
示プロファイルを定義した後は、チェックボックス９９
２を選択することによってプロファイルを起動化するこ
とができ、あるいは、チェックボックス９９２が選択さ
れていないときは、システム・デフォルト設定を利用し
て、ユーザ作成の要約画像をフォーマットする。より具
体的には、要約表示プロファイル１００２により、ユー
ザは、チェックボックス１００４〜１０１４におけるユ
ーザが指定した１つまたは複数の操作により、ドキュメ
ント画像の１つまたは複数のユーザ作成要約画像を表わ
す合成要約画像の出力フォーマットをカスタマイズする
ことができる。チェックボックス１００４を選択するこ
とにより、ユーザは、ドキュメント画像内に一致する特
徴が存在しない場合に、ドキュメント画像を合成要約画
像内で無視することを要求することができる。複数の特
徴が選択されるとき、ユーザは、チェックボックス１０
０６を使用して、ユーザ作成要約画像内の特徴を突き合
わせるためだけに参照することを指定できる。

【００９４】また、要約表示プロファイル１００２は、
チェックボックス１０１０を選択することによって指示
した数のＯＣＲ文だけを合成要約画像に出力するように
要求することによって、ドキュメント画像の特徴を要約
するレイアウト・オブジェクトを配置する機能をユーザ
に提供する。さらに、ユーザは、チェックボックス１０
０８を選択することによって、ドキュメント画像を要約
する特徴のレイアウト・オブジェクトをスケール（拡大
／縮小）するように指定することができる。また、表示
プロファイル１００２において、ユーザは、チェックボ
ックス１０１２で強調（ハイライト）することにより、
選択して要約する特徴のレイアウト・オブジェクトを合
成要約画像に出力するように指定することができる。さ
らに、ユーザは、チェックボックス１０１４においてい
くつかの特徴のレイアウト・オブジェクトが合成要約画
像に出力される順序を指定することができる。ユーザ要
約表示プロファイル１００２に示された合成要約画像の
出力フォーマットを指定するためのオプションは例示的
なものであり、その他のオプションを容易に含めること
ができることは、当業者には理解されよう。

【００９５】図１１は、ドキュメントコーパスサーチシ
ステム１４０が、１つまたは複数のドキュメント画像の
ユーザ作成要約画像を生成するステップを示すフロー図
である。最初に、ステップ１１０２で、ドキュメント画
像のコレクションを受け取る。このコレクションのドキ
ュメント画像は、たとえば、サーチインタフェース２１
８を使ってサーチを実行することによって定義すること
ができる。一ドキュメント画像のコレクション内の各ド
キュメント画像は、複数のページ画像を含む。これらの
ページ画像はそれぞれ、ある時点でその属性２４０と特
徴２４２を生成するために、画像セグメンタ２１１とプ
ログラム・マネージャ２１４によって処理される。次
に、ステップ１１０４において、ステップ１１２０で受
け取ったドキュメント画像の要約画像の表示を要求する
コマンドを受け取る。ステップ１１０４でコマンドを受
け取ることに加え、ステップ１１０６で一組の特徴を受
け取る。これらの特徴は、ユーザによって、予め定義さ
れた一組の特徴から選択されるか、または図４〜図５に
示した方法を使って新しい特徴をプログラミングするこ
とによって選択される。１つの実施形態において、ユー
ザが、メニューの９６２、９６４、９６６または９６８
において１つまたは複数の特徴を指定し、図９に示した
コマンド・ボタン９６０を選択した後で、ステップ１１
０４で受け取ったコマンドとステップ１１０６で受け取
った一組の特徴が受け取られる。

【００９６】ステップ１１０８において、ドキュメント
画像のコレクションのうちの各ドキュメント画像に対し
て、システム１４０は、ステップ１１０６で受け取った
一組の特徴のうちの特徴を定義するレイアウト・オブジ
ェクトを識別する。次に、ステップ１１１０において、
ドキュメント画像のコレクションのうちの各ドキュメン
ト画像に対して、ステップ１１０８で識別された特徴と
関連付けられたレイアウト・オブジェクトをアセンブル
することによって要約画像が形成される。ステップ１１
１２において、ユーザが、合成要約画像を作成する際に
ユーザ要約表示プロファイルを使用するというチェック
ボックス９９２（図９に示した）を指定した場合は、ス
テップ１１１４が実行され、そうでない場合は、ステッ
プ１１１６が実行される。

【００９７】ステップ１１１４において、ステップ１１
１０でアセンブルされた要約画像を定義するレイアウト
・オブジェクトが、ユーザが定義したユーザ要約プロフ
ァイルから選択された既定のユーザ指定動作によって変
更される。より具体的には、ステップ１１１４において
アセンブル済みの要約画像を変更するために使用される
特定のユーザ指定動作（単数又は複数）が、要約表示プ
ロファイル１００２においてチェックボックス１００４
〜１０１４のどれが選択されているかによって決定され
る。前述のように、ユーザは、図９に示したボタン９９
０を選択することによってユーザ要約プロファイル１０
０２（図１０に示した）を定義することができる。ユー
ザ要約プロファイルが、ステップ１１１２で指定されな
い場合は、代わりにシステム・デフォルト要約表示プロ
ファイルが使用される。ユーザ要約表示プロファイルを
使用する場合は、ステップ１１１５で実行したものと類
似のアセンブル済み要約画像内のレイアウト・オブジェ
クトのさらに他の処理が必要なこともあることが、当業
者には理解されよう。

【００９８】ステップ１１１４において要約画像をアセ
ンブルするために実行される変更は、ユーザ要約表示プ
ロファイル１００２（図１０に示した）において選択さ
れたオプションに従って実行される。たとえば、ユーザ
要約表示プロファイルにおいてチェックボックス１００
４を選択するか否かによって、２つの異なる要約画像を
作成することができる。チェックボックス１００４を選
択せず、選択された特徴がどれもページ画像内に見つか
らないとき、ドキュメントはそのタイトル（ドキュメン
トメタデータ２２４から識別された）だけによって表示
される。しかしながら、チェックボックス１００４がチ
ェックされた場合は、そのような一致しないドキュメン
ト画像への参照は、要約画像から完全に省略される。す
なわち、１つの特徴だけが指定されドキュメント画像が
その特徴を持たないとき、その画像のドキュメントメタ
データ２２４は、そのドキュメント画像の要約画像の一
部としては含まれない。さらに、チェックボックス１１
０６を選択し、複数の特徴を選択したときは、一致する
特徴を有する特徴だけが、要約画像内の特徴タイトルで
識別される（例は、図１４を参照）。

【００９９】ステップ１１１６において、合成要約画像
は、ステップ１１１４で変更されるか変更されないかに
よってアセンブル済み要約画像を使って作成される。図
１２、１３および１４は、図１１に概略的に示したステ
ップを利用して作成された合成要約画像の３つの異なる
例を示す。図１２は、要約画像１２０２、１２０４、１
２０６および１２０８が、４つのドキュメント画像のｈ
ｅａｄｅｒｆｉｅｌｄ（ヘッダフィールド）特徴
（たとえば、４−ｍｅｍｏ−ｍａｒｋｓ）に対応するレ
イアウト・オブジェクトを含む合成要約画像１２００を
示す。この例では要約するのに１つの特徴だけが選択さ
れているため、各要約画像には特徴タイトルは提供され
ない。合成要約画像１２００の各ヘッダ・フィールドの
下には、特徴に対応するレイアウト・オブジェクトが配
置される各ドキュメント画像のドキュメントタイトルが
ある。図１３は、合成要約画像１３００がドキュメント
画像の受取人（ｒｅｃｉｐｉｅｎｔ）フィールドを要約
する要約画像１３０２、１３０４、１３０６および１３
０８を含むもう１つの例を示す。更に他の例は、合成要
約画像１４００が４つの要約画像１４０２、１４０４、
１４０６および１４０８を含む図１４に示される。要約
画像１４０２、１４０４、１４０６および１４０８は、
４つのドキュメント画像の特徴ｌｅｔｔｅｒ−ｄａｔ
ｅ、ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ、およびｌｅｔ
ｔｅｒ−ｓｉｇｎａｔｕｒｅに対応するレイアウト・オ
ブジェクトを含む。この例では、３つの異なる特徴が選
択されたので、識別された特徴を示す各要約画像にタイ
トルが提供される。

【０１００】最後に、ステップ１１１８において、ステ
ップ１１１６で作成された合成要約画像がユーザディス
プレイに表示される。しかしながら、別法として、ステ
ップ１１１８が、プリンタなどの任意の数の出力装置に
合成要約画像を出力することによって実行することがで
きることは当業者には理解されよう。テキスト・ベース
の要約技法よりも優れたこの要約技法の利点は、この要
約技法が、ドキュメントテキストの語彙構造ではなく、
ドキュメントのレイアウトに潜在的に含まれる機能情報
に基づく適切なドキュメント内容を定義する方法に基づ
くことである。さらに、この要約技法は、ＯＣＲプログ
ラムまたはワードパターン検出プログラムが稼働するた
めに必要なものよりも低い解像度で働くため有利であ
る。また、本発明の他の態様と同様に、この要約技法
は、レイアウト・オブジェクト上でＯＣＲ解析を使用し
て操作する必要はない。たとえば、特徴ｌｅｔｔｅｒ−
ｓｉｇｎａｔｕｒｅ３５２（図３を参照）の署名部分を
定義するレイアウト・オブジェクトは、何もテキスト内
容のないビットマップ画像である。

【０１０１】Ｈ．特徴または属性によるサーチ結果の順
序付けドキュメント画像の大きなコーパスにおけるユーザのド
キュメント画像の識別を支援するために、ドキュメント
の特徴または属性の外観に従ってサーチ結果をソートす
る方法を提供する。前述の節Ｇで説明したドキュメント
画像の要約と異なり、ドキュメント画像のソートは、類
似度を識別するために特徴の画像解析を必要とする。ド
キュメントをレイアウト・オブジェクトの類似のグルー
プにソートするこの方法は、一貫性をもつ可視外観及び
／又は同種の可視外観を有するレイアウト・オブジェク
トを有するドキュメントをグループ化する。動作におい
て、画像ベースの特徴の比較を行うことにより一組のド
キュメントをソートして、ドキュメント間のどの特徴が
グループ化するのに十分なほど似ているかを判定する。
このような画像ベースの比較は、特徴を含む場所から自
動的に抽出される画像セグメントを突き合わせることに
よって実行される。図１５と図６に示した１つの方法
は、予め定義されたしきい値に従って類似した特徴をグ
ループ化することである。図１８に示したもう１つの方
法は、選択されたドキュメントからの特徴との類似度の
順序によって特徴をランク付けすることである。両方の
方法は、特徴の間の距離を計算するクラスタ化技法を使
用する。距離が大きくなるほど、２つの特徴は類似しな
くなる。距離を利用して一組のドキュメントをランク付
け又はドキュメントのクラスタにグループ化した後、そ
の組のドキュメントがソートされたクラスタによって編
成され、ドキュメントのコーパス内のドキュメントのサ
ーチが改善される。

【０１０２】図１５、１６および１８のフロー図に示し
た方法は、ＲＡＭ１１６内に駐在し、ドキュメントコー
パスサーチシステム１４０（図１を参照）の稼働中にプ
ロセッサ１１４によって実行される。ドキュメントをソ
ートする他の方法と異なり、そのような方法は、ドキュ
メント画像の各部を互いに比較するだけなので効率的で
ある。また、これらの方法は、システム１４０によって
自動的に抽出されるドキュメント画像の要素（または部
分）に基づいて画像領域（すなわち、テキスト領域では
ない）でドキュメント画像をソートするため有利であ
る。後で説明するドキュメント画像の比較方法を変更し
て、いくつかの効率的な検討を組み込むことができるこ
とは当業者には理解されよう。たとえば、ドキュメント
画像をレイアウト・オブジェクトに分割するための図１
５のステップ１５００と図１８のステップ１８００は、
リアルタイムで実行される必要はない。その代わりに、
ドキュメントの類似のグループ化を行うか単一ドキュメ
ント画像に関するドキュメント画像のランク付けを行う
ことによって、画像分割は、ユーザがコマンドを呼び出
してドキュメントのコーパスをソートする前に一度行う
だけでよい。

【０１０３】Ｈ．１特徴または属性によるサーチ結果
のソート図１５は、ページ画像２２６（図２と図３を参照）から
分割されたレイアウト・オブジェクト２３８間の類似度
に従ってファイル・システム１１７に記憶されたドキュ
メント画像２３７をグループ化するステップを示すフロ
ー図である。最初に、ステップ１５００で、画像セグメ
ンタ２１１によって、ドキュメント画像２３７のページ
画像２２６が、表１に示したレイアウト・オブジェクト
・タイプのうちの１つをそれぞれが有するレイアウト・
オブジェクト２３８に分割される。さらに、ステップ１
５００において、画像セグメンタと識別装置２１１が、
属性２４０を計算し、ＯＣＲを実行してレイアウト・オ
ブジェクト内のＡＳＣｌｌテキスト２３６を識別しても
よい。次に、プログラム・マネージャ２１４が、画像属
性２４０とレイアウト・オブジェクト２３８を使って特
徴２４２のルーチンを評価する。１つの実施形態におい
て、ＯＣＲは、特定のサーチの対象となるレイアウト・
オブジェクトにだけに実行される。

【０１０４】ステップ１５０２において、選択された一
組のドキュメント画像２３７が、システム１４０によっ
て受け取られる。この組のドキュメント画像は、ユーザ
によって選択され予め定義された一組のドキュメント画
像でも、ユーザによって実行されたサーチによって得ら
れた一組のドキュメント画像でもよい。ステップ１５０
４において、１つまたは複数の選択された特徴または属
性をユーザから受け取る。選択された特徴は、ユーザ・
インタフェース２１８における表示領域９６９のメニュ
ーで、ユーザが事前に定義するかまたは選択することが
できる。たとえば、図９は、ユーザがメニュー９６２か
ら特徴ｌｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔを選択する例
を示す。ユーザが、コマンド・ボタン９７０を選択し
て、ステップ１５０４において選択済みの特徴によって
ドキュメントをソートした後、ステップ１５０６で、メ
ニュー９６２の選択済みの特徴を受け取る。代替実施形
態において、インタフェース２１８は、図９に示したよ
うなドキュメントの特徴だけでなく、特徴及び／又は属
性を選択するメニューを含む。

【０１０５】ステップ１５０６において、指定された特
徴を構成する選択された組のドキュメント画像内のレイ
アウト・オブジェクトを識別することによって、一組の
画像セグメントが形成される。画像セグメントがビット
マップ画像の形式ではない場合は、ページ記述言語（Ｐ
ＤＬ）などの構造化ドキュメント表現内の画像セグメン
トが、従来のＰＤＬデコンポーザやその類似物によっ
て、ビットマップ表現にレンダリングされる。たとえ
ば、図３に示したページ画像２２６の特徴ｌｅｔｔｅｒ
−ｒｅｃｉｐｉｅｎｔ３５４を構成するテキスト・ブロ
ック・レイアウト・オブジェクトは、ページ画像２２６
に関してステップ１５０６で計算された一組の画像セグ
メントのうちの１つの画像セグメントを定義することが
できる。しかしながら、いくつかの例では、画像セグメ
ントは、１つまたは複数のレイアウト・オブジェクトか
らなることがある（たとえば、図６において、メモ・ヘ
ッダ６４０の画像セグメントは、メモ・マーク６４２を
定義する別々のレイアウト・オブジェクトからなる）。
次にステップ１５０８で、ステップ１５０６で形成され
た一組の画像セグメントが、類似度及び／又は繰り返し
パターンを有する意味のあるオブジェクトのグループに
ソートされる。最後に、ステップ１５１０において、一
組の画像セグメント中のそれぞれの画像セグメントに対
応するドキュメント画像またはその縮小スケール画像
が、ステップ１５０８においてソートされた意味のある
グループごとにディスプレイ１３２でユーザに表示され
る。

【０１０６】より具体的には、ステップ１５０８におい
て、ビットマップ画像セグメント間の一貫性のあるパー
タンまたは同種のパターンが識別される。２つの画像セ
グメント間の類似度の程度によって、画像セグメント
が、画像セグメントの類似するグループまたは相違する
グループにソートされる。たとえば、類似した２つのビ
ットマップ画像の間のパターンは、類似のフォント・ス
タイルまたは類似のフォント・サイズを使用することに
よって発生される。２つのビットマップ・セグメントを
解析するとき、それらの形状は、類似度の大きさが事前
に定義したしきい値の範囲内にある場合には同じ意味の
あるグループに属するようにソートされる。画像領域
（すなわち、非テキスト領域）内の画像セグメントを解
析してソートを行った後、類似のテキストの意味を有す
るセグメントを識別するために、（識別装置２１１によ
って計算された）テキストのセグメントのソートを実行
することができる。たとえば、画像セグメントのテキス
トの意味は、サブジェクト（主題）の特定のクラスまた
はサブジェクトのサブクラスを識別するのに役立つこと
がある。

【０１０７】図１６は、図１５のステップ１５０８を詳
細に説明するフロー図である。より具体的には、図１６
は、類似度および／または繰返しパターンを有する画像
セグメントを意味のあるグループにソートするための１
つの実施形態である。最初に、ステップ１６０２におい
て、１つの画像セグメントが、ステップ１５０６におい
て形成された一組の画像セグメントから選択される。ス
テップ１６０４において、一組の画像セグメントの残り
の各画像セグメントの各々と選択された画像セグメント
との間の距離が計算される。それぞれの距離は、選択さ
れた画像セグメントに関して一組の画像セグメントのう
ちの残りの画像セグメントのそれぞれの間の類似度を定
量化する。画像セグメント間のそのような距離測定は、
全体的ベースにも局所的ベースにも行うことができる。
局所的ベースで行う場合は、２つの画像セグメント間の
距離が、各画像セグメントの一部分に関してのみ計算さ
れる。たとえば、テキストのすべての行を記録する２つ
の画像セグメントを、全体的な行ごとに、あるいは局所
的な単語ごとまたは文字ごとに、互いに突き合わせるこ
とができる。

【０１０８】１つの実施形態において、各距離は、残り
の画像セグメントの各々と選択された画像セグメントと
の間の「ハウスドルフ距離(Hausdorff distance)」を計
算することによって決定される。代替実施形態におい
て、各距離は、「ハウスドルフ・フラクション」または
「変換による最小ハウスドルフ距離(minimum Hansdorf
f distance under Transformation)」を計算することに
よって決定される。ハウスドルフ距離、ハウスドルフ・
フラクションまたは変換による最小ハウスドルフ距離の
計算の詳細は、１９９６年にＳｐｒｉｎｇｅｒ−Ｖｅｒ
ｌａｇから出版されたウィリアム・ラックリッジ（Ｗｉ
ｌｌｉａｍＲｕｃｋｌｉｄｇｅによる論文「ハウスド
ルフ距離を利用した効率的な視覚的認識（Efficient Vi
sual Recognition Using the Hausdorff Distance)」に
開示されている。他の実施形態において、距離は、２つ
の画像パターンの間の重み付けＸＯＲまたはハミング距
離を計算することにより決定することができる。距離を
計算するためのさらにもう１つの実施形態は、画像セク
ションを比較して類似度を決定するための方法を説明し
ている米国特許第５，５３９，８４１号に開示されてい
る。

【０１０９】変換による最小ハウスドルフ距離を計算す
ることにより各距離を決定する利点は、それぞれの距離
を計算する際に、画像セグメント間のスケールと向きの
小さな変化が考慮される点である。すなわち、スケール
や向きの変化によって生じる２つの画像セグメントの差
が、変形した状態で最小距離で距離を計算することによ
って補償される。たとえば、スケールの変化は、書体
（たとえばＴｉｍｅｓＲｏｍａｎ）が似ているがフォン
ト・サイズが異なる（たとえば、１０ポイントと１２ポ
イント）２つの画像セグメントを識別することができ
る。実際には、この方法は、２つの画像セグメント間で
最良のハウスドルフ距離測定を生成する変換を識別する
ことによって、類似の属性を有する画像セグメントを識
別する。その結果、２つの画像セグメント間の距離を計
算するときに、スケールと向きによる画像の変形が考慮
される。

【０１１０】選択した画像セグメントと一組の画像セグ
メントのうちの残りの画像セグメントの各々との間の類
似度を決定した後で、ステップ１６０６で、画像セグメ
ントのクラスタを定義する。具体的には、しきい値距離
範囲内の距離を有する一組の画像セグメントのうちの残
りの画像セグメントを使って、画像セグメントの新しい
クラスタを定義する。ステップ１６０６においてクラス
タを形成する画像セグメントは、ステップ１６０８にお
いて一組の画像セグメントから除去される。ステップ１
６１０において、一組の画像セグメントに画像セグメン
トが残っている場合は、ステップ１６０２が繰り返され
る。そうでない場合は、ステップ１５１０が実行され
る。ステップ１５１０において、ステップ１６０６で定
義された各画像クラスタに従って、ステップ１５０６に
おいて形成された各画像セグメントに対応するドキュメ
ント画像が配列される。

【０１１１】ステップ１５０８において、一組の画像セ
グメントを意味のあるグループにソートするための代替
実施形態は、「テキストの２進画像から抽出された記号
を比較する方法および装置（Method And Apparatus For
Comparing Symbols Extracted From Binary Images Of
Text)」と題する、米国特許出願第０８／６５５，５４
６号（以下、特許出願’５４６）に開示されている。こ
の代替実施形態において、画像セグメントを比較して意
味のある画像セグメントのグループを識別するために、
ハウスドルフと類似の方法が使用される。ステップ１５
０８で特許出願’５４６に示された方法を実行する際、
次の２つの用語の違いを考慮しなければならない。最初
に、特許出願’５４６において引用された「記号(Symbo
ls) 」は、本発明の文脈では、１つまたは複数のレイア
ウト・オブジェクトで構成された画像セグメントとして
定義される。第２に、特許出願’５４６において作成さ
れた「等価クラス(equivalence classes) 」は、本発明
の文脈において、意味のあるグループとして定義され
る。

【０１１２】図１７は、図１５と図１６に示された方法
を使用して形成される画像セグメント１７００のグルー
プを示す。画像セグメント１７００のグループ内の各画
像セグメントは、ドキュメントメタデータ２２４からの
タイトルとファイリン日の情報を含む。また、グループ
１７００内のアドレス・フィールドはそれぞれ、対応す
るドキュメント画像へのハイパーテキスト・リンクであ
る。ステップ１５００でシステム内のドキュメント画像
がレイアウト・オブジェクトに分割された後、ステップ
１５０２において一組のドキュメント画像が識別され、
ステップ１５０４において、アドレス・フィールド特徴
がユーザによって選択される。画像セグメント１７００
のグループ化は、ステップ１５０６で一組の画像セグメ
ントを形成した後のステップ１５０８でソートされた多
くのグループのうちの１つのグループだけである。画像
セグメント１７００のグループには、４つのアドレス・
フィールド１７０２、１７０４、１７０６および１７０
８がある。アドレス・フィールドは、これらの距離があ
る一定のしきい値よりも下にあるためグループ化され
る。さらに、アドレス・フィールドをグループ化するこ
の方法は、スケールと向きによって生じる画像セグメン
ト間のばらつきを考慮する。たとえば、アドレス・フィ
ールド１７０２および１７０８のスケールが異なり、ア
ドレス・フィールド１７０４および１７０６の向きが異
なる。ドキュメントのコーパスに記憶されたドキュメン
トをソートするこの方法を利用することによって、ユー
ザは、類似したアドレス・フィールドを有するドキュメ
ント１７００のグループを検査することによって、コー
パス内の特定のドキュメントをより容易に識別すること
ができる。

【０１１３】Ｈ．２特徴または属性によるサーチ結果
のランク付け図１８は、選択したレイアウト・オブジェクトとの類似
度によってファイルシステム１１７に記憶されたドキュ
メント画像２２６から分割されたレイアウト・オブジェ
クト２３８をランク付けするステップを示すフロー図で
ある。ドキュメント画像のページ画像におけるレイアウ
ト・オブジェクトは、ドキュメント画像の特徴２４２と
属性のいずれかを使って識別される。最初に、ステップ
１８００において、ドキュメント画像２３７のページ画
像２２６が、図１５のステップ１５００に関して前に説
明したようにレイアウト・オブジェクト２３８に分割さ
れる。ステップ１８０２において、指定されたドキュメ
ント画像を受け取る。また、指定されたドキュメント画
像の特徴（単数又は複数）を、ステップ１８０４で受け
取る。あるいは、画像特徴の代わりに、ステップ１８０
４に属性（単数又は複数）２４０を受け取ることもでき
る。１つの実施形態において、ドキュメント画像とその
特徴（単数又は複数）は、図９に示したドキュメントサ
ーチインタフェース２１８を使用して指定される。この
実施形態において、ドキュメント名がテキスト・フィー
ルド９８２に指定され、特徴が、メニュー９８４で指定
される。ステップ１８０６において、一組のドキュメン
ト画像が選択される。この選択された一組の画像は、事
前に定義された一組のドキュメント画像でもよいし、サ
ーチインタフェース２１８を使用したサーチによって得
られた一組のドキュメント画像でもよい。ステップ１８
０８において、選択された１つまたは複数の特徴または
属性を受け取る。図９に示した実施形態において、ステ
ップ１８０８で選択された特徴が、表示領域９６９の特
徴メニュー９６２、９６４、９６６および／または９６
８のうちの１つを使用して指定される。ユーザがインタ
フェース２１８のコマンド・ボタン９８０を選択する
と、ステップ１８０２、１８０４、１８０６および１８
０８で受け取った各エレメントを受け取る。

【０１１４】ステップ１８１０において、（ステップ１
８０４で）指定されたドキュメント画像の特徴を構成す
る選択された一組のドキュメント画像（ステップ１８０
６に）においてレイアウト・オブジェクトを識別するこ
とによって、一組の画像セグメントが形成される。すな
わち、指定されたドキュメント画像の特徴に対応するド
キュメント画像のあるいくつかの部分（すなわち、レイ
アウト・オブジェクト）だけが、それらのドキュメント
画像から抽出され、一組のレイアウト画像に追加され
る。ステップ１８１２において、ステップ１８０４で指
定された特徴を構成するステップ１８０２において指定
されたドキュメント画像内のレイアウト・オブジェクト
を識別することによって、単一の画像セグメントが形成
される。ステップ１８１４において、距離は、選択した
一組のドキュメント画像においてドキュメント画像ごと
に計算される。ステップ１８１４で計算した各距離は、
選択した一組のドキュメント画像のうちの１つのドキュ
メント画像の特徴と、指定されたドキュメント画像の特
徴との違い（類似度）の尺度である。すなわち、各距離
は、ステップ１８１０で形成された一組の画像セグメン
トの各画像セグメントと、ステップ１８１２で形成され
た単一の画像セグメントとの差の尺度である。

【０１１５】ステップ１８１４で計算した各距離は、前
述の距離のうちの１つを利用して実行することができ
る。たとえば、各距離の測定は、２つの画像セグメント
間のハウスドルフ距離を計算することにより行うことが
できる。あるいは、２つの画像セグメント間の距離は、
ハウスドルフ・フラクション、変換による最小ハウスド
ルフ距離、重み付けＸＯＲまたはハミング距離を利用し
て計算することができる。ステップ１８１４が完了した
後、選択した一組のドキュメント画像内の各画像は、ス
テップ１８０６で選択されたドキュメント画像の同じ特
徴に対するステップ１８０２で指定されたドキュメント
画像の特徴の関連性を定義する計算された距離を有す
る。ステップ１８１６において、ドキュメント画像のク
ラスタは、ステップ１８１４において計算された距離を
ランク付けすることによって形成される。ステップ１８
１８において、選択した一組のドキュメント画像におけ
る各ドキュメント画像のステップ１８０８で選択された
特徴は、ステップ１８１６で選択された画像の特徴に対
する類似度によってランク付けされた特徴のクラスタご
とに表示される。

【０１１６】図１９は、指定されたドキュメント画像に
おける特徴の類似度によりドキュメントの特徴をランク
付けする例を示す。具体的には、図１９は、図１８に示
したステップを完了した後で表示される画像のクラスタ
の特徴１９００を示す。この例では、指定されたドキュ
メント画像の選択された特徴が、参照番号１９０１〜１
９０４によってクラスタ１９００内に示された「ｆｒｏ
ｍフィールド」である。さらに、画像のクラスタの特徴
１９００は、ステップ１８０８で選択された特徴に対応
する参照番号１９０５〜１９０８によって示された４つ
のメモ・ヘッダ・フィールドを示す。より具体的には、
特徴「ｆｒｏｍフィールド」１９０１〜１９０４は、指
定されたランク付けの範囲内にある計算距離を有し、ス
テップ１８１６でいっしょにクラスタ化される。本発明
により、ドキュメント画像の画像のクラスタの特徴１９
００は、ドキュメント画像のテキストの内容ではなくド
キュメント画像のレイアウト構造を利用してアセンブル
される。

【０１１７】Ｉ．プログレッシブ送信および／または表
示前に図１と図２で説明したように、画像セグメンタ２１
１は、画像を、表１に示したようなレイアウト・オブジ
ェクト・タイプのうちの１つをそれぞれ有するレイアウ
ト・オブジェクトに分割する。ドキュメント内の各レイ
アウト・オブジェクトは、レイアウト・オブジェクトの
内容と関係なく識別される。レイアウト・オブジェクト
・タイプの例は、テキスト、図形およびハーフトーンで
ある。前述のように、各レイアウト・オブジェクトごと
に計算された画像属性は、それぞれのレイアウト・オブ
ジェクトの構造と特性を定義するために使用される。さ
らに、画像の属性は、レイアウト・オブジェクトがドキ
ュメント画像のページ画像内の他のレイアウト・オブジ
ェクトとの間で持つ空間的な関係を識別するために使用
される。ユーザは、画像の属性を使って、ドキュメント
画像の特徴を引き出すことができる。属性と異なり特徴
をカスタマイズし、それによりページ画像内の独特な組
のレイアウト・オブジェクトを識別することができる。

【０１１８】ファイル・システム１１７に記憶されたド
キュメント画像２３７は、検索エンジン・インタフェー
ス２１８を使ってネットワーク１３０を介してサーチす
ることができる。ネットワーク１１７の帯域幅が制限さ
れることがあるため、ドキュメントのページ画像２２６
の送信が遅い場合がある。ドキュメント画像データ・フ
ァイルのサイズとネットワークのデータ転送速度によっ
て、インタフェース２１８を操作するユーザは、ファイ
ル・システム１１７のドキュメント画像をサーチまたは
ブラウズしている間に過度に長い伝送遅延に遭遇するこ
とがある。ネットワーク１３０を介してドキュメント画
像を受け取る際の過度に長い遅延を緩和するために、ユ
ーザは、プログレッシブに伝送および／または表示され
るドキュメント画像のレイアウト・オブジェクトを有す
るオプションが提供される。

【０１１９】ドキュメント画像のプログレッシブ送信お
よび／または表示は、ユーザ・インタフェース２１８を
動作させるクライアント・ワークステーション１５０
と、ドキュメントサーチおよび検索システム１４０を動
作させるサーバ・ワークステーション１１０との間のネ
ットワーク１３０を介するデータ送信の時間コストを削
減する。動作において、最初に、他のレイアウト・オブ
ジェクトよりも重要と識別されたドキュメント画像のペ
ージ画像内のレイアウト・オブジェクトが送信される。
ユーザが関心のあるドキュメント画像の要素に対して高
速にアクセスすることができるため、データ送信におけ
る時間コストが低下する。さらに、このプログレッシブ
送信の形により、ユーザは、ドキュメント画像を詳細に
調べるべきかどうかを素早く決定して、ドキュメント内
のあまり重要でないレイアウト・オブジェクトが送信さ
れる前にドキュメント画像を見せないという決定を行っ
て、データの伝送量を最小にすることができる。

【０１２０】一般に、このドキュメント画像のプログレ
ッシブ送信および／または表示の方法は、ドキュメント
画像がレイアウト・オブジェクトに分割されることに基
づく。最初に、ユーザは、閲覧および／またはサーチの
対象に最も適切なドキュメント画像の特徴または属性を
識別する。このレイアウト・オブジェクトのプログレッ
シブ送信および／または表示の方法は、２つのステップ
に分けられる。送信の第１のステップにおいて、ユーザ
によって最も関心があると指定された特徴および／また
は属性を有するドキュメント画像のレイアウト・オブジ
ェクトだけが、高い解像度で送信および／または表示さ
れ、ドキュメント画像の残りのレイアウト・オブジェク
トは、低い解像度で送信および／または表示される。ユ
ーザが要求した場合にだけ呼び出される送信の第２ステ
ップにおいて、第１のステップで低い解像度で送信され
たレイアウト・オブジェクトが、高い解像度で再送信お
よび／または表示され、最後にはドキュメント画像を高
い解像度で表示させる。

【０１２１】ｌ．１プログレッシブ送信図２０は、ドキュメントサーチ／検索システム１４０を
実行するサーバ・ワークステーションの視点からドキュ
メント画像のプログレッシブ送信を実行するステップを
示すフロー図である。最初に、ステップ２０００におい
て、ファイル・システム１１７内のドキュメント画像２
３７のページ画像が、レイアウト・オブジェクト２３８
に分割される。ドキュメント画像をレイアウト・オブジ
ェクトに分割した後、画像セグメンタ２１１が、分割さ
れた各レイアウト・オブジェクト毎に画像属性２４０を
計算する。また、プログラム・マネージャ２１４が、ド
キュメント画像内で分割されたレイアウト・オブジェク
トが特徴２４２に対応するかどうかを判定する。これら
の操作は、ドキュメント画像の送信の前にリアルタイム
で実行することができる。あるいは、これらの操作は、
システムを初期化するとき、あるいはドキュメント画像
２３７がファイル・システム１１７に加えられられたと
きに実行することができる。

【０１２２】１つの実施形態において、検索エンジン・
インタフェース２１８を稼働させるクライアント・ワー
クステーション１５０（図１に示した）のユーザは、図
９のインタフェース２１８のチェック・ボックス９４９
を選択することにより、画像データをプログレッシブに
送信することを要求する。チェック・ボックス９４９を
選択する他に、ユーザは、図２１に示した表示プロファ
イル２１０２を定義し、ユーザがページ画像の特徴と属
性を送信および／または表示する順序を定義することが
できる。表示プロファイル(display profile) ２１０２
には、インタフェース２１８の「プログレッシブ表示(P
rogressive Display) 」のハイパー・テキスト９５０を
選択することによりアクセスすることができる。表示プ
ロファイル２１０２内の表示領域２１１２により、ユー
ザは、対象をブラウズまたはサーチするのに最も適切な
特徴と属性を指定することができる。さらに、ユーザ
は、選択された特徴および／または属性のランク付けを
指定することもできる。ユーザが表示プロファイルを定
義しない場合は、代りにデフォルトプロファイルが使用
される。代替実施形態において、クライアント・ワーク
ステーションが、データをプログレッシブに自動的に送
信し表示するようにプログラムされたとき、ユーザが介
在することなくステップ２００２を実行することができ
る。

【０１２３】ステップ２００２において、送信プロファ
イルと送信要求が、図１に示したワークステーション１
１０などのサーバ・ワークステーションで受け取られ
る。この送信要求は、ファイル・システム１１７に記憶
された１つまたは複数のドキュメント画像２３７の要求
を含む。送信プロファイルは、図２１に示したプログレ
ッシブ表示プロファイル２１０２から得られ、送信の第
１のステップの間に要求したドキュメント画像内のレイ
アウト・オブジェクトを識別してクライアント・ワーク
ステーションに送信するために使用される特徴および／
または属性のリストである。ドキュメントサーチシステ
ム１４０を操作するサーバ・ワークステーションは、ス
テップ２００４で、送信プロファイルを使用して、送信
プロファイルにおいて識別された特徴および／または属
性に対応する要求ページ画像内のレイアウト・オブジェ
クトを識別する。

【０１２４】ドキュメント画像データのプログレッシブ
送信は、２つのステップで実行される。送信の第１のス
テップの間に、ステップ２００６および２００８が実行
される。ステップ２００６において、ステップ２００４
で識別された要求ページ画像内のレイアウト・オブジェ
クトが第１のすなわち高い解像度でクライアント・ワー
クステーションに送信される。次に、ステップ２００８
において、ステップ２００４で識別されなかった要求ペ
ージ画像内のレイアウト・オブジェクトが、第２の解像
度すなわち低い解像度でクライアント・ワークステーシ
ョンに送信される。画像データを受け取ると、クライア
ント・ワークステーションは、送信された画像データを
フォーマットしてオリジナルドキュメント画像を複製す
る。代替実施形態において、ステップ２００８で送信さ
れたレイアウト・オブジェクトは、図２１にプログレッ
シブ表示プロファイル２１０２内のチェックボックス２
１１６を選択することにより、文字枠多角形(bounding
polygons) の形で送信される。

【０１２５】送信の第１のステップが完了した後で、サ
ーバ・ワークステーションは、ステップ２０１０で、あ
る一定期間待機する。、ステップ２０１４で、待機期間
内にクライアントの要求を受け取らない場合は、サーバ
・ワークステーションが、ステップ２０１２でタイムア
ウトする。ステップ２０１４において、クライアント要
求を受け取ると、現在の送信要求を継続するか新しい送
信要求を開始するかを指定することができる。具体的に
は、ステップ２０１４で受け取った要求は、ステップ２
００４で識別されない要求ページ画像内のレイアウト・
オブジェクトを、送信の第２ステップの間に第１の解像
度すなわち高い解像度で送信することを指定することが
でき、あるいは、要求が、ステップ２００２で新しい送
信要求を指定することができる。

【０１２６】ステップ２００２が繰り返される場合は、
送信の第２ステップは実行されず、それにより、クライ
アント・ワークステーションとサーバ・ワークステーシ
ョンとの間でデータを送信する時間コストが削減され
る。また、送信セッションの間にステップ２００２がク
ライアント・ワークステーションによって繰り返される
とき（すなわち、送信セッションが１つまたは複数の送
信要求を有してもよい）、送信プロファイルは、１つの
セッションで１回だけ送信するだけでよいことは当業者
には理解されよう。クライアントがステップ２０１２で
タイムアウトした場合は、ステップ２００８で送信され
たレイアウト・オブジェクトが、送信の第２のステップ
の間にステップ２０１６で再送信される。ステップ２０
１６を実行した後で、ステップ２００２における要求ペ
ージ画像の送信が、ステップ２０１８で完了する。

【０１２７】サーチインタフェース２１８を操作するク
ライアント・ワークステーションにおいて、たとえば、
ユーザが要求ページ画像の低い解像度（すなわち第２の
解像度）領域の一部分を選択するときに、ステップ２０
１４および２０１６のシーケンスを開始することができ
る。あるいは、ユーザが、オリジナルの送信要求にない
ページ画像（または、ページ画像の縮小スケール画像）
を選択するときは、ステップ２０１４および２００２の
シーケンスを開始することができる。これと対照的に、
ステップ２０１２が実行され、クライアント要求がない
とき、ユーザは、要求ページ画像の送信の第２ステップ
を自動的に開始することを期待していると想定される。
すなわち、ある一定期間後でクライアント要求のないこ
とは、ステップ２０１６で送信の第２ステップを開始す
る要求を受け取っているように扱われる。

【０１２８】ステップ２００６で低い解像度で最初に送
信されるレイアウト・オブジェクトを定義するドキュメ
ント画像データは、ステップ２０１６で高い解像度で完
全に再送信される必要がなことは当業者には理解されよ
う。その代わりに、２ステップに送信されるレイアウト
・オブジェクトは、２つのレベルのピラミッド形階層符
号化方式を利用して送信することができ、それによりデ
ータの一部が第１のステップの間に送信され、データの
他の部分が第２のステップの間に送信される。データを
階層的に符号化することにより、クライアントとサーバ
の間で重複したデータが送信されることはない。たとえ
ば、米国特許第５，３３５，０８８号とその参考資料
は、画像データを階層的に符号化する様々な方法を示
す。さらに、各レイアウト・オブジェクトを形成する画
像データのタイプによって、送信の各ステップの間に送
信されるデータの量を減少させるための多くの圧縮技法
がある。

【０１２９】Ｉ．２プログレッシブ表示ドキュメント画像が、図２０に示した方法を使ってプロ
グレッシブに送信されている場合、クライアント・ワー
クステーションでのドキュメント画像での表示は、本質
的にプログレッシブである。ドキュメント画像のプログ
レッシブ送信とプログレッシブ表示は、ブール・チェッ
クボックス２１０６、２１０８および２１１０によって
表示プロファイル２１０２に例示されるように、互いに
独立または同時に実行することができる。操作の１つの
モードにおいて、クライアント・ワークステーションの
ユーザは、チェックボックス２１０８の選択により、ペ
ージ画像がプログレッシブに表示されプログレッシブに
送信されないように要求することができる。ページ画像
がプログレッシブに表示されて送信されないときは、ク
ライアント・ワークステーションによって、性能上の利
点が得られる場合と得られない場合がある。

【０１３０】プログレッシブ表示は、プログレッシブ送
信と同様、ユーザが、第１のステップの間に表示される
一組の特徴および／または属性を識別することを要求す
る。ドキュメントのこれらの属性および／または特徴
は、ユーザが最初に表示しようとするドキュメント画像
のレイアウト・オブジェクトである。また、プログレッ
シブ送信と同様、ドキュメント画像は、２つのステップ
でプログレッシブに表示される。表示の第１のステップ
の間に、ユーザによって識別されるドキュメントのレイ
アウト・オブジェクトが、第１の解像度すなわち高い解
像度で表示される。ドキュメント画像の他のレイアウト
・オブジェクトは、第２の解像度すなわち低い解像度に
表示される。表示の第２のステップの間に、第２の解像
度すなわち低い解像度で表示されたレイアウト・オブジ
ェクトは、次に高い解像度すなわち第１の解像度で表示
される。

【０１３１】ｌ．３プログレッシブ送信および／また
は表示の代替モード図２１のプログレッシブ表示プロファイルは、ドキュメ
ント画像データをプログレッシブに表示および／または
送信する様々なオプションを提供する。表示と送信の２
つのステップだけが示されているが、プログレッシブ送
信と表示のためのこの方法は、任意の数の表示ステップ
および／または送信ステップを含むことができることは
当業者には理解されよう。たとえば、プログレッシブ表
示プロファイルは、ユーザに、プログレッシブな４つの
送信ステップとプログレッシブな２つの表示ステップだ
けを定義する機能を提供することもできる。ドキュメン
ト画像をプログレッシブに送信及び／又は表示するこの
方法の重要な点は、ユーザが、ドキュメントの画像属性
および／または特徴を送信および／または表示する順序
をランク付けできることである。

【０１３２】プログレッシブ表示プロファイル２１０２
に示されたもう１つの動作モードにおいて、ユーザは、
チェックボックス２１１４の選択によって送信の第１の
ステップだけが送信および／または表示されるように指
定することができる。この動作モードを選択することに
よって、表示および／または送信されるドキュメント画
像の内容は、たとえば図１２〜図１４に示したような要
約形式である。このオプションは、クライアント・ワー
クステーションの表示がスクリーンのスペースを制限す
るときに使用することができる。また、ユーザは、チェ
ックボックス２１１６を選択することにより、表示また
は送信の第２のステップの間に文字枠（境界ボックス）
多角形だけが送信されるように指定することができる。
両方のチェックボックス・オプション２１１４と２１１
６は、第２の動作ステップの間に送信および／または表
示される画像データの量を制限する２つの異なる方法を
提供する。さらにもう１つの動作モードにおいて、プロ
グレッシブ表示プロファイル２１０２は、送信ステップ
の範囲内で特徴が表示および／または送信される順序を
ランク付けするオプションをユーザに提供する。

【０１３３】ｌ．４プログレッシブに表示された画像
の例図２２〜図２４は、プログレッシブ表示の第１のステッ
プを完了した後でプログレッシブ表示の第２のステップ
が始まる前の３つの異なるページ画像の例を示す。図２
５は、全体画像２５００が第１の解像度すなわち高い解
像度で表示された第２の表示ステップを完了した後の図
２２〜図２４に示したページ画像を示す。図２２は、第
１のステップの間に、特徴ｌｅｔｔｅｒ−ｄａｔｅ２２
０２、Ｉｅｔｔｅｒ−ｒｅｃｉｐｉｅｎｔ２２０４およ
びｌｅｔｔｅｒ−ｓｉｇｕｎａｔｕｒｅ２２０６が、第
１の解像度すなわち高い解像度で表示されたページ画像
例２２００を示す。ページ画像２２００中のその他の特
徴は、低い解像度で表示される。図２３は、同じ特徴２
２０２、２２０４および２２０６が高いの解像度すなわ
ち第１の解像度で表示されたページ画像２３００を示
す。しかしながら、ページ画像２２００と異なり、高い
解像度で表示されていないページ画像２３００の他の特
徴は、文字枠多角形を利用して表示される。

【０１３４】ネットワーク１３０を介してサーチインタ
フェース２１８を操作するユーザは、イントラネットの
閉じた世界で操作することもできる。そのような閉じた
世界のユーザは、多数の特徴を定義することができる。
しかしながら、インターネットの開放された世界では、
特徴は定義されていないこともあり、ユーザは、属性に
よってしかレイアウト・オブジェクトを識別できないこ
ともある。図２４は、画像属性を利用して、図２２と図
２３の画像２２００と２３００と異なる第１の解像度す
なわち高い解像度で送信されるレイアウト・オブジェク
トを識別するページ画像２４００を示す。ページ画像２
４００において、送信および／または表示の第１のステ
ップが、ｎｏｎ−ｒｕｎｎｉｎｇテキストに対するｒｕ
ｎｎｉｎｇテキストの属性を有するレイアウト・オブジ
ェクトを区別する。より具体的には、画像セクション２
４０２および２４０６は、「真」の属性ｎｏｎ−ｒｕｎ
ｎｉｎｇテキストを有するレイアウト・オブジェクトを
第１の解像度すなわち高い解像度で示す。これと対照的
に、画像セクション２４０４は、「偽」の属性ｒｕｎｎ
ｉｎｇテキストを有するレイアウト・オブジェクトを第
２の解像度すなわち低い解像度で示す。

【０１３５】Ｊ．結論要約すると、本発明は、ページ画像内のテキスト・ブロ
ックが他のテキスト・ブロックによって定義された基準
フレームに対して持つ空間関係によってドキュメント画
像のページ画像のレイアウト構造を記述する技術に関す
る。このレイアウト技法の利点は、文字認識に依存せ
ず、したがって比較的低い解像度で実行することができ
ることである。このレイアウト技法の第２の利点は、新
しいレイアウト構成要素と構造の対話式のユーザ仕様に
適した高いレベルのフレームワークを提供し、それによ
り、ドキュメントをカテゴリおよび／またはフォーマッ
トで識別するフレキシビリティを提供することである。
この第２の利点は、直線的プログラムを使用してドキュ
メント画像内に特徴を定義し検出することができること
により得られる。

【０１３６】本発明は、ドキュメントの最初のページを
使用して説明してきたが、本発明がドキュメント全体に
当てはまることは当業者には理解されよう。さらに、考
察のほとんどは、スキャンしたドキュメント画像による
ドキュメントに焦点を当てているが、本発明は、ドキュ
メント内のテキストだけがサーチおよび検索システムに
よって調べられる場合に失われる構造を有する電子的に
得られたドキュメントに適用できることは、当業者には
理解されよう。たとえば、ＰｏｓｔＳｃｒｉｐｔを使っ
て定義された電子ドキュメントは、ＰｏｓｔＳｃｒｉｐ
ｔドキュメントをレンダリングするために使用される特
定のデコンポーザによって変化するレイアウト構造を有
してもよい。したがって、本発明の利点は、ドキュメン
トのフォーマットがビットマップかまたはさらに高いレ
ベルのＰＤＬ表現によるものかに関係なく、ドキュメン
ト高レベルのレイアウト構造を明示的に定義するために
使用できる方法を提供することである。

【図面の簡単な説明】

【図１】本発明を実施するために使用される一般的な構
成要素のブロック図である。

【図２】図１に示したドキュメントコーパス管理／サー
チシステムの詳細なブロック図である。

【図３】ファイル・システム内にドキュメント画像デー
タが配列された様子を示す図である。

【図４】基本操作のシーケンスを利用して特徴を定義す
るための対話サイクルのフロー図である。

【図５】図４のステップ４０８で定義された一組のレイ
アウト・オブジェクトの１つまたは複数の選択操作また
は累算操作を指定するステップを示すフロー図である。

【図６】図４と図５に示した対話サイクルを使用してプ
ログラムされた特徴の例を示す図である。

【図７】図２に示したジャンル・モデル・プログラム・
インタフェース２１９をより詳細に示す図である。

【図８】図７に示したジャンル・モデル・プログラム・
インタフェースを利用して、属性と特徴の有無を指定す
ることによって定義できる３つの異なる高レベルのドキ
ュメント構成の例を示す図である。

【図９】ファイル・システムに記憶されたドキュメント
のコーパスをサーチするための検索エンジンのインタフ
ェースの例を示す図である。

【図１０】ユーザが作成した要約の合成要約画像の出力
フォーマットを定義するために使用できる要約表示プロ
ファイルを示す図である。

【図１１】ユーザが作成したサーチの要約を生成するス
テップを示すフロー図である。

【図１２】図１０に概略的に示したステップを使用して
作成された要約画像の例を示す図である。

【図１３】図１０に概略的に示したステップを使用して
作成された要約画像の例を示す図である。

【図１４】図１０に概略的に示したステップを使用して
作成された要約画像の例を示す図である。

【図１５】ドキュメント画像から分割されたレイアウト
・オブジェクト間の類似度によってドキュメント画像を
ソートするステップを示すフロー図である。

【図１６】図１５に示したステップ１５０８で一組の画
像セグメントをソートするための１つの実施形態を示す
フロー図である。

【図１７】図１５と図１６に示した方法を使用して形成
された画像セグメントのグループ化を示す図である。

【図１８】指定したレイアウト・オブジェクトの類似度
によりドキュメント画像から分割されたレイアウト・オ
ブジェクトをソートするための実施形態を示すフロー図
である。

【図１９】指定されたドキュメント画像内の特徴の類似
度によってドキュメント画像の特徴をソートする例を示
す図である。

【図２０】ドキュメントサーチ／検索システムを稼働さ
せるサーバ・ワークステーションの視点からのドキュメ
ント画像のプログレッシブ送信を実行するステップを示
すフロー図である。

【図２１】ドキュメント画像の特徴および属性を送信及
び／又は表示する順序を定義するためのプログレッシブ
表示プロファイルを示す図である。

【図２２】選択した特徴ｌｅｔｔｅｒ−ｄａｔｅ、ｌｅ
ｔｔｅｒ−ｒｅｃｉｐｉｅｎｔおよびｌｅｔｔｅｒ−ｓ
ｉｇｎａｔｕｒｅを高い解像度すなわち第１の解像度で
表示する第１のステップを完了した後のページ画像例を
示す図である。

【図２３】選択した特徴を含まないレイアウト・オブジ
ェクトを文字枠多角形を使って表示する第１のステップ
を完了した後のページ画像を示す図であり、図２２とは
違い、同じ特徴が第２の解像度すなわち低い解像度で表
示される。

【図２４】選択した属性を含むレイアウト・オブジェク
トを第１の解像度すなわち高い解像度で表示し、選択し
た属性を含まないレイアウト・オブジェクトを第２の解
像度すなわち低い解像度で表示する第１のステップを完
了した後のページ画像を示す図である。

【図２５】画像全体を第１の解像度すなわち高い解像度
で表示する第２の表示ステップを完了した後の図２２〜
図２４に示したページ画像を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェームズブイ．マホニーアメリカ合衆国 90291 カリフォルニア州ロサンゼルスオーシャンフロントウォーク 2207 ナンバー４ (72)発明者ジャネットエル．ブロムバーグアメリカ合衆国 94028 カリフォルニア州ポートラヴァレイポートラグリーンサークル 20 (72)発明者ランダルエイチ．トリッグアメリカ合衆国 94306 カリフォルニア州パロアルトオリーブアベニュー 315

Claims

【特許請求の範囲】

【請求項１】ドキュメント管理システムのメモリに記
憶され、選択されたドキュメント画像を要約する方法で
あって、選択されたドキュメント画像を一組のレイアウト・オブ
ジェクトに分割するステップを有し、一組のレイアウト
・オブジェクトの各レイアウト・オブジェクトが複数の
レイアウト・オブジェクト・タイプのうちの１つであ
り、複数のレイアウト・オブジェクトタイプの各々がド
キュメント画像の構造要素を識別し、一組の特徴からドキュメント画像の１つの特徴を指定す
るステップを有し、前記一組の特徴の各特徴がドキュメ
ント画像のレイアウト・オブジェクトの固有の配置を定
義し、指定された特徴を定義するレイアウト・オブジェクトの
サブセットを前記一組のレイアウト・オブジェクトから
識別するステップと、識別されたレイアウト・オブジェクトによって要約画像
をメモリにアゼンブルするステップを有し、選択された
ドキュメント画像を要約する、ドキュメント画像の要約方法。
【請求項２】前記一組のレイアウト・オブジェクトの
各レイアウト・オブジェクトの属性を計算するステップ
を更に有し、各レイアウト・オブジェクトの計算された
属性が、構造要素の特性を定量化し、指定されたドキュ
メント画像内の分割された他のレイアウト・オブジェク
トとの空間関係を識別する値を有する、請求項１に記載の方法。
【請求項３】選択されたドキュメント画像の指定され
た特徴を識別するルーチンを実行するステップを更に有
し、ルーチンが一組のレイアウト・オブジェクトを消費
し、計算された属性を使用してレイアウト・オブジェク
トのサブセットを生成する一組の選択操作を有し、該実
行ステップがレイアウト・オブジェクトのサブセットを
選択されたドキュメント画像の指定された特徴として識
別する、請求項２に記載の方法。