JPH11224267A - ドキュメント画像の要約方法 - Google Patents

ドキュメント画像の要約方法

Info

Publication number
JPH11224267A
JPH11224267A JP10322581A JP32258198A JPH11224267A JP H11224267 A JPH11224267 A JP H11224267A JP 10322581 A JP10322581 A JP 10322581A JP 32258198 A JP32258198 A JP 32258198A JP H11224267 A JPH11224267 A JP H11224267A
Authority
JP
Japan
Prior art keywords
image
document
layout
features
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10322581A
Other languages
English (en)
Inventor
Daniel G Bobrow
ジー.ボブロー ダニエル
V Mahony James
ブイ.マホニー ジェームズ
L Bromberg Janet
エル.ブロムバーグ ジャネット
H Trigg Randall
エイチ.トリッグ ランダル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH11224267A publication Critical patent/JPH11224267A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 メモリに記憶され、選択されたドキュメント
画像を要約する方法を提供する。 【解決手段】 ステップ1108において、ドキュメン
ト画像のコレクションのうちの各ドキュメント画像に対
して、システム140は、ステップ1106で受け取っ
た一組の特徴のうちの特徴を定義するレイアウト・オブ
ジェクトを識別する。次に、ステップ1110におい
て、ドキュメント画像のコレクションのうちの各ドキュ
メント画像に対して、ステップ1108で識別された特
徴と関連付けられたレイアウト・オブジェクトをアセン
ブルすることによって要約画像が形成される。ステップ
1114において、ステップ1110でアセンブルされ
た要約画像を定義するレイアウト・オブジェクトが、ユ
ーザが定義したユーザ要約プロファイルから選択された
既定のユーザ指定動作によって変更される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、ドキュメ
ントの大きなコーパスを管理しサーチするためのシステ
ムに関し、より詳細には、ドキュメントの大きなコーパ
スに記録されたドキュメントのユーザに指定されたレイ
アウト・コンポーネントを有する組になったドキュメン
トの要約を生成するためのシステムに関する。
【従来の技術】
【0002】様々な作業経験を調べることによって、コ
ーパス内のドキュメントをそれらのタイプまたはジャン
ル(すなわち、機能カテゴリ)によってサーチし検索で
きるシステムで作業プロセス(すなわち、作業方法)を
支援できることが分かっている。ドキュメントのいくつ
かのジャンルは、それらが様々な構成や作業プロセスに
わたり繰り返されるという意味で一般的であり、その他
のドキュメントのジャンルは、特定の構成、タスクある
いはユーザに特有である。たとえば、ビジネス・レター
とメモは、一般的なジャンルの例である。各ドキュメン
トの右上角に個人の専用スタンプがある1組のドキュメ
ントは、特定のユーザに特有のジャンルの例である。ま
た、多くの様々なジャンルのドキュメントが、固有の空
間的配置を示す既定の形式または標準的な一組のコンポ
ーネントを有することが分かっている。たとえば、ビジ
ネス・レターは、本文、著者と受取人のアドレス、およ
び署名に分かれる。ドキュメントのジャンルを識別する
ために使用される特定のテキスト・ベースの識別子と異
なり、ドキュメントのレイアウト構造は、様々なクラス
のドキュメントに当てはめることができる。
【0003】本発明は、ユーザが指定したドキュメント
のレイアウト構造(すなわち、視覚的体裁)を定義し
て、マルチジャンルのドキュメントのデータベースに記
憶されたドキュメントのサーチと検索を容易にする方法
および装置に関する。このドキュメントのサーチ方法
は、ドキュメントのレイアウト構造を定義する方法によ
るサーチに焦点を合わせる。ドキュメント内のテキスト
をサーチするための多くの技法と違って、このようなレ
イアウト構造によりドキュメントをサーチする技法は、
ドキュメント内に確認されたテキスト内容ではなく体裁
(外観)に基づく。そのようにレイアウト構造に基づい
てドキュメントをサーチするための一般的な前提は、テ
キストドキュメントのレイアウト構造がそのジャンルを
反映することである。たとえば、ビジネス・レターは、
雑誌記事よりも互いに視覚的に似ている点が多い。した
がって、ドキュメントのクラスを知りつつ特定のドキュ
メントをサーチするユーザは、サーチするドキュメント
のグループの範囲をより有効に絞り込むことができる。
【0004】本発明が取り組む1つの問題は、スキャン
したドキュメントの大きなコーパスを最も効率よく管理
する方法である。多くのドキュメントのサーチおよび検
索システムは、全てのスキャンしたドキュメント画像に
OCR(光学式文字認識)を適用した結果に完全に依存
する。一般に、OCR技法は、解読してライブラリ内の
文字と突き合わさる個々の文字に画像を分割する処理を
含む。通常、そのようなOCR技法は、高い計算能力を
必要とし、一般に無視できない程の認識エラーを有し、
しばしば画像処理に膨大な時間を必要とする。動作にお
いて、OCR技術は、1つの文字の各ビットマップをそ
の隣の文字と区別し、その外観を解析して、それを所定
の一組の文字内の他の文字と区別する。
【0005】ビットマップ画像でOCR解析を実行する
代替は、ビットマップ画像上で内容ベースのサーチを実
行するシステムである。そのようなシステムの例は、I
BMのQuery Image Content(QB
IC)システムである。QBICシステムは、SPIE Pro
c. Storage and Retrieval for Image and Video Datab
ases、1993における、ニブラック(Niblack )他による
「QBICプロジェクト:色、テキストおよび形状を利
用した内容による画像照会(The QBIC project: queryi
ng images by content using color, texture and shap
e)」と題する論文、およびSPIE Proc. Storage and Ret
rieval for Image and Video Databases、ページ24〜3
5、1995における、アッシュレー(Ashley)他による
「QBICにおける画像注釈および検索の自動および半
自動方法(Automatic and semiautomatic methods for
image annotation and retrieval in QBIC) 」と題する
論文に開示されている。QBIC検索エンジンのデモ
は、インターネットの「http://wrvwqbic.almaden.ibm.
com/-qbic/qbic.html 」で見ることができる。QBIC
システムを使用することにより、大きな画像データベー
ス内のビットマップ画像を、色の割合、色のレイアウ
ト、テクスチャなどの画像特性によって照会することが
できる。QBIC(登録商標)システムによって実現さ
れる画像ベースの照会は、絞り込んだサーチを行うため
に、テキストやキーワードと組み合わされる。
【0006】内容ベースの照会を行うもう1つのシステ
ムは、UCバークレー・ディジタル・ライブラリ・プロ
ジェクト(UC Berkeley Digital Library Project) の一
部分として開発されている。低レベルの画像の特性に依
存してサーチを実行するQBIC(登録商標)システム
と違い、バークレーのシステムは、低レベル領域の特性
と関係をグループ化して高レベルのオブジェクトを定義
する。バークレーのシステムの前提は、色とテクスチャ
の意味のある配置によって高レベルのオブジェクトを定
義できることである。バークレーのシステムの態様は、
チャド・カーソン(Chad Carson )他による「領域ベー
スの画像照会(Region-Based Image Querying )」、CV
PR '97 Workshop on Content-Based Access of Image a
nd VideoLibraries、サージ・ベロンギ(Serge Belongi
e)他による、「学習フレーム構造を使用する大型デー
タベース内の画像の認識(Recognition of Images in L
arge Databases Using a Learning Framework)」、UC B
erkeley CS Tech Report 97-939 、およびチャド・カー
ソン(Chad Carson )他による「大型オン・ライン画像
収集のための特徴データの記憶と検索(Storage and Re
trieval of FeatureData for a Very Large Online Ima
ge Collection)」、IEEE Computer Society Bulietin
of the Technical Committee on Data Engineering 、1
996年12月、Vol.19 、No.4の、論文と参考文献に開示さ
れている。
【0007】スキャンしたドキュメントの内容の判読に
OCRプログラムなどを使用する他に、ハードコピード
キュメントをスキャンするたびにドキュメントメタデー
タ(すなわち、ドキュメント情報)を記録することも一
般的である。このドキュメントメタデータは、テキスト
としてサーチ可能であり、ドキュメントの主題、ドキュ
メントの著者、ドキュメント内にあるキーワード、ドキ
ュメントの題名、およびドキュメントのジャンルまたは
種類を含む。ドキュメントを識別するためにドキュメン
トメタデータを使用する欠点は、特定のコーパスのドキ
ュメントに指定されるジャンルが定まっていないことで
ある。むしろ、コーパス内のドキュメントの異なるジャ
ンルの数は、コーパスが大きくなるにつれて変化するこ
とがある。ドキュメントメタデータのさらに他の欠点
は、ユーザがシステムに入力するのに時間がかかること
である。その結果、スキャンしたドキュメントを管理し
サーチするシステムは、コーパスに新しいドキュメント
を追加したときにドキュメントフォーマットのカテゴリ
とサブカテゴリを定義する機構を十分に提供できるほど
頑強でなければならない。
【0008】
【発明が解決しようとする課題】したがって、OCRプ
ログラムとサーチ可能な入力ドキュメントメタデータを
利用して識別されるテキストだけでなく、スキャンした
ドキュメントの視覚的表現を識別することができるよう
な、スキャンドキュメントの大きなコーパスを管理しサ
ーチするためのシステムを提供することが望ましい。そ
のようなシステムは、ドキュメントの構造とフォーマッ
トを定義する情報を利用してドキュメントを有利にサー
チし、要約し、ソートし、送信する。また、そのような
システムおいて、ユーザがドキュメントの特定のレイア
ウト・フォーマットによってドキュメントのジャンルを
柔軟に指定するためのインタフェースを提供することが
望ましい。これが必要な1つの理由は、ドキュメントを
利用しコーパスに追加する過程でドキュメントのジャン
ルが変化したり出現したりする傾向があることである。
したがって、理想的なシステムは、単一ユーザまたはユ
ーザ・グループに関心のある新しいジャンルまたは特定
のクラスのジャンルを指定するフレキシビリティをユー
ザに提供することである。
【0009】
【課題を解決するための手段】本発明によれば、ドキュ
メント管理システムのメモリに記憶される選択されたド
キュメント画像を要約するシステムおよび方法ならびに
製造物品が提供される。本発明の1つの態様によれば、
選択されたドキュメント画像が、一組のレイアウト・オ
ブジェクトに分けられる。一組のレイアウト・オブジェ
クトの各レイアウト・オブジェクトは、複数のレイアウ
ト・オブジェクト・タイプのうちの1つである。これら
の複数のレイアウト・オブジェクト・タイプの各々は、
ドキュメント画像の構造的要素を識別する。ドキュメン
ト画像の1つの特徴が一組の特徴から指定される。一組
の特徴の各々の特徴はドキュメント画像のレイアウト・
オブジェクトの固有の配置を定義する。レイアウト・ オ
ブジェクトのサブセットは、指定された特徴を定義する
一組のレイアウト・オブジェクトから識別される。要約
画像は識別されたレイアウト。オブジェクトによってメ
モリにアゼンブルされ、選択されたドキュメント画像を
要約する。
【0010】本発明の態様は、メモリに記憶され、選択
されたドキュメント画像を要約する方法であって、選択
されたドキュメント画像を一組のレイアウト・オブジェ
クトに分割するステップを有し、一組のレイアウト・オ
ブジェクトの各レイアウト・オブジェクトが複数のレイ
アウト・オブジェクト・タイプのうちの1つであり、複
数のレイアウト・オブジェクトタイプの各々がドキュメ
ント画像の構造要素を識別し、一組の特徴からドキュメ
ント画像の1つの特徴を指定するステップを有し、前記
一組の特徴の各特徴がドキュメント画像のレイアウト・
オブジェクトの固有の配置を定義し、指定された特徴を
定義するレイアウト・オブジェクトのサブセットを前記
一組のレイアウト・オブジェクトから識別するステップ
と、識別されたレイアウト・オブジェクトによって要約
画像をメモリにアゼンブルするステップを有し、選択さ
れたドキュメント画像を要約する、ドキュメント画像の
要約方法である。
【0011】本発明の以上の及びその他の態様は、同じ
参照番号を類似の部分に使用した添付図面と共に以下の
説明を読むことにより明らかになるであろう。
【0012】
【発明の実施の形態】A. システムの概要 次に、表示が本発明について説明する目的であり本発明
を制限するためのものではない図面を参照し、図1は、
本発明を実施するためのコンピュータ・システム110
を示す。コンピュータ・システム110は、ROM、R
AMあるいはその他の形態の揮発性または不揮発性の記
憶装置を含むメモリ116に記憶された様々なオペレー
ティングプログラムを実行する中央処理装置114(す
なわち、プロセッサ)を含む。ユーザ・データ・ファイ
ルとオペレーティングプログラム・ファイルは、RA
M、フラッシュ・メモリ、フロッピィー・ディスクある
いはその他の形態の光学または磁気記憶装置を含むファ
イル記憶装置117に記憶される。
【0013】コンピュータ・システム110は、バス・
インタフェース115を介して様々なl/O(入力出
力)構成要素119に結合される。l/O構成要素は、
ファクシミリ126、プリンタ127、スキャナ128
およびネットワーク130を含む。プロセッサ114
は、バス124を介してプロセッサ114に様々なl/
O構成要素119を結合するバス・インタフェース11
5とデータをやりとりするように適応される。メモリ1
16において実行する1つまたは複数のプログラムに応
答して、プロセッサ114は、様々なl/O構成要素1
19と信号をやりとりする。ネットワーク130を介し
てコンピュータ・システム110をインターネットに連
結させるすることができるため、プロセッサ114は、
インターネット上の他のスキャナ、ファクシミリ、およ
びメモリ記憶装置から画像データを受け取ることができ
る。
【0014】メモリ116における動作が、本発明を含
むドキュメントコーパスサーチシステム140である。
システム140は、CD ROM読取り装置118など
のアクセス装置を介して、コンピュータ・システム11
0で読み出すことができるポータブル記憶媒体142内
にソフトウェア製品としてパッケージされた製造物品と
関連付けられてもよい。記憶媒体142は、たとえば、
フロッピィ・ディスクなどの磁気媒体や、CD ROM
などの光学媒体、あるいはその他のデータを記憶するた
めの適切な媒体である。
【0015】ディスプレイ132は、システム140を
操作するユーザに情報を中継するユーザ・インタフェー
スを表示するために設けられる。ユーザがコマンドを入
力するために、マウス、キーボード、タッチ・スクリー
ンを含むがこれらに制限されないユーザ入力装置134
が設けられる。1つの例において、ディスプレイ132
と入力装置134を使ってユーザ・インタフェースを操
作し、ファイル記憶装置117に、スキャナ128、フ
ァクシミリ126またはネットワーク130からのドキ
ュメント画像を記録するように指示する。また、このユ
ーザ・インタフェースを利用して、ファイル記憶装置1
17に、ファクシミリ126、プリンタ127またはネ
ットワーク130にドキュメントの画像を送信するよう
に指示することもできる。1つの実施形態において、シ
ステム140は、インターネット上で動作するブラウザ
から受け取ったコマンドによってコンピュータ・システ
ム110上で操作される。
【0016】B.ドキュメントコーパス管理/サーチシ
ステムの概要 図2は、本発明によりドキュメントのコーパスをサーチ
するためのドキュメントコーパス管理/サーチシステム
140の詳細なブロック図を示す。ドキュメントコーパ
スサーチシステム140は、コーパス・マネージャ21
0、画像セグメンタ/識別装置211、検索エンジン2
12およびプログラム・マネージャ214の4つのオペ
レーティング構成要素を含む。ユーザからドキュメント
コーパスサーチシステム140への入力は、ドキュメン
ト入力インタフェース216、サーチインタフェース2
18、ジャンル・モデル・プログラム・インタフェース
219または特徴プログラム・インタフェース220に
応答して行われる。ディスプレイ132に表示されるイ
ンタフェース216、218、219および220の各
々は、後でそれぞれ考察するドキュメントコーパスサー
チシステム140によって提供される様々なサービスに
対応する。1つの実施形態において、インタフェース2
16、218、219および220の各々は、マイクロ
ソフト(Microsoft) 社のExplorerTMやネットス
ケープ(Netscape)社のNavigatorTMなどの従来
のインターネット・ブラウザによってネットワーク13
0によりインターネット上で動作する。
【0017】本発明により、ドキュメントコーパス管理
/サーチシステム140は、幾何学的レイアウト解析を
利用して、スキャンしたドキュメントの構造的記述を明
らかにする。ドキュメントの構造的記述は、ドキュメン
トの構成またはレイアウト・フォーマットに基づく。ド
キュメントの構造的記述を明らかにする際、画像セグメ
ンタ211は、ドキュメントの一部の構造的記述である
レイアウト・オブジェクト238を識別する。さらに、
画像セグメンタ211は、識別されたレイアウト・オブ
ジェクトの属性240を計算する。レイアウト・オブジ
ェクトの属性は、レイアウト・オブジェクトの特性を定
量化し、あるいは他のレイアウト・オブジェクトに対す
る空間的関係を識別する。幾何学的レイアウト解析は、
所与のジャンルの複数のドキュメント(たとえば、メ
モ)のドキュメント間の構造的類似度を識別するために
有利に実行することができる。
【0018】ドキュメント画像(本明細書では単にドキ
ュメントとも呼ぶ)のページ画像において分割されたレ
イアウト・オブジェクトの空間的配置は、属性240か
または特徴242を使用して定義されることができる。
ページ画像内のオブジェクトの空間的配置を定義する
際、画像セグメンタ211は、ページ画像内に見られる
テキストと図形の構造を調べる。ページ画像のテキスト
構造は、ページ画像内のテキスト・ブロックが他のテキ
スト・ブロックによって定義された基準のフレームに対
して持つ空間的関係によって説明される。画像セグメン
タ211によって検出されるテキスト・ブロックは、テ
キストの段落などの構造的要素を識別する。空間的に関
連づけることができるページ画像上のテキストと違い、
ページ画像の図形構造は、特別な又はその場限りの図形
関係を含んでもよい。
【0019】システム140は、ドキュメント画像のジ
ャンル(すなわち、種類)が、ドキュメント画像のペー
ジ画像上の少なくともいくつかオブジェクトの空間的配
置に反映されるという一般的な仮定の上で動作する。特
徴プログラム・インタフェースを使用して、特徴242
が、ユーザによって定義される。ユーザは、特徴を導き
出す他に、ジャンル・モデル・プログラム・インタフェ
ース219を使用してジャンル・モデル244を指定す
ることができる。各ジャンル・モデル244は、収集さ
れた複数のドキュメント画像の間で共用されるドキュメ
ント画像におけるページ画像内のオブジェクトの空間的
配置を識別する。ジャンル・モデルを定義することによ
り、ユーザは、ドキュメント内容に依存しない共通の通
信目的を表すドキュメント画像のクラスを定義すること
ができる。
【0020】C.ドキュメントのコーパスのソート ドキュメント入力インタフェース216を介し利用可能
にされたサービスは、ドキュメント画像237のデータ
ベース(またはコレクション)を作成するための機能を
提供する。ドキュメント画像のデータベースは、スキャ
ンしたハードコピードキュメントか電子的に作成したド
キュメントのいずれかによって作成される。たとえば、
スキャナ128を利用して、ハードコピードキュメント
を表現するビットマップ画像を作成することができ、一
方入力装置134を利用して電子ドキュメントを作成す
ることができる。さらに、ドキュメント画像のデータベ
ースは、スキャンしたハードコピードキュメントと電子
的に生成したドキュメントの両方をネットワーク130
を介して受け取ることによって作成することもできる。
【0021】ファイル・システム117を作成するドキ
ュメントのコレクション(収集物)は、階層的に配列さ
れる。当業者には、本発明の目的のために、本明細書で
説明する操作をドキュメントのコレクション全体でもド
キュメントのコレクションの部分集合上でも実行できる
ことを理解されよう。ファイル・システムの階層の一部
として、各ドキュメント画像237は、1つまたは複数
のページの配列、1つまたは複数のジャンル値244へ
のポインタ、およびドキュメントメタデータ224への
ポインタを含むドキュメントデータ構造と関連付けられ
る。ページの配列における各ページは、ページ画像22
6へのポインタを含むページデータ構造と関連付けら
れ、1つまたは複数の縮小スケール画像228へのポイ
ンタ、1つまたは複数の構造画像230へのポインタ、
レイアウト・オブジェクト238へのポインタ、属性2
40へのポインタ、OCR済みテキスト236へのポイ
ンタまたは特徴値242へのポインタを含んでもよい。
各ドキュメント画像237は、階層的配列にしたがっ
て、1つまたは複数のページ画像226を含む。ここで
は、ページ画像226は、スキャンされたハードコピー
または電子的に生成したドキュメントの1ページとして
定義される。
【0022】コーパス管理210は、ユーザからのコマ
ンドに応答して、ファイル・システム117にドキュメ
ント画像237を記録する。ユーザは、ドキュメント入
力インタフェース216を使って、ドキュメントメタデ
ータ224としてファイル・システム117に記録され
るドキュメント画像の特性を手動で指定することができ
る。ユーザは、このときまたは少し後でドキュメントメ
タデータ224を指定することができ、ドキュメント画
像はスキャンされ、あるいはファイル・システム117
に追加される。より具体的には、ファイル・システム1
17に記憶されたドキュメント画像のドキュメントメタ
データ224には、ドキュメントタイプ識別子、ドキュ
メント作成日、ドキュメントタイトルおよびドキュメン
トキーワードを記録されることがある。
【0023】コーパス・マネージャは、ドキュメントメ
タデータ224とページ画像226を記憶する他に、縮
小スケール画像228と構造的画像230を生成する。
ユーザの好みにより、ユーザが特定の解像度を選択し
て、記録されたページ画像を見ることができる。ユーザ
の好みにより、ページ画像226のそれぞれごとに解像
度が異なる縮小スケール画像が生成される。1つの実施
形態において、縮小スケール画像は、米国特許第5,4
34,953号明細書に記載された方法を使って生成さ
れる。一般に、縮小スケール画像は、より高い解像度の
ページ画像への視覚的インデックスとして使用される。
構造的画像230は、縮小スケール画像と同様、ユーザ
が指定することができる可変の解像度を有する。しかし
ながら、縮小スケール画像と違って、構造的画像230
は、ページ画像内の特定のレイアウト・オブジェクトを
強調する。1つの実施形態において、コーパス・マネー
ジャ210は、ディスク・スペースを節約する必要があ
る場合に、縮小スケール画像と構造的画像を生成する。
【0024】C.1 レイアウト・オブジェクトの分割 ドキュメント画像237のページ画像226を記録した
後、画像セグメンタ211は、各ドキュメント画像のペ
ージ画像を1つまたは複数のレイアウト・オブジェクト
238に分割する。ページ画像の分割された各レイアウ
ト・オブジェクトは、画像セグメンタ211によって、
表1に示した基本レイアウト・オブジェクト・タイプ
(または、「レイアウト・オブジェクト」)のうちの1
つとして識別される。レイアウト・オブジェクトは、本
明細書において、ドキュメント画像の要約部分の構造的
記述である基本要素として定義される。(ここで定義し
たように、ドキュメント画像は暗黙的にそのページ画像
を指す)しかしながら、当業者は、表1の基本レイアウ
ト・オブジェクト・タイプのリストが例示であり、その
他のレイアウト・オブジェクト・タイプを含むように変
更できることを理解されよう。たとえば、表1は、ハー
フトーン領域用のレイアウト・オブジェクトを含むこと
ができる。
【0025】
【表1】
【0026】1つの実施形態において、画像セグメンタ
211は、R.ハラリック(R. Haralick )による論文
「ドキュメント画像についての理解:幾何学的レイアウ
トと論理的レイアウト(Document image understandin
g: geometric and iogical layout)」、Proc. IEEE Co
nf.On Computer Vision and Pattern Recognition、199
4: 385-390 に考察されているように、光学式文字認識
システムでテキスト・ブロックを検出するために使用さ
れる標準的な数学形態論法に基づくテキスト・ブロック
分割を実行する。もう1つの実施形態において、画像セ
グメンタ211は、ゼロックススキャンソフト(Xerox S
canSoft)社によって作成されたソフトウェア・プロダク
トTextBridgeR に使用されたものと類似のテキスト・ブ
ロック分割プロセスを実行することができる。
【0027】C2.レイアウト構造の定義 ドキュメント画像のページ画像を1つまたは複数のレイ
アウト・オブジェクト238に分割した後、画像セグメ
ンタ211は、各分割したレイアウト・オブジェクトに
対応する画像属性240を計算する。ドキュメントのテ
キストの内容に関して動作する他の画像解析技術と比較
して、レイアウト・オブジェクトの画像属性を定義する
利点は、ページ画像を解析して画像属性を識別すること
は文字認識に依存しないことである。さらに、いくつか
の状況では、ドキュメントのレイアウト・オブジェクト
が、ドキュメントのジャンル(たとえば、レター、メモ
など)に関して、ドキュメント画像のページ画像内のテ
キストの内容よりも多くの情報を提供する。したがっ
て、本発明のさらに他の利点は、ドキュメント画像のレ
イアウト・オブジェクトのテキスト内容が理解されてい
るかどうかに関係なく稼働することである。本発明は、
テキスト情報を利用してレイアウト・オブジェクトの内
容を識別するのではなく、レイアウト・オブジェクトの
属性とそれらの属性の互いの関係を解析することによっ
て、ドキュメント画像の可視外観についての認識を明ら
かにする。
【0028】表2〜6に示した属性を計算するために、
様々な技法が使用される。表2〜6において定義した多
くの属性は、あるテキストのいくつかのブロックがテキ
ストの他のブロックに関連して持つ空間的関係によって
ページ画像のレイアウト構造を指定する。表2に示した
レイアウト・オブジェクトの基本的な2つの属性は、r
unning(本文部)テキスト・ブロックとnon−
running(非本文部)テキスト・ブロック(たと
えば、running、non−running)を区
別する属性と、テキスト・ブロック(たとえば、top
−nr(上部非本文部、mid−nr(中間非本文部)
の間のグループの関係(または、アラインメント)を定
義する属性を含む。
【0029】識別した後は、non−runningテ
キスト・ブロックは、米国特許第5,537,491号
に開示された方法を利用して、画像の上/下、右/左の
境界と重なる相対的程度に基づいてページ画像における
上、下または中央の位置のいずれかを有するようにラベ
ルが付けられる。さらに、non−runningテキ
スト・ブロックは、左、右または中央のいずれかの垂直
アラインメント(垂直位置合わせ)を有するようにラベ
ルが付けられる。たとえば、non−runningテ
キスト・ブロックにleft−aligned(左揃
え)とラベルを付けるためには、runningテキス
ト・ブロックの単一の列が属するleft−xグループ
に属さなければならない。(すなわち、left−x値
は、non−runningテキスト・ブロックとru
nningテキスト・ブロックの両方で同じである)。
これには、すべてのテキスト・ブロックのleft−x
座標、right−x座標およびcenter−x座標
に対して個別に十分に安定した方法を適用する必要があ
る。さらに、non−runningテキスト・ブロッ
クは、水平方向の一連のテキストブロック、垂直方向の
一連のテキスト・ブロックまたはテーブルのいずれかと
してラベルが付けられる。これらの操作は、さらに他の
特定の属性を定義するために組み合わせることもできる
(たとえば、top−left−alignedのno
n−runningテキスト・ブロック)。また、これ
らの操作は、その他の操作と組み合わせて、画像属性に
さらに他の幾何学的な制約を課すこともできる(たとえ
ば、上のnon−runningテキスト領域内の全テ
キスト・ブロック領域に対して標準化されたtop−l
eft−alignedのnon−runningテキ
スト・ブロック)。
【0030】レイアウト・オブジェクトの属性タイプ
は、一般属性タイプと指定属性タイプに分けられ、ファ
イル・システム117に属性240として記憶される。
一般属性タイプは、すべての基本レイアウト・オブジェ
クトに定義される属性である。表2は、表1にリストに
した各レイアウト・オブジェクト(すなわち、l/o)
の一般属性を示す。指定属性タイプは、具体的には特定
のタイプのレイアウト・オブジェクトに定義される属性
である。たとえば、表3は、テキスト・オブジェクトの
タイプ指定属性のリストであり、表4は、図形オブジェ
クトのタイプ指定属性のリストであり、表5は、ページ
・オブジェクトのタイプ指定属性である。さらに、レイ
アウト・オブジェクトの一般属性タイプと指定属性タイ
プを使って、合成的な属性を定義することができる。表
6は、一般的なタイプのオブジェクトを使って定義され
た合成属性を示す。
【0031】
【表2】
【0032】
【表3】
【0033】
【表4】
【0034】
【表5】
【0035】
【表6】
【0036】表2〜6のそれぞれに示した属性は、二進
値(すなわち、真/偽)でも数値(すなわち、整数また
は実数)でもよい。表2〜6でイタリック体フォント
(表2のrunningからbot−nr(下部非本文
部)までと、表3のleft-alignedからv−
internalまで)で表した属性タイプは、ブール
値を有する。二進値の属性は、通常、レイアウト・オブ
ジェクト間のセット・メンバーシップ関係を表わす。た
とえば、「running」や「non−runnin
g」などの二進値の属性の一般属性タイプは、レイアウ
ト・オブジェクト間のグループ化関係を定義する。数値
の属性は、通常、オブジェクトの真の幾何学特性、また
は順序関係に対する組のインデックスを表す。タイプ属
性値は、表2〜6では記号として表わされているが、絶
対値(すなわち、標準化されていない)属性値は数値で
表されることを、当業者は理解されよう。
【0037】各ページ画像226のレイアウト・オブジ
ェクト238を識別した後、テキスト・ブロックとして
識別されたレイアウト・オブジェクトは、画像セグメン
タ211の一部を構成する識別装置(識別子)によって
さらに処理することができる。1つの実施形態におい
て、テキスト・ブロックとして識別された各レイアウト
・オブジェクトが、その中にあるテキストを認識するた
めに、光学式文字認識技法または適切な代替技法を利用
して識別装置211によって処理される。しかしなが
ら、当業者は、本発明の目的のため、テキスト・ブロッ
クとして識別されたレイアウト・オブジェクトにはOC
Rを実行する必要がないことを理解されよう。しかしな
がら、後で考察する教示から明らかになるように、テキ
スト・ブロックとして識別されたレイアウト・オブジェ
クト内のテキストを認識するためのいくつかの利点が存
在する。テキスト・ブロック・レイアウト・オブジェク
ト内で認識されたテキストは、テキスト236としてフ
ァイル・システム117に記憶され、検索エンジン・イ
ンタフェース218によるテキスト・ベースのサーチを
使用してサーチすることができる。
【0038】C.3 画像データの概要 図3は、ファイル・システム117に記憶されたドキュ
メント画像237の各ページ画像226と関連付けられ
たデータの構成を示す。最初に、ユーザは、たとえばド
キュメントスキャナ128から受け取ったスキャン画像
をファイル・システム117に入れる。ユーザは、ドキ
ュメント画像に関するドキュメントメタデータ224
を、タイプ、日付、タイトルおよびキーワードの情報と
して入力することができる。コーパス・マネージャ21
0は、ページ画像226のサブサンプリングして一組の
縮小スケール画像228を構成する。解像度が最も低い
縮小スケール画像は、ここでは略図(thumbnail) 画像と
して定義される。解像度がさらに低いその他のページ画
像は、ここでは、大型画像、中型画像および小型画像と
して定義される。さらに、構造画像230は各分割レイ
アウト・オブジェクト238毎に計算されることができ
る。前述のように、画像セグメンタ211は、ドキュメ
ント画像のページ画像226をレイアウト・オブジェク
ト238に分割する。ページ画像226から分割された
各レイアウト・オブジェクト毎に、画像セグメンタが、
さらに画像属性240を計算しコンパクトな形で記憶す
る。画像属性240は、タイプ一般属性でもタイプ指定
属性でもよい。属性の他に、ページ画像の各レイアウト
・オブジェクト238は、1つまたは複数の特徴242
またはジャンル・モデル244と関連付けることができ
る。特徴242は、後で節Dで説明するような属性24
0を使用して定義される。ジャンル・モデル244は、
後で節Eで説明するように、属性240かまたは特徴2
42のいずれかを使用して定義される。
【0039】D.特徴を利用したドキュメントのレイア
ウト・フォーマットの定義 特徴プログラム・インタフェース220を使用して、ユ
ーザは、特徴を検出するルーチンを構成することによっ
て、特定のジャンルのドキュメントに固有のレイアウト
・フォーマットを指定することができる。たとえば、ペ
ージ画像の特徴のルーチンを使って、固有のレター・ヘ
ッドを有するドキュメント画像を識別することができ
る。一般に、各特徴242は、ルーチンと値によって定
義される。特徴のルーチンは、明示的な分岐操作のない
1つまたは複数のステップのシーケンスを有する直線的
プログラムである。ルーチンの各ステップは、ページ画
像226の一組または一部のレイアウト・オブジェクト
をゲート制御するかまたはフィルタリングする選択操作
である。ルーチンの各選択操作は、特徴プログラム・イ
ンタフェース220によりユーザによってプログラムさ
れる。ルーチンは、ページ画像の一組のレイアウト・オ
ブジェクトのすべてまたは部分集合を入力とみなす。ル
ーチンの選択操作(単数又は複数)および評価するレイ
アウト・オブジェクトによって、ルーチンの出力は、ル
ーチンに入力された一組のレイアウト・オブジェクトの
うちのすべてまたは一部を出力するか、何も出力しな
い。
【0040】ユーザが、特徴プログラム・インタフェー
ス220において特徴をプログラムすると、プログラム
・マネージャ214は、その特徴のルーチンを他の特徴
242と共にファイル・システム117に記録する。さ
らに、プログラム・マネージャ214は、ユーザが指定
した時間に、ファイル・システム117の各ページ画像
226のページ画像について1回に1つ、ルーチンで指
定された選択操作を実行する。すなわち、選択操作は、
ドキュメント画像を形成するページ画像の数に関係な
く、単一のページ画像のレイアウト・オブジェクトに関
してプログラム・マネージャによって実行される。ルー
チンの各ステップにおいて、プログラム・マネージャ2
14は、レイアウト・オブジェクトの計算した属性(属
性の例については表2〜6を参照)が指定の制約に適合
するか否かを判定する。ルーチンの各ステップごとに判
定した後の結果は、そのページ画像の値である。ページ
画像の特徴の値が、レイアウト・オブジェクトの空集合
(すなわちヌル)である場合、ページ画像の中に特徴は
表われない。これと対照的に、特徴の値が、レイアウト
・オブジェクトの空集合ではない組の場合は、ページ画
像の中に特徴が表われる。
【0041】1つの実施形態において、特徴の選択操作
を満足するレイアウト・オブジェクトを有するページ画
像のリストと共に、特徴がファイル・システム117に
記録される。検索を迅速にするために、特徴の選択操作
を満足するレイアウト・オブジェクトのインデックス
が、各ページ画像と共にファイル・システム117に記
憶される。実際には、特徴242を使用して、プログラ
ムされた特徴の選択操作(単数又は複数)を満足する属
性240を有するレイアウト・オブジェクト238とを
有するページ画像226を識別する。追加のページ画像
226がページ画像のコーパスに追加されると、それら
の追加のページ画像に関して、レイアウト・オブジェク
ト238、属性240および特徴242を計算すること
ができる。この計算は、一般に、一回だけでよく、これ
により、検索エンジン212の起動にページ画像のラン
タイム画像解析が不要になる。
【0042】D.1 プログラム・ルーチン 所与のコーパスのドキュメント画像の分割されたレイア
ウト・オブジェクトに関して一組の画像属性を計算した
後、それらの属性を使って特徴を定義することができ
る。さらに、1つまたは複数の特徴を定義した後で、属
性と任意の既存の特徴の両方を利用して新しい特徴を定
義することができる。このように、予め定義した特徴を
利用して特徴を定義することができる。たとえば、1つ
または複数のルーチン(または関数)を利用して特徴を
定義して、ページ画像内の特定の構造的レイアウトを有
する領域に選択操作を実行することができる。その最も
簡単な形態において、ページ画像に適用されるときに、
ルーチンの出力がルーチンの定義を満たすページ画像内
の一組のレイアウト・オブジェクトになるように、ルー
チンが定義される。
【0043】実際には、ページ画像のレイアウト・フォ
ーマットは、組になったレイアウト・オブジェクト23
8上で稼働するルーチンを利用してプログラムすること
ができる。ユーザは、ユーザが一連の基本操作またはそ
の他の予め定義されたルーチンを定義するだけでよいプ
ログラム構成言語を使ってルーチンをプログラムする。
これらの一連の基本操作は、ファイル・システム117
に記憶されたドキュメントのコーパスの全体または部分
集合に適用することができる。前述の節Cで説明したよ
うにコーパスが作成(母集団化)されるとき、各ページ
画像226毎に、所与のページ画像に定義された一組の
すべてのレイアウト・オブジェクトを指定する一組のレ
イアウト・オブジェクトLi が定義される。各ルーチン
は、実行されると、一組のレイアウト・オブジェクトL
i を消費し、新しい組のレイアウト・オブジェクトLo
を生成する。ここで、Lo は、一組のレイアウト・オブ
ジェクトLiの部分集合である。
【0044】プログラム構成言語を使ってプログラムさ
れたいくつかのルーチンRは、フィルタ操作および/ま
たはゲート操作を構成する。フィルタ操作F(L、A、
u、v、N)は、Lにおけるレイアウト・オブジェクト
の部分集合を生成し、Lの属性引数Aの値はしきい値u
Nよりも小さくないがしきい値vNよりも小さい。ゲー
ト操作G(L、A、u、v、N)は、Lの属性引数Aの
値がしきい値uNよりも小さくないがしきい値vNより
小さい場合に、一組のレイアウト・オブジェクトLを生
成する。その他の状況では、空集合(すなわち、φ)を
生成する。ゲート操作は、条件付き挙動のある一定の許
容能力を提供する。定義した後、ゲート操作またはフィ
ルタ操作のそれぞれのルーチンの選択操作を、ファイル
・システム117に記憶されたそれぞれのページ画像2
26のレイアウト・オブジェクトに適用することができ
る。フィルタ選択操作とゲート選択操作は、数学的に次
のように定義することができる。
【0045】F(L,A,u,v,N)={l ∈L:uN≦A(l)<vN}
及び
【0046】 L L のすべてのl についてuN≦A(l)<vNの場合 G(L,A,u,v,N)={ φ その他の場合
【0047】ここでLは、各操作を適用する一組のレイ
アウト・オブジェクトを指定する入力引数である。
【0048】Aは、属性の名前または特徴の名前として
指定できる属性引数である。(属性引数Aが、ルーチン
Rで定義される場合、属性引数Aは、次のような新しい
二進値の属性Aとして解釈される。
【0049】
【0050】uとvは、整数定数と実数値のスケールフ
ァクタのどちらのしきい値引数でもよい。Nは、数値の
正規化引数である。
【0051】プログラム構成言語を使ってプログラムさ
れる他方のルーチンRは、一組のレイアウト・オブジェ
クトLを消費してスカラ数値を生成する。スカラ数値
は、しきい値引数uまたはvの一方を指定するかまたは
ゲート操作の属性引数Aを指定するために、すべての選
択操作に使用することができるレイアウト・オブジェク
トの全体的な値を表す。そのようなスカラ数値を生成す
るルーチンはここでは累積演算として定義される。特徴
構成言語は、ユーザに次の3つの累積演算を使ってルー
チンを定義する機能を提供する。
【0052】max, max(L,A),は、任意の
l∈LAに関してAの最大値を生成する。
【0053】min, min(L,A),は、任意の
l∈LAに関してAの最小値を生成する。
【0054】sum,Σ(L,A),は、全てのl∈L
Aに関してAの値の合計を生成する。
【0055】これらの累積演算は、Lが一連の操作の結
果でもよいという点でフィルタ選択操作とゲート選択動
作で構成することができる。
【0056】D.2 特徴プログラム・インタフェース 図4は、基本操作のシーケンス(すなわち、直線的プロ
グラム)を使用して特徴を定義するための対話サイクル
のフロー図である。対話サイクルのステップは、一般的
なものであり、任意の図形式、対話式、およびインクリ
メンタル・プログラミング・インタフェースを実施する
ために使用することができる。対話サイクルの利点は、
構成中の直線的プログラムの各ステップが、ユーザが指
定したページ画像の例に対する影響をすぐに確認できる
という点である。特徴プログラム・インタフェース22
0(図2に示した)には、構成に従って対話サイクルが
図形的に表示される。すなわち、ステップの間で表示さ
れるプログラムを変更すると、選択した例の結果がすぐ
に更新され再表示される。
【0057】ステップ400において、対話サイクル
は、一組のドキュメント画像例237またはページ画像
226を指定するようにユーザに要求することにより開
始する。ステップ402において、ユーザは、プログラ
ムされた特徴名を指定するように要求される。ステップ
402で指定された特徴名が、既存のプログラムされた
特徴242である場合は、ステップ408が実行され
る。そうでない場合は、ステップ406が実行される。
ステップ406において、新しい特徴が、一組の特徴2
42に作成される。ステップ404または406で指定
された特徴名を定義するルーチンが、ステップ408お
よび410で定義される。ステップ408において、一
組のレイアウト・オブジェクト288が、選択した特徴
の入力レイアウト・オブジェクトとして指定される。よ
り具体的には、ステップ408において、ユーザは、ス
テップ410で定義された第1の操作を適用する一組の
レイアウト・オブジェクトを指定する入力引数Lを定義
する。(この入力は、後で説明する例示の表7〜16の
ステップ0と対応する)ステップ410において、定義
する特徴の1つまたは複数の選択操作がユーザによって
指定される。対話サイクルは、ステップ412で終わ
り、このステップでプログラムされた特徴がファイル・
システム117に保存される。
【0058】図5は、ステップ408で定義した一組の
レイアウト・オブジェクトに対して1つまたは複数の選
択操作または累算操作を指定するステップを説明するフ
ロー図である。ステップ502において、選択された特
徴の第1のステップ名が、指定されるかまたは編集され
る。次に、ステップ504で、フィルタ選択操作、ゲー
ト選択操作、または累算操作が指定される。ステップ5
06において、フィルタ選択操作の属性引数が指定され
る。指定された特徴引数は、属性と特徴のどちらでもよ
い。ステップ508、510および512において、ユ
ーザは、しきい値引数u、しきい値引数vおよび正規化
引数Nをそれぞれ要求される。ステップ514におい
て、ユーザは、特徴に関する他のステップを定義するよ
うに要求される。すべてのステップが定義された後、ス
テップ516においてその結果がユーザに表示され、そ
うでない場合は、ステップ502が繰り返される。ステ
ップ516で新しい特徴ステップ(単数又は複数)が表
示された後、ステップ412においてファイル・システ
ム117に新しい特徴の定義が保存される。
【0059】D.3 プログラムした特徴の例 図6は、図4〜5で説明した対話サイクルを利用したプ
ログラムされた特徴の例を示す。プログラムされた特徴
は、ディスプレイ132(図1を参照)などのディスプ
レイ上にユーザ・インタフェース600によって表示さ
れる。別法として、ユーザ・インタフェース600を、
ネットスケープ社のNavigator TMやマイクロソ
フト社のExploreTMなどの任意のインターネット
・ブラウザを使って表示することができる。例示のた
め、図6に示した例を、図4〜5で説明した対話サイク
ルで概説したステップに関して説明する。
【0060】最初に、ドキュメント識別子「12A−0
0265」を有する単一画像が、図4に示した対話サイ
クルのステップ400に示したように、図6の表示領域
603内の一組のドキュメント画像例として指定され
る。図6の選択されたドキュメント画像例「12A−0
0265」(すなわちドキュメントID)は、3つの構
造的画像604、606および608を有する。3つの
構造的画像はそれぞれ、記録されたドキュメント画像と
関連する特定の特徴または属性を識別する。構造的画像
604、606および608のそれぞれの黒っぽい領域
は、特定の特性を有するものとして識別された領域を示
す。より具体的には、構造的画像604、606および
608は、テキストのタイプの属性、属性top−n
r、および属性top−nr−leftと共に識別子
「12A−00265」によって識別されたドキュメン
ト画像内のページ画像を示す(属性type、属性to
p−nr、属性top−nr−leftは、図2に定義
されている)。
【0061】一組の画像例404を定義した後、表示領
域610に示したように、ステップ402(図4)にお
いて特徴名「top−nr−left」が指定される。
ステップ408において、入力レイアウト・オブジェク
トは、この例に示したように、表示領域612に示した
ような属性top−nr(すなわち、属性top no
n−running)を有するこれらのレイアウト・オ
ブジェクトによって指定される。プログラムされた特徴
の入力オブジェクトを定義した後で、選択された特徴の
操作が、図5に詳細に説明したステップ410において
定義される。最初に、表示領域614(すなわち、ステ
ップ502)に示したような特徴の選択操作または累算
操作の説明を行う。表示領域616において、選択操作
がフィルタ操作(すなわち、ステップ506)として指
定される。表示領域618において、属性引数Aが、表
3(すなわちステップ508)に定義された特徴lef
t−alignedとして選択される。
【0062】表示領域620と621は、しきい値引数
uとしきい値引数v(すなわち、ステップ508と51
0)にそれぞれ対応する。しきい値引数uが整数1に指
定され、特徴引数がブール結果を得るとき、所望のブー
ル値が「真(TRUE)」として示される(図6に示したよう
に)。より一般に、しきい値引数uおよびvは、ユーザ
が定義した値、表示された値、または統計的に生成した
値を使用して指定することができる。ユーザが定義した
値は、キーボードやその他同様のものを使ってユーザが
入力することができる。表示された値は、ポインティン
グ・デバイスやその他同様のものによりスライダ表示領
域から選択することができる。統計的に生成される値
は、ユーザが画像の例において特徴の正と負の標本(原
本)をクリックした後で、システム140によって自動
的に生成される。
【0063】正規化引数Nは、表示領域622に記録さ
れる(すなわち、ステップ512)。しきい値引数uと
vが定数のとき、正規化引数は、単に自動的に1にな
る。すなわち、正規化引数Nを指定することなく、しき
い値引数uとvにより値の絶対範囲が定義される。正規
化引数Nの値を指定すると、しきい値引数uとvにより
値の相対範囲が定義される。
【0064】表7は、図6に示した特徴top−nr−
leftを定義する選択操作のリストを示す。ステップ
0において、一組の入力レイアウト・オブジェクトが指
定される(すなわち、図4のステップ408)。値「A
LL」は、ファイル・システム117のすべてのレイア
ウト・オブジェクトが、ステップ1で指定されたフィル
タリング操作に入力されるべきことを示す。ステップ1
で、「テキスト・ブロック(Text−Block
s)」と等しい属性typeを有するレイアウト・オブ
ジェクトだけが選択される。第2のステップは、「真」
と等しい属性top−nrを有するテキスト・ブロック
属性を有するレイアウト・オブジェクトがすべて選択さ
れる。最後に、第3のステップにおいて、「真」と等し
い特徴left−alignedを有するレイアウト・
オブジェクトだけが選択される。図6において、特徴t
op−nr−leftは、この特徴の入力レイアウト・
オブジェクトが、表示領域612に示された真と等しい
top−nrを有するレイアウト・オブジェクトとして
定義されるため、単一ステップを使って定義される。
【0065】
【表7】
【0066】表8は、前述の特徴構成言語を使って定義
された特徴のもう1つの例を定義するステップを示す。
より具体的には、表8は、トップレベルの特徴「4−m
emo−mark(4メモマーク)」を定義するすべて
のフィルタ操作のリストを示す。ページ画像の左上側に
ある無制限の数のオブジェクトを識別する特徴top−
nr−leftと違い、特徴4−memo−mark
は、ページ画像の左側にある4つのマークだけを識別す
る。(ここで、メモ・マーク(Memo mark)
は、ドキュメントのヘッダの「to:」、「fro
m:」、「re:」および「date:」に対応するテ
キスト・ブロックとして定義される)。前述のように、
レイアウト・オブジェクトの各属性は、対応するグロー
バルな属性またはページ・レベルの属性を有する。この
ようなグローバルな属性あるいはページ・レベルの属性
または特徴は、本明細書においてブラケット内に示され
る。この例のステップ1において、x−寸法のドキュメ
ント(すなわち、〈x−span〉)の10%未満のオ
ブジェクトだけが、次のステップでフィルタリングされ
るように選択される。ステップ2において、ドキュメン
トの一番上のnon−runningテキストのオブジ
ェクトだけが、ステップ3でフィルタリングされるよう
に選択される。最後に、ステップ2でページ画像内で正
確に4つのレイアウト・オブジェクトが識別された場合
は、その組のレイアウト・オブジェクトが、ステップ3
においてゲートを通過する。図6に、構造的画像608
において参照番号642で示された領域によって、4つ
のメモ・マークの例を示した。
【0067】
【表8】
【0068】表9は、前述の累積操作の1つの例を示
す。具体的は、表9は、「min(最小)」の累算操作
の例を示す。ステップ0において、表8で定義された特
徴「4−memo−mark」を満たすオブジェクトだ
けが(すなわち、表9のステップ0は、表8で説明した
ステップ0〜3をそれぞれ含むように解釈される)、ス
テップ1のレイアウト・オブジェクトに入力される。
(前述のように、ブラケットで定義された要素(たとえ
ば< 4−memo−marks−top−y> )は、グ
ローバルなまたはページ・レベルの属性または特徴であ
る)。ステップ1において、グローバルな特徴「4−m
emo−marks−top−y」が定義される。この
グローバルな特徴は、特徴4−memo−marksと
してラベル付けされたページ画像における最上部のレイ
アウト・オブジェクトの値を識別する。「min(最
小)」累算操作は、属性引数Aを有する一組のレイアウ
ト・オブジェクトLにおける任意のレイアウト・オブジ
ェクトの最小値を作成する。たとえば、図6の領域64
2に示した4つのメモ・マークに関する累算操作の出力
は、ページ画像内の残りのレイアウト・オブジェクトの
最小値yによって定義される(すなわち、最も上のメモ
・マークのy座標、ここでページ画像のx−y座標系の
原点が、図3に示したようにページ画像226の画像の
左上角として定義される)。
【0069】
【表9】
【0070】図10に、特徴プログラミング言語を使用
する選択操作のもう1つの例を示す。具体的には、表1
0は、メモ・ヘッダ(memo−header)の特徴
を定義するステップを示す。メモヘッダ特徴の例は、図
6に示した構造的画像606において参照番号640で
識別した線で囲んだ領域で示される。表10中のステッ
プ0において、表2の属性top−nrを満足するオブ
ジェクトをステップ1ですべてフィルタリングするよう
に選択される。ステップ1では、レイアウト・オブジェ
クトは、その属性top−yの属性引数が、しきい値u
NとvNの間にある場合だけ選択され、下限の値(すな
わち、uN)は、表9で定義されたグローバルな特徴
〈4−memo−marks−top−y〉の値であ
り、上限の値(すなわち、vN)は無限に大きくするこ
とができる。すなわち、特徴memo−header
は、ページの一番上にあるが最も高い順番のmemo−
markよりも下のすべてのnon−runningテ
キストを識別し、それにより、構造的画像604におい
て参照番号644で識別されたレイアウト・オブジェク
トを除去する。
【0071】
【表10】
【0072】表12〜17は、図3のページ画像226
に示される特徴letter−date(レター日付)
350、letter−signature(レター署
名)352、letter−recipient(レタ
ー受取人)354およびletter−cc(レターコ
ピー)356をそれぞれを定義するステップを示す。表
11のステップ0において、この特徴の入力レイアウト
・オブジェクトとして、利用可能なすべてのレイアウト
・オブジェクトが指定される。ステップ1において、
「偽(FALSE) 」に等しい属性top−nr−table
を有するオブジェクトだけが、ステップ2でフィルタリ
ングされるように選択される。特徴top−nr−ta
bleは、表12で定義される。続いてステップ2で、
「真」に等しい属性top−nr−centerを有す
るオブジェクトだけが、ステップ3でフィルタリングさ
れるように選択される。特徴top−nr−cente
rは、表13で定義される。最後に、特徴letter
−dateが、ステップ2で選択され、かつ少なくとも
グローバルな〈bot−y> 座標と等しい最大y座標を
有するすべてのレイアウト・オブジェクトによって識別
される。グローバルな〈bot−y〉座標は、ステップ
2で選択されたレイアウト・オブジェクトだけのグロー
バルな座標に対応することに注意されたい。
【0073】
【表11】
【0074】
【表12】
【0075】
【表13】
【0076】表14は、図3に示した特徴letter
−recipient354の選択操作を定義するステ
ップを示す。ステップ0は、この特徴の入力レイアウト
・オブジェクトがすべてのレイアウト・オブジェクトを
含むことを示す。ステップ1において、タイプ・テキス
ト・ブロックのものであるレイアウト・オブジェクトだ
けが、ステップ2でフィルタリングされるように選択さ
れる。ステップ2において、「真」に等しい特徴top
−nrを有するレイアウト・オブジェクトだけが選択さ
れる。ステップ3において、top−nrオブジェクト
の集合的な文字枠の領域の10%〜60%の領域を有す
るレイアウト・オブジェクトだけが選択される。ステッ
プ4の残りのレイアウト・オブジェクトは、「真」に等
しい属性left−alignedを有するものだけが
特徴left−alignedを満たす。
【0077】
【表14】
【0078】表15は、図3に示した特徴letter
−cc356を定義するステップを示す。ステップ1
で、text−blockの値と等しい属性typeを
有するレイアウト・オブジェクトだけが選択される。ス
テップ2において、「真」と等しい属性bot−nrを
有するステップ1からのレイアウト・オブジェクトが選
択される。ステップ3において、特徴letter−c
cを満たすために、「真」と等しい属性left−al
ignedを有するレイアウト・オブジェクトだけが選
択される。表16は、図3に示した特徴letter−
signature352を定義するステップを示す。
特徴letter−ccと異なり、ステップ3におい
て、「偽」と等しい属性left−alignedを有
する特徴だけが、特徴letter−signatur
eを満たすように選択される。
【0079】
【表15】
【0080】
【表16】
【0081】E.ジャンル・モデルの定義 このコーパス管理/サーチシステム140の利点は、構
造解析を2つのレベルで行えることである。低い方のレ
ベルでは、ドキュメント指定のレイアウト・フォーマッ
ト(たとえば、レターの受取人フィールドやメモのヘッ
ダ・フィールド)を識別することができる。そのような
識別は、本明細書では特徴を利用して行われる。高い方
のレベルでは、入力ドキュメントの全体構成が、ジャン
ル・モデルを利用して補獲される。たとえば、「ビジネ
ス・レター」は、特徴letter−date、特徴l
etter−recipient、特徴leter−c
c、および特徴letter−signature(図
3に示したような)により、ほとんどの例で定義できる
ドキュメントのジャンル・モデルである。いくつかのモ
デルは、いくつかの共通の特徴を持つ場合があるが、そ
のようなモデルは、他の特徴の有無により互いに区別す
ることができる。たとえば、メモとレターは、類似の特
徴letter−signatureを有することがあ
るが、それぞれは異なるドキュメントヘッダ特徴(たと
えば、4−memo−markとletter−rec
ipient)を有することがある。
【0082】図7は、ジャンル・モデル・プログラム・
インタフェース219(図2に示した)をより詳細に示
す。ジャンル・モデル・プログラム・インタフェース2
19を使用して、ユーザは、ジャンル・モデル244と
してファイル・システム117に記憶されたジャンルの
モデルを自由に定義することができる。ジャンル・モデ
ルを定義する他に、モデル・プログラム・インタフェー
ス219を利用して、既に定義されているジャンル・モ
デルをロードして実行することができる。前に定義した
ように、各ジャンル・モデル244は、メモ、記事、レ
ターなどのドキュメントの内容に関係しない共通の通信
目的を指定する。特徴(または属性)が適切な場合、ジ
ャンル・モデルは、モデルが含むべき一組の特徴(すな
わち、「包含特徴」)とモデルが除外すべき一組の特徴
(すなわち、「除外特徴」)を定義することによって指
定することができる。あらかじめ定義したリストから特
徴を繰り返し選択することによって、後で考察するよう
に、各組の指定を対話式に行うことができる。モデルを
定義した後は、ページ画像のコーパスに記憶されたペー
ジ画像に対して、そのモデルを試験することができる。
しかしながら、当業者には、さらにニューラルネットワ
ークなどの学習システムのために一組の例ページ画像及
び一組の特徴を指定することによって、モデルを自動的
に構成できることが理解されよう。
【0083】動作において、ユーザは、特徴244と属
性242を組み合わせることにより、ジャンル・モデル
・プログラム・インタフェース219を使用してモデル
を作成または変更する。モデルは、プルダウン・メニュ
ー706からモデルを選択した後で「モデルロード(Loa
d Model)」ボタン704を使用することにより、ジャン
ル・モデル・プログラム・インタフェース219にロー
ドされる。それぞれの特徴または属性に関して、各モデ
ルは、それぞれ参照番号708、710、712および
714で示した「In」「Out」「N/A」および重
み(Weight)の値を記憶する。たとえば、図7に示したモ
デルは、特徴4−memo−marksを有するドキュ
メント(すなわち、「In」と示された)を含み、特徴
graphics(図形)を有するドキュメント(すな
わち、「Out」と示された)を除外する。しかしなが
ら、後で考察するように、この制約は、0でない重みを
特徴に割り当てることによって緩和することができる。
N/Aと示した他のすべての特徴と属性は、このモデル
には適用できない。新しいモデルを保存するときは、テ
キスト・フィールド718に新しいモデル名(Model Nam
e)を入力した後で、セーブ(Save)・コマンド・ボタン7
16を選択する。さらに、セーブ・コマンド・ボタン7
16を使って、既存のモデルに行った変更を保存するこ
とができる。
【0084】効率を高めるために、各ページ画像は、各
特徴と属性が真か偽かを示すあらかじめ符号化された2
進ベクトルを有する。あらかじめ符号化されたベクトル
は、ページ画像を特定のモデルへ突き合わせる速度を早
くする。コマンド・ボタン720を選択してモデルを実
行するときは、個別のウィンドウまたはウェブ・ページ
(図示せず)が、モデルと一致するドキュメント画像2
37の第1のページ画像の縮小スケール画像228を表
示する。ドキュメント画像がモデルと一致したときは、
「In」と示されたすべての特徴と属性が、ドキュメン
ト画像のページ画像に関して真であるが、「Out」と
示されたすべての特徴と属性は、ドキュメント画像のど
のページ画像に関しても偽である。「N/A」と示され
た特徴と属性は、適切ではない。
【0085】重みは、0〜10の範囲でもよく、特定の
モデルに関してあらゆる「In」と「Out」の選択を
満たさないコーパス内のドキュメント画像をランク付け
するために使用される。特徴/属性の重みが0であるよ
うに指定される場合は、特徴/属性は、特定のモデルを
満たすためにドキュメント画像の「In」または「Ou
t」を一致させければならず、そうでない場合は、ドキ
ュメント画像は、「In」と「Out」の選択を一致さ
せる部分集合だけを有する特定のモデルを満たすことが
できる。重みの値が0でない場合、サーチ結果は、有無
が正確に一致した特徴に対応する重みの合計によって降
順に配列される。
【0086】図8は、図7に示したジャンル・モデル・
プログラム・インタフェースを使用して、属性240と
特徴242の有無を指定することによって定義すること
ができる3つの異なるドキュメントの高さのレベルの構
成の例を示す。図8に示した画像800は、通常レター
としてソートされるドキュメントのジャンルを示す。こ
れと対照的に、画像802は、通常メモとしてソートさ
れ、画像804は、通常記事としてソートされる。前述
のように、メモのヘッダは、レターからメモを区別する
特徴としてはたらく。これと対照的に、通常記事に見ら
れる多数のカラムは、レターとメモの両方から記事を区
別するのに役立つ。図8は、ドキュメント画像中の特定
の画像属性および/または特徴の有無を指定することに
よって、異なるジャンルのドキュメント画像を容易に識
別できることを示す。
【0087】F.ドキュメントコーパスのサーチ 図9は、ファイル・システム117に記憶されたドキュ
メント画像のコーパスをサーチするための検索エンジン
・インタフェース218の例を示す。図9に示した例示
的な検索エンジン・インタフェース218は、メモリ・
ファイル・システム117に記憶されたテキスト23
6、ドキュメントメタデータ(すなわち、タイトル、日
付、キーワードおよびタイプ)224、特徴242、お
よびジャンル・モデル244をサーチするための機構を
提供する。このような様々なクラスのサーチの1つまた
は組合せは、特定クラスのサーチを選択し、表示領域9
00内のサーチのクラスのパラメータを指定することに
よって実行することができる。ユーザは、サーチのクラ
スとサーチパラメータを指定したら、「サーチ実行(RUN
SEARCH)」ボタン901を押して、指定したサーチを実
行する。その後のサーチの結果は、それぞれ上書き(O
verwrite)ボタン903、累積(Accumu
late)ボタン905、削除(Subtract)ボ
タン907または論理積(Intersect)ボタン
909のうちの1つを押すことによって、前のサーチ結
果に上書きするか、それを累積するか、それから削除/
減算するか、それとAND演算することができる。
【0088】テキスト・データベース236(図2に示
した)は、ボタン902を選択し、テキスト・ベースの
情報(Clue)をテキスト表示領域904に入力することに
よってサーチされる。このサーチは、ASCII文字で
実行され、図示しないプリファレンス・ウィンドウ内で
ユーザによって選択されるブール論理または確率を使用
して定義することができる。ドキュメントメタデータ
(たとえば、タイプ、日付、タイトルおよびキーワード
・データベース)224は、それぞれボタン912、9
08、906および910のうちの1つを選択すること
によりサーチされる。ユーザは、サーチのクラスを指定
する他に、各サーチを実行するために使用するサーチパ
ラメータを指定しなければならない。タイトルサーチの
場合には、ユーザが、テキスト表示領域914にタイト
ルを提示するテキスト情報を入力しなければならない。
日付サーチの場合、ユーザは、正確な日付又は開始期間
916と終了期間918に日付の範囲を入力することが
できる。キーワードサーチの場合は、メニュー920に
表示された一組のキーワードのうちの1つを選択しなけ
ればならない(示したデフォルトは、「NONE」)。
最後に、ドキュメントタイプのサーチの場合は、メニュ
ー922に表示される一組のドキュメントタイプのうち
の1つを選択しなければならない(示したデフォルト
は、「NONE」)。テキスト、タイトル、日付、キー
ワードまたはドキュメントタイプのサーチのための支援
情報は、ユーザがハイパーテキスト・リンク924、9
26、928、930または932を選択することによ
り得ることができる。
【0089】属性240または特徴242のいずれかの
特徴サーチを実行するために、ユーザは、ボタン934
を選択し、メニュー936(示したデフォルトは、「N
ONE」)から特徴を選択する。特徴が一組の特徴24
2に追加されると、新しい特徴が、特徴メニュー936
に追加される。特徴メニュー内のそれぞれの特徴が何で
あるかをよく理解するために、ユーザは、検査特徴ボタ
ン937またはドキュメント付き検査特徴ボタン939
を使用して各特徴の定義を調べることができる。ボタン
937または939を使用して、特徴の定義が、たとえ
ば図6に示したように表示される。「ドキュメント付
き」(すなわち、w/Docs)ボタン939を使って
特徴を調べる場合は、前のサーチから累積されたドキュ
メント画像が、図6で略図604、606および608
によって示したように要約される。さらに、ボタン97
5を選択して、メニュー976からジャンル・モデルを
選択することによって、モデルサーチを実行することが
できる。ジャンル・モデル976のメニューは、ジャン
ル・モデル・プログラム・インタフェース219を使っ
て定義されたジャンル・モデル244の各々を含む。新
しいジャンル・モデルを調査または開発するために、ハ
イパーテキスト・リンク977を選択して、モデル・プ
ログラム・インタフェース219を表示させることがで
きる。ページ画像226の属性240と特徴242の計
算は、インタフェース218を利用してサーチを呼び出
す前に実行されるので、インタフェース218を利用し
て実行されるサーチ操作は、ランタイム画像解析を含ま
ず、時間とスペース両方の効率が高いという利点を有す
る。
【0090】表示領域900内でクラスのサーチのうち
の1つを実行した後、その結果が、検索エンジン・イン
タフェース218に表示される。1つの実施形態におい
て、サーチを満たす略図が表示される。表示された略図
のうちの1つを選択することにより、ユーザがより詳細
に調べることができるように、略図のオリジナルのペー
ジ画像が表示される。一般に、結果は、ユーザが指定す
る任意の形で表示することができる。たとえば、ユーザ
は、チェックボックス948を利用してファイル・シス
テム117から命じられたときに結果を表示するように
指定することができる。また、ユーザは、チェックボッ
クス945を利用してドキュメントの最初のページだけ
を表示させるように指定することができる。さらに、ユ
ーザは、チェックボックス940、942、944、あ
るいはメニュー946のエントリをそれぞれ選択するこ
とによって、結果を表示するときに、ドキュメントのタ
イトル、ドキュメントの略図、ファイル情報および選択
した特徴を提示するように指定することができる。サー
チの結果は、「再表示(Redisplay Results) 」ボタン9
38を選択することによって、新しいフォーマットを指
定した後で再表示させることができる。
【0091】G.1つのドキュメント画像と組となるド
キュメント画像の要約 前述のように、図3は、複数のレイアウト・オブジェク
ト238に分割された(ドキュメント画像237の)ペ
ージ画像226の例を示す。特徴242は、レイアウト
・オブジェクト238の各々を定量化する属性240を
使用して定義される。各特徴242は、いくつかの特性
を有するページ画像の特定の領域を識別するルーチンを
使って定義される。たとえば、図3に示した特徴は、l
etter−date(レターの日付)、letter
−signature(レター署名)、letter−
recipient(レター受取人)およびlette
r−cc(レターコピー)・フィールドを表わすページ
画像内の領域を識別するために使用されるルーチンであ
る。これらの特徴の各々は、レイアウト・オブジェクト
(layout objects)238が、ドキュメ
ントの特定の特徴を識別するために意図的に分割されな
いため、1つまたは複数の「テキスト・ブロック(Te
xt Block)」レイアウト・オブジェクトを使っ
て定義することができる。代りに、レイアウト・オブジ
ェクトは、ドキュメント画像の内容と無関係なドキュメ
ント画像内の構造的要素のタイプを表わす。
【0092】ユーザが定義した特徴242を使用して、
ユーザは、1つまたは組になったドキュメント画像のた
めのユーザが作成した要約画像を明確に表現(公式化)
することができる。図9は、ユーザが作成したドキュメ
ント画像の要約画像を作成するために使用できるユーザ
・インタフェース218を示す。1つの実施形態におい
て、ユーザが、インタフェース218を利用してサーチ
を行って、ドキュメント画像の部分集合を定義する。次
に、ユーザは、参照番号960によって示された要約コ
マンドを使って、サーチによって識別されたドキュメン
ト画像の部分集合の要約画像を作成する。ユーザ・イン
タフェース218は、ユーザに、メニュー962、96
4、966および968においてサーチによって識別さ
れた各ドキュメントを要約するために、少なくとも4つ
の異なる特徴242を提供する。特徴の数を4つに制限
する必要がないことは当業者に理解されよう。あるい
は、ユーザ・インタフェース218は、1つまたは複数
のドキュメント画像を要約する任意の数の特徴を提供す
ることもできる。また、ドキュメントのコーパスをサー
チする前にコマンド・ボタン960を選択し、それによ
りコーパス内のドキュメント画像のコレクション全体を
要約できることは当業者に理解されよう。すなわち、ユ
ーザが作成する要約画像を、ファイル・システム117
内の単一のドキュメント画像、ドキュメント画像の部分
集合またはすべてのドキュメント画像に関して作成する
ことができる。
【0093】図10は、1つまたは複数のユーザ指定の
操作を選択して、ユーザ作成要約画像の合成要約画像の
出力フォーマットをカスタマイズするために使用できる
要約表示プロファイル(Summarization Display Profil
e) 1002を示す。表示プロファイル1002は、図
9に示したインタフェース218上のボタン990を選
択することによってアクセスすることができる。要約表
示プロファイルを定義した後は、チェックボックス99
2を選択することによってプロファイルを起動化するこ
とができ、あるいは、チェックボックス992が選択さ
れていないときは、システム・デフォルト設定を利用し
て、ユーザ作成の要約画像をフォーマットする。より具
体的には、要約表示プロファイル1002により、ユー
ザは、チェックボックス1004〜1014におけるユ
ーザが指定した1つまたは複数の操作により、ドキュメ
ント画像の1つまたは複数のユーザ作成要約画像を表わ
す合成要約画像の出力フォーマットをカスタマイズする
ことができる。チェックボックス1004を選択するこ
とにより、ユーザは、ドキュメント画像内に一致する特
徴が存在しない場合に、ドキュメント画像を合成要約画
像内で無視することを要求することができる。複数の特
徴が選択されるとき、ユーザは、チェックボックス10
06を使用して、ユーザ作成要約画像内の特徴を突き合
わせるためだけに参照することを指定できる。
【0094】また、要約表示プロファイル1002は、
チェックボックス1010を選択することによって指示
した数のOCR文だけを合成要約画像に出力するように
要求することによって、ドキュメント画像の特徴を要約
するレイアウト・オブジェクトを配置する機能をユーザ
に提供する。さらに、ユーザは、チェックボックス10
08を選択することによって、ドキュメント画像を要約
する特徴のレイアウト・オブジェクトをスケール(拡大
/縮小)するように指定することができる。また、表示
プロファイル1002において、ユーザは、チェックボ
ックス1012で強調(ハイライト)することにより、
選択して要約する特徴のレイアウト・オブジェクトを合
成要約画像に出力するように指定することができる。さ
らに、ユーザは、チェックボックス1014においてい
くつかの特徴のレイアウト・オブジェクトが合成要約画
像に出力される順序を指定することができる。ユーザ要
約表示プロファイル1002に示された合成要約画像の
出力フォーマットを指定するためのオプションは例示的
なものであり、その他のオプションを容易に含めること
ができることは、当業者には理解されよう。
【0095】図11は、ドキュメントコーパスサーチシ
ステム140が、1つまたは複数のドキュメント画像の
ユーザ作成要約画像を生成するステップを示すフロー図
である。最初に、ステップ1102で、ドキュメント画
像のコレクションを受け取る。このコレクションのドキ
ュメント画像は、たとえば、サーチインタフェース21
8を使ってサーチを実行することによって定義すること
ができる。一ドキュメント画像のコレクション内の各ド
キュメント画像は、複数のページ画像を含む。これらの
ページ画像はそれぞれ、ある時点でその属性240と特
徴242を生成するために、画像セグメンタ211とプ
ログラム・マネージャ214によって処理される。次
に、ステップ1104において、ステップ1120で受
け取ったドキュメント画像の要約画像の表示を要求する
コマンドを受け取る。ステップ1104でコマンドを受
け取ることに加え、ステップ1106で一組の特徴を受
け取る。これらの特徴は、ユーザによって、予め定義さ
れた一組の特徴から選択されるか、または図4〜図5に
示した方法を使って新しい特徴をプログラミングするこ
とによって選択される。1つの実施形態において、ユー
ザが、メニューの962、964、966または968
において1つまたは複数の特徴を指定し、図9に示した
コマンド・ボタン960を選択した後で、ステップ11
04で受け取ったコマンドとステップ1106で受け取
った一組の特徴が受け取られる。
【0096】ステップ1108において、ドキュメント
画像のコレクションのうちの各ドキュメント画像に対し
て、システム140は、ステップ1106で受け取った
一組の特徴のうちの特徴を定義するレイアウト・オブジ
ェクトを識別する。次に、ステップ1110において、
ドキュメント画像のコレクションのうちの各ドキュメン
ト画像に対して、ステップ1108で識別された特徴と
関連付けられたレイアウト・オブジェクトをアセンブル
することによって要約画像が形成される。ステップ11
12において、ユーザが、合成要約画像を作成する際に
ユーザ要約表示プロファイルを使用するというチェック
ボックス992(図9に示した)を指定した場合は、ス
テップ1114が実行され、そうでない場合は、ステッ
プ1116が実行される。
【0097】ステップ1114において、ステップ11
10でアセンブルされた要約画像を定義するレイアウト
・オブジェクトが、ユーザが定義したユーザ要約プロフ
ァイルから選択された既定のユーザ指定動作によって変
更される。より具体的には、ステップ1114において
アセンブル済みの要約画像を変更するために使用される
特定のユーザ指定動作(単数又は複数)が、要約表示プ
ロファイル1002においてチェックボックス1004
〜1014のどれが選択されているかによって決定され
る。前述のように、ユーザは、図9に示したボタン99
0を選択することによってユーザ要約プロファイル10
02(図10に示した)を定義することができる。ユー
ザ要約プロファイルが、ステップ1112で指定されな
い場合は、代わりにシステム・デフォルト要約表示プロ
ファイルが使用される。ユーザ要約表示プロファイルを
使用する場合は、ステップ1115で実行したものと類
似のアセンブル済み要約画像内のレイアウト・オブジェ
クトのさらに他の処理が必要なこともあることが、当業
者には理解されよう。
【0098】ステップ1114において要約画像をアセ
ンブルするために実行される変更は、ユーザ要約表示プ
ロファイル1002(図10に示した)において選択さ
れたオプションに従って実行される。たとえば、ユーザ
要約表示プロファイルにおいてチェックボックス100
4を選択するか否かによって、2つの異なる要約画像を
作成することができる。チェックボックス1004を選
択せず、選択された特徴がどれもページ画像内に見つか
らないとき、ドキュメントはそのタイトル(ドキュメン
トメタデータ224から識別された)だけによって表示
される。しかしながら、チェックボックス1004がチ
ェックされた場合は、そのような一致しないドキュメン
ト画像への参照は、要約画像から完全に省略される。す
なわち、1つの特徴だけが指定されドキュメント画像が
その特徴を持たないとき、その画像のドキュメントメタ
データ224は、そのドキュメント画像の要約画像の一
部としては含まれない。さらに、チェックボックス11
06を選択し、複数の特徴を選択したときは、一致する
特徴を有する特徴だけが、要約画像内の特徴タイトルで
識別される(例は、図14を参照)。
【0099】ステップ1116において、合成要約画像
は、ステップ1114で変更されるか変更されないかに
よってアセンブル済み要約画像を使って作成される。図
12、13および14は、図11に概略的に示したステ
ップを利用して作成された合成要約画像の3つの異なる
例を示す。図12は、要約画像1202、1204、1
206および1208が、4つのドキュメント画像のh
eader field(ヘッダ フィールド)特徴
(たとえば、4−memo−marks)に対応するレ
イアウト・オブジェクトを含む合成要約画像1200を
示す。この例では要約するのに1つの特徴だけが選択さ
れているため、各要約画像には特徴タイトルは提供され
ない。合成要約画像1200の各ヘッダ・フィールドの
下には、特徴に対応するレイアウト・オブジェクトが配
置される各ドキュメント画像のドキュメントタイトルが
ある。図13は、合成要約画像1300がドキュメント
画像の受取人(recipient)フィールドを要約
する要約画像1302、1304、1306および13
08を含むもう1つの例を示す。更に他の例は、合成要
約画像1400が4つの要約画像1402、1404、
1406および1408を含む図14に示される。要約
画像1402、1404、1406および1408は、
4つのドキュメント画像の特徴letter−dat
e、letter−recipient、およびlet
ter−signatureに対応するレイアウト・オ
ブジェクトを含む。この例では、3つの異なる特徴が選
択されたので、識別された特徴を示す各要約画像にタイ
トルが提供される。
【0100】最後に、ステップ1118において、ステ
ップ1116で作成された合成要約画像がユーザディス
プレイに表示される。しかしながら、別法として、ステ
ップ1118が、プリンタなどの任意の数の出力装置に
合成要約画像を出力することによって実行することがで
きることは当業者には理解されよう。テキスト・ベース
の要約技法よりも優れたこの要約技法の利点は、この要
約技法が、ドキュメントテキストの語彙構造ではなく、
ドキュメントのレイアウトに潜在的に含まれる機能情報
に基づく適切なドキュメント内容を定義する方法に基づ
くことである。さらに、この要約技法は、OCRプログ
ラムまたはワードパターン検出プログラムが稼働するた
めに必要なものよりも低い解像度で働くため有利であ
る。また、本発明の他の態様と同様に、この要約技法
は、レイアウト・オブジェクト上でOCR解析を使用し
て操作する必要はない。たとえば、特徴letter−
signature352(図3を参照)の署名部分を
定義するレイアウト・オブジェクトは、何もテキスト内
容のないビットマップ画像である。
【0101】H.特徴または属性によるサーチ結果の順
序付け ドキュメント画像の大きなコーパスにおけるユーザのド
キュメント画像の識別を支援するために、ドキュメント
の特徴または属性の外観に従ってサーチ結果をソートす
る方法を提供する。前述の節Gで説明したドキュメント
画像の要約と異なり、ドキュメント画像のソートは、類
似度を識別するために特徴の画像解析を必要とする。ド
キュメントをレイアウト・オブジェクトの類似のグルー
プにソートするこの方法は、一貫性をもつ可視外観及び
/又は同種の可視外観を有するレイアウト・オブジェク
トを有するドキュメントをグループ化する。動作におい
て、画像ベースの特徴の比較を行うことにより一組のド
キュメントをソートして、ドキュメント間のどの特徴が
グループ化するのに十分なほど似ているかを判定する。
このような画像ベースの比較は、特徴を含む場所から自
動的に抽出される画像セグメントを突き合わせることに
よって実行される。図15と図6に示した1つの方法
は、予め定義されたしきい値に従って類似した特徴をグ
ループ化することである。図18に示したもう1つの方
法は、選択されたドキュメントからの特徴との類似度の
順序によって特徴をランク付けすることである。両方の
方法は、特徴の間の距離を計算するクラスタ化技法を使
用する。距離が大きくなるほど、2つの特徴は類似しな
くなる。距離を利用して一組のドキュメントをランク付
け又はドキュメントのクラスタにグループ化した後、そ
の組のドキュメントがソートされたクラスタによって編
成され、ドキュメントのコーパス内のドキュメントのサ
ーチが改善される。
【0102】図15、16および18のフロー図に示し
た方法は、RAM116内に駐在し、ドキュメントコー
パスサーチシステム140(図1を参照)の稼働中にプ
ロセッサ114によって実行される。ドキュメントをソ
ートする他の方法と異なり、そのような方法は、ドキュ
メント画像の各部を互いに比較するだけなので効率的で
ある。また、これらの方法は、システム140によって
自動的に抽出されるドキュメント画像の要素(または部
分)に基づいて画像領域(すなわち、テキスト領域では
ない)でドキュメント画像をソートするため有利であ
る。後で説明するドキュメント画像の比較方法を変更し
て、いくつかの効率的な検討を組み込むことができるこ
とは当業者には理解されよう。たとえば、ドキュメント
画像をレイアウト・オブジェクトに分割するための図1
5のステップ1500と図18のステップ1800は、
リアルタイムで実行される必要はない。その代わりに、
ドキュメントの類似のグループ化を行うか単一ドキュメ
ント画像に関するドキュメント画像のランク付けを行う
ことによって、画像分割は、ユーザがコマンドを呼び出
してドキュメントのコーパスをソートする前に一度行う
だけでよい。
【0103】H.1 特徴または属性によるサーチ結果
のソート 図15は、ページ画像226(図2と図3を参照)から
分割されたレイアウト・オブジェクト238間の類似度
に従ってファイル・システム117に記憶されたドキュ
メント画像237をグループ化するステップを示すフロ
ー図である。最初に、ステップ1500で、画像セグメ
ンタ211によって、ドキュメント画像237のページ
画像226が、表1に示したレイアウト・オブジェクト
・タイプのうちの1つをそれぞれが有するレイアウト・
オブジェクト238に分割される。さらに、ステップ1
500において、画像セグメンタと識別装置211が、
属性240を計算し、OCRを実行してレイアウト・オ
ブジェクト内のASCllテキスト236を識別しても
よい。次に、プログラム・マネージャ214が、画像属
性240とレイアウト・オブジェクト238を使って特
徴242のルーチンを評価する。1つの実施形態におい
て、OCRは、特定のサーチの対象となるレイアウト・
オブジェクトにだけに実行される。
【0104】ステップ1502において、選択された一
組のドキュメント画像237が、システム140によっ
て受け取られる。この組のドキュメント画像は、ユーザ
によって選択され予め定義された一組のドキュメント画
像でも、ユーザによって実行されたサーチによって得ら
れた一組のドキュメント画像でもよい。ステップ150
4において、1つまたは複数の選択された特徴または属
性をユーザから受け取る。選択された特徴は、ユーザ・
インタフェース218における表示領域969のメニュ
ーで、ユーザが事前に定義するかまたは選択することが
できる。たとえば、図9は、ユーザがメニュー962か
ら特徴letter−recipientを選択する例
を示す。ユーザが、コマンド・ボタン970を選択し
て、ステップ1504において選択済みの特徴によって
ドキュメントをソートした後、ステップ1506で、メ
ニュー962の選択済みの特徴を受け取る。代替実施形
態において、インタフェース218は、図9に示したよ
うなドキュメントの特徴だけでなく、特徴及び/又は属
性を選択するメニューを含む。
【0105】ステップ1506において、指定された特
徴を構成する選択された組のドキュメント画像内のレイ
アウト・オブジェクトを識別することによって、一組の
画像セグメントが形成される。画像セグメントがビット
マップ画像の形式ではない場合は、ページ記述言語(P
DL)などの構造化ドキュメント表現内の画像セグメン
トが、従来のPDLデコンポーザやその類似物によっ
て、ビットマップ表現にレンダリングされる。たとえ
ば、図3に示したページ画像226の特徴letter
−recipient354を構成するテキスト・ブロ
ック・レイアウト・オブジェクトは、ページ画像226
に関してステップ1506で計算された一組の画像セグ
メントのうちの1つの画像セグメントを定義することが
できる。しかしながら、いくつかの例では、画像セグメ
ントは、1つまたは複数のレイアウト・オブジェクトか
らなることがある(たとえば、図6において、メモ・ヘ
ッダ640の画像セグメントは、メモ・マーク642を
定義する別々のレイアウト・オブジェクトからなる)。
次にステップ1508で、ステップ1506で形成され
た一組の画像セグメントが、類似度及び/又は繰り返し
パターンを有する意味のあるオブジェクトのグループに
ソートされる。最後に、ステップ1510において、一
組の画像セグメント中のそれぞれの画像セグメントに対
応するドキュメント画像またはその縮小スケール画像
が、ステップ1508においてソートされた意味のある
グループごとにディスプレイ132でユーザに表示され
る。
【0106】より具体的には、ステップ1508におい
て、ビットマップ画像セグメント間の一貫性のあるパー
タンまたは同種のパターンが識別される。2つの画像セ
グメント間の類似度の程度によって、画像セグメント
が、画像セグメントの類似するグループまたは相違する
グループにソートされる。たとえば、類似した2つのビ
ットマップ画像の間のパターンは、類似のフォント・ス
タイルまたは類似のフォント・サイズを使用することに
よって発生される。2つのビットマップ・セグメントを
解析するとき、それらの形状は、類似度の大きさが事前
に定義したしきい値の範囲内にある場合には同じ意味の
あるグループに属するようにソートされる。画像領域
(すなわち、非テキスト領域)内の画像セグメントを解
析してソートを行った後、類似のテキストの意味を有す
るセグメントを識別するために、(識別装置211によ
って計算された)テキストのセグメントのソートを実行
することができる。たとえば、画像セグメントのテキス
トの意味は、サブジェクト(主題)の特定のクラスまた
はサブジェクトのサブクラスを識別するのに役立つこと
がある。
【0107】図16は、図15のステップ1508を詳
細に説明するフロー図である。より具体的には、図16
は、類似度および/または繰返しパターンを有する画像
セグメントを意味のあるグループにソートするための1
つの実施形態である。最初に、ステップ1602におい
て、1つの画像セグメントが、ステップ1506におい
て形成された一組の画像セグメントから選択される。ス
テップ1604において、一組の画像セグメントの残り
の各画像セグメントの各々と選択された画像セグメント
との間の距離が計算される。それぞれの距離は、選択さ
れた画像セグメントに関して一組の画像セグメントのう
ちの残りの画像セグメントのそれぞれの間の類似度を定
量化する。画像セグメント間のそのような距離測定は、
全体的ベースにも局所的ベースにも行うことができる。
局所的ベースで行う場合は、2つの画像セグメント間の
距離が、各画像セグメントの一部分に関してのみ計算さ
れる。たとえば、テキストのすべての行を記録する2つ
の画像セグメントを、全体的な行ごとに、あるいは局所
的な単語ごとまたは文字ごとに、互いに突き合わせるこ
とができる。
【0108】1つの実施形態において、各距離は、残り
の画像セグメントの各々と選択された画像セグメントと
の間の「ハウスドルフ距離(Hausdorff distance)」を計
算することによって決定される。代替実施形態におい
て、各距離は、「ハウスドルフ・フラクション」または
「変換による最小ハウスドルフ距離(minimum Hansdorf
f distance under Transformation)」を計算することに
よって決定される。ハウスドルフ距離、ハウスドルフ・
フラクションまたは変換による最小ハウスドルフ距離の
計算の詳細は、1996年にSpringer−Ver
lagから出版されたウィリアム・ラックリッジ(Wi
lliam Rucklidgeによる論文「ハウスド
ルフ距離を利用した効率的な視覚的認識(Efficient Vi
sual Recognition Using the Hausdorff Distance)」に
開示されている。他の実施形態において、距離は、2つ
の画像パターンの間の重み付けXORまたはハミング距
離を計算することにより決定することができる。距離を
計算するためのさらにもう1つの実施形態は、画像セク
ションを比較して類似度を決定するための方法を説明し
ている米国特許第5,539,841号に開示されてい
る。
【0109】変換による最小ハウスドルフ距離を計算す
ることにより各距離を決定する利点は、それぞれの距離
を計算する際に、画像セグメント間のスケールと向きの
小さな変化が考慮される点である。すなわち、スケール
や向きの変化によって生じる2つの画像セグメントの差
が、変形した状態で最小距離で距離を計算することによ
って補償される。たとえば、スケールの変化は、書体
(たとえばTimesRoman)が似ているがフォン
ト・サイズが異なる(たとえば、10ポイントと12ポ
イント)2つの画像セグメントを識別することができ
る。実際には、この方法は、2つの画像セグメント間で
最良のハウスドルフ距離測定を生成する変換を識別する
ことによって、類似の属性を有する画像セグメントを識
別する。その結果、2つの画像セグメント間の距離を計
算するときに、スケールと向きによる画像の変形が考慮
される。
【0110】選択した画像セグメントと一組の画像セグ
メントのうちの残りの画像セグメントの各々との間の類
似度を決定した後で、ステップ1606で、画像セグメ
ントのクラスタを定義する。具体的には、しきい値距離
範囲内の距離を有する一組の画像セグメントのうちの残
りの画像セグメントを使って、画像セグメントの新しい
クラスタを定義する。ステップ1606においてクラス
タを形成する画像セグメントは、ステップ1608にお
いて一組の画像セグメントから除去される。ステップ1
610において、一組の画像セグメントに画像セグメン
トが残っている場合は、ステップ1602が繰り返され
る。そうでない場合は、ステップ1510が実行され
る。ステップ1510において、ステップ1606で定
義された各画像クラスタに従って、ステップ1506に
おいて形成された各画像セグメントに対応するドキュメ
ント画像が配列される。
【0111】ステップ1508において、一組の画像セ
グメントを意味のあるグループにソートするための代替
実施形態は、「テキストの2進画像から抽出された記号
を比較する方法および装置(Method And Apparatus For
Comparing Symbols Extracted From Binary Images Of
Text)」と題する、米国特許出願第08/655,54
6号(以下、特許出願’546)に開示されている。こ
の代替実施形態において、画像セグメントを比較して意
味のある画像セグメントのグループを識別するために、
ハウスドルフと類似の方法が使用される。ステップ15
08で特許出願’546に示された方法を実行する際、
次の2つの用語の違いを考慮しなければならない。最初
に、特許出願’546において引用された「記号(Symbo
ls) 」は、本発明の文脈では、1つまたは複数のレイア
ウト・オブジェクトで構成された画像セグメントとして
定義される。第2に、特許出願’546において作成さ
れた「等価クラス(equivalence classes) 」は、本発明
の文脈において、意味のあるグループとして定義され
る。
【0112】図17は、図15と図16に示された方法
を使用して形成される画像セグメント1700のグルー
プを示す。画像セグメント1700のグループ内の各画
像セグメントは、ドキュメントメタデータ224からの
タイトルとファイリン日の情報を含む。また、グループ
1700内のアドレス・フィールドはそれぞれ、対応す
るドキュメント画像へのハイパーテキスト・リンクであ
る。ステップ1500でシステム内のドキュメント画像
がレイアウト・オブジェクトに分割された後、ステップ
1502において一組のドキュメント画像が識別され、
ステップ1504において、アドレス・フィールド特徴
がユーザによって選択される。画像セグメント1700
のグループ化は、ステップ1506で一組の画像セグメ
ントを形成した後のステップ1508でソートされた多
くのグループのうちの1つのグループだけである。画像
セグメント1700のグループには、4つのアドレス・
フィールド1702、1704、1706および170
8がある。アドレス・フィールドは、これらの距離があ
る一定のしきい値よりも下にあるためグループ化され
る。さらに、アドレス・フィールドをグループ化するこ
の方法は、スケールと向きによって生じる画像セグメン
ト間のばらつきを考慮する。たとえば、アドレス・フィ
ールド1702および1708のスケールが異なり、ア
ドレス・フィールド1704および1706の向きが異
なる。ドキュメントのコーパスに記憶されたドキュメン
トをソートするこの方法を利用することによって、ユー
ザは、類似したアドレス・フィールドを有するドキュメ
ント1700のグループを検査することによって、コー
パス内の特定のドキュメントをより容易に識別すること
ができる。
【0113】H.2 特徴または属性によるサーチ結果
のランク付け 図18は、選択したレイアウト・オブジェクトとの類似
度によってファイルシステム117に記憶されたドキュ
メント画像226から分割されたレイアウト・オブジェ
クト238をランク付けするステップを示すフロー図で
ある。ドキュメント画像のページ画像におけるレイアウ
ト・オブジェクトは、ドキュメント画像の特徴242と
属性のいずれかを使って識別される。最初に、ステップ
1800において、ドキュメント画像237のページ画
像226が、図15のステップ1500に関して前に説
明したようにレイアウト・オブジェクト238に分割さ
れる。ステップ1802において、指定されたドキュメ
ント画像を受け取る。また、指定されたドキュメント画
像の特徴(単数又は複数)を、ステップ1804で受け
取る。あるいは、画像特徴の代わりに、ステップ180
4に属性(単数又は複数)240を受け取ることもでき
る。1つの実施形態において、ドキュメント画像とその
特徴(単数又は複数)は、図9に示したドキュメントサ
ーチインタフェース218を使用して指定される。この
実施形態において、ドキュメント名がテキスト・フィー
ルド982に指定され、特徴が、メニュー984で指定
される。ステップ1806において、一組のドキュメン
ト画像が選択される。この選択された一組の画像は、事
前に定義された一組のドキュメント画像でもよいし、サ
ーチインタフェース218を使用したサーチによって得
られた一組のドキュメント画像でもよい。ステップ18
08において、選択された1つまたは複数の特徴または
属性を受け取る。図9に示した実施形態において、ステ
ップ1808で選択された特徴が、表示領域969の特
徴メニュー962、964、966および/または96
8のうちの1つを使用して指定される。ユーザがインタ
フェース218のコマンド・ボタン980を選択する
と、ステップ1802、1804、1806および18
08で受け取った各エレメントを受け取る。
【0114】ステップ1810において、(ステップ1
804で)指定されたドキュメント画像の特徴を構成す
る選択された一組のドキュメント画像(ステップ180
6に)においてレイアウト・オブジェクトを識別するこ
とによって、一組の画像セグメントが形成される。すな
わち、指定されたドキュメント画像の特徴に対応するド
キュメント画像のあるいくつかの部分(すなわち、レイ
アウト・オブジェクト)だけが、それらのドキュメント
画像から抽出され、一組のレイアウト画像に追加され
る。ステップ1812において、ステップ1804で指
定された特徴を構成するステップ1802において指定
されたドキュメント画像内のレイアウト・オブジェクト
を識別することによって、単一の画像セグメントが形成
される。ステップ1814において、距離は、選択した
一組のドキュメント画像においてドキュメント画像ごと
に計算される。ステップ1814で計算した各距離は、
選択した一組のドキュメント画像のうちの1つのドキュ
メント画像の特徴と、指定されたドキュメント画像の特
徴との違い(類似度)の尺度である。すなわち、各距離
は、ステップ1810で形成された一組の画像セグメン
トの各画像セグメントと、ステップ1812で形成され
た単一の画像セグメントとの差の尺度である。
【0115】ステップ1814で計算した各距離は、前
述の距離のうちの1つを利用して実行することができ
る。たとえば、各距離の測定は、2つの画像セグメント
間のハウスドルフ距離を計算することにより行うことが
できる。あるいは、2つの画像セグメント間の距離は、
ハウスドルフ・フラクション、変換による最小ハウスド
ルフ距離、重み付けXORまたはハミング距離を利用し
て計算することができる。ステップ1814が完了した
後、選択した一組のドキュメント画像内の各画像は、ス
テップ1806で選択されたドキュメント画像の同じ特
徴に対するステップ1802で指定されたドキュメント
画像の特徴の関連性を定義する計算された距離を有す
る。ステップ1816において、ドキュメント画像のク
ラスタは、ステップ1814において計算された距離を
ランク付けすることによって形成される。ステップ18
18において、選択した一組のドキュメント画像におけ
る各ドキュメント画像のステップ1808で選択された
特徴は、ステップ1816で選択された画像の特徴に対
する類似度によってランク付けされた特徴のクラスタご
とに表示される。
【0116】図19は、指定されたドキュメント画像に
おける特徴の類似度によりドキュメントの特徴をランク
付けする例を示す。具体的には、図19は、図18に示
したステップを完了した後で表示される画像のクラスタ
の特徴1900を示す。この例では、指定されたドキュ
メント画像の選択された特徴が、参照番号1901〜1
904によってクラスタ1900内に示された「fro
mフィールド」である。さらに、画像のクラスタの特徴
1900は、ステップ1808で選択された特徴に対応
する参照番号1905〜1908によって示された4つ
のメモ・ヘッダ・フィールドを示す。より具体的には、
特徴「fromフィールド」1901〜1904は、指
定されたランク付けの範囲内にある計算距離を有し、ス
テップ1816でいっしょにクラスタ化される。本発明
により、ドキュメント画像の画像のクラスタの特徴19
00は、ドキュメント画像のテキストの内容ではなくド
キュメント画像のレイアウト構造を利用してアセンブル
される。
【0117】I.プログレッシブ送信および/または表
示 前に図1と図2で説明したように、画像セグメンタ21
1は、画像を、表1に示したようなレイアウト・オブジ
ェクト・タイプのうちの1つをそれぞれ有するレイアウ
ト・オブジェクトに分割する。ドキュメント内の各レイ
アウト・オブジェクトは、レイアウト・オブジェクトの
内容と関係なく識別される。レイアウト・オブジェクト
・タイプの例は、テキスト、図形およびハーフトーンで
ある。前述のように、各レイアウト・オブジェクトごと
に計算された画像属性は、それぞれのレイアウト・オブ
ジェクトの構造と特性を定義するために使用される。さ
らに、画像の属性は、レイアウト・オブジェクトがドキ
ュメント画像のページ画像内の他のレイアウト・オブジ
ェクトとの間で持つ空間的な関係を識別するために使用
される。ユーザは、画像の属性を使って、ドキュメント
画像の特徴を引き出すことができる。属性と異なり特徴
をカスタマイズし、それによりページ画像内の独特な組
のレイアウト・オブジェクトを識別することができる。
【0118】ファイル・システム117に記憶されたド
キュメント画像237は、検索エンジン・インタフェー
ス218を使ってネットワーク130を介してサーチす
ることができる。ネットワーク117の帯域幅が制限さ
れることがあるため、ドキュメントのページ画像226
の送信が遅い場合がある。ドキュメント画像データ・フ
ァイルのサイズとネットワークのデータ転送速度によっ
て、インタフェース218を操作するユーザは、ファイ
ル・システム117のドキュメント画像をサーチまたは
ブラウズしている間に過度に長い伝送遅延に遭遇するこ
とがある。ネットワーク130を介してドキュメント画
像を受け取る際の過度に長い遅延を緩和するために、ユ
ーザは、プログレッシブに伝送および/または表示され
るドキュメント画像のレイアウト・オブジェクトを有す
るオプションが提供される。
【0119】ドキュメント画像のプログレッシブ送信お
よび/または表示は、ユーザ・インタフェース218を
動作させるクライアント・ワークステーション150
と、ドキュメントサーチおよび検索システム140を動
作させるサーバ・ワークステーション110との間のネ
ットワーク130を介するデータ送信の時間コストを削
減する。動作において、最初に、他のレイアウト・オブ
ジェクトよりも重要と識別されたドキュメント画像のペ
ージ画像内のレイアウト・オブジェクトが送信される。
ユーザが関心のあるドキュメント画像の要素に対して高
速にアクセスすることができるため、データ送信におけ
る時間コストが低下する。さらに、このプログレッシブ
送信の形により、ユーザは、ドキュメント画像を詳細に
調べるべきかどうかを素早く決定して、ドキュメント内
のあまり重要でないレイアウト・オブジェクトが送信さ
れる前にドキュメント画像を見せないという決定を行っ
て、データの伝送量を最小にすることができる。
【0120】一般に、このドキュメント画像のプログレ
ッシブ送信および/または表示の方法は、ドキュメント
画像がレイアウト・オブジェクトに分割されることに基
づく。最初に、ユーザは、閲覧および/またはサーチの
対象に最も適切なドキュメント画像の特徴または属性を
識別する。このレイアウト・オブジェクトのプログレッ
シブ送信および/または表示の方法は、2つのステップ
に分けられる。送信の第1のステップにおいて、ユーザ
によって最も関心があると指定された特徴および/また
は属性を有するドキュメント画像のレイアウト・オブジ
ェクトだけが、高い解像度で送信および/または表示さ
れ、ドキュメント画像の残りのレイアウト・オブジェク
トは、低い解像度で送信および/または表示される。ユ
ーザが要求した場合にだけ呼び出される送信の第2ステ
ップにおいて、第1のステップで低い解像度で送信され
たレイアウト・オブジェクトが、高い解像度で再送信お
よび/または表示され、最後にはドキュメント画像を高
い解像度で表示させる。
【0121】l.1 プログレッシブ送信 図20は、ドキュメントサーチ/検索システム140を
実行するサーバ・ワークステーションの視点からドキュ
メント画像のプログレッシブ送信を実行するステップを
示すフロー図である。最初に、ステップ2000におい
て、ファイル・システム117内のドキュメント画像2
37のページ画像が、レイアウト・オブジェクト238
に分割される。ドキュメント画像をレイアウト・オブジ
ェクトに分割した後、画像セグメンタ211が、分割さ
れた各レイアウト・オブジェクト毎に画像属性240を
計算する。また、プログラム・マネージャ214が、ド
キュメント画像内で分割されたレイアウト・オブジェク
トが特徴242に対応するかどうかを判定する。これら
の操作は、ドキュメント画像の送信の前にリアルタイム
で実行することができる。あるいは、これらの操作は、
システムを初期化するとき、あるいはドキュメント画像
237がファイル・システム117に加えられられたと
きに実行することができる。
【0122】1つの実施形態において、検索エンジン・
インタフェース218を稼働させるクライアント・ワー
クステーション150(図1に示した)のユーザは、図
9のインタフェース218のチェック・ボックス949
を選択することにより、画像データをプログレッシブに
送信することを要求する。チェック・ボックス949を
選択する他に、ユーザは、図21に示した表示プロファ
イル2102を定義し、ユーザがページ画像の特徴と属
性を送信および/または表示する順序を定義することが
できる。表示プロファイル(display profile) 2102
には、インタフェース218の「プログレッシブ表示(P
rogressive Display) 」のハイパー・テキスト950を
選択することによりアクセスすることができる。表示プ
ロファイル2102内の表示領域2112により、ユー
ザは、対象をブラウズまたはサーチするのに最も適切な
特徴と属性を指定することができる。さらに、ユーザ
は、選択された特徴および/または属性のランク付けを
指定することもできる。ユーザが表示プロファイルを定
義しない場合は、代りにデフォルトプロファイルが使用
される。代替実施形態において、クライアント・ワーク
ステーションが、データをプログレッシブに自動的に送
信し表示するようにプログラムされたとき、ユーザが介
在することなくステップ2002を実行することができ
る。
【0123】ステップ2002において、送信プロファ
イルと送信要求が、図1に示したワークステーション1
10などのサーバ・ワークステーションで受け取られ
る。この送信要求は、ファイル・システム117に記憶
された1つまたは複数のドキュメント画像237の要求
を含む。送信プロファイルは、図21に示したプログレ
ッシブ表示プロファイル2102から得られ、送信の第
1のステップの間に要求したドキュメント画像内のレイ
アウト・オブジェクトを識別してクライアント・ワーク
ステーションに送信するために使用される特徴および/
または属性のリストである。ドキュメントサーチシステ
ム140を操作するサーバ・ワークステーションは、ス
テップ2004で、送信プロファイルを使用して、送信
プロファイルにおいて識別された特徴および/または属
性に対応する要求ページ画像内のレイアウト・オブジェ
クトを識別する。
【0124】ドキュメント画像データのプログレッシブ
送信は、2つのステップで実行される。送信の第1のス
テップの間に、ステップ2006および2008が実行
される。ステップ2006において、ステップ2004
で識別された要求ページ画像内のレイアウト・オブジェ
クトが第1のすなわち高い解像度でクライアント・ワー
クステーションに送信される。次に、ステップ2008
において、ステップ2004で識別されなかった要求ペ
ージ画像内のレイアウト・オブジェクトが、第2の解像
度すなわち低い解像度でクライアント・ワークステーシ
ョンに送信される。画像データを受け取ると、クライア
ント・ワークステーションは、送信された画像データを
フォーマットしてオリジナルドキュメント画像を複製す
る。代替実施形態において、ステップ2008で送信さ
れたレイアウト・オブジェクトは、図21にプログレッ
シブ表示プロファイル2102内のチェックボックス2
116を選択することにより、文字枠多角形(bounding
polygons) の形で送信される。
【0125】送信の第1のステップが完了した後で、サ
ーバ・ワークステーションは、ステップ2010で、あ
る一定期間待機する。、ステップ2014で、待機期間
内にクライアントの要求を受け取らない場合は、サーバ
・ワークステーションが、ステップ2012でタイムア
ウトする。ステップ2014において、クライアント要
求を受け取ると、現在の送信要求を継続するか新しい送
信要求を開始するかを指定することができる。具体的に
は、ステップ2014で受け取った要求は、ステップ2
004で識別されない要求ページ画像内のレイアウト・
オブジェクトを、送信の第2ステップの間に第1の解像
度すなわち高い解像度で送信することを指定することが
でき、あるいは、要求が、ステップ2002で新しい送
信要求を指定することができる。
【0126】ステップ2002が繰り返される場合は、
送信の第2ステップは実行されず、それにより、クライ
アント・ワークステーションとサーバ・ワークステーシ
ョンとの間でデータを送信する時間コストが削減され
る。また、送信セッションの間にステップ2002がク
ライアント・ワークステーションによって繰り返される
とき(すなわち、送信セッションが1つまたは複数の送
信要求を有してもよい)、送信プロファイルは、1つの
セッションで1回だけ送信するだけでよいことは当業者
には理解されよう。クライアントがステップ2012で
タイムアウトした場合は、ステップ2008で送信され
たレイアウト・オブジェクトが、送信の第2のステップ
の間にステップ2016で再送信される。ステップ20
16を実行した後で、ステップ2002における要求ペ
ージ画像の送信が、ステップ2018で完了する。
【0127】サーチインタフェース218を操作するク
ライアント・ワークステーションにおいて、たとえば、
ユーザが要求ページ画像の低い解像度(すなわち第2の
解像度)領域の一部分を選択するときに、ステップ20
14および2016のシーケンスを開始することができ
る。あるいは、ユーザが、オリジナルの送信要求にない
ページ画像(または、ページ画像の縮小スケール画像)
を選択するときは、ステップ2014および2002の
シーケンスを開始することができる。これと対照的に、
ステップ2012が実行され、クライアント要求がない
とき、ユーザは、要求ページ画像の送信の第2ステップ
を自動的に開始することを期待していると想定される。
すなわち、ある一定期間後でクライアント要求のないこ
とは、ステップ2016で送信の第2ステップを開始す
る要求を受け取っているように扱われる。
【0128】ステップ2006で低い解像度で最初に送
信されるレイアウト・オブジェクトを定義するドキュメ
ント画像データは、ステップ2016で高い解像度で完
全に再送信される必要がなことは当業者には理解されよ
う。その代わりに、2ステップに送信されるレイアウト
・オブジェクトは、2つのレベルのピラミッド形階層符
号化方式を利用して送信することができ、それによりデ
ータの一部が第1のステップの間に送信され、データの
他の部分が第2のステップの間に送信される。データを
階層的に符号化することにより、クライアントとサーバ
の間で重複したデータが送信されることはない。たとえ
ば、米国特許第5,335,088号とその参考資料
は、画像データを階層的に符号化する様々な方法を示
す。さらに、各レイアウト・オブジェクトを形成する画
像データのタイプによって、送信の各ステップの間に送
信されるデータの量を減少させるための多くの圧縮技法
がある。
【0129】I.2 プログレッシブ表示 ドキュメント画像が、図20に示した方法を使ってプロ
グレッシブに送信されている場合、クライアント・ワー
クステーションでのドキュメント画像での表示は、本質
的にプログレッシブである。ドキュメント画像のプログ
レッシブ送信とプログレッシブ表示は、ブール・チェッ
クボックス2106、2108および2110によって
表示プロファイル2102に例示されるように、互いに
独立または同時に実行することができる。操作の1つの
モードにおいて、クライアント・ワークステーションの
ユーザは、チェックボックス2108の選択により、ペ
ージ画像がプログレッシブに表示されプログレッシブに
送信されないように要求することができる。ページ画像
がプログレッシブに表示されて送信されないときは、ク
ライアント・ワークステーションによって、性能上の利
点が得られる場合と得られない場合がある。
【0130】プログレッシブ表示は、プログレッシブ送
信と同様、ユーザが、第1のステップの間に表示される
一組の特徴および/または属性を識別することを要求す
る。ドキュメントのこれらの属性および/または特徴
は、ユーザが最初に表示しようとするドキュメント画像
のレイアウト・オブジェクトである。また、プログレッ
シブ送信と同様、ドキュメント画像は、2つのステップ
でプログレッシブに表示される。表示の第1のステップ
の間に、ユーザによって識別されるドキュメントのレイ
アウト・オブジェクトが、第1の解像度すなわち高い解
像度で表示される。ドキュメント画像の他のレイアウト
・オブジェクトは、第2の解像度すなわち低い解像度に
表示される。表示の第2のステップの間に、第2の解像
度すなわち低い解像度で表示されたレイアウト・オブジ
ェクトは、次に高い解像度すなわち第1の解像度で表示
される。
【0131】l.3 プログレッシブ送信および/また
は表示の代替モード 図21のプログレッシブ表示プロファイルは、ドキュメ
ント画像データをプログレッシブに表示および/または
送信する様々なオプションを提供する。表示と送信の2
つのステップだけが示されているが、プログレッシブ送
信と表示のためのこの方法は、任意の数の表示ステップ
および/または送信ステップを含むことができることは
当業者には理解されよう。たとえば、プログレッシブ表
示プロファイルは、ユーザに、プログレッシブな4つの
送信ステップとプログレッシブな2つの表示ステップだ
けを定義する機能を提供することもできる。ドキュメン
ト画像をプログレッシブに送信及び/又は表示するこの
方法の重要な点は、ユーザが、ドキュメントの画像属性
および/または特徴を送信および/または表示する順序
をランク付けできることである。
【0132】プログレッシブ表示プロファイル2102
に示されたもう1つの動作モードにおいて、ユーザは、
チェックボックス2114の選択によって送信の第1の
ステップだけが送信および/または表示されるように指
定することができる。この動作モードを選択することに
よって、表示および/または送信されるドキュメント画
像の内容は、たとえば図12〜図14に示したような要
約形式である。このオプションは、クライアント・ワー
クステーションの表示がスクリーンのスペースを制限す
るときに使用することができる。また、ユーザは、チェ
ックボックス2116を選択することにより、表示また
は送信の第2のステップの間に文字枠(境界ボックス)
多角形だけが送信されるように指定することができる。
両方のチェックボックス・オプション2114と211
6は、第2の動作ステップの間に送信および/または表
示される画像データの量を制限する2つの異なる方法を
提供する。さらにもう1つの動作モードにおいて、プロ
グレッシブ表示プロファイル2102は、送信ステップ
の範囲内で特徴が表示および/または送信される順序を
ランク付けするオプションをユーザに提供する。
【0133】l.4 プログレッシブに表示された画像
の例 図22〜図24は、プログレッシブ表示の第1のステッ
プを完了した後でプログレッシブ表示の第2のステップ
が始まる前の3つの異なるページ画像の例を示す。図2
5は、全体画像2500が第1の解像度すなわち高い解
像度で表示された第2の表示ステップを完了した後の図
22〜図24に示したページ画像を示す。図22は、第
1のステップの間に、特徴letter−date22
02、Ietter−recipient2204およ
びletter−sigunature2206が、第
1の解像度すなわち高い解像度で表示されたページ画像
例2200を示す。ページ画像2200中のその他の特
徴は、低い解像度で表示される。図23は、同じ特徴2
202、2204および2206が高いの解像度すなわ
ち第1の解像度で表示されたページ画像2300を示
す。しかしながら、ページ画像2200と異なり、高い
解像度で表示されていないページ画像2300の他の特
徴は、文字枠多角形を利用して表示される。
【0134】ネットワーク130を介してサーチインタ
フェース218を操作するユーザは、イントラネットの
閉じた世界で操作することもできる。そのような閉じた
世界のユーザは、多数の特徴を定義することができる。
しかしながら、インターネットの開放された世界では、
特徴は定義されていないこともあり、ユーザは、属性に
よってしかレイアウト・オブジェクトを識別できないこ
ともある。図24は、画像属性を利用して、図22と図
23の画像2200と2300と異なる第1の解像度す
なわち高い解像度で送信されるレイアウト・オブジェク
トを識別するページ画像2400を示す。ページ画像2
400において、送信および/または表示の第1のステ
ップが、non−runningテキストに対するru
nningテキストの属性を有するレイアウト・オブジ
ェクトを区別する。より具体的には、画像セクション2
402および2406は、「真」の属性non−run
ningテキストを有するレイアウト・オブジェクトを
第1の解像度すなわち高い解像度で示す。これと対照的
に、画像セクション2404は、「偽」の属性runn
ingテキストを有するレイアウト・オブジェクトを第
2の解像度すなわち低い解像度で示す。
【0135】J. 結論 要約すると、本発明は、ページ画像内のテキスト・ブロ
ックが他のテキスト・ブロックによって定義された基準
フレームに対して持つ空間関係によってドキュメント画
像のページ画像のレイアウト構造を記述する技術に関す
る。このレイアウト技法の利点は、文字認識に依存せ
ず、したがって比較的低い解像度で実行することができ
ることである。このレイアウト技法の第2の利点は、新
しいレイアウト構成要素と構造の対話式のユーザ仕様に
適した高いレベルのフレームワークを提供し、それによ
り、ドキュメントをカテゴリおよび/またはフォーマッ
トで識別するフレキシビリティを提供することである。
この第2の利点は、直線的プログラムを使用してドキュ
メント画像内に特徴を定義し検出することができること
により得られる。
【0136】本発明は、ドキュメントの最初のページを
使用して説明してきたが、本発明がドキュメント全体に
当てはまることは当業者には理解されよう。さらに、考
察のほとんどは、スキャンしたドキュメント画像による
ドキュメントに焦点を当てているが、本発明は、ドキュ
メント内のテキストだけがサーチおよび検索システムに
よって調べられる場合に失われる構造を有する電子的に
得られたドキュメントに適用できることは、当業者には
理解されよう。たとえば、PostScriptを使っ
て定義された電子ドキュメントは、PostScrip
tドキュメントをレンダリングするために使用される特
定のデコンポーザによって変化するレイアウト構造を有
してもよい。したがって、本発明の利点は、ドキュメン
トのフォーマットがビットマップかまたはさらに高いレ
ベルのPDL表現によるものかに関係なく、ドキュメン
ト高レベルのレイアウト構造を明示的に定義するために
使用できる方法を提供することである。
【図面の簡単な説明】
【図1】本発明を実施するために使用される一般的な構
成要素のブロック図である。
【図2】図1に示したドキュメントコーパス管理/サー
チシステムの詳細なブロック図である。
【図3】ファイル・システム内にドキュメント画像デー
タが配列された様子を示す図である。
【図4】基本操作のシーケンスを利用して特徴を定義す
るための対話サイクルのフロー図である。
【図5】図4のステップ408で定義された一組のレイ
アウト・オブジェクトの1つまたは複数の選択操作また
は累算操作を指定するステップを示すフロー図である。
【図6】図4と図5に示した対話サイクルを使用してプ
ログラムされた特徴の例を示す図である。
【図7】図2に示したジャンル・モデル・プログラム・
インタフェース219をより詳細に示す図である。
【図8】図7に示したジャンル・モデル・プログラム・
インタフェースを利用して、属性と特徴の有無を指定す
ることによって定義できる3つの異なる高レベルのドキ
ュメント構成の例を示す図である。
【図9】ファイル・システムに記憶されたドキュメント
のコーパスをサーチするための検索エンジンのインタフ
ェースの例を示す図である。
【図10】ユーザが作成した要約の合成要約画像の出力
フォーマットを定義するために使用できる要約表示プロ
ファイルを示す図である。
【図11】ユーザが作成したサーチの要約を生成するス
テップを示すフロー図である。
【図12】図10に概略的に示したステップを使用して
作成された要約画像の例を示す図である。
【図13】図10に概略的に示したステップを使用して
作成された要約画像の例を示す図である。
【図14】図10に概略的に示したステップを使用して
作成された要約画像の例を示す図である。
【図15】ドキュメント画像から分割されたレイアウト
・オブジェクト間の類似度によってドキュメント画像を
ソートするステップを示すフロー図である。
【図16】図15に示したステップ1508で一組の画
像セグメントをソートするための1つの実施形態を示す
フロー図である。
【図17】図15と図16に示した方法を使用して形成
された画像セグメントのグループ化を示す図である。
【図18】指定したレイアウト・オブジェクトの類似度
によりドキュメント画像から分割されたレイアウト・オ
ブジェクトをソートするための実施形態を示すフロー図
である。
【図19】指定されたドキュメント画像内の特徴の類似
度によってドキュメント画像の特徴をソートする例を示
す図である。
【図20】ドキュメントサーチ/検索システムを稼働さ
せるサーバ・ワークステーションの視点からのドキュメ
ント画像のプログレッシブ送信を実行するステップを示
すフロー図である。
【図21】ドキュメント画像の特徴および属性を送信及
び/又は表示する順序を定義するためのプログレッシブ
表示プロファイルを示す図である。
【図22】選択した特徴letter−date、le
tter−recipientおよびletter−s
ignatureを高い解像度すなわち第1の解像度で
表示する第1のステップを完了した後のページ画像例を
示す図である。
【図23】選択した特徴を含まないレイアウト・オブジ
ェクトを文字枠多角形を使って表示する第1のステップ
を完了した後のページ画像を示す図であり、図22とは
違い、同じ特徴が第2の解像度すなわち低い解像度で表
示される。
【図24】選択した属性を含むレイアウト・オブジェク
トを第1の解像度すなわち高い解像度で表示し、選択し
た属性を含まないレイアウト・オブジェクトを第2の解
像度すなわち低い解像度で表示する第1のステップを完
了した後のページ画像を示す図である。
【図25】画像全体を第1の解像度すなわち高い解像度
で表示する第2の表示ステップを完了した後の図22〜
図24に示したページ画像を示す図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェームズ ブイ.マホニー アメリカ合衆国 90291 カリフォルニア 州 ロサンゼルス オーシャン フロント ウォーク 2207 ナンバー4 (72)発明者 ジャネット エル.ブロムバーグ アメリカ合衆国 94028 カリフォルニア 州 ポートラ ヴァレイ ポートラ グリ ーン サークル 20 (72)発明者 ランダル エイチ.トリッグ アメリカ合衆国 94306 カリフォルニア 州 パロ アルト オリーブ アベニュー 315

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメント管理システムのメモリに記
    憶され、選択されたドキュメント画像を要約する方法で
    あって、 選択されたドキュメント画像を一組のレイアウト・オブ
    ジェクトに分割するステップを有し、一組のレイアウト
    ・オブジェクトの各レイアウト・オブジェクトが複数の
    レイアウト・オブジェクト・タイプのうちの1つであ
    り、複数のレイアウト・オブジェクトタイプの各々がド
    キュメント画像の構造要素を識別し、 一組の特徴からドキュメント画像の1つの特徴を指定す
    るステップを有し、前記一組の特徴の各特徴がドキュメ
    ント画像のレイアウト・オブジェクトの固有の配置を定
    義し、 指定された特徴を定義するレイアウト・オブジェクトの
    サブセットを前記一組のレイアウト・オブジェクトから
    識別するステップと、 識別されたレイアウト・オブジェクトによって要約画像
    をメモリにアゼンブルするステップを有し、選択された
    ドキュメント画像を要約する、 ドキュメント画像の要約方法。
  2. 【請求項2】 前記一組のレイアウト・オブジェクトの
    各レイアウト・オブジェクトの属性を計算するステップ
    を更に有し、各レイアウト・オブジェクトの計算された
    属性が、構造要素の特性を定量化し、指定されたドキュ
    メント画像内の分割された他のレイアウト・オブジェク
    トとの空間関係を識別する値を有する、 請求項1に記載の方法。
  3. 【請求項3】 選択されたドキュメント画像の指定され
    た特徴を識別するルーチンを実行するステップを更に有
    し、ルーチンが一組のレイアウト・オブジェクトを消費
    し、計算された属性を使用してレイアウト・オブジェク
    トのサブセットを生成する一組の選択操作を有し、該実
    行ステップがレイアウト・オブジェクトのサブセットを
    選択されたドキュメント画像の指定された特徴として識
    別する、 請求項2に記載の方法。
JP10322581A 1997-11-14 1998-11-12 ドキュメント画像の要約方法 Withdrawn JPH11224267A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US97121097A 1997-11-14 1997-11-14
US971210 1997-11-14

Publications (1)

Publication Number Publication Date
JPH11224267A true JPH11224267A (ja) 1999-08-17

Family

ID=25518073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10322581A Withdrawn JPH11224267A (ja) 1997-11-14 1998-11-12 ドキュメント画像の要約方法

Country Status (1)

Country Link
JP (1) JPH11224267A (ja)

Similar Documents

Publication Publication Date Title
JP4335335B2 (ja) ドキュメント画像のソート方法
JP3942290B2 (ja) ドキュメント画像のクライアント・ワークステーションへの送信方法
JPH11224345A (ja) ドキュメント画像の一部の識別方法
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
EP1024437B1 (en) Multi-modal information access
US6598054B2 (en) System and method for clustering data objects in a collection
US6564202B1 (en) System and method for visually representing the contents of a multiple data object cluster
US7904455B2 (en) Cascading cluster collages: visualization of image search results on small displays
US6922699B2 (en) System and method for quantitatively representing data objects in vector space
Chen et al. CLUE: cluster-based retrieval of images by unsupervised learning
US6941321B2 (en) System and method for identifying similarities among objects in a collection
US6772148B2 (en) Classification of information sources using graphic structures
Minghim et al. Content-based text mapping using multi-dimensional projections for exploration of document collections
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US8606789B2 (en) Method for layout based document zone querying
CN100410928C (zh) 图面搜索支持设备
US6606623B1 (en) Method and apparatus for content-based image retrieval with learning function
JPH11328228A (ja) 問い合わせ検索結果精緻化方法及び装置
Shin et al. Document Image Retrieval Based on Layout Structural Similarity.
Chen et al. ilike: Bridging the semantic gap in vertical image search by integrating text and visual features
Tekli An overview of cluster-based image search result organization: background, techniques, and ongoing challenges
Myka et al. Automatic hypertext conversion of paper document collections
Cinque et al. A multidimensional image browser
Tian et al. Colour image retrieval using virtual reality
JPH11224267A (ja) ドキュメント画像の要約方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060207