JP3942290B2 - ドキュメント画像のクライアント・ワークステーションへの送信方法 - Google Patents
ドキュメント画像のクライアント・ワークステーションへの送信方法 Download PDFInfo
- Publication number
- JP3942290B2 JP3942290B2 JP32258398A JP32258398A JP3942290B2 JP 3942290 B2 JP3942290 B2 JP 3942290B2 JP 32258398 A JP32258398 A JP 32258398A JP 32258398 A JP32258398 A JP 32258398A JP 3942290 B2 JP3942290 B2 JP 3942290B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- document
- layout
- user
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Editing Of Facsimile Originals (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、一般に、ドキュメントの大きなコーパスを管理しサーチするためのシステムに関し、より詳細には、ドキュメントの大きなコーパスに記録されたドキュメントをそれらのレイアウト・コンポーネントによってプログレッシブに送信及び表示するシステムに関する。
【従来の技術】
【0002】
様々な作業経験を調べることによって、コーパス内のドキュメントをそれらのタイプまたはジャンル(すなわち、機能カテゴリ)によってサーチし検索できるシステムで作業プロセス(すなわち、作業方法)を支援できることが分かっている。ドキュメントのいくつかのジャンルは、それらが様々な構成や作業プロセスにわたり繰り返されるという意味で一般的であり、その他のドキュメントのジャンルは、特定の構成、タスクあるいはユーザに特有である。たとえば、ビジネス・レターとメモは、一般的なジャンルの例である。各ドキュメントの右上角に個人の専用スタンプがある1組のドキュメントは、特定のユーザに特有のジャンルの例である。また、多くの様々なジャンルのドキュメントが、固有の空間的配置を示す既定の形式または標準的な一組のコンポーネントを有することが分かっている。たとえば、ビジネス・レターは、本文、著者と受取人のアドレス、および署名に分かれる。ドキュメントのジャンルを識別するために使用される特定のテキスト・ベースの識別子と異なり、ドキュメントのレイアウト構造は、様々なクラスのドキュメントに当てはめることができる。
【0003】
本発明は、ユーザが指定したドキュメントのレイアウト構造(すなわち、視覚的体裁)を定義して、マルチジャンルのドキュメントのデータベースに記憶されたドキュメントのサーチと検索を容易にする方法および装置に関する。このドキュメントのサーチ方法は、ドキュメントのレイアウト構造を定義する方法によるサーチに焦点を合わせる。ドキュメント内のテキストをサーチするための多くの技法と違って、このようなレイアウト構造によりドキュメントをサーチする技法は、ドキュメント内に確認されたテキスト内容ではなく体裁(外観)に基づく。そのようにレイアウト構造に基づいてドキュメントをサーチするための一般的な前提は、テキストドキュメントのレイアウト構造がそのジャンルを反映することである。たとえば、ビジネス・レターは、雑誌記事よりも互いに視覚的に似ている点が多い。したがって、ドキュメントのクラスを知りつつ特定のドキュメントをサーチするユーザは、サーチするドキュメントのグループの範囲をより有効に絞り込むことができる。
【0004】
本発明が取り組む1つの問題は、スキャンしたドキュメントの大きなコーパスを最も効率よく管理する方法である。多くのドキュメントのサーチおよび検索システムは、全てのスキャンしたドキュメント画像にOCR(光学式文字認識)を適用した結果に完全に依存する。一般に、OCR技法は、解読してライブラリ内の文字と突き合わさる個々の文字に画像を分割する処理を含む。通常、そのようなOCR技法は、高い計算能力を必要とし、一般に無視できない程の認識エラーを有し、しばしば画像処理に膨大な時間を必要とする。動作において、OCR技術は、1つの文字の各ビットマップをその隣の文字と区別し、その外観を解析して、それを所定の一組の文字内の他の文字と区別する。
【0005】
ビットマップ画像でOCR解析を実行する代替は、ビットマップ画像上で内容ベースのサーチを実行するシステムである。そのようなシステムの例は、IBMのQuery Image Content(QBIC)システムである。QBICシステムは、SPIE Proc. Storage and Retrieval for Image and Video Databases、1993における、ニブラック(Niblack )他による「QBICプロジェクト:色、テキストおよび形状を利用した内容による画像照会(The QBIC project: querying images by content using color, texture and shape)」と題する論文、およびSPIE Proc. Storage and Retrieval for Image and Video Databases、ページ24〜35、1995における、アッシュレー(Ashley)他による「QBICにおける画像注釈および検索の自動および半自動方法(Automatic and semiautomatic methods for image annotation and retrieval in QBIC) 」と題する論文に開示されている。QBIC検索エンジンのデモは、インターネットの「http://wrvwqbic.almaden.ibm.com/-qbic/qbic.html 」で見ることができる。QBICシステムを使用することにより、大きな画像データベース内のビットマップ画像を、色の割合、色のレイアウト、テクスチャなどの画像特性によって照会することができる。QBIC(登録商標)システムによって実現される画像ベースの照会は、絞り込んだサーチを行うために、テキストやキーワードと組み合わされる。
【0006】
内容ベースの照会を行うもう1つのシステムは、UCバークレー・ディジタル・ライブラリ・プロジェクト(UC Berkeley Digital Library Project) の一部分として開発されている。低レベルの画像の特性に依存してサーチを実行するQBIC(登録商標)システムと違い、バークレーのシステムは、低レベル領域の特性と関係をグループ化して高レベルのオブジェクトを定義する。バークレーのシステムの前提は、色とテクスチャの意味のある配置によって高レベルのオブジェクトを定義できることである。バークレーのシステムの態様は、チャド・カーソン(Chad Carson )他による「領域ベースの画像照会(Region-Based Image Querying )」、CVPR '97 Workshop on Content-Based Access of Image and Video Libraries、サージ・ベロンギ(Serge Belongie)他による、「学習フレーム構造を使用する大型データベース内の画像の認識(Recognition of Images in Large Databases Using a Learning Framework)」、UC Berkeley CS Tech Report 97-939 、およびチャド・カーソン(Chad Carson )他による「大型オン・ライン画像収集のための特徴データの記憶と検索(Storage and Retrieval of Feature Data for a Very Large Online Image Collection)」、IEEE Computer Society Bulietin of the Technical Committee on Data Engineering 、1996年12月、 Vol.19 、No.4の、論文と参考文献に開示されている。
【0007】
スキャンしたドキュメントの内容の判読にOCRプログラムなどを使用する他に、ハードコピードキュメントをスキャンするたびにドキュメントメタデータ(すなわち、ドキュメント情報)を記録することも一般的である。このドキュメントメタデータは、テキストとしてサーチ可能であり、ドキュメントの主題、ドキュメントの著者、ドキュメント内にあるキーワード、ドキュメントの題名、およびドキュメントのジャンルまたは種類を含む。ドキュメントを識別するためにドキュメントメタデータを使用する欠点は、特定のコーパスのドキュメントに指定されるジャンルが定まっていないことである。むしろ、コーパス内のドキュメントの異なるジャンルの数は、コーパスが大きくなるにつれて変化することがある。ドキュメントメタデータのさらに他の欠点は、ユーザがシステムに入力するのに時間がかかることである。その結果、スキャンしたドキュメントを管理しサーチするシステムは、コーパスに新しいドキュメントを追加したときにドキュメントフォーマットのカテゴリとサブカテゴリを定義する機構を十分に提供できるほど頑強でなければならない。
【0008】
【発明が解決しようとする課題】
したがって、OCRプログラムとサーチ可能な入力ドキュメントメタデータを利用して識別されるテキストだけでなく、スキャンしたドキュメントの視覚的表現を識別することができるような、スキャンドキュメントの大きなコーパスを管理しサーチするためのシステムを提供することが望ましい。そのようなシステムは、ドキュメントの構造とフォーマットを定義する情報を利用してドキュメントを有利にサーチし、要約し、ソートし、送信する。また、そのようなシステムおいて、ユーザがドキュメントの特定のレイアウト・フォーマットによってドキュメントのジャンルを柔軟に指定するためのインタフェースを提供することが望ましい。これが必要な1つの理由は、ドキュメントを利用しコーパスに追加する過程でドキュメントのジャンルが変化したり出現したりする傾向があることである。したがって、理想的なシステムは、単一ユーザまたはユーザ・グループに関心のある新しいジャンルまたは特定のクラスのジャンルを指定するフレキシビリティをユーザに提供することである。
【0009】
【課題を解決するための手段】
本発明によれば、サーバ・ワークステーションにおけるメモリに記憶されたドキュメント画像をクライアント・ワークステーションに送信するシステムおよび方法ならびに製造物品が提供される。第1に、ドキュメント画像は一組のレイアウト・オブジェクトに分割される。この組のレイアウト・オブジェクトの各レイアウト・オブジェクトは複数のレイアウト・オブジェクトタイプのうちの1つである。この複数のレイアウト・オブジェクトタイプの各々は、ドキュメントの構造要素を識別する。一組の属性は、このレイアウト・オブジェクトの各レイアウト・オブジェクトについて計算される。各レイアウト・オブジェクトについて計算された属性は構造要素の特性を定量化し、ドキュメント画像内の他の分割されたレイアウト・オブジェクトとの空間的関係を識別する値を有する。この組のレイアウト・オブジェクトは、レイアウト・オブジェクトの第1のサブセットと第2のサブセットに分けられる。サーバ・ワークステーションは、レイアウト・オブジェクトの第1のサブセットを第1の解像度で、また、レイアウト・オブジェクトの第2のサブセットを第2の解像度で、クライアント・ワークステーションに送信する。
【0010】
本発明の態様は、
サーバ・ワークステーションにおいてメモリに記憶されたドキュメント画像をクライアント・ワークステーションに送信する方法であって、
ドキュメント画像を、一組のレイアウト・オブジェクトに分割するステップを有し、この組のレイアウト・オブジェクトの各レイアウト・オブジェクトが複数のレイアウト・オブジェクト・タイプのうちの1つであり、複数のレイアウト・オブジェクトタイプの各々がドキュメントの構造要素を識別し、
この組のレイアウト・オブジェクトの各レイアウト・オブジェクトの一組の属性を計算するステップを有し、各レイアウト・オブジェクトに対して計算された属性が、構造要素の特性を定量化しドキュメント画像内の他の分割されたレイアウト・オブジェクトとの空間関係を識別する値を有し、
この組のレイアウト・オブジェクトを第1のサブセットのレイアウト・オブジェクト及び第2のサブセットのレイアウト・オブジェクトに分けるステップを有し、
第1のサブセットのレイアウト・オブジェクトを第1の解像度で、また、第2のサブセットのレイアウト・オブジェクトを第2の解像度で、サーバ・ワークステーションからクライアント・ワークステーションに送信するステップを有する、
ドキュメント画像のクライアント・ワークステーションへの送信方法である。
【0011】
本発明の以上の及びその他の態様は、同じ参照番号を類似の部分に使用した添付図面と共に以下の説明を読むことにより明らかになるであろう。
【0012】
【発明の実施の形態】
A. システムの概要
次に、表示が本発明について説明する目的であり本発明を制限するためのものではない図面を参照し、図1は、本発明を実施するためのコンピュータ・システム110を示す。コンピュータ・システム110は、ROM、RAMあるいはその他の形態の揮発性または不揮発性の記憶装置を含むメモリ116に記憶された様々なオペレーティングプログラムを実行する中央処理装置114(すなわち、プロセッサ)を含む。ユーザ・データ・ファイルとオペレーティングプログラム・ファイルは、RAM、フラッシュ・メモリ、フロッピィー・ディスクあるいはその他の形態の光学または磁気記憶装置を含むファイル記憶装置117に記憶される。
【0013】
コンピュータ・システム110は、バス・インタフェース115を介して様々なl/O(入力出力)構成要素119に結合される。l/O構成要素は、ファクシミリ126、プリンタ127、スキャナ128およびネットワーク130を含む。プロセッサ114は、バス124を介してプロセッサ114に様々なl/O構成要素119を結合するバス・インタフェース115とデータをやりとりするように適応される。メモリ116において実行する1つまたは複数のプログラムに応答して、プロセッサ114は、様々なl/O構成要素119と信号をやりとりする。ネットワーク130を介してコンピュータ・システム110をインターネットに連結させるすることができるため、プロセッサ114は、インターネット上の他のスキャナ、ファクシミリ、およびメモリ記憶装置から画像データを受け取ることができる。
【0014】
メモリ116における動作が、本発明を含むドキュメントコーパスサーチシステム140である。システム140は、CD ROM読取り装置118などのアクセス装置を介して、コンピュータ・システム110で読み出すことができるポータブル記憶媒体142内にソフトウェア製品としてパッケージされた製造物品と関連付けられてもよい。記憶媒体142は、たとえば、フロッピィ・ディスクなどの磁気媒体や、CD ROMなどの光学媒体、あるいはその他のデータを記憶するための適切な媒体である。
【0015】
ディスプレイ132は、システム140を操作するユーザに情報を中継するユーザ・インタフェースを表示するために設けられる。ユーザがコマンドを入力するために、マウス、キーボード、タッチ・スクリーンを含むがこれらに制限されないユーザ入力装置134が設けられる。1つの例において、ディスプレイ132と入力装置134を使ってユーザ・インタフェースを操作し、ファイル記憶装置117に、スキャナ128、ファクシミリ126またはネットワーク130からのドキュメント画像を記録するように指示する。また、このユーザ・インタフェースを利用して、ファイル記憶装置117に、ファクシミリ126、プリンタ127またはネットワーク130にドキュメントの画像を送信するように指示することもできる。1つの実施形態において、システム140は、インターネット上で動作するブラウザから受け取ったコマンドによってコンピュータ・システム110上で操作される。
【0016】
B.ドキュメントコーパス管理/サーチシステムの概要
図2は、本発明によりドキュメントのコーパスをサーチするためのドキュメントコーパス管理/サーチシステム140の詳細なブロック図を示す。ドキュメントコーパスサーチシステム140は、コーパス・マネージャ210、画像セグメンタ/識別装置211、検索エンジン212およびプログラム・マネージャ214の4つのオペレーティング構成要素を含む。ユーザからドキュメントコーパスサーチシステム140への入力は、ドキュメント入力インタフェース216、サーチインタフェース218、ジャンル・モデル・プログラム・インタフェース219または特徴プログラム・インタフェース220に応答して行われる。ディスプレイ132に表示されるインタフェース216、218、219および220の各々は、後でそれぞれ考察するドキュメントコーパスサーチシステム140によって提供される様々なサービスに対応する。1つの実施形態において、インタフェース216、218、219および220の各々は、マイクロソフト(Microsoft) 社のExplorerTMやネットスケープ(Netscape)社のNavigatorTMなどの従来のインターネット・ブラウザによってネットワーク130によりインターネット上で動作する。
【0017】
本発明により、ドキュメントコーパス管理/サーチシステム140は、幾何学的レイアウト解析を利用して、スキャンしたドキュメントの構造的記述を明らかにする。ドキュメントの構造的記述は、ドキュメントの構成またはレイアウト・フォーマットに基づく。ドキュメントの構造的記述を明らかにする際、画像セグメンタ211は、ドキュメントの一部の構造的記述であるレイアウト・オブジェクト238を識別する。さらに、画像セグメンタ211は、識別されたレイアウト・オブジェクトの属性240を計算する。レイアウト・オブジェクトの属性は、レイアウト・オブジェクトの特性を定量化し、あるいは他のレイアウト・オブジェクトに対する空間的関係を識別する。幾何学的レイアウト解析は、所与のジャンルの複数のドキュメント(たとえば、メモ)のドキュメント間の構造的類似度を識別するために有利に実行することができる。
【0018】
ドキュメント画像(本明細書では単にドキュメントとも呼ぶ)のページ画像において分割されたレイアウト・オブジェクトの空間的配置は、属性240かまたは特徴242を使用して定義されることができる。ページ画像内のオブジェクトの空間的配置を定義する際、画像セグメンタ211は、ページ画像内に見られるテキストと図形の構造を調べる。ページ画像のテキスト構造は、ページ画像内のテキスト・ブロックが他のテキスト・ブロックによって定義された基準のフレームに対して持つ空間的関係によって説明される。画像セグメンタ211によって検出されるテキスト・ブロックは、テキストの段落などの構造的要素を識別する。空間的に関連づけることができるページ画像上のテキストと違い、ページ画像の図形構造は、特別な又はその場限りの図形関係を含んでもよい。
【0019】
システム140は、ドキュメント画像のジャンル(すなわち、種類)が、ドキュメント画像のページ画像上の少なくともいくつかオブジェクトの空間的配置に反映されるという一般的な仮定の上で動作する。特徴プログラム・インタフェースを使用して、特徴242が、ユーザによって定義される。ユーザは、特徴を導き出す他に、ジャンル・モデル・プログラム・インタフェース219を使用してジャンル・モデル244を指定することができる。各ジャンル・モデル244は、収集された複数のドキュメント画像の間で共用されるドキュメント画像におけるページ画像内のオブジェクトの空間的配置を識別する。ジャンル・モデルを定義することにより、ユーザは、ドキュメント内容に依存しない共通の通信目的を表すドキュメント画像のクラスを定義することができる。
【0020】
C.ドキュメントのコーパスのソート
ドキュメント入力インタフェース216を介し利用可能にされたサービスは、ドキュメント画像237のデータベース(またはコレクション)を作成するための機能を提供する。ドキュメント画像のデータベースは、スキャンしたハードコピードキュメントか電子的に作成したドキュメントのいずれかによって作成される。たとえば、スキャナ128を利用して、ハードコピードキュメントを表現するビットマップ画像を作成することができ、一方入力装置134を利用して電子ドキュメントを作成することができる。さらに、ドキュメント画像のデータベースは、スキャンしたハードコピードキュメントと電子的に生成したドキュメントの両方をネットワーク130を介して受け取ることによって作成することもできる。
【0021】
ファイル・システム117を作成するドキュメントのコレクション(収集物)は、階層的に配列される。当業者には、本発明の目的のために、本明細書で説明する操作をドキュメントのコレクション全体でもドキュメントのコレクションの部分集合上でも実行できることを理解されよう。ファイル・システムの階層の一部として、各ドキュメント画像237は、1つまたは複数のページの配列、1つまたは複数のジャンル値244へのポインタ、およびドキュメントメタデータ224へのポインタを含むドキュメントデータ構造と関連付けられる。ページの配列における各ページは、ページ画像226へのポインタを含むページデータ構造と関連付けられ、1つまたは複数の縮小スケール画像228へのポインタ、1つまたは複数の構造画像230へのポインタ、レイアウト・オブジェクト238へのポインタ、属性240へのポインタ、OCR済みテキスト236へのポインタまたは特徴値242へのポインタを含んでもよい。各ドキュメント画像237は、階層的配列にしたがって、1つまたは複数のページ画像226を含む。ここでは、ページ画像226は、スキャンされたハードコピーまたは電子的に生成したドキュメントの1ページとして定義される。
【0022】
コーパス管理210は、ユーザからのコマンドに応答して、ファイル・システム117にドキュメント画像237を記録する。ユーザは、ドキュメント入力インタフェース216を使って、ドキュメントメタデータ224としてファイル・システム117に記録されるドキュメント画像の特性を手動で指定することができる。ユーザは、このときまたは少し後でドキュメントメタデータ224を指定することができ、ドキュメント画像はスキャンされ、あるいはファイル・システム117に追加される。より具体的には、ファイル・システム117に記憶されたドキュメント画像のドキュメントメタデータ224には、ドキュメントタイプ識別子、ドキュメント作成日、ドキュメントタイトルおよびドキュメントキーワードを記録されることがある。
【0023】
コーパス・マネージャは、ドキュメントメタデータ224とページ画像226を記憶する他に、縮小スケール画像228と構造的画像230を生成する。ユーザの好みにより、ユーザが特定の解像度を選択して、記録されたページ画像を見ることができる。ユーザの好みにより、ページ画像226のそれぞれごとに解像度が異なる縮小スケール画像が生成される。1つの実施形態において、縮小スケール画像は、米国特許第5,434,953号明細書に記載された方法を使って生成される。一般に、縮小スケール画像は、より高い解像度のページ画像への視覚的インデックスとして使用される。構造的画像230は、縮小スケール画像と同様、ユーザが指定することができる可変の解像度を有する。しかしながら、縮小スケール画像と違って、構造的画像230は、ページ画像内の特定のレイアウト・オブジェクトを強調する。1つの実施形態において、コーパス・マネージャ210は、ディスク・スペースを節約する必要がある場合に、縮小スケール画像と構造的画像を生成する。
【0024】
C.1 レイアウト・オブジェクトの分割
ドキュメント画像237のページ画像226を記録した後、画像セグメンタ211は、各ドキュメント画像のページ画像を1つまたは複数のレイアウト・オブジェクト238に分割する。ページ画像の分割された各レイアウト・オブジェクトは、画像セグメンタ211によって、表1に示した基本レイアウト・オブジェクト・タイプ(または、「レイアウト・オブジェクト」)のうちの1つとして識別される。レイアウト・オブジェクトは、本明細書において、ドキュメント画像の要約部分の構造的記述である基本要素として定義される。(ここで定義したように、ドキュメント画像は暗黙的にそのページ画像を指す)しかしながら、当業者は、表1の基本レイアウト・オブジェクト・タイプのリストが例示であり、その他のレイアウト・オブジェクト・タイプを含むように変更できることを理解されよう。たとえば、表1は、ハーフトーン領域用のレイアウト・オブジェクトを含むことができる。
【0025】
【表1】
【0026】
1つの実施形態において、画像セグメンタ211は、R.ハラリック(R. Haralick )による論文「ドキュメント画像についての理解:幾何学的レイアウトと論理的レイアウト(Document image understanding: geometric and iogical layout)」、Proc. IEEE Conf.On Computer Vision and Pattern Recognition、1994: 385-390 に考察されているように、光学式文字認識システムでテキスト・ブロックを検出するために使用される標準的な数学形態論法に基づくテキスト・ブロック分割を実行する。もう1つの実施形態において、画像セグメンタ211は、ゼロックススキャンソフト(Xerox ScanSoft)社によって作成されたソフトウェア・プロダクトTextBridgeR に使用されたものと類似のテキスト・ブロック分割プロセスを実行することができる。
【0027】
C2.レイアウト構造の定義
ドキュメント画像のページ画像を1つまたは複数のレイアウト・オブジェクト238に分割した後、画像セグメンタ211は、各分割したレイアウト・オブジェクトに対応する画像属性240を計算する。ドキュメントのテキストの内容に関して動作する他の画像解析技術と比較して、レイアウト・オブジェクトの画像属性を定義する利点は、ページ画像を解析して画像属性を識別することは文字認識に依存しないことである。さらに、いくつかの状況では、ドキュメントのレイアウト・オブジェクトが、ドキュメントのジャンル(たとえば、レター、メモなど)に関して、ドキュメント画像のページ画像内のテキストの内容よりも多くの情報を提供する。したがって、本発明のさらに他の利点は、ドキュメント画像のレイアウト・オブジェクトのテキスト内容が理解されているかどうかに関係なく稼働することである。本発明は、テキスト情報を利用してレイアウト・オブジェクトの内容を識別するのではなく、レイアウト・オブジェクトの属性とそれらの属性の互いの関係を解析することによって、ドキュメント画像の可視外観についての認識を明らかにする。
【0028】
表2〜6に示した属性を計算するために、様々な技法が使用される。表2〜6において定義した多くの属性は、あるテキストのいくつかのブロックがテキストの他のブロックに関連して持つ空間的関係によってページ画像のレイアウト構造を指定する。表2に示したレイアウト・オブジェクトの基本的な2つの属性は、running(本文部)テキスト・ブロックとnon−running(非本文部)テキスト・ブロック(たとえば、running、non−running)を区別する属性と、テキスト・ブロック(たとえば、top−nr(上部非本文部、mid−nr(中間非本文部)の間のグループの関係(または、アラインメント)を定義する属性を含む。
【0029】
識別した後は、non−runningテキスト・ブロックは、米国特許第5,537,491号に開示された方法を利用して、画像の上/下、右/左の境界と重なる相対的程度に基づいてページ画像における上、下または中央の位置のいずれかを有するようにラベルが付けられる。さらに、non−runningテキスト・ブロックは、左、右または中央のいずれかの垂直アラインメント(垂直位置合わせ)を有するようにラベルが付けられる。たとえば、non−runningテキスト・ブロックにleft−aligned(左揃え)とラベルを付けるためには、runningテキスト・ブロックの単一の列が属するleft−xグループに属さなければならない。(すなわち、left−x値は、non−runningテキスト・ブロックとrunningテキスト・ブロックの両方で同じである)。これには、すべてのテキスト・ブロックのleft−x座標、right−x座標およびcenter−x座標に対して個別に十分に安定した方法を適用する必要がある。さらに、non−runningテキスト・ブロックは、水平方向の一連のテキストブロック、垂直方向の一連のテキスト・ブロックまたはテーブルのいずれかとしてラベルが付けられる。これらの操作は、さらに他の特定の属性を定義するために組み合わせることもできる(たとえば、top−left−alignedのnon−runningテキスト・ブロック)。また、これらの操作は、その他の操作と組み合わせて、画像属性にさらに他の幾何学的な制約を課すこともできる(たとえば、上のnon−runningテキスト領域内の全テキスト・ブロック領域に対して標準化されたtop−left−alignedのnon−runningテキスト・ブロック)。
【0030】
レイアウト・オブジェクトの属性タイプは、一般属性タイプと指定属性タイプに分けられ、ファイル・システム117に属性240として記憶される。一般属性タイプは、すべての基本レイアウト・オブジェクトに定義される属性である。表2は、表1にリストにした各レイアウト・オブジェクト(すなわち、l/o)の一般属性を示す。指定属性タイプは、具体的には特定のタイプのレイアウト・オブジェクトに定義される属性である。たとえば、表3は、テキスト・オブジェクトのタイプ指定属性のリストであり、表4は、図形オブジェクトのタイプ指定属性のリストであり、表5は、ページ・オブジェクトのタイプ指定属性である。さらに、レイアウト・オブジェクトの一般属性タイプと指定属性タイプを使って、合成的な属性を定義することができる。表6は、一般的なタイプのオブジェクトを使って定義された合成属性を示す。
【0031】
【表2】
【0032】
【表3】
【0033】
【表4】
【0034】
【表5】
【0035】
【表6】
【0036】
表2〜6のそれぞれに示した属性は、二進値(すなわち、真/偽)でも数値(すなわち、整数または実数)でもよい。表2〜6でイタリック体フォント(表2のrunningからbot−nr(下部非本文部)までと、表3のleft- alignedからv−internalまで)で表した属性タイプは、ブール値を有する。二進値の属性は、通常、レイアウト・オブジェクト間のセット・メンバーシップ関係を表わす。たとえば、「running」や「non−running」などの二進値の属性の一般属性タイプは、レイアウト・オブジェクト間のグループ化関係を定義する。数値の属性は、通常、オブジェクトの真の幾何学特性、または順序関係に対する組のインデックスを表す。タイプ属性値は、表2〜6では記号として表わされているが、絶対値(すなわち、標準化されていない)属性値は数値で表されることを、当業者は理解されよう。
【0037】
各ページ画像226のレイアウト・オブジェクト238を識別した後、テキスト・ブロックとして識別されたレイアウト・オブジェクトは、画像セグメンタ211の一部を構成する識別装置(識別子)によってさらに処理することができる。1つの実施形態において、テキスト・ブロックとして識別された各レイアウト・オブジェクトが、その中にあるテキストを認識するために、光学式文字認識技法または適切な代替技法を利用して識別装置211によって処理される。しかしながら、当業者は、本発明の目的のため、テキスト・ブロックとして識別されたレイアウト・オブジェクトにはOCRを実行する必要がないことを理解されよう。しかしながら、後で考察する教示から明らかになるように、テキスト・ブロックとして識別されたレイアウト・オブジェクト内のテキストを認識するためのいくつかの利点が存在する。テキスト・ブロック・レイアウト・オブジェクト内で認識されたテキストは、テキスト236としてファイル・システム117に記憶され、検索エンジン・インタフェース218によるテキスト・ベースのサーチを使用してサーチすることができる。
【0038】
C.3 画像データの概要
図3は、ファイル・システム117に記憶されたドキュメント画像237の各ページ画像226と関連付けられたデータの構成を示す。最初に、ユーザは、たとえばドキュメントスキャナ128から受け取ったスキャン画像をファイル・システム117に入れる。ユーザは、ドキュメント画像に関するドキュメントメタデータ224を、タイプ、日付、タイトルおよびキーワードの情報として入力することができる。コーパス・マネージャ210は、ページ画像226のサブサンプリングして一組の縮小スケール画像228を構成する。解像度が最も低い縮小スケール画像は、ここでは略図(thumbnail) 画像として定義される。解像度がさらに低いその他のページ画像は、ここでは、大型画像、中型画像および小型画像として定義される。さらに、構造画像230は各分割レイアウト・オブジェクト238毎に計算されることができる。前述のように、画像セグメンタ211は、ドキュメント画像のページ画像226をレイアウト・オブジェクト238に分割する。ページ画像226から分割された各レイアウト・オブジェクト毎に、画像セグメンタが、さらに画像属性240を計算しコンパクトな形で記憶する。画像属性240は、タイプ一般属性でもタイプ指定属性でもよい。属性の他に、ページ画像の各レイアウト・オブジェクト238は、1つまたは複数の特徴242またはジャンル・モデル244と関連付けることができる。特徴242は、後で節Dで説明するような属性240を使用して定義される。ジャンル・モデル244は、後で節Eで説明するように、属性240かまたは特徴242のいずれかを使用して定義される。
【0039】
D.特徴を利用したドキュメントのレイアウト・フォーマットの定義
特徴プログラム・インタフェース220を使用して、ユーザは、特徴を検出するルーチンを構成することによって、特定のジャンルのドキュメントに固有のレイアウト・フォーマットを指定することができる。たとえば、ページ画像の特徴のルーチンを使って、固有のレター・ヘッドを有するドキュメント画像を識別することができる。一般に、各特徴242は、ルーチンと値によって定義される。特徴のルーチンは、明示的な分岐操作のない1つまたは複数のステップのシーケンスを有する直線的プログラムである。ルーチンの各ステップは、ページ画像226の一組または一部のレイアウト・オブジェクトをゲート制御するかまたはフィルタリングする選択操作である。ルーチンの各選択操作は、特徴プログラム・インタフェース220によりユーザによってプログラムされる。ルーチンは、ページ画像の一組のレイアウト・オブジェクトのすべてまたは部分集合を入力とみなす。ルーチンの選択操作(単数又は複数)および評価するレイアウト・オブジェクトによって、ルーチンの出力は、ルーチンに入力された一組のレイアウト・オブジェクトのうちのすべてまたは一部を出力するか、何も出力しない。
【0040】
ユーザが、特徴プログラム・インタフェース220において特徴をプログラムすると、プログラム・マネージャ214は、その特徴のルーチンを他の特徴242と共にファイル・システム117に記録する。さらに、プログラム・マネージャ214は、ユーザが指定した時間に、ファイル・システム117の各ページ画像226のページ画像について1回に1つ、ルーチンで指定された選択操作を実行する。すなわち、選択操作は、ドキュメント画像を形成するページ画像の数に関係なく、単一のページ画像のレイアウト・オブジェクトに関してプログラム・マネージャによって実行される。ルーチンの各ステップにおいて、プログラム・マネージャ214は、レイアウト・オブジェクトの計算した属性(属性の例については表2〜6を参照)が指定の制約に適合するか否かを判定する。ルーチンの各ステップごとに判定した後の結果は、そのページ画像の値である。ページ画像の特徴の値が、レイアウト・オブジェクトの空集合(すなわちヌル)である場合、ページ画像の中に特徴は表われない。これと対照的に、特徴の値が、レイアウト・オブジェクトの空集合ではない組の場合は、ページ画像の中に特徴が表われる。
【0041】
1つの実施形態において、特徴の選択操作を満足するレイアウト・オブジェクトを有するページ画像のリストと共に、特徴がファイル・システム117に記録される。検索を迅速にするために、特徴の選択操作を満足するレイアウト・オブジェクトのインデックスが、各ページ画像と共にファイル・システム117に記憶される。実際には、特徴242を使用して、プログラムされた特徴の選択操作(単数又は複数)を満足する属性240を有するレイアウト・オブジェクト238とを有するページ画像226を識別する。追加のページ画像226がページ画像のコーパスに追加されると、それらの追加のページ画像に関して、レイアウト・オブジェクト238、属性240および特徴242を計算することができる。この計算は、一般に、一回だけでよく、これにより、検索エンジン212の起動にページ画像のランタイム画像解析が不要になる。
【0042】
D.1 プログラム・ルーチン
所与のコーパスのドキュメント画像の分割されたレイアウト・オブジェクトに関して一組の画像属性を計算した後、それらの属性を使って特徴を定義することができる。さらに、1つまたは複数の特徴を定義した後で、属性と任意の既存の特徴の両方を利用して新しい特徴を定義することができる。このように、予め定義した特徴を利用して特徴を定義することができる。たとえば、1つまたは複数のルーチン(または関数)を利用して特徴を定義して、ページ画像内の特定の構造的レイアウトを有する領域に選択操作を実行することができる。その最も簡単な形態において、ページ画像に適用されるときに、ルーチンの出力がルーチンの定義を満たすページ画像内の一組のレイアウト・オブジェクトになるように、ルーチンが定義される。
【0043】
実際には、ページ画像のレイアウト・フォーマットは、組になったレイアウト・オブジェクト238上で稼働するルーチンを利用してプログラムすることができる。ユーザは、ユーザが一連の基本操作またはその他の予め定義されたルーチンを定義するだけでよいプログラム構成言語を使ってルーチンをプログラムする。これらの一連の基本操作は、ファイル・システム117に記憶されたドキュメントのコーパスの全体または部分集合に適用することができる。前述の節Cで説明したようにコーパスが作成(母集団化)されるとき、各ページ画像226毎に、所与のページ画像に定義された一組のすべてのレイアウト・オブジェクトを指定する一組のレイアウト・オブジェクトLi が定義される。各ルーチンは、実行されると、一組のレイアウト・オブジェクトLi を消費し、新しい組のレイアウト・オブジェクトLo を生成する。ここで、Lo は、一組のレイアウト・オブジェクトLiの部分集合である。
【0044】
プログラム構成言語を使ってプログラムされたいくつかのルーチンRは、フィルタ操作および/またはゲート操作を構成する。フィルタ操作F(L、A、u、v、N)は、Lにおけるレイアウト・オブジェクトの部分集合を生成し、Lの属性引数Aの値はしきい値uNよりも小さくないがしきい値vNよりも小さい。ゲート操作G(L、A、u、v、N)は、Lの属性引数Aの値がしきい値uNよりも小さくないがしきい値vNより小さい場合に、一組のレイアウト・オブジェクトLを生成する。その他の状況では、空集合(すなわち、φ)を生成する。ゲート操作は、条件付き挙動のある一定の許容能力を提供する。定義した後、ゲート操作またはフィルタ操作のそれぞれのルーチンの選択操作を、ファイル・システム117に記憶されたそれぞれのページ画像226のレイアウト・オブジェクトに適用することができる。フィルタ選択操作とゲート選択操作は、数学的に次のように定義することができる。
【0045】
F(L,A,u,v,N)={l ∈L:uN≦A(l)<vN} 及び
【0046】
【0047】
ここでLは、各操作を適用する一組のレイアウト・オブジェクトを指定する入力引数である。
【0048】
Aは、属性の名前または特徴の名前として指定できる属性引数である。(属性引数Aが、ルーチンRで定義される場合、属性引数Aは、次のような新しい二進値の属性Aとして解釈される。
【0049】
【0050】
uとvは、整数定数と実数値のスケールファクタのどちらのしきい値引数でもよい。
Nは、数値の正規化引数である。
【0051】
プログラム構成言語を使ってプログラムされる他方のルーチンRは、一組のレイアウト・オブジェクトLを消費してスカラ数値を生成する。スカラ数値は、しきい値引数uまたはvの一方を指定するかまたはゲート操作の属性引数Aを指定するために、すべての選択操作に使用することができるレイアウト・オブジェクトの全体的な値を表す。そのようなスカラ数値を生成するルーチンはここでは累積演算として定義される。特徴構成言語は、ユーザに次の3つの累積演算を使ってルーチンを定義する機能を提供する。
【0052】
max,max(L,A),は、任意のl∈LAに関してAの最大値を生成する。
【0053】
min,min(L,A),は、任意のl∈LAに関してAの最小値を生成する。
【0054】
sum,Σ(L,A),は、全てのl∈LAに関してAの値の合計を生成する。
【0055】
これらの累積演算は、Lが一連の操作の結果でもよいという点でフィルタ選択操作とゲート選択動作で構成することができる。
【0056】
D.2 特徴プログラム・インタフェース
図4は、基本操作のシーケンス(すなわち、直線的プログラム)を使用して特徴を定義するための対話サイクルのフロー図である。対話サイクルのステップは、一般的なものであり、任意の図形式、対話式、およびインクリメンタル・プログラミング・インタフェースを実施するために使用することができる。対話サイクルの利点は、構成中の直線的プログラムの各ステップが、ユーザが指定したページ画像の例に対する影響をすぐに確認できるという点である。特徴プログラム・インタフェース220(図2に示した)には、構成に従って対話サイクルが図形的に表示される。すなわち、ステップの間で表示されるプログラムを変更すると、選択した例の結果がすぐに更新され再表示される。
【0057】
ステップ400において、対話サイクルは、一組のドキュメント画像例237またはページ画像226を指定するようにユーザに要求することにより開始する。ステップ402において、ユーザは、プログラムされた特徴名を指定するように要求される。ステップ402で指定された特徴名が、既存のプログラムされた特徴242である場合は、ステップ408が実行される。そうでない場合は、ステップ406が実行される。ステップ406において、新しい特徴が、一組の特徴242に作成される。ステップ404または406で指定された特徴名を定義するルーチンが、ステップ408および410で定義される。ステップ408において、一組のレイアウト・オブジェクト288が、選択した特徴の入力レイアウト・オブジェクトとして指定される。より具体的には、ステップ408において、ユーザは、ステップ410で定義された第1の操作を適用する一組のレイアウト・オブジェクトを指定する入力引数Lを定義する。(この入力は、後で説明する例示の表7〜16のステップ0と対応する)ステップ410において、定義する特徴の1つまたは複数の選択操作がユーザによって指定される。対話サイクルは、ステップ412で終わり、このステップでプログラムされた特徴がファイル・システム117に保存される。
【0058】
図5は、ステップ408で定義した一組のレイアウト・オブジェクトに対して1つまたは複数の選択操作または累算操作を指定するステップを説明するフロー図である。ステップ502において、選択された特徴の第1のステップ名が、指定されるかまたは編集される。次に、ステップ504で、フィルタ選択操作、ゲート選択操作、または累算操作が指定される。ステップ506において、フィルタ選択操作の属性引数が指定される。指定された特徴引数は、属性と特徴のどちらでもよい。ステップ508、510および512において、ユーザは、しきい値引数u、しきい値引数vおよび正規化引数Nをそれぞれ要求される。ステップ514において、ユーザは、特徴に関する他のステップを定義するように要求される。すべてのステップが定義された後、ステップ516においてその結果がユーザに表示され、そうでない場合は、ステップ502が繰り返される。ステップ516で新しい特徴ステップ(単数又は複数)が表示された後、ステップ412においてファイル・システム117に新しい特徴の定義が保存される。
【0059】
D.3 プログラムした特徴の例
図6は、図4〜5で説明した対話サイクルを利用したプログラムされた特徴の例を示す。プログラムされた特徴は、ディスプレイ132(図1を参照)などのディスプレイ上にユーザ・インタフェース600によって表示される。別法として、ユーザ・インタフェース600を、ネットスケープ社のNavigatorTMやマイクロソフト社のExploreTMなどの任意のインターネット・ブラウザを使って表示することができる。例示のため、図6に示した例を、図4〜5で説明した対話サイクルで概説したステップに関して説明する。
【0060】
最初に、ドキュメント識別子「12A−00265」を有する単一画像が、図4に示した対話サイクルのステップ400に示したように、図6の表示領域603内の一組のドキュメント画像例として指定される。図6の選択されたドキュメント画像例「12A−00265」(すなわちドキュメントID)は、3つの構造的画像604、606および608を有する。3つの構造的画像はそれぞれ、記録されたドキュメント画像と関連する特定の特徴または属性を識別する。構造的画像604、606および608のそれぞれの黒っぽい領域は、特定の特性を有するものとして識別された領域を示す。より具体的には、構造的画像604、606および608は、テキストのタイプの属性、属性top−nr、および属性top−nr−leftと共に識別子「12A−00265」によって識別されたドキュメント画像内のページ画像を示す(属性type、属性top−nr、属性top−nr−leftは、図2に定義されている)。
【0061】
一組の画像例404を定義した後、表示領域610に示したように、ステップ402(図4)において特徴名「top−nr−left」が指定される。ステップ408において、入力レイアウト・オブジェクトは、この例に示したように、表示領域612に示したような属性top−nr(すなわち、属性top non−running)を有するこれらのレイアウト・オブジェクトによって指定される。プログラムされた特徴の入力オブジェクトを定義した後で、選択された特徴の操作が、図5に詳細に説明したステップ410において定義される。最初に、表示領域614(すなわち、ステップ502)に示したような特徴の選択操作または累算操作の説明を行う。表示領域616において、選択操作がフィルタ操作(すなわち、ステップ506)として指定される。表示領域618において、属性引数Aが、表3(すなわちステップ508)に定義された特徴left−alignedとして選択される。
【0062】
表示領域620と621は、しきい値引数uとしきい値引数v(すなわち、ステップ508と510)にそれぞれ対応する。しきい値引数uが整数1に指定され、特徴引数がブール結果を得るとき、所望のブール値が「真(TRUE)」として示される(図6に示したように)。より一般に、しきい値引数uおよびvは、ユーザが定義した値、表示された値、または統計的に生成した値を使用して指定することができる。ユーザが定義した値は、キーボードやその他同様のものを使ってユーザが入力することができる。表示された値は、ポインティング・デバイスやその他同様のものによりスライダ表示領域から選択することができる。統計的に生成される値は、ユーザが画像の例において特徴の正と負の標本(原本)をクリックした後で、システム140によって自動的に生成される。
【0063】
正規化引数Nは、表示領域622に記録される(すなわち、ステップ512)。しきい値引数uとvが定数のとき、正規化引数は、単に自動的に1になる。すなわち、正規化引数Nを指定することなく、しきい値引数uとvにより値の絶対範囲が定義される。正規化引数Nの値を指定すると、しきい値引数uとvにより値の相対範囲が定義される。
【0064】
表7は、図6に示した特徴top−nr−leftを定義する選択操作のリストを示す。ステップ0において、一組の入力レイアウト・オブジェクトが指定される(すなわち、図4のステップ408)。値「ALL」は、ファイル・システム117のすべてのレイアウト・オブジェクトが、ステップ1で指定されたフィルタリング操作に入力されるべきことを示す。ステップ1で、「テキスト・ブロック(Text−Blocks)」と等しい属性typeを有するレイアウト・オブジェクトだけが選択される。第2のステップは、「真」と等しい属性top−nrを有するテキスト・ブロック属性を有するレイアウト・オブジェクトがすべて選択される。最後に、第3のステップにおいて、「真」と等しい特徴left−alignedを有するレイアウト・オブジェクトだけが選択される。図6において、特徴top−nr−leftは、この特徴の入力レイアウト・オブジェクトが、表示領域612に示された真と等しいtop−nrを有するレイアウト・オブジェクトとして定義されるため、単一ステップを使って定義される。
【0065】
【表7】
【0066】
表8は、前述の特徴構成言語を使って定義された特徴のもう1つの例を定義するステップを示す。より具体的には、表8は、トップレベルの特徴「4−memo−mark(4メモマーク)」を定義するすべてのフィルタ操作のリストを示す。ページ画像の左上側にある無制限の数のオブジェクトを識別する特徴top−nr−leftと違い、特徴4−memo−markは、ページ画像の左側にある4つのマークだけを識別する。(ここで、メモ・マーク(Memo mark)は、ドキュメントのヘッダの「to:」、「from:」、「re:」および「date:」に対応するテキスト・ブロックとして定義される)。前述のように、レイアウト・オブジェクトの各属性は、対応するグローバルな属性またはページ・レベルの属性を有する。このようなグローバルな属性あるいはページ・レベルの属性または特徴は、本明細書においてブラケット内に示される。この例のステップ1において、x−寸法のドキュメント(すなわち、〈x−span〉)の10%未満のオブジェクトだけが、次のステップでフィルタリングされるように選択される。ステップ2において、ドキュメントの一番上のnon−runningテキストのオブジェクトだけが、ステップ3でフィルタリングされるように選択される。最後に、ステップ2でページ画像内で正確に4つのレイアウト・オブジェクトが識別された場合は、その組のレイアウト・オブジェクトが、ステップ3においてゲートを通過する。図6に、構造的画像608において参照番号642で示された領域によって、4つのメモ・マークの例を示した。
【0067】
【表8】
【0068】
表9は、前述の累積操作の1つの例を示す。具体的は、表9は、「min(最小)」の累算操作の例を示す。ステップ0において、表8で定義された特徴「4−memo−mark」を満たすオブジェクトだけが(すなわち、表9のステップ0は、表8で説明したステップ0〜3をそれぞれ含むように解釈される)、ステップ1のレイアウト・オブジェクトに入力される。(前述のように、ブラケットで定義された要素(たとえば< 4−memo−marks−top−y> )は、グローバルなまたはページ・レベルの属性または特徴である)。ステップ1において、グローバルな特徴「4−memo−marks−top−y」が定義される。このグローバルな特徴は、特徴4−memo−marksとしてラベル付けされたページ画像における最上部のレイアウト・オブジェクトの値を識別する。「min(最小)」累算操作は、属性引数Aを有する一組のレイアウト・オブジェクトLにおける任意のレイアウト・オブジェクトの最小値を作成する。たとえば、図6の領域642に示した4つのメモ・マークに関する累算操作の出力は、ページ画像内の残りのレイアウト・オブジェクトの最小値yによって定義される(すなわち、最も上のメモ・マークのy座標、ここでページ画像のx−y座標系の原点が、図3に示したようにページ画像226の画像の左上角として定義される)。
【0069】
【表9】
【0070】
図10に、特徴プログラミング言語を使用する選択操作のもう1つの例を示す。具体的には、表10は、メモ・ヘッダ(memo−header)の特徴を定義するステップを示す。メモヘッダ特徴の例は、図6に示した構造的画像606において参照番号640で識別した線で囲んだ領域で示される。表10中のステップ0において、表2の属性top−nrを満足するオブジェクトをステップ1ですべてフィルタリングするように選択される。ステップ1では、レイアウト・オブジェクトは、その属性top−yの属性引数が、しきい値uNとvNの間にある場合だけ選択され、下限の値(すなわち、uN)は、表9で定義されたグローバルな特徴〈4−memo−marks−top−y〉の値であり、上限の値(すなわち、vN)は無限に大きくすることができる。すなわち、特徴memo−headerは、ページの一番上にあるが最も高い順番のmemo−markよりも下のすべてのnon−runningテキストを識別し、それにより、構造的画像604において参照番号644で識別されたレイアウト・オブジェクトを除去する。
【0071】
【表10】
【0072】
表12〜17は、図3のページ画像226に示される特徴letter−date(レター日付)350、letter−signature(レター署名)352、letter−recipient(レター受取人)354およびletter−cc(レターコピー)356をそれぞれを定義するステップを示す。表11のステップ0において、この特徴の入力レイアウト・オブジェクトとして、利用可能なすべてのレイアウト・オブジェクトが指定される。ステップ1において、「偽(FALSE) 」に等しい属性top−nr−tableを有するオブジェクトだけが、ステップ2でフィルタリングされるように選択される。特徴top−nr−tableは、表12で定義される。続いてステップ2で、「真」に等しい属性top−nr−centerを有するオブジェクトだけが、ステップ3でフィルタリングされるように選択される。特徴top−nr−centerは、表13で定義される。最後に、特徴letter−dateが、ステップ2で選択され、かつ少なくともグローバルな〈bot−y> 座標と等しい最大y座標を有するすべてのレイアウト・オブジェクトによって識別される。グローバルな〈bot−y〉座標は、ステップ2で選択されたレイアウト・オブジェクトだけのグローバルな座標に対応することに注意されたい。
【0073】
【表11】
【0074】
【表12】
【0075】
【表13】
【0076】
表14は、図3に示した特徴letter−recipient354の選択操作を定義するステップを示す。ステップ0は、この特徴の入力レイアウト・オブジェクトがすべてのレイアウト・オブジェクトを含むことを示す。ステップ1において、タイプ・テキスト・ブロックのものであるレイアウト・オブジェクトだけが、ステップ2でフィルタリングされるように選択される。ステップ2において、「真」に等しい特徴top−nrを有するレイアウト・オブジェクトだけが選択される。ステップ3において、top−nrオブジェクトの集合的な文字枠の領域の10%〜60%の領域を有するレイアウト・オブジェクトだけが選択される。ステップ4の残りのレイアウト・オブジェクトは、「真」に等しい属性left−alignedを有するものだけが特徴left−alignedを満たす。
【0077】
【表14】
【0078】
表15は、図3に示した特徴letter−cc356を定義するステップを示す。ステップ1で、text−blockの値と等しい属性typeを有するレイアウト・オブジェクトだけが選択される。ステップ2において、「真」と等しい属性bot−nrを有するステップ1からのレイアウト・オブジェクトが選択される。ステップ3において、特徴letter−ccを満たすために、「真」と等しい属性left−alignedを有するレイアウト・オブジェクトだけが選択される。表16は、図3に示した特徴letter−signature352を定義するステップを示す。特徴letter−ccと異なり、ステップ3において、「偽」と等しい属性left−alignedを有する特徴だけが、特徴letter−signatureを満たすように選択される。
【0079】
【表15】
【0080】
【表16】
【0081】
E.ジャンル・モデルの定義
このコーパス管理/サーチシステム140の利点は、構造解析を2つのレベルで行えることである。低い方のレベルでは、ドキュメント指定のレイアウト・フォーマット(たとえば、レターの受取人フィールドやメモのヘッダ・フィールド)を識別することができる。そのような識別は、本明細書では特徴を利用して行われる。高い方のレベルでは、入力ドキュメントの全体構成が、ジャンル・モデルを利用して補獲される。たとえば、「ビジネス・レター」は、特徴letter−date、特徴letter−recipient、特徴leter−cc、および特徴letter−signature(図3に示したような)により、ほとんどの例で定義できるドキュメントのジャンル・モデルである。いくつかのモデルは、いくつかの共通の特徴を持つ場合があるが、そのようなモデルは、他の特徴の有無により互いに区別することができる。たとえば、メモとレターは、類似の特徴letter−signatureを有することがあるが、それぞれは異なるドキュメントヘッダ特徴(たとえば、4−memo−markとletter−recipient)を有することがある。
【0082】
図7は、ジャンル・モデル・プログラム・インタフェース219(図2に示した)をより詳細に示す。ジャンル・モデル・プログラム・インタフェース219を使用して、ユーザは、ジャンル・モデル244としてファイル・システム117に記憶されたジャンルのモデルを自由に定義することができる。ジャンル・モデルを定義する他に、モデル・プログラム・インタフェース219を利用して、既に定義されているジャンル・モデルをロードして実行することができる。前に定義したように、各ジャンル・モデル244は、メモ、記事、レターなどのドキュメントの内容に関係しない共通の通信目的を指定する。特徴(または属性)が適切な場合、ジャンル・モデルは、モデルが含むべき一組の特徴(すなわち、「包含特徴」)とモデルが除外すべき一組の特徴(すなわち、「除外特徴」)を定義することによって指定することができる。あらかじめ定義したリストから特徴を繰り返し選択することによって、後で考察するように、各組の指定を対話式に行うことができる。モデルを定義した後は、ページ画像のコーパスに記憶されたページ画像に対して、そのモデルを試験することができる。しかしながら、当業者には、さらにニューラルネットワークなどの学習システムのために一組の例ページ画像及び一組の特徴を指定することによって、モデルを自動的に構成できることが理解されよう。
【0083】
動作において、ユーザは、特徴244と属性242を組み合わせることにより、ジャンル・モデル・プログラム・インタフェース219を使用してモデルを作成または変更する。モデルは、プルダウン・メニュー706からモデルを選択した後で「モデルロード(Load Model)」ボタン704を使用することにより、ジャンル・モデル・プログラム・インタフェース219にロードされる。それぞれの特徴または属性に関して、各モデルは、それぞれ参照番号708、710、712および714で示した「In」「Out」「N/A」および重み(Weight)の値を記憶する。たとえば、図7に示したモデルは、特徴4−memo−marksを有するドキュメント(すなわち、「In」と示された)を含み、特徴graphics(図形)を有するドキュメント(すなわち、「Out」と示された)を除外する。しかしながら、後で考察するように、この制約は、0でない重みを特徴に割り当てることによって緩和することができる。N/Aと示した他のすべての特徴と属性は、このモデルには適用できない。新しいモデルを保存するときは、テキスト・フィールド718に新しいモデル名(Model Name)を入力した後で、セーブ(Save)・コマンド・ボタン716を選択する。さらに、セーブ・コマンド・ボタン716を使って、既存のモデルに行った変更を保存することができる。
【0084】
効率を高めるために、各ページ画像は、各特徴と属性が真か偽かを示すあらかじめ符号化された2進ベクトルを有する。あらかじめ符号化されたベクトルは、ページ画像を特定のモデルへ突き合わせる速度を早くする。コマンド・ボタン720を選択してモデルを実行するときは、個別のウィンドウまたはウェブ・ページ(図示せず)が、モデルと一致するドキュメント画像237の第1のページ画像の縮小スケール画像228を表示する。ドキュメント画像がモデルと一致したときは、「In」と示されたすべての特徴と属性が、ドキュメント画像のページ画像に関して真であるが、「Out」と示されたすべての特徴と属性は、ドキュメント画像のどのページ画像に関しても偽である。「N/A」と示された特徴と属性は、適切ではない。
【0085】
重みは、0〜10の範囲でもよく、特定のモデルに関してあらゆる「In」と「Out」の選択を満たさないコーパス内のドキュメント画像をランク付けするために使用される。特徴/属性の重みが0であるように指定される場合は、特徴/属性は、特定のモデルを満たすためにドキュメント画像の「In」または「Out」を一致させければならず、そうでない場合は、ドキュメント画像は、「In」と「Out」の選択を一致させる部分集合だけを有する特定のモデルを満たすことができる。重みの値が0でない場合、サーチ結果は、有無が正確に一致した特徴に対応する重みの合計によって降順に配列される。
【0086】
図8は、図7に示したジャンル・モデル・プログラム・インタフェースを使用して、属性240と特徴242の有無を指定することによって定義することができる3つの異なるドキュメントの高さのレベルの構成の例を示す。図8に示した画像800は、通常レターとしてソートされるドキュメントのジャンルを示す。これと対照的に、画像802は、通常メモとしてソートされ、画像804は、通常記事としてソートされる。前述のように、メモのヘッダは、レターからメモを区別する特徴としてはたらく。これと対照的に、通常記事に見られる多数のカラムは、レターとメモの両方から記事を区別するのに役立つ。図8は、ドキュメント画像中の特定の画像属性および/または特徴の有無を指定することによって、異なるジャンルのドキュメント画像を容易に識別できることを示す。
【0087】
F.ドキュメントコーパスのサーチ
図9は、ファイル・システム117に記憶されたドキュメント画像のコーパスをサーチするための検索エンジン・インタフェース218の例を示す。図9に示した例示的な検索エンジン・インタフェース218は、メモリ・ファイル・システム117に記憶されたテキスト236、ドキュメントメタデータ(すなわち、タイトル、日付、キーワードおよびタイプ)224、特徴242、およびジャンル・モデル244をサーチするための機構を提供する。このような様々なクラスのサーチの1つまたは組合せは、特定クラスのサーチを選択し、表示領域900内のサーチのクラスのパラメータを指定することによって実行することができる。ユーザは、サーチのクラスとサーチパラメータを指定したら、「サーチ実行(RUN SEARCH)」ボタン901を押して、指定したサーチを実行する。その後のサーチの結果は、それぞれ上書き(Overwrite)ボタン903、累積(Accumulate)ボタン905、削除(Subtract)ボタン907または論理積(Intersect)ボタン909のうちの1つを押すことによって、前のサーチ結果に上書きするか、それを累積するか、それから削除/減算するか、それとAND演算することができる。
【0088】
テキスト・データベース236(図2に示した)は、ボタン902を選択し、テキスト・ベースの情報(Clue)をテキスト表示領域904に入力することによってサーチされる。このサーチは、ASCII文字で実行され、図示しないプリファレンス・ウィンドウ内でユーザによって選択されるブール論理または確率を使用して定義することができる。ドキュメントメタデータ(たとえば、タイプ、日付、タイトルおよびキーワード・データベース)224は、それぞれボタン912、908、906および910のうちの1つを選択することによりサーチされる。ユーザは、サーチのクラスを指定する他に、各サーチを実行するために使用するサーチパラメータを指定しなければならない。タイトルサーチの場合には、ユーザが、テキスト表示領域914にタイトルを提示するテキスト情報を入力しなければならない。日付サーチの場合、ユーザは、正確な日付又は開始期間916と終了期間918に日付の範囲を入力することができる。キーワードサーチの場合は、メニュー920に表示された一組のキーワードのうちの1つを選択しなければならない(示したデフォルトは、「NONE」)。最後に、ドキュメントタイプのサーチの場合は、メニュー922に表示される一組のドキュメントタイプのうちの1つを選択しなければならない(示したデフォルトは、「NONE」)。テキスト、タイトル、日付、キーワードまたはドキュメントタイプのサーチのための支援情報は、ユーザがハイパーテキスト・リンク924、926、928、930または932を選択することにより得ることができる。
【0089】
属性240または特徴242のいずれかの特徴サーチを実行するために、ユーザは、ボタン934を選択し、メニュー936(示したデフォルトは、「NONE」)から特徴を選択する。特徴が一組の特徴242に追加されると、新しい特徴が、特徴メニュー936に追加される。特徴メニュー内のそれぞれの特徴が何であるかをよく理解するために、ユーザは、検査特徴ボタン937またはドキュメント付き検査特徴ボタン939を使用して各特徴の定義を調べることができる。ボタン937または939を使用して、特徴の定義が、たとえば図6に示したように表示される。「ドキュメント付き」(すなわち、w/Docs)ボタン939を使って特徴を調べる場合は、前のサーチから累積されたドキュメント画像が、図6で略図604、606および608によって示したように要約される。さらに、ボタン975を選択して、メニュー976からジャンル・モデルを選択することによって、モデルサーチを実行することができる。ジャンル・モデル976のメニューは、ジャンル・モデル・プログラム・インタフェース219を使って定義されたジャンル・モデル244の各々を含む。新しいジャンル・モデルを調査または開発するために、ハイパーテキスト・リンク977を選択して、モデル・プログラム・インタフェース219を表示させることができる。ページ画像226の属性240と特徴242の計算は、インタフェース218を利用してサーチを呼び出す前に実行されるので、インタフェース218を利用して実行されるサーチ操作は、ランタイム画像解析を含まず、時間とスペース両方の効率が高いという利点を有する。
【0090】
表示領域900内でクラスのサーチのうちの1つを実行した後、その結果が、検索エンジン・インタフェース218に表示される。1つの実施形態において、サーチを満たす略図が表示される。表示された略図のうちの1つを選択することにより、ユーザがより詳細に調べることができるように、略図のオリジナルのページ画像が表示される。一般に、結果は、ユーザが指定する任意の形で表示することができる。たとえば、ユーザは、チェックボックス948を利用してファイル・システム117から命じられたときに結果を表示するように指定することができる。また、ユーザは、チェックボックス945を利用してドキュメントの最初のページだけを表示させるように指定することができる。さらに、ユーザは、チェックボックス940、942、944、あるいはメニュー946のエントリをそれぞれ選択することによって、結果を表示するときに、ドキュメントのタイトル、ドキュメントの略図、ファイル情報および選択した特徴を提示するように指定することができる。サーチの結果は、「再表示(Redisplay Results) 」ボタン938を選択することによって、新しいフォーマットを指定した後で再表示させることができる。
【0091】
G.1つのドキュメント画像と組となるドキュメント画像の要約
前述のように、図3は、複数のレイアウト・オブジェクト238に分割された(ドキュメント画像237の)ページ画像226の例を示す。特徴242は、レイアウト・オブジェクト238の各々を定量化する属性240を使用して定義される。各特徴242は、いくつかの特性を有するページ画像の特定の領域を識別するルーチンを使って定義される。たとえば、図3に示した特徴は、letter−date(レターの日付)、letter−signature(レター署名)、letter−recipient(レター受取人)およびletter−cc(レターコピー)・フィールドを表わすページ画像内の領域を識別するために使用されるルーチンである。これらの特徴の各々は、レイアウト・オブジェクト(layout objects)238が、ドキュメントの特定の特徴を識別するために意図的に分割されないため、1つまたは複数の「テキスト・ブロック(Text Block)」レイアウト・オブジェクトを使って定義することができる。代りに、レイアウト・オブジェクトは、ドキュメント画像の内容と無関係なドキュメント画像内の構造的要素のタイプを表わす。
【0092】
ユーザが定義した特徴242を使用して、ユーザは、1つまたは組になったドキュメント画像のためのユーザが作成した要約画像を明確に表現(公式化)することができる。図9は、ユーザが作成したドキュメント画像の要約画像を作成するために使用できるユーザ・インタフェース218を示す。1つの実施形態において、ユーザが、インタフェース218を利用してサーチを行って、ドキュメント画像の部分集合を定義する。次に、ユーザは、参照番号960によって示された要約コマンドを使って、サーチによって識別されたドキュメント画像の部分集合の要約画像を作成する。ユーザ・インタフェース218は、ユーザに、メニュー962、964、966および968においてサーチによって識別された各ドキュメントを要約するために、少なくとも4つの異なる特徴242を提供する。特徴の数を4つに制限する必要がないことは当業者に理解されよう。あるいは、ユーザ・インタフェース218は、1つまたは複数のドキュメント画像を要約する任意の数の特徴を提供することもできる。また、ドキュメントのコーパスをサーチする前にコマンド・ボタン960を選択し、それによりコーパス内のドキュメント画像のコレクション全体を要約できることは当業者に理解されよう。すなわち、ユーザが作成する要約画像を、ファイル・システム117内の単一のドキュメント画像、ドキュメント画像の部分集合またはすべてのドキュメント画像に関して作成することができる。
【0093】
図10は、1つまたは複数のユーザ指定の操作を選択して、ユーザ作成要約画像の合成要約画像の出力フォーマットをカスタマイズするために使用できる要約表示プロファイル(Summarization Display Profile) 1002を示す。表示プロファイル1002は、図9に示したインタフェース218上のボタン990を選択することによってアクセスすることができる。要約表示プロファイルを定義した後は、チェックボックス992を選択することによってプロファイルを起動化することができ、あるいは、チェックボックス992が選択されていないときは、システム・デフォルト設定を利用して、ユーザ作成の要約画像をフォーマットする。より具体的には、要約表示プロファイル1002により、ユーザは、チェックボックス1004〜1014におけるユーザが指定した1つまたは複数の操作により、ドキュメント画像の1つまたは複数のユーザ作成要約画像を表わす合成要約画像の出力フォーマットをカスタマイズすることができる。チェックボックス1004を選択することにより、ユーザは、ドキュメント画像内に一致する特徴が存在しない場合に、ドキュメント画像を合成要約画像内で無視することを要求することができる。複数の特徴が選択されるとき、ユーザは、チェックボックス1006を使用して、ユーザ作成要約画像内の特徴を突き合わせるためだけに参照することを指定できる。
【0094】
また、要約表示プロファイル1002は、チェックボックス1010を選択することによって指示した数のOCR文だけを合成要約画像に出力するように要求することによって、ドキュメント画像の特徴を要約するレイアウト・オブジェクトを配置する機能をユーザに提供する。さらに、ユーザは、チェックボックス1008を選択することによって、ドキュメント画像を要約する特徴のレイアウト・オブジェクトをスケール(拡大/縮小)するように指定することができる。また、表示プロファイル1002において、ユーザは、チェックボックス1012で強調(ハイライト)することにより、選択して要約する特徴のレイアウト・オブジェクトを合成要約画像に出力するように指定することができる。さらに、ユーザは、チェックボックス1014においていくつかの特徴のレイアウト・オブジェクトが合成要約画像に出力される順序を指定することができる。ユーザ要約表示プロファイル1002に示された合成要約画像の出力フォーマットを指定するためのオプションは例示的なものであり、その他のオプションを容易に含めることができることは、当業者には理解されよう。
【0095】
図11は、ドキュメントコーパスサーチシステム140が、1つまたは複数のドキュメント画像のユーザ作成要約画像を生成するステップを示すフロー図である。最初に、ステップ1102で、ドキュメント画像のコレクションを受け取る。このコレクションのドキュメント画像は、たとえば、サーチインタフェース218を使ってサーチを実行することによって定義することができる。一ドキュメント画像のコレクション内の各ドキュメント画像は、複数のページ画像を含む。これらのページ画像はそれぞれ、ある時点でその属性240と特徴242を生成するために、画像セグメンタ211とプログラム・マネージャ214によって処理される。次に、ステップ1104において、ステップ1120で受け取ったドキュメント画像の要約画像の表示を要求するコマンドを受け取る。ステップ1104でコマンドを受け取ることに加え、ステップ1106で一組の特徴を受け取る。これらの特徴は、ユーザによって、予め定義された一組の特徴から選択されるか、または図4〜図5に示した方法を使って新しい特徴をプログラミングすることによって選択される。1つの実施形態において、ユーザが、メニューの962、964、966または968において1つまたは複数の特徴を指定し、図9に示したコマンド・ボタン960を選択した後で、ステップ1104で受け取ったコマンドとステップ1106で受け取った一組の特徴が受け取られる。
【0096】
ステップ1108において、ドキュメント画像のコレクションのうちの各ドキュメント画像に対して、システム140は、ステップ1106で受け取った一組の特徴のうちの特徴を定義するレイアウト・オブジェクトを識別する。次に、ステップ1110において、ドキュメント画像のコレクションのうちの各ドキュメント画像に対して、ステップ1108で識別された特徴と関連付けられたレイアウト・オブジェクトをアセンブルすることによって要約画像が形成される。ステップ1112において、ユーザが、合成要約画像を作成する際にユーザ要約表示プロファイルを使用するというチェックボックス992(図9に示した)を指定した場合は、ステップ1114が実行され、そうでない場合は、ステップ1116が実行される。
【0097】
ステップ1114において、ステップ1110でアセンブルされた要約画像を定義するレイアウト・オブジェクトが、ユーザが定義したユーザ要約プロファイルから選択された既定のユーザ指定動作によって変更される。より具体的には、ステップ1114においてアセンブル済みの要約画像を変更するために使用される特定のユーザ指定動作(単数又は複数)が、要約表示プロファイル1002においてチェックボックス1004〜1014のどれが選択されているかによって決定される。前述のように、ユーザは、図9に示したボタン990を選択することによってユーザ要約プロファイル1002(図10に示した)を定義することができる。ユーザ要約プロファイルが、ステップ1112で指定されない場合は、代わりにシステム・デフォルト要約表示プロファイルが使用される。ユーザ要約表示プロファイルを使用する場合は、ステップ1115で実行したものと類似のアセンブル済み要約画像内のレイアウト・オブジェクトのさらに他の処理が必要なこともあることが、当業者には理解されよう。
【0098】
ステップ1114において要約画像をアセンブルするために実行される変更は、ユーザ要約表示プロファイル1002(図10に示した)において選択されたオプションに従って実行される。たとえば、ユーザ要約表示プロファイルにおいてチェックボックス1004を選択するか否かによって、2つの異なる要約画像を作成することができる。チェックボックス1004を選択せず、選択された特徴がどれもページ画像内に見つからないとき、ドキュメントはそのタイトル(ドキュメントメタデータ224から識別された)だけによって表示される。しかしながら、チェックボックス1004がチェックされた場合は、そのような一致しないドキュメント画像への参照は、要約画像から完全に省略される。すなわち、1つの特徴だけが指定されドキュメント画像がその特徴を持たないとき、その画像のドキュメントメタデータ224は、そのドキュメント画像の要約画像の一部としては含まれない。さらに、チェックボックス1106を選択し、複数の特徴を選択したときは、一致する特徴を有する特徴だけが、要約画像内の特徴タイトルで識別される(例は、図14を参照)。
【0099】
ステップ1116において、合成要約画像は、ステップ1114で変更されるか変更されないかによってアセンブル済み要約画像を使って作成される。図12、13および14は、図11に概略的に示したステップを利用して作成された合成要約画像の3つの異なる例を示す。図12は、要約画像1202、1204、1206および1208が、4つのドキュメント画像のheader field(ヘッダ フィールド)特徴(たとえば、4−memo−marks)に対応するレイアウト・オブジェクトを含む合成要約画像1200を示す。この例では要約するのに1つの特徴だけが選択されているため、各要約画像には特徴タイトルは提供されない。合成要約画像1200の各ヘッダ・フィールドの下には、特徴に対応するレイアウト・オブジェクトが配置される各ドキュメント画像のドキュメントタイトルがある。図13は、合成要約画像1300がドキュメント画像の受取人(recipient)フィールドを要約する要約画像1302、1304、1306および1308を含むもう1つの例を示す。更に他の例は、合成要約画像1400が4つの要約画像1402、1404、1406および1408を含む図14に示される。要約画像1402、1404、1406および1408は、4つのドキュメント画像の特徴letter−date、letter−recipient、およびletter−signatureに対応するレイアウト・オブジェクトを含む。この例では、3つの異なる特徴が選択されたので、識別された特徴を示す各要約画像にタイトルが提供される。
【0100】
最後に、ステップ1118において、ステップ1116で作成された合成要約画像がユーザディスプレイに表示される。しかしながら、別法として、ステップ1118が、プリンタなどの任意の数の出力装置に合成要約画像を出力することによって実行することができることは当業者には理解されよう。テキスト・ベースの要約技法よりも優れたこの要約技法の利点は、この要約技法が、ドキュメントテキストの語彙構造ではなく、ドキュメントのレイアウトに潜在的に含まれる機能情報に基づく適切なドキュメント内容を定義する方法に基づくことである。さらに、この要約技法は、OCRプログラムまたはワードパターン検出プログラムが稼働するために必要なものよりも低い解像度で働くため有利である。また、本発明の他の態様と同様に、この要約技法は、レイアウト・オブジェクト上でOCR解析を使用して操作する必要はない。たとえば、特徴letter−signature352(図3を参照)の署名部分を定義するレイアウト・オブジェクトは、何もテキスト内容のないビットマップ画像である。
【0101】
H.特徴または属性によるサーチ結果の順序付け
ドキュメント画像の大きなコーパスにおけるユーザのドキュメント画像の識別を支援するために、ドキュメントの特徴または属性の外観に従ってサーチ結果をソートする方法を提供する。前述の節Gで説明したドキュメント画像の要約と異なり、ドキュメント画像のソートは、類似度を識別するために特徴の画像解析を必要とする。ドキュメントをレイアウト・オブジェクトの類似のグループにソートするこの方法は、一貫性をもつ可視外観及び/又は同種の可視外観を有するレイアウト・オブジェクトを有するドキュメントをグループ化する。動作において、画像ベースの特徴の比較を行うことにより一組のドキュメントをソートして、ドキュメント間のどの特徴がグループ化するのに十分なほど似ているかを判定する。このような画像ベースの比較は、特徴を含む場所から自動的に抽出される画像セグメントを突き合わせることによって実行される。図15と図6に示した1つの方法は、予め定義されたしきい値に従って類似した特徴をグループ化することである。図18に示したもう1つの方法は、選択されたドキュメントからの特徴との類似度の順序によって特徴をランク付けすることである。両方の方法は、特徴の間の距離を計算するクラスタ化技法を使用する。距離が大きくなるほど、2つの特徴は類似しなくなる。距離を利用して一組のドキュメントをランク付け又はドキュメントのクラスタにグループ化した後、その組のドキュメントがソートされたクラスタによって編成され、ドキュメントのコーパス内のドキュメントのサーチが改善される。
【0102】
図15、16および18のフロー図に示した方法は、RAM116内に駐在し、ドキュメントコーパスサーチシステム140(図1を参照)の稼働中にプロセッサ114によって実行される。ドキュメントをソートする他の方法と異なり、そのような方法は、ドキュメント画像の各部を互いに比較するだけなので効率的である。また、これらの方法は、システム140によって自動的に抽出されるドキュメント画像の要素(または部分)に基づいて画像領域(すなわち、テキスト領域ではない)でドキュメント画像をソートするため有利である。後で説明するドキュメント画像の比較方法を変更して、いくつかの効率的な検討を組み込むことができることは当業者には理解されよう。たとえば、ドキュメント画像をレイアウト・オブジェクトに分割するための図15のステップ1500と図18のステップ1800は、リアルタイムで実行される必要はない。その代わりに、ドキュメントの類似のグループ化を行うか単一ドキュメント画像に関するドキュメント画像のランク付けを行うことによって、画像分割は、ユーザがコマンドを呼び出してドキュメントのコーパスをソートする前に一度行うだけでよい。
【0103】
H.1 特徴または属性によるサーチ結果のソート
図15は、ページ画像226(図2と図3を参照)から分割されたレイアウト・オブジェクト238間の類似度に従ってファイル・システム117に記憶されたドキュメント画像237をグループ化するステップを示すフロー図である。最初に、ステップ1500で、画像セグメンタ211によって、ドキュメント画像237のページ画像226が、表1に示したレイアウト・オブジェクト・タイプのうちの1つをそれぞれが有するレイアウト・オブジェクト238に分割される。さらに、ステップ1500において、画像セグメンタと識別装置211が、属性240を計算し、OCRを実行してレイアウト・オブジェクト内のASCllテキスト236を識別してもよい。次に、プログラム・マネージャ214が、画像属性240とレイアウト・オブジェクト238を使って特徴242のルーチンを評価する。1つの実施形態において、OCRは、特定のサーチの対象となるレイアウト・オブジェクトにだけに実行される。
【0104】
ステップ1502において、選択された一組のドキュメント画像237が、システム140によって受け取られる。この組のドキュメント画像は、ユーザによって選択され予め定義された一組のドキュメント画像でも、ユーザによって実行されたサーチによって得られた一組のドキュメント画像でもよい。ステップ1504において、1つまたは複数の選択された特徴または属性をユーザから受け取る。選択された特徴は、ユーザ・インタフェース218における表示領域969のメニューで、ユーザが事前に定義するかまたは選択することができる。たとえば、図9は、ユーザがメニュー962から特徴letter−recipientを選択する例を示す。ユーザが、コマンド・ボタン970を選択して、ステップ1504において選択済みの特徴によってドキュメントをソートした後、ステップ1506で、メニュー962の選択済みの特徴を受け取る。代替実施形態において、インタフェース218は、図9に示したようなドキュメントの特徴だけでなく、特徴及び/又は属性を選択するメニューを含む。
【0105】
ステップ1506において、指定された特徴を構成する選択された組のドキュメント画像内のレイアウト・オブジェクトを識別することによって、一組の画像セグメントが形成される。画像セグメントがビットマップ画像の形式ではない場合は、ページ記述言語(PDL)などの構造化ドキュメント表現内の画像セグメントが、従来のPDLデコンポーザやその類似物によって、ビットマップ表現にレンダリングされる。たとえば、図3に示したページ画像226の特徴letter−recipient354を構成するテキスト・ブロック・レイアウト・オブジェクトは、ページ画像226に関してステップ1506で計算された一組の画像セグメントのうちの1つの画像セグメントを定義することができる。しかしながら、いくつかの例では、画像セグメントは、1つまたは複数のレイアウト・オブジェクトからなることがある(たとえば、図6において、メモ・ヘッダ640の画像セグメントは、メモ・マーク642を定義する別々のレイアウト・オブジェクトからなる)。次にステップ1508で、ステップ1506で形成された一組の画像セグメントが、類似度及び/又は繰り返しパターンを有する意味のあるオブジェクトのグループにソートされる。最後に、ステップ1510において、一組の画像セグメント中のそれぞれの画像セグメントに対応するドキュメント画像またはその縮小スケール画像が、ステップ1508においてソートされた意味のあるグループごとにディスプレイ132でユーザに表示される。
【0106】
より具体的には、ステップ1508において、ビットマップ画像セグメント間の一貫性のあるパータンまたは同種のパターンが識別される。2つの画像セグメント間の類似度の程度によって、画像セグメントが、画像セグメントの類似するグループまたは相違するグループにソートされる。たとえば、類似した2つのビットマップ画像の間のパターンは、類似のフォント・スタイルまたは類似のフォント・サイズを使用することによって発生される。2つのビットマップ・セグメントを解析するとき、それらの形状は、類似度の大きさが事前に定義したしきい値の範囲内にある場合には同じ意味のあるグループに属するようにソートされる。画像領域(すなわち、非テキスト領域)内の画像セグメントを解析してソートを行った後、類似のテキストの意味を有するセグメントを識別するために、(識別装置211によって計算された)テキストのセグメントのソートを実行することができる。たとえば、画像セグメントのテキストの意味は、サブジェクト(主題)の特定のクラスまたはサブジェクトのサブクラスを識別するのに役立つことがある。
【0107】
図16は、図15のステップ1508を詳細に説明するフロー図である。より具体的には、図16は、類似度および/または繰返しパターンを有する画像セグメントを意味のあるグループにソートするための1つの実施形態である。最初に、ステップ1602において、1つの画像セグメントが、ステップ1506において形成された一組の画像セグメントから選択される。ステップ1604において、一組の画像セグメントの残りの各画像セグメントの各々と選択された画像セグメントとの間の距離が計算される。それぞれの距離は、選択された画像セグメントに関して一組の画像セグメントのうちの残りの画像セグメントのそれぞれの間の類似度を定量化する。画像セグメント間のそのような距離測定は、全体的ベースにも局所的ベースにも行うことができる。局所的ベースで行う場合は、2つの画像セグメント間の距離が、各画像セグメントの一部分に関してのみ計算される。たとえば、テキストのすべての行を記録する2つの画像セグメントを、全体的な行ごとに、あるいは局所的な単語ごとまたは文字ごとに、互いに突き合わせることができる。
【0108】
1つの実施形態において、各距離は、残りの画像セグメントの各々と選択された画像セグメントとの間の「ハウスドルフ距離(Hausdorff distance)」を計算することによって決定される。代替実施形態において、各距離は、「ハウスドルフ・フラクション」または「変換による最小ハウスドルフ距離(minimum Hansdorff distance under Transformation)」を計算することによって決定される。ハウスドルフ距離、ハウスドルフ・フラクションまたは変換による最小ハウスドルフ距離の計算の詳細は、1996年にSpringer−Verlagから出版されたウィリアム・ラックリッジ(William Rucklidgeによる論文「ハウスドルフ距離を利用した効率的な視覚的認識(Efficient Visual Recognition Using the Hausdorff Distance)」に開示されている。他の実施形態において、距離は、2つの画像パターンの間の重み付けXORまたはハミング距離を計算することにより決定することができる。距離を計算するためのさらにもう1つの実施形態は、画像セクションを比較して類似度を決定するための方法を説明している米国特許第5,539,841号に開示されている。
【0109】
変換による最小ハウスドルフ距離を計算することにより各距離を決定する利点は、それぞれの距離を計算する際に、画像セグメント間のスケールと向きの小さな変化が考慮される点である。すなわち、スケールや向きの変化によって生じる2つの画像セグメントの差が、変形した状態で最小距離で距離を計算することによって補償される。たとえば、スケールの変化は、書体(たとえばTimesRoman)が似ているがフォント・サイズが異なる(たとえば、10ポイントと12ポイント)2つの画像セグメントを識別することができる。実際には、この方法は、2つの画像セグメント間で最良のハウスドルフ距離測定を生成する変換を識別することによって、類似の属性を有する画像セグメントを識別する。その結果、2つの画像セグメント間の距離を計算するときに、スケールと向きによる画像の変形が考慮される。
【0110】
選択した画像セグメントと一組の画像セグメントのうちの残りの画像セグメントの各々との間の類似度を決定した後で、ステップ1606で、画像セグメントのクラスタを定義する。具体的には、しきい値距離範囲内の距離を有する一組の画像セグメントのうちの残りの画像セグメントを使って、画像セグメントの新しいクラスタを定義する。ステップ1606においてクラスタを形成する画像セグメントは、ステップ1608において一組の画像セグメントから除去される。ステップ1610において、一組の画像セグメントに画像セグメントが残っている場合は、ステップ1602が繰り返される。そうでない場合は、ステップ1510が実行される。ステップ1510において、ステップ1606で定義された各画像クラスタに従って、ステップ1506において形成された各画像セグメントに対応するドキュメント画像が配列される。
【0111】
ステップ1508において、一組の画像セグメントを意味のあるグループにソートするための代替実施形態は、「テキストの2進画像から抽出された記号を比較する方法および装置(Method And Apparatus For Comparing Symbols Extracted From Binary Images Of Text)」と題する、米国特許出願第08/655,546号(以下、特許出願’546)に開示されている。この代替実施形態において、画像セグメントを比較して意味のある画像セグメントのグループを識別するために、ハウスドルフと類似の方法が使用される。ステップ1508で特許出願’546に示された方法を実行する際、次の2つの用語の違いを考慮しなければならない。最初に、特許出願’546において引用された「記号(Symbols) 」は、本発明の文脈では、1つまたは複数のレイアウト・オブジェクトで構成された画像セグメントとして定義される。第2に、特許出願’546において作成された「等価クラス(equivalence classes) 」は、本発明の文脈において、意味のあるグループとして定義される。
【0112】
図17は、図15と図16に示された方法を使用して形成される画像セグメント1700のグループを示す。画像セグメント1700のグループ内の各画像セグメントは、ドキュメントメタデータ224からのタイトルとファイリン日の情報を含む。また、グループ1700内のアドレス・フィールドはそれぞれ、対応するドキュメント画像へのハイパーテキスト・リンクである。ステップ1500でシステム内のドキュメント画像がレイアウト・オブジェクトに分割された後、ステップ1502において一組のドキュメント画像が識別され、ステップ1504において、アドレス・フィールド特徴がユーザによって選択される。画像セグメント1700のグループ化は、ステップ1506で一組の画像セグメントを形成した後のステップ1508でソートされた多くのグループのうちの1つのグループだけである。画像セグメント1700のグループには、4つのアドレス・フィールド1702、1704、1706および1708がある。アドレス・フィールドは、これらの距離がある一定のしきい値よりも下にあるためグループ化される。さらに、アドレス・フィールドをグループ化するこの方法は、スケールと向きによって生じる画像セグメント間のばらつきを考慮する。たとえば、アドレス・フィールド1702および1708のスケールが異なり、アドレス・フィールド1704および1706の向きが異なる。ドキュメントのコーパスに記憶されたドキュメントをソートするこの方法を利用することによって、ユーザは、類似したアドレス・フィールドを有するドキュメント1700のグループを検査することによって、コーパス内の特定のドキュメントをより容易に識別することができる。
【0113】
H.2 特徴または属性によるサーチ結果のランク付け
図18は、選択したレイアウト・オブジェクトとの類似度によってファイルシステム117に記憶されたドキュメント画像226から分割されたレイアウト・オブジェクト238をランク付けするステップを示すフロー図である。ドキュメント画像のページ画像におけるレイアウト・オブジェクトは、ドキュメント画像の特徴242と属性のいずれかを使って識別される。最初に、ステップ1800において、ドキュメント画像237のページ画像226が、図15のステップ1500に関して前に説明したようにレイアウト・オブジェクト238に分割される。ステップ1802において、指定されたドキュメント画像を受け取る。また、指定されたドキュメント画像の特徴(単数又は複数)を、ステップ1804で受け取る。あるいは、画像特徴の代わりに、ステップ1804に属性(単数又は複数)240を受け取ることもできる。1つの実施形態において、ドキュメント画像とその特徴(単数又は複数)は、図9に示したドキュメントサーチインタフェース218を使用して指定される。この実施形態において、ドキュメント名がテキスト・フィールド982に指定され、特徴が、メニュー984で指定される。ステップ1806において、一組のドキュメント画像が選択される。この選択された一組の画像は、事前に定義された一組のドキュメント画像でもよいし、サーチインタフェース218を使用したサーチによって得られた一組のドキュメント画像でもよい。ステップ1808において、選択された1つまたは複数の特徴または属性を受け取る。図9に示した実施形態において、ステップ1808で選択された特徴が、表示領域969の特徴メニュー962、964、966および/または968のうちの1つを使用して指定される。ユーザがインタフェース218のコマンド・ボタン980を選択すると、ステップ1802、1804、1806および1808で受け取った各エレメントを受け取る。
【0114】
ステップ1810において、(ステップ1804で)指定されたドキュメント画像の特徴を構成する選択された一組のドキュメント画像(ステップ1806に)においてレイアウト・オブジェクトを識別することによって、一組の画像セグメントが形成される。すなわち、指定されたドキュメント画像の特徴に対応するドキュメント画像のあるいくつかの部分(すなわち、レイアウト・オブジェクト)だけが、それらのドキュメント画像から抽出され、一組のレイアウト画像に追加される。ステップ1812において、ステップ1804で指定された特徴を構成するステップ1802において指定されたドキュメント画像内のレイアウト・オブジェクトを識別することによって、単一の画像セグメントが形成される。ステップ1814において、距離は、選択した一組のドキュメント画像においてドキュメント画像ごとに計算される。ステップ1814で計算した各距離は、選択した一組のドキュメント画像のうちの1つのドキュメント画像の特徴と、指定されたドキュメント画像の特徴との違い(類似度)の尺度である。すなわち、各距離は、ステップ1810で形成された一組の画像セグメントの各画像セグメントと、ステップ1812で形成された単一の画像セグメントとの差の尺度である。
【0115】
ステップ1814で計算した各距離は、前述の距離のうちの1つを利用して実行することができる。たとえば、各距離の測定は、2つの画像セグメント間のハウスドルフ距離を計算することにより行うことができる。あるいは、2つの画像セグメント間の距離は、ハウスドルフ・フラクション、変換による最小ハウスドルフ距離、重み付けXORまたはハミング距離を利用して計算することができる。ステップ1814が完了した後、選択した一組のドキュメント画像内の各画像は、ステップ1806で選択されたドキュメント画像の同じ特徴に対するステップ1802で指定されたドキュメント画像の特徴の関連性を定義する計算された距離を有する。ステップ1816において、ドキュメント画像のクラスタは、ステップ1814において計算された距離をランク付けすることによって形成される。ステップ1818において、選択した一組のドキュメント画像における各ドキュメント画像のステップ1808で選択された特徴は、ステップ1816で選択された画像の特徴に対する類似度によってランク付けされた特徴のクラスタごとに表示される。
【0116】
図19は、指定されたドキュメント画像における特徴の類似度によりドキュメントの特徴をランク付けする例を示す。具体的には、図19は、図18に示したステップを完了した後で表示される画像のクラスタの特徴1900を示す。この例では、指定されたドキュメント画像の選択された特徴が、参照番号1901〜1904によってクラスタ1900内に示された「fromフィールド」である。さらに、画像のクラスタの特徴1900は、ステップ1808で選択された特徴に対応する参照番号1905〜1908によって示された4つのメモ・ヘッダ・フィールドを示す。より具体的には、特徴「fromフィールド」1901〜1904は、指定されたランク付けの範囲内にある計算距離を有し、ステップ1816でいっしょにクラスタ化される。本発明により、ドキュメント画像の画像のクラスタの特徴1900は、ドキュメント画像のテキストの内容ではなくドキュメント画像のレイアウト構造を利用してアセンブルされる。
【0117】
I.プログレッシブ送信および/または表示
前に図1と図2で説明したように、画像セグメンタ211は、画像を、表1に示したようなレイアウト・オブジェクト・タイプのうちの1つをそれぞれ有するレイアウト・オブジェクトに分割する。ドキュメント内の各レイアウト・オブジェクトは、レイアウト・オブジェクトの内容と関係なく識別される。レイアウト・オブジェクト・タイプの例は、テキスト、図形およびハーフトーンである。前述のように、各レイアウト・オブジェクトごとに計算された画像属性は、それぞれのレイアウト・オブジェクトの構造と特性を定義するために使用される。さらに、画像の属性は、レイアウト・オブジェクトがドキュメント画像のページ画像内の他のレイアウト・オブジェクトとの間で持つ空間的な関係を識別するために使用される。ユーザは、画像の属性を使って、ドキュメント画像の特徴を引き出すことができる。属性と異なり特徴をカスタマイズし、それによりページ画像内の独特な組のレイアウト・オブジェクトを識別することができる。
【0118】
ファイル・システム117に記憶されたドキュメント画像237は、検索エンジン・インタフェース218を使ってネットワーク130を介してサーチすることができる。ネットワーク117の帯域幅が制限されることがあるため、ドキュメントのページ画像226の送信が遅い場合がある。ドキュメント画像データ・ファイルのサイズとネットワークのデータ転送速度によって、インタフェース218を操作するユーザは、ファイル・システム117のドキュメント画像をサーチまたはブラウズしている間に過度に長い伝送遅延に遭遇することがある。ネットワーク130を介してドキュメント画像を受け取る際の過度に長い遅延を緩和するために、ユーザは、プログレッシブに伝送および/または表示されるドキュメント画像のレイアウト・オブジェクトを有するオプションが提供される。
【0119】
ドキュメント画像のプログレッシブ送信および/または表示は、ユーザ・インタフェース218を動作させるクライアント・ワークステーション150と、ドキュメントサーチおよび検索システム140を動作させるサーバ・ワークステーション110との間のネットワーク130を介するデータ送信の時間コストを削減する。動作において、最初に、他のレイアウト・オブジェクトよりも重要と識別されたドキュメント画像のページ画像内のレイアウト・オブジェクトが送信される。ユーザが関心のあるドキュメント画像の要素に対して高速にアクセスすることができるため、データ送信における時間コストが低下する。さらに、このプログレッシブ送信の形により、ユーザは、ドキュメント画像を詳細に調べるべきかどうかを素早く決定して、ドキュメント内のあまり重要でないレイアウト・オブジェクトが送信される前にドキュメント画像を見せないという決定を行って、データの伝送量を最小にすることができる。
【0120】
一般に、このドキュメント画像のプログレッシブ送信および/または表示の方法は、ドキュメント画像がレイアウト・オブジェクトに分割されることに基づく。最初に、ユーザは、閲覧および/またはサーチの対象に最も適切なドキュメント画像の特徴または属性を識別する。このレイアウト・オブジェクトのプログレッシブ送信および/または表示の方法は、2つのステップに分けられる。送信の第1のステップにおいて、ユーザによって最も関心があると指定された特徴および/または属性を有するドキュメント画像のレイアウト・オブジェクトだけが、高い解像度で送信および/または表示され、ドキュメント画像の残りのレイアウト・オブジェクトは、低い解像度で送信および/または表示される。
ユーザが要求した場合にだけ呼び出される送信の第2ステップにおいて、第1のステップで低い解像度で送信されたレイアウト・オブジェクトが、高い解像度で再送信および/または表示され、最後にはドキュメント画像を高い解像度で表示させる。
【0121】
l.1 プログレッシブ送信
図20は、ドキュメントサーチ/検索システム140を実行するサーバ・ワークステーションの視点からドキュメント画像のプログレッシブ送信を実行するステップを示すフロー図である。最初に、ステップ2000において、ファイル・システム117内のドキュメント画像237のページ画像が、レイアウト・オブジェクト238に分割される。ドキュメント画像をレイアウト・オブジェクトに分割した後、画像セグメンタ211が、分割された各レイアウト・オブジェクト毎に画像属性240を計算する。また、プログラム・マネージャ214が、ドキュメント画像内で分割されたレイアウト・オブジェクトが特徴242に対応するかどうかを判定する。これらの操作は、ドキュメント画像の送信の前にリアルタイムで実行することができる。あるいは、これらの操作は、システムを初期化するとき、あるいはドキュメント画像237がファイル・システム117に加えられられたときに実行することができる。
【0122】
1つの実施形態において、検索エンジン・インタフェース218を稼働させるクライアント・ワークステーション150(図1に示した)のユーザは、図9のインタフェース218のチェック・ボックス949を選択することにより、画像データをプログレッシブに送信することを要求する。チェック・ボックス949を選択する他に、ユーザは、図21に示した表示プロファイル2102を定義し、ユーザがページ画像の特徴と属性を送信および/または表示する順序を定義することができる。表示プロファイル(display profile) 2102には、インタフェース218の「プログレッシブ表示(Progressive Display) 」のハイパー・テキスト950を選択することによりアクセスすることができる。表示プロファイル2102内の表示領域2112により、ユーザは、対象をブラウズまたはサーチするのに最も適切な特徴と属性を指定することができる。さらに、ユーザは、選択された特徴および/または属性のランク付けを指定することもできる。ユーザが表示プロファイルを定義しない場合は、代りにデフォルトプロファイルが使用される。代替実施形態において、クライアント・ワークステーションが、データをプログレッシブに自動的に送信し表示するようにプログラムされたとき、ユーザが介在することなくステップ2002を実行することができる。
【0123】
ステップ2002において、送信プロファイルと送信要求が、図1に示したワークステーション110などのサーバ・ワークステーションで受け取られる。この送信要求は、ファイル・システム117に記憶された1つまたは複数のドキュメント画像237の要求を含む。送信プロファイルは、図21に示したプログレッシブ表示プロファイル2102から得られ、送信の第1のステップの間に要求したドキュメント画像内のレイアウト・オブジェクトを識別してクライアント・ワークステーションに送信するために使用される特徴および/または属性のリストである。ドキュメントサーチシステム140を操作するサーバ・ワークステーションは、ステップ2004で、送信プロファイルを使用して、送信プロファイルにおいて識別された特徴および/または属性に対応する要求ページ画像内のレイアウト・オブジェクトを識別する。
【0124】
ドキュメント画像データのプログレッシブ送信は、2つのステップで実行される。送信の第1のステップの間に、ステップ2006および2008が実行される。ステップ2006において、ステップ2004で識別された要求ページ画像内のレイアウト・オブジェクトが第1のすなわち高い解像度でクライアント・ワークステーションに送信される。次に、ステップ2008において、ステップ2004で識別されなかった要求ページ画像内のレイアウト・オブジェクトが、第2の解像度すなわち低い解像度でクライアント・ワークステーションに送信される。画像データを受け取ると、クライアント・ワークステーションは、送信された画像データをフォーマットしてオリジナルドキュメント画像を複製する。代替実施形態において、ステップ2008で送信されたレイアウト・オブジェクトは、図21にプログレッシブ表示プロファイル2102内のチェックボックス2116を選択することにより、文字枠多角形(bounding polygons) の形で送信される。
【0125】
送信の第1のステップが完了した後で、サーバ・ワークステーションは、ステップ2010で、ある一定期間待機する。、ステップ2014で、待機期間内にクライアントの要求を受け取らない場合は、サーバ・ワークステーションが、ステップ2012でタイムアウトする。ステップ2014において、クライアント要求を受け取ると、現在の送信要求を継続するか新しい送信要求を開始するかを指定することができる。具体的には、ステップ2014で受け取った要求は、ステップ2004で識別されない要求ページ画像内のレイアウト・オブジェクトを、送信の第2ステップの間に第1の解像度すなわち高い解像度で送信することを指定することができ、あるいは、要求が、ステップ2002で新しい送信要求を指定することができる。
【0126】
ステップ2002が繰り返される場合は、送信の第2ステップは実行されず、それにより、クライアント・ワークステーションとサーバ・ワークステーションとの間でデータを送信する時間コストが削減される。また、送信セッションの間にステップ2002がクライアント・ワークステーションによって繰り返されるとき(すなわち、送信セッションが1つまたは複数の送信要求を有してもよい)、送信プロファイルは、1つのセッションで1回だけ送信するだけでよいことは当業者には理解されよう。クライアントがステップ2012でタイムアウトした場合は、ステップ2008で送信されたレイアウト・オブジェクトが、送信の第2のステップの間にステップ2016で再送信される。ステップ2016を実行した後で、ステップ2002における要求ページ画像の送信が、ステップ2018で完了する。
【0127】
サーチインタフェース218を操作するクライアント・ワークステーションにおいて、たとえば、ユーザが要求ページ画像の低い解像度(すなわち第2の解像度)領域の一部分を選択するときに、ステップ2014および2016のシーケンスを開始することができる。あるいは、ユーザが、オリジナルの送信要求にないページ画像(または、ページ画像の縮小スケール画像)を選択するときは、ステップ2014および2002のシーケンスを開始することができる。これと対照的に、ステップ2012が実行され、クライアント要求がないとき、ユーザは、要求ページ画像の送信の第2ステップを自動的に開始することを期待していると想定される。すなわち、ある一定期間後でクライアント要求のないことは、ステップ2016で送信の第2ステップを開始する要求を受け取っているように扱われる。
【0128】
ステップ2006で低い解像度で最初に送信されるレイアウト・オブジェクトを定義するドキュメント画像データは、ステップ2016で高い解像度で完全に再送信される必要がなことは当業者には理解されよう。その代わりに、2ステップに送信されるレイアウト・オブジェクトは、2つのレベルのピラミッド形階層符号化方式を利用して送信することができ、それによりデータの一部が第1のステップの間に送信され、データの他の部分が第2のステップの間に送信される。データを階層的に符号化することにより、クライアントとサーバの間で重複したデータが送信されることはない。たとえば、米国特許第5,335,088号とその参考資料は、画像データを階層的に符号化する様々な方法を示す。さらに、各レイアウト・オブジェクトを形成する画像データのタイプによって、送信の各ステップの間に送信されるデータの量を減少させるための多くの圧縮技法がある。
【0129】
I.2 プログレッシブ表示
ドキュメント画像が、図20に示した方法を使ってプログレッシブに送信されている場合、クライアント・ワークステーションでのドキュメント画像での表示は、本質的にプログレッシブである。ドキュメント画像のプログレッシブ送信とプログレッシブ表示は、ブール・チェックボックス2106、2108および2110によって表示プロファイル2102に例示されるように、互いに独立または同時に実行することができる。操作の1つのモードにおいて、クライアント・ワークステーションのユーザは、チェックボックス2108の選択により、ページ画像がプログレッシブに表示されプログレッシブに送信されないように要求することができる。ページ画像がプログレッシブに表示されて送信されないときは、クライアント・ワークステーションによって、性能上の利点が得られる場合と得られない場合がある。
【0130】
プログレッシブ表示は、プログレッシブ送信と同様、ユーザが、第1のステップの間に表示される一組の特徴および/または属性を識別することを要求する。ドキュメントのこれらの属性および/または特徴は、ユーザが最初に表示しようとするドキュメント画像のレイアウト・オブジェクトである。また、プログレッシブ送信と同様、ドキュメント画像は、2つのステップでプログレッシブに表示される。表示の第1のステップの間に、ユーザによって識別されるドキュメントのレイアウト・オブジェクトが、第1の解像度すなわち高い解像度で表示される。ドキュメント画像の他のレイアウト・オブジェクトは、第2の解像度すなわち低い解像度に表示される。表示の第2のステップの間に、第2の解像度すなわち低い解像度で表示されたレイアウト・オブジェクトは、次に高い解像度すなわち第1の解像度で表示される。
【0131】
l.3 プログレッシブ送信および/または表示の代替モード
図21のプログレッシブ表示プロファイルは、ドキュメント画像データをプログレッシブに表示および/または送信する様々なオプションを提供する。表示と送信の2つのステップだけが示されているが、プログレッシブ送信と表示のためのこの方法は、任意の数の表示ステップおよび/または送信ステップを含むことができることは当業者には理解されよう。たとえば、プログレッシブ表示プロファイルは、ユーザに、プログレッシブな4つの送信ステップとプログレッシブな2つの表示ステップだけを定義する機能を提供することもできる。ドキュメント画像をプログレッシブに送信及び/又は表示するこの方法の重要な点は、ユーザが、ドキュメントの画像属性および/または特徴を送信および/または表示する順序をランク付けできることである。
【0132】
プログレッシブ表示プロファイル2102に示されたもう1つの動作モードにおいて、ユーザは、チェックボックス2114の選択によって送信の第1のステップだけが送信および/または表示されるように指定することができる。この動作モードを選択することによって、表示および/または送信されるドキュメント画像の内容は、たとえば図12〜図14に示したような要約形式である。このオプションは、クライアント・ワークステーションの表示がスクリーンのスペースを制限するときに使用することができる。また、ユーザは、チェックボックス2116を選択することにより、表示または送信の第2のステップの間に文字枠(境界ボックス)多角形だけが送信されるように指定することができる。両方のチェックボックス・オプション2114と2116は、第2の動作ステップの間に送信および/または表示される画像データの量を制限する2つの異なる方法を提供する。さらにもう1つの動作モードにおいて、プログレッシブ表示プロファイル2102は、送信ステップの範囲内で特徴が表示および/または送信される順序をランク付けするオプションをユーザに提供する。
【0133】
l.4 プログレッシブに表示された画像の例
図22〜図24は、プログレッシブ表示の第1のステップを完了した後でプログレッシブ表示の第2のステップが始まる前の3つの異なるページ画像の例を示す。図25は、全体画像2500が第1の解像度すなわち高い解像度で表示された第2の表示ステップを完了した後の図22〜図24に示したページ画像を示す。図22は、第1のステップの間に、特徴letter−date2202、Ietter−recipient2204およびletter−sigunature2206が、第1の解像度すなわち高い解像度で表示されたページ画像例2200を示す。ページ画像2200中のその他の特徴は、低い解像度で表示される。図23は、同じ特徴2202、2204および2206が高いの解像度すなわち第1の解像度で表示されたページ画像2300を示す。しかしながら、ページ画像2200と異なり、高い解像度で表示されていないページ画像2300の他の特徴は、文字枠多角形を利用して表示される。
【0134】
ネットワーク130を介してサーチインタフェース218を操作するユーザは、イントラネットの閉じた世界で操作することもできる。そのような閉じた世界のユーザは、多数の特徴を定義することができる。しかしながら、インターネットの開放された世界では、特徴は定義されていないこともあり、ユーザは、属性によってしかレイアウト・オブジェクトを識別できないこともある。図24は、画像属性を利用して、図22と図23の画像2200と2300と異なる第1の解像度すなわち高い解像度で送信されるレイアウト・オブジェクトを識別するページ画像2400を示す。ページ画像2400において、送信および/または表示の第1のステップが、non−runningテキストに対するrunningテキストの属性を有するレイアウト・オブジェクトを区別する。より具体的には、画像セクション2402および2406は、「真」の属性non−runningテキストを有するレイアウト・オブジェクトを第1の解像度すなわち高い解像度で示す。これと対照的に、画像セクション2404は、「偽」の属性runningテキストを有するレイアウト・オブジェクトを第2の解像度すなわち低い解像度で示す。
【0135】
J. 結論
要約すると、本発明は、ページ画像内のテキスト・ブロックが他のテキスト・ブロックによって定義された基準フレームに対して持つ空間関係によってドキュメント画像のページ画像のレイアウト構造を記述する技術に関する。このレイアウト技法の利点は、文字認識に依存せず、したがって比較的低い解像度で実行することができることである。このレイアウト技法の第2の利点は、新しいレイアウト構成要素と構造の対話式のユーザ仕様に適した高いレベルのフレームワークを提供し、それにより、ドキュメントをカテゴリおよび/またはフォーマットで識別するフレキシビリティを提供することである。この第2の利点は、直線的プログラムを使用してドキュメント画像内に特徴を定義し検出することができることにより得られる。
【0136】
本発明は、ドキュメントの最初のページを使用して説明してきたが、本発明がドキュメント全体に当てはまることは当業者には理解されよう。さらに、考察のほとんどは、スキャンしたドキュメント画像によるドキュメントに焦点を当てているが、本発明は、ドキュメント内のテキストだけがサーチおよび検索システムによって調べられる場合に失われる構造を有する電子的に得られたドキュメントに適用できることは、当業者には理解されよう。たとえば、PostScriptを使って定義された電子ドキュメントは、PostScriptドキュメントをレンダリングするために使用される特定のデコンポーザによって変化するレイアウト構造を有してもよい。したがって、本発明の利点は、ドキュメントのフォーマットがビットマップかまたはさらに高いレベルのPDL表現によるものかに関係なく、ドキュメント高レベルのレイアウト構造を明示的に定義するために使用できる方法を提供することである。
【図面の簡単な説明】
【図1】本発明を実施するために使用される一般的な構成要素のブロック図である。
【図2】図1に示したドキュメントコーパス管理/サーチシステムの詳細なブロック図である。
【図3】ファイル・システム内にドキュメント画像データが配列された様子を示す図である。
【図4】基本操作のシーケンスを利用して特徴を定義するための対話サイクルのフロー図である。
【図5】図4のステップ408で定義された一組のレイアウト・オブジェクトの1つまたは複数の選択操作または累算操作を指定するステップを示すフロー図である。
【図6】図4と図5に示した対話サイクルを使用してプログラムされた特徴の例を示す図である。
【図7】図2に示したジャンル・モデル・プログラム・インタフェース219をより詳細に示す図である。
【図8】図7に示したジャンル・モデル・プログラム・インタフェースを利用して、属性と特徴の有無を指定することによって定義できる3つの異なる高レベルのドキュメント構成の例を示す図である。
【図9】ファイル・システムに記憶されたドキュメントのコーパスをサーチするための検索エンジンのインタフェースの例を示す図である。
【図10】ユーザが作成した要約の合成要約画像の出力フォーマットを定義するために使用できる要約表示プロファイルを示す図である。
【図11】ユーザが作成したサーチの要約を生成するステップを示すフロー図である。
【図12】図10に概略的に示したステップを使用して作成された要約画像の例を示す図である。
【図13】図10に概略的に示したステップを使用して作成された要約画像の例を示す図である。
【図14】図10に概略的に示したステップを使用して作成された要約画像の例を示す図である。
【図15】ドキュメント画像から分割されたレイアウト・オブジェクト間の類似度によってドキュメント画像をソートするステップを示すフロー図である。
【図16】図15に示したステップ1508で一組の画像セグメントをソートするための1つの実施形態を示すフロー図である。
【図17】図15と図16に示した方法を使用して形成された画像セグメントのグループ化を示す図である。
【図18】指定したレイアウト・オブジェクトの類似度によりドキュメント画像から分割されたレイアウト・オブジェクトをソートするための実施形態を示すフロー図である。
【図19】指定されたドキュメント画像内の特徴の類似度によってドキュメント画像の特徴をソートする例を示す図である。
【図20】ドキュメントサーチ/検索システムを稼働させるサーバ・ワークステーションの視点からのドキュメント画像のプログレッシブ送信を実行するステップを示すフロー図である。
【図21】ドキュメント画像の特徴および属性を送信及び/又は表示する順序を定義するためのプログレッシブ表示プロファイルを示す図である。
【図22】選択した特徴letter−date、letter−recipientおよびletter−signatureを高い解像度すなわち第1の解像度で表示する第1のステップを完了した後のページ画像例を示す図である。
【図23】選択した特徴を含まないレイアウト・オブジェクトを文字枠多角形を使って表示する第1のステップを完了した後のページ画像を示す図であり、図22とは違い、同じ特徴が第2の解像度すなわち低い解像度で表示される。
【図24】選択した属性を含むレイアウト・オブジェクトを第1の解像度すなわち高い解像度で表示し、選択した属性を含まないレイアウト・オブジェクトを第2の解像度すなわち低い解像度で表示する第1のステップを完了した後のページ画像を示す図である。
【図25】画像全体を第1の解像度すなわち高い解像度で表示する第2の表示ステップを完了した後の図22〜図24に示したページ画像を示す図である。
Claims (3)
- サーバ・ワークステーションにおいてメモリに記憶されたドキュメント画像をクライアント・ワークステーションに送信する方法であって、
ドキュメント画像を定義するためにメモリのハードコピードキュメントのビットマップ表示を受け取るステップを有し、
ドキュメント画像を、一組のレイアウト・オブジェクトに分割するステップを有し、この組のレイアウト・オブジェクトの各レイアウト・オブジェクトが複数のレイアウト・オブジェクトタイプのうちの1つであり、複数のレイアウト・オブジェクトタイプの各々が前記ドキュメント画像の構造要素を識別し、
この組のレイアウト・オブジェクトの各レイアウト・オブジェクトの一組の属性を計算するステップを有し、各レイアウト・オブジェクトに対して計算された属性が、構造要素の特性を定量化しドキュメント画像内の他の分割されたレイアウト・オブジェクトとの空間関係を識別する値を有し、
レイアウト・オブジェクトの選択された第1の属性を識別するユーザ入力を受信するステップを有し、
この組のレイアウト・オブジェクトを第1のサブセットのレイアウト・オブジェクト及び第2のサブセットのレイアウト・オブジェクトに分けるステップを有し、前記分けるステップは、第1のサブセットのレイアウト・オブジェクトに選択された第1の属性を有するレイアウト・オブジェクトを含み、第2のサブセットのレイアウト・オブジェクトは、一組のレイアウト・オブジェクトの中の第1のサブセットにないレイアウト・オブジェクトを含み、
第1のサブセットのレイアウト・オブジェクトを第1の解像度で、また、第2のサブセットのレイアウト・オブジェクトを第2の解像度で、サーバ・ワークステーションからクライアント・ワークステーションに送信するステップを有する、
ドキュメント画像のクライアント・ワークステーションへの送信方法。 - ドキュメント画像の特徴を識別するユーザ入力を受信するステップを有し、
ドキュメント画像の前記特徴を識別するルーチンを実行するステップを有し、ルーチンが、一組のレイアウト・オブジェクトを消費し、計算された属性を使用して第3のサブセットのレイアウト・オブジェクトを生成する一連の選択操作を有し、前記実行ステップが第3のサブセットのレイアウト・オブジェクトをドキュメント画像の特徴として識別し、
前記送信ステップが、第3のサブセットのレイアウト・オブジェクトを第1の解像度で、また、第4のサブセットのレイアウト・オブジェクトを第2の解像度で送信し、第4のサブセットの前記レイアウト・オブジェクトが一組のレイアウト・オブジェクトの中にレイアウト・オブジェクトの第1又は第3のサブセットにないレイアウト・オブジェクトを含む、
請求項1に記載の方法。 - 第2のサブセットのレイアウト・オブジェクトを第1の解像度で再送信するステップを更に有する、
請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US971020 | 1997-11-14 | ||
US08/971,020 US6665841B1 (en) | 1997-11-14 | 1997-11-14 | Transmission of subsets of layout objects at different resolutions |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11242654A JPH11242654A (ja) | 1999-09-07 |
JP3942290B2 true JP3942290B2 (ja) | 2007-07-11 |
Family
ID=25517829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32258398A Expired - Fee Related JP3942290B2 (ja) | 1997-11-14 | 1998-11-12 | ドキュメント画像のクライアント・ワークステーションへの送信方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6665841B1 (ja) |
JP (1) | JP3942290B2 (ja) |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
DE60005293T2 (de) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
US6950553B1 (en) * | 2000-03-23 | 2005-09-27 | Cardiff Software, Inc. | Method and system for searching form features for form identification |
US6643641B1 (en) * | 2000-04-27 | 2003-11-04 | Russell Snyder | Web search engine with graphic snapshots |
US6618717B1 (en) * | 2000-07-31 | 2003-09-09 | Eliyon Technologies Corporation | Computer method and apparatus for determining content owner of a website |
US20070027672A1 (en) * | 2000-07-31 | 2007-02-01 | Michel Decary | Computer method and apparatus for extracting data from web pages |
US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US6671684B1 (en) * | 2000-09-01 | 2003-12-30 | Ricoh Co., Ltd. | Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document |
AU2002228738A1 (en) * | 2000-12-07 | 2002-06-18 | Bruce M. Boghosian | System and method for delivery of documents over a computer network |
JP3831342B2 (ja) * | 2001-01-29 | 2006-10-11 | ディジトミ・カンパニー・リミテッド | オンライン出版物の画像提供方法 |
JP3916124B2 (ja) * | 2001-02-15 | 2007-05-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | デジタル文書閲覧システム、ブラウザ、デジタル文書表示方法、プログラム及び記憶媒体 |
US7500017B2 (en) * | 2001-04-19 | 2009-03-03 | Microsoft Corporation | Method and system for providing an XML binary format |
US20030023631A1 (en) * | 2001-07-26 | 2003-01-30 | Castle Daniel C. | Advertisement selection engine for placing micro-advertising |
WO2003012652A1 (fr) * | 2001-07-27 | 2003-02-13 | Fujitsu Limited | Serveur, procede de fourniture de donnees, support et programme |
DK1288792T3 (da) | 2001-08-27 | 2012-04-02 | Bdgb Entpr Software Sarl | Fremgangsmåde til automatisk indeksering af dokumenter |
US6999972B2 (en) * | 2001-09-08 | 2006-02-14 | Siemens Medical Systems Health Services Inc. | System for processing objects for storage in a document or other storage system |
US7941750B2 (en) * | 2001-10-11 | 2011-05-10 | Hewlett-Packard Development Company, L.P. | Method and system for defining separate print quality regions within a print job |
AU2002366924A1 (en) * | 2001-12-12 | 2003-07-09 | Nec Corporation | Electronic document reading system and method |
JP2003244413A (ja) * | 2002-02-18 | 2003-08-29 | Oki Data Corp | 送信側通信装置及び受信側通信装置 |
US20030163785A1 (en) * | 2002-02-28 | 2003-08-28 | Hui Chao | Composing unique document layout for document differentiation |
US7278117B2 (en) * | 2002-07-02 | 2007-10-02 | Hewlett-Packard Development Company, L.P. | Image segmentation and warping for specialized display viewing |
US7272258B2 (en) * | 2003-01-29 | 2007-09-18 | Ricoh Co., Ltd. | Reformatting documents using document analysis information |
US20050195221A1 (en) * | 2004-03-04 | 2005-09-08 | Adam Berger | System and method for facilitating the presentation of content via device displays |
US20050210048A1 (en) * | 2004-03-18 | 2005-09-22 | Zenodata Corporation | Automated posting systems and methods |
US7840586B2 (en) * | 2004-06-30 | 2010-11-23 | Nokia Corporation | Searching and naming items based on metadata |
US7940929B1 (en) * | 2005-11-23 | 2011-05-10 | Beyondcore, Inc. | Method for processing documents containing restricted information |
US10127130B2 (en) | 2005-03-18 | 2018-11-13 | Salesforce.Com | Identifying contributors that explain differences between a data set and a subset of the data set |
US10176338B2 (en) * | 2005-11-23 | 2019-01-08 | Salesforce.Com | Secure distributed storage of documents containing restricted information, via the use of keysets |
US8826136B2 (en) * | 2005-06-27 | 2014-09-02 | Core Wireless Licensing S.A.R.L. | System and method for enabling collaborative media stream editing |
US7761789B2 (en) | 2006-01-13 | 2010-07-20 | Ricoh Company, Ltd. | Methods for computing a navigation path |
JP2007200014A (ja) * | 2006-01-26 | 2007-08-09 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP4525618B2 (ja) * | 2006-03-06 | 2010-08-18 | ソニー株式会社 | 映像監視システムおよび映像監視プログラム |
US7788579B2 (en) * | 2006-03-06 | 2010-08-31 | Ricoh Co., Ltd. | Automated document layout design |
JP2008041003A (ja) * | 2006-08-10 | 2008-02-21 | Fuji Xerox Co Ltd | 文書表示処理装置および文書表示処理プログラム |
US8812969B2 (en) | 2007-03-21 | 2014-08-19 | Ricoh Co., Ltd. | Methods for authoring and interacting with multimedia representations of documents |
US8584042B2 (en) | 2007-03-21 | 2013-11-12 | Ricoh Co., Ltd. | Methods for scanning, printing, and copying multimedia thumbnails |
US8583637B2 (en) | 2007-03-21 | 2013-11-12 | Ricoh Co., Ltd. | Coarse-to-fine navigation through paginated documents retrieved by a text search engine |
EP2003599A1 (de) * | 2007-06-14 | 2008-12-17 | Sick Ag | Optoelektronischer Sensor und Verfahren zur Erfassung von Codes |
JP5084613B2 (ja) * | 2008-05-30 | 2012-11-28 | 任天堂株式会社 | 画像送信装置および画像送信プログラム |
CN101308488B (zh) * | 2008-06-05 | 2010-06-02 | 北京大学 | 基于版式文件的文档流式信息处理方法及装置 |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US9213756B2 (en) * | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
US8321357B2 (en) * | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
US9152883B2 (en) * | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US8352856B2 (en) * | 2009-11-11 | 2013-01-08 | Xerox Corporation | Systems and methods to resize document content |
US8922582B2 (en) * | 2009-11-16 | 2014-12-30 | Martin J. Murrett | Text rendering and display using composite bitmap images |
US9615062B2 (en) * | 2010-12-30 | 2017-04-04 | Pelco, Inc. | Multi-resolution image display |
US9454765B1 (en) * | 2011-03-28 | 2016-09-27 | Imdb.Com, Inc. | Determining the effects of modifying a network page based upon implicit behaviors |
US20130111330A1 (en) * | 2011-11-01 | 2013-05-02 | Research In Motion Limited | Accelerated compositing of fixed position elements on an electronic device |
US10802687B2 (en) | 2011-12-04 | 2020-10-13 | Salesforce.Com, Inc. | Displaying differences between different data sets of a process |
US10796232B2 (en) | 2011-12-04 | 2020-10-06 | Salesforce.Com, Inc. | Explaining differences between predicted outcomes and actual outcomes of a process |
JP2013201557A (ja) * | 2012-03-23 | 2013-10-03 | Toshiba Corp | 画像処理装置、画像処理方法および画像処理システム |
CA2912460A1 (en) * | 2013-05-21 | 2014-11-27 | John CUZZOLA | Method and system of intelligent generation of structured data and object discovery from the web using text, images, video and other data |
US9165186B1 (en) * | 2014-05-30 | 2015-10-20 | Amazon Technologies, Inc. | Providing additional information for text in an image |
US9703860B2 (en) * | 2014-10-06 | 2017-07-11 | International Business Machines Corporation | Returning related previously answered questions based on question affinity |
US10366107B2 (en) | 2015-02-06 | 2019-07-30 | International Business Machines Corporation | Categorizing questions in a question answering system |
US9996604B2 (en) | 2015-02-09 | 2018-06-12 | International Business Machines Corporation | Generating usage report in a question answering system based on question categorization |
US10795921B2 (en) | 2015-03-27 | 2020-10-06 | International Business Machines Corporation | Determining answers to questions using a hierarchy of question and answer pairs |
US10178149B2 (en) | 2015-05-14 | 2019-01-08 | Adobe Inc. | Analysis for framework assessment |
US10867119B1 (en) * | 2016-03-29 | 2020-12-15 | Amazon Technologies, Inc. | Thumbnail image generation |
US10445356B1 (en) * | 2016-06-24 | 2019-10-15 | Pulselight Holdings, Inc. | Method and system for analyzing entities |
US11003691B2 (en) | 2017-04-28 | 2021-05-11 | Splunk Inc. | Determining affinities for data set summarizations |
US11074283B2 (en) * | 2017-04-28 | 2021-07-27 | Splunk Inc. | Linking data set summarizations using affinities |
US11416671B2 (en) * | 2020-11-16 | 2022-08-16 | Issuu, Inc. | Device dependent rendering of PDF content |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4405943A (en) * | 1981-08-19 | 1983-09-20 | Harris Corporation | Low bandwidth closed loop imagery control and communication system for remotely piloted vehicle |
JP2731447B2 (ja) * | 1990-03-28 | 1998-03-25 | 大日本スクリーン製造株式会社 | 統合画像記録装置 |
JP2855797B2 (ja) * | 1990-06-15 | 1999-02-10 | 富士ゼロックス株式会社 | 文書処理装置 |
JP2745794B2 (ja) * | 1990-08-24 | 1998-04-28 | 富士ゼロックス株式会社 | 文書処理装置 |
US5761342A (en) * | 1991-04-16 | 1998-06-02 | Canon Kabushiki Kaisha | Image processing apparatus and method |
FR2679353B1 (fr) * | 1991-07-17 | 1997-01-03 | Bull Sa | Procede de mise en page de documents structures. |
US5299028A (en) * | 1991-10-29 | 1994-03-29 | Eastman Kodak Company | Method and apparatus for image data resolution conversion |
US5442778A (en) | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
CA2077604C (en) | 1991-11-19 | 1999-07-06 | Todd A. Cass | Method and apparatus for determining the frequency of words in a document without document image decoding |
US5369714A (en) | 1991-11-19 | 1994-11-29 | Xerox Corporation | Method and apparatus for determining the frequency of phrases in a document without document image decoding |
CA2077274C (en) | 1991-11-19 | 1997-07-15 | M. Margaret Withgott | Method and apparatus for summarizing a document without document image decoding |
US5321770A (en) | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
US5390259A (en) | 1991-11-19 | 1995-02-14 | Xerox Corporation | Methods and apparatus for selecting semantically significant images in a document image without decoding image content |
US5384863A (en) | 1991-11-19 | 1995-01-24 | Xerox Corporation | Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding |
JP2579397B2 (ja) * | 1991-12-18 | 1997-02-05 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文書画像のレイアウトモデルを作成する方法及び装置 |
US5434953A (en) | 1992-03-20 | 1995-07-18 | Xerox Corporation | Use of fast textured reduction for discrimination of document image components |
US5335088A (en) | 1992-04-01 | 1994-08-02 | Xerox Corporation | Apparatus and method for encoding halftone images |
US5327265A (en) * | 1992-05-01 | 1994-07-05 | Mcdonald Bruce A | Modem accessable image database system for on-demand printing |
US5748484A (en) * | 1992-09-23 | 1998-05-05 | Onkor, Ltd. | System for printing social expression cards in response to electronically transmitted orders |
US5537491A (en) | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
JP3445394B2 (ja) | 1993-12-17 | 2003-09-08 | ゼロックス・コーポレーション | 少なくとも二つのイメージセクションの比較方法 |
US5850490A (en) | 1993-12-22 | 1998-12-15 | Xerox Corporation | Analyzing an image of a document using alternative positionings of a class of segments |
US5524066A (en) | 1994-03-31 | 1996-06-04 | Xerox Corporation | Text recognition by predictive composed shapes |
US5598507A (en) | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
US5809266A (en) * | 1994-07-29 | 1998-09-15 | Oracle Corporation | Method and apparatus for generating reports using declarative tools |
CA2154951C (en) * | 1994-09-12 | 2004-05-25 | John E. Warnock | Method and apparatus for viewing electronic documents |
US5778397A (en) | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
US5699458A (en) * | 1995-06-29 | 1997-12-16 | Intel Corporation | Efficient browsing of encoded images |
NL1000701C2 (nl) * | 1995-06-30 | 1996-12-31 | Oce Nederland Bv | Inrichting en werkwijze voor het extraheren van artikelen uit een document. |
US5930810A (en) * | 1995-08-09 | 1999-07-27 | Taylor Corporation | Printing system with pre-defined user modifiable forms and local and remote printing |
US5710835A (en) * | 1995-11-14 | 1998-01-20 | The Regents Of The University Of California, Office Of Technology Transfer | Storage and retrieval of large digital images |
US5889886A (en) | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
US6009196A (en) | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US5818965A (en) | 1995-12-20 | 1998-10-06 | Xerox Corporation | Consolidation of equivalence classes of scanned symbols |
US5999653A (en) | 1996-01-19 | 1999-12-07 | Xerox Corporation | Fast techniques for searching images using the Hausdorff distance |
US6173286B1 (en) * | 1996-02-29 | 2001-01-09 | Nth Degree Software, Inc. | Computer-implemented optimization of publication layouts |
US5835638A (en) | 1996-05-30 | 1998-11-10 | Xerox Corporation | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols |
US5956737A (en) * | 1996-09-09 | 1999-09-21 | Design Intelligence, Inc. | Design engine for fitting content to a medium |
US6505150B2 (en) | 1997-07-02 | 2003-01-07 | Xerox Corporation | Article and method of automatically filtering information retrieval results using test genre |
US5982368A (en) * | 1997-08-26 | 1999-11-09 | Lear Automotive Dearborn, Inc. | Vehicle display using icons |
US6035055A (en) * | 1997-11-03 | 2000-03-07 | Hewlett-Packard Company | Digital image management system in a distributed data access network system |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
-
1997
- 1997-11-14 US US08/971,020 patent/US6665841B1/en not_active Expired - Lifetime
-
1998
- 1998-11-12 JP JP32258398A patent/JP3942290B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11242654A (ja) | 1999-09-07 |
US6665841B1 (en) | 2003-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3942290B2 (ja) | ドキュメント画像のクライアント・ワークステーションへの送信方法 | |
JP4335335B2 (ja) | ドキュメント画像のソート方法 | |
US5999664A (en) | System for searching a corpus of document images by user specified document layout components | |
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
EP1024437B1 (en) | Multi-modal information access | |
US7904455B2 (en) | Cascading cluster collages: visualization of image search results on small displays | |
US6598054B2 (en) | System and method for clustering data objects in a collection | |
US5850490A (en) | Analyzing an image of a document using alternative positionings of a class of segments | |
US6564202B1 (en) | System and method for visually representing the contents of a multiple data object cluster | |
US6922699B2 (en) | System and method for quantitatively representing data objects in vector space | |
US6567797B1 (en) | System and method for providing recommendations based on multi-modal user clusters | |
Minghim et al. | Content-based text mapping using multi-dimensional projections for exploration of document collections | |
US6941321B2 (en) | System and method for identifying similarities among objects in a collection | |
US6728752B1 (en) | System and method for information browsing using multi-modal features | |
US8606789B2 (en) | Method for layout based document zone querying | |
US6996268B2 (en) | System and method for gathering, indexing, and supplying publicly available data charts | |
US6606623B1 (en) | Method and apparatus for content-based image retrieval with learning function | |
JP3614618B2 (ja) | 文献検索支援方法及び装置およびこれを用いた文献検索サービス | |
CN100410928C (zh) | 图面搜索支持设备 | |
US8566705B2 (en) | Dynamic document icons | |
JP2007188506A (ja) | アイコンツリーの枝刈り方法及び情報処理装置 | |
Shin et al. | Document Image Retrieval Based on Layout Structural Similarity. | |
Stoffel et al. | Enhancing document structure analysis using visual analytics | |
Tekli | An overview of cluster-based image search result organization: background, techniques, and ongoing challenges | |
JPH11224267A (ja) | ドキュメント画像の要約方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070403 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140413 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |