JP3841318B2

JP3841318B2 - アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー

Info

Publication number: JP3841318B2
Application number: JP07207597A
Authority: JP
Inventors: ピアースマーク
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-04-01
Filing date: 1997-03-25
Publication date: 2006-11-01
Anticipated expiration: 2017-03-25
Also published as: JPH1021043A

Description

【０００１】
【発明の属する技術分野】
本発明は、一般的にはドキュメントの記憶検索技術に係り、特に、見本ページの内容を利用するドキュメント検索及び関連したアイコンの生成技術に関する。
【０００２】
なお、本発明は、本願の譲受人共有の下記米国特許出願に開示された主題を基礎としており、これら特許出願の内容はそれぞれ参照により全面的に本明細書に組み入れられる。
(１) 出願番号：08／222,281 出願日：1994年４月１日
発明者：Ｊonathan Ｈullほか
発明の名称：IMAGE MATCHING AND RETRIEVAL BY MULTI-ACCESS REDUNDANT HASHING
特許番号：5,465,353 発行日:1995年11月７日
（以下、”Ｈull”と呼ぶ）
(２) 出願番号：08／431,059 出願日：1995年４月２８日
発明者：Ｍark Ｐeairs
発明の名称：ICONIC PAPER
(３) 出願番号：08／523,731 出願日：1995年９月５日
発明者：Ｍ．Ｐeairsほか
発明の名称：HIGH-SPEED RETRIEVAL BY EXAMPLE
（以下、”Ｐeairs”と呼ぶ）
【０００３】
【従来の技術】
ドキュメントを電子的に保管すると、紙のドキュメントを保管する場合に比べ多くの利点がある。まず、１枚の紙より安いコストで、１ページのイメージのビットマップ全体をスキャンして磁気ディスクに格納できる。また、電子的ドキュメントに対しては、テキスト及び図形のカット・アンド・ペーストといった編集操作がやりやすい。光学的文字認識（ＯＣＲ）その他により情報が電子的に抽出されるか否かにかかわらず、これらの利点はある。ただし、抽出は、テキスト編集、キーワード検索といった別の利点をもたらす。”抽出された”とは、ドキュメントのイメージの単なるビットマップでない形式で格納されたドキュメントを述べるために用いられる用語である。ワード・プロセシング・ドキュメントは、抽出されたドキュメントの一形態である。
【０００４】
しかし、紙媒体は依然として電子的媒体にまさるいくつかの長所を持っている。紙は、持ち運びができ、また、読み取り装置も電源も必要としないで見ることができる。標準サイズの紙は、封筒からリング・バインダーまで、多様な入れ物の間でやりとりできる。特に、紙の持つ二つの特徴、すなわち、ページ揃えした紙を高速にめくることが可能であることと、コンピュータ・モニターの解像度に比べ印刷した紙では非常に高い解像度を得られることから、閲覧が容易になる。
【０００５】
ほかに、あまり顧みられない紙の特性に、触れて感知できるということ、社交上の慣用物だということがある。ＨarperとＳellenは、”Ｃollaborative Ｔools and Ｐracticalities of Ｐrofessinal Ｗork at the Ｉnernational Ｍomentary Ｆund,”Ｃonference Ｐroceedings of ＣＨＩ '９５，Ｄenver，pp．１２２−１２９において、紙が人間相互のコミュニケーションの重要な要素となり得ることを指摘し、「紙のドキュメントは、差し向かいの会議の中心となることができ、関係者全員に見えるように机上に置くことができる．．．そして紙のドキュメントは、その解釈につき合意がなされたなら儀式的に交換することができる」と述べている。
【０００６】
ＷittakerとＳchwarzは、”Ｂack to the Ｆuture：Ｐen and Ｐaper Ｔechnology Ｓupports Ｃomplex Ｇroup Ｃoordination,”Ｃonference Ｐreceedings of ＣＨＩ '９５，Ｄenver，pp.４９５−５０２で、コンピュータ・コーディネーション・ソフトウエアの１グループを壁板に付けた紙に置き換えることについ述べており、それを紙の大きさ、公開性、視覚的及び材質的特性のためとする。二人はまた、紙の取り扱いに関係した単純な手の動きや筆記動作が身近な作業に対する思考力を増加させると言う。
【０００７】
オフィス環境に紙が存続するならば、電子システムと紙ドキュメントを相互作用させるツールの作成を考えることは有益である。このような方法論を具体化した例に、Ｐrotofoil（登録商標）（Ｐrotofoil：Ｓtoring and Ｆinding the Ｉnformation Ｗorker's Ｐaper Ｄocuments in an Ｅlectronic Ｆile Ｃabinet”，Ｃonference Ｐroceedings of ＣＨＩ '９４，Ｂoston，pp.１８０−１８５）があり、これはオフィス・ファイリング・システムに電子ペーパー相互作用の一形態を利用する。このシステムでは、ユーザーは、ジョブ制御及びドキュメント属性情報を与えるため、ドキュメントより前に紙のカバーシートを自動ドキュメント・フィーダーに入れる。
【０００８】
電子ドキュメント・デーベース・システムにおいて、データベースよりターゲット・ドキュメントを検索するという課題に対する一般的アプローチは、各ドキュメントのキーワードのセットを、ドキュメントと物理的に一緒にして格納する方法か、あるいはむしろ、キーが索引付けされるとともにエントリーがデータベース中のドキュメントを指し示すようなルックアップテーブルに格納する方法である。ドキュメントの”抽出された”バージョンが手に入るならば、ドキュメントからキーを容易に生成できる。ドキュメントの紙のバージョンしか手に入らないときには、その紙バージョンをスキャンしてドキュメントのページのデジタルイメージを生成し、そのデジタルイメージをＯＣＲにより処理してドキュメントのテキストを抽出し、そしてキーを抽出することができる。より労働集約的な方法で、キーを手入力することもできる。
【０００９】
かかるシステムにおいては、あるドキュメントを検索するために、キーが検索エンジンに与えられる。ユーザがデータベースに格納されたすべての文書のキーを覚えられそうもない場合、ユーザは、各ドキュメントが格納される時にその見本ページをとっておき、その見本ページをページ・アナライザーに与えてキー抽出をさせることができる。
【００１０】
このような一般的アプローチの欠点は、ドキュメント・データベース内のドキュメント及び見本ページを作成し抽出された形式で保存しなければならないか、あるいは、キーを決定するため見本ページに対し光学的文字認識を行わなければならないことである。かように、見本ページは、電子的なものであるか、ビットマップからキーを抽出するために必要な文字認識プロセスのスキャンニング・プロセスでエラーが起きない十分な品質のものでなければならない。
【００１１】
従来技術のドキュメント・プレゼンテーション・システムの一例が、Ｇ.Ｓtory，”Ｔhe ＲightＰages Ｉmage−Ｂased Ｅlectronic Ｌibrary for Ａlerting and Ｂrowsing”，COMPUTER，Ｓept．１９９２に記載されているＲightＰagesドキュメント・プレゼンテーション・システムである。このシステムにおいては、ユーザは一連のジャーナル・カバーを提示されるので、ユーザは、そのジャーナル・カバーを閲覧して望みのジャーナルを見つけ、次にその目次を閲覧し、そのジャーナルより一つの記事を選択する。あるジャーナル記事の見本ページが選択されたならば、システムはターゲット記事をドキュメント・データベースより検索する。このＲightＰagesシステムの欠点は、アイコンがコンピュータ・モニタに表示されるため印刷より解像度が低いことと、ジャーナル・カバーとページとの間のリンクが予め存在しなければならないことである。このように、ユーザは見本ページを閲覧するにはコンピュータ・モニタのところにいなければならない。
【００１２】
Ｈullの教示するドキュメント記憶検索システムは、保有しているターゲット・ドキュメントの紙の見本ページを検索エンジンに与えることによってターゲット・ドキュメントをデータベースより検索するためのシステムである。検索エンジンは、見本ページを解析し、データベース内のドキュメント中で整合していそうなものを決定する。しかし、非常に多くのドキュメントが格納されることになる場合には、見本ページの保管及び編成が、ドキュメント・データベース記憶によって緩和に努めているのと同じいくつかの問題点、例えば、紙のページのために保管スペースを割り当てて、それらページを系統だてて整理しておかなければならないといった問題を生じさせる。
【００１３】
したがって、必要とされるのは、ドキュメントの検索及び管理に利用するための見本ページを効率的に記憶するシステムである。
【００１４】
【発明が解決しようとする課題】
本発明は前述の考察に鑑みてなされたもので、その主たる目的は、ドキュメント検索のための改良されたアイコンの生成方法、改良されたドキュメント検索方法、及び、改良されたドキュメント・サーバーを提供することにある。
【００１５】
【課題を解決するための手段】
請求項１の発明は、ドキュメント記憶システムにおいて、所定の言語タイプのテキストを含むドキュメントを象徴する視覚的手がかりであるアイコンを生成する方法であって、
該ドキュメントより見本ページを特定するステップ、各領域のイメージ種類に基づいて該見本ページを複数領域に分割するステップ、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小するステップ、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成するステップからなり、
該縮小のステップは、単語間にスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出するステップ、単語間スペースを検出するステップ、及び、単語を、その単語中の文字数によって決まる長さを持つ実線で置き換えるステップを含むことを特徴とする。
【００１６】
請求項２の発明は、ドキュメント記憶システムにおいて、所定の言語タイプのテキストを含むドキュメントを象徴する視覚的手がかりであるアイコンを生成する方法であって、
該ドキュメントより見本ページを特定するステップ、各領域のイメージ種類に基づいて該見本ページを複数領域に分割するステップ、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小するステップ、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成するステップからなり、
該縮小のステップは、均一にスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出するステップ、検出された文字の範囲の文字密度を検出するステップ、及び、該文字を、検出された文字密度をもとに区別可能な文字密度を持つ文字ブロックで置き換えるステップを含むことを特徴とする。
【００１７】
請求項３の発明は、請求項１又は２記載のアイコン生成方法において、アイコンを紙に印刷するステップをさらに含むことを特徴とする。
【００１８】
請求項４の発明は、請求項１又は２記載のアイコン生成方法複数のアイコンを蓄積し、１枚につき複数のアイコンを含む少なくとも１枚の案内ページを印刷するステップをさらに含むことを特徴とする。
【００１９】
請求項５の発明は、請求項１又は２記載のアイコン生成方法において、該領域分割のステップは、テキスト、線画、写真及び機械読み取り可能な印刷データ構造の中より選択されたイメージ種類を持つ領域に分割するステップであることを特徴とする。
【００２０】
請求項６の発明は、請求項１又は２記載のアイコン生成方法において、該領域分割のステップはテキストをフォント・サイズに基づいて別々の領域に分離することを特徴とする。
【００２１】
請求項７の発明は、請求項１又は２記載のアイコン生成方法により作成された、複数のドキュメント中のドキュメントに関連した複数のアイコンを含む案内ページを用いて該複数のドキュメントよりターゲット・ドキュメントを選ぶドキュメント検索方法であって、
案内ページ上の、該ターゲット・ドキュメントに関連したアイコンに付けられた選択指示のマークによりアイコンを選択するステップ、
該選択されたアイコンをスキャンして該アイコンの電子的表現を生成するステップ、
該アイコンの電子的表現から、該見本ページの特徴を抽出するステップ、
該特徴を利用し、該特徴と整合する、該ターゲット・ドキュメントを含む少なくとも１つのドキュメントを特定するステップ、及び、
該ドキュメント・サーバーを利用し該ターゲット・ドキュメントを選ばれた形態で提供するステップ、
からなることを特徴とする。
【００２２】
請求項８のドキュメント・サーバーは、電子的表現のドキュメントを格納するドキュメント・データベースと、
入力ドキュメントを該ドキュメント・データベースに格納するのに適した電子的表現に変換するドキュメント入力用入力手段と、
該入力ドキュメントの見本ページの可視的縮小表現であるアイコンを生成する、該入力手段と接続されたページ・プロセッサと、
該入力ドキュメントの電子的表現を解析し、該入力ドキュメントのテキストの識別特徴を抽出して、該入力ドキュメントに係わるテキストのハッシュされた冗長記述子であるキーを生成する、該入力手段と接続されたキー・ジェネレータ、
該キーを記憶しかつ該ドキュメント・データベース中のドキュメントに関連付けるための、該キー・ジェネレータと接続されたインデックス手段、
ターゲット・ドキュメントのアイコンを入力するためのアイコン入力手段、
該アイコンからアイコン特徴を抽出するための、該アイコン入力手段と接続されたアイコン解析手段、
該アイコン特徴を問い合わせに変換し、該問い合わせを使って該ターゲット・ドキュメントを含む少なくとも１つの整合ドキュメントへの参照を取得する、該アイコン解析手段及び該インデックス手段と接続された検索エンジン、
及び
該ターゲット・ドキュメントをユーザの指定した形態で提示するためのプレゼンテーション・エンジンからなり、
該ページ・プロセッサは、該入力ドキュメントより見本ページを特定し、各領域のイメージ種類に基づいて該見本ページを複数領域に分割する手段、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小する手段、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成する手段を備え、
該縮小する手段は、単語間のスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出し、単語間スペースを検出して、単語を、その単語中の文字数によって決まる長さを持つ実線で置き換えることを特徴とする。
【００２３】
請求項９のドキュメント・サーバーは、電子的表現のドキュメントを格納するドキュメント・データベースと、
入力ドキュメントを該ドキュメント・データベースに格納するのに適した電子的表現に変換するドキュメント入力用入力手段と、
該入力ドキュメントの見本ページの可視的縮小表現であるアイコンを生成する、該入力手段と接続されたページ・プロセッサと、
該入力ドキュメントの電子的表現を解析し、該入力ドキュメントのテキストの識別特徴を抽出して、該入力ドキュメントに係わるテキストのハッシュされた冗長記述子であるキーを生成する、該入力手段と接続されたキー・ジェネレータ、
該キーを記憶しかつ該ドキュメント・データベース中のドキュメントに関連付けるための、該キー・ジェネレータと接続されたインデックス手段、
ターゲット・ドキュメントのアイコンを入力するためのアイコン入力手段、
該アイコンからアイコン特徴を抽出するための、該アイコン入力手段と接続されたアイコン解析手段、
該アイコン特徴を問い合わせに変換し、該問い合わせを使って該ターゲット・ドキュメントを含む少なくとも１つの整合ドキュメントへの参照を取得する、該アイコン解析手段及び該インデックス手段と接続された検索エンジン、
及び
該ターゲット・ドキュメントをユーザの指定した形態で提示するためのプレゼンテーション・エンジンからなり、
該ページ・プロセッサは、該入力ドキュメントより見本ページを特定し、各領域のイメージ種類に基づいて該見本ページを複数領域に分割する手段、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小する手段、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成する手段を備え、該縮小する手段は、均一にスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出し、検出された文字の範囲の文字密度を検出し、該文字を、検出された文字密度をもとに区別可能な文字密度を持つ文字ブロックで置き換えることを特徴とする。
【００２４】
【発明の実施の形態】
改良されたドキュメント・サーバーが本発明により提供される。ドキュメント・サーバーとは、ドキュメントのデータベースを、抽出され構造化された形で、ドキュメントの紙のページのデジタル化イメージとして、又はその両方の組合せの形で維持するコンピュータ・システムである。ターゲット・ドキュメントは、ドキュメント・データベース中の検索したいドキュメントである。ターゲット・ドキュメントを検索するには、ターゲット・ドキュメントの１つ以上の特徴、例えばキー、固有ラベル又は見本ページを表す入力がドキュメント・サーバーに与えられる。典型的には、一つのドキュメントがドキュメント・サーバーに与えられ、その１つのページだけ保有される。そして、この保有されたページを、そのドキュメント全体が欲しい時に与えられる見本ページとして利用できる。見本ページは、ドキュメントの最初のページとしてよいが、ターゲット・ドキュメントをドキュメント・データベース内の他のドキュメントから識別できる限り、最初のページである必要はないしドキュメントの１ページ全体である必要さえもない。見本ページは、ターゲット・ドキュメントを完璧に識別する必要はない。ターゲット・ドキュメントとよく整合する候補整合ドキュメントの小集合を特定することでも、それらをユーザに提示して、その中からターゲット・ドキュメントを選択させることができれば、それで十分であるからである。
【００２５】
本発明の一つの利点は、アイコンに、人間と機械の両方が判読できるデータを用いることである。
【００２６】
本発明によるドキュメント・サーバーの一実施例においては、ドキュメント・データベース内の各ドキュメントの見本ページがページ・プロセッサにより処理されて、その見本ページのアイコンが生成される。典型的には、この処理は、ドキュメントが初めてドキュメント・データベースに格納される時に実行される。ページ・プロセッサは、単語間にスペースをあけるタイプの言語のテキスト、均一にスペースをあけるタイプの言語のテキスト、線画、写真、その他グラフィックス、縁飾り、着色領域、グリフ（glyph）、バーコードといったイメージ種類
に応じたセグメント領域に、見本ページを領域分割する。勿論、すべての見本ページですべてのイメージ種類を見つける必要はなく、また、イメージ種類はここに述べたものに限定されない。領域分割の後、各領域は、そのイメージ種類に適する方法で、特徴付けされて縮小される。例えば、テキスト領域内のテキストは、ブロックフォント（後述）で置き換えられてから縮小され、一方、グラフィックス領域は解像度が下げられる（画素の精密さ及び／又は単位面積あたりの画素数を減らすことによる）。そして、縮小された見本ページの領域は再組立されて見本ページのアイコンとなる。
【００２７】
本発明の一具体例では、多くのアイコンを単一のページ（本明細書では”案内”ページと呼ぶ）に印刷することができる。これらのアイコンは、人間により認識可能であり（つまり元のページ・イメージとの類似点を保持している）、かつ、機械により判読可能である（つまり、ドキュメント・データベース内のあるドキュメントの電子的バージョンのロケーションを示す固有のアドレスをアイコンのイメージから抽出できる）。これは、”見本による問い合わせ”のより単純なケースというよりも、むしろ”見本による検索”であって、その見本はアイコン代役表現である。
【００２８】
この案内ページが、又はアイコン数によっては複数の案内ページが、ユーザに提供される。あるドキュメントを検索するためには、ユーザは案内ページをざっと見て、ターゲット・ドキュメントと関係しているように見えるアイコンを見つけ、その選んだアイコンの指定をドキュメント・サーバーに与える。
【００２９】
アイコンがスキャンされると、ドキュメント・サーバーはアイコンの内容を解析し、そのアイコンにより代表される見本ページの識別特徴を検出し、それら特徴を検索エンジンに与える。そうすると、検索エンジンはドキュメント・データベース内の候補整合ドキュメントを見つける。ドキュメント・サーバーは、２つ以上の候補整合ドキュメントが返ってきたときには、ユーザが候補整合ドキュメントよりターゲット・ドキュメントを手作業で選択できるように、各候補整合ドキュメントについての情報、例えば候補整合ドキュメントの一部分の簡略イメージを提供する。
【００３０】
あるいはまた、各アイコンに固有の英数字コード又は機械判読可能なバーコードのような識別ラベルを割り当てることもでき、ユーザはその識別ラベルをターゲット・ドキュメントの検索のためにドキュメント・サーバーに与える。この場合、ドキュメント・サーバーはドキュメント検索のためにアイコン・イメージの内容を利用する必要はないが、それでもなおユーザにとって、ターゲット・ドキュメントのコンパクトな視覚的手がかりを与えるのにアイコンは有益である。案内ページを用いれば、ユーザは多くのアイコンに素早く目を通すことができる。前記のようなページ縮小プロセスであるため、見本ページの識別特徴はアイコン化プロセスの間中保存され、識別情報をユーザに識別できるようにしたままアイコンを小さくすることができる。一つ一つのアイコンに固有の識別子を持たせるかわりに、アイコンを、それが見つかる案内ページの固有の識別子と、その案内ページ上の位置（例えば行／列）とにより指定してもよい。
【００３１】
前記具体例の変形を考察する。例えば、ユーザがあるアイコンを丸で囲んだ案内ページを与えることによって、デジタルコピアにある完全なドキュメントを出力させるように、ドキュメント・サーバーをデジタルコピアと合体させてもよい。このデジタルコピアは、与えられた案内ページをスキャンし、そのアイコンの内容より情報を抽出するか、あるいは、案内ページ識別子を抽出しかつ案内ページ上のそのアイコンの位置を測定することになろう。分散したドキュメント・サーバーが利用され、そして同じドキュメントに対し異なったユーザによって異なった案内ページが用いられる場合、アイコンの内容だけからアイコンを識別するという前者の選択肢のほうが好ましいやり方である。アイコンのスキャン及びドキュメントの印刷のためのインターフェイスは、普通のファクシミリ装置にすることができるから、広域遠隔ドキュメント検索が可能になる。
【００３２】
実施例によっては、一つのドキュメントに対し、そのドキュメントの見覚えのある部分をユーザが見つける確率を高めるため複数のアイコンが用意されるかもしれない。これは、案内ページ又はアイコンの数がそれほど制約を受けない場合に適する。また、必要ならば、ドキュメント・サーバーは、ターゲット・ドキュメントを印刷したいけれども、長いドキュメントの数ページだけしかユーザが必要としない時などに、ターゲット・ドキュメントの一部分だけの検索を選択する機能がユーザに与えられるかもしれない。
【００３３】
ページ・プロセッサのある具体例において、文字はブロック化され、単語間スペースが検出され、単語の文字はその単語長に比例した長さの１本の線に置き換えられる。これは、アイコンから単語長を抽出する際の誤り率を減らす一方法である。誤り率を減らすことの一つの利点は、その分だけ小さなアイコンが使用可能になることである。
【００３４】
ドキュメントの識別のためにアイコンを用いるのではなく、電話番号や電子メール・アドレス等のデータ要素を検索するためリストから一つの選択を入力するといった、別種のデータの入力の必要をなくすための紙インターフェイスとしてアイコンを利用することもできる。
【００３５】
本発明の性質及び利点は、明細書の以下の部分及び添付図面を参照することにより、一層よく理解されよう。以下、本発明の好適実施例について図面を用いて説明する。
【００３６】
図１は本発明の一実施例によるドキュメント・サーバー１０を示している。ドキュメント・サーバー１０は、入力ドキュメント（例えば１２）を受け取って格納し、またドキュメントを得るためのユーザ・リクエストに応答する。図１には、３つのユーザ・リクエストがアイコン１４、ラベル１６及び案内ページ１８によってそれぞれ示されているが、ここに示されたリクエストの組合せを含め別の形式のリクエストも可能である。ユーザ・リクエストは、ドキュメント・サーバー１０に格納されている特定のドキュメント、例えば図１に示したターゲット・ドキュメント２０に対する要求である。ドキュメント・サーバー１０は、入力されたリクエストだけを根拠にして、あるいは必要ならば、ほぼ整合するドキュメント（候補整合ドキュメント）の集合からの選択をユーザにさらに促すことによって、ターゲット・ドキュメント２０を与える。入力ドキュメント１２が紙のドキュメントのときには、それらはスキャナ３０によってスキャンされデジタル・イメージにされてからドキュメント記憶ユニット３２に与えられる。そうでなくて、入力ドキュメント１２が電子的形態で与えられるときには、それらは直接的にドキュメント記憶ユニット３２へ与えられ、スキャンされる必要はない。ドキュメント記憶ユニット３２は、入力ドキュメント１２を処理して入力ドキュメント１２のアイコン３４を生成し、入力ドキュメント１２のデジタル表現をドキュメント・データベース３６に格納すると同時に、ドキュメント索引データを生成してドキュメント・インデックス・テーブル３８に格納する。
【００３７】
ドキュメント記憶ユニット３２は、アイコン４２のようなアイコンを生成するページ・プロセッサ４０、キー・ジェネレータ４４、及びオプションのアイコン・シリアライザー（serializer）４６からなる。ページ・プロセッサ４０は、ドキュメント・サーバー１０に入力中のドキュメント１２より得られた見本ページを処理してアイコンを生成する。このプロセスは後により詳しく説明する。キー・ジェネレータ４４は、入力ドキュメント１２より情報を抽出して、格納後にドキュメント１２のロケーションを突き止めるために用いられるキーを生成する。場合によっては、キー・ジェネレータ４４は、ドキュメント１２が構造化ドキュメントであれば、ドキュメント１２のテキストをスキャンするが（又は初めに文字認識を行うが）、やはりＨｕｌｌの教えるところの記述子に基づいてキーを生成する。これら生成されたキーは、ドキュメント・データベース３６内のドキュメント１２のロケーションを指すポインタと一緒にドキュメント・インデックス・テーブル３８に格納される。
【００３８】
アイコン識別子が用いられる場合、アイコン・シリアライザー４６によってアイコン識別子が生成されてアイコン４２に付加され、アイコン４２はドキュメント要求者が利用可能な形でアイコン３４として出力される。アイコン・シリアライザー４６は通常、個々のアイコンの識別に用いられる番号又はコードをインクリメントし、この番号又はコードはドキュメント・インデックス・テーブル３８へも送られてドキュメント１２のためのキーとして利用される。アイコン・シリアライザー４６は、順序を変更するため必要に応じて初期化することができる。順序変更の一つの使い道は、各ユーザが自分のドキュメントの案内ページを保有し、自分のアイコンのために連続番号を欲する場合である。この場合、例えば、案内ページはスキャン・ジョブの最初のページとして与えられ、そして、ページ・プロセッサ４０又はキー・ジェネレータ４４が最初のページを案内ページと認識し、既存のアイコンの連続性を抽出してその情報をアイコン・シリアライザー４６に渡すことにより次のアイコンを順に連続化できるようにする。勿論、案内ページ全体をアイコン・シリアライザー４６に与えてもよく、そうすればアイコン４２を案内ページに追加し、アイコン４２及び当該案内ページより得られた前のアイコンを全て含んだ新たな案内ページをユーザに対し印刷することができるようになる。
【００３９】
ドキュメント・サーバー１０のドキュメント検索ユニット５０によってドキュメント・データベース３６からドキュメントが検索されるが、このドキュメント検索ユニット５０は、ユーザ・リクエストを受け取ってターゲット・ドキュメント２０をもって応答する。ユーザ・リクエストはドキュメント検索ユニット５０に直接的に与えられるように図１には示されているが、ユーザ・リクエストは遠隔地より、例えばネットワークを通じて又はファクシミリ装置を介して与えられてもよい。ここに示されたドキュメント検索ユニット５０は、解析エンジン５２、検索エンジン５４及びプレゼンテーション・エンジン５６を備える。解析エンジン５２は、ユーザ・リクエストを受け取るように接続されており、また、後に詳述するようにリクエストの特徴を検索エンジン５４に与えるため検索エンジン５４と接続されている。検索エンジン５４はさらにドキュメント・インデックス・テーブル３８に対し、キーを送って整合ドキュメントへのポインタを受け取るように接続されている。検索エンジン５４はプレゼンテーション・エンジン５６とも、候補ドキュメントのリスト（キーがターゲット・ドキュメントを固有的に特定するに足る場合には唯一つのドキュメントだけからなるリストもある）を送るため接続されている。プレゼンテーション・エンジン５６は、ドキュメント・データベース３６からドキュメントを取り出すためにドキュメント・データベース３６とも接続され、また、デジタル・コピア、コンピュータ・ディスプレイ、プリンタ、ファクシミリ装置、電子メール・サーバー等の様々な出力装置（不図示）と接続されている。
【００４０】
動作であるが、フラットベッド・スキャナ、ハンドヘルド・スキャナのような一般的な入力装置又はあまり一般的でないコンピュータ・インターフェイス付デジタル・コピアのような入力装置を利用して、ユーザ・リクエストが解析エンジン５２に与えられる。ユーザ・リクエストがアイコンの形式のときには、解析エンジン５２は、そのアイコンの内容より情報を抽出する。ユーザ・リクエストがアイコン識別子（アイコンＩＤ、又は案内ページとアイコン位置）の形式のときには、その識別子が利用される特徴そのものである。解析エンジン５２は抽出した特徴を検索エンジン５４に与える。好適な実施態様においては、一般的でない特徴ほど、一般的な特徴より大きなウエートが与えられる。非常に一般的な特徴は無視されることさえあり得る。
【００４１】
検索エンジン５４は、抽出された特徴を用い、ターゲット・ドキュメントを検索するためのキーを生成する。Ｈｕｌｌは、ドキュメントのハッシュされた冗長記述子（当該ケースではキーの役割をすることになろう）を格納することを教示する。アイコンの内容ではなくアイコン識別子が利用される場合には、その識別子がキーとして利用される。このキーは、１つ以上の整合したもの、つまり候補整合ドキュメントのリストを検索するようにドキュメント・インデックス・テーブル３８に索引付けされる。アイコン識別子が利用される場合には、普通、候補整合ドキュメントは唯一つだけ存在する。ただし、一つのアイコンがあるドキュメントの複数のバージョンを選択することがあるシステムでは、候補整合ドキュメントが２つ以上あるかもしれない。
【００４２】
検索エンジン５４は、整合したもののリストをプレゼンテーション・エンジン５６に与える。そうすると、プレゼンテーション・エンジン５６は、ドキュメント・データベース３６より候補整合ドキュメントを取り出し、それらをユーザ・リクエストで与えられたプレゼンテーション命令に従って提示する。例えば、ユーザは、そのドキュメントをコンピュータ・モニター上で見ることを要求してもよいし、あるいは印刷させることを要求してもよい。デジタル・コピアが利用される場合には、ドキュメントの印刷の要求であることは自明である、すなわち、ユーザがドキュメントを要求すると、デジタル・コピアはそのドキュメントを印刷すべきものとみなす。プレゼンテーション・エンジン５６は、ユーザが候補整合ドキュメント又はそれらの簡略イメージを閲覧できるようにし、そのどれが求めているドキュメントであるか指定する選択をキーボード又はマウスより受け取るための対話型インターフェイスを含んでもよい。
【００４３】
図２はページ・プロセッサ４０をより詳しく示す。ページ・プロセッサ４０は、その入力としてページ１００のデジタル表現を受け取り、ページ１００のアイコン表現としてアイコン１０２を出力する。図２において、ページ１００はテキスト領域１０４とグラフィックス領域１０６を持っているとして表されており、ページ・プロセッサ４０はセグメンテーション・アナライザー１０８、テキスト・リデューサー（reducer）１１０、グラフィックス・リデューサー１１２及びページ・リアッセンブラー（reassembler）１１４を備えているものとして表されている。セグメンテーション・アナライザー１０８は、入力したページ１００からページ１００の様々な領域のマップ１１６を作成する。本例では、マップ１１６は、一つのテキスト領域と一つのグラフィックス領域だけからなる。勿論、一般的なドキュメントは、より変化に富んだ領域を持つ、より複雑なページを含むかもしれない。
【００４４】
ページ１００及びページ領域分割結果（マップ）１１６は、テキスト・リデューサー１１０及びグラフィックス・リデューサー１１２に与えられる。あるいは、転送時間及び記憶スペースを節約するため、ページ１００を判明した領域の種類毎に前もってサブページに分割してもよい。いずれにしても、特定のリデューサーは、その領域種類のみ処理する。２つのリデューサーしか示されていないが、別のリデューサーも利用されるかもしれない。例えば、セグメンテーション・アナライザー１０８がグリフ（機械読み取り可能なマーク）又はバーコードの領域を検出した場合、グリフ又はバーコードのリデューサーが利用されることになろう。当該リデューサーは、ただグリフ又はバーコードにエンコードされた情報を読み取り、その情報をより小さな面積にエンコードした機械読み取り可能なマークを生成するにすぎないであろう。
【００４５】
領域それぞれが縮小されると、それらはページ・リアッセンブラー１１４によって再組み立てされてアイコン１０２となる。ページ領域分割の一般的な方法は、Ｃullen，Ｊ.Ｆ.，and Ｅjiri，Ｋ.１“Ｗeak Ｍodel-Ｄependent Ｐage Ｓegmentation and Ｓkew Ｃorrection for Ｐrocessing Ｄocument Ｉmages”，Ｐreceedings of ２nd Ｉnternational Ｃonference on Ｄocument Ａnalysis and Ｒecogniton ７５７-６０（１９９３）に示されている。
【００４６】
今問題にしている圧縮方法は、小さなアイコンが人間に認識可能である（ただし必ずしも判読可能でない）とともに、それがドキュメントの要求に用いられた時に解析エンジン５２によって識別できるというようなものである。
【００４７】
例えば、テキスト・リデューサー１１０はただ単にテキスト領域を縮小するたげではない。ドキュメントを解析エンジン５２が識別しやすくするために、テキスト領域内の各文字はブロックフォント文字に置き換えられる。図３はアイコン化されるページ３００の一例を示す。図４はページ３００から作られたアイコン４００を示す（アイコン４００（ａ）は原寸大で表されたアイコンであり、アイコン４００（ｂ）は典型的な案内ページに見られるサイズで表されたアイコンである）。図４においては、各文字は一つのブロック文字に置き換えられている。これによってテキストは判読不可能になるが、ユーザにとって判読し理解することができるものである必要はない。また、実際の文字が特徴として用いられなければ、解析エンジン５２にとって判読可能である必要もない。例えばＨullにあ４００のように文字をブロックに置き換えることにより、アイコン４００を複写又はファクシミリ伝送しても単語長の保存が確実になる。ブロックはいくつかの方法で生成できる。その一つはブロックのフォントを用いる方法であり、文字の表示毎にフォント文字を表示することによってイメージが生成されるワード・プロセシング・ファイルのような構造化ドキュメントに用いるのに適する。例えば、ある構造化ドキュメントにASCIIコード'65'が格納されているとする。ディスプレイ・ドライバーは、そのコードをフォント・テーブルへのインデックスとして使って、文字イメージ”Ａ”を取り出し表示するであろう。ブロックを生成するためには、そのフォント・テーブルをすべてブロックの文字イメージに置き換えればよい。もっとも、スペース文字（それに恐らく他の句読点類）は別であることは当然である。ページ１００が構造化ドキュメントとして表現されておらず、ページの単なるイメージ（例えばビットマップ）である場合、各文字を外接枠で囲み、その内部を埋めることができる。この方法によれば、中間的な文字認識ステップの必要性も、それに伴う誤りもなくなる。
【００４８】
さらに高い再現性を得るために、単語を線に置き換えることができる。これを行うには、文字の外接枠と単語間スペースが測定される。次に、外接枠は均一の間隔で並べられ、そして一本の線分に置き換えられる。かくして、テキストの各行は共線的な線分に置き換えられ、各線分の長さは置き換えられる単語の文字数に比例する。
【００４９】
縮小プロセスを高精度化する方法として、セグメント・アナライザー１０８は大きなフォントのテキストと小さなフォントのテキストを別々に分類してもよい。そうした場合、大きなフォントのテキストは、縮小されてもユーザーが内容を判読できように、文字認識とともに又は文字認識なしに、テキストを比例的に縮小するリデューサーによって処理されることになろう。小さなフォントのテキストは、前述のように文字をブロック又は線に置き換えるリデューサーによって処理されることになろう。
【００５０】
多色ドキュメントの場合、見本ページからアイコンへの縮小において色を保存してもよい。
【００５１】
もう一つの高精度化の方法は、各ブロック文字をテキスト・ベースラインに沿って配置し、各単語中の各ブロック間に一定のスペースをあけることである。これによって、文字ブロックパターンのイメージ処理特徴検出を助成できる。
【００５２】
一実施例では、グラフィックス領域１０６等において線画が検出された場合、グラフィックス・リデューサー１１２は、その線画を写真とは違ったやり方で処理する。線画は、輪郭が比較的はっきりしていてグレーのシャドーを用いないグラフィックスである。線画は、それらの識別性をさらに高めるよう、細線化のような構造保存操作によって縮小される。
【００５３】
図５はアイコンの相対的な大きさを説明する図である。図５は、アイコン１０２と同様なアイコン及び４９アイコン／枚（７行×７アイコン；両面なら９８アイコン）のスペースを含む案内ページを示す。ただし、アイコンをさらに小さくしてもよい。このような両面の案内ページを１０枚用いれば、ユーザはドキュメント・サーバー１０に格納された約１０００ドキュメント（その総ページ数は数万ページになるかもしれない）分の見本ページのアイコンをざっと見ることができる。ドキュメント・サーバーが要求に応じ案内ページをプリントアウトすることができれば、ユーザは案内ページを保有する必要もない。アイコンを、ドキュメント・データベース３６内のドキュメントと一緒に格納したり、あるいはドキュメント・インデックス・テーブル３８内のキーデータと一緒に格納したりすることさえも可能である。
【００５４】
アイコン１０２のもとになったページ１００を含むドキュメントの写しを検索するには、ユーザは案内ページ５００上のアイコン１０２を丸で囲み、その案内ページをドキュメント・サーバー１０に与えれるだけでよい。案内ページ５００はドキュメントの管理のためにも利用し得る。例えば、ドキュメント・サーバー１０は、アイコンに”Ｘ”印が付けられた案内ページを、対応したドキュメントをドキュメント・データベース３６より削除することを指示すると受け取るようにプログラムされてもよい。ドキュメント・サーバー１０は、アイコンのように見えるものからドキュメントの試し検索を行うことによって、案内ページと他のページとの自動識別を試みてもよい。そのようにしてドキュメントが検索されたならば、そのページは案内ページであると推定される。
【００５５】
図６は、本発明に従ってドキュメント・データベースにドキュメントを格納するプロセスのフローチャートである。このプロセスは、ユーザがドキュメントをドキュメント・サーバーに与えた時に開始する。ステップＳ１において、一つのドキュメントが（それがまだ電子的形態でなければ）スキャンされる。ステップＳ２において、該ドキュメントがドキュメント・データベースに格納され、また、キーが使用されるときには、該ドキュメントよりキーが抽出される。前述の如く、キーとして利用するための冗長特徴を抽出する一方法がＨullによって教えられる。次に、アイコンの生成に用いられる見本ページが該ドキュメントより選択される（Ｓ３）。見本ページの選択が自動選択の場合、ドキュメント・サーバーは、常にドキュメントの第１ページを選択してもよいし、ドキュメントの各ページを調べて見つかることの希な特徴を突き止め、例えば、大部分がテキストのドキュメント中のグラフのページ、大部分がグラフィックのドキュメント中のテキスト・ページを選択し、あるいは全ページを選択するように決めてもよい。自動選択でない場合には、覚えやすい見本ページをユーザが選択すればよい。
【００５６】
見本ページが選択されたならば、見本ページは領域分割されて、見本ページの領域のマップすなわちレイアウトが作成される（Ｓ４）。これら領域のそれぞれは、その領域のイメージ種類に特有の縮小方法によって縮小され（Ｓ５）、縮小された領域はアイコンの電子的表現に再組立される（Ｓ６）。アイコンＩＤが使用されるなら、その電子的表現にアイコンＩＤが付加される（Ｓ７）。
【００５７】
この電子的アイコンは同じ案内ページに関係した他の電子的アイコンに追加され（Ｓ８）、このアイコンを持つ案内ページは必要に応じて印刷される（Ｓ９）。案内ページは、普通、各アイコンの後では印刷されず、ドキュメント格納プロセスの終了時又は一つの案内ページが一杯になった時に印刷される。
【００５８】
アイコンが印刷されるか、後で印刷するため他のアイコンと一緒に格納されたならば、ドキュメント・サーバーはまだほかにドキュメントがあるかチェックする（Ｓ１０）。ほかのドキュメントを処理しなければならないときには、当該プロセスはステップＳ１に戻って継続するが、そうでなければ当該ドキュメント格納プロセスは終了する。
【００５９】
図７は図６に示したプロセスに従って格納されたドキュメントの検索のためのプロセスのフローチャートである。この検索プロセスは、検索しようとするターゲット・ドキュメントの見本ページを表すアイコンをユーザがドキュメント・サーバーに与えた時に開始し、そのアイコンがスキャンされる（ステップＲ１）。次にステップＲ２において、ドキュメント・サーバーはアイコンのスキャン・イメージよりアイコン識別子（アイコンの特有の識別子、あるいは案内ページ識別子と案内ページ上のアイコン位置）を入手できるか否か判定する。当該アプリケーションが異なったシステムで異なった案内ページが使用されることを考慮しているならば、ドキュメント・サーバーは、アイコン識別子が、それが使用されるシステムにとって妥当であるかのチェックも行うかもしれない。ドキュメント・サーバーはまた、アイコン識別子が正しいことを確かめるための相互参照としてアイコンの内容そのものを利用するかもしれない。
【００６０】
アイコン識別子が与えられない、すなわち使用されないときには、ドキュメント・サーバーは前述のようにアイコンの内容を解析して、検索エンジンにより整合ドキュメントの検索のために利用される特徴を抽出する（Ｒ３）。アイコン識別子が使用されるときには、そのアイコン識別子が抽出されて検索エンジンに与えられる（Ｒ４）。いずれの場合も、検索エンジンはターゲット・ドキュメントを探索し（Ｒ５）、そして、２つ以上の整合ドキュメントが見つかったか調べる（Ｒ６）。２つ以上のドキュメントが見つかったときには、ユーザはそれらの整合ドキュメントを提示され、その中からターゲット・ドキュメントを選択するよう求められる（Ｒ７）。唯一つのドキュメントが選択されたときには、それがターゲット・ドキュメントとして返される（Ｒ８）。
【００６１】
このように、ユーザは、簡単にドキュメントを格納して、わずか数枚のアイコン案内ページを使ってドキュメント・サーバーよりドキュメントを取り出すことができる。ドキュメント・サーバーに関する以上の説明から、いくつかの応用、利用が思い浮かぶ。例えば、ユーザが、ドキュメント・サーバーの一部をなすデジタル・コピア／スキャナにドキュメントを与える。このドキュメントはスキャンされ、そしてドキュメントの原ページは消去されてリサイクルされ、ユーザには、そのドキュメントのアイコンを含んだ案内ページ（必ずしも１対１の関係ではない）が提供される。
【００６２】
必ずしも好適な実施態様ではないけれども、アイコンがドキュメント・サーバーに電子的に格納され、その後、要求された時に案内ページが印刷出力されるようにしてもよい。アイコンが電子的に格納されるときには、新しいアイコンが追加された時に更新された案内ページを印刷出力するのは簡単なことである。しかしながら、持ち運びできる案内ページを持つ利点は失われ、ユーザはドキュメントを検索しようとする都度、ドキュメント・サーバーに案内ページを印刷出力させなければならない。ドキュメント・サーバーが案内ページ更新機能を備えてもよく、この場合、ユーザが案内ページを与えると、その案内ページはスキャンされてからリサイクルされ、新しい案内ページが印刷される。
【００６３】
ユーザは、あるドキュメントの検索又は削除をしたい時には、できれば機械検出可能インクのペンを使って、案内ページ上の適切なアイコンを丸で囲み（検索の場合）又はＸ印で抹消する（削除の場合）。あるいは、小型のハンドヘルド・スキャナを使って個々の項目をスキャンしてもよい。次に、ドキュメント・サーバが関連ドキュメントを突き止めて適切な処置をとり、それらドキュメントを削除し又はユーザに提示する。勿論、ユーザは、ドキュメントの全体を検索するのでなく、希望する特定のページを指定してもよい。
【００６４】
案内ページ上のアイコン・セットが変動しなければ、ユーザはアイコンのレイアウト及び位置により精通するであろうから、ユーザは案内ページ上のアイコンの位置を思いだして直ちに確認することによって、ドキュメントを素早く突き止めることができるようになる。
【００６５】
アイコンは、他の種類のデータ入力を省くための紙インターフェイスとして利用することもできる。例えば、アイコン案内ページに、人のリストのための、それぞれが各人の名前と写真を表すアイコンを含めてもよい。この案内ページを利用するには、ユーザはイメージの一つを丸で囲み、ドキュメント・サーバー１０は、そのアイコンに関連した情報のセットを返すことになろう。一具体例では、案内ページは作業グループの全員を表し、ドキュメントの送り先を指示するため一つのアイコンを丸で囲んだ案内ページがドキュメント・サーバー１０に与えられる。そうすると、ドキュメント・サーバーはアイコン識別子又はアイコンの内容を使ってユーザのリストより宛先ユーザを見つけ、そのネットワークアドレス又は電子メールアドレスを調べてドキュメントを送ることになろう。
【００６６】
英語テキストのドキュメントに利用する場合について好適実施例を説明したが、それは単語の区切りを明瞭に表す任意の言語（”単語間にスペースをあける”タイプの言語）にそのまま拡大解釈してよい。日本語（”均一にスペースをあける”タイプの言語）のテキストのような、文字間隔が均一なテキストを持つドキュメントのためのアイコン・ペーパーは、処理が難しいけれども、本発明により取り扱うことができる。
【００６７】
日本語は、はっきりした単語間スペースがないので、単語長という基本的な特徴に相当するはっきりしたものがない。日本語テキストには、利用できる特有の特徴、例えば図８のヒストグラムに示すような文字密度や図９及び図１０に示すようなイメージ断片がある。日本語テキストは、２つの種類（class)、すなわち、漢字（中国語に由来する）と、音節文字を構成するカナに分かれる。漢字は多数のストロークを用いて書かれ、したがって、密度が高いのに対し、カナはわずかな単純なストロークからなる。
【００６８】
ページ上の各文字を２つの種類のいずれかに分類すことにより、特徴記述子が生成される。特徴記述子生成の最初のステップは、ページイメージ上で個々の文字のサイズに近い大きさの要素ストロークを見つけ、Ｐeairsの教えるように、元々１つの文字を構成している要素を、それらの外接矩形がオーバーラップする場合に統合することである。文字をその出現行位置によりソートし、白スペースで分離した文字グループの位置を検出することによって、ページは文字行に分割される。そして、各文字行中の文字がそれらの列位置によりソートされ、標準的読み順を得る。この順序は文字が読まれる順序である必要はなく、首尾一貫しているだけでよい。次に、各文字の黒画素数が測定され、黒画素数のヒストグラムが得られる。そして、このヒストグラム中のデータを大雑把に２つのクラスに分ける閾値が計算され、原イメージ中の各文字の種類が決定される。文字種類値のシーケンスより特徴記述子が計算される。なお、文字の種類分けは正確でなくともよく、ただ首尾一貫していればよい。したがって、あるカナ文字がいつも漢字文字に間違われても、あるいはそれと逆であっても、それも正確である。
【００６９】
図８は、あるページ（不図示）についての文字矩形内黒画素数のヒストグラムの一例である。カナ文字は平均１５０個の黒画素を使って印刷されるが、一方、漢字文字に関する分布は、漢字文字が平均３５０個の黒画素を使って印刷されることを示している。これらの値を２つの階級にクラスタリングすると、ほぼ２５５画素の閾値が存在し、ここにヒストグラムの各階級あたりの文字数の急峻な谷がある。
【００７０】
図９は、いくつかの日本語文字からなるイメージ断片を表し、また、カナ文字（例えば左端の文字）と漢字文字（例えば右端の文字）との間の文字密度の違いを説明する。図１０は、図９のテキスト断片に文字種類のラベル（０＝カナ、１＝漢字）を付けて示す。特徴記述子を生成するために、まず種類ラベルが種類ラベルのランレングスにまとめられる。この例の連続した種類ラベルは、
３−１−２−１−１−１
のランレングスを持つ。すなわち、カナのラベルを持つ３文字があり、その後に１つの漢字、２つのカナ、１つの漢字、１つのカナ、１つの漢字と続く。次に、これらのランレングスは、ドキュメント全体について５のグループ、例えば、３−１−２−１−１、１−２−１−１−１等々にブロック化される。それぞれの５−グループのハッシュ値が、ページの特徴記述子となる。なお、情報検索の目的には、各文字の漢字／カナのラベル付けの正確さは重要ではない。むしろ、同じページの異なった読み取りイメージが与えられたときに、文字分類が再現されることが目標である。
【００７１】
このような日本語テキストの特徴付けは特徴記述子を生成する一方法を提供するもので、この特徴記述子は次に前述のようにドキュメントを識別するために用いることができる。
【００７２】
好ましくは、文字分類（カナ−漢字）の再現性を高めるため、英語テキストに対して行われたように、アイコンが生成される時に日本語文字はブロック・フォントに置き換えられる。図１１は、各文字をブロック・フォントに置換した後の図９のテキストを表している。
【００７３】
図１１（ａ）は図９に示したものと同じイメージ断片であり、図１１（ｂ）はブロック・フォントに置換された、そのイメージ断片のテキストであり、また、図１１（ｃ）は図１１（ｂ）の印刷イメージをスキャンした結果である。この例では、画素数のヒストグラムにクラスタリングが一層明確に現れるように、漢字文字は正方形ブロックに置き換えられ、カナ文字はそれより小さな長方形ブロックに置き換えられる。カナ文字に置き換わる長方形の向きは概ねストロークの主要軸の向きに合わせられる。図１１（ｂ）において、正方形ブロックはほぼ６×６画素であり、長方形ブロックは４×２画素である（図では元の日本語テキストより拡大されている）。しかし、これと違うサイズの場合にもブロック間の唯一の相違がブロック中の画素の個数ならば（たとえ全ブロックが同一形状であったとしても）クラスタリングが生じることは明らかである。したがって、文字は文字密度に関する必須情報（これが特徴記述子を生成するために必要とされる全てである）を保存している。
【００７４】
図１２は、英文テキストに関しブロック・フォントを用いると有益な結果がもたらされることを説明する。図１２（ａ）は、あるドキュメントのテキスト部分を表しており、図１２（ｂ）は文字をブロック・フォントで置換された同テキストを表している。明らかなように、文字間隔は保存されている。実際、図１２（ａ）より図１２（ｂ）のほうが、文字間隔はずっとはっきりしている。図１２（ｃ）は図１２（ｂ）のイメージのスキャン結果を表している。なお、スキャン・エラーがあっても必須情報つまり文字間隔は依然としてはっきりしている。
【００７５】
以上述べたことは説明のためのものであって、限定を意図するものではない。ここに開示されたことを吟味すれば、当業者にとって本発明の多くの変形が明らかになろう。
【００７６】
【発明の効果】
以上の説明から明らかなように、本発明のアイコン生成方法によれば、ドキュメント検索に利用するのに好適なアイコンを生成することができ、様々なイメージ種類の領域を持つドキュメントの検索に利用できるアイコンを生成することができ、さらに、多数のドキュメントのアイコンを一覧でき、多くのドキュメントを対象とするドキュメント検索のアイコン選択及び指定が容易で、検索の効率向上に寄与する案内ページを作成することができる。本発明のドキュメント検索方法によれば、ユーザは案内ページ上のアイコンを一覧してターゲット・ドキュメントに関するアイコンを素早く見つけ、それにマークを付けることによってターゲット・ドキュメントを簡単に指定し、その検索を行わせることができる。本発明のドキュメント・サーバーによれば、そのようなアイコンの自動生成と、アイコンを利用した簡単かつ効率的なドキュメント検索が可能である、等々の多くの効果を得られる。
【図面の簡単な説明】
【図１】ページ・プロセッサを含む本発明によるドキュメント・サーバーのブロック図である。
【図２】ページ・プロセッサの詳細ブロック図である。
【図３】見本ページの一例を示す図である。
【図４】図３に示した見本ページに対応するアイコンを１／１スケール及び縮小スケールで示す図である。
【図５】図４に示したアイコンを含む案内ページを示す図である。
【図６】紙の案内ページの作成を含む、ドキュメント・データベースへのドキュメント格納のプロセスのフローチャートである。
【図７】案内ページを使ってドキュメント・データベースよりドキュメントを検索するプロセスのフローチャートである。
【図８】日本語ドキュメントにおける文字密度のヒストグラムである。
【図９】日本語テキストの短いセグメントを示す図である。
【図１０】図９のセグメントに文字の分類を付した図である。
【図１１】図９に示した文字に対するブロックフォント置換の説明図である。
【図１２】英語テキストの短いセグメントに対するブロック置換の説明図である。
【符号の説明】
１０ドキュメント・サーバー
１２入力ドキュメント
１４アイコン
１６アイコン識別子
１８案内ページ
２０ターゲット・ドキュメント
３０スキャナ
３２ドキュメント記憶ユニット
３４アイコン
３６ドキュメント・データベース
３８ドキュメント・インデックス・テーブル
４０ページ・プロセッサ
４２アイコン
４４キー・ジェネレータ
４６アイコン・シリアライザー
５０ドキュメント検索ユニット
５２解析エンジン
５４検索エンジン
５６プレゼンテーション・エンジン
１００ページ
１０２アイコン
１０４テキスト領域
１０６グラフィックス領域
１０８セグメンテーション・アナライザー
１１０テキスト・リデューサー
１１２グラフィックス・リデューサー
１１４ページ・リアッセンブラー
１１６マップ（領域分割結果）
３００見本ページ
４００アイコン
５００案内ページ

Claims

ドキュメント記憶システムにおいて、所定の言語タイプのテキストを含むドキュメントを象徴する視覚的手がかりであるアイコンを生成する方法であって、
該ドキュメントより見本ページを特定するステップ、各領域のイメージ種類に基づいて該見本ページを複数領域に分割するステップ、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小するステップ、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成するステップからなり、
該縮小のステップは、単語間にスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出するステップ、単語間スペースを検出するステップ、及び、単語を、その単語中の文字数によって決まる長さを持つ実線で置き換えるステップを含むことを特徴とするアイコン生成方法。
ドキュメント記憶システムにおいて、所定の言語タイプのテキストを含むドキュメントを象徴する視覚的手がかりであるアイコンを生成する方法であって、
該ドキュメントより見本ページを特定するステップ、各領域のイメージ種類に基づいて該見本ページを複数領域に分割するステップ、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小するステップ、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成するステップからなり、
該縮小のステップは、均一にスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出するステップ、検出された文字の範囲の文字密度を検出するステップ、及び、該文字を、検出された文字密度をもとに区別可能な文字密度を持つ文字ブロックで置き換えるステップを含むことを特徴とするアイコン生成方法。
アイコンを紙に印刷するステップをさらに含むことを特徴とする請求項１又は２記載のアイコン生成方法。
複数のアイコンを蓄積し、１枚につき複数のアイコンを含む少なくとも１枚の案内ページを印刷するステップをさらに含むことを特徴とする請求項１又は２記載のアイコン生成方法。
請求項１又は２記載のアイコン生成方法において、該領域分割のステップは、テキスト、線画、写真及び機械読み取り可能な印刷データ構造の中より選択されたイメージ種類を持つ領域に分割するステップであることを特徴とするアイコン生成方法。
請求項１又は２記載のアイコン生成方法において、該領域分割のステップはテキストをフォント・サイズに基づいて別々の領域に分離することを特徴とするアイコン生成方法。
請求項１又は２記載のアイコン生成方法により作成された、複数のドキュメント中のドキュメントに関連した複数のアイコンを含む案内ページを用いて該複数のドキュメントよりターゲット・ドキュメントを選ぶ方法であって、
案内ページ上の、該ターゲット・ドキュメントに関連したアイコンに付けられた選択指示のマークによりアイコンを選択するステップ、
該選択されたアイコンをスキャンして該アイコンの電子的表現を生成するステップ、
該アイコンの電子的表現から、該見本ページの特徴を抽出するステップ、
該特徴を利用し、該特徴と整合する、該ターゲット・ドキュメントを含む少なくとも１つのドキュメントを特定するステップ、及び、
該ドキュメント・サーバーを利用し該ターゲット・ドキュメントを選ばれた形態で提供するステップ、
からなるドキュメント検索方法。
電子的表現のドキュメントを格納するドキュメント・データベースと、
入力ドキュメントを該ドキュメント・データベースに格納するのに適した電子的表現に変換するドキュメント入力用入力手段と、
該入力ドキュメントの見本ページの可視的縮小表現であるアイコンを生成する、該入力手段と接続されたページ・プロセッサと、
該入力ドキュメントの電子的表現を解析し、該入力ドキュメントのテキストの識別特徴を抽出して、該入力ドキュメントに係わるテキストのハッシュされた冗長記述子であるキーを生成する、該入力手段と接続されたキー・ジェネレータ、
該キーを記憶しかつ該ドキュメント・データベース中のドキュメントに関連付けるための、該キー・ジェネレータと接続されたインデックス手段、
ターゲット・ドキュメントのアイコンを入力するためのアイコン入力手段、
該アイコンからアイコン特徴を抽出するための、該アイコン入力手段と接続されたアイコン解析手段、
該アイコン特徴を問い合わせに変換し、該問い合わせを使って該ターゲット・ドキュメントを含む少なくとも１つの整合ドキュメントへの参照を取得する、該アイコン解析手段及び該インデックス手段と接続された検索エンジン、
及び
該ターゲット・ドキュメントをユーザの指定した形態で提示するためのプレゼンテーション・エンジンからなり、
該ページ・プロセッサは、
該入力ドキュメントより見本ページを特定し、各領域のイメージ種類に基づいて該見本ページを複数領域に分割する手段、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小する手段、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成する手段を備え、
該縮小する手段は、単語間のスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出し、単語間スペースを検出して、単語を、その単語中の文字数によって決まる長さを持つ実線で置き換える、
ことを特徴とするドキュメント・サーバー。
電子的表現のドキュメントを格納するドキュメント・データベースと、
入力ドキュメントを該ドキュメント・データベースに格納するのに適した電子的表現に変換するドキュメント入力用入力手段と、
該入力ドキュメントの見本ページの可視的縮小表現であるアイコンを生成する、該入力手段と接続されたページ・プロセッサと、
該入力ドキュメントの電子的表現を解析し、該入力ドキュメントのテキストの識別特徴を抽出して、該入力ドキュメントに係わるテキストのハッシュされた冗長記述子であるキーを生成する、該入力手段と接続されたキー・ジェネレータ、
該キーを記憶しかつ該ドキュメント・データベース中のドキュメントに関連付けるための、該キー・ジェネレータと接続されたインデックス手段、
ターゲット・ドキュメントのアイコンを入力するためのアイコン入力手段、
該アイコンからアイコン特徴を抽出するための、該アイコン入力手段と接続されたアイコン解析手段、
該アイコン特徴を問い合わせに変換し、該問い合わせを使って該ターゲット・ドキュメントを含む少なくとも１つの整合ドキュメントへの参照を取得する、該アイコン解析手段及び該インデックス手段と接続された検索エンジン、
及び
該ターゲット・ドキュメントをユーザの指定した形態で提示するためのプレゼンテーション・エンジンからなり、
該ページ・プロセッサは、
該入力ドキュメントより見本ページを特定し、各領域のイメージ種類に基づいて該見本ページを複数領域に分割する手段、各領域について、領域のイメージをそのイメージ種類に特有の縮小ルールに従って縮小する手段、及び、該領域を該見本ページを縮小したものに再組立して該アイコンを生成する手段を備え、
該縮小する手段は、均一にスペースをあける言語タイプのテキスト内容を示すイメージ種類を持つ領域に対し、文字の範囲を検出し、検出された文字の範囲の文字密度を検出し、該文字を、検出された文字密度をもとに区別可能な文字密度を持つ文字ブロックで置き換えることを特徴とするドキュメント・サーバー。