JP2005149210A

JP2005149210A - 画像処理装置及びその制御方法、プログラム

Info

Publication number: JP2005149210A
Application number: JP2003386939A
Authority: JP
Inventors: Tomotoshi Kanatsu; 知俊金津
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-11-17
Filing date: 2003-11-17
Publication date: 2005-06-09

Abstract

【課題】記憶装置に格納されている電子ファイルを再利用する場合に、効率的に所望の電子ファイルを取得して操作することができる画像処理装置及びその制御方法、プログラムを提供する。
【解決手段】読み取られた原稿画像に対応する電子ファイルが特定できない場合、該原稿画像をベクトルデータに変換する。そのベクトルデータを前記原稿画像に対応する電子ファイルとして所定の記憶装置に格納する。格納された電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する。生成された原稿情報をネットワーク上の指定された外部端末へ送信する。
【選択図】図３

Description

本発明は、原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置及びその制御方法、プログラムに関するものである。

近年、環境問題が叫ばれる中、オフィスでのペーパーレス化が急速に進んでいる。このような中、バインダー等で蓄積された紙文書、あるいは配付資料等を電子ファイルとして記憶装置にデータベースとして蓄積しておき、これを検索するための検索情報が付加された原稿をスキャナーで読み取り、その原稿に対応するオリジナル電子ファイルの検索を行うような文書管理システム（特許文献１）が提案されている。

この文書管理システムでは、記憶されている電子ファイルとスキャンされた紙文書のリンク付けを前提としているので、それを利用して閲覧、送信、再利用等を簡便に行うことができるのが大きな特徴である。
特開平１０−３０８８６８号公報

しかしながら、上記従来の文書管理システムにおいて、登録された電子ファイルを再度呼び出し、閲覧、送信、再利用する場合は、依然としてその電子ファイルを検索するための検索手段として、その電子ファイルの管理先を示す情報が記録されている原稿（情報伝達手段としてでは無く）を用いる必要があり、ペーパーレス化の障害の一つになっていることも事実である。

即ち、複数のユーザに電子ファイルを提供する場合に各ユーザが印刷された原稿を用いる必要があったため、結局消費する用紙の数が増大することとなっていた。

本発明は上記の課題を解決するためになされたものであり、記憶装置に格納されている電子ファイルを再利用する場合に、効率的に所望の電子ファイルを取得して操作することができる画像処理装置及びその制御方法、プログラムを提供することを目的とする。

上記の目的を達成するための本発明による画像処理装置は以下の構成を備える。即ち、
また、好ましくは、原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置であって、
原稿を読み取る読取手段と、
前記読取手段で読み取られた原稿画像に基づいて、複数の電子ファイルが記憶されている記憶装置から前記原稿画像に対応する電子ファイルを特定する特定手段と、
前記特定手段で特定された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成手段と、
前記生成手段で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信手段と
を備える。

また、好ましくは、前記特定手段は、原稿画像に付加されている該原稿画像に対応する電子ファイルの格納先を示すポインター情報を認識する認識手段を備え、
前記認識手段で認識されたポインター情報に基づいて、前記原稿画像に対応する電子ファイルを特定する。

また、好ましくは、前記特定手段で前記原稿画像に対応する電子ファイルが特定できず、かつ前記認識手段で前記ポインター情報が認識できない場合、前記原稿画像に対応する電子ファイルを検索する検索手段と、
前記検索手段で検索された電子ファイルを、前記原稿画像に対応する電子ファイル候補として出力する出力手段と、
前記出力手段で出力された電子ファイル候補から所望の電子ファイルを選択する選択手段を更に備え、
前記選択手段で選択された電子ファイルがイメージデータである場合、前記変換手段は、該電子ファイルをベクトルデータに変換する。

上記の目的を達成するための本発明による画像処理装置は以下の構成を備える。即ち、
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置であって、
原稿を読み取る読取手段と、
前記読取手段で読み取られた原稿画像を文字コード化する文字処理手段と、
前記読取手段で読み取られた原稿画像をベクトルデータに変換するベクトル化手段と、
前記読取手段で読み取られた原稿画像を所定の画像形式に変換する画像変換手段と、
前記読取手段で読み取られた原稿画像を、その属性に応じて前記文字処理手段、前記ベクトル化手段、前記画像変換手段の少なくともいずれかによって変換する変換手段と、
前記変換手段によって得たデータを前記原稿画像に対応する電子ファイルとして所定の記憶装置に格納する格納手段と、
前記格納手段で格納された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成手段と、
前記生成手段で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信手段と
を備える。

また、好ましくは、前記変換手段は、前記原稿画像を属性毎に複数のブロックに分割する分割手段を備え、
前記変換手段は、前記原稿画像を前記分割手段で分割された各ブロック毎に前記文字処理手段、前記ベクトル化手段、前記画像変換手段のいずれかによる変換を実行する。

また、好ましくは、前記変換手段は、前記文字処理手段、前記ベクトル化手段、前記画像変換手段の少なくともいずれかによって変換されたデータを、前記外部端末上で動作可能な文書作成アプリケーションで処理可能な所定形式のデータに変換する。

また、好ましくは、前記格納手段は、前記ベクトルデータの格納先を示すポインター情報を生成する生成手段を備え、
前記格納手段は、前記ポインター情報を前記ベクトルデータに付加して、該ベクトルデータを格納する。

また、好ましくは、前記原稿情報は、該原稿画像のサムネール画像、該原稿画像中の文字ブロックに基づいて得られるタイトル、要約、キーワード、該原稿画像を特定するためのＩＤ、該原稿画像に対応する電子ファイルの格納日付、前記電子ファイルの著作者を含む。

また、好ましくは、前記生成手段は、前記原稿情報を配置したインデックスシート画像を生成する。

また、好ましくは、前記送信手段は、前記原稿情報として、前記インデックスシート画像あるいは該インデックスシート画像の格納先を示すアドレス情報を前記ネットワーク上の指定された外部端末へ送信する。

また、好ましくは、前記インデックスシート画像は、前記外部端末の専用アプリケーションによって表示され、かつ該インデックスシート画像上で表示される前記原稿画像の原稿情報に対する操作によって、該原稿画像に対応する電子ファイルの操作を実現可能な画像である。

また、好ましくは、前記インデックスシート画像は、前記専用アプリケーションで、前記インデックスシート画像上の原稿情報に対する操作に基づいて、操作対象の原稿情報が選択された場合、その選択された原稿情報に対応する電子ファイルの所定ページ画像を表示でき、かつ前記所定ページ画像を構成するオブジェクトのオブジェクト単位での操作を受け付けることが可能な画像である。

また、好ましくは、前記インデックスシート画像は、前記専用アプリケーション上で、該インデックスシート画像上の原稿情報の編集が可能な画像である。

また、好ましくは、前記インデックスシート画像は、表示・印刷用の可視レイヤーと、前記可視レイヤー上で表示される原稿情報の補助情報からなる不可視レイヤーとで構成される。

上記の目的を達成するための本発明による画像処理装置の制御方法は以下の構成を備える。即ち、
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御方法であって、
原稿を読み取る読取工程と、
前記読取工程で読み取られた原稿画像に基づいて、複数の電子ファイルが記憶されている記憶装置から前記原稿画像に対応する電子ファイルを特定する特定工程と、
前記特定工程で特定された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程と、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程と
を備える。

上記の目的を達成するための本発明による画像処理装置の制御方法は以下の構成を備える。即ち、
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御方法であって、
原稿を読み取る読取工程と、
前記読取工程で読み取られた原稿画像を文字コード化する文字処理工程と、
前記読取工程で読み取られた原稿画像をベクトルデータに変換するベクトル化工程と、
前記読取工程で読み取られた原稿画像を所定の画像形式に変換する画像変換工程と、
前記読取工程で読み取られた原稿画像を、その属性に応じて前記文字処理工程、前記ベクトル化工程、前記画像変換工程の少なくともいずれかによって変換する変換工程と、
前記変換工程によって得たデータを前記原稿画像に対応する電子ファイルとして所定の記憶装置に格納する格納工程と、
前記格納工程で格納された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程と、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程と
を備える。

上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御を実現するプログラムであって、
原稿を読み取る読取工程のプログラムコードと、
前記読取工程で読み取られた原稿画像に基づいて、複数の電子ファイルが記憶されている記憶装置から前記原稿画像に対応する電子ファイルを特定する特定工程のプログラムコードと、
前記特定工程で特定された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程のプログラムコードと、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程のプログラムコードと
を備える。

上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御を実現するプログラムであって、
原稿を読み取る読取工程のプログラムコードと、
前記読取工程で読み取られた原稿画像を文字コード化する文字処理工程のプログラムコードと、
前記読取工程で読み取られた原稿画像をベクトルデータに変換するベクトル化工程のプログラムコードと、
前記読取工程で読み取られた原稿画像を所定の画像形式に変換する画像変換工程のプログラムコードと、
前記読取工程で読み取られた原稿画像を、その属性に応じて前記文字処理工程、前記ベクトル化工程、前記画像変換工程の少なくともいずれかによって変換する変換工程のプログラムコードと、
前記変換工程によって得たデータを前記原稿画像に対応する電子ファイルとして所定の記憶装置に格納する格納工程のプログラムコードと、
前記格納工程で格納された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程のプログラムコードと、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程のプログラムコードと
を備える。

本発明によれば、記憶装置に格納されている電子ファイルを再利用する場合に、効率的に所望の電子ファイルを取得して操作することができる画像処理装置及びその制御方法、プログラムを提供できる。

即ち、原稿を読み取ることにより特定された電子ファイルに対応する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成し、それをネットワーク上の指定された外部端末へ送信するので、それを受け取った側では用紙媒体を用いずとも容易に電子ファイルを取得することができる。

また、原稿を読み取って、その属性に応じたデータとし、それを電子ファイルとして記憶装置に記憶した場合に、上記のような原稿情報を生成し、それをネットワーク上の指定された外部端末へ送信するので、それを受け取った側では用紙媒体を用いずとも容易に電子ファイルを取得することができる。

以下、本発明の実施の形態について図面を用いて詳細に説明する。

図１は本発明の実施形態の画像処理システムの構成を示すブロック図である。

この画像処理システムは、オフィス１０、オフィス２０及びオフィス３０とをインターネット等のネットワーク１０４で接続された環境で実現する。

オフィス１０内に構築されたＬＡＮ１１には、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（Multi Function Peripheral）１００、ＭＦＰ１００を制御するマネージメントＰＣ１０１、文書管理サーバ１０６及びそのデータベース１０５、及びプロキシサーバ１２が接続されている。

オフィス２０内に構築されたＬＡＮ２１には、文書管理サーバ１０８及びそのデータベース１０７が接続されている。

クライアントが存在するオフィス３０内に構築されたＬＡＮ３１には、クライアントＰＣ１０９が接続されている。

オフィス１０内のＬＡＮ１１、オフィス２０内のＬＡＮ２１、オフィス３０内のＬＡＮ３１は、それぞれのオフィスのプロキシサーバ１２を介してネットワーク１０４に接続されている。

ＭＦＰ１００は、特に、原稿である紙文書を電子的に読み取る画像読取部と、画像読取部から得られる画像信号に対する画像処理を実行する画像処理部を有し、この画像信号はＬＡＮ１３を介してマネージメントＰＣ１０１に送信することができる。

マネージメントＰＣ１０１は、通常のＰＣ（パーソナルコンピュータ）であり、内部に画像記憶部、画像処理部、表示部、入力部等の各種構成要素を有するが、その構成要素の一部はＭＦＰ１００に一体化して構成されている。

尚、図１の構成は一例であり、文書管理サーバ１０８を有するオフィス２０がなくても、あるいはもっと複数存在してもよいし、あるいはオフィス１０、オフィス２０、オフィス３０とが同一ＬＡＮ上で接続されていても良い。

また、ネットワーク１０４は、典型的にはインターネットやＬＡＮやＷＡＮや電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、またはこれらの組み合わせにより実現されるいわゆる通信ネットワークであり、データの送受信が可能であれば良い。

また、マネージメントＰＣ１０１、クライアントＰＣ１０９、文書管理サーバ１０６及び１０８等の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等）を有している。

次に、ＭＦＰ１００の詳細構成について、図２を用いて説明する。

図２は本発明の実施形態のＭＦＰの詳細構成を示すブロック図である。

図２において、オートドキュメントフィーダ（ＡＤＦ）を含む画像読取部１１０は、束状のあるいは１枚の原稿画像を光源（不図示）で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読取信号を所定密度（６００ＤＰＩ等の）のラスタ画像として得る。

また、ＭＦＰ１００は、画像読取信号に対応する画像を印刷部１１２で記録媒体に印刷する複写機能を有し、原稿画像を１つ複写する場合には、この画像読取信号をデータ処理部１１５で画像処理して記録信号を生成し、これを印刷部１１２によって記録媒体上に印刷させる。一方、原稿画像を複数複写する場合には、記憶部１１１に一旦一ページ分の記録信号を記憶保持させた後、これを印刷部１１２に順次出力して記録媒体上に印刷させる。

また、ネットワークＩ／Ｆ１１４を介する送信機能においては、画像読取部１１０から得られるラスタ画像を、ＴＩＦＦやＪＰＥＧ等の圧縮画像ファイル形式、あるいはＰＤＦ等のベクトルデータファイル形式の画像ファイルへと変換し、ネットワークＩＦ１１４から出力する。出力された画像ファイルは、ＬＡＮ１１を介して文書管理サーバ１０６へ送信されたり、更にネットワーク１０４経由で別の文書管理サーバ１０８やクライアントＰＣ１０９に転送されたりする。

また、印刷部１１２による印刷機能においては、例えば、クライアントＰＣ１０９から出力された印刷データをネットワークＩＦ１１４経由でデータ処理部１１５が受信し、データ処理装置１１５は、その印刷データを印刷部１１２で印刷可能なラスターデータに変換した後、印刷部１１２によって印刷媒体上に画像を形成する。

ＭＦＰ１００への操作者の指示は、ＭＦＰ１００に装備されたキー操作部とマネージメントＰＣ１０１に接続されたキーボード及びマウスからなる入力部１１３から行われ、これら一連の動作はデータ処理部１１５内の制御部（不図示）で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部１１６で行われる。

記憶部１１１は、マネージメントＰＣ１０１からも制御され、ＭＦＰ１００とマネージメントＰＣ１０１とのデータの送受信及び制御は、ネットワークＩＦ１１７及びＬＡＮ１３を介して行われる。

［処理概要］
次に、本実施形態の画像処理システムで実行する処理全体の概要を、図３を用いて説明する。

図３は本実施形態の画像処理システムで実行する処理全体の概要を示すフローチャートである。

まず、ステップＳ１２０で、ＭＦＰ１００の画像読取部１１０で、その原稿をラスタ状に走査して読み取り、例えば、６００ＤＰＩ−８ビットの画像信号を得る。この画像信号をデータ処理部１１５で前処理を施し、記憶部１１１に１ページ分の画像データ（イメージデータ）として保存する。

次に、ステップＳ１２１で、データ処理部１１５において、ブロックセレクション（ＢＳ）処理を行う。この処理は、マネージメントＰＣ１０１の制御によって実行する。

具体的には、マネージメントＰＣ１０１のＣＰＵは、記憶部１１１に格納された処理対象の画像信号を、まず、文字／線画部分とハーフトーン画像部分とに領域分割し、文字／線画部分は更に段落で塊として纏まっているブロック毎に、あるいは線で構成された表、図形毎に分割する。

一方、ハーフトーン画像部分は、矩形に分離されたブロックの画像部分、背景部分等の、所謂ブロック毎に独立したオブジェクト（ブロック）に分割する。

また、詳細は後述するが、このＢＳ処理によって生成された各ブロックには、それぞれのブロックに関する情報であるブロック情報が生成される。

次に、ステップＳ１２２で、原稿画像中に付加情報として記録された２次元バーコード、あるいはＵＲＬ（あるいはＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ））に該当するオブジェクト（ブロック）を検出する。付加情報がＵＲＬ画像である場合は、そのＵＲＬ画像をＯＣＲで文字認識する。一方、付加情報が２次元バーコード画像である場合、その２次元バーコード画像をＯＭＲ（ＯｐｔｉｃａｌＭａｒｋＲｅｃｏｇｎｉｔｉｏｎ）でマーク解読を行う。

尚、ステップＳ１２２では、ステップＳ１２１のＢＳ処理で得られた文字ブロックもＯＣＲで文字認識する。

次に、ステップＳ１２３で、ステップＳ１２２の処理結果に基づいて、読取原稿画像のオリジナル電子ファイルが格納されている格納先を示すポインター情報を検出する。

次に、ステップＳ１２４で、ポインター情報の検出の有無を判定する。ポインター情報が検出されない場合（ステップＳ１２４でＮＯ）、ステップＳ１２６に進む。一方、ポインター情報が検出された場合（ステップＳ１２４でＹＥＳ）、ステップＳ１２５に進み、ポインター情報が示す格納先にオリジナル電子ファイルが存在するか否かを判定する。

尚、オリジナル電子ファイルは、例えば、図１のクライアントＰＣ１０９内のハードディスク内、データベース１０５内、データベース１０７内、あるいはＭＦＰ１００自体が有する記憶部１１１のいずれかに格納されており、ステップＳ１２３で検出したポインター情報に従って、これらの記憶装置内を検索する。

ステップＳ１２５において、オリジナル電子ファイルが検索されない場合（ステップＳ１２５でＮＯ）、ステップＳ１２６に進む。一方、オリジナル電子ファイルが検索された場合（ステップＳ１２５でＹＥＳ）、ステップＳ１３３に進む。

尚、ステップＳ１２５において、オリジナル電子ファイルが検索された場合でも、そのオリジナル電子ファイルが、ＰＤＦあるいはＴＩＦＦに代表されるイメージデータである場合は、ステップＳ１２６に進む。逆に、オリジナル電子ファイルが、以前に、本処理によって生成されたベクトルデータである場合に、ステップＳ１３３に進む。

ステップＳ１２６で、ステップＳ１２０で入力した読取原稿画像に基づいて、それに類似する電子ファイルを検索するファイル検索処理を実行する。

このファイル検索処理では、ステップＳ１２２で各文字ブロックに対して行ったＯＣＲ結果から単語を抽出して、その単語を有する電子ファイルを検索する全文検索を行う。あるいは、画像信号中の各ブロックの配列と各ブロックの属性（画像、文字等）で特定されるレイアウトを有する（あるいは類似する）電子ファイルを検索するレイアウト検索を行う。

次に、ステップＳ１２７で、ファイル検索処理の検索結果として得られる電子ファイル（群）を、読取原稿画像に対応する電子ファイル（あるいはそのサムネール画像（代表画像））の候補として表示部１１６に表示し、その候補から処理対象の電子ファイルの選択を受け付ける。

ステップＳ１２８で、表示部１１６に表示した電子ファイルの候補の中から電子ファイルが選択されたか否かを判定する。電子ファイルが選択された場合（ステップＳ１２８でＹＥＳ）、ステップＳ１３３に進む。一方、電子ファイルが選択されない場合（ステップＳ１２８でＮＯ）、ステップＳ１２９に進む。

尚、ステップＳ１２８において、電子ファイルが選択された場合でも、その電子ファイルが、ＰＤＦあるいはＴＩＦＦに代表されるイメージデータである場合は、ステップＳ１２９に進む。

ステップＳ１２９で、イメージデータ（ステップＳ１２０で入力された読取原稿画像（イメージデータ）あるいはステップＳ１２７で選択されたイメージデータの電子ファイル）をベクトルデータに変換するベクトル化処理を実行する。

このベクトル化処理では、まず、ステップＳ１２２でＯＣＲ処理された文字ブロックに対して、更に、文字のサイズ、スタイル、字体（フォント）を認識し、原稿を走査して得られる文字と可視的に忠実なフォントデータに変換する。一方、線で構成される表、図形ブロックに対しては、アウトライン化する。また、画像ブロックに対しては、イメージデータとして個別のＪＰＥＧファイルに変換する。

これらの各種ブロックに対するベクトル化処理は、各ブロック毎にそのブロック情報に基づいて行い、更に各ブロックのレイアウト情報を保存する。

次に、ステップＳ１３０で、ステップＳ１２９で得られたベクトルデータを、文書作成アプリケーションによって処理することが可能な、所定形式（例えば、ｒｔｆ形式）のアプリケーションデータ（アプリデータ）に変換するアプリデータ変換処理を実行する。そして、ステップＳ１３１で、その生成されたアプリデータを、ステップＳ１２０で入力されたイメージデータに対応する電子ファイルとして、記憶部１１１あるいは文書管理サーバ１０６等に格納する。

次に、ステップＳ１３２で、以降、同様の処理を行う際に、読取原稿画像から直接、それに対応する電子ファイルとして検索できるようにするために、電子ファイルの検索用のインデックス情報を生成するインデックス生成処理を実行する。そして、生成されたインデックス情報は、例えば、記憶部１１１で管理されている検索用インデックスファイルに追加される。

そして、ステップＳ１３３で、処理した１ページ分のイメージデータが読取原稿画像の最終ページであるか否かを判定する。最終ページでない場合（ステップＳ１３３でＮＯ）、ステップＳ１２０に戻り、次ページ分のイメージデータに対する処理を実行する。一方、最終ページである場合（ステップＳ１３３でＹＥＳ）、ステップＳ１３４に進む。

ステップＳ１３４で、読取原稿画像の全ページ分のページ情報を含む、読取原稿画像に関する原稿情報からなるインデックスシート（以下、これを、ポータルシートと称する）を生成するポータルシート生成処理を実行する。

ここで、ページ情報とは、上述の処理によって、読取原稿画像に基づいて特定されたオリジナル電子ファイル、あるいはそのオリジナル電子ファイルが検索されない場合に、読取原稿画像のイメージデータから変換作成されたベクトルデータと、そのオリジナル電子ファイル（あるいはベクトルデータ）に対する、サムネール画像（代表画像）、タイトル、要約、キーワード、その電子ファイルを特定するファイルＩＤ、電子ファイルの登録日付、該電子ファイルの著作者、及び格納先を示すポインター情報等を含む電子的な情報である。つまり、このポータルシートは、ページ情報を含む電子情報である。

また、このページ情報を含むポータルシートを、例えば、既存のＨＴＭＬやＸＭＬ、ＰＤＦ等の汎用性の高いファイル形式で生成することで、例えば、ディスプレイに表示する場合にはページ単位で表示できて可読性が良く、また、必要に応じて、印刷することも可能である。また、そのページ情報には、オリジナル電子ファイルを特定するためのキーワードも含まれるので、キーワード検索によって、そのオリジナル電子ファイルを容易に検索することが可能である。

更に、ステップＳ１３４では、特に、読取原稿画像に関するページ情報を有するポータルシートを作成する構成としているが、ステップＳ１２５において、読取原稿画像に対応するオリジナル電子ファイルが存在する場合には、そのオリジナル電子ファイルに関するポータルシートを作成することになる。

そして、ステップＳ１３５で、生成したポータルシートを、操作者が指定した送信先へ送信する。これにより、ポータルシートを受信した送信先では、そのポータルシートを利用して、オリジナル電子ファイルを用いた各種処理（表示、印刷、ＦＡＸ送信、Ｅメール送信、画像編集等）を実行することができる。

尚、ステップＳ１３５においては、ポータルシート自体を指定された送信先へ送信するのではなく、そのポータルシートを管理する管理先（文書管理サーバ１０６等）のアクセス情報を送信先へ送信して、そのアクセス情報に基づいて、ポータルシートへのアクセスを実現するような構成としても良い。

［各処理の詳細］
以下、各処理の詳細について説明する。

まず、ステップＳ１２１のＢＳ処理の詳細について説明する。

ＢＳ処理とは、例えば、図４（ａ）のラスタ画像を、図４（ｂ）のように、意味のあるブロック毎の塊として認識し、該ブロック各々の属性（文字（ＴＥＸＴ）／図画（ＰＩＣＴＵＲＥ）／写真（ＰＨＯＴＯ）／線（ＬＩＮＥ）／表（ＴＡＢＬＥ）等）を判定し、異なる属性を持つブロックに分割する処理である。

ＢＳ処理の実施形態を以下に説明する。

まず、入力画像を白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。

このようにして得られた黒画素の塊を、大きさ及び形状で分類し、異なる属性を持つブロックへ分類していく。例えば、縦横比が１に近く、大きさが一定の範囲のブロックは文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字ブロック、扁平な画素塊を線ブロック、一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を表ブロック、不定形の画素塊が散在している領域を写真ブロック、それ以外の任意形状の画素塊を図画ブロックとする。

そして、ＢＳ処理では、各ブロックを特定するブロックＩＤを発行し、各ブロックの属性（画像、文字等）、サイズやオリジナル文書内の位置（座標）と各ブロックを関連付けて記憶部１１１にブロック情報として記憶する。また、これらのブロック情報は、以降に詳細を説明するステップＳ１２９のベクトル化処理や、ステップＳ１３３のインデックス生成処理で利用される。

ここで、ブロック情報の一例について、図５を用いて説明する。

図５は本発明の実施形態のブロック情報の一例を示す図である。

図５に示すように、ブロック情報は、各ブロックの属性を示すブロック属性（１：テキスト、２：図画、３：表、４：線、５：写真）、ブロックの位置座標（Ｘ，Ｙ）、ブロックの幅Ｗ１及び高さＨ１、ブロックのＯＣＲ情報（テキストデータ）の有無で構成されている。

ここで、ブロックの位置座標（Ｘ，Ｙ）とは、例えば、原稿画像の左上角を原点（０，０）とした場合の位置座標である。また、幅Ｗ１及び高さＷ１は、例えば、画素数で表現される。また、このブロック情報に加えて、ＢＳ処理では、原稿画像（入力ファイル）に存在するブロック数Ｎを示す入力ファイル情報を生成する。図５の例の場合、入力ファイル情報はＮ＝６となる。

次に、図３のステップＳ１２２の処理の詳細について、図６を用いて説明する。

図６は本発明の実施形態のステップＳ１２２の処理の詳細を示すフローチャートである。

尚、図６では、例えば、図７に示すような原稿画像３１０中に付加された２次元バーコード（例えば、ＱＲコードシンボル）３１１を復号して、データ文字列を出力する処理について説明する。

まず、ステップＳ３００で、データ処理部１１５内のページメモリに格納された原稿画像３１０を表すイメージ画像をＣＰＵ（不図示）で走査して、上述のＢＳ処理の処理結果に基づいて、所定の２次元バーコードシンボル３１１（ブロック）の位置を検出する。特に、本実施形態の場合、２次元バーコードシンボル３１１であるＱＲコードの位置検出パターンは、２次元バーコードシンボル３１１の４隅の内の３隅に配置される同一の位置検出パターンから構成される。そのため、本実施形態では、この位置検出パターンを検出することで、２次元バーコードシンボル３１１の位置を検出する。

次に、ステップＳ３０１で、位置検出パターンに隣接する形式情報を復元し、シンボルに適用されている誤り訂正レベル及びマスクパターンを取得する。

次に、ステップＳ３０２で、２次元バーコードシンボル３１１を特定する型番を決定する。その後、ステップＳ３０３で、形式情報で取得されたマスクパターンを使って、符号化領域ビットパターンをＸＯＲ演算することによってマスク処理を解除する。

次に、ステップＳ３０４で、モデルに対応する配置規則に従い、シンボルキャラクタを読み取り、２次元バーコードシンボル３１１のデータコード語及び誤り訂正コード語を復元する。

次に、ステップＳ３０５で、復元された誤り訂正コード語上に、誤りがあるか否かを判定する。誤りがない場合（ステップＳ３０５でＮＯ）、ステップＳ３０７に進む。一方、誤りがある場合（ステップＳ３０５でＹＥＳ）、ステップＳ３０６に進み、誤りを訂正する。

ステップＳ３０７で、誤り訂正されたデータより、モード指示子および文字数指示子に基づいて、データコード語をセグメントに分割する。

最後に、ステップＳ３０８で、仕様モードに基づいてデータ文字を復号し、その復号結果を出力する。

尚、２次元バーコード内に組み込まれた情報は、対応する電子ファイルのアドレス情報（ポインター情報）を示している。ここで、アドレス情報とは、ＵＲＬ（ＵＲＩ）や、サーバ名とディレクトリ、ファイル名からなる電子ファイルの格納先を示すフルパス情報である。

本実施形態では、ポインター情報が２次元バーコードとして付加された原稿画像３１０の例について説明したが、ポインター情報を直接文字列として原稿画像３１０に印刷するようにしても良い。この場合は、所定のルールに従った文字ブロックを、先のＢＳ処理で検出し、ポインター情報を示す文字画像の各文字を文字認識することで、直接オリジナル電子ファイルのアドレス情報を得ることが可能である。

また、図７の原稿画像３１０の文字ブロック３１２、あるいは文字ブロック３１３に対して隣接する文字と文字の文字間隔に視認し難い程度の変調を加え、この文字間隔に情報を埋め込むことで、ポインター情報を原稿３１０に埋め込むようにしても良い。この場合、後述する文字認識処理を行う際に各文字の文字間隔を検出することで、ポインター情報を得ることが可能である。更には、自然画３１４の中に、電子透かし情報として、ポインター情報を付加することも可能である。

次に、図３のステップＳ１２８における、ポインター情報によるオリジナル電子ファイルの検索処理について、図８のフローチャートを使用して説明する。

図８は本発明の実施形態のオリジナル電子ファイルの検索処理を示すフローチャートである。

まず、ステップＳ４００で、ＭＦＰ１００は、ポインター情報に含まれるアドレス情報に基づいて、電子ファイルの格納先となるファイルサーバを特定する。

ここで、ファイルサーバとは、データベース１０５や１０７を管理する文書管理サーバ１０６や１０８、あるいは記憶部１１１を内蔵するＭＦＰ１００自身を指すものである。

次に、ステップＳ４０１で、ＭＦＰ１００は、特定したファイルサーバに対してアドレス情報を転送する。

ステップＳ４０２で、ファイルサーバは、アドレス情報を受信すると、そのアドレス情報に対応するオリジナル電子ファイルを検索する。ステップＳ４０３で、オリジナル電子ファイルが存在するか否かを判定する。オリジナル電子ファイルが存在しない場合（ステップＳ４０３でＮＯ）には、ＭＦＰ１００に対して、その旨を通知する。

一方、オリジナル電子ファイルが存在する場合（ステップＳ４０３でＹＥＳ）、ステップＳ４０８に進み、オリジナル電子ファイルのアドレスを通知すると共に、そのオリジナル電子ファイルをＭＦＰ１００に転送する。

尚、図８の処理において、よりセキュリティ性を向上させたい場合には、例えば、図９に示すように、オリジナル電子ファイルを要求するユーザの認証を行うようにしても良い。

図９は本発明の実施形態のオリジナル電子ファイルの検索処理の応用例を示すフローチャートである。

尚、図９の処理において、図８の処理と同一の処理には、同一のステップ番号を付加して、その説明は省略する。

図９では、ステップＳ４０３で、オリジナル電子ファイルが存在する場合、ステップＳ４０４で、そのオリジナル電子ファイルにアクセス制限があるか否かを判定する。アクセス制限がない場合（ステップＳ４０４でＮＯ）、ステップＳ４０８に進む。一方、アクセス制限がある場合（ステップＳ４０４でＹＥＳ）、ステップＳ４０５に進み、ＭＦＰ１００は、表示部１１６に、パスワード入力画面を提示し、ＭＦＰ１００を操作するユーザにパスワードの入力を要求する。

ステップＳ４０６で、ＭＦＰ１００は、パスワードが入力されると、それをファイルサーバへ転送する。ステップＳ４０７で、パスワードに基づくファイルサーバによる認証が成功したか否かを判定する。認証が失敗した場合（ステップＳ４０７でＮＯ）、ステップＳ４０５に戻る。一方、認証が成功した場合（ステップＳ４０７でＹＥＳ）、ステップＳ４０８に進む。

尚、ステップＳ４０７において、認証が失敗した場合には、再度、パスワードの入力を要求する構成となっているが、その認証の失敗回数が所定回数を越えた場合には、不正なユーザによる操作と判断して、処理そのものを中止するようにしても良い。

次に、図３のステップＳ１２６の処理の詳細について、図５及び図１０を用いて説明する。

図１０は本発明の実施形態のステップＳ１２６の処理の詳細を示すフローチャートである。

尚、ステップＳ１２６の処理は、ステップＳ１２４で読取原稿画像（入力ファイル）にポインター情報が存在しなかった場合、または、ポインター情報は存在するがオリジナル電子ファイルが見つからなかった場合、あるいはオリジナル電子ファイルがイメージファイルである場合に実行される。

また、ステップＳ１２６の処理は、ステップＳ１２２の処理によって得られたブロック情報及び入力ファイル情報を利用することになるが、ここでは、その具体例として、図５に示したブロック情報及び入力ファイル情報を用いて説明する。また、図５のブロック情報において、各ブロックは、Ｘ座標の小さい順、即ち、Ｘ１＜Ｘ２＜Ｘ３＜Ｘ４＜Ｘ５＜Ｘ６に、ブロック１、ブロック２、ブロック３、ブロック４、ブロック５、ブロック６が管理されているとする。

以下、これらのブロック情報及び入力ファイル情報を使用して、ファイルサーバが管理するデータベース内から、入力ファイルに類似した電子ファイルを、レイアウト検索処理で検索する処理について、図１０を用いて説明する。ここで、データベースで管理されている各電子ファイルには、図５と同様のファイル情報及びブロック情報が付与されていることを前提とする。また、レイアウト検索処理は、入力ファイルとデータベース中の電子ファイルを順次比較して実行される。

まず、ステップＳ５１０で、後述する類似率等を算出するための各種初期値の設定を行う。次に、ステップＳ５１１で、ブロック総数の比較を行う。ここで、入力ファイルの総ブロック数をｎ、データベース中の比較対象の電子ファイルの総ブロック数をＮ、誤差ΔＮとすると、ここでの比較は、条件式Ｎ−ΔＮ＜ｎ＜Ｎ＋ΔＮを満足するか否かを判定する。

ステップＳ５１１において、条件式を満足しない場合（ステップＳ５１１でＮＯ）、ステップＳ５２６に進み、処理対象の電子ファイルを次の電子ファイルに設定して、ステップＳ５１０に戻る。一方、条件式を満足する場合（ステップＳ５１１でＹＥＳ）、ステップＳ５１２以降の処理で、入力ファイルと比較対象の電子ファイル内のブロック情報に基づく比較を実行する。

まず、ステップＳ５１２で、ブロック情報に基づいて、入力ファイルと比較対象の電子ファイルそれぞれの処理対象のブロックのブロック属性を比較する。ブロック属性が不一致である場合、ステップＳ５２１に進み、比較対象の電子ファイルの総ブロック数Ｎ≧入力ファイルのブロック数ｎである場合には、処理対象のブロックとして、入力ファイルの次のブロックに設定する。一方、比較対象の電子ファイルの総ブロック数Ｎ＜入力ファイルのブロック数ｎである場合には、処理対象のブロックとして、比較対象の電子ファイルの次のブロックに設定する。

一方、ステップＳ５１２において、ブロック属性が一致する場合、ステップＳ５１３に進み、属性類似率を算出して、その値を更新する。

ステップＳ５１４で、ブロック情報に基づいて、入力ファイルと比較対象の電子ファイルそれぞれの処理対象のブロックのサイズ（幅及び高さ）を比較する。ここで、入力ファイル中の処理対象のブロックの幅をｗ、高さをｈ、比較対象の電子ファイル中の処理対象のブロックの幅をＷ、その誤差ΔＷ、高さをＨ、その誤差ΔＨとすると、ここでの比較は、条件式Ｗ−ΔＷ＜ｗ＜Ｗ＋ΔＷ及びＨ−ΔＨ＜ｈ＜Ｈ＋ΔＨを満足するか否かを判定する。

尚、この条件式に加えて、ブロックの位置（Ｘ，Ｙ）による比較を行うようにしても良い。

ステップＳ５１４において、条件式を満足しない場合（ステップＳ５１４でＮＯ）、ステップＳ５２１に進む。一方、条件式を満足する場合（ステップＳ５１４でＹＥＳ）、ステップＳ５１５に進み、サイズ類似率を算出して、その値を更新する。

ステップＳ５１６で、ブロック情報に基づいて、入力ファイルと比較対象の電子ファイルそれぞれの処理対象のブロックのＯＣＲ情報の有無を判定する。ＯＣＲ情報がない場合（ステップＳ５１６でＮＯ）、ステップ５２１に進む。一方、ＯＣＲ情報がある場合（ステップＳ５１６でＹＥＳ）、ステップＳ５１７に進み、ＯＣＲ情報を比較する。

ステップＳ５１８で、ＯＣＲ類似率を算出して、その値を更新する。ステップＳ５１９で、入力ファイルの中の全ブロックに対する比較処理が終了したか否かを判定する。比較処理が終了していない場合（ステップＳ５１９でＮＯ）、ステップＳ５２０に進み、比較対象の電子ファイルの総ブロック数Ｎ≦入力ファイルのブロック数ｎである場合には、処理対象のブロックとして、入力ファイルの次のブロックに設定する。一方、比較対象の電子ファイルの総ブロック数Ｎ＞入力ファイルのブロック数ｎである場合には、処理対象のブロックとして、比較対象の電子ファイルの次のブロックに設定する。

一方、ステップＳ５１９において、比較処理が終了している場合（ステップＳ５１９でＹＥＳ）、ステップＳ５２２に進む。

ステップＳ５２２で、ステップＳ５１３、ステップＳ５１５、ステップＳ５１８で算出した各種類似率に基づいて、総合類似率を算出する。

尚、ステップＳ５１３、ステップＳ５１５、ステップＳ５１８の各種類似率の算出方法については、従来よりの公知の技術を用いて算出できるので、ここでは、その算出方法の詳細については省略する。

ステップＳ５２３で、総合類似率が所定閾値Ｔｈより大きいか否かを判定する。総合類似率が所定閾値Ｔｈ未満である場合（ステップＳ５２３でＮＯ）、ステップＳ５２６に進む。一方、総合類似率が所定閾値Ｔｈより大きい場合（ステップＳ５２３でＹＥＳ）、ステップＳ５２４に進み、その電子ファイルを入力ファイルの類似候補として保存する。

次に、ステップＳ５２５で、データベース中の全電子ファイルに対する比較処理が終了したか否かを判定する。比較処理が終了していない場合（ステップＳ５２５でＮＯ）、ステップＳ５２６に進む。一方、比較処理が終了している場合（ステップＳ５２５でＹＥＳ）、処理を終了する。

以上の処理によって、総合類似度が閾値ＴＨより大きい電子ファイルが存在する場合、その電子ファイルは入力ファイルに類似する電子ファイル候補として確定する。そして、この電子ファイル候補を、図３のステップＳ１２７で出力することで、ユーザは所望する電子ファイルの選択を行うことができる。

次に、図３のステップＳ１２９のベクトル化処理の詳細について説明する。

ベクトル化処理では、文字ブロックに対しては、まず、各文字に対して文字認識処理を行う。

この文字認識処理では、文字ブロックから文字単位で切り出された文字画像に対し、パターンマッチの一手法を用いて文字認識を行い、対応する文字コードを取得する。特に、この文字認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とするものである。

特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュブロック内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。

そして、文字ブロックに対して文字認識処理を行う場合は、まず、該当文字ブロックに対し横書き／縦書きの判定を行い、各々対応する方向に文字列を切り出し、その後、文字列から文字を切り出して文字画像を取得する。

横書き／縦書きの判定は、該当文字ブロック内で画素値に対する水平／垂直の射影を取り、水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定する。文字列及び文字への分解は、横書きの文字ブロックである場合には、その水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。一方、縦書きの文字ブロックに対しては、水平と垂直を逆にすれば良い。

尚、この文字認識処理によって、文字のサイズを検出することができる。

加えて、文字認識処理の際に用いる、字種数分の辞書特徴ベクトルを、文字形状種、即ち、フォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力することで、文字のフォントを認識することができる。

以上の文字認識処理によって得られた、文字コードおよびフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、文字部分の情報をベクトルデータに変換する。尚、原稿画像がカラー画像の場合は、そのカラー画像から各文字の色を抽出してベクトルデータとともに記録する。

以上の処理により、文字ブロックに属するイメージ情報を、ほぼ形状、大きさ、色が忠実なベクトルデータに変換できる。

次に、文字ブロック以外の図画あるいは線、表ブロックについては、そのブロック中で抽出された画素塊の輪郭をベクトルデータに変換する。

具体的には、輪郭をなす画素の点列を角と看倣される点で区切って、各区間を部分的な直線あるいは曲線で近似する。角とは曲率が極大となる点であり、曲率が極大となる点は、図１１に示すように、任意点Ｐｉに対し左右ｋ個の離れた点Ｐｉ−ｋ、Ｐｉ＋ｋの間に弦を引いたとき、この弦とＰＩの距離が極大となる点として求められる。

また、Ｐｉ−ｋ、Ｐｉ＋ｋ間の弦の長さ／弧の長さをＲとし、Ｒの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法等の計算式を用いて、また、曲線は３次スプライン関数等の関数を用いてベクトル化することができる。

また、対象が内輪郭を持つ場合、ＢＳ処理で抽出した白画素輪郭の点列を用いて、同様に部分的直線あるいは曲線で近似する。

以上のように、輪郭の区分線近似を用いれば、任意形状の図形のアウトラインをベクトル化することができる。尚、原稿画像がカラー画像の場合は、そのカラー画像から図形の色を抽出してベクトルデータとともに記録する。

また、図１２に示すように、ある区間で外輪郭と、内輪郭あるいは別の外輪郭が近接している場合、２つの輪郭線をひとまとめにし、太さを持った線として表現することができる。

具体的には、ある輪郭の各点Ｐｉから別輪郭上で最短距離となる点Ｑｉまで線を引き、各距離ＰＱｉが平均的に一定長以下の場合、注目区間はＰＱｉ中点を点列として直線あるいは曲線で近似し、その太さはＰＱｉの平均値とする。線や線の集合体である表罫線は、このような太さを持つ線の集合として効率よくベクトル表現することができる。

尚、先に文字ブロックに対する文字認識処理を用いたベクトル化を説明したが、該文字認識処理の結果、辞書からの距離が最も近い文字を認識結果として用いるが、この距離が所定値以上の場合は、必ずしも本来の文字に一致せず、形状が類似する文字に誤認識している場合が多い。

従って、本発明では、このような文字ブロックに対しては、一般的な線画と同じに扱い、その文字ブロックをアウトライン化する。即ち、従来の文字認識処理で誤認識を起こす文字に対しても誤った文字にベクトル化されず、可視的にイメージデータに忠実なアウトライン化によるベクトル化が行える。

また、写真ブロックに対しては、そのままイメージデータとして、ベクトル化は実行しない。

次に、ベクトル化処理によって得られたベクトルデータを図形ブロック毎にグループ化するグループ化処理について、図１３を用いて説明する。

図１３は本発明の実施形態のベクトルデータのグループ化処理を示すフローチャートである。

特に、図１３では、ベクトルデータを図形ブロック毎にグループ化する処理について説明する。

まず、ステップＳ７００で、各ベクトルデータの始点、終点を算出する。次に、ステップＳ７０１で、各ベクトルデータの始点、終点情報を用いて、図形要素を検出する。

ここで、図形要素の検出とは、区分線が構成している閉図形を検出することである。検出に際しては、閉形状を構成する各ベクトルはその両端にそれぞれ連結するベクトルを有しているという原理を応用し、検出を行う。

次に、ステップＳ７０２で、図形要素内に存在する他の図形要素、もしくは区分線をグループ化し、一つの図形オブジェクトとする。また、図形要素内に他の図形要素、区分線が存在しない場合は図形要素を図形オブジェクトとする。

次に、図１３のステップＳ７０１の処理の詳細について、図１４を用いて説明する。

図１４は本発明の実施形態のステップＳ７０１の処理の詳細を示すフローチャートである。

まず、ステップＳ７１０で、ベクトルデータより両端に連結していない不要なベクトルを除去し、閉図形構成ベクトルを抽出する。

次に、ステップＳ７１１で、閉図形構成ベクトルの中から該ベクトルの始点を開始点とし、時計回りに順にベクトルを追跡する。そして、この追跡を、開始点に戻るまで行い、通過したベクトルを全て一つの図形要素を構成する閉図形としてグループ化する。また、閉図形内部にある閉図形構成ベクトルも全てグループ化する。さらにまだグループ化されていないベクトルの始点を開始点とし、同様の処理を繰り返す。

最後に、ステップＳ７１２で、ステップＳ７１０で除去された不要ベクトルの内、ステップＳ７１１で閉図形としてグループ化されたベクトルに接合しているもの（閉図形連結ベクトル）を検出し、一つの図形要素としてグループ化する。

以上の処理によって、図形ブロックを個別に再利用可能な個別の図形オブジェクトとして扱うことが可能になる。

次に、図３のステップＳ１３０のアプリデータ変換処理の詳細について説明する。

ここで、図３のステップＳ１２１のＢＳ処理と、ステップＳ１２９のベクトル化処理の処理結果は、図１５に示すような、中間データ形式のファイルとして変換されているが、このようなデータ形式は、ドキュメント・アナリシス・アウトプット・フォーマット（ＤＡＯＦ）と呼ばれる。

ここで、ＤＡＯＦのデータ構造について、図１５を用いて説明する。

図１５は本発明の実施形態のＤＡＯＦのデータ構造を示す図である。

図１５において、Ｈｅａｄｅｒ７９１では、処理対象の原稿画像に関する情報が保持される。レイアウト記述データ部７９２では、原稿画像中のＴＥＸＴ（文字）、ＴＩＴＬＥ（タイトル）、ＣＡＰＴＩＯＮ（キャプション）、ＬＩＮＥＡＲＴ（線画）、ＰＩＣＴＵＲＥ（自然画）、ＦＲＡＭＥ（枠）、ＴＡＢＬＥ（表）等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。

文字認識記述データ部７９３では、ＴＥＸＴ、ＴＩＴＬＥ、ＣＡＰＴＩＯＮ等のＴＥＸＴブロックを文字認識して得られる文字認識結果を保持する。

表記述データ部７９４では、ＴＡＢＬＥブロックの構造の詳細を格納する。画像記述データ部７９５は、ＰＩＣＴＵＲＥやＬＩＮＥＡＲＴ等のブロックのイメージデータを文書画像データから切り出して保持する。

このようなＤＡＯＦは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、所謂一般の文書作成アプリケーションで個々のオブジェクト（ブロック）を再利用することはできない。

そこで、本実施形態では、このＤＡＯＦから、文書作成アプリケーションで利用可能なアプリデータに変換するアプリデータ変換処理（ステップＳ１３０）の詳細について、図１６を用いて説明する。

図１６は本発明の実施形態のステップＳ１３０の処理の詳細を示すフローチャートである。

まず、ステップＳ８０００で、ＤＡＯＦデータの入力を行う。次に、ステップＳ８００２で、アプリデータの元となる文書構造ツリーを生成する。そして、ステップＳ８００４で、文書構造ツリーを元に、ＤＡＯＦ内の実データを流し込み、実際のアプリデータを生成する。

次に、図１６のステップＳ８００２の処理の詳細について、図１７を用いて説明する。

図１７は本発明の実施形態のステップＳ８００２の処理の詳細を示すフローチャートである。また、図１８は本発明の実施形態の文書構造ツリーの説明図である。

尚、図１７の処理において、全体制御の基本ルールとして、処理の流れは、ミクロブロック（単一ブロック）からマクロブロック（ブロックの集合体）へ移行する。

以後、ブロックとは、ミクロブロック及びマクロブロック全体を指す。

まず、ステップＳ８１００で、ブロック単位で縦方向の関連性を元に再グループ化する。スタート直後は、ミクロブロック単位での判定となる。

ここで、関連性とは、距離が近い、ブロック幅（横方向の場合は高さ）がほぼ同一であることなどで定義することができる。また、距離、幅、高さなどの情報はＤＡＯＦを参照し、抽出する。

例えば、図１８（ａ）は実際の原稿画像のページ構成、図１８（ｂ）はその文書構造ツリーである。ステップＳ８１００の処理によって、ブロックＴ３、Ｔ４、Ｔ５が一つのグループＶ１、ブロックＴ６、Ｔ７が一つのグループＶ２が同階層グループとして、まず生成される。

ステップＳ８１０２で、縦方向のセパレータの有無をチェックする。セパレータとは、例えば、物理的にはＤＡＯＦ中で線の属性を持つブロックである。また、論理的な意味としては、文書作成アプリケーション中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。

ステップＳ８１０４で、分割がこれ以上存在し得ないか否かを縦方向のグループ長を利用して判定する。具体的には、縦方向のグループ長が原稿画像のページ高さであるか否かを判定する。縦方向のグループ長がページ高さである場合（ステップＳ８１０４でＹＥＳ）、処理を終了する。一方、縦方向のグループ長がページ高さでない場合（ステップＳ８１０４でＮＯ）、ステップＳ８１０６に進む。

図１８（ａ）の原稿画像の場合は、セパレータもなく、グループ長はページ高さではないので、ステップＳ８１０６に進む。

ステップＳ８１０６で、ブロック単位で横方向の関連性を元に再グループ化する。ここもスタート直後の第一回目はミクロブロック単位で判定を行うことになる。また、関連性、及びその判定情報の定義は、縦方向の場合と同じである。

図１８（ａ）の原稿画像の場合は、ブロックＴ１、Ｔ２でグループＨ１、グループＶ１、Ｖ２でグループＨ２、グループＶ１、Ｖ２の階層の１つ上の同階層グループとして生成される。

ステップＳ８１０８で、横方向セパレータの有無をチェックする。図１８（ａ）では、Ｓ１が横方向セパレータとなっているので、これを文書構造ツリーに登録し、Ｈ１、Ｓ１、Ｈ２という階層が生成される。

ステップＳ８１１０で、分割がこれ以上存在し得ないか否かを横方向のグループ長を利用して判定する。具体的には、横方向のグループ長がページ幅であるか否かを判定する。横方向のグループ長がページ幅である場合（ステップＳ８１１０でＹＥＳ）、処理を終了する。一方、横方向のグループ長がページ幅でない場合（ステップＳ８１１０でＮＯ）、ステップＳ８１０２に戻り、再びもう一段上の階層で、ステップＳ８１００以降の処理を実行する。

図１８の場合は、横方向のグループ長がページ幅となるので、ステップＳ８１１０で処理を終了し、最後に、ページ全体を表す最上位階層のＶ０が文書構造ツリーに付加される。

文書構造ツリーが完成した後、その文書構造ツリーに基づいて、図１６のステップＳ８００４で、アプリデータの生成を行う。

図１８の場合は、具体的には、以下のようにして、アプリデータを生成する。

即ち、Ｈ１は横方向に２つのブロックＴ１とＴ２があるので、２カラムとして出力し、ブロックＴ１の内部情報（ＤＡＯＦを参照、文字認識結果の文章、画像など）を出力し、その後、カラムを変え、ブロックＴ２の内部情報を出力、その後、Ｓ１を出力する。

次に、Ｈ２は横方向に２つのブロックＶ１とＶ２があるので、２カラムとして出力し、ブロックＶ１はＴ３、Ｔ４、Ｔ５の順にその内部情報を出力し、その後、カラムを変え、ブロックＶ２のＴ６、Ｔ７の内部情報を出力する。

以上のようにして、ＤＡＯＦからアプリデータへの変換処理を実行する。

次に、図３のステップＳ１３０４のポータルシート生成処理で生成するポータルシートの一例について、図１９を用いて説明する。

図１９は本発明の実施形態のポータルシートの一例を示す図である。

図１９のポータルシート２００１には、６つの原稿画像（電子ファイル）に関する原稿情報が記録されている。それぞれは、例えば、以下の２２０２〜２２０５の原稿情報から構成されている。

２２０３は、原稿画像の代表画像（サムネール）であり、各原稿画像の１ページ目の縮小画像を表している。

２２０２は、登録日付、タイトル、作者、格納先（例えば、ＵＲＩ）を示す情報である。また、２００４は、キーワード、要約を示す情報である。これらの情報は、予め原稿に付随している情報であったり、ユーザが原稿登録時に入力した情報であったり、原稿の内容から自動的に抽出された情報であったりする。

２２０５は、格納先のポインター情報を二次元バーコードに変換したパターンである。このパターンは、ポータルシートが記録媒体に印刷され、再びスキャンされた際にも再び電子的に有効なポータルシートとして、内包するポインター情報を素早く確実に取得するために印刷されているものである。尚、この二次元バーコードは、それ以外にも、上述したような、１次元バーコードであったり、電子透かし情報であったりしても構わない
次に、図３のステップＳ１３４の処理の詳細について、図２０を用いて説明する。

図２０は本発明の実施形態のステップＳ１３４の処理の詳細を示すフローチャートである。

尚、本実施形態では、このポータルシート生成処理を実行する前に、操作者はあらかじめ入力部１１３より、ポータルシートを作成・送信するモードを選択し、送信先アドレスを入力するとともに、ポータルシート１枚に表示する件数（ページ内原稿情報数）を入力部１１３より入力しているものとする。

まず、ステップＳ２２１１で、ポータルシートのページ内に原稿情報が配置されているかを確認する。配置されていない場合（ステップＳ２２１１でＹＥＳ）、ステップＳ２２１２に進む。一方、配置されている場合（ステップＳ２２１１でＮＯ）、ステップＳ２２１３に進む。尚、最初の操作では、原稿情報は配置されていないので、ステップＳ２２１２で、ページの初期化処理を行う。

次に、ステップＳ２２１３で、原稿画像毎の原稿情報を取得する。ステップＳ２２１４で、取得した原稿情報を、図１９のように、ページ上に配置する。

次に、ステップＳ２２１４で、ページ内に配置した原稿情報数が、操作者が指定したページ内原稿情報数に達しているか否かを判定する。達していない場合（ステップＳ２２１５でＮＯ）、ステップＳ２２１７に進む。一方、達している場合（ステップＳ２２１５でＹＥＳ）、ステップＳ２２１６に進み、現ページのポータルシートを出力する。

次に、ステップＳ２２１７で、未配置の原稿情報の有無を判定する。未配置の原稿情報がある場合（ステップＳ２２１７でＹＥＳ）、ステップ２２１１に戻る。一方、すべての原稿情報が配置済である場合（ステップＳ２２１７でＮＯ）、ステップＳ２２１８に進む。

次に、必要に応じて最後のページを出力して（ステップＳ２２１８及びステップＳ２２１９）、処理を終了する。即ち、ポータルシート１ページ分に載せるべき数を満たす前に原稿がなくなった場合にはその時点でポータルシートが出力されるものである。

次に、ポータルシート上に配置する原稿情報の抽出方法について説明する。

『タイトル』
原稿情報として、原稿画像のタイトルの抽出方法としては、以下の方法がある。

原稿画像のレイアウト情報及びフォント情報を利用して、文字ブロックのテキストデータの最初の部分に現れるフォントの大きい文で、かつテキストデータ中に使用される頻度の高い文がタイトルとして抽出する。

『キーワード』
原稿情報として、原稿画像のキーワードの抽出方法としては、以下の方法がある。

原稿画像中のテキストデータ全体を形態素解析等により、単語に分解する。全単語を使用頻度によりソートし、頻度の高いものから順にキーワードとする。さらに、より有効なキーワードを抽出するには、予め用意したキーワード用のデータベースと照合するのでも良い。

『ＩＤ、日付、著作者、ＵＲＩ』
原稿情報として、ＩＤ、日付、著作者、ＵＲＩ等の抽出方法としては、以下の方法がある。

これらの情報に関しては、電子ファイルの検索によりファイルが存在した場合に、そのファイルの属性情報から抽出する。

『要約』
原稿情報として、原稿画像（文書内容）の要約の抽出方法としては、以下の方法がある。

原稿画像中の文字コード列で構成されるテキストデータに対して、その要約を作成する方法としては、次のようなものがある。

まず、テキストデータを文あるいは文節単位に分解する。これは句読点の文字コードを境界として機械的に分割することができる。次にそれぞれの文あるいは文節に対し重要度を計算して付与する。

この重要度の計算方法としては、テキストデータ全体に含まれる単語に対して出現頻度を求め、頻繁に出現する単語に高い点数を与え、各文あるいは文節の重要度は、その中に含まれる各単語の点数の総和とする方法、レイアウト情報やフォント情報を用いて、タイトルや見出しに相当する文を検出し、その文自体の重要度を高めたり、文に含まれる単語の点数を上げて重要度を計算したりする方法等がある。

最後に、重要度が上位の文あるいは文節を抽出することで要約文が作成される。このとき、上位何位まで抽出するかを変化させて、所望のサイズの要約文を生成することが可能である。

『目次』
原稿情報として、原稿画像の各ページ画像の目次の抽出方法としては、以下の方法がある。

原稿画像の複数ページ画像に渡るようなテキストデータに対して目次を作成するには、テキストをレイアウト上の空白等から段落に分割し、それぞれに要約を施して一行程度の要約文を割りあてればよい。特に、前述のようにレイアウト情報やフォント情報からタイトルや見出しとして抽出された文は、目次として最適である。

次に、図１９のポインター情報２２０５をポータルシートに付加する付加処理について、図２１を用いて説明する。

図２１は本発明の実施形態のポインター情報をポータルシートに付加する付加処理を示すフローチャートである。

尚、図２１では、例えば、ポインター情報としてのデータ文字列を、２次元バーコード（ＱＲコードシンボル：ＪＩＳＸ０５１０）３１１にて符号化して、ポータルシートに付加する処理について説明する。

また、２次元バーコード内に組み込むデータは、対応する電子ファイルのアドレス情報を表しており、例えば、ファイルサーバ名およびファイル名からなるパス情報で構成される。あるいは、対応する電子ファイルへのＵＲＩや、対応する電子ファイルの格納されているデータベース１０５内あるいはＭＦＰ１００自体が有する記憶部１１１内で管理されるファイルＩＤ等で構成される。

まず、ステップＳ９００で、符号化する種種の異なる文字を識別するため、入力データ列を分析する。また、誤り検出及び誤り訂正レベルを選択し、入力データが収容できる最小型番を選択する。

ステップＳ９０１で、入力データ列を所定のビット列に変換し、必要に応じてデータのモード（数字、英数字、８ビットバイト、漢字等）を表す指示子や、終端パターンを付加する。また、所定のビットコード語に変換する。

この時、誤り訂正を行うため、ステップＳ９０２で、コード語列を型番及び誤り訂正レベルに応じて所定のブロック数に分割し、各ブロック毎に誤り訂正コード語を生成し、データコード語列の後に付加する。

ステップＳ９０３で、ステップＳ９０２で得られた各ブロックのデータコード語を接続し、各ブロックの誤り訂正コード語、必要に応じて剰余コード語を後続する。

ステップＳ９０４で、マトリクスに位置検出パターン、分離パターン、タイミングパターン及び位置合わせパターン等とともにコード語モジュールを配置する。

ステップＳ９０５で、シンボルの符号化領域に対して最適なマスクパターンを選択して、マスク処理パターンをステップＳ９０４で得られたモジュールにＸＯＲ演算により変換するマスク処理を実行する。

ステップＳ９０６で、ステップＳ９０５で得られたモジュールに形式情報及び型番情報を生成して、２次元コードシンボルを完成する。

以上の処理によって、アドレス情報が組み込まれた２次元バーコードは、例えば、クライアントＰＣ１０２からポータルシートを生成する場合に、データ処理部１１５内で記録可能なラスターデータに変換された後に、ラスターデータ上の所定の個所に付加されて画像形成される。

尚、同様の目的で、ポインター情報を２次元バーコードで表現する以外に、例えば、直接文字列でポータルシートに付加する方法、ポータルシート上の文字列、特に、文字と文字の間隔を変調して情報を埋め込む方法、ポータルシート中の中間調画像（サムネール画像）中に埋め込む方法等、一般に電子透かしと呼ばれる方法を適用することができる。

以下、電子透かしを適用して、ポータルシート上に掲載される中間調画像（サムネール画像）中へコード情報を埋め込む例について説明する。

ポインター情報を示すコード情報は、バイナリデータ列として画像上の各色成分一画素について一ビットを重み付けて埋め込まれる。画素にコード情報を埋め込む際、近傍画素で構成される一つのブロックに対し一つのコード情報を埋め込む。コード情報は、互いに重ならない複数のブロックに対して繰り返し埋め込まれる。

ここで、同じコード情報が埋め込まれた複数のブロックが構成するブロックをマクロブロックと呼ぶ。

尚、サムネール画像全体をマクロブロックとすることも可能である。埋め込まれたコード情報を取り出す際は、マクロブロックよりブロック毎の相互相関を求め、その統計量よりコード情報を抽出できる。

このように、サムネール画像へのコード情報の埋め込みは、人間の視覚では認識できないレベルで画素を変化させることで十分埋め込み可能であるが、ポータルシートで使用するサムネール画像では、その目的上、画質を気にしないため、より重みを強くして埋め込むことで耐性を持った埋め込みも可能である。

次に、図３のステップＳ１３５のポータルシート送信処理について説明する。

図３のステップＳ１３４で生成されたポータルシートの画像情報は、例えば、ＨＴＭＬやＸＭＬ、あるいはＰＤＦやＴＩＦＦ等のフォーマットに変換され、指定された送信先へネットワークを経由して送信される。

ここでは、その具体例として、操作者がＭＦＰ１００から離れた場所にある自分のオフィス３０内のクライアントＰＣ１０９へポータルシートを送信する場合について説明する。

特に、ここでは、ＰＣ１０９で受信したポータルシートを用いて、ポータルシートで管理される原稿画像（文書ファイル）中の指定ページ、指定段落、指定画像、指定文書ファイルの指定ページ、指定文書ファイルの指定ページの指定段落、指定文書ファイルの指定ページの指定画像等にアクセスする場合の処理について、図２２及び図２３を用いて説明を行う。

尚、ここで示す実施形態は基本形であり、拡張は任意とする。

図２２は、ＰＣ１０９のディスプレイに表示されるユーザインタフェース（ＵＩ）２５０１を示しており、ＵＩ２５０１は、受信したポータルシートを利用して、ファイルサーバのデータベースで管理されている所望の文書ファイル（電子ファイル）にアクセスする専用アプリケーションによって生成される。この専用アプリケーションは、例えば、クライアントＰＣ１０９上で実行されるソフトウェアプログラムである。

前述したように、ポータルシートには、サムネール画像、タイトル、日付、要約、ＵＲＩ、キーワード等の原稿情報が含まれており、これらをＵＩ上に表示して、ユーザは、その原稿情報から所望の操作を実行することが可能である。

ＵＩ２５０１では、受信したポータルシートの１ページ目のページ画像を表示している。２５０２〜２５０５は、ポータルシート上のサムネール画像を利用して指定文書ファイルのアクセスやポータルシートの編集等の各種操作を実行するための、操作ボタン群である。それぞれの操作ボタンは、左から順に、「取得」、「詳細」、「編集」、「終了」ボタンとなっておいる。

「取得」ボタン２５０２は、選択されたサムネール画像に対応する文書ファイルを取得するためのボタンである。「詳細」ボタン２５０３は、選択されたサムネール画像に対応する文書ファイルの詳細を参照するためのボタンである。「編集」ボタン２５０４は、ポータルシートを編集するためのボタンである。「終了」ボタン２５０５は、ＵＩ２５０１の表示を終了するためのボタンである。

また、２５３０及び２５３１は、複数ページのポータルシートに対し、そのページ画像を切り替えるためのボタンであり、２５３０が表示されているポータルシートのページの「前のページへ戻る」ボタン、２５３１が表示されているポータルシートのページの「次のページへ進む」ボタンである。

ポータルシート中のある指定文書ファイルに対するアクセスを所望するユーザは、まず、ポータルシート中のサムネール画像２５１０〜２５１５のいずれかを、マウスやキーボード等の入力部を使用して選択状態にする。そして、その選択状態で、「取得」ボタン２５０２を操作する。

これにより、その選択されたサムネール画像に対応する文書ファイルの格納先（例えば、文書管理サーバ）が、そのサムネール画像に関連する原稿情報（例えば、ＵＲＩ等）を参照することで特定され、その文書管理サーバより該当する電子ファイルを取得することが可能になる。尚、文書管理サーバから取得した文書ファイルは、クライアントＰＣ１０９にとっては、通常の文書作成アプリケーションの文書ファイルとして扱えるので、表示、印刷、送信等が可能である。

また、指定文書ファイル内の指定ページ、あるいはさらにそのページ内の部分的な情報のみに対するアクセスを所望するユーザは、指定文書ファイルのサムネール画像を選択した上で、まず、「詳細」ボタン２５０３を操作する。このとき、文書管理サーバから指定文書ファイルが取得され、図２３に示すような、文書ファイルを参照するためのＵＩ２６０１が表示部１１６に表示される。

図２３は、図２２のＵＩ２５０１より、「詳細」ボタン２５０３を選択した際に表示されるＵＩ２６０１である。

以下、図２３のＵＩ２６０１を用いて、指定文書ファイルの部分情報（指定ページ、指定段落、指定図面、指定画像等）にアクセスするための説明を行う。

図２３において、２６０２は、指定文書ファイルのタイトルやＩＤ等の情報である。２６０３は、指定文書ファイル中の１ページ分のページ画像である。

２６３０は、指定文書ファイルの表示ページ数と総ページ数である。２６３１及び２６３２は、ページ切替ボタンであり、これらを操作することによって、表示ページを前後に移動することができる。

ページ画像２６０３では、ページ内の各オブジェクト（ブロック）の分割の様子が視認できるように、各オブジェクトを囲む矩形ブロックが示されている。例えば、ページ画像２６０３では、タイトル文字列ブロック２６０４、文章文字列ブロック２６０５、写真ブロック２６０６、図画ブロック２６０７、表ブロック２６０８が存在している状態が示されている。

２６５０は、「取得」ボタンであり、選択されたページ画像中の各ブロックに対応するベクトルデータを取得するためのボタンである。

ユーザは、例えば、ブロック２６０４〜２６０８のいずれかを選択状態にして、その選択状態で、「取得」ボタン２６５０を操作すると、その選択状態にあるブロックのベクトルデータを文書管理サーバより取得することができる。

また、ページ画像２６０３のブロック以外の背景部分を選択状態にした場合には、ページ画像２６０３全体が選択状態となる。そして、この選択状態で、「取得」ボタン２６５０を操作すると、その選択状態にあるページ画像２６０３全体のベクトルデータを文書管理サーバより取得することができる。

次に、ポータルシートを使用して、ページ画像の追加、削除等のページ編集を行うための処理について、図２４を用いて説明する。

ここで、ポータルシート上の編集を所望するユーザは、「編集」ボタン２５０４を操作する。これにより、図２４に示すような、ポータルシートを編集するためのＵＩ２７０１が表示部１１６に表示される。

図２３は、図２２のＵＩ２５０１より、「編集」ボタン２５０４を選択した際に表示されるＵＩ２７０１である。

前述したように、ポータルシートより、サムネール画像、タイトル、日付、要約、ＵＲＩ、キーワード等の原稿情報を得られるため、これらをＵＩ２７１０上に表示することで、ユーザは、その原稿情報を参照して所望とする編集を行うことができる。

２７０２〜２７０６は、ポータルシート上のサムネール画像を利用してポータルシートの編集に係る各種操作を実行するための、操作ボタン群である。それぞれの操作ボタンは、左から順に、「追加」、「削除」、「全選択」、「保存」、「終了」ボタンとなっておいる。

「追加」ボタン２７０２は、画面左のポータルシート画像２７４０上の所望とするサムネール画像を入力部を使用して選択状態にした後、操作することにより、画面右の新規ポータルシート画像２７５０にその選択状態にあるサムネール画像を追加するためのボタンである。

尚、ポータルシート画像２７４０上で、任意のサムネール画像が選択状態になると、その旨を示すために、その表示が強調表示に切り替わる。もちろん、この表示形態は、強調表示に限定されるものではなく、選択状態と非選択状態の区別ができる表示形態であればどのようなものでも良く、例えば、ブリンク表示、色表示、反転表示等の表示形態を採用することができる。

「削除」ボタン２７０３は、ポータルシート画像２７４０あるいは新規ポータルシート画像２７５０上の削除したいサムネール画像を入力部を使用して選択状態にした後、操作することにより、そのサムネール画像を削除するためのボタンである。

「全選択」ボタン２７０４は、ポータルシート画像２７４０に表示されている全てのサムネール画像を選択状態にするためのボタンである。この「全選択」ボタン２７０４を操作した後に、「追加」ボタン２７０２を操作すると、ポータルシート画像２７４０に表示されている全てのサムネール画像を新規ポータルシート画像２７５０に追加することが可能である。また、「削除」ボタン２７０３を操作すると、ポータルシート画像２７４０に表示されている全てのサムネール画像を一括して削除することができる。

「保存」ボタン２７０５は、新規ポータルシート画像２７５０を保存するためのボタンである。

「終了」ボタン２７０６は、ＵＩ２７０１の表示を終了するためのボタンである。

尚、図２４では、サムネール画像２７１１及び２７１５を選択状態にした上で、「追加」ボタン２７０２を操作した状態を示している。つまり、「追加」ボタン２７０２の操作によって、サムネール画像２７１１及び２７１５が、新規ポータルシート画像２７５０上のサムネール画像２７２１及び２７２２として追加されている状態を示している。

また、これらの画面右の編集結果となる新規ポータルシート画像２７５０に登録されたサムネール画像を含む原稿情報は、画面左のポータルシート画像２７４０の外部的、内部的（電子透かしにより付加されたものなど）な情報を継承し、新規ポータルシートとして作成される。

更に、サムネール画像に限らず、ポータルシート上の原稿情報を編集することも可能である。

以上説明したように、本実施形態によれば、文書ファイルの格納先やその文書ファイルに関する各種情報を管理するポータルシートという小サイズのインデックス情報を送信先の端末に送信するだけで、そのポータルシートの受信側の端末では、そのポータルシートを用いて、ネットワーク上のファイルサーバで管理されている複数の文書ファイル全体に対するアクセスが可能になる。

また、そのポータルシートを用いて、文書ファイルの選択的な閲覧や編集作業等の各種操作を受信側の端末内で操作できるため、ネットワークの帯域を圧迫せずに快適な文書ファイルのアクセス環境を実現することが可能となる。

＜応用例１＞
上記実施形態では、ポータルシートを記録用紙に印刷した場合も等価に扱えるようにするために、ポータルシート上に構成されるサムネール画像、タイトルやＩＤ等を含む原稿情報は、１文書ファイルにつき１つとしているが、ポータルシートを電子文書として利用する場合には、その特徴を活かし、画面上のポータルシートのレイアウトはそのままで可読性を保ったまま、１文書あたりの原稿情報を大きく増やす構成にすることもできる。

例えば、ポータルシートを、表示・印刷用の可視ページレイヤーと、補助情報からなる不可視レイヤーの混合構成としても良い。この場合、ポータルシート上のサムネール画像に対応する電子ファイルが複数ページからなる場合、その各ページに対するサムネール画像を作成してポータルシートの不可視レイヤー中に保持しておけば、ポータルシート利用のアプリケーションがＵＩを作成する際にそれら複数のサムネール画像を選択的に表示させることができるようになる。

図２５はその場合の表示例であり、ＵＩ２８０１上の複数ページからなる文書のサムネール画像の直下にはそれぞれ、２８２１、２８２２および２８２３の表示ページ数／総ページ数及びページ切替ボタンが構成されており、そのページ切替ボタンを操作することにより、直上のサムネール画像（ページ画像）の前後のページ画像を表示させることができる。これにより、複数ページからなる文書ファイルの内容を容易に閲覧することができ、その操作性を向上することができる。

また、文書ファイルに対する検索情報も、表示・印刷のレイアウトを考慮してキーワード数を絞り込む必要がなくなり、多数のキーワードを関連づけておくことができるので、操作者がポータルシート内から所望のページあるいは部分情報を検索する際の検索能力が飛躍的に向上する。

例えば、不可視レイヤーを利用して検索用キーワードをポータルシートの各文書ファイルに関連づけて保存しておき、操作者の検索指示によって対応する文書ファイル、あるいはその文書ファイル中のページや部分情報を表示するようにすることができる。

このような構成を実現するためのＵＩについて、図２５を用いて説明する。

図２５のＵＩ２８０１において、「検索」ボタン２８０４は、操作者に検索対象の文書ファイル、あるいはそのページ、部分情報に関連するキーワードの入力を促すダイアログを表示するためのボタンである。

この「検索」ボタンを操作すると、ダイアログ２８０７が表示される。そして、このダイアログ２８０７に対して、操作者がキーワード「ＸＹＺ」を入力すると、そのキーワード「ＸＹＺ」を有する文書ファイルの検索が実行される。

図２５では、サムネール画像２８１１に対応する文書ファイルが、キーワード「ＸＹＺ」を有している場合を示しており、この場合、その文書ファイルが入力されたキーワード「ＸＹＺ」であることを示すために、その表示が強調表示される。

また、ここでは、キーワード「ＸＹＺ」がその文書ファイルの２ページ目に対し、特に強く関連付けられているので、サムネール画像２８１１はその文書ファイルの２ページ目のサムネール画像となっており、かつその直下の表示ページ数が「２」に表示されている。

そして、このサムネール画像２８１１に対してのみアクセスしたい場合は、図２２の例と同様に、「詳細」ボタン２８０３を操作することにより、図２３のＵＩ２６０１を提供して、操作者に所望の情報を提供することができる。

尚、「編集」ボタン２８０５及び「終了」ボタン２８０６は、図２２の「編集」ボタン２５０４及び「終了」ボタン２５０５に対応するものである。

さらに、検索対象は、現在表示されているポータルシート上の文書ファイルだけではなく、あるファイルサーバ上の特定位置に保存されている複数のポータルシートに対して検索を実行して、検索結果として、該当するポータルシート及びそれに対応する文書ファイルを表示するようなＵＩを提供してもよい。

以上説明したように、応用例１によれば、電子的に送信されるポータルシートに対し、不可視レイヤーとして、そのポータルシートで管理される文書ファイルの付加的な情報を埋めこむことで、受信側でポータルシートを利用するアプリケーションがこれを解釈してより利便性の高い機能を提供することができる。

特に、この場合でも、上記実施形態と同様に、文書ファイルの格納先やその文書ファイルに関する各種情報を管理するポータルシートという小サイズのインデックス情報を送信先の端末に送信するだけで、そのポータルシートの受信側の端末では、そのポータルシートを用いて、ネットワーク上のファイルサーバで管理されている複数の文書ファイル全体に対するアクセスが可能になる。

＜応用例２＞
これまでは、操作者が先見的に知るキーワードを用いて、該当文書ファイルをポータルシートを用いて検索する例を説明していたが、ある文書ファイルをキーにして、その文書ファイルを管理するポータルシートを検索する機能を備えてもよい。

例えば、ある文書ファイルと関連する文書ファイルを検索するために、それらがすでにポータルシート編集によりグループ化されていれば、検索により該当するポータルシートを検索することができる。あるいは、ポータルシート全体をキーとして、別のポータルシートを検索する機能を備えてもよい。

例えば、記録用紙に出力したポータルシートを再度読み込み、手元のＰＣ内に多数保存されたポータルシートから同じものを検索して、それらの検索されたポータルシートで管理されている文書ファイルにアクセスすることができる。このとき、単に関連文書ファイルをグループ化している場合には、ポータルシートで管理されている文書ファイル順を無視した検索、あるいは複数枚の紙原稿を読み取り、その１つがポータルシート中の１ページ分に相当するように生成されたポータルページに対しては、ページ順を重視してポータルシート内の文書ファイル順を重視した検索、というように検索方式を切り換えることで、さまざまな状況に応じて検索の確度を上げることができる。

以上説明したように、応用例２によれば、ポータルシートに関連する文書ファイルの検索が、実際の文書ファイル自体が遠隔地にあったとしても手元の環境のみで検索可能であり、検索後に必要な文書ファイルに的確にアクセスできるので、ネットワーク帯域を圧迫せずに快適な文書ファイルのアクセス環境を実現することが可能となる。

以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。

本発明の実施形態の画像処理システムの構成を示すブロック図である。本発明の実施形態のＭＦＰの詳細構成を示すブロック図である。本実施形態の画像処理システムで実行する処理全体の概要を示すフローチャートである。本発明の実施形態のブロックセレクション処理の概念を説明するための図である。本発明の実施形態のブロック情報の一例を示す図である。本発明の実施形態のステップＳ１２２の処理の詳細を示すフローチャートである。本発明の実施形態の原稿画像の一例を示す図である。本発明の実施形態のオリジナル電子ファイルの検索処理を示すフローチャートである。本発明の実施形態のオリジナル電子ファイルの検索処理の応用例を示すフローチャートである。本発明の実施形態のステップＳ１２６の処理の詳細を示すフローチャートである。本発明の実施形態のベクトル化処理を説明するための図である。本発明の実施形態のベクトル化処理を説明するための図である。本発明の実施形態のベクトルデータのグループ化処理を示すフローチャートである。本発明の実施形態のステップＳ７０１の処理の詳細を示すフローチャートである。本発明の実施形態のＤＡＯＦのデータ構造を示す図である。本発明の実施形態のステップＳ１３０の処理の詳細を示すフローチャートである。本発明の実施形態のステップＳ８００２の処理の詳細を示すフローチャートである。本発明の実施形態の文書構造ツリーの説明図である。本発明の実施形態のポータルシートの一例を示す図である。本発明の実施形態のステップＳ１３４の処理の詳細を示すフローチャートである。本発明の実施形態のポインター情報をポータルシートに付加する付加処理を示すフローチャートである。本発明の実施形態のユーザインタフェースの一例を示す図である。本発明の実施形態のユーザインタフェースの一例を示す図である。本発明の実施形態のユーザインタフェースの一例を示す図である。本発明の実施形態のユーザインタフェースの一例を示す図である。

符号の説明

１１、２１、３１ＬＡＮ
１２プロキシサーバ
１００ＭＦＰ
１０１マネージメントＰＣ
１０３プロキシサーバ
１０４ネットワーク
１０５、１０７データベース
１０６、１０８文書管理サーバ
１０９クライアントＰＣ
１１０画像読取部
１１１記憶部
１１２印刷部
１１３入力部
１１４、１１７ネットワークＩ／Ｆ
１１５データ処理部
１１６表示部

Claims

原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置であって、
原稿を読み取る読取手段と、
前記読取手段で読み取られた原稿画像に基づいて、複数の電子ファイルが記憶されている記憶装置から前記原稿画像に対応する電子ファイルを特定する特定手段と、
前記特定手段で特定された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成手段と、
前記生成手段で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信手段と
を備えることを特徴とする画像処理装置。
前記特定手段は、原稿画像に付加されている該原稿画像に対応する電子ファイルの格納先を示すポインター情報を認識する認識手段を備え、
前記認識手段で認識されたポインター情報に基づいて、前記原稿画像に対応する電子ファイルを特定する
ことを特徴とする請求項１に記載の画像処理装置。
前記特定手段で前記原稿画像に対応する電子ファイルが特定できず、かつ前記認識手段で前記ポインター情報が認識できない場合、前記原稿画像に対応する電子ファイルを検索する検索手段と、
前記検索手段で検索された電子ファイルを、前記原稿画像に対応する電子ファイル候補として出力する出力手段と、
前記出力手段で出力された電子ファイル候補から所望の電子ファイルを選択する選択手段を更に備え、
前記選択手段で選択された電子ファイルがイメージデータである場合、前記変換手段は、該電子ファイルをベクトルデータに変換する
ことを特徴とする請求項２に記載の画像処理装置。
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置であって、
原稿を読み取る読取手段と、
前記読取手段で読み取られた原稿画像を文字コード化する文字処理手段と、
前記読取手段で読み取られた原稿画像をベクトルデータに変換するベクトル化手段と、
前記読取手段で読み取られた原稿画像を所定の画像形式に変換する画像変換手段と、
前記読取手段で読み取られた原稿画像を、その属性に応じて前記文字処理手段、前記ベクトル化手段、前記画像変換手段の少なくともいずれかによって変換する変換手段と、
前記変換手段によって得たデータを前記原稿画像に対応する電子ファイルとして所定の記憶装置に格納する格納手段と、
前記格納手段で格納された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成手段と、
前記生成手段で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信手段と
を備えることを特徴とする画像処理装置。
前記変換手段は、前記原稿画像を属性毎に複数のブロックに分割する分割手段を備え、
前記変換手段は、前記原稿画像を前記分割手段で分割された各ブロック毎に前記文字処理手段、前記ベクトル化手段、前記画像変換手段のいずれかによる変換を実行する
ことを特徴とする請求項４に記載の画像処理装置。
前記変換手段は、前記文字処理手段、前記ベクトル化手段、前記画像変換手段の少なくともいずれかによって変換されたデータを、前記外部端末上で動作可能な文書作成アプリケーションで処理可能な所定形式のデータに変換する
ことを特徴とする請求項４又は５に記載の画像処理装置。
前記格納手段は、前記ベクトルデータの格納先を示すポインター情報を生成する生成手段を備え、
前記格納手段は、前記ポインター情報を前記ベクトルデータに付加して、該ベクトルデータを格納する
ことを特徴とする請求項４乃至６のいずれか１項に記載の画像処理装置。
前記原稿情報は、該原稿画像のサムネール画像、該原稿画像中の文字ブロックに基づいて得られるタイトル、要約、キーワード、該原稿画像を特定するためのＩＤ、該原稿画像に対応する電子ファイルの格納日付、前記電子ファイルの著作者を含む
ことを特徴とする請求項１乃至７のいずれか１項に記載の画像処理装置。
前記生成手段は、前記原稿情報を配置したインデックスシート画像を生成する
ことを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
前記送信手段は、前記原稿情報として、前記インデックスシート画像あるいは該インデックスシート画像の格納先を示すアドレス情報を前記ネットワーク上の指定された外部端末へ送信する
ことを特徴とする請求項９に記載の画像処理装置。
前記インデックスシート画像は、前記外部端末の専用アプリケーションによって表示され、かつ該インデックスシート画像上で表示される前記原稿画像の原稿情報に対する操作によって、該原稿画像に対応する電子ファイルの操作を実現可能な画像である
ことを特徴とする請求項９又は１０に記載の画像処理装置。
前記インデックスシート画像は、前記専用アプリケーションで、前記インデックスシート画像上の原稿情報に対する操作に基づいて、操作対象の原稿情報が選択された場合、その選択された原稿情報に対応する電子ファイルの所定ページ画像を表示でき、かつ前記所定ページ画像を構成するオブジェクトのオブジェクト単位での操作を受け付けることが可能な画像である
ことを特徴とする請求項１１に記載の画像処理装置。
前記インデックスシート画像は、前記専用アプリケーション上で、該インデックスシート画像上の原稿情報の編集が可能な画像である
ことを特徴とする請求項１１又は１２に記載の画像処理装置。
前記インデックスシート画像は、表示・印刷用の可視レイヤーと、前記可視レイヤー上で表示される原稿情報の補助情報からなる不可視レイヤーとで構成される
ことを特徴とする請求項９乃至１３のいずれか１項に記載の画像処理装置。
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御方法であって、
原稿を読み取る読取工程と、
前記読取工程で読み取られた原稿画像に基づいて、複数の電子ファイルが記憶されている記憶装置から前記原稿画像に対応する電子ファイルを特定する特定工程と、
前記特定工程で特定された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程と、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程と
を備えることを特徴とする画像処理装置の制御方法。
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御方法であって、
原稿を読み取る読取工程と、
前記読取工程で読み取られた原稿画像を文字コード化する文字処理工程と、
前記読取工程で読み取られた原稿画像をベクトルデータに変換するベクトル化工程と、
前記読取工程で読み取られた原稿画像を所定の画像形式に変換する画像変換工程と、
前記読取工程で読み取られた原稿画像を、その属性に応じて前記文字処理工程、前記ベクトル化工程、前記画像変換工程の少なくともいずれかによって変換する変換工程と、
前記変換工程によって得たデータを前記原稿画像に対応する電子ファイルとして所定の記憶装置に格納する格納工程と、
前記格納工程で格納された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程と、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程と
を備えることを特徴とする画像処理装置の制御方法。
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御を実現するプログラムであって、
原稿を読み取る読取工程のプログラムコードと、
前記読取工程で読み取られた原稿画像に基づいて、複数の電子ファイルが記憶されている記憶装置から前記原稿画像に対応する電子ファイルを特定する特定工程のプログラムコードと、
前記特定工程で特定された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程のプログラムコードと、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程のプログラムコードと
を備えることを特徴とするプログラム。
原稿を読み取って得られる原稿画像の画像処理を行う画像処理装置の制御を実現するプログラムであって、
原稿を読み取る読取工程のプログラムコードと、
前記読取工程で読み取られた原稿画像を文字コード化する文字処理工程のプログラムコードと、
前記読取工程で読み取られた原稿画像をベクトルデータに変換するベクトル化工程のプログラムコードと、
前記読取工程で読み取られた原稿画像を所定の画像形式に変換する画像変換工程のプログラムコードと、
前記読取工程で読み取られた原稿画像を、その属性に応じて前記文字処理工程、前記ベクトル化工程、前記画像変換工程の少なくともいずれかによって変換する変換工程のプログラムコードと、
前記変換工程によって得たデータを前記原稿画像に対応する電子ファイルとして所定の記憶装置に格納する格納工程のプログラムコードと、
前記格納工程で格納された前記電子ファイルに対応する原稿画像に関する原稿情報として、該電子ファイルの格納先を示すアドレス情報とその代表画像を含む原稿情報を生成する生成工程のプログラムコードと、
前記生成工程で生成された原稿情報をネットワーク上の指定された外部端末へ送信する送信工程のプログラムコードと
を備えることを特徴とするプログラム。