JP5743443B2

JP5743443B2 - 画像処理装置、画像処理方法、コンピュータプログラム

Info

Publication number: JP5743443B2
Application number: JP2010156008A
Authority: JP
Inventors: 亮小坂; 三沢　玲司; 玲司三沢; 金津　知俊; 知俊金津; 英智相馬
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-07-08
Filing date: 2010-07-08
Publication date: 2015-07-01
Anticipated expiration: 2030-07-08
Also published as: US20120011429A1; JP2012018576A; CN102314484B; CN102314484A

Description

本発明は、紙文書、または電子文書データから相互リンク情報付きの電子文書データを生成する画像処理装置、画像処理方法、コンピュータプログラム、および、そのプログラムを記憶したコンピュータ読出可能な記憶媒体に関するものである。

従来、「オブジェクト」と「オブジェクトの説明文（解説文）」を含む紙文書、または電子文書が広く利用されている。例えば、学術論文、特許文献、取扱説明書、商品カタログ等が挙げられる。ここで、「オブジェクト」とは、文書に含まれる「写真」、「線画（図面）」、「表」等の領域を意味している。「オブジェクトの説明文（解説文）」とは、前述の「オブジェクト」を詳しく説明・解説する本文中の文章を意味している。それらの関係付けのために、「図１」などの表現（図番号などのオブジェクトを特定するための識別子）が使用されていることが多い。この「図１」のように、「オブジェクト」と「オブジェクトの説明文」のそれぞれを関係付けるための識別子を、本明細書では「アンカー表現」と呼ぶこととする。また、「オブジェクト」自身の近傍には、その「オブジェクト」の簡単な説明文とアンカー表現があることが多く、これらをまとめて「キャプション表現」と呼ぶ。このような文書の場合、文書の閲覧者は、アンカー表現を見ながら「オブジェクト」と「オブジェクトの説明文」の相互の対応関係を考慮し、読み進める必要がある。一般的に文書の閲覧者は、本文中に「図１は・・・」という文章を見た場合、文書内から「図１」に対応するオブジェクトを探して確認したのち、再び本文に元の位置に戻り、続きを読み始めることになる。一方、キャプション表現内に「図１」というアンカー表現があるオブジェクトを見た場合には、本文中より「図１」について説明された文章を探すことになる。そして、説明文を読んで確認した後、再び元のページに戻り続きを読み進める。複数ページ文書の場合、本文中の「図１は・・・」に対応するオブジェクトを探したり、オブジェクト「図１」に対応する本文中の説明文を探したりする場合に、ページをまたがって参照する必要が出てくるため、可読性が良くないといえる。また、本文中の説明文は探しにくい上、本文内の複数個所で書かれていることもあり、閲覧者が全てを確認するのは非常に手間がかかっていた。

特許文献１は、紙文書を光学的に読み取り、利用目的に応じた様々な形態のコンピュータ上で利用可能な文書を生成することを可能とする発明である。具体的には、図と図番号のハイパーテキスト化を行って電子文書を生成し、例えば、本文中の「図番号」をマウス等でクリックすると、「図番号」に該当する図を画面表示させることが可能となる。

特開平１１−０６６１９６号公報

しかしながら、特許文献１によれば、本文中の図番号からオブジェクトへのリンクを行っているが、オブジェクトから本文中の図番号へのリンクは行っていないため、以下のような課題が残る。（１）最初に「オブジェクト」を閲覧する場合、「オブジェクトの説明文」を探す場合に手間がかかる。（２）最初に本文中の「オブジェクトの説明文」を読み、該当する「オブジェクト」を表示することは可能であるが、「オブジェクト」を閲覧した後、「オブジェクト」の画面表示を閉じて、「オブジェクトの説明文」に戻ると、どの位置（何段落、何行目）を読んでいたかがわかりづらい。（３）「オブジェクト」を画面表示させるため、「オブジェクト」の文書・ページに対する位置（何ページ目のどの位置にあるか）が把握しづらい。

さらに、「オブジェクト」に対して、本文中の複数個所で「オブジェクトの説明文」が記載されることもあるが、これに対応して図と図番号との間でハイパーリンクを生成するためには、全ページの内容を確認しないといけない。そのため、全ページ分のデータを保持しておくようにした場合、多くのワークメモリが必要となってしまう上に、処理された文書を外部装置へ出力する場合は、全てのページの処理が終わるまで出力を待たなければならない。すなわち、各ページの解析処理と並行して、処理済のページをページ単位で出力することができず、転送効率が悪化するという課題があった。

上記課題を解決するために、本発明の画像処理装置は、複数のページ画像を入力する入力手段と、前記入力されたページ画像を、属性ごとの領域に分割する領域分割手段と、前記領域分割手段で分割された領域に対して文字認識処理を実行する文字認識手段と、前記ページ画像内の本文属性の領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第１のアンカー表現を検出する第１検出手段と、前記第１検出手段で検出された第１のアンカー表現に対する第１リンク識別子を付与する第１識別子付与手段と、前記第１検出手段で検出された第１のアンカー表現を強調表示するための描画情報を含む第１グラフィックデータを生成し、当該生成された第１グラフィックデータと前記第１識別子付与手段で付与された第１リンク識別子とを関連付ける第１グラフィックデータ生成手段と、前記第１リンク識別子と前記第１のアンカー表現とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第１のアンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第１テーブル更新手段と、前記ページ画像内のオブジェクトに付随するキャプション領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第２のアンカー表現を検出する第２検出手段と、前記第２のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトに対して、第２リンク識別子を付与する第２識別子付与手段と、前記第２のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトを強調表示するための描画情報を含む第２グラフィックデータを生成し、当該生成された第２グラフィックデータと前記第２識別子付与手段で付与された第２リンク識別子とを関連付ける第２グラフィックデータ生成手段と、前記第２リンク識別子と前記第２のアンカー表現とを対応付けて、前記リンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第２のアンカー表現と同じ第１のアンカー表現が既に登録されていれば、当該同じ第１のアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第２テーブル更新手段と、前記ページ画像に関して前記第１リンク識別子と前記第１グラフィックデータと前記第２リンク識別子と前記第２グラフィックデータとを用いてフォーマット変換を実行することにより、所定のフォーマットに変換後の前記ページ画像に関するデータと前記第１リンク識別子と前記第１グラフィックデータと前記第２リンク識別子と前記第２グラフィックデータとを含む、電子文書のページデータを生成するページデータ生成手段と、前記第１テーブル更新手段と前記第２テーブル更新手段とによって更新された前記リンク構成管理テーブルに基づいて、前記電子文書に含まれる前記第１リンク識別子と前記第２リンク識別子とをリンクさせるためのリンク構成情報を生成するリンク構成情報生成手段と、前記複数のページ画像それぞれについて前記ページデータ生成手段で生成された前記電子文書のページデータと、前記リンク構成情報生成手段で生成されたリンク構成情報とを、外部の装置に送信する送信手段と、を有し、前記送信手段は、前記ページデータ生成手段で生成された一部のページデータを、前記入力された複数のページ画像全てについてのページデータの生成が完了するよりも前に、前記外部の装置に送信することを特徴とする。

上記課題を解決するために、本発明の画像処理装置は、複数のページ画像からなる文書を入力する入力手段と、前記入力手段で入力されたページ画像を、属性ごとの領域に分割する領域分割手段と、前記領域分割手段で分割された領域に対して文字認識処理を実行する文字認識手段と、前記文字認識手段の文字認識結果に基づいて、特定文字列で構成されるアンカー表現を検出する検出手段と、前記検出手段で検出されたアンカー表現にリンク識別子を付与する識別子付与手段と、前記アンカー表現に基づいて定められる強調表示位置と前記リンク識別子とを関連づけたデータを生成する生成手段と、前記アンカー表現と前記リンク識別子とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該アンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新するテーブル更新手段と、前記ページ画像に関して、前記リンク識別子と前記強調表示位置とを用いて、電子文書のページデータを生成し、当該生成されたページデータを送信する第１送信手段と、前記入力手段で入力されるページ画像を１ページずつ順に処理対象として、前記領域分割手段と前記文字認識手段と前記検出手段と前記識別子付与手段と前記生成手段と前記テーブル更新手段と前記第１送信手段とによる処理を繰り返し実行するように制御する制御手段と、前記テーブル更新手段によって更新された前記リンクテーブルに基づいて、前記電子文書に含まれる関連するリンク識別子同士をリンクさせるためのリンク構成情報を生成して送信する第２送信手段と、を有することを特徴とする。

本発明によれば、複数ページの電子文書を入力として、ページ単位で「オブジェクト」と本文中の「オブジェクトの説明文」との間に相互リンクを自動的に作成し、マルチページの電子文書を生成することが可能となる。この相互リンクにより、「オブジェクト」と「オブジェクトの説明文」との参照が容易になり、可読性の向上につながる。また、複数ページの文書画像をＰＣへ送信する際、「オブジェクト」のあるページと、「オブジェクトの説明文」が書かれたページが異なる場合でも自動的に相互リンクを生成することが可能であり、ページ単位での処理が可能なので、全ページデータを保持しておくワークメモリが不要になる。さらに、１ページ単位で電子文書データが生成される度に送信することで、転送効率を向上させることが可能である。

本発明に係る画像処理システムを示すブロック図ＭＦＰ１００を示すブロック図データ処理部２１８の構成例を示すブロック図リンク処理部３０４の構成例を示すブロック図入力イメージデータ３００に対して領域分割を行った結果の説明図本発明で出力される入力イメージデータ５００に対する電子文書データの例実施例１における処理全体のフローチャート実施例１におけるページ単位のリンク処理のフローチャート実施例１で作成されるリンク構成管理テーブルの一例実施例１における複数ページの画像の一例、および処理結果の説明図実施例１における電子文書データ構成の説明図実施例１における受信側のフローチャート実施例１におけるアプリケーションの説明図実施例１におけるアプリケーション側のフローチャート実施例４における処理のフローチャート

[実施例１]
図１は本実施例の画像処理システムの構成を示すブロック図である。

図１において、オフィスＡ内に構築されたＬＡＮ１０２には、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００が接続されている。ＬＡＮ１０２は、プロキシサーバ１０３を介してネットワーク１０４にも接続されている。クライアントＰＣ１０１はＬＡＮ１０２を介してＭＦＰ１００からの送信データを受信したり、ＭＦＰ１００が有する機能を利用したりする。例えば、クライアントＰＣ１０１は、印刷データをＭＦＰ１００へ送信することで、その印刷データに基づく印刷物をＭＦＰ１００で印刷することもできる。尚、図１の構成は一例であり、オフィスＡと同様の構成要素を有する、複数のオフィスがネットワーク１０４上に接続されていても良い。また、ネットワーク１０４は、典型的にはインターネットやＬＡＮやＷＡＮや電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等で実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントＰＣ１０１、プロキシサーバ１０３の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。

図２は本実施例の画像処理装置であるＭＦＰ１００の詳細構成を示す図である。図２中、ＭＦＰ１００は、画像入力デバイスであるスキャナ部２０１と、画像出力デバイスであるプリンタ部２０２と、ＣＰＵ２０５等で構成される制御ユニット２０４と、ユーザインタフェースである操作部２０３等を有する。制御ユニット２０４は、スキャナ部２０１、プリンタ部２０２、操作部２０３と接続し、一方では、ＬＡＮ２１９や一般の電話回線網である公衆回線（ＷＡＮ）２２０と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。ＣＰＵ２０５は、制御ユニット２０４に含まれる各ユニットを制御する。ＲＡＭ２０６はＣＰＵ２０５が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ２１０はブートＲＯＭであり、システムのブートプログラム等のプログラムが格納されている。記憶部２１１はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部Ｉ／Ｆ２０７は操作部（ＵＩ）２０３とのインターフェース部で、操作部２０３に表示するための画像データを操作部２０３に対して出力する。また、操作部Ｉ／Ｆ２０７は操作部２０３から本画像処理装置の使用者が入力した情報を、ＣＰＵ２０５に伝える役割をする。ネットワークＩ／Ｆ２０８は本画像処理装置をＬＡＮ２１９に接続し、パケット形式の情報の入出力を行う。モデム２０９は本画像処理装置をＷＡＮ２２０に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス２２１上に配置される。

イメージバスＩ／Ｆ２１２はシステムバス２２１と画像データを高速で転送する画像バス２２２とを接続し、データ構造を変換するバスブリッジである。画像バス２２２は、例えば、ＰＣＩバスやＩＥＥＥ１３９４で構成される。画像バス２２２上には以下のデバイスが配置される。ラスターイメージプロセッサ（ＲＩＰ）２１３はＰＤＬ（ページ記述言語）コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。このビットマップイメージに展開する際には、各画素単位あるいは領域単位で、属性を判定し、判定結果の属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字（テキスト）や線（ライン）、グラフィクス、イメージ等といったオブジェクトの種類（属性）を示す属性情報が付与される。デバイスＩ／Ｆ２１４は、信号線２２３を介して画像入力デバイスであるスキャナ部２０１、信号線２２４を介して画像出力デバイスであるプリンタ部２０２、をそれぞれ制御ユニット２０４に接続し、画像データの同期系／非同期系の変換を行う。スキャナ画像処理部２１５は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部２１６は、プリンタ部２０２に出力すべきプリント出力画像データに対して、プリンタ部２０２に応じた補正、解像度変換等を行う。画像回転部２１７は入力された画像データが正立するように回転を行い出力する。データ処理部２１８については後述する。

次に、図３を用いて、図２に示すデータ処理部２１８の構成および動作について、詳細な説明を行う。データ処理部２１８は、領域分割部３０１、属性情報付加部３０２、文字認識部３０３、リンク処理部３０４、フォーマット変換部３０５から構成される。データ処理部２１８は、例えばスキャナ部２０１でスキャンしたイメージデータ３００が入力されると、各処理部３０１〜３０５で処理を行うことにより、電子文書データ３１０を生成して出力する。

領域分割部３０１には、図２のスキャナ部２０１でスキャンされたイメージデータ、あるいは記憶部２１１に記憶されているイメージデータ（文書画像）が入力される。そして、領域分割部３０１は、入力されたイメージデータを、ページ内に配置された文字、写真、図、表等の各領域に分割する。

この際の領域抽出方法（領域分割方法）としては公知の方法を用いることができる。一例を説明すると、まず、入力画像を２値化して２値画像を生成し、２値画像を低解像度化して間引き画像（縮小画像）を作成する。例えば、１／（Ｍ×Ｎ）の間引き画像を作成する際には、２値画像をＭ×Ｎ画素毎に分割し、Ｍ×Ｎ画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。次に、間引き画像において黒画素が連結する部分（連結黒画素）を抽出して当該連結黒画素に外接する矩形を作成していく。文字画像サイズに近い矩形（１文字の矩形）が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形（数文字が繋がった連結黒画素の矩形）で短辺の近くに同様の矩形が並んでいる場合は、１つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、１つの文字行を表す矩形を得る。そして、１つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合して本文領域を抽出する。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図５（ａ）のイメージデータ５００は、領域５０１〜５０６に分割されることとなる。なお、各領域の属性は、後述するように、そのサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果等に基づいて判断される。

属性情報付加部３０２は、領域分割部３０１で分割された各領域に属性を付加する。ここでは、図５（ａ）に示す入力イメージデータ５００を例として、属性情報付加部３０２の処理動作を説明する。属性情報付加部３０２は、領域５０６が、そのページ内で文字数や行数がある程度あり、文字数、行数、段落等の形態を保有するように連続する文字列から構成されているため、領域５０６に『本文』の属性（本文属性）を付加する。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かが判断される。特に、文字画像が含まれている領域に対しては、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かを判断することができる。その結果、属性情報付加部３０２は、領域５０１、領域５０４、領域５０５に対して、文字が含まれる領域として『文字』の属性を付加する。ただし、これらの領域は、文字数、行数、段落等の形態を持たない点から、本文領域とは異なることになる。

一方、属性情報付加部３０２は、それ以外の領域について、領域の大きさが非常に小さければ『ノイズ』と判定する。また、属性情報付加部３０２は、画素密度が小さい連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいる場合は当該領域を『表』と判断し、整然と並んでいない場合は『線画（図）』と判断する。それ以外の画素密度の高い領域に対しては、絵や写真であると判断して、『写真』の属性を付加する。なお、『表』、『線画』、『写真』の属性が付加された領域は、上述の「オブジェクト」に対応し、文字以外の属性であることを特徴としている。

更に、本文でないと判断された文字領域にが、『表』、『線画』、『写真』の属性が付加された領域の近傍（例えば、当該オブジェクト領域の上または下）に存在する場合、属性情報付加部３０２は、当該『表』、『線画』、『写真』の領域を説明する文字領域であると判断する。そして、属性情報付加部３０２は、当該本文でない文字領域に『キャプション』の属性を付加する。尚、キャプション領域は、その『キャプション』領域が付随するオブジェクト領域（例えば、『表』、『線画』、『写真』のオブジェクト）を特定できるように保存する。すなわち、『キャプション』の属性が付加された領域（以下、キャプション領域）と、『キャプション』が付随するオブジェクト領域（以下、キャプション付随オブジェクト）とを関連付けて保存する。例えば、図５（ｂ）に示すように、領域５０５（キャプション領域）には、「キャプションが付随する領域」の項目に『領域５０３』が関連付けられている。

また、属性情報付加部３０２は、文字サイズが本文領域の文字画像より大きく、本文領域の段組とは異なる位置に在る文字領域に対しては、『見出し』の属性を付加する。また、属性情報付加部３０２は、文字サイズが本文領域の文字画像より大きく、本文領域の段組の上部に存在する領域に、『小見出し』の属性を付加する。更に、属性情報付加部３０２は、本文領域の文字画像のサイズ以下の文字画像から構成されており、イメージデータを構成するページの下端部や上端部に存在する領域に、『ページ』（もしくは、「ページヘッダ」、「ページフッタ」）の属性を付加する。また、属性情報付加部３０２は、文字領域として判断したが、『本文』、『見出し』、『小見出し』、『キャプション』、『ページ』のどれにも当てはまらない領域には、『文字』の属性を付加する。

以上のような属性情報付加処理を行うと、図５（ａ）に示すイメージデータにおいて、領域５０１は『見出し』、領域５０２は『表』、領域５０３は『写真』、領域５０４は『文字』、領域５０５は『キャプション』、領域５０６は『本文』の属性が付加されることとなる。なお、領域５０５には、『キャプション』属性が付加されているため、キャプション付随オブジェクトとして領域５０３が関連付けられている。また、『写真』の属性が付加された領域５０３は、本実施例における「オブジェクト」に該当し、『本文』の属性が付加された領域５０６は、アンカー表現である「図１」を含んでいるため前述の「オブジェクトの説明文」に該当する。なお、属性情報付加部３０２による属性の付加とは、例えば、図５（ｂ）に示すデータテーブルのように、領域分割部３０１により分割された領域ごとに、判別した属性を関連付けて記憶部２１１等に記憶させることである。

文字認識部３０３は、文字画像を含む領域（すなわち、属性が『文字』、『本文』、『見出し』、『小見出し』、『キャプション』の領域）について、公知の文字認識処理を実行し、その結果とを文字情報として対象領域に関連付けて記憶部２１１に記憶させる。例えば、図５（ｂ）に示すように、領域５０１、５０４〜５０６には、「文字情報」の項目に、文字認識処理の結果である文字情報が関連付けられている。

このように、領域分割部３０１、属性情報付加部３０２、文字認識部３０３において抽出された領域の位置や大きさや領域属性の情報、ページの情報、文字認識結果の文字情報（文字コード情報）等は、領域ごとに関連付けられて記憶部２１１に記憶される。例えば、図５（ｂ）には、図５（ａ）に示すイメージデータ５００を例に処理した場合、記憶部２１１に記憶されるデータテーブルの一例が示されている。なお、図５（ａ）および（ｂ）では詳細な説明を省略しているが、属性が『表』の領域における文字画像の領域に関して、『表内文字』の属性を付与して文字認識処理を行って、当該処理結果を文字情報として記憶しておくのが望ましい。領域５０４については、図５（ｂ）に示すように、これが、写真や図に含まれる領域なので、『領域５０３の写真内』の属性が追加される。

リンク処理部３０４は、属性情報付加部３０２で検出されたキャプション付随オブジェクト（属性が『表』、『線画』、『写真』、『イラスト』等の領域）と「アンカー表現を含む本文中の説明表現」との間にリンク情報を生成する。そして、リンク処理部３０４は、この生成したリンク情報を記憶部２１１に記憶させる。リンク処理部３０４の詳細については後述する。

フォーマット変換部３０５は、入力されたイメージデータ３００について、領域分割部３０１、属性情報付加部３０２、文字認識部３０３、リンク処理部３０４から得られた情報を用いて、電子文書データ３１０へ変換する。電子文書データ３１０のファイルフォーマットの例としては、ＳＶＧ、ＸＰＳ、ＰＤＦ、ＯｆｆｉｃｅＯｐｅｎＸＭＬ等が挙げられる。変換された電子文書データ３１０は、記憶部２１１に記憶されるか、または、ＬＡＮ１０２を介して、クライアントＰＣ１０１へ送信される。文書の利用者は、該電子文書データ３１０をクライアントＰＣ１０１にインストールされているアプリケーション（例えば、ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ、ＡｄｏｂｅＲｅａｄｅｒ、ＭＳＯｆｆｉｃｅ等）で閲覧する。電子文書データ３１０をアプリケーションで閲覧する際の詳細については後述する。

電子文書データ３１０は、グラフィックス等によるページ表示情報（表示用画像等）と、文字等の意味記述による内容情報（リンク情報等）を含む。

フォーマット変換部３０５の処理は、大きく２つある。１つは、各画像領域に対して、平坦化やスムージング、エッジ強調、色量子化、２値化等のフィルタ処理を施し、各領域の画像データを指定されたフォーマットに変換する処理を行い、電子文書データ３１０に格納できるものにすることである。例えば、『文字』、『線画』及び『表』の属性の領域の画像データに対して、ベクトルパス記述のグラフィックスデータ（ベクトルデータ）や、ビットマップ記述のグラフィックスデータ（例えばＪＰＥＧデータ）にすることである。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。そして、それらに対して、記憶部２１１に記憶されている領域情報（位置、大きさ、属性）、領域内の文字情報、リンク情報を対応づけて、電子文書データ３１０へ変換する。

さらに、このフォーマット変換部３０５では、各領域に施すべき変換処理方法は、領域の属性によって異なる。例えば、ベクトル変換処理は文字や線画のように白黒あるいは数色で構成された図形に対しては好適であるが、写真のように階調性のある画像領域には不適である。このように、各領域の属性に従った適切な変換を行うためには、図５（ｃ）に示す対応テーブルをあらかじめ設定しておき、当該対応テーブルに基づいて変換処理を行う。例えば、図５（ｃ）に示す対応テーブルに従えば、『文字』、『線画』および『表』の属性の領域に対してはベクトル変換処理が、『写真』属性の領域に対しては画像切り出し処理が行われることになる。

また、図５（ｃ）に示す対応テーブルにおいて、該当領域の画素情報をイメージデータ３００から消去する処理の有無が各属性に関連付けて格納されている。例えば、図５（ｃ）に示す対応テーブルに従って、『文字』属性の領域をベクトルパス記述データに変換する場合、消去処理ありと指示されている。そこで、イメージデータ３００上において、当該変換されたベクトルパスに覆われる部分に対応する画素をその周辺色で塗りつぶす処理を行う。同様に、『写真』属性の領域を矩形の画像パーツとして切り出す際には、イメージデータ３００上において、当該切り出された領域に対応する領域範囲内を、その周辺色等で塗りつぶす処理を行う。

このような消去処理を行う目的としては、各領域に対する処理が終了した後（塗りつぶし処理終了後）のイメージデータ３００を『背景』の画像パーツデータとして利用できることである。この背景用の画像データ（背景画像）には、領域分割処理で分割された領域以外の部分（例えばイメージデータ３００中の下地にあたるような画素）が残っている。電子文書データ３１０を記述する際には、フォーマット変換部３０５によって行われるベクトル変換処理や画像切り出し処理で得られたグラフィックスデータ（前景画像）を背景画像パーツデータ（背景画像）の上に重畳して表示するような記述を行う。これにより、背景画素（下地の色）の情報欠落がなくなり、かつ冗長性のないグラフィックスデータを構成することが可能となる。

そこで、『文字』属性の領域（文字領域）に対しては、２値による画像切り出し処理と、イメージデータ３００からの画素消去処理が行われるが、それ以外の属性の領域に対しては、ベクトル化処理や画像切り出し処理は行わないようにすることも可能である。すなわち、処理対象外の画素（『写真』や『線画』や『表』属性の領域内の画素情報）は、背景画像パーツデータ内に残っており、この背景画像上に『文字』の画像パーツを重畳するように記述される。

さらに、図５（ｃ）に示す対応テーブルを予め複数用意しておき、出力される電子文書データ３１０の用途（使用目的）や電子文書の内容に応じて選択できるようにしても良い。例えば、図５（ｃ）に示す対応テーブルに基づいた出力は、オブジェクトの大半がベクトルパス記述へと変換されているため、拡大縮小時の画質に優れているので、グラフィックエディタ等の再利用用途に好適である。また、他の対応テーブルの作成例としては、文字画像を文字色ごとに個別の２値画像を生成して可逆圧縮することで、文字画像部分は高品位に再生することができ、それ以外を背景画像としてＪＰＥＧ圧縮することでデータサイズの圧縮率を高くすることができる。この場合、圧縮率を高くしつつ文字画像が読みやすいデータを作成したい場合に適している。このように選択可能に使い分けることで作成する電子文書データを適切なものにすることが可能となる。

生成される電子文書データ３１０の例を図６に示す。図６に示す例では、図５（ａ）に示すイメージデータ５００を処理した場合に、記憶部２１１に記憶されるデータテーブル（図５（ｂ））に基づいて、ＳＶＧ（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ）形式で記述を行った場合の例を示す。尚、ここではＳＶＧ形式を例として説明するが、ＳＶＧに限定されるものではなく、ＰＤＦ、ＸＰＳ、ＯｆｆｉｃｅＯｐｅｎＸＭＬ、その他のＰＤＬ系のデータ形式等でもよい。

図６の電子文書データ記述６００において、記述６０１〜６０６は、それぞれ図５（ａ）の領域５０１〜５０６に対するグラフィックス記述である。ここで、記述６０１、記述６０４〜６０６は文字コードによる文字描画記述の例であり、記述６０２はベクトル変換された表の枠のベクトルパス記述、記述６０３は切り出し処理された写真画像を貼り付ける記述の例である。なお、図５（ｂ）と図６の例で、座標値Ｘ１、Ｙ１等記号で記述されている部分は実際には数値が記述される。また、記述６０７はリンク情報についての記述例である。記述６０７には、記述６０８、６０９を構成とする記述である。記述６０８は、「キャプション付随オブジェクト」から「本文中の説明表現」へのリンク情報である。記述６１０は、リンク識別子であり、記述６０３で示されるキャプション付随オブジェクト、および記述６１１で示されるグラフィックデータ領域に関連付けされている。記述６１２は動作に関するアクション情報である。アクション情報とは、文書の閲覧者が電子文書データ３１０をアプリケーションで閲覧する際、記述６１１で示されるグラフィックデータ領域が押下（または選択）された場合のアプリケーション側の表示動作に関する情報である。記述６０９は、「本文中の説明表現」から「キャプション付随オブジェクト」へのリンク情報である。記述６１３〜記述６１５は、記述６１０〜記述６１２と同様である。

図４はリンク処理部３０４の構成例を示すブロック図である。以下、リンク処理部３０４の処理内容について説明する。

リンク情報付与対象選択部４０１は入力されたイメージデータに対して、リンク情報生成を行う対象となるオブジェクト（キャプション付随オブジェクト）を選択する。

アンカー表現抽出部４０２は、リンク情報付与対象選択部４０１で選択されたオブジェクトに付随するキャプション領域における文字情報を解析し、当該解析した文字情報の中からアンカー表現（例えば、「図１」、「Ｆｉｇ１」等）を抽出する。アンカー表現抽出部４０２は、アンカー表現が見つかった場合には、文字情報のうちの該当部分をアンカー表現、それ以外の部分をキャプション表現として抽出する。また、文字コードの特性や辞書等を用いることで、有意でない文字列（無意味な記号列等）を排除する機能も有する。これは、文書のテキスト部分の境界に現れる飾りや、分割線、画像を文字として解釈するような文字認識の誤認識等に対応するためである。また、アンカー表現を抽出するために、図番号等の多言語の文字列パターンや、それに対する文字認識の誤認識パターンを辞書に保有することで、アンカー表現の抽出精度と、アンカー表現の文字補正を行うことが可能である。また、キャプション表現に対しても、同様に処理することができる。すなわち、自然言語処理での解析や、文字認識の誤認識補正等を行うことが可能で、アンカー表現との境目や、先頭・末尾に現れる記号や文字飾り等を補正して排除したりする機能を持たせることも可能である。

本文内アンカー表現検索部４０３は、アンカー表現抽出部４０２のアンカー表現抽出処理で抽出される可能性があるアンカー表現の全特定文字列（例えば、「図」、「Ｆｉｇ」等）を文書の各本文領域における文字情報から検索し、オブジェクトに対応する本文中のアンカー表現の候補として検出する部分である。また、本文内アンカー表現検索部４０３は、アンカー表現を含み、オブジェクトの説明を行っている本文中の説明表現も、オブジェクトの説明表現候補として併せて検出する。ここでは、検索を高速化するための、検索用インデックス（インデックス作成とそれを利用した高速検索の技術は公知のインデックス作成・検索技術を用いることが可能である）を作成することが可能である。また、複数のアンカー表現の特定文字列で一括検索をすることで、高速化を実現することも可能である。また、本文中の説明表現に対しても、図番号等の多言語の文字列パターンや、それに対する文字認識の誤認識パターンを保有して、これを利用することにより、検索精度の向上、および、補正を行う機能の提供が可能である。

リンク情報生成部４０４は、リンク情報付与対象選択部４０１で選択されたキャプション付随オブジェクトと、本文内アンカー表現検索部４０３で検索・抽出された本文中のアンカー表現候補および説明表現候補とを関連付けるリンク情報を生成する。リンク情報には、リンク動作のトリガー、リンクアクション設定、リンク構成情報等が含まれる。これらの詳細については後述する。ここでは、「キャプション付随オブジェクト」から「本文中に記述されると思われるアンカー表現およびオブジェクトの説明表現」、もしくは前述の「本文中のアンカー表現候補および説明表現候補」から「文書内中に挿入されると思われるオブジェクト」へのリンク情報として、トリガーとリンクアクション設定を生成する。尚、最初の時点で生成されるリンク情報は、リンク先の情報が確定していない不完全なものである。

リンク構成情報生成部４０５は、上記リンク情報生成部４０４でリンク情報を生成した際に、リンク識別子や、出現累計回数、リンク先情報等のリンク構成情報を集計するための、図９に示すリンク構成管理テーブルを生成・更新する。

リンク情報生成部４０６は、リンク構成情報生成部４０５で生成されたリンク構成情報を収集し、フォーマット変換部３０５で受け取れるような形式に出力する。これにより、フォーマット変換部３０５は、電子文書データ３１０を生成する。

リンク処理制御部４０７は、リンク処理部３０４全体の制御を行う。主に、図２の記憶部２１１に記憶されている領域情報４１１（各領域に関連付けされている位置、大きさ、属性についての情報）、および領域内の文字情報４１２とともに、イメージデータ３００中の各領域を、適切な処理部４０１〜４０６へ配分する。また、各処理部４０１〜４０６から出力される情報を適切な処理部へ渡す制御を行う。なお、領域情報４１１および文字情報４１２はそれぞれ、図５（ｂ）に示すように、イメージデータ３００について領域分割部３０１により分割された各領域に関連付けられたデータテーブルの形式で記憶部２１１に記憶されているものである。

リンク処理部３０４の各部分（図４の各処理部４０１〜４０７）の動作については、後述で実際に処理を行う例を扱うので、その中の説明で、再度取り上げて、より詳細に説明する。

次に、本実施例１の画像処理システムで実行する処理全体の概要を、図７のフローチャートを用いて説明する。

図７は、図１のスキャナ部２０１で入力された複数ページのイメージデータを、１ページ毎に処理を行い、複数ページからなる電子文書データに変換する処理のフローチャートである。尚、複数ページのイメージデータとして、例えば、図１０（ａ）に示す複数のページ画像からなる文書が入力され、１ページずつ順に処理対象にするものとする。以下、図７のフローチャートの各説明を行う。

ステップＳ７０１において、データ処理部２１８は、オブジェクトとオブジェクトを説明する説明文との対応関係を記録しているリンク構成情報を作成するために用いるリンク構成管理テーブルを初期化する。リンク構成情報およびリンク構成管理テーブルについての説明は後述する。

ステップＳ７０２において、領域分割部３０１は、入力された１ページ分のイメージデータから領域を抽出する。例えば、図１０（ａ）のイメージデータ１００１（１ページ目）に対しては、領域分割処理を行うことにより、領域１００６が抽出される。さらに、ステップＳ７０２において、領域分割部３０１は、図１０（ｂ）のデータテーブルに示すように、領域１００６に関する「座標Ｘ」「座標Ｙ」「幅Ｗ」「高さＨ」および「ページ」を判別して、これらの情報を領域１００６と関連付けて記憶部２１１に記憶させる。

ステップＳ７０３において、属性情報付加部３０２は、ステップＳ７０２で分割された領域の種別に応じて、各領域に属性を付加する。例えば、図１０（ａ）に示すイメージデータ１００３（３ページ目）の例では、領域１００９には『写真』、領域１０１０は『キャプション』の属性が付加される。尚、この領域１０１０には、キャプションの付随対象となるオブジェクトが『写真』領域１００９であるという情報も付加される。即ち、領域１００９は、キャプション付随オブジェクトとなる。このように、属性情報付加部３０２は、図１０（ｂ）に示す「属性」および「付随対象オブジェクト」の情報について、対応する各領域と関連付けて記憶部２１１に記憶させる。

ステップＳ７０４において、文字認識部３０３は、ステップＳ７０３で文字（本文、キャプション、見出し、小見出し等）の属性が付加された領域に対して文字認識処理を実行し、その結果を文字情報として当該領域に関連付けて記憶部２１１に記憶させる。例えば、ステップＳ７０４において図１０（ｂ）に示す「文字情報」が文字認識処理の結果として記憶部２１１に記憶される。

ステップＳ７０５において、リンク処理部３０４は、アンカー表現およびキャプション付随オブジェクトの抽出、グラフィックデータの生成、およびリンク情報の生成を行うリンク処理を実行する。ステップＳ７０５でリンク処理部３０４が実行する処理の詳細については、図８のフローチャートを用いて説明する。この処理が終わると、ステップＳ７０６へ進む。

図７のステップＳ７０５におけるリンク処理の詳細について、図１０（ａ）の入力データ１００１〜１００５を入力例として、図８のフローチャートを用いて説明する。

［１ページ目（図１０（ａ）のイメージデータ１００１）を入力した場合のリンク処理の動作説明］
図８のステップＳ８０１において、リンク処理部３０４内のリンク情報付与対象選択部４０１は、記憶部２１１に保存された領域情報４１１より、文字領域の内、リンク情報生成処理が行われていない本文領域を一つ選出する。すなわち、未処理の本文領域があれば、当該本文領域を処理対象として選択し、ステップＳ８０２に進む。一方、本文領域が存在しないか、全て処理済みであった場合にはステップＳ８０７に進む。

イメージデータ１００１の場合には、本文領域１００６が含まれているため、ステップＳ８０２へ進む。

ステップＳ８０２において、本文内アンカー表現検索部４０３は、リンク情報付与対象選択部４０１によってステップＳ８０１で選択された本文領域に対応する文字情報４１２から、後述するアンカー表現抽出部４０２のアンカー表現抽出処理で抽出される可能性があるアンカー表現の全特定文字列（例えば、「図」、「Ｆｉｇ」、「表」と、数字との組み合わせ等）を検索する。アンカー表現候補が検出された場合には、当該検出されたアンカー表現を含みオブジェクトの説明を行っている本文中の説明表現候補も併せて検索し、ステップＳ８０３へ進む。一方、アンカー表現候補が検出されなかった場合には、リンク情報を付与する該当箇所がないと判定し、ステップＳ８０１に戻る。

イメージデータ１００１の場合では、本文領域１００６中よりアンカー表現候補として領域１００７の「図１」が検出され、図１０（ｂ）に示す領域１００６に対する「アンカー表現候補」の情報が記憶部２１１に保存される。また、このとき当該「図１」の単語を含む一文を説明表現候補として当該アンカー表現候補と関連付けて記憶部２１１に保存する。その後、ステップＳ８０３に進む。

ステップＳ８０３において、リンク情報生成部４０４は、リンク識別子を生成し、ステップＳ８０２で検出されたアンカー表現候補の領域に関連付ける。ここで、リンク識別子は、後述のリンク情報が付与される領域の識別に用いるための情報である。

イメージデータ１００１の場合、本文領域１００６内に存在する領域１００７に対しては、リンク識別子「ｔｅｘｔ＿図１−１」を関連付ける。さらに、図１０（ｂ）のデータテーブルにおいて、領域１００６に対する「リンク識別子」の情報が記憶部２１１に保存される。もし、「図１」と同一のアンカー表現候補が複数回（Ｎ回）本文中に記載されている場合は、リンク識別子を「ｔｅｘｔ＿図１−１」〜「ｔｅｘｔ＿図１−Ｎ」として関連付ければよい。

ステップＳ８０４では、リンク情報生成部４０４は、グラフィックデータを生成し、ステップＳ８０３において生成されたリンク識別子と関連付ける。ここで、グラフィックデータは、本実施例において生成される電子文書データ３１０をアプリケーションで閲覧する際、例えば、文書内のオブジェクトを閲覧者がマウスでクリックした時に、リンク先の注目領域（本文中のアンカー表現）の位置を強調表示して閲覧者に提供するために使用するグラフィック（例えば赤色の矩形）の描画情報である。

イメージデータ１００１の場合、図１０（ｃ）の領域１０１７に示すように、リンク識別子「ｔｅｘｔ＿図１−１」は、グラフィックデータ（「座標Ｘ」、「座標Ｙ」、「幅Ｗ」、「高さＨ」）＝（「Ｘ１７」、「Ｙ１７」、「Ｗ１７」、「Ｈ１７」）と関連付けされる。ここで、グラフィックデータの一例を図１０（ｄ）のグラフィックデータ１０２２に示す。グラフィックデータ１０２２は、領域１００７に重なる矩形情報である。このグラフィックデータ１０２２は、本文中の説明表現中のアンカー表現の位置をユーザが識別できるようにグラフィックを表示する際に使用する描画情報である。すなわち、閲覧者がキャプション付随オブジェクトをクリックし、該キャプション付随オブジェクトの説明表現のあるページに移動した場合に、どの位置（何段落目、何行目）を見ればよいのかを簡単に把握するための描画情報として利用する。なお、図１０（ｄ）の１０２２では、アンカー表現を囲むグラフィックデータを例として示したが、これに限るものではない。ここで生成するグラフィックデータは、アンカー表現の位置ではなく、当該アンカー表現を含む本文中の説明表現の位置を示すグラフィックデータ（例えば、当該アンカー表現を含む一文を囲む矩形）を描画情報として生成してもよい。また、本実施例においてグラフィックデータを矩形として説明しているが、矩形に限ることなく閲覧者にわかりやすくするために強調表示する描画情報であれば任意の形、線等（例えば、円形や星型、矢印、下線など）でも構わない。

ステップＳ８０５において、リンク情報生成部４０４は、本文中のアンカー表現候補から文書に出現すると思われるオブジェクトへのリンク情報を生成する。該リンク情報は、本実施例における電子文書の閲覧者が、本文中の説明表現（主に、本文中の説明表現の中のアンカー表現）に対して何らかのアクション（以下、トリガー）を行った時の動作に関する情報（以下、リンクアクション設定）である。例えば、トリガーとして閲覧者がアンカー表現領域をマウス等でクリックした時、リンク先のオブジェクトに対応するグラフィックを強調表示させ、オブジェクトのあるページへ画面遷移を行う等である。また、リンク先のオブジェクトが存在しない場合についても同様に設定を行うことができる。図１０（ｃ）では、リンク先のオブジェクトが存在しない場合は何も動作しない（「−」と表記される）設定にしているが、リンク先が存在しないことを示すメッセージを表示させる等してもよい。このようなリンク情報は、図１０（ｃ）の「トリガー」の種類および「リンクアクション設定」情報として記載され、図２の記憶部２１１に保存される。

ステップＳ８０６において、リンク構成情報生成部４０５は、オブジェクトとオブジェクトを説明する説明表現（アンカー表現候補）との対応関係を記述するリンク構成情報を構築するためのリンク構成管理テーブルを更新する。このリンク構成管理テーブルを更新することで、最終ページ処理後に得られるリンク構成情報と、ステップＳ８０５で設定したトリガーおよびリンクアクション設定と関連付けることで、相互リンクを実現するリンク情報を完成させることができる。図９にリンク構成管理テーブルの一例を示す。リンク構成管理テーブルには、ステップＳ８０２において検出されたアンカー表現候補および出現回数、ステップＳ８０３で生成されたリンク識別子、後述のステップＳ８０８で抽出されるアンカー表現、ステップＳ８０９で生成されるリンク識別子が記憶部２１１に保存される。

１ページ目のイメージデータ１００１が入力された場合のリンク構成管理テーブルの生成方法を、図９を用いて説明する。まず、ステップＳ８０２で検出されたアンカー文字候補「図１」が「アンカー表現」および「アンカー表現候補」の欄に存在しているかをチェックする。検出されたアンカー文字候補に一致するアンカー表現またはアンカー表現候補が既にある場合にはリンクの対象であると判定され、当該既存の欄に、当該検出されたアンカー文字候補に関するデータが追加登録（追記）される。一方、一致するものがなければリンク先が未定であると判定され、新規にデータを登録する。図１０のアンカー表現候補１００７を検出した時点では、一致するデータの記載がないため、新規にデータ９０１を作成し、アンカー表現候補欄に「図１」、出現回数欄に１回と追記する。そして、リンク識別子欄にステップＳ８０３で生成されたリンク識別子「ｔｅｘｔ＿図１−１」を追記する。結果として、１ページ目の処理後には、図９（ａ）のリンク構成管理テーブルが生成され、記憶部２１１に保存される。

ステップＳ８０７において、リンク情報付与対象選択部４０１は、記憶部２１１に保存された領域情報４１１において、キャプション付随オブジェクトの内、リンク情報生成処理が行われていない領域（オブジェクト）を一つ選出する。すなわち、未処理のキャプション付随オブジェクトがあれば、当該キャプション付随オブジェクトを処理対象として選択し、ステップＳ８０８に進む。キャプション付随オブジェクトが存在しないか、全て処理済みであった場合には処理を終了し、図７のステップＳ７０６へ進む。

１ページ目のイメージデータ１００１には、キャプション付随オブジェクトが存在しないため、処理を終了し、図７のステップＳ７０６へ進むことになる。ステップＳ７０６でフォーマット変換し、Ｓ７０７で当該ページのデータを送信した後、ステップＳ７０８で次のページがあると判定した場合は、ステップＳ７０２に戻って、次のページのイメージ１００２を処理対象にして処理を行う。

［２ページ目（図１０（ａ）のイメージデータ１００２）を入力した場合のリンク処理の動作説明］
ステップＳ８０１において、リンク情報付与対象選択部４０１は、イメージデータ１００２より本文領域１００８を選出し、ステップＳ８０２へ進む。ステップＳ８０２において、本文内アンカー表現検索部４０３は、イメージデータ１００２中の本文領域１００８より、アンカー表現候補検出処理をおこなう。ここではアンカー表現候補を検出することができなかったため、再びステップＳ８０１に戻り、未処理の文字領域があるかどうかをチェックする。そして、全本文領域を処理した後、ステップＳ８０７へ進む。ステップＳ８０７において、リンク情報付与対象選択部４０１は、イメージデータ１００２にはキャプション付随オブジェクトが存在しないと判定して処理を終了し、図７のステップＳ７０６へ進む。

［３ページ目（図１０（ａ）のイメージデータ１００３を入力した場合のリンク処理の動作説明］
ステップＳ８０１において、リンク情報付与対象選択部４０１は、本文領域が存在しないと判定し、ステップＳ８０７へ進む。

ステップＳ８０７において、リンク情報付与対象選択部４０１は、イメージデータ１００３から未処理のキャプション付随オブジェクト１００９を選択し、ステップＳ８０８へ進む。

ステップＳ８０８において、アンカー表現抽出部４０２は、リンク情報付与対象選択部４０１によってＳ８０７で選択されたキャプション付随オブジェクトに付随するキャプション領域の文字情報から、アンカー表現およびキャプション表現を抽出する。アンカー表現が抽出された場合はステップＳ８０９に進み、抽出されなかった場合はステップＳ８０７に戻る。

ここで、アンカー表現とはキャプション付随オブジェクトを識別するための文字情報（文字列）であり、キャプション表現とはキャプション付随オブジェクトを簡単に説明するための文字情報（文字列）である。キャプション付随オブジェクトに付随するキャプションには、アンカー表現のみが記載される場合、キャプション表現のみが記載される場合、両方が記載される場合、さらにどちらもない場合がある。例えば、アンカー表現は「図」や「Ｆｉｇ」等の特定の文字列と、番号や記号との組み合わせで表現される場合が多い。そこで、それら特定の文字列を登録したアンカー文字列用辞書を予め用意しておき、キャプション表現を該辞書と比較してアンカー部分（アンカー文字列＋数記号）を特定すればよい。そして、キャプション領域の文字列のうち、アンカー表現以外の文字列をキャプション表現として判断すればよい。

イメージデータ１００３の場合、キャプション付随オブジェクト１００９が抽出され、該オブジェクト１００９に付随するキャプション領域１０１０中より、アンカー表現およびキャプション表現を抽出する。キャプション付随オブジェクト１００９に付随するキャプション領域１０１０の文字情報は、「図１ＡＡＡ」である。従って、アンカー表現は「図１」、キャプション表現は「ＡＡＡ」として判別される。なお、ステップＳ８０８において、図１０（ｂ）に示すように、キャプション領域１０１０に対する「アンカー表現」の情報が記憶部２１１に保存される。

ステップＳ８０９では、リンク情報生成部４０４は、リンク識別子を生成し、当該リンク識別子を、リンク情報付与対象選択部４０１によって選択されたキャプション付随オブジェクトに関連付ける。

イメージデータ１００３（３ページ目）の場合、キャプション付随オブジェクト１００９に対して、例えばリンク識別子「ｉｍａｇｅ＿図１−１」を生成し、データテーブルを用いて関連付ける。このとき、図１０（ｂ）のデータテーブルのように、領域１００９に対する「リンク識別子」の情報が記憶部２１１に保存される。

ステップＳ８１０では、リンク情報生成部４０４は、オブジェクトを識別するためのグラフィックデータを生成し、ステップＳ８０９において生成されたリンク識別子と関連付ける。ここで生成されるグラフィックデータは、本文中のオブジェクトのアンカー表現をクリックした際に、リンク対象であるオブジェクトを強調表示する際に用いる描画情報である。

イメージデータ１００３の場合、図１０（ｃ）の領域１０１８に示すように、リンク識別子「ｉｍａｇｅ＿図１−１」は、グラフィックデータ（「座標Ｘ」、「座標Ｙ」、「幅Ｗ」、「高さＨ」）＝（「Ｘ１８」、「Ｙ１８」、「Ｗ１８」、「Ｈ１８」）と関連付けされる。ここで、グラフィックデータの一例を図１０（ｄ）のグラフィックデータ１０２３に示す。グラフィックデータ１０２３は、領域１００９に重なる矩形情報である。なお、本実施例においてグラフィックデータを矩形として説明しているが、矩形に限ることなく閲覧者にわかりやすくするために強調表示する描画情報であれば任意の形、線等でも構わない。

ステップＳ８１１において、リンク情報生成部４０４は、キャプション付随オブジェクトから、本文中に出現する説明表現（アンカー表現）へのリンク情報を生成する。該リンク情報には、トリガーやリンクアクション設定が含まれる。また、入力文書によっては、リンク先が１ヶ所とは限らず、複数回出現する場合や、リンク先がない場合もある。そこで、リンク先が「ない」、「１ヶ所」、「複数」と場合分けをし、それぞれに対してリンクアクション設定を行う。例えば、リンク先がない場合には「―（処理を行わない）」、リンク先が１ヶ所の場合には「本文中の対応するアンカー表現を強調表示（赤色）＋アンカー表現が書かれているページへ遷移」、リンク先が複数の場合には「対応するアンカー表現の書かれたページ一覧をリスト表示」とすればよい。それぞれのリンクアクションに関しては、これに限るものではなく、リンク先がない場合には、移動先が存在しないことを示す「メッセージ表示」や「エラー表示」を行っても構わない。また、リンク先が複数存在する場合には、移動先の選択肢が複数あることを示す「メッセージ表示」や「エラー表示」を行っても構わない。このリンク情報は図１０（ｃ）の１０１８の「トリガー」および「リンクアクション設定」情報に記載され、記憶部２１１に保存される。

ステップＳ８１２において、リンク構成情報生成部４０５は、オブジェクトとオブジェクトを説明する説明表現との対応関係を構築するためのリンク構成管理テーブルを更新する。

イメージデータ１００３が入力された場合のリンク構成管理テーブルの更新方法を、図９を用いて説明する。まず、ステップＳ８０８で検出されたアンカー文字「図１」が「アンカー表現候補」の欄に存在しているかをチェックする。図９（ａ）のリンク構成管理テーブルには、データ９０１の「アンカー表現候補」欄に一致するデータの記載があるため、このデータに追記を行う。すなわち、データ９０１のアンカー表現欄に「図１」を、リンク識別子欄にステップＳ８０３で生成されたリンク識別子「ｔｅｘｔ＿図１−１」を追記する。結果として、図９（ｂ）のリンク構成管理テーブルが生成され、記憶部２１１に保存される。

全領域に対して処理が終了した場合には、イメージデータ１００３に対するリンク処理を終了し、図７のステップＳ７０６へ進む。

［４ページ目（図１０（ａ）のイメージデータ１００４を入力した場合のリンク処理の動作説明］
ステップＳ８０１において、本文内アンカー表現検索部４０３は、まず、本文領域１０１１を選出し、ステップＳ８０２へ進む。

ステップＳ８０２において、本文内アンカー表現検索部４０３は、本文領域１０１１中の文字列「図１」をアンカー表現候補１０１３として抽出し、ステップＳ８０３に進む。

ステップＳ８０３において、リンク情報生成部４０４は、「ｔｅｘｔ＿図１−２」というリンク識別子を生成し、ステップＳ８０２で抽出され得たアンカー表現候補領域１０１３と関連付けて保存する（図１０（ｂ）の１０１１参照）。

ステップＳ８０４において、リンク情報生成部４０４は、アンカー表現候補１０１３の強調表示の際に使用するグラフィックデータを生成し、前述のリンク識別子に関連付ける（図１０（ｃ）の１０１９欄参照）。

ステップＳ８０５において、リンク情報生成部４０４は、アンカー表現候補１０１３に対してリンク情報（トリガーとリンクアクション設定）を生成する（図１０（ｃ）の１０１９欄参照）。

ステップＳ８０６において、リンク情報生成部４０５は、リンク構成管理テーブルを更新する。図９に示すリンク構成管理テーブルの「アンカー表現」および「アンカー表現候補」に、ステップＳ８０２で検出されたアンカー表現候補「図１」が存在するかを確認する。データ９０１の「アンカー表現候補」欄に一致する記載があるため、出現回数を１回増やし、リンク識別子「ｔｅｘｔ＿図１−２」を新たに追記する。

次に、本文領域１０１２に関しても同様に、ステップＳ８０１〜Ｓ８０６の処理を繰り返す。４ページ目のイメージデータ１００４の処理後のリンク構成管理テーブルを図９（ｃ）に示す。

イメージデータ１００４の場合、ステップＳ８０７において、リンク情報付与対象選択部４０１は、キャプション付随オブジェクトがイメージデータ１００４中に存在しないと判定して処理を終了し、図７のステップＳ７０６へ進む。

［５ページ目（図１０（ａ）のイメージデータ１００５を入力した場合のリンク処理の動作説明］
イメージデータ１００５の場合、ステップＳ８０１において、本文内アンカー表現検索部４０３は、本文領域１０１５を選出し、ステップＳ８０２へ進む。ステップＳ８０２において、本文内アンカー表現検索部４０３は、本文領域１０１５中より文字列「図２」をアンカー表現候補１０１６として検出し、ステップＳ８０３に進む。

ステップＳ８０３において、リンク情報生成部４０４は、「ｔｅｘｔ＿図２−１」というリンク識別子を生成し、ステップＳ８０２で抽出されたアンカー表現候補領域１０１６と関連付けて保存する（図１０（ｂ）の１０１５欄参照）。

ステップＳ８０４において、リンク情報生成部４０４は、アンカー表現候補１０１６の強調表示の際に使用するグラフィックデータを生成し、リンク識別子「ｔｅｘｔ＿図２−１」に関連付ける（図１０（ｃ）の１０２１欄参照）。

ステップＳ８０５において、リンク情報生成部４０４は、アンカー表現候補１０１６に対してリンク情報（トリガーとリンクアクション設定）を生成する（図１０（ｃ）の１０２１欄参照）。

ステップＳ８０６において、リンク情報生成部４０５は、リンク構成管理テーブルを更新する。図９に示すリンク構成管理テーブルの「アンカー表現」および「アンカー表現候補」に、ステップＳ８０２で検出されたアンカー表現候補「図２」が存在していないことを確認し、新たなリンク構成情報をデータ９０２に追記する。処理後は図９（ｄ）に示すリンク構成管理テーブルが得られる。

イメージデータ１００５の場合、ステップＳ８０７において、リンク情報付与対象選択部４０１は、キャプション付随オブジェクトがイメージデータ１００５中に存在しないと判定して処理を終了し、図７のステップＳ７０６へ進む。

以上述べたように、図８のステップＳ８０１〜８０６は、本文領域に対する処理であり、ステップＳ８０７〜８１２は、キャプション付随オブジェクトに対する処理である。これらで生成されたリンク情報は、全ページ処理後に生成されるリンク構成情報（リンク構成管理テーブル）を用いる（後述するＳ７０９でリンク構成情報を送信する）ことで、「キャプション付随オブジェクト」と「本文中のアンカー表現およびオブジェクトの説明表現」との間の双方向へのリンクを完成させることができる。以上で、図８の説明を終了する。

図７の説明に戻り、ステップＳ７０６において、フォーマット変換部３０５は、当該処理対象となっているページのイメージデータ３００および、図１０（ｂ）および図１０（ｃ）に示す記憶部２１１に保存された情報に基づいて、電子文書データ３１０への変換を行う。尚、図４で説明したように、フォーマット変換部３０５は、各領域に施すべき変換処理方法を記した対応テーブルに従って、イメージデータ３００内の各領域に変換処理を実行する。ここでは、図５（ｃ）の対応テーブルを用いて変換を行うものとする。すなわち、当該処理対象となっているページ画像に関して、図１０（ｂ）、（ｃ）のデータに基づいてフォーマット変換した電子文書のページデータが生成される。生成された電子文書のページには、当該ページに関する変換後の各領域のデータ、リンク先の位置を示す描画情報（グラフィックデータ）、リンク識別子などのデータが含まれる。更に、電子文書の各ページに、図１０（ｂ）に示した文字認識結果の文字情報も格納することで、テキスト検索できるようになる。

ステップＳ７０７において、データ処理部２１８は、ステップＳ７０６でフォーマット変換した電子文書のページをページ単位でクライアントＰＣ１０１へ送信する。

ステップＳ７０８において、データ処理部２１８は、ステップＳ７０２〜ステップＳ７０７の処理を全てのページに対して行ったか否かを判断する。全てのページの処理を終了していればステップＳ７０９へ進む。未処理のページがあれば、当該未処理の次のページを処理対象として、ステップＳ７０２〜Ｓ７０７の処理を繰り返す。このように図１０（ａ）の５ページ分のイメージデータ１００１〜１００５に対して、ステップＳ７０２〜ステップＳ７０７の処理を行う。

ステップＳ７０９において、リンク情報生成部４０６は、ステップＳ７０５にて作成された図９（ｄ）のリンク構成管理テーブルと図１０（ｃ）の各ページのリンク情報とを基にフォーマット変換して、電子文書全体のリンク情報データ（リンク構成情報およびトリガー、リンクアクション設定）を作成し、送信する。リンク情報データは、ステップＳ７０６にてフォーマット変換されてステップＳ７０７で送信された各ページの電子文書データと、送信先で統合されるようにする。すなわち、各ページの電子データはステップＳ７０７にて送信済みのため、リンク情報データは受信側（クライアントＰＣ１０１）で電子文書データに追加されることになる。ここで、クライアントＰＣ１０１へ送信する電子文書データ（１〜５ページ）、および、リンク情報の概略図を図１１示す。図１１の１１０１〜１１０５はそれぞれ、電信文書データ（１〜５ページ）であり、１１０６はリンク情報データである。リンク情報データ１１０６には、リンク構成情報として、アンカー表現「図１」について、オブジェクトのリンク識別子「ｉｍａｇｅ＿図１−１」と、本文中から抽出されたアンカー表現候補のリンク識別子「ｔｅｘｔ＿図１−１」、「ｔｅｘｔ＿図１−２」、「ｔｅｘｔ＿図１−３」とが相互リンクされることを示している。また、オブジェクト「ｉｍａｇｅ＿図１−１」がクリックされた場合は、複数のリンク先がリスト表示され、ユーザがその中から選択できることが指定されている。また、本文中のアンカー表現候補「ｔｅｘｔ＿図１−１」、「ｔｅｘｔ＿図１−２」、「ｔｅｘｔ＿図１−３」のいずれかがクリックされた場合は、相互リンクされているオブジェクトに対応するグラフィックを強調表示し、当該リンク先のオブジェクトを表示するためにページを移動することが指定されている。

以上で、図７の説明を終了する。尚、図７および図８のフローチャートは、図２のデータ処理部２１８（図３の各処理部３０１〜３０５）によって実行されるものとして説明を行った。本実施形態では、ＣＰＵ２０５が記憶部２１１（コンピュータ読取可能な記憶媒体）に格納されたコンピュータプログラムを読み取り実行することによって、データ処理部２１８（図３の各処理部３０１〜３０５）として機能するものとするが、これに限るものではない。例えば、データ処理部２１８（図３の各処理部３０１〜３０５）を、電子回路等のハードウェアで実現するように構成してもよい。

続いて、図１２の受信側の装置で実行される処理を示すフローチャートについて説明を行う。受信側であるクライアントＰＣ１０１は、送信側であるＭＦＰ１００から送信された電子文書データを１ページずつ受信し、最後にリンク情報データを受信する。

まず、ステップＳ１２０１では、図７のステップＳ７０７にて送信された電子文書データ（１ページ）を受信する。イメージデータ１００１に関するデータから順に送信されてくる。

次に、ステップＳ１２０２では、全てのページの受信が終了したか否かを判断し、全てのページを受信していればステップＳ１２０３へ進む。受信していなければステップＳ１２０１へ戻り、続きのページに関するデータを受信する。

次に、ステップＳ１２０３では、図７のステップＳ７０９にて送信されたリンク情報データを受信する。

最後に、ステップＳ１２０４では、ステップＳ１２０１で受信した電子文書データ（１〜５ページ）とステップＳ１２０３で受信したリンク情報データとを合成し、クライアントＰＣ１０１の不図示の記憶領域に保存する。本実施例では、１つのマルチページ電子文書ファイルとして保存する。

次に、アプリケーション側が本実施形態における電子文書データの記述に従って、相互リンクを実現する際の動作を図１４のフローチャートを用いて説明する。ここでは、アプリケーションで電子文書データを表示しているときに、ユーザが所望のアンカー表現またはオブジェクトの部分をクリックするたびに、図１４のフローチャートの処理が実行される。

ステップＳ１４０１において、アプリケーションは、クリックされたオブジェクトまたはアンカー表現について、リンク情報に一時的に移動情報が関連付けられているかを調べ、移動情報が関連付けられている場合にはステップＳ１４０２へ進む。一方、移動情報が関連付けられていない場合にはステップＳ１４０３へ進む。ここで、移動情報とは、リンク元のアンカー表現からリンク先のオブジェクトがあるページへ遷移したときに、当該リンク先のオブジェクトをクリックすると、遷移前のリンク元のアンカー表現のページに戻るために用いる情報である。例えば、閲覧者がアンカー表現の１つをクリックし、リンク情報によってリンク元のアンカー表現からリンク先のオブジェクトがあるページへの遷移が発生した場合、当該リンク先のオブジェクトに対して当該クリックされたリンク元のアンカー表現の情報を移動情報として関連付けて一時的に保持しておく。そして、閲覧者がそのリンク先のオブジェクトを閲覧した後にクリックすると、当該オブジェクトに関連づけられている移動情報を参照して、当該オブジェクトのページに遷移する前のリンク元のアンカー表現が表示されるように遷移元ページへ戻れるようにする。例えば、閲覧者が図１０のイメージデータ１００１（１ページ目）中のアンカー表現「図１」に対応するオブジェクトを確認したい場合、閲覧者は当該アンカー表現の領域１００７をクリックする。当該クリックが為されると、アンカー表現のリンク構成情報とリンクアクション設定とに基づいて、該アンカー表現に関連付けられているイメージデータ１００３（３ページ目）のオブジェクト領域１００９を赤色で強調表示して当該オブジェクトがあるページへ移動する。このとき、当該クリックされたアンカー表現についての情報（リンク識別子や位置に関する情報等）が移動情報として、当該リンクされているオブジェクト１００９に関連付けられて一時的に保持される。その後、閲覧者が当該オブジェクト領域１００９をクリックすると、当該オブジェクト領域に関連付けられているリンク情報よりも、一時保持されている移動情報を優先して処理することで、移動前のページのアンカー表現に戻れるようにする。

ステップＳ１４０２において、アプリケーションは、移動情報に保存されていた情報を参照先情報（リンク先情報）として設定する。これにより、当該クリックされたオブジェクト（またはアンカー表現）が、ページ遷移に基づいて表示されたものであった場合は、その直前に閲覧していた場所（リンク元情報）に戻るために、参照先として設定されることになる。

ステップＳ１４０３において、アプリケーションは、図７のステップＳ７０５で生成され且つＳ７０９で送信されたリンク構成情報より、当該クリックされたオブジェクト（またはアンカー表現）に関連付けられているリンク先の情報を取得する。例えば、イメージデータ１００３中のオブジェクト領域１００９がクリックされた場合には、図１１のリンク情報データ１１０６（図９（ｄ）のリンク構成管理テーブルに基づく内容）より、当該オブジェクト領域１００９からリンクしているアンカー表現候補のリンク識別子等の情報が取得できる。この場合、オブジェクト領域１００９に対応する本文中のアンカー表現候補「図１」のリンク識別子を３つ（「ｔｅｘｔ＿図１−１」「ｔｅｘｔ＿図１−２」「ｔｅｘｔ＿図１−３」）取得できる。

ステップＳ１４０４において、アプリケーションは、リンク先がいくつ存在するかにより処理を振り分ける。リンク先が存在しない場合には、何も処理をせず終了する。またリンク先が１ヶ所であった場合には当該１つのリンク先を参照先情報（リンク先情報）として設定してステップＳ１４０８へ進む。また、リンク先が複数存在している場合にはステップＳ１４０５へ進む。

ステップＳ１４０５において、アプリケーションは、閲覧者に対して、複数のリンク先の中からユーザ所望のリンク先を選択させるための選択リストを表示する。すなわち、Ｓ１４０３で取得した複数のリンク先情報（「アンカー表現候補（オブジェクトの説明文）」）をリスト表示して、ユーザが選択できるようにする。

ステップＳ１４０６において、アプリケーションは、閲覧者が選択リストの中からリンク先を選択したかどうか判断する。何も選択されなかった場合には処理を終了し、選択された場合には続くステップＳ１４０７に進む。

ステップＳ１４０７において、アプリケーションは、選択リストの中から選択された項目に対応する情報（リンク識別子や位置に関する情報等）を、参照先情報（リンク先情報）として設定する。

ステップＳ１４０８において、アプリケーションは、閲覧者が閲覧している場所（クリックされたオブジェクト（またはアンカー表現））に関する情報を取得し、移動情報としてリンク先に関連付けて一時的に保持するように設定する。

ステップＳ１４０９において、アプリケーションは、Ｓ１４０２やＳ１４０７で設定された参照先情報と、当該クリックされたオブジェクト（またはアンカー表現）に関するリンクアクション設定の内容に従い、リンク処理を行う。例えば、リンク先が１ヶ所である場合に、リンク先のグラフィックデータを赤色で強調表示し、リンク先の強調表示された領域がすぐに見つけられるように画面遷移を行うなどである。

以上が、電子文書データをアプリケーションで閲覧する際の動作となる。なお、ここでは、図１０（ｃ）に示す、図８のＳ８０５およびステップＳ８１１で設定したリンクアクションに基づいた動作について説明を行った。もし、図１０（ｃ）とは異なるリンクアクションを設定した場合には、処理フローが少しずつ変わってくることは言うまでもない。

次に、文書の閲覧者が本実施例で生成された電子文書データをアプリケーションで閲覧する際の実行例について図１３を用いて説明を行う。

図１３は、リンク情報を含む電子文書データを閲覧するためのアプリケーションとして図１のクライアントＰＣ１０１や、その他のクライアントＰＣ等で実行される仮想ＧＵＩソフトウェア表示画面の一例である。このようなアプリケーションの実例としては、ＡｄｏｂｅＲｅａｄｅｒ（ＴＭ）が挙げられる。なお、アプリケーションの種類はこれに限るものではなく、ＭＦＰ１００の操作部２０３で表示動作できるアプリケーションでも構わない。尚、アプリケーションがＡｄｏｂｅＲｅａｄｅｒ（ＴＭ）である場合、前述の図６のデータ形式は、ＰＤＦである必要がある。

図１３（ａ）の１３０１は、前述の電子データを閲覧するためのアプリケーションの表示画面であり、電子文書の例として、図１０（ａ）（本実施例におけるリンク情報生成済み）の１ページ目が表示されている様子を示している。１３０２は、ページスクロールボタンであり、閲覧者は、前ページ、または次ページを表示させる場合にマウス等を用いて押下する。１３０４は、検索キーワードを入力するためのウィンドウであり、１３０３は、検索するキーワードを入力した後に検索を実行するための検索実行ボタンである。１３０５は、現在表示されているページのページ番号を示すステータスバーである。

従来の技術では、閲覧者が電子文書データを閲覧して１３０６のアンカー表現「図１」が参照している図を探す場合、ページスクロールボタン１３０２を押下して探すか、検索キーワードで「図１」を入力して探す方法が一般的である。そして、閲覧者は、アンカー表現が参照している図を閲覧、確認した後、例えば、ページスクロールボタン１３０２を再度押下して１ページ目に戻って続く文章を読み進める。

一方、本実施例におけるリンク情報を含む電子文書データを閲覧する場合は、閲覧者は図１３（ａ）のアンカー表現が含まれる領域１３０６の上でマウスでクリックする。クリックが実行されると、図１０（ｃ）の領域１０１４のリンク情報に従い、アンカー表現「図１」が参照しているオブジェクト、即ちキャプション付随領域（グラフィックデータ）を赤色で強調表示し、キャプション付随領域のあるページへ移動する。該結果を図１３（ｂ）に示す。キャプション付随領域が赤色の矩形で強調表示され、ページは３ページへ移動している様子が示されている。次に、閲覧者はキャプション付随領域を閲覧、確認した後、図１３（ｂ）のキャプション付随領域をマウスでクリックする。クリックが実行されると、アプリケーションは、図１０の領域１０１５に関連付けられている移動情報（またはリンク情報）に従い、アンカー表現（グラフィックデータ）を赤色で強調表示し、アンカー表現のあるページへ移動する動作を行う。ここでは、図１３（ｂ）は直前にページ１からページ３に移動してきたので、移動情報が存在するため、キャプション付随オブジェクトをクリックすると、図１３（ｃ）に示すように、移動情報で指定されているページ１のアンカー表現が表示される。すなわち、図１３（ｃ）には、アンカー表現が赤色の矩形で強調表示され、ページは１ページへ移動している様子が示されている。

以上のように、本実施例では、ページ単位で、リンク情報付きの電子文書データを生成し、リンク構成管理テーブルを更新して、各ページの情報を順次送信していく。そして、全ページ処理後に、最終的に得られたリンク構成情報を用いることで、「オブジェクト」と「本文中のアンカー表現およびオブジェクトの説明表現」との間に相互リンクを生成する。この時、「オブジェクト」と「オブジェクトの説明表現」が１対１に対応していない場合でも処理できるように、リンクアクションを複数定義できるようになっている。以上により、複数ページの文書画像をＰＣへ送信する際、「オブジェクト」と「本文中のアンカー表現およびオブジェクトの説明表現」が異なるページに存在している場合に対しても、１ページ単位の処理で相互リンクを容易に実現することが可能となる。また、１ページ単位で電子文書データが生成される度に送信することで、全ページの電子文書データを生成してから送信するよりも、省メモリ、かつ転送効率を向上させることが可能である。例えば、図１０のように５ページで構成される文書画像の場合、従来は２Ｍｂｙｔｅのワークメモリが必要であったが、４００Ｋｂｙｔｅまでメモリ削減することが可能である。

[実施例２]
実施例１では、アンカー表現抽出部４０２および本文内アンカー表現検索部４０３は、アンカー文字（例えば「図１」や「Ｆｉｇ１」等）のみを対象として抽出し、リンク情報生成の対象としていた。

本実施例では、抽出される文字列はアンカー文字に限らず、本文中で多用されるような文字列や、ユーザに指定された文字列等のキーワードをリンク情報生成の対象として用いてもよい。また、リンクを構成する対象は「オブジェクト」と「オブジェクトの説明文」としていたが、「オブジェクトの説明文」同士もリンクの対象としても構わない。これにより、閲覧者はより関連のある部分だけを読めるようになるという効果が得られる。

[実施例３]
実施例１〜２では、「オブジェクト」と「オブジェクトの説明文」を含む紙文書を、スキャナ部２０１によりイメージデータ３００として入力し、双方向リンク情報付きの電子文書データ３１０を生成する説明を行ったが、入力される文書は紙文書に限るものではなく電子文書でも構わない。

即ち、双方向リンク情報を含んでいないＳＶＧ，ＸＰＳ、ＰＤＦ、ＯｆｆｉｃｅＯｐｅｎＸＭＬ等の電子文書を入力し、双方向リンク情報付きの電子文書データを生成することも可能である。入力される文書が電子文書の場合、図２のラスターイメージプロセッサ（ＲＩＰ）２１３はＰＤＬ（ページ記述言語）コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字（テキスト）や線（ライン）、グラフィクス、イメージ等といったオブジェクトの種類を示す属性情報が付与される。例えば、ＰＤＬコード内のＰＤＬ記述のオブジェクトの種類に応じて、ＲＩＰ２１３から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連付けて保存される。したがって画像データには、関連付けられた属性情報が付属している。また、文字属性が付与された領域中のおよび、表属性が付与された領域内に記述された文字列は、ＰＤＬ記述中において文字コードを有しているため、関連付けて保存される。すなわち、入力される電子文書が、既に領域情報（位置、大きさ、属性）、および文字情報を有している場合は、領域分割部３０１、属性情報付加部３０２、文字認識部３０３の処理は不要となり、処理効率が向上する。

[実施例４]
実施例１〜３では、省メモリ、かつ転送効率を低下させることなく「オブジェクト」と「オブジェクトの説明文」との間の相互リンクを実現しながらマルチページＰＤＦを生成する方法について説明を行った。

本実施例では、ページを保持するためのワークメモリが十分に利用できる場合は、全ページデータを処理後にリンク情報を生成し、ワークメモリが不十分な場合には、ページ毎にリンク情報を生成するように、適応的に処理を切り替えられるようにするものである。

以下、ページを保持するためのワークメモリが十分に利用できる場合と、ワークメモリが不十分な場合において処理を切り替える方法について図１５のフローチャートを用いて説明を行う。尚、複数ページのイメージデータとしては、図１０のイメージデータ１００１〜１００５が入力されるものとし、実施例１の図７と同じステップに関しては同じステップ番号を与えており、説明を省略する。

まず、ステップＳ１５０１では、ページを保持するためのワークメモリが所定値より大きいか否かを判断する。具体的には、ＭＦＰ１００の画像読取部１１０に置かれた複数枚の原稿の枚数を不図示のカウンタでカウントし、全てのページを保持するのに必要なワークメモリを算出後、当該メモリがＭＦＰ１００の記憶部１１１にあるか否かを判断する。尚、読取枚数は、画像読取部１１０に含まれるオートドキュメントフィーダ（ＡＤＦ）の不図示のセンサーで積載枚数としてカウントしてもよい。また、ユーザが不図示のユーザインタフェースで読取枚数を入力してもよい。

ステップＳ１５０１において、ワークメモリが所定値以下と判定された場合は、ステップＳ１５０２へ進む。以後の処理は、図７記載のフローチャートと全く同じ処理を行い、実施例２と同様の電子文書データが作成される。

ステップＳ１５０２において、ワークメモリが所定値より大きいと判定された場合は、ステップＳ７０１へ進む。その後のステップＳ７０２〜ステップＳ７０６および、ステップＳ７０８は実施例１で説明したものと同じ処理のため、説明を省略する。ただし、ステップＳ７０６において、フォーマット変換部３０５は、実施例１では１ページ単位でフォーマット変換を行っていたが、本実施例では全ページ分のデータをまとめて電子文書データに変換している。

ステップＳ１５０３において、リンク情報生成部４０４は、全ページ処理後に生成されたリンク構成管理テーブルを基に、リンク情報を更新する。具体的には、リンク先の個数に応じたリンクアクション中から不要な処理設定を削除することができる。また、リンク先がない場合には、リンク情報そのものを削除することも可能となる。このように生成されたリンク情報は必要最低限の情報のみに圧縮することができるため、生成されたファイルサイズの削減にもつながる。

ステップＳ１５０４において、データ処理部２１８は、フォーマット変換された電子文書データをクライアントＰＣ１０１へ送信し、処理を終了する。

以上の処理により、ページを保持するためのワークメモリが十分に利用できる場合は、それぞれのリンク情報に付与されているリンクアクションを限定することで、生成される電子文書データのファイルサイズの削減を行うことができる。さらに、リンク動作時の処理が必要なもののみに限定されていることから、Ｖｉｅｗｅｒでの閲覧時のパフォーマンスが向上するという効果が得られる。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。その処理は、上述した実施例の機能を実現させるソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

複数のページ画像を入力する入力手段と、
前記入力されたページ画像を、属性ごとの領域に分割する領域分割手段と、
前記領域分割手段で分割された領域に対して文字認識処理を実行する文字認識手段と、
前記ページ画像内の本文属性の領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第１のアンカー表現を検出する第１検出手段と、
前記第１検出手段で検出された第１のアンカー表現に対する第１リンク識別子を付与する第１識別子付与手段と、
前記第１検出手段で検出された第１のアンカー表現を強調表示するための描画情報を含む第１グラフィックデータを生成し、当該生成された第１グラフィックデータと前記第１識別子付与手段で付与された第１リンク識別子とを関連付ける第１グラフィックデータ生成手段と、
前記第１リンク識別子と前記第１のアンカー表現とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第１のアンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第１テーブル更新手段と、
前記ページ画像内のオブジェクトに付随するキャプション領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第２のアンカー表現を検出する第２検出手段と、
前記第２のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトに対して、第２リンク識別子を付与する第２識別子付与手段と、
前記第２のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトを強調表示するための描画情報を含む第２グラフィックデータを生成し、当該生成された第２グラフィックデータと前記第２識別子付与手段で付与された第２リンク識別子とを関連付ける第２グラフィックデータ生成手段と、
前記第２リンク識別子と前記第２のアンカー表現とを対応付けて、前記リンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第２のアンカー表現と同じ第１のアンカー表現が既に登録されていれば、当該同じ第１のアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第２テーブル更新手段と、
前記ページ画像に関して前記第１リンク識別子と前記第１グラフィックデータと前記第２リンク識別子と前記第２グラフィックデータとを用いてフォーマット変換を実行することにより、所定のフォーマットに変換後の前記ページ画像に関するデータと前記第１リンク識別子と前記第１グラフィックデータと前記第２リンク識別子と前記第２グラフィックデータとを含む、電子文書のページデータを生成するページデータ生成手段と、
前記第１テーブル更新手段と前記第２テーブル更新手段とによって更新された前記リンク構成管理テーブルに基づいて、前記電子文書に含まれる前記第１リンク識別子と前記第２リンク識別子とをリンクさせるためのリンク構成情報を生成するリンク構成情報生成手段と、
前記複数のページ画像それぞれについて前記ページデータ生成手段で生成された前記電子文書のページデータと、前記リンク構成情報生成手段で生成されたリンク構成情報とを、外部の装置に送信する送信手段と、
を有し、
前記送信手段は、前記ページデータ生成手段で生成された一部のページデータを、前記入力された複数のページ画像全てについてのページデータの生成が完了するよりも前に、前記外部の装置に送信することを特徴とする画像処理装置。
前記送信手段は、前記ページデータ生成手段で１ページのページデータが生成されるごとに、当該生成されたページデータを前記外部の装置に送信することを特徴とする請求項１に記載の画像処理装置。
前記所定のフォーマットは、ＳＶＧ、ＸＰＳ、ＰＤＦ、ＯｆｆｉｃｅＯｐｅｎＸＭＬのいずれかであることを特徴とする請求項１に記載の画像処理装置。
前記送信手段により送信された前記複数のページ画像それぞれについてのページデータおよび前記リンク構成情報は、前記外部の装置において１つの電子文書データに統合されることを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記特定文字列とは、「図」、「ＦＩＧ」、「表」いずれかの文字列であることを特徴とする請求項１に記載の画像処理装置。
複数のページ画像を入力する入力工程と、
前記入力されたページ画像を、属性ごとの領域に分割する領域分割工程と、
前記領域分割工程で分割された領域に対して文字認識処理を実行する文字認識工程と、
前記ページ画像内の本文属性の領域に対する前記文字認識工程の文字認識結果から、特定文字列で構成される第１のアンカー表現を検出する第１検出工程と、
前記第１検出工程で検出された第１のアンカー表現に対する第１リンク識別子を付与する第１識別子付与工程と、
前記第１検出工程で検出された第１のアンカー表現を強調表示するための描画情報を含む第１グラフィックデータを生成し、当該生成された第１グラフィックデータと前記第１識別子付与工程で付与された第１リンク識別子とを関連付ける第１グラフィックデータ生成工程と、
前記第１リンク識別子と前記第１のアンカー表現とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第１のアンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第１テーブル更新工程と、
前記ページ画像内のオブジェクトに付随するキャプション領域に対する前記文字認識工程の文字認識結果から、特定文字列で構成される第２のアンカー表現を検出する第２検出工程と、
前記第２のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトに対して、第２リンク識別子を付与する第２識別子付与工程と、
前記第２のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトを強調表示するための描画情報を含む第２グラフィックデータを生成し、当該生成された第２グラフィックデータと前記第２識別子付与工程で付与された第２リンク識別子とを関連付ける第２グラフィックデータ生成工程と、
前記第２リンク識別子と前記第２のアンカー表現とを対応付けて、前記リンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第２のアンカー表現と同じ第１のアンカー表現が既に登録されていれば、当該同じ第１のアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第２テーブル更新工程と、
前記ページ画像に関して前記第１リンク識別子と前記第１グラフィックデータと前記第２リンク識別子と前記第２グラフィックデータとを用いてフォーマット変換を実行することにより、所定のフォーマットに変換後の前記ページ画像に関するデータと前記第１リンク識別子と前記第１グラフィックデータと前記第２リンク識別子と前記第２グラフィックデータとを含む、電子文書のページデータを生成するページデータ生成工程と、
前記第１テーブル更新工程と前記第２テーブル更新工程とによって更新された前記リンク構成管理テーブルに基づいて、前記電子文書に含まれる前記第１リンク識別子と前記第２リンク識別子とをリンクさせるためのリンク構成情報を生成するリンク構成情報生成工程と、
前記複数のページ画像それぞれについて前記ページデータ生成工程で生成された前記電子文書のページデータと、前記リンク構成情報生成工程で生成されたリンク構成情報とを、外部の装置に送信する送信工程と、
を有し、
前記送信工程では、
前記ページデータ生成工程で生成された一部のページデータを、前記入力された複数のページ画像全てについてのページデータの生成が完了するよりも前に、前記外部の装置に送信することを特徴とする画像処理方法。
請求項１乃至５の何れか１項に記載の各手段としてコンピュータを機能させるためのプログラム。