JP5226553B2

JP5226553B2 - 画像処理装置、画像処理方法、プログラムおよび記録媒体

Info

Publication number: JP5226553B2
Application number: JP2009026691A
Authority: JP
Inventors: 玲司三沢
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-02-06
Filing date: 2009-02-06
Publication date: 2013-07-03
Anticipated expiration: 2029-02-06
Also published as: US20100202015A1; US8493595B2; JP2010182206A

Description

本発明は、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理装置および画像処理方法に関する。

従来、文書画像中の文字を除くオブジェクト（例えば、写真、図面、線画、表）に隣接する文字列が、該オブジェクトを説明するキャプションである場合、該キャプションの文字列を該オブジェクトに対してメタデータとして関連付けることが行われている。尚、以下の説明においてオブジェクトとは、特に記載がない限り文字を除く写真、図面、線画、表等のオブジェクトを示すものとする。このようにメタデータをオブジェクトに関連付けることにより、文書画像をアプリケーション側で利用する際に、該メタデータを検索キーワードとしてオブジェクトを検索することが可能となる（例えば、特許文献１参照）。

また、一般的な文書画像では、図面などのオブジェクトに隣接するキャプション領域に図番（例えば、「図１」や「第１図」等）が記載され、本文において、その図番を用いて該オブジェクトの説明が行われることが多い。このような場合、図番と本文中の同一表現との間にリンクを自動的に生成し、ハイパーテキスト化することが行われている。例えば、オブジェクトに隣接するキャプションが「図１」であり、本文中に「図１は、ＡＡＡである」という記載がある場合、キャプション「図１」と本文中の「図１」は同一表現であるため、リンクが生成される（例えば、特許文献２参照）。

一方、スキャナあるいはＭＦＰ（複合機）と、ホストコンピュータ（以下、ＰＣ）をネットワーク等で接続し、スキャナあるいはＭＦＰで入力された文書画像を、ネットワークを介してＰＣへ送信可能とするシステムが普及している。このようなシステムにおいて、ＰＣへ送信される文書画像には一般に、任意の画像処理及びフォーマット変換処理（例えば、ＰＤＦ、ＸＰＳ、ＪＰＥＧ）が施されている。

なお、上記システムにおいて文書画像をＰＣへ送信する際に、入力された複数ページの文書画像からマルチページデータ（例えば、マルチページＰＤＦ）を生成することも可能である。

特開平１１−３０６１９７号公報特開平１０−２２８４７３号公報

次に、ＭＦＰ等において、入力された複数ページの文書画像をＰＣへ送信する際に、オブジェクトを検索するためのメタデータをオブジェクトに関連付ける場合に生じる課題について説明する。特にオブジェクトに隣接するキャプションのあるページと、キャプション内の文字列（例えば図番）と同一表現箇所を含む本文のあるページが異なる場合について、図８Ａを用いて説明する。

図８Ａは、４ページで構成される文書画像の一例であり、８０１〜８０４は順に１〜４ページを表している。８０１は、写真のオブジェクトと該オブジェクトに隣接するキャプション「図１」で構成される。８０２，８０３は、本文のみで構成される。８０４は、本文のみで構成されるが、８０１におけるキャプション「図１」と同一表現が含まれている。

ここで、本発明では、８０１の写真のオブジェクトを検索するためのメタデータとして、８０１のキャプション「図１」と同一表現が含まれている８０４の本文から、例えば文字列「ＡＡＡ」を抽出するものとする。即ち、８０１の写真のオブジェクトに対し、８０４の本文中の文字列「ＡＡＡ」をメタデータとして関連付けることにより、アプリケーションにおいて「ＡＡＡ」を検索キーワードとして、８０１の写真のオブジェクトを検索することが可能となる。

しかしながら、ＭＦＰにおいて、図８Ａに示す８０１の写真のオブジェクトに対して８０４の本文中の文字列「ＡＡＡ」をメタデータとして関連付けた後に文書画像をＰＣへ送信しようとすると、以下のような問題が生じる。すなわち、８０４からキャプションと同一表現箇所を含む本文のページを検出して、メタデータを関連付けるまで、ＭＦＰは８０１のページを送信することができず、８０１のページを保持しておかなければならない。また、８０２，８０３のページについても、これらを８０１よりも先にＰＣへ送信するとページ順が逆になってしまうため、やはり送信できず、保持しておく必要がある。このため、ＭＦＰにおいてページを保持するために必要となるワークメモリが肥大化してしまう。例えば、図８Ａに示すような４ページで構成される文書画像の場合、１ページあたり５００ＫＢ（キロバイト）としても、２ＭＢ（メガバイト）のワークメモリが必要となる。

さらに、８０４からキャプションと同一表現箇所を含む本文のページを検出するまでは送信を開始できないために、転送効率が低下してしまうという課題がある。

本発明は上記問題を解決するためになされたものであり、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して送信する際に、以下の機能を実現する画像処理装置および画像処理方法を提供することを目的とする。すなわち、本発明では、オブジェクトに隣接するキャプションを含むページと、該キャプションと同義の表現を含むページとが異なる場合にも、該同義の表現を含むページを検出する前に送信を開始できるようにする。
を提供することを目的とする。

上記目的を達成するための一手段として、本発明の画像処理装置は以下の構成を備える。

すなわち、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理装置であって、
前記文書画像における各ページを属性に応じた領域に分割する領域分割手段と、
前記領域分割手段で分割された、オブジェクトに隣接するキャプション属性の領域と、本文属性の領域とに対し、文字認識を行って各領域の文字情報を得る文字認識手段と、
前記キャプション属性の領域が隣接する前記オブジェクトに対して、当該キャプション属性の領域を識別するための識別子を付与する第１の付与手段と、
前記キャプション属性の領域の文字情報と同義の表現を含む前記本文属性の領域の文字情報を検出し、当該検出した前記本文属性の領域の文字情報から、当該同義の表現以外の表現を含む文字情報を前記オブジェクトのメタデータとして抽出するメタデータ抽出手段と、
前記メタデータ抽出手段で抽出された前記メタデータに対して、前記第１の付与手段で付与された識別子と同じ識別子を付与する第２の付与手段と、
前記第１の付与手段で前記識別子が付与されたオブジェクトの情報を、予め定められたページ単位で送信する文書画像送信手段と、
前記領域分割手段と前記文字認識手段と前記第１の付与手段と前記メタデータ抽出手段と前記第２の付与手段と前記文書画像送信手段とによる処理が前記文書画像の全てのページに対して実行された後に、前記第２の付与手段で前記識別子が付与されたメタデータを送信することにより、前記メタデータを前記文書画像送信手段で送信されたオブジェクトの情報に関連付けるメタデータ送信手段と、
を有することを特徴とする。

例えば、前記文書画像送信手段は、前記第１の付与手段で前記識別子が付与されたオブジェクトの情報を、１ページ単位で送信することを特徴とする。

上記構成からなる本発明によれば、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して送信する際に、以下の機能を実現することができる。すなわち、オブジェクトに隣接するキャプションを含むページと、該キャプションと同義の表現であるメタデータを含むページとが異なる場合にも、該メタデータのページを検出する前に送信を開始することができる。

本発明に係る第１実施形態における画像処理システムの構成を示すブロック図である。第１実施形態におけるＭＦＰの構成を示すブロック図である。第１実施形態におけるＭＦＰ内のデータ処理部の詳細構成を示すブロック図である。第１実施形態における送信側処理を示すフローチャートである。第１実施形態における受信側処理を示すフローチャートである。第１実施形態における領域分割例を示す図である。第１実施形態における領域情報例を示す図である。「キャプションのあるページ」よりも後に「キャプションと同一表現箇所を含む本文のあるページ」がある例を示す図である。「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある例を示す図である。オブジェクトに関係する文字情報をキャプションとした例を示す図である。オブジェクトのページにキャプションがない場合にも、メタデータを関係付ける例を示す図である。第１実施形態における処理対象となる複数ページのイメージデータ例を示す図である。第３実施形態における処理対象となる複数ページのイメージデータ例を示す図である。第３実施形態においてキャプションと同一表現箇所が、キャプションのあるページ前後に複数ある例を示す図である。第４実施形態における処理対象となる複数ページのイメージデータ例を示す図である。第１実施形態における第１ページの領域情報例を示す図である。第１実施形態における第１〜第４ページの領域情報例を示す図である。第３実施形態における第１〜第４ページの領域情報例を示す図である。第４実施形態における第１〜第４ページの領域情報例を示す図である。第１実施形態における第１ページのＰＤＦデータ概略を示す図である。第１実施形態における第１〜第４ページのＰＤＦデータおよびメタデータ概略を示す図である。第３実施形態における第１〜第４ページのＰＤＦデータおよびメタデータ概略を示す図である。第３実施形態におけるＰＤＦデータの具体例を示す図である。第１実施形態におけるオブジェクト検索用のビューワ例を示す図である。第１実施形態におけるオブジェクト検索結果を示す図である。キャプションと同一表現箇所が途中ページの本文領域にある例を示す図である。第１実施形態における第１〜第４ページのＰＤＦデータ概略を示す図である。キャプションと同一表現箇所が異なるページに複数ある例を示す図である。第２実施形態における送信側処理を示すフローチャートである。第２実施形態における第１〜第４ページのＰＤＦデータ概略を示す図である。第３実施形態における送信側処理を示すフローチャートである。第４実施形態における送信側処理を示すフローチャートである。

以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

＜第１実施形態＞
本実施形態では、省メモリ、かつ転送効率を低下させることなく、オブジェクト検索用の文字列であるメタデータを該オブジェクトに関連付けて、マルチページＰＤＦを生成する方法について説明を行う。なお、上述したように、本実施形態におけるオブジェクトとは特に記載がない限り、文字を除く写真、図面、線画、表等のオブジェクトを示すものとする。

●システム構成
図１は、本実施形態における画像処理システムの構成を示すブロック図である。同図において、オフィス内に構築されているＬＡＮ１０２には、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（Multi Function Peripheral）１００が接続されている。ＬＡＮ１０２にはさらに、ＭＦＰ１００からの送信データを受信したり、ＭＦＰ１００が実現する機能を利用するクライアントＰＣ１０１、及びプロキシサーバ１０３、が接続されている。クライアントＰＣ１０１では、例えば、印刷データをＭＦＰ１００へ送信することで、その印刷データに基づく印刷物をＭＦＰ１００で印刷することが可能である。ＬＡＮ１０２は、プロキシサーバ１０３を介してオフィス外部との通信を可能とするネットワーク１０４に接続されている。

尚、図１に示す構成は一例に過ぎず、図示したオフィスと同様の構成要素を有する複数のオフィスがネットワーク１０４上に接続されていても良い。また、ネットワーク１０４は、いわゆる通信ネットワークであり、データの送受信が可能であれば良い。具体的には、インターネットやＬＡＮやＷＡＮ、電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、またはこれらの組み合わせにより実現される。また、クライアントＰＣ１０１、プロキシサーバ１０３の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。該構成要素とは例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。

●ＭＦＰ構成
次に、ＭＦＰ１００の詳細構成について、図２を用いて説明する。

［全体構成］
図２において、１１０はオートドキュメントフィーダ（ＡＤＦ）を含む画像読取部である。画像読取部（スキャナ）１１０は、原稿を光源（不図示）で照射し、原稿反射像をレンズで固体撮像素子上に結像し、該固体撮像素子からラスタ状の画像読取信号を所定密度（例えば、６００ＤＰＩ）のイメージデータとして得る。

ＭＦＰ１００はまた、画像読取信号に対応する画像を印刷部１１２で記録媒体に印刷する複写機能を有している。１つの原稿画像を複写する場合には、画像読取部１１０から得られる画像読取信号をデータ処理部１１５で画像処理して記録信号を生成し、これを印刷部１１２によって記録媒体上に印刷させる。一方、複数の原稿画像を複写する場合には、一旦、記憶部１１１に１ページ分の記録信号を記憶保持させた後、これを印刷部１１２に出力する、という処理を順次繰り返して、記録媒体上に印刷させる。

ＭＦＰ１００は、画像ファイルをネットワークＩ／Ｆ１１４を介して送信する送信機能を有する。送信時には、画像読取部１１０から得られる画像信号をデータ処理部１１５によって、ＴＩＦＦやＪＰＥＧ等の圧縮画像ファイル形式、あるいはＰＤＦ等のベクトルデータファイル形式の画像ファイルへと変換し、ネットワークＩ／Ｆ１１４から出力する。出力された画像ファイルは、ＬＡＮ１０２を介してクライアントＰＣ１０１へ送信されたり、更にネットワーク１０４経由で外部端末（例えば、他のＭＦＰやクライアントＰＣ）に転送されたりする。

ＭＦＰ１００はまた、印刷部１１２による印刷機能を有するが、印刷時にはデータ処理部１１５による画像処理が行われる。例えば、クライアントＰＣ１０１から出力された印刷データをネットワークＩ／Ｆ１１４経由でデータ処理部１１５が受信する。するとデータ処理部１１５は、その印刷データを印刷部１１２で印刷可能なラスタデータに変換した後、印刷部１１２によって印刷媒体上に画像を形成する。

ＭＦＰ１００への操作者の指示は、ＭＦＰ１００に装備されたキー操作部やタッチパネルからなる操作部１１３及び表示部１１６から行われ、これら一連の動作はデータ処理部１１５内の制御部（不図示）で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部１１６で行われる。

また記憶部１１１は、画像読取部１１０で読み取った画像データを、データ処理部１１５で処理する際に使用するワークメモリ（ＲＡＭ）を含む。また、記憶部１１１は、大容量のハードディスクを含み、クライアントＰＣ１０１から送信された画像データを記憶管理するデータベースを構成するようにしても良い。

本実施形態ではＭＦＰ１００を用いて説明するが、本発明はＭＦＰに限るものではなく、スキャナ装置で実現するようにしても構わない。

次に、図２に示したデータ処理部１１５の詳細について、図３を用いて説明する。図３に示すようにデータ処理部１１５は、領域分割部３０１、属性情報付与部３０２、文字認識部３０３、メタデータ処理部３０４、フォーマット変換部３０５、メタデータ付与部３０６、から構成される。以下、これら各構成について説明する。

［領域分割部］
領域分割部３０１は、図１に示す画像読取部１１０から得られたイメージデータ、または、記憶部１１１に保存されたイメージデータを入力して、領域を抽出する。ここで、この領域の抽出方法の一例を説明する。まず、２値の入力画像を低解像度化した間引き画像を作成する。このとき、入力画像をＭ×Ｎ画素毎に分割し、該分割した領域ごとに、１画素でも有意画像（黒画素）が存在すれば当該分割した領域を１つの黒画素とする間引き画像（すなわち低解像度画像）を作成する。なお、ここでは、１つの文字が１つの黒画素連結要素として繋がる程度に間引くものとするが、更に、１つの文字行内の文字間が潰れる程度に間引くと文字行を抽出しやすくなる。次に、間引き画像において、黒画素が連結する部分をまとめて小矩形を作成していく。このとき、矩形のサイズが、文書画像内に含まれていると想定される文字サイズ（予め決めておいた文字サイズ）に近い場合、文字矩形として判断する。更に、ほぼ同じサイズの文字矩形が並んでいる場合、当該矩形は文字行を構成すると判断して、矩形同士を結合して文字行の矩形を形成する。更に、文字行と判断された矩形の短辺同士が接近している場合、同一の文字行である可能性が高いため、このような場合は矩形同士を結合する。また、文字行と判断された矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、１つの本文部である可能性が高いのでこれらを結合する。その結果、本文などの文字領域や、図形領域などが抽出されることになる。そして、低解像度画像に基づいて抽出される領域の位置情報を取得し、入力画像（高解像度画像）において対応する位置の領域を抽出する。例えば、図６に示すような矩形の領域６０１〜６０５が抽出される。

［属性情報付与部］
属性情報付与部３０２は、領域分割部３０１で分割された領域毎に属性を付加する。図６を用いて一例を説明すると、領域６０５については、文字行と判断された領域を結合して作成されたものであるから、本文部である可能性が高いと判断され、“本文”の属性を付加する。

残りの領域については、まず、文字が含まれているか否かを判断する。図６の例では、領域６０１，６０４が、文字が含まれる領域（文字領域）として決定される。一般に、文字が含まれている領域であれば、領域内で画像の有無が周期的に現れるため、この画像の周期性に基づいて、文字が含まれている領域であるか否かを判断するようにしても良い。一方、文字領域以外の領域については、領域の大きさが小さければ“ノイズ”とし、画素密度が小さいものは“表”として、それ以外は絵や写真であるとして“写真”の属性を、それぞれ付加する。なお本実施形態では、これら“表”や“写真”の他、図面や線画等もオブジェクトとして扱うため、“図面”や“線画”等の属性を付加しても良い。このとき、該領域がいずれのオブジェクトであるかを判定する必要があるが、その手法については周知の方法が適用可能であるため、ここでは詳細な説明を省略する。

更に文字領域について、“表”または“写真”属性が付加されたオブジェクト領域の上部または下部に近接して存在し、且つ、本文の文字サイズと同じか少し小さい程度であれば、該オブジェクトのキャプションを示すものとして“キャプション”の属性を付す。後述するように、“キャプション”属性が付された文字領域内の文字列に基づき、本文領域（およびキャプション領域）からメタデータとなる文字列を抽出して隣接オブジェクトに関連付けることで、検索処理において写真等のオブジェクトを検索しやすくなる。尚、“キャプション”属性を付加する領域については、そのキャプションが付随するオブジェクト領域を特定できるように、付随先のオブジェクト領域に関する情報を付しておく。

また、本文やキャプション以外の文字領域については、本文部の文字行の行幅より大きく、本文部の段とは異なる位置にあれば、“見出し”の属性を付す。また、本文部の文字行の行幅より大きいが、本文部の段幅と領域の幅がほぼ等しければ、“小見出し”の属性を付す。また、本文部の文字行の行幅以下で、原稿の下端部や上端部に存在すれば“ページ”（ページフッタ／ページヘッダ）の属性を付す。また、文字領域として判断されたものの、“本文”、“見出し”、“小見出し”、“キャプション”、“ページ”のいずれにも当てはまらない場合には、“文字”の属性を付加する。

属性情報付与部３０２では以上のように、図６に示す領域６０１は“見出し”、領域６０２は“表”、領域６０３は“写真”、領域６０４は“キャプション”、領域６０５は“本文”の属性がそれぞれ付加される。

［文字認識部］
文字認識部３０３は、“文字”、“本文”、“見出し”“小見出し”、“キャプション”の属性が付加された領域について、文字認識を実行し、その結果を文字情報として対象領域に関連付ける。

以上、領域分割部３０１、属性情報付与部３０２、文字認識部３０３において抽出された領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報は、記憶部１１１に保存される。図７に、図６に示すイメージデータに対して記憶部１１１に保存される情報を示す。
［メタデータ処理部］
メタデータ処理部３０４は、イメージデータ内にキャプション領域（キャプション属性が付加された領域）があるか否かを判断する。キャプション領域がある場合には、該キャプションが付随する領域（キャプションに隣接する図面などのオブジェクト領域）に対してキャプション用識別子を付与する。キャプションが付随する領域を検索するためのメタデータは、キャプションと同一表現箇所を含む本文のページを検出するまでは不明である。このため、ここで付されるキャプション用識別子は、何れかのメタデータが後に付与されることを示すための指標となる。

次に、キャプション領域の文字情報と同一の表現が、本文領域（本文属性が付加された領域）内にあるか否かを判断する。そして、キャプション領域の文字情報と同一表現が本文領域内にある場合には、キャプションが付随する領域を検索するためのメタデータを当該本文領域から抽出し、キャプション用識別子にメタデータを関連付けて保持する。例えば、キャプション領域内の文字列から得た単語が「図１」であった場合、本文中から「図１」を含む一文を抽出し、キャプションの識別子に関連付けることにより、メタデータとして利用できるようにする。

［フォーマット変換部］
フォーマット変換部３０５は、画像読取部１１０から得られたイメージデータに対し、フォーマット変換を行う。このフォーマット変換は、領域分割部３０１、属性情報付与部３０２、文字認識部３０３、メタデータ処理部３０４から得られた情報（例えば、領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報、メタデータ）に基づいて行われる。但し、変換後のフォーマットとしては、オブジェクトにメタデータを関連付けることが可能なフォーマット（例えば、ＰＤＦ、ＸＰＳ、ＯＯＸＭＬ）である必要がある。尚、イメージデータが複数ページである場合には、マルチページを可能とするフォーマット（例えば、マルチページＰＤＦ）に変換する。
［メタデータ付与部］
メタデータ付与部３０６は、メタデータ処理部３０４にて保持されたキャプション用識別子に関連付けされたメタデータを、フォーマット変換部３０５でフォーマット変換されたデータに付与する。

●画像処理
次に、本実施形態の画像処理システムにおける画像処理全体の概要を、図４および図５のフローチャートを用いて説明する。

図４および図５はそれぞれ、ＭＦＰ１００で入力された複数ページのイメージデータをマルチページＰＤＦに変換し、クライアントＰＣ１０１へ送信する際の、送信側および受信側の処理を示すフローチャートである。ここでは、図９Ａの９０１〜９０４に示す複数ページのイメージデータが入力されるものとする。図９Ａは、図８Ａと同様に４ページで構成される文書画像の一例であり、９０１〜９０４は順に第１〜第４ページを表している。

［送信側処理］
以下、図４のフローチャートに示す送信側処理について説明する。尚、処理は第１ページから第４ページまで順に行われる。

・第１ページ処理
まずステップＳ４０１において、入力されたイメージデータ９０１（第１ページ）に対して領域分割部３０１にて、領域９０５，９０６を抽出する。

次にステップＳ４０２において、ステップＳ４０１で抽出された領域９０５，９０６に対して属性情報付与部３０２にて、該領域毎に属性を付加する。図９Ａの例では、領域９０５には“写真”属性が、領域９０６には“キャプション”属性がそれぞれ付される。尚、該キャプションの付随先として、写真領域９０５が記録される。

次にステップＳ４０３において、ステップＳ４０２にて“キャプション”属性が付加された領域９０６に対して、文字認識部３０３にて文字認識を実行し、その結果を文字情報として対象領域に関連付ける。領域９０６からは文字情報“図１”が得られ、領域９０６に関連付けが行われる。

ここまでのステップＳ４０１〜Ｓ４０３の処理において抽出された領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報は、記憶部１１１に保存される。ここで図１０に、イメージデータ９０１（第１ページ）に関して記憶部１１１に保存される情報を示す。

次にステップＳ４０４において、メタデータ処理部３０４にて、イメージデータ９０１内にキャプション領域（キャプション属性が付加された領域）があるか否かを判断する。キャプション領域があればステップＳ４０５へ進み、キャプション領域がなければステップＳ４０６へ進む。イメージデータ９０１内にはキャプション領域９０６があるため、この場合はステップＳ４０５へ進む。

ステップＳ４０５では、メタデータ処理部３０４にてキャプション領域９０６が付随する写真領域９０５に対し、キャプション用識別子を付与する。上述したように、キャプションが付随する領域を検索するためのメタデータは、キャプションと同一表現箇所を含む本文のページを検出するまでは不明である。具体的には、イメージデータ９０１（第１ページ）のキャプション領域９０６が付随する写真領域９０５を検索するためのメタデータは、後述するイメージデータ９０４（第４ページ）の本文領域９０９において検出される。そこで本実施形態においては、イメージデータ９０１に関する情報をイメージデータ９０４の処理が行われる前に送信することで、転送効率を向上させ、ページを保持するためのワークメモリ低減を実現する。すると、第１ページに関する情報を送信する時点では写真領域９０５のメタデータは不明である。更に、第４ページで同一表現を検出してメタデータが決定した時点では、関連付けすべきキャプションが付随する領域（写真領域９０５）は既に送信済みなのでワークメモリに存在しないこととなる。したがって、ステップＳ４０５ではキャプション用識別子を付与しておくことによって、何れかのメタデータが後に関連付けられることを示す。以下、キャプション用識別子として「キャプション用識別子１」を用いることとし、キャプション用識別子が複数必要とされる場合には「キャプション用識別子２」、「キャプション用識別子３」のように番号を付していくものとする。例えば、キャプション領域から抽出される文字列ごとにそれぞれ異なるキャプション用識別子が付与されることとする。

次に、ステップＳ４０６においては、キャプション領域の文字情報と同一の表現が本文領域（本文属性が付加された領域）にあるか否かを判断する。同一の表現が本文領域にあればステップＳ４０７へ進み、同一の表現が本文領域になければステップＳ４０９へ進む。ここでイメージデータ９０１には本文領域自体がないため、ステップＳ４０９へ進む。

次にステップＳ４０９においては、フォーマット変換部３０５にて、イメージデータ９０１（第１ページ）を、記憶部１１１に保存された図１０に示す情報に基づいてＰＤＦデータへ変換する。ここで図１２に、イメージデータ９０１（第１ページ）のＰＤＦデータの概略を示す。実際のＰＤＦデータでは、１２０１，１２０２はそれぞれ、写真領域（写真オブジェクト），キャプション領域を描画するための描画コマンドで記述される。また１２０３は、ステップＳ４０５において付与されたキャプション用識別子１であり、写真オブジェクト１２０１に関連付けされている。なお、写真領域の描画コマンドは、例えば、入力画像から切り出した写真領域をＪＰＥＧ圧縮して得られる画像データを、切り出した描画位置に描画するようにしたものである。また、領域分割で得たオブジェクトが線画やイラストなどの図面オブジェクトであった場合は、ベクトルデータに変換して当該ベクトルデータを切り出した描画位置に描画するように記述しても良い。図面などのオブジェクトをベクトルデータへ変換する場合は、周知のベクトル変換技術を利用することが可能である。なお、キャプションや本文などの文字領域も、文字の輪郭に基づいてベクトルデータへ変換し、描画用データとして保存するように構成しても構わない。また、キャプションや本文などの文字領域には、自身の文字認識結果の文字列も関連付けて文字列自身を検索できるようにする。

次にステップＳ４１０においては、ステップＳ４０９にてフォーマット変換したＰＤＦデータを、クライアントＰＣ１０１へ送信する。

次にステップＳ４１１においては、全てのページが送信終了したか否かを判断する。全てのページを送信していればステップＳ４１３へ進むが、送信終了していなければステップＳ４１２へ進み、処理対象を次のページへ進める。ここで、イメージデータ９０１は第１ページであるから、第２〜第４ページ分の処理が未だ終了していないため、ステップＳ４１２へ進む。

・第２〜第４ページ処理
以降、イメージデータ９０２〜９０４（第２〜第４ページ）について、イメージデータ９０１（第１ページ）と基本的には同様の処理を行うが、以下、特に第１ページの処理と異なる点について説明を行う。尚、図１１Ａは、イメージデータ９０１〜９０４（第１〜第４ページ）について、ステップＳ４０１〜Ｓ４０３の処理によって記憶部１１１に保存されている情報を示す。

イメージデータ９０４（第４ページ）では、ステップＳ４０６において、キャプション領域の文字情報と同一の表現が本文領域にあると判断されるため、ステップＳ４０７に進む。具体的には、イメージデータ９０１におけるキャプション領域９０６の文字情報「図１」と同一の表現が、イメージデータ９０４の本文領域９０９の文字情報「・・・図１は、ＡＡＡである。・・・」内にある。

ステップＳ４０７においては、メタデータ処理部３０４にて、本文領域からキャプションが付随する領域を検索するためのメタデータを抽出する。本実施形態では、イメージデータ９０１内の写真領域９０５を検索するためのメタデータとして、「ＡＡＡ」（例えば検索キーワードに適した単語）を抽出する。これにより、アプリケーション側で利用する際に、「ＡＡＡ」を検索キーワードとして、写真領域９０５のオブジェクトを検索することが可能となる。尚、メタデータ抽出の方法はこの例に限るものではなく、例えば、キャプションの文字情報と同一の表現を含む本文全ての文字情報「・・・図１は、ＡＡＡである。・・・」をメタデータとしても良い。

次にステップＳ４０８においては、メタデータ処理部３０４にて、キャプション用識別子にメタデータを関連付けて保持する。上述したように、キャプション用識別子は「キャプション用識別子１」、メタデータは「ＡＡＡ」であるため、「キャプション用識別子１」と「ＡＡＡ」を関連付けして保持する。

イメージデータ９０１〜９０４（第１〜第４ページ）にそれぞれ対応するＰＤＦデータがステップＳ４１０にて送信されると、ステップＳ４１１において、全てのページが送信終了した、すなわち文書画像送信が終了したと判断され、ステップＳ４１３へ進む。

ステップＳ４１３においては、ステップＳ４０８にて保持したキャプション用識別子に関連付けられたメタデータを、ステップＳ４０９にてフォーマット変換されたＰＤＦデータに付与する。ここで、ＰＤＦデータはステップＳ４１０にて送信済みであるため、実際には既に送信されたＰＤＦデータに付与する形で、メタデータ送信を行う。

ここで図１３Ａに、クライアントＰＣ１０１へ送信される全てのＰＤＦデータ（第１〜第４ページ）、およびメタデータの概略を示す。図１３Ａにおいて、１３０１〜１３０４はそれぞれ、第１〜第４ページのＰＤＦデータであり、１３０５はキャプション用識別子１に対応して付与されたメタデータである。図１３Ａによれば、キャプション用識別子１を介して、写真領域とメタデータが関連付けられていることが分かる。

尚、キャプション領域の文字情報との同一表現が、異なるページに複数ある場合には、キャプション用識別子に対応するメタデータが複数抽出される。例えば図１８に示すように、イメージデータ１８０１のキャプションとの同一表現は、イメージデータ１８０３（第３ページ），１８０４（第４ページ）の２箇所で抽出される。したがって、イメージデータ１８０３の本文領域の文字情報「・・・図１は、ＡＡＡである。・・・」からメタデータとして「ＡＡＡ」を抽出する。また、イメージデータ１８０４の本文領域の文字情報「・・・図１内のＢＢＢを参照。・・・」からメタデータとして「ＢＢＢ」を抽出する。この場合、キャプション用識別子には、「ＡＡＡ」，「ＢＢＢ」の何れか、または両方を関連付ける。また、付与可能なメタデータの数を制限する（例えば３つまでメタデータの付与を許可する）ようにしてもよい。また、「ＡＡＡ」，「ＢＢＢ」の何れかを選択する方法としては、最初に抽出されたメタデータを優先的に選択する、等の方法が挙げられる。

また、ステップＳ４１１で全てのページの送信終了まで待たなくても、ステップＳ４０５で付与したキャプション用識別子に対応するメタデータが抽出されていれば、これをステップＳ４１３で送信しても良い。例えば図１６に示すように、キャプション領域の文字情報と同一表現が途中ページ（第３ページ）の本文領域にある場合、キャプション用識別子に対応するメタデータは第３ページで抽出される。従って、ステップＳ４１０で第３ページが送信された時点で、ステップＳ４１１でキャプション用識別子に対応するメタデータが抽出されていると判断し、ステップＳ４１３でキャプション用識別子に関連付けられたメタデータを送信する。但しこの場合、未だ第４ページを送信していないため、ステップＳ４１３の後にステップＳ４１２へ戻る必要がある。このようにメタデータを検出した時点で送信する場合のＰＤＦデータ構成の概略を図１７に示す。図１７では、クライアントＰＣ１０１へ第１〜第３ページのデータ（１７０１〜１７０３）が送信され、第３ページから得られたメタデータ１７０４が送信され、第４ページのデータ１７０５が送信される。図１７によれば、上述した図１３Ａとはメタデータの位置（メタデータが送信されるタイミング）が異なっていることが分かる。

［受信側処理］
以下、図５のフローチャートに示す受信側処理について説明する。ここでは、受信側であるクライアントＰＣ１０１が、送信側であるＭＦＰ１００から送信されたＰＤＦデータを１ページづつ受信し、最後にメタデータを受信する例を示す。

まずステップＳ５０１において、図４のステップＳ４１０にて送信された、イメージデータ９０１（第１ページ）に対応するＰＤＦデータを受信する。

次にステップＳ５０２において、全てのページの受信を終了したか否かを判断し、全てのページを受信していればステップＳ５０３へ進むが、受信終了していなければステップＳ５０１へ戻る。以降、ステップＳ５０１を繰り返すことによって、イメージデータ９０２〜９０４（第２〜第４ページ）に対応するＰＤＦデータを受信する。

次にステップＳ５０３において、図４のステップＳ４１３にて送信されたメタデータを受信する。

次にステップＳ５０４において、ステップＳ５０１で受信したＰＤＦデータ（第１〜第４ページ）と、ステップＳ５０３で受信したメタデータを合わせて、クライアントＰＣ１０１内の不図示の記憶領域に保存する。本実施形態では、１つのマルチページＰＤＦファイルとして保存するものとする。

［検索処理］
以下、クライアントＰＣ１０１において、上述したメタデータを検索キーワードとしてオブジェクトを検索する処理について、図１４，図１５を用いて説明する。

図１４は、オブジェクトを検索するためのビューワの一例を示している。同図において、１４０１は検索する語句を指定するためのテキストボックスであり、１４０２は検索する語句を指定した後に検索の実行を指示するための検索実行ボタンである。１４０３はページ表示ウィンドウであり、図５のステップＳ５０４で保存されたマルチページＰＤＦを表示する。なお、本実施形態におけるマルチページＰＤＦは４ページ構成であるが、図１４では第１ページが表示されている状態を示している。

図１５は、図１４のテキストボックス１４０１に検索する語句を指定し、検索実行ボタン１４０２の押下によって検索を実行させた結果を示している。同図によれば、テキストボックス１５０１に示すように検索する語句として「ＡＡＡ」を指定しており、ページ表示ウィンドウ１５０２には、検索を実行した結果、「カメラ（写真）」が検索された（ヒットした）旨が示されている。なお、本実施形態において「ＡＡＡ」の語句で「カメラ（写真）」を検索できる理由としては、上述したようにキャプション用識別子を備えているためである。すなわち、メタデータ「ＡＡＡ」が「キャプション用識別子１」と関連付けられており、かつ「キャプション用識別子１」は、写真領域９０５である「カメラ」に関連付けられているためである。

以上説明したように本実施形態によれば、複数ページの文書画像をクライアントＰＣへ送信する際に、該クライアントＰＣにおいて、キャプションが付随するオブジェクトを容易に検索することができる。すなわち、「オブジェクトに隣接するキャプションのあるページ」と、「キャプションと同一表現箇所を含む本文のあるページ」が異なる場合でも、メタデータを検索キーワードとして該オブジェクトを検索することを可能とする。このようにして、写真や図面などのオブジェクトを、本文中の当該オブジェクトの説明個所で使用されている単語を用いて検索できるようになる。

さらに、１ページ単位でＰＤＦデータが生成される度に送信を行うことにより、省メモリ、かつ転送効率を向上させることが可能である。例えば、図８Ａに示すような４ページ構成の文書画像の場合、従来であれば２ＭＢを必要としたワークメモリを、５００ＫＢまで削減することができる。

＜第２実施形態＞
以下、本発明に係る第２実施形態について説明する。上述した第１実施形態では、省メモリ、かつ転送効率を低下させることなく、オブジェクトを検索するためのメタデータをオブジェクトに関連付けしてマルチページＰＤＦを生成する方法について説明した。第２実施形態では、ページを保持するためのワークメモリが十分に確保できる場合であれば、オブジェクト検索時のパフォーマンス向上を優先させる例を示す。

ワークメモリが十分に確保できるのであれば、キャプションと同一表現箇所を含む本文のページを検出するまで、キャプション用識別子を付与したページを保持しておくことが可能である。従ってこの場合、生成されるＰＤＦファイルのデータ構造において、キャプション用識別子の記述位置と、該キャプション用識別子に対応するメタデータの記述位置とがより近づくように、例えば隣接するように配置することが可能である。このような配置により、ビューワでオブジェクトを検索する際の検索パフォーマンスが向上する。

第２実施形態におけるシステム構成は上述した第１実施形態と同様であるため、説明を省略する。第２実施形態においても、ＭＦＰ１００において複数ページのイメージデータをマルチページＰＤＦに変換してクライアントＰＣ１０１へ送信する。第２実施形態ではこの送信処理において、ページを保持するためのワークメモリが十分に確保できる場合と、ワークメモリが不十分である場合とで、処理を切り替える。

以下、この切り替え方法について、第２実施形態における送信側処理を示す図１９のフローチャートを用いて説明する。尚、複数ページのイメージデータとしては、図９Ａの９０１〜９０４が入力されるものとし、第１実施形態における図４と同様の処理については同一ステップ番号を付し、説明を省略する。

まずステップＳ１９０１において、ページを保持するためのワークメモリが所定値より大きいか否かを判断する。具体的には、ＭＦＰ１００の画像読取部１１０に置かれた複数枚の原稿の枚数を不図示のカウンタでカウントし、全てのページを保持するのに必要なワークメモリを算出後、当該メモリがＭＦＰ１００の記憶部１１１に確保可能か否かを判断する。尚、読取枚数は、画像読取部１１０内のＡＤＦにおける不図示のセンサによって、積載枚数としてカウントしても良い。また、ユーザが不図示のユーザインターフェースより読取枚数を入力しても良い。

ステップＳ１９０１でワークメモリが所定値以下であった場合は、ステップＳ１９０２へ進む。ステップＳ１９０２では、上述した第１実施形態と同様の処理、すなわち図４に示すフローチャートと全く同様の処理を行うことによって、図１３Ａに示すようなＰＤＦデータが生成される。

一方、ステップＳ１９０１でワークメモリが所定値よりも大きい場合、例えば、文書画像の全ページを保持可能なワークメモリが確保可能である場合には、図１９のステップＳ４０１へ進む。以下、ステップＳ４０１〜Ｓ４０７、及びＳ４１２では、上述した図４と同様の処理を行う。

第２実施形態では、ステップＳ４０７において本文領域からキャプションが付随する領域を検索するためのメタデータが抽出された後、ステップＳ１９０３へ進む。

ステップＳ１９０３においては、キャプション用識別子が付与されたページにメタデータを関連付けて付与する。ここで、図４のステップＳ４０８との差異は、ステップＳ４０８ではメタデータをキャプション用識別子に関連付けて保持しておくのみであるが、ステップＳ１９０３ではキャプション用識別子が付与されたページに対してメタデータを付与する点である。これは、図９Ａに示すイメージデータ９０１〜９０４の全ページが保持されているために可能なことである。

次にステップＳ１９０４においては、全てのページについて処理が終了したか否かを判断する。全ページの処理が終了していればステップＳ１９０５へ進むが、未処理のページがあればステップＳ４１２へ進む。

ステップＳ１９０５においては、ステップＳ４０９と同様に、フォーマット変換部３０５にてＰＤＦデータへの変換を行う。但しステップＳ１９０５では、文書画像の全てのページをＰＤＦデータに変換する。これにより、第２実施形態における送信データ作成が行われる。

次にステップＳ１９０６においては、ステップＳ１９０５でフォーマット変換した全ページのＰＤＦデータ（送信データ）をクライアントＰＣ１０１へ一括送信する。

ここで図２０に、第２実施形態において以上のように生成された、クライアントＰＣ１０１へ送信される全てのＰＤＦデータ（第１〜第４ページ）、およびメタデータの概略を示す。図２０によれば、メタデータ２００１がキャプション用識別子が付与されたページに対して関連付けられて、該ページの直後に付与されていることが分かる。

以上説明した様に第２実施形態によれば、ページ保持用のワークメモリが十分に確保できる場合には、キャプション用識別子の記述位置と、該キャプション用識別子に対応するメタデータの記述位置とが近接するように配置して、送信することができる。これにより、ビューワでオブジェクトを検索する際の検索パフォーマンスを向上させることができる。

＜第３実施形態＞
以下、本発明に係る第３実施形態について説明する。

上述した第１実施形態では、「オブジェクトに隣接するキャプションのあるページ」と「キャプションと同一表現箇所を含む本文のあるページ」が異なる場合に、キャプション属性が付随する領域に対してキャプション用識別子を付与する例を示した。しかしながらこの例は、例えば図８Ａに示すように「オブジェクトに隣接するキャプションのあるページ」よりも後に「キャプションと同一表現箇所を含む本文のあるページ」がある場合に有効である。例えば図８Ｂに示すように「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある場合には、メタデータを抽出することができない。すなわち、「キャプションと同一表現箇所を含む本文のあるページ」では、本文領域に対してキャプション用識別子を付与することはできない。従ってこの場合、オブジェクトを検索するためのメタデータをオブジェクトに関連付けるために、ページを保持するためのワークメモリが肥大化してしまう、という課題が依然として残ってしまう。

そこで第３実施形態においては、「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある場合にも、オブジェクトを検索するためのメタデータをオブジェクトに関連付ける例を示す。

第３実施形態におけるシステム構成は上述した第１実施形態と同様であるため、説明を省略する。第３実施形態においても、ＭＦＰ１００において複数ページのイメージデータをマルチページＰＤＦに変換してクライアントＰＣ１０１へ送信する。

［送信側処理］
以下、第３実施形態の画像処理システムにおける送信側処理について、図２１のフローチャートを用いて説明する。ここでは、図９Ｂの９１１〜９１４に示す複数ページのイメージデータが入力されるものとする。図９Ｂは、図８Ｂと同様に４ページで構成される文書画像の一例であり、９１１〜９１４は順に第１〜第４ページを表している。また、図１１Ｂは、イメージデータ９１１〜９１４（第１〜第４ページ）について、ステップＳ４０１〜Ｓ４０３の処理によって記憶部１１１に保存される情報を示す。なお、図２１のフローチャートにおいて、上述した第１実施形態で示した図４と同様の処理については同一ステップ番号を付し、説明を省略する。

・第１ページ処理
まずステップＳ４０１〜Ｓ４０３において、入力されたイメージデータ９１１（第１ページ）に対して、領域分割、属性情報付加、文字認識処理を施す。ここまでの処理によって抽出された領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報は、記憶部１１１に保存される。ここで図１１Ｂに、イメージデータ９０１（第１ページ）に関して記憶部１１１に保存される情報を示す。図１１Ｂの９１５は、イメージデータ９１１（第１ページ）の本文領域９１５について、記憶部１１１に保存される情報を示す。

次にステップＳ２１０１において、メタデータ処理部３０４にて、イメージデータ９１１内に本文領域（本文属性が付加された領域）があるか否かを判断する。本文領域があればステップＳ２１０２へ進み、本文領域がなければステップＳ４０４へ進む。ここでイメージデータ９１１には本文領域９１５があるため、ステップＳ２１０２へ進む。

次にステップＳ２１０２において、メタデータ処理部３０４にて、本文領域９１５の文字認識結果として得られた文字情報（すなわち文字コード）を保持する。ここで文字情報を保持する理由は以下のとおりである。すなわち、「オブジェクトに隣接するキャプションのあるページ」即ち後述するイメージデータ９１４（第４ページ）の処理時に保存されるキャプション領域の文字情報と同一の表現が、ステップＳ２１０２で保持された文字情報中にあるかを判断するためである。このとき、イメージデータ９１１の全ての情報を保持するとワークメモリが肥大化してしまうため、ここではデータサイズの小さい文字情報のみを保持するとする。例えば、文書画像中の文字情報の量にもよるが、１ページ分の文字情報は数１０ＫＢ程度のデータサイズとなる。

次にステップＳ４０４において、メタデータ処理部３０４にて、イメージデータ９１１にキャプション領域（キャプション属性が付加された領域）があるか否かを判断する。キャプション領域があればステップＳ４０５へ進み、キャプション領域がなければステップＳ４０６へ進む。ここでイメージデータ９１１にはキャプション領域がないため、ステップＳ４０６へ進む。

ステップＳ４０６では、キャプション領域の文字情報と同一の表現が本文領域（本文属性が付加された領域）にあるか否かを判断する。同一の表現が本文領域にあればステップＳ４０７へ進み、なければステップＳ４０９へ進む。このとき、９１１は本文領域であるが、記憶部１１１に保存されているキャプション領域の文字情報が第１ページの処理時点ではまだ無いため、ステップＳ４０９へ進む。尚、キャプション領域の文字情報が記憶部１１１に保存されるのは、後述するイメージデータ９１４（第４ページ）の処理を行う時点である。

次にステップＳ４０９においては、フォーマット変換部３０５にて、イメージデータ９０１（第１ページ）を、記憶部１１１に保存された図１１Ｂの本文領域９１５に示す情報に基づいてＰＤＦデータへ変換する。

次にステップＳ４１１においては、全てのページが送信終了したか否かを判断する。全てのページを送信していればステップＳ４１３へ進むが、送信終了していなければステップＳ４１２へ進み、処理対象を次のページへ進める。ここで、イメージデータ９１１は第１ページであるから、第２〜第４ページ分の処理が未だ終了していないため、ステップＳ４１２へ進む。

・第２〜第４ページ処理
以降、イメージデータ９１２〜９１４（第２〜第４ページ）について、イメージデータ９１１（第１ページ）と基本的には同様の処理を行うが、以下、特に第１ページの処理と異なる点について説明を行う。

イメージデータ９１２，９１３（第２，第３ページ）では、イメージデータ９１１（第１ページ）と同様に、ステップＳ２１０２にて、記憶部１１１に本文領域９１６，９１７の文字情報を保持する。イメージデータ９１３（第３ページ）の処理が終了した時点では、本文領域９１５〜９１７に対する文字情報が記憶部１１１に保持されたことになる。また、イメージデータ９１２，９１３（第２，第３ページ）では、キャプション領域がなく、記憶部１１１に保持されているキャプション領域の文字情報もない。したがって、ステップＳ４０４，Ｓ４０６をいずれも偽判定でスルーし、ステップＳ４１０において、ＰＤＦデータをクライアントＰＣ１０１へ送信する。

そしてイメージデータ９１４（第４ページ）では、ステップＳ２１０１において、本文領域がないためステップＳ４０４へ進む。

ステップＳ４０４では、イメージデータ９１４にはキャプション領域９１９があるため、ステップＳ４０５へ進む。

ステップＳ４０５では、メタデータ処理部３０４にてキャプション用識別子を付与する。上述したように、キャプションが付随する領域を検索するためのメタデータは、キャプションと同一表現箇所を含む本文のページを検出するまでは不明である。但し、第３実施形態においては、「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」があるため、以降のステップＳ２１０３〜Ｓ２１０５でメタデータを抽出することが可能である。尚、上述した第１実施形態と同様に、キャプション用識別子として「キャプション用識別子１」を用いるとし、キャプション用識別子が複数必要とされる場合には「キャプション用識別子２」、「キャプション用識別子３」のように番号を付していくものとする。

次にステップＳ２１０３において、キャプション領域の文字情報と同一表現が、ステップＳ２１０２で記憶部１１１に保持された本文領域にあるか否かを判断する。同一表現が本文領域にあればステップＳ２１０４へ進み、同一表現が本文領域になければステップＳ４０６へ進む。ここで、イメージデータ９１４（第４ページ）では、キャプション領域の文字情報と同一の表現が記憶部１１１に保持された本文領域にあると判断されるため、ステップＳ２１０４に進む。具体的には、イメージデータ９１４のキャプション領域９１９の文字情報「図１」と同一の表現が、イメージデータ９１２の本文領域９１６の文字情報「・・図１は、ＡＡＡである。・・」内にある。

ステップＳ２１０４においては、メタデータ処理部３０４にて、本文領域からキャプションが付随する領域を検索するためのメタデータを抽出する。第３実施形態では、イメージデータ９１４内の写真領域９１８を検索するためのメタデータとして、「ＡＡＡ」を抽出する。

次にステップＳ２１０５においては、メタデータ処理部３０４にて、キャプション用識別子にメタデータを関連付けて保持する。上述したように、キャプション用識別子は「キャプション用識別子１」、メタデータは「ＡＡＡ」であるため、「キャプション用識別子１」と「ＡＡＡ」を関連付けして保持する。

次にステップＳ４０６においては、キャプション領域の文字情報と同一の表現が本文領域（本文属性が付加された領域）にあるか否かを判断する。ここで、イメージデータ９１４（第４ページ）には本文領域がないため、ステップＳ４０９へ進む。

以降、ステップＳ４０９〜Ｓ４１１においては、上述した第１実施形態と同様の処理を行う。

ステップＳ４１１で全てのページが送信終了したと判断されると、ステップＳ４１３において、ステップＳ２１０５にて保持したキャプション用識別子に関連付けられたメタデータを、ステップＳ４０９にてフォーマット変換されたＰＤＦデータに付与する。但し、ＰＤＦデータはステップＳ４１０にて送信済みであるため、ＰＤＦデータに付与する形で送信する。

ここで図１３Ｂに、クライアントＰＣ１０１へ送信される全てのＰＤＦデータ（第１〜第４ページ）、およびメタデータの概略を示す。図１３Ｂにおいて、１３０６〜１３０９はそれぞれ、第１〜第４ページのＰＤＦデータであり、１３１０はキャプション用識別子１に対応して付与されたメタデータである。図１３Ｂによれば、キャプション用識別子１を介して、写真領域とメタデータが関連付けられていることが分かる。また図１３Ｃに、実際のＰＤＦデータにおけるキャプション用識別子、及び写真領域の描画コマンドの一例を示す。図１３Ｃにおいて、１３１１はキャプション用識別子を示し、１３１２は写真領域の描画コマンドを示している。

以上説明したように第３実施形態によれば、「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある場合にも、検索用メタデータをオブジェクトに関連付けることが可能となる。さらに、ＰＤＦデータが生成される度に１ページ単位で送信を行うことによって、省メモリ、かつ転送効率の向上が可能となる。例えば、図８Ｂのように４ページで構成される文書画像の場合、従来は２ＭＢ（５００ＫＢ×４ページ）のワークメモリが必要であったが、５００ＫＢ＋数１０ＫＢ（５００ＫＢ×１ページ＋文字情報（数１０ＫＢ））まで削減することが可能である。

尚、第３実施形態においても、キャプション領域の文字情報の同一表現が、異なるページに複数ある場合には、キャプション用識別子に対応するメタデータが複数抽出される。特に、「オブジェクトに隣接するキャプションのあるページ」の前後に「キャプションと同一表現箇所を含む本文のあるページ」がある場合について考える。例えば、図９Ｃに示すような場合には、イメージデータ９２３（第３ページ）のキャプション領域９２８との同一表現は、イメージデータ９２２（第２ページ）とイメージデータ９２４（第４ページ）の２箇所で抽出される。したがってこの場合、イメージデータ９２２の本文領域９２６の文字情報「・・・図１は、ＡＡＡである。・・・」からメタデータとして「ＡＡＡ」を抽出する。また、イメージデータ９２４の本文領域９２９の文字情報「・・・図１内のＢＢＢを参照。・・・」からメタデータとして「ＢＢＢ」を抽出する。この場合、キャプション用識別子には、「ＡＡＡ」，「ＢＢＢ」の何れか、または両方を関連付ける。「ＡＡＡ」，「ＢＢＢ」の何れかを選択する方法としては、最初に抽出されたメタデータを優先的に選択する、等の方法が挙げられる。

＜第４実施形態＞
以下、本発明に係る第４実施形態について説明する。上述した第３実施形態では、図２１のステップＳ２１０２において、データサイズの小さい文字情報のみを保持することによってワークメモリの肥大化を防ぐ例を示した。例えば、文書画像中の文字情報の量にもよるが、１ページ分の文字情報は数１０ＫＢ程度のデータサイズとなる。第４実施形態においては、保持する文字情報を制限することによって、保持すべき情報量をさらに低減することを特徴とする。

第４実施形態におけるシステム構成は上述した第１実施形態と同様であるため、説明を省略する。第４実施形態においても、ＭＦＰ１００において複数ページのイメージデータをマルチページＰＤＦに変換してクライアントＰＣ１０１へ送信する。

［送信側処理］
以下、第４実施形態の画像処理システムにおける送信側処理について、図２２のフローチャートを用いて説明する。ここでは、図９Ｄの９３０〜９３３に示す複数ページ（第１〜第４ページ）のイメージデータが入力されるものとする。また、図１１Ｃは、イメージデータ９３０〜９３３（第１〜第４ページ）について、ステップＳ４０１〜Ｓ４０３の処理によって記憶部１１１に保存される情報を示す。なお、図２２のフローチャートにおいて、上述した第３実施形態で示した図２１とはステップＳ２２０１が異なるのみであり、その他の同様の処理については同一ステップ番号を付し、説明を省略する。

ステップＳ２２０１は、ステップＳ２１０１において、イメージデータに本文領域（本文属性が付加された領域）があると判断された際に実行される。ステップＳ２２０１では、予め定義された予測キャプションと同一表現の検出を行い、これが検出されると、ステップＳ２１０２で文字情報を保持する。ここで予測キャプションとは、オブジェクトに隣接されることの多い文字情報として予め定義されたキャプションの情報であり、例えば、「図、図番、図面、右図、上図、Ｆｉｇ、Ｆｉｇｕｒｅ」等である。第４実施形態では、これらの予測キャプションと同一表現が本文領域から検出される場合に、文字情報を保持する。

ここで、イメージデータ９３１（第２ページ）が入力される場合、９３５，９３６は本文領域であり、９４０は予測キャプションである。予測キャプションが現れる本文領域９３５については、図１１Ｃの１１０２に示すように領域内の文字情報全てを保持するが、予測キャプションが現れない本文領域９３６については、図１１Ｃの１１０３に示すように文字情報を全く保持しない。また、イメージデータ９３０，９３２についても同様に、本文領域に予測キャプションが現れないため、図１１Ｃの１１０１，１１０４に示すように文字情報を全く保持しない。

以上説明したように第４実施形態によれば、ステップＳ２２０１で保持する文字情報を制御することによって、文字情報のデータサイズを低減することができる。

尚、図１１Ｃの１１０２に示すように、文字情報全て、即ち「・・・図１は、ＡＡＡである。・・・」を保持するのではなく、予測キャプションの近辺の文字、即ち「ＡＡＡである。」だけを保持するようにすることも可能である。これにより、文字情報のデータサイズをさらに低減することが可能である。

＜変形例＞
上述した各実施形態では、メタデータ処理部３０４において、キャプション領域の文字情報と同一の表現が本文領域（本文属性が付加された領域）にあるか否かを判断する例を示したが、これは同義の表現であっても実現可能である。例えば、キャプション領域の文字情報が、「図１」であり、本文領域に「図１」という同一の表現がなく、「図面１」（または、「Ｆｉｇ１」）という表現がある場合、「図１」と「図面１」（または、「Ｆｉｇ１」）は同義と解釈しても良い。

また、上述した各実施形態ではキャプションが図番（例えば、図、図番、図面、右図、上図、Ｆｉｇ、Ｆｉｇｕｒｅ等）である例を示したが、これに限るものではない。すなわち、オブジェクトに隣接する、または、オブジェクトに隣接していなくてもオブジェクトに関係する文字情報であれば、何れの文字情報をキャプションとしても構わない。例えば図８Ｃに示すように、第４ページにキャプションとして「カメラＸＸＸ」があり、第２ページにキャプションと同一表現である「カメラＸＸＸ」がある場合にも、本発明は適用可能である。この場合、カメラの写真オブジェクトに対して、「カメラＸＸＸ」と「ＹＹＹ」の２つのメタデータが関連付けられる。

さらに、写真オブジェクトのあるページにキャプションがない場合であっても、異なる別のページに、ページ数、かつ「図、画像、表」を示す記述があれば、該写真オブジェクトに対してメタデータを関連付けることが可能である。例えば、図８Ｄに示すように、カメラの写真オブジェクトのあるページ（第４ページ）にキャプションがない場合でも、第２ページに「４ページの図は、ＡＡＡである。」との記述があるため、カメラの写真オブジェクトに対して「ＡＡＡ」のメタデータが関連付けられる。

また、ＰＤＦデータをページ単位で送信する例を示したが、例えば複数ページ等、所定の単位による送信を行う場合であれば、本発明は有効である。

＜他の実施形態＞
本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器（例えば、ホストコンピュータ、インタフェース機器、撮影装置、webアプリケーション等）から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したコンピュータ可読のプログラムである。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM，DVD-R)などである。

プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。

Claims

複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理装置であって、
前記文書画像における各ページを属性に応じた領域に分割する領域分割手段と、
前記領域分割手段で分割された、オブジェクトに隣接するキャプション属性の領域と、本文属性の領域とに対し、文字認識を行って各領域の文字情報を得る文字認識手段と、
前記キャプション属性の領域が隣接する前記オブジェクトに対して、当該キャプション属性の領域を識別するための識別子を付与する第１の付与手段と、
前記キャプション属性の領域の文字情報と同義の表現を含む前記本文属性の領域の文字情報を検出し、当該検出した前記本文属性の領域の文字情報から、当該同義の表現以外の表現を含む文字情報を前記オブジェクトのメタデータとして抽出するメタデータ抽出手段と、
前記メタデータ抽出手段で抽出された前記メタデータに対して、前記第１の付与手段で付与された識別子と同じ識別子を付与する第２の付与手段と、
前記第１の付与手段で前記識別子が付与されたオブジェクトの情報を、予め定められたページ単位で送信する文書画像送信手段と、
前記領域分割手段と前記文字認識手段と前記第１の付与手段と前記メタデータ抽出手段と前記第２の付与手段と前記文書画像送信手段とによる処理が前記文書画像の全てのページに対して実行された後に、前記第２の付与手段で前記識別子が付与されたメタデータを送信することにより、前記メタデータを前記文書画像送信手段で送信されたオブジェクトの情報に関連付けるメタデータ送信手段と、
を有することを特徴とする画像処理装置。
前記文書画像送信手段は、前記第１の付与手段で前記識別子が付与されたオブジェクトの情報を、１ページ単位で送信することを特徴とする請求項１に記載の画像処理装置。
さらに、前記文書画像の全ページを保持可能なワークメモリが確保可能な場合に、該ワークメモリを用いて、前記オブジェクトの情報と前記メタデータとが近接するように配置して、前記文書画像の全ページの送信データを作成する送信データ作成手段と、
前記送信データ作成手段で作成された全ページの送信データを一括して送信する一括送信手段と、
を有し、
前記文書画像の全ページを保持可能なワークメモリが確保できない場合に、前記領域分割手段と前記文字認識手段と前記第１の付与手段と前記メタデータ抽出手段と前記第２の付与手段と前記文書画像送信手段と前記メタデータ送信手段とによる処理を実行することを特徴とする請求項１に記載の画像処理装置。
さらに、前記オブジェクトのページよりも前のページにおける本文属性の領域の文字情報を保持する保持手段を有し、
前記メタデータ抽出手段は、前記保持手段に記憶された前記文字情報から、前記メタデータを抽出することを特徴とする請求項１に記載の画像処理装置。
前記保持手段は、前記オブジェクトのページよりも前のページにおける本文属性の領域の文字情報が予め定められた予測キャプションの文字列を示す場合に、該本文属性の領域の文字情報を保持することを特徴とする請求項４に記載の画像処理装置。
前記領域分割手段は、分割された領域のうち、文字からなる領域であり、かつ、前記オブジェクトの上部または下部に近接して存在する領域を、前記キャプション属性の領域として分割することを特徴とする請求項１に記載の画像処理装置。
前記領域分割手段は、前記文書画像における各ページを、表、写真、図面、線画、キャプション、本文、見出し、のいずれかの属性に応じた領域に分割することを特徴とする請求項１に記載の画像処理装置。
前記領域分割手段で分割されたオブジェクトをベクトルデータに変換する変換手段を更に有し、
前記文書画像送信手段は、前記変換手段でベクトルデータに変換されたオブジェクトの情報を送信することを特徴とする請求項１に記載の画像処理装置。
複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理装置の画像処理方法であって、
領域分割手段が、前記文書画像における各ページを属性に応じた領域に分割する領域分割ステップと、
文字認識手段が、前記領域分割ステップにおいて分割された、オブジェクトに隣接するキャプション属性の領域と、本文属性の領域とに対し、文字認識を行って各領域の文字情報を得る文字認識ステップと、
第１の付与手段が、前記キャプション属性の領域が隣接する前記オブジェクトに対して、当該キャプション属性の領域を識別するための識別子を付与する第１の付与ステップと、
メタデータ抽出手段が、前記キャプション属性の領域の文字情報と同義の表現を含む前記本文属性の領域の文字情報を検出し、当該検出した前記本文属性の領域の文字情報から、当該同義の表現以外の表現を含む文字情報を前記オブジェクトのメタデータとして抽出するメタデータ抽出ステップと、
第２の付与手段が、前記メタデータ抽出ステップで抽出された前記メタデータに対して、前記第１の付与ステップで付与された識別子と同じ該識別子を付与する第２の付与ステップと、
文書画像送信手段が、前記第１の付与ステップで前記識別子が付与されたオブジェクトの情報を、予め定められたページ単位で送信する文書画像送信ステップと、
前記領域分割ステップと前記文字認識ステップと前記第１の付与ステップと前記メタデータ抽出ステップと前記第２の付与ステップと前記文書画像送信ステップとによる処理が前記文書画像の全てのページに対して実行された後に、メタデータ送信手段が、前記第２の付与ステップで前記識別子が付与されたメタデータを送信することにより、前記メタデータを前記文書画像送信ステップで送信されたオブジェクトの情報に関連付けるメタデータ送信ステップと、
を有することを特徴とする画像処理方法。
前記文書画像送信ステップにおいては、前記第１の付与ステップで前記識別子が付与されたオブジェクトの情報を、１ページ単位で送信することを特徴とする請求項９に記載の画像処理方法。
コンピュータを請求項１乃至８のいずれか１項に記載の画像処理装置における各手段として機能させるためのプログラム。
請求項１１に記載のプログラムを記録したコンピュータ可読な記録媒体。